i i “generale” — 2005/7/10 — 22:25 — page i — #1 i i Introduzione all’econometria James H. Stock Mark W. Watson i i i i i i “generale” — 2005/7/10 — 22:25 — page ii — #2 i i Copyright c 2005 Pearson Education Italia S.r.l. Via Fara, 28 - 20124 Milano Tel. 02/6739761 Fax 02/673976503 E-mail: hpeitalia@pearson.com Web: http://hpe.pearsoned.it Authorized translation from the English language edition, entitled: INTRODUCTION TO ECONOMETRICS, 1st EDITION by STOCK, JAMES H.; WATSON, MARK W., published by Pearson Education, Inc, publishing as Addison-Wasley, Copyright c 2003 All rights reserved. No part of this book may be reproduced or transmitted in any form or by any means, electronic or mechanical, including photocopying, recording or by any information storage retrieval system, without permission from Pearson Education, Inc, Italian language edition published by Pearson Education Italia Srl, Copyright c 2005 Le informazioni contenute in questo libro sono state verificate e documentate con la massima cura possibile. Nessuna responsabilità derivante dal loro utilizzo potrà venire imputata agli Autori, a Pearson Education Italia o a ogni persona e società coinvolta nella creazione, produzione e distribuzione di questo libro. I diritti di riproduzione e di memorizzazione elettronica totale e parziale con qualsiasi mezzo, compresi i microfilm e le copie fotostatiche, sono riservati per tutti i paesi. LA FOTOCOPIATURA DEI LIBRI È UN REATO L’editore potrà concedere a pagamento l’autorizzazione a riprodurre una porzione non superiore a un decimo del presente volume. Le richieste di riproduzione vanno inoltrate ad AIDRO (Associazione Italiana per i Diritti di Riproduzione delle Opere dell’Ingegno), Via delle Erbe, 2 - 20121 Milano - Tel. e Fax 02/80.95.06. Traduzione: Anna Conte, Christian Macaro, Franco Peracchi Revisione scientifica: Franco Peracchi Copy-editing: Jacopo Cristini Composizione: Christian Macaro Grafica di copertina: Sabrina Miraglia Stampa: Legoprint spa Tutti i marchi citati nel testo sono di proprietà dei loro detentori. ISBN 88-7192-267-0 Printed in Italy 1a edizione: luglio 2005 ii i i i i i i “generale” — 2005/7/10 — 22:25 — page iii — #3 i i Indice Prefazione all’edizione italiana xv Prefazione all’edizione originale xvii Introduzione e richiami 1 1 Domande economiche e dati economici 1.1 Domande economiche esaminate . . . . . . . . . . . . . . . . . . . . . . . . 3 4 Domanda 1: ridurre la dimensione delle classi migliora il livello di istruzione nella scuola . . . . . . . . . . . . . . . . . . . . . . . . . . . Domanda 3: di quanto riducono il fumo le imposte sulle sigarette? . . . . . . . Domanda 4: quale sarà il tasso d’inflazione il prossimo anno? . . . . . . . . . Domande quantitative, risposte quantitative . . . . . . . . . . . . . . . . . Effetti causali ed esperimenti ideali . . . . . . . . . . . . . . . . . Stima di effetti causali . . . . . . . . . . . . . . . . . . . . . . . . . . Previsione e causalità . . . . . . . . . . . . . . . . . . . . . . . . . . Dati: fonti e tipi . . . . . . . . . . . . . . . . . . . . . . . . . . . Dati sperimentali e dati non sperimentali . . . . . . . . . . . . . . . . . . Dati sezionali . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . Serie temporali . . . . . . . . . . . . . . . . . . . . . . . . . . . . . Dati panel . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . elementare? Domanda 2: vi è discriminazione razziale nel mercato dei prestiti per abitazioni? 1.2 1.3 2 Richiami di probabilità 2.1 Variabili casuali e distribuzioni di probabilità . . . . . Probabilità, spazio campionario e variabili casuali . . . . . . . . Distribuzione di probabilità di una variabile casuale discreta . . . . Distribuzione di probabilità di una variabile casuale continua . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 4 . 5 . 5 . 6 . 7 . 8 . 8 . 9 . 9 . 9 . 10 . 11 . 12 . . . . 17 18 18 19 21 . . . . i i i i i i “generale” — 2005/7/10 — 22:25 — page iv — #4 i i Indice 2.2 2.3 2.4 2.5 2.6 Valore atteso, media e varianza . . . . . . . . . . . . . . . . . . . . . Il valore atteso di una variabile casuale . . . . . . . . . . . . . . . . . . . . . Varianza, deviazione standard e momenti . . . . . . . . . . . . . . . . . . . . Media e varianza di una funzione lineare di una variabile casuale . . . . . . . . . . Variabili casuali doppie . . . . . . . . . . . . . . . . . . . . . . . . . Distribuzioni congiunte e marginali . . . . . . . . . . . . . . . . . . . . . . Distribuzioni condizionate . . . . . . . . . . . . . . . . . . . . . . . . . . Indipendenza . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . Covarianza e correlazione . . . . . . . . . . . . . . . . . . . . . . . . . . Media e varianza di somme di variabili casuali . . . . . . . . . . . . . . . . . . Distribuzioni normale, chi-quadrato, Fm,∞ e t di Student . . . . . . . La distribuzione normale . . . . . . . . . . . . . . . . . . . . . . . . . . . Le distribuzioni chi-quadrato e Fm,∞ . . . . . . . . . . . . . . . . . . . . . La distribuzione t di Student . . . . . . . . . . . . . . . . . . . . . . . . . Campionamento casuale e distribuzione della media campionaria . . . Campionamento casuale . . . . . . . . . . . . . . . . . . . . . . . . . . . Distribuzione campionaria della media campionaria . . . . . . . . . . . . . . . Approssimazione alla distribuzione campionaria per grandi campioni . Legge dei grandi numeri e consistenza . . . . . . . . . . . . . . . . . . . . . Il teorema limite centrale . . . . . . . . . . . . . . . . . . . . . . . . . . . APPENDICE 2.1: derivazione dei risultati contenuti nel concetto chiave 2.3 . . . . . 3 Richiami di statistica 3.1 Stima della media di una popolazione . . . . . . . Stimatori e loro proprietà . . . . . . . . . . . . . . . . . Proprietà di Ȳ . . . . . . . . . . . . . . . . . . . . . Importanza del campionamento casuale . . . . . . . . . . . 3.2 Verifica di ipotesi circa la media della popolazione Ipotesi nulla e ipotesi alternativa . . . . . . . . . . . . . . Valore-p dei test . . . . . . . . . . . . . . . . . . . . Calcolo del valore p con σY nota . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . Varianza campionaria, deviazione standard campionaria ed errore standard . . . . . . . . . . . . . . Statistica t . . . . . . . . . . . . . . . . . . . . . . . . . Verifica di ipotesi con livello di significatività prefissato . . . . . . Alternative unilaterali . . . . . . . . . . . . . . . . . . . . Intervalli di confidenza per la media della popolazione Confronto tra medie di popolazioni diverse . . . . . . Test d’ipotesi per la differenza tra due medie . . . . . . . . . . Calcolo del valore-p con σY ignota 3.3 3.4 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 21 21 24 25 26 26 28 31 31 32 33 33 37 39 39 39 41 43 44 45 54 . . . . . . . . . . . . . . . . 57 58 58 60 62 63 63 64 65 65 67 67 69 70 71 73 73 iv i i i i i i “generale” — 2005/7/10 — 22:25 — page v — #5 i i Indice . . . . . . Redditi di laureati e laureate negli Stati Uniti . . . . . . . . . . . . Diagrammi a nuvola di punti, covarianza e correlazione campionaria Diagrammi a nuvola di punti . . . . . . . . . . . . . . . . . . . . . . . . Covarianza e correlazione campionaria . . . . . . . . . . . . . . . . . . . . APPENDICE 3.1: lo U.S. Current Population Survey . . . . . . . . . . . . . . APPENDICE 3.2: due prove che Ȳ è lo stimatore dei minimi quadrati di µY . . . . APPENDICE 3.3: una prova della consistenza della varianza campionaria . . . . . Intervalli di confidenza per la differenza tra le medie di due popolazioni 3.5 3.6 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . Elementi fondamentali dell’analisi di regressione 89 4 Regressione lineare con un singolo regressore 4.1 Il modello di regressione lineare . . . . . . . . . . . . . . . . . . 4.2 Stima dei coefficienti del modello di regressione lineare . . . . . . Lo stimatore dei minimi quadrati ordinari . . . . . . . . . . . . . . . . . . Stime OLS della relazione tra punteggi del test e rapporto studenti-insegnanti . . Perché usare lo stimatore OLS? . . . . . . . . . . . . . . . . . . . . . . 4.3 Le assunzioni dei minimi quadrati . . . . . . . . . . . . . . . . . Assunzione 1: la distribuzione condizionata di ui data Xi ha media nulla . . . . . . . . . . . . . . . . . . . . . . . . . Assunzione 2: (Xi , Yi ), i = 1, . . . , n sono indipendentemente e identicamente distribuite . . . . . . . . . . . L’uso delle assunzioni dei minimi quadrati . . . . . . . . . . . . . Distribuzione campionaria degli stimatori OLS . . . . . . La distribuzione campionaria degli stimatori degli OLS . . . . . . . . Verifica di ipotesi su un singolo coefficiente di regressione Ipotesi bilaterali su β1 . . . . . . . . . . . . . . . . . . . . . . Ipotesi unilaterali riguardanti β1 . . . . . . . . . . . . . . . . . . Verifica di ipotesi riguardanti l’intercetta . . . . . . . . . . . . . . Intervalli di confidenza per un coefficiente di regressione . La regressione quando X è una variabile binaria . . . . . . Interpretazione dei coefficienti di regressione . . . . . . . . . . . . R2 ed errore standard della regressione . . . . . . . . . . . L’R2 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . L’errore standard della regressione . . . . . . . . . . . . . . . . . Eteroschedasticità e omoschedasticità . . . . . . . . . . . Cosa sono l’eteroschedasticità e l’omoschedastcità? . . . . . . . . . Implicazioni matematiche dell’omoschedasticità . . . . . . . . . . . Cosa significa questo in pratica? . . . . . . . . . . . . . . . . . . Assunzione 3: Xi e ui hanno quattro momenti 4.4 4.5 4.6 4.7 4.8 4.9 75 76 77 77 78 86 87 88 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 91 92 97 98 99 103 103 104 105 106 107 108 108 110 111 114 116 117 119 119 121 121 123 123 124 126 127 v i i i i i i “generale” — 2005/7/10 — 22:25 — page vi — #6 i i Indice 4.10 Conclusioni . . . . . . . . . . . . . . . . . . . . . . . . APPENDICE 4.1: la banca dati sui punteggi dei test della California . APPENDICE 4.2: derivazione degli stimatori degli OLS . . . . . . APPENDICE 4.3: distribuzione campionaria dello stimatore OLS . . APPENDICE 4.4: le formule per gli errori standard degli OLS . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 128 133 134 135 138 5 Regressione lineare con regressori multipli 5.1 La distorsione da variabile omessa . . . . . . . . . . . . . . Definizione di distorsione da variabile omessa . . . . . . . . . . . . . Una formula per la distorsione da variabile omessa . . . . . . . . . . . Affrontare la distorsione da variabile omessa dividendo i dati in gruppi . . 5.2 Il modello di regressione multipla . . . . . . . . . . . . . . La retta di regressione della popolazione . . . . . . . . . . . . . . . Il modello di regressione multipla della popolazione . . . . . . . . . . 5.3 Lo stimatore OLS della regressione multipla . . . . . . . . . Lo stimatore OLS . . . . . . . . . . . . . . . . . . . . . . . . . Applicazione ai punteggi del test e al rapporto studenti-insegnanti . . . . 5.4 Le assunzioni dei minimi quadrati . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 141 142 143 144 145 149 149 150 152 152 153 155 155 155 156 156 158 159 160 160 161 162 164 164 166 167 168 169 171 171 171 172 173 Assunzione 1: la distribuzione condizionata di ui date X1i , X2i , . . . , Xki ha media nulla . . . . . . . . . . . . . . . . . Assunzione 4: collinearità non perfetta . . . . . . . . . . . . . . . . . . . . . 5.5 La distribuzione degli stimatori OLS nella regressione multipla . . . . Gli errori standard degli stimatori OLS . . . . . . . . . . . . . . . . . . . . . 5.6 Verifica di ipotesi e intervalli di confidenza per un singolo coefficiente La verifica di ipotesi su un singolo coefficiente . . . . . . . . . . . . . . . . . Gli intervalli di confidenza per un singolo coefficiente . . . . . . . . . . . . . . Applicazione ai punteggi del test e al rapporto studenti-insegnanti . . . . . . . . . 5.7 Verifica di ipotesi congiunte . . . . . . . . . . . . . . . . . . . . . . Verifica di ipotesi su due o più coefficienti . . . . . . . . . . . . . . . . . . . La statistica F . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . Applicazione ai punteggi del test e al rapporto studenti-insegnanti . . . . . . . . . 5.8 Verifica di restrizioni singole che coinvolgono coefficienti multipli . . 5.9 Regioni di confidenza per coefficienti multipli . . . . . . . . . . . . . 5.10 Altre statistiche di regressione . . . . . . . . . . . . . . . . . . . . . L’errore standard della regressione (SER) . . . . . . . . . . . . . . . . . . . L’R2 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . L’R2 “corretto” . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . Interpretazione pratica dell’R2 e dell’R2 corretto . . . . . . . . . . . . . . . . Assunzione 2: (X1i , X2i , . . . , Xki , Yi ), con i = 1, . . . , n, sono i.i.d. Assunzione 3: X1i , X2i , . . . , Xki e ui hanno quattro momenti . . . . . . . . . . . . . . . . . . . . vi i i i i i i “generale” — 2005/7/10 — 22:25 — page vii — #7 i i Indice 5.11 Distorsione da variabile omessa e regressione multipla Specificazione del modello in teoria e in pratica . . . . . . . . . 5.12 Analisi dei dati sui punteggi del test . . . . . . . . . . 5.13 Conclusioni . . . . . . . . . . . . . . . . . . . . . . . APPENDICE 5.1: derivazione della formula (5.1) . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 174 175 176 180 186 APPENDICE 5.2: distribuzione degli stimatori OLS quando ci sono due regressori ed errori omoschedastici . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 186 . . . . . . . . . . . . . . 187 APPENDICE 5.3: due altri modi di verificare ipotesi congiunte 6 Funzioni di regressione non lineari 6.1 Una strategia generale per modellare funzioni di regressione non lineari Punteggi del test e reddito del distretto . . . . . . . . . . . . . . . . . . . . . . L’effetto su Y di una variazione in X nelle specificazioni non lineari . . . . . . . . . Un approccio generale per modellare non linearità usando la regressione multipla . . . . 6.2 Funzioni non lineari di una singola variabile indipendente . . . . . . . . Polinomi . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . Logaritmi . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . Modelli polinomiali e logaritmici del rapporto tra punteggi del test e reddito del distretto . 6.3 Interazioni tra variabili indipendenti . . . . . . . . . . . . . . . . . . . Interazioni tra due variabili binarie . . . . . . . . . . . . . . . . . . . . . . . . Interazioni tra una variabile continua e una binaria . . . . . . . . . . . . . . . . . Interazioni tra due variabili continue . . . . . . . . . . . . . . . . . . . . . . . 6.4 Effetti non lineari del rapporto studenti-insegnanti sui punteggi del test . Discussione dei risultati della regressione . . . . . . . . . . . . . . . . . . . . . Sintesi dei risultati . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 6.5 Conclusioni . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 7 Valutazione di studi basati sulla regressione multipla 7.1 Validità interna ed esterna . . . . . . . . . . . . . . . . . . . . . Minacce alla validità interna . . . . . . . . . . . . . . . . . . . . . . Minacce alla validità esterna . . . . . . . . . . . . . . . . . . . . . . 7.2 Minacce alla validità interna dell’analisi di regressione multipla La distorsione da variabile omessa . . . . . . . . . . . . . . . . . . . . Incorretta specificazione della forma funzionale della funzione di regressione . . Errori nelle variabili . . . . . . . . . . . . . . . . . . . . . . . . . . Selezione campionaria . . . . . . . . . . . . . . . . . . . . . . . . . Causalità simultanea . . . . . . . . . . . . . . . . . . . . . . . . . . Fonti di inconsistenza degli errori standard degli OLS . . . . . . . . . . . . 7.3 Esempio: i punteggi del test e la dimensione delle classi . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 193 195 195 198 202 203 203 205 213 214 215 218 222 227 228 231 233 . . . . . . . . . . . 239 240 240 241 243 243 246 246 248 249 251 252 vii i i i i i i “generale” — 2005/7/10 — 22:25 — page viii — #8 i i Indice . . . . . . . Validità interna . . . . . . . Discussione e implicazioni . . Conclusioni . . . . . . . Validità esterna 7.4 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . APPENDICE 7.1: i dati sui test effettuati nelle scuole elementari del Massachusetts . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 252 258 261 262 265 Ulteriori sviluppi dell’analisi di regressione 267 8 Regressione con dati panel 8.1 I dati panel . . . . . . . . . . . . . . . . . . . . . . . . . . Esempio: mortalità sulle strade e imposte sugli alcolici . . . . . . . . . 8.2 Dati panel con 2 periodi: confronti “prima e dopo” . . . . . 8.3 La regressione con effetti fissi . . . . . . . . . . . . . . . . Il modello di regressione con effetti fissi . . . . . . . . . . . . . . . Stima e inferenza . . . . . . . . . . . . . . . . . . . . . . . . . Applicazione alla mortalità sulle strade . . . . . . . . . . . . . . . . 8.4 La regressione con effetti temporali . . . . . . . . . . . . . Solo effetti temporali . . . . . . . . . . . . . . . . . . . . . . . Effetti temporali ed effetti fissi . . . . . . . . . . . . . . . . . . . 8.5 Leggi sulla guida in stato d’ebbrezza e mortalità sulle strade 8.6 Conclusioni . . . . . . . . . . . . . . . . . . . . . . . . . . APPENDICE 8.1: lo State Traffic Fatality Data Set . . . . . . . . . . . APPENDICE 8.2: le ipotesi della regressione con effetti fissi . . . . . . . . . . . . . . . . . . . . 269 270 270 273 276 276 278 279 280 280 281 282 286 289 290 . . . . . . . . . . . . . 293 294 295 296 299 299 304 304 306 306 307 309 309 316 9 Regressione con variabile dipendente binaria 9.1 Variabili dipendenti binarie e modello lineare di probabilità Variabili dipendenti binarie . . . . . . . . . . . . . . . . . . . . Modello lineare di probabilità . . . . . . . . . . . . . . . . . . . 9.2 Regressioni probit e logit . . . . . . . . . . . . . . . . . . La regressione probit . . . . . . . . . . . . . . . . . . . . . . Regressione logit . . . . . . . . . . . . . . . . . . . . . . . . Confronto tra i modelli lineare di probabilità, probit e logit . . . . . . 9.3 Stima e inferenza nei modelli logit e probit . . . . . . . . . Stima dei minimi quadrati non lineari . . . . . . . . . . . . . . . Stima di massima verosimiglianza . . . . . . . . . . . . . . . . . Misure di bontà dell’adattamento . . . . . . . . . . . . . . . . . 9.4 Applicazione ai dati del Boston HMDA . . . . . . . . . . . 9.5 Conclusioni . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . viii i i i i i i “generale” — 2005/7/10 — 22:25 — page ix — #9 i i Indice . . . . . . . . . . . . . . . . . . . . . . . 320 APPENDICE 9.2: stima di massima verosimiglianza . . . . . . . . . . . . . . . . . . . 321 APPENDICE 9.3: altri modelli con variabili dipendenti limitate . . . . . . . . . . . . . . 324 APPENDICE 9.1: i dati del Boston HMDA 10 Regressione con variabili strumentali 10.1 Lo stimatore IV con un singolo regressore e un singolo strumento Il modello IV e le sue ipotesi . . . . . . . . . . . . . . . . . . . . . . . Lo stimatore dei minimi quadrati a due stadi . . . . . . . . . . . . . . . . . Perché funziona la regressione IV? . . . . . . . . . . . . . . . . . . . . . La distribuzione campionaria dello stimatore TSLS . . . . . . . . . . . . . . Applicazione alla domanda di sigarette . . . . . . . . . . . . . . . . . . . 10.2 Il modello generale di regressione IV . . . . . . . . . . . . . . . . TSLS nel modello generale di regressione IV . . . . . . . . . . . . . . . . Rilevanza dello strumento ed esogeneità nel modello generale IV . . . . . . . . . . . . . . . . . . . . . . . . . . Le assunzioni della regressione IV e la distribuzione campionaria dello stimatore TSLS . . . . . . . . . Verifica della validità degli strumenti . Assunzione 1: rilevanza dello strumento . . . Assunzione 2: esogeneità dello strumento . . . Applicazione alla domanda di sigarette Dove trovare strumenti validi? . . . . Tre esempi . . . . . . . . . . . . . . . . Conclusioni . . . . . . . . . . . . . . . . . . . . . . . Appendice 10.1: i dati panel sul consumo di sigarette . Appendice 10.2: derivazione della formula (10.4) per lo stimatore TSLS . Inferenza tramite lo stimatore TSLS Applicazione alla domanda di sigarette 10.3 10.4 10.5 10.6 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . Appendice 10.3: distribuzione dello stimatore TSLS per grandi campioni . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 327 328 328 329 330 333 335 337 338 339 340 341 342 343 343 347 350 355 355 360 363 364 364 Appendice 10.4: distribuzione per grandi campioni dello stimatore TSLS quando lo strumento non è valido . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 365 11 Esperimenti e quasi esperimenti 11.1 Esperimenti ideali ed effetti causali . . . . . . . . . Esperimenti controllati casualizzati ideali . . . . . . . . . . Lo stimatore delle differenze . . . . . . . . . . . . . . . 11.2 Problemi potenziali con gli esperimenti reali . . . . Minacce alla validità interna . . . . . . . . . . . . . . . Minacce alla validità esterna . . . . . . . . . . . . . . . 11.3 Stimatori di effetti causali tramite dati sperimentali Lo stimatore delle differenze con regressori addizionali . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 369 370 371 372 372 373 375 378 378 ix i i i i i i “generale” — 2005/7/10 — 22:25 — page x — #10 i i Indice Lo stimatore delle differenze nelle differenze . . . . . . . . . . . . . . . . . . . . . . 381 La stima degli effetti causali per gruppi diversi . . . . . . . . . . . . . . . . . . . . . . 384 . . . . . . . . . . . . . . . . . . . . . . . . . . 384 Stima quando c’è adesione parziale Verifica della casualizzazione . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 385 11.4 Stime sperimentali dell’effetto della riduzione nella dimensione delle classi . 386 Il disegno sperimentale Analisi dei dati STAR . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 386 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 387 Confronto tra stime sperimentali e non sperimentali dell’effetto della dimensione delle classi . . 393 11.5 Quasi esperimenti . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 395 Esempi . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 396 Metodi econometrici per analizzare i quasi esperimenti . . . . . . . . . . . . . . . . . . 398 11.6 Problemi potenziali con i quasi esperimenti . . . . . . . . . . . . . . . . . . 401 Minacce alla validità interna . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 401 Minacce alla validità esterna . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 403 11.7 Stime sperimentali e quasi sperimentali con popolazioni eterogenee . . . . . 403 L’eterogeneità della popolazione: effetto causale per chi? OLS con effetti causali eterogenei . . . . . . . . . . . . . . . . . 403 . . . . . . . . . . . . . . . . . . . . . . . . . . . 404 Regressione IV con effetti causali eterogenei . . . . . . . . . . . . . . . . . . . . . . 405 11.8 Conclusioni . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 408 APPENDICE 11.1: i dati del Project STAR . . . . . . . . . . . . . . . . . . . . . . . 413 APPENDICE 11.2: estensione dello stimatore delle differenze nelle differenze al caso multiperiodale . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 414 . . . . . . . . . . . . . . . . . 415 APPENDICE 11.3: indipendenza in media condizionata APPENDICE 11.4: la stima IV quando l’effetto causale varia tra gli individui Regressioni per serie temporali di tipo economico 12 Introduzione a regressioni temporali e previsioni . . . . . . . . 417 419 421 12.1 L’uso dei modelli di regressione per la previsione . . . . . . . . . . . . . . . 422 12.2 Introduzione alle serie temporali e alla correlazione seriale . . . . . . . . . . 424 I tassi d’inflazione e di disoccupazione negli Stati Uniti Ritardi, differenze prime, logaritmi e tassi di crescita Autocorrelazione . . . . . . . . . . . . . . . . . . 424 . . . . . . . . . . . . . . . . . . . 426 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 427 Altri esempi di serie temporali di tipo economico . . . . . . . . . . . . . . . . . . . . 429 12.3 Autoregressioni . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 432 Il modello autoregressivo del primo ordine Il modello autoregressivo di ordine p . . . . . . . . . . . . . . . . . . . . . . . 432 . . . . . . . . . . . . . . . . . . . . . . . . . . 434 x i i i i i i “generale” — 2005/7/10 — 22:25 — page xi — #11 i i Indice 12.4 Regressioni temporali con predittori addizionali e il modello autoregressivo misto . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 436 Previsione delle variazioni del tasso d’inflazione utilizzando i valori passati del tasso di disoccu- . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . Regressioni temporali con predittori multipli . . . . . . . . . . . . . . . . . Incertezza di previsione e intervalli di previsione . . . . . . . . . . . . . . . . Scelta della lunghezza dei ritardi utilizzando i criteri d’informazione Determinazione dell’ordine di un’autoregressione . . . . . . . . . . . . . . . Scelta della lunghezza dei ritardi nelle regressioni temporali con predittori multipli . Non stazionarietà I: i trend . . . . . . . . . . . . . . . . . . . . . . Cos’è un trend? . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . Problemi causati dai trend stocastici . . . . . . . . . . . . . . . . . . . . . Individuare i trend stocastici: verifica della presenza di una radice unitaria . . . . . Come evitare i problemi causati dai trend stocastici . . . . . . . . . . . . . . . Non stazionarietà II: le rotture strutturali . . . . . . . . . . . . . . . Cos’è una rottura strutturale? . . . . . . . . . . . . . . . . . . . . . . . . Sottoporre a verifica le rotture strutturali . . . . . . . . . . . . . . . . . . . Pseudo previsioni fuori campione . . . . . . . . . . . . . . . . . . . . . . Evitare il problema causato dalle rotture strutturali . . . . . . . . . . . . . . . Conclusioni . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . APPENDICE 12.1: le serie temporali utilizzate nel capitolo 12 . . . . . . . . . . APPENDICE 12.2: stazionarietà nel modello AR(1) . . . . . . . . . . . . . . APPENDICE 12.3: notazione dell’operatore ritardo . . . . . . . . . . . . . . APPENDICE 12.4: i modelli ARMA . . . . . . . . . . . . . . . . . . . . . pazione Stazionarietà 12.5 12.6 12.7 12.8 . . . . . . . . . . . . . . . . . . . . . . APPENDICE 12.5: la consistenza dello stimatore della lunghezza dei ritardi con il BIC . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 436 439 439 443 444 446 449 450 450 453 455 459 459 460 461 465 469 470 476 476 477 478 479 13 Stima degli effetti causali dinamici 481 13.1 Un primo assaggio dei dati sul succo di arancia . . . . . . . . . . . . . . . . 482 13.2 Effetti causali dinamici . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 485 Effetti causali e dati temporali . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 485 Due tipi di esogeneità . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 488 13.3 Stima degli effetti causali dinamici con regressori esogeni . . . . . . . . . . . 489 Le assunzioni del modello a ritardi distribuiti . . . . . . . . . . . . . . . . . . . . . . 490 Errori autocorrelati, errori standard e inferenza . . . . . . . . . . . . . . . . . . . . . 491 Moltiplicatori dinamici e moltiplicatori dinamici cumulati . . . . . . . . . . . . . . . . . 492 13.4 Errori standard consistenti in presenza di autocorrelazione ed eteroschedasticità493 Distribuzione dello stimatore OLS con errori autocorrelati . . . . . . . . . . . . . . . . . 494 Gli errori standard HAC . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 495 xi i i i i i i “generale” — 2005/7/10 — 22:25 — page xii — #12 i i Indice 13.5 Stima degli effetti causali dinamici con regressori strettamente esogeni Il modello a ritardi distribuiti con errori AR(1) . . . . . . . . . . . . . . . . . . Stima OLS del modello ADL . . . . . . . . . . . . . . . . . . . . . . . . . La stima GLS . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . Il modello a ritardi distribuiti con ritardi addizionali ed errori AR(p) . . . . . . . . 13.6 Prezzi del succo di arancia e clima freddo . . . . . . . . . . . . . . . 13.7 L’esogeneità è plausibile? Alcuni esempi . . . . . . . . . . . . . . . Reddito degli USA ed esportazioni australiane . . . . . . . . . . . . . . . . . . Prezzo del petrolio e inflazione . . . . . . . . . . . . . . . . . . . . . . . . Politica monetaria e inflazione . . . . . . . . . . . . . . . . . . . . . . . . La curva di Phillips . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 13.8 Conclusioni . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . APPENDICE 13.1: i dati sul succo di arancia . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 498 499 501 502 504 507 514 514 515 515 516 516 520 APPENDICE 13.2: il modello ADL e i GLS nella notazione dell’operatore ritardo . . . . . . . . . . . . . . . . . . . . . . . . . . . . 521 14 Ulteriori sviluppi nelle regressioni temporali 14.1 Autoregressioni vettoriali . . . . . . . . . . . . . . . . Il modello VAR . . . . . . . . . . . . . . . . . . . . . . . Un modello VAR per i tassi di inflazione e di disoccupazione . . . 14.2 Previsioni multiperiodali . . . . . . . . . . . . . . . . Previsioni multiperiodali : autoregressioni univariate . . . . . . . Previsioni multiperiodali : autoregressioni multivariate . . . . . . Quale metodo utilizzare? . . . . . . . . . . . . . . . . . . . 14.3 Ordini di integrazione e un altro test per radici unitarie Altri modelli per i trend e ordini di integrazione . . . . . . . . . Il test DF-GLS per le radici unitarie . . . . . . . . . . . . . . Perché i test per le radici unitarie hanno distribuzioni non normali? . 14.4 Cointegrazione . . . . . . . . . . . . . . . . . . . . . Cointegrazione e correzione d’errore . . . . . . . . . . . . . . Come si può capire se due variabili sono cointegrate? . . . . . . . Stima dei coefficienti di cointegrazione . . . . . . . . . . . . . Estensione al caso di variabili cointegrate multiple . . . . . . . . Un’applicazione ai tassi di interesse . . . . . . . . . . . . . . 14.5 Eteroschedasticità condizionata . . . . . . . . . . . . . Raggruppamento di volatilità . . . . . . . . . . . . . . . . . Eteroschedasticità condizionata autoregressiva . . . . . . . . . . Applicazione alle previsioni dell’inflazione . . . . . . . . . . . 14.6 Conclusioni . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 523 524 524 527 528 528 532 535 535 535 537 540 542 542 544 546 547 548 550 550 552 554 555 xii i i i i i i “generale” — 2005/7/10 — 22:25 — page xiii — #13 i i Indice APPENDICE 14.1: dati finanziari degli USA usati nel capitolo 14 . . . . . . . . . . . . . 557 La teoria econometrica dell’analisi di regressione 559 15 La teoria del modello di regressione lineare con un singolo regressore 561 15.1 Le assunzioni generalizzate dei minimi quadrati e lo stimatore OLS . . . . . 563 Le assunzioni generalizzate dei minimi quadrati . . . . . . . . . . . . . . . . . . . . . 563 Lo stimatore OLS . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 564 15.2 Elementi fondamentali della teoria asintotica delle distribuzioni . . . . . . . . 564 Convergenza in probabilità e legge dei grandi numeri . . . . . . . . . . . . . . . . . . . 565 Il teorema limite centrale e la convergenza in distribuzione . . . . . . . . . . . . . . . . 567 Il teorema di Slutsky e il teorema della funzione continua . . . . . . . . . . . . . . . . . 569 Applicazione alla statistica t basata sulla media campionaria . . . . . . . . . . . . . . . . 569 15.3 Distribuzione asintotica dello stimatore OLS e della statistica t . . . . . . . . 570 Consistenza e normalità asintotica degli stimatori OLS . . . . . . . . . . . . . . . . . . 570 Consistenza degli errori standard robusti all’eteroschedasticità . . . . . . . . . . . . . . . 570 Normalità asintotica della statistica t robusta all’eteroschedasticità . . . . . . . . . . . . . 572 15.4 Distribuzioni campionarie esatte quando gli errori sono normalmente distribuiti572 Distribuzione di β̂1 con errori normali . . . . . . . . . . . . . . . . . . . . . . . . . 572 La distribuzione della statistica t classica . . . . . . . . . . . . . . . . . . . . . . . . 574 15.5 Efficienza dello stimatore OLS con errori omoschedastici . . . . . . . . . . . 575 Le condizioni di Gauss-Markov . . . . . . . . . . . . . . . . . . . . . . . . . . . . 575 Stimatori lineari condizionatamente non distorti (corretti) . . . . . . . . . . . . . . . . . 576 Il teorema di Gauss-Markov . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 577 15.6 Minimi quadrati ponderati . . . . . . . . . . . . . . . . . . . . . . . . . . . 578 WLS con eteroschedasticità nota . . . . . . . . . . . . . . . . . . . . . . . . . . . 578 WLS con eteroschedasticità di forma nota . . . . . . . . . . . . . . . . . . . . . . . . 579 Errori standard robusti all’eteroschedasticità oppure WLS? . . . . . . . . . . . . . . . . 582 APPENDICE 15.1: la normale, le distribuzioni collegate e i momenti delle variabili casuali continue 586 APPENDICE 15.2: due disuguaglianze . . . . . . . . . . . . . . . . . . . . . . . . . 589 APPENDICE 15.3: dimostrazione del teorema di Gauss-Markov . . . . . . . . . . . . . . 590 16 La teoria della regressione multipla 593 16.1 Il modello di regressione lineare multipla e lo stimatore OLS in forma matriciale594 Il modello di regressione multipla in notazione matriciale . . . . . . . . . . . . . . . . . 594 Le assunzioni generalizzate dei minimi quadrati . . . . . . . . . . . . . . . . . . . . . 595 Lo stimatore OLS . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 597 16.2 Distribuzione asintotica dello stimatore OLS e la statistica t . . . . . . . . . . 598 xiii i i i i i i “generale” — 2005/7/10 — 22:25 — page xiv — #14 i i Indice . . . . . . . . . . . . . . . . . Normalità asintotica di β̂ . . . . . . . . . . . . . . . . . . . . . . . Errori standard robusti all’eteroschedasticità . . . . . . . . . . . . . . . Intervalli di confidenza per gli effetti predetti . . . . . . . . . . . . . . Distribuzione asintotica della statistica t . . . . . . . . . . . . . . . . Test di ipotesi congiunte . . . . . . . . . . . . . . . . . . . . Le ipotesi congiunte nella notazione matriciale . . . . . . . . . . . . . Distribuzione asintotica della statistica F . . . . . . . . . . . . . . . . Regioni di confidenza per coefficienti multipli . . . . . . . . . . . . . . Distribuzione delle statistiche di regressione con errori normali Rappresentazione matriciale delle statistiche di regressione basate sugli OLS . Distribuzione di β̂ con errori normali . . . . . . . . . . . . . . . . . . 2 . . . . . . . . . . . . . . . . . . . . . . . . . Distribuzione di sû Gli errori standard classici . . . . . . . . . . . . . . . . . . . . . . Distribuzione della statistica t . . . . . . . . . . . . . . . . . . . . . Distribuzione della statistica F . . . . . . . . . . . . . . . . . . . . Efficienza dello stimatore OLS con errori omoschedastici . . . Le condizioni di Gauss-Markov per la regressione multipla . . . . . . . . Stimatori lineari condizionatamente non distorti . . . . . . . . . . . . . Il teorema di Gauss-Markov per la regressione multipla . . . . . . . . . . Minimi quadrati generalizzati . . . . . . . . . . . . . . . . . . Le assunzioni dei GLS . . . . . . . . . . . . . . . . . . . . . . . . I GLS con Ω noto . . . . . . . . . . . . . . . . . . . . . . . . . . GLS quando Ω contiene parametri ignoti . . . . . . . . . . . . . . . . L’assunzione della media condizionata nulla e i GLS . . . . . . . . . . . APPENDICE 16.1: compendio di algebra matriciale . . . . . . . . . . . APPENDICE 16.2: distribuzioni multivariate . . . . . . . . . . . . . . APPENDICE 16.3: derivazione della distribuzione asintotica di β̂ . . . . . Il teorema limite centrale multivariato 16.3 16.4 16.5 16.6 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 598 599 600 601 601 601 602 602 602 603 604 605 605 605 606 606 607 607 607 608 609 610 612 613 613 619 622 624 APPENDICE 16.4: derivazione della distribuzione esatta delle statistiche test degli OLS con . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 625 APPENDICE 16.5: dimostrazione del teorema di Gauss-Markov per la regressione multipla . . 626 errori normali Appendice 629 Bibliografia 639 Risposte alle domande di “verifica dei concetti” 647 Indice analitico 663 xiv i i i i i i “generale” — 2005/7/10 — 22:25 — page xv — #15 i i Prefazione all’edizione italiana Il testo di Stock e Watson si differenzia in maniera sostanziale da altre opere dedicate all’argomento per l’approccio adottato dai due eminenti studiosi. Innanzi tutto, si è scelto di integrare la trattazione teorica con casi tratti dalla realtà e con i risultati provenienti dall’analisi empirica. La scelta degli argomenti, inoltre, riflette gli orientamenti contemporanei, sia per quanto riguarda gli aspetti teorici sia per quanto concerne le applicazioni econometriche. Da una parte, infatti, si ricorre largamente all’approccio per grandi campioni, all’ipotesi di campionamento casuale e alla considerazione dell’eteroschedasticità come caso normale, dall’altra viene data particolare enfasi ad argomenti di grande rilevanza pratica quali la regressione con dati panel, quella con variabili dipendenti binarie e quella con variabili strumentali, la valutazione di programmi, la previsione e i metodi di regressione per serie temporali. Un terzo aspetto che gli autori hanno curato con particolare attenzione è la corrispondenza tra le ipotesi teoriche e le applicazioni pratiche. L’organizzazione del testo permette un utilizzo differenziato a seconda delle caratteristiche specifiche e delle finalità dei corsi in cui il libro può essere impiegato, consentendone l’adozione sia nel triennio di base, sia nel biennio specialistico. Numerosi esercizi per la verifica dell’apprendimento corredano il testo. L’edizione italiana è stata curata da Franco Peracchi, Professore di Econometria presso l’Università di Roma Tor Vergata e coordinatore del Dottorato di Ricerca in Econometria ed Economia Empirica presso quella Università. All’edizione italiana hanno collaborato Anna Conte e Christian Macaro. Oltre a garantire la massima fedeltà al testo originario, la traduzione italiana ha cercato anche di riprodurre lo stile piano, la scorrevolezza e la facilità di lettura dell’edizione in lingua inglese. i i i i i i “generale” — 2005/7/10 — 22:25 — page xvi — #16 i i i i i i i i “generale” — 2005/7/10 — 22:25 — page xvii — #17 i i Prefazione all’edizione originale Un corso di econometria può essere divertente sia per il docente sia per lo studente. Il mondo reale dell’economia, degli affari e dell’amministrazione pubblica è un luogo complicato e disordinato, pieno di idee contrastanti e di domande che chiedono risposte. È più efficace contrastare la guida in stato d’ebbrezza tramite leggi severe o aumentando le imposte sugli alcolici? Possiamo guadagnare nel mercato azionario acquistando quando i prezzi sono storicamente bassi, relativamente ai rendimenti, o dovremmo invece essere pazienti e aspettare come suggerito dalla teoria della passeggiata aleatoria dei prezzi dei titoli? Possiamo migliorare l’istruzione elementare riducendo la dimensione delle classi oppure dovremmo semplicemente lasciare che i nostri figli ascoltino Mozart per dieci minuti al giorno? L’econometria ci aiuta a distinguere le idee buone da quelle folli e a trovare risposte quantitative a importanti domande quantitative. L’econometria apre una finestra sul nostro mondo complicato che ci consente di vedere le relazioni sulle quali le persone, gli affari e i governi basano le proprie decisioni. Questo manuale è disegnato per un corso di base universitario di econometria. Sulla base della nostra esperienza, per rendere l’econometria interessante in un corso introduttivo, applicazioni interessanti debbono motivare la teoria e la teoria deve andare di pari passo con le applicazioni. Questo semplice principio rappresenta un allontanamento significativo dalla vecchia generazione di manuali econometrici, in cui i modelli teorici e le assunzioni non vanno di pari passo con le applicazioni. Non è una sorpresa che alcuni studenti mettano in discussione la rilevanza dell’econometria dopo aver speso la maggior parte del loro tempo imparando assunzioni per poi scoprire successivamente che sono irrealistiche, in modo che essi debbono apprendere “soluzioni” a “problemi” che nascono quando le applicazioni non rispecchiano le assunzioni. Crediamo sia molto meglio motivare la necessità di certi strumenti con un’applicazione concreta e poi fornire poche semplici assunzioni che rispecchino l’applicazione. Siccome la teoria è immediatamente collegabile alle applicazioni, questo approccio può far sı̀ che l’econometria diventi vitale. i i i i i i “generale” — 2005/7/10 — 22:25 — page xviii — #18 i i Prefazione all’edizione originale Caratteristiche del libro Questo libro differisce dagli altri in tre modi fondamentali. In primo luogo, integriamo le domande circa il mondo reale e i dati nello sviluppo della teoria e consideriamo seriamente i risultati sostanziali dell’analisi empirica. In secondo luogo, la nostra scelta degli argomenti riflette la teoria e la pratica moderne. In terzo luogo, forniamo teoria e assunzioni che riflettono le applicazioni. Il nostro obiettivo è insegnare agli studenti a diventare sofisticati utilizzatori dell’econometria e di far ciò al livello matematicamente appropriato per un corso introduttivo. Domande sul mondo reale e dati Organizziamo ogni argomento metodologico attorno a un’importante domanda circa il mondo reale, che a sua volta richiede una specifica risposta quantitativa. Ad esempio, insegnamo la regressione con una singola variabile, la regressione multipla e l’analisi della forma funzionale nell’ambito della stima degli effetti dell’istruzione sull’apprendimento (dimensioni di classe piccole determinano un aumento nel punteggio dei test scolastici?). Insegnamo le metodologie per i dati panel nel contesto dell’analisi degli effetti delle leggi sulla guida in stato d’ebbrezza sulla mortalità sulle strade. Utilizziamo la possibilità di discriminazioni razziali nel mercato dei mutui per l’acquisto di case come applicazione empirica per insegnare la regressione con variabili dipendenti binarie (logit e probit). Insegnamo la stima con variabili strumentali nel contesto della stima dell’elasticità della domanda di sigarette. Sebbene questi esempi implichino un ragionamento economico, essi possono essere compresi con un singolo corso introduttivo di economia e molti di essi possono essere compresi senza alcun precedente corso di economia. Perciò, il docente può concentrare l’attenzione sullo studio dell’econometria e non della microeconomia o della macroeconomia. Trattiamo tutte le nostre applicazioni empiriche seriamente e in un modo da mostrare agli studenti come si può apprendere dai dati ma, allo stesso tempo, essere autocritici e coscienti delle limitazioni dell’analisi empirica. Per ciascuna applicazione insegniamo agli studenti come esplorare specificazioni alternative e perciò come stabilire se i risultati sostanziali ottenuti sono robusti. Le domande poste nelle applicazioni empiriche sono importanti e perciò forniamo risposte serie e a nostro giudizio credibili. Tuttavia, incoraggiamo studenti e docenti a confrontarsi e li invitiamo a rianalizzare i dati che sono forniti sul sito web del manuale (www.aw.com/stock watson). Attualità degli argomenti L’econometria ha fatto molta strada negli ultimi due decenni. Gli argomenti che trattiamo riflettono il meglio dell’attuale econometria applicata. Solo un numero limitato di argomenti xviii i i i i i i “generale” — 2005/7/10 — 22:25 — page xix — #19 i i Prefazione all’edizione originale può essere trattato in un corso introduttivo, e quindi ci concentriamo sulle procedure e sui test che sono normalmente utilizzati in pratica. Ad esempio: • regressione con variabili strumentali. Introduciamo la regressione con variabili strumentali come metodo generale per trattare la correlazione tra errore e regressore, la quale può nascere per diverse ragioni, inclusa la causalità simultanea. Le due assunzioni per la validità di uno strumento (esogeneità e rilevanza) ricevono lo stesso peso.Questa presentazione è seguita da un’ampia discussione circa l’origine degli strumenti e dalla presentazione di test per restrizioni di sovraidentificazione e diagnostiche per strumenti deboli (e spieghiamo come procedere se queste diagnostiche suggeriscono la presenza di problemi). • Valutazione di programmi. Un crescente numero di studi econometrici analizza gli esperimenti controllati casualizzati oppure i quasi esperimenti, anche noti come esperimenti naturali. Introduciamo questi argomenti, ai quali ci si riferisce spesso come valutazione di programmi, nel capitolo 11. Rappresentiamo questa strategia di ricerca come un approccio alternativo ai problemi creati da variabili omesse, causalità simultanea e selezione, evidenziando sia i punti di forza sia quelli di debolezza degli studi che utilizzano dati sperimentali o quasi sperimentali. • Previsioni. Il capitolo sulle previsioni (capitolo 12) considera previsioni univariate (autoregressive) e multivariate tramite regressioni temporali, non attraverso complessi modelli strutturali a equazioni simultanee. Ci concentriamo su strumenti semplici e affidabili come l’autoregressione e i criteri d’informazione per la scelta del modello, che funzionano bene in pratica. Questo capitolo presenta anche una discussione, orientata alle applicazioni, di trend stocastici (radici unitarie), test per radici unitarie, test per rotture strutturali (a date note e ignote nel tempo) e pseudo previsioni fuori campione, il tutto nel contesto dello sviluppo di modelli di previsione stabili e affidabili per serie temporali. • Regressione temporale. Distinguiamo chiaramente tra due diverse applicazioni delle regressioni temporali: la previsione e la stima di effetti causali dinamici. Il capitolo sull’inferenza causale tramite serie temporali (capitolo 13) dedica particolare attenzione ai casi in cui metodi di stima diversi, minimi quadrati generalizzati inclusi, portano o meno a valide inferenze causali e ai casi in cui è auspicabile stimare regressioni dinamiche tramite gli OLS con errori standard consistenti all’eteroschedasticità e all’autocorrelazione. xix i i i i i i “generale” — 2005/7/10 — 22:25 — page xx — #20 i i Prefazione all’edizione originale Una teoria che riflette le applicazioni Sebbene gli strumenti econometrici siano meglio giustificati dalle applicazioni empiriche, gli studenti hanno bisogno di apprendere abbastanza teoria econometrica da comprendere i punti di forza e di debolezza di questi strumenti. In questo manuale forniamo una trattazione moderna, dove la teoria è il più vicino possibile alle applicazioni, mantenendo però gli aspetti matematici a un livello che richiede solo l’algebra. Le moderne applicazioni empiriche hanno alcune caratteristiche comuni: i dati sono tipicamente numerosi (centinaia di osservazioni, o anche più); i regressori non sono fissi in campioni ripetuti ma sono invece raccolti tramite campionamento casuale (o qualche altro meccanismo che li renda casuali); i dati non sono distribuiti normalmente; e non c’è alcuna ragioni a priori di pensare che gli errori siano omoschedastici (sebbene spesso ci siano ragioni che lasciano pensare che essi siano eteroschedastici). Queste osservazioni portano a differenze notevoli tra lo sviluppo teorico in questo libro e altri libri. • Approccio per grandi campioni. Poiché i dati sono numerosi, useremo fin dall’inizio le approssimazioni normali per grandi campioni per la verifica di ipotesi e la costruzione di intervalli di confidenza. La nostra esperienza ci indica che è necessario meno tempo a insegnare i rudimenti delle approssimazioni per grandi campioni che non insegnare agli studenti le distribuzioni t e F esatte, le correzioni per i gradi di libertà e cosı̀ via. Questo approccio per grandi campioni risparmia anche agli studenti la frustrazione di scoprire che, a causa della non normalità degli errori, la teoria esatta delle distribuzioni che hanno appena appreso è irrilevante. Una volta insegnato nel contesto della media campionaria, l’approccio per grandi campioni alla verifica di ipotesi e agli intervalli di confidenza si estende direttamente all’analisi di regressione multipla, a logit e probit, alla stima con variabili strumentali e ai metodi per serie temporali. • Campionamento casuale. Poiché i regressori sono raramente fissi nelle applicazioni econometriche, fin dall’inizio tratteremo i dati su tutte le variabili (dipendenti e indipendenti) come il risultato di campionamento casuale. Quest’assunzione rispecchia le nostre applicazioni iniziali ai dati sezionali; si estende facilmente ai panel e alle serie temporali; e, grazie al nostro approccio per grandi campioni, non pone alcuna ulteriore difficoltà concettuale o matematica. • Eteroschedasticità. Gli econometrici applicati utilizzano abitualmente errori standard robusti all’eteroschedasticità in modo da evitare di preoccuparsi se l’eteroschedasticità sia presente o meno. In questo libro andiamo oltre l’eteroschedasticità come eccezione o “problema da affrontare”; permettiamo, invece, la presenza di eteroschedasticità fin dall’inizio e semplicemente utilizziamo gli errori robusti all’eteroschedasticità. Presenxx i i i i i i “generale” — 2005/7/10 — 22:25 — page xxi — #21 i i Prefazione all’edizione originale tiamo l’omoschedasticità come un caso speciale che fornisce una motivazione teorica per gli OLS. Produttori abili, consumatori sofisticati Speriamo che gli studenti che utilizzano questo libro diventino consumatori sofisticati di analisi empirica. Per far ciò, essi devono apprendere non solo come utilizzare gli strumenti dell’analisi di regressione, ma anche come valutare la validità delle analisi empiriche che vengono loro presentate. Il nostro approccio per insegnare come valutare uno studio empirico si basa su tre punti. In primo luogo, subito dopo aver introdotto gli strumenti principali dell’analisi di regressione, dedichiamo il capitolo 7 alle minacce alla validità interna ed esterna di uno studio empirico. Questo capitolo discute i problemi connessi ai dati e alla generalizzazione dei risultati ad altri contesti. Esso esamina anche le principali minacce all’analisi di regressione, incluse le variabili omesse, l’incorretta specificazione della forma funzionale, gli errori nelle variabili, la selezione e la simultaneità (e modi per individuare tali minacce in pratica). In secondo luogo, applichiamo questi metodi per valutare gli studi empirici all’analisi empirica di esempi che si ripropongono nel corso del libro. Facciamo ciò considerando specificazioni alternative ed affrontando in modo sistematico le varie minacce alla validità delle analisi presentate in questo libro. In terzo luogo, per diventare consumatori sofisticati, gli studenti hanno bisogno di esperienza diretta come produttori. L’apprendimento attivo vince sull’apprendimento passivo, e l’econometria è un corso ideale per apprendere in modo attivo. Per questa ragione, il sito web del testo contiene dati, software e suggerimenti per esercizi empirici con una varietà di obiettivi. Approccio alla matematica e livello di rigore Il nostro obiettivo è che gli studenti sviluppino una comprensione sofisticata degli strumenti della moderna analisi di regressione, indipendentemente dal livello matematico (“alto” o “basso”) a cui il corso viene insegnato. Le parti I–IV del testo (che coprono il materiale di base) sono accessibili a studenti che hanno una conoscenza di base del calcolo matematico. Le parti I–IV hanno poche equazioni, e più applicazioni, di molti testi econometrici introduttivi e di gran lunga meno equazioni dei libri destinati a corsi universitari di matematica. Tuttavia, più equazioni non implicano un trattamento più sofisticato. Nella nostra esperienza, un trattamento più matematico non porta a una conoscenza più profonda per la maggior parte degli studenti. Ciò detto, studenti diversi imparano in modo diverso e, per gli studenti meglio preparati da un punto di vista matematico, l’apprendimento può essere migliorato da una trattazione più xxi i i i i i i “generale” — 2005/7/10 — 22:25 — page xxii — #22 i i Prefazione all’edizione originale specificatamente matematica. La parte V contiene perciò un’introduzione alla teoria econometrica che è appropriata per studenti con una migliore preparazione matematica. Crediamo che, quando i capitoli matematici della parte V sono utilizzati congiuntamente al materiale nelle parti I–IV, questo libro è adatto per corsi di econometria a livello universitario avanzato o di master. Contenuti e organizzazione Ci sono cinque parti nel libro. Si assume che gli studenti abbiano seguito un corso di probabilità e statistica, sebbene quel materiale venga richiamato nella parte I. Il materiale principale dell’analisi di regressione è sviluppato nella parte II. Le parti III, IV e V presentano una serie di sviluppi che si fondano sulla trattazione di base della parte II. Parte I Il capitolo 1 introduce l’econometria ed evidenzia l’importanza di fornire risposte quantitative a domande quantitative. Discute il concetto di causalità negli studi statistici e passa in rassegna i diversi tipi di dati che si incontrano in econometria. Materiale riguardante la probabilità e la statistica è richiamato nei capitoli 2 e 3 rispettivamente; se questi capitoli sono insegnati in un dato corso o semplicemente rappresentano un riferimento dipende dalla formazione degli studenti. Parte II Il capitolo 4 introduce la regressione con un singolo regressore e i minimi quadrati ordinari (OLS). Nel capitolo 5 gli studenti apprendono come affrontare la distorsione da variabile omessa utilizzando la regressione multipla, stimando quindi l’effetto di una variabile indipendente tenendo costanti altre variabili indipendenti. Nel capitolo 6, i metodi di regressione multipla sono generalizzati ai modelli con funzioni di regressione non lineari che sono però lineari nei parametri (possono quindi essere stimati tramite gli OLS). Nel capitolo 7, gli studenti fanno un passo indietro e imparano a identificare i punti di forza e di debolezza degli studi di regressione, e osservano al tempo stesso come applicare i concetti di validità interna ed esterna. Parte III La parte III presenta varie generalizzazioni dei metodi di regressione. Nel capitolo 8, gli studenti apprendono come utilizzare dati panel in modo da controllare per le variabili inosservabili che sono costanti nel tempo. Il capitolo 9 riguarda la regressione con variabile xxii i i i i i i “generale” — 2005/7/10 — 22:25 — page xxiii — #23 i i Prefazione all’edizione originale dipendente binaria. Il capitolo 10 mostra come la regressione con variabili strumentali possa essere utilizzata per affrontare una serie di problemi che determinano correlazione tra l’errore e il regressore e esaminano come trovare e valutare strumenti validi. Il capitolo 11 introduce gli studenti all’analisi dei dati derivanti da esperimenti e quasi esperimenti, o esperimenti naturali, un tema spesso indicato come “valutazione di programmi”. Parte IV La parte IV affronta le regressioni con serie temporali. Il capitolo 12 si concentra sulle previsioni e introduce vari strumenti moderni per analizzare le regressioni con serie temporali, quali i test per radici unitarie e i test per la stabilità. Il capitolo 13 discute l’utilizzo delle serie temporali per stimare relazioni causali. Il capitolo 14 presenta alcuni strumenti avanzati per l’analisi delle serie temporali, inclusi i modelli per l’eteroschedasticità condizionata. Parte V La parte V è un’introduzione alla teoria econometrica. Questa parte rappresenta più di un’appendice che fornisce dettagli matematici omessi nel resto del testo. Piuttosto, essa è una trattazione autocontenuta della teoria econometrica per la stima e l’inferenza nel modello di regressione lineare. Il capitolo 15 sviluppa la teoria dell’analisi di regressione per un singolo regressore; l’esposizione non utilizza algebra matriciale, sebbene richieda un livello più elevato di sofisticazione matematica che non il resto del libro. Il capitolo 16 presenta e studia il modello di regressione multipla in forma matriciale. Prerequisiti Poiché docenti diversi preferiscono enfatizzare aspetti diversi, abbiamo scritto questo libro con in mente diverse preferenze d’insegnamento. Nella misura possibile, i capitoli nella parte III, IV e V sono autocontenuti, nel senso che non richiedono l’insegnamento di tutti i capitoli precedenti. I prerequisiti specifici per ogni capitolo sono descritti nella tabella 1. Sebbene abbiamo riscontrato che la sequenza degli argomenti adottata nel libro funzioni bene per i nostri corsi, i capitoli sono scritti in modo da permettere al docente di presentare gli argomenti in un ordine differente se lo desiderano. Esempi di corsi Differenti tipi di corso possono essere insegnati utilizzando questo libro. xxiii i i i i i i “generale” — 2005/7/10 — 22:25 — page xxiv — #24 i i Prefazione all’edizione originale Tabella 1: guida ai requisiti per i capitoli sugli argomenti speciali delle parti III–V Capitolo 8 9 10.1,10.2 10.3-10.6 11 12 13 14 15 16 Parte I • • • • • • • • • • Parte II • • • • • • • • • • Requisiti o capitoli 8.1, 8.2 10.1, 10.2 • • 12.1-12.4 12.5-12.8 13 • • • • 15 • • • Questa tabella mostra i requisiti minimi necessari per comprendere il materiale del corrispondente capitolo. Ad esempio, la stima degli effetti causali dinamici (capitolo 13) prima richiede la parte I (dipende ovviamente dalla preparazione dello studente), la parte II e le sezioni 12.1–12.4. Econometria introduttiva standard Questo corso introduce l’econometria (capitolo 1) e passa in rassegna i necessari elementi di probabilità e statistica. Si sposta, quindi, sulla regressione con un singolo regressore, la regressione multipla, i fondamenti dell’analisi della forma funzionale e la valutazione degli studi di regressione (tutta la parte II). Il corso procede trattando la regressione con dati panel (capitolo 8), la regressione con variabile dipendente limitata (capitolo 9) e/o la regressione con variabili strumentali (capitolo 10), se il tempo lo permette. Il corso si conclude con esperimenti e quasi esperimenti nel capitolo 11, argomenti che forniscono un’opportunità di tornare ai problema della stima degli effetti causali sollevati all’inizio del semestre e di ricapitolare i metodi principali di regressione. Prerequisiti: algebra e statistica introduttive. Econometria introduttiva con e applicazioni alle serie temporali e alle previsioni Come il corso standard introduttivo, questo corso copre tutta la parte I (a seconda delle necessità) e tutta la parte seconda. Opzionalmente, il corso fornisce inoltre una breve introduzione ai dati panel (sezione 8.1 e 8.2) e affronta la regressione con variabili strumentali (capitolo 10, o solo le sezioni 10.1 e 10.2). Il corso procede quindi con la parte IV, trattando le previsioni (capitolo 12) e la stima di effetti causali dinamici (capitolo 13). Se il tempo lo permette, il corso può includere alcuni argomenti avanzati dell’analisi delle serie temporali, come l’eteroschedasticità condizionata (sezione 14.5). Prerequisiti: algebra e statistica introduttiva. xxiv i i i i i i “generale” — 2005/7/10 — 22:25 — page xxv — #25 i i Prefazione all’edizione originale Analisi applicata delle serie temporali e previsione Questo libro può anche essere utilizzato per un breve corso sull’analisi applicata delle serie temporali e sulle previsioni, per il quale un corso sull’analisi di regressione rappresenta un prerequisito. Parte del tempo è speso richiamando gli strumenti dell’analisi di regressione di base nella parte II, a seconda della preparazione dello studente. Il corso muove quindi direttamente alla parte IV e affronta le previsioni (capitolo 12), la stima degli effetti causali dinamici (capitolo 13) e argomenti avanzati nell’analisi delle serie temporali (capitolo 14), incluse le autoregressioni vettoriali e l’eteroschedasticità condizionata. Una componente importante di questo corso dovrebbe essere la trattazione pratica di alcuni esercizi di previsione, a disposizione del docente sul sito web. Prerequisiti: algebra ed econometria introduttiva di base o equivalente. Introduzione alla teoria econometrica Questo libro è anche utilizzabile per un corso universitario avanzato in cui gli studenti abbiano una forte preparazione matematica o per un corso di econometria a livello di master. Il corso richiama brevemente la teoria della statistica e della probabilità per quanto necessario (parte I). Il corso introduce poi l’analisi di regressione tramite l’approccio non matematico e basato sulle applicazioni della parte II. Questa introduzione è seguita dallo sviluppo terico dei capitoli 15 e 16. Il corso affronta poi la regressione con una variabile dipendente binaria (capitolo 9) e la stima di massima verosimiglianza (appendice 9.2). Successivamente, il corso ritorna opzionalmente alla regressione con variabili strumentali (capitolo 10), i metodi per le serie temporali(capitolo 12) e/o la stima di effetti causali tramite serie temporali e minimi quadrati generalizzati (capitolo 13 e sezione 16.6). Prerequisiti: calcolo matematico e fondamenti di statistica. Il capitolo 16 presuppone la conoscenza dell’algebra delle matrici. Caratteristiche pedagogiche Il manuale presenta una varietà di caratteristiche pedagogiche che mirano ad aiutare gli studenti a comprendere, ricordare e applicare le idee essenziali. Le introduzioni ai capitoli forniscono un fondamento e una motivazione nel mondo reale, cosı̀ come un breve stradario che illumina la sequenza della discussione. I termini chiave sono riportati in grassetto e definiti nel contenuto nel corso di ciascun capito e i riquadri dei concetti chiave riassumono ad intervalli regolari le idee centrali. I riquadri di interesse generale forniscono interessanti deviazioni in argomenti collegati e evidenziano studi empirici che fanno uso dei metodi o dei concetti che sono discussi nel testo. Un sommario numerato a conclusione di ogni capitolo funge da utile cornice per la revisione dei punti salienti. Le domande nella sezione verifica dei concetti verificano la comprensione da parte degli studenti del contenuto principale e gli xxv i i i i i i “generale” — 2005/7/10 — 22:25 — page xxvi — #26 i i Prefazione all’edizione originale esercizi danno la possibilità di ottenere una pratica maggiore lavorando con i concetti e le tecniche introdotte nel capitolo. Alla fine del libro, la sezione bibliografia elenca le fonti per letture ulteriori, l’appendice finale contiene le tavole statistiche e il glossario definisce in modo conveniente tutti i termini chiave nel testo. Supplementi al manuale Un elenco di risorse supplementari per i docenti e gli studenti è disponibile per chi voglia adottare Introduzione all’econometria. Il Manuale delle soluzioni di Jiangfeng Zhang della University of California, Berkeley, fornisce soluzioni ragionate agli esercizi alla fine di ogni capitolo. Per i docenti, una Test Bank di Manfred W. Keil del Claremont McKenna College costituisce una ricca fonte di problemi e domande di vario tipo. Un Instructor’s Resource CD contiene lucidi in PowerPoint delle figure, tabelle e dei concetti chiave nel testo; il manuale con le soluzioni complete; e la Test Bank nei formati Word e TestGen-EQ. In aggiunta, il sito web del libro, che si trova all’indirizzo www.aw.com/stock watson, fornisce una vasta gamma di risorse addizionali per studenti e docenti. Queste includono i dati relativi a tutti gli esempi nel testo, suggerimenti per esercizi empirici, idee per progetti da proporre agli studenti, un campione di soluzioni agli esercizi alla fine di ogni capitolo, quiz pratici per gli studenti, lucidi in PowerPoint, guide per EViews e STATA e un supplemento a Excel per regressioni OLS. Per i docenti interessati alla gestione dei corsi, offriamo CourseCompass, un ambiente di apprendimento interattivo in rete fornito da Blackboard. Si contatti il rappresentante Addison-Wesley per dettagli. Ringraziamenti Molte persone hanno contribuito a questo progetto. Il maggior debito di gratitudine lo abbiamo verso i nostri colleghi di Harvard e Princeton che hanno utilizzato le prime bozze di questo libro per le proprie lezioni. Alla Harvard’s Kennedy School of Government, Suzanne Cooper ci ha fornito suggerimenti inestimabili e commenti dettagliati su tutte le bozze. Come codocente di uno degli autori (Stock), ci ha anche aiutato a revisionare accuratamente gran parte del materiale di questo libro mentre ne stavamo preparando una versione preliminare destinata agli studenti di un master organizzato dalla Kennedy School. Siamo anche in debito nei confronti di due nostri colleghi della Kennedy School, Alberto Abadie e Sue Dynarski, per le loro pazienti spiegazioni circa i quasi esperimenti e la valutazione di programmi e per i loro commenti dettagliati sulle prime bozze del testo. A Princeton, Eli Tamer ha tratto le proprie lezioni da una bozza preliminare e ci ha anche fornito utili commenti sulla penultima bozza. Siamo anche in debito nei confronti dei molti amici e colleghi econometrici che hanno xxvi i i i i i i “generale” — 2005/7/10 — 22:25 — page xxvii — #27 i i Prefazione all’edizione originale dedicato del tempo discutendo con noi circa la sostanza di questo libro e quanti ci hanno reso collettivamente i propri utili commenti. Bruce Hansen (University of Wisconsin, Madison) e Bo Honore (Princeton) ci hanno fornito utili valutazioni sui primi abbozzi e sulle prime versioni premiliminari del materiale principale della parte II. Joshua Angrist (MIT) e Guido Imbens (University of California, Berkeley) ci hanno dato suggerimenti sul modo in cui trattare il materiale circa la valutazione di programmi. La nostra presentazione del materiale sulle serie temporali ha tratto beneficio dalle discussioni intercorse con Yacine Ait-Sahalia (Princeton), Graham Elliott (University of California, San Diego), Andrew Harvey (Cambridge University) e Christopher Sims (Princeton). Infine, molte persone ci hanno fornito utili suggerimenti sulle parti del manoscritto riguardanti l’area di propria competenza: Don Andrews (Yale), John Bound (University of Michigan), Gregory Chow (Princeton), Thomas Downes (Tufts), David Druckker (Stata, Inc.), Jean Baldwin Grossman (Princeton), Eric Hanushek (the Hoover Institution), James Heckman (University of Chicago), Han Hong (Princeton), Caroline Hoxby (Harvard), Alan Krueger (Princeton), Steven Levitt (University of Chicago), Richard Light (Harvard), David Neumark (Michigan State University), Joseph Newhouse (Harvard), Pierre Perron (Boston University), Kenneth Warner (University of Michigan) e Richard Zeckhauser (Harvard). Molte persone sono state molto generose nel fornirci i dati. I dati sui punteggi dei test per la California sono stati costruiti con l’assistenza di Les Axelrod della Standards and Assessments Division, California Department of Education. Siamo grati a DePascale, Student Assessment Services, Massachusetts Department of Education, per il suo aiuto su certi aspetti dei dati sui punteggi dei test del Massachusetts. Christopher Ruhm (University of North Carolina, Greensboro) ci ha gentilmente fornito i dati sulle leggi contro la guida in stato di ebbrezza e la mortalità sulle strade. Il dipartimento della ricerca della Federal Reserve Bank of Boston merita i nostri ringraziamenti per aver messo insieme i dati sulla discriminazione razziale nelle concessione di mutui; siamo particolarmente grati a Geoffrey Tootell per averci fornito a versione aggirnata dei dati utilizzati nel capitolo 9 e Lynn Browne per la spiegazione dei suggerimenti di politica pubblica che se ne possono trarre. Ringraziamo Jonathan Gruber (MIT) per aver condiviso con noi i suoi dati sulla vendita di sigarette , che analizzeremo nel capitolo 10, e Alan Krueger (Princeton) per il suo aiuto con i dati STAR del Tennessee STAR che analizzeremo nel capitolo 11. Siamo anche grati per le molte critiche costruttive, dettagliate e meditate ricevute dai tanti che hanno revisionato le varie bozze per la Addison-Wesley: Michael Abbott, Queen’s University, Canada Richard J. Agnello, University of Delaware Clopper Almon, University of Maryland Joshua Angrist, Massachusetts Institute of Technology Swarnjit S. Arora, University of Wisconsin, Milwaukee Christopher F. Baum, Boston College McKinley L. Blackburn, University of South Carolina xxvii i i i i i i “generale” — 2005/7/10 — 22:25 — page xxviii — #28 i i Prefazione all’edizione originale Alok Bohara, University of New Mexico Chi-Young Choi, University of New Hampshire Dennis Coates, University of Maryland, Baltimore County Tim Conley, Graduate School of Business, University of Chicago Douglas Dalenberg, University of Montana Antony Davies, Duquesne University Joanne M. Doyle, James Madison University David Eaton, Murray State University Adrian R. Fleissig, California State University, Fullerton Rae Jean B. Goodman, United States Naval Academy Bruce E. Hansen, University of Wisconsin, Madison Peter Reinhard Hansen, Brown University Ian T. Henry, University of Melbourne, Australia Marc Henry, Columbia University William Horrace, University of Arizona Òscar Jordà, University of California, Davis Frederick L. Joutz, The George Washington University Elia Kacapyr, Ithaca College Manfred W. Keil, Claremont McKenna College Eugene Kroch, Villanova University Gary Krueger, Macalester College Kajal Lahiri, State University of New York, Albany Daniel Lee, Shippensburg University Tung Liu, Ball State University Ken Matwiczak, LBJ School of Public Affairs, University of Texas, Austin KimMarie McGoldrick, University of Rich- mond Robert McNown, University of Colorado, Boulder H. Naci Mocan, University of Colorado, Denver Mototsugu Shintani, Vanderbilt University Mico Mrkaic, Duke University Serena Ng, Johns Hopkins University Jan Ondrich, Syracuse University Pierre Perron, Boston University Robert Phillips, The George Washington University Simran Sahi, University of Minnesota Sunil Sapra, California State University, Los Angeles Frank Schorfheide, University of Pennsylvania Leslie S. Stratton, Virginia Commonwealth University Jane Sung, Truman State University Christopher Taber, Northwestern University Petra Todd, University of Pennsylvania John Veitch, University of San Francisco Edward J. Vytlacil, Stanford University M. Daniel Westbrook, Georgetown University Tiemen Woutersen, University of Western Ontario Phanindra V. Wunnava, Middlebury College Zhenhui Xu, Georgia College and State University Yong Yin, State University of New York, Buffalo Jiangfeng Zhang, University of California, Berkeley John Xu Zheng, University of Texas, Austin Ringraziamo i numerosi correttori di bozze. Kerry Griffin e Yair Listokin che hanno xxviii i i i i i i “generale” — 2005/7/10 — 22:25 — page xxix — #29 i i Prefazione all’edizione originale letto l’intero manoscritto, e inoltre Andrew Fraker, Ori Heffretz, Amber Henry, Hong Li, Alessandro Tarozzi e Matt Watson che hanno lavorato alla redazione di tutte le varie versioni. Abbiamo beneficiato della collaborazione di un eccezionale development editor, Jane Tufts, la cui creatività, dedizione e cura per i dettagli ha migliorato il libro in molti modi, grandi e piccoli. Addison-Wesley ci ha fornito un aiuto di prima qualità, per cominciare dal nostro eccellente editore, Sylvia Mallory, per comprendere l’intero gruppo editoriale. Jane e Sylvia ci hanno pazientemente insegnato tanto circa il modo di scrivere, l’organizzazione e la presentazione, e i loro sforzi trapelano in ogni pagina del libro. Estendiamo i nostri ringraziamenti anche al resto del gruppo Addison-Wesley, che ci ha coadiuvato ad ogni passo dell’intricato processo di pubblicazione di questo libro: Adrienne D’Ambrosio (marketing manager), Melissa Honig (senior media producer), Regina Kolenda (senior designer), Katherine Watson (production supervisor) e specialmente Denise Clinton (editor-in-chief). Soprattutto, ringraziamo le nostre famiglie per la pazienza che hanno avuto nel corso di questo progetto. La redazione di questo libro ha richiesto molto tempo –che a loro deve essere sembrato infinito. Esse più di qualsiasi altro hanno sopportato il peso di tale impegno, e per il loro aiuto e sostegno siamo loro profondamente grati. xxix i i i i i i “generale” — 2005/7/10 — 22:25 — page xxx — #30 i i i i i i i i “generale” — 2005/7/10 — 22:25 — page 1 — #31 i i Parte I Introduzione e richiami i i i i i i “generale” — 2005/7/10 — 22:25 — page 2 — #32 i i i i i i i i “generale” — 2005/7/10 — 22:25 — page 3 — #33 i i Capitolo 1 Domande economiche e dati economici Se si domandasse a una mezza dozzina di econometrici cosa sia l’econometria, si otterrebbe una mezza dozzina di risposte diverse. Uno potrebbe affermare che l’econometria è la scienza che sottopone a verifica le teorie economiche. Un secondo potrebbe rispondere che l’econometria è l’insieme degli strumenti usati per prevedere i valori futuri delle variabili economiche, come le vendite di un’impresa, la crescita globale dell’economia o i prezzi dei titoli. Un altro potrebbe dire che l’econometria è il processo con cui si adattano modelli economici matematici ai dati del mondo reale. Un quarto potrebbe sostenere che è l’arte e la scienza di usare dati storici per fare raccomandazioni di “policy” numeriche, o quatitative, per il governo e gli affari. In realtà, tutte queste risposte sono corrette. In senso lato, l’econometria è la scienza e l’arte di usare la teoria economica e le tecniche statistiche per analizzare i dati economici. I metodi econometrici sono utilizzati in molti campi dell’economia, quali la finanza, l’economia del lavoro, la macroeconomia, la microeconomia, il marketing e la politica economica. Le tecniche econometriche sono anche comunemente utilizzate in altre scienze sociali, come le scienze politiche e la sociologia. Questo libro è un’introduzione all’insieme fondamentale di metodi utilizzati dagli econometrici. Utilizzeremo tali metodi per rispondere a una varietà di domande quantitative particolari tratte dal mondo degli affari e dalla politica economica. Questo capitolo pone quattro di queste domande e discute, in termini generali, l’approccio econometrico per ottenere una risposta. Il capitolo si conclude con una rassegna dei principali tipi di dati che gli econometrici utilizzano per rispondere a queste e ad altre domande quantitative di tipo economico. i i i i i i “generale” — 2005/7/10 — 22:25 — page 4 — #34 i i 1.1. Domande economiche esaminate 1.1 Domande economiche esaminate Molte decisioni economiche, di affari e di governo dipendono dalla comprensione delle relazioni che sussistono tra le variabili del mondo che ci circonda. Tali decisioni richiedono risposte di tipo quantitativo a domande di tipo quantitativo. Questo libro esamina varie domande quantitative tratte da problemi economici attuali. Quattro di queste domande riguardano le politiche per l’istruzione, la discriminazione razziale nella concessione di mutui, il consumo di sigarette e le previsioni macroeconomiche. Domanda 1: ridurre la dimensione delle classi migliora il livello di istruzione nella scuola elementare? Le proposte di riforma del sistema dell’istruzione pubblica USA generano accesi dibattiti. Molte delle proposte riguardano gli studenti più giovani, quelli che frequentano la scuola elementare. L’istruzione elementare ha vari obiettivi, come lo sviluppo della capacità di socializzare, ma per molti genitori e insegnanti il fine principale è l’assimilazione delle conoscenze accademiche basilari: lettura, scrittura e principi di matematica. Una proposta importante per migliorare l’apprendimento di base è quella di ridurre la dimensione delle classi nelle scuole elementari. Con un minor numero di studenti nelle classi, si afferma, ogni studente riceve una maggiore attenzione dall’insegnante, ci sono meno distrazioni, l’apprendimento migliora e anche i voti. Qual è però, con precisione, l’effetto sull’istruzione scolastica elementare di una riduzione della dimensione delle classi? Tale riduzione è costosa: richiede l’assunzione di nuovi insegnanti e, se la scuola è già piena, la costruzione di nuove classi. Chi deve decidere se assumere nuovi insegnanti deve soppesarne costi e benefici. Per valutare costi e benefici, tuttavia, occorre avere un preciso quadro quantitativo dei benefici possibili. L’effetto benefico di classi meno numerose sull’apprendimento di base è grande o piccolo? È possibile che avere classi di dimensioni minori non produca alcun effetto reale sull’apprendimento di base? Sebbene il senso comune e l’esperienza quotidiana possano suggerire che si apprende meglio quando ci sono meno studenti, il senso comune non riesce a quantificare l’effetto sull’apprendimento di base della riduzione della dimensione delle classi. Per ottenere una risposta è necessario esaminare l’evidenza empirica (cioè, l’evidenza basata sui dati) che mette in relazione la dimensione delle classi all’apprendimento di base nelle scuole elementari. In questo libro, esaminiamo la relazione tra dimensione delle classi e apprendimento di base tramite i dati raccolti in 420 distretti scolastici della California nel 1998. Nei dati della California, gli studenti in distretti con dimensioni di classe ridotte tendono a ottenere risultati migliori nei test standardizzati degli studenti in distretti con classi più numerose. Mentre questo fatto è coerente con l’idea che classi meno numerose producano punteggi nei test migliori, esso potrebbe semplicemente riflettere l’effetto dei molti altri vantaggi che gli 4 i i i i i i “generale” — 2005/7/10 — 22:25 — page 5 — #35 i i 1.1. Domande economiche esaminate studenti nei distretti con classi più piccole hanno nei confronti dei loro coetanei in distretti con classi più numerose. Ad esempio, i distretti con classi più piccole tendono ad avere residenti più ricchi rispetto ai distretti con classi più numerose, cosı̀ gli studenti nei distretti con classi piccole hanno maggiori opportunità di apprendimento extrascolastico. Potrebbero essere queste opportunità di apprendimento extrascolastico a determinare punteggi più alti nei test, e non classi meno numerose. Nella parte II, utilizziamo l’analisi di regressione multipla per isolare l’effetto di variazioni nella dimensione delle classi da variazioni in altri fattori, come la condizione economica degli studenti. Domanda 2: vi è discriminazione razziale nel mercato dei prestiti per abitazioni? La maggior parte delle persone acquista la propria casa con l’aiuto di un mutuo, un prestito elevato garantito dal valore della casa. Per legge, gli istituti di credito negli USA non possono tener conto della razza quando decidono la concessione o il rifiuto di un mutuo: richiedenti identici in tutto, eccetto la razza, dovrebbero avere la stessa probabilità di vedere approvata la propria richiesta. In teoria, allora, non ci dovrebbe essere discriminazione razziale nella concessione dei mutui. Contrariamente a questa conclusione teorica, i ricercatori della Federal Reserve Bank di Boston hanno riscontrato (usando dati dei primi anni Novanta) che al 28% dei richiedenti neri veniva rifiutato il mutuo, cosa che accadeva solo al 9% dei richiedenti bianchi. Questi dati indicano allora che, in pratica, c’è una distorsione razziale nella concessione dei mutui? Se cosı̀, di quale entità? Il fatto che vengano rifiutate più richieste di neri che di bianchi nei dati della Boston Fed non costituisce in sé per sé evidenza di discriminazione da parte di chi offre mutui, perché i richiedenti neri e bianchi differiscono in altre dimensioni oltre alla razza. Prima di concludere che vi è distorsione nel mercato dei prestiti, tali dati debbono essere esaminati più attentamente per vedere se vi è una differenza nella probabilità di ottenere un rifiuto per richiedenti altrimenti identici e, se cosı̀, se questa differenza è grande o piccola. A tal fine, nel capitolo 9 introduciamo i metodi econometrici che rendono possibile quantificare l’effetto della razza sulla possibilità di ottenere un mutuo, tenendo constanti le altre caratteristiche del richiedente, in primo luogo la sua capacità di restituire il prestito. Domanda 3: di quanto riducono il fumo le imposte sulle sigarette? Il fumo di sigaretta è una delle più importanti questioni di salute pubblica a livello mondiale. La maggior parte dei costi del fumo, come le spese mediche per le cure destinate a chi si è ammalato per il fumo e i costi meno facilmente quantificabili per i non fumatori che preferiscono non respirare il fumo passivo, sono sostenuti da altri membri della società. Siccome 5 i i i i i i “generale” — 2005/7/10 — 22:25 — page 6 — #36 i i 1.1. Domande economiche esaminate tali costi sono a carico di altre persone oltre al fumatore, c’è spazio per l’intervento pubblico al fine di ridurre il consumo di sigarette. Uno degli strumenti più flessibili per ridurre il consumo è un aumento delle imposte sulle sigarette. La teoria economica afferma che, se il prezzo delle sigarette aumenta, il consumo diminuisce. Di quanto? Se il prezzo di vendita cresce dell’1%, di quale percentuale diminuirà la quantità di sigarette vendute? La variazione percentuale nella quantità domandata conseguente all’aumento dell’1% del prezzo è detto elasticità della domanda al prezzo. Se si vuole ridurre il fumo di un certo ammontare, diciamo del 20%, aumentando le imposte, allora dobbiamo conoscere l’elasticità al prezzo della domanda di sigarette per calcolare l’aumento di prezzo necessario ad ottenere tale riduzione nel consumo. Qual è però questa elasticità? Sebbene la teoria economica ci fornisca i concetti per poter rispondere a questa domanda, non ci dice il valore numerico dell’elasticità della domanda al prezzo. Per conoscere tale elasticità dobbiamo esaminare l’evidenza empirica circa il comportamento dei fumatori e dei potenziali fumatori; in altre parole, è necessario analizzare i dati su consumo di sigarette e prezzi. I dati che esamineremo sono le vendite di sigarette, i prezzi, le imposte e il reddito personale nei vari stati degli USA negli anni Ottanta e Novanta. In questi dati, gli stati con imposte basse, e perciò prezzi delle sigarette bassi, hanno alte percentuali di fumatori e gli stati con prezzi alti hanno basse percentuali di fumatori. Tuttavia, l’analisi di questi dati è complicata perché la casualità corre in entrambe le direzioni: imposte basse inducono una domanda alta, ma se ci sono molti fumatori nello stato, allora i politici locali potrebbero cercare di tenere bassi i prezzi delle sigarette per soddisfare i propri elettori fumatori. Nel capitolo 10 studiamo i metodi per affrontare questa “casualità simultanea” e usiamo questi metodi per stimare l’elasticità della domanda di sigarette al prezzo. Domanda 4: quale sarà il tasso d’inflazione il prossimo anno? Sembra che le persone vogliano sempre un’anteprima del futuro. Quanto venderà un’impresa nel prossimo anno investendo in nuove attrezzature? Il mercato dei titoli salirà il prossimo mese e, se cosı̀, di quanto? Le tasse comunali riusciranno a coprire le spese per i servizi ai cittadini del prossimo anno? L’esame di microeconomia della prossima settimana verterà sulle esternalità o sul monopolio? Sabato sarà una giornata adatta per andare al mare? Un aspetto del futuro al quale i macroeconomisti e gli economisti finanziari sono particolarmente interessati è il tasso di crescita dell’indice generale dei prezzi durante il prossimo anno. Un promotore finanziario dovrebbe consigliare a un cliente se dare a prestito o prendere a prestito a un dato tasso di interesse, in funzione della sua migliore previsione del tasso d’inflazione nell’anno seguente. Gli economisti delle banche centrali come la Federal Reserve Board di Washington, D.C., e la Banca Centrale Europea di Francoforte, Germania, hanno la responsabilità di tenere il tasso d’inflazione sotto controllo, cosı̀ le loro decisioni su come 6 i i i i i i “generale” — 2005/7/10 — 22:25 — page 7 — #37 i i 1.1. Domande economiche esaminate fissare i tassi di interesse si basano sulla visione che hanno dell’inflazione durante il prossimo anno. Se pensano che il tasso d’inflazione aumenterà di un punto percentuale, potrebbero allora aumentare i tassi d’interesse in misura maggiore per rallentare un’economia che, dal loro punto di vista, rischia di surriscaldarsi. Se la loro congettura è errata, corrono il rischio di causare una recessione inutile oppure un’impennata indesiderata del tasso d’inflazione. Gli economisti di professione che si basano su previsioni numeriche precise utilizzano a tal fine modelli econometrici. Il lavoro di chi effettua previsioni è quello di predire il futuro tramite il passato, e gli econometrici fanno questo utilizzando teoria economica e tecniche statistiche per quantificare relazioni nei dati storicamente osservati. I dati che utilizziamo per prevedere l’inflazione sono i tassi di inflazione e di disoccupazione negli Stati Uniti. Un’importante relazione empirica tra dati macroeconomici è la “curva di Phillips”, secondo la quale un valore basso del tasso di disoccupazione oggi è associato a una crescita del tasso d’inflazione nel prossimo anno. Una delle previsioni dell’inflazione che svilupperemo e valuteremo nel capitolo 12 si basa sulla curva di Phillips. Domande quantitative, risposte quantitative Ognuna di queste quattro domande richiede una risposta numerica. La teoria economica fornisce indicazioni utili (il consumo di sigarette dovrebbe diminuire quando il prezzo aumenta) ma il valore numerico vero può essere appreso solo empiricamente, ovvero analizzando i dati. Poiché utilizziamo dati per rispondere a domande di tipo quantitativo, le nostre risposte contengono sempre un po’ di incertezza: dati diversi produrrebbero una risposta numerica diversa. Perciò, lo schema concettuale di analisi deve fornire sia una risposta numerica alla domanda sia una misura della precisione di tale risposta. Lo schema concettuale utilizzato in questo libro è il modello di regressione multipla, la pietra miliare dell’econometria. Tale modello, introdotto nella parte II, fornisce un modo matematico per quantificare come la variazione in una variabile influenzi un’altra variabile, lasciando immutato tutto il resto. Ad esempio, che effetto ha una variazione nella dimensione delle classi sui punteggi del test, tenendo costanti le caratteristiche di uno studente (come il reddito familiare) che il provveditore di un distretto scolastico non può controllare? Quale effetto ha la razza sulla possibilità di vedere approvata una richiesta di mutuo, tenendo costanti altri fattori come la capacità di rimborsare il prestito? Che effetto ha sul consumo di sigarette un aumento dell’1% del prezzo, tenendo costante il reddito dei fumatori e dei potenziali fumatori? Il modello di regressione multipla e le sue estensioni forniscono uno schema per rispondere a tali domande tramite i dati e per quantificare l’incertezza associata a tali risposte. 7 i i i i i i “generale” — 2005/7/10 — 22:25 — page 8 — #38 i i 1.2. Effetti causali ed esperimenti ideali 1.2 Effetti causali ed esperimenti ideali Come molte delle domande che si incontrano in econometria, le prime tre domande della sezione 1.1 riguardano relazioni causali tra variabili. Nell’accezione comune, si dice che un’azione causa un risultato se quest’ultimo è il risultato diretto, o la conseguenza, di tale azione. Toccare un fornello caldo provoca un’ustione; bere l’acqua toglie la sete; immettere aria negli pneumatici li fa gonfiare; fertilizzare piante di pomodoro fa sı̀ che queste producano più pomodori. Causalità significa che un’azione specifica (applicare il fertilizzante) determina una specifica, misurabile conseguenza (più pomodori). Stima di effetti causali Qual è il miglior modo per misurare l’effetto causale sulla produzione di pomodori (misurata in chilogrammi) dell’applicazione di una certa quantità di fertilizzante, diciamo 100 grammi di fertilizzante per metro quadrato? Un modo per misurare questo effetto causale è quello di condurre un esperimento. In tale esperimento, un ricercatore in orticultura pianta pomodori in molti appezzamenti di terreno. Ogni appezzamento di terreno è curato in modo identico, con una sola eccezione: alcuni appezzamenti ricevono 100 grammi di fertilizzante per metro quadro, mentre gli altri non ricevono nulla. Inoltre, il fatto che un terreno sia fertilizzato o meno è determinato casualmente da un computer, il che assicura che qualsiasi altra differenza tra gli appezzamenti non è legata al fatto che tale terreno riceva il fertilizzante. Alla fine della stagione di crescita, l’orticultore pesa il raccolto ottenuto in ciascun appezzamento. La differenza tra la produzione media per metro quadro degli appezzamenti trattati e di quelli non trattati è l’effetto sulla produzione di pomodoro del trattamento con fertilizzante. Questo è un esempio di esperimento controllato casualizzato. È controllato nel senso che ci sono sia un gruppo di controllo che non riceve alcun trattamento (niente fertilizzante) sia un gruppo di trattamento che riceve il trattamento (100 g/m2 di fertilizzante). È casualizzato nel senso che il trattamento è assegnato casualmente. Questa assegnazione casuale elimina la possibilità di una relazione sistematica tra, ad esempio, quanto soleggiato sia l’appezzamento e il fatto che esso riceva il fertilizzante, cosicché la sola differenza sistematica tra il gruppo di trattamento e il gruppo di controllo è il trattamento. Se questo esperimento è condotto in maniera adeguata su scala sufficientemente ampia, esso produrrà una stima dell’effetto causale sul risultato d’interesse (la produzione di pomodori) del trattamento (l’applicazione di 100 g/m2 di fertilizzante). In questo libro, l’effetto causale è definito come l’effetto su un risultato di una data azione o trattamento, cosı̀ come misurato in un esperimento controllato casualizzato. In un esperimento del genere, la sola ragione sistematica per le differenze nei risultati tra il gruppo di trattamento e quello di controllo è il trattamento stesso. 8 i i i i i i “generale” — 2005/7/10 — 22:25 — page 9 — #39 i i 1.3. Dati: fonti e tipi È possibile immaginare un esperimento controllato casualizzato ideale per rispondere alle prime tre domande nella sezione 1.1. Ad esempio, per studiare la dimensione delle classi si può immaginare di assegnare casualmente i “trattamenti”, ovvero dimensioni di classe diverse, a gruppi diversi di studenti. Se l’esperimento è disegnato e condotto in modo che la sola differenza sistematica tra i gruppi di studenti siano le dimensioni delle rispettive classi, allora in teoria questo esperimento stimerebbe l’effetto sui punteggi del test di una riduzione della dimensione delle classi, tenendo costante tutto il resto. Il concetto di esperimento controllato casualizzato è utile perché fornisce una definizione di effetto causale. In pratica, tuttavia, non è possibile effettuare esperimenti ideali. In realtà, gli esperimenti sono rari in econometria perché sono spesso contrari all’etica, impossibili da praticare in modo soddisfacente o proibitivamente costosi. Il concetto di esperimento controllato casualizzato ideale fornisce, tuttavia, un riferimento teorico per un’analisi econometrica degli effetti causali tramite dati reali. Previsione e causalità Sebbene le prime tre domande nella sezione 1.1 riguardino effetti causali, non è cosı̀ per la quarta, prevedere l’inflazione. Non è necessario conoscere una relazione causale per effettuare una buona previsione. Un buon modo per “prevedere” se sta piovendo è osservare se i pedoni stanno utilizzando ombrelli, ma il fatto di usare un ombrello non causa la pioggia. Sebbene la previsione non coinvolga necessariamente relazioni causali, la teoria macroeconomica suggerisce schemi e relazioni che potrebbero essere utili nel prevedere l’inflazione. Come osservato nel capitolo 12, l’analisi della regressione multipla permette di quantificare le relazioni storiche suggerite dalla teoria economica, verificare se tali relazioni sono rimaste stabili nel tempo, effettuare previsioni quantitative circa il futuro e stabilire l’accuratezza di tali previsioni. 1.3 Dati: fonti e tipi In econometria, i dati provengono da una di due possibili fonti: esperimenti oppure osservazioni non sperimentali e non sperimentali del mondo. Questo libro esamina sia i dati sperimentali sia quelli non sperimentali. Dati sperimentali e dati non sperimentali I dati sperimentali provengono da esperimenti disegnati per valutare un trattamento o un’azione di politica economica oppure per valutare un effetto causale. Ad esempio, lo stato del Tennessee ha finanziato un esperimento controllato casualizzato su ampia scala che esamina la dimensione delle classi negli anni Ottanta. In quell’esperimento, che esamineremo nel 9 i i i i i i “generale” — 2005/7/10 — 22:25 — page 10 — #40 i i 1.3. Dati: fonti e tipi capitolo 11, migliaia di studenti sono stati assegnati casualmente per molti anni a classi di dimensioni diverse e sono stati sottoposti a test standardizzati annuali. L’esperimento sulla dimensione delle classi del Tennessee è costato milioni di dollari e ha richiesto la cooperazione continua di molti amministratori, genitori e insegnanti per molti anni. Poiché gli esperimenti nel mondo reale con soggetti umani sono difficili da gestire e controllare, essi presentano vari problemi rispetto agli esperimenti controllati casualizzati ideali. Inoltre, in alcune circostanze gli esperimenti non sono solo costosi e difficili da gestire ma anche contrari all’etica (sarebbe etico offrire ad adolescenti scelti casualmente sigarette poco costose per vedere quante ne acquisteranno?). A causa di questi problemi finanziari, pratici ed etici, gli esperimenti sono rari in economia. Invece, molti dati economici sono ottenuti osservando il comportamento nel mondo reale. I dati ottenuti osservando il comportamento reale al di fuori di un contesto sperimentale sono detti dati non sperimentali. I dati non sperimentali sono raccolti tramite indagini campionarie, come un’indagine telefonica sui consumatori e registri amministrativi, come un registo storico sulla richiesta di mutui compilato dagli istituti di credito. I dati non sperimentali pongono sfide importanti ai tentativi econometrici di stimare gli effetti causali e gli strumenti dell’econometria cercano di affrontare queste sfide. Nel mondo reale, i livelli di “trattamento” (l’ammontare di fertilizzante nell’esempio del pomodoro, il rapporto studenti-insegnanti nell’esempio della dimensione delle classi) non sono assegnati casualmente, perciò è difficile scindere l’effetto del “trattamento” da altri fattori rilevanti. La maggior parte dell’econometria, e la maggior parte di questo libro, è dedicata a metodi per rispondere alle sfide che si incontrano quando i dati del mondo reale vengono utilizzati per stimare effetti causali. Sia i dati sperimentali sia quelli non sperimentali si possono dividere in tre tipi principali: dati sezionali, serie temporali di dati e dati panel. In questo libro si incontreranno tutti e tre i tipi. Dati sezionali I dati su entità diverse (lavoratori, consumatori, imprese, unità governative e cosı̀ via) osservati per un solo periodo sono detti dati sezionali. Ad esempio, i dati sui punteggi del test nei distretti scolastici della California sono dati sezionali. Tali dati riguardano 420 entità (distretti scolastici) per un solo periodo (1998). In generale, il numero di entità sulle quali si hanno osservazioni si indica con n, cosicché per esempio n = 420 per i dati della California. I dati sul punteggio del test della California contengono le misure di molte variabili diverse per ciascun distretto. Alcuni di questi dati sono tabulati nella tabella 1.1. Ogni riga elenca i dati per un distretto diverso. Ad esempio, il punteggio medio dei test per il primo distretto (“distretto 1”) è 690, 8; questo è la media dei punteggi del test in matematica e scienze per tutti gli studenti del quinto livello di istruzione in quel distretto nel 1998 ottenuti in un test 10 i i i i i i “generale” — 2005/7/10 — 22:25 — page 11 — #41 i i 1.3. Dati: fonti e tipi Tabella 1.1: dati sui risultati degli esami e altre variabili per i distretti scolastici della California nel 1998 Numero di osservazioni (distretto) Media dei punteggi del test nel distretto (quinto livello) Rapporto studenti-insegnanti Spesa per studente ($) % di studenti non di madrelingua 690,8 661,2 643,6 647,7 640,8 ... 645,0 672,2 655,8 17,89 21,52 18,70 17,36 18,67 ... 21,89 20,2 19,04 $6.385 5.099 5.502 7.102 5.236 ... 4.403 4.776 5.993 0,0% 4,6 30,0 0,0 13,9 ... 24,3 3,0 5,0 1 2 3 4 5 ... 418 419 420 Nota: i dati sui punteggi dei test in California sono descritti nell’appendice 4.1. standardizzato (lo Stanford Achievement Test). Il rapporto medio studenti-insegnanti in quel distretto è 17, 89, cioè il numero di studenti nel distretto 1, diviso per il numero di insegnanti nel distretto 1, è 17, 89. La spesa media per studente nel distretto 1 è 6.385$. La percentuale di studenti in quel distretto non di madrelingua inglese (ovvero la percentuale di studenti per i quali l’inglese è una seconda lingua e che non hanno ancora una buona conoscenza dell’inglese) è 0%. Le righe rimanenti presentano i dati per altri distretti. L’ordine delle righe è arbitrario e il numero attribuito al distretto, che è detto numero dell’osservazione, è un numero assegnato arbitrariamente al fine di organizzare i dati. Come si può vedere nella tabella, tutte le variabili elencate variano considerevolmente. Tramite i dati sezionali, possiamo apprendere circa le relazioni tra le variabili studiando le differenze tra le persone, le imprese e altre entità economiche durante un singolo periodo temporali. Serie temporali Le serie temporali sono dati per una singola entità (persona, impresa, paese) raccolti in momenti diversi. I nostri dati sui tassi d’inflazione e di disoccupazione negli USA sono un esempio di serie temporali. I dati contengono osservazioni su due variabili (i tassi d’inflazione e di disoccupazione) per una singola entità (gli Stati Uniti) in 167 periodi. Ciascun periodo considerato è un trimestre (il primo trimestre è composto da gennaio, febbraio e marzo; il 11 i i i i i i “generale” — 2005/7/10 — 22:25 — page 12 — #42 i i 1.3. Dati: fonti e tipi Tabella 1.2: dati sui tassi d’inflazione, come misurato dall’indice dei prezzi al consumo (CPI), e di disoccupazione negli Stati Uniti: dati trimestrali, 1959-2000. Numero di osservazioni Data (anno:trimestre) 1 2 3 4 5 ... 165 166 167 1959:II 1959:III 1959:IV 1960:I 1960:II ... 2000:II 2000:III 2000:IV Tasso d’inflazione CPI (% annuale) 0,70% 2,1 2,4 0,4 2,4 ... 3 3,5 2,8 Tasso di disoccupazione 5,10% 5,3 5,6 5,1 5,2 ... 4 4 4 Nota: i dati sull’inflazione e sulla disoccupazione negli U.S.A. sono descritti nell’appendice 12.1. secondo da aprile, maggio e giugno; e cosı̀ via). Le osservazioni cominciano nel secondo trimestre del 1959, che è indicato con 1959:II, e finiscono nel quarto trimestre del 2000 (2000:IV). Il numero di osservazioni (cioè di periodi considerati) in una serie temporale è indicato con T . Poiché ci sono 167 trimestri dal 1959:II al 2000:IV, tali dati consistono di T = 167 osservazioni. Alcune osservazioni sono elencate nella tabella 1.2. I dati di ciascuna riga corrispondono a periodi diversi (anni o timestri). Nel secondo trimestre del 1959, ad esempio, il tasso d’inflazione dei prezzi è stato dello 0, 7% annuo. In altre parole, se i prezzi avessero continuato ad aumentare per un anno intero al tasso del secondo trimestre del 1959, il livello generale dei prezzi (cosı̀ come misurato dall’indice dei prezzi al consumo o CPI) sarebbe aumentato dello 0, 7%. Nel secondo trimestre del 1959, il tasso di disoccupazione è stato del 5, 1%, cioè il 5, 1% della forza lavoro ha riportato di non aver trovato un lavoro pur avendolo cercato. Nel terzo trimestre del 1959, il tasso d’inflazione è stato del 2, 1% e il tasso di disoccupazione del 5, 3%. Seguendo una singola entità nel tempo, i dati temporali possono essere usati per studiare l’evoluzione di variabili nel tempo e per predire i valori futuri di tali variabili. Dati panel I dati panel, detti anche dati longitudinali, sono dati che riguardano più entità ognuna delle quali è osservata in due o più periodi. I nostri dati su consumo di sigarette e prezzi sono un esempio di dati panel (alcune variabili e osservazioni relative sono riportate nella tabella 1.3). 12 i i i i i i “generale” — 2005/7/10 — 22:25 — page 13 — #43 i i Sommario Concetto chiave 1.1: dati sezionali, serie temporali e dati panel • I dati sezionali consistono di più entità osservate in un solo periodo. • Le serie temporali consistono di una singola entità osservata in più periodi. • I dati panel (noti anche come dati longitudinali) consistono di più entità ciascuna delle quali è osservata in due o più periodi. Il numero di entità nel panel è indicato con n e il numero di periodi con T . Nei dati sulle sigarette, abbiamo osservazioni su n = 48 stati continentali USA (entità) per T = 11 anni (periodi) dal 1985 al 1995. Si ha quindi un totale di n × T = 48 × 11 = 528 osservazioni. Alcune osservazioni tratte dai dati sul consumo di sigarette sono elencati nella tabella 1.3. Il primo blocco di 48 osservazioni elenca i dati per ogni stato nel 1985, organizzati alfabeticamente dall’Alabama al Wyoming. Il blocco successivo di 48 osservazioni elenca i dati dal 1986 e cosı̀ via, fino al 1995. Ad esempio, nel 1985, la vendita di sigarette in Arkansas è stata di 128, 5 pacchetti pro capite (il numero totale di pacchetti di sigarette venduti in Arkansas nel 1985 diviso per la popolazione totale in Arkansas è uguale a 128, 5). Il prezzo medio di un pacchetto di sigarette in Arkansas nel 1985, al lordo delle imposte, è stato 1, 015$, dei quali 37 centesimi sono stati destinati a imposte federali, statali e locali. I dati panel possono essere utilizzati per studiare relazioni economiche sfruttando la diversa esperienza delle molte entità diverse presenti nei dati e la diversa evoluzione nel tempo delle variabili per ogni entità. Le definizioni di dati sezionali, serie temporali e dati panel sono riassunte nel concetto chiave 1.1. Sommario 1. Molte decisioni d’affari ed economiche richiedono stime quantitative di come la variazione di una variabile influenzi un’altra variabile. 2. Concettualmente, un modo per stimare un effetto causale è in un esperimento controllato casualizzato, ma effettuare esperimenti del genere nelle applicazioni economiche è generalmente contrario all’etica, impraticabile o troppo costoso. 3. L’econometria fornisce strumenti per stimare effetti causali utilizzando dati non sperimentali, ovvero dati derivati dal mondo reale, come esperimenti imperfetti. 13 i i i i i i “generale” — 2005/7/10 — 22:25 — page 14 — #44 i i Sommario Tabella 1.3: dati su vendita di sigarette, prezzi e imposte in alcuni stati degli USA, 19851995 Numero di osservazioni Stato Anno Vendita di sigarette (pacchetti pro capite) Prezzo medio per pacchetto Imposte totali (imposte sulle sigarette) 1 2 3 ... 47 48 49 ... 96 97 ... 528 Alabama Arkansas Arizona ... West Virginia Wyoming Alabama ... Wyoming Alabama ... Wyoming 1985 1985 1985 ... 1985 1985 1986 ... 1986 1987 ... 1995 116,5 128,5 104,5 ... 112,8 129,4 117,2 ... 127,8 115,8 ... 112,2 $1,022 1,015 1,086 ... 1,089 0,935 1,08 ... 1,007 1,135 ... 1,585 $0,333 0,37 0,362 ... 0,382 0,24 0,334 ... 0,24 0,335 ... 0,36 Nota: i dati sul consumo di sigarette sono descritti nell’appendice 10.1. 4. I dati sezionali sono raccolti osservando più entità in un singolo momento; le serie temporali osservando una singola entità molte volte; i dati panel osservando più entità, ognuna delle quali è osservata molte volte. Termini chiave esperimento controllato casualizzato (8) gruppo di controllo (8) gruppo di trattamento (8) effetto causale (8) dati sperimentali (9) dati non sperimentali (10) dati sezionali (10) numero dell’osservazione (11) serie temporale (11) dati panel (12) dati longitudinali (12) Verifica dei concetti 1.1 Si disegni un ipotetico esperimento controllato casualizzato ideale per studiare l’effetto delle ore trascorse studiando sulle prestazioni negli esami di microeconomia. Si suggeriscano impedimenti alla implementazione dell’esperimento nella pratica. 1.2 Si disegni un ipotetico esperimento controllato casualizzato ideale per studiare l’ef14 i i i i i i “generale” — 2005/7/10 — 22:25 — page 15 — #45 i i Sommario fetto dell’uso di cinture si sicurezza sui morti causati da incidenti stradali mortali. Si suggeriscano impedimenti alla implementazione dell’esperimento nella pratica. 1.3 Si immagini di dover studiare la relazione tra ore dedicate alla formazione professionale (misurate in ore per lavoratore alla settimana) in un’impresa manifatturiera e la produttività dei suoi lavoratori (prodotto orario per lavoratore). Si descriva: a. un esperimento controllato casualizzato ideale che misuri questo effetto causale; b. un insieme di dati sezionali non sperimentali tramite i quali studiare questo effetto; c. una serie temporale di dati non sperimentali tramite la quale studiare questo effetto; c. un insieme di dati panel tramite i quali studiare questo effetto. 15 i i i i i i “generale” — 2005/7/10 — 22:25 — page 16 — #46 i i i i i i i i “generale” — 2005/7/10 — 22:25 — page 17 — #47 i i Capitolo 2 Richiami di probabilità Questo capitolo passa in rassegna le idee centrali della teoria della probabilità necessarie per comprendere l’analisi di regressione e l’econometria. Si ipotizza che il lettore abbia già affrontato un corso introduttivo di probabilità e statistica. Se la sua conoscenza di probabilità è datata, può rinfrescarla leggendo questo capitolo. Se, invece, possiede una discreta confidenza con l’argomento, gli è consigliata una rapida lettura del capitolo, dei termini e dei concetti riportati alla fine per sincerarsi dell’effettiva familiarità con le idee e con la notazione. La maggior parte degli aspetti del mondo che ci circonda possiede un elemento di casualità. La teoria della probabilità fornisce gli strumenti matematici per quantificare e descrivere questa casualità. La sezione 2.1 riesamina le distribuzioni di probabilità di una singola variabile casuale e la sezione 2.2 l’aspettativa matematica, la media e la varianza di una singola variabile casuale. La maggior parte dei problemi di rilievo in economia coinvolgono più di una variabile e la sezione 3.3 introduce gli elementi di base della teoria della probabilità per due variabili casuali. La sezione 2.4 discute tre speciali distribuzioni di probabilità, che giocano un ruolo cruciale nella statistica e nell’econometria: le distribuzioni normale, chi-quadrato e Fm,∞ . Le due sezioni conclusive di questo capitolo si concentrano su una fonte speciale di casualità che ha una rilevanza centrale in econometria: la casualità derivante dall’estrarre in maniera casuale un campione di dati da una popolazione più ampia. Ad esempio, supponiamo di intervistare dieci neolaureati selezionati a caso, di registrare (o “osservare”) le loro retribuzioni e di calcolare la retribuzione media utilizzando questi dieci dati (o “osservazioni”). Poiché il campione è stato scelto a caso, si sarebbero potuti scegliere dieci laureati diversi soltanto per effetto del caso. Se cosı̀, si sarebbero osservati dieci valori diversi per le retribuzioni e si sarebbe ottenuto un valore diverso per la media campionaria. Siccome le retribuzioni medie variano da un campione scelto casualmente a un altro, la media campionaria è essa stessa una variabile casuale. Perciò, la media campionaria ha una distribuzione i i i i i i “generale” — 2005/7/10 — 22:25 — page 18 — #48 i i 2.1. Variabili casuali e distribuzioni di probabilità di probabilità, detta distribuzione campionaria, poiché descrive i diversi valori che la media campionaria avrebbe potuto assumere se fosse stato estratto un altro campione. La sezione 2.5 discute il campionamento casuale e la distribuzione campionaria della media campionaria. Questa distribuzione campionaria è, in genere, complessa. Quando però la dimensione del campione è sufficientemente elevata la distribuzione campionaria della media campionaria è approssimativamente normale. Questo risultato, noto come teorema limite centrale, è discusso nella sezione 2.6. 2.1 Variabili casuali e distribuzioni di probabilità Probabilità, spazio campionario e variabili casuali Probabilità e risultati. Il genere della prima persona che si incontrerà, il voto in un esame e il numero di volte che il computer si bloccherà mentre si scrive una tesina hanno tutti una componente di aleatorietà o casualità. In ognuno di questi esempi, c’è qualcosa che ancora non è noto e che sarà più chiaro avanti nel libro. Gli esiti potenziali, mutualmente esclusivi, di un processo casuale sono chiamati risultati. Ad esempio, il computer potrebbe non bloccarsi mai, potrebbe bloccarsi una sola volta, potrebbe bloccarsi due volte e cosı̀ via. Soltanto uno di questi risultati si verificherà (i risultati sono mutualmente esclusivi) e tali risultati non debbono necessariamente essere equiprobabili. La probabilità di un risultato è la proporzione di volte in cui quel risultato si verifica nel lungo periodo. Se la probabilità che il computer non si blocchi mentre si scrive una tesina è 80%, ciò significa che, scrivendo molti articoli, l’80% di questi verrà completato senza alcuna interruzione. Spazio campionario ed eventi. L’insieme di tutti i risultati possibili è detto spazio campionario. Un evento è un sottoinsieme dello spazio campionario, perciò, un evento è un insieme di uno o più risultati. L’evento “il computer non si bloccherà più di una volta” è l’insieme composto da due risultati: “nessun blocco” e “un solo blocco”. Variabili casuali. Una variabile casuale è un indicatore numerico sintetico di un risultato casuale. Il numero di volte in cui un computer si blocca mentre si sta scrivendo una tesina è casuale e assume un valore numerico; è, perciò, una variabile casuale. Alcune variabili casuali sono discrete e altre sono continue. Come suggerito dal nome, una variabile casuale discreta assume solo un insieme discreto di valori, come 0, 1, 2, . . ., mentre una variabile casuale continua può assumere un numero infinito di valori. 18 i i i i i i “generale” — 2005/7/10 — 22:25 — page 19 — #49 i i 2.1. Variabili casuali e distribuzioni di probabilità Tabella 2.1: probabilità che il computer si blocchi M volte Distribuzione di probabilità Distribuzione di probabilità cumulata 0 1 0,8 0,8 0,1 0,9 Risultato (numero di blocchi) 2 3 0,06 0,96 0,03 0,99 4 0,01 1 Distribuzione di probabilità di una variabile casuale discreta Distribuzione di probabilità. La distribuzione di probabilità di una variabile casuale discreta è l’elenco di tutti i possibili valori della variabile e delle probabilità con cui ciascuno di essi si verifica. Queste probabilità sommano a uno. Per esempio, sia M il numero di volte che il computer si blocca mentre si sta scrivendo una tesina. La distribuzione di probabilità della variabile casuale M è l’elenco delle probabilità di ogni risultato possibile: la probabilità che M = 0, indicata con Pr(M = 0), è la probabilità che il computer non si blocchi mai; Pr(M = 1) è la probabilità di un singolo blocco; e cosı̀ via. Un esempio di distribuzione di probabilità per M è dato dalla seconda riga della tabella 2.1; si assume qui che, se il computer si bloccasse quattro volte, verrebbe messo via e la tesina sarebbe scritta a mano. Secondo questa distribuzione, la probabilità di non avere alcun blocco è 80%; la probabilità di un solo blocco è 10%; la probabilità di due, tre o quattro blocchi è, rispettivamente, 6%, 3% e 1%. La somma di tali probabilità è 100%. Questa distribuzione di probabilità è rappresentata nella figura 2.1. Probabilità di eventi. La probabilità di un evento può essere calcolata dalla distribuzione di probabilità. Per esempio, la probabilità dell’evento che si abbiano uno o due blocchi è la somma delle probabilità dei risultati che compongono tale evento. In altri termini, Pr(M = 1 o M = 2) = Pr(M = 1) + Pr(M = 2) = 0, 10 + 0, 06 = 0, 16, ovvero 16%. Funzione di ripartizione. La distribuzione di probabilità cumulata è la probabilità che una variabile casuale sia minore o uguale a un particolare valore. L’ultima riga della tabella 2.1 riporta la funzione di ripartizione della variabile casuale M . Ad esempio, la probabilità che ci sia al massimo un blocco, Pr(M ≤ 1), è pari al 90%, ed è la somma della probabilità di nessun blocco (80%) e di un solo blocco (10%). La distribuzione di probabilità cumulata di una variabile casuale discreta è indicata anche come funzione di ripartizione o c.d.f. (acronimo dall’inglese cumulative distribution function). 19 i i i i i i “generale” — 2005/7/10 — 22:25 — page 20 — #50 i i 2.1. Variabili casuali e distribuzioni di probabilità Figura 2.1: distribuzione di probabilità del numero di rotture del computer Probabilità 0,8 0,7 0,6 0,5 0,4 0,3 0,2 0,1 0,0 0 1 2 3 4 Numero di rotture L’altezza di ciascuna barra è la probabilità che il computer si rompa il numero di volte indicato. L’altezza della prima barra è 0, 80, perciò la probabilità di 0 rotture del computer è 80%. L’altezza della seconda barra è 0, 1, perciò la probabilità di 1 rottura è 10% e cosı̀ via per le altre barre. Distribuzione di Bernoulli. Un caso particolare importante di variabile casuale discreta è quando la variabile casuale è binaria, cioè quando i risultati possibili sono 0 o 1. Una variabile casuale binaria è detta variabile casuale di Bernoulli (in onore del matematico e scienziato svizzero seicentesco Jacob Bernoulli) e la sua distribuzione di probabilità è detta distribuzione di Bernoulli. Per esempio, sia G il genere della prima persona che si incontra, dove G = 0 indica che la persona è un maschio e G = 1 indica che è una femmina. I risultati possibili per G e le loro probabilità sono ( 1 con probabilità p (2.1) G= 0 con probabilità 1 − p, dove p è la probabilità che la prima persona che si incontra sia una donna. La distribuzione di probabilità (2.1) è una distribuzione di Bernoulli. 20 i Electronic Publishing Services Inc. Stock/Watson, Econometrics 1e STOC.ITEM.0001 Fig. 02.01 1st Proof i 2nd Proof 3rd Proof i Final i i i “generale” — 2005/7/10 — 22:25 — page 21 — #51 i i 2.2. Valore atteso, media e varianza Distribuzione di probabilità di una variabile casuale continua Funzione di ripartizione. La funzione di ripartizione di una variabile casuale continua è definita esattamente come nel caso di una variabile casuale discreta. La funzione di ripartizione di una variabile casuale continua è, perciò, la probabilità che la variabile casuale sia minore o uguale a un certo valore. Per esempio, si consideri uno studente che guida da casa a scuola. Il tempo impiegato dallo studente può assumere un numero infinito di valori e, poiché dipende da fattori casuali come le condizioni meteorologiche e il traffico, è naturale trattarlo come una variabile casuale continua. La figura 2.2a descrive una funzione di ripartizione ipotetica del tempo di percorrenza. Ad esempio, la probabilità che il viaggio duri meno di 15 minuti è 20% e la probabilità che duri meno di 20 minuti è 78%. Funzione di densità di probabilità. Poiché una variabile casuale continua può assumere un numero infinito di valori, la distribuzione di probabilità usata per le variabili discrete, che elenca la probabilità di ogni valore che la variabile casuale può assumere, non è adatta per le variabili continue. In questo caso, la probabilità è invece rappresentata tramite la funzione di densità di probabilità. L’area sottostante la funzione di densità di probabilità tra due punti qualsiasi rappresenta la probabilità che la variabile casuale cada tra quei due punti. Una funzione di densità di probabilità è anche chiamata funzione di densit à o p.d.f. (acronimo dall’inglese probability density function) o semplicemente densità. La figura 2.2b mostra la funzione di densità di probabilità del tempo di percorrenza corrispondente alla funzione di ripartizione della figura 2.2a. La probabilità che il tempo di percorrenza sia compreso tra 15 e 20 minuti è data dall’area sottostante la p.d.f. tra 15 e 20 minuti, che è pari a 0, 58, ovvero a 58%. Equivalentemente, questa probabilità corrisponde, sulla funzione di ripartizione della figura 2.2a, alla differenza tra la probabilità che il tempo impiegato sia minore di 20 minuti (78%) e la probabilità che sia minore di 15 minuti (20%). In altri termini, la funzione di densità di probabilità e la funzione di ripartizione contengono le stesse informazioni in formato diverso. 2.2 Valore atteso, media e varianza Il valore atteso di una variabile casuale Valore atteso. Il valore atteso di una variabile casuale Y , indicato con E(Y ), è il valore medio della variabile casuale calcolato sulla base di un numero elevato di prove ripetute. Il valore atteso di una variabile casuale discreta è calcolato come una media ponderata dei possibili risultati di quella variabile casuale, con pesi pari alle probabilità di tali risultati. Il valore atteso di Y è anche detto aspettativa o media di Y ed è indicato con µ Y . 21 i i i i i i “generale” — 2005/7/10 — 22:25 — page 22 — #52 i i 2.2. Valore atteso, media e varianza Figura 2.2: funzione di ripartizione e funzione di densità di probabilità del tempo di pendolarismo Probabilità Pr (tempo di pendolarismo ≤ 20) = 0,78 1,0 0,8 0,6 Pr (tempo di pendolarismo ≤ 15) = 0,20 0,4 0,2 0,0 10 20 25 30 35 40 Tempo di pendolarismo (in minuti) (a) Funzione di ripartizione del tempo di pendolarismo 15 Densità di probabilità 0,15 Pr (tempo di pendolarismo ≤15) = 0,20 0,12 Pr (15 < tempo di pendolarismo ≤ 20) = 0,58 0,09 0,06 Pr (tempo di pendolarismo >20) = 0,22 0,03 0,58 0,20 0,00 10 15 0,22 20 25 30 35 40 Tempo di pendolarismo (in minuti) (b) Funzione di densità di probabilità del tempo di pendolarismo La figura 2.2a mostra la funzione di ripartizione del tempo di pendolarismo. La probabilità che il tempo di pendolarismo sia minore di 15 minuti è 0, 20 (o 20%) e la probabilità che sia minore di 20 minuti è 0, 78 (78%). La figura 2.2b mostra la funzione di densità di probabilità del tempo di pendolarismo. Le probabilità sono indicate dalle aree sotto la funzione di densità. La probabilità che il tempo di pendolarismo sia tra 15 e 20 minuti è 0, 58 (58%) ed è dato dall’area sottostante la curva tra 15 e 20 minuti. 22 i Electronic Publishing Services Inc. Stock/Watson, Econometrics 1e STOC.ITEM.0002 Fig. 02.02 1st Proof i 2nd Proof i 3rd Proof Final i i i “generale” — 2005/7/10 — 22:25 — page 23 — #53 i i 2.2. Valore atteso, media e varianza Ad esempio, supponiamo di prestare a un amico 100$ a un tasso d’interesse del 10%. Se il prestito venisse restituito, otterremmo 110$ (il capitale di 100$ più l’interesse di 10$), ma c’è un rischio dell’1% che l’amico sia insolvente e non ci renda nulla. Cosı̀, l’ammontare rimborsato è una variabile casuale che è uguale a 110$ con probabilità 0, 99 e a 0$ con probabilità 0, 01. Considerando molti prestiti dello stesso tipo, il 99% delle volte otterremo 110$, ma l’1% delle volte non ci verrà restituito nulla e quindi in media avremo 110% × 0, 99 + 0$ × 0, 01 = 108, 90$. Cosı̀, il valore atteso del rimborso (o “rimborso medio”) è 108, 90$. Come secondo esempio, si consideri il numero di volte in cui il computer si blocca, M e la sua distribuzione di probabilità mostrata nella tavola 2.1. Il valore atteso di M è il numero medio di blocchi calcolato sulla base di molte tesine, ponderato con la frequenza con la quale avviene un blocco di una data entità. Di conseguenza, E(M ) = 0 × 0, 80 + 1 × 0, 10 + 2 × 0, 06 + 3 × 0, 03 + 4 × 0, 01 = 0, 35. (2.2) Ciò significa che il numero atteso di volte in cui il computer si blocca durante la compilazione di una tesina è 0, 35. Naturalmente, il numero effettivo di blocchi è sempre un numero intero; non ha senso affermare che il computer si è bloccato 0, 35 volte scrivendo una particolare tesina! Piuttosto, il calcolo nella (2.2) indica che il numero medio di blocchi nel caso di molte tesine del genere è 0, 35. Il concetto chiave 2.1 presenta la formula per calcolare il valore atteso di una variabile casuale discreta Y che può assumere k valori distinti. Valore atteso di una variabile casuale di Bernoulli. Un caso particolare della formula generale presentata nel concetto chiave 2.1 è la media di una variabile casuale di Bernoulli. Sia G una variabile casuale di Bernoulli con la distribuzione di probabilità riportata nella (2.1). Il valore atteso di G è allora E(G) = 1 × p + 0 × (1 − p) = p. (2.3) Il valore atteso di una variabile casuale di Bernoulli è perciò p, la probabilità che questa assuma il valore “1”. Valore atteso di una variabile casuale continua. Il valore atteso di una variabile casuale continua è anch’esso la media dei valori che una variabile casuale può assumere, ponderati con le rispettive probabilità. Siccome una variabile casuale continua può assumere un numero infinito di valori, la formalizzazione matematica della sua aspettativa richiede l’uso del calcolo integrale e la sua definizione precisa è rimandata all’appendice 15.1. 23 i i i i i i “generale” — 2005/7/10 — 22:25 — page 24 — #54 i i 2.2. Valore atteso, media e varianza Concetto chiave 2.1: valore atteso e media Supponiamo che la variabile casuale Y possa assumere k valori, y 1 , . . . , yk , dove y1 indica il primo valore, y2 indica il secondo valore ecc., e che la probabilità che Y assuma il valore y1 sia p1 , la probabilità che Y assuma il valore y2 sia p2 e cosı̀ via. Il valore atteso di Y , indicato con E(Y ), è E(Y ) = y1 p1 + y2 p2 + · · · + yk pk = k X (2.4) yi pi , i=1 Pk dove la notazione “ i=1 yi pi ” indica “la somma di yi pi per i che va da 1 a k”. Il valore atteso di Y è anche detto media di Y o aspettativa di Y ed è indicato con µ Y . Varianza, deviazione standard e momenti La varianza e la deviazione standard misurano la dispersione di una distribuzione di probabilità. La varianza di una variabile casuale Y , indicata con var(Y ), è il valore atteso del quadrato della deviazione di Y dalla sua media, cioè var(Y ) = E[(Y − µ Y )2 ]. Siccome la varianza richiede il quadrato di Y , l’unità di misura della varianza è l’unità di misura del quadrato di Y , il che rende la varianza difficile da interpretare. È perciò uso comune misurare la dispersione con la deviazione standard, che è la radice quadrata della varianza ed è indicata da σY . La deviazione standard ha la stessa unità di misura di Y . Queste definizioni sono riassunte nel concetto chiave 2.2. Ad esempio, la varianza del numero M di blocchi del computer è la media, ponderata con le probabilità, del quadrato della differenza tra M e la sua media, 0, 35: var(M ) = (0 − 0, 35)2 × 0, 80 + (1 − 0, 35)2 × 0, 10 + (2 − 0, 35)2 × 0, 06 +(3 − 0, 35)2 × 0, 03 + (4 − 0, 35)2 × 0, 01 = 0, 6475. La deviazione standard di M è la radice quadrata della varianza e quindi √ (2.5) 0, 6475 ∼ = 0, 80. Varianza di una variabile casuale di Bernoulli. La media della variabile casuale di Bernoulli G avente la distribuzione di probabilità (2.1) è µG = p (formula (2.3)) e quindi la sua varianza è 24 i i i i i i “generale” — 2005/7/10 — 22:25 — page 25 — #55 i i 2.2. Valore atteso, media e varianza Concetto chiave 2.2: varianza e deviazione standard La varianza della variabile casuale discreta Y , indicata da σY2 , è σY2 = var(Y ) = E[(Y − µY )2 ] = k X i=1 (yi − µY )2 pi . (2.6) La deviazione standard di Y è σY , la radice quadrata della varianza. La deviazione standard ha la stessa unità di misura di Y . 2 var(G) = σG = (0 − p)2 × (1 − p) + (1 − p)2 × p = p(1 − p). Ne segue che la deviazione standard di una variabile casuale di Bernoulli è σ G = (2.7) p p(1 − p). Momenti. La media di Y , E(Y ), è anche detta momento primo di Y e il valore atteso del quadrato di Y , E(Y )2 , è anche detto momento secondo di Y . In generale, il valore atteso di Y r è detto momento r-esimo della variabile casuale Y , il momento r-esimo di Y è cioè E(Y )r . Proprio come la media è una misura del centro di una distribuzione e la deviazione standard una misura della sua dispersione, i momenti con r > 2 misurano altri aspetti della forma di una distribuzione. In questo testo, i momenti di ordine superiore delle distribuzioni (momenti con r > 2) sono usati principalmente nelle ipotesi matematiche e nelle derivazioni sottostanti le procedure statistiche ed econometriche. Media e varianza di una funzione lineare di una variabile casuale Questa sezione discute il caso di variabili casuali (diciamo Y e X) legate da una relazione lineare. Per esempio, si consideri uno schema di imposizione fiscale sui redditi in base al quale un lavoratore è prima tassato in misura pari al 20% del proprio reddito e poi gli viene assegnato un trasferimento (esentasse) di 2.000$. In base a questo schema di prelievo fiscale, il reddito netto Y è legato al reddito lordo X attrarverso l’equazione Y = 2.000 + 0, 8X. (2.8) Per meglio dire, il reddito netto Y è l’80% del reddito lordo X, più 2.000$. Supponiamo che il reddito lordo di un individuo nel prossimo anno sia una variabile 2 . Poiché il reddito lordo è aleatorio, lo è anche quello casuale con media µX e varianza σX netto. Quali sono la media e la deviazione standard del reddito netto, dato questo schema 25 i i i i i i “generale” — 2005/7/10 — 22:25 — page 26 — #56 i i 2.3. Variabili casuali doppie di prelievo? Dopo le imposte, il reddito è l’80% di quello precedente più 2.000$. Perciò, il valore atteso del reddito netto è E(Y ) = µY = 2.000 + 0, 8µX . (2.9) La varianza del reddito netto è il valore atteso di (Y − µY )2 . Poiché Y = 2.000 + 0, 8X, Y − µY = 2.000 + 0, 8X − (2.000 + 0, 8µX ) = 0, 8(X − µX ). Perciò, E[(Y − µY )2 ] = E [0, 8(X − µX )]2 = 0, 64E[(X − µX )2 ]. Ne segue che var(Y ) = 0, 64 var(X) e la deviazione standard di Y , cioè la radice quadrata della sua varianza, è σY = 0, 8σX . (2.10) Perciò, la deviazione standard della distribuzione del reddito netto è l’80% della deviazione standard della distribuzione del reddito lordo. Questa analisi può essere generalizzata al caso in cui Y dipende da X, con un’intercetta a (invece di 2.000$) e una pendenza b (invece di 0, 8), cosicché Y = a + bX. (2.11) La media e la varianza di Y diventano allora µY = a + bµX e (2.12) 2 σY2 = b2 σX , (2.13) e la deviazione standard di Y è σY = bσX . Le espressioni (2.9) e (2.10) sono applicazioni delle formule più generali (2.12) e (2.13), con a = 2.000 e b = 0, 8. 2.3 Variabili casuali doppie Gran parte delle domande interessanti in economia coinvolge due o più variabili. I laureati hanno un lavoro con probabilità maggiore dei non laureati? Come si differenzia la distribuzione dei redditi delle donne rispetto a quella degli uomini? Tali domande riguardano la distribuzione di due variabili causali, considerate congiuntamente (educazione e occupazione nel primo esempio, reddito e genere nel secondo). Per rispondere a tali domande, è necessario comprendere i concetti di distribuzione di probabilità congiunta, marginale e condizionata. Distribuzioni congiunte e marginali Distribuzione congiunta. La distribuzione di probabilità congiunta di due variabili casuali discrete, diciamo X e Y , fornisce la probabilità che tali variabili assumano simultaneamente certi valori, diciamo x e y. La somma delle probabilità di tutte le possibili combinazioni (x, y) è pari a uno. La distribuzione di probabilità congiunta può essere espressa dalla funzione Pr(X = x, Y = y). 26 i i i i i i “generale” — 2005/7/10 — 22:25 — page 27 — #57 i i 2.3. Variabili casuali doppie Tabella 2.2: distribuzione congiunta di condizioni meteorologiche e tempo di percorrenza Percorrenza lunga (Y=0) Percorrenza breve (Y=1) Totale Con pioggia (X=0) Senza pioggia (X=1) Totale 0,15 0,15 0,30 0,07 0,63 0,70 0,22 0,78 1,00 Ad esempio, le condizioni meteorologiche –il fatto che stia o meno piovendo– influenzano il tempo di percorrenza dello studente pendolare della sezione 2.1. Sia Y una variabile casuale binaria che è uguale a uno se il tempo di percorrenza è breve (meno di 20 minuti) e a zero altrimenti, e sia X un’altra variabile casuale binaria che è uguale a zero se piove e a uno altrimenti. Considerando insieme queste due variabili casuali binarie, si ottengono quattro possibili risultati: piove e il tempo di percorrenza è lungo (X = 0, Y = 0); piove e il tempo di percorrenza è breve (X = 0, Y = 1); non piove e il tempo di percorrenza è lungo (X = 1, Y = 0); infine, non piove e il tempo di percorrenza è breve (X = 1, Y = 1). La distribuzione di probabilità congiunta è la frequenza con la quale ciascuno di questi quattro risultati si verifica considerando molti tragitti ripetuti. Un esempio di distribuzione congiunta di queste due variabili è riportato nella tabella 2.2. Secondo questa, su molti tragitti, il 15% dei giorni è piovuto e il tempo di percorrenza è stato lungo (X = 0, Y = 0), perciò la probabilità di un tragitto lungo e piovoso è 15%, Pr(X = 0, Y = 0) = 0, 15. Inoltre, Pr(X = 0, Y = 1) = 0, 15, Pr(X = 1, Y = 0) = 0, 07 e Pr(X = 1, Y = 1) = 0, 63. Questi quattro risultati possibili sono mutualmente esclusivi e costituiscono lo spazio campionario in cui la somma delle quattro probabilità è pari a uno. Distribuzione di probabilità marginale. La distribuzione di probabilità marginale di una variabile casuale Y è soltanto un altro nome per indicare la sua distribuzione di probabilità. Questo termine è utilizzato per distinguere la distribuzione della sola Y (la distribuzione marginale) dalla distribuzione congiunta di Y e un’altra variabile casuale. La distribuzione marginale di Y può essere calcolata dalla distribuzione congiunta di X e Y sommando le probabilità di tutti i possibili risultati per i quali Y assume un valore specifico. Se X può assumere l valori diversi, x1 , . . . , xl , allora la probabilità marginale che Y assuma il valore y è Pr(Y = y) = l X Pr(X = xi , Y = y). (2.14) i=1 Ad esempio, nella tabella 2.2, la probabilità di un tragitto lungo e con pioggia è 15%, la 27 i i i i i i “generale” — 2005/7/10 — 22:25 — page 28 — #58 i i 2.3. Variabili casuali doppie probabilità di un tragitto lungo e senza pioggia è 7%, quindi la probabilità di un tragitto lungo (con pioggia o senza) è 22%. La distribuzione marginale del tempo di percorrenza è riportata nella colonna finale della tabella 2.2. Similmente, la probabilità marginale che piova è 30%, come indicato nell’ultima riga della tabella 2.2. Distribuzioni condizionate Distribuzione condizionata. La distribuzione di una variabile casuale Y condizionatamente al fatto che un’altra variabile casuale X assuma uno specifico valore è detta distribuzione condizionata di Y data X. La probabilità condizionata che Y assuma il valore y quando X è uguale a x si indica con Pr(Y = y X = x). Ad esempio, qual è la probabilità di un tempo di percorrenza lungo (Y = 0) se si sa che sta piovendo (X = 0)? Dalla tabella 2.2, la probabilità congiunta di un tragitto breve e con pioggia è 15% e la probabilità congiunta di un tragitto corto con pioggia è 15%; cosı̀, se sta piovendo, un tragitto breve e uno lungo sono equiprobabili. Di conseguenza, la probabilità di un tragitto lungo (Y = 0), condizionatamente al fatto che piova (X = 0), è 50%, ovvero Pr(Y = 0 X = 0) = 0, 50. Allo stesso modo, la probabilità marginale che piova è 30%, che equivale a dire che, se si ripete più volte il tragitto, piove il 30% delle volte. In questo 30% dei tragitti, il 50% delle volte il viaggio è lungo (0, 15/0, 30). In generale, la distribuzione condizionata di Y data X = x è Pr(Y = y X = x) = Pr(X = x, Y = y) . Pr(X = x) (2.15) Ad esempio, la probabilità condizionata di un tempo di percorrenza lungo, dato che piove, è Pr(Y = 0 X = 0) = Pr(X = 0, Y = 0)/ Pr(X = 0) = 0, 15/0, 30 = 0, 50. Come secondo esempio, consideriamo una variante di quello sul computer che si blocca. Supponiamo di utilizzare un computer della biblioteca per scrivere la tesina e che la biblioteca ci assegni casualmente un computer tra quelli disponibili, metà dei quali sono nuovi e metà vecchi. Siccome il computer viene assegnato casualmente, l’età del computer utilizzato, A(= 1 se il computer è nuovo , = 0 se è vecchio), è una variabile casuale. Supponiamo che la distribuzione congiunta delle variabili casuali M e A sia quella nella parte A della tabella 2.3. La distribuzione condizionata dei blocchi del computer, data la sua età, è mostrata nella parte B della tabella. Ad esempio, la probabilità congiunta di M = 0 e A = 0 è 0, 35; siccome la metà dei computer è vecchia, la probabilità condizionata che non ci siano blocchi, dato che si sta utilizzando un computer vecchio, è Pr(M = 0 A = 0) = Pr(M = 0, A = 0)/ Pr(A = 0) = 0, 35/0, 50 = 0, 70, ovvero 70%. Di contro, la probabilità condizionata che non ci siano blocchi, data l’assegnazione di un computer nuovo, è 90%. Secondo la distribuzione condizionata nella parte B della tabella 2.3, i computer più nuovi hanno una minore probabilità di bloccarsi rispetto a quelli vecchi; ad esempio, la probabilità di tre blocchi è 5% con i vecchi computer, ma 1% con i nuovi. 28 i i i i i i “generale” — 2005/7/10 — 22:25 — page 29 — #59 i i 2.3. Variabili casuali doppie Tabella 2.3: distribuzioni congiunte e condizionate di blocchi del computer (M ) ed età del computer (A) A. Distribuzione congiunta Computer vecchio Computer nuovo Totale M=0 M=1 M=2 M=3 M=4 Totale 0,35 0,45 0,80 0,065 0,035 0,10 0,05 0,01 0,06 0,025 0,005 0,03 0,01 0,00 0,01 0,50 0,50 1,00 B. Distribuzione condizionata di M data A Pr(M |A = 0) Pr(M |A = 1) M=0 M=1 M=2 M=3 M=4 Totale 0,70 0,90 0,13 0,07 0,10 0,02 0,05 0,01 0,02 0,00 1,00 1,00 Aspettativa condizionata. L’aspettativa condizionata di Y data X, detta anche media condizionata di Y data X, è la media della distribuzione condizionata di Y data X. Cioè, l’aspettativa condizionata è il valore atteso di Y , calcolato utilizzando la distribuzione condizionata di Y data X. Se Y assume i k valori y1 , . . . , yk , allora la media condizionata di Y data X = x è k X (2.16) E(Y X = x) = yi Pr(Y = yi X = x). i=1 Per esempio, sulla base delle distribuzioni condizionate della tabella 2.3, il numero atteso di blocchi del computer, dato che il computer è vecchio, è E(M A = 0) = 0 × 0, 70 + 1 × 0, 13 + 2 × 0, 10 + 3 × 0, 05 + 4 × 0, 02 = 0, 56. Il numero atteso di blocchi del computer, dato che il computer è nuovo, è E(M A = 1) = 0, 14, meno che per i computer vecchi. L’aspettativa condizionata di Y dato che X = x è semplicemente il valore medio di Y quando X = x. Nell’esempio della tabella 2.3, il numero medio di blocchi è 0, 56 per i computer vecchi, e quindi l’aspettativa condizionata di Y dato che il computer è vecchio è di 0, 56 blocchi. Similmente, tra i nuovi computer, il numero medio di blocchi è 0, 14, cioè l’aspettativa condizionata di Y dato che il computer è nuovo è 0, 14. 29 i i i i i i “generale” — 2005/7/10 — 22:25 — page 30 — #60 i i 2.3. Variabili casuali doppie La legge delle aspettative iterate. La media di Y è la media ponderata delle aspettattive condizionate di Y data X, con pesi dati dalla distribuzione di probabilità di X. Per esempio, l’altezza media degli adulti è la media ponderata dell’altezza media degli uomini e dell’altezza media delle donne, con pesi dati dalla proporzione di uomini e donne. Matematicamente, se X assume l valori, x1 , . . . , xl , allora E(Y ) = l X E(Y X = xi ) Pr(X = xi ). (2.17) i=1 La (2.17) si ricava dalle (2.16) e (2.15) (si veda l’esercizio 2.9). Detto differentemente, l’aspettativa di Y è l’aspettativa dell’aspettativa condizionata di Y data X, cioè, E(Y ) = E[E(Y X)], (2.18) dove l’aspettativa in parentesi quadra sul lato destro si calcola utilizzando la distribuzione condizionata di Y data X e l’aspettativa fuori parentesi si calcola utilizzando la distribuzione marginale di X. L’espressione (2.18) è nota come legge delle aspettative iterate. Per esempio, il numero medio di blocchi M è la media ponderata dell’aspettativa condizionata di M dato che il computer è vecchio e l’aspettativa condizionata di M dato che è nuovo, quindi E(M ) = E(M A = 0) × Pr(A = 0) + E(M A = 1) × Pr(A = 1) = 0, 56 × 0, 50 + 0, 14 × 0, 50 = 0, 35. Questa è la media della distribuzione marginale di M , come calcolato nella (2.2). La legge delle aspettative iterate implica che, se la media condizionata di Y data X è zero, allora la media di Y è zero. Questa è una conseguenza diretta della (2.18): se E(Y X) = 0, allora E(Y ) = E[E(Y X)] = E[0] = 0. In altre parole, se la media di Y data X è zero, allora deve essere vero che è nulla la media di queste medie condizionate, ponderata con le rispettive probabilità, ovvero che la media di Y è pari a zero. Varianza condizionata. La varianza di Y condizionata a X è la varianza della distribuzione condizionata di Y data X. Matematicamente, la varianza condizionata di Y data X è k X var(Y X = x) = [yi − E(Y X = x)]2 Pr(Y = yi X = x). (2.19) i=1 Per esempio, la varianza condizionata del numero di blocchi dato che il computer è vecchio è var(M A = 0) = (0 − 0, 56)2 ×0, 70 + (1 − 0, 56)2 ×0, 13 + (2 − 0, 56)2 ×0, 10 + (3 − 0, 56)2 ×0, 05 + (4 − 0, 56)2 ×0, 02 ∼ = 0, 99. La deviazione standard della √ distribuzione condizionata di M dato che A = 0 è perciò 0, 99 = 0, 99. La varianza condizionata di M dato che A = 1 è la varianza della distribuzione nella seconda riga della tabella √ 2.3, che è 0, 22; perciò, la deviazione standard di M per i computer nuovi è 0, 22 = 0, 47. Per le distribuzioni condizionate nella tabella 2.3, il numero atteso di blocchi per i computer 30 i i i i i i “generale” — 2005/7/10 — 22:25 — page 31 — #61 i i 2.3. Variabili casuali doppie nuovi (0, 14) è inferiore a quello per i computer vecchi (0, 56) e la dispersione della distribuzione del numero dei blocchi, misurata dalla deviazione standard condizionata, è più piccola per i computer nuovi (0, 47) che per quelli vecchi (0, 99). Indipendenza Due variabili casuali X e Y sono indipendentemente distribuite, o indipendenti, se conoscere il valore di una di esse non fornisce alcuna informazione circa l’altra. Nello specifico, X e Y sono indipendenti se la distribuzione condizionata di Y data X è uguale alla distribuzione marginale di Y . In altri termini, X e Y sono indipendentemente distribuite se, per tutti i valori di x e y, Pr(Y = y X = x) = Pr(Y = y) (indipendenza di X e Y ). (2.20) Sostituendo la (2.20) nella (2.15) si ottiene un’espressione alternativa per l’indipendenza di due variabili casuali in termini della loro distribuzione congiunta. Se X e Y sono indipendenti, allora Pr(X = x, Y = y) = Pr(X = x) Pr(Y = y). (2.21) La distribuzione congiunta di due variabili casuali indipendenti è perciò il prodotto delle loro distribuzioni marginali. Covarianza e correlazione Covarianza. Una misura dell’intensità con la quale due variabili casuali si muovono insieme è la loro covarianza. La covarianza tra X e Y è il valore atteso E[(X − µX )(Y − µY )], dove µX è la media di X e µY è la media di Y . La covarianza è indicata con cov(X, Y ) o con σXY . Se X può assumere l valori e Y può assumere k valori, allora la covarianza è data dalla formula cov(X, Y ) = σXY = E[(X − µX )(Y − µY )] = Pk Pl j=1 (xj − µX )(yi − µY ) Pr(X = xj , Y = yi ). i=1 (2.22) Per interpretare questa formula, supponiamo che quando X è maggiore della propria media (e quindi X − µX è positiva), Y tenda a essere maggiore della propria media (e quindi Y − µY è positiva) e che, quando X è minore della propria media (e quindi X − µ X < 0), Y tende a essere minore della propria media (e quindi Y − µY < 0). In entrambi i casi, il prodotto (X − µX )(Y − µY ) tende a essere positivo e quindi la covarianza è positiva. Al contrario, se X e Y tendono a muoversi in direzioni opposte (e quindi X è grande quando Y è piccola e viceversa), allora la covarianza è negativa. Infine, se X e Y sono indipendenti, allora la loro covarianza è zero (si veda l’esercizio 2.9). 31 i i i i i i “generale” — 2005/7/10 — 22:25 — page 32 — #62 i i 2.3. Variabili casuali doppie Correlazione. Siccome la covarianza è il prodotto di X e Y , espresse in deviazioni dalle proprie medie, la sua unità di misura è purtroppo espressa nell’unità di misura di X moltiplicata per l’unità di misura di Y . Questo problema di unità di misura può rendere difficile interpretare i valori numerici della covarianza. La correlazione è una misura alternativa di dipendenza tra X e Y che risolve il problema dell’unità di misura della covarianza. Nello specifico, la correlazione tra X e Y è la covarianza tra X e Y , divisa per il prodotto delle loro deviazioni standard: corr(X, Y ) = p cov(X, Y ) var(X)var(Y ) = σXY . σX σY (2.23) Poiché l’unità di misura del numeratore è la stessa del denominatore, le unità di misura si semplificano e la correlazione è un numero puro. Le variabili casuali X e Y sono incorrelate se corr(X, Y ) = 0. La correlazione è sempre compresa tra −1 e 1; cioè, come mostrato nell’appendice 2.1, −1 ≤ corr(X, Y ) ≤ 1 (disuguaglianza della correlazione). (2.24) Correlazione e media condizionata. Se la media condizionata di Y non dipende da X, allora Y e X sono incorrelate. Cioè, se E(Y X) = µY , allora cov(Y, X) = 0 e corr(Y, X) = 0. (2.25) Dimostriamo questo risultato. Si supponga anzitutto che Y e X abbiano media nulla, cosicché cov(Y, X) = E[(Y − µY )(X − µX )] = E(XY ). Per la legge delle aspettative iterate (equazione (2.18)), E(Y X) = E[E(Y X)X] = 0 poiché E(Y X) = 0 e quindi cov(Y, X) = 0. La (2.25) segue sostituendo cov(Y, X) = 0 nella definizione di correlazione data nella (2.23). Se Y e X non hanno media nulla, si sottraggono prima le medie e poi si applica la dimostrazione precedente. Non è necessariamente vero, però, che se X e Y sono incorrelate, allora la media condizionata di Y data X non dipende da X. Detto diversamente, è possibile che la media condizionata di Y sia una funzione di X ma che Y e X siano nonostante ciò incorrelate. Un esempio è mostrato nell’esercizio 2.10. Media e varianza di somme di variabili casuali La media della somma di due variabili casuali X e Y è la somma delle loro medie: E(X + Y ) = E(X) + E(Y ) = µX + µY . (2.26) 32 i i i i i i “generale” — 2005/7/10 — 22:25 — page 33 — #63 i i 2.4. Distribuzioni normale, chi-quadrato, Fm,∞ e t di Student La varianza della somma di X e Y è la somma delle loro varianze, più due volte la loro covarianza: 2 var(X + Y ) = var(X) + var(Y ) + 2cov(X, Y ) = σX + σY2 + 2σXY . (2.27) Se X e Y sono indipendenti, la loro covarianza è zero e la varianza della loro somma è la somma delle loro varianze: 2 var(X + Y ) = var(X) + var(Y ) = σX + σY2 (se X e Y sono indipendenti). (2.28) Utili espressioni per medie, varianze e covarianze riguardanti somme ponderate di variabili casuali sono raccolte nel concetto chiave 2.3. I risultati nel concetto chiave 2.3 sono derivati nell’appendice 2.1. 2.4 Distribuzioni normale, chi-quadrato, Fm,∞ e t di Student Le distribuzioni di probabilità che si incontrano più frequentemente in econometria sono le distribuzioni normale, chi-quadrato, Fm,∞ e t di Student. La distribuzione normale Una variabile casuale continua con una distribuzione normale ha una densità di probabilità con la familiare forma campanulare mostrata nella figura 2.3. La funzione specifica che definisce la densità di probabilità normale è riportata nell’appendice 15.1. Come mostra la figura 2.3, la densità normale con media µ e varianza σ 2 è simmetrica attorno alla sua media e concentra il 95% della sua probabilità tra µ − 1, 96σ e µ + 1, 96σ. Una notazione e una terminologia speciali sono state sviluppate per la distribuzione normale. La distribuzione normale con media µ e varianza σ è indicata concisamente da “N (µ, σ 2 )”. La distribuzione normale standard è la distribuzione normale con media µ = 0 e varianza σ 2 = 1 ed è indicata da N (0, 1). Variabili casuali normali aventi distribuzione N (0, 1) sono spesso indicate da Z e la funzione di ripartizione normale standard è rappresentata dalla lettera greca Φ; perciò, Pr(Z ≤ c) = Φ(c), dove c è una costante. I valori della funzione di ripartizione normale standard sono tabulati nella tavola 1 dell’appendice finale. Per calcolare le probabilità nel caso di una variabile normale con media e varianza generiche, è necessario standardizzarla sottraendo prima la media e dividendo poi il risultato per la deviazione standard. Ad esempio, supponiamo che Y si distribuisca secondo una N (1, 4), ovvero che Y si distribuisca normalmente con media 1 e varianza 4. Qual è la probabilità 33 i i i i i i “generale” — 2005/7/10 — 22:25 — page 34 — #64 i i 2.4. Distribuzioni normale, chi-quadrato, Fm,∞ e t di Student Concetto chiave 2.3: medie, varianze e covarianze di somme di variabili casuali 2 Siano X, Y e V variabili casuali, siano µX e σX la media e la varianza di X, sia σXY la covarianza tra X e Y (e cosı̀ via per le altre variabili) e a, b e c costanti arbitrarie. Le proprietà seguenti seguono dalla definizione di media, varianza e covarianza: E(a + bX + cY ) = a + bµX + cµY , (2.29) var(a + bY ) = b2 σY2 , (2.30) 2 var(aX + bY ) = a2 σX + 2abσXY + b2 σY2 , (2.31) E(Y 2 ) = σY2 + µ2Y , (2.32) cov(a + bX + cV, Y ) = bσXY + cσV Y e (2.33) E(XY ) = σXY + µX µY . q 2 σ 2 (disuguaglianza della correlazione) . |corr(X, Y )| ≤ 1 e |σXY | ≤ σX Y (2.34) (2.35) che Y ≤ 2, ovvero a cosa è uguale l’area ombreggiata della figura 2.4a? La versione standardizzata di Y è pari a Y meno la sua media, tutto diviso per la deviazione standard, cioè √ a (Y − 1)/ 4 = 21 (Y − 1). Di conseguenza, la variabile casuale 21 (Y − 1) si distribuisce normalmente con media zero e varianza uno (vedi esercizio 2.4); essa ha la distribuzione normale standard mostrata nella figura 2.4b. Ora Y ≤ 2 è equivalente a 12 (Y − 1) ≤ 21 (2 − 1), ovvero 21 (Y − 1) ≤ 12 . Perciò, 1 1 1 Pr(Y ≤ 2) = Pr[ (Y − 1) ≤ ] = Pr(Z ≤ ) = Φ(0, 5) = 0, 691, 2 2 2 (2.36) dove il valore 0, 691 è tratto dalla tavola 1 dell’appendice finale. Lo stesso approccio può essere utilizzato per calcolare la probabilità che una variabile casuale distribuita normalmente ecceda un valore dato oppure che cada in un certo intervallo. Questi passaggi sono descritti in sintesi nel concetto chiave 2.4. Il riquadro “Una brutta giornata a Wall Street” presenta un’applicazione insolita della funzione di ripartizione normale. La distribuzione normale multivariata. La distribuzione normale può essere generalizzata per descrivere la distribuzione congiunta di un gruppo di variabili casuali. In questo caso, la distribuzione è detta distribuzione normale multivariata o, se si considerano soltanto due variabili, distribuzione normale bivariata. La formula relativa alla p.d.f. della normale bi34 i i i i i i “generale” — 2005/7/10 — 22:25 — page 35 — #65 i i 2.4. Distribuzioni normale, chi-quadrato, Fm,∞ e t di Student Figura 2.3: la densità di probabilità normale 95% µ – 1,96σ µ µ + 1,96σ y La funzione di densità di probabilità normale con media µ e varianza σ 2 è una curva di forma campanulare, centrata in µ. L’area sotto la funzione di densità normale compresa tra µ − 1, 96 σ e µ + 1, 96 σ è 0, 95. La distribuzione normale è indicata con N (µ, σ 2 ). variata è riportata nell’appendice 15.1 e la formula della generica p.d.f. normale multivariata è riportata nell’appendice 16.1. La distribuzione normale multivariata ha tre importanti proprietà. Se X e Y hanno una distribuzione normale bivariata con covarianza σXY e se a e b sono due costanti, allora aX + bY ha una distribuzione normale, 2 aX + bY si distribuisce secondo una N (aµX + bµY , a2 σX + b2 σY2 + 2abσXY ) con (X, Y ) normali bivariate. (2.37) Più in generale, se n variabili casuali hanno una distribuzione normale multivariata, allora ogni combinazione lineare di queste variabili (per esempio, la loro somma) si distribuisce normalmente. In secondo luogo, se un gruppo di variabili ha una distribuzione normale multivariata, la distribuzione marginale di ciascuna delle variabili è normale (questo segue dalla (2.37) ponendo a = 1 e b = 0). In terzo luogo, se variabili casuali con distribuzione normale multivariata hanno covaElectronic Services Inc.se X e Y hanno distribuzione normale rianza nulla, tali variabili Publishing sono indipendenti. Cosı̀, 1e bivariata e σXYStock/Watson, = 0, allora X Econometrics e Y sono indipendenti. Nella sezione 2.3 si è detto che, se STOC.ITEM.0003 X e Y sono indipendenti, allora, qualunque sia la loro distribuzione congiunta, σ XY = 0. Fig. 02.03 Se X e Y hanno distribuzione congiunta normale, allora è vero anche il contrario. Questo risultato –per cui la covarianza l’indipendenza– una proprietàFinal speciale della 1st Proof nulla implica 2nd Proof 3rd èProof 35 i i i i i i “generale” — 2005/7/10 — 22:25 — page 36 — #66 i i 2.4. Distribuzioni normale, chi-quadrato, Fm,∞ e t di Student Figura 2.4: calcolo della probabilità che Y ≤ 2 quando Y si distribuisce come una N (1, 4) Pr(Y < 2) N(1, 4) distribuzione y 1,0 2,0 (a) N(1, 4) Pr(Z < 0,5) 0,691 N(0, 1) distribuzione z 0,0 0,5 (b) N(0, 1) Per calcolare Pr(Y ≤ 2), si standardizzi Y e si utilizzi la tavola per la distribuzione normale standard. Y si standardizza sottraendole la sua media (µ = 1) e dividendo per la sua deviazione standard (σ Y = 2). La probabilità che Y ≤ 2 è mostrata nella figura 2.4a e la probabilità corrispondente dopo avere standardizzato Y è mostrata nella figura 2.4b. Poiché la variabile casuale standardizzata Y −1 è una variabile casuale normale 2 standard (Z), Pr(Y ≤ 2) = Pr( Y 2−1 ≤ 2−1 ) = Pr(Z ≤ 0, 5) . Dalla tavola 1 dell’appedince finale, 2 Pr(Z ≤ 0, 5) = 0, 691. distribuzione normale multivariata e non è vera in generale. 36 Electronic Publishing Services Inc. Stock/Watson, Econometrics 1e STOC.ITEM.0004 Fig. 02.04 1st Proof i i 2nd Proof 3rd Proof Final i i i i “generale” — 2005/7/10 — 22:25 — page 37 — #67 i i 2.4. Distribuzioni normale, chi-quadrato, Fm,∞ e t di Student Concetto chiave 2.4: calcolo delle probabilità con variabili casuali normali Supponiamo che Y si distribuisca normalmente con media µ e varianza σ 2 ovvero che Y abbia distribuzione N (µ, σ 2 ). Y si standardizza sottraendo la media e dividendo per la sua deviazione standard, cioè calcolando Z = (Y − µ)/σ. Siano c1 e c2 due numeri tali che c1 < c2 e sia d1 = (c1 − µ)/σ e d2 = (c2 − µ)/σ. Allora, Pr(Y ≤ c2 ) = Pr(Z ≤ d2 ) = Φ(d2 ), (2.38) Pr(Y ≥ c1 ) = Pr(Z ≥ d1 ) = 1 − Φ(d1 ) e (2.39) Pr(c1 ≤ Y ≤ c2 ) = Pr(d1 ≤ Z ≤ d2 ) = φ(d2 ) − Φ(d1 ). (2.40) La funzione di ripartizione normale Φ è tabulata nella tavola 1 dell’appendice finale. Le distribuzioni chi-quadrato e Fm,∞ Le distribuzioni chi-quadrato e Fm,∞ sono usate per verificare alcuni tipi di ipotesi in statistica e in econometria. La distribuzione chi-quadrato è la distribuzione della somma dei quadrati di m variabili casuali indipendenti, ognuna con una distribuzione normale standard. Questa distribuzione dipende da m, che è chiamato numero di gradi di libertà della distribuzione chi-quadrato. Ad esempio, siano Z1 , Z2 e Z3 variabili casuali normali standard indipendenti. Allora Z12 +Z22 + Z32 ha una distribuzione chi-quadrato con 3 gradi di libertà. Il nome di questa distribuzione deriva dalla lettera dell’alfabeto greco usata per contrassegnarla: la distribuzione chi-quadrato con m gradi di libertà è rappresentata da χ2m . Percentili scelti della distribuzione χ2m sono riportati nella tavola 3 dell’appendice finale. Ad esempio, la tavola 3 dell’appendice finale mostra che il 95-esimo percentile della distribuzione χ23 è 7, 81, e quindi Pr(Z12 + Z22 + Z32 ≤ 7, 81) = 0, 95. Una distribuzione strettamente legata alla precedente è la distribuzione F m,∞ . La distribuzione Fm,∞ è la distribuzione di una variabile casuale chi-quadrato con m gradi di libertà, divisa per m. Equivalentemente, la distribuzione Fm,∞ è la distribuzione della media di m variabili casuali normali standard al quadrato. Ad esempio, se Z 1 , Z2 e Z3 sono variabili casuali normali standard indipendenti, allora (Z12 + Z22 + Z32 )/3 ha distribuzione F3,∞ . Percentili scelti della distribuzione Fm,∞ sono riportati nella tavola 4 dell’appendice finale. Ad esempio, il 95-esimo percentile della distribuzione F3,∞ è 2, 60 e quindi Pr[(Z12 + Z22 + Z32 )/3 ≤ 2, 60] = 0, 95. Il 95-esimo percentile della distribuzione F3,∞ è il 95-esimo percentile della distribuzione χ23 , diviso per tre (7, 81/3 = 2, 60). 37 i i i i i i “generale” — 2005/7/10 — 22:25 — page 38 — #68 i i 2.4. Distribuzioni normale, chi-quadrato, Fm,∞ e t di Student Una brutta giornata a Wall Street In un giorno tipico, il valore totale dei titoli scambiati nel mercato azionario USA può salire o scendere dell’1% o anche più. È molto –ma niente in confronto a quanto accadde lunedı̀ 19 ottobre 1987. In quel “lunedı̀ nero”, il Dow Jones Industrial Average (una media dei maggiori 30 titoli industriali) scese del 25, 6%! Dall’1 gennaio 1980 al 16 ottobre 1987, la deviazione standard dei rendimenti giornalieri (ovvero la variazione percentuale giornaliera del prezzo) sul Dow era stata dell’1, 16%, perciò la diminuzione del 25, 6% generò un rendimento negativo di 22 (= 25, 6/1, 16) deviazioni standard. L’enormità di tale diminuzione può essere osservata nella figura 2.5, un grafico del rendimento giornaliero del Dow durante gli anni ’80. Se i rendimenti dei titoli fossero distribuiti normalmente, la probabilità di una diminuzione di almeno 22 deviazioni standard sarebbe Pr(Z ≤ −22) = Φ(−22). Questo valore non è presente nella tavola 1 dell’appendice finale, ma è possibile calcolarlo usando un computer (si provi a farlo!). Questa probabilità è 1, 4 × 10−107 ovvero 0, 000 . . . 00014, con un totale di 106 zeri! Quanto piccolo è 1, 4 × 10−107 ? Si consideri quanto segue: • la popolazione mondiale è di circa 6 miliardi, perciò la probabilità di vincere una lotteria tra tutte le persone viventi è di circa 1 su 6 miliardi, ovvero 2 × 10 −10 ; • si crede che l’universo esista da circa 15 miliardi di anni, che sono composti da circa 5 × 1017 secondi; perciò, la probabilità di scegliere a caso un particolare secondo tra tutti i secondi che sono passati dalla notte dei tempi è 2 × 10−18 ; • ci sono approssimativamente 1043 molecole di gas nel primo chilometro al di sopra della superficie terrestre. La probabilità di sceglierne una a caso è di 10 −43 . Sebbene sia stata una brutta giornata per Wall Street, il fatto che essa sia realmente avvenuta suggerisce che la sua probabilità fosse maggiore di 1, 4 × 10 −107 . In effetti, i rendimenti dei titoli hanno una distribuzione con code più pesanti rispetto a una distribuzione normale; in altre parole, ci sono più giorni con rendimenti grandi e positivi o grandi e negativi di quanto suggerito dalla distribuzione normale. Il capitolo 14 presenta un modello econometrico per i rendimenti dei titoli usato dai professionisti finanziari, che sembra più coerente con la frequenza di brutte giornate –e di belle giornate– che si ha effettivamente a Wall Street. 38 i i i i i i “generale” — 2005/7/10 — 22:25 — page 39 — #69 i i 2.5. Campionamento casuale e distribuzione della media campionaria La distribuzione t di Student La distribuzione t di Student con m gradi di libertà è la distribuzione del rapporto di due variabili casuali indipendenti, la prima delle quali è normale standard e l’altra è la radice quadrata di una variabile casuale chi-quadrato con m gradi di libertà divisa per m. In altre parole, sia Z una variabile casuale normale standard, sia W una variabile casuale con distribuzione chi-quadrato con m gradi di libertà e siano Z e W indipendentemente distribuite. p Allora, la variabile casuale Z/ W/m ha una distribuzione t di Student (anche detta distribuzione t) con m gradi di libertà. Questa distribuzione si indica con tm . Alcuni percentili della distribuzione t di Student sono riportati nella tavola 2 dell’appendice finale. La distribuzione t di Student dipende dai gradi di libertà m. Per questo motivo, anche il 95-esimo percentile della distribuzione tm dipende dai gradi di libertà m. La distribuzione t di Student ha una forma campanulare simile a quella della distribuzione normale, ma, quando m è piccolo (20 o meno), ha più massa nelle code, ovvero ha code “più pesanti” rispetto alla normale. Quando m è pari a 30 o più, la distribuzione t di Student è ben approssimata dalla distribuzione normale standard e la distribuzione t∞ è uguale alla distribuzione normale standard. 2.5 Campionamento casuale e distribuzione della media campionaria Quasi tutte le procedure statistiche ed econometriche usate in questo libro coinvolgono medie o medie ponderate calcolate per un campione di dati. Caratterizzare le distribuzioni delle medie campionarie, perciò, è un passo essenziale per comprendere le prestazioni delle procedure econometriche. Questa sezione introduce alcuni concetti di base riguardanti il campionamento casuale e le distribuzioni delle medie che saranno usate nel resto del libro. Cominciamo discutendo il campionamento casuale. L’atto di campionare casualmente, ovvero di selezionare in modo casuale un campione da una popolazione più ampia, ha l’effetto di rendere la media campionaria stessa una variabile casuale. Siccome la media campionaria è una variabile casuale, ha una distribuzione di probabilità, indicata come la sua distribuzione campionaria. Questa sezione si conclude evidenziando alcune proprietà della distribuzione campionaria della media campionaria. Campionamento casuale Campionamento casuale semplice. Supponiamo che il nostro studente pendolare della sezione 2.1 aspiri a diventare uno statistico e decida di prendere nota del suo tempo di per39 i i i i i i “generale” — 2005/7/10 — 22:25 — page 40 — #70 i i 2.5. Campionamento casuale e distribuzione della media campionaria Figura 2.5: variazioni percentuali giornaliere nell’indice Dow Jones Industrial Average negli anni ’80 Variazione percentuale 10 5 0 -5 -10 -15 -20 19 ottobre 1987 -25 -30 1980 1981 1982 1983 1984 1985 1986 1987 1988 1989 1990 Anno Durante gli anni ’80, la variazione percentuale media giornaliera dell’indice Dow-Jones è stata di 0, 05% e la sua deviazione standard di 1, 16%. Il 19 ottobre 1987–il “lunedı̀ nero”–l’indice è sceso del 25, 6%, ovvero più di 22 deviazioni standard. correnza in vari giorni, scelti a caso durante l’anno scolastico. Il suo tempo di percorrenza giornaliero ha la funzione di ripartizione mostrata nella figura 2.2a. Siccome tali giorni sono stati scelti a caso, conoscere il valore del tempo di percorrenza in uno di questi giorni scelti a Publishing caso non fornisce alcunaElectronic informazione sulServices tempoInc. di percorrenza in un altro giorno; cioè, sicStock/Watson, Econometrics 1e come i giorni sono stati scelti a caso, i valori del tempo di percorrenza in ognuno dei diversi STOC.ITEM.0005 Fig. 02.05 giorni sono variabili casuali distribuite indipendentemente. 1st Proof 2nd Proof 3rd Proof Final La situazione descritta nel paragrafo precedente è un esempio dello schema di campionamento più semplice usato in statistica, detto campionamento casuale semplice, nel quale n oggetti sono scelti a caso da una popolazione (la popolazione dei giorni di pendolarismo) e ogni membro della popolazione (ogni giorno) ha la stessa probabilità di essere incluso nel campione. Le n osservazioni nel campione sono indicate con Y1 , . . . , Yn , dove Y1 è la prima osservazione, Y2 è la seconda osservazione e cosı̀ via. Nell’esempio del pendolare, Y 1 è il tempo 40 i i i i i i “generale” — 2005/7/10 — 22:25 — page 41 — #71 i i 2.5. Campionamento casuale e distribuzione della media campionaria di percorrenza nel primo degli n giorni selezionati a caso e Yi è quello nell’i-esimo giorno selezionato a caso. Siccome i membri della popolazione inclusi nel campione sono selezionati casualmente, i valori delle osservazioni Y1 , . . . , Yn sono essi stessi casuali. Se sono scelti membri diversi della popolazione, il loro valore osservato di Y differisce. Per questo motivo, l’atto di campionare casualmente implica che Y1 , . . . , Yn possono essere trattate come variabili casuali. Prima di essere campionate, Y1 , . . . , Yn possono assumere molti valori; dopo essere state campionate, si registra un valore specifico per ciascuna osservazione. Estratti i.i.d. Poiché Y1 , . . . , Yn sono estratti casualmente dalla stessa popolazione, la distribuzione marginale di Yi è la stessa per ogni i = 1, . . . , n; tale distribuzione marginale è la distribuzione di Y nella popolazione che si sta campionando. Quando Y i ha la stessa distribuzione marginale per i = 1, . . . , n, si dice che Y1 , . . . , Yn sono identicamente distribuite. Dato un campionamento casuale semplice, conoscere il valore di Y 1 non fornisce alcuna informazione su Y2 , e quindi la distribuzione condizionata di Y2 data Y1 coincide con la distribuzione marginale di Y2 . In altre parole, dato un campionamento casuale semplice, Y 1 è distribuita indipendentemente da Y2 , . . . , Yn . Quando Y1 , . . . , Yn sono estratte dalla stessa distribuzione e sono indipendentemente distribuite, si dice che sono indipendentemente e identicamente distribuite o i.i.d. Il campionamento casuale semplice e gli estratti i.i.d. sono riassunti nel concetto chiave 2.5. Distribuzione campionaria della media campionaria La media campionaria delle n osservazioni Y1 , . . . , Yn è n Ȳ = 1X 1 Yi . (Y1 + Y2 + . . . + Yn ) = n n i=1 (2.41) Un concetto essenziale è che l’estrazione di un campione casuale ha l’effetto di rendere la media campionaria Ȳ una variabile casuale. Siccome il campione è stato estratto a caso, il valore assunto da ogni Yi è casuale. Siccome Y1 , . . . , Yn sono casuali, la loro media è casuale. Se si fosse estratto un campione diverso, allora le osserazioni e la media campionaria sarebbero state diverse: il valore di Ȳ differisce da un campione estratto casualmente a un altro. Per esempio, supponiamo che il nostro studente pendolare abbia scelto casualmente cinque giorni per i quali registrare il tempo di percorrenza, e poi abbia calcolato la media di questi cinque valori. Se avesse scelto cinque giorni diversi, avrebbe registrato cinque diversi tempi di percorrenza –e avrebbe perciò calcolato un valore diverso della media campionaria. 41 i i i i i i “generale” — 2005/7/10 — 22:25 — page 42 — #72 i i 2.5. Campionamento casuale e distribuzione della media campionaria Concetto chiave 2.5: campionamento casuale semplice e variabili casuali i.i.d. Nel campionamento casuale semplice, n oggetti sono estratti casualmente da una popolazione e ogni oggetto ha la stessa probabilità di essere estratto. Il valore della variabile casuale Y per l’i-esimo oggetto estratto a caso è indicata con Yi . Siccome ciascun oggetto ha la stessa probabilità degli altri di essere estratto e la distribuzione di Y i è la stessa per ogni i, le variabili casuali Y1 , . . . , Yn sono indipendentemente e identicamente distribuiti (i.i.d.); in altre parole, la distribuzione di Yi è la stessa per ogni i = 1, . . . , n e Y1 è distribuito indipendentemente da Y2 , . . . , Yn e cosı̀ via. Poiché Ȳ è casuale, ha una distribuzione di probabilità. La distribuzione di Ȳ è detta distribuzione campionaria di Ȳ , perché è la distribuzione di probabilità associata ai possibili valori di Ȳ che possono essere calcolati per diversi campioni possibili Y1 , . . . , Yn . La distribuzione campionaria di medie e medie ponderate gioca un ruolo centrale in statistica ed econometria. Cominciamo la nostra discussione della distribuzione campionaria di Ȳ calcolando la sua media e varianza sotto condizioni generali circa la distribuzione di Y nella popolazione. Media e varianza di Ȳ . Supponiamo che le osservazioni Y1 , . . . , Yn siano i.i.d. e siano µY e σY2 la media e la varianza di Yi (poiché le osservazioni sono i.i.d., la media e la varianza sono le stesse per ogni i = 1, . . . , n). Quando n = 2, la media della somma Y 1 +Y2 si ottiene tramite la (2.26), cioè E(Y1 + Y2 ) = µY + µY = 2µY . Perciò, il valore medio della media campionaria è E[ 21 (Y1 + Y2 )] = 12 × 2µY = µY . In generale, n E(Ȳ ) = 1X E(Yi ) = µY . n i=1 (2.42) La varianza di Ȳ si ottiene applicando la (2.28). Ad esempio, per n = 2, var(Y 1 + Y2 ) = 2σY2 , e quindi (applicando la (2.31) con a = b = 12 e cov(Y1 , Y2 ) = 0) var(Ȳ ) = 21 σY2 . Per n generico, siccome le Y1 , . . . , Yn sono i.i.d., Yi e Yj sono indipendentemente distribuite per i 6= j e quindi cov(Yi , Yj ) = 0. Perciò, n var(Ȳ ) = var( = 1X Yi ) n i=1 n n n 1 X 1 X X var(Y ) + cov(Yi , Yj ) i n2 i=1 n2 i=1 j=1,j6=i = σY2 n . (2.43) 42 i i i i i i “generale” — 2005/7/10 — 22:25 — page 43 — #73 i i 2.6. Approssimazione alla distribuzione campionaria per grandi campioni √ La deviazione standard di Ȳ è la radice quadrata della varianza, σY / n. In sintesi, la media, la varianza e la deviazione standard di Ȳ sono E(Ȳ ) = µY , var(Ȳ ) = σȲ2 = (2.44) σY2 n e (2.45) σY std.dev(Ȳ ) = σȲ = √ . (2.46) n Questi risultati valgono qualunque sia la distribuzione di Yi ; cioè, non è necessario che la distribuzione di Yi non deve necessariamente assumere una forma specifica, come la normale, perché valgano le (2.44), (2.45) e (2.46). La notazione σȲ2 indica la varianza della distribuzione campionaria della media campionaria Ȳ . Di contro, σY2 è la varianza di ogni singola Yi , ovvero la varianza della distribuzione per la popolazione dalla quale è estratta l’osservazione. Similmente, σ Ȳ rappresenta la deviazione standard della distribuzione campionaria di Ȳ . La distribuzione campionaria di Ȳ quando Y si distribuisce normalmente. Si supponga che Y1 , . . . , Yn siano estratti i.i.d. dalla distribuzione N (µY , σY2 ). Come stabilito dalla (2.37), la somma di n variabili casuali normalmente distribuite è essa stessa normalmente distribuita. Siccome la media di Ȳ è µY e la varianza di Ȳ è σY2 /n, questo implica che, se Y1 , . . . , Yn sono estratti i.i.d. dalla N (µY , σY2 ), allora Ȳ si distribuisce come N (µY , σY2 /n). 2.6 Approssimazione alla distribuzione campionaria per grandi campioni Le distribuzioni campionarie giocano un ruolo centrale nello sviluppo di procedure statistiche ed econometriche, perciò è importante conoscere, in senso matematico, quale sia la distribuzione campionaria di Ȳ . Per caratterizzare le distribuzioni campionarie si possono seguire due approcci: un approccio “esatto” e un approccio “approssimato”. L’approccio “esatto” richiede di derivare una formula per la distribuzione campionaria che valga esattamente per qualunque valore di n. La distribuzione campionaria che descrive esattamente la distribuzione di Ȳ per ogni n è detta distribuzione esatta o distribuzione in campioni finiti di Ȳ . Ad esempio, se Y si distribuisce normalmente e Y1 , . . . , Yn sono i.i.d., allora (come discusso nella sezione 2.5) la distribuzione esatta di Ȳ è normale con media µY e varianza σY2 /n. Sfortunatamente, se la distribuzione di Y non è normale, in generale la distribuzione esatta di Ȳ è molto complessa e dipende dalla distribuzione di Y . L’approccio “approssimato” usa approssimazioni alla distribuzione campionaria che si basano su una numerosità campionaria elevata. L’approssimazione per grandi campioni alla distribuzione campionaria è spesso detta distribuzione asintotica –“asintotica” perché le 43 i i i i i i “generale” — 2005/7/10 — 22:25 — page 44 — #74 i i 2.6. Approssimazione alla distribuzione campionaria per grandi campioni Concetto chiave 2.6: la convergenza in probabilità, la consistenza e la legge dei grandi numeri La media campionaria Ȳ converge in probabilità a µY (o, equivalentemente, Ȳ è consistente per µY ), se, per qualunque costante c > 0, la probabilità che Ȳ si trovi tra µY − c e p µY +c diventa arbitrariamente prossima a uno al crescere di n. Ciò si indica con Ȳ → µY . La legge dei grandi numeri afferma che se le Yi , per i = 1, . . . , n, sono indipendentemente p e identicamente distribuite con E(Yi ) = µY e var(Yi ) = σY2 < ∞, allora Ȳ → µY . approssimazioni diventano esatte al limite, per n −→ ∞. Come abbiamo visto in questa sezione, queste approssimazioni possono essere molto accurate anche se la dimensione campionaria è di sole n = 30 osservazioni. Poiché i campioni usati nella pratica econometrica tipicamente contengono centinaia o migliaia di osservazioni, queste distribuzioni asintotiche possono essere ottime approssimazioni dell’esatta distribuzione campionaria. Questa sezione presenta i due strumenti chiave per l’approssimazione delle distribuzioni campionarie quando la dimensione campionaria è grande, la legge dei grandi numeri e il teorema limite centrale. La legge dei grandi numeri afferma che, per grandi campioni, Ȳ è prossimo a µY con probabilità molto alta. Il teorema limite centrale afferma che, per grandi campioni, la distribuzione campionaria della media campionaria standardizzata ( Ȳ −µY )/σȲ è approssimativamente normale. Sebbene le distribuzioni campionarie esatte siano complesse e dipendano dalla distribuzione di Y , le distribuzioni asintotiche sono semplici. Per di più, sorprendentemente, la distribuzione asintotica normale di (Ȳ − µY )/σȲ non dipende dalla distribuzione di Y . L’approssimazione tramite la distribuzione normale fornisce un’enorme semplificazione e rappresenta la base della teoria della regressione usata in tutto questo libro. Legge dei grandi numeri e consistenza La legge dei grandi numeri stabilisce che, sotto condizioni generali, Ȳ è prossima a µY con probabilità molto alta quando n è grande. Essa è talvolta detta “legge delle medie”. Quando si prende la media di un gran numero di variabili casuali aventi la stessa media, i valori grandi bilanciano quelli piccoli e la loro media campionaria si avvicina alla loro media comune. Ad esempio, consideriamo una versione semplificata dell’esperimento condotto dal nostro studente pendolare, nel quale semplicemente si riporta se il tempo di percorrenza è stato breve (meno di 20 minuti) o lungo. Si ponga Yi uguale a uno se il viaggio è stato breve nell’i-esimo giorno selezionato casualmente e uguale a zero se è stato lungo. Siccome lo studente ha usato un campionamento casuale semplice, Y1 , . . . , Yn sono i.i.d. Cosı̀, le Yi , con 44 i i i i i i “generale” — 2005/7/10 — 22:25 — page 45 — #75 i i 2.6. Approssimazione alla distribuzione campionaria per grandi campioni i = 1, . . . , n, sono estratti i.i.d. da una variabile casuale di Bernoulli, dove (dalla tabella 2.2) la probabilità che Yi = 1 è 0, 78. Siccome l’aspettativa di una variabile casuale di Bernoulli è la sua probabilità di successo, E(Yi ) = µY = 0, 78. La media campionaria Ȳ è la frazione di giorni nel campione nei quali il viaggio è stato breve. La figura 2.6 mostra la distribuzione campionaria di Ȳ per varie dimensioni del campione n. Quando n = 2 (figura 2.6a), Ȳ può assumere solo i tre valori 0, 12 e 1 (rispettivamente nessun viaggio è stato breve, uno è stato breve ed entrambi sono stati brevi), nessuno dei quali è particolarmente vicino alla vera proporzione nella popolazione, 0, 78. Al crescere di n, comunque (figure 2.6b-d), Ȳ assume più valori e la distribuzione campionaria diventa fortemente concenrata intorno a µY . La proprietà per cui Ȳ è prossima a µY con probabilità crescente al crescere di n è detta convergenza in probabilità o, più concisamente, consistenza (vedi il concetto chiave 2.6). La legge dei grandi numeri afferma che, sotto certe condizioni, Ȳ converge in probabilità a µY o, equivalentemente, che Ȳ è consistente per µY . Le condizioni perché valga la legge dei grandi numeri che useremo in questo libro richiedono che le Yi , con i = 1, . . . , n, siano i.i.d. e che la varianza di Yi , σY2 , sia finita. Il ruolo matematico di queste condizioni è chiarito nella sezione 15.2, dove si dà una prova della legge dei grandi numeri. Se i dati fossero raccolti mediante campionamento casuale semplice, varrebbe l’ipotesi di i.i.d. L’ipotesi che la varianza sia finita dice che valori estremi di Yi sono osservati infrequentemente; altrimenti la media campionaria sarebbe inaffidabile. Questa ipotesi è plausibile per le applicazioni in questo libro; ad esempio, poiché c’è un limite superiore al tempo di percorrenza che lo studente può impiegare (potrebbe parcheggiare e andare a piedi se il traffico fosse spaventoso), la varianza della distribuzione dei tempi di pendolarismo è finita. Il teorema limite centrale Il teorema limite centrale afferma che, sotto condizioni generali, la distribuzione di Ȳ è ben approssimata da una distribuzione normale quando n è grande. Si ricordi che la media di Ȳ è µȲ e la sua varianza è σȲ2 = σY2 /n. Secondo il teorema limite centrale, per n grande la distribuzione di Ȳ è approssimativamente N (µY , σȲ2 ). Come discusso alla fine della sezione 2.5, la distribuzione di Ȳ è esattamente N (µY , σȲ2 ) quando il campione è estratto da una popolazione con distribuzione normale N (µY , σY2 ). Il teorema limite centrale afferma che questo stesso risultato è approssimativamente vero quando n è grande anche se Y 1 , . . . , Yn non si distribuiscono normalmente. La convergenza della distribuzione di Ȳ alla sua approssimazione normale può essere (parzialmente) osservata nella figura 2.6. Tuttavia, siccome la distribuzione diventa abbastanza concentrata per n grande, ciò richiede qualche sforzo visivo. Sarebbe più facile osservare la forma della distribuzione di Ȳ , se si usasse una lente d’ingrandimento o si possedes45 i i i i i i “generale” — 2005/7/10 — 22:25 — page 46 — #76 i i 2.6. Approssimazione alla distribuzione campionaria per grandi campioni Figura 2.6: distribuzione campionaria della media campionaria di n variabili casuali di Bernoulli Probabilità Probabilità 0,7 0,5 0,6 0,4 µ 0,5 µ = 0,78 = 0,78 0,3 0,4 0,3 0,2 0,2 0,1 0,1 0,0 0,0 0,25 0,50 0,75 0,0 0,0 1,00 Valore della media campionaria 0,25 0,50 0,75 1,00 Valore della media campionaria (b) n = 5 (a) n = 2 Probabilità Probabilità 0,25 0,125 0,20 µ µ 0,100 = 0,78 0,15 = 0,78 0,075 0,10 0,050 0,05 0,025 0,00 0,0 0,25 0,50 0,75 1,00 Valore della media campionaria (c) n = 25 0,00 0,0 0,25 0,50 0,75 1,00 Valore della media campionaria (d) n = 100 Le figure mostrano le distribuzioni campionarie di Ȳ , la media campionaria di n variabili casuali Bernoulliane indipendenti con p = Pr(Yi = 1) = 0, 78 (la probabilità di un tempo di percorrenza veloce è 78%). La varianza della distribuzione campionaria di Ȳ diminuisce al crescere di n, per cui la distribuzione campionaria si concentra sempre più attorno alla sua media µ = 0, 78 al crescere della dimensione campionaria n. 46 i i i Electronic Publishing Services Inc. Stock/Watson, Econometrics 1e STOC.ITEM.0006 Fig. 02.06 i i i “generale” — 2005/7/10 — 22:25 — page 47 — #77 i i 2.6. Approssimazione alla distribuzione campionaria per grandi campioni Figura 2.7: distribuzione della media campionaria di n variabili casuali di Bernoulli con p = 0, 78 Probabilità Probabilità 0,7 0,5 0,6 0,5 0,4 0,4 0,3 0,3 0,2 0,2 0,1 0,1 0,0 –3,0 –2,0 –1,0 0,0 1,0 2,0 0,0 –3,0 –2,0 –1,0 3,0 Valore standardizzato della media campionaria (a) n = 2 0,0 1,0 2,0 3,0 Valore standardizzato della media campionaria (b) n = 5 Probabilità Probabilità 0,25 0,12 0,20 0,09 0,15 0,06 0,10 0,03 0,05 0,00 –3,0 –2,0 –1,0 (c) n = 25 0,0 1,0 2,0 3,0 0,00 –3,0 –2,0 –1,0 Valore standardizzato della media campionaria (d) n = 100 0,0 1,0 2,0 3,0 Valore standardizzato della media campionaria Le figure mostrano la distribuzione campionaria di Ȳ nella figura 2.6, dopo aver standardizzato Ȳ . In questo modo, le distribuzioni della figura 2.6 vengono centrate e si ingrandisce la scala dell’asse orizzontale per un √ fattore pari a n. Quando la media campionaria è grande, le distribuzioni campionarie sono approssimate sempre meglio dalla distribuzione normale (linea continua), cosı̀ come predetto dal teorema limite centrale. 47 i i i Electronic Publishing Services Inc. Stock/Watson, Econometrics 1e STOC.ITEM.0007 Fig. 02.07 1st Proof 2nd Proof i 3rd Proof Final i i “generale” — 2005/7/10 — 22:25 — page 48 — #78 i i 2.6. Approssimazione alla distribuzione campionaria per grandi campioni Figura 2.8: distribuzione della media campionaria standardizzata di n estratti da una distribuzione asimmetrica Probabilità Probabilità 0,50 0,12 0,40 0,09 0,30 0,06 0,20 0,03 0,10 0,00 –3,0 –2,0 –1,0 0,0 1,0 2,0 0,00 –3,0 –2,0 –1,0 3,0 (a) n = 1 1,0 2,0 3,0 (b) n = 5 Probabilità Probabilità 0,12 0,12 0,09 0,09 0,06 0,06 0,03 0,03 0,00 –3,0 –2,0 –1,0 (c) n = 25 0,0 Valore standardizzato della media campionaria Valore standardizzato della media campionaria 0,0 1,0 2,0 3,0 0,00 –3,0 –2,0 –1,0 Valore standardizzato della media campionaria (d) n = 100 0,0 1,0 2,0 3,0 Valore standardizzato della media campionaria La figura mostra la distribuzione campionaria della media campionaria standardizzata di n estratti dalla popolazione asimmetrica mostrata nella figura 2.8a. Quando n è piccolo (n = 5), la distribuzione campionaria, cosı̀ come la popolazione, è asimmetrica. Quando n è grande (n = 100), però, la distribuzione campionaria è ben approssimata da una distribuzione normale standard (linea continua), come predetto dal teorema limite centrale. 48 i i i Electronic Publishing Services Inc. Stock/Watson, Econometrics 1e STOC.ITEM.0008 Fig. 02.08 1st Proof 2nd Proof i 3rd Proof Final i i “generale” — 2005/7/10 — 22:25 — page 49 — #79 i i 2.6. Approssimazione alla distribuzione campionaria per grandi campioni se qualche altro mezzo per mettere a fuoco meglio o per espandere l’asse orizzontale della figura. Un modo per farlo è quello di standardizzare Ȳ , ovvero di sottrarre la sua media e dividere poi per la sua deviazione standard, cosı̀ da avere media nulla e varianza unitaria. Questa trasformazione porta a esaminare la distribuzione della versione standardizzata di Ȳ , (Ȳ − µY )/σȲ . Secondo il teorema limite centrale, questa distribuzione è ben approssimata da una distribuzione N (0, 1) quando n è grande. La distribuzione della media standardizzata (Ȳ − µY )/σȲ è presentata nella figura 2.7, con riferimento alle distribuzioni nella figura 2.6; le distribuzioni della figura 2.7 sono esattamente le stesse della figura 2.6, eccetto che la scala dell’asse orizzontale è cambiata in modo che la variabile standardizzata abbia media nulla e varianza unitaria. Dopo questo cambiamento di scala, è facile osservare che, se n è sufficientemente grande, la distribuzione di Ȳ è ben approssimata da una distribuzione normale. Ci si potrebbe chiedere cosa si intenda per “sufficientemente grande”. In altre parole, quanto grande deve essere n perché la distribuzione di Ȳ sia approssimativamente normale? La risposta è “dipende”. La qualità dell’approssimazione normale dipende dalla distribuzione sottostante le Yi che compongono la media. A un estremo, se le Yi sono distribuite normalmente, Ȳ si distribuisce esattamente secondo una normale per ogni n. Al contrario, quando le Yi sottostanti hanno una distribuzione che è lontana dalla normale, questa approssimazione può richiedere n = 30 o anche valori maggiori. Questo punto è illustrato nella figura 2.8 per la distribuzione di una popolazione, quella nella figura 2.8a, che si differenzia abbastanza da una distribuzione di Bernoulli. Tale distribuzione ha una coda destra lunga (è “asimmetrica” verso destra). La distribuzione campionaria di Ȳ , dopo essere stata centrata e riscalata, è mostrata nella figura 2.8b, c e d per n = 5, 25 e 100. Sebbene la distribuzione campionaria si avvicini alla forma campanulare per n = 25, l’approssimazione normale ha ancora notevoli imperfezioni. Per n = 100, però, l’approssimazione è abbastanza buona. In effetti, per n ≥ 100 l’approssimazione normale della distribuzione di Ȳ è molto buona per un’ampia gamma di distribuzioni della popolazione. Il teorema limite centrale è un risultato notevole. Mentre le distribuzioni di Ȳ per “n piccolo” nelle parti b e c delle figure 2.7 e 2.8 sono complesse e abbastanza diverse tra loro, le distribuzioni per “n grande” nelle figure 2.7d e 2.8d sono semplici e, sorprendentemente, hanno forma simile. Siccome la distribuzione di Ȳ si avvicina a una normale al crescere di n, si dice che Ȳ si distribuisce asintoticamente secondo una normale. La convenienza dell’approssimazione normale, combinata con la sua ampia applicabilità dovuta al teorema limite centrale, la rende uno dei fondamenti della moderna statistica applicata. Il teorema limite centrale è riassunto nel concetto chiave 2.7. 49 i i i i i i “generale” — 2005/7/10 — 22:25 — page 50 — #80 i i Sommario Concetto chiave 2.7: teorema limite centrale Si supponga che Y1 , . . . , Yn siano i.i.d., con E(Yi ) = µY e var(Yi ) = σY2 , dove 0 < σY2 < ∞. Per n −→ ∞, la distribuzione di (Ȳ − µY )/σȲ (dove σȲ2 = σY2 /n) viene approssimata arbitrariamente bene dalla distribuzione normale standard. Sommario 1. Le probabilità con le quali una variabile casuale assume valori diversi sono sintetizzate dalla sua funzione di ripartizione, la funzione di distribuzione di probabilità (per variabili casuali discrete) e la funzione di densità di probabilità (per variabili casuali continue). 2. Il valore atteso di una variabile casuale Y (detto anche media e indicato con µ Y o E(Y )) è il suo valore medio ponderato con le probabilità. La varianza di Y è σ Y2 = E[(Y − µY )2 ] e la deviazione standard di Y è la radice quadrata della sua varianza. 3. La distribuzione congiunta di due variabili casuali X e Y è sintetizzata dalla loro distribuzione di probabilità congiunta. La distribuzione di probabilità condizionata di Y data X = x è la distribuzione di probabilità di Y , condizionata al fatto che X assuma il valore x. 4. Una variabile casuale distribuita normalmente ha la densità di probabilità di forma campanulare mostrata nella figura 2.3. Per calcolare una probabilità associata con una variabile casuale normale, si standardizza prima la variabile, poi si usa la funzione di ripartizione normale standard tabulata nella tavola 1 dell’appendice finale. 5. Il campionamento casuale semplice produce n osservazioni casuali Y 1 , . . . , Yn , che sono indipendentemente e identicamente distribuite (i.i.d.). 6. La media campionaria Ȳ varia da un campione scelto casualmente a un altro, ed è quindi una variabile casuale con una certa distribuzione campionaria. Se Y 1 , . . . , Yn sono i.i.d., allora: a. la distribuzione campionaria di Ȳ ha media µY e varianza σȲ2 = σY2 /n; b. la legge dei grandi numeri afferma che Ȳ converge in probabilità a µY ; c. il teorema limite centrale afferma che la versione standardizzata di Ȳ , (Ȳ − µY )/σȲ , ha una distribuzione normale standard (la distribuzione N (0, 1)), quando n è grande. 50 i i i i i i “generale” — 2005/7/10 — 22:25 — page 51 — #81 i i Sommario Termini chiave risultati (18) probabilità (18) spazio campionario (18) evento (18) variabile casuale discreta (18) variabile casuale continua (18) distribuzione di probabilità (19) distribuzione di probabilità cumulata (19) funzione di ripartizione (c.d.f.) (21) variabile casuale di Bernoulli (20) distribuzione di Bernoulli (20) funzione di densità di probabilità (21) funzione di densità (21) densità (21) valore atteso (21) media (21) varianza (24) deviazione standard (24) momenti di una distribuzione (25) distribuzione di probabilità congiunta (26) distribuzione di probabilità marginale (27) distribuzione condizionata (28) aspettativa condizionata (29) media condizionata (29) legge delle aspettative iterate (30) varianza condizionata (30) indipendenza (31) covarianza (31) correlazione (32) incorrelati (32) distribuzione normale (33) distribuzione normale standard (33) standardizzare una variabile casuale (33) distribuzione normale multivariata (34) distribuzione normale bivariata (34) distribuzione chi-quadrato (37) distribuzione Fm,∞ (37) distribuzione t di Student (39) campionamento casuale semplice (40) popolazione (40) identicamente distribuiti (41) distribuiti indipendentemente e identicamente (i.i.d.) (41) distribuzione campionaria (42) distribuzione esatta (43) distribuzione asintotica (43) legge dei grandi numeri (44) convergenza in probabilità (45) consistenza (45) teorema limite centrale (45) distribuzione normale asintotica (49) Verifica dei concetti 2.1 Gli esempi di variabili casuali usate in questo capitolo comprendono: (a) il genere della prossima persona che si incontrerà; (b) il numero di volte in cui un computer si blocca, (c) il tempo che si impiega per andare a scuola; (d) il fatto che il computer assegnato in biblioteca sia nuovo o vecchio; (e) il fatto che stia piovendo o meno. Spiegare perché ognuno di essi può essere considerato casuale. 2.2 Si supponga che le variabili casuali X e Y siano indipendenti e che se ne conosca la 51 i i i i i i “generale” — 2005/7/10 — 22:25 — page 52 — #82 i i Sommario distribuzione. Spiegare perché la conoscenza del valore di X non rivela niente riguardo al valore di Y . 2.3 Supponiamo che X denoti l’ammontare di pioggia nel nostro paese durante un dato mese e che Y indichi il numero di bambini nati a Los Angeles durante lo stesso mese. X e Y sono indipendenti? Argomentare la risposta. 2.4 Un corso di econometria è seguito da 80 studenti e il peso medio degli studenti è di 65 kg. Nella classe viene selezionato un campione casuale di 4 studenti e se ne calcola il peso medio. Il peso medio degli studenti inclusi nel campione sarà pari a 65 kg.? Perché o perché no? Si usi questo esempio per spiegare perché la media campionaria, Ȳ , è una variabile casuale. 2.5 Si supponga che Y1 , . . . , Yn siano variabili casuali i.i.d. con distribuzione N (1, 4). Si disegni la densità di probabilità di Ȳ , quando n = 2. Si ripeta lo stesso per n = 10 e n = 100. Si descriva in che modo le densità differiscono. Qual è la relazione tra la vostra risposta e la legge dei grandi numeri? 2.6 Si supponga che Y1 , . . . , Yn siano variabili casuali con la distribuzione di probabilità della figura 2.8a. L’obiettivo è quello di calcolare Pr(Ȳ ≤ 0, 1). Sarebbe ragionevole usare l’approssimazione normale se n = 5? E se n = 25 oppure n = 100? Si argomentino le risposte. Esercizi 2.1 Si usi la distribuzione di probabilità fornita nella tabella 2.2 per calcolare: (a) E(Y ) ed 2 e σY2 ; e (c) σXY e corr(X, Y ). E(X); (b) σX 2.2 Usando le variabili casuali X e Y della tabella 2.2, si considerino due nuove variabili 2 e σV2 ; causali W = 3 + 6X e V = 20 − 7Y . Si calcolino: (a) E(W ) e E(V ); (b) σW (c) σW V e corr(W, V ). 2.3 La seguente tabella fornisce la distribuzione di probabilità congiunta tra stato occupazionale e livello scolare per individui impiegati oppure in cerca di occupazione (disoccupati) appartenenti alla popolazione statunitense in età lavorativa, sulla base del Censimento USA del 1990. Non-laureato Laureato Totale Disoccupato (Y=0) Occupato (Y=1) Totale 0,045 0,005 0,05 0,709 0,241 0,95 0,754 0,246 1 52 i i i i i i “generale” — 2005/7/10 — 22:25 — page 53 — #83 i i Sommario a. Si calcoli E(Y ). b. Il tasso di disoccupazione è la frazione della forza lavoro che è disoccupata. Si mostri che il tasso di disoccupazione è dato da 1 − E(Y ). c. Si calcoli E(Y X = 1) e E(Y X = 0). d. Si calcoli il tasso di disoccupazione per (i) laureati e (ii) non laureati. e. Un membro di questa popolazione selezionato a caso dichiara di essere disoccupato. Qual è la probabilità che tale lavoratore sia laureato? Che sia non laureato? f. Livello d’istruzione e stato occupazionale sono indipendenti? Si argomenti la risposta. 2.4 La variabile casuale Y ha media 1 e varianza 4. Sia Z = 2 µZ = 0 e che σZ = 1. 1 2 (Y − 1). Si mostri che 2.5 Si calcolino le seguenti probabilità: a. Pr(Y ≤ 3), con Y distribuito secondo una N (1, 4); b. Pr(Y > 0), con Y distribuito secondo una N (3, 9); c. Pr(40 ≤ Y ≤ 52), con Y distribuito secondo una N (50, 25); d. Pr(6 ≤ Y ≤ 8), con Y distribuito secondo una N (5, 2). 2.6 Si calcolino le seguenti probabilità: a. Pr(Y ≤ 6, 63), con Y distribuito secondo una X12 ; b. Pr(Y ≤ 7, 78), con Y distribuito secondo una X42 ; c. Pr(Y > 2, 32), con Y distribuito secondo una F10,∞ . 2.7 In una popolazione µY = 100 e σY2 = 43. Si usi il teorema limite centrale per calcolare le seguenti probabilità: a. Pr(Ȳ ≤ 101) in un campione casuale di dimensione n = 100; b. Pr(Ȳ > 98) in un campione casuale di dimensione n = 165; c. Pr(101 ≤ Ȳ ≤ 103) in un campione casuale di dimensione n = 64. 2.8 Ogni anno, i temporali possono causare danni alle case. Da un anno all’altro, il danno è casuale. Si indichi con Y il valore in dollari del danno subito in ogni dato anno. Si supponga che nel 95% degli anni Y = 0, ma nel 5% degli anni Y = 20.000$. a. Qual è la media e la deviazione standard del danno per ciascun anno? 53 i i i i i i “generale” — 2005/7/10 — 22:25 — page 54 — #84 i i Appendice b. Si consideri una “assicurazione congiunta” per 100 persone le cui case siano sufficientemente disperse, cosicché, in ogni anno, i danni a case diverse possano essere visti come variabili casuali indipendentemente distribuite. Si indichi con Ȳ il danno medio subito da queste 100 case in un anno. (i) Qual è il valore atteso del danno medio Ȳ ? (ii) Qual è la probabilità che Ȳ ecceda 2.000$? 2.9 Si considerino due variabili casuali X e Y . Si supponga che Y possa assumere k valori, y1 , . . . , yk , e che X possa assumere l valori, x1 , . . . , xl . Pl a. Si mostri che Pr(Y = yj ) = i=1 Pr(Y = yj X = xi ) Pr(X = xi ) (suggerimento: si usi la definizione di Pr(Y = yj X = xi )). b. Si usi la risposta della (a) per verificare l’equazione (2.17). c. Si supponga che X e Y siano indipendenti. Si mostri che σXY = 0 e corr(X, Y ) = 0. 2.10 Questo esercizio fornisce un esempio di una coppia di variabili casuali X e Y per le quali la media condizionata di Y data X dipende da X ma corr(X, Y ) = 0. Siano X e Y due variabili casuali normali standard indipendentemente distribuite e sia Y = X 2 + Z. a. Si mostri che E(Y X) = X 2 . b. Si mostri che µY = 1. c. Si mostri che E(XY ) = 0 (suggerimento: si usi la proprietà della variabile casuale normale standard di avere momenti di ordine dispari tutti nulli). d. Si mostri che cov(X, Y ) = 0 e perciò che corr(X, Y ) = 0. Appendice 2.1: derivazione dei risultati contenuti nel concetto chiave 2.3 Questa appendice deriva le equazioni contenute nel concetto chiave 2.3. L’equazione (2.29) deriva dalla definizione di aspettativa. Per derivare la (2.30), si utilizzi la definizione di varianza per ottenere var(a + bY ) = E [a + bY − E(a + bY )]2 = E [b(Y − µY )]2 = b2 E [(Y − µY )]2 = b2 σY2 . 54 i i i i i i “generale” — 2005/7/10 — 22:25 — page 55 — #85 i i Appendice Per derivare l’equazione (2.31), si usi la definizione di varianza per ottenere var(aX + bY ) = E [(aX + bY ) − (aµX + bµY )]2 = E [a(X − µX ) + b(Y − µY )]2 = E[a2 (X − µX )2 ] + 2E[ab(X − µX )(Y − µY )] +E[b2 (Y − µY )]2 ] = a2 var(X) + 2abcov(X, Y ) + b2 var(Y ) 2 = a 2 σX + 2abσXY + b2 σY2 , (2.47) dove la seconda uguaglianza si ottiene raggruppando i termini, la terza uguaglianza deriva dallo svolgimento del quadrato e la quarta uguaglianza segue dalla definizione di varianza e covarianza. Per derivare la (2.32), si scriva E(Y 2 ) = E [(Y − µY ) + µY ]2 = E[(Y − µY )2 ] + 2µY E(Y − µY ) + µ2Y = σY2 + µ2Y , poiché E(Y − µY ) = 0. Per derivare la (2.33), si usi la definizione della covarianza per ottenere cov(a + bY + cV, Y ) = E {[a + bY + cV − E(a + bX + cV )][Y − µY ]} = E {[b(X − µX ) + c(V − µV )][Y − µY ]} = E {[b(X − µX )][Y − µY ]} + E {[c(V − µV )][Y − µY ]} = bσXY + cσV Y , (2.48) che è l’equazione (2.33). Per derivare la (2.34), si scriva E(XY ) = E {[(X − µX ) + µX ][(Y − µY ) + µY ]} = E[(X − µX )(Y − µY )] + µX E(Y − µY ) + µY E(X − µX ) + µX µY = σXY + µX µY . Dimostriamo ora la disuguaglianza della correlazione (2.35), ovvero che |corr(X, Y )| ≤ 2 e b = 1. Applicando la (2.31), si ha che 1. Sia a = −σXY /σX 2 var(aX + Y ) = a2 σX + σY2 + 2aσXY 2 2 2 2 = (−σXY /σX ) σX + σY2 + 2(−σXY /σX )σXY 2 2 = σY2 − σXY /σX . (2.49) Siccome var(aX + Y ) è una varianza, non può essere negativa, cosı̀ dal membro finale della 2 2 ≥ 0. Riarrangiando quest’ultima disuguaglianza, /σX (2.49) deve essere vero che σY2 − σXY si ottiene 2 2 2 σXY ≤ σX σY (disuguaglianza della covarianza). (2.50) 2 2 2 La disuguaglianza della covarianza implica che σXY /(σX σY ) ≤ 1 o, equivalentemente, |σXY /(σX σY )| ≤ 1, che (tramite la definizione di correlazione) conclude la dimostrazione della disuguaglianza della correlazione, |corr(X, Y )| ≤ 1. 55 i i i i i i “generale” — 2005/7/10 — 22:25 — page 56 — #86 i i i i i i i i “generale” — 2005/7/10 — 22:25 — page 57 — #87 i i Capitolo 3 Richiami di statistica La statistica è la scienza che ci permette di conoscere il mondo intorno a noi attraverso i dati. Gli strumenti statistici aiutano a rispondere a domande riguardanti caratteristiche ignote della distribuzione di popolazioni sulle quali si incentra il nostro interesse. Ad esempio, qual è la media della distribuzione del reddito degli studenti neolaureati? Tale reddito medio differisce tra uomini e donne e, se cosı̀, di quanto? Queste domande riguardano la distribuzione dei redditi nella popolazione dei lavoratori. Un modo di rispondere a tali domande potrebbe essere quello di condurre un’indagine approfondita sulla popolazione dei lavoratori che misuri il reddito di ciascun lavoratore e quindi la distribuzione dei redditi nella popolazione. In pratica, però, una simile indagine omnicomprensiva risulterebbe estremamente costosa. L’unica indagine di questo tipo riguardante l’intera popolazione statunitense è il censimento decennale. Il censimento effettuato negli Stati Uniti nel 2000 è costato 10 miliardi di dollari, e per il processo di formulazione del questionario, di gestione e conduzione delle indagini campionarie e, infine, organizzazione e analisi dei dati richiede dieci anni. Nonostante questo straordinario impegno, molti membri della popolazione sfuggono alla rilevazione e non sono intervistati. Un approccio diverso, più pratico, è perciò necessario. L’idea fondamentale della statistica è che si possono dedurre informazioni sulla distribuzione di una popolazione scegliendo un campione casuale da tale popolazione. Invece di sottoporre a indagine l’intera popolazione statunitense, possiamo limitarci a, diciamo, 1.000 membri scelti a caso attraverso un campionamento casuale semplice. Con metodi statistici è possibile usare questo campione per ottenere conclusioni provvisorie (trarre inferenza statistica) circa le caratteristiche dell’intera popolazione. L’econometria fa pieno uso di tre tipologie di metodi statistici: la stima, la verifica di ipotesi e gli intervalli di confidenza. La stima implica il calcolo di un valore numerico che sia la “migliore congettura” ricavabile dai dati campionari circa una caratteristica ignota della i i i i i i “generale” — 2005/7/10 — 22:25 — page 58 — #88 i i 3.1. Stima della media di una popolazione distribuzione di una popolazione, come la sua media. La verifica di ipotesi richiede la formulazione di un’ipotesi sulla popolazione e usa poi l’evidenza campionaria per decidere se questa ipotesi sia vera. Gli intervalli di confidenza fanno uso di un insieme di dati per stimare un intervallo o un insieme plausibile di valori per una caratteristica ignota della popolazione. Le sezioni 3.1, 3.2 e 3.3 passano in rassegna la stima, la verifica di ipotesi e gli intervalli di confidenza nel contesto dell’inferenza statistica circa la media ignota di una popolazione. Gran parte delle domande interessanti in economia riguarda relazioni tra due o più variabili o il confronto tra popolazioni diverse. Per esempio, c’è differenza tra la retribuzione media dei neolaureati e quella delle neolaureate? Nella sezione 3.4, i metodi sviluppati nelle sezioni 3.1-3.3 per fare inferenza circa la media di una singola popolazione sono estesi per effettuare confronti tra le medie di due popolazioni diverse. Tali metodi sono applicati nella sezione 3.5, dove si studia l’evidenza circa i “differenziali di genere” nelle retribuzioni dei laureati maschi e femmine. Il capitolo si conclude con una discussione, nella sezione 3.6, della correlazione campionaria e dei diagrammi a nuvola di punti. 3.1 Stima della media di una popolazione Supponiamo di voler conoscere il valore medio di Y (µY ) in una popolazione, ad esempio, il reddito medio delle donne neolaureate. Un modo naturale di stimare questo valore consiste nel calcolare la media campionaria Ȳ per un campione di n osservazioni indipendenti e identicamente distribuite (i.i.d.), Y1 , . . . , Yn (si ricordi che Y1 , . . . , Yn sono i.i.d., se ottenute tramite un campionamento casuale semplice). In questa sessione discutiamo la stima di µ Y e le proprietà di Ȳ quale stimatore di µY . Stimatori e loro proprietà Stimatori. La media campionaria è uno stimatore naturale di µY , ma non è l’unico. Ad esempio, un modo di stimare µY consiste nell’usare la prima osservazione, Y1 . Sia Ȳ sia Y1 sono funzioni dei dati utilizzabili per stimare µY ; per usare la terminologia del concetto chiave 3.1, sono entrambi stimatori di µY . Valutati in campioni ripetuti, Ȳ e Y1 assumono valori diversi (producono stime differenti) da un campione a un altro. Perciò, gli stimatori Ȳ e Y1 possiedono entrambi una distribuzione campionaria. Ci sono, in realtà, molti stimatori di µY , dei quali Ȳ e Y1 sono solo due esempi. Gli stimatori che si possono utilizzare sono molti, ma cosa rende uno stimatore “migliore” di un altro? Essendo gli stimatori variabili casuali, la questione può essere riformulata più precisamente come segue: quali caratteristiche sarebbero auspicabili per la distribuzione campionaria di uno stimatore? In generale, vorremmo che uno stimatore si avvicinasse il più possibile al vero valore ignoto di µY , almeno in termini medi; in altre parole, sarebbe auspicabile che la distribuzione campionaria di uno stimatore fosse fortemente concentrata 58 i i i i i i “generale” — 2005/7/10 — 22:25 — page 59 — #89 i i 3.1. Stima della media di una popolazione Concetto chiave 3.1: stimatori e stime Uno stimatore è una funzione di un campione di dati estratti casualmente da una popolazione. La stima è il valore numerico dello stimatore, quando questo viene calcolato usando i dati di uno specifico campione. Uno stimatore è una variabile casuale per effetto della casualità dovuta alla selezione del campione, mentre la stima è un numero. attorno a tale valore ignoto. Questa osservazione suggerisce tre caratteristiche desiderabili per uno stimatore: la non distorsione o correttezza (l’assenza di distorsione), la consistenza e l’efficienza. Non distorsione (correttezza). Supponiamo di calcolare uno stimatore molte volte per campioni ripetuti, estratti casualmente. È ragionevole chiedere di poter ottenere, in media, la risposta giusta. Perciò, una caratteristica desiderabile di uno stimatore è che la media della sua distribuzione campionaria sia uguale a µY ; quando ciò avviene, lo stimatore si dice non distorto o corretto. Matematicamente, sia µ̂Y uno stimatore di µY , come per esempio Ȳ o Y1 . Tale stimatore è non distorto (corretto), se E(µ̂Y ) = µY , dove E(µ̂Y ) è la media della distribuzione campionaria di µ̂Y ; altrimenti, µ̂Y è distorto. Consistenza. Un’altra proprietà desiderabile di uno stimatore µ̂Y è che, quando il campione è grande, l’incertezza circa il valore di µY che deriva da deviazioni casuali sia molto piccola. Più precisamente, una proprietà desiderabile di µ̂Y è che la probabilità che esso si trovi in un intorno piccolo del vero valore di µY tenda a 1 al crescere della dimensione campionaria; in questo caso, si dice che µ̂Y è uno stimatore consistente di µY (si veda il concetto chiave 2.6). Varianza ed efficienza. Supponiamo di avere due stimatori di µY , µ̂Y e µ̃Y , entrambi non distorti. Come scegliere tra i due? Un modo sarebbe quello di scegliere lo stimatore con distribuzione campionaria più concentrata. Questo porta a preferire tra gli stimatori µ̂ Y e µ̃Y quello con varianza minore. Se µ̂Y ha varianza minore di µ̃Y , allora µ̂Y è più efficiente di µ̃Y . Il termine “efficienza” deriva dall’idea che, se µ̂Y ha varianza minore di µ̃Y , allora esso usa l’informazione contenuta nei dati in maniera più efficiente di quanto faccia µ̃ Y . La distorsione, la consistenza e l’efficienza sono riassunte nel concetto chiave 3.2. 59 i i i i i i “generale” — 2005/7/10 — 22:25 — page 60 — #90 i i 3.1. Stima della media di una popolazione Concetto chiave 3.2: distorsione, consistenza ed efficienza Sia µ̂Y uno stimatore di µY . Allora: • E(µ̂Y ) − µY misura la distorsione di µ̂Y ; • µ̂Y è uno stimatore non distorto o corretto di µY , se E(µ̂Y ) = µY ; p • µ̂Y è uno stimatore consistente di µY , se µ̂Y → µY ; • sia µ̃Y un altro stimatore di µY , anch’esso non distorto. Allora, µ̂Y è più efficiente di µ̃Y , se var(µ̂Y ) < var(µ̃Y ). Proprietà di Ȳ Come si comporta Ȳ come stimatore di µY alla luce dei tre criteri della distorsione, della consistenza e dell’efficienza? Distorsione e consistenza. La distribuzione campionaria di Ȳ è stata già esaminata nelle sezioni 2.5 e 2.6. Come mostrato nella sezione 2.5, E(Ȳ ) = µY . In modo simile, la legge p dei grandi numeri (vedi il concetto chiave 2.6) stabilisce che Ȳ → µY , ovvero che Ȳ è consistente. Efficienza. Cosa possiamo dire circa l’efficienza di Ȳ ? Siccome tale concetto richiede un confronto tra stimatori, è necessario trovare uno o più stimatori con i quali confrontare Ȳ . Cominciamo dimostrando l’efficienza di Ȳ rispetto allo stimatore Y1 . Poiché Y1 , . . . , Yn sono i.i.d., la media della distribuzione campionaria di Y1 è E(Y1 ) = µY , e quindi Y1 è uno stimatore non distorto di µY . La sua varianza è var(Y1 ) = σY2 . Sappiamo dalla sezione 2.5 che la varianza di Ȳ è σY2 /n. Cosı̀, per n ≥ 2, la varianza di Ȳ è minore di quella di Y1 ; cioè, Ȳ è uno stimatore più efficiente di Y1 , e quindi, secondo il criterio dell’efficienza, Ȳ dovrebbe essere preferito a Y1 . Non dovrebbe sorprendere che Y1 sia un cattivo stimatore (perché dovremmo impegnarci tanto nel mettere insieme un campione di n osservazioni per poi buttarle tutte via, fatta eccezione per la prima?) e il concetto di efficienza fornisce un criterio formale per stabilire se Ȳ sia uno stimatore preferibile a Y1 . Cosa si può invece dire circa uno stimatore non cosı̀ ovviamente cattivo? Si consideri la media ponderata con pesi alternativamente pari a 12 e 32 : Ỹ = 3 1 3 1 3 1 1 ( Y1 + Y2 + Y3 + Y4 + · · · + Yn−1 + Yn ), n 2 2 2 2 2 2 (3.1) dove, per convenienza, si assume che il numero delle osservazioni n sia pari. La media di Ỹ 60 i i i i i i “generale” — 2005/7/10 — 22:25 — page 61 — #91 i i 3.1. Stima della media di una popolazione Concetto chiave 3.3: efficienza di Ȳ Sia µ̂Y uno stimatore di µY ottenuto come media ponderata di Y1 , . . . , Yn , ovvero µ̂Y = Pn 1 i=1 ai Yi , dove a1 , . . . , an sono costanti deterministiche. Se µ̂Y è non distorto, allora n var(Ȳ ) < var(Ŷ ), a meno che µ̂Y = Ȳ . Cioè, Ȳ è lo stimatore più efficiente di µY tra tutti gli stimatori non distorti ottenuti come medie ponderate di Y1 , . . . , Yn . è µY e la sua varianza è var(Ỹ ) = 1.25σY2 /n (esercizio 3.7). Ebbene, Ỹ è non distorto e, poiché var(Ỹ ) → 0 per n → ∞, è anche consistente. Tuttavia, Ỹ ha varianza maggiore di Ȳ . Perciò, Ȳ è più efficiente di Ỹ . Gli stimatori Ȳ , Y1 e Ỹ hanno una struttura matematica comune: sono medie ponderate di Y1 , . . . , Yn . I confronti effettuati nei due capoversi precedenti mostrano che le medie ponderate Y1 e Ỹ hanno varianza maggiore di Ȳ . Infatti, queste conclusioni riflettono un risultato più generale: Ȳ è lo stimatore più efficiente tra tutti gli stimatori non distorti che siano ottenuti come medie ponderate di Y1 , . . . , Yn . Questo risultato è riassunto nel concetto chiave 3.3 e provato nel capitolo 15. Ȳ è lo stimatore dei minimi quadrati di µY . La media campionaria Ȳ fornisce il migliore adattamento ai dati, nel senso che la differenza quadratica media tra le osservazioni e Ȳ è la più piccola tra tutti gli stimatori possibili. Si consideri il problema di trovare lo stimatore che minimizzi n X i=1 2 (Yi − m) , (3.2) che è una misura dello scarto o distanza totale al quadrato tra lo stimatore m e le osservazioni campionarie. Poiché m è uno stimatore di E (Y ), possiamo pensarlo come una previsione del valore di Yi , cosicché la differenza Yi − m è interpretabile come un errore di previsione. La somma dei quadrati degli scarti nella (3.2) è interpretabile come la somma dei quadrati degli errori di previsione. Lo stimatore m che minimizza la somma dei quadrati degli scarti Yi − m nella (3.2) è detto stimatore dei minimi quadrati. Si può pensare di risolvere il problema dei minimi quadrati attraverso tentativi successivi: si possono cioè provare molti valori di m, finché non si ritiene di essere arrivati al valore che minimizza la (3.2). In alternativa, come mostrato nell’appendice 3.2, si può usare l’algebra o il calcolo differenziale per mostrare che m = Ȳ minimizza la somma degli scarti quadratici (3.2), ovvero che Ȳ è lo stimatore dei minimi quadrati di µY . 61 i i i i i i “generale” — 2005/7/10 — 22:25 — page 62 — #92 i i 3.1. Stima della media di una popolazione Vince Landon! Poco prima delle elezioni presidenziali del 1936, il Literary Gazette pubblicò un sondaggio secondo il quale Alf M. Landon avrebbe sconfitto il candidato uscente, Franklin D. Roosevelt, travolgendolo 57% a 43%. Il Gazette aveva ragione nell’affermare che l’elezione avrebbe travolto il candidato perdente, ma torto sul suo nome: Roosevelt vinse con il 59% dei voti favorevoli contro il 41% dell’avversario. Come poteva il Gazette aver commesso un simile errore? Il campione utilizzato dal Gazette era stato selezionato tra gli abbonati telefonici e gli iscritti nei registri automobilistici. Nel 1936, però, molte famiglie non possedevano un’automobile o un telefono; chi li aveva, tendeva ad essere più ricco–e con maggiore probabilità repubblicano. Siccome l’indagine telefonica non selezionò gli intervistati casualmente dall’intera popolazione ma sottocampionò invece i democratici, la stima risultò distorta e il Gazette commise un errore imbarazzante. Pensate che indagini campionarie condotte su Internet potrebbero mostrare simili problemi di distorsione? Importanza del campionamento casuale Abbiamo assunto che Y1 , . . . , Yn siano i.i.d., come quando i dati sono ottenuti tramite un campionamento casuale semplice. Questa ipotesi è importante, dal momento che un campionamento non casuale potrebbe rendere Ȳ distorto. Supponiamo che, per stimare il tasso di disoccupazione nazionale mensile, un istituto statistico adotti un piano di campionamento in base al quale gli intervistatori campionano gli adulti in età da lavoro seduti nei parchi cittadini alle ore 10 del mattino del secondo mercoledı̀ del mese. Siccome la maggior parte delle persone che hanno un impiego si trovano al lavoro a quell’ora (e non sedute nel parco!), i disoccupati sono sovrarappresentati tra le persone che siedono nel parco e una stima del tasso di disoccupazione basata su questo piano di campionamento risulterebbe distorta. La distorsione è generata dalla presenza eccessiva, o dal sovracampionamento, di membri disoccupati della popolazione. Questo esempio è artificioso, ma l’aneddoto “Vince Landon!” nel riquadro descrive un episodio realmente accaduto, in cui la distorsione è stata introdotta da un piano di campionamento non del tutto casuale. È importante disegnare schemi di selezione campionaria in modo tale da minimizzare tale distorsione. L’appendice 3.1 include una discussione di che cosa viene in realtà fatto dal Bureau of Labour Statistics quando svolge lo U.S. Current Population Survey (CPS), l’indagine che esso usa per stimare la disoccupazione mensile negli USA. 62 i i i i i i “generale” — 2005/7/10 — 22:25 — page 63 — #93 i i 3.2. Verifica di ipotesi circa la media della popolazione 3.2 Verifica di ipotesi circa la media della popolazione Molte ipotesi sul mondo intorno a noi possono essere formulate in modo da avere come risposta un semplice sı̀ o no. La retribuzione oraria media dei neolaureati statunitensi è uguale a 20$ all’ora? La retribuzione media dei neolaureati è la stessa per maschi e femmine? Entrambe queste domande incorporano ipotesi specifiche sulla distribuzione dei redditi nella popolazione. La statistica ha l’arduo compito di rispondere a domande di questo genere, basandosi sull’evidenza campionaria. Questa sezione descrive la verifica di ipotesi circa la media della popolazione (la media della retribuzione oraria nella popolazione è 20$?). I test di ipotesi riguardanti due popolazioni (la retribuzione media è la stessa per maschi e femmine?) sono discussi nella sezione 3.4. Ipotesi nulla e ipotesi alternativa Il punto di partenza della verifica di ipotesi statistiche è la specificazione dell’ipotesi da testare, detta ipotesi nulla. La verifica di ipotesi richiede l’uso dei dati al fine di confrontare l’ipotesi nulla con una seconda ipotesi, detta ipotesi alternativa, che è valida se la nulla non lo è. L’ipotesi nulla prevede che la media di Y nella popolazione, E(Y ), assuma un valore specifico, indicato con µY,0 . Se indichiamo con H0 l’ipotesi nulla, allora H0 : E(Y ) = µY,0 . (3.3) Per esempio, supporre che, in media nella popolazione, i laureati guadagnino 20$ all’ora costituisce un’ipotesi nulla circa la distribuzione delle retribuzioni orarie nella popolazione. In termini matematici, se Y rappresenta la retribuzione oraria di un neolaureato selezionato casualmente, allora l’ipotesi nulla è che E(Y ) = 20, ovvero che µ Y,0 = 20 nella (3.3). L’ipotesi alternativa specifica cosa è vero se l’ipotesi nulla non lo è. L’ipotesi alternativa più generale è che E(Y ) 6= µY,0 ; è detta ipotesi alternativa bilaterale perché prevede che E(Y ) possa essere sia minore sia maggiore di µY,0 . L’ipotesi alternativa può essere espressa nel modo seguente: H1 : E(Y ) 6= µY,0 (alternativa bilaterale). (3.4) Ipotesi alternative unilaterali sono anche possibili, e saranno discusse più avanti in questa sezione. Il problema che gli statistici affrontano è quello di utilizzare l’evidenza empirica fornita da un campione selezionato casualmente al fine di stabilire se accettare l’ipotesi nulla H0 oppure rifiutarla in favore dell’ipotesi alternativa H1 . Quando si “accetta” l’ipotesi nulla, questo non vuol dire che essa sia vera; piuttosto, essa è provvisoriamente accettata con l’intesa che potrebbe essere rifiutata successivamente alla luce di evidenza addizionale. Per 63 i i i i i i “generale” — 2005/7/10 — 22:25 — page 64 — #94 i i 3.2. Verifica di ipotesi circa la media della popolazione questa ragione, la prova di ipotesi statistiche può dar luogo sia al rifiuto dell’ipotesi nulla sia all’impossibilità di rifiutarla. Valore-p dei test Dato un campione, la media campionaria Ȳ raramente risulterà esattamente pari al valore ipotizzato µY,0 . Le differenze tra Ȳ e µY,0 possono derivare sia dalla possibilità che la vera media non sia in realtà uguale a µY,0 (l’ipotesi nulla è falsa), sia dalla possibilità che la media sia effettivamente uguale a µY,0 (l’ipotesi nulla è vera), ma che Ȳ differisca comunque da µY,0 a causa del campionamento casuale. È impossibile distinguere con certezza tra queste due possibilità. Sebbene un campione di dati non possa fornire evidenza conclusiva a favore dell’ipotesi nulla, è possibile operare un calcolo probabilistico che permetta di sottoporre a verifica l’ipotesi nulla in modo da tenere conto dell’incertezza derivante dal campionamento. Questo calcolo prevede l’uso dei dati per ottenere il valore-p dell’ipotesi nulla. Il valore-p, detto anche livello di significatività osservato, è la probabilità di ottenere una statistica che sia tanto sfavorevole all’ipotesi nulla almeno quanto quella calcolata per mezzo del campione, assumendo che l’ipotesi nulla sia corretta. Nel caso in questione, il valore-p è la probabilità di ottenere un valore di Ȳ che, sotto l’ipotesi nulla, sia lontano nelle code della distribuzione almeno quanto la media campionaria effettivamente calcolata. Ad esempio, supponiamo che nel campione di studenti neolaureati la retribuzione media sia di 22, 24$. Il valore-p è la probabilità di osservare un valore di Ȳ che, per il semplice effetto della variabilità indotta dal campionamento casuale, sia diverso da 20$ (la media della popolazione sotto l’ipotesi nulla) almeno quanto il valore osservato di 22, 24$, sempre assumendo che sia vera l’ipotesi nulla. Se questo valore-p fosse piccolo, diciamo pari a 0, 5%, sarebbe allora alquanto inverosimile estrarre proprio questo campione, qualora fosse vera l’ipotesi nulla; è quindi ragionevole concludere che l’ipotesi nulla è falsa. Al contrario, con un valore-p grande, diciamo 40%, è abbastanza verosimile che la media campionaria osservata di 22, 24$ possa derivare proprio da una variazione dovuta al campionamento casuale, essendo vera l’ipotesi nulla; seguendo questo ragionamento, l’evidenza a sfavore dell’ipotesi nulla è debole in termini probabilistici, ed è quindi ragionevole non rifiutarla. Per formulare matematicamente la definizione di valore-p, si chiami Ȳ act il valore che assume la media campionaria calcolata sui dati disponibili e sia PrH0 la probabilità calcolata sotto l’ipotesi nulla (ovvero assumendo che E(Y1 ) = µY,0 ). Il valore-p è valore-p = PrH0 [ Ȳ − µY,0 > Ȳ act − µY,0 ]. (3.5) Cioè il valore-p è l’area nelle code della distribuzione di Ȳ , sotto l’ipotesi nulla, corrispondente ai valori esterni all’intervallo Ȳ act − µY,0 . Se il valore-p è elevato, allora il valore osservato Ȳ act è coerente con l’ipotesi nulla, non lo è invece se il valore-p è piccolo. 64 i i i i i i “generale” — 2005/7/10 — 22:25 — page 65 — #95 i i 3.2. Verifica di ipotesi circa la media della popolazione Per calcolare il valore-p è necessario conoscere la distribuzione campionaria di Ȳ sotto l’ipotesi nulla. Come discusso nella sezione 2.6, tale distribuzione è complicata in piccoli campioni. Tuttavia, in base al teorema limite centrale, in grandi campioni la distribuzione campionaria di Ȳ è ben approssimata da una distribuzione normale. Sotto l’ipotesi nulla, la media di questa distribuzione è µY,0 , e quindi Ȳ si distribuisce come una N (µY,0 , σȲ2 ), con σȲ2 = σY2 /n. L’approssimazione normale, valida per grandi campioni, permette di calcolare il valore-p del test, senza che sia necessario conoscere la distribuzione di Y nella popolazione, sempreché la numerosità campionaria sia elevata. I dettagli del calcolo, comunque, dipendono dal fatto che σY2 sia o meno nota. Calcolo del valore p con σY nota Il calcolo del valore-p con σY nota è riassunto nella figura 3.1. Se la numerosità campionaria è elevata, sotto l’ipotesi nulla, la distribuzione campionaria di Ȳ è N (µY,0 , σȲ2 ), con σȲ2 = σY2 /n. Perciò, sotto l’ipotesi nulla, (Ȳ − µY,0 )/σȲ (che è la versione standard di Ȳ ) si distribuisce secondo una normale standard. Il valore-p è la probabilità, sotto l’ipotesi nulla, di ottenere un valore di Ȳ distante da µY,0 almeno quanto Ȳ act o, equivalentemente, è la probabilità di ottenere un valore (Ȳ − µY,0 )/σȲ maggiore di (Ȳ act − µY,0 )/σȲ in valore assoluto. Questa probabilità è misurata dall’area ombreggiata nella figura 3.1. Ȳ act − µY,0 Ȳ act − µY,0 Ȳ − µY,0 > = 2Φ − , (3.6) valore-p = Pr H0 σȲ σȲ σȲ dove Φ è la funzione di ripartizione di una distribuzione normale standard. Cioè, il valore-p è l’area nelle code di una distribuzione normale standard al di fuori dell’intervallo ±( Ȳ act − µY,0 )/σȲ . La formula (3.6) per il valore-p dipende dalla varianza della distribuzione della popolazione, σY2 . In pratica, questa varianza è tipicamente ignota (un’eccezione è costituita dal caso in cui Yi è dicotomica, e quindi ha una distribuzione di Bernoulli, nel qual caso la sua varianza è determinata dall’ipotesi nulla; vedi la (2.7)). Poiché, in generale, σ Y2 deve essere stimata prima che si possa calcolare il valore-p, ritorniamo allora al problema della stima di σY2 . Varianza campionaria, deviazione standard campionaria ed errore standard La varianza campionaria s2Y è uno stimatore della varianza della popolazione σY2 ; la deviazione standard campionaria sY è uno stimatore della deviazione standard della popolazione σY ; e l’errore standard della media campionaria Ȳ è uno stimatore della deviazione standard della distribuzione campionaria di Ȳ . 65 i i i i i i “generale” — 2005/7/10 — 22:25 — page 66 — #96 i i 3.2. Verifica di ipotesi circa la media della popolazione Figura 3.1: calcolo del valore-p Il valore p… è l'area ombreggiata nel grafico € – N(0, 1) – Y act–µ Y,0 σ Y– 0 – Y act–µ Y,0 σ Y– z Il valore-p è la probabilità di estrarre un valore di Ȳ che differisca da µY,0 almeno tanto quanto Ȳ act . In 2 ) sotto l’ipotesi nulla, cosicché (Ȳ − µ grandi campioni, Ȳ si distribuisce come una N (µY,0 , σȲ Y,0 )/σȲ si distribuisce come una N (0, 1) . Perciò il valore-p è la probabilità ombreggiata sulle code della distribuzione ˛ ˛ normale standard al di fuori di ± ˛(Ȳ − µY,0 )/σȲ ˛ . La varianza campionaria e la deviazione standard. La varianza campionaria s 2Y è n s2Y = 2 1 X Yi − Ȳ . n − 1 i=1 (3.7) La deviazione standard campionaria sY è la radice quadrata della varianza campionaria. La formula della varianza campionaria somiglia molto a quella della varianza della po2 2 polazione. La varianza della popolazione, E (Y − µY ) , è il valore medio di (Y − µY ) nella popolazione. Allo stesso modo, la varianza campionaria è la media campionaria di (Yi − µY )2 , i = 1, . . . , n, con due modifiche: in primo luogo, µY è sostituita da Ȳ ; in secondo luogo, la media usa come divisore n − 1 invece di n. La ragione della prima modifica (la sostituzione di µY con Ȳ ) è che µY è ignota e deve perciò essere stimata; lo stimatore naturale di µY è Ȳ . La ragione della seconda modifica (divisore pari a Electronic n − 1 invece che a n) Services è che, stimando Publishing Inc. µY attraverso Ȳ , si introduce una 2 leggera hdistorsione verso il basso in Yi − Ȳ . Nello Stock/Watson, Econometrics 1e specifico, come mostrato h nell’esercizio 2 i 2 i 2 Pn 2 = 3.11, E Yi − ȲSTOC.ITEM.0009 = [(n − 1) /n] σY . Quindi, E i=1 Yi − Ȳ = nE Yi − Ȳ 2 Fig. 03.01 (n − 1) σY . Dividere per n−1 nella (3.7) invece che per n corregge questa piccola distorsione verso il basso, e quindi1st s2Y Proof è non distorto.2nd Proof 3rd Proof Final 66 i i i i i i “generale” — 2005/7/10 — 22:25 — page 67 — #97 i i 3.2. Verifica di ipotesi circa la media della popolazione La divisione per n−1 nella (3.7) invece che per n è detta correzione per i gradi di libert à: stimare la media consuma una parte dell’informazione contenuta nei dati–consuma cioè un “grado di libertà”–lasciando solo n − 1 gradi di libertà. Consistenza della varianza campionaria. La varianza campionaria è uno stimatore consistente della varianza della popolazione, cioè p s2Y → σY2 . (3.8) In altre parole, la varianza campionaria è prossima alla varianza della popolazione con alta probabilità quando n è grande. Il risultato (3.8) è dimostrato nell’appendice 3.3 sotto l’ipotesi che Y 1 , . . . , Yn siano i.i.d. e che Yi abbia momento quarto finito, ovvero E Yi4 < ∞. Intuitivamente, la ragione per cui s2Y è consistente sta nel fatto che essa è una media campionaria e quindi obbedisce alla legge dei grandi numeri. Comunque, perché s2Y obbedisca alla legge dei grandi numeri, presentata 2 nel concetto chiave 2.6, (Y − µY ) deve avere varianza finita, il che implica, a sua volta, che E Yi4 sia finito, cioè che Yi abbia momento quarto finito. Errore standard di Ȳ . Poiché la deviazione standard della distribuzione campionaria di Ȳ √ √ è σȲ = σY / n, la (3.8) giustifica l’uso di sY / n come stimatore di σȲ . Questo stimatore √ di σȲ , sY / n, è detto errore standard di Ȳ ed è indicato con SE Ȳ o con σ̂Ȳ (“ ˆ ” sul simbolo indica che si tratta di uno stimatore di σȲ ). L’errore standard di Ȳ è riassunto nel concetto chiave 3.4. Calcolo del valore-p con σY ignota Poiché s2Y è uno stimatore consistente di σY2 , il valore-p può essere calcolato sostituendo σȲ nella (3.6) con l’errore standard SE Ȳ = σ̂Ȳ . Perciò, con σY ignota e Y1 , . . . , Yn i.i.d., il valore-p si calcola applicando la seguente formula ! Ȳ act − µY,0 . (3.9) valore-p = 2Φ − SE Ȳ Statistica t La media campionaria standardizzata Ȳ − µY,0 /SE Ȳ gioca un ruolo cruciale nella verifica di ipotesi statistiche e ha un nome speciale, statistica t o rapporto t: t= Ȳ − µY,0 . SE Ȳ (3.10) In generale, una statistica test è una statistica usata per la verifica di ipotesi. La statistica t è un esempio importante di statistica test. 67 i i i i i i “generale” — 2005/7/10 — 22:25 — page 68 — #98 i i 3.2. Verifica di ipotesi circa la media della popolazione La distribuzione della statistica t in grandi campioni. Quando n è grande, s2Y è prossimo a σY2 con alta probabilità. Perciò, la statistica t ha approssimativamente la stessa distribuzione di Ȳ − µY,0 /σȲ2 , che, per il teorema limite centrale, è a sua volta ben approssimata da una distribuzione normale standard quando n è grande (concetto chiave 2.7). Di conseguenza, sotto l’ipotesi nulla, t si distribuisce approssimativamente secondo una N (0, 1) per n grande. t act (3.11) La formula (3.9) del valore-p può essere riscritta in termini della statistica t. Chiamiamo il valore della statistica t effettivamente calcolato, cioè tact = Ȳ act − µY,0 . SE Ȳ Di conseguenza, per n grande, il valore-p può essere calcolato usando la formula valore-p = 2Φ − tact . (3.12) (3.13) Come esempio ipotetico, supponiamo di usare un campione di n = 200 neolaureati per verificare l’ipotesi nulla che la retribuzione media, E(Y ), sia pari a 20$ per ora. La retribuzione media campionaria sia Ȳ act = 22, 64$ e la deviazione standard campionaria √ √ sY = 18, 14$. Allora, l’errore standard di Ȳ è sY / n = 18, 14/ 200 = 1, 28 e il valore della statistica t è tact = (22, 64 − 20) /1, 28 = 2, 06. Dalla tavola 1 dell’appendice finale, il valore-p è 2Φ (−2, 06) = 0, 039, ovvero pari a 3, 9%. Ciò significa che, supponendo che sia vera l’ipotesi nulla, la probabilità di ottenere una media campionaria distante da zero almeno quanto quella calcolata sui dati è 3, 9%. Distribuzione della statistica t quando Y si distribuisce normalmente. Quando la popolazione si distribuisce normalmente, la statistica t si distribuisce secondo una t di Student con n − 1 gradi di libertà (sezione 2.4); in questo caso particolare, il valore-p può essere calcolato esattamente, qualunque sia la dimensione n del campione, senza dover far ricorso al teorema limite centrale. Siccome la distribuzione t di Student ha code più pesanti della distribuzione normale, i valori-p calcolati tramite la distribuzione t di Student sono maggiori di quelli calcolati tramite la distribuzione normale. Sebbene alcuni pacchetti statistici calcolino i valori-p utilizzando la distribuzione t di Student, questa distribuzione non verrà usata in questo libro per due ragioni. La prima ragione è che la statistica t ha una distribuzione t di Student solo se la popolazione si distribuisce secondo una normale, distribuzione che molto spesso fornisce una cattiva approssimazione della vera distribuzione dei dati economici. Perciò, al vantaggio di poter usare questa distribuzione quando Y è distribuita normalmente si contrappone lo svantaggio di essere raramente applicabile. La seconda ragione è che le differenze tra la distribuzione t di Student e la normale 68 i i i i i i “generale” — 2005/7/10 — 22:25 — page 69 — #99 i i 3.2. Verifica di ipotesi circa la media della popolazione Concetto chiave 3.4: errore standard di Ȳ L’errore standard di Ȳ è uno stimatore della deviazione standard di Ȳ . L’errore standard di Ȳ viene indicato con SE(Ȳ ) o con σ̂Y . Quando Y1 , . . . , Yn sono i.i.d., √ SE(Ȳ ) = σ̂Ȳ = sY / n. (3.14) standard sono ridotte, se la numerosità campionaria non è troppo piccola, e trascurabili, se essa è elevata. Per n > 15, la differenza tra i valori-p calcolati utilizzando le due distribuzioni non supera mai 0, 01 e, per n > 80, non supera mai 0, 002. Nelle applicazioni moderne, e in tutte quelle contenute in questo testo, la dimensione del campione raggiunge le centinaia o le migliaia di unità; è, quindi, grande abbastanza perché la differenza tra la distribuzione t di Student e la distribuzione normale standard sia trascurabile. Verifica di ipotesi con livello di significatività prefissato Supponiamo di aver deciso che l’ipotesi nulla venga rifiutata se il valore-p è inferiore a 5%. Siccome l’area nelle code della distribuzione normale al di fuori dell’intervallo ±1, 96 è 5%, si ottiene una semplice regola: rifiutare H0 se tact > 1, 96, (3.15) cioè, si rifiuta l’ipotesi nulla se il valore della statistica t calcolata sul campione è maggiore di 1, 96 in valore assoluto. Se n è sufficientemente grande allora, sotto l’ipotesi nulla, la statistica t si distribuisce secondo una N (0, 1). Perciò, la probabilità di rifiutare erroneamente l’ipotesi nulla (rifiutare quando in realtà essa è vera) è 5%. Per la verifica delle ipotesi statistiche esiste una specifica terminologia riassunta nel concetto chiave 3.5. Il livello di significatività del test descritto nella (3.15) è 5%, il valore critico di questo test bilaterale è 1, 96 e la regione di rifiuto comprende tutti i valori assunti dalla statistica t che siano al di fuori dell’intervallo ±1, 96. Se il test rifiuta con un livello di significatività del 5%, si dice che la media della popolazione µY è statisticamente diversa da µY,0 al livello di significatività 5%. Quando la verifica di ipotesi utilizza un livello di significatività prefissato, non serve calcolare il valore-p. Nell’esempio precedente, in cui si verificava l’ipotesi che la retribuzione media dei neolaureati fosse di 20$, la statistica t era 2, 06. Questo valore è maggiore di 1, 96, e quindi l’ipotesi è rifiutata al livello 5%. Sebbene la verifica di ipotesi con un livello di significatività del 5% sia semplice, sapere solo se l’ipotesi nulla è rifiutata o meno a un livello di significatività prefissato dà meno informazioni rispetto a quando si conosce il valore-p. 69 i i i i i i “generale” — 2005/7/10 — 22:25 — page 70 — #100 i i 3.2. Verifica di ipotesi circa la media della popolazione Quale livello di significatività utilizzare in pratica? In molti casi, statistici ed econometrici usano un livello di significatività del 5%. Se dovessimo sottoporre a verifica parecchie ipotesi statistiche al 5%, in media rifiuteremmo la nulla erroneamente una volta su venti. Talvolta, un livello di significatività più conservatore potrebbe essere più adeguato. Per esempio, i casi legali richiedono talvolta il conforto dell’evidenza statistica, e l’ipotesi nulla potrebbe essere quella che l’imputato sia non colpevole; in questi casi, si potrebbe voler essere abbastanza sicuri che un rifiuto della nulla (sentenza di colpevolezza) non sia soltanto il risultato della variabilità campionaria. In alcuni contesti giuridici, il livello di significatività utilizzato è 1% o anche 0, 1%, al fine di evitare simili errori. Allo stesso modo, se un’agenzia governativa sta prendendo in considerazione la legalizzazione della vendita di nuovi farmaci, uno standard molto conservatore potrebbe essere necessario per rassicurare il consumatore circa l’efficacia dei farmaci in commercio. Essere conservatori, nel senso di usare un livello di significatività molto basso, ha un costo: minore è il livello di significatività, più grande è il valore critico e più difficile diventa rifiutare la nulla quando è falsa. In effetti, l’atteggiamento più conservatore possibile è quello di non rifiutare mai la nulla, ma, se fosse davvero questa l’intenzione, non sarebbe allora necessario guardare ad alcuna evidenza statistica, dal momento che non si è disposti a cambiare idea! Più basso è il livello di significatività, più bassa la potenza del test. Molte applicazioni economiche e di politica economica possono richiedere un minor conservatorismo rispetto a un caso legale, e quindi un livello di significatività del 5% appare, in molti casi, un compromesso ragionevole. Il concetto chiave 3.6 riassume la verifica di ipotesi riguardanti la media della popolazione contro ipotesi alternative bilaterali. Alternative unilaterali In alcune situazioni, l’ipotesi alternativa potrebbe essere che la media è maggiore di µ Y,0 . Ad esempio, ci si augura che l’istruzione aiuti nel mercato del lavoro, e quindi l’alternativa rilevante, data un’ipotesi nulla che prevede che le retribuzioni siano le stesse per i laureati e i non laureati, potrebbe non essere semplicemente che le retribuzioni semplicemente differiscono, ma piuttosto che i laureati gaudagnano più dei non laureati. Questa è detta ipotesi alternativa unilaterale e può essere scritta come segue: H1 : E (Y ) > µY,0 (alternativa unilaterale). (3.16) L’approccio generale al calcolo del valore-p e alla verifica di ipotesi è lo stesso tanto nel caso di alternative unilaterali quanto nel caso di alternative bilaterali, con la differenza che il test rifiuta solo quando il valore della statistica t è grande e positivo, invece che grande in valore assoluto. Nello specifico, per verificare l’ipotesi unilaterale (3.16) bisogna costruire la 70 i i i i i i “generale” — 2005/7/10 — 22:25 — page 71 — #101 i i 3.3. Intervalli di confidenza per la media della popolazione Concetto chiave 3.5: la terminologia della verifica di ipotesi La probabilità prefissata di rifiutare l’ipotesi nulla quando questa è vera costituisce il livello di significatività del test. Il valore critico della statistica test è il valore per il quale il test passa dal non rifiuto al rifiuto dato un certo livello di significatività. L’insieme dei valori della statistica test per i quali il test rifiuta l’ipotesi nulla è detto regione di rifiuto e l’insieme dei valori per i quali il test non rifiuta l’ipotesi nulla è detto regione di accettazione. La probabilità che il test porti al rifiuto dell’ipotesi nulla quando questa è vera è detta livello minimo del test, e la probabilità che il test rifiuti correttamente l’ipotesi nulla quando è vera l’alternativa è detta potenza del test. Il valore-p è la probabilità, nel caso di campionamento ripetuto, di ottenere una statistica test sfavorevole all’ipotesi nulla almeno quanto la statistica effettivamente osservata, assumendo che valga l’ipotesi nulla. Equivalentemente, il valore-p è il livello di significatività più basso per il quale si può rifiutare l’ipotesi nulla dato il valore osservato della statistica test. statistica t riportata nella (3.10). Il valore-p è l’area sottostante la densità normale standard alla destra del valore osservato della statistica t. Cioè, il valore-p, basato sull’approssimazione N (0, 1) alla distribuzione della statistica t, è valore-p = Pr Z > tact = 1 − Φ tact . H0 (3.17) Il valore critico di una N (0, 1) per un test unilaterale con livello di significatività 5% è 1, 645. La regione di rifiuto per questo test comprende tutti i valori della statistica t che sono maggiori di 1, 645. L’alternativa unilaterale (3.16) consiste dei valori di µY che sono maggiori di µY,0 . Se invece l’ipotesi alternativa fosse E (Y ) < µY,0 , allora varrebbe ancora la discussione del capoverso precedente, ma con i segni cambiati; ad esempio, la regione di rifiuto al 5% comprenderebbe i valori della statistica t minori di −1, 645. 3.3 Intervalli di confidenza per la media della popolazione A causa degli errori campionari, è impossibile inferire l’esatto valore medio di Y nella popolazione usando solo l’informazione contenuta nel campione. Tuttavia, è possibile utilizzare i dati relativi a un campione casuale per costruire un insieme di valori che contiene la vera media della popolazione con una certa probabilità prefissata. Tale insieme è detto regione di confidenza e la probabilità prefissata che µY appartenga a questo insieme è detta livello di confidenza. La regione di confidenza per µY risulta essere costituita da tutti i valori della 71 i i i i i i “generale” — 2005/7/10 — 22:25 — page 72 — #102 i i 3.3. Intervalli di confidenza per la media della popolazione Concetto chiave 3.6: verifica dell’ipotesi E(Y ) = µY,0 contro l’alternativa E(Y ) 6= µY,0 1. Si calcola l’errore standard di Ȳ , SE(Ȳ ) (formula (3.14)). 2. Si calcola la statistica t (formula (3.10)). 3. Si calcola il valore-p (formula (3.13). Si rifiuta l’ipotesi al livello di significatività del 5%, se il valore-p è minore di 0, 05 (o, equivalentemente, se |t act | > 1, 96). media compresi tra un limite inferiore e un limite superiore, e quindi la regione di confidenza è un intervallo, detto intervallo di confidenza. Vediamo ora un modo per costruire un intervallo di confidenza di livello 95% per la media della popolazione. Cominciamo scegliendo alcuni valori arbitrari per la media; chiamiamoli µY,0 . Verifichiamo l’ipotesi nulla µY = µY,0 contro l’alternativa µY 6= µY,0 calcolando la statistica t; se questa è minore di 1, 96, il valore ipotizzato µY,0 non può essere rifiutato al livello 5% e viene annotato. Scegliamo ora un altro valore arbitrario per µ Y,0 e sottoponiamolo a verifica; se non possiamo rifiutarlo, lo aggiungiamo all’elenco. Andiamo avanti seguendo lo stesso procedimento per molte altre volte, anzi, per tutti i valori possibili della media della popolazione. Continuando questo processo si ottiene l’insieme di tutti i valori della media della popolazione che non possono essere rifiutati al 5% da un test d’ipotesi bilaterale. Questo elenco è utile perché riassume l’insieme delle ipotesi che possiamo o non possiamo rifiutare (al livello 5%) basandoci sui nostri dati: se qualcuno venisse da noi con un numero specifico in mente, potremmo dirgli se la sua ipotesi può essere rifiutata o meno semplicemente scorrendo i numeri che compaiono nel nostro elenco. Un ragionamento attento mostra che questo insieme di valori ha una proprietà notevole: la probabilità che esso contenga il valore vero della media della popolazione è pari a 95%. Il ragionamento è il seguente. Supponiamo che il valore vero di µ Y sia 21, 5 (anche se noi, in realtà, non lo sappiamo). Allora Ȳ ha una distribuzione normale centrata attorno a 21, 5 e la statistica t per verificare l’ipotesi nulla µY = 2, 15 ha una distribuzione N (0, 1). Perciò, per n grande, la probabilità di rifiutare l’ipotesi nulla µY = 2, 15 al livello 5% è 5%. Siccome, però, abbiamo sottoposto a verifica tutti i possibili valori della media della popolazione per costruire il nostro insieme, di fatto abbiamo sottoposto a verifica il vero valore µY = 2, 15. Nel 95% di tutti i campioni accetteremo correttamente il valore 21, 5; questo significa che nel 95% di tutti i campioni, il nostro elenco conterrà il valore vero di µ Y . Quindi, i valori dell’elenco costituiscono una regione di confidenza di livello 95% per µ Y . Questo metodo per costruire regioni di confidenza è improponibile, perché richiede che si 72 i i i i i i “generale” — 2005/7/10 — 22:25 — page 73 — #103 i i 3.4. Confronto tra medie di popolazioni diverse testino come ipotesi nulla tutti i possibili valori di µY . Fortunatamente, c’è un metodo molto più semplice. Secondo la formula (3.10) per la statistica t, un valore di prova pari a µ Y,0 è rifiutato al 5% se è lontano più di 1, 96 errori standard da Ȳ . Perciò, l’insieme dei valori di µY che non sono rifiutati al livello 5% è composto da quei valori compresi tra ±1, 96 SE Ȳ da Ȳ . Quindi, un intervallo di confidenza di livello 95% per µY è Ȳ − 1, 96 SE Ȳ ≤ µY ≤ Ȳ + 1, 96SE Ȳ . Il concetto chiave 3.7 riassume questo approccio. Come esempio, consideriamo il problema della costruzione di un intervallo di confidenza al 95% per la retribuzione media oraria dei neolaureati, usando un campione casuale ipotetico di 200 neolaureati in cui Ȳ = 22, 64$ e SE Ȳ = 1, 28. L’intervallo di confidenza al 95% per la retribuzione media oraria è 22, 64±1, 96×1, 28 = 22, 64±2, 51 = (20, 13$, 25, 15$). La discussione condotta finora si è focalizzata sugli intervalli di confidenza bilaterali. Si potrebbe invece costruire un intervallo di confidenza unilaterale con valori di µ Y che non possono essere rifiutati da un test d’ipotesi unilaterale. Sebbene gli intervalli di confidenza unilaterali trovino applicazione in alcuni rami della statistica, sono poco frequenti nelle applicazioni econometriche. Probabilità di copertura. La probabilità di copertura di un intervallo di confidenza per la media della popolazione è la probabilità, calcolata su campioni ripetuti, che esso contenga la vera media della popolazione. 3.4 Confronto tra medie di popolazioni diverse I neolaureati e le neolaureate guadagnano mediamente lo stesso ammontare? Questa domanda richiede di confrontare le medie delle distribuzioni di due diverse popolazioni. In questa sezione si esamina come verificare ipotesi e come costruire intervalli di confidenza per la differenza tra le medie di due popolazioni diverse. Test d’ipotesi per la differenza tra due medie Sia µw la retribuzione oraria media per la popolazione delle donne neolaureate e sia µ m la retribuzione oraria media per la popolazione degli uomini neolaureati. Consideriamo l’ipotesi nulla che le retribuzioni di queste due popolazioni differiscano mediamente di un certo ammontare, diciamo d0 . Allora l’ipotesi nulla e l’ipotesi alternativa bilaterale sono H0 : µm − µw = d0 contro H1 : µm − µw 6= d0 . (3.18) L’ipotesi nulla che gli uomini e le donne appartenenti a queste popolazioni abbiano la stessa retribuzione corrisponde alla H0 nella (3.18) con d0 = 0. Poiché le medie di queste popolazioni sono ignote, debbono essere stimate su campioni di donne e uomini. Supponiamo di avere due campioni di n m uomini e nw donne estratti 73 i i i i i i “generale” — 2005/7/10 — 22:25 — page 74 — #104 i i 3.4. Confronto tra medie di popolazioni diverse Concetto chiave 3.7: intervalli di confidenza per la media della popolazione Un intervallo di confidenza di livello 95% per µY è costruito in modo da contenere il valore vero di µY nel 95% delle sue applicazioni. Quando la dimensione campionaria n è elevata, gli intervalli di confidenza di livello 95%, 90% e 99% per µY sono, rispettivamente: intervallo di confidenza di livello 95% per µY = Ȳ ± 1, 96 SE(Ȳ ) ; intervallo di confidenza di livello 90% per µY = Ȳ ± 1, 64 SE(Ȳ ) ; intervallo di confidenza di livello 99% per µY = Ȳ ± 2, 58 SE(Ȳ ) . casualmente dalle rispettive popolazioni. Sia Ȳm la media campionaria della retribuzione annuale per gli uonimi e sia Ȳw quella per le donne. Allora Ȳm − Ȳw è uno stimatore di µm − µ w . Per verificare l’ipotesi nulla che µm − µw = d0 tramite Ȳm − Ȳw , dobbiamo conoscere la distribuzione di Ȳm − Ȳw . Si ricordi che, per il teorema limite centrale, Ȳm si distribuisce 2 2 approssimativamente secondo una N µm , σm /nm , dove σm è la varianza delle retribuzioni nella popolazione degli uomini. Similmente, Ȳw si distribuisce approssimativamente secondo 2 2 è la varianza delle retribuzioni nella popolazione delle donne. una N µw , σw /nw , dove σw Si ricordi, inoltre, dalla sezione 2.4 che una media ponderata di due variabili casuali normali si distribuisce anch’essa secondo una normale. Poiché Ȳm e Ȳw sono costruiti sulla base di due diversi campioni casuali, sono variabili casuali indipendenti. Perciò, Ȳm − Ȳw si 2 2 distribuisce secondo una N µm − µw , σm /nm + σw /nw . 2 2 Se σm e σw fossero note, allora si potrebbe usare l’approssimazione rappresentata dalla distribuzione normale per calcolare il valore-p per l’ipotesi nulla che µ m − µw = d0 . In pratica, comunque, le varianze delle popolazioni sono tipicamente ignote e debbono essere stimate. Come prima, esse possono essere stimate usando le varianze campionarie, s 2m e s2w , dove s2m è definita come nella (3.7), tranne che la statistica è calcolata soltanto per gli uomini presenti nel campione, e s2w è definita per le donne allo stesso modo. Quindi, l’errore standard di Ȳm − Ȳw è s s2 s2m SE Ȳm − Ȳw = + w. (3.19) nm nw La statistica t per l’ipotesi nulla è costruita analogamente alla statistica t per un’ipotesi riguardante la media di una singola popolazione, cioè sottraendo il valore ipotizzato µ m − µw dallo stimatore Ȳm − Ȳw e dividendo il risultato per l’errore standard di Ȳm − Ȳw : Ȳm − Ȳw − d0 (statistica t per il confronto tra due medie). t= (3.20) SE Ȳm − Ȳw 74 i i i i i i “generale” — 2005/7/10 — 22:25 — page 75 — #105 i i 3.4. Confronto tra medie di popolazioni diverse Se nm e nw sono entrambi grandi, allora la statistica t ha una distribuzione normale standard. 1 Poiché la statistica t nella (3.20) ha una distribuzione normale standard sotto l’ipotesi nulla quando nm e nw sono elevate, il valore-p del test bilaterale è calcolato come nel caso relativo a una singola popolazione; cioè, il valore-p è calcolato usando la (3.13). Per condurre un test con un livello di significatività prefissato, si calcola semplicemente la statistica t definita nella (3.20) e la si confronta con il valore critico appropriato. Ad esempio, si rifiuta l’ipotesi nulla al livello di significatività 5%, se il valore assoluto della statistica t è maggiore di 1, 96. Se l’alternativa è unilaterale invece che bilaterale, cioè se l’alternativa prevede che µ m − µw > d0 , allora il test va modificato come mostrato nella sezione 3.2. Il valore-p si calcola applicando la (3.17) e il test rifiuta l’ipotesi nulla con un livello di significatività del 5% quando t > 1, 65. Intervalli di confidenza per la differenza tra le medie di due popolazioni Il metodo per costruire intervalli di confidenza riassunto nella sezione 3.3 si estende alla costruzione di intervalli di confidenza per la differenza tra medie d = µ m − µw . Poiché il valore ipotizzato d0 si rifiuta al livello 5% se |t| > 1, 96, d0 si situa nella regione di confidenza se |t| ≤ 1, 96. Tuttavia, |t| ≤ 1, 96 implica che la differenza stimata Ȳm − Ȳw si discosta da d0 meno di 1, 96 errori standard. Perciò, l’intervallo di confidenza bilaterale per d di livello 95% include tutti i valori di d che differiscono da Ȳm − Ȳw meno di ±1, 96 errori standard. L’intervallo di confidenza al 95% per d = µm − µw è Ȳm − Ȳw ± 1, 96 SE Ȳm − Ȳw . (3.21) Con queste formule alla mano, esaminiamo uno studio empirico sulla differenza di genere delle retribuzioni dei neolaureati statunitensi. 1 Se le varianze delle due popolazioni sono uguali (i.e., σ 2 = σ 2 = σ 2 ), allora Ȳ m − Ȳw si distribuisce m w ` ´ secondo una N µm − µw , [(1/nm ) + (1/nw )] σ 2 . In questo caso particolare, è possibile usare il cosiddetto stimatore della varianza aggregata di σ 2 3 2 nm nw X X ` ´ ` ´ 1 2 2 4 Yi − Ȳm + Yj − Ȳw 5 , s2pooled = nm + nw − 2 i=1 j=1 dove la prima sommatoria riguarda le osservazioni relative agli uomini e la seconda quelle relative alle donne. Se le varianze delle due popolazioni differissero, lo stimatore della varianza aggregata sarebbe distorto e inconsistente. Per questo motivo, tale stimatore non dovrebbe essere utilizzato nelle applicazioni, a meno che non sussistano valide ragioni per credere che le varianze delle due popolazioni siano uguali. 75 i i i i i i “generale” — 2005/7/10 — 22:25 — page 76 — #106 i i 3.5. Redditi di laureati e laureate negli Stati Uniti 3.5 Redditi di laureati e laureate negli Stati Uniti Storicamente, gli uomini hanno avuto più facilmente accesso a lavori ben pagati rispetto alle donne. Tuttavia, i cambiamenti nelle norme sociali e la legislazione contro la discriminazione sessuale hanno portato uomini e donne a svolgere un ruolo uguale nell’attuale mondo del lavoro–almeno in teoria. Quali sono di fatto le differenze, se ne esistono, nelle retribuzioni di uomini e donne giovani e ben istruiti? La tabella 3.1 mostra stime delle retribuzioni orarie negli USA di lavoratori a tempo pieno di 25 − 34 anni che hanno completato l’università. Le statistiche della tabella 3.1 sono state calcolate sulla base dei dati raccolti nel Current Population Survey (CPS), descritto nell’appendice 3.1. Tutte le retribuzioni sono state corrette per l’inflazione convertendole in dollari 1998 sulla base dell’indice dei prezzi al consumo.2 Le prime tre colonne della tabella presentano le informazioni per gli uomini; le tre successive quelle per le donne; le tre finali, quelle per la differenza tra uomini e donne. Per esempio, il CPS effettuato nel marzo 1999 ha riguardato un campione di 64.000 famiglie che comprendevano 1.393 uomini laureati impiegati a tempo pieno e di età compresa tra i 25 e 34 anni. La retribuzione media oraria di questi 1.393 uomini è 17, 94$, con una deviazione standard pari a 7, 86$. La retribuzione media oraria nel 1998 per le 1.210 donne comprese in quell’indagine è 15, 49$, con una deviazione standard di 6, 80$. Il differenziale salariale è 17, 94$−15, 49$ = p 2, 45$ all’ora. L’errore standard è (7, 86$2/1393) + (6, 80$2 /1210) = 0, 29$ e la statistica t per l’ipotesi che il differenziale salariale sia nullo è (2, 45$ − 0/0, 29$) = 8, 45. Questa è superiore al valore critico pari a 2, 58 di un test bilaterale di livello 1%, e quindi è significativa al livello 1% (in effetti, è significativa al livello 0, 01%). L’intervallo di confidenza al 95% per questo differenziale è 2, 45 ± 1, 96 × 0, 29 = (1, 89$, 3, 02$). Quindi, con un livello di confidenza del 95%, si stima che il differenziale salariale tra le due popolazioni abbia un valore compreso tra 1, 89$ e 3, 02$. Il differenziale salariale uomo-donna è elevato: secondo le stime nella tabella 3.1, nel 1998 le donne guadagnavano il 14% all’ora in meno rispetto agli uomini (2, 45$/17, 94$). Inoltre, il differenziale non è variato molto durante gli anni ’90. È alquanto inverosimile che questo differenziale stimato sia semplicemente dovuto a errori di campionamento: il valore 2 A causa dell’inflazione, un dollaro nel 1992 valeva più di quanto un dollaro valesse nel 1998, nel senso che un dollaro nel 1992 permetteva di acquistare più beni e servizi rispetto a un dollaro nel 1998. Per questo motivo, senza correggere per l’inflazione, le retribuzioni nel 1992 non sono direttamente confrontabili con le retribuzioni nel 1998. Un modo per operare questa correzione è utilizzare l’indice dei prezzi al consumo (CPI, acronimo dall’inglese Consumer Price Index), una misura del prezzo del “paniere di mercato” composto da beni e servizi di consumo, costruito dal Bureau of Labour Statistics. Nei sei anni dal 1992 al 1998, il prezzo del paniere usato dal CPI è cresciuto del 16, 2%; cioè, il paniere CPI di beni e servizi avente un prezzo di 100$ nel 1992 costava 116, 20$ nel 1998. Nella tabella 3.1, per rendere confrontabili le retribuzioni del 1992 e del 1998, quelle del 1992 sono state aggiustate per l’inflazione misurata dal CPI ovvero moltiplicate per 1, 162, al fine di convertirle in “dollari 1998”. 76 i i i i i i “generale” — 2005/7/10 — 22:25 — page 77 — #107 i i 3.6. Diagrammi a nuvola di punti, covarianza e correlazione campionaria Tabella 3.1: retribuzione oraria di lavoratori laureati di età 25-34 negli Stati Uniti: selezione di statistiche descrittive dal “Current Population Survey”, in dollari 1998 Uomini Donne Differenza, uomini v/s donne Anno Ȳm sm nm Ȳw sw nw Ȳm − Ȳw SE(Ȳm − Ȳw ) 1992 1994 1996 1998 17,57 16,93 16,88 17,94 7,5 7,39 7,29 7,86 1591 1598 1374 1393 15,22 15,01 14,42 15,49 5,97 6,41 6,07 6,80 1371 1358 1235 1210 2, 35∗∗ 1, 92∗∗ 2, 46∗∗ 2, 45∗∗ 0,25 0,25 0,26 0,29 Intervallo di confidenza per d al 95% 1,87-2,84 1,42-2,42 1,94-2,97 1,89-3,02 Queste stime sono calcolate utilizzando i dati del CPS sui lavoratori a tempo pieno di età 25-34 negli anni indicati. La differenza è significativamente diversa da zero al livello ∗ 5% o ∗∗ 10%. più basso del differenziale contenuto nell’intervallo di confidenza di livello 95% per il 1998 è pari a 1, 98$. Quest’analisi statistica documenta l’esistenza di un “differenziale di genere” nelle retribuzioni orarie, ma non dice niente riguardo alla sua fonte o causa. Il differenziale è dovuto alla discriminazione dei sessi nel mercato del lavoro o evidenzia differenze di abilità e di esperienza tra uomini e donne, che si riflettono in un divario retributivo? Per affrontare queste questioni abbiamo bisogno degli strumenti della regressione multipla, che sono l’argomento della parte II. Per prima cosa, tuttavia, dobbiamo introdurre i diagrammi a nuvola di punti, la covarianza campionaria e il coefficiente di correlazione campionario. 3.6 Diagrammi a nuvola di punti, covarianza e correlazione campionaria Qual è la relazione tra età e retribuzione? Questa domanda, come molte altre, mette in relazione una variabile, X (età), con un’altra, Y (retribuzione). Questa sezione passa in rassegna tre metodi per riassumere il legame esistente tra due variabili: il diagramma a nuvola di punti, la covarianza campionaria e il coefficiente di correlazione campionario. Diagrammi a nuvola di punti Un diagramma a nuvola di punti o, più semplicemente diagramma a nuvola, è un grafico delle n osservazioni su Xi e Yi , nel quale ciascuna osservazione è rappresentata dal punto (Xi , Yi ). Ad esempio, la figura 3.2 presenta il diagramma a nuvola di punti di età (X) e 77 i i i i i i “generale” — 2005/7/10 — 22:25 — page 78 — #108 i i 3.6. Diagrammi a nuvola di punti, covarianza e correlazione campionaria retribuzione oraria (Y ) per un campione di 184 tecnici non laureati, impiegati nell’industria delle comunicazioni, tratto dal CPI del marzo 1999. Ogni punto della figura 3.2 corrisponde alla coppia (X, Y ) rilevata per una delle osservazioni. Ad esempio, uno dei lavoratori nel campione ha 35 anni e guadagna 19, 61$ all’ora; l’età e la retribuzione di questo particolare lavoratore sono rappresentati dal punto in evidenza nella figura 3.2. Il grafico a nuvola mostra una relazione positiva tra età e retribuzione per questo campione: i tecnici delle comunicazioni più anziani tendono a guadagnare più di quelli giovani. Questa non è, tuttavia, una relazione esatta e non è possibile prevedere perfettamente la retribuzione di un individuo basandosi esclusivamente sulla sua età. Covarianza e correlazione campionaria La covarianza e la correlazione sono state introdotte nella sezione 2.3 come due proprietà della distribuzione di probabilità congiunta delle variabili casuali X e Y . Siccome la distribuzione della popolazione è ignota, in pratica non se ne conoscono la covarianza e la correlazione. Queste possono tuttavia essere stimate estraendo dalla popolazione un campione casuale di n unità e rilevando i dati (Xi , Yi ), i = 1, . . . , n. La covarianza e la correlazione campionarie sono stimatori della covarianza e della correlazione nella popolazione. Come per gli stimatori già presentati in questo capitolo, esse sono calcolate sostituendo la media della popolazione (l’aspettativa) con la media campionaria. La covarianza campionaria, indicata con sXY , è n sXY = 1 X Xi − X̄ Yi − Ȳ . n − 1 i=1 (3.22) Come per la varianza campionaria, la media nella (3.22) è divisa per n − 1 invece che per n; anche qui, la differenza è dovuta all’uso di X̄ e Ȳ per stimare le rispettive medie nella popolazione. Quando n è grande, dividere per n o per n − 1 fa poca differenza. Il coefficiente di correlazione campionario, o correlazione campionaria, si indica con rXY ed è il rapporto tra la covarianza campionaria e le deviazioni standard campionarie: rXY = sXY . sX sY (3.23) La correlazione campionaria misura la forza dell’associazione lineare esistente tra X e Y in un campione di n osservazioni. Come per la correlazione nella popolazione, la correlazione campionaria varia tra −1 e 1, ovvero |rXY | ≤ 1. La correlazione campionaria è uguale a 1 se Xi = Yi per ogni i ed è uguale a −1 se Xi = −Yi per ogni i. Più in generale, la correlazione è pari a ±1, se il diagramma a nuvola di punti è una linea retta. Se tale retta ha un’inclinazione positiva, allora la relazione è positiva e la correlazione è pari a 1. Se la retta ha un’inclinazione negativa, allora la relazione è negativa e la correlazione è pari a −1. Più la nuvola di punti si dispone secondo una linea 78 i i i i i i “generale” — 2005/7/10 — 22:25 — page 79 — #109 i i 3.6. Diagrammi a nuvola di punti, covarianza e correlazione campionaria Figura 3.2: grafico a nuvola della retribuzione oraria media sull’età Retribuzione oraria media 40 35 30 25 20 15 10 5 0 20 25 30 35 40 45 50 55 60 65 Età Ogni punto nel grafico rappresenta l’età e la retribuzione media di uno dei 184 lavoratori nel campione. Il punto colorato corrisponde a un lavoratore di 35 anni che guadagna 19, 61$ a ora. I dati sono relativi ai tecnici nell’industria delle comunicazioni senza laurea e sono tratti dal CPS del marzo 1999. retta, più la correlazione tende a ±1. Un coefficiente di correlazione elevato non implica necessariamente che la retta sia molto inclinata; significa, invece, che i punti del diagramma a nuvola si dispongono quasi su una retta. Consistenza della covarianza e della correlazione campionaria. Come la varianza campionaria, anche la covarianza campionaria è consistente, ovvero p (3.24) sXY → σXY . In altre parole, in grandi campioni, la covarianza campionaria è con alta probabilità vicina alla covarianza nella popolazione. La dimostrazione delElectronic risultato (3.24) sottoServices l’ipotesiInc. che le (Xi , Yi ) siano i.i.d. e che Publishing Xi e Yi abbiano momento quarto finito Econometrics è simile alla dimostrazione della consistenza della Stock/Watson, 1e STOC.ITEM.0010 Fig. 03.02 1st Proof 79 2nd Proof 3rd Proof Final i i i i i i “generale” — 2005/7/10 — 22:25 — page 80 — #110 i i 3.6. Diagrammi a nuvola di punti, covarianza e correlazione campionaria Figura 3.3: grafico a nuvola per quattro insiemi di dati ipotetici y 70 y 70 60 60 50 50 40 40 30 30 20 20 10 10 0 70 80 90 0 70 100 110 120 130 x 80 90 100 110 120 130 x (a) Correlazione = +0,9 (b) Correlazione = –0,8 y 70 y 70 60 60 50 50 40 40 30 30 20 20 10 10 0 70 80 90 100 110 120 130 x (c) Correlazione = 0,0 0 70 80 90 100 110 120 130 x (d) Correlazione = 0,0 (quadratica) I grafici a nuvola delle figure 3.3a e 3.3b mostrano relazioni lineari forti tra X e Y . Nella figura 3.3c, X è indipendente da Y e le due variabili sono incorrelate. Anche le due variabili nella figura 3.3d sono incorrelate, benché siano legate non linearmente. covarianza campionaria che daremo nell’appendice 3.3, ed è lasciata al lettore come esercizio (esercizio 15.2). 80 i i Electronic Publishing Services Inc. Stock/Watson, Econometrics 1e STOC.ITEM.0011 Fig. 03.03 1st Proof 2nd Proof i i 3rd Proof Final i i “generale” — 2005/7/10 — 22:25 — page 81 — #111 i i Sommario Poiché la varianza campionaria e la covarianza campionaria sono consistenti, anche il p coefficiente di correlazione è consistente, cioè rXY → corr (Xi , Yi ). Esempio. Come esempio, consideriamo i dati sull’età e la retribuzione mostrati nella figura 3.2. Per questi 184 lavoratori, la deviazione standard campionaria dell’età è s A = 10, 49 anni e la deviazione standard campionaria della retribuzione è sE = 6, 44$/ora. La covarianza tra età e retribuzione è sAE = 24, 29 (l’unità di misura è anni×dollari all’ora, che non è di facile interpretazione) e il coefficiente di correlazione è rAE = 24, 29/ (10, 49 × 6, 44) = 0, 36, ovvero 36%. La correlazione pari a 0, 36 indica che c’è una relazione positiva tra età e retribuzione, ma, come evidenziato dal diagramma a nuvola di punti, questa relazione è tutt’altro che perfetta. Per verificare che la correlazione non dipende dall’unità di misura, supponiamo di esprimere la retribuzione in centesimi. In questo caso, la deviazione standard campionaria è 644 centesimi/ora e la covarianza tra età e retribuzione è 2.429 (l’unità di misura è anni×centesimi/ora); perciò la correlazione è 2.429/(10, 49 × 644) = 0, 36, ovvero 36%. La figura 3.3 fornisce altri esempi di diagramma a nuvola di punti e correlazione. La figura 3.3a mostra una forte relazione lineare positiva tra queste variabili, con una correlazione campionaria di 0, 9. La figura 3.3b mostra una forte relazione negativa, con una correlazione campionaria di −0, 8. La figura 3.3c mostra un diagramma a nuvola senza una relazione evidente, con una correlazione campionaria nulla. La figura 3.3d mostra una relazione ben definita: al crescere di X, Y inizialmente cresce per poi decrescere. Nonostante la chiara relazione tra X e Y relazione, la correlazione campionaria è nulla; la ragione è che, per questi dati, valori piccoli di Y sono associati a valori di X sia grandi sia piccoli. Questo esempio finale mette in evidenza un punto importante: il coefficiente di correlazione è una misura di associazione lineare. Nella figura 3.3d una relazione esiste, ma non è lineare. Sommario 1. La media campionaria Ȳ è uno stimatore della media della popolazione µY . Quando Y1 , . . . , Yn sono i.i.d.: a. la distribuzione campionaria di Ȳ ha media µY e varianza σȲ2 = σY2 /n; b. Ȳ è non distorto; c. per la legge dei grandi numeri, Ȳ è consistente; d. per il teorema limite centrale, Ȳ ha una distribuzione campionaria approssimativamente normale quando il campione è numeroso. 81 i i i i i i “generale” — 2005/7/10 — 22:25 — page 82 — #112 i i Sommario 2. La statistica t è utilizzata per verificare l’ipotesi nulla che la media della popolazione assuma un determinato valore. Se n è elevato, la statistica t ha una distribuzione campionaria normale standard, quando l’ipotesi nulla è vera. 3. La statistica t può essere utilizzata per calcolare il valore-p associato all’ipotesi nulla. Un valore-p piccolo costituisce evidenza contro l’ipotesi nulla. 4. Un intervallo di confidenza di livello 95% per µY è un intervallo costruito in modo tale da contenere il vero valore di µY nel 95% dei casi in campioni ripetuti. 5. I test d’ipotesi e gli intervalli di confidenza per la differenza tra le medie di due popolazioni sono concettualmente simili ai test e agli intervalli per la media di una singola popolazione. 6. Il coefficiente di correlazione campionario è uno stimatore della correlazione nella popolazione e misura la relazione lineare tra due variabili, ovvero la bontà di una approssimazione lineare del loro diagramma a nuvola di punti. Termini chiave stimatore (59) stima (59) distorsione, consistenza ed efficienza (60) stimatore dei minimi quadrati (61) verifica d’ipotesi (63) ipotesi nulla e alternativa (63) ipotesi alternativa bilaterale (63) valore-p (64) varianza campionaria (66) gradi di libertà (67) statistica t (67) errore standard di uno stimatore (69) statistica test (67) livello di significatività (71) valore critico (71) regione di rifiuto (71) regione di accettazione (71) livello minimo di un test (71) potenza (71) ipotesi alternativa unilaterale (70) regione di confidenza (71) livello di confidenza (71) intervallo di confidenza (72) probabilità di copertura (73) test per la differenza tra due medie (73) diagramma a nuvola di punti (77) covarianza campionaria (78) correlazione campionaria (78) Verifica dei concetti 3.1 Si spieghi la differenza tra la media campionaria Ȳ e la media della popolazione. 3.2 Si spieghi la differenza tra uno stimatore e una stima. Si riporti un esempio di entrambi. 82 i i i i i i “generale” — 2005/7/10 — 22:25 — page 83 — #113 i i Sommario 3.3 Una certa distribuzione ha media 10 e varianza 16 nella popolazione. Si determini la media e la varianza di Ȳ da un campione i.i.d. estratto da questa popolazione per: (a) n = 10; (b) n = 100; (c) n = 1.000. Si metta in relazione la propria risposta con la legge dei grandi numeri. 3.4 Quale ruolo gioca il teorema limite centrale nella verifica delle ipotesi statistiche? E nella costruzione degli intervalli di confidenza? 3.5 Qual è la differenza tra ipotesi nulla e ipotesi alternativa? Tra livello minimo, livello di significatività e potenza? Tra ipotesi alternativa unilaterale e bilaterale? 3.6 Perché un intervallo di confidenza contiene più informazioni rispetto al risultato di un semplice test d’ipotesi? 3.7 Si disegni un ipotetico diagramma a nuvola di punti di numerosità 10 per due variabili casuali con correlazione nella popolazione pari a: (a) 1, 0; (b) −1, 0; (c) 0, 9; (d) −0, 5; (e) 0, 0. Esercizi 3.1 In una popolazione µY = 100 e σY2 = 43. Si usi il teorema limite centrale per trovare: a. P r Ȳ < 101 , in un campione casuale di numerosità n = 100; b. P r 101 < Ȳ < 103 , in un campione casuale di numerosità n = 64; c. P r Ȳ > 98 , in un campione casuale di numerosità n = 165. 3.2 Sia Y una variabile casuale di Bernoulli con probabilità di successo Pr(Y = 1) = p e siano Y1 , . . . , Yn i.i.d. estratti da questa distribuzione. Sia p̂ la frazione di successi (di 1) in questo campione. a. Si mostri che p̂ = Ȳ . b. Si mostri che p̂ è uno stimatore non distorto di p. c. Si mostri che var (p̂) = p (1 − p) /n. 3.3 In un’indagine campionaria su 400 potenziali votanti, 215 hanno risposto di aver intenzione di votare per il candidato uscente e 185 per il suo sfidante. La p denoti la frazione di tutti i votanti potenziali che preferiscono il candidato uscente al tempo dell’indagine e la p̂ quella degli intervistati che preferiscono lo sfidante. a. Si usino i risultati dell’indagine per stimare p. b. Si usi lo stimatore della varianza di p̂, p̂ (1 − p̂) /n, per calcolare l’errore standard del tuo stimatore. 83 i i i i i i “generale” — 2005/7/10 — 22:25 — page 84 — #114 i i Sommario ∗ c. Qual è il valore-p per H0 : p = 0, 5 contro H1 : p 6= 0, 5? d. Qual è il valore-p per H0 : p = 0, 5 contro H1 : p > 0, 5? e. Perché i risultati della (c) e della (d) differiscono? f. L’indagine mostra un’evidenza statisticamente rilevante del fatto che il candidato uscente è in testa al tempo dell’indagine? Se ne dia una spiegazione. 3.4 Utilizzando i dati dell’esercizio 3.3: a. si costruisca un intervallo di confidenza di livello 95% per p; b. si costruisca un intervallo di confidenza di livello 99% per p; c. perché l’intervallo nella (b) è più ampio di quello nella (a)? d. senza calcoli addizionali, si verifichi l’ipotesi H0 : p = 0, 50 contro H1 : p 6= 0, 5 con un livello di significatività del 5%. 3.5 Si supponga che un’impresa specializzata nella produzione di lampadine produca lampadine con una vita media di 2.000 ore e una deviazione standard di 200 ore. Un inventore dichiara di aver ideato un processo innovativo che permette di produrre lampadine con una vita media più lunga e la stessa deviazione standard. Il manager dell’impresa seleziona a caso 100 prodotti attarverso questa tecnica ed afferma che crederà alle affermazioni dell’inventore, se la vita media campionaria supererà le 2.100 ore, altrimenti giungerà alla conclusione che questo nuovo processo non è migliore di quello vecchio. Sia µ la media del nuovo processo. Si considerino le ipotesi nulla ed alternativa H0 : µ = 2.000 contro H1 : µ > 2.000. a. Qual è il livello minimo della procedura di verifica di ipotesi del manager dell’impresa? b. Si supponga che il nuovo processo sia effettivamente migliore e che produca lampadine con una vita media di 2.150 ore. Qual è la potenza della procedura di verifica di ipotesi del manager? c. Quale procedura di verifica di ipotesi dovrebbe usare il manager se volesse che il livello minimo del suo test fosse 5%? 3.6 Si supponga che un nuovo test sia sottoposto a 100 studenti selezionati casualmente tra gli studenti del terzo grado d’istruzione nel New Jersey. La media campionaria del punteggio finale del test Ȳ è 58 punti e la deviazione standard del campione, sY , è 8 punti: a. gli autori prevedono di sottoporre il test a tutti gli studenti di terzo livello nel New Jersey. Costruisci un intervallo di confidenza al 95% per il punteggio medio di tutti gli studenti del terzo grado d’istruzione del New Jersey; 84 i i i i i i “generale” — 2005/7/10 — 22:25 — page 85 — #115 i i Sommario b. si supponga che lo stesso test sia sottoposto a 200 studenti del terzo grado d’istruzione dell’Iowa selezionati casualmente e che ne risulti una media campionaria di 62 punti e una deviazione standard campionaria di 11 punti. Si costruisca un intervallo di confidenza di livello 90% per la differenza dei punteggi medi tra Iowa e New Jersey; c. si può concludere con un alto grado di confidenza che le medie della popolazione per l’Iowa e per il New Jersey sono diverse? (Qual è l’errore standard della differenza tra le due medie? Qual è il valore-p del test sull’uguaglianza tra le due medie contro una qualche differenza tra di loro?) 3.7 Si consideri lo stimatore Ỹ , definito nella (3.1). Si mostri che (a) E(Ỹ ) = µY e (b) var(Ỹ ) = 1, 25σY2 /n. 3.8 Per investigare su una possibile discriminazione tra i sessi in un’impresa, sia selezionato casualmente un campione di 100 uomini e 64 donne svolgenti un lavoro con una simile descrizione. I risultati riguardanti i salari mensili sono riportati nella seguente tabella: Uomini Donne Salario medio (Ȳ ) Deviazione standard (sY ) n 3100$ 2900$ 200$ 320$ 100 64 a. Cosa suggeriscono questi dati per quanto riguarda la differenza salariale nell’impresa? Forniscono evidenza statistica della differenza tra i salari di uomini e donne (prima di rispondere a questa domanda, si formulino le ipotesi nulla e alternativa; in secondo luogo, si calcoli la statistica t corrispondente; poi, si calcoli il valore-p associato alla statistica t; e, infine, si usi il valore-p per rispondere alla domanda)? b. Questi dati suggeriscono che l’impresa è colpevole di discriminazione uomodonna nelle sue politiche salariali? Se ne dia una spiegazione. 3.9 I dati per un livello d’istruzione di quinto grado (lettura e matematica) relativi a 420 distretti scolastici in California hanno prodotto un Ȳ = 654, 2 e una deviazione standard pari a sY = 19, 5. a. Si costruisca un intervallo di confidenza al 95% per la media dei risultati del test nella popolazione. 85 i i i i i i “generale” — 2005/7/10 — 22:25 — page 86 — #116 i i Appendice Dimensione classe Media punteggi (Ȳ ) Deviazione standard (sY ) n Piccola Grande 657,4 650,0 19,4 17,9 238 182 b. Suddividendo i distretti in distretti con classi piccole (< 20 studenti per insegnante) e distretti con classi grandi (≥ 20 studenti per insegnante), si rilevano i risultati riportati nella tabella precedente. Esiste un’evidenza statistica che i distretti con classi più piccole abbiano riportato risultati medi del test più alti? Se ne dia una spiegazione. 3.10 Su un campione di 300 studenti universitari sono rilevati l’altezza espressa in pollici (X) e il peso in libbre (Y ). Le risultanti statistiche descrittive sono: X̄ = 70, 5 pollici; Ȳ = 158 libbre; sX = 1, 8 pollici; sY = 14, 2 libbre; sXY = 21, 73 pollici×libbra e rXY = 0, 85. Si convertano queste statistiche nel sistema metrico (metri e chilogrammi). 3.11 Questo esercizio mostra che la varianza campionaria è uno stimatore non distorto della varianza della popolazione quando Y1 , . . . , Yn sono i.i.d. con media µY e varianza σY2 . h 2 i a. Si usi la (2.27) per dimostrare che E Yi − Ȳ = var (Yi ) − 2cov Yi , Ȳ + var Ȳ . b. Si usi la (2.33) per mostrare che la cov Ȳ , Yi = σY2 /n. c. Si usino i risultati della parte (a) e (b) per mostrare che E s2Y = σY2 . Appendice 3.1: lo U.S. Current Population Survey Ogni mese il Bureau of Labour Statistics dello U.S. Department of Labour conduce un’indagine chiamata “Current Population Survey” (CPS), che fornisce i dati sulle caratteristiche della popolazione lavorativa, inclusi il livello dell’occupazione, della disoccupazione e delle retribuzioni. Circa 65.000 famiglie sono intervistate ogni mese. Il campione viene scelto selezionando casualmente gli indirizzi contenuti in una banca dati in cui sono registrati gli indirizzi derivanti dal censimento decennale più recente, e a cui vengono aggiunte le informazioni sulle nuove unità abitative costruite successivamente. L’esatto piano di campionamento è piuttosto complicato (prima vengono selezionate casualmente le aree geografiche, all’interno delle quali, sempre casualmente, vengono poi estratte le unità abitative); i dettagli si trovano nell’Handbook of Labour Statistics e nel sito web del Bureau of Labour Statistics (www.bls.gov). 86 i i i i i i “generale” — 2005/7/10 — 22:25 — page 87 — #117 i i Appendice L’indagine condotta in marzo è più dettagliata che negli altri mesi e contiene domande sulle retribuzioni nell’anno precedente. Le statistiche contenute nella tabella 3.1 sono state calcolate utilizzando le indagini di marzo. I dati sulle retribuzioni si riferiscono ai lavoratori a tempo pieno, definiti come coloro che hanno lavorato durante l’anno precedente per più di 35 ore alla settimana per almeno 48 settimane. Appendice 3.2: due prove che Ȳ è lo stimatore dei minimi quadrati di µY Questa appendice fornisce due prove, una delle quali fa uso del calcolo differenziale e l’altra no, del fatto che Ȳ minimizza la somma dei quadrati degli errori di previsione (3.2) e quindi è lo stimatore dei minimi quadrati di E(Y ). Prova attraverso il calcolo differenziale. Per minimizzare la somma dei quadrati degli errori di previsione, si prenda la derivata prima e la si ponga uguale a zero: n n n X X d X Yi + 2nm = 0. (Yi − m) = −2 (Yi − m)2 = −2 dm i=1 i=1 i=1 Risolvendo l’equazione finale per m, si vede che Ȳ . Pn i=1 (3.25) (Yi − m)2 è minima quando m = Prova senza calcolo differenziale. La strategia è quella di mostrare che la differenza tra lo stimatore dei minimi quadrati e Ȳ deve essere nulla, da cui segue che Ȳ è lo stimatore dei mi 2 2 nimi quadrati. Sia d = Ȳ −m, cosicché m = Ȳ −d. Allora (Yi − m) = Yi − Ȳ − d = 2 2 2 Yi − Ȳ + d = Yi − Ȳ + 2d Yi − Ȳ + d . Cosı̀, la somma dei quadrati degli errori di previsione (3.2) è, n X i=1 (Yi − m) 2 = n X i=1 = n X i=1 Yi − Ȳ Yi − Ȳ 2 2 + 2d n X i=1 + nd2 , Yi − Ȳ + nd2 (3.26) P dove la seconda uguaglianza usa il fatto che ni=1 Yi − Ȳ = 0. Siccome entrambi i termini dell’ultima riga della (3.26) sono non negativi e poiché il primo termine non dipende da d, Pn 2 i=1 (Yi − m) è minimizzato scegliendo d in modo tale da rendere il secondo termine, nd2 , il più possibile piccolo. Questo avviene ponendo d = 0 ovvero m = Ȳ , cosı̀ Ȳ risulta essere lo stimatore dei minimi quadrati di E(Y ). 87 i i i i i i “generale” — 2005/7/10 — 22:25 — page 88 — #118 i i Appendice Appendice 3.3: una prova della consistenza della varianza campionaria Questa appendice usa la legge dei grandi numeri per provare che la varianza campionaria s 2Y è uno stimatore consistente della varianza della popolazione σ Y2 , come affermato dalla (3.8), quando Y1 , . . . , Yn sono i.i.d. e E(Yi4 ) < ∞. 2 Per prima cosa, aggiungiamo e sottraiamo µY , cosicché Yi − Ȳ = [(Yi − µY ) − 2 2 2 Ȳ − µY = (Yi − µY ) − 2 (Yi − µY ) Ȳ − µY + Ȳ − µY . Sostituendo questa 2 espressione per Yi − Ȳ nella definizione (3.7) di s2Y , si ottiene che n s2Y = 2 1 X Yi − Ȳ n − 1 i=1 n = = n 2 X 1 X (Yi − µY )2 − (Yi − µY ) Ȳ − µY n − 1 i=1 n − 1 i=1 n 2 1 X + Ȳ − µY n − 1 i=1 # " X n 2 n n 1 2 Ȳ − µY , (Yi − µY ) − n−1 n i=1 n−1 (3.27) P dove l’uguaglianza finale segue dalla definizione di Ȳ (che implica che ni=1 (Yi − µY ) = n Ȳ − µY ) e dall’aggregazione dei termini. La legge dei grandi numeri può essere ora applicata ai due termini nella parte fina2 le della (3.27). Definiamo Wi = (Yi − µY ) . Allora E(Wi ) = σY2 (per la definizione di varianza). Siccome le variabili casuali Y1 , . . . ,hYn sono i.i.d., i anche le variabili casua4 2 li W1 , . . . , Wn sono i.i.d. Inoltre, E(Wi ) = E (Yi − µY ) < ∞, perché per ipotesi E(Yi4 ) < ∞. Perciò, W1 , . . . , Wn sono i.i.d. e var(Wi ) < ∞, e quindi W̄ soddisfa le p condizioni richieste dalla legge dei grandi numeri nel concetto chiave 2.6 e W̄ → E(Wi ). P P n n 2 2 p Tuttavia, W̄ = n1 i=1 (Yi − µY ) e E(Wi ) = σY2 , cosı̀ n1 i=1 (Yi − µY ) → σY2 . Inoltre, n/(n − 1) → 1, cosı̀ il primo termine della (3.27) converge in probabilità a σ Y2 . Poiché p p Ȳ → µY , (Ȳ − µY )2 → 0 e quindi il secondo termine converge a zero in probabilità. p Combinando questi due risultati, si ottiene s2Y → σY2 . 88 i i i i i i “generale” — 2005/7/10 — 22:25 — page 89 — #119 i i Parte II Elementi fondamentali dell’analisi di regressione i i i i i i “generale” — 2005/7/10 — 22:25 — page 90 — #120 i i i i i i i i “generale” — 2005/7/10 — 22:25 — page 91 — #121 i i Capitolo 4 Regressione lineare con un singolo regressore Uno stato stabilisce nuove pene severe per i guidatori ubriachi; qual è l’effetto sulle vittime della strada? Un distretto scolastico riduce la dimensione delle classi delle scuole elementari; qual è l’effetto sui punteggi dei suoi studenti in un test standardizzato? Se si è completato con successo un ulteriore anno di università, qual è l’effetto sulle retribuzioni future? Queste tre domande riguardano tutte l’effetto ignoto della variazione in una variabile X (che può rappresentare la guida in stato d’ubriachezza, la dimensione delle classi o gli anni di istruzione) su un’altra variabile Y (che può rappresentare le vittime della strada, i risultati di un test scolastico o le retribuzioni). Questo capitolo introduce il modello di regressione lineare che mette in relazione una variabile, X, con un’altra variabile, Y . Tale modello postula una relazione lineare tra X e Y ; la pendenza della retta che mette in relazione X e Y è l’effetto di una variazione unitaria di X su Y . Cosı̀ come la media di Y è una caratteristica ignota della distribuzione di Y nella popolazione, la pendenza della retta che mette in relazione X e Y è una caratteristica incognita della distribuzione congiunta di X e Y nella popolazione. Il compito dell’econometria è quello di stimare questa pendenza –cioè, di valutare l’effetto su Y di una variazione unitaria di X– utilizzando un campione di dati su queste due variabili. Questo capitolo descrive i metodi per fare inferenza statistica su questo modello di regressione usando un campione casuale di dati su X e Y . Ad esempio, con i dati sulla dimensione delle classi e i punteggi del test in diversi distretti scolastici, mostriamo come stimare l’effetto atteso sui punteggi del test di una riduzione nella dimensione delle classi: diciamo, di uno studente per classe. La pendenza e l’intercetta della retta che mettono in relazione X e Y possono essere stimate attraverso un metodo chiamato Minimi Quadrati Ordinari (OLS, acronimo dall’inglese Ordinary Least Squares). Inoltre, lo stimatore OLS può essere usato i i i i i i “generale” — 2005/7/10 — 22:25 — page 92 — #122 i i 4.1. Il modello di regressione lineare per sottoporre a verifica ipotesi circa il valore della pendenza nella popolazione –per esempio, l’ipotesi che una riduzione nella dimensione delle classi non abbia alcun effetto sui risultati del test– e per creare intervalli di confidenza per tale pendenza. 4.1 Il modello di regressione lineare Il provveditore di un distretto scolastico deve decidere se assumere altri insegnanti e chiede la vostra opinione. Se assumesse gli insegnanti, potrebbe ridurre di due unità il numero di studenti per insegnante (il rapporto studenti-insegnanti). Ha di fronte la seguente scelta. I genitori vogliono classi più piccole in modo che i propri figli possano ricevere una maggiore attenzione personale. Assumere nuovi insegnanti, però, significa sopportare una spesa maggiore, cosa poco gradita a chi ne paga il conto! Cosı̀ vi domanda: se si taglia la dimensione delle classi, quale sarà l’effetto sul rendimento degli studenti? In molti distretti scolastici, il rendimento scolastico è misurato con test standardizzati e lo stato occupazionale o la retribuzione di alcuni amministratori possono dipendere in parte dal successo degli studenti nel test. Specifichiamo quindi meglio la domanda del provveditore: se riduciamo di due studenti la dimensione media delle classi, quale sarà l’effetto sui punteggi del test nel suo distretto? Una risposta precisa a questa domanda richiede di quantificare le variazioni. Se il provveditore modificasse la dimensione delle classi di un certo ammontare, che variazioni dovrebbe attendersi nei punteggi del test? Possiamo rappresentare il problema in termini matematici, utilizzando la lettera greca beta, βClassSize , dove il pedice “ClassSize” distingue l’effetto di variare la dimensione delle classi dagli altri effetti. In pratica, βClassSize = variazione in T estScore ∆T estScore = , variazione in ClassSize ∆ClassSize (4.1) dove la lettera greca ∆ (delta) sta per “variazione in”. Cioè, βClassSize è la variazione nel punteggio del test che deriva dal variare la dimensione delle classi, divisa per la variazione nella dimensione delle classi. Se foste tanto fortunati da conoscere βClassSize , potreste dire al provveditore che una riduzione di uno studente nella dimensione delle classi modificherebbe di β ClassSize i punteggi del test a livello di distretto. Potreste anche rispondere alla domanda effettivamente posta dal provveditore, che riguardava la variazione nella dimensione delle classi di due studenti per classe. Per fare questo, si reimposti la (4.1) in modo che ∆T estScore = βClassSize × ∆ClassSize. (4.2) Si supponga che βClassSize = −0, 6. Allora una riduzione nella dimensione delle classi di due studenti per classe produrrebbe una variazione attesa nei punteggi del test di (−0, 6) × 92 i i i i i i “generale” — 2005/7/10 — 22:25 — page 93 — #123 i i 4.1. Il modello di regressione lineare (−2) = 1, 2; potreste cioè predire che i punteggi del test crescerebbero di 1, 2 punti grazie alla riduzione nella dimensione delle classi di due studenti per classe. La (4.1) è la definizione della pendenza di una retta che mette in relazione i risultati del test e la dimensione delle classi. Questa retta può essere scritta T estScore = β0 + βClassSize × ClassSize, (4.3) dove β0 è l’intercetta e, come prima, βClassSize è la pendenza della retta. In base alla (4.3), se conosceste β0 e βClassSize , non solo potreste determinare la variazione nel risultato del test in un distretto associata a una variazione nella dimensione delle classi, ma potreste anche predire il risultato medio del test stesso per una data dimensione delle classi. Quando presentate la (4.3) al provveditore, però, questi risponde che c’è qualcosa di sbagliato con questa formulazione. Puntualizza che la dimensione delle classi è solo uno dei molteplici aspetti dell’istruzione elementare e che due distretti con classi della stessa dimensione possono ottenere punteggi diversi nei test per una varietà di ragioni. Un distretto potrebbe, infatti, avere insegnanti più capaci o utilizzare libri di testo migliori. Due distretti con dimensioni delle classi, insegnanti e libri di testo simili, potrebbero avere popolazioni differenti di studenti; un distretto potrebbe avere più immigrati (e quindi meno studenti di madrelingua inglese) o famiglie più ricche. Infine, fa presente che, se anche due distretti avessero in comune tutte queste caratteristiche, potrebbero comunque ottenere punteggi diversi nel test per ragioni essenzialmente casuali che nulla hanno a che fare con la prestazione degli studenti nel giorno del test. Il provveditore ha ragione, naturalmente; per tutti questi motivi, la (4.3) non può valere esattamente per tutti i distretti. Essa dovrebbe, invece, essere vista come una relazione valida in media nella popolazione dei distretti. Una versione di questa relazione lineare che valga per ciascun distretto deve incorporare gli altri fattori che influenzano i punteggi del test, incluse le caratteristiche peculiari di ciascun distretto (qualità dei suoi insegnanti, condizione economica dei suoi studenti, quanto fortunati sono stati gli studenti il giorno del test, ecc.). Un approccio potrebbe essere quello di elencare i fattori più importanti e di introdurli esplicitamente nella (4.3) (un’idea sulla quale ritorneremo nel capitolo 5). Per il momento, però, limitiamoci a raggruppare insieme tutti questi “altri fattori” e scriviamo la relazione per un dato distretto come T estScore = βClassSize × ∆ClassSize + altri fattori. (4.4) In questo modo, i punteggi del test per quel distretto sono espressi in termini di una componente, β0 + βClassSize × ClassSize, che rappresenta l’effetto medio della dimensione delle classi sui punteggi dei distretti scolastici e una seconda componente che rappresenta tutti gli altri fattori. Sebbene la discussione si sia incentrata sui punteggi dei test e sulla dimensione delle classi, l’idea espressa nell’equazione (4.4) è molto più generale; e quindi è utile introdurre una 93 i i i i i i “generale” — 2005/7/10 — 22:25 — page 94 — #124 i i 4.1. Il modello di regressione lineare Figura 4.1: grafico a nuvola del punteggio del test sul rapporto studenti-insegnanti (dati ipotetici) Punteggio test (Y) 700 (X1,Y1) 680 u1 660 u2 640 ( X2,Y2) B 0 + B 1X 620 600 10 15 20 25 30 Rapporto studenti-insegnanti (X) Il grafico a nuvola mostra osservazioni ipotetiche per sette distretti scolastici. La retta di regressione è β 0 +β1 X . La distanza verticale dell’i-esimo punto dalla retta di regressione è Yi − (β0 + β1 Xi ), che rappresenta l’errore ui per l’i-esima osservazione. notazione più generale. Si supponga di avere un campione di n distretti. Sia Y i il punteggio medio del test nell’i-esimo distretto, sia Xi la dimensione media delle classi nell’i-esimo distretto e si indichi con ui gli altri fattori che influenzano i punteggi del test nell’i-esimo distretto. Allora, la (4.4) può essere scritta in maniera più generale come (4.5) Y i = β 0 + β 1 Xi + u i , per ogni distretto, ovvero per i = 1, . . . , n, dove β0 è l’intercetta della retta e β1 è la pendenza (la notazione generale “β1 ” è usata nella (4.5) per la pendenza al posto di “βClassSize ”, perché questa equazione è scritta nei termini di una variabile generica Xi ). La (4.5) è il modello di regressione lineare con un singolo regressore, in cui Y è la variabile dipendente e X è la variabile indipendente o regressore. La prima parte della (4.5), β0 + β1 Xi , è la retta di regressione della popolazione o Electronic Publishing Services Inc. funzione di regressione della popolazione. Essa esprime la relazione esistente in media tra Stock/Watson, Econometrics 1e Y e X nella popolazione. Cosı̀, se conosceste il valore di X, con questa retta di regressione, STOC.ITEM.0012 potreste predire un valore pari a β0 + β1 Xi per la variabile dipendente Y . Fig. 04.01 94 1st Proof 2nd Proof 3rd Proof Final i i i i i i “generale” — 2005/7/10 — 22:25 — page 95 — #125 i i 4.1. Il modello di regressione lineare Concetto chiave 4.1: terminologia per il modello di regressione lineare con un singolo regressore Il modello di regressione lineare è: Y i = β 0 + β 1 Xi + u i , dove: il pedice i varia tra le osservazioni, i = 1, . . . , n; Yi è la variabile dipendente o semplicemente la variabile di sinistra; Xi è la variabile indipendente, il regressore o semplicemente la variabile di destra; β0 + β1 X è la retta di regressione della popolazione o funzione di regressione della popolazione; β0 è l’intercetta della retta di regressione della popolazione; β1 è la pendenza della retta di regressione della popolazione; e ui è l’errore. L’intercetta β0 e la pendenza β1 sono i coefficienti della retta di regressione della popolazione, noti anche come parametri della retta di regressione della popolazione. La pendenza β1 è la variazione di Y associata a una variazione unitaria di X. L’intercetta è il valore della retta di regressione quando X = 0; è il punto in cui la retta di regressione interseca l’asse delle Y . In alcune applicazioni econometriche, come quella nella sezione 4.7, l’intercetta ha un’importante interpretazione economica. In altre applicazioni, tuttavia, l’intercetta non ha un significato concreto; ad esempio, quando X è la dimensione delle classi, a rigore l’intercetta sarebbe il punteggio predetto quando una classe non ha studenti! Quando l’intercetta è priva di significato concreto è meglio interpretarla matematicamente come il coefficiente che determina il livello della retta di regressione. Il termine ui nella (4.5) è l’errore o disturbo. Esso incorpora tutti i fattori responsabili della differenza tra il punteggio medio del test nell’i-esimo distretto e il valore predetto dalla retta di regressione. Questo errore contiene tutti gli altri fattori diversi da X che determinano il valore della variabile dipendente Y per una specifica osservazione i. Nell’esempio della dimensione delle classi, questi altri fattori includono tutte le caratteristiche peculiari dell’i-esimo distretto che influenzano la prestazione dei suoi studenti nel test, 95 i i i i i i “generale” — 2005/7/10 — 22:25 — page 96 — #126 i i 4.1. Il modello di regressione lineare Tabella 4.1: sintesi della distribuzione del rapporto studenti-insegnanti e del punteggio del test relativa al quinto d’istruzione per 420 distretti K-8 in California nel 1998 Percentile Rapporto studentiinsegnanti Punteggio test Media Deviazione Standard 10% 25% 40% 50% (mediana) 60% 75% 90% 19,6 1,9 17,3 18,6 19,3 19,7 20,1 20,9 21,9 654,2 19,1 630,4 640,0 649,1 654,5 659,4 666,7 679,1 inclusi la qualità degli insegnanti, la condizione economica degli studenti, la fortuna e finanche gli errori di valutazione del test. Il modello di regressione lineare e la sua terminologia sono riassunti nel concetto chiave 4.1. La figura (4.1) mostra il modello di regressione lineare con un singolo regressore per sette osservazioni ipotetiche sul punteggio del test (Y ) e la dimensione delle classi (X). La retta di regressione della popolazione è la retta β0 +β1 X. Tale retta di regressione ha pendenza negativa, ovvero β1 < 0, indicando cosı̀ che i distretti con un rapporto studenti-insegnanti minore (classi più piccole) tendono ad avere punteggi maggiori nel test. L’intercetta β 0 si interpreta matematicamente come il valore dove l’asse Y viene intersecato dalla retta di regressione, ma, come detto prima, non ha un significato concreto in questo esempio. A causa degli altri fattori che determinano la prestazione nel test, le osservazioni ipotetiche della figura 4.1 non cadono esattamente sulla retta di regressione della popolazione. Ad esempio, il valore di Y relativo al primo distretto, Y1 , giace al di sopra della retta di regressione della popolazione. Questo significa che i punteggi del test nel primo distretto sono stati migliori rispetto a quanto predetto dalla retta di regressione, e quindi l’errore per quel distretto, u1 , è positivo. Al contrario, Y2 sta al di sotto della retta di regressione, ad indicare che i risultati del test per quel distretto sono stati peggiori di quanto predetto e u 2 < 0. Ritornate ora al vostro compito di consulenti del provveditore: qual è l’effetto atteso sui punteggi del test di una riduzione di due unità nel numero di studenti per insegnante? La risposta è immediata: la variazione attesa è (−2) × βClassSize . Qual è però il valore di βClassSize ? 96 i i i i i i “generale” — 2005/7/10 — 22:25 — page 97 — #127 i i 4.2. Stima dei coefficienti del modello di regressione lineare 4.2 Stima dei coefficienti del modello di regressione lineare In una situazione pratica, come l’applicazione riguardante la dimensione delle classi e i punteggi del test, l’intercetta β0 e la pendenza β1 della retta di regressione della popolazione sono ignote. Dobbiamo perciò usare i dati per stimare l’intercetta e la pendenza ignote della retta di regressione. Questo problema di stima è simile ad altri che già avete affrontato in statistica. Ad esempio, supponete di voler confrontare le retribuzioni medie di uomini e donne neolaureati. Sebbene siano ignote le retribuzioni medie relative alla popolazione, potete stimarle usando un campione casuale di uomini e donne neolaureati. Lo stimatore naturale dell’ignota retribuzione media delle donne nella popolazione, per esempio, è la retribuzione media delle donne laureate nel campione. La stessa idea si estende al modello di regressione lineare. Noi non conosciamo il valore di βClassSize , la pendenza ignota della retta di regressione che mette in relazione X (dimensione delle classi) e Y (punteggi ottenuti nel test). Tuttavia, cosı̀ come è stato possibile apprendere qualcosa circa la media della popolazione usando un campione di dati estratti da questa, è possibile apprendere qualcosa circa la pendenza β ClassSize usando un campione di dati. I dati che analizziamo qui riguardano i punteggi del test e la dimensione delle classi nel 1998 in 420 distretti scolastici della California che forniscono servizi scolastici che vanno dalla scuola materna all’ottavo grado d’istruzione (la nostra terza media). Il punteggio del test è la media relativa al distretto dei punteggi ottenuti dagli studenti del quinto grado d’istruzione nelle prove di lettura e di matematica. La dimensione delle classi può essere misurata in vari modi. La misura utilizzata qui è una delle più generali, cioè il numero di studenti del distretto diviso per il numero di insegnanti, ovvero il rapporto studenti-insegnanti relativo all’intero distretto. Questi dati sono descritti in maggior dettaglio nell’appendice 4.1. La tabella 4.1 riassume le distribuzioni dei punteggi del test e della dimensione delle classi per questo campione. Il rapporto medio studenti-insegnanti è di 19, 6 studenti per insegnante e la deviazione standard è di 1, 9 studenti per insegnante. Il decimo percentile della distribuzione del rapporto studenti-insegnanti è 17, 3 (ovvero solo il 10% dei distretti ha un rapport studenti-insegnanti inferiore a 17, 3), mentre il distretto al 90-simo percentile ha un rapporto studenti-insegnanti di 21, 9. Un grafico a nuvola di queste 420 osservazioni sui punteggi del test e sul rapporto studentiinsegnanti è mostrato nella figura 4.2. La correlazione campionaria è pari a −0, 23 e indica una debole relazione negativa tra le due variabili. Sebbene classi più numerose, in questo campione, tendano ad avere punteggi inferiori nel test, ci sono altre determinanti dei punteggi che impediscono alle osservazioni di disporsi perfettamente lungo una linea retta. Nonostante questa bassa correlazione, se si potesse in qualche modo tracciare una retta tra questi punti, la sua pendenza sarebbe una stima di βClassSize basata su questi dati. Un 97 i i i i i i “generale” — 2005/7/10 — 22:25 — page 98 — #128 i i 4.2. Stima dei coefficienti del modello di regressione lineare Figura 4.2: grafico a nuvola del punteggio del test sul rapporto studenti-insegnanti (dati relativi ai distretti scolastici della California) Punteggio test 720 700 680 660 640 620 600 10 15 20 25 30 Rapporto studenti-insegnanti Dati per i 420 distretti scolastici della California. C’è una debole relazione negativa tra il rapporto studentiinsegnanti e i punteggi del test: la correlazione campionaria è pari a −0, 23. modo per tracciare una retta potrebbe essere quello di prendere una matita e un righello e di cercare di disegnare a occhio la migliore retta possibile. Sebbene questo metodo sia semplice, è scarsamente scientifico e persone diverse stimerebbero rette diverse. Come fare, allora, a scegliere tra le molte rette possibili? Il metodo di gran lunga più usato è quello di scegliere la retta che corrisponde alla stima dei “minimi quadrati” per questi dati, ovvero di usare lo stimatore dei minimi quadrati ordinari (OLS). Lo stimatore dei minimi quadrati ordinari Lo stimatore OLS sceglie i coefficienti di regressione in modo che la retta di regressione stimata sia il più possibile vicina ai dati osservati, dove la vicinanza è misurata dalla somma dei quadrati degli errori che si commettono nel predire Y data X. Publishing Inc. Come discussoElectronic nella sezione 3.1, la Services media campionaria, Ȳ , è lo stimatore dei minimi Stock/Watson, Econometrics 1e quadrati della media della popolazione, E(Y ); in altre parole, Ȳ minimizza la somma totale P STOC.ITEM.0013 degli errori al quadrato ni=1 (yi − m)2 tra tutti i possibili stimatori m (si veda la (3.2)). Fig. 04.02 Lo stimatore OLS estende questa idea al modello di regressione lineare. Siano b 0 e b1 Proof 2ndbasata Proofsu questi3rd Proof è b0 + bFinal stimatori di β0 e β1 . La1st retta di regressione stimatori 1 X, e quindi 98 i i i i i i “generale” — 2005/7/10 — 22:25 — page 99 — #129 i i 4.2. Stima dei coefficienti del modello di regressione lineare il valore di Yi predetto usando questa retta è b0 + b1 Xi . Perciò, l’errore che si commette nel predire la i-esima osservazione è Yi − (b0 + b1 Xi ) = Yi − b0 − b1 Xi . La somma dei quadrati degli errori di predizione per tutte le n osservazioni è n X i=1 (Yi − b0 − b1 Xi )2 . (4.6) La somma degli errori quadratici (4.6) per il modello di regressione lineare è la generalizzazione della somma degli errori quadratici (3.2) per il problema della stima della media. Infatti, se non c’è alcun regressore, b1 non compare nella (4.6) e i due problemi sono identici eccetto per la differente notazione (m nella (3.2), b0 nella (4.6)). Cosı̀ come c’è un unico stimatore, Ȳ , che minimizza la (3.2), c’è un’unica coppia di stimatori di β0 e β1 che minimizza la (4.6). Gli stimatori dell’intercetta e della pendenza che minimizzano la somma dei quadrati degli errori nella (4.6) sono detti stimatori dei minimi quadrati ordinari (OLS) di β0 e β1 . Gli OLS hanno una notazione e una terminologia propria. Lo stimatore OLS di β 0 è indicato con β̂0 e quello di β1 con β̂1 . La retta di regressione degli OLS è la linea retta costruita usando gli stimatori degli OLS ovvero β̂0 + β̂1 X. Il valore predetto di Yi data Xi , basato sulla retta di regressione degli OLS, è Ŷi = β̂0 + β̂1 Xi . Il residuo relativo alla i-esima osservazione è la differenza tra Yi e il suo valore predetto, cioè il residuo è ûi = Yi − Ŷi . Si potrebbero calcolare gli stimatori OLS di β̂0 e β̂1 provando diversi valori di b0 e b1 , finché non si trovano quelli che minimizzano la somma degli errori quadratici (4.6); queste sono le stime dei minimi quadrati. Questa procedura potrebbe però risultare alquanto tediosa. Fortunatamente, ci sono formule derivate dalla minimizzazione della (4.6) attraverso il calcolo differenziale che semplificano il calcolo degli stimatori degli OLS. Le formule e la terminologia relativa agli OLS sono riassunti nel concetto chiave 4.2. Tali formule sono implementate in quasi tutti i pacchetti statistici e i fogli elettronici. Esse sono derivate formalmente nell’appendice 4.2. Stime OLS della relazione tra punteggi del test e rapporto studenti-insegnanti Utilizziamo gli OLS per stimare la retta che mette in relazione il rapporto studenti-insegnanti con i punteggi del test usando le 420 osservazioni riportate nella figura 4.2: la pendenza stimata è −2, 28 e l’intercetta stimata è 698, 9. La retta di regressione OLS per queste 420 osservazioni è d T estScore = 698, 9 − 2, 28 × ST R, (4.7) dove T estScore è il punteggio medio del test ottenuto nel distretto e ST R (acronimo dall’inglese Student-Teacher Ratio) è il rapporto studenti-insegnanti. Il simbolo “ ˆ ” su T estScore 99 i i i i i i “generale” — 2005/7/10 — 22:25 — page 100 — #130 i i 4.2. Stima dei coefficienti del modello di regressione lineare Concetto chiave 4.2: stimatore OLS, valori predetti e residui Gli stimatori OLS della pendenza β1 e dell’intercetta β0 sono: β̂1 = n P i=1 (Xi − X̄)(Yi − Ȳ ) n P i=1 (Xi − X̄)2 = sXY s2X β̂0 = Ȳ − β̂1 X. (4.8) (4.9) I valori predetti Ŷi e i residui ûi sono: Ŷi = β̂0 + β̂1 Xi , i = 1, . . . , n (4.10) ûi = Yi − Ŷi , i = 1, . . . , n. (4.11) L’intercetta stimata (β̂0 ), la pendenza (β̂1 ) e il residuo (û1 ) sono calcolati su un campione di n osservazioni di Xi e Yi , con i = 1, . . . , n. Queste sono stime dell’intercetta (β0 ), della pendenza (β1 ) e dell’errore (ui ) nella popolazione. nell’equazione (4.7) indica che questo è il valore predetto in base alla retta di regressione degli OLS. La figura 4.3 riporta la retta di regressione sovrapposta al grafico a nuvola mostrato in precedenza nella figura 4.2. La pendenza pari a −2, 28 indica che un incremento nel rapporto studenti-insegnanti di uno studente per classe è, mediamente, associato a una riduzione nei punteggi del test a livello di distretto di 2, 28 punti. Una riduzione di due studenti per classe del rapporto studenti-insegnanti è mediamente associata a un incremento nei punteggi del test di 4, 56 punti (= −2 × (−2.28)). La pendenza negativa indica che a un maggior numero di studenti per insegnante (classi più grandi) si associa una peggiore prestazione nel test. È ora possibile predire il risultato del test per l’intero distretto dato un certo valore del rapporto studenti-insegnanti. Ad esempio, per un distretto con 20 studenti per insegnante il punteggio predetto è 698, 9 − 2, 28 × 20 = 653, 3. Naturalmente, questa predizione non sarà perfetta a causa degli altri fattori che determinano la prestazione di un distretto. Tuttavia, la retta di regressione fornisce una predizione (la predizione degli OLS) di quale sarebbe il risultato del test in quel distretto, basandosi sul solo rapporto studenti-insegnanti e ignorando tutti gli altri fattori. Questa stima della pendenza è grande o piccola? Per poter rispondere, ritorniamo al problema del provveditore. Si ricordi che sta vagliando l’opportunità di assumere abbastanza insegnanti da ridurre di due unità il numero di studenti per insegnante. Supponiamo che il 100 i i i i i i “generale” — 2005/7/10 — 22:25 — page 101 — #131 i i 4.2. Stima dei coefficienti del modello di regressione lineare Figura 4.3: retta di regressione stimata per i dati della California Punteggio test 720 700 ˆ Punteggio test = 698,9 – 2,28 X STR 680 660 640 620 600 10 15 20 25 30 Rapporto studenti-insegnanti La retta di regressione stimata mostra una relazione negativa tra i punteggi del test e il rapporto studentiinsegnanti. Se le classi fossero ridotte di 1 studente, la previsione è che i punteggi del test crescerebbero di 2, 28 punti. distretto del provveditore sia quello mediano della California. Dalla tabella 4.1, il rapporto mediano studenti-insegnanti è 19, 7 e il punteggio mediano è 654, 5. Una riduzione di due studenti per classe, da 19, 7 a 17, 7, sposterebbe il rapporto studenti-insegnanti dal 50-esimo al 10-mo percentile. Si tratta di un grande cambiamento che richiede l’assunzione di molti nuovi insegnanti. In che modo potrebbe influenzare i punteggi del test? In base alla (4.7), tagliando il numero di studenti per insegnante di due unità, si predice un miglioramento del punteggio del test di 4, 6 punti. Se il punteggio del distretto fosse pari alla mediana, 654, 5, si predice che esso crescerebbe fino a 659, 1. È un miglioramento grande o piccolo? Secondo la tabella 4.1, questo miglioramento sposta il distretto dalla mediana ad appena sotto il 60-esimo percentile. Perciò, una riduzione nella dimensione delle classi che collocasse il distretto vicino al 10% delle classi con dimensioni minori, sposterebbe i punteggi del test dal 50-esimo al 60-esimo percentile. Secondo queste stime, tagliare Electronic Publishing Services Inc. il rapporto studenti-insegnanti in maniera rilevante (2 studenti per insegnante) aiuterebbe, e Stock/Watson, Econometrics 1e potrebbe essere una buona idea se la situazione di bilancio lo permettesse, ma non sarebbe STOC.ITEM.0014 una panacea. Fig. 04.03 Cosa succede se il provveditore considera un cambiamento ancora più radicale, come una 1st Proof 2nd Proof 3rd Proof Final riduzione nel numero di studenti per insegnante da 20 a 5? Sfortunatamente, le stime della 101 i i i i i i “generale” — 2005/7/10 — 22:25 — page 102 — #132 i i 4.2. Stima dei coefficienti del modello di regressione lineare Il “beta” di un titolo Un’idea fondamentale della finanza moderna è che un investitore ha bisogno di un incentivo finanziario per assumere un rischio. Detto diversamente, il rendimento attesoa di un investimento rischioso R deve essere superiore al rendimento di un investimento sicuro e senza rischio Rf . Perciò, l’eccesso di rendimento atteso R − Rf di un investimento rischioso, quale il possesso di titoli di una società, dovrebbe essere positivo. Potrebbe sembrare a prima vista che il rischio di un titolo debba essere misurato dalla sua varianza. Gran parte di tale rischio può però essere ridotto aggiungendo altri titoli al “portafoglio”, cioè diversificando gli investimenti finanziari. Questo significa che il modo corretto per misurare il rischio di un titolo non è attraverso la sua varianza, ma piuttosto attraverso la sua covarianza con il mercato. Il capital assets pricing model (CAPM) formalizza questa idea. Secondo il CAPM, l’eccesso di rendimento atteso su un’attività è proporzionale all’eccesso di rendimento atteso su un portafoglio composto da tutte le attività finanziarie disponibili (il “portafoglio di mercato”). In altri termini, il CAPM afferma che R − Rf = β(Rm − Rf ), (4.12) dove Rm è il rendimento atteso sul portafoglio di mercato e β è il coefficiente della regressione di R−Rf su Rm −Rf . In pratica, il rendimento privo di rischio è spesso rappresentato dal tasso d’interesse a breve sul debito pubblico USA. Secondo il CAPM, un titolo con β < 1 è meno rischioso rispetto al portafoglio di mercato e perciò ha un eccesso di rendimento atteso minore rispetto al portafoglio di mercato. Al contrario, un titolo con β > 1 è più rischioso rispetto al portafoglio di mercato e perciò richiede un maggiore eccesso di rendimento atteso. Il “beta” di un titolo è diventato un cavallo di battaglia dell’industria dell’investimento, e si possono ottenere stime dei β relativi a centinaia di titoli nelle pagine web delle società d’investimento. Tali β sono tipicamente stimati tramite regressioni OLS dell’effettivo eccesso di rendimento del titolo sull’effettivo eccesso di rendimento di un ampio indice di mercato. La tabella sottostante fornisce stime di β per sei titoli USA. Imprese a basso rischio di prodotti per il consumatore, come la Kellogg, hanno titoli con bassi β; imprese rischiose ad alta tecnologia, come la Microsoft, hanno β grandi. Impresa Kellogg (cereali) Waste Management (rifiuti) Sprint (interurbane) Walmart (discount) Barnes and Noble (dettagliante) Best Buy (rivenditore) Microsoft (software) Fonte: Yahoo.com β stimato 0,24 0,38 0,59 0,89 1,03 1,80 1,83 a Il rendimento di un investimento è la variazione nel suo prezzo, più qualunque pagamento (dividendo) derivante dall’investimento, come percentuale del suo prezzo iniziale. Per esempio, un titolo acquistato l’1 gennaio per 100$, che paga un dividendo di 2, 50$ durante l’anno e che è venduto il 31 dicembre per 105$, avrebbe un rendimento pari a R = [(105$ − 100$) + 2, 50$]/100$ = 7, 5%. 102 i i i i i i “generale” — 2005/7/10 — 22:25 — page 103 — #133 i i 4.3. Le assunzioni dei minimi quadrati (4.7) non sarebbero molto utili. Tale regressione è stata stimata utilizzando i dati della figura 4.2 e, come la figura mostra, il numero minimo di studenti per insegnante è 14. Questi dati non contengono informazioni riguardanti le prestazioni in distretti con classi molto piccole; essi non costituiscono, quindi, una base solida per predire l’effetto di uno spostamento radicale verso un rapporto studenti-insegnanti cosı̀ basso. Perché usare lo stimatore OLS? Ci sono ragioni sia pratiche sia teoriche per l’uso degli stimatori OLS β̂0 e β̂1 . Poiché quello degli OLS è il metodo dominante in pratica, è diventato il linguaggio comune dell’analisi di regressione in economia, finanza (si guardi il riquadro “Il “beta” di un titolo”) e nelle scienze sociali più in generale. Presentare risultati ottenuti con gli OLS (o le varianti che verranno discusse nel prosieguo del libro) significa “parlare la stessa lingua” degli altri economisti e statistici. Le formule degli OLS sono contenute in praticamente tutti i fogli elettronici e i pacchetti statistici, rendendo cosı̀ gli OLS facili da usare. Gli stimatori degli OLS hanno anche proprietà teoriche desiderabili. Ad esempio, la media campionaria Ȳ è uno stimatore non distorto della media E(Y ), cioè E(Ȳ ) = µY ; Ȳ è uno stimatore consistente di µY ; e, in grandi campioni la distribuzione di Ȳ è approssimativamente normale (sezione 3.1). Gli stimatori OLS β̂0 e β̂1 hanno anch’essi queste proprietà. Dato un insieme generale di ipotesi (riportate nella sezione 4.3), β̂0 e β̂1 sono stimatori non distorti e consistenti di β0 e β1 e la loro distribuzione campionaria è approssimativamente normale. Questi risultati sono discussi nella sezione 4.4. Un’ulteriore proprietà desiderabile di Ȳ è quella di essere efficiente tra gli stimatori che sono funzioni lineari di Y1 , . . . , Yn : ha cioè varianza minore tra tutti gli stimatori costruiti come medie ponderate di Y1 , . . . , Yn (sezione 3.1). Un risultato simile vale anche per lo stimatore OLS, ma questo risultato richiede un’ulteriore assunzione rispetto a quelle contenute nella sezione 4.3 e quindi ne rimandiamo la discussione alla sezione 4.9. 4.3 Le assunzioni dei minimi quadrati Questa sezione presenta un insieme di tre assunzioni sul modello di regressione lineare e sullo schema di campionamento sotto le quali gli OLS costituiscono uno stimatore appropriato dei coefficienti di regressione ignoti β0 e β1 . Queste ipotesi potrebbero apparire inizialmente astratte. Esse hanno tuttavia un’interpretazione intuitiva e la loro comprensione è essenziale per capire quando gli OLS forniscono –o non forniscono– stime utili dei coefficienti di regressione. 103 i i i i i i “generale” — 2005/7/10 — 22:25 — page 104 — #134 i i 4.3. Le assunzioni dei minimi quadrati Figura 4.4: distribuzioni di probabilità condizionate e retta di regressione della popolazione Punteggio test 720 700 680 Distribuzione di Y quando X = 15 Distribuzione di Y quando X = 20 Distribuzione di Y quando X = 25 660 E(YX = 15) 640 E(YX = 20) E(YX = 25) 620 600 10 15 20 β 0 +β 1 X 25 30 Rapporto studenti-insegnanti La figura mostra la probabilità condizionata dei punteggi del test per distretti con classi di 15, 20 e 25 studenti. ˛ La media della distribuzione condizionata dei punteggi del test, dato il rapporto studenti-insegnanti, E(Y ˛X), è la retta di regressione β0 + β1 X . Per un dato valore di X , Y si distribuisce attorno alla retta di regressione e l’errore u = Y − (β0 + β1 X) ha media condizionata nulla per ogni valore di X . Assunzione 1: la distribuzione condizionata di ui data Xi ha media nulla La prima assunzione dei minimi quadrati è che la distribuzione condizionata di u i data Xi abbia media nulla. Questa assunzione è una formalizzazione matematica riguardante gli “altri fattori” contenuti in ui e afferma che questi altri fattori non sono legati a Xi nel senso che, dato un valore di Xi , la media della distribuzione di questi altri fattori è pari a zero. Tutto questo è illustrato nella figura 4.4. La regressione relativa alla popolazione è la relazione che mediamente si ha, nella popolazione, tra la dimensione delle classi e i punteggi Electronic Publishing Services del test, e l’errore ui rappresenta gli altri fattori Inc. che rendono i punteggi del test in un distretto Stock/Watson, Econometrics 1e diversi dalla predizione basata sulla retta di regressione relativa alla popolazione. Come STOC.ITEM.0015 mostrato dalla figura 4.4, per una data dimensione delle classi, diciamo 20 studenti per classe, Fig. 04.04 talvolta questi altri fattori danno luogo a prestazioni migliori rispetto a quelle predette (u i > 1st Proof Proof 0) e talvolta a prestazioni peggiori (u2nd 0), sebbene3rd la predizione in Final media sia corretta. i <Proof In altre parole, data Xi = 20, la media della distribuzione di ui è pari a zero. Nella figura 4.4, questo è mostrato dal fatto che la distribuzione di ui si concentra attorno alla retta di regressione in corrispondenza di Xi = 20 e, più in generale, degli altri valori x assunti da Xi . In altre parole, la distribuzione di ui , condizionatamente a Xi = x, ha media nulla 104 i i i i i i “generale” — 2005/7/10 — 22:25 — page 105 — #135 i i 4.3. Le assunzioni dei minimi quadrati per ogni x; in termini matematici, E(ui Xi = x) = 0 per ogni x o, con una notazione più semplice, E(ui Xi ) = 0. Come mostrato nella figura 4.4, l’ipotesi E(ui Xi ) = 0 corrisponde all’ipotesi che la retta di regressione relativa alla popolazione sia la media condizionata di Y i data Xi (la dimostrazione matematica è lasciata come esercizio 4.3). Correlazione e media condizionata. Si ricordi dalla sezione 2.3 che, se una variabile casuale ha media condizionata nulla data un’altra variabile cauale, allora le due variabili casuali hanno covarianza nulla e sono perciò incorrelate (si veda la (2.25)). Per questo motivo, l’assunzione circa la media condizionata E(ui Xi ) = 0 implica che Xi e ui siano incorrelati, ovvero corr(Xi , ui ) = 0. Siccome la correlazione è una misura di associazione lineare, non vale invece il contrario; se anche Xi e ui fossero incorrelati, la media condizionata di ui data Xi potrebbe essere non nulla. Se però Xi e ui sono correlati, allora necessariamente E(ui Xi ) è non nulla. Perciò conviene spesso discutere l’assunzione circa la media condizionata nei termini di una possibile correlazione tra Xi e ui . Se Xi e ui sono correlati, allora l’assunzione circa la media condizionata è violata. Assunzione 2: (Xi , Yi ), i = 1, . . . , n sono indipendentemente e identicamente distribuite La seconda assunzione dei minimi quadrati è che (Xi , Yi ), i = 1, . . . , n, sono indipendentemente e identicamente distribuite (i.i.d.). Come discusso nella sezione 2.5 (concetto chiave 2.5), questa è una formalizzazione matematica del modo in cui viene estratto il campione. Se le osservazioni sono estratte con campionamento casuale semplice da un’unica ampia popolazione, allora (Xi , Yi ), i = 1, . . . , n, sono i.i.d. Ad esempio, sia X l’età di un lavoratore e Y la sua retribuzione, e si immagini di estrarre in maniera casuale una persona dalla popolazione dei lavoratori. Tale persona selezionata casualmente avrebbe una certa età e una certa retribuzione (ovvero X e Y assumerebbero certi valori). Se un campione di n lavoratori fosse estratto da questa popolazione, allora (Xi , Yi ), i = 1, . . . , n, avrebbero necessariamente la stessa distribuzione e, se fossero estratti in modo casuale, sarebbero anche distribuiti indipendentemente tra loro, ovvero sarebbero i.i.d. L’assunzione di i.i.d. è ragionevole per molti schemi di campionamento. Ad esempio, le indagini riguardanti un sottoinsieme casualmente selezionato della popolazione possono tipicamente essere trattate come i.i.d. Non tutti gli schemi di campionamento producono però osservazioni i.i.d. su (X i , Yi ). Un esempio è quando il valore di X non è rilevato attraverso un campione casuale della popolazione, ma viene invece fissato dal ricercatore come parte di un esperimento. Ad esempio, supponiamo che un orticultore voglia studiare gli effetti di vari metodi di diserbaggio organico (X) sulla produzione di pomodori (Y ) e quindi metta a coltura i pomodori in campi diversi 105 i i i i i i “generale” — 2005/7/10 — 22:25 — page 106 — #136 i i 4.3. Le assunzioni dei minimi quadrati utilizzando tecniche diverse di diserbaggio organico. Se l’orticultore sceglie le tecniche (il livello di X) da utilizzare nel campo i-esimo e applica al campo i-esimo la stessa tecnica in tutte le ripetizioni dell’esperimento, allora il valore di Xi non cambia da un campione a un altro. Perciò, Xi non è casuale (sebbene il risultato Yi lo sia) e il tipo di campionamento non è i.i.d. I risultati presentati in questo capitolo, sviluppati per regressori i.i.d., sono veri anche se i regressori non sono casuali (questo punto sarà discusso nel capitolo 15). Il caso dei regressori non casuali, comunque, è piuttosto peculiare. Ad esempio, i moderni protocolli sperimentali richiedono che l’orticultore assegni il livello di X ai diversi campi usando un generatore di numeri casuali computerizzato, prevenendo cosı̀ ogni possibile distorsione dovuta all’orticultore stesso (che potrebbe usare per i pomodori il suo metodo di diserbaggio organico preferito nel campo più soleggiato). Quando si usa questo moderno protocollo sperimentale, il livello di X è casuale e (Xi , Yi ) sono i.i.d. Un altro esempio di campionamento non-i.i.d. è quando le osservazioni si riferiscono alla stessa unità osservata ripetutamente nel tempo. Ad esempio, potremmo avere dati sul livello delle scorte di un’impresa (Y ) e sul tasso d’interesse al quale l’impresa ottiene credito (X), registrati quattro volte all’anno (trimestralmente) per trent’anni. Questo è un esempio di serie temporale, e una peculiarità delle serie temporali è che le osservazioni vicine nel tempo non sono indipendenti, ma tendono a essere correlate tra di loro; se i tassi d’interesse sono bassi ora, lo saranno verosimilmente anche nel prossimo trimestre. Questa forma di correlazione viola la parte riguardante l’“indipendenza” dell’assunzione di dati i.i.d. Le serie temporali portano con sé un insieme di complicazioni che è meglio trattare dopo aver descritto gli strumenti basilari dell’analisi di regressione; rimandiamo, perciò, la discussione dell’analisi delle serie temporali alla parte IV. Assunzione 3: Xi e ui hanno quattro momenti La terza assunzione degli OLS è che i momenti quarti di Xi e ui siano non nulli e finiti (0 < E(Xi4 ) < ∞ e 0 < E(u4i ) < ∞) o, equivalentemente, che i momenti quarti di Xi e Yi siano non nulli e finiti. Questa assunzione limita la probabilità di selezionare un’osservazione con valori estremamente elevati di Xi e ui . Se dovessimo estrarre un’osservazione con Xi o Yi estremamente elevati –ovvero con Xi o Yi molto lontani dalla regione in cui si trova il grosso dei dati– quella osservazione riceverebbe grande rilevanza in una regressione OLS e questo renderebbe fuorvianti i risultati della regressione. L’assunzione di momenti quarti finiti è usata nei calcoli matematici che giustificano le approssimazioni per grandi campioni alle distribuzioni delle statistiche test basate sugli OLS. Abbiamo già incontrato tale assunzione nel capitolo 3, discutendo la consistenza della varianza campionaria. Nello specifico, la (3.8) afferma che la varianza campionaria s 2Y è uno stimap tore consistente della varianza della popolazione σY2 (ovvero che s2Y → σY2 ). Se Y1 , . . . , Yn P sono i.i.d. e il momento quarto di Yi è finito, allora per la media n1 ni=1 (Yi − µY )2 vale la 106 i i i i i i “generale” — 2005/7/10 — 22:25 — page 107 — #137 i i 4.3. Le assunzioni dei minimi quadrati Concetto chiave 4.3: le assunzioni dei minimi quadrati Yi = β0 + β1 Xi + ui , con i = 1, . . . , n, dove: 1. l’errore ui ha media condizionata nulla data Xi , ovvero E(ui Xi ) = 0; 2. (Xi , Yi ), i = 1, . . . , n, sono estratti indipendentemente e identicamente distribuiti (i.i.d.) dalla loro distribuzione congiunta; 3. (Xi , ui ) hanno momenti quarti finiti non nulli. legge dei grandi numeri (concetto chiave 2.6); è questo un passo cruciale della prova della consistenza di s2Y nell’appendice 3.3. Il ruolo dell’ipotesi sui momenti quarti nella teoria matematica della regressione OLS è discusso ulteriormente nella sezione 15.3. Si potrebbe sostenere che questa assunzione è un dettaglio tecnico che vale regolarmente in pratica. La dimensione di una classe è limitata dalla capacità fisica della classe; la cosa migliore che si possa fare in un test standardizzato è rispondere correttamente a tutte le domande, la peggiore è dare tutte risposte sbagliate. Poiché la dimensione delle classi e i punteggi del test hanno dominio finito, essi hanno necessariamente momenti quarti finiti. Più in generale, le distribuzioni comunemente utilizzate come la normale hanno quattro momenti. Però, come questione puramente matematica, alcune distribuzioni non hanno momenti quarti finiti e questa assunzione le esclude. Se vale questa assunzione, è improbabile che le inferenze statistiche che usano gli OLS siano dominate da poche osservazioni. L’uso delle assunzioni dei minimi quadrati Le tre assunzioni dei minimi quadrati per il modello di regressione lineare sono riportate nel concetto chiave 4.3. Le assunzioni dei minimi quadrati giocano un duplice ruolo e ritorneremo ripetutamente su di esse nel prosieguo del testo. Il primo ruolo è matematico: se valgono queste assunzioni, allora, come mostrato nella prossima sezione, in grandi campioni gli stimatori OLS hanno distribuzioni campionarie normali. A sua volta, questa distribuzione normale in grandi campioni permette di sviluppare metodi per la verifica di ipotesi e la costruzione di intervalli di confidenza usando gli stimatori OLS. Il loro secondo ruolo è quello di identificare le circostanze che creano difficoltà per la regressione OLS. Come vedremo, la prima assunzione dei minimi quadrati è la più importante da considerare nelle applicazioni pratiche. Una ragione per cui la prima assunzione dei 107 i i i i i i “generale” — 2005/7/10 — 22:25 — page 108 — #138 i i 4.4. Distribuzione campionaria degli stimatori OLS minimi quadrati potrebbe non valere in pratica è discussa nella sezione 4.10 e nel capitolo 5, e ragioni ulteriori sono discusse nella sezione 7.2. È anche importante verificare se, per una data applicazione, valga la seconda assunzione. Benché sia plausibile per molti dati sezionali, essa è inappropriata per le serie temporali. Per questo motivo, l’assunzione di dati i.i.d. sarà rimpiazzata nella parte IV, quando discuteremo la regressione con serie temporali, da un’assunzione più adatta. Tratteremo la terza ipotesi come condizione tecnica che vale comunemente in pratica e quindi non ci dilungheremo oltre su di essa. 4.4 Distribuzione campionaria degli stimatori OLS Siccome gli stimatori OLS β̂0 e β̂1 sono calcolati per un campione estratto casualmente, sono essi stessi variabili casuali con una distribuzione di probabilità –la distribuzione campionaria– che descrive i valori che essi possono assumere nei diversi campioni possibili. Questa sezione presenta tali distribuzioni campionarie. In piccoli campioni, queste distribuzioni sono complicate, ma, in grandi campioni, esse sono approssimativamente normali grazie al teorema limite centrale. La distribuzione campionaria degli stimatori degli OLS Richiami sulla distribuzione campionaria di Ȳ . Si ricordi la discussione delle sezioni 2.5 e 2.6 sulla distribuzione campionaria della media campionaria, Ȳ , uno stimatore della media ignota di Y nella popolazione, µY . Poiché Ȳ è calcolata utilizzando un campione estratto casualmente, Ȳ è una variabile casuale che assume valori diversi da un campione a un altro; la probabilità di questi diversi valori è riassunta nella sua distribuzione campionaria. Sebbene la distribuzione campionaria di Ȳ possa essere complicata quando la numerosità campionaria è piccola, si può dire al suo proposito qualcosa che vale per ogni n. In particolare, la media della distribuzione campionaria è µY ovvero E(Ȳ ) = µY , e quindi Ȳ è uno stimatore non distorto di µY . Se n è grande, si può dire di più circa la distribuzione campionaria. In particolare, il teorema limite centrale (sezione 2.6) afferma che questa distribuzione è approssimativamente normale. La distribuzione campionaria di β̂0 e β̂1 . Queste idee si estendono agli stimatori OLS β̂0 e β̂1 dell’intercetta ignota β0 e della pendenza β1 della retta di regressione della popolazione. Poiché gli stimatori OLS sono calcolati usando un campione casuale, β̂0 e β̂1 sono variabili casuali che assumono valori diversi da un campione all’altro; la probabilità di questi diversi valori è riassunta nella loro distribuzione campionaria. Sebbene le distribuzioni campionarie di β̂0 e β̂1 possano essere complesse quando la numerosità campionaria è piccola, si può comunque dire al suo proposito qualcosa che vale 108 i i i i i i “generale” — 2005/7/10 — 22:25 — page 109 — #139 i i 4.4. Distribuzione campionaria degli stimatori OLS per ogni n. In particolare, le distribuzioni campionarie di β̂0 e β̂1 hanno medie pari a β0 e β1 . In altre parole, sotto le assunzioni dei minimi quadrati nel concetto chiave 4.3, E(β̂0 ) = β0 e E(β̂1 ) = β1 , (4.13) cioè, β̂0 e β̂1 sono stimatori non distorti di β0 e β1 . La prova della non distrorsione di β̂1 è fornita nell’appendice 4.3 e la prova della non distorsione di β̂0 è lasciata come esercizio 4.4. Se il campione è sufficientemente numeroso, per il teorema limite centrale la distribuzione campionaria di β̂0 e β̂1 è bene approssimata dalla distribuzione normale bivariata (sezione 2.4). Questo implica che le distribuzioni marginali di β̂0 e β̂1 siano normali in grandi campioni. Questo ragionamento richiede il teorema limite centrale. Tecnicamente, il teorema limite centrale riguarda la distribuzione delle medie (come Ȳ ). Esaminando il numeratore dell’equazione (4.8), si vede che anche β̂1 è una sorta di media –non una media semplice– come Ȳ , ma una media di prodotti, (Yi − Ȳ )(Xi − X̄). Come discusso ulteriormente nell’appendice 4.3, il teorema limite centrale si applica a questa media, che quindi, come la media semplice Ȳ , si distribuisce normalmente in grandi campioni. L’approssimazione normale alla distribuzione degli stimatori OLS in grandi campioni è riassunta nel concetto chiave 4.4 (l’appendice 4.3 riassume la derivazione di queste formule). Una questione rilevante in pratica è quanto grande debba essere n perché queste approssimazioni siano affidabili. Nella sezione 2.6 abbiamo suggerito che n = 100 è sufficientemente grande perché la distribuzione campionaria di Ȳ sia ben approssimata da una distribuzione normale, e che talvolta è sufficiente un n più piccolo. Questo criterio si estende alle medie più complicate che compaiono nell’analisi di regressione. Virtualmente in tutte le moderne applicazioni econometriche n > 100, e quindi considereremo affidabile l’approssimazione normale alle distribuzioni degli stimatori OLS, a meno che non sussistano valide ragioni per pensare diversamente. I risultati nel concetto chiave 4.4 implicano che gli stimatori OLS siano consistenti, cioè quando la dimensione campionaria è grande, β̂0 e β̂1 sono vicini, con alta probabilità, ai veri coefficienti della popolazione β0 e β1 . Questo accade perché le varianze σβ̂2 e σβ̂2 degli 0 1 stimatori tendono a zero al crescere di n (infatti, n appare al denominatore delle formule per le varianze), e quindi le distribuzioni degli stimatori OLS saranno fortemente concentrate attorno alle loro medie, β0 e β1 , quando n è grande. Un’altra implicazione delle distribuzioni nel concetto chiave 4.4 è che, in generale, maggiore è la variabilità di Xi , minore è la varianza σβ̂2 di β̂1 . Matematicamente, questo accade 1 perché la varianza di β̂1 nella (4.14) è inversamente proporzionale al quadrato della varianza di Xi : maggiore è var(Xi ), maggiore è il denominatore della 4.14, e quindi minore è σ β̂2 . Per 1 comprendere meglio perché ciò accada, si guardi la figura 4.5 che presenta un grafico a nuvola di 150 dati su X e Y generati artificialmente. I dati indicati con punti grigi rappresentano 109 i i i i i i “generale” — 2005/7/10 — 22:25 — page 110 — #140 i i 4.5. Verifica di ipotesi su un singolo coefficiente di regressione Concetto chiave 4.4: le distribuzioni di β̂0 e β̂1 in grandi campioni Se valgono le ipotesi dei minimi quadrati nel concetto chiave 4.3, β̂0 e β̂1 hanno congiuntamente distribuzione campionaria normale. La distribuzione normale in grandi campioni di β̂1 è N (β1 , σβ̂2 ), dove la varianza di questa distribuzione, σβ̂2 , è 1 1 σβ̂2 = 1 1 var[(Xi − µX )ui ] . n [var(Xi )]2 (4.14) La distribuzione normale in grandi campioni di β̂0 è N (β0 , σβ̂2 ), dove 0 σβ̂2 0 1 var(Hi ui ) = , dove Hi = 1 − n [E(Hi2 )]2 µX E(Xi2 ) Xi . (4.15) le 75 osservazioni più vicine a X̄. Supponete che vi venga chiesto di disegnare una retta che passi il più accuratamente possibile attraverso i punti grigi oppure, a vostra scelta, attraverso quelli neri: quale scegliereste di disegnare? Sarebbe più facile disegnare con precisione una linea attraverso i punti neri, che hanno varianza maggiore rispetto ai punti grigi. In modo simile, maggiore è la varianza di X, più preciso risulta β̂1 . L’approssimazione normale alla distribuzione campionaria di β̂0 e β̂1 è uno strumento potente. Con questa approssimazione a disposizione, possiamo sviluppare metodi per fare inferenza sui veri valori dei coefficienti di regressione nella popolazione, usando solo un campione di dati. 4.5 Verifica di ipotesi su un singolo coefficiente di regressione Il vostro cliente, il provveditore, vi chiama per un problema. Ha un contribuente arrabbiato nel suo ufficio il quale sostiene che il ridimensionamento delle classi non incrementerà i punteggi dei test, risolvendosi quindi in un mero sperpero di denaro. La dimensione delle classi, sostiene il contribuente, non ha alcun effetto sui punteggi dei test. La lamentela del contribuente può essere riformulata nei termini dell’analisi di regressione. Poiché l’effetto sui punteggi del test di una variazione unitaria nella dimensione delle classi è βClassSize , il contribuente sta affermando che la retta di regressione relativa alla popolazione è orizzontale, ovvero che la pendenza βClassSize della retta di regressione della popolazione è pari a zero. C’è qualche evidenza nel vostro campione di 420 osservazioni sui distretti scolastici californiani, chiede il provveditore, che questa pendenza sia nulla? Si può 110 i i i i i i “generale” — 2005/7/10 — 22:25 — page 111 — #141 i i 4.5. Verifica di ipotesi su un singolo coefficiente di regressione Figura 4.5: distribuzioni di probabilità condizionate e retta di regressione della popolazione Y 206 204 202 200 198 196 194 97 98 99 100 101 102 103 X I punti grigi rappresentano un sottoinsieme delle Xi con varianza piccola. I punti neri rappresentano un sottoinsieme di Xi con varianza elevata. La retta di regressione può essere stimata più accuratamente con i punti neri che con i punti grigi. rifiutare l’ipotesi del contribuente secondo cui βClassSize = 0 o si deve accettarla, almeno provvisoriamente, in attesa di ulteriore nuova evidenza? Questa sezione discute la verifica di ipotesi riguardanti la pendenza β 1 o l’intercetta β0 della retta di regressione della popolazione. Inizieremo discutendo in dettaglio i test bilaterali per la pendenza β1 , per poi passare ai test unilaterali e ai test di ipotesi riguardanti l’intercetta β0 . Ipotesi bilaterali su β1 Electronic Publishing Services Inc. Stock/Watson, Econometrics 1ei coefficienti di regressione è lo stesso delL’approccio generale alla verifica di ipotesi circa STOC.ITEM.0016 la verifica di ipotesi circa la media della popolazione. Cominciamo, perciò, con un breve Fig. 04.05 richiamo. 1st Proof 2nd Proof 3rd Proof Final Verifica di ipotesi circa la media della popolazione. Si ricordi dalla sezione 3.2 che l’ipo111 i i i i i i “generale” — 2005/7/10 — 22:25 — page 112 — #142 i i 4.5. Verifica di ipotesi su un singolo coefficiente di regressione tesi nulla che la media di Y assuma un valore specifico µY,0 può essere espressa come H0 : E(Y ) = µY,0 e l’alternativa bilaterale come H1 : E(Y ) 6= µY,0 . La verifica dell’ipotesi nulla H0 contro l’alternativa bilaterale segue i tre passi indicati nel concetto chiave 3.6. Il primo richiede di calcolare l’errore standard di Ȳ , SE(Ȳ ), che è uno stimatore della deviazione standard della distribuzione campionaria di Ȳ . Il secondo passo richiede di calcolare la statistica t, che ha la forma generale riportata nel concetto chiave 4.5; applicata qui, la statistica t è t = (Ȳ − µY,0 )/SE(Ȳ ). Il terzo passo è quello di calcolare il valore-p, che è il più basso livello di significatività al quale l’ipotesi nulla può essere rifiutata, basandosi sulla statistica test effettivamente osservata; equivalentemente, il valore-p è la probabilità di ottenere, per effetto delle variazioni dovute al campionamento casuale, una statistica che è diversa dall’ipotesi nulla almeno quanto la statistica realmente osservata, assumendo che l’ipotesi nulla sia corretta (concetto chiave 3.5). Siccome sotto l’ipotesi nulla la statistica t ha una distribuzione normale standardizzata in grandi campioni, il valore-p di un test d’ipotesi bilaterale è 2Φ(− |t act |), dove tact è il valore della statistica t effettivamente osservato e Φ è la funzione di ripartizione normale standardizzata tabulata nella tavola 1 dell’appendice finale. Alternativamente, il terzo passo può essere sostituito da un semplice confronto tra la statistica t e il valore critico del test con il livello di significatività desiderato; ad esempio, un test bilaterale con un livello di significatività del 5% rifiuta l’ipotesi nulla se |tact | > 1, 96. In questo caso, la media della popolazione è detta essere significativamente diversa dal valore ipotizzato al livello 5%. Verifica di ipotesi circa la pendenza β1 . A livello teorico, l’elemento critico che giustifica la precedente procedura per la verifica di ipotesi relative alla media della popolazione è il fatto che, in grandi campioni, la distribuzione campionaria di Ȳ è approssimativamente normale. Poiché anche β̂1 ha una distribuzione campionaria normale in grandi campioni, ipotesi circa il valore vero della pendenza β1 possono essere sottoposte a verifica usando lo stesso approccio generale. L’ipotesi nulla e quella alternativa debbono essere formulate con precisione prima di essere sottoposte a verifica. L’ipotesi del contribuente arrabbiato è che β ClassSize = 0. Più in generale, sotto l’ipotesi nulla la pendenza della popolazione β 1 assume un valore specifico, β1,0 . Sotto l’alternativa bilaterale, β1 è diverso da β1,0 . Allora, l’ipotesi nulla e l’ipotesi alternativa bilaterale sono H0 : β1 = β1,0 contro H1 : β1 6= β1,0 (alternativa bilaterale). (4.16) Per verificare l’ipotesi nulla H0 , seguiamo gli stessi tre passi seguiti per la media della popolazione. Il primo passo consiste nel calcolare l’errore standard di β̂1 , SE(β̂1 ). L’errore standard di β̂1 è uno stimatore di σβ̂1 , la deviazione standard della distribuzione campionaria di β̂1 . 112 i i i i i i “generale” — 2005/7/10 — 22:25 — page 113 — #143 i i 4.5. Verifica di ipotesi su un singolo coefficiente di regressione Concetto chiave 4.5: forma generale della statistica t In generale, la statistica t ha la forma t= stimatore − valore ipotizzato . errore standard dello stimatore Nello specifico, SE(β̂1 ) = dove σ̂β̂2 1 1 = × n 1 n−2 [ n1 q σ̂β̂2 , i=1 n P i=1 (4.17) 1 n P (Xi − X̄)2 û2i (4.18) . (4.19) (Xi − X̄)2 ]2 Lo stimatore della varianza (4.19) è discusso nell’appendice 4.4. Sebbene la formula di σ̂ β̂2 1 sia complessa, nelle applicazioni l’errore standard è calcolato dai software di regressione e quindi è facile da usare in pratica. Il secondo passo consiste nel calcolare la statistica t, t= β̂1 − β1,0 SE(β̂1 ) . (4.20) Il terzo passo consiste nel calcolare il valore-p, ovvero la probabilità di osservare un valore di β̂1 diverso da β1,0 almeno quanto la stima realmente ottenuta (β̂1act ), assumendo che l’ipotesi nulla sia corretta. In termini matematici, i h valore-p = PrH0 β̂1 − β1,0 > β̂1act − β1,0 i h β̂1act −β1,0 β̂1 −β1,0 > (4.21) = PrH0 (|t| > |tact |) , = PrH0 SE( β̂ ) SE(β̂ ) 1 1 dove PrH0 indica la probabilità calcolata sotto l’ipotesi nulla, la seconda uguaglianza si ottiene dividendo per SE(β1 ) e tact è il valore della statistica t effettivamente calcolata. Poiché β̂1 , in grandi campioni, si distribuisce approssimativamente secondo una normale, sotto l’ipotesi nulla la statistica t è approssimativamente distribuita come una variabile casuale normale standardizzata; per queste ragioni, in grandi campioni, valore-p = Pr |Z| > tact = 2Φ − tact . (4.22) Un valore-p basso, diciamo inferiore a 5%, fornisce evidenza a sfavore dell’ipotesi nulla, nel senso che la probabilità di ottenere il valore osservato di β̂1 come risultato della pura variabilità campionaria è inferiore al 5%, se effettivamente vale l’ipotesi nulla. Se cosı̀, l’ipotesi nulla è rifiutata al livello di significatività del 5%. 113 i i i i i i “generale” — 2005/7/10 — 22:25 — page 114 — #144 i i 4.5. Verifica di ipotesi su un singolo coefficiente di regressione Alternativamente, l’ipotesi nulla può essere verificata al livello di significatività del 5% semplicemente confrontando il valore assoluto della statistica t con ±1, 96, il valore critico di un test bilaterale, e rifiutando l’ipotesi nulla se |tact | > 1, 96. Questi tre passi sono riassunti nel concetto chiave 4.6. Applicazione ai punteggi del test. La pendenza stimata tramite gli OLS, utilizzando le 420 osservazioni della figura 4.2, è −2, 28, come riportato nella (4.7). Il suo errore standard è 0, 52, cioè, SE(β̂1 ) = 0, 52. Cosı̀, per sottoporre a verifica l’ipotesi nulla che βClassSize = 0, costruiamo la statistica t usando l’equazione (4.20); di conseguenza, t act = (−2, 28 − 0) /0, 52 = −4, 38. La statistica è maggiore di 2, 58, il valore critico bilaterale all’1%, e quindi si rifiuta l’ipotesi nulla in favore dell’alternativa bilaterale al livello di significatività dell’1%. In alternativa, possiamo calcolare il valore-p associato a t = −4, 38. Questa probabilità è l’area nelle code della densità normale standardizzata, come mostrato nella figura 4.6. Questa probabilità è estremamente piccola, approssimativamente 0, 0001, ovvero 0, 001%. Questo significa che, se l’ipotesi nulla βClassSize = 0 fosse vera, la probabilità di ottenere un valore di β̂1 lontano dall’ipotesi nulla almeno quanto il valore effettivamente ottenuto è estremamente piccola, inferiore allo 0, 001%. Poiché questo evento è cosı̀ improbabile, è ragionevole concludere che l’ipotesi nulla sia falsa. Ipotesi unilaterali riguardanti β1 La discussione si è finora incentrata sulla verifica dell’ipotesi che β1 = β1,0 contro l’ipotesi che β1 6= β1,0 . Questo è un test d’ipotesi bilaterale perché, sotto l’alternativa, β 1 potrebbe essere sia più grande sia più piccolo di β1,0 . Talvolta, è tuttavia appropriato usare un test unilaterale. Ad esempio, nel problema relativo al rapporto studenti-insegnanti/punteggio del test, molte persone pensano che classi più piccole costituiscano un ambiente più favorevole all’apprendimento. Sotto tale ipotesi, β1 è negativo: classi più piccole portano a punteggi più alti. Potrebbe avere senso, per questo motivo, verificare l’ipotesi nulla β 1 = 0 (nessun effetto) contro l’alternativa unilaterale β1 < 0. Per un test unilaterale, l’ipotesi nulla e l’ipotesi alternativa unilaterale sono H0 : β1 = β1,0 contro H1 : β1 < β1,0 (alternativa unilaterale), (4.23) dove β1,0 è il valore di β1 sotto l’ipotesi nulla (0 nell’esempio del rapporto studenti-insegnanti) e l’alternativa è che β1 sia inferiore a β1,0 . Se l’alterativa fosse che β1 è più grande di β1,0 , la disuguaglianza nella (4.23) cambierebbe verso. Poiché l’ipotesi nulla è la stessa sia per un test di ipotesi unilaterale sia per un test bilaterale, la statistica t si costruisce allo stesso modo. La sola differenza tra i due test riguarda 114 i i i i i i “generale” — 2005/7/10 — 22:25 — page 115 — #145 i i 4.5. Verifica di ipotesi su un singolo coefficiente di regressione Concetto chiave 4.6: verifica dell’ipotesi β1 = β1,0 contro l’alternativa β1 6= β1,0 1. Si calcoli l’errore standard di β̂1 , SE(β̂1 ) (formula (4.17)). 2. Si calcoli la statistica t (formula (4.20)). 3. Si calcoli il valore-p (formula (4.22)). Si rifiuti l’ipotesi al livello di significatività del 5% se il valore-p è inferiore a 0, 05 o, equivalentemente, se |t act | > 1, 96. L’errore standard e (tipicamente) la statistica t e il valore-p per verificare l’ipotesi β 1 = 0 sono calcolati automaticamente dai pacchetti statistici. l’interpretazione della statistica t. Per l’alternativa unilaterale nella (4.23), si rifiuta l’ipotesi nulla in favore dell’alternativa per valori grandi e negativi della statistica t, ma non per quelli grandi e positivi: invece di rifiutarla se |tact | > 1, 96, si rifiuta l’ipotesi con un livello di significatività del 5% se tact < −1, 645. Il valore-p di un test unilaterale è ottenuto dalla funzione di ripartizione della normale standardizzata come valore-p = Pr(Z < tact ) = Φ(tact ) (valore-p, test unilaterale per la coda sinistra). (4.24) Se l’ipotesi alternativa è che β1 sia maggiore di β1,0 , la disuguaglianza nella (4.23) e nella (4.24) cambiano verso, e quindi il valore-p è la probabilità nella coda destra, Pr(Z > t act ). Quando usare un test unilaterale? In pratica, le alternative unilaterali dovrebbero essere usate quando c’è una ragione chiara per cui, sotto l’alternativa, β 1 debba trovarsi da un certo lato del valore β1,0 . Questa ragione potrebbe venire dalla teoria economica, da un’evidenza empirica preliminare o da entrambe. Tuttavia, sebbene possa inizialmente sembrare che l’alternativa rilevante sia unilaterale, dopo averci riflettuto, potrebbe non essere necessariamente cosı̀. Un nuovo farmaco sottoposto a controlli clinici potrebbe risultare nocivo a causa di effetti collaterali prima sconosciuti. Nell’esempio della dimensione delle classi bisogna ricordare che il segreto del successo di un’università è quello di ammettere studenti dotati e poi fare in modo che i docenti facciano il minor danno possibile. In pratica, tale ambiguità induce spesso gli econometrici a usare test bilaterali. Un’applicazione ai punteggi del test. La statistica t per verificare l’inefficacia della diminuzione della dimensione delle classi (β1,0 = 0 nella (4.23)) è tact = −4, 38. Questo valore è inferiore a −2, 33 (il valore critico di un test unilaterale con livello di significatività dell’1%), e quindi si rifiuta l’ipotesi nulla a favore dell’alternativa al livello dell’1%. In effet115 i i i i i i “generale” — 2005/7/10 — 22:25 — page 116 — #146 i i 4.5. Verifica di ipotesi su un singolo coefficiente di regressione Figura 4.6: calcolo del valore-p di un test bilaterale quando tact = −4, 38 N(0, 1) –4,38 0 4,38 z Il valore-p è l'area alla sinistra di –4,38 + l'area alla destra di +4,38 ˛ ˛ Il valore-p di un test bilaterale è la probabilità che |Z| ≥ ˛tact ˛, dove Z è una variabile casuale normale standard e tact è il valore della statistica t calcolata dal campione. Quando tact = −4, 38, il valore-p è pari solo a 0, 00001. ti, il valore-p è inferiore a 0, 0006%. Basandosi su questi dati, si può rifiutare all’1% l’ipotesi del contribuente arrabbiato secondo cui la stima negativa della pendenza era puramente il risultato della variabilità campionaria. Verifica di ipotesi riguardanti l’intercetta β0 La discussione ha riguardato finora laServices verifica diInc. ipotesi relative alla pendenza, β 1 . OccasioElectronic Publishing nalmente, tuttavia, l’ipotesi riguarda l’intercetta, β Stock/Watson, Econometrics 1e 0 . In generale, un’ipotesi nulla riguardante la sua intercetta e l’alternativa bilaterale hanno la seguente forma STOC.ITEM.0017 Fig.: 04.06 H (alternativa bilaterale). (4.25) 0 β0 = β0,0 contro H1 : β0 6= β0,0 1st Proof 2nd Proof 3rd Proof Final L’approccio generale utilizzato per verificare questo tipo di ipotesi nulla consiste dei tre passi del concetto chiave 4.6 applicati a β0 (la formula dell’errore standard di β̂0 è fornita nell’appendice 4.4). Se l’alternativa è unilaterale, questo approccio si modifica nel modo discusso nel paragrafo precedente con riferimento a ipotesi riguardanti la pendenza. 116 i i i i i i “generale” — 2005/7/10 — 22:25 — page 117 — #147 i i 4.6. Intervalli di confidenza per un coefficiente di regressione I test d’ipotesi sono utili se si ha in mente una specifica ipotesi nulla (come nel caso del nostro contribuente arrabbiato). Essere in grado di accettare o rifiutare questa ipotesi nulla basandosi sull’evidenza statistica dà uno strumento forte per affrontare l’incertezza connessa all’uso di un campione per inferire qualcosa circa la popolazione. Eppure, in molti casi nessuna delle ipotesi riguardanti un coefficiente di regressione è dominante e si vuole invece conoscere una gamma di valori del coefficiente che sia coerente con i dati osservati. Questo richiede la costruzione di intervalli di confidenza. 4.6 Intervalli di confidenza per un coefficiente di regressione Poiché ogni stima statistica della pendenza β1 è necessariamente soggetta a incertezza dovuta al campionamento, non possiamo determinare esattamente quale sia il vero valore di β 1 da un campione di dati. Si può, tuttavia, usare lo stimatore OLS e il suo errore standard per costruire intervalli di confidenza per la pendenza β1 o l’intercetta β0 . Intervalli di confidenza per β1 . Si ricordi che un intervallo di confidenza di livello 95% per β1 ha due definizioni equivalenti. In base alla prima, esso è l’insieme dei valori che non si possono rifiutare usando un test d’ipotesi bilaterale con livello di significatività del 5%. In base alla seconda, è un intervallo che ha probabilità 95% di contenere il vero valore di β 1 ; cioè, nel 95% dei campioni che si possono estrarre, l’intervallo di confidenza contiene il vero valore di β1 . Poiché questo intervallo contiene il vero valore nel 95% di tutti i campioni, si dice che ha un livello di confidenza del 95%. La ragione per cui queste due definizioni sono equivalenti è la seguente. Un test con un livello di significatività del 5%, per definizione, rifiuterà il vero valore di β 1 soltanto nel 5% di tutti i possibili campioni, cioè, nel 95% di tutti i possibili campioni il vero valore di β 1 non sarà rifiutato. Siccome l’intervallo di confidenza al 95% (secondo la prima definizione) è l’insieme di tutti i valori di β1 che non si possono rifiutare con livello di significatività del 5%, ne segue che il vero valore di β1 sarà contenuto in tale intervallo nel 95% di tutti i possibili campioni. Come nel caso di un intervallo di confidenza per la media della popolazione (sezione 3.3), in linea di principio un intervallo di confidenza di livello 95% può essere calcolato verificando tutti i possibili valori di β1 (ovvero verificando l’ipotesi nulla β1 = β1,0 per tutti i valori di β1,0 ) al livello di significatività 5% attraverso la statistica t. L’intervallo di confidenza di livello 95% è allora la collezione di tutti i valori di β1 che non sono rifiutati. Tuttavia, costruire la statistica t per tutti i valori di β1 richiederebbe un tempo infinito. Un modo più semplice per costruire l’intervallo di confidenza è notare che la statistica t rifiuta il valore ipotizzato β1,0 quando β1,0 è al di fuori dell’intervallo β̂1 ± 1, 96 SE(β̂1 ). 117 i i i i i i “generale” — 2005/7/10 — 22:25 — page 118 — #148 i i 4.6. Intervalli di confidenza per un coefficiente di regressione Per questa ragione, l’intervallo di confidenza al 95% per β1 è (β̂1 − 1, 96 SE(β̂1 ), β̂1 + 1, 96 SE(β̂1 )). Questo ragionamento ricalca quello usato per sviluppare un intervallo di confidenza per la media della popolazione. La costruzione di un intervallo di confidenza per β1 è riassunta nel concetto chiave 4.7. Intervalli di confidenza per β0 . Un intervallo di confidenza di livello 95% per β0 si costruisce come indicato nel concetto chiave 4.7, sostituendo β̂1 e SE(β̂1 ) con β̂0 e SE(β̂0 ). Un’applicazione ai punteggi dei test. La regressione OLS dei punteggi del test sul rapporto studenti-insegnanti, riportata nella (4.7), ha prodotto β̂0 = 698, 7 e β̂1 = −2, 28). Gli errori standard di queste stime sono SE(β̂0 ) = 10, 4 e SE(β̂1 ) = 0, 52. Data l’importanza degli errori standard, li includeremo nelle regressioni OLS tra parentesi al di sotto dei coefficienti stimati: d T estScore = 698, 9 − 2, 28 × ST R. (10, 4) (0, 52) (4.26) L’intervallo di confidenza bilaterale di livello 95% per β1 è {−2, 28 ± 1, 96 × 0, 52}, ovvero −3, 30 ≤ β1 ≤ 1, 26. Il valore β1 = 0 non è contenuto in questo intervallo di confidenza, e quindi (come già sappiamo dalla sezione 4.5) l’ipotesi β1 = 0 può essere rifiutata al livello di significatività 5%. Intervalli di confidenza per gli effetti predetti di una variazione di X. L’intervallo di confidenza al 95% per β1 può essere usato per costruire un intervallo di confidenza al 95% per l’effetto predetto di una generica variazione di X. Immaginiamo di far variare X di un dato ammontare ∆x. La variazione predetta in Y , associata a tale variazione in X, è β1 ∆x. La pendenza β1 della retta di regressione è ignota, ma, essendo in grado di costruire un intervallo di confidenza per β 1 , possiamo costruirne uno anche per l’effetto predetto β1 ∆x. Poiché un estremo dell’intervallo di confidenza al 95% per β1 è β̂1 − 1, 96 SE(β̂1 ), l’effetto predetto della variazione ∆x usando questa stima di β1 è (β̂1 − 1, 96 SE(β̂1 )) × ∆x. L’altro estremo dell’intervallo di confidenza è β̂1 + 1, 96 SE(β̂1 ) e l’effetto predetto della variazione ∆x usando questa stima è (β̂1 + 1, 96 SE(β̂1 )) × ∆x. Perciò, l’intervallo di confidenza al 95% per l’effetto di una variazione pari a ∆x può essere espresso come intervallo di confidenza di livello 95% per β1 ∆x = (β̂1 ∆x − 1, 96 SE(β̂1 ) × ∆x, β̂1 ∆x + 1, 96 SE(β̂1 ) × ∆x). (4.27) Per esempio, si supponga che il nostro ipotetico provveditore stia vagliando l’opportunità di ridurre di 2 unità il rapporto studenti-insegnanti. Poiché l’intervallo di confidenza al 95% 118 i i i i i i “generale” — 2005/7/10 — 22:25 — page 119 — #149 i i 4.7. La regressione quando X è una variabile binaria Concetto chiave 4.7: intervalli di confidenza per β1 Un intervallo di confidenza bilaterale del 95% per β1 è un intervallo che contiene il vero valore di β1 con probabilità 95%, ovvero contiene il vero valore di β1 nel 95% di tutti i possibili campioni estratti casualmente. Equivalentemente, esso è anche l’insieme dei valori di β1 che non possono essere rifiutati al 5% da un test d’ipotesi bilaterale. Quando la dimensione campionaria è elevata, l’intervallo di confidenza di livello 95% per β 1 si costruisce come segue (β̂1 − 1, 96 SE(β̂1 ), β̂1 + 1, 96 SE(β̂1 )). (4.28) per β1 è (−3, 30, −1, 26), l’effetto della riduzione nel rapporto studenti-insegnanti di 2 unità potrebbe variare tra un massimo di −3, 30 × (−2) = 6, 60 e un minimo di −1, 26 × (−2) = 2, 52. Perciò, riducendo di 2 unità il numero di studenti per insegnante, si può predire un incremento nel punteggio del test tra 2, 52 e 6, 60 punti con livello di confidenza 95%. 4.7 La regressione quando X è una variabile binaria Ci si è finora concentrati sul caso in cui il regressore è una variabile continua. L’analisi di regressione può però anche essere usata quando il regressore è binario, ovvero quando assume soltanto due valori, 0 e 1. Ad esempio, X potrebbe essere il genere di un lavoratore (= 1 se femmina, = 0 se maschio), oppure potrebbe indicare se un distretto scolastico è urbano o rurale (= 1 se urbano, = 0 se rurale), oppure se la dimensione delle classi in un distretto è piccola o grande (= 1 se piccola, = 0 se grande). Una variabile binaria è anche detta variabile indicatrice o, talvolta, variabile dummy. Interpretazione dei coefficienti di regressione Il meccanismo della regressione con un regressore binario è lo stesso del caso in cui questo è continuo. L’interpretazione di β1 è però diversa e si dimostra che la regressione con una variabile binaria corrisponde all’analisi della differenza tra medie, descritta nella sezione 3.4. A tal proposito, si immagini di avere una variabile Di che è uguale a 0 oppure a 1 a seconda che il rapporto studenti-insegnanti sia maggiore o minore di 20: Di = ( 1 0 se il rapporto studenti-insegnanti nell’i-esimo distretto è < 20 . se il rapporto studenti-insegnanti nell’i-esimo distretto è ≥ 20 (4.29) 119 i i i i i i “generale” — 2005/7/10 — 22:25 — page 120 — #150 i i 4.7. La regressione quando X è una variabile binaria Il modello di regressione nella popolazione con Di quale regressore è Y i = β 0 + β 1 Di + u i , i = 1, . . . , n. (4.30) Questo modello di regressione è uguale a quello con un regressore continuo X i , eccetto che ora il regressore è una variabile binaria Di . Poiché Di non è continuo, non è utile pensare a β1 come una pendenza; infatti, poiché Di può assumere solo due valori, non c’è alcuna “retta” e non ha alcun senso parlare di pendenza. Per questo motivo, non ci riferiremo a β 1 come alla pendenza della retta di regressione (4.30); invece, indicheremo β 1 semplicemente come il coefficiente che moltiplica Di in tale regressione o, più sinteticamente, come il coefficiente di Di . Se β1 non è la pendenza della (4.30), che cos’è? Il modo migliore per interpretare β 0 e β1 è considerare uno alla volta i due casi possibili, Di = 0 e Di = 1. Se il rapporto studenti-insegnanti è alto, allora Di = 0 e la (4.30) diventa Yi = β 0 + u i , (Di = 0). (4.31) Poiché E(ui Di ) = 0, la media condizionata di Yi quando Di = 0 è E(Yi Di = 0) = β0 , cioè β0 è il punteggio medio del test nella popolazione quando il rapporto studenti-insegnanti è alto. Similmente, quando Di = 1 Yi = β 0 + β 1 + u i , (Di = 1). (4.32) Cosı̀, quando Di = 1, E(Yi Di = 1) = β0 + β1 ; cioè, β0 + β1 è il punteggio medio del test nella popolazione quando il rapporto studenti-insegnati è basso. Siccome β0 + β1 è la media di Yi nella popolazione quando Di = 1 e β0 è la media di Yi nella popolazione quando Di = 0, la differenza (β0 + β1 ) − β0 = β1 è la differenza tra queste due medie. In altre parole, β1 è la differenza tra la media condizionata di Yi quando Di = 1 e quando Di = 0, ovvero β1 = E(Yi Di = 1) − E(Yi Di = 0). Nell’esempio dei punteggi del test, β1 è la differenza tra il risultato medio del test nei distretti con un basso rapporto studenti-insegnanti e il punteggio medio del test nei distretti con un alto rapporto studenti-insegnanti. Poiché β1 è la differenza tra le medie nella popolazione, è ragionevole affermare che lo stimatore OLS sia la differenza tra la media campionaria di Yi nei due gruppi, che è effettivamente quanto accade. Verifica delle ipotesi e intervalli di confidenza. Se le due medie della popolazione fossero uguali, β1 nella (4.30) sarebbe nullo. Si può, perciò, verificare l’ipotesi nulla che le due medie della popolazione siano uguali, contro l’ipotesi alternativa che esse differiscano, sottoponendo a verifica l’ipotesi β1 = 0 contro l’alternativa β1 6= 0. Tale verifica utilizza la procedura descritta nella sezione 4.5. Nello specifico, si può rifiutare l’ipotesi nulla al livello 5% contro 120 i i i i i i “generale” — 2005/7/10 — 22:25 — page 121 — #151 i i 4.8. R2 ed errore standard della regressione l’alternativa bilaterale quando la statistica t degli OLS, t = β̂1 / SE(β̂1 ), è maggiore di 1, 96 in valore assoluto. Similmente, un intervallo di confidenza al 95% per β 1 , β̂1 ± 1, 96SE(β̂1 ), costruito come descritto nella sezione 4.6, fornisce un intervallo di confidenza al 95% per la differenza tra le medie. Applicazione ai punteggi del test. Per esempio, una regressione dei punteggi del test sulla variabile binaria D definita dalla (4.29), stimata con gli OLS usando le 420 osservazioni della figura 4.2, dà d T estScore = 650, 0 + 7, 4 D, (1, 3) (1, 8) (4.33) dove gli errori standard delle stime OLS dei coefficienti β0 e β1 sono indicati in parentesi al di sotto delle stime OLS. Cosı̀, il punteggio medio ottenuto nel test per il sottocampione con rapporti studenti-insegnanti maggiori o uguali a 20 (cioè, per i quali D = 0) è 650, 0 e il punteggio medio del test per il sottocampine con un rapporto studenti-insegnanti inferiore a 20 (ovvero D = 1) è 650, 0 + 7, 4 = 657, 4. Perciò, la differenza tra i punteggi medi del test per i due gruppi è 7, 4. Questa è la stima OLS di β1 , il coefficiente relativo alla variabile binaria rapporto studenti-insegnanti D. È la differenza tra i punteggi medi dei test nei due gruppi statisticamente diversa da zero al livello di significatività 5%? Per scoprirlo, costruiamo la statistica t relativa a β 1 : t = 7, 4/1, 8 = 4, 04. Poiché questa è maggiore di 1, 96 in valore assoluto, l’ipotesi che i punteggi medi del test nei distretti con rapporto studenti-insegnanti alto e basso siano gli stessi può essere rifiutata al livello 5%. Lo stimatore OLS e il suo errore standard possono essere usati per costruire un intervallo di confidenza di livello 95% per la vera differenza tra le medie. Questo intervallo è 7, 4 ± 1, 96 × 1, 8 = (3, 9, 10, 9). Poiché esso esclude β1 = 0, l’ipotesi β1 = 0 può essere rifiutata al livello 5% (come già sappiamo dal paragrafo precedente). 4.8 R2 ed errore standard della regressione L’R2 e l’errore standard della regressione sono due misure della bontà con cui la retta di regressione degli OLS interpola i dati. L’R 2 varia tra zero e uno, e misura la frazione della varianza di Yi che è spiegata dalla variazione di Xi . L’errore standard della regressione misura quanto lontano di solito è Yi dal suo valore predetto. L’R2 L’R2 di regressione è la frazione della varianza campionaria di Yi spiegata (o predetta) da Xi . Le definizioni di valore predetto e di residuo (vedi concetto chiave 4.2) ci consentono di 121 i i i i i i “generale” — 2005/7/10 — 22:25 — page 122 — #152 i i 4.8. R2 ed errore standard della regressione scrivere la variabile dipendente Yi come la somma del valore predetto Ŷi e del residuo ûi : (4.34) Yi = Ŷi + ûi . In questa notazione, l’R2 è il rapporto tra la varianza campionaria di Ŷi e la varianza campionaria di Yi . Matematicamente, l’R2 può essere scritto come il rapporto tra la somma dei quadrati spiegata e la somma dei quadrati totale. La somma dei quadrati spiegata, o ESS (acronimo dall’inglese Explained Sum of Squares), è la somma dei quadrati degli scarti dei valori predetti di Yi , Ŷi , dalla loro media e la somma dei quadrati totale, o T SS (acronimo dall’inglese Total Sum of Squares), è la somma dei quadrati degli scarti di Yi dalla propria media: ESS = n X i=1 T SS = (Ŷi − Ȳ )2 n X i=1 (Yi − Ȳ )2 , e (4.35) (4.36) dove la (4.35) sfrutta il fatto che Ȳ è uguale alla media dei valori predetti di Yi (per la prova di questo risultato si veda l’appendice 4.3). L’R2 è il rapporto tra la somma dei quadrati spiegata e la somma dei quadrati totale: R2 = ESS T SS (4.37) Alternativamente, l’R2 può essere scritto in termini della frazione della varianza di Yi non spiegata da Xi . La somma dei quadrati dei residui, o SSR (acronimo dall’inglese Sum of Squared Residuals), è la somma dei quadrati dei residui degli OLS: SSR = n X û2i . (4.38) i=1 Nell’appendice si mostra che T SS = ESS + SSR. Per questa ragione, l’R 2 può anche essere scritto come uno meno il rapporto tra la somma dei quadrati dei residui e la somma dei quadrati totale: SSR R2 = 1 − . (4.39) T SS Infine, l’R2 della regressione di Y sul singolo regressore X è il quadrato del coefficiente di correlazione tra Y e X. L’R2 varia tra 0 e 1. Se β̂1 = 0, allora Xi non spiega nulla della variazione di Yi e il valore predetto di Yi basato sulla regressione è semplicemente la media campionaria di Y i . In questo caso, la somma dei quadrati spiegata è zero e la somma dei quadrati dei residui è uguale alla somma dei quadrati totale; perciò l’R 2 è pari a zero. Nel caso opposto, se Xi 122 i i i i i i “generale” — 2005/7/10 — 22:25 — page 123 — #153 i i 4.9. Eteroschedasticità e omoschedasticità spiega tutta la variazione di Yi , allora Yi = Ŷi per ogni i e tutti i residui sono nulli (cioè, ûi = 0), cosicché ESS = T SS e R2 = 1. In generale, l’R2 non assume i valori estremi zero e uno, ma un qualche valore intermedio. Un R 2 prossimo a uno indica che il regressore è in grado di predire bene Yi , mentre un R2 prossimo a zero indica che il regressore non è in grado di predire bene Yi . L’errore standard della regressione L’errore standard della regressione, o SER (acronimo dall’inglese Standard Error of Regression), è uno stimatore della deviazione standard dell’errore di regressione u i . Poiché gli errori di regressione u1 , . . . , un non sono osservati, il SER è calcolato tramite i loro corrispondenti campionari, i residui degli OLS û1 , . . . , ûn . La formula del SER è n SER = sû , dove sû2 = 1 X 2 SSR û = n − 2 i=1 i n−2 (4.40) e dove la formula utilizzata per sû2 usa il fatto (dimostrato nell’appendice 4.3) che i residui degli OLS hanno media nulla. La formula per il SER (4.40) è la stessa formula mostrata nella (3.7) della sezione 3.2 per la deviazione standard campionaria di Y , eccetto che Yi − Ȳ nella (3.7) è sostituito da ûi e nella (3.7) vi è n − 1 al denominatore, mentre qui vi è n − 2. La ragione per usare n − 2 come divisore (invece di n) è la stessa che giustifica l’utilizzo di n − 1 nella (3.7): corregge una leggera distorsione verso il basso introdotta dall’aver stimato due coefficienti di regressione. Questa è chiamata correzione per i “gradi di libertà”; poiché sono stati stimati due coefficienti (β0 e β1 ), sono stati persi due “gradi di libertà” dei dati, e quindi il divisore è n − 2 (la matematica sottostante è discussa nella sezione 15.4). Quando n è grande, la differenza tra dividere per n, per n − 1 o per n − 2 è trascurabile. 4.9 Eteroschedasticità e omoschedasticità La nostra sola assunzione circa la distribuzione condizionata di u i data Xi è che essa abbia media nulla (la prima assunzione dei minimi quadrati). Se, in aggiunta, la varianza di questa distribuzione condizionata non dipende da Xi , allora si dice che gli errori sono omoschedastici. Questa sezione discute l’omoschedasticità, le sue implicazioni teoriche, le formule semplificate degli errori standard degli stimatori OLS che si ottengono se gli errori sono omoschedastici, e i rischi che si corrono se si utilizzano queste formule semplificate. 123 i i i i i i “generale” — 2005/7/10 — 22:25 — page 124 — #154 i i 4.9. Eteroschedasticità e omoschedasticità Figura 4.7: un esempio di eteroschedasticità Punteggio test 720 700 680 Distribuzione di Y quando X = 15 Distribuzione di Y quando X = 20 Distribuzione di Y quando X = 25 660 640 b 0 +b 1 X 620 600 10 15 20 25 30 Rapporto studenti-insegnanti Come la figura 4.4, questa figura mostra la distribuzione condizionata dei punteggi del test per tre classi di diversa dimensione. Diversamente dalla figura 4.4, queste distribuzioni diventano più disperse (hanno varianza ˛ maggiore) per classi di dimensioni maggiori. Siccome la varianza della distribuzione di u data X , var(u ˛X), dipende da X , u è eteroschedastico Cosa sono l’eteroschedasticità e l’omoschedastcità? Definizioni di eteroschedasticità e omoschedasticità. L’errore di regressione ui è omoschedastico se la varianza della distribuzione condizionata di ui data Xi è costante per i = 1, . . . , n e, in particolare, non dipende da Xi . Altrimenti, l’errore è eteroschedastico. Come illustrazione, si ritorni alla figura 4.4. La distribuzione degli errori u i è mostrata per vari valori di x. Poiché ciascuna distribuzione vale per il valore di x indicato, questa è la distribuzione condizionata di ui dato che Xi = x. Nella figura, tutte queste distribuzioni condizionate hanno la stessa dispersione; più precisamente, la varianza di queste distribuzioni è la stessa per i diversi valori di x. Cioè, nella figura 4.4, la varianza condizionata di u i dato che Xi = x non dipende da x,Publishing e quindi gli errori illustrati nella figura 4.4 sono omoschedastici. Electronic Services Inc. Stock/Watson, Econometrics Di contro, la figura 4.7 illustra un caso in 1e cui la distribuzione condizionata di u i diventa STOC.ITEM.0018 più dispersa al crescere di x. Per valori piccoli di x, questa distribuzione è concentrata, ma Fig. 04.07 per valori più elevati di x, ha una maggiore dispersione. Perciò, nella figura 4.7 la varianza di ui dato che Xi =1st x cresce quindi gli errori nella figura 4.7 sono eteroschedastici. Proof con x, e2nd Proof 3rd Proof Final Le definizioni di eteroschedasticità e omoschedasticità sono riportate nel concetto chiave 4.8. 124 i i i i i i “generale” — 2005/7/10 — 22:25 — page 125 — #155 i i 4.9. Eteroschedasticità e omoschedasticità Concetto chiave 4.8: eteroschedasticità e omoschedasticità L’errore di regressione ui è omoschedastico se la varianza della distribuzione condizionata di ui data Xi , var(ui Xi = x), è costante per i = 1, . . . , n e in particolare non dipende da x; altrimenti, l’errore è eteroschedastico. Esempio. I termini usati sono quasi impronunciabili e le loro definizioni potrebbero sembrare astratte. Per aiutare a chiarirli con un esempio, lasciamo momentaneamente da parte il problema della relazione tra il rapporto studenti-insegnanti e i punteggi del test e torniamo invece all’esempio della differenza tra le retribuzioni dei laureati maschi e femmine considerato nella sezione 3.5. Sia M ALEi una variabile binaria che è uguale a 1 per laureati maschi e a 0 per laureati femmine. Il modello di regressione che mette in relazione i redditi individuali (Earnings) con il genere di una persona è (4.41) Earningsi = β0 + β1 M ALEi + ui per i = 1, . . . , n. Poiché il regressore M ALE è binario, β1 è la differenza tra le medie dei due gruppi, nel caso specifico, è la differenza tra le retribuzioni medie di laureati maschi e femmine. La definizione di omoschedasticità dice che la varianza di ui non dipende dal regressore. Qui il regressore è M ALEi , e quindi il problema è se la varianza dipende da M ALEi . In altre parole, la varianza dell’errore è la stessa per maschi e femmine? Se cosı̀ fosse, l’errore sarebbe omoschedastico; altrimenti, eteroschedastico. Decidere se la varianza di ui dipenda da M ALEi richiede di pensare con attenzione a cosa sia effettivamente l’errore di regressione. A questo riguardo, è utile scomporre la (4.41) in due equazioni separate, una per i maschi e una per le femmine: Earningsi = β0 + ui (femmine) Earningsi = β0 + β1 + ui e (maschi). (4.42) (4.43) Per le donne, ui è la deviazione della retribuzione della i-esima donna dalla media delle retribuzioni della popolazione femminile (β0 ) e, per gli uomini, ui è la deviazione della retribuzione dell’i-esimo uomo dalla media della popolazione maschile (β 0 + β1 ). Dire che “la varianza di ui non dipende da M ALE” equivale allora ad affermare che “la varianza delle retribuzioni è la stessa per gli uomini e per le donne”. In altre parole, in questo esempio, l’errore è omoschedastico se la varianza della distribuzione delle retribuzioni nella popolazione è la stessa per uomini e donne; se queste varianze differiscono, l’errore è eteroschedastico. 125 i i i i i i “generale” — 2005/7/10 — 22:25 — page 126 — #156 i i 4.9. Eteroschedasticità e omoschedasticità Implicazioni matematiche dell’omoschedasticità Gli stimatori OLS rimangono non distorti e asintoticamente normali. Poiché le assunzioni dei minimi quadrati riportate nel concetto chiave 4.3 non pongono alcuna restrizione sulla varianza condizionata, esse si applicano sia al caso generale di eteroschedasticità sia al caso speciale di omoschedasticità. Perciò, gli stimatori OLS rimangono non distorti e consistenti anche se gli errori sono omoschedastici. Inoltre, gli stimatori OLS hanno distribuzioni campionarie che sono normali in grandi campioni anche se gli errori sono omoschedastici. Siano gli errori di regressione eteroschedastici o omoschedastici, lo stimatore OLS è non distorto, consistente e asintoticamente normale. Efficienza dello stimatore OLS. Se valgono le assunzioni dei minimi quadrati nel concetto chiave 4.3 e, in aggiunta, gli errori sono omoschedastici, allora gli stimatori OLS β̂0 e β̂1 sono efficienti tra tutti gli stimatori che sono lineari in Y1 , . . . , Yn e sono non distorti, condizionatamente a X1 , . . . , Xn . Perciò, gli stimatori OLS hanno varianza minore tra tutti gli stimatori non distorti che sono medie ponderate di Y1 , . . . , Yn . In altre parole, se, in aggiunta alle assunzioni dei minimi quadrati, gli errori sono omoschedastici, allora gli stimatori OLS β̂0 e β̂1 sono i migliori stimatori lineari non distorti, o BLUE (acronimo dall’inglese Best Linear Unbiased Estimators). Questo risultato è stato presentato per la media campionaria Ȳ nel concetto chiave 3.3 e si estende agli OLS sotto l’ipotesi di omoschedasticità. Questo risultato, noto come teorema di Gauss-Markov, è dimostrato nel capitolo 15. Se gli errori sono eteroschedastici, allora gli OLS non sono più BLUE. In teoria, se gli errori sono eteroschedastici, è possibile costruire uno stimatore con varianza inferiore rispetto allo stimatore OLS. Questo metodo, detto dei minimi quadrati ponderati, pondera le osservazioni con l’inverso della radice quadrata della varianza condizionata di u i data Xi . Grazie a questa ponderazione, gli errori della regressione con i dati ponderati sono omoschedastici e cosı̀ gli OLS, applicati ai dati ponderati, sono BLUE. Sebbene teoricamente elegante, il problema dei minimi quadrati ponderati è che occorre conoscere il modo in cui la varianza condizionata di ui dipende da Xi , cosa raramente nota nelle applicazioni. Poiché i minimi quadrati ponderati sono di interesse prevalentemente teorico, ne rimandiamo la discussione al capitolo 15. La formula della varianza nel caso di omoschedasticità. Se l’errore è omoschedastico, allora le formule per le varianze di β̂0 e β̂1 riportate nel concetto chiave 4.4 si semplificano. Di conseguenza, se gli errori sono omoschedastici, c’è una formula specifica da usare per gli errori standard di β̂0 e β̂1 . Tali formule sono fornite nell’appendice 4.4. Nel caso speciale in cui X sia una variabile binaria, lo stimatore della varianza di β̂1 nel caso di omoschedasticità (ovvero il quadrato dell’errore standardizzato di β̂1 nel caso di omoschedasticità) è la cosiddetta formula della varianza aggregata per la differenza tra le medie, discussa nella nota 126 i i i i i i “generale” — 2005/7/10 — 22:25 — page 127 — #157 i i 4.9. Eteroschedasticità e omoschedasticità 1 della sezione 3.4. Poiché queste formule alternative sono derivate per il caso speciale in cui gli errori sono omoschedastici e non si applicano quando gli errori sono eteroschedastici, saranno dette formule per l’“omoschedasticità pura” o più semplicemente formule “classiche”. Quindi, se gli errori sono eteroschedastici, allora gli errori standard per l’omoschedasticit à pura o errori standard classici sono inappropriati. Nello specifico, se gli errori sono eteroschedastici, la statistica t classica, cioè la statistica t calcolata usando l’errore standard per l’omoschedasticità pura non ha una distribuzione normale standard, neanche in grandi campioni. In effetti, i corretti valori critici per la statistica t classica dipendono dalla natura precipua dell’eteroschedasticità, quindi i corrispondenti valori critici non possono essere tabulati. In modo simile, se gli errori sono eteroschedastici ma un intervallo di confidenza è costruito come ±1, 96 volte l’errore standard classico, in generale la probabilità che questo intervallo contenga il valore vero del coefficiente non è il 95%, neanche in grandi campioni. Al contrario, poiché l’omoschedasticità è un caso speciale di eteroschedasticità, gli stimatori σ̂β2ˆ e σ̂β2ˆ delle varianze di β̂1 e β̂0 nella (4.19) e nella (4.59) producono inferenze 1 0 statistiche valide sia che gli errori siano eteroschedastici sia che non lo siano. Quindi, i test di ipotesi e gli intervalli di confidenza basati su tali errori standard sono validi sia che gli errori siano eteroschedastici o meno. Poiché gli errori standard che abbiamo utilizzato finora (cioè quelli basati sulla (4.19) e sulla (4.59)) permettono inferenza statistica valida in presenza, o meno, di eteroschedasticità, sono chiamati errori standard robusti all’eteroschedasticit à. Siccome tali formule sono state proposte da Eicker (1967), Huber (1967) e White (1980), essi sono anche presentati come errori standard di Eicker-Huber-White. Cosa significa questo in pratica? Qual è più realistica, l’eteroschedasticità o l’omoschedasticità? La risposta a questa domanda dipende dall’applicazione. Tuttavia, le questioni possono essere chiarite tornando all’esempio della differenza di genere tra le retribuzioni. La familiarità con il modo in cui gli individui vengono retribuiti nel mondo reale ci dà alcuni suggerimenti su quale sia l’ipotesi più ragionevole. Per molti anni –e, in minor misura, oggi– le donne non comparivano in testa alla graduatoria dei lavori meglio retribuiti: ci sono sempre stati uomini mal pagati, ma raramente donne strapagate. Questo suggerisce che la distribuzione delle retribuzioni tra le donne sia più concentrata rispetto a quella degli uomini. In altre parole, la varianza dell’errore della (4.42) per le donne è plausibilmente inferiore alla varianza dell’errore della (4.43) per gli uomini. Per questo motivo, la presenza di un “soffitto di vetro” per i lavori e le retribuzioni riservate alle donne suggerisce che il termine d’errore del modello di regressione con variabile binaria (4.41) sia eteroschedastico. A meno che non vi siano ragioni convincenti per sostenere il contrario –e non possiamo immaginarne alcuna– è ragionevole trattare l’errore di questo esempio come eteroschedastico. 127 i i i i i i “generale” — 2005/7/10 — 22:25 — page 128 — #158 i i 4.10. Conclusioni Come illustrato da questo esempio, l’eteroschedasticità si ritrova in molte applicazioni econometriche. A livello generale, la teoria economica raramente offre ragioni per credere che gli errori siano omoschedastici. È quindi prudente assumere che essi possano essere eteroschedastici, a meno che non ci siano motivi convincenti per credere altrimenti. Implicazioni pratiche. Il problema pratico maggiore in questa discussione è se si debbano utilizzare gli errori standard classici o quelli robusti all’eteroschedasticità. A questo proposito, è utile immaginare di calcolare entrambi e poi di operare una scelta tra questi. Se gli errori standard classici e quelli robusti all’eteroschedasticità sono simili, non si perde nulla usando quelli robusti; se però differiscono bisognerebbe usare quelli più affidabili che tengono conto dell’eteroschedasticità. La cosa più semplice, allora, è usare sempre gli errori standard robusti. Per ragioni storiche, molti pacchetti statistici usano gli errori standard classici come procedura normale e lasciano che sia l’utente a specificare l’opzione di errori standard robusti all’eteroschedasticità. I dettagli dell’implementazione degli errori standard robusti all’eteroschedasticità dipendono dal pacchetto utilizzato. Tutti gli esempi empirici riportati in questo libro impiegano errori standardizzati robusti all’eteroschedasticità, a meno che non sia diversamente specificato. 1 4.10 Conclusioni Ritorniamo per un momento al problema che ha introdotto questo capitolo, quello di un provveditore che sta considerando se assumere insegnanti addizionali per ridurre il rapporto studenti-insegnanti. Cosa abbiamo appreso che potrebbe essergli utile? La nostra analisi di regressione, basata su 420 osservazioni relative ai punteggi dei test in California nel 1998, ha mostrato che c’è una relazione negativa tra il rapporto studentiinsegnanti e i punteggi del test: i distretti con classi più piccole hanno punteggi più alti nei test. Il coefficiente è moderatamente grande, in termini pratici: distretti con due studenti in meno per ogni insegnante ottengono, in media, 4, 6 punti in più nel test. Questo corrisponde a uno spostamento di un distretto dal cinquantesimo percentile della distribuzione dei punteggi del test al sessantesimo percentile circa. Il coefficiente del rapporto studenti-insegnanti è statisticamente diverso da zero al livello di significatività 5%. Il coefficiente della popolazione potrebbe essere nullo e noi potremmo aver semplicemente stimato un coefficiente negativo per effetto della validità campionaria. Tuttavia, la probabilità che ciò accada (e la probabilità di ottenere una statistica t per β 1 di 1 Nel caso che questo testo sia usato insieme ad altri, è utile notare che alcuni testi aggiungono l’omoschedasticità all’elenco delle ipotesi dei minimi quadrati. Come già discusso, però, questa ipotesi addizionale non è necessaria perché l’analisi di regressione degli OLS sia valida, a patto che si usino errori standard robusti all’eteroschedasticità. 128 i i i i i i “generale” — 2005/7/10 — 22:25 — page 129 — #159 i i Sommario tale entità) puramente a causa di deviazioni casuali tra potenziali campioni è troppo piccola, approssimativamente lo 0, 001%. Un intervallo di confidenza di livello 95% per β 1 è −3, 30 ≤ β1 ≤ −1, 26. Abbiamo compiuto progressi notevoli nella direzione di rispondere alla domanda del provveditore. Rimane ancora una questione insidiosa. Abbiamo stimato una relazione negativa tra il rapporto studenti-insegnanti e i punteggi del test, ma si tratta proprio della relazione causale di cui il provveditore ha bisogno per effettuare la sua scelta? Abbiamo trovato che i distretti con rapporti studenti-insegnanti inferiori ottengono, in media, punteggi maggiori nei test. Questo significa davvero che riducendo il numero di studenti per insegnante miglioreranno i risultati? C’è, in effetti, una ragione per temere che non sia cosı̀. Assumere più insegnanti, dopotutto, è costoso; perciò, sono i distretti scolastici più ricchi che possono sopportare l’onere di classi più piccole. Gli studenti dei distretti più ricchi hanno però altri vantaggi rispetto ai loro vicini più poveri, come servizi migliori, libri più aggiornati e insegnanti meglio pagati. Inoltre, gli studenti delle scuole più ricche tendono a provenire da famiglie più abbienti e ad avere cosı̀ vantaggi non direttamente associati con la loro scuola. Ad esempio, la California ha una numerosa comunità di immigrati; questi immigrati sono tendenzialmente più poveri rispetto alla popolazione nel suo complessso e in molti casi i loro bambini non sono di madrelingua inglese. Potrebbe allora essere che la relazione negativa stimata tra punteggi dei test e rapporto studenti-insegnanti sia una conseguenza del fatto che classi piccole sono associate a molti altri fattori che costituiscono, in realtà, la causa vera dei punteggi più alti ottenuti nei test. Questi altri fattori, o “variabili omesse”, potrebbero implicare che l’analisi condotta finora abbia in realtà poco valore per il provveditore. Essa potrebbe addirittura essere fuorviante, perché cambiare soltanto il rapporto studenti-insegnanti non cambierebbe gli altri fattori che determinano la prestazione scolastica di uno studente. Per trattare questo problema, abbiamo bisogno di un metodo che ci permetta di isolare l’effetto sui punteggi del test della variazione nel rapporto studenti-insegnanti, tenendo costanti questi altri fattori. Questo metodo è l’analisi di regressione multipla, argomento del capitolo 5. Sommario 1. La retta di regressione della popolazione, β0 + β1 X, è la media di Y in funzione del valore di X. La pendenza, β1 , è la variazione attesa di Y associata a una variazione unitaria di X. L’intercetta, β0 , determina il livello (o altezza) della retta di regressione. Il concetto chiave 4.1 riporta in sintesi la terminologia relativa al modello di regressione lineare della popolazione. 2. La retta di regressione della popolazione può essere stimata usando le osservazioni 129 i i i i i i “generale” — 2005/7/10 — 22:25 — page 130 — #160 i i Sommario campionarie (Xi , Yi ), con i = 1, . . . , n, attraverso i minimi quadrati ordinari (OLS). Gli stimatori OLS dell’intercetta e della pendenza della regressione sono indicati con β̂0 e β̂1 . 3. Ci sono tre ipotesi chiave per il modello di regressione lineare: (1) gli errori di regressione, ui , ha una media nulla condizionatamente ai regressori Xi ; (2) le osservazioni campionarie sono estratti casuali i.i.d. dalla popolazione; (3) le variabili casuali hanno quattro momenti. Se valgono queste ipotesi, gli stimatori OLS di β̂0 e β̂1 sono: (1) non distorti; (2) consistenti; (3) normalmente distribuiti, quando il campione è grande. 4. Il test d’ipotesi sui coefficienti di regressione è analogo al test d’ipotesi per la media della popolazione: si usa la statistica t per calcolare i valori-p e o si accetta o si rifiuta l’ipotesi nulla. Proprio come un intervallo di confidenza per la media della popolazione, un intervallo di confidenza di livello 95% per un coefficiente di regressione è calcolato come lo stimatore ±1, 96 errori standardizzati. 5. Quando X è binaria, il modello di regressione può essere usato per stimare e verificare le ipotesi sulla differnza tra la media della popolazione del gruppo “X = 0” e la media della popolazione del gruppo “X = 1”. 6. L’R2 e l’errore standarizzato della regressione (SER) sono misure di quanto vicino sia il valore di Yi alla retta di regressione stimata. L’R2 è tra zero e uno, con un valore più grande indicante che le Yi sono più vicine alla retta. L’errore standardizzato della regressione è uno stimatore della deviazione standardizzata dell’errore di regressione. 7. In generale, l’errore ui è eteroschedastico, cioè, la varianza di ui per una certo valore di Xi , var(ui Xi = x) dipende da x. Un caso particolare è quando l’errore è omoschedastico, ovvero, var(ui Xi = x) è costante. Gli errori di regressione per la sola omoschedasticità non producono inferenze statistiche valide quando gli errori sono eteroschedastici, funzione ottemperata dagli errori standardizzati robusti all’eteroschedasticità. Termini chiave modello di regressione lineare con un singolo regressore (94) variabile dipendente (94) variabile indipendente (94) regressore (94) retta di regressione della popolazione (94) funzione di regressione della popolazione (94) intercetta e pendenza della popolazione (95) coefficienti della popolazione (95) parametri (95) errore (95) stimatore dei minimi quadrati ordinari (OLS) (99) 130 i i i i i i “generale” — 2005/7/10 — 22:25 — page 131 — #161 i i Sommario retta di regressione degli OLS (99) valore predetto (99) residuo (99) assunzioni dei minimi quadrati (104) errore standard di β̂1 (112) statistica t (113) valore-p (113) intervallo di confidenza di β1 (117) livello di confidenza (117) variabile indicatrice (119) variabile dummy (119) coefficiente che moltiplica D1 (120) coefficiente di D1 (120) R2 di regressione (121) somma dei quadrati spiegata (ESS) (122) somma dei quadrati totale (T SS) (122) somma dei quadrati dei residui (SSR) (122) errore standard della regressione (SER) (123) omoschedasticità ed eteroschedasticità (124) migliore stimatore lineare non distorto (BLUE) (126) minimi quadrati ponderati (126) errori standard per l’omoschedasticità pura (127) errori standard robusti all’eteroschedasticità (127) Verifica dei concetti 4.1 Si spieghi la differenza tra β̂1 e β1 ; tra il residuo ûi e l’errore di regressione ui ; tra il valore predetto OLS Ŷi e E(Yi Xi ). 4.2 Si descriva la procedura per calcolare il valore-p di un test bilaterale in cui H 0 : µY = 0 usando un insieme di osservazioni i.i.d. Yi , con i = 1, . . . , n. 4.3 Si spieghi come un modello di regressione potrebbe essere usato per stimare la differenza tra i salari dovuta al genere usando i dati della sezione 3.5. Quali sarebbero le variabili dipendenti e indipendenti? 4.4 Si disegni un grafico a nuvola ipotetico dei dati di una regressione stimata che abbia R2 = 0, 9. Si disegni un ipotetico grafico a nuvola dei dati di una regressione stimata che abbia R2 = 0, 5. Esercizi 4.1 Si supponga che un ricercatore, utilizzando i dati sulla dimensione delle classi (DS) e i punteggi medi dei test di 100 classi relative a un terzo livello d’istruzione, stimi la regressione degli OLS, d T estScore = 520, 4 − 5, 82 × CS, R2 = 0, 08, SER = 11, 5. (20, 4) (2, 21) a. Una classe è composta da 22 studenti. Qual è la predizione della regressione relativa al punteggio medio del test per tale classe? 131 i i i i i i “generale” — 2005/7/10 — 22:25 — page 132 — #162 i i Sommario b. L’anno scorso una certa classe era composta da 19 studenti e quest’anno da 23. Qual è la predizione della regressione relativa a una variazione nel punteggio medio del test nella classe? c. Si costruisca un intervallo di confidenza di livello 95% per β1 , il coefficiente angolare della regressione. d. Si calcoli il valore-p di un test bilaterale per l’ipotesi nulla H0 : β1 = 0. Si rigetta l’ipotesi nulla al livello di significatività 5%? all’1%? e. La media campionaria della dimensione delle classi relativa alle 100 classi è 21, 4. qual è la media campionaria dei punteggi del test nelle 100 classi? (Suggerimento: si faccia riferimento alle formule degli stimatori degli OLS.) f. Qual è la deviazione standardizzata campionaria dei punteggi del test tra le 100 classi? (Suggerimento: si faccia riferimento alle formule dell’R 2 e del SER.) 4.2 Si supponga che un ricercatore, utilizzando i dati su 250 maschi lavoratori selezionati casualmente e 280 femmine lavoratrici, stimi la regressione degli OLS Wd age = 12, 68 + 2, 79 M ale, R2 = 0, 06, SER = 3, 10, (0, 18) (0, 84) dove W age è misurato in $/ora e M ale è una variabile binaria che è uguale a uno se la persona è di genere maschile e 0 se di genere femminile. Si definisca la differenza tra i salari dovuta al genere come la differenza tra il salario medio tra uomini e donne. a. Qual è la differenza stimata dovuta al genere? b. La differenza dovuta al genere è significativamente diversa da zero? (Si calcoli il valore-p per verificare l’ipotesi nulla che non ci sia alcuna differenza dovuta al genere). c. Si costruisca un intervallo di confidenza di livello 95% per al differenza dovuta la genere. d. Nel campione, qual è il salario medio della donne? Degli uomini? e. Un altro ricercatore usa gli stessi dati, ma effettua una regressione di W age su F emale, una variabile che è uguale a uno se la persona è di genere femminile e zero se la persona è di genere maschile. Quali sono le stime di regressione calcolate da tale regressione? Wd age = + F emale, R2 = , SER = . 4.3 Si mostri che la prima ipotesi dei minimi quadrati, E(ui Xi ) = 0, implica che E(Yi Xi ) = β0 + β 1 Xi . 132 i i i i i i “generale” — 2005/7/10 — 22:25 — page 133 — #163 i i Appendice 4.4 Si mostri che β̂0 è uno stimatore non distorto di β0 . (Suggerimento: si sfrutti il fatto che β̂1 è non distorto, che è mostrato nell’appendice 4.3). 4.5 Si supponga che un campione casuale di 200 uomini ventenni sia selezionato da una popolazione e che se ne registri l’altezza e il peso. Una regressione di peso su altezza fornisce: Wd eight = − 99, 41 + 3, 94 Height, R2 = 0, 81, SER = 10, 2, (2, 15) (0, 31) dove W eight è misurato in libbre e Height in pollici. a. Qual è il peso predetto per qualcuno che sia alto 70 pollici? Alto 74 pollici? b. Un individuo ha uno sviluppo tardivo e cresce 1, 5 pollici nel corso di un anno. Qual è la predizione della regressione per un aumento del peso di una persona? c. Si costruisca un intervallo di confidenza di livello 99% per l’aumento di peso considerato al punto (b). d. Si supponga che, invece di misurare peso e altezza in libbre e pollici, si misurino in chilogrammi e centimetri. Quali sono le stime di regressione per questa nuova regressione chilogrammi-centimetri? (Si calcolino tutti i risultati, i coefficienti stimati, gli errori standardizzati, l’R2 e lo SER). 4.6 Partendo dall’equazione (4.15), si derivi la varianza di β̂0 sotto omoschedasticità fornita dall’equazione (4.61) nell’appendice 4.4. Appendice 4.1: la banca dati sui punteggi dei test della California Il California Standardized Testing and Reporting contiene dati sulle prestazioni nei test, le caratteristiche scolastiche e le condizioni demografiche degli studenti. I dati qui utilizzati derivano da tutti i 420 distretti scolastici elementari (K-6 e K-8) della California con dati disponibili per il 1998 e 1999. I punteggi del test sono una media dei punteggi in lettura e in matematica ottenuti nello Stanford 9 Achievement Test, un test standardizzato sottoposto a studenti del quinto grado d’istruzione (quinta elementare). Le caratteristiche scolastiche (per le quali si considera la media del distretto) includono le iscrizioni, il numero di insegnanti (misurati come “equivalenti a tempo pieno”), il numero di computer per classe e le spese per studente. Il rapporto studenti-insegnanti utilizzato corrisponde al numero di insegnanti equivalenti a tempo pieno operanti nel distretto diviso per il numero di studenti. Anche per 133 i i i i i i “generale” — 2005/7/10 — 22:25 — page 134 — #164 i i Appendice le variabili demografiche relative agli studenti si considera la media del distretto. Le variabili demografiche includono la percentuale di studenti presenti nel programma di pubblica assistenza CalWork (in precedenza AFDC), la percentuale di studenti che hanno diritto al sussidio mensa e la percentuale di studenti non di madrelingua inglese (cioè, studenti per i quali l’inglese è una seconda lingua). Tutti questi dati sono stati forniti dal California Department of Education (www.cde.ca.gov). Appendice 4.2: derivazione degli stimatori degli OLS Questa appendice usa il calcolo differenziale per derivare le formule degli stimatori OLS presentate nel concetto chiave 4.2. Per minimizzare la somma dei quadrati degli errori di Pn predizione i=1 (Yi −b0 −b1 Xi )2 (equazione (4.6)), si calcolino anzitutto le derivate parziali rispetto a b0 e b1 : n n X ∂ X 2 (Yi − b0 − b1 Xi ) e (Yi − b0 − b1 Xi ) = −2 ∂b0 i=1 i=1 n n X ∂ X (Yi − b0 − b1 Xi )2 = −2 (Yi − b0 − b1 Xi )Xi . ∂b1 i=1 i=1 (4.44) (4.45) P Gli stimatori OLS, β̂0 e β̂1 sono i valori di b0 e b1 che minimizzano ni=1 (Yi − b0 − b1 Xi )2 o, equivalentemente, i valori di b0 e b1 per i quali le derivate (4.44) e (4.45) sono uguali a zero. Di conseguenza, ponendo tali derivate uguali a zero, raccogliendo i termini e dividendo per n si mostra che gli stimatori OLS, β̂0 e β̂1 , devono soddisfare le due equazioni Ȳ − β̂0 − β̂1 X̄ = 0 e n (4.46) n 1X 2 1X Xi Yi − β̂0 X̄ − β̂1 X = 0. n i=1 n i=1 i (4.47) Risolvendo questa coppia di equazioni per β̂0 e β̂1 si ottiene 1 n β̂1 = 1 n n P i=1 n P i=1 Xi Yi − X̄ Ȳ Xi2 − (X̄)2 = n P i=1 (Xi − X̄)(Yi − Ȳ ) n P i=1 β̂0 = Ȳ − β̂1 X̄. (Xi − (4.48) X̄)2 (4.49) Le equazioni (4.48) e (4.49) sono le formule di β̂0 e β̂1 presentate nel concetto chiave 4.2; la formula β̂1 = sXY /s2X si ottiene dividendo il numeratore e il denominatore dell’equazione (4.48) per n − 1. 134 i i i i i i “generale” — 2005/7/10 — 22:25 — page 135 — #165 i i Appendice Appendice 4.3: distribuzione campionaria dello stimatore OLS In questa appendice, mostriamo che lo stimatore β̂1 degli OLS è non distorto e, in grandi campioni, ha la distribuzione campionaria normale mostrata nel concetto chiave 4.4. Rappresentazione di β̂1 come funzione dei regressori e degli errori. Cominciamo proponendo un’espressione per β̂1 come funzione dei regressori e degli errori. Siccome Yi = β0 + β1 Xi + ui , Yi − Ȳ = β1 (Xi − X̄) + (ui − ū) e quindi il numeratore della (4.48) diventa n X i=1 (Xi − X̄)(Yi − Ȳ ) = = β1 n X i=1 n X i=1 (Xi − X̄)[β1 (Xi − X̄) + (ui − ū)] (Xi − X̄)2 + n X i=1 (Xi − X̄)(ui − ū). (4.50) Pn Pn Pn Pn Ora i=1 (Xi − X̄)(ui − ū) = (Xi − i=1 (Xi − X̄)ui − i=1 (Xi − X̄)ū = Pi=1 n X̄)ui , dove l’uguaglianza finale deriva dalla definizione di X̄, che implica che i=1 (Xi − P P P X̄)ū = [ ni=1 Xi − nX̄]ū = 0. Sostituendo ni=1 (Xi − X̄)(ui − ū) = ni=1 (Xi − X̄)ui Pn Pn nell’espressione finale della (4.50) produce i=1 (Xi − X̄)(Yi − Ȳ ) = β1 i=1 (Xi − X̄)2 + Pn i=1 (Xi − X̄)ui . Sostituendo questa espressione nella formula di β̂1 nella (4.48) si ottiene 1 n β̂1 = β1 + 1 n n P (Xi − X̄)ui i=1 n P i=1 . (4.51) (Xi − X̄)2 Prova della non distorsione di β̂1 . L’aspettativa di β̂1 si ottiene prendendo l’aspettativa di entrambi i lati della (4.51). Cosı̀, P n 1 (X − X̄)u i n i=1 i E(β̂1 ) = β1 + E n 1 P 2 (Xi − X̄) n i=1 P n 1 (X − X̄)E(ui X1 , . . . , Xn ) n i=1 i = β1 , = β1 + E (4.52) n P 1 2 (X − X̄) i n i=1 dove la seconda uguaglianza nella (4.52) segue dall’applicazione della legge delle aspettative iterate (sezione 2.3). Per la seconda ipotesi dei minimi quadrati, u i si distribuisce indipendentemente da X per tutte le osservazioni diverse da i, perciò E(ui X1 , . . . , Xn ) = E(ui Xi ). 135 i i i i i i “generale” — 2005/7/10 — 22:25 — page 136 — #166 i i Appendice Per la prima ipotesi dei minimi quadrati, però, E(ui Xi ) = 0. Pertanto, il numeratore nel termine finale della (4.52) è pari a zero, cioè lo stimatore OLS è non distorto. La distribuzione normale dello stimatore OLS in grandi campioni. L’approssimazione normale per grandi campioni alla distribuzione campionaria di β̂1 (concetto chiave 4.4) si ottiene considerando l’andamento del termine finale dell’equazione (4.51) Si consideri inizialmente il numeratore di tale termine. Poiché X̄ è consistente, se la dimensione campionaria è ampia, X̄ è circa uguale a µX . Cosı̀, il termine al numeratore dell’equazione (4.51) è la media campionaria v̄, dove v i = (Xi − µX )ui . Per la prima ipotesi dei minimi quadrati, vi ha media nulla. Per la seconda ipotesi, vi è i.i.d. La varianza di vi è σv2 = var[(Xi − µX )ui ], che, per la terza ipotesi dei minimi quadrati, è non nulla e finita. Per questi motivi, v̄ soddisfa tutte le proprietà richieste per l’applicazione del teorema limite centrale (concetto chiave 2.7). Perciò, v̄/σv̄ si distribuisce, in grandi campioni, secondo una N (0, 1), dove σv̄2 = σv2 /n. Per questo motivo la distribuzione di v̄ è ben approssimata da una distribuzione N (0, σv2 /n). Si consideri ora l’espressione al denominatore della (4.51); questa è la varianza campionaria di X (eccetto la divisione per n invece che per n − 1, che è innocua se n è grande). Come discusso nella sezione 3.2 (equazione (3.8)), la varianza campionaria è uno stimatore consistente della varianza della popolazione, perciò in grandi campioni è arbitrariamente vicina alla varianza di X a livello di popolazione. Combinando questi due risultati, si ottiene che, in grandi campioni, β̂1 −β1 ∼ = v̄/var(Xi ), 2 e quindi la distribuzione campionaria di β̂1 è, in grandi campioni, N (β1 , σβ̂ ), dove σβ̂2 = 1 1 var(v̄)/[var(Xi )]2 = [var(Xi − µX )ui ]/n[var(Xi )]2 , che è l’espressione dell’equazione (4.14). Qualche altra proprietà algebrica degli OLS. I residui degli OLS e i valori predetti soddisfano: n 1X ûi = 0, (4.53) n i=1 n n X 1X Ŷi = Ȳ , n i=1 ûi Xi = 0 e sûX = 0 (4.54) e (4.55) i=1 T SS = SSR + ESS. (4.56) I risultati dalla (4.53) alla (4.56) dicono che i residui degli OLS hanno media campionaria nulla; la media campionaria dei valori predetti degli OLS è ȳ; la covarianza campionaria s ûX tra i residui OLS e i regressori è nulla; e la somma dei quadrati totale è uguale alla somma 136 i i i i i i “generale” — 2005/7/10 — 22:25 — page 137 — #167 i i Appendice dei quadrati dei residui più la somma dei quadrati spiegata (ESS, T SS e SSR sono definiti rispettivamente nella (4.35), nella (4.36) e nella (4.38)). Per verificare la (4.53), si noti che la definizione di β̂0 permette di scrivere i residui OLS come ûi = Yi − β̂0 − β̂1 X1 = (Yi − Ȳ ) − β1 (Xi − X̄); perciò, n X ûi = i=1 n X i=1 (Yi − Ȳ ) − β̂1 n X i=1 (Xi − X̄). Pn Pn La definizione di Ȳ e X̄ implica però che i=1 (Yi − Ȳ ) = 0 e i=1 (Xi − X̄) = 0 e quindi Pn i=1 ûi = 0. Pn Pn Per verificare la (4.54), si noti che Yi = Ŷi + ûi , cosicché i=1 Yi = i=1 Ŷi + Pn Pn i=1 ûi = i=1 Ŷi , dove la seconda uguaglianza è una conseguenza dell’equazione (4.53). Pn Pn Per verificare l’equazione (4.55), si noti che i=1 ûi = 0 implica i=1 ûi Xi = Pn û (X − X̄), e quindi i i=1 i n X ûi Xi = i=1 = n X i=1 n X i=1 [(Yi − Ȳ ) − β̂1 (Xi − X̄)](Xi − X̄) (Yi − Ȳ )(Xi − X̄) − β̂1 n X i=1 (Xi − X̄)2 = 0, (4.57) dove l’uguaglianza finale nella (4.57) è ottenuta utilizzando la formula (4.48) per β̂1 . Questo risultato, combinato con i risultati precedenti e un po’ di algebra, implica che s ûX = 0. La (4.56) segue dai risultati precedenti e un po’ di algebra: T SS = n X i=1 = n X i=1 (Yi − Ȳ )2 = (Yi − Ŷi )2 + n X i=1 n X (Yi − Ŷi + Ŷi − Ȳ )2 (Ŷi − Ȳ )2 + 2 i=1 n X = SSR + ESS + 2 n X i=1 (Yi − Ŷi )(Ŷi − Ȳ ) ûi Ŷi = SSR + ESS, (4.58) i=1 Pn Pn dove l’uguaglianza finale segue dal fatto che i=1 ûi Ŷi = i=1 ûi (β̂0 + β̂1 Xi ) = Pn Pn β̂0 i=1 ûi + β̂1 i=1 ûi Xi = 0 per i risultati precedenti. 137 i i i i i i “generale” — 2005/7/10 — 22:25 — page 138 — #168 i i Appendice Appendice 4.4: le formule per gli errori standard degli OLS Questa appendice discute le formule degli errori standard degli OLS. Questi sono stati già presentati sotto le assunzioni dei minimi quadrati nel concetto chiave 4.3 e tengono conto dell’eteroschedasticità; essi sono gli errori standardizzati “robusti all’eteroschedasticità”. Le formule della varianza degli stimatori OLS e gli errori standard associati sono poi forniti per il caso speciale di omoschedasticità. Gli errori standard robusti all’eteroschedasticità. Lo stimatore σ̂β̂2 definito nella (4.19) 1 si ottiene sostituendo le varianze della popolazione nella (4.14) con le corrispondenti varianze campionarie, con una modifica. La varianza al numeratore della (4.14) è stimata da 1 Pn 2 2 i=1 (Xi − X̄) ûi , dove il divisore n − 2 (invece di n) incorpora un aggiustamento n−2 per i gradi di libertà allo scopo di correggere la distorsione verso il basso, analogamente all’aggiustamento per i gradi di libertà usato nella definizione del SER nella sezione 4.8. La Pn varianza al denominatore è stimata da n1 i=1 (Xi − X̄)2 . Sostituendo var[(Xi − µX )ui ] e var(Xi ) nella (4.14) con questi due stimatori si ottiene σ̂β̂2 nella (4.19). La consistenza degli 1 errori standard robusti all’eteroschedasticità sarà discussa nella sezione 15.3. Lo stimatore della varianza di β̂0 è σ̂β̂2 0 1 n−2 n P Ĥi2 û2i 1 i=1 = × 2 , n n 1 P 2 Ĥi n (4.59) i=1 dove Ĥi = 1 − [X̄/ n1 Pn 2 i=1 Xi ]Xi . L’errore standard di β̂0 è stimatore σ̂β̂2 è lo stesso di σ̂β̂2 e segue dalla 0 1 mento dietro lo con le medie campionarie. SE(β̂0 ) = q σ̂β̂2 . Il ragiona0 sostituzione delle aspettative Le varianza per il caso di omoschedasticità pura. Sotto l’assunzione di omoschedasticità, la varianza condizionata di ui data Xi è una costante, ovvero, var(ui Xi ) = σu2 . Se gli errori sono omoschedastici, le formule del concetto chiave 4.4 si semplificano come σ̂β̂2 = σu2 2 nσX e (4.60) σ̂β̂2 = E(Xi2 ) 2 2 σu . nσX (4.61) 0 1 138 i i i i i i “generale” — 2005/7/10 — 22:25 — page 139 — #169 i i Appendice Per derivare la (4.60), si scriva il numeratore della (4.14) come var[(X i − µX )ui ] = 2 E({(Xi − µX )ui − E[(Xi − µX )ui ]} ) = E [(Xi − µX )ui ]2 = E[(Xi − µX )2 u2i ] = E[(Xi −µX )2 var(ui Xi )], dove la seconda uguaglianza deriva dal fatto che E[(Xi −µX )ui ] = 0 (per la prima ipotesi dei minimi quadrati) e dove l’uguaglianza finale deriva dalla legge delle aspettative iterate (sezione 2.3). Se ui è omoschedastico, allora var(ui Xi ) = σu2 e quindi 2 E[(Xi − µX )2 var(ui Xi )] = σu2 E[(Xi − µX )2 ] = σu2 σX . Il risultato nella (4.60) deriva sostituendo tale espressione nel numeratore della (4.14) e semplificando. Un simile calcolo fornisce la (4.61). Gli errori standard per il caso di omoschedasticità pura. Gli errori standard per il caso di omoschedasticità pura si ottengono sostituendo le medie e le varianze della popolazione nella (4.60) e nella (4.61) con le medie e le varianze campionarie e stimando la varianza di u i con il quadrato del SER. Gli stimatori di tali varianze per il caso di omoschedasticità pura sono σ̃β̂2 = P n 1 i=1 σ̃β̂2 0 sû2 (per il caso di omoschedasticità pura) e (4.62) (Xi − X̄)2 1 n = P n i=1 n P i=1 Xi2 sû2 (per il caso di omoschedasticità pura), (4.63) (Xi − X̄)2 dove è dato dalla (4.40). Gli errori standard per il caso di omoschedasticità pura sono le radici quadrate di σ̃β̂2 e σ̃β̂2 . sû2 0 1 139 i i i i i i “generale” — 2005/7/10 — 22:25 — page 140 — #170 i i i i i i i i “generale” — 2005/7/10 — 22:25 — page 141 — #171 i i Capitolo 5 Regressione lineare con regressori multipli Il capitolo 4 si è concluso con una nota di monito. Nell’indagine relativa alla California, sebbene i distretti scolastici con rapporto studenti-insegnanti più piccolo tendano ad avere punteggi del test più alti, è plausibile ipotizzare che gli studenti provenienti da distretti con classi piccole abbiano altre caratteristiche che li aiutino ad avere risultati migliori nei test standardizzati. Ciò potrebbe aver prodotto risultati fuorvianti. Se fosse cosı̀, cosa si potrebbe fare? I fattori omessi, come le caratteristiche degli studenti, possono rendere fuorviante, o più precisamente distorto, lo stimatore dei minimi quadrati ordinari (OLS) dell’effetto della dimensione delle classi sui punteggi del test. Questo capitolo spiega questa “distorsione da variabile omessa” e introduce la regressione multipla, un metodo che può eliminare la distorsione da variabile omessa. L’idea chiave della regressione multipla è che, se sono disponibili i dati sulle variabili omesse, possiamo aggiungerle come regressori addizionali e perciò stimare l’effetto di un regressore (il rapporto studenti-insegnanti), tenendo costanti le altre variabili (come le caratteristiche degli studenti). Questo capitolo spiega come stimare i coefficienti di un modello di regressione lineare multivariata. Esamina come effettuare inferenza statistica, ovvero come verificare le ipotesi riguardanti più coefficienti di regressione e come costruire gli intervalli di confidenza per tali coefficienti. Molti aspetti della regressione multipla ricalcano quelli della regressione con un singolo coefficiente studiati nel capitolo 4. I coefficienti del modello di regressione multipla possono essere stimati dai dati tramite gli OLS; gli stimatori OLS nelle regressioni multivariate sono variabili casuali perché dipendono da un campione casuale di dati; per grandi campioni, le distribuzioni campionarie degli stimatori OLS sono approssimativamente normali; inoltre, gli stimatori OLS possono essere usati per verificare ipotesi e costruire inter- i i i i i i “generale” — 2005/7/10 — 22:25 — page 142 — #172 i i 5.1. La distorsione da variabile omessa valli di confidenza circa i coefficienti di regressione nella popolazione. Una delle ipotesi che possono essere sottoposte a verifica è che la riduzione nel rapporto studenti-insegnanti non abbia effetti sui punteggi del test, tenendo costanti le caratteristiche misurabili degli studenti appartenenti al distretto. 5.1 La distorsione da variabile omessa Focalizzando l’attenzione soltanto sul rapporto studenti-insegnanti, l’analisi empirica del capitolo 4 ha ignorato alcune determinanti potenzialmente rilevanti dei punteggi del test e concentrato tutta la loro influenza nell’errore della regressione. Questi fattori omessi includono caratteristiche della scuola, come la qualità degli insegnanti e l’uso del computer, e peculiarità degli studenti, come la condizione economica familiare. Cominciamo con il considerare una caratteristica omessa relativa agli studenti che è particolarmente rilevante in California a causa della sua ampia popolazione di immigrati: la prevalenza nel distretto scolastico di studenti non di madrelingua inglese. Ignorando la percentuale di studenti non di madrelingua nel distretto, lo stimatore OLS della pendenza della retta di regressione dei punteggi sul rapporto studenti-insegnanti potrebbe essere distorto; in altre parole, la media della distribuzione campionaria dello stimatore OLS potrebbe non essere uguale all’effetto vero sui punteggi del test di una variazione unitaria nel rapporto studenti-insegnanti. Il ragionamento è il seguente. Gli studenti non di madrelingua potrebbero avere prestazioni peggiori nei test standardizzati rispetto agli studenti di madrelingua inglese. Se i distretti con classi grandi avessero molti studenti non di madrelingua, allora la regressione OLS dei punteggi del test sul rapporto studenti-insegnanti potrebbe erroneamente trovare una correlazione e produrre un coefficiente stimato elevato, quando, in realtà, il vero effetto causale della riduzione nella dimensione delle classi sui punteggi del test è irrisorio o addirittura nullo. Di conseguenza, basandosi sull’analisi del capitolo 4, il provveditore potrebbe assumere nuovi insegnanti in numero sufficiente per ridurre il rapporto studenti-insegnanti di due unità, ma la sua speranza di migliorare i punteggi del test potrebbe non concretizzarsi, se il vero coefficiente fosse piccolo o nullo. Uno sguardo ai dati della California dà adito a questa preoccupazione. La correlazione tra il rapporto studenti-insegnanti e la percentuale di studenti non di madrelingua inglese (studenti non nativi americani e che non hanno ancora assimilato la lingua inglese completamente) nel distretto è pari a 0, 19. Questa piccola ma positiva correlazione suggerisce che i distretti con un numero maggiore di studenti non di madrelingua mostrano la tendenza a un più alto rapporto studenti-insegnanti (classi di maggiori dimensioni). Se il rapporto studenti-insegnanti non dipendesse dalla percentuale di non di madrelingua, sarebbe allora legittimo ignorare la conoscenza dell’inglese nella regressione dei punteggi del test sul rapporto studenti-insegnanti. Tuttavia, poiché il rapporto studenti-insegnanti e la percentuale di 142 i i i i i i “generale” — 2005/7/10 — 22:25 — page 143 — #173 i i 5.1. La distorsione da variabile omessa non di madrelingua sono correlati, è possibile che il coefficiente OLS nella regressione dei punteggi del test sul rapporto studenti-insegnanti rifletta tale influenza. Definizione di distorsione da variabile omessa Se il regressore (il rapporto studenti-insegnanti) è correlato con una variabile omessa dall’analisi (la percentuale di studenti non di madrelingua inglese) ma che determina, in parte, la variabile dipendente (i punteggi ottenuti nel test), lo stimatore OLS subirà una distorsione da variabile omessa. La distorsione da variabile omessa si verifica quando valgono due condizioni: la variabile omessa è correlata con il regressore incluso; la variabile omessa contribuisce a determinare la variabile dipendente. Per illustrare queste condizioni, consideriamo tre esempi di variabili che sono omesse dalla regressione dei punteggi del test sul rapporto studenti-insegnanti. Esempio 1: percentuale di studenti non di madrelingua inglese. Poiché la percentuale di studenti non di madrelingua inglese è correlata con il rapporto studenti-insegnanti, sussiste la prima condizione per la distorsione da variabile omessa. È plausibile che gli studenti non di madrelingua inglese abbiano prestazioni peggiori nei test standardizzati rispetto agli studenti di madrelingua inglese, nel qual caso la percentuale di studenti non di madrelingua è una determinante dei punteggi del test ed è cosı̀ verificata la seconda condizione per la distorsione da variabile omessa. Per queste ragioni, lo stimatore OLS nella regressione dei punteggi del test sul rapporto studenti-insegnanti potrebbe erroneamente riflettere l’influenza della variabile omessa, la percentuale di studenti non di madrelingua. In altre parole, omettere la percentuale di studenti non di madrelingua potrebbe introdurre una distorsione da variabile omessa. Esempio 2: ora del test. Un’altra variabile omessa dall’analisi è l’ora in cui viene svolto il test. Per questa variabile omessa, è plausibile che non valga la prima condizione per la distorsione da variabile omessa, ma che valga la seconda. Ad esempio, se l’ora in cui si effettua il test varia da un distretto a un altro in modi che non dipendono dalla dimensione delle classi, allora l’ora e la dimensione delle classi dovrebbero essere incorrelate, e quindi non dovrebbe valere la prima condizione. D’altro canto, l’ora in cui si svolge il test potrebbe influenzare i risultati (l’attenzione varia durante le ore di lezione), facendo valere la seconda condizione. Tuttavia, siccome in questo esempio l’ora in cui viene svolto il test è incorrelata con il rapporto studenti-insegnanti, quest’ultimo non dovrebbe incorrettamente catturare l’effetto “ora del giorno”. Perciò, omettere l’ora in cui si svolge il test non si dovrebbe risolvere in una distorsione da variabile omessa. Esempio 3: l’area di parcheggio per studente. Un’altra variabile omessa è l’area di par143 i i i i i i “generale” — 2005/7/10 — 22:25 — page 144 — #174 i i 5.1. La distorsione da variabile omessa cheggio per studente (l’area del parcheggio degli insegnanti divisa per il numero degli studenti). Questa variabile soddisfa la prima, ma non la seconda condizione per la distorsione da variabile omessa. Nello specifico, le scuole con più insegnanti per studente probabilmente hanno aree di parcheggio più grandi, soddisfacendo cosı̀ la prima condizione. Tuttavia, data l’ipotesi che l’apprendimento avvenga nelle classi, e non nel parcheggio, la dimensione di questo non ha un effetto diretto sull’apprendimento, e quindi non è soddisfatta la seconda condizione. Siccome lo spazio per parcheggiare non è una determinante dei punteggi del test, ometterla dall’analisi non induce distorsione da variabile omessa. La distorsione da variabile omessa è riassunta nel concetto chiave 5.1. La distorsione da variabile omessa e la prima ipotesi dei minimi quadrati. La distorsione da variabile omessa è dovuta all’erroneità della prima ipotesi dei minimi quadrati – E(ui Xi ) = 0, come dall’elenco riportato nel concetto chiave 4.3. Per comprenderne il motivo, si ricordi che l’errore ui del modello di regressione con un singolo regressore rappresenta tutti gli altri fattori, oltre a Xi , che contribuiscono a determinare Yi . Se uno di questi altri fattori è correlato con Xi , anche l’errore (che contiene questo fattore) è correlato con Xi . In altre parole, se una variabile omessa è una determinante di Yi , essa è inclusa nell’errore e, se correlata con Xi , anche l’errore è correlato con Xi . Siccome ui e Xi sono correlati, la media condizionata di ui data Xi è non nulla. Questa correlazione viola, perciò, la prima ipotesi dei minimi quadrati e la conseguenza è rilevante: lo stimatore OLS è distorto. Questa distorsione non svanisce neanche in grandi campioni, e quindi lo stimatore OLS è inconsistente. Una formula per la distorsione da variabile omessa La discussione della sezione precedente riguardante la distorsione da variabile omessa può essere sintetizzata matematicamente da una formula. Sia corr(Xi , ui ) = ρXu la correlazione tra Xi e ui . Supponiamo che valgano la seconda e la terza assunzione dei minimi quadrati, ma non la prima perché ρXu è non nullo. Allora, lo stimatore OLS ha limite (derivato nell’appendice 5.1) σu p β̂1 → β1 + ρXu . (5.1) σX In altre parole, al crescere della dimensione campionaria, β̂1 è prossimo a β1 + ρXu (σu /σX ) con probabilità alta e crescente. La formula contenuta nella (5.1) riassume molte delle idee discusse in precedenza circa la distorsione da variabile omessa. 1. La distorsione da variabile omessa è un problema sia per grandi sia per piccoli campioni. Quando β̂1 non converge in probabilità al vero valore β1 , β̂1 è inconsistente; cioè, β̂1 non è uno stimatore consistente di β1 , quando c’è distorsione dovuta all’omissione 144 i i i i i i “generale” — 2005/7/10 — 22:25 — page 145 — #175 i i 5.1. La distorsione da variabile omessa Concetto chiave 5.1: la distorsione da variabile omessa nella regressione con un singolo regressore La distorsione da variabile omessa è la distorsione dello stimatore OLS che si ha quando il regressore X è correlato con una variabile omessa. Perché vi sia distorsione da variabile omessa devono verificarsi due condizioni: 1. X è correlato con la variabile omessa; 2. la variabile omessa concorre nel determinare la variabile dipendente, Y . di una variabile. Il termine ρXu (σu /σX ) nella (5.1) rappresenta la distorsione di β̂1 che persiste anche in grandi campioni. 2. Quanto è grande questa distorsione dipende, in pratica, dalla correlazione ρ Xu tra il regressore e l’errore. Maggiore è |ρXu |, maggiore è la distorsione. 3. La direzione della distorsione di β̂1 dipende dal fatto che X e u siano positivamente o negativamente correlati. Ad esempio, abbiamo avanzato l’ipotesi che la percentuale di studenti non di madrelingua abbia un effetto negativo sui punteggi del test in un distretto (gli studenti non di madrelingua hanno punteggi inferiori), cosicché la percentuale di questi studenti entra nell’errore con segno negativo. Nei nostri dati, la frazione di studenti non di madrelingua è positivamente correlata con il rapporto studenti-insegnanti (i distretti con un maggior numero di studenti non di madrelingua inglese hanno classi più grandi). Il rapporto studenti-insegnanti (X) sarebbe perciò negativamente correlato con l’errore (u), quindi ρXu < 0 e il coefficiente del rapporto studenti-insegnanti β̂1 sarebbe distorto verso un numero negativo. In altre parole, una percentuale minore di studenti non di madrelingua è associata sia con punteggi del test migliori sia con un minor rapporto studenti-insegnanti; per tali motivi, una ragione per cui gli OLS suggeriscono che classi piccole contribuiscono ad aumentare i punteggi potrebbe essere che i distretti con classi piccole contengono un minor numero di studenti non di madrelingua inglese. Affrontare la distorsione da variabile omessa dividendo i dati in gruppi Cosa si può fare per la distorsione da variabile omessa? Il nostro provveditore sta considerando l’opportunità di aumentare il numero di insegnanti nel suo distretto, ma non ha alcun controllo sulla frazione di immigranti nella sua comunità. Di conseguenza, è interessato 145 i i i i i i “generale” — 2005/7/10 — 22:25 — page 146 — #176 i i 5.1. La distorsione da variabile omessa all’effetto del rapporto studenti-insegnanti sui punteggi del test, tenendo costanti gli altri fattori, inclusa la percentuale di studenti non di madrelingua inglese. Questo nuovo modo di porre la questione suggerisce che, invece di utilizzare dati per tutti i distretti, dovremmo forse concentrarci sui distretti con una percentuale di studenti non di madrelingua simile a quella del distretto del provveditore. In questo sottogruppo di distretti, quelli con classi più piccole ottengono punteggi migliori nei test? La tabella 5.1 riporta l’evidenza empirica circa la relazione tra dimensione delle classi e punteggi del test all’interno dei distretti con percentuali simili di studenti non di madrelingua. I distretti sono divisi in otto gruppi. In primo luogo, i distretti sono ripartiti in quattro categorie che corrispondono ai quartili della distribuzione della percentuale di studenti non di madrelingua nei distretti. In secondo luogo, all’interno di ciascuna di queste quattro categorie, i distretti sono ulteriormente suddivisi in due gruppi, a seconda che il rapporto studenti-insegnanti sia piccolo (ST R < 20) o grande (ST R ≥ 20). La prima riga della tabella 5.1 riporta la differenza totale nei punteggi medi tra i distretti con basso e alto rapporto studenti-insegnanti, ovvero la differenza nei punteggi del test tra questi due gruppi senza suddividerli ulteriormente secondo i quartili di studenti non di madrelingua inglese (si ricordi che questa stessa differenza è stata precedentemente riportata nella regressione (4.33). Come il coefficiente di Di nella regressione OLS di T estScore su Di , dove Di era un regressore binario, uguale a uno se ST Ri < 20 e uguale a 0 altrimenti). Per l’intero campione di 420 distretti, il punteggio medio del test è di 7, 4 punti più alto in quei distretti che hanno un rapporto studenti-insegnanti minore rispetto a quelli con uno più alto; la statistica t è pari a 4, 04, cosı̀ l’ipotesi nulla che il punteggio medio del test sia lo stesso nei due gruppi è rifiutato al livello 1%. Le quattro righe finali della tabella 5.1 riportano la differenza nei punteggi del test tra distretti con rapporti studenti-insegnanti alti e bassi, suddivisi per quartile della percentuale di studenti non di madrelingua inglese. Questa evidenza empirica mostra un quadro diverso. Tra i distretti con il numero minore di studenti non di madrelingua (< 2, 2%), il punteggio medio per i 78 distretti con il rapporto studenti-insegnanti più basso è 664, 1 e la media relativa ai 27 distretti con il rapporto studenti-insegnanti più alto è 665, 4. Perciò, nei distretti con il numero minore di studenti non di madrelingua, i punteggi del test sono in media 1, 3 punti inferiori rispetto ai distretti con rapporti studenti-insegnanti bassi! Nel secondo quartile, i distretti con rapporti studenti-insegnanti bassi hanno ottenuto in media punteggi di 4, 3 punti più alti di quelli con rapporti maggiori; questa differenza era di 4, 9 punti per il terzo quartile e di soli 1, 9 punti per il quartile di distretti con il maggior numero di studenti non di madrelingua inglese. Se si tiene costante la percentuale di studenti non di madrelingua, la differenza di prestazioni tra distretti con alti e bassi rapporti studenti-insegnanti è di circa la metà (o meno) del totale stimato, che è pari a 7, 4 punti. 146 i i i i i i “generale” — 2005/7/10 — 22:25 — page 147 — #177 i i 5.1. La distorsione da variabile omessa L’effetto Mozart: distorsione da variabile omessa? Uno studio pubblicato su Nature nel 1993 (Rauscher, Shaw and Ky, 1993) suggeriva che ascoltare Mozart per 10-15 minuti potrebbe incrementare temporaneamente il quoziente d’intelligenza di 8 o 9 punti. Lo studio fece scalpore –e politici e genitori intravidero un modo facile per rendere più intelligenti i propri figli. Per un certo periodo, lo stato della Georgia addirittura distribuı̀ CD di musica classica a tutti i bambini dello stato. Qual è l’evidenza per l’“effetto Mozart”? Una rassegna di dozzine di articoli ha mostrato che gli studenti che frequentano corsi di musica o arte alla scuola superiore ottengono punteggi nei test di lingua inglese e matematica più elevati rispetto a quelli che non lo fanno.a Un’occhiata più attenta a questi studi, tuttavia, suggerisce che la vera ragione per la migliore prestazione nei test ha poco a che vedere con tali corsi. Invece, gli autori della rassegna hanno suggerito che la correlazione tra buona prestazione nel test e frequentazione di corsi di musica o arte deriva da parecchie cose. Ad esempio, gli studenti accademicamente migliori potrebbero avere più tempo per frequentare corsi opzionali di musica o maggior interesse nel farlo, oppure le scuole con formazione musicale più approfondita potrebbero essere scuole migliori in tutti i sensi. Nella terminologia della regressione, la relazione stimata tra i punteggi del test e la frequenza di corsi opzionali di musica sembra essere soggetta a distorsione da variabile omessa. Omettendo fattori come l’abilità innata degli studenti o la qualità complessiva della scuola, lo studio della musica sembra avere un effetto sui punteggi, quando in realtà non ne ha alcuno. Perciò, esiste un “effetto Mozart”? Un modo per scoprirlo è condurre un esperimento controllato casualizzato (come sarà discusso più avanti, nel capitolo 11, gli esperimenti controllati casualizzati eliminano la distorsione da variabile omessa assegnando a caso i partecipanti al “gruppo di trattamento” e al “gruppo di controllo”). Nel complesso, i molti esperimenti controllati sull’effetto Mozart non riescono a mostrare che ascoltare Mozart aumenti l’IQ o la prestazione generale nei test. Per ragioni non del tutto chiare, tuttavia, sembra che ascoltare la musica classica sia temporaneamente d’aiuto in un campo ristretto: nel piegare fogli e visualizzare forme. Perciò, la prossima volta che ci prepariamo duramente per un esame di origami, cerchiamo di ascoltare anche un po’ di Mozart. a Vedi Journal of Aesthetic Education 34: 3-4 (Fall/Winter 2000), in particolare l’articolo di Ellen Winner e Monica Cooper, (pp. 11-76) e quello di Lois Hetland (pp. 105-148). 147 i i i i i i “generale” — 2005/7/10 — 22:25 — page 148 — #178 i i 5.1. La distorsione da variabile omessa Tabella 5.1: differenza tra punteggi del test nei distretti scolastici della California con bassi e alti rapporti studenti-insegnanti (ST R), per percentuali diverse di studenti che stanno ancora apprendendo l’inglese nel distretto Rapporto studentiinsegnanti < 20% Tutti i distretti Percentuale di studenti che studiano inglese < 2, 2% 2,2-8,8% 8,8-23,0% > 23, 0% Rapporto studentiinsegnanti ≥ 20% Differenza tra punteggi, basso v/s alto STR Media punteggi n Media punteggi n Differenza Statistica t 657,4 238 650 182 7,4 4,04 664,1 666,1 654,6 636,7 78 61 55 44 665,4 661,8 649,7 634,8 27 44 50 61 -1,3 4,3 4,9 1,9 -0,44 1,44 1,64 0,68 All’inizio questo risultato può apparire complicato. Come può l’effetto totale dei punteggi essere il doppio dell’effetto dei punteggi all’interno di ciascun quartile? La risposta è che i distretti con il numero maggiore di studenti non di madrelingua inglese tendono ad avere sia il più alto rapporto studenti-insegnanti sia i più bassi punteggi. La differenza nel punteggio medio tra i distretti appartenenti al quartile più basso della percentuale di studenti non di madrelingua e a quello più alto è elevata, approssimativamente di 30 punti. I distretti con un minor numero di studenti non di madrelingua inglese sono caratterizzati da rapporti studentiinsegnanti più bassi: il 74% (78 su 105) dei distretti nel primo quartile hanno classi piccole (ST R < 20), mentre solo il 42% (44 su 105) dei distretti nel quartile con il maggior numero di studenti non di madrelingua ha classi piccole. Perciò, i distretti con più studenti non di madrelingua hanno punteggi inferiori nel test e hanno anche un numero di studenti per insegnante maggiore rispetto agli altri distretti. Questa analisi rafforza il timore del provveditore che vi sia distorsione da variabile omessa nella regressione dei punteggi del test sul rapporto studenti-insegnanti. Distinguendo tra i quartili della percentuale di studenti non di madrelingua e differenze dei punteggi nella seconda parte della tabella 5.1 migliorano l’analisi rispetto alla semplice differenza tra le medie della prima riga della tabella 5.1. Però, questa analisi non fornisce ancora al provveditore una stima utile dell’effetto sui punteggi della variazione nella grandezza delle classi, tenendo costante la frazione di studenti non di madrelingua. Tale stima può essere ottenuta utilizzando il metodo della regressione multipla. 148 i i i i i i “generale” — 2005/7/10 — 22:25 — page 149 — #179 i i 5.2. Il modello di regressione multipla 5.2 Il modello di regressione multipla Il modello di regressione multipla estende il modello di regressione con una singola variabile del capitolo 4, includendo variabili addizionali come regressori. Questo modello permette di stimare l’effetto su Yi della variazione in una variabile (X1i ), tenendo costanti gli altri regressori (X2i , X3i e cosı̀ via). Nel problema della dimensione delle classi, il modello di regressione multipla fornisce un modo per isolare l’effetto sui punteggi del test (Y i ) della variazione nel rapporto studenti-insegnanti (X1i ), tenendo costante la percentuale di studenti non di madrelingua inglese nel distretto (X2i ). La retta di regressione della popolazione Supponiamo per il momento che ci siano soltanto due variabili indipendenti, X 1i e X2i . Nel modello di regressione lineare multipla, la relazione media tra queste due variabili indipendenti e la variabile dipendente Y è data dalla funzione lineare E(Yi X1i = x1 , X2i = x2 ) = β0 + β1 x1 + β2 x2 , (5.2) dove E(Yi X1i = x1 , X2i = x2 ) è l’aspettativa condizionata di Yi date X1i = x1 e X2i = x2 . In altre parole, se il rapporto studenti-insegnanti nell’i-esimo distretto (X 1i ) è uguale a un certo valore x1 e la percentuale di studenti non di madrelingua nell’i-esimo distretto (X 2i ) è uguale a x2 , allora il valore atteso di Yi dato il rapporto studenti-insegnanti e la percentuale di studenti non di madrelingua inglese è fornito dalla (5.2). La (5.2) è la retta di regressione della popolazione o funzione di regressione della popolazione nel modello di regressione multipla. Il coefficiente β0 è l’intercetta, il coefficiente β1 è il coefficiente di X1i e il coefficiente di β2 è il coefficiente di X2i . Le variabili dipendenti nel modello di regressione multipla sono talvolta dette variabili di controllo. L’interpretazione del coefficiente β1 nella (5.2) è diversa rispetto al caso in cui X1i è il solo regressore: nella (5.2), β1 è l’effetto su Y di una variazione unitaria in X1i , tenendo costante X2 o controllando per X2 . Tale interpretazione di β1 segue dalla definizione per cui l’effetto atteso su Y di una variazione ∆X1 in X1 , lasciando X2 costante, è la differenza tra il valore atteso di Y , quando le variabili indipendenti sono uguali a X1 +∆X1 e X2 , e il valore atteso di Y, quando le variabili indipendenti sono uguali a X1 e X2 . Di conseguenza, scriviamo la funzione di regressione (5.2) come Y = β0 + β1 X1 + β2 X2 e immaginiamo di far variare X1 dell’ammontare ∆X1 , senza variare X2 , ovvero lasciandola costante. Poiché X1 è cambiata, Y cambia di un certo ammontare, diciamo ∆Y . Dopo questa variazione, il nuovo valore di Y è Y + ∆Y = β0 + β1 (X1 + ∆X1 ) + β2 X2 . (5.3) 149 i i i i i i “generale” — 2005/7/10 — 22:25 — page 150 — #180 i i 5.2. Il modello di regressione multipla Si può esprimere ∆Y in termini di ∆X1 sottraendo Y = β0 + β1 X1 + β2 X2 dalla (5.3), in modo tale da ottenere ∆Y = β1 ∆X1 . Perciò, β1 = ∆Y , ∆X1 tenendo X2 costante. (5.4) Il coefficiente β1 è l’effetto su Y (la variazione attesa di Y ) di una variazione unitaria in X1 , lasciando fisso X2 . Un’altra espressione usata per indicare β1 è effetto parziale di X1 su Y , tenendo X2 fisso. L’interpretazione dell’intercetta β0 nel modello di regressione multipla è simile all’interpretazione dell’intercetta nel modello con un singolo regressore: il valore atteso di Y i quando X1i e X2i sono nulli. Semplicemente, l’intercetta β0 determina il punto dell’asse delle ordinate per cui passa la retta di regressione della popolazione. Il modello di regressione multipla della popolazione La retta di regressione della popolazione (5.2) è la relazione tra Y e X 1 e X2 che vale in media nella popolazione. Proprio come nel caso della regressione con un singolo regressore, tuttavia, questa relazione non vale con esattezza perché molti altri fattori influenzano la variabile dipendente: oltre al rapporto studenti-insegnanti e alla frazione di studenti non di madrelingua inglese, ad esempio, i punteggi del test sono influenzati anche dalle caratteristiche della scuola, dalle altre caratteristiche dello studente e dal caso. La funzione di regressione della popolazione (5.2) deve perciò essere modificata per incorporare questi fattori addizionali. Proprio come nel caso della regressione con un singolo regressore, i fattori che determinano Y oltre a X1i e X2i sono incorporati nell’“errore” ui della (5.2). Questo errore è la deviazione di una particolare osservazione (nel nostro esempio, i punteggi dell’i-esimo distretto) dalla relazione che esprime la media della popolazione. Di conseguenza, otteniamo Yi = β0 + β1 X1i + β2 X2i + ui , i = 1, . . . , n, (5.5) dove il pedice indica l’i-esima delle n osservazioni (distretti) nel campione. La (5.5) è il modello di regressione multipla della popolazione quando ci sono due regressori, X1i e X2i . Nei modelli con regressori binari, può essere utile trattare β0 come il coefficiente di un regressore che è sempre uguale a uno; si pensi a β0 come al coefficiente di X0i , dove X0i = 1 per i = 1, . . . , n. Di conseguenza, il modello di regressione multipla della popolazione (5.5) può essere scritto alternativamente come Yi = β0 X0i + β1 X1i + β2 X2i + ui , dove X0i = 1, i = 1, . . . , n. (5.6) I due modi di scrivere il modello di regressione della popolazione, la (5.5) e la (5.6), sono equivalenti. 150 i i i i i i “generale” — 2005/7/10 — 22:25 — page 151 — #181 i i 5.2. Il modello di regressione multipla Concetto chiave 5.2: il modello di regressione multipla Il modello di regressione multipla è Yi = β0 + β1 X1i + β2 X2i + . . . + βk Xki + ui , i = 1, . . . , n, (5.7) dove: • Yi è la i-esima osservazione della variabile dipendente, X1i , X2i , . . . , Xki sono le i-esime osservazioni di ciascuno dei k regressori e ui è l’errore; • la retta di regressione della popolazione è la relazione tra la Y e le X che vale in media nella popolazione: E(Y X1i = x1 , X2i = x2 , . . . , Xki = xk ) = β0 + β1 x1i + β2 x2i + . . . + βk xki ; • β1 è il coefficiente angolare di X1 , β2 è il coefficiente angolare di X2 ecc. Il coefficiente β1 rappresenta la variazione attesa di Yi che deriva da una variazione unitaria in X1i , tenendo costanti X2i , . . . , Xki . I coefficienti delle altre X si interpretano in maniera simile; • l’intercetta β0 è il valore atteso di Y , quando tutte le X sono pari a zero. L’intercetta può essere pensata come il coefficiente di un regressore, X0i , che è uguale a uno per ogni i. La discussione si è concentrata finora sul caso di una singola variabile addizionale, X 2 . In pratica, tuttavia, potrebbero essere stati omessi più fattori dal modello con un singolo regressore. Per esempio, ignorare la condizione economica degli studenti potrebbe causare distorsione da variabile omessa, proprio come è accaduto ignorando la frazione di studenti non di madrelingua. Questo ragionamento ci induce a considerare un modello con tre regressori o, più in generale, un modello che include k regressori. Il modello di regressione multipla con k regressori, X1i , X2i , . . . , Xki , è riassunto nel concetto chiave 5.2. Le definizioni di omoschedasticità e eteroschedasticità nel modello di regressione multipla sono simili alle definizioni date per il modello con un singolo regressore. L’errore ui nel modello di regressione multipla è omoschedastico, se la varianza della distribuzione di ui condizionatamente a X1i , X2i , . . . , Xki , var(ui X1i , . . . , Xki ), è costante per i = 1, . . . , n, e perciò non dipende dai valori di X1i , X2i , . . . , Xki . Altrimenti, l’errore è eteroschedastico. 151 i i i i i i “generale” — 2005/7/10 — 22:25 — page 152 — #182 i i 5.3. Lo stimatore OLS della regressione multipla Il modello di regressione multipla soddisfa la promessa di svelare proprio ciò che il provveditore vuole sapere: l’effetto della variazione del rapporto studenti-insegnanti, tenendo costanti altri fattori che sfuggono al suo controllo. Questi fattori includono non soltanto la percentuale di studenti non di madrelingua, ma altri fattori misurabili che potrebbero influenzare la prestazione nel test, incluse le condizioni economiche degli studenti. Per dare al provveditore un aiuto pratico, tuttavia, dobbiamo fornirgli le stime dei coefficienti ignoti β0 , . . . , βk del modello di regressione della popolazione utilizzando un campione di dati. Fortunatamente, questi coefficienti possono essere stimati tramite i minimi quadrati ordinari. 5.3 Lo stimatore OLS della regressione multipla Questa sezione descrive come i coefficienti del modello di regressione multipla possano essere stimati tramite gli OLS. Lo stimatore OLS La sezione 4.2 mostra come stimare l’intercetta e la pendenza del modello con un singolo regressore, applicando gli OLS a un campione di osservazioni su Y e X. L’idea chiave è che questi coefficienti possano essere stimati minimizzando la somma dei quadrati degli errori Pn di predizione, ovvero scegliendo gli stimatori b0 e b1 cosı̀ da minimizzare i=1 (Yi − b0 − b1 Xi )2 ; gli stimatori risultanti sono gli OLS, β̂0 e β̂1 . Il metodo degli OLS può anche essere usato per stimare i coefficienti β 0 , β1 , . . . , βk nel modello di regressione multipla. Siano b0 , b1 , . . . , bk stimatori di β0 , β1 , . . . , βk . Il valore predetto di Yi , calcolato usando tali stimatori, è b0 +b1 X1i +. . .+bk Xki e l’errore commesso nel predire Yi è Yi − (b0 + b1 X1i + . . . + bk Xki ) = Yi − b0 − b1 X1i − . . . − bk Xki . La somma dei quadrati di questi errori di previsione al quadrato per n osservazioni è perciò n X i=1 (Yi − b0 − b1 X1i − . . . − bk Xki )2 . (5.8) La somma dei quadrati degli errori nel modello di regressione lineare (5.8) è l’estensione della somma dei quadrati degli errori (4.6) nel modello di regressione lineare con un singolo regressore. Gli stimatori dei coefficienti β0 , β1 , . . . , βk che minimizzano la somma dei quadrati degli errori (5.8) sono detti stimatori dei minimi quadrati ordinari (OLS) di β0 , β1 , . . . , βk . Gli stimatori OLS sono indicati con β̂0 , β̂1 , . . . , β̂k . La terminologia degli OLS nel modello di regressione multipla è la stessa usata per il modello di regressione lineare con un singolo regressore. La retta di regressione OLS si costruisce utilizzando gli stimatori OLS, β̂0 + β̂1 X1 + . . . + β̂k Xk . Il valore predetto di Yi date X1i , . . . , Xki , basato sulla retta di regressione OLS, è Ŷi = β̂0 + β̂1 X1i + . . . + β̂k Xki . 152 i i i i i i “generale” — 2005/7/10 — 22:25 — page 153 — #183 i i 5.3. Lo stimatore OLS della regressione multipla Il residuo OLS per l’i-esima osservazione è la differenza tra Yi e il suo predittore OLS, cioè ûi = Yi − Ŷi . Gli stimatori OLS potrebbero essere calcolati attraverso un processo di prova ed errori, provando cioè ripetutamente valori diversi di b0 , . . . , bk finchè siamo convinti di aver minimizzato la somma totale dei quadrati (5.8). È molto più semplice, però, usare le formule per gli stimatori OLS derivate utilizzando il calcolo infinitesimale. Le formule per gli stimatori OLS nel modello di regressione multipla sono simili a quelle nel concetto chiave 4.2 per il modello con un singolo regressore. Queste formule sono incorporate nei moderni pacchetti statistici ed econometrici. Nel modello di regressione multipla, le formule sono meglio espresse e discusse usando la notazione matriciale, perciò se ne rinvia la presentazione alla sezione 16.1. Le definizioni e la terminologia relativa agli OLS per la regressione multipla sono riassunte nel concetto chiave 5.3. Applicazione ai punteggi del test e al rapporto studenti-insegnanti Nella sezione 4.2, abbiamo usato gli OLS per stimare l’intercetta e la pendenza della regressione che mette in relazione il punteggio del test (T estScore) con il rapporto studentiinsegnanti (STR), usando le nostre 420 osservazioni relative ai distretti scolastici della California; la stima OLS della retta di regressione (4.7) è d T estScore = 698, 9 − 2, 28 × ST R. (5.9) d T estScore = 686, 0 − 1, 10 × ST R − 0, 65 × P ctEL, (5.10) La nostra preoccupazione era che questa relazione fosse fuorviante per il fatto che il rapporto studenti-insegnanti potrebbe catturare l’effetto della presenza, nei distretti con classi grandi, di molti studenti non di madrelingua. Per questo motivo, è possibile che lo stimatore OLS sia soggetto a distorsione da variabile omessa. Siamo ora in grado di affrontare questo problema usando gli OLS per stimare una regressione multipla in cui la variabile dipendente è il punteggio del test (Y i ) e ci sono due regressori: il rapporto studenti-insegnanti (X1i ) e la percentuale di studenti non di madrelingua (X2i ) per i nostri 420 distretti scolastici (i = 1, . . . , 420). La stima OLS di questa regressione multipla è dove P ctEL è la percentuale di studenti non di madrelingua inglese nel distretto. La stima OLS dell’intercetta (β̂0 ) è 686, 0, la stima OLS del coefficiente del rapporto studentiinsegnanti (β̂1 ) è −1, 10 e quella del coefficiente della percentuale di studenti non di madrelingua inglese (β̂2 ) è −0, 65. 153 i i i i i i “generale” — 2005/7/10 — 22:25 — page 154 — #184 i i 5.3. Lo stimatore OLS della regressione multipla Concetto chiave 5.3: gli stimatori OLS, i valori previsti e i residui del modello di regressione multipla Gli stimatori OLS β̂0 , β̂1 , . . . , β̂k sono quei valori di b0 , b1 , . . . , bk che minimizzano la Pn somma dei quadrati degli errori di previsione i=1 (Yi − b0 − b1 X1i − · · · − bk Xki )2 . I valori predetti Ŷi e i residui ûi degli OLS sono: Ŷi = β̂0 + β̂1 X1i + . . . + β̂k Xki , con i = 1, . . . , n, e ûi = Yi − Ŷi , con i = 1, . . . , n. (5.11) (5.12) Gli stimatori OLS β̂0 , β̂1 , . . . , β̂k e il residuo ûi sono calcolati per un campione di n osservazioni (X1i , . . . , Xki , Yi ), con i = 1, . . . , n. Essi sono stimatori dei veri coefficienti ignoti della popolazione β0 , β1 , . . . , βk e dell’errore ui . Nella regressione multipla, l’effetto stimato sui punteggi di una variazione nel rapporto studenti-insegnanti è circa la metà rispetto a quando il numero di studenti per insegnante era l’unico regressore: con un singolo regressore (equazione (5.9)) un decremento unitario di ST R si stima aumenti i punteggi di 2, 28 punti, mentre, con regressori multipli (equazione (5.10)), si stima che i punteggi del test aumentino di soli 1, 10 punti. Questa differenza sorge perché il coefficiente di ST R nella regressione multipla è l’effetto di una variazione di ST R, tenendo costante (o controllando per) P ctEL, mentre nella regressione con un singolo regressore, P ctEL non è tenuto costante. Queste due stime si possono conciliare riconoscendo che c’è distorsione da variabile omessa nella stima del modello con un singolo regressore (5.9). Nella sezione 5.1, abbiamo visto che distretti con un’alta percentuale di studenti non di madrelingua tendono ad avere non solo bassi punteggi nei test, ma anche un alto rapporto studenti-insegnanti. Se la frazione di studenti non di madrelingua è omessa dalla regressione, si stima che una riduzione nel rapporto studenti-insegnanti abbia un effetto maggiore sui punteggi del test, ma questa stima riflette sia l’effetto di una variazione nel rapporto studenti-insegnanti sia l’effetto omesso di avere nel distretto un minor numero di studenti non di madrelingua. Abbiamo raggiunto la stessa conclusione cioè che esiste distorsione da variabile omessa nella relazione tra punteggi nei test e rapporto studenti-insegnanti seguendo due strade diverse: l’approccio tabulare del dividere i dati in due gruppi (sezione 5.1) e l’approccio della regressione multipla (equazione (5.10)). Tra i due metodi, la regressione multipla ha due importanti vantaggi. In primo luogo, essa fornisce una stima quantitativa dell’effetto di un decremento unitario nel rapporto studenti-insegnanti, che è quello di cui ha bisogno il provveditore per prendere la sua decisione. In secondo luogo, essa si adatta facilmente al caso di 154 i i i i i i “generale” — 2005/7/10 — 22:25 — page 155 — #185 i i 5.4. Le assunzioni dei minimi quadrati più di due regressori, e quindi può essere usata per tener conto di altri fattori misurabili, in aggiunta alla percentuale di studenti non di madrelingua inglese. Il resto di questo capitolo è dedicato alla comprensione e all’uso degli OLS nel modello di regressione multipla. La maggior parte di quanto appreso circa lo stimatore OLS con un singolo regressore si estende alla regressione multipla con poche o senza alcuna modifica, e quindi ci concentreremo sulle novità presentate dalla regressione multipla. Cominciamo estendendo le assunzioni dei minimi quadrati al modello di regressione multipla. 5.4 Le assunzioni dei minimi quadrati per la regressione multipla Ci sono quattro assunzioni degli OLS per il modello di regressione multipla. Le prime tre sono quelle della sezione 4.3 per il modello di regressione univariata (concetto chiave 4.3), adattate al fine di consentire una molteplicità dei regressori e che saranno discusse solo brevemente. La quarta assunzione è nuova e sarà discussa in maggiore dettaglio. Assunzione 1: la distribuzione condizionata di ui date X1i , X2i , . . . , Xki ha media nulla La prima assunzione è che la distribuzione condizionata di ui date X1i , X2i , . . . , Xki abbia media nulla. Questa assunzione estende al caso di più regressori la prima assunzione dei minimi quadrati con un singolo regressore. Questa assunzione implica che Y i talvolta è al di sopra della retta di regressione della popolazione e talvolta al di sotto, ma che in media giace su tale retta. Quindi, per ogni valore dei regressori, il valore atteso di u i è pari a zero. Come nel caso della regressione con un singolo regressore, questa è l’assunzione chiave che rende non distorto lo stimatore OLS. Ritorneremo alla distorsione da variabile omessa nella sezione 5.11. Assunzione 2: (X1i , X2i , . . . , Xki , Yi ), con i = 1, . . . , n, sono i.i.d. La seconda assunzione è che (X1i , X2i , . . . , Xki , Yi ), con i = 1, . . . , n, siano variabili casuali indipendentemente e identicamente distribuite (i.i.d.). Essa vale automaticamente se i dati sono raccolti attraverso un campionamento casuale semplice. I commenti su questa assunzione che appaiono nella sezione 4.3 relativamente a un singolo regressore valgono anche nel caso di più regressori. 155 i i i i i i “generale” — 2005/7/10 — 22:25 — page 156 — #186 i i 5.4. Le assunzioni dei minimi quadrati Assunzione 3: X1i , X2i , . . . , Xki e ui hanno quattro momenti La terza assunzione è che X1i , X2i , . . . , Xki e ui abbiano quattro momenti. Come la terza assunzione del modello con un singolo regressore, essa serve a limitare la possibilità di osservare valori estremamente elevati di X1i , X2i , . . . , Xki o ui . Questa assunzione è una condizione tecnica usata nelle prove delle proprietà delle statistiche degli OLS in grandi campioni. Assunzione 4: collinearità non perfetta La quarta assunzione è la novità del modello di regressione multipla. Essa elimina una situazione poco gradevole, chiamata collinearità perfetta, nella quale è impossibile calcolare lo stimatore OLS. Si dice che i regressori sono perfettamente collineari (o che mostrano collinearità perfetta) se uno dei regressori è una funzione lineare esatta degli altri. La quarta assunzione dei minimi quadrati è che i regressori non siano perfettamente collineari. Per illustrare cosa sia la collinearità perfetta e mostrare perché costituisca un problema, consideriamo tre esempi di regressioni in cui un terzo regressore è aggiunto alla regressione dei punteggi sul rapporto studenti-insegnanti e la percentuale di studenti non di madrelingua (5.10). Esempio 1: frazione di studenti non di madrelingua inglese. Sia F racELi la frazione di studenti non di madrelingua nel distretto i-esimo, che varia tra zero e uno. Se la variabile F racELi fosse aggiunta come terzo regressore a ST Ri e P ctELi , i regressori sarebbero perfettamente collineari. La ragione è che P ctEL è la percentuale di studenti non di madrelingua, cosicché P ctELi = 100 × F racELi per ciascun distretto. Uno dei regressori (P ctELi ) può essere allora scritto come una funzione lineare esatta di un altro regressore (F racELi ). A causa di questa perfetta collinearità, è impossibile calcolare le stime degli OLS della regressione di T estScorei su ST Ri , P ctELi e F racELi . A seconda di come il pacchetto informatico usato tratta la multicollinearità, quando si cerca di stimare questa regressione, il pacchetto informatico farà una di queste tre cose: eliminerà una delle variabili (operando la scelta di quale cancellare in maniera arbitraria); si rifiuterà di calcolare le stime OLS, mostrando un messaggio di errore; oppure si bloccherà. La ragione matematica è che la collinearità perfetta fa sı̀ che le formule degli OLS abbiano divisori nulli. A livello intuitivo, la ragione matematica per cui la collinearità perfetta è un problema è che si sta chiedendo alla regressione di rispondere a una domanda illogica. Si ricordi che il coefficiente di P ctELi è l’effetto sui punteggi del test di una variazione unitaria di P ctEL, lasciando costanti le altre variabili. Se una delle altre variabili è F racEL, ci si chiede: qual è l’effetto di una variazione unitaria nella percentuale di studenti non di madrelingua, tenendo costante la frazione di studenti non di madrelingua? Poiché la percentuale di studenti non 156 i i i i i i “generale” — 2005/7/10 — 22:25 — page 157 — #187 i i 5.4. Le assunzioni dei minimi quadrati di madrelingua e la frazione di studenti non di madrelingua variano insieme in una relazione lineare perfetta, questa domanda non ha senso e gli OLS non possono darvi alcuna risposta. Esempio 2: classi “non troppo piccole”. Sia N V Si una variabile binaria che è uguale a uno se il rapporto studenti-insegnanti nell’i-esimo distretto è “non troppo piccolo”; nello specifico, N V Si è uguale a uno se ST Ri ≥ 12 e zero altrimenti. Anche questa regressione mostra collinearità perfetta, ma per una ragione più sottile rispetto alla regressione nell’esempio precedente. Non ci sono, infatti, distretti nei nostri dati con ST Ri < 12; come si può vedere nel grafico a nuvola della figura 4.2, il valore più piccolo di ST R è 14. Allora, N V S i = 1 per tutte le osservazioni. Ora si ricordi che un modello di regressione lineare con intercetta può equivalentemente essere pensato come se si includesse un regressore, X 0i , che è uguale a uno per tutte le i, come mostrato nella (5.6). Cosı̀, possiamo scrivere N V S i = 1 × X0i per tutte le osservazioni del nostro insieme di dati; perciò, N V Si può essere scritto come una combinazione lineare perfetta dei regressori; nello specifico, è uguale a X 0i . Questo illustra due concetti importanti relativi alla perfetta collinearità. In primo luogo, quando la regressione include un’intercetta, uno dei regressori che può essere implicato nella collinearità perfetta è il regressore “costante” X0i . In secondo luogo, la collinearità perfetta è una caratteristica dell’insieme di dati che si ha a disposizione. Mentre è possibile immaginare un distretto scolastico con meno di 12 studenti per insegnante, non sono presenti distretti simili nei dati disponibili, e quindi non possiamo analizzarli nella nostra regressione. Esempio 3: percentuale di studenti di madrelingua inglese. Sia P ctESi la percentuale di “madrelingua inglesi” nell’i-esimo distretto definita come la percentuale di studenti che sono di madrelingua inglese. Nuovamente, i regressori saranno perfettamente multicollineari. Come nell’esempio precedente, la relazione lineare perfetta tra i regressori coinvolge il regressore “costante” X0i : per tutti i distretti, P ctESi = 100 × X0i − P ctELi . Questo esempio illustra un altro punto: la collinearità perfetta è una caratteristica dell’intero insieme dei regressori. Se l’intercetta (i.e., il regressore X0i ) o P ctESi fossero esclusi dalla regressione, i regressori non sarebbero perfettamente multicollineari. Soluzioni alla collinearità perfetta. La collinearità perfetta si verifica tipicamente quando è stato commesso un errore nella specificazione della regressione. Talvolta l’errore è facile da individuare (come nel primo esempio), ma talvolta non lo è (come nel secondo esempio). In un modo o nell’altro il pacchetto statistico indicherà se si sta commettendo tale errore, perché non è in grado di calcolare lo stimatore OLS. Quando il pacchetto statistico individua la collinearità perfetta, per eliminarla è importante modificare la regressione. Alcuni pacchetti sono inaffidabili nel caso di collinearità perfetta e, come minimo, sarete costretti a cedere il controllo della scelta dei regressori al 157 i i i i i i “generale” — 2005/7/10 — 22:25 — page 158 — #188 i i 5.5. La distribuzione degli stimatori OLS nella regressione multipla Concetto chiave 5.4: le assunzioni dei minimi quadrati relative al modello di regressione multipla Yi = β0 + β1 X1i + β2 X2i + . . . + βk Xki + ui , con i = 1, . . . , n, dove: 1. ui ha media condizionata E(ui X1i , X2i , . . . , Xki ) = 0; nulla, date X1i , X2i , . . . , Xki , ovvero 2. (X1i , . . . , Xki , Yi ), con i = 1, . . . , n, sono estratti indipendentemente e indenticamente distribuiti (i.i.d.) dalla propria distribuzione congiunta; 3. (X1i , . . . , Xki , ui ) hanno momenti quarti finiti e non nulli; 4. non vi è collinearità perfetta. vostro computer. Collinearità imperfetta. A dispetto del nome simile, la collinearità imperfetta è concettualmente molto diversa rispetto alla collinearità perfetta. Collinearità imperfetta significa che due o più regressori sono altamente correlati, nel senso che esiste una funzione lineare dei regressori che è altamente correlata con un altro regressore. La collinearità imperfetta non pone alcun problema per la teoria degli stimatori degli OLS; infatti, uno degli scopi degli OLS è quello di separare le influenze indipendenti dei vari regressori quando questi sono potenzialmente correlati. Le assunzioni dei minimi quadrati per il modello di regressione multipla sono riassunte nel concetto chiave 5.4. 5.5 La distribuzione degli stimatori OLS nella regressione multipla Poiché i dati differiscono da un campione a un altro, campioni differenti producono valori diversi degli stimatori OLS. Questa variazione tra i possibili campioni genera l’incertezza associata con gli stimatori OLS dei coefficienti di regressione della popolazione β 0 , β1 , . . . , βk . Come nel caso della regressione con un singolo regressore, questa variazione è sintetizzata nella distribuzione campionaria degli stimatori OLS. Ricordiamo dalla sezione 4.4 che, sotto le assunzioni dei minimi quadrati, gli stimatori OLS (β̂0 e β̂1 ) sono stimatori non distorti e consistenti dei coefficienti ignoti (β0 e β1 ) del modello di regressione lineare con un singolo coefficiente. In aggiunta, per grandi campioni, 158 i i i i i i “generale” — 2005/7/10 — 22:25 — page 159 — #189 i i 5.5. La distribuzione degli stimatori OLS nella regressione multipla la distribuzione campionaria di β̂0 e β̂1 è ben approssimata da una distribuzione normale bivariata. Questi risultati si estendono al caso della regressione multipla. In altre parole, sotto le assunzioni dei minimi quadrati riportate nel concetto chiave 5.4, gli stimatori OLS β̂0 , β̂1 , . . . , β̂k sono stimatori non distorti e consistenti di β0 , β1 , . . . , βk nel modello di regressione lineare multipla. Per grandi campioni, la distribuzione campionaria congiunta di β̂0 , β̂1 , . . . , β̂k è ben approssimata da una distribuzione normale multivariata, che è l’estensione della distribuzione normale bivariata al caso generale di due o più variabili congiuntamente normali (sezione 2.4). Sebbene in presenza di regressori multipli l’algebra sia più complicata, il teorema limite centrale si applica agli stimatori OLS nel modello di regressione multipla per la stessa ragione per cui si applica alla media campionaria Ȳ e agli stimatori OLS quando c’è un singolo regressore: gli stimatori OLS β̂0 , β̂1 , . . . , β̂k sono medie di dati campionati casualmente e, se la dimensione campionaria è sufficientemente grande, la distribuzione campionaria di quelle medie diviene normale. Poiché la distribuzione normale multivariata può essere trattata più agevolmente con l’algebra matriciale, le espressioni per la distribuzione congiunta degli stimatori OLS sono rinviate al capitolo 16. Il concetto chiave 5.5 riassume il risultato che, per grandi campioni, la distribuzione degli stimatori OLS nella regressione multipla è approssimativamente normale multivariata. In generale, gli stimatori OLS sono correlati; questa correlazione deriva dalla correlazione tra i regressori. La distribuzione campionaria congiunta degli stimatori OLS è discussa in maggiore dettaglio nell’appendice 5.2 per il caso in cui ci siano due regressori ed errori omoschedastici, il caso generale è discusso invece nella sezione 16.2. Gli errori standard degli stimatori OLS Si ricordi che, nel caso di un singolo regressore, è stato possibile stimare la varianza degli stimatori OLS sostituendo le medie campionarie alle aspettative, il che ha portato allo stimatore σ̂β̂2 nella (4.19). Sotto le assunzioni dei minimi quadrati, la legge dei grandi numeri 1 implica che queste medie campionarie convergano alle corrispondenti medie della popolaziop ne, e quindi per esempio σ̂β̂2 /σβ̂2 → 1. La radice quadrata di σ̂β̂2 è l’errore standard di β̂1 , 1 1 1 SE(β̂1 ), uno stimatore della deviazione standard della distribuzione campionaria di β̂1 . Tutto ciò si estende direttamente alla regressione multipla. Lo stimatore OLS del j-esimo coefficiente di regressione β̂j ha una deviazione standard, che è stimata tramite il suo errore standard, SE(β̂j ). La formula dell’errore standard è espressa più facilmente in termini matriciali, per questo motivo è riportata nella sezione 16.2. Il punto importante è che, per quanto riguarda gli errori standard, non c’è niente di concettualmente diverso tra il caso di un singolo regressore e quello di regressori multipli. Le idee chiave –la normalità in grandi campioni 159 i i i i i i “generale” — 2005/7/10 — 22:25 — page 160 — #190 i i 5.6. Verifica di ipotesi e intervalli di confidenza per un singolo coefficiente Concetto chiave 5.5: la distribuzione di β̂0 , β̂1 , . . . , β̂k in grandi campioni Se valgono le assunzioni dei minimi quadrati (concetto chiave 5.4), gli stimatori OLS β̂0 , β̂1 , . . . , β̂k sono, in grandi campioni, congiuntamente distribuiti secondo una normale e ogni β̂j si distribuisce secondo una N (βj , σβ̂2 ), con j = 0, . . . , k. j degli stimatori e la capacità di stimare consistentemente la deviazione standard della loro distribuzione campionaria– sono le stesse sia che si abbiano uno, due o 12 regressori. 5.6 Verifica di ipotesi e intervalli di confidenza per un singolo coefficiente Questa sezione descrive come verificare le ipotesi e costruire intervalli di confidenza per un singolo coefficiente in una regressione multipla. La verifica di ipotesi su un singolo coefficiente Supponiamo di voler verificare l’ipotesi che una variazione nel rapporto studenti-insegnanti non abbia alcun effetto sui punteggi del test, tenendo costante la percentuale di studenti non di madrelingua nel distretto. Questo corrisponde all’ipotesi che il vero coefficiente β 1 relativo al rapporto studenti-insegnanti sia nullo nella regressione dei punteggi del test su ST R e P ctEL. Più in generale, potremmo voler verificare l’ipotesi che il vero coefficiente β j del j-esimo regressore assuma un qualche valore specifico βj,0 . Il valore dell’ipotesi nulla βj,0 deriva dalla teoria economica oppure, come nell’esempio del rapporto studenti-insegnanti, dal contesto decisionale a cui si riferisce l’applicazione. Se l’ipotesi alternativa è bilaterale, allora le due ipotesi possono essere espresse matematicamente come H0 : βj = βj,0 contro H1 : βj 6= βj,0 (alternativa bilaterale). (5.13) Ad esempio, se il primo regressore è ST R, allora l’ipotesi nulla che una variazione nel rapporto studenti-insegnati non abbia alcun effetto sulla dimensione delle classi corrisponde all’ipotesi nulla che β1 = 0 (perciò β1,0 = 0). Il nostro compito è verificare l’ipotesi nulla H0 contro l’alternativa H1 utilizzando un campione di dati. Il concetto chiave 4.6 offre una procedura per verificare questa ipotesi nulla quando c’è un singolo regressore. Il primo passo di questa procedura è quello di calcolare l’errore standard del coefficiente. Il secondo passo è quello di calcolare la statistica t usando la formula generale del concetto chiave 4.5. Il terzo passo è quello di calcolare il valore-p del test usando 160 i i i i i i “generale” — 2005/7/10 — 22:25 — page 161 — #191 i i 5.6. Verifica di ipotesi e intervalli di confidenza per un singolo coefficiente Concetto chiave 5.6: la verifica dell’ipotesi βj = βj,0 contro l’alternativa βj 6= βj,0 1. Si calcoli l’errore standardizzato di β̂j , SE(β̂j ). 2. Si calcoli la statistica t, t= β̂j − βj,0 SE(β̂j ) . (5.14) 3. Si calcoli il valore-p, valore-p = 2Φ(− tact ), (5.15) dove tact è il valore effettivamente calcolato della statistica t. Si rifiuti l’ipotesi al livello di significatività 5%, se il valore-p è minore di 0, 05 oppure, equivalentemente, se |tact | > 1, 96. L’errore standard e (tipicamente) la statistica t e il valore-p per l’ipotesi nulla che βj = 0 sono calcolati automaticaticamente dai software di regressione. la funzione di ripartizione normale nella tavola 1 dell’appendice finale o, alternativamente, confrontare la statistica t con il valore critico corrispondente al livello di significatività desiderato del test. Il fondamento teorico di questa procedura è il fatto che, in grandi campioni, lo stimatore OLS ha una distribuzione normale la cui media, sotto l’ipotesi nulla, è pari al valore ipotizzato e la cui variazione può essere stimata consistentemente. Questo fondamento teorico è presente anche nel caso della regressione multipla. Come affermato nel concetto chiave 5.5, la distribuzione campionaria di β̂j è approssimativamente normale. Sotto l’ipotesi nulla, la media di questa distribuzione è β j,0 . La varianza di questa distribuzione può essere stimata in modo consistente. Perciò, per verificare l’ipotesi nulla (5.13), possiamo semplicemente seguire la stessa procedura del caso di un singolo regressore. La procedura per verificare un’ipotesi su un singolo coefficiente nella regressione multipla è riassunta nel concetto chiave 5.6. La statistica t effettivamente calcolata è indicata nel concetto chiave con tact . Tuttavia, è uso comune indicarla semplicemente con t e adotteremo questa notazione più snella nel resto della trattazione. Gli intervalli di confidenza per un singolo coefficiente Il metodo per costruire un intervallo di confidenza per il modello di regressione multipla è anch’esso quello per il modello con un singolo regressore. Questo metodo è riassunto nel concetto chiave 5.7. Il metodo per condurre un test d’ipotesi nel concetto chiave 5.6 e quello per costruire 161 i i i i i i “generale” — 2005/7/10 — 22:25 — page 162 — #192 i i 5.6. Verifica di ipotesi e intervalli di confidenza per un singolo coefficiente un intervallo di confidenza nel concetto chiave 5.7 si fondano sull’approssimazione normale della distribuzione dello stimatore OLS β̂j valida per grandi campioni. Di conseguenza, occorre sempre ricordare che questi metodi per quantificare l’incertezza campionaria danno garanzia di funzionamento solo in grandi campioni. Applicazione ai punteggi del test e al rapporto studenti-insegnanti Possiamo rifiutare l’ipotesi nulla che una variazione nel numero di studenti per insegnante non abbia alcun effetto sui punteggi del test, dopo aver controllato la percentuale di studenti non di madrelingua inglese nel distretto? Qual è l’intervallo di confidenza di livello 95% per l’effetto sui punteggi del test di una variazione nel rapporto studenti-insegnanti, controllando per la percentuale di studenti non di madrelingua inglese? Siamo ora in grado di scoprirlo. La regressione dei punteggi su ST R e P ctEL, stimata tramite gli OLS e riportata nella (5.10), è riproposta qui con gli errori standard in parentesi sotto i coefficienti: d T estScore = 686, 0 − 1, 10 × ST R − 0, 650 × P ctEL. (8, 7) (0, 43) (0, 031) (5.16) Per verificare l’ipotesi nulla che il vero coefficiente di ST R sia uguale a 0, dobbiamo prima calcolare la statistica t secondo la (5.14). Poiché l’ipotesi nulla dice che il vero valore di questo coefficiente è zero, la statistica t è t = (−1, 10 − 0)/0, 43 = −2, 54. Il valorep relativo è 2Φ(−2, 54) = 1, 1%; cioè, il minor livello di significatività al quale possiamo rifiutare l’ipotesi nulla è 1, 1%. Siccome il valore-p è minore di 5%, l’ipotesi nulla può essere rifiutata al livello di significatività 5% (ma non al livello di significatività 1%). Un intervallo di confidenza di livello 95% per il coefficiente di ST R relativo alla popolazione è −1, 10 ± 1, 96 × 0, 43 = (−1, 95, −0, 26); cioè, possiamo essere confidenti al 95% che il vero valore del coefficiente si situa tra −1, 95 e −0, 26. Interpretato tenendo conto dell’interesse del provveditore a diminuire di 2 unità il numero di studenti per insegnante, l’intervallo di confidenza di livello 95% per l’effetto sul punteggio del test di tale riduzione è (−1, 95 × 2, −0, 26 × 2) = (−3, 90, −0, 52). Aggiunta delle spese per studente all’equazione. La nostra analisi della regressione multipla (5.16) ha persuaso il provveditore che, in base all’evidenza disponibile, la riduzione nella dimensione delle classi aiuterà i punteggi del suo distretto. Ora, tuttavia, questi pone una domanda più articolata. Se deve assumere più insegnanti, può pagarli attraverso tagli nel bilancio (nessun computer nuovo, manutenzione ridotta ecc.) o è necessario un aumento dello stanziamento di bilancio, cosa che i contribuenti non gradiscono? Qual è, domanda, l’effetto sui punteggi di una riduzione del rapporto studenti-insegnanti, tenendo costanti le spese per studente (e la percentuale di studenti non di madrelingua inglese)? 162 i i i i i i “generale” — 2005/7/10 — 22:25 — page 163 — #193 i i 5.6. Verifica di ipotesi e intervalli di confidenza per un singolo coefficiente Concetto chiave 5.7: gli intervalli di confidenza per un singolo regressore nel modello di regressione multipla Un intervallo di confidenza bilaterale di livello 95% per il coefficiente β j è un intervallo che contiene il valore vero di βj con probabilità 95%; in altre parole, esso contiene il vero valore di βj nel 95% di tutti i campioni che è possibile estrarre. Equivalentemente, è anche l’insieme di valori di βj che non possono essere rifiutati da un test d’ipotesi bilaterale al 5%. Quando il campione è grande, l’intervallo di confidenza di livello 95% è: βj = β̂j − 1, 96 SE(β̂j ), β̂j + 1, 96 SE(β̂j ) . (5.17) Un intervallo di confidenza di livello 90% si ottiene sostituendo 1, 96 con 1, 645 nella 5.17. Questa domanda può trovare riposta tramite una regressione dei punteggi del test sul rapporto studenti-insegnanti, la spesa totale per studente e la percentuale di studenti non di madrelingua. La retta di regressione degli OLS è d T estScore = 649, 6 − 0, 29 × ST R + 3, 87 × Expn − 0, 656 × P ctEL, (5.18) (15, 5) (0, 48) (1, 59) (0, 032) dove Expn è la spesa annua totale per studente nel distretto in migliaia di dollari. Il risultato è sorprendente. Tenendo costante la spesa per studente e la percentuale di studenti non di madrelingua, la variazione nel rapporto studenti-insegnanti ha un effetto ridottissimo sui punteggi: il coefficiente stimato di ST R è −1, 10 nella (5.16), ma, dopo aver raggiunto Expn come regressore nella (5.18), è solo −0, 29. Inoltre, la statistica t per la significatività del coefficiente è ora t = (−0, 29 − 0)/0, 48 = −0, 60, cosı̀ l’ipotesi che questo coefficiente sia, invece, pari a zero non può essere rifiutata neanche al livello di significatività 10% (|−0, 60| < 1, 645). La (5.18) non fornisce quindi alcuna evidenza del fatto che assumere più insegnanti faccia aumentare i punteggi del test, se la spesa totale per studente è tenuta costante. Si noti che l’errore standard di ST R è cresciuto dopo aver aggiunto Expn da 0, 43 nella (5.16) a 0, 48 nella (5.18). Ciò illustra il risultato generale per cui la correlazione tra i regressori (la correlazione tra ST R e Expn è −0, 62) può rendere meno precisi gli stimatori OLS (vedi l’appendice 5.2 per ulteriori discussioni). E il nostro contribuente alterato? Egli sostiene che sia il coefficiente del rapporto studentiinsegnanti (β1 ) sia quello delle spese per gli studenti (β2 ) sono nulli, egli ipotizza cioè che β1 = 0 e β2 = 0. Sebbene possa sembrare possibile rifiutare tale ipotesi, perché la statistica t per la verifica di β2 = 0 nella (5.18) è t = 3, 87/1, 59 = 2, 43, questo ragionamento è 163 i i i i i i “generale” — 2005/7/10 — 22:25 — page 164 — #194 i i 5.7. Verifica di ipotesi congiunte viziato. L’ipotesi del contribuente è un’ipotesi congiunta e per verificarla occorre un nuovo strumento, la statistica F. 5.7 Verifica di ipotesi congiunte Questa sezione descrive come formulare ipotesi congiunte circa i coefficienti di una regressione multipla e come verificarle tramite una statistica F. Verifica di ipotesi su due o più coefficienti Ipotesi nulle congiunte. Si consideri la regressione (5.18) dei punteggi sul rapporto studentiinsegnanti, la spesa per studente e la percentuale di studenti non di madrelingua inglese. Il nostro contribuente alterato ipotizza che né il rapporto studenti-insegnanti né la spesa per studente abbiano alcun effetto sui punteggi, dopo aver controllato per la percentuale di studenti non di madrelingua inglese. Poiché ST R è il primo regressore della (5.18) e Expn è il secondo, possiamo esprimere queste ipotesi in termini matematici come H0 : β1 = 0 e β2 = 0 contro H1 : β1 6= 0 e/o β2 6= 0. (5.19) L’ipotesi che sia il coefficiente del rapporto studenti-insegnanti (β1 ) sia il coefficiente relativo alla spesa per studente (β2 ) siano nulli è un esempio di ipotesi congiunta circa i coefficienti del modello di regressione multipla. In questo caso, l’ipotesi nulla pone restrizioni sul valore di due coefficienti, e quindi possiamo dire che l’ipotesi nulla (5.19) impone due restrizioni al modello di regressione multipla: β1 = 0 e β2 = 0. In generale, un’ipotesi congiunta è un’ipotesi che impone due o più restrizioni sui coefficienti di regressione. Noi considereremo ipotesi congiunte nulla e alternativa del tipo H0 : βj = βj,0 , βm = βm,0 ecc., per un totale di q restrizioni, contro H1 : una o più delle q restrizioni in H0 non vale, (5.20) dove βj , βm ecc. si riferiscono a coefficienti di regressione diversi e βj,0 , βm,0 ecc. si riferiscono ai valori di questi coefficienti sotto l’ipotesi nulla. L’ipotesi nulla (5.19) è un caso particolare della (5.20). Un altro esempio di ipotesi nulla, in una regressione con k = 6 regressori, è che i coefficienti del secondo, quarto e quinto regressore siano pari a zero; cioè β2 = 0, β4 = 0 e β5 = 0, cosicché le restrizioni siano q = 3. In generale, sotto l’ipotesi nulla H0 , ci sono q restrizioni di questo tipo. Se una (o più di una) delle uguaglianze sotto l’ipotesi nulla H0 nella (5.20) è falsa, allora l’ipotesi nulla congiunta è falsa. Perciò, l’ipotesi alternativa è che non vale almeno una delle uguaglianze dell’ipotesi nulla H0 . 164 i i i i i i “generale” — 2005/7/10 — 22:25 — page 165 — #195 i i 5.7. Verifica di ipotesi congiunte Perché non sottoporre a verifica i coefficienti singolarmente? Sebbene sembri possibile verificare un’ipotesi congiunta usando la solita statistica t per i singoli coefficienti, il calcolo seguente mostra che questo approccio è inaffidabile. Nello specifico, supponiamo di voler verificare l’ipotesi nulla congiunta che β1 = 0 e β2 = 0 nella (5.18). Sia t1 la statistica t per l’ipotesi nulla che β1 = 0 e sia t2 la statistica t per l’ipotesi nulla che β2 = 0. Cosa accade quando si usa la procedura di verifica “coefficiente per coefficiente”, si rifiuta cioè l’ipotesi nulla congiunta se t1 oppure t2 è maggiore di 1, 96 in valore assoluto? Siccome questa domanda riguarda le due variabili casuali t1 e t2 , rispondervi richiede di caratterizzare la distribuzione campionaria congiunta di t1 e t2 . Come menzionato nella sezione 5.5, in grandi campioni β̂1 e β̂2 hanno una distribuzione congiunta normale, e quindi, sotto l’ipotesi nulla congiunta, le statistiche t1 e t2 hanno una distribuzione normale bivariata, dove ogni statistica t ha media 0 e varianza unitaria. Per prima cosa, consideriamo il caso speciale in cui le statistiche t sono incorrelate e quindi indipendenti. Qual è il livello minimo della procedura di verifica “coefficiente per coefficiente”, ovvero qual è la probabilità di rifiutare l’ipotesi nulla quando questa è vera? Più del 5%! In questo caso speciale, possiamo calcolare con esattezza la probabilità di rifiuto di questo metodo. La nulla non è rifiutata solo se |t1 | ≤ 1, 96 e |t2 | ≤ 1, 96. Poiché le statistiche t sono indipendenti, Pr(|t1 | ≤ 1, 96 e |t2 | ≤ 1, 96) = Pr(|t1 | ≤ 1, 96) × Pr(|t2 | ≤ 1, 96) = 0, 952 = 0, 9025 = 90, 25%. Perciò, la probabilità di rifiutare l’ipotesi nulla quando essa è vera è 1 − 0, 952 = 9, 75%. Il metodo “coefficiente per coefficiente” rifiuta la nulla troppo spesso perché offre troppe possibilità per farlo: se non si rifiuta usando la prima statistica t, potete provare ancora usando la seconda. Se i regressori sono correlati, la situazione è ancora più complicata. Il livello minimo della procedura “coefficiente per coefficiente” dipende dal valore della correlazione tra i regressori. Poiché l’approccio alla verifica “coefficiente per coefficiente” ha il livello minimo errato – ovvero il suo tasso di rifiuto sotto l’ipotesi nulla non è uguale al livello di significatività desiderato– è necessario un nuovo approccio. Un approccio possibile è quello di modificare il metodo “coefficiente per coefficiente” usando valori critici che assicurino uguaglianza tra il livello minimo del test e il livello di significatività desiderato. Questo metodo, detto metodo di Bonferroni, è descritto nell’appendice 5.3. Il vantaggio del metodo di Bonferroni è che ha una vasta applicabilità. Il suo svantaggio è che può avere scarsa potenza: frequentemente non riesce a rifiutare l’ipotesi nulla, quando in realtà, è vera l’alternativa. Fortunatamente, c’è un altro approccio per verificare le ipotesi congiunte che ha potenza maggiore, specialmente quando i regressori sono altamente correlati. Tale approccio è basato sulla statistica F. 165 i i i i i i “generale” — 2005/7/10 — 22:25 — page 166 — #196 i i 5.7. Verifica di ipotesi congiunte La statistica F La statistica F è usata per verificare ipotesi congiunte sui coefficienti di regressione. Le formule per la statistica F sono integrate nei moderni pacchetti di regressione. Cominciamo col discutere il caso di due restrizioni, per poi passare al caso generale di q restrizioni. La statistica F con q = 2 restrizioni. Quando l’ipotesi nulla contiene le due restrizioni β1 = 0 e β2 = 0, la statistica F combina le due statistiche t, cioè t1 e t2 , tramite la formula 1 t21 + t22 − 2ρ̂t1 ,t2 t1 t2 , (5.21) F = 2 1 − ρ̂2t1 ,t2 dove ρ̂2t1 ,t2 è uno stimatore della correlazione tra le due statistiche t. Per comprendere la statistica (5.21), cominciamo supponendo che le statistiche t siano incorrelate, eliminando cosı̀ i termini che coinvolgono ρ̂2t1 ,t2 . In questo caso, la (5.21) si semplifica in F = 12 (t21 +t22 ), e quindi la statistica F è la media dei quadrati delle statistiche t. Sotto l’ipotesi nulla, t1 e t2 sono variabili casuali normali standardizzate indipendenti (perché le statistiche t sono assunte incorrelate), e quindi sotto l’ipotesi nulla la F si distribuisce secondo una F2,∞ (sezione 2.4). Sotto l’ipotesi alternativa che β1 o β2 (o entrambi) siano non nulli, t21 o t22 (o entrambe) sarebbero elevate, portando il test a rifiutare l’ipotesi nulla. In generale, le statistiche t sono correlate e la formula per la statistica F (5.21) tiene conto di tale correlazione. L’aggiustamento è tale che, sotto l’ipotesi nulla, la statistica F abbia distribuzione F2,∞ in grandi campioni, sia che le statistiche t siano correlate o meno. La statistica F con q restrizioni. La formula della statistica F per verificare le q restrizioni dell’ipotesi nulla congiunta (5.20) è riportata nella sezione 16.3. Tale formula è incorporata nei pacchetti di regressione, il che rende la statistica F facile da calcolare nelle applicazioni pratiche. Sotto l’ipotesi nulla, la statistica F ha una distribuzione campionaria che, per grandi campioni, è ben approssimata dalla Fq,∞ . In grandi campioni, cioè, sotto l’ipotesi nulla la statistica F si distribuisce secondo una Fq,∞ . (5.22) Perciò, i valori critici per la statistica F possono essere ottenuti dalla distribuzione F q,∞ della tavola 4 dell’appendice finale, dato il valore di q appropriato e il livello di significatività desiderato. Calcolo del valore-p usando la statistica F. Il valore-p della statistica F può essere calcolato usando l’approssimazione per grandi campioni fornita dalla distribuzione chi-quadrato. Sia F act il valore effettivamente calcolato della statistica F. Poiché la statistica F ha una distribuzione Fq,∞ , in grandi campioni, sotto l’ipotesi nulla il valore-p è valore-p = Pr[Fq,∞ > F act ]. (5.23) 166 i i i i i i “generale” — 2005/7/10 — 22:25 — page 167 — #197 i i 5.7. Verifica di ipotesi congiunte Il valore-p nella (5.23) può essere calcolato usando una tavola della distribuzione F q,∞ (o, alternativamente, una tavola della distribuzione χ2q , perché una variabile casuale distribuita secondo una χ2q è pari a q volte una variabile casuale distribuita secondo una Fq,∞ ). In alternativa, il valore-p può essere valutato usando un computer, perché le formule per le funzioni di ripartizione chi-quadrato e F sono state incluse nei più moderni pacchetti statistici. La statistica F per l’“intera” regressione. La statistica F per l’“intera” regressione verifica l’ipotesi congiunta che tutti i coefficienti tranne l’intercetta siano nulli. Per questo motivo, le ipotesi nulla e alternativa sono H0 : β1 = 0, β2 = 0, . . . , βk = 0 contro H1 : βj 6= 0, per almeno un j, con j = 1, . . . , k. (5.24) Sotto questa ipotesi nulla, nessuno dei regressori spiega alcunché della variazione in Y i , sebbene l’intercetta (che sotto l’ipotesi nulla è la media di Yi ) possa essere non nulla. L’ipotesi nulla nella (5.24) è un caso particolare dell’ipotesi nulla generale nella (5.20) e la statistica F per l’intera regressione è la statistica F calcolata per l’ipotesi nulla nella (5.24). In grandi campioni, la statistica F dell’intera regressione ha distribuzione Fk,∞ . La statistica F quando q = 1. Quando q = 1, la statistica F verifica una singola restrizione. L’ipotesi nulla congiunta si riduce allora all’ipotesi nulla su un singolo coefficiente di regressione e la statistica F è il quadrato della statistica t. Di nuovo sull’eteroschedasticità e l’omoschedasticità. Si ricordi dalla sezione 4.9 che, per ragioni storiche, i pacchetti statistici calcolano, talvolta automaticamente, errori standard classici ed è quindi necessario specificare che si vogliono invece errori standard robusti all’eteroschedasticità. Un problema simile vale anche per la statistica F: per essere sicuri di utilizzare errori standard robusti all’eteroschedasticità, in alcuni pacchetti di regressione bisogna selezionare l’opzione “robustezza”, in modo che le stime della “matrice di covarianze” siano robuste. Se si usa la versione classica della statistica F (discussa nell’appendice 5.3) ma gli errori sono eteroschedastici, la statistica F non avrà sotto l’ipotesi nulla la distribuzione Fq,∞ , producendo quindi inferenza statistica fuorviante. Applicazione ai punteggi del test e al rapporto studenti-insegnanti Siamo ora in grado di verificare l’ipotesi nulla che i coefficienti del rapporto studenti-insegnanti e della spesa per studente siano entrambi nulli, contro l’alternativa che almeno uno dei coefficienti sia non nullo, controllando al tempo stesso per la percentuale di studenti non di madrelingua inglese nel distretto. 167 i i i i i i “generale” — 2005/7/10 — 22:25 — page 168 — #198 i i 5.8. Verifica di restrizioni singole che coinvolgono coefficienti multipli Per verificare questa ipotesi, è necessario calcolare la statistica F del test per l’ipotesi che β1 = 0 e β2 = 0 nella regressione di T estScore su ST R, Expn e P ctEL (5.18). Questa statistica F è pari a 5, 43. Sotto l’ipotesi nulla, in grandi campioni tale statistica ha distribuzione F2,∞ in grandi campioni. Il valore critico al 5% della distribuzione F2,∞ è 3, 00 (tavola 4 dell’appendice finale) e il valore critico all’1% è 4, 61. Il valore della statistica F calcolata sui dati, pari a 5, 43, è maggiore di 4, 61, e quindi l’ipotesi può essere rifiutata al livello 1%. Sarebbe estremamente inverosimile aver estratto il campione che ha prodotto un valore della statistica F pari a 5, 43, se l’ipotesi nulla fosse effettivamente vera (il valore-p è 0, 005). Basandoci su questa evidenza, nella (5.18) possiamo rifiutare l’ipotesi del contribuente secondo cui né il rapporto studenti-insegnanti né la spesa per studente hanno effetto sui punteggi (tenendo costante la percentuale di studenti non di madrelingua inglese). 5.8 Verifica di restrizioni singole che coinvolgono coefficienti multipli Talvolta la teoria economica suggerisce una singola restrizione che coinvolge due o più coefficienti di regressione. Per esempio, la teoria potrebbe suggerire un’ipotesi nulla del tipo β1 = β2 , ovvero che il primo e il secondo regressore hanno lo stesso effetto. In questo caso, occorre verificare questa ipotesi nulla contro l’alternativa che i due coefficienti differiscano, ovvero H0 : β1 = β2 contro H1 : β1 6= β2 . (5.25) Questa ipotesi nulla ha una singola restrizione, ovvero q = 1, ma questa restrizione coinvolge più coefficienti (β1 e β2 ). È necessario modificare il metodo presentato finora per verificare questa ipotesi. Ci sono due approcci, e quale sia il più semplice dipende dal pacchetto statistico utilizzato. Approccio 1: verificare direttamente la restrizione. Alcuni pacchetti statistici hanno un comando specificamente concepito per verificare restrizioni come quella nella (5.25) e il risultato è una statistica F che, poiché q = 1, ha una distribuzione F 1,∞ sotto l’ipotesi nulla (si ricordi dalla sezione 2.4 che il quadrato di una variabile casuale normale standardizzata ha distribuzione F1,∞ e che il 95% percentile della distribuzione F1,∞ è 1, 962 = 3, 84). Approccio 2: trasformare la regressione. Se il nostro pacchetto statistico non può verificare la restrizione direttamente, l’ipotesi (5.25) può essere verificata riscrivendo l’equazione di regressione originale al fine di trasformare la restrizione nella (5.25) in una restrizione su un singolo coefficiente. Concretamente, supponiamo che ci siano solo due regressori, X 1i e X2i , 168 i i i i i i “generale” — 2005/7/10 — 22:25 — page 169 — #199 i i 5.9. Regioni di confidenza per coefficienti multipli e che la regressione nella popolazione sia Yi = β0 + β1 X1i + β2 X2i + ui . (5.26) Il trucco è questo: sottraendo e aggiungendo β2 X1i , si ottiene β1 X1i +β2 X2i = β1 X1i − β2 X1i +β2 X1i +β2 X2i = (β1 −β2 )X1i +β2 (X1i +X2i ) = γ1 X1i +β2 Wi , dove γ1 = β1 −β2 e Wi = X1i + X2i . Cosı̀, la regressione (5.26) può essere riscritta come Yi = β0 + γ1 X1i + β2 Wi + ui . (5.27) Poiché il coefficiente γ1 è pari a γ1 = β1 −β2 , sotto l’ipotesi nulla nella (5.25) γ1 = 0, mentre sotto l’alternativa γ1 6= 0. Quindi, trasformando la (5.26) nella (5.27), abbiamo trasformato una restrizione su due coefficienti di regressione in una restrizione su un singolo coefficiente di regressione. Poiché la restrizione coinvolge ora il solo coefficiente γ1 , l’ipotesi nulla nella (5.25) può essere verificata usando il metodo della statistica t descritto nella sezione 5.6. In pratica, si costruisce prima il nuovo regressore Wi come somma dei due regressori originari e poi si stima la regressione di Yi su X1i e Wi . Un intervallo di confidenza di livello 95% per la differenza tra i coefficienti β1 − β2 può essere calcolato come γ̂1 ± 1, 96 SE(γ̂1 ). Questo metodo può essere esteso ad altre restrizioni sulle equazioni di regressione, usando lo stesso trucco (si veda l’esercizio 5.8). I due metodi (gli approcci 1 e 2) sono equivalenti, nel senso che la statistica F del primo metodo è uguale alla statistica t del secondo. Estensione al caso di q > 1. In generale, è possibile avere q restrizioni sotto l’ipotesi nulla, di cui tutte o solo alcune coinvolgono più coefficienti. La statistica F della sezione 5.7 si estende a questo tipo di ipotesi congiunta. La statistica F può essere calcolata con ciascuno dei due approcci appena discussi per il caso q = 1. In pratica, l’approccio migliore dipende dal pacchetto di regressione che si usa. 5.9 Regioni di confidenza per coefficienti multipli Questa sezione spiega come costruire una regione di confidenza per due o più coefficienti di una regressione multipla. Il metodo è concettualmente simile al metodo esposto nella sezione 5.6 per la costruzione di intervalli di confidenza per un singolo coefficiente usando la statistica t, eccetto che la regione di confidenza per più coefficienti è basata sulla statistica F. Una regione di confidenza di livello 95% per due o più coefficienti è una regione che contiene i veri valori di questi coefficienti nel 95% dei campioni estratti casualmente dalla popolazione. Perciò, una regione di confidenza è la generalizzazione al caso di due o più coefficienti di un intervallo di confidenza per un singolo coefficiente. 169 i i i i i i “generale” — 2005/7/10 — 22:25 — page 170 — #200 i i 5.9. Regioni di confidenza per coefficienti multipli Figura 5.1: regione di confidenza al 95% per β1 e β2 β2 9 8 7 6 5 4 3 Regione di confidenza al 95% 2 1 0 -1 -2,0 -1,5 -1,0 -0,5 0,0 0,5 1,0 1,5 β1 La regione di confidenza al 95% per β1 e β2 è un’ellisse. L’ellisse contiene le coppie di valori di β1 e β2 che non possono essere rifiutate usando la statistica F al livello di significatività 5%. Si ricordi che un intervallo di confidenza al 95% si calcola trovando l’insieme dei valori dei coefficienti che non sono rifiutati da un test t al livello di significatività 5%. Questo approccio può essere esteso al caso di coefficienti multipli. In concreto, supponiamo di essere interessati alla costruzione di una regione di confidenza per i due coefficienti, β 1 e β2 . La sezione 5.7 ha mostrato come usare la statistica F per verificare l’ipotesi nulla congiunta che β1 = β1,0 e β2 = β2,0 . Supponiamo di dover verificare ogni possibile valore di β1,0 e β2,0 al livello 5%. Per ogni coppia di valori di prova (β1,0 , β2,0 ), costruiamo la statistica F e rifiutiamo se è maggiore di 3, 00, il valore critico al 5%. Poiché il test ha livello di significatività 5%, i veri valori di β1 e β2 nella popolazione non saranno rifiutati nel 95% di tutti i campioni. Perciò, l’insieme dei valori non rifiutati al livello 5% tramite questa statistica F costituisce una regione di confidenza di livello 95% per β1 e β2 . Sebbene il metodo di provare tutti i valori possibili di β1,0 e β2,0 funzioni in teoria, in pratica è molto più semplice usare una formula esplicita per la regione di confidenza. La Electronic Publishing Servicesè basata Inc. sulla statistica F della sezione 16.3. formula per un numero arbitrario di coefficienti Econometrics 1e Quando ci sonoStock/Watson, due coefficienti, le regioni di confidenza sono ellittiche. STOC.ITEM.0019 Come illustrazione, la figura 5.1 mostra una regione di confidenza al 95% (ellisse di conFig. 05.01 fidenza) per i coefficienti del rapporto studenti-insegnanti e della spesa per studente, tenendo costante la percentuale studenti non di madrelingua inglese, basata sulla regressione sti1stdiProof 2nd Proof 3rd Proof Final 170 i i i i i i “generale” — 2005/7/10 — 22:25 — page 171 — #201 i i 5.10. Altre statistiche di regressione mata (5.18). Questa ellisse non include il punto (0, 0). Ciò significa che l’ipotesi nulla che questi due coefficienti siano entrambi nulli è rifiutata tramite la statistica F al livello di significatività 5%, cosa che già conosciamo dalla sezione 5.7. L’ellisse di confidenza somiglia a un salsicciotto rigonfio con la parte lunga orientata in direzione basso-sinistra/alto-destra. La ragione di tale orientamento è che la correlazione stimata tra β̂1 e β̂2 è positiva, il che deriva a sua volta dalla correlazione negativa tra ST R e Expn (le scuole che spendono di più per gli studenti tendono ad avere meno studenti per insegnante). 5.10 Altre statistiche di regressione Tre statistiche descrittive comunemente usate nella regressione multipla sono l’errore standard di regressione, l’R2 di regressione e l’R2 corretto (anche noto come R̄2 ). Tutte e tre le statistiche misurano la bontà con cui la stima OLS della retta di regressione multipla descrive, o “si adatta a”, i dati. L’errore standard della regressione (SER) L’errore standard della regressione stima la deviazione standard dell’errore u i . L’SER è una misura della dispersione della distribuzione di Y attorno alla retta di regressione. Nella regressione multipla, l’SER è n SER = sû , dove sû2 X 1 SSR , = ûi = n − k − 1 i=1 2 n − k − 1 (5.28) P dove SSR è la somma dei quadrati dei residui, cioè SSR = ni=1 û2i . La sola differenza tra la definizione (5.28) e la definizione dell’SER nella sezione 4.8 per il modello con un solo regressore è che qui il divisore è n − k − 1, invece di n − 2. Nella sezione 4.8, il divisore n − 2 (invece di n) corregge la distorsione verso il basso dovuta alla stima di due coefficienti (la pendenza e l’intercetta della retta di regressione). Qui, il divisore n − k − 1 corregge la distorsione verso il basso introdotta dalla stima di k + 1 coefficienti (i k coefficienti più l’intercetta). Come nella sezione 4.8, l’uso di n − k − 1 invece di n è detta correzione per i gradi di libertà. Se ci fosse un singolo regressore, allora k = 1 e la formula nella sezione 4.8 coinciderebbe con la (5.28). Quando n è grande, l’effetto della correzione per i gradi di libertà è trascurabile. L’R2 L’R2 di regressione è la frazione della varianza campionaria di Yi spiegata (o prevista) dai regressori. Equivalentemente, l’R2 è pari a uno meno la frazione della varianza di Yi non spiegata dai regressori. 171 i i i i i i “generale” — 2005/7/10 — 22:25 — page 172 — #202 i i 5.10. Altre statistiche di regressione La definizione matematica dell’R2 è la stessa che per la regressione con un singolo regressore: ESS SSR R2 = =1− , (5.29) T SS T SS Pn dove la somma dei quadrati spiegata è ESS = i=1 (Ŷi − Ȳ )2 e la somma totale dei quadrati Pn totale è T SS = i=1 (Yi − Ȳ )2 . Nella regressione multipla, l’R2 cresce ogni volta che viene aggiunto un regressore, a meno che il nuovo regressore non sia perfettamente collineare con i regressori originari. Immaginiamo di iniziare con un regressore e poi di aggiungerne un secondo. Quando si usano gli OLS per stimare il modello con entrambi i regressori, si individuano i valori dei coefficienti che minimizzano la somma dei quadrati dei residui. Se il coefficiente stimato del nuovo regressore fosse esattamente pari a zero, l’SSR non cambierebbe rispetto al caso in cui tale regressore non fosse incluso nella regressione. Se però il coefficiente stimato fosse diverso da zero, allora l’SSR diminuirebbe rispetto alla regressione che esclude tale regressore. In pratica, è estremamente infrequente che un coefficiente stimato sia esattamente pari a zero, perciò in generale l’SSR diminuisce quando si aggiunge un nuovo regressore. Questo significa che, in generale, l’R2 cresce (e mai decresce), quando si aggiunge un nuovo regressore. L’R2 “corretto” Poiché l’R2 cresce ogni volta che si aggiunge una nuova variabile alla regressione, un aumento dell’R2 non significa che aggiungere tale variabile migliora effettivamente l’adattamento del modello. In questo senso, l’R2 fornisce una stima in eccesso della bontà della regressione. Un modo per correggere questo effetto è deflazionare o ridurre l’R 2 , e questo è proprio quello che fa l’R2 corretto o R̄2 . L’R2 corretto, o R̄2 , è una versione modificata dell’R2 che non cresce necessariamente quando si aggiunge un nuovo regressore. La sua formula è R̄2 = 1 − s2 n − 1 SSR = 1 − 2û . n − k − 1 T SS sY (5.30) La differenza tra questa formula e la (5.29) è che il rapporto tra la somma dei quadrati dei residui e la somma dei quadrati totale é moltiplicato per il fattore (n − 1)/(n − k − 1). Come mostra la seconda uguaglianza nella (5.30), questo rende l’R 2 corretto pari a uno meno il rapporto tra la varianza campionaria dei residui OLS (con la correzione per i gradi di libertà della (5.28)) e la varianza campionaria di Y . Ci sono tre concetti utili che riguardano l’R̄2 . In primo luogo, (n − 1)/(n − k − 1) è sempre maggiore di uno, perciò R̄2 è sempre minore di R2 . In secondo luogo, l’aggiunta di un regressore ha due effetti opposti sull’ R̄2 . Da un lato, l’SSR decresce, il che incrementa l’R̄2 . Dall’altro, il fattore (n − 1)/(n − k − 1) aumenta. Se l’R̄2 cresce o decresce dipende da quale dei due effetti è più forte. 172 i i i i i i “generale” — 2005/7/10 — 22:25 — page 173 — #203 i i 5.10. Altre statistiche di regressione In terzo luogo, l’R̄2 può essere negativo. Questo accade quando i regressori, presi nel complesso, riducono la somma dei quadrati dei residui di un ammontare cosı̀ piccolo da non bilanciare il fattore (n − 1)/(n − k − 1). Interpretazione pratica dell’R2 e dell’R2 corretto Se l’R2 o l’R̄2 sono prossimi a uno, ciò significa che i regressori predicono bene il valore della variabile dipendente nel campione, mentre, se l’R 2 o l’R̄2 tendono a zero, ciò significa che non lo fanno. Questo rende le due statistiche utili indici dell’abilità predittiva della regressione. Tuttavia, è facile leggere in queste due statistiche più di quanto esse effettivamente comunichino. Ci sono quattro potenziali problemi da cui guardarsi quando si usa l’R 2 o l’R̄2 . 1. Un aumento dell’R2 , o dell’R̄2 , non significa necessariamente che la variabile aggiunta sia statisticamente significativa. L’R 2 cresce ogni volta che si aggiunge un regressore, sia esso statisticamente significativo o meno. L’R̄2 non cresce in ogni occasione, ma se aumenta non vuol dire necessariamente che il coefficiente del regressore aggiunto sia statisticamente significativo. Per accertarsi della significatività di una variabile aggiunta, è necessario condurre un test d’ipotesi usando la statistica t. 2. Un R2 , o un R̄2 , elevato non implica che i regressori siano la vera causa della variabile dipendente. Si immagini di effettuare una regressione dei punteggi del test sull’area di parcheggio per studente. L’area riservata al parcheggio è correlata con il rapporto studenti-insegnanti, con il fatto che la scuola sia in periferia o in città e probabilmente con il reddito del distretto –tutte cose correlate con i punteggi. Perciò, la regressione dei punteggi del test sull’area di parcheggio per studente, potrebbe avere R2 o R̄2 elevati, ma la relazione non è causale (provate a dire al provveditore che per migliorare i punteggi bisogna ingrandire i parcheggi!). 3. Un R2 , o un R̄2 , elevato non implica che non vi sia distorsione da variabile omessa. Si ricordi la discussione della sezione 5.1 riguardante la distorsione da variabile omessa nella regressione dei punteggi del test sul rapporto studenti-insegnanti. L’R 2 di regressione non è stato mai menzionato perché non giocava alcun ruolo logico nella discussione. La distorsione da variabile omessa può essere presente in regressioni con un basso R2 , un moderato R2 o un alto R2 . Di contro, un basso R2 non implica che ci sia necessariamente una distorsione da variabile omessa. 4. Un R2 , o un R̄2 , elevato non significa necessariamente che abbiamo scelto l’insieme di regressori più appropriato, né un basso R2 , o R̄2 , implica che ne abbiamo scelto uno inappropriato. La discussione di quale sia l’insieme di regressori appropriato in una regressione multipla è complessa e vi ritorneremo nel corso del libro. Le 173 i i i i i i “generale” — 2005/7/10 — 22:25 — page 174 — #204 i i 5.11. Distorsione da variabile omessa e regressione multipla Concetto chiave 5.8: l’R2 e l’R̄2 : cosa ci dicono e cosa non ci dicono L’R2 e l’R̄2 ci dicono se i regressori sono idonei a prevedere, o a “spiegare” i valori della variabile dipendente nel campione di dati a disposizione. Se l’R 2 (o l’R̄2 ) tende a uno, i regressori producono delle buone previsioni della variabile dipendente in quel campione, nel senso che la varianza dei residui OLS è piccola rispetto alla varianza della variabile dipendente. Se l’R2 (o l’R̄2 ) tende a zero, è vero il contrario. L’R2 e l’R̄2 NON ci dicono se: 1. una variabile inclusa è statisticamente significativa; 2. i regressori sono causa effettiva dei movimenti della variabile dipendente; 3. c’è una distorsione da variabile omessa; 4. abbiamo scelto il gruppo di regressori più appropriato. decisioni riguardanti i regressori debbono tenere conto di questioni di distorsione da variabile omessa, disponibilità dei dati, qualità dei dati e, cosa più importante, della teoria economica e della natura delle domande alle quali si vuole dare risposta. A nessuna di queste questioni si può rispondere semplicemente presentando un R 2 , o un R̄2 , di regressione alto o basso. Questi punti sono riassunti nel concetto chiave 5.8. 5.11 Distorsione da variabile omessa e regressione multipla Gli stimatori OLS dei coefficienti di una regressione multipla soffriranno di distorsione da variabile omessa se una determinante omessa di Yi è correlata con almeno uno dei regressori. Ad esempio, studenti provenienti da famiglie più ricche hanno spesso maggiori opportunità di apprendimento extrascolastico di studenti provenienti da famiglie meno agiate, questo può far sı̀ che essi ottengano punteggi più alti nei test. Inoltre, se il distretto è ricco, le scuole tenderanno ad avere risorse maggiori e rapporti studenti-insegnanti inferiori. Se cosı̀, la ricchezza degli studenti e il rapporto studenti-insegnanti sarebbero negativamente correlati e la stima OLS del coefficiente del rapporto studenti-insegnanti catturerebbe l’effetto del reddito medio del distretto, anche dopo aver controllato per la percentuale di studenti non di madrelingua inglese. In breve, omettere la condizione economica degli studenti potrebbe 174 i i i i i i “generale” — 2005/7/10 — 22:25 — page 175 — #205 i i 5.11. Distorsione da variabile omessa e regressione multipla Concetto chiave 5.9: la distorsione da variabile omessa nella regressione multipla La distorsione da variabile omessa è la distorsione dello stimatore OLS che nasce quando uno o più tra i regressori inclusi sono correlati con una variabile omessa. Perché si abbia distorsione da variabile omessa, debbono valere due condizioni: 1. almeno uno dei regressori inclusi deve essere correlato con la variabile omessa; 2. la variabile omessa deve essere una determinante della variabile dipendente Y . determinare una distorsione da variabile omessa nella regressione dei punteggi sul rapporto studenti-insegnanti e la percentuale di studenti non di madrelingua inglese. Le condizioni generali perché vi sia distorsione da variabile omessa in una regressione multipla sono simili a quelle che valgono per il caso di un solo regressore: se una variabile omessa è una determinante di Yi e se è correlata con almeno uno dei regressori, allora gli stimatori OLS soffrono di distorsione da variabile omessa. Come discusso nella sezione 5.6, gli stimatori OLS sono correlati, e quindi, in generale, gli stimatori OLS di tutti i coefficienti saranno distorti. Le due condizioni per la distorsione da variabile omessa nella regressione multipla sono riassunte nel concetto chiave 5.9. A livello matematico, se le due condizioni per la distorsione da variabile omessa sono soddisfatte, allora almeno uno dei regressori è correlato con l’errore. Questo significa che l’aspettativa condizionata di ui date X1i , . . . , Xki non è nulla, e quindi la prima assunzione dei minimi quadrati è violata. Di conseguenza, la distorsione da variabile omessa persiste anche se la dimensione campionaria è elevata; la distorsione da variabile omessa determina cioè l’inconsistenza degli stimatori OLS. Specificazione del modello in teoria e in pratica In teoria, quando sono disponibili dati sulla variabile omessa, la soluzione al problema della distorsione è quella di includere la variabile omessa nella regressione. In pratica, tuttavia, decidere se includere una particolare variabile può essere difficile e richiede giudizio. Il nostro approccio alla sfida rappresentata dalla potenziale omissione di variabili è duplice. In primo luogo, si dovrebbe scegliere un nucleo o insieme di base di regressori, usando una combinazione di esperienza, teoria economica e conoscenza di come i dati sono stati raccolti; la regressione che utilizza questo insieme essenziale di regressori è talvolta detta specificazione di base. Tale specificazione dovrebbe contenere le variabili di interesse primario e le variabili di controllo suggerite dall’esperienza e dalla teoria economica. Questi due fattori, tuttavia, raramente sono decisivi e spesso le variabili suggerite dalla teoria econo175 i i i i i i “generale” — 2005/7/10 — 22:25 — page 176 — #206 i i 5.12. Analisi dei dati sui punteggi del test mica non sono quelle per le quali sono disponibili i dati. Perciò, il passo successivo è quello di sviluppare un elenco di possibili specificazioni alternative, ovvero un insieme alternativo di regressori. Se le stime dei coefficienti di interesse sono numericamente simili nelle diverse specificazioni alternative, questo costituisce evidenza del fatto che le stime derivanti dalla specificazione di base sono affidabili. Se, d’altro canto, le stime dei coefficienti d’interesse cambiano sostanzialmente tra le varie specificazioni, ciò è spesso sintomo del fatto che la specificazione originale soffre di distorsione da variabile omessa. Utilizzeremo questo approccio nella specificazione del modello della sezione 7.2, dopo aver studiato alcuni strumenti importanti per la specificazione di un modello di regressione. 5.12 Analisi dei dati sui punteggi del test Questa sezione presenta un’analisi dell’effetto sui punteggi del test del rapporto studentiinsegnanti usando i dati della California. Il nostro principale proposito è quello di fornire un esempio in cui l’analisi di regressione multipla è utilizzata per mitigare la distorsione da variabile omessa. Il nostro obiettivo secondario è quello di mostrare come utilizzare una tabella per riassumere i risultati delle regressioni. La nostra analisi si concentra sulla stima dell’effetto sui punteggi del test della variazione nel rapporto studenti-insegnanti, tenendo costanti le caratteristiche degli studenti che il provveditore non è in grado di controllare. In precedenza, in questo capitolo, abbiamo stimato regressioni che includevano sia il rapporto studenti-insegnanti sia la spesa per studente. Il coefficiente del rapporto studenti-insegnanti in tali regressioni era l’effetto di una variazione di questo rapporto tenendo costante la spesa per studente e le nostre stime suggerivano che questo effetto è piccolo e non significativamente diverso da zero. Le regressioni qui riportate non includono la spesa per studente, cosı̀ l’effetto stimato del rapporto studenti per insegnanti non tiene costante la spesa per studente. Molti fattori possono potenzialmente influenzare il punteggio medio del test in un distretto. Alcuni di questi fattori sono correlati con il rapporto studenti-insegnanti, e quindi ometterli dalla regressione determinerà distorsione da variabile omessa. Se sono disponibili dati su queste variabili omesse, la soluzione al problema è quella di includerli come regressori aggiuntivi nella regressione multipla. Se si fa questo, il coefficiente del rapporto studenti-insegnanti misura l’effetto di una variazione di tale rapporto tenendo costanti questi altri fattori. Consideriamo ora tre variabili che catturano le caratteristiche degli studenti che potrebbero influenzare i punteggi. Una di queste variabili di controllo, già usata in precedenza, è la frazione di studenti non di madrelingua inglese. Le altre due variabili sono nuove e controllano per le condizioni economiche degli studenti. I dati non contengono una misura precisa delle condizioni economiche, e quindi usiamo due indicatori imperfetti di reddito basso nel 176 i i i i i i “generale” — 2005/7/10 — 22:25 — page 177 — #207 i i 5.12. Analisi dei dati sui punteggi del test Figura 5.2: grafici a nuvola dei punteggi del test su tre caratteristiche dello studente Punteggio test Punteggio test 720 720 700 700 680 680 660 660 640 640 620 620 600 0 25 50 75 100 600 0 25 Percentuale (a) Percentuale di studenti che stanno apprendendo l’inglese 50 75 100 Percentuale (b) Percentuale di aventi diritto al sussidio mensa Punteggio test 720 700 680 660 640 620 600 0 (c) 25 50 75 100 Percentuale Percentuale di aventi diritto a un sostegno del reddito I grafici a nuvola mostrano una relazione negativa tra punteggi del test e (a) percentuale di studenti che apprendono l’inglese (correlazione = −0, 64), (b) percentuale di studenti aventi diritto al sussidio mensa (correlazione = −0, 87) e (c) percentuale di aventi diritto a un sostegno del reddito (correlazione = −0, 63). distretto. Il primo indicatore è la percentuale di studenti che hanno diritto al sussidio mensa totale o parziale. Gli studenti risultano idonei per tale programma di diritto, se il loro reddito familiare è inferiore a una certa soglia (approssimativamente pari al 150% della linea di povertà). Il secondo indicatore è la percentuale di studenti nel distretto la cui famiglia è idonea per il programma di pubblica assistenza sul reddito dello stato della California. Se una famiglia sia idonea per questo tipo di sussidi sul reddito dipende in parte dal reddito familiare, ma la soglia è inferiore rispetto a quella per il sussidio mensa. Questi due indicatori misurano, perciò, la frazione di bambini economicamente del distretto; anche se essi sono Electronic Publishing Servicessvantaggiati Inc. Stock/Watson, Econometrics 1e STOC.ITEM.0020 Fig. 05.02 1st Proof i i 2nd Proof 177 3rd Proof Final i i i i “generale” — 2005/7/10 — 22:25 — page 178 — #208 i i 5.12. Analisi dei dati sui punteggi del test legati, non sono perfettamente correlati (il loro coefficiente di correlazione è 0, 74). Sebbene la teoria suggerisca che la condizione economica possa essere un fattore omesso importante, la teoria e l’esperienza non ci aiutano a scegliere quale tra queste due variabili (la percentuale che ha diritto al sussidio mensa o la percentuale che ha diritto al sussidio sul reddito) sia la miglior misura della condizione economica. Per la nostra specificazione di base, scegliamo la percentuale di aventi diritto al pranzo gratuito come indicatore della condizione economica, ma considereremo anche una specificazione alternativa che include entrambi gli stimatori. I grafici a nuvola dei punteggi del test e di queste variabili sono presentati nella figura 5.2. Ciascuna di queste variabili mostra una correlazione negativa con il punteggio del test: la correlazione tra punteggi e percentuale di studenti non di madrelingua inglese è −0, 46; tra punteggi e percentuale di aventi diritto al pranzo gratuito è −0, 87; e tra punteggi e percentuale di idonei al sussidio sul reddito è −0, 63. Abbiamo ora un problema di presentazione. Qual è il modo migliore per mostrare i risultati di molte regressioni multivariate che contengono sottoinsiemi diversi dei possibili regressori? Finora abbiamo presentato i risultati delle regressioni riportando le equazioni di regressione stimate, come nel caso della (5.18). Questo approccio è fattibile quando ci sono solo pochi regressori e poche equazioni, ma con un numero di regressori ed equazioni questo metodo di presentazione può portare a confusione. Un modo migliore di presentare i risultati delle regressioni è quello di tabularli. La tabella 5.2 riassume i risultati delle regressioni dei punteggi del test sui vari insiemi di regressori. Ogni colonna rappresenta una regressione separata. Tutte le regressioni hanno la stessa variabile dipendente, il punteggio del test. Le voci delle prime 5 righe sono i coefficienti di regressione stimati, con i rispettivi errori standard riportati in parentesi. Gli asterischi indicano se la statistica t, verificando l’ipotesi che il coefficiente rilevante sia nullo, è significativa al livello 5% (1 asterisco) o 1% (2 asterischi). Le tre righe finali contengono statistiche sintetiche della regressione (l’errore standard della regressione o SER, e l‘R 2 corretto o R̄2 ) e la dimensione campionaria (che è la stessa per tutte le regressioni, 420 osservazioni). Tutte le informazioni che abbiamo presentato finora in forma di equazione appaiono in una delle colonne di questa tabella. Ad esempio, consideriamo la regressione del punteggio del test sul rapporto studenti-insegnanti, senza variabili di controllo. In forma di equazione, tale regressione appare come d T estScore = 698, 9 − 2, 28 × ST R, R̄2 = 0, 049, SER = 19, 26, n = 420. (10, 4) (0, 52) (5.31) Tutte queste informazioni compaiono nella colonna (1) della tabella 5.2. Il coefficiente stimato del rapporto studenti-insegnanti (−2, 28) compare nella prima riga di numeri e l’errore standard corrispondente (0, 52) è riportato appena sotto il coefficiente stimato. L’intercetta (698, 9) e il suo errore standard (10, 4) sono riportati nella riga indicata come “intercetta” (talvolta si può trovare tale riga indicata come “costante”, perché, come discusso nella sezio178 i i i i i i “generale” — 2005/7/10 — 22:25 — page 179 — #209 i i 5.12. Analisi dei dati sui punteggi del test ne 5.2, l’intercetta può essere considerata come il coefficiente di un regressore che è sempre pari a uno). Similmente, l’R̄2 (0,049), l’SER (18,58) e la dimensione campionaria n (420) appaiono nella riga finale. Le posizioni vuote della tabella indicano che i corrispondenti regressori non sono inclusi in questa regressione. Sebbene la tabella non riporti le statistiche t, queste possono essere calcolate grazie all’informazione fornita; ad esempio, la statistica t per verificare l’ipotesi che il coefficiente del rapporto studenti-insegnanti della colonna (1) sia nullo è pari a −2, 28/0, 52 = −4, 38. Questa ipotesi è rifiutata al livello 1%, il che è indicato dal doppio asterisco posto accanto al coefficiente stimato nella tavola. Le regressioni che includono le variabili di controllo che misurano le caratteristiche degli studenti sono riportate nelle colonne (2)–(5). La colonna (2), che riporta la regressione dei punteggi del test sul rapporto studenti-insegnanti e sulla percentuale di studenti non di madrelingua, corrisponde alla (5.16). La colonna (3) presenta la specificazione di base, in cui i regressori sono il rapporto studenti-insegnanti e due variabili di controllo, la percentuale di studenti non di madrelingua inglese e la percentuale di studenti aventi diritto al sussidio mensa. Le colonne (4) e (5) presentano specificazioni alternative che esaminano l’effetto di variazioni nel modo in cui viene misurata la condizione economica degli studenti. Nella colonna (4), si include come regressore la percentuale di studenti la cui famiglia rientra nel programma di assistenza pubblica, mentre nella colonna (5) sono incluse entrambe le variabili relative alla condizione economica. Tali risultati suggeriscono tre conclusioni. 1. Controllare per queste caratteristiche degli studenti riduce l’effetto del rapporto studentiinsegnanti sui punteggi di circa la metà. L’effetto stimato non è molto sensibile alle variabili di controllo specifiche incluse nella regressione. In tutti i casi, il coefficiente del rapporto studenti-insegnanti rimane statisticamente significativo al livello 5%. Nelle quattro specificazioni con variabili di controllo, le regressioni (2)–(5), ridurre il rapporto studenti-insegnanti di uno studente per insegnante si stima aumenti il punteggio medio del test di approssimativamente un punto, tenendo costanti le caratteristiche dello studente. 2. Le variabili che rappresentano le caratteristiche dello studente sono predittori molto utili dei punteggi. Il rapporto studenti-insegnanti da solo spiega una frazione piccola della variazione nei punteggi del test: l’R̄2 nella colonna (1) è 0, 049. L’R̄2 aumenta, tuttavia, in modo sostanziale, quando vengono aggiunte le caratteristiche dello studente. Ad esempio, l’R̄2 della specificazione di base, regressione (3), è 0, 773. Il segno dei coefficienti delle variabili demografiche degli studenti è coerente con l’andamento osservato nella figura 5.2: i distretti con molti studenti non di madrelingua e i distretti con molti bambini poveri ottengono punteggi più bassi nel test. 179 i i i i i i “generale” — 2005/7/10 — 22:25 — page 180 — #210 i i 5.13. Conclusioni Tabella 5.2: risultati delle regressioni dei punteggi del test sul rapporto studenti-insegnanti e su altre variabili che controllano per le caratteristiche degli studenti usando i dati relativi ai distretti scolasti elementari della California Variabile dipendente: media dei punteggi del test nel distretto. Regressore Rapporto studenti-insegnanti (X1 ) % studenti non di madrelingua (X2 ) % aventi diritto al sussidio mensa (X3 ) % studenti nel programma di assistenza pubblica (X4 ) Intercetta (1) (2) (3) (4) (5) −2, 28∗∗ (-0,52) −1, 10∗ (0,43) −0, 650∗∗ (0,031) −1, 00∗∗ (0,27) −0, 122∗∗ (0,033) −0, 547∗∗ (0,024) −1, 31∗∗ (0,34) −0, 488∗∗ (0,030) −1, 01∗∗ (0,27) −0, 130∗∗ (0,036) −0, 529∗∗ (0,038) 0.048 (0,059) 700, 4∗∗ (5,5) 9,08 0,773 420,0 698, 9∗∗ (10,4) 686, 0∗∗ (8,7) 700, 2∗∗ (5,6) −0.790∗∗ (0,068) 698, 0∗∗ (6,9) 18,58 0,049 420,0 14,46 0,424 420,0 9,08 0,773 420,0 11,65 0,626 420,0 Statistiche descrittive SER R̄2 n Queste regressioni sono state stimate utilizzando i dati relativi ai distretti scolastici K-8, descritti nell’appendice 4.1, della California. Gli errori standard sono mostrati in parentesi sotto i coefficienti. Il coefficiente è significativo al livello ∗ 5% o ∗∗ 1% utilizzando un test bilaterale. 3. Le variabili di controllo non sono sempre statisticamente significative: nella specificazione (5), l’ipotesi che il coefficiente della percentuale degli aventi diritto al sussidio sul reddito sia nulla non è rifiutata al livello 5% (la statistica t è −0, 82). Poiché aggiungere tale variabile di controllo alla specificazione di base (3) ha un effetto trascurabile sul coefficiente stimato e il suo errore standard e poiché il coefficiente di questa variabile di controllo non è significativo nella specificazione (5), tale variabile di controllo addizionale è ridondante, almeno ai fini di quest’analisi. 5.13 Conclusioni Questo capitolo era cominciato con una nota di monito: nella regressione dei punteggi del test sul rapporto studenti-insegnanti, caratteristiche omesse degli studenti che influenzano i punteggi del test potrebbero essere correlate con il rapporto studenti-insegnanti nel distretto 180 i i i i i i “generale” — 2005/7/10 — 22:25 — page 181 — #211 i i Sommario e, se cosı̀, il rapporto studenti-insegnanti nel distretto catturerebbe l’effetto sui punteggi di tali caratteristiche omesse. Perciò, lo stimatore OLS potrebbe soffrire di distorsione da variabile omessa. Per mitigare questa potenziale distorsione, abbiamo incluso nella regressione una serie di variabili al fine di controllare per varie caratteristiche degli studenti (la percentuale di studenti non di madrelingua inglese e due misure della condizione economica degli studenti). In questo modo, l’effetto stimato di una variazione unitaria del rapporto studenti-insegnanti si riduce della metà, sebbene rimanga possibile rifiutare al 5% l’ipotesi che l’effetto sui punteggi del test, tenendo costanti queste altre variabili di controllo, sia nullo. Poiché queste variabili di controllo eliminano la distorsione da variabile omessa che deriva dall’ignorare le caratteristiche degli studenti, queste stime basate sulla regressione multipla (e i relativi intervalli di confidenza), sono molto più utili per il provveditore delle stime con un solo coefficiente del capitolo 4. L’analisi di questo capitolo partiva dal presupposto che la funzione di regressione della popolazione fosse lineare nei regressori, ovvero che l’aspettativa di Y i dati i regressori fosse una linea retta. Non c’è, tuttavia, alcuna ragione particolare per pensare che sia cosı̀. In realtà, l’effetto di ridurre il rapporto studenti-insegnanti potrebbe essere molto diverso tra i distretti con classi numerose e quelli che hanno già classi piccole. Se cosı̀, la retta di regressione della popolazione è non lineare nelle X, ma è invece una funzione non lineare delle X. Per estendere la nostra analisi alle funzioni di regressione che sono non lineari nelle X, tuttavia, abbiamo bisogno degli strumenti che saranno sviluppati nel prossimo capitolo. Sommario 1. La distorsione da variabile omessa si verifica quando una variabile omessa (1) è correlata con un regressore incluso e (2) è una determinante di Y . 2. Il modello di regressione multipla è un modello di regressione lineare che include più regressori, X1 , X2 , . . . , Xk . A ciascun regressore è associato un coefficiente di regressione, β1 , β2 , . . . , βk . Il coefficiente β1 rappresenta la variazione attesa di Y associata a una variazione unitaria di X1 , tenendo costanti gli altri regressori. Gli altri coefficienti di regressione hanno un’analoga interpretazione. 3. I coefficienti del modello di regressione multipla possono essere stimati tramite gli OLS. Quando valgono le quattro assunzioni dei minimi quadrati contenute nel concetto chiave 5.4, gli stimatori OLS sono non distorti, consistenti e normalmente distribuiti in grandi campioni. 4. Le verifiche di ipotesi e la costruzione di intervalli di confidenza per un singolo coefficiente di regressione sono ottenute usando essenzialmente le stesse procedure usate nel modello di regressione lineare a una variabile del capitolo 4. Ad esempio, un intervallo di confidenza di livello 95% per β1 è dato da β̂1 ± 1, 96 SE(β̂1 ). 181 i i i i i i “generale” — 2005/7/10 — 22:25 — page 182 — #212 i i Sommario 5. Ipotesi che coinvolgono più di una restrizione sui coefficienti sono note come ipotesi congiunte. Le ipotesi congiunte possono essere verificate usando una statistica F . 6. L’errore standard della regressione, l’R 2 e l’R̄2 sono statistiche descrittive per il modello di regressione multipla. Termini chiave distorsione da variabile omessa (143) modello di regressione multipla (149) retta di regressione della popolazione (149) funzione di regressione della popolazione (149) intercetta (149) coefficiente di X1i (149) variabile di controllo (149) effetto parziale (150) modello di regressione multipla della popolazione (150) omoschedasticità (151) eteroschedasticità (151) stimatori OLS di β0 , β1 , . . . , βk (152) retta di regressione OLS (152) valore predetto (152) residui OLS (153) collinearità perfetta (156) collinearità imperfetta (158) restrizioni (164) ipotesi congiunte (164) statistica F (166) regione di confidenza di livello 95% (169) R2 e R2 corretto (R̄2 ) (171, 172) specificazione di base (175) specificazioni alternative (176) statistica F classica (190) Verifica dei concetti 5.1 Una ricercatrice è interessata all’effetto dell’uso del computer sui punteggi del test. Per mezzo dei dati relativi ai distretti scolastici usati in questo capitolo, effettua una regressione del punteggio medio del test per distretto sul numero di computer per studente. Sarà β̂1 uno stimatore non distorto dell’effetto sui punteggi dei test di un incremento del numero di computer per studente? Perché o perché no? Se riteniamo che β̂1 sia distorto, lo è verso il basso o verso l’alto? Perché? 5.2 Una regressione multipla include due regressori: Yi = β0 + β1 X1i + β2 X2i + ui . Quale sarebbe la variazione attesa di Y , se X1 aumentasse di 3 unità e X2 fosse lasciato invariato? Quale sarebbe la variazione attesa di Y , se X2 diminuisse di 5 unità e X1 fosse lasciato invariato? Quale sarebbe la variazione attesa di Y , se X 1 aumentasse di 3 unità e X2 diminuisse di 5 unità? 5.3 Si speghi perché due regressori perfettamente collineari non possono essere inclusi in un modello di regressione lineare multipla. Si forniscano due esempi di coppie di regressori perfettamente multicollineari. 182 i i i i i i “generale” — 2005/7/10 — 22:25 — page 183 — #213 i i Sommario 5.4 Si spieghi come si testerebbe l’ipotesi nulla che β1 = 0 nel modello di regressione multipla, Yi = β0 + β1 X1i + β2 X2i + ui . Si spieghi come si testerebbe l’ipotesi nulla che β2 = 0. Si spieghi come si verificherebbe l’ipotesi congiunta che β 1 = 0 e β2 = 0. Perché il risultato dell’ipotesi congiunta non è implicato dai risultati dei primi due test? 5.5 Si fornisca un esempio di regressione che a ragione avrebbe un valore alto di R 2 , ma produrrebbe stimatori distorti e inconsistenti del coefficiente (o dei coefficienti) di regressione. Si spieghi il motivo per cui l’R 2 è verosimilmente alto. Si spieghi perché gli stimatori OLS sarebbero distorti e inconsistenti. Esercizi I primi sei esercizi si riferiscono alla seguente tavola di regressioni stimate, calcolata usando dati dal CPS relativi al 1998. Il dataset contiene informazioni su 4.000 individui che hanno lavorato a tempo pieno per l’intero anno. Il livello d’istruzione più alto raggiunto da ciascun lavoratore è o il diploma di scuola secondaria o una laurea. L’età dei lavoratori varia tra 25-34 anni. I dati contengono anche informazioni sulla regione del paese dove questi sono vissuti, lo stato civile e il numero di figli. Per i propositi di questo esercizio siano AHE = retribuione oraria media (in dollari 1998) college = variabile binaria (1 se università, 0 se scuola superiore) f emale = variabile binaria (1 se femmina, 0 se maschio) age = (in anni) N theast = variabile binaria (1 se regione = nord-est, 0 altrimenti) M idwest = variabile binaria (1 se regione = sud-ovest, 0 altrimenti) South = variabile binaria (1 se regione = sud, 0 altrimenti) W est = variabile binaria (1 se regione = ovest, 0 altrimenti) 5.1 Si Aggiungano “ * ” (5%) e “ ** ” (1%) alla tavola per indicare la significatività statistica dei coefficienti. 5.2 Si calcoli l’R2 per ogni regressione. 183 i i i i i i “generale” — 2005/7/10 — 22:25 — page 184 — #214 i i Sommario Risultati delle regressioni del salario orario medio sulle variabili binarie sesso, istruzione e altre caratteristiche per i dati tratti dal Current Population Survey del 1998 Variabile dipendente: Average Hourly Earnings (AHE) Regressore College (X1 ) Female (X2 ) (1) (2) (3) 5,46 (0,21) -2,64 (0,20) 5,48 (0,21) -2,62 (0,20) 0,29 (0,04) 12,69 (0,14) 4,40 (1,05) 5,44 (0,21) -2,62 (0,20) 0,29 (0,04) 0,69 (0,30) 0,60 (0,28) -0,27 (0,26) 3,75 (1,06) 6,27 0,176 4000,0 6,22 0,190 4000,0 6,10 6,21 0,194 4000,0 Age (X3 ) Northeast (X4 ) Midwest (X5 ) South (X6 ) Intercetta Statistiche descrittive e test di ipotesi congiunte Statistica F per gli effetti di zona = 0 SER R2 n 5.3 Si utilizzino i risultati della regressione nella colonna (1). a. I lavoratori con laurea guadagnano di più, in media, rispetto ai lavoratori con un diploma di scuola superiore? Quanto di più? È la differenza stimata tra le retribuzioni da questa regressione statisticamente significativa al livello 5%? b. Gli uomini guadagano più delle donne in media? Quanto di più? È la differenza tra le retribuzioni stimate sulla base di questa regressione statisticamente significativa al livello 5%? 5.4 Si utilizzino i risultati della regressione nella colonna (2). a. L’età è un’importante determinante del reddito? Si argomenti la risposta; b. Sally è una laureata di 29 anni. Betsy è una laureata di 34 anni. Si prevedano le retribuzioni di Sally e di Betsy e si costruisca un intervallo di confidenza di livello 95% per la differenza tra i loro salari attesi. 184 i i i i i i “generale” — 2005/7/10 — 22:25 — page 185 — #215 i i Sommario 5.5 Si utilizzino i risultati della regressione nella colonna (3). a. C’è qualche evidenza di differenze regionali rilevanti? b. Perché il regressore W est viene omesso dalla regressione? Cosa accadrebbe se lo si includesse? c. Sia Juanita una laureata di 28 anni proveniente dal sud. Sia Molly una laureata di 28 anni proveniente dall’ovest. Sia Jennifer una laureata di 28 anni proveniente dal centro-ovest. ci. Si costruisca un intervallo di confidenza di livello 95% per la differenza tra le retribuzioni attese tra Juanita e Molly. cii. Si calcoli la differenza tra le retribuzioni attese tra Juanita e Jennifer. ciii. Si spieghi come si potrebbe costruire un intervallo di confidenza per la differenza tra le retribuzioni attese tra Juanita e Jennifer (suggerimento: cosa accadrebbe se si includesse West e escludesse Midwest dalla regressione?). 5.6 La regressione mostrata nella colonna (2) è stata stimata ancora una volta, usando i dati relativi al 1992. (4.000 osservazioni selezionate casualmente dal CPS del marzo 1993, convertite in dollari 1998 usando l’indice dei prezzi al consumo). I risultati sono d = 0, 77 + 5, 29 College − 2, 59 F emale + 0, 40 Age, AHE (0, 98) (0, 20) (0, 18) (0, 03) SER = 5, 85, R̄2 = 0, 21. Paragonando questa regressione a quella per il 1998 mostrata nella colonna (2), si evidenzia una variazione statisticamente significativa del coefficiente di College? 5.7 Si valuti la seguente affermazione: “in tutte le regressioni, il coefficiente di F emmina è negativo, elevato e statisticamente significativo. Ciò supporta una forte evidenza statistica di discriminazione dovuta al genere nel mercato del lavoro degli USA” 5.8 Si consideri il modello di regressione Yi = β0 +β1 X1i +β2 X2i +ui . Si usi l’“approccio 2” dalla sezione 5.8 per trasformare la regressione in modo che si possa usare una statistica t per verificare: a. β1 = β2 b. β1 + aβ2 = 0, dove a è una costante; c. β1 + β2 = 1 (suggerimento: bisogna ridefinire la variabile dipendente della regressione). 5.9 L’appendice 5.3 mostra le due formule per la statistica F classica (5.38) e (5.39). Si mostri che esse sono equivalenti. 185 i i i i i i “generale” — 2005/7/10 — 22:25 — page 186 — #216 i i Appendice Appendice 5.1: derivazione della formula (5.1) Quest’appendice presenta una derivazione della formula (5.1) per la distorsione da variabile omessa. L’equazione (4.51) dell’appendice 4.3 mostra che 1 n β̂1 = β1 + 1 n n P (Xi − X̄)ui i=1 n P i=1 . (5.32) (Xi − X̄)2 Pn p 2 Sotto le assunzioni dei minimi quadrati nel concetto chiave 5.4, 1/n i=1 (Xi − X̄)2 → σX Pn p e 1/n i=1 (Xi − X̄)ui → cov(ui , Xi ) = ρXu σu σX . Sostituendo tali limiti nella (5.32) si ottiene la (5.1). Appendice 5.2: distribuzione degli stimatori OLS quando ci sono due regressori ed errori omoschedastici Sebbene la formula generale per la varianza degli stimatori OLS nella regressione multipla sia complessa, se ci sono due regressori (k = 2) e gli errori sono omoschedastici, la formula si semplifica abbastanza da fornire alcune intuizioni circa la distribuzione degli stimatori OLS. Poiché gli errori sono omoschedastici, la varianza condizionata di u i può essere scritta come var(ui X1i , X2i ) = σu2 . Quando ci sono due regressori X1i e X2i e l’errore è omoschedastico, in grandi campioni la distribuzione campionaria di β̂1 è N (β1 , σβ̂2 ) e la varianza 1 di tale distribuzione, σβ̂2 , è 1 σβ̂2 1 " # 1 σu2 1 = 2 2 , n 1 − ρX1 ,X2 σX 1 (5.33) 2 è la dove ρX1 ,X2 è la correlazione nella popolazione tra i due regressori X1 e X2 e σX 1 varianza di X1 nella popolazione. La varianza σβ̂2 della distribuzione campionaria di β̂1 dipende dal quadrato del coeffi1 ciente di correlazione tra i regressori. Se X1 e X2 sono fortemente correlate, positivamente o negativamente, allora ρ2X1 ,X2 è prossimo a uno e quindi il termine 1 − ρ2X1 ,X2 al denominatore della (5.33) è piccolo e le varianze di β̂1 e β̂2 sarebbero più elevate di quanto sarebbero se ρX1 ,X2 fosse prossimo a zero. Questo risultato ha un’interpretazione intuitiva. Si ricordi che il coefficiente di X1 è l’effetto di una variazione unitaria del primo regressore, tenendo costante il secondo. Se i due regressori sono altamente correlati, è difficile stimare l’effetto 186 i i i i i i “generale” — 2005/7/10 — 22:25 — page 187 — #217 i i Appendice parziale del primo regressore, tenendo costante il secondo, perché i due regressori si muovono insieme nella popolazione. Ad esempio, supponiamo di voler stimare gli effetti separati sui punteggi del test dell’avere più insegnanti (un più basso ST R) tenendo costante la spesa per studente, e dell’avere più studenti tenendo costante ST R. Poiché i salari degli insegnanti rappresentano una quota molto grande del bilancio di una scuola elementare, ST R e spese per studente hanno una forte correlazione negativa (un numero maggiore di insegnanti implica un ST R inferiore e una maggiore spesa per studente). Siccome queste due variabili hanno una forte correlazione negativa, potrebbe essere difficile stimare con precisione i loro effetti separati usando dati campionari. Ciò fa sı̀, in termini matematici, che β̂1 abbia una grande varianza. Un’altra caratteristica della distribuzione congiunta normale degli stimatori OLS in grandi campioni è che β̂1 e β̂2 sono in genere correlati. Quando gli errori sono omoschedastici, la correlazione tra gli stimatori OLS β̂1 e β̂2 è pari all’opposto della correlazione tra i due regressori, corr(β̂1 , β̂2 ) = −ρX1 ,X2 . (5.34) Appendice 5.3: due altri modi di verificare ipotesi congiunte Il metodo della sezione 5.7 è quello preferito per verificare ipotesi congiunte in una regressione multipla. Tuttavia, se l’autore di uno studio presenta i risultati di una regressione ma non verifica una restrizione congiunta e non si hanno a disposizione i dati originali, non si sarà in grado di calcolare la statistica F della sezione 5.7. Quest’appendice descrive due altri modi per verificare ipotesi congiunte che possono essere usati quando si dispone solo di una tabella con i risultati di regressione. Il primo di questi modi, il test di Bonferroni, è un’applicazione di un approccio molto generale alla verifica di ipotesi basato sulla disuguaglianza di Bonferroni. Il secondo, la statistica F classica, è un approccio specifico alla regressione multipla, giustificato da un punto di vista teorico solo se gli errori sono omoschedastici; la statistica F classica è il corrispondente per la statistica F della statistica t calcolata usando gli errori standard classici. Il test di Bonferroni Il test di Bonferroni consente di verificare ipotesi partendo dalle statistiche t relative a ipotesi individuali; in altre parole, il test di Bonferroni corrisponde alla procedura di verifica “coefficiente per coefficiente”, ma con un livello di significatività corretto. Il test di Bonferroni 187 i i i i i i “generale” — 2005/7/10 — 22:25 — page 188 — #218 i i Appendice per le ipotesi nulle congiunte β1 = β1,0 e β2 = β2,0 basato sul valore critico c > 0 segue la regola: accetta l’ipotesi nulla se |t1 | ≤ c e se |t2 | ≤ c; altrimenti, rifiuta (test di Bonferroni “coefficiente per coefficiente”), (5.35) dove t1 e t2 sono le statistiche t per verificare rispettivamente le restrizioni su β1 e β2 . Il trucco sta nello scegliere il valore critico c in modo tale che la probabilità che il test rifiuti l’ipotesi nulla quando questa è vera non superi il livello di significatività desiderato, diciamo 5%. Questo si ottiene usando la disuguaglianza di Bonferroni al fine di scegliere il valore critico c in modo da tener conto sia del fatto che si verifichino entrambe le restrizioni sia della possibile correlazione tra t1 e t2 . Disuguaglianza di Bonferroni La disuguaglianza di Bonferroni è un risultato basilare della teoria della probabilità. Siano A e B due eventi. Sia A ∩ B l’evento “sia A sia B” (l’intersezione di A e B) e sia A ∪ B l’evento “A o B oppure entrambi” (l’unione di A e B). Allora, Pr(A ∪ B) = Pr(A) + Pr(B) − Pr(A ∩ B). Poiché Pr(A ∩ B) ≥ 0, ne segue che Pr(A ∪ B) ≤ Pr(A) + Pr(B). Questa disuguaglianza a sua volta implica che 1 − Pr(A ∪ B) ≥ 1 − [Pr(A) + Pr(B)]. Siano Ac e B c i complementi di A e B, ovvero, gli eventi “non A” e “non B”. Siccome il complemento di A ∪ B è Ac ∩ B c , allora 1 − Pr(A ∪ B) = Pr(Ac ∩ B c ), il che porta alla disuguaglianza di Bonferroni, Pr(Ac ∩ B c ) ≥ 1 − [Pr(A) + Pr(B)]. Ora, sia A l’evento |t1 | > c e B l’evento |t2 | > c. Allora, la disuguaglianza Pr(A ∪ B) ≤ Pr(A) + Pr(B) produce Pr(|t1 | > c o |t2 | > c o entrambi) ≤ Pr(|t1 | > c) + Pr(|t2 | > c). (5.36) Test di Bonferroni Poiché l’evento “|t1 | > c o |t2 | > c o entrambi” corrisponde alla regione di rifiuto del test “coefficiente per coefficiente”, la (5.36) fornisce un modo per scegliere il valore critico c in modo tale che il test abbia il livello di significatività desiderato in grandi campioni. Sotto l’ipotesi nulla, in grandi campioni, Pr(|t1 | > c) = Pr(|t2 | > c) = Pr(|Z| > c). Perciò, la (5.36) implica che, in grandi campioni, la probabilità che il test “coefficiente per coefficiente” rifiuti sotto la nulla è PrH0 (il test “coefficiente per coefficiente” rifiuti) ≤ 2 Pr(|Z| > c). (5.37) La disuguaglianza (5.37) suggerisce di scegliere il valore critico c, in modo tale che la probabilità di rifiuto sotto l’ipotesi nulla sia uguale al livello di significatività desiderato. L’approccio di Bonferroni può essere esteso a più di due coefficienti; se ci fossero q restrizioni sotto la nulla, il numero 2 sul lato destro della (5.37) sarebbe rimpiazzato da q. 188 i i i i i i “generale” — 2005/7/10 — 22:25 — page 189 — #219 i i Appendice Tabella 5.3: valori critici c delle singole statistiche t in un test di Bonferroni di ipotesi congiunte Numero di restrizioni (q) 10% 2 3 4 1,960 2,128 2,241 Livello di significatività 5% 2,241 2,394 2,498 1% 2,807 2,935 3,023 La tabella 5.3 presenta i valori critici c per test di Bonferroni corrispondenti a vari livelli di significatività e per q = 2, 3 e 4. Ad esempio, supponiamo che il livello di significatività desiderato sia 5% e q = 2. Secondo la tabella 5.3, il valore critico c è 2, 241. Tale valore critico è il percentile all’1, 25% della distribuzione normale standardizzata, e quindi Pr(|Z| > 2, 241) = 2, 5%. Perciò, la (5.37) ci dice che, in grandi campioni, il test di Bonferroni (5.35) rifiuterà sotto l’ipotesi nulla al massimo il 5% delle volte. I valori critici della tabella 5.3 sono più elevati dei valori critici per la verifica di una singola restrizione. Ad esempio, con q = 2, il test di Bonferroni rifiuta se almeno una statistica t è maggiore di 2, 241 in valore assoluto. Questo valore critico è più grande di 1, 96 perché corregge per il fatto che, avendo due statistiche t, si ottiene una seconda occasione per rifiutare l’ipotesi nulla congiunta, come discusso nella sezione 5.7. Se le statistiche t individuali si basano su errori standard robusti all’eteroschedasticità, il test di Bonferroni è valido in presenza o meno di eteroschedasticità, ma se le statistiche t si basano su errori standard classici, il test di Bonferroni è valido solo sotto omoschedasticità. Applicazione ai punteggi del test Le statistiche t relative ai coefficienti dei punteggi del test e delle spese per studente nella (5.18) sono, rispettivamente, t1 = −0, 60 e t2 = 2, 43 nell’equazione (5.18). Sebbene |t1 | < 2, 241, dal momento che |t2 | > 2, 241, possiamo rifiutare l’ipotesi nulla congiunta al livello di significatività 5% usando il test di Bonferroni. Ad ogni modo, sia t 1 sia t2 sono minori di 2, 807 in valore assoluto, perciò non possiamo rifiutare l’ipotesi nulla congiunta al livello di significatività 1% usando il test di Bonferroni. Di contro, usando la statistica F della sezione 5.7, siamo in grado di rifiutare tale ipotesi al livello di significatività 1%. La statistica F classica La statistica F classica si calcola tramite una semplice formula basata sulla somma dei quadrati dei residui di due regressioni. Nella prima regressione, chiamata la regressione vin189 i i i i i i “generale” — 2005/7/10 — 22:25 — page 190 — #220 i i Appendice colata, si impone l’ipotesi nulla. Quando l’ipotesi nulla è del tipo (5.20), dove tutti i valori ipotizzati sono uguali a zero, la regressione vincolata è la regressione in cui tali coefficienti sono posti uguali a zero, ovvero in cui i regressori rilevanti sono esclusi dalla regressione. Nella seconda regressione, chiamata regressione non vincolata, è considerata vera l’ipotesi alternativa. Se la somma dei quadrati dei residui è sufficientemente più piccola nella regressione non vincolata rispetto alla vincolata, il test rifiuta l’ipotesi nulla. La statistica F classica è data dalla formula (SSRrest − SSRunrest )/q , (5.38) F = SSRunrest /(n − kunrest − 1) dove SSRrest è la somma dei quadrati dei residui della regressione vincolata, SSR unrest è la somma dei quadrati dei residui della regressione non vincolata, q è il numero di restrizioni sotto l’ipotesi nulla e kunrest è il numero di regressori nella regressione non vincolata. Una formula alternativa equivalente per la statistica F classica è basata sugli R 2 delle due regressioni: 2 2 (Rrest − Runrest )/q F = . (5.39) 2 1 − Runrest /(n − kunrest − 1) Se gli errori fossero omoschedastici, la differenza tra la statistica F classica, calcolata tramite la (5.38), e la statistica F usata nella sezione 5.7 svanirebbero al crescere della dimensione campionaria. Perciò, se gli errori fossero omoschedastici, la distribuzione campionaria della statistica F classica sotto l’ipotesi nulla sarebbe Fq,∞ , in grandi campioni. Le formule per la statistica F classica sono semplici da calcolare e hanno un’interpretazione intuitiva in termini di quanto bene le regressioni non vincolate e vincolate approssimano i dati. Sfortunatamente, esse sono valide solo se gli errori sono omoschedastici. Poiché l’omoschedasticità è un caso particolare sul quale non si può contare nelle applicazioni a dati economici o, più in generale, con i dati che tipicamente si hanno nelle scienze sociali, la statistica F classica non è un sostituto soddisfacente per la statistica F robusta all’eteroschedasticità della sezione 5.7. Un’applicazione ai punteggi del test e al rapporto studenti-insegnanti Per verificare l’ipotesi nulla che i coefficienti di ST R ed Expn siano pari a zero, controllando per P ctEL, è necessario calcolare l’SSR (o l’R 2 ) per la regressione vincolata e di quella non vincolata. La regressione non vincolata ha come regressori ST R, Expn e P ctEL ed è 2 riportato nella (5.18); il suo R2 è 0, 4366; cioè, Runrest = 0, 4366. La regressione vincolata impone l’ipotesi nulla congiunta che i veri coefficienti di ST R ed Expn siano pari a zero, cioè che ST R ed Expn non siano inclusi nella regressione, sebbene P ctEL lo sia (l’ipotesi nulla non vincola il coefficiente di P ctEL). La regressione vincolata, stimata tramite gli OLS, è d T estScore = 664, 7 − 0, 671 × P ctEL, R2 = 0, 4149, (5.40) (1, 0) (0, 032) 190 i i i i i i “generale” — 2005/7/10 — 22:25 — page 191 — #221 i i Appendice 2 e quindi Runrest = 0, 4149. Il numero di restrizioni è q = 2, il numero di osservazioni è n = 420 e il numero di regressori nella regressione non vincolata è k = 3. La statistica F classica, calcolata usando l’equazione (5.39), è F = [(0, 4366 − 0, 4149) /2] / [(1 − 0, 4366) / (420 − 3 − 1)] = 8, 01. Poiché 8, 01 è maggiore di 4, 61, il valore critico all’1%, l’ipotesi è rifiutata al livello 1% usando questo approccio. Questo esempio illustra i vantaggi e gli svantaggi della statistica F classica. Il suo vantaggio è che può essere calcolata usando una semplice calcolatrice. Il suo svantaggio è che il suo valore può essere molto diverso da quello della statistica F robusta all’eteroschedasticità usata nella sezione 5.7: nel nostro caso, la statistica F robusta all’eteroschedasticità è pari a 5, 43, un valore abbastanza diverso da quello della meno affidabile statistica F classica, che è pari a 8, 01. 191 i i i i i i “generale” — 2005/7/10 — 22:25 — page 192 — #222 i i i i i i i i “generale” — 2005/7/10 — 22:25 — page 193 — #223 i i Capitolo 6 Funzioni di regressione non lineari Nei capitoli 4 e 5, abbiamo assunto che le funzioni di regressione della popolazione siano lineari, ovvero che la pendenza della funzione di regressione della popolazione sia costante e che l’effetto su Y di una variazione unitaria in X non dipenda dal valore di X. Cosa succede se l’effetto su Y di una variazione in X dipende dal valore di una o più variabili indipendenti? In tal caso, la funzione di regressione della popolazione è non lineare. Questo capitolo considera due gruppi di metodi per individuare e modellare funzioni di regressione non lineari. I metodi del primo gruppo sono utilizzabili quando l’effetto su Y della variazione in una variabile indipendente, X1 , dipende dal valore di X1 . Ad esempio, ridurre la dimensione delle classi di uno studente per insegnante potrebbe avere un effetto maggiore, se le classi sono già piccole abbastanza da essere facilmente gestibili che nel caso in cui queste siano talmente grandi che l’insegnante non può fare molto altro se non tenere la classe sotto controllo. Se cosı̀, il punteggio nel test (Y ) è una funzione non lineare del rapporto studenti-insegnanti (X1 ) e la funzione è più inclinata quando X1 è piccola. Un esempio di funzione di regressione non lineare con questo andamento è mostrato nella figura 6.1. Mentre la funzione di regressione lineare (figura 6.1a) ha un’inclinazione costante, la funzione di regressione non lineare (figura 6.1b) ha un’inclinazione maggiore quando X 1 è piccolo rispetto a quando è grande. I metodi appartenenti a questo primo gruppo sono descritti nella sezione 6.2. I metodi del secondo gruppo sono utilizzabili quando l’effetto su Y di una variazione in X1 dipende dal valore di un’altra variabile indipendente, diciamo X 2 . Ad esempio, potrebbero essere soprattutto gli studenti che ancora apprendono l’inglese a trarre beneficio da una maggiore attenzione personale; se cosı̀, l’effetto sui punteggi del test di una riduzione del rapporto studenti-insegnanti sarà maggiore nei distretti con molti studenti che ancora apprendono l’inglese rispetto ai distretti con un minor numero di questi studenti. In questo esempio, l’effetto sui punteggi del test (Y ) di una riduzione nel rapporto studenti-insegnanti (X 1 ) di- i i i i i i “generale” — 2005/7/10 — 22:25 — page 194 — #224 i i Figura 6.1: funzioni di regressione con pendenze diverse Y Y Rise Rise Run Run Rise Run X1 (a) Pendenza costante (b) X1 Pendenza funzione del valore di X1 Y Rise Run Funzione di regressione quando X2 = 0 Rise Run Funzione di regressione quando X2 = 1 (c) X1 Pendenza dipende dal valore di X2 Nella figura 6.1a, la funzione di regressione ha pendenza costante. Nella figura 6.1b, la pendenza della funzione di regressione dipende dal valore di X1 . Nella figura 6.1c, la pendenza della funzione di regressione dipende dal valore di X2 . pende dalla percentuale di coloro che imparano l’inglese nel distretto (X 2 ). Come mostrato nella figura 6.1c, l’inclinazione di questo tipo di funzione di regressione della popolazione dipende dal valore di X2 . I metodi appartenenti a questo secondo gruppo sono presentati nella sezione 6.3. Nei modelli di questo capitolo, la funzione di regressione della popolazione è funzione non lineare delle variabili indipendenti, ovvero l’aspettativa condizionata E(Y i X1i , . . . , Xki ) è funzione non lineare di una o più delle variabili in X. Sebbene siano non lineari nelle X, questi modelli sono funzioni lineari dei coefficienti ignoti (o parametri) del modello di regressione e sono perciò varianti del modello di regressione multipla del capitolo 5. I coefficienti ignoti di queste funzioni non lineari possono quindi essere stimati e sottoposti a verifica usando gli OLS e i metodi descritti nel capitolo 5. Le sezioni 6.1 e 6.2 introducono le funzioni di regressione non lineari nel caso di una 194 Electronic Publishing Services Inc. Stock/Watson, Econometrics 1e STOC.ITEM.0021 Fig. 06.01 i i 1st Proof 2nd Proof i 3rd Proof Final i i i “generale” — 2005/7/10 — 22:25 — page 195 — #225 i i 6.1. Una strategia generale per modellare funzioni di regressione non lineari regressione con una singola variabile indipendente e la sezione 6.3 estende quest’analisi al caso di due variabili indipendenti. Per semplicità, negli esempi empirici delle sezioni 6.1-6.3 saranno omesse variabili di controllo addizionali. In pratica, tuttavia, è importante analizzare funzioni di regressione non lineari nel caso di modelli che controllano per la distorsione da variabile omessa includendo anche variabili di controllo. Nella sezione 6.4, combineremo funzioni di regressione non lineari e variabili di controllo addizionali allo scopo di individuare possibili non linearità nella relazione tra punteggi del test e rapporto studenti-insegnanti, tenendo costanti le caratteristiche degli studenti. 6.1 Una strategia generale per modellare funzioni di regressione non lineari Questa sezione presenta una strategia generale per modellare funzioni di regressione non lineari. In questa strategia, i modelli non lineari sono estensioni del modello di regressione multipla e possono perciò essere stimati e sottoposti a verifica utilizzando gli strumenti del capitolo 5. Prima, però, ritorniamo ai dati della California sui punteggi del test e consideriamo la relazione tra questi e il reddito del distretto. Punteggi del test e reddito del distretto Nel capitolo 5 abbiamo trovato che la condizione economica degli studenti è un fattore rilevante per spiegare la prestazione nei test standardizzati. L’analisi faceva uso di due variabili (la percentuale di studenti che usufruiscono di buoni pasto e la percentuale di famiglie nel distretto che percepiscono assegni familiari) per misurare la frazione di studenti nel distretto che provengono da famiglie povere. Una diversa e più ampia misura della condizione economica è il reddito medio annuo pro capite nel distretto (“reddito del distretto”). I dati della California includono il reddito medio del distretto misurato in migliaia di dollari del 1998. Il campione presenta un’alta variabilità nei livelli di reddito: tra i 420 distretti nel nostro campione, il reddito mediano è 13, 7 (cioè 13.700$ pro capite) e varia da 5, 3 (5.300$ pro capite) a 55, 3 (55.300$ pro capite). La figura 6.2 mostra un grafico a nuvola dei punteggi del test per il quinto grado d’istruzione e del reddito del distretto basato sui dati della California, insieme alla retta di regressione degli OLS che mette in relazione queste due variabili. Il punteggio del test e il reddito medio hanno una forte correlazione positiva, con un coefficiente di correlazione pari a 0, 71; gli studenti dei distretti più ricchi ottenengono risultati migliori nei test rispetto agli studenti dei distretti più poveri. Questo grafico ha una peculiarità: la maggior parte dei punti giace al di sotto della retta degli OLS quando il reddito è molto basso (sotto i 10.000$) o molto alto (sopra i 40.000$), ma si trova al di sopra della retta quando il reddito è tra 15.000$ e 195 i i i i i i “generale” — 2005/7/10 — 22:25 — page 196 — #226 i i 6.1. Una strategia generale per modellare funzioni di regressione non lineari 30.000$. Sembra esserci una curvatura nella relazione tra punteggi del test e reddito che non viene catturata dalla relazione lineare. In breve, sembra che la relazione tra reddito del distretto e punteggio del test non sia una linea retta, ma sia non lineare. Una funzione non lineare è una funzione con pendenza non costante: la funzione f (X) è lineare se la sua pendenza è la stessa qualunque sia il valore di X; se la pendenza dipende dal valore di X, allora f (X) è non lineare. Se una funzione lineare non descrive adeguatamente la relazione tra reddito del distretto e punteggio del test, quale funzione può farlo? Si immagini di disegnare una curva che si adatti ai punti della figura 6.2. Questa curva dovrebbe essere ripida per bassi livelli di reddito e dovrebbe poi appiattirsi all’aumentare del reddito del distretto. Un modo per approssimare matematicamente tale curva è modellare questa relazione come una funzione quadratica. Potremmo cioè modellare il punteggio del test come funzione del reddito e del quadrato del reddito. Un modello di regressione quadratico che mette in relazione i punteggi del test e il reddito è espresso in termini matematici come T estScorei = β0 + β1 Incomei + β2 Income2i + ui , (6.1) dove β0 , β1 e β2 sono coefficienti, Incomei è il reddito dell’i-esimo distretto, Income2i è il quadrato del reddito nell’i-esimo distretto e ui è l’errore di regressione che, come al solito, rappresenta tutti gli altri fattori che determinano il punteggio nel test. Il modello (6.1) è detto modello di regressione quadratico perché la funzione di regressione della popolazione E(T estScorei Incomei ) = β0 + β1 Incomei + β2 Income2i è ipotizzata essere quadratica nella variabile indipendente Income. Se conoscessimo i coefficienti della popolazione β0 , β1 e β2 , potremmo predire il punteggio del test di un distretto basandoci sul suo reddito medio. Questi coefficienti sono, però, ignoti e debbono perciò essere stimati usando un campione di dati. All’inizio, potrebbe sembrare difficile trovare i coefficienti della funzione quadratica che meglio si adatta ai dati nella figura 6.2. Se però si confronta la (6.1) con il modello di regressione multipla del concetto chiave 5.2, si osserva che questa è una variante del modello di regressione multipla con due regressori: il primo regressore è Income e il secondo è Income2 . Cosı̀, dopo aver definito i regressori come Income e Income2 , il modello non lineare (6.1) è semplicemente un modello di regressione multipla con due regressori! Siccome il modello quadratico di regressione è una variante della regressione multipla, i suoi coefficienti ignoti possono essere stimati e sottoposti a verifica usando i metodi descritti nel capitolo 5. Stimando tramite gli OLS i coefficienti della regressione (6.1) con le 420 osservazioni della figura 6.2, si ottiene 196 d T estScore = 607, 3 + 3, 85 Income − 0, 0423 Income2 , R̄2 = 0, 554, (2, 9) (0, 27) (0, 0048) (6.2) i i i i i i “generale” — 2005/7/10 — 22:25 — page 197 — #227 i i 6.1. Una strategia generale per modellare funzioni di regressione non lineari Figura 6.2: grafico a nuvola del punteggio del test sul reddito del distretto e funzione di regressione OLS lineare Punteggio test 740 720 700 680 660 640 620 600 0 10 20 30 40 50 60 Reddito distretto (migliaia di dollari) Esiste una correlazione positiva tra i punteggi del test e il reddito del distretto (correlazione = 0, 71), ma la funzione di regressione OLS lineare non descrive adeguatamente la relazione esistente tra queste variabili. dove (come al solito) gli errori standard dei coefficienti stimati sono riportati in parentesi. La funzione di regressione stimata (6.2) è mostrata nella figura 6.3, sovrapposta al grafico a nuvola dei dati. La funzione quadratica coglie la curvatura evidenziata dal grafico a nuvola: è ripida per bassi valori del reddito del distretto, ma si appiattisce quando il reddito del distretto è alto. In breve, la funzione di regressione quadratica sembra adattarsi meglio ai dati di quella lineare. Possiamo andare oltre questo confronto visivo e verificare formalmente l’ipotesi che la relazione tra reddito e punteggio del test sia lineare contro l’alternativa che sia non lineare. Se la relazione è lineare, allora la funzione di regressione è correttamente specificata dalla (6.1), eccetto per l’assenza del regressore Income2 ; cioè, se la relazione è lineare, allora, vale la Electronic Publishing Services Inc. (6.1) con βStock/Watson, quindi, verificare 2 = 0. Possiamo,Econometrics 1el’ipotesi nulla che β2 = 0 contro l’alternativa che β2 6= 0.STOC.ITEM.0022 Siccome la (6.1) Fig. 06.02è una variante del modello di regressione multipla, l’ipotesi nulla che β2 = 0 può essere verificata costruendo la statistica t per questa ipotesi. Essa è t = ( β̂2 − 1st Proof 2nd Proof 3rd Proof Final 0)/SE(β̂2 ) e cioè pari a t = −0, 0423/0, 0048 = −8, 81 in base alla regressione stimata (6.2). In valore assoluto, la statistica è maggiore del valore critico del test al 5% (che è 1, 96). Infatti, il valore-p della statistica t è minore di 0, 01%, e quindi possiamo rifiutare l’ipotesi che 197 i i i i i i “generale” — 2005/7/10 — 22:25 — page 198 — #228 i i 6.1. Una strategia generale per modellare funzioni di regressione non lineari Figura 6.3: grafico a nuvola del punteggio del test sul reddito del distretto con funzioni lineari e quadratiche Punteggio test 740 Regressione lineare 720 700 680 Regressione quadratica 660 640 620 600 0 10 20 30 40 50 60 Reddito distretto (migliaia di dollari) La funzione di regressione quadratica interpola i dati meglio della funzione di regressione lineare. β2 = 0 a tutti i livelli di significatività convenzionali. La verifica formale di ipotesi supporta perciò il nostro esame informale delle figure 6.2 e 6.3: il modello quadratico si adatta ai dati meglio del modello lineare. L’effetto su Y di una variazione in X nelle specificazioni non lineari Lasciamo da parte per un momento l’esempio del punteggio dei test e consideriamo un problema generale. Vogliamo sapere qual è la variazione attesa nella variabile dipendente Y , quando la variabile indipendente X1 varia dell’ammontare ∆X1 , tenendo costanti le altre variabili indipendenti X2 , . . . , Xk . Quando la funzione di regressione della popolazione è lineare, questo effetto si calcola facilmente: come mostrato nella formula (5.4), la variazione Inc. attesa in Y Electronic è ∆Y = β1 Publishing ∆X1 , dove βServices 1 è il coefficiente di X1 nella regressione nella popolazioEconometrics ne. QuandoStock/Watson, la funzione di regressione è non 1e lineare, invece, il calcolo della variazione attesa STOC.ITEM.0023 in Y è più complesso, perché essa può dipendere dal valore della variabile indipendente. Fig. 06.03 1st Proof 2nd Proof 3rd Proof Final 198 i i i i i i “generale” — 2005/7/10 — 22:25 — page 199 — #229 i i 6.1. Una strategia generale per modellare funzioni di regressione non lineari Una formula generale per una funzione di regressione non lineare.1 I modelli di regressione non lineare considerati in questo capitolo sono del tipo Yi = f (X1i , X2i , . . . , Xki ) + ui , i = 1, . . . , n, (6.3) dove f (X1i , X2i , . . . , Xki ) è la funzione di regressione non lineare della popolazione, cioè una generica funzione delle variabili indipendenti X1i , X2i , . . . , Xki e ui è l’errore. Ad esempio, nel modello di regressione quadratico (6.1) c’è una sola variabile indipendente, cosicché X1 è Income e la funzione di regressione della popolazione è f (Income i ) = β0 + β1 Incomei + β2 Income2i . Poiché la funzione di regressione della popolazione è l’aspettativa condizionata di Y i date X1i , X2i , . . . , Xki , nella (6.3) ammettiamo la possibilità che tale aspettativa condizionata sia una funzione non lineare di X1i , X2i , . . . , Xki , ovvero E(Yi X1i , X2i , . . . , Xki ) = f (X1i , X2i , . . . , Xki ), dove f può essere una funzione non lineare. Se la funzione di regressione è lineare, allora f (X1i , X2i , . . . , Xki ) = β0 + β1 X1i + β2 X2i + . . . + βk Xki e la (6.3) coincide con il modello di regressione lineare del concetto chiave (6.3). Ad ogni modo, il modello (6.3) comprende anche il caso di funzioni di regressione non lineari. L’effetto su Y di una variazione in X. Come discusso nella sezione 5.2, l’effetto atteso su Y di una variazione ∆X1 in X1 , tenendo costanti X2 , . . . , Xk , è la differenza nel valore atteso di Y quando la variabile indipendente è uguale a X 1 + ∆X1 , X2 , . . . , Xk e il valore atteso di Y quando le variabili indipendenti sono uguali a X 1 , X2 , . . . , Xk . La differenza tra questi due valori attesi, diciamo ∆Y , è ciò che accade a Y , in media nella popolazione, quando X1 varia di un ammontare ∆X1 , tenendo costanti le altre variabili X2 , . . . , Xk . Nel modello di regressione non lineare (formula (6.3)), tale effetto su Y è ∆Y = f (X1 + ∆X1 , X2 , . . . , Xk ) − f (X1 , X2 , . . . , Xk ). Poiché la funzione di regressione f è ignota, anche l’effetto su Y di una variazione in X1 è ignoto. Per valutare tale effetto, occorre prima stimare la funzione di regressione della popolazione. In generale, si indichi con fˆ la stima di questa funzione; un esempio è la stima della regressione quadratica riportata nella (6.2). L’effetto stimato su Y (indicato con ∆ Ŷ ) di una variazione in X1 è la differenza tra il valore predetto di Y quando le variabili indipendenti sono uguali a X1 + ∆X1 , X2 , . . . , Xk e il valore predetto di Y quando esse sono uguali a X1 , X 2 , . . . , X k . 1 Il termine “regressione non lineare” si applica a due famiglie concettualmente distinte di modelli. Nella prima famiglia, la funzione di regressione della popolazione è una funzione non lineare delle X, ma lineare nei parametri incogniti (i coefficienti β). Nella seconda famiglia, la funzione di regressione della popolazione è una funzione non lineare dei parametri incogniti e potrebbe essere una funzione lineare o non lineare delle X. I modelli di questo capitolo appartengono tutti alla prima famiglia. Incontreremo, invece, i modelli della seconda famiglia, quando studieremo la regressione con una variabile dipendente binaria nel capitolo 9. 199 i i i i i i “generale” — 2005/7/10 — 22:25 — page 200 — #230 i i 6.1. Una strategia generale per modellare funzioni di regressione non lineari La procedura di calcolo dell’effetto atteso su Y di una variazione in X 1 è schematizzata nel concetto chiave 6.1. Applicazione ai punteggi del test e al reddito. Qual è la variazione prevista nei punteggi del test associata a una variazione nel reddito del distretto di 1.000$, basandosi sulla stima della funzione di regressione quadratica (6.2)? Poiché la funzione di regressione è quadratica, tale effetto dipende dal reddito iniziale del distretto. Consideriamo perciò due casi: un incremento del reddto nel distretto da 10 ad 11 (cioè, da 10.000$ a 11.000$ pro capite) e un incremento del reddito del distretto da 40 a 41. Per calcolare ∆Ŷ associato alla variazione nel reddito da 10 a 11, possiamo applicare la formula generale (6.6) al modello di regressione quadratico. Cosı̀ facendo, si ottiene ∆Ŷ = (β̂0 + β̂1 × 11 + β̂2 × 112 ) − (β̂0 + β̂1 × 10 + β̂2 × 102 ), (6.4) dove β̂0 , β̂1 e β̂2 sono gli stimatori OLS. Il termine nel primo insieme di parentesi della (6.4) è il valore predetto di Y per Income = 11 e il termine nelle seconde parentesi è il valore predetto di Y per Income = 10. Questi valori predetti sono calcolati usando le stime OLS dei coefficienti riportate nella (6.2). Di conseguenza, quando Income = 10, il valore predetto del punteggio del test è 607, 3 + 3, 85 × 10 − 0, 0423 × 102 = 641, 57. Quando Income = 11, il valore predetto è 607, 3 + 3, 85 × 11 − 0, 0423 × 112 = 644, 53. La differenza tra questi due valori predetti è ∆Ŷ = 644, 53 − 641, 57 = 2, 96 punti, ovvero, la differenza predetta tra i punteggi del test di un distretto con reddito medio di 11.000$ e uno con un reddito medio di 10.000$ è di 2, 96 punti. Nel secondo caso, quando il reddito varia da 40.000$ a 41.000$, la differenza tra i valori predetti (espressione (6.4)) è ∆Ŷ = (607, 3 + 3, 85 × 41 − 0, 0423 × 412) − (607, 3 + 3, 85 × 40 − 0, 0423 × 402 ) = 694, 04 − 693, 62 = 0, 42 punti; cioè una variazione nel reddito di 1.000$ è associata a una variazione predetta più ampia nei punteggi, quando il reddito iniziale è 10.000$ rispetto a quando è 40.000$ (rispettivamente 2, 96 e 0, 42 punti). Detto diversamente, la pendenza della funzione di regressione quadratica stimata nella figura 6.3 è maggiore per bassi livelli di reddito (come 10.000$) che per livelli di reddito più alti (come 40.000$). Gli errori standard degli effetti stimati. La stima dell’effetto su Y di una variazione in ˆ che varia da X1 dipende dallo stimatore della funzione di regressione della popolazione f, un campione a un altro. Per questo motivo, l’effetto stimato contiene errori campionari. Un modo per quantificare l’incertezza circa l’effetto stimato dovuta al campionamento è quello di calcolare un intervallo di confidenza per l’effetto vero. Per far ciò, è necessario calcolare l’errore standard di ∆Ŷ . È semplice calcolare l’errore standard di ∆Ŷ quando la funzione di regressione è lineare. 200 i i i i i i “generale” — 2005/7/10 — 22:25 — page 201 — #231 i i 6.1. Una strategia generale per modellare funzioni di regressione non lineari Concetto chiave 6.1: l’effetto atteso su Y di una variazione in X1 nel modello di regressione non lineare (6.3) La variazione attesa in Y , ∆Y , associata alla variazione ∆X1 in X1 , tenendo costanti X2 , . . . , Xk , è la differenza tra il valore della funzione di regressione della popolazione prima e dopo la variazione di X1 , tenendo costanti X2 , . . . , Xk . In altri termini, la variazione attesa di Y è la differenza: ∆Y = f (X1 + ∆X1 , X2 , . . . , Xk ) − f (X1 , X2 , . . . , Xk ) . (6.5) Lo stimatore di tale differenza ignota è la differenza tra i valori predetti in questi due casi. Sia fˆ (X1 , X2 , . . . , Xk ) il valore predetto di Y basato sullo stimatore fˆ della funzione di regressione della popolazione. Allora, la variazione predetta di Y è ∆Ŷ = fˆ (X1 + ∆X1 , X2 , . . . , Xk ) − fˆ (X1 , X2 , . . . , Xk ) . (6.6) L’effetto stimato di una variazione in X1 è β̂1 ∆X1 , perciò l’intervallo di confidenza al 95% per la variazione stimata è β̂1 ∆X1 ± 1, 96 SE(β̂1 )∆X1 . Nei modelli di regressione non lineari di questo capitolo, l’errore standard di ∆ Ŷ può essere calcolato usando gli strumenti introdotti nella sezione 5.8 per la verifica di una singola restrizione riguardante più coefficienti. Per illustrare tale metodo, si consideri la variazione stimata nei punteggi del test associata a una variazione nel reddito da 10 ad 11 (formula (6.4)), che è ∆Ŷ = β̂1 × (11 − 10) + β̂2 × (112 − 102) = β̂1 + 21β̂2 . L’errore standard della variazione predetta è perciò SE(∆Ŷ ) = SE(β̂1 + 21β̂2 ). (6.7) Perciò, se si calcola l’errore standard di β̂1 + 21β̂2 , si è allora calcolato l’errore standard di ∆Ŷ . Ci sono due metodi per far ciò usando i comuni pacchetti statistici. Questi corrispondono ai due approcci della sezione 5.8 per la verifica di una singola restrizione su più coefficienti.2 Il primo metodo segue l’“approccio 1” della sezione 5.8, ovvero calcola la statistica F per l’ipotesi che β1 + 21β2 = 0. L’errore standard di ∆Ŷ è allora dato da3 ∆Ŷ SE(∆Ŷ ) = √ . F (6.8) 2 Questi due approcci sono modi diversi di usare i pacchetti di regressione al fine di implementare le formule generali degli errori standard degli effetti predetti presentati nella sezione 16.2. 3 La (6.8) si deriva osservando che la statistica F è il quadrato della statistica t che verifica tale ipotesi, ovvero F = t2 = [(β̂1 + 21β̂2 )/SE(β̂1 + 21β̂2 )]2 = [∆Ŷ /SE(∆Ŷ )]2 , e risolvendo rispetto a SE(∆Ŷ ). 201 i i i i i i “generale” — 2005/7/10 — 22:25 — page 202 — #232 i i 6.1. Una strategia generale per modellare funzioni di regressione non lineari Applicata alla regressione quadratica (6.2), la statistica F per l’ipotesi che β 1 + 21β2 = 0 è F = 299, 94. Siccome ∆Ŷ = 2, 96, applicando la formula (6.8) si ottiene SE(∆Ŷ ) = √ 2, 96/ 299, 94 = 0, 17. Cosı̀, l’intervallo di confidenza al 95% per la variazione nel valore atteso di Y è 2, 96 ± 1, 96 × 0, 17 o (2, 63, 3, 29). Il secondo metodo segue l’“approccio 2” della sezione 5.8, che richiede di trasformare i regressori in modo che, nella regressione trasformata, uno dei coefficienti sia β 1 + 21β2 . Tale trasformazione è lasciata al lettore come esercizio (esercizio 6.4). Una nota sull’interpretazione dei coefficienti nelle specificazioni non lineari. Nel modello di regressione multipla del capitolo 5, i coefficienti di regressione hanno un’interpretazione naturale. Ad esempio, β1 è la variazione attesa di Y associata a una variazione unitaria di X1 , tenendo costanti gli altri regressori. Come abbiamo visto, però, questo non è in generale il caso nei modelli non lineari. Infatti, non è molto utile pensare a β 1 nella (6.1) come all’effetto di una variazione nel reddito del distretto, tenendo costante il quadrato del reddito del distretto. Questo significa che, nei modelli non lineari, la funzione di regressione si interpreta meglio disegnandola e calcolando l’effetto su Y di variazioni in una o più variabili indipendenti. Un approccio generale per modellare non linearità usando la regressione multipla L’approccio generale per modellare funzioni di regressione non lineari seguito in questo capitolo può essere schematizzato in cinque passaggi. 1. Identificare una possibile relazione non lineare. La cosa migliore da fare è usare la teoria economica e la conoscenza specifica dell’applicazione in modo da suggerire una possibile relazione non lineare. Ancor prima di osservare i dati, ci si deve chiedere se la pendenza della funzione di regressione che mette in relazione Y e X può ragionevolmente dipendere dal valore di X o da un’altra variabile indipendente. Per quale motivo si ha una dipendenza non lineare? Quali forme non lineari si suggeriscono? Ad esempio, pensare alla relazione in classi tra studenti di 11 anni suggerisce che ridurre la dimensione delle classi da 18 a 17 studenti potrebbe avere un effetto maggiore che ridurle da 30 a 29. 2. Specificare una funzione non lineare e stimarne i parametri con gli OLS. Le sezioni 6.2 e 6.3 contengono varie funzioni di regressione non lineari che possono essere stimate con gli OLS. Dopo aver studiato queste sezioni, si capiranno le caratteristiche di ciascuna di queste funzioni. 3. Comprendere se il modello non lineare costituisce un miglioramento rispetto a un modello lineare. Solo perché si pensa che una funzione di regressione possa essere 202 i i i i i i “generale” — 2005/7/10 — 22:25 — page 203 — #233 i i 6.2. Funzioni non lineari di una singola variabile indipendente non lineare non significa che lo sia effettivamente! Bisogna determinare empiricamente se un modello non lineare sia appropriato. Molto spesso si possono usare la statistica t e la statistica F per verificare l’ipotesi nulla che la funzione di regressione della popolazione sia lineare contro l’alternativa che sia non lineare. 4. Disegnare la funzione di regressione non lineare stimata. La funzione di regressione stimata descrive bene i dati? Basta uno sguardo alle figure 6.2 e 6.3 per suggerire che il modello quadratico si adatta ai dati meglio del modello lineare; 5. Stimare l’effetto di una variazione di X su Y . Il passaggio finale è usare la regressione stimata per calcolare l’effetto su Y di una variazione in uno o più regressori X, seguendo il metodo descritto nel concetto chiave 6.1. 6.2 Funzioni non lineari di una singola variabile indipendente Questa sezione fornisce due metodi per modellare una funzione di regressione non lineare. Per semplicità, svilupperemo questi metodi per una funzione di regressione non lineare che contiene una sola variabile indipendente X. Come visto nella sezione 6.4 però, questi modelli possono essere modificati al fine di includere più variabili indipendenti. Il primo metodo discusso in questa sezione è la regressione polinomiale, un’estensione della regressione quadratica usata nell’ultima sezione per modellare la relazione tra punteggio del test e reddito. Il secondo metodo usa i logaritmi di X e/o di Y . Sebbene siano presentati separatamente, questi metodi possono essere usati in combinazione. Polinomi Un modo per specificare una funzione di regressione non lineare è quello di usare un polinomio in X. In generale, sia r la potenza più elevata di X inclusa nella regressione. Il modello di regressione polinomiale di grado r è Yi = β0 + β1 Xi + β2 Xi2 + . . . + βr Xir + ui . (6.9) Quando r = 2, l’equazione (6.9) è il modello di regressione quadratica discusso nella sezione 6.1. Quando r = 3, e quindi X 3 è la più elevata potenza di X inclusa, la (6.9) è detta modello di regressione cubica. Il modello di regressione polinomiale è simile al modello di regressione multipla del capitolo 5, eccetto per il fatto che nel capitolo 5 i regressori erano variabili indipendenti distinte, mentre qui i regressori sono potenze della stessa variabile dipendente X, ovvero i regressori sono X, X 2 , X 3 ecc. Quindi, le tecniche per la stima e l’inferenza sviluppate 203 i i i i i i “generale” — 2005/7/10 — 22:25 — page 204 — #234 i i 6.2. Funzioni non lineari di una singola variabile indipendente per la regressione multipla possono essere applicate anche qui. In particolare, i coefficienti ignoti β0 , β1 , . . . , βr della (6.9) possono essere stimati con una regressione OLS di Yi su Xi , Xi2 , . . . , Xir . Verifica dell’ipotesi nulla che la funzione di regressione della popolazione sia lineare. Se la funzione di regressione della popolazione è lineare, il termine quadratico e quelli di ordine superiore non entrano nella funzione di regressione. Di conseguenza, l’ipotesi nulla (H 0 ) che la regressione sia lineare e l’alternativa (H1 ) che sia un polinomio di grado r corrispondono a H0 : β2 = 0, β3 = 0, . . . , βr = 0 contro H1 : almeno un βj 6= 0, j = 2, . . . , r. (6.10) L’ipotesi nulla che la funzione di regressione della popolazione sia lineare può essere verificata contro l’alternativa che sia un polinomio di grado r, tramite un test di H 0 contro H1 nella (6.10). Siccome H0 è un’ipotesi nulla congiunta con q = r − 1 restrizioni sui coefficienti del modello di regressione polinomiale, essa può essere sottoposta a verifica usando la statistica F, come descritto nella sezione 5.7. Quale grado di polinomio usare? Quante potenze di X dovrebbero essere incluse in una regressione polinomiale? La risposta richiede di bilanciare flessibilità e precisione statistica. Aumentare il grado r introduce maggiore flessibilità nella funzione di regressione e permette di catturare forme più varie; un polinomio di grado r può avere r − 1 punti di svolta nel suo grafico. Aumentare r significa però aggiungere più regressori, il che può ridurre la precisione delle stime. Perciò, la risposta alla domanda riguardante il numero di termini da includere è che bisognerebbe aggiungerne quanti bastano per modellare adeguatamente la funzione di regressione, ma non di più. Sfortunatamente, questa risposta non è di grande aiuto pratico! Un modo pratico per determinare il grado del polinomio è verificare se i coefficienti della (6.9) associati ai valori più elevati di r siano nulli. Se cosı̀, questi termini possono essere eliminati dalla regressione. Questo procedimento, che è chiamato verifica d’ipotesi sequenziale, perché le singole ipotesi sono sottoposte a verifica sequenzialmente, consiste dei seguenti passaggi 1. Si scelga un valore massimo per r e si stimi la regressione polinomiale per quel valore di r. 2. Si utilizzi la statistica t per verificare l’ipotesi che il coefficiente di X r (βr nella (6.9)) sia nullo. Se tale ipotesi viene rifiutata, allora X r entra nella regressione e va usato un polinomio di grado r. 3. Se non si rifiuta βr = 0 nel passaggio 2, si elimini X r dalla regressione e si stimi 204 i i i i i i “generale” — 2005/7/10 — 22:25 — page 205 — #235 i i 6.2. Funzioni non lineari di una singola variabile indipendente una regressione polinomiale di grado r − 1. Si verifichi che il coefficiente di X r−1 sia nullo. Se tale ipotesi viene rifiutata, si usi un polinomio di grado r − 1. 4. Se non si rifiuta βr−1 = 0 nel passaggio 3, allora questo procedimento deve essere ripetuto finché il coefficiente della potenza massima nel nostro polinomio diventa statisticamente significativo. A questa ricetta manca un ingrediente: il grado iniziale r del polinomio. In molte applicazioni con dati economici, le funzioni non lineari sono “lisce”, cioè non mostrano salti repentini o “picchi”. Se cosı̀, è appropriato scegliere un polinomio con ordine massimo piccolo, come 2, 3 o 4, ovvero cominciare dal passaggio 1 con r = 2, 3 o 4 4 . Applicazione alla relazione tra reddito del distretto e punteggi del test. La stima della funzione di regressione cubica che mette in relazione il reddito del distretto ai punteggi del test è d T estScore = 600, 1 + 5, 02 Income − 0, 096 Income2 + 0, 00069 Income3 , (6.11) (5, 1) (0, 71) (0, 029) (0, 00035) R̄2 = 0, 555. La statistica t relativa a Income3 è 1, 97, quindi l’ipotesi nulla che la funzione di regressione sia quadratica è respinta al livello 5% contro l’alternativa che sia cubica. Inoltre, la statistica F per l’ipotesi nulla che i coefficienti di Income2 e Income3 siano entrambi nulli è 37, 7, con un valore-p minore dello 0, 01%; quindi, l’ipotesi nulla che la funzione di regressione sia lineare è respinta contro l’alternativa che sia cubica. Interpretazione dei coefficienti nei modelli polinomiali di regressione. I coefficienti delle regressioni polinomiali non hanno un’interpretazione semplice. Il miglior modo per interpretare le regressioni polinomiali è quello di disegnare la funzione di regressione stimata e di calcolare l’effetto di Y associato a una variazione in X per uno o più valori di X. Logaritmi Un altro modo di specificare una funzione di regressione non lineare è usare il logaritmo naturale di Y e/o di X. I logaritmi convertono variazioni nelle variabili in variazioni percentuali, e molte relazioni sono espresse in modo naturale in termini percentuali. Vediamo alcuni esempi. 4 Un modo diverso di scegliere r è basato su qualche “criterio d’informazione”, come descritto nel capitolo 12 nell’ambito dell’analisi delle serie temporali. In pratica, l’approccio basato su un criterio d’informazione e quello della verifica di ipotesi sequenziale qui descritto conducono spesso a risultati simili. 205 i i i i i i “generale” — 2005/7/10 — 22:25 — page 206 — #236 i i 6.2. Funzioni non lineari di una singola variabile indipendente • La sezione 3.5 ha esaminato il differenziale salariale tra laureati e laureate. In tale discussione, il differenziale salariale è stato misurato in dollari. Tuttavia, è più facile confrontare i differenziali salariali tra professioni e nel tempo quando questi sono espressi in termini percentuali. • Nella sezione 6.1, si è visto che il reddito di un distretto e il punteggio del test sono legati in modo non lineare. Potrebbe tale relazione essere lineare se si usassero variazioni percentuali? In altre parole, è possibile che una variazione nel reddito del distretto dell’1% –piuttosto che di 1.000$– sia associata a una variazione nei punteggi del test che è approssimativamente costante per i diversi livelli di reddito? • Nell’analisi economica della domanda del consumatore, si assume spesso che un incremento dei prezzi dell’1% porti a un decremento percentuale nella quantità domandata. La variazione percentuale nella domanda derivante da una variazione nel prezzo dell’1% è detta elasticità rispetto al prezzo. Le specificazioni che utilizzano i logaritmi permettono di stimare relazioni percentuali come queste. Prima di introdurre tali specificazioni, richiamiamo brevemente le funzioni esponenziale e logaritmo naturale. La funzione esponenziale e il logaritmo naturale. La funzione esponenziale e la sua inversa, il logaritmo naturale, giocano un ruolo importante nel modellare funzioni di regressione non lineari. La funzione esponenziale di x è ex , ovvero e elevato alla potenza x, dove e è la costante 2.71828 . . .; la funzione esponenziale si indica anche con exp(x). Il logaritmo naturale è l’inverso della funzione esponenziale, cioè, il logaritmo naturale è la funzione tale che x = ln(ex ) o, equivalentemente, x = ln[exp(x)]. La base del logaritmo naturale è e. Sebbene ci siano logaritmi in altre basi, per esempio in base 10, in questo testo considereremo solo logaritmi in base e o naturali; per questo motivo, quando useremo il termine “logaritmo” intenderemo sempre “logaritmo naturale”. La funzione logaritmica, y = ln(x), è rappresentata nella figura 6.4. Si noti che la funzione logaritmica è definita soltanto per valori positivi di x e ha una pendenza che è inizialmente più ripida e poi si appiattisce (sebbene la funzione sia sempre crescente). La pendenza della funzione logaritmica ln(x) è 1/x. La funzione logaritmo ha le seguenti proprietà: ln(1/x) = − ln(x); (6.12) ln(ax) = ln(a) + ln(x); (6.13) ln(x/a) = ln(x) − ln(a); (6.14) ln(xa ) = a ln(x). (6.15) 206 i i i i i i “generale” — 2005/7/10 — 22:25 — page 207 — #237 i i 6.2. Funzioni non lineari di una singola variabile indipendente Figura 6.4: la funzione logaritmica Y = ln(X) Y 5 4 Y = ln(X) 3 2 1 0 0 20 40 60 80 100 120 X La funzione logaritmica Y = ln(X) è più inclinata per valori piccoli che per valori grandi di X , è definita solo per X > 0 e ha pendenza 1/X . Logaritmi e percentuali. Il legame tra logaritmi e percentuali si basa sulla seguente proprietà: quando ∆x è piccolo, la differenza tra il logaritmo di x + ∆x e il logaritmo di x è approssimativamente ∆x/x, la variazione percentuale di x divisa per 100: ∆x ln(x + ∆x) − ln(x) ∼ = x (quando ∆x è piccolo), x (6.16) dove “∼ =” significa “approssimativamente uguale a”. Questo risultato richiede una derivazione matematica, ma si dimostra prontamente facendo la prova con alcuni valori di x e ∆x. Ad esempio, quando x = 100 e ∆x = 1, allora ∆x/x = 1/100 = 0, 01 (o 1%), mentre Electronic Publishing Services Inc. ln(x + ∆x) − ln(x) = ln(101) − ln(100) = 0, 00995 (o 0, 995%). Cosı̀ ∆x/x (0, 01) è Stock/Watson, Econometrics 1e prossimo a ln(x + ∆x) − ln(x) (0, 00995). Quando ∆x = 5, ∆x/x = 5/100 = 0, 05, STOC.ITEM.0024 mentre ln(x + ∆x) − ln(x) = ln(105) − ln(100) = 0, 04879. Fig. 06.04 1st Proof 2nd Proof 3rd Proof Final utilizzare I tre modelli di regressione logaritmica. Ci sono tre casi diversi in cui si possono i logaritmi: quando X è logaritmica ma Y non lo è; quando Y è logaritmica ma X non lo è; quando Y e X sono entrambe logaritmiche. L’interpretazione dei coefficienti di regressione è diversa in ciascuno dei tre casi. Discutiamoli uno alla volta. 207 i i i i i i “generale” — 2005/7/10 — 22:25 — page 208 — #238 i i 6.2. Funzioni non lineari di una singola variabile indipendente Caso I: X è logaritmica, ma non Y . In questo caso, il modello di regressione è Yi = β0 + β1 ln(Xi ) + ui , i = 1, . . . , n. (6.17) Siccome la Y non è espressa in logaritmi ma lo è X, questo è talvolta detto modello linearelogaritmico. Nel modello lineare-logaritmico, a una variazione di X dell’1% è associata una variazione di Y pari a 0, 01β1 . Consideriamo, a tal proposito, la differenza tra la funzione di regressione per valori di X che differiscono di ∆X, ovvero [β0 + β1 ln(X + ∆X)] − [β0 + β1 ln(X)] = β1 [ln(X + ∆X) − ln(X)] ∼ = β1 (∆X/X), dove il passaggio finale sfrutta l’approssimazione (6.16). Se X variasse dell’1%, allora ∆X/X = 0, 01; perciò, in questo modello, una variazione in X dell’1% è associata una variazione in Y di 0, 01β1. La sola differenza tra il modello di regressione (6.17) e il modello di regressione con un singolo regressore del capitolo 4 è che la variabile di destra è ora il logaritmo di X invece che X. Per stimare i coefficienti β0 e β1 della funzione (6.17) bisogna prima calcolare la nuova variabile ln(X); operazione semplice, se si usa un foglio elettronico o un pacchetto statistico. Si possono poi stimare β0 e β1 attraverso una regressione OLS di Yi su ln(Xi ). Le ipotesi su β1 possono essere verificate usando la statistica t e gli intervalli di confidenza per β 1 possono essere costruiti come β̂1 ± 1, 96 SE(β̂1 ). Come esempio, ritorniamo alla relazione tra reddito del distretto e punteggi del test. Invece della specificazione quadratica, potremmo usare la specificazione lineare-logaritmica della funzione (6.17). Stimando tale regressione attraverso gli OLS si ottiene d T estScore = 557, 8 + 36, 42 ln(Income), (3, 8) (1, 40) R̄2 = 0, 561. (6.18) In base alla (6.18), un incremento del reddito dell’1% è associato a un incremento medio del punteggio del test di 0, 01 × 36, 42 = 0, 36 punti. Per stimare l’effetto atteso su Y di una variazione in X espressa in migliaia di dollari, la sua unità di misura originaria (non in logaritmi), possiamo usare il metodo esposto nel concetto chiave 6.1. Ad esempio, qual è la differenza tra il punteggio del test di due distretti, uno con reddito medio di 10.000$ e l’altro di 11.000$? Il valore stimato di ∆Y è la differenza tra i valori predetti: ∆Ŷ = [557, 8 + 36, 42 ln(11)] − [557, 8 + 36, 42 ln(10)] = 36, 42 × [ln(11) − ln(10)] = 3, 47. In modo simile, la differenza tra un distretto con un reddito medio di 40.000$ e un distretto con un reddito medio di 41.000$ è 36, 42×[ln(41)−ln(40)] = 0, 90. Cosı̀, come per la specificazione quadratica, questa regressione prevede che un incremento di reddito di 1.000$ abbia un effetto maggiore sui punteggi del test nei distretti poveri che in quelli benestanti. La funzione di regressione lineare-logaritmica stimata è rappresentata nella figura 6.5. Siccome il regressore della funzione (6.18) è il logaritmo naturale del reddito, invece che il 208 i i i i i i “generale” — 2005/7/10 — 22:25 — page 209 — #239 i i 6.2. Funzioni non lineari di una singola variabile indipendente livello del reddito, la funzione di regressione stimata non è una linea retta. Come la funzione di regressione quadratica della figura 6.3, essa è inizialmente ripida ma poi si appiattisce per livelli di reddito più alti. Caso II: Y è logaritmica, ma non X. In questo caso, il modello di regressione è (6.19) ln(Yi ) = β0 + β1 Xi + ui . Poiché Y è espressa in logaritmi ma X non lo è, questo è detto modello log-lineare. Nel modello log-lineare, una variazione unitaria di X (∆X = 1) è associata a una variazione nel 100×β1% di Y . A tal proposito, confrontiamo i valori attesi di ln(Y ) per valori di X che differiscono di ∆X. Il valore atteso di ln(Y ) data X è ln(Y ) = β0 +β1 X. Dato X +∆X, il valore atteso è dato da ln(Y + ∆Y ) = β0 + β1 (X + ∆X). Cosı̀, la differenza tra questi valori attesi è ln(Y + ∆Y ) − ln(Y ) = [β0 + β1 (X + ∆X)] − [β0 + β1 X] = β1 ∆X. Dall’approssimazione (6.16), tuttavia, se β1 ∆X è piccolo, si ottiene ln(Y +∆Y )−ln(Y ) ∼ = ∆Y /Y . ∼ Perciò, ∆Y /Y = β1 ∆X. Se ∆X = 1, cosicché X varia di un’unità, ∆Y /Y varia di β1 . In termini percentuali, una variazione unitaria di X è associata a una variazione di Y del 100 × β1 %. Come illustrazione, ritorniamo all’esempio empirico della sezione 3.6, cioè la relazione tra età e retribuzione dei laureati. Molti contratti d’impiego specificano che, per ogni anno di servizio aggiuntivo, un lavoratore ha diritto a un certo incremento percentuale del proprio salario. Questa relazione percentuale suggerisce di utilizzare la specificazione log-lineare (6.19), cosicché a ogni anno d’età in più (X) sono associate, in media nella popolazione, variazioni percentuali costanti delle retribuzioni (Y ). Calcolando prima la nuova variabile dipendente, ln(Earningsi ), i coefficienti incogniti β0 e β1 possono essere stimati attraverso regressioni OLS di ln(Earningsi ) su Agei . Stimata usando le 12.077 osservazioni sui laureati della Current Population Survey del 1999 (i dati sono descritti nell’appendice 3.1), tale relazione è d ln(Earnings) = 2, 453 + 0, 0128 Age, (0, 024) (0, 0006) R̄2 = 0, 0387. (6.20) Secondo questa regressione, ci si attende che le retribuzioni crescano dell’1, 28% ((100 × 0, 0128)%) per ogni anno d’età in più. Caso III: X e Y sono entrambe logaritmiche. In questo caso, il modello di regressione è ln(Yi ) = β0 + β1 ln(Xi ) + ui . (6.21) Siccome Y ed X sono entrambe logaritmiche, questo modello è noto come modello log-log. Nel modello log-log, a una variazione di X dell’1% è associata una variazione di Y di β1 %. Perciò, in questa specificazione β1 è l’elasticità di Y rispetto a X. A tal proposito, 209 i i i i i i “generale” — 2005/7/10 — 22:25 — page 210 — #240 i i 6.2. Funzioni non lineari di una singola variabile indipendente Figura 6.5: la funzione di regressione lineare-logaritmica Punteggio test 740 Regressione lineare-logaritmica 720 700 680 660 640 620 600 0 10 20 30 40 50 60 Reddito distretto (migliaia di dollari) La funzione di regressione lineare-logaritmica stimata Ŷ = β̂0 + β̂1 ln(X) cattura gran parte della relazione nonlineare tra punteggi del test e reddito del distretto. utilizziamo ancora una volta il concetto chiave 6.1, cosicché ln(Y + ∆Y ) − ln(Y ) = [β 0 + β1 ln(X + ∆X)] − [β0 + β1 ln(X)] = β1 [ln(X + ∆X) − ln(X)]. Approssimando entrambi i membri di quest’equazione secondo la (6.16), si ottiene ∆Y ∼ ∆X o = β1 Y X ∆Y /Y 100 × (∆Y /Y ) variazione percentuale in Y β1 = = = . (6.22) ∆X/X 100 × (∆X/X) variazione percentuale in X Perciò, nella specificazione log-log, β1 è il rapporto tra la variazione percentuale di Y e l’associata variazione percentuale di X. Se la variazione percentuale di X è dell’1% (ovvero, se ∆X = 0, 01X), allora β1 è la variazione percentuale di Y associata a una variazione di X Publishing Services dell’1%. Electronic In altre parole, β1 è l’elasticità di YInc. rispetto a X. Stock/Watson, Econometrics 1e Come illustrazione, ritorniamo alla relazione tra reddito e punteggi del test. Quando tale relazioneSTOC.ITEM.0025 è specificata in questa forma, i coefficienti incogniti sono stimati da una regressione Fig. dei 06.05 del logaritmo punteggi del test sul logaritmo del reddito. La risultante funzione stimata è 1st Proof Proof 3rd Proof R̄2 = Final d ln(T estScore) = 6, 336 2nd + 0, 0554 ln(Income), 0, 557. (0, 006) (0, 0021) (6.23) Secondo questa regressione, un incremento del reddito dell’1% corrisponde a un incremento medio dello 0, 0554% nei punteggi del test. 210 i i i i i i “generale” — 2005/7/10 — 22:25 — page 211 — #241 i i 6.2. Funzioni non lineari di una singola variabile indipendente La stima della funzione di regressione log-log (6.23) è mostrata nella figura 6.6. Siccome Y è in logaritmi, l’asse verticale della figura 6.6 misura il logaritmo del punteggio del test e il grafico a nuvola rappresenta il logaritmo dei punteggi del test contro il reddito di un distretto. A fini di confronto, la figura 6.6 mostra anche la stima della funzione di regressione per la specificazione log-lineare, che è d ln(T estScore) = 6, 439 + 0, 00284 ln(Income), (0, 003) (0, 00018) R̄2 = 0, 497. (6.24) Poiché l’asse verticale è in logaritmi, la funzione di regressione stimata (6.24) è la linea retta della figura 6.6. Come è possibile vedere nella figura 6.6, la specificazione log-log approssima i dati leggermente meglio della specificazione log-lineare. Ciò è coerente con l’ R̄2 più elevato della regressione log-log (0, 557) rispetto alla regressione log-lineare (0, 497). Anche cosı̀, la specificazione log-log non si adatta ai dati particolarmente bene: per i redditi più bassi, la maggior parte delle osservazioni giace al di sotto della curva log-log, mentre per i redditi medi la maggior parte delle osservazioni giace al di sopra della funzione di regressione stimata. I tre modelli di regressione logaritmica sono riassunti nel concetto chiave 6.2. Una difficoltà nel confrontare le specificazioni logaritmiche. Tra i modelli di regressione logaritmica quale si adatta meglio ai dati? Come abbiamo visto nella discussione delle funzioni stimate (6.23) e (6.24), l’R̄2 può essere usato per confrontare i modelli log-lineare e log-log; quest’ultimo ha un R̄2 più elevato. Similmente, l’R̄2 può essere usato per confrontare la regressione lineare-logaritmica (6.18) e la regressione lineare di Y su X. Nell’esempio dei punteggi del test e del reddito, la regressione lineare-logaritmica ha un R̄2 di 0, 561, mentre la regressione lineare ha un R̄2 di 0, 508, per cui il modello lineare-logaritmico si adatta meglio ai dati. Come possiamo confrontare il modello lineare-logaritmico e il modello log-log? Sfortunatamente, l’R̄2 non può essere usato per confrontare queste due regressioni perché esse hanno variabili dipendenti diverse (una è Yi , l’altra è ln(Yi )). Si ricordi che l’R̄2 misura la frazione della varianza della variabile dipendente spiegata dai regressori. Poiché le variabili dipendenti dei modelli log-log e lineare-logaritmico sono diverse, non ha senso paragonare i loro R̄2 . A causa di questo ostacolo, la cosa migliore da fare in una particolare applicazione è decidere, usando la teoria economica e l’esperienza vostra o di altri esperti circa il problema in questione, se abbia senso specificare Y in logaritmi. Ad esempio, gli economisti del lavoro modellano in genere le retribuzioni usando i logaritmi perché il confronto dei salari, l’incremento dei salari contrattuali e cosı̀ via sono discussi più facilmente in termini percentuali. Nel modellare i punteggi del test, sembra naturale (a noi, almeno) discutere i risultati del test 211 i i i i i i “generale” — 2005/7/10 — 22:25 — page 212 — #242 i i 6.2. Funzioni non lineari di una singola variabile indipendente Figura 6.6: funzioni di regressione log-lineare e log-log ln(punteggio test) 6,60 Regressione log-lineare 6.55 Regressione log-log 6,50 6,45 6,40 0 10 20 30 40 50 60 Reddito distretto (migliaia di dollari) Nella funzione di regressione log-lineare, ln(Y ) è una funzione lineare di X . Nella funzione di regressione log-log, ln(Y ) è una funzione lineare di ln(X) in termini di punti piuttosto che di incrementi percentuali, per questo motivo usiamo modelli in cui la variabile dipendente è il punteggio nel test piuttosto che il suo logaritmo. Calcolo delle previsioni di Y , quando Y è logaritmico.5 Se la variabile dipendente Y deve essere trasformata in logaritmi, la stima della regressione può essere usata per calcolare direttamente il valore predetto di ln(Y ). Tuttavia, risulta un po’ più complicato calcolare il valore predetto di Y . Consideriamo, infatti, il modello di regressione log-lineare (6.19) e riscriviamolo in modo da specificarlo in termini di Y invece che di ln(Y ). Pertanto, si prenda l’esponenziale di Publishing Services Inc. entrambi iElectronic lati della (6.19); il risultato è Stock/Watson, Econometrics 1e STOC.ITEM.0026 Yi = exp(β0 + β1 Xi + ui ) = eβ0 +β1 Xi eui . (6.25) Fig. 06.06 Se ui è distribuito indipendentemente daProof Xi , allora il valore atteso di Yi data Xi è E(Yi Xi ) = 1st Proof 2nd 3rd Proof Final β0 +β1 Xi ui β0 +β1 Xi ui E(e e Xi ) = e E(e ). Il problema è che, sebbene E(ui ) = 0, E(eui ) 6= 1. Perciò, il valore predetto appropriato di Yi non si ottiene semplicemente prendendo l’espo5 Questo materiale è di livello più avanzato e può essere evitato senza soluzione di continuità. 212 i i i i i i “generale” — 2005/7/10 — 22:25 — page 213 — #243 i i 6.2. Funzioni non lineari di una singola variabile indipendente Concetto chiave 6.2: i logaritmi nella regressione: tre casi I logaritmi possono essere usati per trasformare la variabile dipendente Y , una variabile indipendente X o entrambe (ma debbono essere positive). La seguente tabella sintetizza questi tre casi e l’interpretazione del coefficiente di regressione β1 . In ogni caso, β1 può essere stimato applicando gli OLS dopo aver preso il logaritmo della variabile dipendente e/o della variabile indipendente. Caso Regressione Interpretazione di β1 I Yi = β0 + β1 ln(Xi ) + ui II ln(Yi ) = β0 + β1 Xi + ui III ln(Yi ) = β0 +β1 ln(Xi )+ui Una variazione percentuale dell’1% in X determina una variazione pari a 0, 01β1 in Y . Una variazione di un’unità in X (∆X = 1) determina una variazione pari al 100β1% in Y . Una variazione pari all’1% in X determina una variazione pari al β1 % in Y , quindi β1 è l’elasticità di Y rispetto a X. nenziale di β̂0 + β̂1 Xi , ovvero, ponendo Ŷi = eβ̂0 +β̂1 Xi , questo valore predetto è distorto a causa dell’omissione del fattore E(eui ). Una soluzione a questo problema è stimare il fattore E(eui ) e usare tale stima nel calcolo del valore predetto di Y , ma ciò diventa complicato e non andremo oltre. Un’altra “soluzione”, che è l’approccio seguito in questo libro, è calcolare i valori predetti del logaritmo di Y , senza trasformarli nella loro unità di misura originaria. In pratica, ciò è spesso accettabile perché, quando la variabile dipendente ha una specificazione logaritmica, è spesso più naturale usare nell’analisi proprio la specificazione logaritmica (e le relative interpretazioni in termini di percentuali). Modelli polinomiali e logaritmici del rapporto tra punteggi del test e reddito del distretto In pratica, la teoria economica e l’esperienza potrebbero suggerire una forma funzionale da usare, ma, alla fine, la forma vera della funzione di regressione della popolazione è ignota. Interpolare una funzione non lineare richiede perciò di decidere quale metodo o combinazione di metodi funzioni meglio. Come illustrazione, confrontiamo le specificazioni logaritmiche e quelle polinomiali della relazione tra reddito del distretto e punteggi del test. 213 i i i i i i “generale” — 2005/7/10 — 22:25 — page 214 — #244 i i 6.3. Interazioni tra variabili indipendenti Le specificazioni polinomiali. Abbiamo considerato due specificazioni polinomiali usando potenze di Income, quadratica (specificazione (6.2)) e cubica (specificazione (6.11)). Poiché il coefficiente di Income3 nella (6.11) era significativo al 5%, la specificazione cubica costituiva un miglioramento rispetto alla quadratica e abbiamo, perciò, selezionato il modello cubico come specificazione polinomiale preferita. Le specificazioni logaritmiche. La specificazione logaritmica (6.18) sembrava fornire una buona interpolazione dei dati, ma non avevamo verificato formalmente questo risultato. Un modo per farlo è aggiungere al modello potenze più elevate del logaritmo del reddito. Se questi termini addizionali non sono statisticamente diversi da zero, possiamo allora concludere che la specificazione (6.18) è adeguata, nel senso che non può essere rifiutata contro una funzione polinomiale del logaritmo. Di conseguenza, la regressione cubica stimata (specificata nelle potenze del logaritmo del reddito) è d T estScore = 486, 1 + 113, 4 ln(Income) − 26, 9 [ln(Income)]2 (31,7) (79, 4) (87, 9) + 3, 06 [ln(Income)]3 , (3, 74) R̄2 = 0, 560. (6.26) La statistica t relativa al coefficiente del termine cubico è 0, 818, e quindi l’ipotesi che il vero coefficiente sia nullo non è rifiutata al 10%. La statistica F per l’ipotesi congiunta che i veri coefficienti del termine cubico e quadratico siano entrambi nulli è 0, 44, con un valore-p di 0, 64; perciò, questa ipotesi congiunta non è rifiutata al livello 10%. Il modello cubico logaritmico (6.26) non fornisce, quindi, un miglioramento statisticamente significativo rispetto al modello (6.18), che è lineare nel logaritmo del reddito. Confronto delle specificazioni cubica e log-lineare. Nella figura 6.7 sono mostrate le funzioni di regressione stimate per la specificazione cubica (6.11) e per la specificazione linearelogaritmica (6.18). Le due funzioni sono abbastanza simili. Uno strumento statistico per confrontare tali specificazioni è l’R̄2 . L’R̄2 è 0, 561 per la regressione logaritmica e 0, 555 per la regressione cubica. Poiché la specificazione logaritmica ha un piccolo vantaggio in termini di R̄2 e poiché questa specificazione non richiede polinomi di ordine elevato nel logaritmo del reddito per adattarsi a questi dati, adottiamo la specificazione logaritmica (6.18). 6.3 Interazioni tra variabili indipendenti Nell’introduzione a questo capitolo ci siamo chiesti se ridurre il rapporto studenti-insegnanti possa avere un effetto maggiore sui punteggi del test nei distretti in cui molti studenti stanno ancora imparando l’inglese rispetto a quelli dove tali studenti sono pochi. Ciò potrebbe, per esempio, essere determinato dal fatto che gli studenti che stanno ancora imparando l’inglese 214 i i i i i i “generale” — 2005/7/10 — 22:25 — page 215 — #245 i i 6.3. Interazioni tra variabili indipendenti Figura 6.7: le funzioni di regressione lineare-logaritmica e cubica Punteggio test 740 720 Regressione lineare-logaritmica 700 680 Regressione cubica 660 640 620 600 0 10 20 30 40 50 60 Reddito distretto (migliaia di dollari) Le stime della funzione di regressione cubica (equazione (6.11)) e della funzione di regressione lineare-logaritmica (equazione (6.18)) sono pressoché identiche per questo campione. ricevono benefici diversi da un’istruzione su base personale oppure impartita a un piccolo gruppo. Se cosı̀, la presenza in un distretto di molti studenti che ancora apprendono l’inglese potrebbe interagire con il rapporto studenti-insegnanti in modo tale che l’effetto sui punteggi del test di una variazione nel rapporto studenti-insegnati dipende dalla frazione di studenti che ancora apprendono l’inglese. Questa sezione spiega come incorporare interazioni tra due variabili indipendenti nel modello di regressione multipla. La possibile interazione tra il rapporto studenti-insegnanti e la frazione di studenti che stanno ancora apprendendo l’inglese è un esempio di una situazione più generale in cui l’effetto su Y della variazione in una variabile indipendente dipende dal valore diElectronic un’altra variabile indipendente. i tre casi: quello in cui le variabili Publishing Services Considereremo Inc. indipendenti sono entrambe binarie; quello Stock/Watson, Econometrics 1ein cui una è binaria e l’altra è continua; e quello in cui entrambe sono continue. STOC.ITEM.0027 Fig. 06.07 Interazioni 1st traProof due variabili 2ndbinarie Proof 3rd Proof Final Consideriamo la regressione del logaritmo delle retribuzioni (Yi , dove Yi = ln(Earningsi )) su due variabili binarie, il genere dell’individuo (D1i , che è = 1 se l’i-esimo individuo è una femmina) e se questo ha una laurea (D2i , dove D2i = 1 se l’i-esimo individuo è un maschio). 215 i i i i i i “generale” — 2005/7/10 — 22:25 — page 216 — #246 i i 6.3. Interazioni tra variabili indipendenti La regressione lineare di Yi su queste due variabili è Yi = β0 + β1 D1i + β2 D2i + ui . (6.27) In questo modello di regressione, β1 è l’effetto sul logaritmo delle retribuzioni dell’essere femmina, tenendo costante il livello d’istruzione, e β2 è l’effetto del possedere una laurea, tenendo costante il genere. La specificazione (6.27) ha un’importante limitazione: l’effetto di possedere una laurea, tenendo costante il genere, è lo stesso per maschi e femmine. Non c’è tuttavia ragione per cui questo debba essere cosı̀. In termini matematici, l’effetto di D2i su Yi , tenendo D1i costante, potrebbe dipendere dal valore di D1i . In altre parole, ci potrebbe essere un’interazione tra il genere e il fatto di possedere una laurea, di modo che il valore sul mercato del lavoro di un titolo di studio risulti diverso per maschi e femmine. Sebbene la specificazione (6.27) non permetta questa interazione tra genere e possesso di un titolo di studio, è facile modificarla in modo da includere come regressore il prodotto delle due variabili binarie, D1i × D2i . La regressione risultante è Yi = β0 + β1 D1i + β2 D2i + β3 (D1i × D2i ) + ui . (6.28) Il nuovo regressore, il prodotto D1i × D2i , è detto termine d’interazione o regressore d’interazione e il modello di regressione (6.28) è detto modello di regressione con interazione tra variabili binarie. Il termine d’interazione nella (6.28) permette che l’effetto tra il logaritmo delle retribuzioni (Yi ) dell’avere una laurea (cambiando D2i da D2i = 0 a D2i = 1) possa dipendere dal genere (D1i ). Per mostrare ciò matematicamente, calcoliamo l’effetto sulla popolazione di una variazione di D2i , usando il metodo generale delineato nel concetto chiave 6.1. Il primo passo è calcolare l’aspettativa condizionata di Y per D2i = 0, dato un valore di D1i ; questa è E(Yi D1i = d1 , D2i = 0) = β0 + β1 × d1 + β2 × 0 + β3 × (d1 × 0) = β0 + β1 d1 . Il passo successivo è calcolare l’aspettativa condizionata di Yi dopo la variazione, ovvero per D2i = 1, dato lo stesso valore di D1i ; questo è E(Yi D1i = d1 , D2i = 1) = β0 + β1 × d1 + β2 × 1 + β3 × (d1 × 1) = β0 + β1 d1 + β2 + β3 d1 . L’effetto di questa variazione è la differenza tra i valori attesi (ovvero, la differenza nella formula (6.6)), che è E(Yi D1i = d1 , D2i = 1) − E(Yi D1i = d1 , D2i = 0) = β2 + β3 d1 . (6.29) Perciò, nella specificazione (6.28) con interazione tra variabili binarie, l’effetto dell’ottenere una laurea (una variazione unitaria in D2i ) dipende dal genere dell’individuo (il valore di D1i , che è d1 nella (6.29)). Se l’individuo è un maschio (d1 = 0), l’effetto del possedere una laurea è β2 , ma se l’individuo è una femmina (d1 = 1), l’effetto è β2 + β3 . Il coefficiente β3 del termine d’interazione è la differenza nell’effetto dovuto al possesso di un titolo di studio tra donne e uomini. 216 i i i i i i “generale” — 2005/7/10 — 22:25 — page 217 — #247 i i 6.3. Interazioni tra variabili indipendenti Sebbene questo esempio sia stato presentato usando il logaritmo delle retribuzioni, il genere e il fatto di possedere una laurea, il punto ha carattere più generale. La regressione con interazione tra variabili binarie fa dipendere l’effetto della variazione di una delle variabili indipendenti binarie dal valore dell’altra variabile binaria. Il metodo che abbiamo usato per interpretare i coefficienti consiste, in effetti, nel considerare ogni possibile combinazione tra le variabili binarie. Tale metodo, che si applica a tutte le regressioni con variabili binarie, è riassunto nel concetto chiave 6.3. Applicazione al rapporto studenti-insegnanti e alla percentuale di studenti che stanno ancora apprendendo l’inglese. Sia HiST Ri (acronimo dall’inglese High Student-Teacher Ratio) una variabile binaria, che è uguale a uno se il rapporto studenti-insegnanti è 20 o maggiore ed è uguale a zero altrimenti, e sia HiELi (acronimo dall’inglese High English Learners) una variabile binaria che è uguale a uno se la percentuale di studenti che ancora apprendono l’inglese è almeno il 10% ed è uguale a zero altrimenti. La regressione con interazione dei punteggi nel test su HiST Ri e HiELi è d T estScore = 664, 1 − 18, 2 HiEL − 1, 9 HiST R − 3, 5 (HiST R × HiEL), (6.30) (1, 4) (2, 3) (1, 9) (3, 1) R̄2 = 0, 290. L’effetto predetto del passaggio da un distretto con un basso rapporto studenti-insegnanti a uno con un alto rapporto studenti-insegnanti, tenendo costante la percentuale di studenti che ancora apprendono l’inglese, è dato dalla (6.29), sostituendo i coefficienti della popolazione con i coefficienti stimati. Secondo la stima (6.30), tale effetto è −1, 9 − 3, 5HiEL. Perciò, se la frazione di chi apprende ancora l’inglese è bassa (HiEL = 0), l’effetto sui punteggi del test di un passaggio da HiST R = 0 a HiST R = 1 è un decremento di 1, 9 punti. Se la frazione di studenti che ancora apprendono l’inglese è alta, i punteggi del test subiscono un decremento stimato di 1, 9 + 3, 5 = 5, 4 punti. La regressione stimata (6.30) può anche essere usata per stimare i punteggi medi del test per ciascuna delle quattro combinazioni possibili delle variabili binarie. Questo si può fare usando le procedure nel concetto chiave 6.3. Di conseguenza, la media campionaria dei punteggi del test per i distretti con basso rapporto studenti-insegnanti (HiST R i = 0) e bassa frazione di studenti che ancora imparano l’inglese (HiELi = 0) è 664, 1. Per i distretti con HiST Ri = 1 (un rapporto elevato studenti-insegnanti) e HiELi = 0 (bassa frazione di studenti che ancora apprendono l’inglese), la media campionaria è 662, 2 (= 664, 1 − 1, 9). Quando HiST Ri = 0 e HiELi = 1, la media campionaria è 645, 9 (= 664, 1 − 18, 2) e, quando HiST Ri = 1 e HiELi = 1, la media campionaria è 640, 5 (= 664, 1 − 18, 2 − 1, 9 − 3, 5). 217 i i i i i i “generale” — 2005/7/10 — 22:25 — page 218 — #248 i i 6.3. Interazioni tra variabili indipendenti Concetto chiave 6.3: un metodo per interpretare i coefficienti delle regressioni con variabili binarie Si calcolino anzitutto i valori attesi di Y per ogni possibile caso descritto dal gruppo di variabili binarie. Si confrontino poi questi valori attesi. Ogni coefficiente può essere espresso, come valore atteso oppure come la differenza tra due o più valori attesi. Interazioni tra una variabile continua e una binaria Consideriamo la regressione del logaritmo delle retribuzioni (Yi = ln(Earningsi )) su una variabile continua, gli anni di esperienza lavorativa dell’individuo (X i ) e una variabile binaria, che indichi il fatto che il lavoratore abbia una laurea (Di , dove Di = 1 se la i-esima persona è laureata). Come mostrato nella figura 6.8, ci sono tre diversi modi in cui la retta di regressione che mette in relazione Y con la variabile continua X può dipendere dalla variabile binaria D. Nella figura 6.8a, le due rette di regressione differiscono solo nell’intercetta. Il modello di regressione corrispondente è Y i = β 0 + β 1 Xi + β 2 Di + u i . (6.31) Questo è il familiare modello di regressione multipla con una funzione di regressione che è lineare in Xi e Di . Quando Di = 0, la retta di regressione della popolazione è β0 + β1 Xi , dove l’intercetta è β0 e la pendenza è β1 . Quando Di = 1, la funzione di regressione è β0 + β1 Xi + β2 , cosı̀ la pendenza resta β1 ma l’intercetta diventa β0 + β2 . Perciò, β2 è la differenza tra le intercette delle due rette di regressione, come mostrato nella figura 6.8a. Nell’esempio relativo alle retribuzioni, β1 è l’effetto sul logaritmo delle retribuzioni di un anno addizionale di esperienza lavorativa, tenendo costante lo status di laureato, e β 2 è l’effetto del conseguimento di una laurea sul logaritmo delle retribuzioni, tenendo costanti gli anni di esperienza lavorativa. In questa specificazione, l’effetto di una anno aggiuntivo di esperienza lavorativa è lo stesso per laureati e non laureati, cioè le due rette della figura 6.8a hanno la stessa pendenza. Nella figura 6.8b, le due rette hanno pendenze e intercette diverse. Le pendenze diverse fanno sı̀ che l’effetto di un anno addizionale di lavoro differisca tra laureati e non laureati. Per permettere alle pendenze di essere diverse, si aggiunga un termine d’interazione al modello (6.31): Yi = β0 + β1 Xi + β2 Di + β3 (Xi × Di ) + ui , (6.32) dove Xi × Di è una nuova variabile, il prodotto di Xi e Di . Per interpretare i coefficienti di questa regressione, applichiamo la procedura nel concetto chiave 6.3. Cosı̀ facendo, si 218 i i i i i i “generale” — 2005/7/10 — 22:25 — page 219 — #249 i i 6.3. Interazioni tra variabili indipendenti Figura 6.8: funzioni di regressione con variabili binarie e continue Y Y β 0 +β 2 β0 β 0 +β 2 (β 0 +β 2 )+(β 1 +β 3 )X (β 0 +β 2 )+β 1 X β0 pendenza = β 1 +β 3 pendenza = β 1 β 0 +β 1 X β 0 +β 1 X slope = β 1 X X Intercette diverse, pendenze uguali (b) Intercette diverse, pendenze diverse (a) Y β0 β 0 + (β 1 +β 2 )X pendenza = β 1 +β 2 β 0 +β 1 X pendenza = β 1 X (c) Intercette uguali, pendenze diverse Le interazioni tra variabili binarie e continue possono produrre tre diverse funzioni di regressione: (a) β 0 + β1 X + β2 D ammette che ci siano intercette diverse ma la stessa pendenza; (b) β0 + β1 X + β2 D + β3 (X × D) con intercette diverse e pendenze diverse; (c) β0 + β1 X + β2 (X × D) ha la stessa intercetta ma permette che le pendenze siano diverse. vede che se Di = 0 la funzione di regressione della popolazione è β0 + β1 Xi , mentre se Di = 1 essa diventa (β0 + β2 ) + (β1 + β3 )Xi . Perciò questa specificazione dà luogo a due diverse funzioni di regressione che legano Yi e Xi , a seconda del valore assunto da Di , come mostrato nella figura 6.8b. La differenza tra le due intercette è β 2 e la differenza tra le due pendenze è β3 . Nell’esempio delle retribuzioni, β1 è l’effetto di un anno addizionale di esperienza lavorativa per i non laureati (Di = 0) e β1 + β3 è l’effetto corrispondente per i laureati, cosicché β3 è la differenza nell’effetto di un anno addizionale di esperienza lavorativa tra i laureati e i non laureati. Una terza possibilità, mostrata nella figura 6.8c, è che le due rette abbiano diverse pendenze ma la stessa intercetta. In questo caso, il modello di regressione con interazione è Electronic Publishing Services Inc. Yi = β0 + βEconometrics × Di ) + u i . 1 Xi + β2 (Xi1e Stock/Watson, STOC.ITEM.0028 Fig. 06.08 1st Proof 2nd Proof 3rd Proof (6.33) 219 Final i i i i i i “generale” — 2005/7/10 — 22:25 — page 220 — #250 i i 6.3. Interazioni tra variabili indipendenti Anche i coefficienti di questa specificazione possono essere interpretati usando il concetto chiave 6.3. Nell’esempio relativo alle retribuzioni, questa specificazione permette di considerare effetti diversi dell’esperienza sul logaritmo delle retribuzioni dei laureati e dei non laureati, ma ciò richiede che il valore atteso del logaritmo delle retribuzioni sia lo stesso per entrambi i gruppi quando questi siano privi di esperienza lavorativa. In altre parole, questa specificazione corrisponde al caso in cui il livello medio del salario d’entrata nella popolazione sia lo stesso per laureati e non laureati. Nell’applicazione considerata, ciò non ha molto senso, e in pratica questa specificazione è utilizzata meno frequentemente della (6.32), che permette intercette e pendenze diverse. Le tre specificazioni (6.31), (6.32) e (6.33) sono tutte varianti del modello di regressione multipla del capitolo 5 e, una volta creata la variabile Xi × Di , i loro coefficienti possono essere stimati con gli OLS. I tre modelli di regressione con una variabile binaria e una variabile indipendente continua sono riassunti nel concetto chiave 6.4. Applicazione al rapporto studenti-insegnanti e alla percentuale di coloro che apprendono l’inglese. L’effetto sui punteggi del test di una riduzione nel rapporto studenti-insegnanti dipende dal fatto che la percentuale di studenti che ancora apprendono l’inglese sia alta o bassa? Un modo di rispondere a questa domanda è usare una specificazione che permette due diverse rette di regressione, a seconda che la percentuale di studenti che ancora apprendono l’inglese sia alta o bassa. Ciò si ottiene usando la specificazione con intercetta diversa e pendenza diversa: d ln(T estScore) = 682, 2 − 0, 97 ST R + 5, 6 HiEL − 1, 28 (ST R × HiEL) (6.34) (11, 9) (0, 59) (19, 5) (0, 97) R̄2 = 0, 305, dove la variabile binaria HiELi è uguale a uno se la percentuale di studenti che ancora apprendono l’inglese nel distretto è maggiore del 10%, ed è pari a zero altrimenti. Per distretti dove la frazione di studenti che apprendono l’inglese (HiEL i = 0) è bassa, la retta di regressione stimata è 682, 2 − 0, 97 ST Ri . Per i distretti con una frazione elevata di studenti che ancora imparano l’inglese (HiELi = 1), la retta di regressione stimata è 682, 2+5, 6−0, 97 ST Ri −1, 28 ST Ri = 687, 8−2, 25 ST Ri . Secondo queste stime, ridurre di un’unità il rapporto studenti-insegnanti farebbe aumentare i punteggi del test di 0, 97 punti nei distretti con bassa frazione di studenti che ancora apprendono l’inglese e di 2, 25 punti nei distretti con un’alta frazione di studenti che ancora stanno apprendendo l’inglese. La differenza tra questi due effetti, 1, 28 punti, è il coefficiente del termine d’interazione nella (6.34). La regressione (6.34) può essere usata per sottoporre a verifica svariate ipotesi circa la retta di regressione della popolazione. In primo luogo, l’ipotesi che le due rette siano in realtà 220 i i i i i i “generale” — 2005/7/10 — 22:25 — page 221 — #251 i i 6.3. Interazioni tra variabili indipendenti Concetto chiave 6.4: interazioni tra variabili binarie e continue Attraverso l’uso del termine d’interazione Xi × Di , la retta di regressione che mette in relazione Yi e la variabile continua Xi può avere una pendenza che dipende dalla variabile binaria Di . Ci sono tre possibilità: 1. intercetta diversa, stessa pendenza (figura 6.8a): Y i = β 0 + β 1 Xi + β 2 Di + u i ; 2. intercetta e pendenza diverse (figura 6.8b): Yi = β0 + β1 Xi + β2 Di + β3 (Xi × Di ) + ui ; 3. stessa intercetta, pendenza diversa (figura 6.8c): Yi = β0 + β1 Xi + β2 (Xi × Di ) + ui . uguali può essere verificata calcolando la statistica F per l’ipotesi congiunta che il coefficiente di HiELi e il coefficiente del termine d’interazione ST Ri × HiELi siano entrambi nulli. Questa statistica F è 89, 9 ed è significativa al livello 1%. In secondo luogo, l’ipotesi che le due rette abbiano la stessa pendenza può essere testata verificando che il coefficiente del termine d’interazione sia nullo. La statistica t, pari a −1, 28/0, 97 = −1, 32, è minore di 1, 645 in valore assoluto, e quindi l’ipotesi nulla che le due rette abbiano la stessa pendenza non può essere rifiutata usando un test bilaterale di livello 10%. In terzo luogo, l’ipotesi che le rette abbiano la stessa intercetta può essere testata verificando che il coefficiente di HiEL sia nullo. La statistica t è uguale a t = 5, 6/19, 5 = 0, 29, e quindi l’ipotesi che le rette abbiano la stessa intercetta non può essere rifiutata al livello 5%. Questi tre test producono risultati apparentemente contraddittori: il test che utilizza la statistica F rifiuta l’ipotesi congiunta che l’intercetta e la pendenza siano le stesse, ma i test per le singole ipotesi che fanno uso della statistica t non rifiutano. La ragione di ciò è che i regressori HiEL e ST R × HiEL sono fortemente correlati. Questo dà luogo a errori standard elevati per i singoli coefficienti. Sebbene sia impossibile dire quale dei coefficienti sia non nullo, vi è forte evidenza contro l’ipotesi che entrambi siano nulli. Infine, l’ipotesi che il rapporto studenti-insegnanti non entri in questa specificazione può essere verificata calcolando la statistica F per l’ipotesi congiunta che i coefficienti di ST R e del termine d’interazione siano entrambi nulli. Questa statistica F è pari a 5, 64, con un valore-p di 0, 004. Perciò, i coefficienti del rapporto studenti-insegnanti sono significativi al 221 i i i i i i “generale” — 2005/7/10 — 22:25 — page 222 — #252 i i 6.3. Interazioni tra variabili indipendenti livello 1%. Interazioni tra due variabili continue Supponiamo ora che entrambe le variabili indipendenti (X1i e X2i ) siano continue. Un esempio è quando Yi è il logaritmo della retribuzione dell’i-esimo lavoratore, X1i è il numero di anni di esperienza lavorativa, e X2i è il numero di anni di frequenza scolastica. Se la funzione di regressione è lineare, l’effetto sui salari di un anno addizionale di esperienza non dipende dal numero di anni di esperienza lavorativa. In realtà, tuttavia, ci potrebbe essere un’interazione tra queste due variabili, cosicché l’effetto sui salari di un anno addizionale di esperienza dipenderebbe dal numero di anni di istruzione. Tale interazione può essere modellata aggiungendo al modello di regressione lineare un termine d’interazione dato dal prodotto di X1i e X2i : Yi = β0 + β1 X1i + β2 X2i + β3 (X1i × X2i ) + ui . (6.35) Il termine d’interazione permette all’effetto di una variazione unitaria in X 1 di dipendere da X2 . Per vedere questo, si applichi il metodo generale, presentato nel concetto chiave 6.1, per calcolare gli effetti nei modelli di regressione non lineari. La differenza nella (6.6), calcolata per la funzione di regressione con interazione (6.35), è ∆Y = (β 1 + β3 X2 )∆X1 (esercizio 6.5(a)). Perciò, l’effetto su Y di una variazione in X1 , tenendo costante X2 , è ∆Y = β 1 + β 3 X2 , ∆X1 (6.36) che dipende da X2 . Ad esempio, nel caso delle retribuzioni, se β3 fosse positivo, l’effetto sul logaritmo delle retribuzioni di un anno di esperienza addizionale crescerebbe di un ammontare pari a β3 per ogni anno in più di istruzione posseduta dal lavoratore. Un calcolo simile mostra che l’effetto su Y di una variazione ∆X2 di X2 , tenendo costante X1 , è ∆Y /∆X2 = (β2 + β3 X1 ). Mettendo insieme questi due effetti, si mostra che il coefficiente β3 del termine d’interazione è l’effetto aggiuntivo di un incremento unitario di X1 e X2 , che si somma all’effetto individuale di un incremento unitario in X1 da sola e in X2 da sola. In altre parole, se X1 variasse di ∆X1 e X2 variasse di ∆X2 , la variazione attesa in Y sarebbe ∆Y = (β1 + β3 X2 )∆X1 + (β2 + β3 X1 )∆X2 + β3 ∆X1 ∆X2 (esercizio 6.5(c)). Il primo termine è l’effetto che deriva da una variazione in X1 , tenendo costante X2 ; il secondo termine è l’effetto di una variazione in X2 , tenendo costante X1 ; il termine finale, β3 ∆X1 ∆X2 , è l’effetto addizionale di una variazione sia in X1 sia in X2 . Le interazioni tra due variabili sono riassunte nel concetto chiave 6.5. Quando le interazioni sono combinate con trasformazioni logaritmiche, esse possono essere usate per stimare le elasticità ai prezzi, nel caso in cui tali elasticità dipendono dalle caratteristiche dei beni (si veda il riquadro per un esempio). 222 i i i i i i “generale” — 2005/7/10 — 22:25 — page 223 — #253 i i 6.3. Interazioni tra variabili indipendenti La domanda di riviste economiche Gli economisti di professione seguono con attenzione le più recenti ricerche nelle proprie aree di specializzazione. La maggior parte delle ricerche economiche appare inizialmente nelle riviste economiche, perciò gli economisti –o le loro biblioteche– si abbonano a tali riviste. Quanto è elastica la domanda di riviste economiche delle biblioteche? Per scoprirlo, abbiamo analizzato la relazione tra il numero di abbonamenti a una rivista effettuati dalle biblioteche USA (Yi ) e il suo prezzo di abbonamento per le biblioteche, utilizzando i dati dell’anno 2000 relativi a 180 riviste economiche. Siccome il prodotto di una rivista non è la carta sulla quale è stampata, ma piuttosto le idee che essa contiene, appare logico misurare il suo prezzo non in dollari per anno o in dollari per pagina ma, invece, in dollari per idea. Benché non sia possibile misurare le “idee” direttamente, una buona misura indiretta è il numero di volte che gli articoli in una rivista sono successivamente citati da altri ricercatori. Di conseguenza, misuriamo il prezzo come “prezzo per citazione” nella rivista. La variabilità dei prezzi è enorme, da 0, 5 centesimi per citazione (American Economic Review) a 20 centesimi o più per citazione. Alcune riviste sono costose perché hanno poche citazioni, altre perché l’abbonamento annuo per le biblioteche è elevato: nel 2000, l’abbonamento al Journal of Econometrics è costato a una biblioteca quasi 1.900$, 40 volte il prezzo dell’abbonamento all’American Economic Review! Siccome ci interessa stimare le elasticità, utilizziamo una specificazione log-log (concetto chiave 6.2). I grafici a nuvola delle figure 6.9a e 6.9b forniscono un supporto empirico per questa trasformazione. Siccome alcune delle riviste più antiche e più prestigiose sono anche le più economiche per citazione, una regressione del logaritmo della quantità sul logaritmo del prezzo potrebbe contenere una distorsione da variabile omessa. Le nostre regressioni includono, perciò, due variabili di controllo, il logaritmo dell’“età della rivista” e il logaritmo del numero di caratteri contenuti nella rivista in un anno. I risultati della regressione sono mostrati nella tabella 6.1. Tali risultati suggeriscono le seguenti conclusioni (si cerchi il fondamento di queste conclusioni nella tabella!): 1. la domanda è meno elastica per le riviste più antiche che per quelle più nuove; 2. l’evidenza empirica indica una funzione lineare nel logaritmo del prezzo, invece che cubica; 3. la domanda è maggiore per i giornali che contengono un maggior numero di caratteri, tenendo costanti prezzo ed età. Continua 223 i i i i i i “generale” — 2005/7/10 — 22:25 — page 224 — #254 i i 6.3. Interazioni tra variabili indipendenti Figura 6.9: abbonamenti delle biblioteche e prezzi delle riviste economiche Abbonamenti ln(abbonamenti) 1200 8 1000 7 6 800 5 4 3 600 400 2 200 0 0 1 5 10 15 20 0 -6 -5 -4 -3 -2 -1 0 25 1 2 3 4 ln(prezzo per citazione) Prezzo per citazione (a) Abbonamenti e prezzo per citazione (b) ln(sottoscrizioni) e ln(prezzo per citazione) ln(abbonamenti) 8 7 6 5 4 3 2 Domanda quando Age = 5 Domanda quando Age = 80 1 0 -6 -5 -4 -3 -2 -1 0 1 2 3 4 ln(prezzo per citazione) (c) ln(abbonamenti) e ln(prezzo per citazione) C’è una relazione inversa non lineare tra il numero di abbonamenti delle biblioteche negli USA (quantità) e il prezzo di abbonamento per citazione (prezzo), come mostrato nella figura 6.9a per 180 riviste di economia nel 2000. Come visto nella figura 6.9b, però, la relazione tra logaritmo della quantità e logaritmo del prezzo sembra essere approssimativamente lineare. La figura 6.9c mostra che la domanda è più elastica per le riviste più recenti (Age = 5) che per quelle più antiche (Age = 80). Continua 224 Electronic Publishing Services Inc. Stock/Watson, Econometrics 1e STOC.ITEM.0029 Fig. 06.09 1st Proof i i 2nd Proof 3rd Proof Final i i i i “generale” — 2005/7/10 — 22:25 — page 225 — #255 i i 6.3. Interazioni tra variabili indipendenti Tabella 6.1: stima della domanda di riviste economiche Variabile dipendente: logaritmo degli abbonamenti sottoscritti dalle biblioteche USA nel 2000; 180 osservazioni. Regressore ln(Prezzo per citazione) (1) (2) (3) (4) -0,533∗∗ (0,034) -0,408∗∗ (0,044) -0,899∗∗ (0,145) 0,206∗ (0,098) 3,21∗∗ (0,38) -0,961∗∗ (0,60) 0,017 (0,025) 0,0037 (0,0055) 0,373∗∗ (0,118) 0,156∗∗ (0,052) 0,235∗ (0,098) 3,41∗∗ (0,38) 0,705 0,607 0,25 (0,779) 0,691 0,622 [ln(Prezzo per citazione)]2 [ln(Prezzo per citazione)]3 ln(Età) 0,424∗∗ (0,119) ln(Età)*ln(Prezzo per citazione) ln(Caratteri ÷ 1.000.000) Intercetta 4,77∗∗ (0,055) 0,374∗∗ (0,118) 0,141∗∗ (0,040) 0,229∗ (0,096) 3,43∗∗ (0,38) Statistiche F e statistiche descrittive Statistica F per la significatività dei coefficienti del termine quadratico e del termine cubico (p-value) SER R̄2 0,750 0,555 0,688 0,626 La statisitca F verifica l’ipotesi che i coefficienti di [ln(Prezzo per citazione)]2 e di [ln(Prezzo per citazione)]2 siano entrambi nulli. Gli errori standard e i valori-p sono riportati in parentesi, rispettivamente, sotto i coefficienti e alle statistiche F . I coefficienti sono singolarmente significativi al livello ∗ 5% o ∗∗ 1%. Continua 225 i i i i i i “generale” — 2005/7/10 — 22:25 — page 226 — #256 i i 6.3. Interazioni tra variabili indipendenti Perciò, qual è l’elasticità della domanda di riviste economiche? Dipende dall’età della rivista. Le curve di domanda per una rivista di 80 anni e una di 5 anni sono sovrapposte al grafico a nuvola nella figura 6.9c. L’elasticità della domanda di riviste più antiche è −0, 28 (SE = 0, 06), mentre per le riviste più giovani essa è −0, 67 (SE = 0, 08). Questa domanda è davvero inelastica: reagisce molto poco al prezzo, specialmente per le riviste più antiche. Per le biblioteche, avere a disposizione le ricerche più recenti è una necessità, non un lusso. Per fare un paragone, gli esperti stimano che l’elasticità della domanda di sigarette vari tra −0, 3 a −0, 5. A quanto pare, le riviste economiche creano dipendenza come le sigarette –ma fanno molto meglio alla nostra salute!a a Questi dati sono stati cortesemente forniti dal Professor Theodore Bergstrom del Dipartimento di Economia dell’Università della California, Santa Barbara. Per un approfondimento sulle economie delle riviste economiche, si veda Bergstrom (2001). Applicazione al rapporto studenti-insegnanti e alla percentuale di studenti che ancora apprendono l’inglese. Gli esempi precedenti consideravano le interazioni tra il rapporto studenti-insegnanti e una variabile binaria indicante se la percentuale di studenti che ancora apprendono l’inglese è grande o piccola. Un modo diverso per studiare tale interazione è quello di esaminare l’interazione tra il rapporto studenti-insegnanti e la variabile continua che descrive la percentuale di studenti che ancora apprendono l’inglese (P ctEL). In questo caso, la regressione con interazione stimata è d ln(T estScore) = 686, 3 − 1, 12 ST R− 0, 67 P ctEL+ 0, 0012 (ST R×P ctEL), (6.37) (11, 8) (0, 59) (0, 37) (0, 019) R̄2 = 0, 422. Quando la percentuale di studenti che ancora apprendono l’inglese è pari al valore mediano (P ctEL = 8, 85), la stima della pendenza della retta che mette in relazione punteggi nei test e rapporto studenti-insegnanti è pari a −1, 11 (= −1, 12 + 0, 0012 × 8, 85). Quando la percentuale di studenti che ancora apprendono l’inglese è pari al settantacinquesimo percentile (P ctEL = 23, 0), la retta stimata è più piatta, con una pendenza pari a −1, 09 (= −1, 12 + 0, 0012 × 23, 0). In altri termini, per un distretto dove l’8, 85% di studenti apprende ancora l’inglese, l’effetto stimato di una riduzione unitaria del rapporto studentiinsegnanti è di incrementare i punteggi del test di 1, 11 punti, ma per un distretto dove il 23, 0% degli studenti ancora apprende l’inglese, si stima che ridurre il rapporto studentiinsegnanti di un’unità possa incrementare i punteggi del test di soli 1, 09 punti. La differenza tra questi effetti stimati, tuttavia, non è statisticamente significativa: la statistica t che te226 i i i i i i “generale” — 2005/7/10 — 22:25 — page 227 — #257 i i 6.4. Effetti non lineari del rapporto studenti-insegnanti sui punteggi del test Concetto chiave 6.5: le interazioni nella regressione multipla Il termine d’interazione tra le due variabili dipendenti X1 e X2 è il loro prodotto X1 × X2 . L’inclusione di tale termine d’interazione permette all’effetto su Y di una variazione in X1 di dipendere dal valore di X2 e, in modo corrispondente, permette all’effetto di una variazione in X2 di dipendere dal valore di X1 . Il coefficiente di X1 × X2 è l’effetto aggiuntivo di un incremento unitario di X1 e X2 , che si somma all’effetto individuale di una variazione unitaria di X1 da sola e di X2 da sola. Questo è vero indipendentemente dal fatto che X1 e/o X2 siano continue o binarie. sta se il coefficiente del termine d’interazione è nullo è t = 0, 0012/0, 019 = 0, 06, e non significativa al 10%. Per mantenere la discussione sui modelli non lineari, le specificazioni delle sezioni 6.1-6.3 escludono variabili di controllo addizionali come la condizione economica degli studenti. Di conseguenza, è plausibile che questi risultati siano soggetti a distorsione da variabile omessa. Per trarre conclusioni definitive circa l’effetto sui punteggi del test di una riduzione nel rapporto studenti-insegnanti, queste specificazioni non lineari debbono essere integrate con variabili di controllo, un esercizio sul quale ritorneremo in seguito. 6.4 Effetti non lineari del rapporto studenti-insegnanti sui punteggi del test Questa sezione considera tre domande specifiche che riguardano la relazione tra i punteggi del test e il rapporto studenti-insegnanti. Supponiamo di aver controllato per le differenze tra le condizioni economiche nei diversi distretti. La prima domanda è se l’effetto sui punteggi del test della riduzione nel rapporto studenti-insegnanti dipenda dalla frazione di studenti che ancora apprendono l’inglese. La seconda domanda è se tale effetto dipenda dal valore del rapporto studenti-insegnanti. La terza e più importante domanda è la seguente: dopo aver preso in considerazione fattori economici e non linearità, qual è l’effetto stimato sui punteggi del test di una riduzione del rapporto studenti-insegnanti di due studenti per insegnante cosı̀ come proposto dal nostro provveditore nel capitolo 4? Risponderemo a queste domande considerando specificazioni non lineari delle regressioni simili a quelle discusse nelle sezioni 6.2 e 6.3, ma estese al fine di includere due misure della condizione economica degli studenti: la percentuale di studenti che usufruiscono di buoni pasto e il logaritmo del reddito medio nel distretto. Includiamo il logaritmo del reddito perché l’analisi empirica della sezione 6.2 suggerisce che questa specificazione cattura la relazione 227 i i i i i i “generale” — 2005/7/10 — 22:25 — page 228 — #258 i i 6.4. Effetti non lineari del rapporto studenti-insegnanti sui punteggi del test non lineare tra punteggi del test e reddito. Come nella sezione 5.12, non includiamo come regressore la spesa per scolaro e cosı̀ facendo stiamo considerando l’effetto della riduzione nel rapporto studenti-insegnanti, permettendo alle spese per scolaro di crescere (ovvero, non teniamo ferme le spese per scolaro). Discussione dei risultati della regressione I risultati della regressione degli OLS sono riassunti nella tabella 6.2. Ciascuna delle colonne indicate con i numeri da (1) a (7) riporta una regressione diversa. La tabella contiene i coefficienti, gli errori standard, alcune statistiche F con i loro valori-p e le statistiche descrittive, come indicato dalla descrizione in ciascuna riga. La prima colonna di risultati, indicata nella tabella come regressione (1), è la regressione (4) della tabella 5.2 riprodotta qui per convenienza. Poiché questa regressione non controlla per il reddito, la prima cosa che facciamo è verificare se i risultati cambiano sostanzialmente quando il logaritmo del reddito viene incluso come variabile di controllo addizionale. I risultati sono riportati nella regressione (2) della tabella 6.2. Il logaritmo del reddito è significativo al livello 1% e il coefficiente del rapporto studenti-insegnanti tende a muoversi verso lo zero, passando da −1, 00 a −0, 73, sebbene rimanga significativo al livello 1%. La variazione nel coefficiente di ST R tra le regressioni (1) e (2) è abbastanza elevata da giustificare l’inclusione del logaritmo del reddito nelle rimanenti regressioni al fine di evitare la distorsione da variabile omessa. La regressione (3) nella tabella 6.2 è la regressione con interazione (6.34), con la variabile binaria per la percentuale di studenti che ancora apprendono l’inglese (alta o bassa), ma nessuna variabile di controllo di tipo economico. Quando le variabili di controllo di tipo economico (percentuale di studenti che usufruiscono dei buoni pasto e logaritmo del reddito) vengono aggiunte (regressione (4) della tabella), i coefficienti cambiano, ma il coefficiente del termine d’interazione non è mai significativo al livello 5%. Sulla base dell’evidenza rappresentata dalla regressione (4), l’ipotesi che l’effetto di ST R sia lo stesso per distretti con percentuali alte o basse di studenti che ancora apprendono l’inglese non può essere rifiutata al 5% (la statistica t è t = −0, 58/0, 50 = −1, 16). La regressione (5) esamina se l’effetto di una variazione nel rapporto studenti-insegnanti dipenda dal valore di tale rapporto includendo una specificazione cubica in ST R, in aggiunta alle altre variabili di controllo della regressione (4) (il termine d’interazione HiEL × ST R è stato eliminato, dal momento che nella regressione (4) non era significativo al livello 10%). Le stime della regressione (5) sono coerenti con l’ipotesi che il rapporto studenti-insegnanti abbia un effetto non lineare. L’ipotesi nulla che la relazione sia lineare è rifiutata al livello 1% contro l’alternativa che sia cubica (la statistica F per l’ipotesi nulla che i veri coefficienti di ST R2 e ST R3 siano nulli è 6, 17, con un valore-p inferiore a 0, 001). 228 i i i i i i “generale” — 2005/7/10 — 22:25 — page 229 — #259 i i 6.4. Effetti non lineari del rapporto studenti-insegnanti sui punteggi del test Tabella 6.2: Modelli di regressione non-lineari dei punteggi del test variabile dipendente: media dei punteggi del test nel distretto; 420 osservazioni. Regressori ST R (1) -1,00∗∗ (0,27) (2) -0,73∗∗ (0,26) -0,122∗∗ (0,033) -0,176∗∗ (0,034) (3) -0,97 (0,59) (4) -0,53 (0,34) (5) 64,33∗∗ (24,86) -3,42∗∗ (1,25) 0,059∗∗ (0,021) (6) 83,70∗∗ (28,50) -4,38∗∗ (1,44) 0,075∗∗ (0,024) 5,64 (19,51) -1,28 (0,97) 5,50 (9,80) -0,58 (0,50) -5,47∗∗ (1,03) 682,2∗∗ (11,9) -0,411∗∗ (0,029) 12,12∗∗ (1,80) 653,6∗∗ (9,9) -0,420∗∗ (0,029) 11,75∗∗ (1,78) 252,0 (163,6) 816,1* (327,7) -123,3* (50,2) 6,12* (2,54) -0,101* (0.043) -0,418∗∗ (0,029) 11,80∗∗ (1,78) 122,3 (185,5) 5,64 (0,004) 5,92 (0,003) 6,31 (<0,001) 6,17 (<0,001) 15,88 0,305 8,63 0,795 8,56 0,798 ST R2 ST R3 % studenti non madrelingua % studenti non madrelingua ≥ 10%? (Binario, HiEL) HiEL × ST R HiEL × ST R2 HiEL × ST R3 % aventi diritto al sussidio mensa reddito medio nel distretto (logaritmo) Intercetta -0,547∗∗ (0,024) 700,1∗∗ (5,6) -0,398∗∗ (0,033) 11,57∗∗ (1,81) 658,6∗∗ (8,6) Statistiche F e valori-p per le ipotesi congiunte (a) tutte le variabili ST R e le interazioni = 0 (b) ST R2 e ST R3 = 0 (c) HiEL × ST R, HiEL× ST R2 ,HiEL × ST R3 = 0 SER R̄2 9,08 0,773 8,64 0,794 4,96 (<0,001) 5,81 (0,003) 2,69 (0,046) 8,55 0,799 (7) 65,29∗∗ (25,26) -3,47∗∗ (1,27) 0,060∗∗ (0,021) -0,166∗∗ (0,034) -0,402∗∗ (0,033) 11,51∗∗ (1,81) 244,8 (165,7) 5,91 (0,001) 5,96 (0,003) 8,57 0,798 Queste regressioni sono state stimate utilizzando i dati sui distretti scolastici K-8 della California, descritti nell’appendice 4.1. Gli errori standard sono riportati in parentesi sotto i coefficienti e i valori-p sono riportati in parentesi sotto le statistiche F . I coefficienti sono singolarmente significativi al livello ∗ 5% o ∗∗ 1%. La regressione (6) esamina ulteriormente se l’effetto del rapporto studenti-insegnanti dipenda non soltanto dal valore di tale rapporto, ma anche dalla frazione di studenti che ancora apprendono l’inglese. Includendo l’interazione tra HiEL e ST R, ST R 2 e ST R3, possiamo 229 i i i i i i “generale” — 2005/7/10 — 22:25 — page 230 — #260 i i 6.4. Effetti non lineari del rapporto studenti-insegnanti sui punteggi del test verificare se le (probabilmente cubiche) funzioni di regressione della popolazione che mettono in relazione i punteggi del test e ST R sono diverse per percentuali alte o basse di studenti che ancora apprendono l’inglese. Per far ciò, testiamo la restrizione che i coefficienti dei tre termini d’interazione siano nulli. La statistica F risultante è 2, 69, con un valore-p di 0, 046, ed è perciò significativa al 5% ma non all’1%. Questo fornisce una qualche evidenza che le funzioni di regressione sono diverse per distretti con percentuali diverse di studenti che ancora apprendono l’inglese; tuttavia, paragonando le regressioni (6) e (4) si nota che le differenze sono quelle associate ai termini quadratici e cubici. La regressione (7) è una variante della regressione (5), in cui si usa la variabile continua P ctEL al posto della variabile binaria HiEL per controllare la percentuale di studenti nel distretto che ancora apprendono l’inglese. I coefficienti degli altri regressori non subiscono variazioni sostanziali quando si apporta questa modifica, il che indica che i risultati della regressione (5) non sono sensibili a quale misura della percentuale di studenti che ancora apprendono l’inglese venga effettivamente utilizzata nella regressione. In tutte le specificazioni, l’ipotesi che il rapporto studenti-insegnanti non entri nelle regressioni è rifiutata al livello 1%. Le specificazioni non lineari della tabella 6.2 sono più facili da interpretare graficamente. La figura 6.10 sovrappone al grafico a nuvola dei dati le funzioni di regressione stimate che mettono in relazione i punteggi del test e il rapporto studenti-insegnanti per la specificazione lineare (2) e le specificazioni cubiche (5) e (7)6 . Queste funzioni di regressione stimate mostrano la previsione dei punteggi nel test come funzione del rapporto studenti-insegnanti, tenendo fissi i valori delle altre variabili indipendenti. Le funzioni di regressione stimate giacciono tutte l’una accanto all’altra, sebbene le regressioni cubiche si appiattiscano per valori elevati del rapporto studenti-insegnanti. La regressione (6) indica una differenza significativa tra le regressioni cubiche che mettono in relazione punteggi del test e ST R, a seconda che la percentuale di studenti che ancora apprendono l’inglese sia grande o piccola. La figura 6.11 presenta le due funzioni di regressione stimate, in modo da vedere se questa differenza, oltre a essere statisticamente significativa, sia anche di rilevanza pratica. Come mostra la figura 6.11, per rapporti studentiinsegnanti tra 17 e 23 –un intervallo che comprende l’88% delle osservazioni– le due funzioni sono separate approssimativamente da dieci punti, altrimenti sarebbero molto simili; in altre parole, per ST R tra 17 e 23, i distretti con una più bassa percentuale di studenti che apprendono l’inglese fanno meglio, tenendo costante il rapporto studenti-insegnanti, ma l’effetto di una variazione nel rapporto studenti-insegnanti è essenzialmente lo stesso per i due grup6 Per ogni curva, il valore predetto è stato calcolato ponendo ogni variabile indipendente, oltre a ST R, pari alla propria media campionaria e moltiplicando questi valori per i rispettivi coefficienti stimati secondo la tabella 6.2. Il procedimento è stato ripetuto per diversi valori di ST R e il grafico dei risultanti valori predetti aggiustati è la retta di regressione stimata che mette in relazione i punteggi nel test e ST R, tenendo le altre variabili ferme alla proprie medie campionarie. 230 i i i i i i “generale” — 2005/7/10 — 22:25 — page 231 — #261 i i 6.4. Effetti non lineari del rapporto studenti-insegnanti sui punteggi del test Figura 6.10: tre funzioni di regressione che mettono in relazione i punteggi dei test con il rapporto studenti-insegnanti Punteggio test 720 700 Regressione cubica(5) Regressione cubica(7) Regressione lineare(2) 680 660 640 620 600 12 14 16 18 20 22 24 26 28 Rapporto studenti-insegnanti Le regressioni cubiche delle colonne (5) e (7) della tabella 6.2 sono pressoché identiche. Queste indicano una nonlinearità poco evidente nella relazione tra punteggi del test e rapporto studenti-insegnanti. pi. Le due funzioni di regressione sono diverse per rapporti studenti-insegnanti inferiori a 16, 5, ma dobbiamo essere cauti e non leggere in questo più di quanto sia giustificabile. I distretti con ST R < 16, 5 costituiscono solo il 6% delle osservazioni, perciò le differenze tra le funzioni di regressione non lineari riflettono le differenze tra questi pochissimi distretti con rapporti studenti-insegnanti molto piccoli. Quindi, in base alla figura 6.11, concludiamo che l’effetto sui punteggi nel test di una variazione nel rapporto studenti-insegnanti non dipende dalla percentuale di studenti che ancora imparano l’inglese per valori del rapporto studenti-insegnanti compresi nell’intervallo nel quale cade la maggior parte dei dati. Sintesi dei risultati Electronic PublishingdiServices Inc.alle tre domande poste all’inizio di questa I risultati ottenuti ci consentono rispondere sezione. Stock/Watson, Econometrics 1e STOC.ITEM.0030 In primo luogo, dopo aver controllato per la condizione economica, il fatto che un diFig. 06.10 stretto abbia molti o pochi studenti che ancora apprendono l’inglese non ha un’influenza 1st 2nd Proof 3rd Proof Final nel rapporto sostanziale sul modoProof in cui i punteggi del test rispondono a una variazione studenti-insegnanti. Nelle specificazioni lineari, non vi è evidenza statisticamente significa231 i i i i i i “generale” — 2005/7/10 — 22:25 — page 232 — #262 i i 6.4. Effetti non lineari del rapporto studenti-insegnanti sui punteggi del test Figura 6.11: funzioni di regressione per distretti con percentuali alte e basse di studenti che apprendono l’inglese Punteggio test 720 700 Funzione di regressione (HiEL = 0) 680 660 640 620 Funzione di regressione (HiEL = 1) 600 12 14 16 18 20 22 24 26 28 Rapporto studenti-insegnanti I distretti con basse percentuali di studenti che apprendono l’inglese (HiEL = 0) sono indicate dai punti in grigio scuro e i distretti con HiEL = 1 sono indicati dai punti in grigio chiaro. La funzione di regressione cubica per HiEL = 1 dalla regressione (6) nella tabella 6.2 giace approssimativamente 10 punti sotto la funzione di regressione cubica per HiEL = 0 per 17 ≤ ST R ≤ 23; altrimenti, le due funzioni hanno andamento e pendenza simili in questo intervallo. Le pendenze delle funzioni di regressione differiscono molto per valori molto piccoli e molto grandi di ST R, dove ci sono poche osservazioni. tiva di differenze. La specificazione cubica della regressione (6) fornisce evidenza (al livello di significatività 5%) che le funzioni di regressione sono diverse per distretti con alte e basse percentuali di studenti che ancora apprendono l’inglese; come mostrato nella figura 6.11, però, le funzioni di regressione stimate hanno pendenze simili nell’intervallo che contiene la maggior parte dei dati sul rapporto studenti-insegnanti. In secondo luogo, dopo aver controllato per la condizione economica, c’è evidenza di un effetto non lineare del rapporto studenti-insegnanti sul punteggio nel test. Tale effetto è significativo all’1% (i coefficienti di ST R2 e ST R3 sono sempre significativi al livello 1%). Electronic Publishing Services Inc. In terzoStock/Watson, luogo, possiamoEconometrics ritornare al problema del provveditore che ha introdotto il capi1e tolo 4. Questi vuole conoscere l’effetto sul punteggio del test di una riduzione nel rapporto STOC.ITEM.0031 studenti-insegnanti di due studenti per insegnante. Nella specificazione lineare (2), tale efFig. 06.11 fetto non dipende dal rapporto studenti-insegnanti e l’effetto stimato di questa riduzione è 1st Proof 2nd Proof 3rd Proof Final un incremento nei punteggi del test pari a 1, 46 (= −0, 73 × −2) punti. Nelle specificazioni non lineari, questo effetto dipende invece dal valore del rapporto studenti-insegnanti. 232 i i i i i i “generale” — 2005/7/10 — 22:25 — page 233 — #263 i i 6.5. Conclusioni Se il suo distretto avesse un rapporto studenti-insegnanti pari a 20 e il provveditore stesse valutando l’opportunità di ridurlo a 18, sulla base della regressione (5) l’effetto stimato di questa riduzione è un miglioramento del punteggio del test di 3, 00 punti, mentre sulla base della regressione (7) questa stima è pari a 2, 93 punti. Se invece il suo distretto avesse un rapporto studenti-insegnati di 22 e stesse valutando l’ipotesi di ridurlo a 20, l’effetto stimato di questa riduzione, in base alla regressione (5), sarebbe un incremento dei punteggi di 1, 93 punti, mentre in base alla regressione (7) sarebbe di 1, 90 punti. Le stime derivanti dalle specificazioni non lineari suggeriscono che tagliare il rapporto studenti-insegnanti ha un effetto maggiore, se tale rapporto è già piccolo. 6.5 Conclusioni Questo capitolo ha presentato diversi metodi per modellare funzioni di regressione non lineari. Poiché questi modelli sono varianti del modello di regressione multipla, i coefficienti ignoti possono essere stimati attraverso gli OLS e le ipotesi sui valori che essi assumono possono essere verificate usando le statistiche t ed F, come descritto nel capitolo 5. In tali modelli, l’effetto atteso su Y di una variazione in una delle variabili indipendenti, X 1 , lasciando costanti le altre, X2 , . . . , Xk , dipende in genere dai valori di X1 , X2 , . . . , Xk . Ci sono molti modelli diversi in questo capitolo, e non potete certo essere biasimati se siete incerti su quale utilizzare in una data applicazione. Come analizzare in pratica le possibili non linearità? La sezione 6.1 mostra un approccio generale per tale analisi, ma esso richiede che a un certo punto si prendano delle decisioni e si facciano delle scelte. Sarebbe conveniente che ci fosse una singola ricetta da seguire che funzionasse in ogni applicazione, ma l’analisi empirica dei dati raramente è cosı̀ semplice. Il solo passo veramente importante nella specificazione di funzioni di regressione non lineari è “usare la testa”. Prima di guardare i dati, si può pensare a una ragione, basata sulla teoria economica o sull’esperienza, per la quale la pendenza della funzione di regressione della popolazione potrebbe dipendere dal valore di questa o quest’altra variabile indipendente? Se cosı̀, che tipo di dipendenza ci si dovrebbe attendere? E, cosa più importante, quali non linearità (se ce ne sono) potrebbero avere implicazioni importanti per le questioni sostanziali che sono oggetto di studio? Rispondere con cura a queste domande permette di focalizzare l’analisi. Nell’applicazione ai punteggi del test, ad esempio, tale ragionamento ci spinge a investigare se assumere più insegnanti possa avere un effetto maggiore nei distretti con un’alta percentuale di studenti che ancora apprendono l’inglese, magari perché quegli studenti beneficerebbero diversamente da una maggiore attenzione personale. Formulando la questione con precisione, siamo stati in grado di trovare una risposta precisa: dopo aver controllato per la condizione economica degli studenti, non abbiamo riscontrato alcuna evidenza statistica di tale interazione. 233 i i i i i i “generale” — 2005/7/10 — 22:25 — page 234 — #264 i i Sommario Sommario 1. In una regressione non lineare la pendenza della funzione di regressione della popolazione dipende dal valore di una o più variabili indipendenti. 2. L’effetto della variazione su Y in una variabile indipendente (o più) può essere calcolata valutando la funzione di regressione in corrispondenza di due valori della variabile indipendente (delle variabili indipendenti). Il procedimento è riassunto nel concetto chiave 6.1. 3. Una regressione polinomiale include potenze di X come regressori. Una regressione quadratica include X e X 2 e una regressione cubica comprende X, X 2 e X 3 . 4. Piccole variazioni nei logaritmi possono essere interpretate come variazioni proporzionali o percentuali in una variabile. La specificazione logaritmica di una regressione è utilizzata al fine di stimare variazioni proporzionali e elasticità. 5. Il prodotto di due variabili è detto termine d’interazione. Quando i termini d’interazione sono inclusi come regressori, si permette che il coefficiente di una variabile dipenda dal valore di un’altra variabile. Termini chiave modello di regressione quadratico (196) funzione di regressione non lineare (199) modello di regressione polinomiale (203) modello di regressione cubico (203) elasticità (206) funzione esponenziale (206) logaritmo naturale (206) modello lineare-logaritmico (208) modello log-lineare (209) modello log-log (209) termine d’interazione (216) regressore d’interazione (216) modello di regressione con interazione (216) Verifica dei concetti 6.1 Si disegni una funzione crescente (che abbia una pendenza positiva) e ripida per valori di X piccoli ma sia meno inclinata per valori di X grandi. Si spieghi quale specificazione dare a una regressione non lineare per modellare tale forma. Quale relazione economica potrebbe avere un andamento simile? 6.2 Una certa produzione (Q) dipende dai fattori produttivi capitale (K), lavoro (L) e materie prime (M ) e a un errore u sulla base di una funzione di produzione “CobbDouglas” Q = λK β1 Lβ2 M β3 eu , dove λ, β1 , β2 e β3 sono parametri di produzione. Siano noti i dati sulla produzione e i fattori produttivi per un campione casuale di 234 i i i i i i “generale” — 2005/7/10 — 22:25 — page 235 — #265 i i Sommario imprese con la stessa funzione di produzione Cobb-Douglas. Come stimare i parametri di produzione utilizzando l’analisi di regressione? 6.3 Una semplice funzione di “domanda di moneta” usata dai macroeconomisti ha la forma ln(m) = β0 + β1 ln(GDP ) + β2 R, dove m è la quantità di moneta (reale), GDP è il valore del prodotto interno lordo (reale) e R è il valore del tasso d’interesse nominale misurato in percentuali annue. Si supponga che β1 = 1, 0 e β2 = −0, 02. Cosa accadrebbe al valore di m, se GDP aumentasse del 2%? Cosa accadrebbe al valore di m, se il tasso d’interesse aumentasse dal 4% al 5%? 6.4 Avete stimato un modello di regressione della relazione tra Y e X. Il vostro insegnante afferma: “ritengo che la relazione tra Y e X sia non lineare”. Come verifichereste l’adeguatezza della regressione lineare? 6.5 Si supponga di ritenere che nel problema 6.2 il valore di β2 non sia costante, ma che piuttosto cresca al crescere di K. Come usare un termine d’interazione per catturare tale effetto? Esercizi 6.1 Le vendite di un’azienda ammontano a 196 milioni di $ nel 2001 e aumentano a 198 milioni di $ nel 2002. a. Si calcoli l’aumento percentuale nelle vendite, usando la comune formula 100 × Sales02 −Sales01 . Si confronti questo valore all’approssimazione 100(ln(Sales02 )− Sales01 ln(Sales01 )). b. Si ripeta la parte (a) assumendo che: Sales02 = 205; Sales02 = 250; Sales02 = 500. c. Quando la variazione è piccola, qual è la bontà di questa approssimazione? Al crescere della variazione percentuale, peggiora la qualità dell’approssimazione? 6.2 Si supponga che un ricercatore raccolga i dati sulle abitazioni che sono state vendute in un particolare quartiere nell’ultimo anno e che ottenga da alcune regressioni i risultati riportati nella tabella seguente: a. usando i risultati della colonna (1), quale sarebbe la variazione attesa nel prezzo se l’abitazione fosse 500 piedi quadrati più grande? Si costruisca un intervallo di confidenza al 95% per la variazione percentuale del prezzo; b. dal confronto tra le colonne (1) e (2), si ritiene sia meglio usare Size o ln(Size) per spiegare i prezzi delle abitazioni? 235 i i i i i i “generale” — 2005/7/10 — 22:25 — page 236 — #266 i i Sommario Variabile dipendente: ln(P rice) Regressore (1) (2) (3) (4) (5) 0,69 (0,054) 0,68 (0,087) 0,57 (2,03) 0,0078 (0,14) 0,69 (0,055) 0,082 (0,032) 0,037 (0,029) 0,071 (0,034) 0,027 (0,028) 0,0036 (0,037) 0,071 (0,034) 0,026 (0,026) 0,071 (0,036) 0,027 (0,029) 0,13 (0,045) 10,97 (0,069) 0,12 (0,035) 6,60 (0,39) 0,12 (0,035) 6,63 (0,53) 0,12 (0,036) 7,02 (7,50) 0,071 (0,035) 0,027 (0,030) 0,0022 (0,10) 0,12 (0,035) 6,60 (0,40) 0,102 0,72 0,098 0,74 0,099 0,73 0,099 0,73 0,099 0,73 0,00042 (0,000038) Size ln(Size) ln(Size)2 Bedrooms P ool V iew P ool × view Condition Intercept Statistiche descrittive SER R̄2 c. usando la colonna (2), qual è l’effetto stimato sul prezzo della presenza di una piscina? (Si faccia attenzione a utilizzare l’unità di misura corretta.) Si costruisca un intervallo di confidenza al 95% per questo effetto; d. la regressione della colonna (3) aggiunge il numero di camere da letto alle altre variabili. Qual è l’effetto stimato di una camera da letto addizionale? Questo effetto è statisticamente significativo? Perché l’effetto stimato è cosı̀ piccolo? (Suggerimento: quali altre variabili sono tenute costanti?); e. il termine quadratico ln(Size)2 è rilevante? 236 i i i i i i “generale” — 2005/7/10 — 22:25 — page 237 — #267 i i Sommario f. si utilizzi la regressione nella colonna (5) per calcolare la variazione attesa del prezzo di un’abitazione senza vista panoramica, quando si aggiunge una piscina. Si ripeta l’esercizio per una casa con vista panoramica. C’è grande differenza? Questa differenza è statisticamente significativa? 6.3 Dopo aver esaminato l’analisi condotta in questo capitolo su punteggi del test e dimensione delle classi, un insegnante commenta: “sulla base della mia esperienza, la prestazione degli studenti dipende dalla dimensione delle classi, ma non nel modo spiegato dalla regressione. Piuttosto, gli studenti rendono molto quando la classe contiene meno di 20 studenti e molto poco quando ne contiene più di 25. Non vi è guadagno nel ridurre la dimensione delle classi a meno di 20 studenti, la relazione è costante nella regione intermedia tra 20 e 25 studenti e dall’aumento della dimensione delle classi non deriva alcuna perdita, se questa è già maggiore di 25”. L’insegnante sta descrivendo un “effetto soglia”, in cui la prestazione è costante per classi di dimensioni che variano tra 20 e 25 e poi subisce un salto quando le classi hanno più di 25 studenti. Per modellare questi effetti soglia, si definiscano le variabili binarie ST Rsmall = 1 se ST R < 20 e ST Rsmall = 0 altrimenti ST Rmoderate = 1 se 20 ≤ ST R ≤ 25 e ST Rmoderate = 0 altrimenti ST Rlarge = 1 se ST R > 25 e ST Rlarge = 0 altrimenti a. Si consideri la regressione T estScorei = β0 +β1 ST Rsmalli +β2 ST Rlargei + ui . Si disegni una funzione di regressione che metta in relazione T estScore e ST R utilizzando per i coefficienti di regressione dei valori ipotetici che siano però consistenti con l’affermazione dell’insegnante. b. Un ricercatore vuole stimare la regressione T estScorei = β0 +β1 ST Rsmalli + β2 ST Rmoderatei + β3 ST Rlargei + ui e il suo computer si blocca. Perché? 6.4 Si spieghi come usare l’“approccio 2” della sezione 5.8 per calcolare l’intervallo di confidenza discusso dopo la formula (6.8). (Suggerimento: ciò richiede di stimare una nuova regressione usando una definizione diversa di regressori e variabile dipendente. Si veda l’esercizio (5.8)). 6.5 Si consideri il modello di regressione Yi = β0 + β1 X1i + β2 X2i + β3 (X1i × X2i ) + ui . Si usi il concetto chiave 6.1 per provare che: a. b. ∆Y ∆X1 ∆Y ∆X1 = β1 + β3 X2 (l’effetto di una variazione in X1 tenendo costante X2 ); = β2 + β3 X1 (l’effetto di una variazione in X2 tenendo costante X1 ); c. se X1 varia di ∆X1 e X2 varia di ∆X2 , allora ∆Y = (β1 + β3 X2 )∆X1 + (β2 + β3 X1 )∆X2 + β3 ∆X1 ∆X2 . 237 i i i i i i “generale” — 2005/7/10 — 22:25 — page 238 — #268 i i i i i i i i “generale” — 2005/7/10 — 22:25 — page 239 — #269 i i Capitolo 7 Valutazione di studi basati sulla regressione multipla I tre capitoli precedenti hanno spiegato come usare la regressione multipla per analizzare la relazione tra le variabili di un insieme di dati. In questo capitolo facciamo un passo indietro e ci chiediamo: cosa rende uno studio basato sulla regressione multipla affidabile o inaffidabile? Ci focalizziamo su studi statistici che hanno l’obiettivo di stimare l’effetto causale della variazione di alcune variabili indipendenti, come la dimensione delle classi, su una variabile dipendente, come i punteggi dei test. Con riferimento a tali studi, ci chiediamo inoltre quando la regressione multipla fornisce una stima utile dell’effetto causale e, cosa altrettanto importante, quando non vi riesce. Per rispondere a tale domanda, questo capitolo presenta uno schema di riferimento per valutare studi statistici in generale, indipendentemente dal fatto che utilizzino o meno l’analisi di regressione. Questo schema di riferimento si basa sui concetti di validità interna ed esterna. Uno studio è internamente valido, se le sue inferenze statistiche sugli effetti causali sono valide per la popolazione e il contesto studiati; è esternamente valido, se le sue inferenze possono essere generalizzate ad altre popolazioni e ad altri contesti. Nelle sezioni 7.1 e 7.2, discutiamo la validità interna ed esterna, elenchiamo alcune possibili minacce alla validità interna ed esterna, e discutiamo come identificarle nelle applicazioni. Alcune di queste minacce non possono essere gestite con gli strumenti econometrici introdotti finora e questo capitolo fornisce un’anteprima dei metodi per affrontarle, che saranno studiati nei restanti capitoli di questo libro. Per illustrare la questione della validità interna ed esterna, nella sezione 7.3 valutiamo la validità interna ed esterna dello studio sull’effetto della diminuzione del numero di studenti per insegnante sui punteggi del test presentato nei capitoli 4-6. i i i i i i “generale” — 2005/7/10 — 22:25 — page 240 — #270 i i 7.1. Validità interna ed esterna 7.1 Validità interna ed esterna I concetti di validità interna ed esterna, definiti nel concetto chiave 7.1, forniscono uno schema di riferimento per valutare se uno studio statistico o econometrico sia utile per rispondere a una specifica domanda di interesse. I due concetti distinguono tra la popolazione e il contesto studiati e la popolazione e il contesto ai quali si generalizzano i risultati. La popolazione oggetto di studio è la popolazione delle entità –individui, imprese, distretti scolastici e cosı̀ via– dalla quale è stato estratto il campione; la popolazione alla quale si generalizzano i risultati, o popolazione d’interesse, è la popolazione delle entità alle quali si applicano le inferenze causali derivate dallo studio. Ad esempio, il preside di una scuola superiore potrebbe voler generalizzare i nostri risultati riguardanti la dimensione delle classi e i punteggi del test nelle scuole elementari della California (la popolazione studiata) alla popolazione delle scuole superiori (la popolazione d’interesse). Per “contesto” intendiamo l’ambiente istituzionale, legale, sociale ed economico. Ad esempio, potrebbe essere importante sapere se i risultati di un esperimento di laboratorio che valuta metodi organici per coltivare i pomodori potrebbero essere generalizzati alle coltivazioni in pieno campo, ovvero se i metodi organici che funzionano in ambiente di laboratorio sono validi anche nel contesto del mondo reale. Proporremo altri esempi di differenza nelle popolazioni e nel contesto più avanti in questa sezione. Minacce alla validità interna La validità interna ha due componenti. In primo luogo, lo stimatore dell’effetto causale dovrebbe essere non distorto e consistente. Ad esempio, se β̂ST R è lo stimatore OLS dell’effetto sui punteggi del test di una variazione unitaria del rapporto studenti-insegnanti in una certa regressione, β̂ST R dovrebbe essere uno stimatore non distorto e consistente del vero effetto casuale nella popolazione di una variazione nel rapporto studenti-insegnanti, β ST R . In secondo luogo, i test d’ipotesi dovrebbero avere il livello di significatività desiderato (il tasso di rifiuto effettivo del test sotto l’ipotesi nulla dovrebbe essere uguale al livello di significatività desiderato) e gli intervalli di confidenza dovrebbero avere il livello di confidenza desiderato. Ad esempio, se un intervallo di confidenza è costruito come β̂ST R ± 1, 96 SE(β̂ST R ), esso dovrebbe contenere il vero effetto casuale, βST R , con una probabilità del 95% in campioni ripetuti. Nell’analisi di regressione, gli effetti causali sono stimati usando la funzione di regressione stimata e i test di ipotesi condotti usando i coefficienti della regressione stimata e i rispettivi errori standard. Di conseguenza, in uno studio basato su una regressione OLS, i requisiti per la validità interna sono che lo stimatore OLS sia non distorto e consistente e che gli errori standard siano calcolati in modo tale che gli intervalli di confidenza abbiano 240 i i i i i i “generale” — 2005/7/10 — 22:25 — page 241 — #271 i i 7.1. Validità interna ed esterna Concetto chiave 7.1: validità interna ed esterna Un’analisi statistica è internamente valida se le inferenze statistiche sugli effetti causali sono validi per la popolazione oggetto di studio. L’analisi è esternamente valida se le sue inferenze e conclusioni possono essere generalizzate dalla popolazione e dal contesto studiati ad altre popolazioni e contesti. il livello di confidenza desiderato. Questo potrebbe non accadere per varie ragioni e queste ragioni rappresentano altrettante minacce alla validità interna. Queste minacce riguardano la violazione di una o più ipotesi dei minimi quadrati (vedi concetto chiave 5.4). Per esempio, un problema del quale abbiamo già discusso ampiamente è la distorsione da variabile omessa; essa è dovuta alla correlazione tra uno o più regressori e l’errore, violando cosı̀ la prima ipotesi dei minimi quadrati. Se i dati riguardanti la variabile omessa sono disponibili, il problema può essere evitato includendo tale variabile come regressore aggiuntivo. La sezione 7.2 contiene una discussione dettagliata delle varie minacce alla validità interna nell’analisi della regressione multipla e di come mitigarle. Minacce alla validità esterna Potenziali minacce alla validità esterna derivano dalle differenze tra la popolazione e il contesto studiati e la popolazione e il contesto oggetto d’interesse. Differenze nelle popolazioni. Le differenze tra la popolazione studiata e la popolazione d’interesse possono costituire un ostacolo alla validità esterna. Ad esempio, studi di laboratorio sugli effetti tossici dei prodotti chimici utilizzano solitamente popolazioni di animali come i topi (la popolazione studiata), ma i risultati sono usati per scrivere regolamenti riguardanti la salute e la salvaguardia della popolazione umana (la popolazione d’interesse). Se i topi e gli uomini differiscano in maniera tale da minare la validità esterna di questi studi è una questione da discutere. Più in generale, il vero effetto causale potrebbe non essere lo stesso nella popolazione studiata e nella popolazione d’interesse. Questo perché la popolazione è stata scelta in un modo che la rende diversa dalla popolazione d’interesse, a causa di dissomiglianze nelle caratteristiche delle popolazioni, per differenze geografiche o perché lo studio è obsoleto. Differenze di contesto. Anche se la popolazione studiata e la popolazione d’interesse fossero identici, potrebbe non essere possibile generalizzare i risultati dello studio se il contesto fosse diverso. Ad esempio, uno studio dell’effetto di una campagna pubblicitaria contro l’eccesso 241 i i i i i i “generale” — 2005/7/10 — 22:25 — page 242 — #272 i i 7.1. Validità interna ed esterna di alcolici tra gli universitari potrebbe non essere generalizzabile a un altro identico gruppo di studenti se l’età legale per bere alcolici fosse diversa tra le due università. In questo caso, il contesto legale in cui lo studio è stato condotto differisce da quello al quale si applicano i suoi risultati. Più in generale, esempi di differenze di contesto includono le differenze tra gli ambiti istituzionali (università pubbliche rispetto a università religiose), le differenze di legislazione (differenze tra l’età legale per bere alcolici) o le diversità dell’ambiente fisico (l’eccesso di alcolici nelle feste goliardiche nel sud della California rispetto a quelle che si tengono a Fairbanks, Alaska). Applicazione ai punteggi del test ed al rapporto studenti-insegnanti. I capitoli 5 e 6 hanno riportato stime di miglioramenti dei punteggi del test, statisticamente significativi ma sostanzialmente piccoli, risultanti da una riduzione nel rapporto studenti-insegnanti. Tale analisi era basata sui risultati del test nei distretti scolastici della California. Supponiamo per il momento che questi risultati siano validi internamente. A quali altre popolazioni e contesti d’interesse potrebbero essere generalizzati? Più la popolazione e l’ambiente di studio sono simili a quelli d’interesse, più forte è l’argomento a favore della validità esterna. Ad esempio, gli studenti e l’istruzione universitari sono molto diversi dagli studenti e dall’istruzione elementari, perciò è poco plausibile che l’effetto di una riduzione nella dimensione delle classi stimato usando i dati per le scuole elementari della California si possano estendere alle università. D’altro canto, gli studenti di una scuola elementare, i programmi e l’organizzazione sono grosso modo simili in tutti gli Stati Uniti; quindi, è plausibile che i risultati relativi alla California possano essere generalizzati alle prestazioni nei test standardizzati di altre scuole elementari negli Stati Uniti. Come valutare la validità esterna di uno studio. La validità esterna deve essere giudicata usando la conoscenza specifica della popolazione e del contesto studiato e di quelli oggetto d’interesse. Differenze importanti tra i due fanno sorgere dubbi sulla validità esterna dello studio. Talvolta sono disponibili due o più studi relativi a popolazioni diverse ma collegate. Se cosı̀, la validità esterna di entrambi gli studi può essere verificata confrontando i loro risultati. Ad esempio, nella sezione 7.3 analizziamo i dati sui punteggi del test e la dimensione delle classi per i distretti scolastici del Massachusetts e confrontiamo i risultati del Massachusetts con quelli della California. In generale, risultati simili mostrati da due o più studi rafforzano la pretesa di validità esterna, mentre differenze nei risultati non facilmente spiegabili fanno sorgere dubbi sulla loro validità esterna.1 1 Il confronto di molti studi sullo stesso soggetto è chiamato meta analisi. Per esempio, la discussione del capitolo 5 sull’ “effetto Mozart” è basato sulla meta analisi. Svolgere una meta analisi di molti studi comporta problemi specifici. Come separare gli studi ben fatti da quelli mal condotti? Come confrontare studi dove le variabili 242 i i i i i i “generale” — 2005/7/10 — 22:25 — page 243 — #273 i i 7.2. Minacce alla validità interna dell’analisi di regressione multipla Come disegnare uno studio esternamente valido. Siccome le minacce alla validità esterna derivano da una mancanza di confrontabilità tra popolazioni e contesti diversi, è meglio cercare di minimizzare queste minacce nelle primi fasi di uno studio, prima che i dati siano raccolti. Il modo in cui si disegna uno studio va oltre gli obiettivi di questo manuale e il lettore interessato è rinviato a Shadish, Cook e Campbell (2002). 7.2 Minacce alla validità interna dell’analisi di regressione multipla Gli studi basati sull’analisi di regressione sono internamente validi se i coefficienti di regressione stimati sono non distorti e consistenti e se i loro errori standard producono intervalli di confidenza con il livello desiderato. Questa sezione passa in rassegna cinque ragioni per cui lo stimatore OLS dei coefficienti di una regressione multipla potrebbe essere distorto, anche in grandi campioni: variabili omesse, incorretta specificazione della forma funzionale della funzione di regressione, misura imprecisa della variabile indipendente (“errori nelle variabili”), selezione del campione e causalità simultanea. Queste cinque fonti di distorsione derivano tutte dal fatto che il regressore è correlato con il termine d’errore nella regressione a livello di popolazione, violando cosı̀ la prima ipotesi dei minimi quadrati (concetto chiave 5.4). Per ciascuna di queste fonti, discutiamo cosa può essere fatto per ridurre tale distorsione. La sezione si conclude con una discussione delle circostanze che determinano errori standard inconsistenti e di cosa può essere fatto a questo proposito. La distorsione da variabile omessa Si ricordi che la distorsione da variabile omessa nasce quando viene omessa una variabile dalla regressione, che è una determinante di Y ed è correlata con uno o più dei regressori inclusi. Questa distorsione persiste anche in grandi campioni, e quindi lo stimatore OLS è inconsistente. Come minimizzare la distorsione da variabile omessa dipende dal fatto che siano o meno disponibili i dati per la variabile omessa potenziale. Soluzioni alla distorsione da variabile omessa quando la variabile omessa è osservata. Se abbiamo dati sulla variabile omessa, possiamo includere questa variabile in una regressione multipla, risolvendo cosı̀ il problema. Ad ogni modo, aggiungere una nuova variabile comporta sia costi sia benefici. Da un lato, tralasciare la variabile potrebbe generare una didipendenti differiscono? Bisogna dare più peso a uno studio ampio o a uno limitato? Una discussione della meta analisi e dei sui problemi specifici va oltre gli obiettivi di questo libro. Si rinvia il lettore interessato a Hedges e Olkin (1985) e Cooper e Hedges (1994). 243 i i i i i i “generale” — 2005/7/10 — 22:25 — page 244 — #274 i i 7.2. Minacce alla validità interna dell’analisi di regressione multipla storsione da variabile omessa. Dall’altro lato, includere una variabile quando questa non è parte della regressione (cioè, quando il suo coefficiente di regressione è pari a zero) riduce la precisione degli stimatori degli altri coefficienti di regressione. In altre parole, la decisione di includere o meno una variabile dà luogo a un trade-off tra distorsione e varianza delle stime dei coefficienti d’interesse. In pratica, vi sono quattro passaggi che possono aiutarci a decidere se includere o meno una variabile o un gruppo di variabili in una regressione. Il primo passaggio richiede di identificare i coefficienti chiave d’interesse nella regressione. Nelle regressioni relative ai punteggi del test, il coefficiente chiave è quello relativo al rapporto studenti-insegnanti, poiché la domanda posta inizialmente riguarda l’effetto sui punteggi del test della riduzione nel rapporto studenti-insegnanti. Il secondo passo è quello di chiedersi quali siano le fonti più probabili di distorsione da variabile omessa. Per rispondere a questa domanda occorre tener conto della teoria economica e dell’esperienza, e questo dovrebbe avvenire prima di calcolare qualunque regressione; siccome ciò viene fatto prima di analizzare i dati, si parla in questo caso di ragionamento a priori (“prima del fatto”). Nell’esempio dei punteggi del test, questo passaggio richiede di identificare le determinanti dei punteggi del test che, se ignorate potrebbero distorcere il nostro stimatore dell’effetto della dimensione delle classi. Il risultato di questo passaggio è una specificazione di base della regressione, il punto di partenza per la nostra analisi empirica, e un elenco di variabili addizionali che potrebbero aiutare a ridurre la possibile distorsione da variabile omessa. Il terzo passaggio è aggiungere alla nostra specificazione di base le variabili addizionali identificate nel secondo passaggio e verificare l’ipotesi che i loro coefficienti siano nulli. Se i coefficienti delle variabili addizionali sono statisticamente significativi, oppure se i coefficienti d’interesse stimati cambiano in maniera apprezzabile quando le variabili addizionali sono incluse, queste dovrebbero essere inserite nella specificazione e bisognerebbe quindi modificare la specificazione di base. Se non è cosı̀, queste variabili possono essere escluse dalla regressione. Il quarto passaggio è presentare un’accurata sintesi dei risultati in forma tabellare. Questo dà “piena soddisfazione” a un potenziale scettico, che può cosı̀ trarre le proprie conclusioni. Le tabelle 5.2 e 6.2 seguono questa strategia. Ad esempio, nella tabella 6.2 avremmo potuto presentare solo la regressione nella colonna (7), perché essa sintetizza gli effetti rilevanti e le non linearità delle altre regressioni rappresentate nella tabella. Presentare le altre regressioni, però, permette al lettore scettico di trarre le proprie conclusioni. Questi passaggi sono riassunti nel concetto chiave 7.2. Soluzioni alla distorsione da variabile omessa quando la variabile omessa non è osservata. Aggiungere una variabile omessa a una regressione non è un’opzione percorribile, se non si hanno dati relativi a tale variabile. Ci sono però tre altri modi per risolvere la distorsione 244 i i i i i i “generale” — 2005/7/10 — 22:25 — page 245 — #275 i i 7.2. Minacce alla validità interna dell’analisi di regressione multipla Concetto chiave 7.2: dovremmo includere altre variabili nella nostra regressione? Se includessimo un’altra variabile nella nostra regressione multipla, elimineremmo la possibilità di distorsione da variabile omessa che deriva dall’esclusione di tale variabile, ma la varianza dello stimatore dei coefficienti d’interesse potrebbe crescere. Di seguito riportiamo alcune linee guida che aiutano nella scelta dell’inclusione di una variabile addizionale: 1. essere specifici sul coefficiente o sui coefficienti d’interesse; 2. usare ragionamenti a priori per identificare le più importanti fonti potenziali di distorsione da variabile omessa, che conducano a una specificazione di base e ad alcune altre variabili; 3. verificare se le varibili addizionali hanno coefficienti non nulli; 4. fornire una tabulazione informativa ed esaustiva dei risultati, in modo che altri possano vedere l’effetto sul (sui) coefficiente (coefficienti) d’interesse dell’inclusione di altre variabili. I risultati cambiano se si includono nuove variabili? da variabile omessa. Ognuna di queste tre soluzioni consente di aggirare il problema della distorsione da variabile omessa attraverso l’uso di tipi diversi di dati. La prima possibilità è quella di usare dati in cui la stessa unità è osservata in momenti diversi. Ad esempio, i punteggi del test e i dati relativi potrebbero essere raccolti per gli stessi distretti nel 1995 e poi ancora nel 2000. Dati di questo tipo sono detti dati longitudinali. Come sarà spiegato nel capitolo 8, i dati longitudinali (panel) consentono di controllare per variabili omesse purché queste variabili omesse non cambino nel tempo. La seconda soluzione è quella di usare la regressione con variabili strumentali. Questo metodo si basa su una nuova variabile, detta variabile strumentale, e sarà discusso nel capitolo 10. La terza possibilità è quella di usare dati per i quali l’effetto d’interesse (ad esempio, l’effetto della riduzione nella dimensione delle classi sulle prestazioni degli studenti) è il risultato di un esperimento controllato casualizzato. Questo tipo di esperimenti sarà discusso nel capitolo 11. 245 i i i i i i “generale” — 2005/7/10 — 22:25 — page 246 — #276 i i 7.2. Minacce alla validità interna dell’analisi di regressione multipla Incorretta specificazione della forma funzionale della funzione di regressione Se la vera funzione di regressione della popolazione è non lineare ma la regressione stimata è lineare, allora questa incorretta specificazione della forma funzionale rende distorte le stime OLS. Questa distorsione è un tipo di distorsione da variabile omessa, dove le variabili omesse sono i termini che riflettono gli aspetti non lineari mancanti della funzione di regressione. Ad esempio, se la funzione di regressione della popolazione è un polinomio quadratico, allora una regressione che omette il quadrato della variabile indipendente è affetta da distorsione da variabile omessa. Soluzioni alla incorretta specificazione della forma funzionale. Quando la variabile dipendente è continua (come i punteggi del test), il problema di una potenziale non linearità può essere risolto usando i metodi del capitolo 6. Se, tuttavia, la variabile dipendente è discreta o binaria (ad esempio, Yi è pari a uno se la i-esima persona ha frequentato l’università ed è pari a zero altrimenti), le cose sono più complicate. La regressione con una variabile dipendente discreta sarà discussa nel capitolo 9. Errori nelle variabili Supponiamo di aver inavvertitamente fatto confusione con i dati per la regressione dei punteggi del test sul rapporto studenti-insegnanti, finendo per effettuare una regressione dei punteggi relativi al quinto grado di istruzione sul rapporto studenti-insegnanti nel decimo grado di istruzione in quel distretto. Sebbene il rapporto studenti-insegnanti per gli studenti della scuola elementare e per quelli del decimo livello d’istruzione possano essere correlati, non sono la stessa cosa, e quindi questa confusione potrebbe portare a una distorsione nel coefficiente stimato. Questo è un esempio di distorsione da errori nelle variabili, perché la sua fonte è un errore nella misura della variabile indipendente. Questa distorsione persiste anche in campioni molto grandi, cosicché lo stimatore OLS è inconsistente se ci sono errori di misura. Le possibili fonti di errori di misura sono molte. Se i dati sono raccolti attraverso un’indagine, un intervistato potrebbe dare la risposta sbagliata. Ad esempio, una domanda della Current Pupulation Survey riguarda le retribuzioni dell’ultimo anno. Un intervistato potrebbe non conoscere il suo reddito esatto o potrebbe riportarlo incorrettamente per qualche ragione. Se invece i dati fossero ottenuti dai registri amministrativi computerizzati, ci potrebbero essere stati errori tipografici durante l’inserimento dei dati. Per vedere come mai la distorsione da errori nelle variabili dà luogo a correlazione tra regressori ed errore, supponiamo ci sia un singolo regressore X i (diciamo, il reddito effettivo) ma che Xi sia imprecisamente misurato da X̃i (la stima del proprio reddito effettuata 246 i i i i i i “generale” — 2005/7/10 — 22:25 — page 247 — #277 i i 7.2. Minacce alla validità interna dell’analisi di regressione multipla dall’intervistato). Siccome si osserva X̃i , e non Xi , l’equazione di regressione effettivamente stimata è quella basata su X̃i . Scritto in termini della variabile misurata imprecisamente, X̃i , l’equazione di regressione nella popolazione Yi = β0 + β1 Xi + ui diventa Yi i h = β0 + β1 X̃i + β1 Xi − X̃i + ui = β0 + β1 X̃i + vi , (7.1) dove vi = β1 Xi − X̃i +ui . L’equazione di regressione nella popolazione scritta in termini di X̃i , ha perciò un errore che contiene la differenza tra Xi e X̃i . Se questa differenza è correlata con il valore misurato X̃i , allora il regressore X̃i è correlato con l’errore e β̂1 è distorto e inconsistente. L’entità precisa e la direzione della distorsione in β̂1 dipendono dalla correlazione tra X̃i e (Xi − X̃i ). Questa correlazione dipende, a sua volta, dalla natura specifica dell’errore di misura. Come esempio, supponiamo che le persone intervistate in un’indagine forniscono la loro miglior congettura o ricordo del valore effettivo della variabile indipendente X i . Una conveniente rappresentazione matematica si ha supponendo che il valore misurato di X i sia uguale al valore reale, non misurato, più una componente puramente casuale, w i . Di conseguenza, il valore misurato della variabile, indicato con X̃i , è X̃i = Xi + wi . Siccome l’errore è pu2 ramente casuale, possiamo supporre che wi abbia media zero e varianza σw e sia incorrelato 2 con Xi e l’errore di regressione ui . Sotto questa ipotesi, un po’ di algebra mostra che β̂1 ha il limite in probabilità σ2 p β̂1 → 2 X 2 β1 . (7.2) σX + σ w In altre parole, se l’imprecisione della misurazione ha l’effetto di aggiungere semplicemente un elemento casuale al valore effettivo della variabile indipendente, allora β̂1 è incon2 2 2 sistente. Poiché il rapporto σX /(σX + σw ) è minore di uno, β̂1 sarà distorto verso zero, anche in grandi campioni. Nel caso estremo in cui l’errore di misura è talmente grande che non rimane essenzialmente alcuna informazione su Xi , il rapporto tra le varianze nella (7.2) è zero e β̂1 converge in probabilità a zero. All’altro estremo, quando non c’è alcun errore di p 2 misura, σw = 0 e quindi β̂1 → β1 . Sebbene il risultato (7.2) si riferisca a un tipo particolare di errore di misura, esso illustra la proposizione più generale secondo la quale, se la variabile indipendente è misurata con imprecisione, lo stimatore OLS è distorto, anche in grandi campioni. La distorsione da errori nelle variabili è riassunta in sintesi nel concetto chiave 7.3. 2 “ ” Sotto questa ipotesi circa l’errore di misura, vi = β1 Xi − X̃i + ui = −β1 wi + ui , cov(X̃i , ui ) = 0 e 2 , per cui cov(X̃ , v ) = −β cov(X̃ , w ) + cov(X̃ , u ) = −β σ 2 . cov(X̃i , wi ) = cov(Xi + wi , wi ) = σw 1 1 w i i i i i i p p 2 /σ 2 . Ora, σ 2 = σ 2 + σ 2 , perciò β̂ → 2 /(σ 2 + σ 2 ) = Cosı̀, dalla (5.1), β̂1 → β1 − β1 σw β 1 − β 1 σw 1 w w X X X̃ X̃ 2 /(σ 2 + σ 2 )]β . [σX 1 w X 247 i i i i i i “generale” — 2005/7/10 — 22:25 — page 248 — #278 i i 7.2. Minacce alla validità interna dell’analisi di regressione multipla Soluzioni alla distorsione da errori nelle variabili. Il miglior modo per risolvere il problema degli errori nelle variabili è ottenere una misura accurata di X. Se questo è impossibile, ci sono tuttavia alcuni metodi econometrici che possono essere usati per attenuare la distorsione. Uno di questi metodi è la regressione con variabili strumentali. Esso si basa sulla disponibilità di un’altra variabile (la variabile “strumentale”), che è correlata con il vero valore X i ma è incorrelata con l’errore di misura. Questo metodo sarà studiato nel capitolo 10. Un secondo metodo è quello di sviluppare un modello matematico per l’errore di misura e, se possibile, di utilizzare le formule cosı̀ ottenute per aggiustare le stime. Ad esempio, se un ricercatore crede che la variabile misurata sia in realtà la somma del valore effettivo 2 2 e di un errore di misura casuale e se conosce o può stimare il rapporto σ w /σX , allora può usare la (7.2) per calcolare uno stimatore di β1 che corregga la distorsione verso il basso. Siccome questo approccio richiede una conoscenza specifica della natura dell’errore di misura, i dettagli sono tipicamente specifici a un particolare insieme di dati e ai suoi problemi di misurazione e non approfondiremo oltre questo approccio in questo manuale. Selezione campionaria La distorsione da selezione campionaria si verifica quando la disponibilità dei dati è influenzata da un processo di selezione che è legato al valore della variabile dipendente. Questo processo di selezione può introdurre correlazione tra l’errore e il regressore, portando cosı̀ a una distorsione nello stimatore OLS. Se la selezione campionaria non è legata al valore della variabile dipendente, non si introduce distorsione. Ad esempio, se i dati sono raccolti da una popolazione attraverso un campionamento casuale semplice, il metodo di campionamento (l’estrazione casuale dalla popolazione) non ha niente a che fare con la variabile dipendente. Tale campionamento non introduce distorsione. La distorsione può essere introdotta quando il metodo di campionamento è legato al valore della variabile dipendente. Un esempio di distorsione da selezione campionaria nei sondaggi elettorali è stato fornito nel riquadro del capitolo 2. In tale esempio, il metodo di selezione del campione (selezione casuale dei numeri telefonici dei possessori di autovetture) era legato alla variabile dipendente (il candidato che l’individuo intervistato aveva sostenuto per la presidenza nel 1936), poiché nel 1936 i possessori di automobili con telefono erano prevalentemente repubblicani. Un esempio di selezione campionaria in economia si verifica quando si usa una regressione dei salari sull’istruzione per stimare l’effetto sui salari di un anno di istruzione in più. Solo gli individui che hanno un lavoro ricevono un salario, per definizione. I fattori (osservabili e inosservabili) che determinano se qualcuno ha un lavoro –istruzione, esperienza, residenza, abilità, fortuna e cosı̀ via– sono simili ai fattori che determinano quanto quella persona 248 i i i i i i “generale” — 2005/7/10 — 22:25 — page 249 — #279 i i 7.2. Minacce alla validità interna dell’analisi di regressione multipla Concetto chiave 7.3: la distorsione da errori nelle variabili La distorsione da errori nelle variabili dello stimatore OLS si verifica quando una variabile indipendente è misurata imprecisamente. Questa distorsione dipende dalla natura dell’errore di misura e persiste anche se la dimensione campionaria è elevata. Se la variabile misurata è uguale al valore effettivo più un errore di misura con media nulla e indipendentemente distribuito, allora lo stimatore OLS in una regressione con una singola variabile indipendente è distorto verso zero e il suo limite in probabilità è dato dalla (7.2). guadagna quando ha un impiego. Cosı̀, il fatto che qualcuno abbia un lavoro suggerisce che, a parità di condizioni, l’errore nell’equazione del salario per quella persona è positivo. In altre parole, il fatto che qualcuno abbia un lavoro è in parte determinato dalle variabili omesse che entrano nell’errore della regressione del salario. Per questo motivo, il semplice fatto che qualcuno abbia un lavoro e appaia di conseguenza nei dati, fornisce informazioni sul fatto che l’errore di regressione è positivo, almeno in media, e potrebbe essere correlato con i regressori. Anche questo può portare a una distorsione nello stimatore OLS. La distorsione da selezione campionaria è riassunta nel concetto chiave 7.4. Soluzioni alla distorsione da selezione. I metodi discussi finora non possono eliminare la distorsione da selezione campionaria. Le tecniche di stima dei modelli con selezione campionaria oltre gli dagli obiettivi di questo libro. Tali metodi si basano sulle tecniche che saranno introdotte nel capitolo 9, dove saranno forniti altri riferimenti bibliografici. Causalità simultanea Abbiamo finora ipotizzato che la causalità vada dal regressore alla variabile dipendente (X causa Y ). Cosa accade se la causalità va invece dalla variabile dipendente a uno o più regressori (Y causa X)? Se cosı̀, la causalità va in “entrambe le direzioni”, ovvero c’è causalit à simultanea. Se c’è causalità simultanea, una regressione OLS cattura entrambi gli effetti, rendendo lo stimatore OLS distorto e inconsistente. Ad esempio, il nostro studio dei punteggi del test si focalizzava sull’effetto della riduzione nel rapporto studenti-insegnanti sui punteggi del test, presumendo cosı̀ che la causalità andasse dal rapporto studenti-insegnanti ai punteggi del test. Supponiamo, tuttavia, che un’iniziativa del governo porti a sussidiare l’assunzione di insegnanti nei distretti scolastici con bassi punteggi del test. Se cosı̀, la causalità andrebbe in entrambe le direzioni: per le solite ragioni legate all’istruzione, bassi rapporti studenti-insegnanti portano ragionevolmente a 249 i i i i i i “generale” — 2005/7/10 — 22:25 — page 250 — #280 i i 7.2. Minacce alla validità interna dell’analisi di regressione multipla Concetto chiave 7.4: distorsione da selezione del campione La distorsione da selezione del campione nasce quando un processo di selezione influenza la disponibilità dei dati e tale processo è legato alla variabile dipendente. La selezione campionaria induce correlazione tra uno o più regressori e l’errore, determinando la distorsione e l’inconsistenza dello stimatore OLS. punteggi dei test alti, ma a causa del programma del governo bassi punteggi porterebbero a un basso rapporto studenti-insegnanti. La causalità simultanea comporta una correlazione tra il regressore e l’errore. Nell’esempio dei punteggi del test, supponiamo che ci sia un fattore omesso che dà luogo a bassi punteggi del test; a causa del programma governativo, questo fattore che produce bassi punteggi comporta a sua volta un basso rapporto studenti-insegnanti. Cosı̀, un termine d’errore negativo nella regressione dei punteggi del test sul rapporto studenti-insegnanti riduce i punteggi del test, ma, a causa del programma governativo, determina anche una diminuzione del rapporto studenti-insegnanti. In altre parole, il rapporto studenti-insegnanti è positivamente correlato con l’errore di regressione nella popolazione. Questo provoca a sua volta una distorsione da causalità simultanea e l’inconsistenza dello stimatore OLS. Questa correlazione tra il termine d’errore e il regressore può essere precisata in termini matematici, introducendo un’equazione addizionale che descrive il legame causale inverso. Per convenienza, consideriamo soltanto le due variabili X e Y , ignorando altri possibili regressori. Di conseguenza, ci sono due equazioni, una in cui X causa Y e una in cui Y causa X: Y i = β 0 + β 1 Xi + u i e (7.3) Xi = γ 0 + γ 1 Y i + v i . (7.4) L’equazione (7.3) è quella solita in cui β1 è l’effetto su Y di una variazione in X, dove u rappresenta gli altri fattori. L’equazione (7.4) rappresenta invece l’effetto causale inverso di Y su X. Nel problema dei punteggi del test, la (7.3) rappresenta l’effetto della dimensione delle classi sui punteggi del test, mentre la (7.4) rappresenta l’effetto causale inverso dei punteggi del test sulla dimensione delle classi indotto dal programma governativo. La causalità simultanea dà luogo a correlazione tra Xi e ui nella (7.3). A fini illustrativi, immaginiamo che ui sia negativo, il che fa diminuire Yi . Tuttavia, questo valore minore di Yi influenza il valore di Xi attraverso la seconda equazione e, se γ1 è positivo, un basso valore di Yi porta a un basso valore di Xi . Cosı̀, se γ1 è positivo, Xi e ui sono positivamente correlati.3 3 Per mostrare ciò in termini matematici, si noti che la (7.4) implica che cov(X , u ) = cov(γ + γ Y + 0 1 i i i vi , ui ) = γ1 cov(Yi , ui ) + cov(vi , ui ). Assumendo che cov(vi , ui ) = 0, per la (7.3) questo implica a sua volta 250 i i i i i i “generale” — 2005/7/10 — 22:25 — page 251 — #281 i i 7.2. Minacce alla validità interna dell’analisi di regressione multipla Concetto chiave 7.5: distorsione da causalità simultanea La distorsione da causalità simultanea, anche detta distorsione da equazioni simultanee, si verifica in una regressione di Y su X, quando, in aggiunta al legame causale d’interesse da X a Y , c’è un legame causale da Y a X. Questa causalità inversa rende X correlata con l’errore nella regressione d’interesse. Poiché questo problema può essere espresso matematicamente usando un sistema di due equazioni simultanee, la distorsione da causalità simultanea è talvolta detta distorsione da equazioni simultanee. La distorsione da causalità simultanea è riassunta nel concetto chiave 7.5. Soluzioni alla distorsione da causalità simultanea. Ci sono due modi per mitigare la distorsione da causalità simultanea: uno è l’uso della regressione con variabili strumentali, argomento del capitolo 10; l’altro consiste nel disegnare e nel realizzare un esperimento controllato casualizzato dove il canale di causalità inversa sia neutralizzato. Tali esperimenti saranno discussi nel capitolo 11. Fonti di inconsistenza degli errori standard degli OLS L’inconsistenza degli errori standard pone un ostacolo diverso alla validità interna. Anche se lo stimatore OLS è consistente e il campione è grande, errori standard inconsistenti produrranno test d’ipotesi con un livello minimo che differisce da quello desiderato e intervalli di confidenza al “95%” che non includono il vero valore nel 95% dei campioni ripetuti. Ci sono due principali cause per l’inconsistenza degli errori standard: l’eteroschedasticità e la correlazione degli errori tra le osservazioni. Eteroschedasticità. Come discusso nella sezione 4.9, per ragioni storiche alcuni pacchetti di regressione riportano gli errori standard classici. Tuttavia, se gli errori sono eteroschedastici, questi errori standard non costituiscono una base affidabile per i test d’ipotesi e gli intervalli di confidenza. La soluzione a questo problema è quella di usare errori standardizzati robusti all’eteroschedasticità e costruire statistiche F usando uno stimatore della varianza robusto all’eteroschedasticità. Gli errori standard robusti all’eteroschedasticità sono disponibili tra le opzioni nei moderni pacchetti statistici. 2 . Risolvendo che cov(Xi , ui ) = γ1 cov(Yi , ui ) = γ1 cov(β0 + β1 Xi + ui , ui ) = γ1 β1 cov(Xi , ui ) + γ1 σu 2 /(1 − γ β ). rispetto a cov(Xi , ui ), si ottiene il risultato cov(Xi , ui ) = γ1 σu 1 1 251 i i i i i i “generale” — 2005/7/10 — 22:25 — page 252 — #282 i i 7.3. Esempio: i punteggi del test e la dimensione delle classi Correlazione del termine d’errore tra le osservazioni. In alcuni contesti, l’errore di regressione può essere correlato tra le osservazioni. Questo non può accadere, se i dati sono ottenuti tramite campionamento casuale dalla popolazione, perché la casualità del processo di campionamento assicura che gli errori siano indipendentemente distribuiti da un’osservazione a un’altra. Talvolta, però, il campionamento è casuale soltanto in parte. Il caso più comune è quando i dati sono osservazioni sulla stessa entità ripetuta nel tempo, ad esempio, lo stesso distretto scolastico per diversi anni. Se le variabili omesse che entrano nell’errore di regressione sono persistenti (come la demografia dei distretti), allora questo determina correlazione “seriale” nell’errore di regressione. Un altro esempio è quando il campionamento è basato su un’unità geografica. Se ci sono variabili omesse che riflettono le influenze geografiche, queste potrebbero dar luogo a correlazione degli errori di regressione di osservazioni adiacenti. La correlazione dell’errore di regressione tra le osservazioni non rende lo stimatore OLS distorto o inconsistente, ma viola la seconda ipotesi dei minimi quadrati (concetto chiave 5.4). La conseguenza è che gli errori standard degli OLS –sia quelli classici sia quelli robusti all’eteroschedasticità– sono incorretti nel senso che non producono intervalli di confidenza con il livello di confidenza desiderato. In molti casi, questo problema può essere risolto usando una formula alternativa per gli errori standard. Nel capitolo 12 forniremo una formula per calcolare gli errori standard robusti sia all’eteroschedasticità sia alla correlazione seriale. 7.3 Esempio: i punteggi del test e la dimensione delle classi Il quadro di riferimento basato sui concetti di validità interna ed esterna ci aiuta a guardare criticamente quanto abbiamo appreso –e quanto non abbiamo appreso– dalla nostra analisi dei dati sui punteggi dei test in California. Validità esterna Se l’analisi relativa alla California possa essere generalizzata –ossia, se essa sia esternamente valida– dipende dalla popolazione e dal contesto ai quali si intende generalizzarla. Qui valutiamo la possibilità di generalizzazione alle prestazioni in altri test standardizzati di altri distretti scolastici elementari pubblici degli Stati Uniti. Nella sezione 7.1 si è notato che avere più di uno studio sullo stesso argomento offre l’opportunità di verificare la validità esterna di entrambi gli studi, confrontandone i risultati. Per lo studio dei punteggi del test e della dimensione delle classi sono effettivamente disponibili altri dati confrontabili. In questa sezione esaminiamo un diverso insieme di dati, basato sui punteggi del test standardizzato per gli studenti del quarto grado d’istruzione in 220 distretti scolastici pubblici del Massachusetts nel 1998. Sia i test del Massachusetts 252 i i i i i i “generale” — 2005/7/10 — 22:25 — page 253 — #283 i i 7.3. Esempio: i punteggi del test e la dimensione delle classi Tabella 7.1: statistiche descrittive dei dati sui punteggi del test in California e nel Massachusetts Media Punteggio test Rapporto studenti-insegnanti % studenti non madrelingua % aventi diritto al sussidio mensa Reddito medio nel distretto ($) Numero di osservazioni Anno California Deviazione standard 654,1 19,6 15,8% 44,7% $15.317 19,1 1,9 18,3% 27,1% $7.226 420 1999 Media Massachusetts Deviazione standard 709,8 17,3 1,1% 15,3% $18.747 15,1 2,3 2,9% 15,1% $5.808 220 1998 sia quelli della California sono misure generali della preparazione degli studenti e delle loro abilità accademiche, sebbene differiscano nei dettagli. Analogamente, l’organizzazione dell’insegnamento nelle classi è relativamente simile al livello delle scuole elementari nei due stati (come nella maggior parte dei distretti scolastici elementari degli Stati Uniti), sebbene gli aspetti riguardanti il finanziamento della scuola elementare e i programmi siano diversi. Cosı̀, trovare risultati simili nei dati della California e del Massachusetts per quanto riguarda l’effetto del rapporto studenti-insegnanti sulle prestazioni nel test costituirebbe evidenza della validità esterna dei risultati relativi alla California. Di contro, trovare risultati diversi nei due stati solleverebbe questioni sulla validità interna o esterna di almeno uno dei due studi. Confronto tra i dati della California e del Massachusetts. Come i dati della California, anche quelli del Massachusetts sono a livello di distretto scolastico. Le definizioni delle variabili per i dati del Massachusetts sono le stesse che per i dati della California, o circa le stesse. Maggiori informazioni sui dati del Massachusetts, incluse le definizioni delle variabili, sono fornite nell’appendice 7.1. La tavola 7.1 presenta statistiche descrittive per i campioni della California e del Massachusetts: il punteggio medio del test è maggiore nel Massachusetts, ma il test è diverso, perciò un confronto dei punteggi non è appropriato; il rapporto medio studenti-insegnanti è più alto in California (19.6 contro 17.3); il reddito medio del distretto è del 20% più alto nel Massachusetts, ma la deviazione standard del reddito è maggiore in California, cioè c’è una dispersione maggiore tra i redditi medi dei distretti in California rispetto al Massachusetts. La percentuale media di studenti che ancora apprendono l’inglese e la percentuale media di studenti che ricevono sovvenzioni per il pranzo sono entrambe molto più alte nei distretti della California che in quelli del Massachusetts. 253 i i i i i i “generale” — 2005/7/10 — 22:25 — page 254 — #284 i i 7.3. Esempio: i punteggi del test e la dimensione delle classi Punteggi del test e reddito medio nel distretto. Per risparmiare spazio, non presenteremo il grafico a nuvola di tutti i dati relativi al Massachusetts. Tuttavia, siccome è stato argomento del capitolo 6, è interessante esaminare la relazione tra i punteggi del test e i redditi medi dei distretti nel Massachusetts. Questo grafico a nuvola è presentato nella figura 7.1. Il suo andamento generale è simile a quello per i dati della California nella figura 6.2: la relazione tra reddito e punteggi del test appare essere più inclinata per livelli bassi di reddito e più piatta per livelli alti. Evidentemente, la regressione lineare riportata nella figura non cattura questa apparente non linearità. La figura 7.1 riporta anche funzioni di regressione cubiche e logaritmiche. La funzione di regressione cubica ha un R̄2 leggermente più alto rispetto alla specificazione logaritmica (0, 486 contro 0, 455). Il confronto delle figure 6.7 e 7.1 mostra che l’evidenza di non linearità riscontrata tra i dati per reddito e punteggi del test relativi alla California è presente anche nei dati del Massachusetts. Le forme funzionali precise che meglio descrivono questa non linearità tuttavia differiscono: la specificazione cubica interpola meglio nel Massachusetts, ma quella log-lineare interpola meglio in California. Risultati della regressione multipla. I risultati delle regressioni per i dati del Massachusetts sono presentati nella tabella 7.2. La prima regressione, riportata nella colonna (1) della tabella, ha solo il rapporto studenti-insegnanti come regressore. La pendenza è negativa (−1.72) e l’ipotesi che il coefficiente sia nullo può essere rifiutata al livello di significatività 1% (t = −1, 72/0, 50 = −3, 44). Le restanti colonne riportano i risultati ottenuti includendo variabili aggiuntive che controllano per le caratteristiche dello studente e introducendo non linearità nella funzione di regressione stimata. Controllando per la percentuale di studenti che ancora imparano l’inglese, la percentuale di studenti idonei a ricevere un sussidio per il pranzo e il reddito medio nel distretto, si riduce il coefficiente stimato sul rapporto studenti-insegnanti del 60%, da −1, 72 nella regressione (1) a −0, 69 nella regressione (2) e −0, 64 nella regressione (3). Il confronto degli R̄2 delle regressioni (2) e (3) indica che la specificazione cubica (3) fornisce un modello migliore della relazione tra punteggi del test e reddito rispetto alla specificazione logaritmica (2), anche tenendo costante il rapporto studenti-insegnanti. Non c’è evidenza statisticamente significativa di una relazione non lineare tra punteggi del test e rapporto studenti-insegnanti: la statistica F nella regressione (4) per testare se i coefficienti di ST R2 e ST R3 nella popolazione sono nulli ha un valore-p pari a 0, 641. Similmente, non c’è alcuna evidenza che una riduzione nel rapporto studenti-insegnanti abbia un diverso effetto nei distretti con molti studenti che apprendono l’inglese rispetto a quelli con pochi (la statistica t di HiEL × ST R nella regressione (5) è 0, 80/0, 56 = 1, 43). Infine, la regressione (6) mostra che il coefficiente stimato del rapporto studenti-insegnanti non varia sostanzialmente quando si esclude la percentuale di studenti che ancora apprendono l’inglese (variabile che 254 i i i i i i “generale” — 2005/7/10 — 22:25 — page 255 — #285 i i 7.3. Esempio: i punteggi del test e la dimensione delle classi Figura 7.1: punteggi del test su reddito nei dati per il Massachusetts Punteggio test 780 Regressione lineare Regressione lineare-logaritmica 760 740 720 Regressione cubica 700 680 660 640 620 0 10 20 30 40 50 Reddito distretto (migliaia di dollari) La funzione di regressione lineare stimata non cattura la relazione non lineare tra reddito e punteggi del test per i dati del Massachusetts. Le funzioni di regressione lineare-logaritmica e cubica stimate sono simili per redditi del distretto compresi tra 13.000$ e 30.000$, l’intervallo che contine il grosso delle osservazioni. è non significativa nella regressione (3)). In breve, i risultati della regressione (3) non sono sensibili ai cambiamenti della forma funzionale e della specificazione considerati nelle regressioni (4)–(6) della tabella 7.2. Per questo motivo, adottiamo la regressione (3) come nostra stima di base, per i dati del Massachusetts, dell’effetto sui punteggi del test di una variazione nel rapporto studenti-insegnanti. Confronto tra i risultati del Massachusetts e della California. Per i dati della California abbiamo trovato che: Electronic Services a. aggiungendo variabiliPublishing che controllino per la Inc. preparazione dello studente, il coefficienStock/Watson, Econometrics 1e te del rapporto studenti-insegnanti si riduce da −2.28 (tabella 5.2, regressione (1)) a STOC.ITEM.0032 −0.73 (tabella 6.2, regressione (2)), una riduzione del 68%; Fig. 07.01 b. l’ipotesi che il coefficiente associato al rapporto studenti-insegnanti sia nullo è stata ri1st Proof 2nd Proof 3rd Proof Final 255 i i i i i i “generale” — 2005/7/10 — 22:25 — page 256 — #286 i i 7.3. Esempio: i punteggi del test e la dimensione delle classi Tabella 7.2: stime di regressioni multiple del rapporto studenti-insegnanti e del punteggio del test: dati del Massachusetts Variabile dipendente: media combinata dei punteggi ottenuti nei test di inglese, matematica e scienze nel distretto scolastico; 220 osservazioni. Regressore (ST R) (1) (2) (3) (4) (5) (6) -1,72∗∗ (0,50) -0,69∗ (0,27) -0,64∗ (0,27) -1,02∗∗ (0,37) -0,67∗ (0,27) -0,411 (0,306) -0,437 (0,303) 12,4 (14,0) -0,680 (0,737) 0,011 (0,013) -0,434 (0,300) -0,653∗∗ (0.72) -3,22 (2.31) 0,165 (0,085) -0,0022∗ (0,0010) 747,4∗∗ (20,3) (ST R)2 (ST R)3 % studenti non di madrelingua % studenti non di madrelingua> mediana (Variabile binaria, HiEL) HiEL × ST R -0,521∗∗ (0,077) 16,53∗∗ (3,15) % aventi diritto al sussidio mensa Reddito nel distretto (logaritmo) Reddito nel distretto Reddito nel distretto2 Reddito nel distretto3 Intercetta 739,6∗∗ (8,6) 682,4∗∗ (11,5) -0,582∗∗ (0,097) -0,587∗∗ (0,104) -12,6 (9,8) 0,80 (0,56) -0,709∗∗ (0,091) -3,07 (2,35) 0,164 (0,085) -0,0022∗ (0,0010) 744,0∗∗ (21,3) -3,38 (2,49) 0,174 (0,089) -0,0023∗ (0,0010) 665,5∗∗ (81,3) -3,87∗ (2,49) 0,184∗ (0,090) -0,0023∗ (0,0010) 759,9∗∗ (23,2) 4,01 (0,020) 7,74 (< 0, 001) 2,86 (0,038) 0,45 (0,641) 7,75 (< 0, 001) 8,61 0,676 8,63 0,675 Statistiche F e valori-p per l’esclusione di gruppi di variabili Tutte le variabili ST R e i termini d’interazione = 0 ST R2 , ST R3 = 0 Income2 , Income3 HiEL, HiEL × ST R SER R̄2 14,64 0,063 8,69 0,670 5,85 (0,003) 1,58 (0,208) 8,62 0,675 6,55 (0.002) 8.64 0,674 Queste regressioni sono state stimate utilizzando i dati sui distretti scolastici elementari del Massachusetts descritti nell’appendice 7.1. Gli errori standard sono riportati in parentesi sotto ai coefficienti e i valori-p sono riportati in parentesi sotto le statistiche F . I coefficienti sono statisticamente significativi al livello ∗ 5% o ∗ 1%. 256 i i i i i i “generale” — 2005/7/10 — 22:25 — page 257 — #287 i i 7.3. Esempio: i punteggi del test e la dimensione delle classi fiutata al livello di significatività 1%, anche dopo aver aggiunto variabili che controllino per la preparazione dello studente e le caratteristiche economiche del distretto; c. l’effetto di un taglio del rapporto studenti-insegnanti non dipende in misura considerevole dalla percentuale di coloro che stanno ancora imparando l’inglese nel distretto; d. c’è una qualche evidenza che la relazione tra punteggi del test e rapporto studentiinsegnanti sia non lineare. Giungiamo alle stesse conclusioni nel Massachusetts? Per i risultati (a), (b), e (c) la risposta è positiva. Includendo variabili di controllo addizionali, il coefficiente del rapporto studenti-insegnanti si riduce da −1, 72 (tabella 7.2, regressione (1)) a −0, 69 (tabella 7.2, regressione (2)), una riduzione del 60%. I coefficienti del rapporto studenti-insegnanti rimangono significativi dopo aver aggiunto le variabili di controllo. Tali coefficienti sono significativi solo al livello 5% per i dati del Massachusetts, mentre sono significativi al livello 1% per i dati della California. Tuttavia, nei dati della California c’è quasi il doppio di osservazioni, non è perciò sorprendente che le stime relative alla California siano più precise. Cosı̀ come nei dati della California, in quelli del Massachusetts non vi è evidenza statisticamente significativa di un’interazione tra il rapporto studenti-insegnanti e la variabile binaria che indica la presenza nel distretto di un’ampia percentuale di coloro che ancora imparano l’inglese. Il risultato (d), tuttavia, non vale per i dati del Massachusetts: l’ipotesi che la relazione tra il rapporto studenti-insegnanti e i punteggi del test sia lineare non può essere rifiutata al livello di significatività 5% contro una specificazione cubica. Siccome i due test standardizzati sono diversi; i coefficienti stessi non possono essere confrontati direttamente: un punto nel test del Massachusetts non equivale a un punto nel test della California. Se, però, i punteggi dei test sono convertiti nella stessa unità di misura, gli effetti stimati della dimensione delle classi possono essere messi a confronto. Un modo per fare questo è quello di trasformare i punteggi dei test standardizzandoli: si sottrae la media campionaria e si divide per la deviazione standard, in modo da avere media zero e varianza pari a uno. Le pendenze della regressione con i punteggi del test trasformati sono uguali alle pendenze della regressione originaria, divisi per la deviazione standardizzata del test. Perciò, il coefficiente del rapporto studenti-insegnanti, diviso per la deviazione standard dei punteggi del test, può essere confrontato tra i due insiemi di dati. Questo confronto è effettuato nella tabella 7.3. La prima colonna riporta le stime OLS del coefficiente del rapporto studenti-insegnanti in una regressione che include, come variabili di controllo, la percentuale di coloro che ancora apprendono l’inglese, la percentuale di studenti idonei a ricevere sussidi per i pranzo e il reddito medio del distretto. La seconda colonna riporta la deviazione standard dei punteggi del test nei distretti. Le due colonne finali mostrano la stima dell’effetto sui punteggi del test della riduzione nel rapporto studenti-insegnanti di due studenti per insegnante (la proposta del nostro provveditore), la prima è nell’unità di 257 i i i i i i “generale” — 2005/7/10 — 22:25 — page 258 — #288 i i 7.3. Esempio: i punteggi del test e la dimensione delle classi misura del test e la seconda nell’unità di misura della deviazione standard. Per la specificazione lineare, la stima OLS del coefficiente con i dati della California è pari a −0, 73: un taglio del rapporto studenti-insegnanti si stima incrementi i punteggi del test nel distretto di −0, 73 × (−2) = 1, 46 punti. Siccome la deviazione standard dei punteggi del test è di 19, 1 punti, questo corrisponde a 1, 46/19, 1 = 0, 076 deviazioni standard della distribuzione dei punteggi del test tra i distretti. L’errore standard di questa stima è 0, 26 × 2/19, 1 = 0, 027. Gli effetti stimati per i modelli lineari e i loro errori standard sono stati calcolati usando il metodo descritto nella sezione 6.1. Basandosi sul modello lineare che usa i dati della California, una riduzione di due studenti per insegnante si stima incrementi i punteggi del test di 0, 076 unità di deviazione standard, con un errore standard di 0, 027. I modelli non lineari sui dati della California suggeriscono un effetto un po’ più elevato, con l’effetto specifico che dipende dal rapporto studentiinsegnanti iniziale. Sulla base dei dati del Massachusetts, l’effetto stimato è pari a 0, 085 unità di deviazione standard, con un errore standard di 0, 036. Queste stime sono essenzialmente le stesse. Tagliare il rapporto studenti-insegnanti accresce i punteggi del test, ma l’incremento predetto è modesto. Per i dati della California, ad esempio, la differenza nei punteggi del test tra il distretto mediano e un distretto al 75-esimo percentile è di 12, 2 punti (tabella 4.1) o di 0, 64 (= 12, 2/19, 1) punti di deviazione standard. L’effetto stimato dal modello lineare eccede questi valori di poco più di un decimo; in altre parole, secondo questa stima, ridurre di due il numero di studenti per insegnante sposterebbe un distretto solo di un decimo della distanza tra il mediano e il 75-esimo percentile della distribuzione dei punteggi del test tra i distretti. Ridurre il rapporto studenti per insegnanti di due studenti per insegnante è un grande cambiamento per un distretto, ma i benefici stimati mostrati nella tabella 7.3, sebbene non nulli, sono modesti. Quest’analisi dei dati del Massachusetts suggerisce che i risultati della California sono esternamente validi, almeno quando si generalizzano ad altri distretti scolastici elementari degli Stati Uniti. Validità interna La somiglianza tra i risultati per la California e per il Massachusetts non assicura la loro validità interna. La sezione 7.2 ha elencato cinque possibili minacce alla validità interna che potrebbero introdurre distorsione nell’effetto stimato della dimensione delle classi sui punteggi del test. Consideriamo queste minacce una alla volta. Variabili omesse. Le regressioni multiple trattate in questo capitolo e in quelli precedenti controllano per una caratteristica dello studente (la percentuale di coloro che ancora apprendono l’inglese), una caratteristica economica della famiglia (la percentuale di studenti che 258 i i i i i i “generale” — 2005/7/10 — 22:25 — page 259 — #289 i i 7.3. Esempio: i punteggi del test e la dimensione delle classi Tabella 7.3: rapporto studenti-insegnanti e punteggio del test: confronto tra le stime per la California e per il Massachusetts Stima degli effetti della riduzione di due studenti per insegnante, in unità di: Stima OLS β̂ST R Deviazione standard del punteggio del test nei distretti Punti del test Deviazione standard 1,46 (0,52) 2,93 (0,70) 1,90 (0,69) 0,076 (0,027) 0,153 (0,037) 0,099 (0,036) 1,28 (0,54) 0,085 (0,036) California Lineare: tabella 6.2(2) Cubica: tabella 6.2(7) ST R ridotto da 20 a 18 Cubica: tabella 6.2(7) ST R ridotto da 22 a 20 -0,73 (0,26) – 19,1 – 19,1 -0,64 (0,27) 15,1 19,1 Massachusetts Lineare: tabella 7.2(3) Gli errori standard sono riportati in parentesi. ricevono un sussidio per il pranzo) e una misura meno specifica del benessere del distretto (reddito medio del distretto). Possibili variabili omesse, sono altre caratteristiche della scuola e dello studente, e ometterle potrebbe causare distorsioni da variabile omessa. Ad esempio, se il rapporto studentiinsegnanti è correlato con la qualità dell’insegnante (magari perché gli insegnanti migliori sono attratti da scuole con rapporti studenti-insegnanti più bassi) e se la qualità dell’insegnante influenza i punteggi del test, l’omissione della qualità dell’insegnante potrebbe introdurre distorsione nel coefficiente del rapporto studenti-insegnanti. Similmente, distretti con un basso rapporto studenti-insegnanti potrebbero anche offrire molte opportunità di apprendimento extra scolastico. Inoltre, distretti con un basso rapporto studenti-insegnanti potrebbero attrarre famiglie che si impegnano maggiromente a migliorare l’apprendimento dei figli a casa. Tali fattori omessi potrebbero portare a distorsione da variabile omessa. Un modo per eliminare la distorsione da variabile omessa, almeno in teoria, è condurre un esperimento. Ad esempio, gli studenti potrebbero essere assegnati in modo casuale a classi di dimensione diversa e si potrebbero confrontare le loro successive prestazioni nei test 259 i i i i i i “generale” — 2005/7/10 — 22:25 — page 260 — #290 i i 7.3. Esempio: i punteggi del test e la dimensione delle classi standardizzati. Tale studio è stato condotto per il Tennessee, e lo esamineremo nel capitolo 11. Forma funzionale. L’analisi condotta qui e nel capitolo 6 ha esplorato una varietà di forme funzionali. Abbiamo trovato che alcune delle possibili non linearità studiate non sono statisticamente significative, mentre quelle che lo sono non alterano in maniera sostanziale l’effetto stimato di una riduzione nel rapporto studenti-insegnanti. Sebbene sia possibile condurre ulteriori analisi circa la forma funzionale, ciò suggerisce che è improbabile che i risultati principali di tali studi siano sensibili all’uso di diverse specificazioni non lineari della regressione. Errori nelle variabili. Il rapporto medio studenti-insegnanti nel distretto è una misura ampia e potenzialmente inaccurata della dimensione delle classi. Ad esempio, siccome gli studenti entrano ed escono dai distretti, il rapporto studenti-insegnanti potrebbe non rappresentare accuratamente la dimensione delle classi effettivamente sperimentata dagli studenti sottoposti al test, il che potrebbe a sua volta far sı̀ che l’effetto stimato della dimensione delle classi sia distorto verso zero. Un’altra variabile con potenziali errori di misura è il reddito medio nel distretto. Questi dati sono stati tratti dal censimento del 1990, mentre gli altri sono relativi al 1998 (Massachusetts) o al 1999 (California). Se la composizione economica del distretto fosse cambiata sostanzialmente negli anni ’90, si avrebbe una misura imprecisa del reddito medio effettivo del distretto. Selezione. I dati della California e del Massachusetts coprono tutti i distretti scolastici elementari pubblici nello stato che soddisfano requisiti minimi di dimensione, perciò non c’è ragione di pensare che la selezione campionaria possa essere un problema. Causalità simultanea. Si avrebbe causalità simultanea, se il rendimento nel test standardizzato influenzasse il rapporto studenti-insegnanti. Questo potrebbe accadere se, per esempio, ci fosse un meccanismo burocratico o politico per accrescere i finanziamenti delle scuole o dei distretti con basso rendimento, che a sua volta avesse come risultato l’assunzione di altri insegnanti. Nel Massachusetts, non vigeva alcun meccanismo di perequazione dei finanziamenti scolastici durante il periodo in cui sono stati svolti i test. In California, una serie di casi giudiziari ha portato a una certa perequazione dei finanziamenti, non basata però sul rendimento degli studenti. Per questo motivo, né nel Massachusetts né in California la causalità simultanea sembra costituire un problema. Eteroschedasticità e correlazione dell’errore tra le osservazioni. Tutti i risultati riportati qui e nei capitoli precedenti utilizzano errori standard robusti all’eteroschedasticità, perciò 260 i i i i i i “generale” — 2005/7/10 — 22:25 — page 261 — #291 i i 7.3. Esempio: i punteggi del test e la dimensione delle classi l’eteroschedasticità non ne inficia la validità interna. La correlazione del termine d’errore tra le osservazioni, tuttavia, potrebbe minare la consistenza degli errori standard perché non è stato usato il campionamento casuale semplice (il campione comprende tutti i distretti scolastici elementari dello stato). Sebbene esistano formule alternative per gli errori standard che potrebbero essere applicate in questa situazione, i dettagli sono complessi e li lasciamo a testi più avanzati. Discussione e implicazioni La somiglianza tra i risultati del Massachusetts e della California suggerisce che questi studi sono esternalmente validi, nel senso che i risultati principali possono essere generalizzati alle prestazioni nei test standardizzati di altri distretti scolastici negli Stati Uniti. Alcune delle maggiori minacce potenziali alla validità esterna sono state tenute in considerazione controllando per la preparazione degli studenti, la condizione economica familiare e il benessere del distretto e cercando non linearità nella funzione di regressione. Rimangono però ancora minacce potenziali alla validità esterna. La minaccia principale è la distorsione da variabile omessa, che potrebbe derivare dal fatto che le variabili di controllo non catturano le altre caratteristiche dei distretti scolastici o le opportunità di apprendimento al di fuori della scuola. Sulla base dei dati della California e del Massachusetts, siamo in grado di rispondere alla domanda del provveditore del capitolo 4.1: dopo aver controllato per la condizione economica delle famiglie, le caratteristiche degli studenti e il benessere nel distretto e dopo aver modellato le non linearità della funzione di regressione, tagliare il rapporto studenti-insegnanti di due studenti per insegnante si prevede aumenti i punteggi del test di approssimativamente 0, 08 deviazioni standard della distribuzione dei punteggi del test tra i distretti. Questo effetto è statisticamente significativo, ma è molto piccolo. Questa stima è in linea con i risultati di molti studi che hanno investigato gli effetti sui punteggi del test di riduzioni della dimensione delle classi.4 Il provveditore può ora usare queste stime per decidere se ridurre la dimensione delle classi. Nel prendere questa decisione, soppeserà i costi della proposta riduzione contro i suoi benefici. I costi includono i salari degli insegnanti e le spese per le classi addizionali. I benefici includono i miglioramenti delle prestazioni accademiche, che sono state misurate dalla prestazione nei test standardizzati, ma ci sono altri benefici potenziali che non sono stati studiati, inclusi tassi più bassi di abbandono e retribuzioni future migliori. L’effetto stimato della proposta sulla prestazione nel test standardizzato è un elemento importante nel calcolo dei costi e dei benefici del provveditore. 4 Se si è interessati ad apprendere qualcos’altro sulla relazione tra dimensione delle classi e punteggi del test, si vedano le rassegne di Ehrenberg, Brewer, Gamoran e Willms (2001a, 2001b). 261 i i i i i i “generale” — 2005/7/10 — 22:25 — page 262 — #292 i i 7.4. Conclusioni 7.4 Conclusioni I concetti di validità interna ed esterna forniscono un quadro generale per valutare ciò che si è appreso da uno studio econometrico. Uno studio basato sulla regressione multipla è internamente valido se i coefficienti stimati sono non distorti e consistenti e se gli errori standard sono consistenti. Minacce alla validità interna di tale studio includono le variabili omesse, la incorretta specificazione della forma funzionale (non linearità), la misura imprecisa delle variabili indipendenti (errori nelle variabili), la selezione campionaria e la casualità simultanea. Ciascuno di questi introduce correlazione tra regressore ed errore, il che a sua volta rende gli stimatori OLS distorti e inconsistenti. Se gli errori sono correlati tra le osservazioni, come può accadere con le serie temporali, oppure se sono eteroschedastici ma gli errori standard sono calcolati usando la formula classica, la validità interna è compromessa perché gli errori standard sono inconsistenti. Questi ultimi problemi possono essere affrontati calcolando propriamente gli errori standard. Uno studio che usa l’analisi di regressione, come qualunque altro studio statistico, è esternamente valido se i suoi risultati possono essere generalizzati oltre la popolazione e il contesto studiati. Talvolta può essere d’aiuto confrontare due o più studi sullo stesso argomento. A prescindere dalla disponibilità di due o più studi, valutare la validità esterna richiede di esprimere un giudizio circa la somiglianza tra la popolazione e il contesto studiati e la popolazione e il contesto ai quali si vogliono generalizzare i risultati. Le prossime due parti di questo manuale sviluppano i modi per affrontare le minacce alla validità interna che non possono essere mitigate dalla mera analisi di regressione multipla. La parte III estende il modello di regressione multipla secondo modi che cercano di mitigare tutte e cinque le fonti di distorsione potenziale dello stimatore OLS; la parte III discute anche un diverso approccio per ottenere validità interna, gli esperimenti controllati casualizzati. La parte IV sviluppa metodi per analizzare serie temporali e per utilizzare questi dati nella stima dei cosiddetti effetti causali dinamici, i quali sono effetti causali che variano nel tempo. Sommario 1. Gli studi statistici vengono valutati chiedendosi se l’analisi sia valida internamente ed esternamente. Uno studio è internamente valido se le inferenze statistiche sugli effetti causali valgono per la popolazione oggetto di studio. Uno studio è esternamente valido se le sue inferenze e conclusioni possono essere generalizzate dalla popolazione e contesto studiati ad altre popolazioni e contesti. 2. Nell’analisi di regressione, ci sono due grandi minacce alla validità interna: gli stimatori OLS sono inconsistenti se i regressori e gli errori sono incorrelati; gli intervalli di confidenza e i test di ipotesi non sono validi quando gli errori standard sono non corretti. 262 i i i i i i “generale” — 2005/7/10 — 22:25 — page 263 — #293 i i Sommario 3. I regressori e gli errori possono essere correlati quando ci sono variabili omesse, una forma funzionale scorretta, uno o più regressori sono misurati con errori, il campione è scelto in maniera non casuale dalla popolazione o vi è causalità simultanea tra i regressori e le variabili dipendenti. 4. Gli errori standard sono non corretti quando gli errori sono eteroschedastici e i pacchetti statistici utilizzano errori standard per l’omoschedasticità pura o quando l’errore è correlato tra le diverse osservazioni. Termini chiave popolazione oggetto di studio (240) popolazione d’interesse (240) validità interna (241) validità esterna (241) incorretta specificazione della forma funzionale (246) distorsione da errori nelle variabili (246) distorsione da selezione campionaria (248) distorsione da causalità simultanea (249) distorsione da equazioni simultanee (251) Verifica dei concetti 7.1 Qual è la differenza tra validità interna ed esterna? Tra popolazione oggetto di studio e popolazione d’interesse? 7.2 Il concetto chiave 7.2 descrive il problema della selezione di variabili in termini di scelta ponderata tra distorsione e varianza. Qual è questa scelta ponderata? Perché includendo un regressore addizionale si può diminuire la distorsione? E aumentare la varianza? 7.3 Le variabili economiche sono spesso misurate con errori. Ciò significa che l’analisi di regressione è inaffidabile? Argomentare la risposta. 7.4 Si supponga che uno stato abbia offerto test standardizzati volontari a tutti gli studenti del terzo grado d’istruzione e che questi dati siano stati usati in uno studio della dimensione delle classi sulla prestazione degli studenti. Si spieghi come la distorsione da variabile omessa potrebbe invalidarne i risultati. 7.5 Un ricercatore stima l’effetto sui tassi di criminalità della spesa per la polizia usando dati a livello di città. Spiegare come la causalità simultanea potrebbe invalidarne i risultati. 263 i i i i i i “generale” — 2005/7/10 — 22:25 — page 264 — #294 i i Sommario 7.6 Un ricercatore stima una regressione usando due pacchetti statistici diversi: uno utilizza la formula degli errori standard classici; l’altro implementa quelli robusti all’eteroschedasticità. Gli errori standard sono molto diversi. Quali bisognerebbe usare? Perché? Esercizi 7.1 Si supponga di aver appena letto uno studio statistico accurato dell’effetto della pubblicità sulla domanda di sigarette. Usando i dati relativi a New York negli anni ’70, si potrebbe concludere che la pubblicità su autobus e metropolitane è stata più efficace della pubblicità su carta stampata. Si usi il concetto di validità esterna per determinare se i risultati possono essere verosimilmente applicati alla Boston degli anni ’70; alla Los Angeles degli anni ’70; alla New York del 2002. 7.2 Si consideri il modello di regressione a una sola variabile: Yi = β0 + β1 Xi + ui e si supponga che questo soddisfi l’ipotesi del concetto chiave 4.3. Si supponga che Y i sia misurato con errori, cosicché i dati siano Ỹi = Yi + wi , dove wi è l’errore di misura che è i.i.d. e indipendente da Yi e Xi . Si consideri la regressione Ỹi = β0 + β1 Xi + vi , dove vi è l’errore di regressione che si commette utilizzando la variabile dipendente misurata con errori Ỹi . a. Si mostri che vi = ui + wi . b. Si mostri che la regressione Ỹi = β0 + β1 Xi + vi soddisfa le ipotesi del concetto chiave 4.3 (suggerimento: si assuma che wi sia indipendente da Yj e Xj per tutti i valori di i e j e che abbia momento quarto finito). c. Gli stimatori OLS sono consistenti? d. Gli intervalli di confidenza possono essere costruiti nel modo solito? e. Si valuti l’affermazione: “l’errore di misura della X è un serio problema. L’errore di misura della Y non lo è”. 7.3 Gli economisti del lavoro che studiano le determinanti delle retribuzioni femminili hanno trovato un risultato empirico enigmatico. Usando donne impiegate selezionate a caso, hanno effettuato una regressione delle retribuzioni sul numero di figli di queste donne e un insieme di variabili di controllo (età, istruzione, occupazione e cosı̀ via). Hanno trovato che, controllando per questi altri fattori, le donne con più figli avevano salari più alti. Si spieghi come la selezione del campione potrebbe essere la causa di questo risultato (suggerimento: si noti che il campione comprende solo donne lavoratrici). (Questo problema empirico ha motivato la ricerca di James Heckman sulla selezione del campione che gli ha fruttato il Premio Nobel per l’economia nel 2000). 264 i i i i i i “generale” — 2005/7/10 — 22:25 — page 265 — #295 i i Appendice Appendice 7.1: i dati sui test effettuati nelle scuole elementari del Massachusetts I dati del Massachussets sono medie a livello di distretto relative ai distretti di scuole elementari pubbliche nel 1998. Il punteggio del test è tratto dal test del Massachusetts Comprehensive Assessment System (MCAS) sottoposto nella primavera 1998 a tutti i frequentanti il quarto grado d’istruzione nelle scuole pubbliche del Massachusetts. Il test è sponsorizzato dal Massachusetts Department of Education ed è obbligatorio per tutte le scuole pubbliche. I dati analizzati qui riguardano il punteggio totale globale, che è la somma dei punteggi ottenuti nelle sezioni di inglese, matematica e scienze del test. I dati sul rapporto studenti-insegnanti, la percentuale di studenti che ricevono sussidi per il pasto e la percentuale di studenti che ancora apprendono l’inglese sono medie relative a ciascun distretto scolastico elementare per l’anno scolastico 1997-1998 e sono stati forniti dal Massachusetts Department of Education. I dati sul reddito medio dei distretti sono stati tratti dal censimento USA del 1990. 265 i i i i i i “generale” — 2005/7/10 — 22:25 — page 266 — #296 i i i i i i i i “generale” — 2005/7/10 — 22:25 — page 267 — #297 i i Parte III Ulteriori sviluppi dell’analisi di regressione i i i i i i “generale” — 2005/7/10 — 22:25 — page 268 — #298 i i i i i i i i “generale” — 2005/7/10 — 22:25 — page 269 — #299 i i Capitolo 8 Regressione con dati panel La regressione multipla è uno strumento potente per controllare l’effetto delle variabili per le quali si possiedono i dati. Se però non sono disponibili i dati per alcune variabili, queste non possono essere incluse nella regressione e gli stimatori OLS dei coefficienti di regressione potrebbero essere soggetti a distorsione da variabile omessa. Il presente capitolo descrive un metodo per controllare per la presenza di alcuni tipi di variabili omesse senza osservarle realmente. Questo metodo richiede un tipo particolare di dati, detti dati panel, in cui ogni unità oggetto d’osservazione, o entità, è osservata per due o più periodi. Studiando le variazioni della variabile dipendente nel tempo, è possibile eliminare l’effetto delle variabili omesse che, pur essendo diverse tra le entità, sono costanti nel tempo. L’applicazione empirica in questo capitolo riguarda la guida in stato d’ebbrezza: quali sono gli effetti delle imposte sugli alcolici e le leggi contro la guida in stato d’ebbrezza sugli incidenti stradali mortali? Trattiamo questa questione usando dati su incidenti stradali mortali, imposte sugli alcolici, leggi sulla guida in stato d’ebbrezza e altre variabili rilevanti per i 48 stati contigui degli USA in ognuno dei sette anni dal 1982 al 1988. Questi dati panel ci permettono di controllare per le variabili inosservate, che differiscono da stato a stato, come l’atteggiamento culturale prevalente verso la guida dopo aver bevuto, ma che non cambiano nel tempo. Questo ci permette anche di controllare per variabili che si modificano nel tempo, come i miglioramenti riguardanti la sicurezza delle nuove automobili, ma che non variano tra gli stati. La sezione 8.1 descrive la struttura dei dati panel e introduce i dati sui guidatori ubriachi. La regressione con effetti fissi, lo strumento principale per l’analisi di regressione dei dati panel, è un’estensione della regressione multipla che impiega dati panel per controllare l’effetto di variabili che differiscono tra entità, pur essendo costanti nel tempo. La regressione con gli effetti fissi è introdotta nelle sezioni 8.2 e 8.3, prima per il caso di due periodi soltanto, poi per più periodi. Nella sezione 8.4 questi metodi sono estesi per incorporare i cosiddet- i i i i i i “generale” — 2005/7/10 — 22:25 — page 270 — #300 i i 8.1. I dati panel ti effetti temporali, che controllano l’effetto di variabili inosservate che sono costanti tra le entità ma cambiano nel tempo. Nella sezione 8.5 usiamo questi metodi per studiare l’effetto delle imposte sugli alcolici e delle leggi sulla guida in stato d’ebbrezza, sui decessi dovuti ad incidenti stradali. 8.1 I dati panel Ricordiamo dalla sezione 1.3 che il termine dati panel (o dati longitudinali) si riferisce a dati relativi a n entità diverse osservate in T periodi temporali diversi. I dati relativi agli incidenti stradali studiati sono dati panel. Questi dati riguardano n = 48 entità (stati), dove ogni entità è osservata in T = 7 periodi (in ciascuno degli anni 1982, . . . , 1988), per un totale di 7 × 48 = 336 osservazioni. Nel descrivere i dati sezionali è risultato utile utilizzare un pedice per indicare l’entità, ad esempio Yi si riferisce alla variabile Y per la i-esima entità. Nel descrivere i dati panel, abbiamo bisogno di una notazione addizionale per tenere conto sia dell’entità sia del tempo. Per fare questo si usano due pedici invece di uno: il primo, i, si riferisce all’entità e il secondo, t, si riferisce al tempo dell’osservazione. Perciò Yit indica la variabile Y osservata per la iesima delle n entità nel t-esimo dei T tempi. Questa notazione è riassunta nel concetto chiave 8.1. Alcuni termini addizionali associati con i dati panel indicano l’eventuale mancanza di alcune osservazioni: un panel bilanciato contiene tutte le sue osservazioni, cioè, le variabili sono osservate per ciascuna entità e ciascun periodo temporale. Un panel che ha dati mancanti per almeno un periodo per almeno un’entità è detto panel non bilanciato. I dati riguardanti gli incidenti stradali contengono dati per i 48 stati USA in ciascuno dei sette anni, ed è perciò bilanciato. Se alcuni dati invece fossero mancanti (per esempio, se non avessimo dati sugli incidenti in alcuni stati per il 1983), i dati sarebbero non bilanciati. I metodi presentati in questo capitolo sono descritti per il caso dei panel bilanciati; essi possono però essere usati con panel non bilanciati, sebbene il modo esatto in cui metterli in pratica dipende dal software di regressione usato. Esempio: mortalità sulle strade e imposte sugli alcolici Sulle autostrade degli Stati Uniti muoiono circa 40.000 persone ogni anno. Approssimativamente un terzo degli incidenti mortali coinvolge un guidatore che ha bevuto e questa frazione aumenta durante i periodi in cui si beve di più. Uno studio (Levitt e Porter, 2001) stima che il 25% di chi guida sulle strade tra l’1 e le 3 del mattino ha bevuto e che un guidatore che, in base alle norme, è ubriaco ha una probabilità di causare un incidente almeno 13 volte superiore rispetto a chi non ha bevuto. 270 i i i i i i “generale” — 2005/7/10 — 22:25 — page 271 — #301 i i 8.1. I dati panel Concetto chiave 8.1: notazione per i dati panel I dati panel consistono di osservazioni sulle stesse n entità in due o più periodi T . Se i dati contengono osservazioni sulle variabili X e Y , allora essi si indicano con (Xit , Yit ), i = 1, . . . , n e = 1, . . . , T, (8.1) dove il primo pedice, i, si riferisce all’unità oggetto di osservazione e il secondo pedice, t, si riferisce al momento in cui questa viene osservata. In questo capitolo, studiamo quanto gli interventi pubblici volti a scoraggiare la guida in stato d’ebbrezza siano efficaci nel ridurre effettivamente i morti sulle strade. I dati panel contengono variabili collegate agli incidenti stradali e all’alcol, incluso il numero di incidenti stradali per stato in ciascun anno, il tipo di legge sulla guida in stato d’ebbrezza per stato in ciascun anno e l’imposta sulla birra fissata da ciascuno stato. Come misura degli incidenti stradali utilizziamo il tasso di mortalità, che è il numero dei morti sulle strade in un anno per 10.000 abitanti dello stato. Come misura delle imposte sugli alcolici usiamo l’imposta “reale” su una cassetta di birra, che è l’imposta sulla birra espressa in dollari del 1988 per correggere gli effetti dell’inflazione.1 I dati sono descritti in maggior dettaglio nell’appendice 8.1. La figura 8.1a rappresenta il grafico a nuvola di queste due variabili. Un punto nel diagramma rappresenta il tasso di mortalità e l’imposta reale sulla birra nel 1982 per un dato stato. Nella figura è riportata anche la retta di regressione OLS ottenuta dalla regressione del tasso di mortalità sull’imposta reale sulla birra. La retta stimata è d F atalityRate = 2, 01 + 0, 15 BeerT ax (dati 1982). (0, 15) (0, 13) (8.2) d F atalityRate = 1, 86 + 0, 44 BeerT ax (dati 1988). (0, 11) (0, 13) (8.3) Il coefficiente dell’imposta reale sulla birra è positivo, ma non statisticamente significativo al livello 10%. Siccome abbiamo dati per più di un anno, possiamo riesaminare tale relazione in un altro anno. Facciamo questo nella figura 8.1b, che mostra lo stesso grafico a nuvola visto in precedenza, ma con i dati relativi al 1988. La retta di regressione OLS in questo caso è 1 Per renderle comparabili nel tempo, le imposte sono espresse in “dollari del 1988” usando il Consumer Price Index (CPI). Ad esempio, a causa dell’inflazione, un’imposta di 1$ nel 1982 corrisponde a una di 1, 23$ in dollari del 1988. 271 i i i i i i “generale” — 2005/7/10 — 22:25 — page 272 — #302 i i 8.1. I dati panel Figura 8.1: il tasso di mortalità sulle strade e l’imposta sulla birra Tasso mortalità (vittime per 10.000) 4,5 4,0 3,5 3,0 Tasso mortalità = 2,01 + 0,15 imposta birra 2,5 2,0 1,5 1,0 0,5 0,0 0,0 0,5 1,0 (a) Dati 1982 1,5 2,0 2,5 3,0 Imposta birra (dollari per cassetta a prezzi 1988) Tasso mortalità (vittime per 10.000) 4,5 4,0 3,5 Tasso mortalità = 1,86 + 0,44 imposta birra 3,0 2,5 2,0 1,5 1,0 0,5 0,0 0,0 0,5 1,0 1,5 2,0 2,5 3,0 Imposta birra (dollari per cassetta a prezzi 1988) (b) Dati 1988 Il quadro (a) è un grafico a nuvola dei tassi di mortalità sulle strade e l’imposta reale su una cassa di birra (in dollari del 1988) per 48 stati USA nel 1982. Il quadro (b) mostra i dati del 1988. In entrambi si nota una relazione positiva tra il tasso di mortalità e la tassa reale sulla birra. 272 i Electronic Publishing Services Inc. Stock/Watson, Econometrics 1e STOC.ITEM.0033 Fig. 08.01 1st Proof i 2nd Proof i 3rd Proof Final i i i “generale” — 2005/7/10 — 22:25 — page 273 — #303 i i 8.2. Dati panel con 2 periodi: confronti “prima e dopo” Diversamente dalla regressione sui dati del 1982, il coefficiente dell’imposta reale sulla birra è significativo all’1% (la statistica t è 3, 43). Curiosamente, il coefficiente stimato con i dati del 1982 e del 1988 è positivo: letteralmente, a imposte reali sulla birra maggiori sono associati più, e non meno, incidenti stradali mortali. Dovremmo concludere che un inasprimento dell’imposta sulla birra porta a un maggior numero di incidenti stradali mortali? Non necessariamente, dal momento che queste regressioni potrebbero avere una sostanziale distorsione da variabile omessa. Molti fattori influenzano il tasso di mortalità, inclusa la qualità delle automobili guidate nello stato, la condizione delle autostrade, il fatto che il traffico si concentri in zone urbane o rurali, la densità delle automobili sulla strada e se sia socialmente accettabile guidare dopo aver bevuto. Ognuno di questi fattori potrebbe essere correlato con le imposte sugli alcolici; se ciò accadesse, si avrebbe distorsione da variabile omessa. Un approccio per trattare queste potenziali fonti di distorsione da variabile omessa potrebbe essere quello di raccogliere i dati su tutte queste variabili e aggiungerle alle regressioni annuali sezionali (8.2) e (8.3). Sfortunatamente, alcune di queste variabili, come l’atteggiamento permissivo dovuto a fattori culturali per la guida dopo aver bevuto, potrebbero risultare difficili o addirittura impossibili da misurare. Tuttavia, se questi fattori restano costanti nel tempo in un dato stato, è possibile trovare un’altra soluzione. Siccome abbiamo dati panel, possiamo in effetti tenere costanti tutti questi fattori, pur non potendoli misurare. A tal fine, usiamo la regressione OLS con effetti fissi. 8.2 Dati panel con 2 periodi: confronti “prima e dopo” Quando per ciascuno stato sono disponibilli dati per T = 2 periodi, è possibile confrontare i valori della variabile dipendente nel secondo periodo a quelli nel primo periodo. Ponendo l’attenzione sulle variazioni della variabile dipendente, il confronto “prima e dopo” mantiene in effetti costanti i fattori inosservati che differiscono da uno stato all’altro e che però non variano nel tempo per ciascuno stato. Sia Zi una variabile che determina il tasso di mortalità nell’i-esimo stato, ma non cambia nel tempo (omettiamo perciò il pedice t). Ad esempio, Zi potrebbe essere l’atteggiamento culturale esistente in un certo luogo nei confronti della guida dopo aver bevuto, che cambia lentamente e per questo motivo potrebbe essere considerato costante tra il 1982 e il 1988. Di conseguenza, la regressione lineare che mette in relazione Zi e l’imposta reale sulla birra con il tasso di mortalità è F atalityRateit = β0 + β1 BeerT axit + β2 Zi + uit , (8.4) dove uit è l’errore di regressione e i = 1, . . . , n e t = 1, . . . , T . 273 i i i i i i “generale” — 2005/7/10 — 22:25 — page 274 — #304 i i 8.2. Dati panel con 2 periodi: confronti “prima e dopo” Siccome Zi non cambia nel tempo, il modello di regressione (8.4), non produrrà alcuna variazione del tasso di mortalità tra il 1982 e il 1988. Cosı̀, in questo modello di regressione, l’influenza di Zi può essere eliminata analizzando la variazione nel tasso di mortalità tra i due periodi. Matematicamente, consideriamo l’equazione (8.4) per ognuno dei due anni 1982 e 1988: F atalityRatei1982 = β0 + β1 BeerT axi1982 + β2 Zi + ui1982 , (8.5) F atalityRatei1988 = β0 + β1 BeerT axi1988 + β2 Zi + ui1988 . (8.6) Sottraendo la (8.5) dalla (8.6) si elimina l’effetto di Zi : F atalityRatei1988 − F atalityRatei1982 = β1 (BeerT axi1988 − BeerT axi1982 ) + ui1988 − ui1982 . (8.7) Questa specificazione ha un’interpretazione intuitiva: l’atteggiamento culturale verso la guida dopo aver bevuto influenza il numero di guidatori in stato d’ebbrezza e cosı̀ il tasso di incidenti stradali mortali in uno stato. Se questo non si fosse modificato però tra il 1982 e il 1988, non ci sarebbe stata alcuna variazione del tasso di mortalità nello stato. Piuttosto, ogni variazione nel tasso di mortalità nel tempo deve essere stato il risultato di altre cause. Nella (8.7), tali cause sono le variazioni dell’imposta sulla birra o le variazioni del termine d’errore (che cattura le variazioni intervenute negli altri fattori che determinano i morti sulle strade). La specificazione alle differenze della regressione (8.7) elimina l’effetto delle variabili inosservate Zi che sono costanti nel tempo. In altre parole, l’analisi condotta sulle variazioni di Y e X ha l’effetto di controllare per le variabili che sono costanti nel tempo, eliminando di conseguenza questa fonte di distorsione da variabile omessa. La figura 8.2 presenta un grafico a nuvola della variazione nel tasso di mortalità tra il 1982 e il 1988 contro la differenza dell’imposta reale sulla birra tra il 1982 e il 1988 per i 48 stati nel nostro insieme di dati. La retta di regressione OLS, stimata usando questi dati e rappresentata nella figura, è F atalityRate1988d − F atalityRate1982 = − 0, 072 − 1, 04 (BeerT ax1988 − BeerT ax1982 ), (0, 065) (0, 36) (8.8) dove l’inclusione di un’intercetta consente che la variazione media del tasso di mortalità, in assenza di una variazione nell’imposta reale sulla birra, possa essere non nulla. Diversamente dai risultati della regressione con dati sezionali, l’effetto stimato di una variazione nell’imposta reale sulla birra è negativo, come previsto dalla teoria economica. L’ipotesi che la pendenza sia nulla è rifiutata al livello 5%. Secondo la stima di questo coefficiente, un incremento dell’imposta reale sulla birra di 1$ per cassetta riduce il tasso di mortalità sulle strade di 1, 04 morti ogni 10.000 persone. Questo effetto è molto elevato: il tasso 274 i i i i i i “generale” — 2005/7/10 — 22:25 — page 275 — #305 i i 8.2. Dati panel con 2 periodi: confronti “prima e dopo” Figura 8.2: variazioni dei tassi di mortalità e imposte sulla birra, 1982-1988 Variazione tasso mortalità (vittime per 10.000) 1,0 Tasso di mortalità1988 – Tasso di mortalità1982 0,5 0,0 -0,5 -1,0 -1,5 -0,6 -0,4 -0,2 0,0 0,2 0,4 0,6 Variazione imposta birra (dollari per cassa a prezzi 1988) Questo è un grafico a nuvola della variazione nel tasso di mortalità sulle strade e la variazione delle imposte reali sulla birra tra il 1982 e il 1988 per 48 stati USA. Si può notare una relazione negativa tra variazioni del tasso di mortalità e variazioni dell’imposta sulla birra. medio di mortalità in questi dati è approssimativamente pari a due (ovvero, due morti all’anno ogni 10.000 unità della popolazione), perciò la stima suggerisce che i morti sulle strade possono essere ridotti della metà semplicemente aumentando l’imposta reale sulla birra di 1$ per cassa. Esaminando le variazioni del tasso di mortalità nel tempo, la regressione (8.8) controlla i fattori fissi come l’atteggiamento culturale verso la guida dopo aver bevuto. Ci sono però molti fattori che influenzano la sicurezza stradale e, se questi cambiano nel tempo e sono correlati con l’imposta reale sulla birra, la loro omissione produce distorsione da variabile omessa. Nella sezione 8.5, effettueremo un’analisi più accurata che controlla per alcuni di questi fattori, cosı̀ per ora è meglio astenersi dal trarre qualsiasi conclusione sostanziale riguardante l’effetto delle imposte reali sulla birra sulle vittime stradali. Quest’analisi “prima e dopo” funziona quando i dati sono osservati in due anni diversi. Il nostro insieme di dati, tuttavia, contiene osservazioni per sette anni diversi e sembra assurdo scartare questi dati addizionali potenzialmente utili. Il metodo “prima e dopo” non ha però un’applicazione immediata per T > 2. Per analizzare tutte le osservazioni contenute nei 275 Electronic Publishing Services Inc. Stock/Watson, Econometrics 1e STOC.ITEM.0034 Fig. 08.02 i i 1st Proof 2nd Proof i 3rd Proof Final i i i “generale” — 2005/7/10 — 22:25 — page 276 — #306 i i 8.3. La regressione con effetti fissi nostri dati, usiamo il metodo della regressione con effetti fissi. 8.3 La regressione con effetti fissi La regressione con effetti fissi è un metodo per controllare le variabili omesse nei dati panel quando le variabili omesse variano tra le entità (stati) ma non nel tempo. A differenza del confronto “prima e dopo” della sezione 8.2, la regressione con effetti fissi può essere usata quando ci sono due o più osservazioni sulla stessa entità. I modelli di regressione con effetti fissi hanno n intercette differenti, una per ogni entità. Queste intercette possono essere rappresentate da un gruppo di variabili binarie (o indicatrici), le quali catturano le influenze di tutte le variabili omesse che differiscono da un’entità a un’altra ma sono costanti nel tempo. Il modello di regressione con effetti fissi Si consideri il modello di regressione (8.4), con la variabile dipendente (F atalityRate) e il regressore osservati (BeerT ax) indicati con Yit e Xit : Yit = β0 + β1 Xit + β2 Zi + uit , (8.9) dove Zi è una variabile inosservata che varia da uno stato a un altro ma non cambia nel tempo (ad esempio, Zi rappresenta gli atteggiamenti culturali verso la guida dopo aver bevuto). Vogliamo stimare β1 , l’effetto su Y di X tenendo costanti le caratteristiche inosservate dello stato Z. Siccome Zi varia da uno stato a un altro ma è costante nel tempo, il modello di regressione (8.9) può essere interpretato come avente n intercette, una per ogni stato. Nello specifico, sia αi = β0 + β2 Zi . L’equazione (8.9) diventa allora Yit = β1 Xit + αi + uit , (8.10) detto modello di regressione con effetti fissi, dove α1 , . . . , αn sono trattate come intercette incognite da stimare, una per ogni stato. L’interpretazione di αi come intercetta specifica per ogni stato deriva dall’analisi della retta di per l’i-esimo stato; tale retta è αi + β1 Xit . La pendenza della retta di regressione β1 è la stessa per tutti gli stati, ma la sua intercetta varia da uno stato a un altro. La fonte della variazione nell’intercetta è la variabile Z i , che cambia da stato a stato, pur essendo costante nel tempo. Le intercette specifiche per ogni stato nel modello di regressione con effetti fissi possono anche essere espresse usando variabili binarie che indichino gli stati individualmente. La sezione 6.3 ha analizzato il caso in cui le osservazioni appartengono a uno di due gruppi e la retta di regressione della popolazione ha la stessa pendenza per entrambi i gruppi ma diverse 276 i i i i i i “generale” — 2005/7/10 — 22:25 — page 277 — #307 i i 8.3. La regressione con effetti fissi intercette (si veda la figura 6.8a). Tale retta di regressione è stata espressa matematicamente usando una singola variabile binaria per indicare uno dei gruppi (specificazione 1 nel concetto chiave 6.4). Se nei nostri dati avessimo avuto solo due stati, avremmo potuto applicare quel modello di regressione con variabile binaria. Siccome però abbiamo più di due stati, dobbiamo aggiungere altre variabili binarie per catturare tutte le intercette specifiche per ogni stato nella (8.10). Per sviluppare il modello di regressione con effetti fissi usando variabili binarie, sia D1 i una variabile binaria uguale a uno quando i = 1 e a zero altrimenti, sia D2 i una variabile binaria uguale a uno quando i = 2 e a zero altrimenti e cosı̀ via. Non possiamo includere tutte le n variabili binarie in aggiunta a un’intercetta comune, poiché, se lo facessimo, genereremmo perfetta collinearità (esercizio 8.2). Omettiamo cosı̀ arbitrariamente la variabile D1 i relativa al primo gruppo. Di conseguenza, il modello di regressione con effetti fissi (8.10) può essere equivalentemente scritto come Yit = β0 + β1 Xit + γ2 D2i + γ3 D3i + . . . + γn Dni + uit , (8.11) dove β0 , β1 , γ2 , . . . , γn sono coefficienti ignoti da stimare. Per derivare la relazione tra i coefficienti della (8.11) e le intercette della (8.10), si confrontino le rispettive rette di regressione per ciascuno stato. Nella (8.11), l’equazione di regressione per il primo stato è β 0 + β1 Xit , perciò α1 = β0 . Per il secondo e i restanti, essa è β0 + β1 Xit + γi , α1 = β0 + γi per i ≥ 2. Ci sono quindi due modi equivalenti per scrivere il modello di regressione con effetti fissi: nella (8.10), il modello è espresso nei termini di n intercette specifiche per ogni stato; nella (8.11), esso ha un’intercetta comune e n − 1 regressori binari. In entrambe le formulazioni, la pendenza di X è la stessa per ciascuno stato. Le intercette specifiche per ogni stato nella (8.10) e i regressori binari nella (8.11) hanno la stessa origine: la variabile inosservata Z i che varia tra gli stati ma non nel tempo. Estensione a più X. Se ci sono altre determinanti osservate di Y che risultano correlate con X e che cambiano nel tempo, anche queste dovrebbero essere incluse nella regressione per evitare la distorsione da variabile omessa. In questo modo si ottiene il modello di regressione con effetti fissi e regressori multipli, riassunto nel concetto chiave 8.2. Le ipotesi dei minimi quadrati per il modello di regressione con effetti fissi. Ci sono cinque ipotesi dei minimi quadrati per il modello di regressione con effetti fissi: le quattro ipotesi del modello di regressione multipla riportate nel concetto chiave 5.4 (adattate ai dati panel), più una quinta e nuova ipotesi. Nei dati sezionali, gli errori sono incorrelati tra le unità, condizionatamente ai regressori. La quinta ipotesi estende questo concetto ai dati panel, assumendo che gli errori siano incorrelati sia nel tempo sia tra le entità, condizionatamente ai regressori. Queste ipotesi sono concettualmente simili alle ipotesi dei minimi quadrati per il modello di regressione multipla, ma la loro formulazione matematica è piuttosto complicata 277 i i i i i i “generale” — 2005/7/10 — 22:25 — page 278 — #308 i i 8.3. La regressione con effetti fissi Concetto chiave 8.2: il modello di regressione con effetti fissi Il modello di regressione con effetti fissi è Yit = β1 X1,it + · · · + βk Xk,it + αi + uit , (8.12) con i = 1, . . . , n e t = 1, . . . , T , dove X1,it è il valore del primo regressore per l’entità i al tempo t, X2,it è il valore del secondo regressore, e cosı̀ via, e α1 , . . . , αn sono le intercette specifiche per ciascuna entità. In modo equivalente, il modello di regressione con effetti fissi può essere scritto in termini di un’intercetta comune, delle X e delle n − 1 variabili binarie che rappresentano tutte le entità meno una: Yit = β0 + β1 X1,it + · · · + βk Xk,it + γ2 D2i +γ3 D3i + · · · + γn Dni + uit , (8.13) dove D2i = 1 se i = 2 e zero altrimenti e cosı̀ via. a causa della notazione necessariamente complicata associata ai dati longitudinali. Le ipotesi sono esplicitate e discusse nell’appendice 8.2. Stima e inferenza In linea di principio, la specificazione con variabile binaria del modello di regressione con effetti fissi (equazione (8.13)) può essere stimata con gli OLS. Tale regressione, però, ha k+n regressori (le k variabili in X, le n − 1 variabili binarie e l’intercetta), e quindi la regressione OLS è tediosa in pratica o, per alcuni software, impossibile da realizzare, quando il numero delle entità è grande. I software econometrici hanno, perciò, algoritmi speciali per la stima OLS dei modelli di regressione con effetti fissi. Questi speciali algoritmi equivalgono all’uso degli OLS sul modello completo con variabili binarie, ma sono più veloci perché impiegano semplificazioni matematiche che derivano dall’algebra della regressione con effetti fissi. L’algoritmo degli OLS per le “entità in deviazioni dalla media”. Tipicamente, i software di regressione calcolano lo stimatore OLS con effetti fissi in due passi. Nel primo passo, la media specifica per ciascuna entità viene sottratta a ogni variabile. Nello specifico, consideriamo il caso di un singolo regressore nella versione (8.10) del modello con effetti fissi e prendiamo la media di entrambi i suoi lati; allora Ȳi = β1 X̄i + αi + ūi , do278 i i i i i i “generale” — 2005/7/10 — 22:25 — page 279 — #309 i i 8.3. La regressione con effetti fissi P ve Ȳi = 1/T Tt=1 Yit , e X̄i e ūi sono definiti in modo simile. Cosı̀ la (8.10) implica che Yit − Ȳi = β1 (Xit − X̄i )+(uit − ūi ). Siano Ỹit = Yit − Ȳi , X̃it = Xit − X̄i e ũit = uit − ūi ; di conseguenza, Ỹit = β1 X̃it + ũit . (8.14) Perciò, β1 può essere stimato attraverso la regressione OLS delle variabili “in deviazioni dalla media” Ỹit su X̃it . In effetti, questo stimatore è identico allo stimatore OLS di β1 ottenuto stimando il modello con effetti fissi (8.10) usando n − 1 variabili binarie (esercizio 16.6). La regressione “prima e dopo” e la stima con effetti fissi. Sebbene la (8.11) con le sue variabili binarie appaia abbastanza diversa rispetto al modello di regressione “prima e dopo” (8.7), nel caso speciale in cui T = 2 lo stimatore OLS di β1 per la specificazione con variabili binarie è identico a quello per la specificazione “prima e dopo”. Perciò, quando T = 2, ci sono tre modi per stimare β1 con gli OLS: la specificazione “prima e dopo” (8.7), la specificazione con variabili binarie (8.11) e la specificazione “in deviazioni dalla media” (8.14). Questi tre metodi sono equivalenti, cioè producono identiche stime OLS. Errori standard e inferenza statistica. Sotto le ipotesi dei minimi quadrati dell’appendice 8.2, gli errori standard OLS robusti all’eteroschedasticità producono inferenze affidabili in grandi campioni. In altre parole, test d’ipotesi costruiti usando tali errori standard avranno un livello minimo pari al livello di significatività desiderato e intervalli di confidenza con un livello di confidenza desiderato del 95% conterranno il vero valore di β 1 nel 95% dei campioni ripetuti. Applicazione alla mortalità sulle strade La stima OLS della retta di regressione con effetti fissi che mette in relazione l’imposta reale sulla birra e il tasso di mortalità, basata su tutti e sette gli anni (336 osservazioni), è d F atalityRate = − 0, 66 BeerT ax + StateF ixedEf f ects, (0, 20) (8.15) dove, per convenzione, le intercette costanti per ciascuno stato non sono elencate per risparmiare spazio e perché non sono d’interesse primario in questa applicazione. Come la specificazione “alle differenze” (8.8), il coefficiente stimato nella regressione con effetti fissi (8.15) è negativo, cosicché, come previsto dalla teoria economica, più elevate imposte reali sulla birra sono associate a un minor numero di morti sulle strade –l’opposto di quanto avevamo riscontrato nelle regressioni iniziali con dati sezionali (8.2) e (8.3). Le due regressioni non sono identiche perché la regressione “alle differenze” (8.8) usa soltanto i dati del 1982 e del 1988 (la differenza tra questi due anni nello specifico), mentre la regressione 279 i i i i i i “generale” — 2005/7/10 — 22:25 — page 280 — #310 i i 8.4. La regressione con effetti temporali con effetti fissi (8.15) utilizza i dati per tutti i sette anni. Grazie alle osservazioni aggiuntive, l’errore standard della (8.15) è minore rispetto a quello della (8.8). Includere degli effetti fissi per stato nella regressione del tasso di mortalità ci permette di evitare la distorsione da variabile omessa derivante da fattori omessi, come gli atteggiamenti culturali verso la guida in stato di ebbrezza, che variano tra gli stati ma sono costanti nel tempo all’interno di ciascuno stato. Uno scettico potrebbe però sospettare che ci siano altri fattori che potrebbero condurre a distorsione da variabile omessa. Per esempio, durante questo periodo, le automobili sono diventate più sicure e gli occupanti hanno indossato cinture di sicurezza in maniera sempre crescente; se l’imposta reale sulla birra è cresciuta in media durante gli anni ’80, questa potrebbe catturare l’effetto dell’aumento generalizzato della sicurezza delle automobili. Se, invece, la sicurezza è migliorata nel tempo, ma in modo uguale in tutti gli stati, possiamo eliminarne l’influenza includendo effetti temporali. 8.4 La regressione con effetti temporali Proprio come gli effetti fissi per ogni entità consentono di controllare per variabili che sono costanti nel tempo ma differiscono tra le entità, cosı̀ gli effetti temporali controllano per variabili che sono costanti tra le entità ma si evolvono nel tempo. Siccome i miglioramenti nella sicurezza sono introdotti a livello nazionale nelle nuove automobili, essi contribuiscono a ridurre le vittime stradali in tutti gli stati. Cosı̀, è ragionevole pensare alla sicurezza delle automobili come a una variabile omessa che varia nel tempo, ma ha lo stesso valore in tutti gli stati. La regressione nella popolazione (8.9) può essere modificata in modo da includere l’effetto della sicurezza delle automobili, che indicheremo con St : Yit = β0 + β1 Xit + β2 Zi + β3 St + uit (8.16) dove St è inosservato e il singolo pedice “t” evidenzia il fatto che la sicurezza varia nel tempo, ma è costante tra gli stati. Siccome β3 St rappresenta le variabili che determinano Yit , se St è correlato con Xit , allora l’omissione di St dalla regressione induce distorsione da variabile omessa. Solo effetti temporali Supponiamo, per il momento, che le variabili Zi non siano presenti, e quindi il termine β2 Zi possa essere eliminato dalla (8.16), sebbene rimanga il termine β 3 St . Il nostro obiettivo è stimare β1 , controllando per St . Sebbene St sia inosservato, la sua influenza può essere eliminata perché varia nel tempo ma non tra gli stati, proprio come è possibile eliminare l’effetto di Zi , che varia tra gli stati ma non nel tempo. In altre parole, β3 St può essere rimpiazzato da un insieme di T variabili 280 i i i i i i “generale” — 2005/7/10 — 22:25 — page 281 — #311 i i 8.4. La regressione con effetti temporali binarie, ciascuna indicante un anno diverso. Nello specifico, sia B1 t = 1 se t è il primo periodo considerato nel campione e sia uguale a zero altrimenti; sia B2 t = 1 se t è il secondo periodo e cosı̀ via. Le variabili binarie B1t , . . . , BTt sono chiamate effetti temporali. Il modello di regressione con effetti temporali, con un singolo regressore X e T − 1 effetti tempo, è Yit = β0 + β1 Xit + δ2 B2t + . . . + δT BTt + uit , (8.17) dove δ2 , . . . , δT sono coefficienti ignoti. Come nel modello di regressione con effetti fissi (8.11), in questa versione del modello con effetti temporali l’intercetta è inclusa e la prima variabile binaria (B1t ) è omessa per prevenire la perfetta collinearità. Nella regressione delle vittime stradali, la specificazione degli effetti temporali (8.17) ci permette di eliminare la distorsione che deriva da variabili omesse, come gli standard di sicurezza introdotti a livello nazionale, che cambiano nel tempo, ma sono gli stessi in un determinato anno per tutti gli stati. Effetti temporali ed effetti fissi Se alcune delle variabili omesse sono costanti nel tempo ma variano tra gli stati (come le norme culturali), mentre altre sono costanti tra gli stati ma variano nel tempo (come gli standard di sicurezza), è appropriato includere sia gli effetti stato sia gli effetti tempo. Possiamo farlo includendo nella regressione, oltre all’intercetta, n − 1 variabili binarie di stato e T − 1 variabili binarie temporali. Il modello di regressione con effetti temporali ed effetti fissi è Yit = β0 + β1 Xit + γ2 D2i + . . . + γn Dni + δ2 B2t + . . . + δT BTt + uit , (8.18) dove β0 , β1 , γ2 , . . . , γn , δ2 , . . . , δT sono coefficienti ignoti. Il modello di regressione con effetti temporali e fissi di stato combinati elimina la distorsione da variabile omessa che deriva sia dalle variabili inosservate che sono costanti nel tempo sia dalle variabili inosservate che sono costanti tra gli stati. Quando ci sono regressori addizionali osservati, anch’essi appaiono nella (8.18). Stima. Il modello con effetti temporali e il modello con effetti temporali ed effetti fissi sono entrambi varianti del modello di regressione multipla. I loro coefficienti possono perciò essere stimati attraverso gli OLS includendo le variabili binarie temporali aggiuntive. Alcuni pacchetti econometrici incorporano algoritmi per calcolare regressioni con effetti temporali ed effetti fissi di stato combinati che sono computazionalmente più efficienti rispetto alla stima degli OLS del modello completo con variabili binarie nella (8.18). Applicazione alle vittime stradali. Aggiungendo gli effetti temporali agli effetti fissi di 281 i i i i i i “generale” — 2005/7/10 — 22:25 — page 282 — #312 i i 8.5. Leggi sulla guida in stato d’ebbrezza e mortalità sulle strade stato, la stima OLS della retta di regressione è d F atalityRate = − 0, 64 BeerT ax + StateF ixedEf f ects + T imeF ixedEf f ects. (0, 25) (8.19) Questa specificazione include l’imposta sulla birra, 47 variabili binarie di stato (di effetti fissi di stato), 6 variabili binarie temporali (effetti temporali) e un’intercetta, di modo che la regressione contiene 1 + 47 + 6 + 1 = 55 variabili sul lato di destra! I coefficienti delle variabili binarie temporali e di stato e l’intercetta non sono riportate perché non sono oggetto di interesse primario. L’inclusione di effetti temporali ha scarso impatto sulla relazione stimata tra l’imposta reale sulla birra e il tasso di mortalità (si confrontino la (8.15) e la (8.19)), e il coefficiente dell’imposta reale sulla birra rimane significativo al livello 5% (t = −0, 64/0, 25 = −2, 56). Questa stima della relazione tra l’imposta reale sulla birra e gli incidenti stradali mortali è immune da distorsione da variabile omessa dovuta a variabili che sono costanti sia nel tempo sia tra gli stati. Tuttavia, molte importanti determinanti della mortalità sulle strade non rientrano in questa categoria, perciò questa specificazione potrebbe ancora essere soggetta a distorsione da variabile omessa. Con in mano lo strumento della regressione con effetti fissi, possiamo ora intraprendere un’analisi più completa di questi dati. 8.5 Leggi sulla guida in stato d’ebbrezza e mortalità sulle strade Le imposte sugli alcolici sono solo uno dei modi per scoraggiare la guida in stato d’ebbrezza. Gli stati si differenziano nelle pene comminate agli automobilisti ubriachi e uno stato che intenda reprimere maggiormente la guida in condizioni d’ebbrezza può farlo tanto attraverso leggi più dure quanto elevando le imposte. Se cosı̀, omettere tali leggi potrebbe produrre distorsione da variabile omessa nello stimatore OLS dell’effetto delle imposte reali sulla birra sulle vittime del traffico, anche in regressioni con effetti fissi di stato e temporali. Inoltre, poiché l’uso dei veicoli dipende in parte dal fatto che i guidatori abbiano un lavoro e poiché variazioni di imposta possono riflettere condizioni economiche (il disavanzo di bilancio di uno stato può portare a un aumento dell’imposta), finché l’omissione delle condizioni economiche di uno stato potrebbe generare distorsione da variabile omessa. In questa sezione, estendiamo l’analisi precedente per studiare l’effetto sugli incidenti stradali mortali delle leggi sugli alcolici (incluse le imposte sulla birra), tenendo costanti le condizioni economiche. In pratica, si stimano regressioni con dati panel che includono regressori che rappresentano le leggi sulla guida in stato d’ebbrezza e le condizioni economiche dello stato. 282 i i i i i i “generale” — 2005/7/10 — 22:25 — page 283 — #313 i i 8.5. Leggi sulla guida in stato d’ebbrezza e mortalità sulle strade I risultati sono riassunti nella tabella 8.1. Il formato della tabella è lo stesso delle tavole di regressione presentate nei capitoli 5,6 e 7: ogni colonna riporta una differente regressione e ogni riga la stima del coefficiente e l’errore standard, la statistica F e il valore-p, o altre informazioni sulla regressione. La colonna (1) della tabella 8.1 presenta i risultati della regressione OLS del tasso di mortalità sull’imposta reale sulla birra senza effetti di stato e tempo. Come nelle regressioni sezionali per il 1982 e per il 1988 (stime (8.2) e (8.3)), il coefficiente dell’imposta reale sulla birra è positivo (0, 36) e la stima della colonna (1) è significativamente diversa da zero al 5%: secondo questa stima, aumentando le imposte sulla birra aumentano gli incidenti stradali mortali! Tuttavia, la regressione nella colonna (2) (riportata in precedenza come equazione (8.15)), che comprende effetti fissi di stato, suggerisce che il coefficiente positivo nella colonna (1) è il risultato della distorsione da variabile omessa (il coefficiente sull’imposta reale sulla birra è pari a −0, 66). L’R̄2 della regressione salta da 0, 090 a 0, 889 quando vengono inclusi gli effetti fissi; evidentemente, gli effetti fissi di stato catturano gran parte della variazione nei dati. Le cose cambiano poco quando vengono aggiunti gli effetti temporali, come risulta dalla colonna (3) (riportata in precedenza come equazione (8.19)). I risultati delle colonne (1)-(3) sono coerenti con l’ipotesi che le variabili fisse omesse –fattori storici e culturali, condizioni generali delle strade, densità di popolazione, atteggiamento verso la guida dopo aver bevuto e cosı̀ via– siano fattori importanti che determinano la variazione negli incidenti stradali mortali tra gli stati. Le tre regressioni finali, nella tabella 8.1, includono altre determinanti potenziali dei tassi di mortalità, insieme agli effetti temporali e di stato. La specificazione di base, riportata nella colonna (4), comprende due gruppi di variabili normative collegate alla guida in stato d’ebbrezza più altre variabili che controllano per la quantità di traffico e le condizioni economiche generali dello stato. Il primo gruppo di variabili riguarda l’età minima legale per bere alcolici rappresentata da tre variabili binarie per tre diverse età minime legali per bere alcolici, ovvero 18, 19 e 20 anni (perciò il “gruppo omesso” è l’età minima legale di 21 anni o maggiore). Il secondo gruppo di variabili giuridiche riguarda la pena associata alla prima detenzione per guida sotto l’influenza di alcolici, sia pena detentiva sia servizi per la comunità (il gruppo omesso comprende le pene meno severe). Le tre misure relative al traffico e alla condizione economica sono le miglia mediamente percorse da un veicolo per guidatore, il tasso di disoccupazione e il logaritmo del reddito personale reale pro capite (in dollari del 1988) (l’uso del logaritmo del reddito fa sı̀ che il coefficiente possa essere interpretato in termini di variazioni percentuali del reddito; vedi sezione 6.2). La regressione nella colonna (4) contiene quattro risultati interessanti. 1. Includere altre variabili riduce il coefficiente stimato dell’imposta reale sulla birra, relativamente alla regressione nella colonna (3). Il coefficiente stimato (−0, 45) conti283 i i i i i i “generale” — 2005/7/10 — 22:25 — page 284 — #314 i i 8.5. Leggi sulla guida in stato d’ebbrezza e mortalità sulle strade Tabella 8.1: analisi degli effetti delle leggi sulla guida in stato d’ebbrezza sulle morti per incidenti autostradali Variabile dipendente: tasso di mortalità sulle strade (morti su 10.000 abitanti) Regressore Imposta sulla birra (1) (2) (3) (4) (5) (6) 0,36∗∗ (0,05) -0,66∗∗ (0,20) -0,64∗ (0,25) -0,45∗ (0,22) 0,028 (0,066) -0,019 (0,040) 0,031 (0,046) -0,70∗∗ (0,25) -0,011 (0,064) -0,078 (0,049) -0,102∗ (0,046) -0,46∗ (0,22) Età minima legale 18 Età minima legale 19 Età minima legale 20 Età minima legale -0,002 (0,017) Pena detentiva? 0,013 (0,032) 0,033 (0,115) Servizi per la comunità? Pena dententiva o servizi per la comunità? Miglia medie per guidatore Tasso di disoccupazione Reddito reale pro capite (logaritmo) Effetti fissi di stato? Effetti temporali? no no sı̀ no 0,008 (0,008) -0,063∗∗ (0,012) 1,81∗∗ (0.47) sı̀ sı̀ sı̀ sı̀ -0,026 (0,065) 0,147 (0,137) 0,017 (0,010) sı̀ sı̀ 0,031 (0.076) 0,009 (0,008) -0,063∗∗ (0,012) 1,79∗∗ (0,45) sı̀ sı̀ Statistiche F e valori-p per l’esclusione di gruppi di variabili: Effetti temporali = 0 2,47 (0,024) Coefficienti età minime legali = 0 Coefficienti pena detentiva e servizi per la comunità = 0 Tasso disoccupazione, reddito pro capite = 0 R̄2 0,090 0,889 0,891 11,44 (<0,001) 0,48 (0,696) 0,17 (0,845) 38,29 (<0,001) 0,926 2,28 (0,037) 2,09 (0,102) 0,59 (0,557) 0,893 11,59 (<0,001) 40,12 (<0,001) 0,926 Queste regressioni sono state stimate utilizzando i dati panel per 48 stati USA dal 1982 al 1988 (336 osservazioni totali), descritti nell’appendice 8.1. Gli errori standard sono riportati in parentesi sotto i coefficienti, e i valori-p sono riportati in parentesi sotto le statistiche F . I coefficienti sono statisticamente significativi al livello ∗ 5% o ∗∗ 1%. 284 i i i i i i “generale” — 2005/7/10 — 22:25 — page 285 — #315 i i 8.5. Leggi sulla guida in stato d’ebbrezza e mortalità sulle strade nua a essere negativo e significativo al 5%. Un modo per valutare la dimensione del coefficiente è immaginare che uno stato con imposta reale sulla birra pari alla media raddoppi tale imposta; siccome l’imposta reale media sulla birra in questi dati è approssimativamente di 0, 50$ per cassetta, questo implica che l’imposta aumenti di 0, 50$ per cassetta. Secondo la stima nella colonna (4), l’effetto di un incremento di 0, 50$ (in dollari del 1988) dell’imposta sulla birra è un decremento del tasso atteso di mortalità di 0, 45 × 0, 50 = 0, 23 morti per 10.000 abitanti. Questo effetto è notevole: siccome il tasso di mortalità medio è di 2 per 10.000 abitanti, una riduzione di 0, 23 corrisponde a una diminuzione del tasso di mortalità a 1, 77 per 10.000 abitanti. Ciò detto, la stima è alquanto imprecisa: siccome l’errore standard di questo coefficiente è 0, 22, l’intervallo di confidenza al 95% per questo effetto è −0, 45 × 0, 50 ± 1, 96 × 0, 22 × 0, 050 = (−0, 44, −0, 01). Un intervallo di confidenza al 95% cosı̀ ampio include anche valori dell’effetto vero che sono molto vicini a zero. 2. L’età minima legale per bere alcolici si stima che abbia un effetto davvero piccolo sugli incidenti stradali mortali. L’ipotesi congiunta che siano nulli i coefficienti delle variabili legate all’età minima legale per bere non può essere rifiutata al livello di significatività del 10%: la statistica F per testare l’ipotesi congiunta che i tre coefficienti siano nulli è pari a 0, 48, con un valore-p di 0, 696. Inoltre, le stime sono piccole in valore assoluto. Ad esempio, si stima che uno stato con un’età minima legale per bere di 18 anni abbia un tasso di mortalità più alto di 0, 028 morti per 10.000 abitanti rispetto a uno stato con un’età minima legale per bere alcolici di 21 anni, tenendo costanti gli altri fattori della regressione. 3. I coefficienti delle variabili relativi alla pena per il primo reato sono anch’essi stimati essere piccoli e congiuntamente diversi da zero al 10% (la statistica F è 0, 17). 4. Le variabili economiche hanno un potere esplicativo considerevole per la mortalità sulle strade. Alti tassi di disoccupazione sono associati a un minor numero di incidenti mortali: un aumento del tasso di disoccupazione di un punto percentuale si stima riduca la mortalità sulle strade di 0, 063 morti per 10.000 abitanti. In modo simile, redditi reali pro capite elevati sono associati a un numero di morti elevato: il coefficiente è pari a 1, 81, cosı̀ un incremento del reddito reale pro capite dell’1% è associato a un incremento della mortalità sulle strade di 0, 0181 morti per 10.000 abitanti (si veda il caso I nel concetto chiave 6.2 per l’interpretazione di questo coefficiente). Secondo queste stime, condizioni economiche buone sono associate a un maggior numero di morti per incidenti stradali, forse a causa dell’aumentata densità del traffico quando il tasso di disoccupazione è basso o del maggiore consumo di alcol quando il reddito è 285 i i i i i i “generale” — 2005/7/10 — 22:25 — page 286 — #316 i i 8.6. Conclusioni alto. Le due variabili economiche sono congiuntamente significative al livello 0, 1% (la statistica F è 38, 29). Le due colonne finali della tavola 8.1 riportano regressioni che cercano di esaminare la sensibilità di queste conclusioni a variazioni della specificazione di base. La regressione nella colonna (5) elimina le variabili che controllano per le condizioni economiche. Il risultato è un incremento nell’effetto stimato dell’imposta reale sulla birra con una variazione non apprezzabile degli altri coefficienti; la sensibilità del coefficiente dell’imposta sulla birra all’inclusione delle variabili economiche, combinata con la significatività dei coefficienti di tali variabili, indica che le variabili economiche dovrebbero rimanere nella specificazione di base. La regressione nella colonna (6) esamina la sensibilità dei risultati all’uso di una forma funzionale diversa per l’età legale per bere alcolici (rimpiazzando i tre indicatori con il valore dell’età legale per bere alcolici) e combinando le due variabili binarie relative alla punizione. I risultati della regressione (4) non sono sensibili a questi cambiamenti. La forza di quest’analisi è che l’inclusione degli effetti fissi di stato e degli effetti temporali riduce il rischio di distorsione da variabile omessa, generata da variabili inosservate che non cambiano nel tempo (come gli atteggiamenti culturali verso la guida dopo aver bevuto) oppure non variano tra gli stati (come i miglioramenti nella sicurezza). Come sempre, però, è importante pensare ai possibili limiti di quest’analisi. Una potenziale fonte di distorsione da variabile omessa è il fatto che la misura delle imposte sugli alcolici qui usata, l’imposta reale sulla birra, potrebbe andare di pari passo con altre imposte sugli alcolici; questo suggerisce di interpretare i risultati in senso più ampio che con riferimento alla sola imposta sulla birra. Una possibilità più sottile è che gli aumenti dell’imposta reale sulla birra potrebbero essere associati a campagne di educazione civica, magari in risposta a pressioni politiche. Se cosı̀, le variazioni nell’imposta reale sulla birra potrebbero catturare l’effetto di una campagna su larga scala per scoraggiare la guida in stato d’ebbrezza. Questi risultati presentano un quadro provocatorio delle misure per contenere la guida in stato di ebbrezza e la mortalità sulle strade. Secondo queste stime, né pene rigide né l’innalzamento dell’età legale minima per bere alcolici hanno effetti rilevanti sulla mortalità. Al contrario, vi è evidenza che l’incremento delle imposte sugli alcolici, misurate dall’imposta reale sulla birra, riduce i morti per incidenti stradali. La grandezza di questi effetti, tuttavia, è stimata in modo poco preciso.2 8.6 Conclusioni Questo capitolo ha mostrato come osservazioni multiple nel tempo per la stessa entità possono essere usate per controllare l’effetto di variabili inosservate omesse che differiscono tra 2 Se si è interessati a ulteriori analisi di questi dati, si veda Ruhm (1996). Se si vuole conoscere di più su guida in stato d’ebbrezza e alcol e, più in generale, sull’economia dell’alcol, si veda Cook e Moore (2000). 286 i i i i i i “generale” — 2005/7/10 — 22:25 — page 287 — #317 i i Sommario le entità ma sono costanti nel tempo. L’idea di fondo è che se una variabile inosservata non cambia nel tempo, allora ogni variazione nella variabile dipendente deve essere dovuta ad influenze diverse da queste caratteristiche fisse. Se gli atteggiamenti culturali verso la guida in stato d’ebbrezza non cambiano in maniera apprezzabile all’interno di uno stato nei sette anni considerati, le ragioni delle variazioni nel tasso di mortalità avvenuto in questi sette anni devono essere cercate altrove. Per sfruttare questa idea di fondo, abbiamo bisogno di dati in cui la stessa entità sia osservata due o più volte, ovvero abbiamo bisogno di dati panel. Con i dati panel, il modello di regressione multipla della parte II può essere esteso al fine di includere un gruppo di variabili binarie, una per ciascuna entità; questo è il modello di regressione con effetti fissi, che può essere stimato con gli OLS. Una variante del modello di regressione con effetti fissi è quello che include effetti temporali, per controllare variabili inosservate che subiscono variazioni da un’entità a un’altra, ma sono costanti nel tempo. Sia gli effetti fissi sia gli effetti temporali possono essere inclusi nella regressione al fine di controllare quelle variabili che variano tra le entità ma sono costanti nel tempo e quelle che invece variano nel tempo ma sono costanti tra le entità. Nonostante questi pregi, la regressione con effetti fissi ed effetti temporali non può controllare la distorsione dovuta a variabili omesse che variano sia tra le entità sia nel tempo. Inoltre, come è ovvio, questo metodo richiede l’uso di dati panel, che spesso non sono disponibili. Per questo motivo, rimane la necessità di un metodo che possa eliminare l’influenza di variabili omesse inosservate quando non si può ricorrere a metodi per dati panel. Un metodo potente e generale, per far questo, è la regressione con variabili strumentali, argomento del capitolo 10. Sommario 1. I panel di dati sono costituiti da osservazioni su più (n) entità –stati, imprese, persone ecc.– dove ciascuna entità è osservata due o più volte (T ). 2. La regressione con effetti fissi-entità controlla le variabili inosservabili che differiscono da un’entità all’altra ma sono costanti nel tempo. 3. Quando le entità sono osservate in due tempi, la regressione con effetti fissi può essere stimata con una regressione “prima e dopo” della variazione di Y dal primo tempo al secondo sulla variazione di X. 4. Il modello con effetti fissi può essere stimata includendo variabili binarie per le n − 1 entità, più le variabili dipendenti osservabili (le X) e un’intercetta. 5. Gli effetti temporali controllano le variabili inosservabili che sono le stesse tra le entità ma variano nel tempo. 287 i i i i i i “generale” — 2005/7/10 — 22:25 — page 288 — #318 i i Sommario 6. Un modellio con effetti temporali ed effetti fissi può essere stimata includendo variabili binarie per le n − 1 entità, variabili binarie per i T − 1 tempi, più le X e un’intercetta. Termini chiave dati panel (270) panel bilanciato (270) panel non bilanciato (270) modello di regressione con effetti fissi (276) effetti temporali (281) modello di regressione con effetti temporali (281) modello di regressione con effetti temporali ed effetti fissi (281) Verifica dei concetti 8.1 Perché è necessario usare i due pedici i e t per descrivere i dati panel? A cosa si riferisce i? A cosa si riferisce t? 8.2 Un ricercatore sta lavorando su dati panel per n = 1.000 lavoratori in T = 10 anni (1991-2000), che includono le retribuzioni, il genere, il livello d’istruzione e l’età dei lavoratori. Il ricercatore è interessato all’effetto del livello d’istruzione sulle retribuzioni. Fornisci alcuni esempi di variabili inosservate individuo-specifiche che siano correlate sia con il livello d’istruzione sia con le retribuzioni. Puoi pensare a degli esempi di variabili tempo-specifiche che siano correlate con il livello d’istruzione e le retribuzioni? Come controllare per questi effetti individuo-specifici e tempo-specifici in una regressione con dati panel? 8.3 La regressione suggerita come risposta alla domanda 8.2 può essere usata per stimare l’effetto del genere sulla retribuzione di un individuo? La stessa regressione può essere usata per stimare l’effetto del tasso nazionale di disoccupazione sulla retribuzione di un individuo? Se ne fornisca una spiegazione. Esercizi 8.1 Questa domanda fa riferimento alla regressione con dati panel sulla guida in stato d’ebbrezza riportato nella tabella 8.1. a. Il New Jersey ha una popolazione di 8, 1 milioni di individui. Supponiamo che il New Jersey aumenti l’imposta su una cassetta di birra di 1$ (in dollari 1998). Si utilizzino i risultati della colonna (4) per predire il numero di vite che salverebbe nel prossimo anno. Si costruisca un intervallo di confidenza al 95% per la risposta data. 288 i i i i i i “generale” — 2005/7/10 — 22:25 — page 289 — #319 i i Appendice b. L’età legale per bere alcolici nel New Yersey è 21. Supponiamo che il New Yersey abbassi tale età a 18. Si utilizzino i risultati della colonna (4) per predire la variazione nel numero di incidenti stradali mortali nel prossimo anno. Si costruisca un intervallo di confidenza al 95% per la risposta data. c. Si supponga che il reddito reale pro capite del New Yersey cresca nel prossimo anno dell’1%. Si utilizzino i risultati della colonna (4) per predire la variazione nel numero di incidenti stradali mortali nel prossimo anno. Si costruisca un intervallo di confidenza al 90% per la risposta data. d. L’effetto temporale dovrebbe essere incluso nella regressione? Perché o perché no? e. La stima del coefficiente dell’imposta sulla birra nella colonna (5) è significativo al livello 1%. La stima nella colonna (4) è significativa al livello 5%. Ciò significa che la stima nella (5) è più affidabile? f. Un ricercatore ritiene che il tasso di disoccupazione abbia un effetto diverso sugli incidenti stradali mortali negli stati orientali rispetto ad altri stati. Come verificare questa ipotesi (si specifichi precisamente la regressione e la statistica test che si intende utilizzare)? 8.2 Si consideri la versione con variabile binaria del modello con effetti fissi (8.11), fatta eccezione per il regressore addizionale D1i ; sia, perciò, Yit = β0 + β1 Xit + γ1 D1i + γ2 D2i + . . . + γn Dni + uit . (8.20) a. Si supponga che n = 3. Si mostri che i regressori binari e il regressore “costante” sono perfettamente collineari, ovvero che una delle variabili D1 i , D2i , D3i e X0,it possono essere espressi come funzione lineare perfetta delle altre variabili, dove X0,it = 1 per ogni i, t. b. Si estenda il risultato della (a) ad un n generico. c. Cosa accadrebbe se si tentasse di stimare i coefficienti della regressione (8.20) con gli OLS? 8.3 La sezione 7.3 ha fornito un elenco di cinque minacce potenziali alla validità interna di uno studio di regressione. Si applichi questo elenco all’analisi empirica della sezione 8.5 e poi se ne traggano conclusioni sulla sua validità interna. Appendice 8.1: lo State Traffic Fatality Data Set I dati si riferiscono ai 48 stati contigui degli USA (escludendo Alaska e Hawaii), per ogni anno dal 1982 al 1988. Il tasso di incidenti mortali è il numero di decessi sulle strade avvenuti 289 i i i i i i “generale” — 2005/7/10 — 22:25 — page 290 — #320 i i Appendice in un dato stato e in un dato anno per ogni 10.000 abitanti di quello stato in quell’anno. I dati sugli incidenti mortali sono stati forniti dallo U.S. Department of Transportation Fatal Accident Reporting System. L’imposta sulla birra è l’imposta su una cassetta di birra, che, più in generale, costituisce una misura delle imposte sugli alcolici di uno stato. Le variabili per l’età legale per bere alcolici nella tabella 8.1 sono variabili binarie che indicano se l’età legale minima per bere alcolici è 18, 19 o 20 anni. Le due variabili binarie relative alla pena nella tavola 8.1 descrivono la pena minima prevista nello stato per la prima infrazione: “pena detentiva?” è uguale a uno se lo stato prevede una pena detentiva ed è uguale a zero altrimenti; “Servizi per la comunità?” è uguale a uno se lo stato richiede di svolgere servizi socialmente utili ed è uguale a zero altrimenti. I dati annuali sulle miglia totali percorse dagli autoveicoli per ogni stato sono stati forniti dal Department of Transportation, il reddito personale dallo U.S. Bureau of Economic Analysis e il tasso di disoccupazione dallo U.S. Bureau of Labor Statistics. Tutti i dati sono stati cortesemente resi disponibili dal Professor Christopher J. Ruhm del Dipartimento di Economia della University of North Carolina. Appendice 8.2: le ipotesi della regressione con effetti fissi Nel concetto chiave 8.2 sono elencate cinque ipotesi dei minimi quadrati per il modello di regressione con effetti fissi. Enunciate per un sigolo regressore, le cinque ipotesi sono: 1. E(uit Xi1 , Xi2 , . . . , XiT , αi ) = 0; 2. (Xi1 , Xi2 , . . . , XiT , Yi1 , Yi2 , . . . , YiT ), i = 1, . . . , n sono estratti i.i.d. dalla loro distribuzione congiunta; 3. (Xit , uit ) hanno momenti quarti finiti non nulli; 4. non c’è perfetta collinearità; 5. cov(uit , uis Xit , Xis , αi ) = 0 per t 6= s. Nel caso di più regressori, Xit dovrebbe essere rimpiazzata dall’intera lista X1,it , X2,it , . . . , Xk,it . La prima ipotesi è che l’errore abbia media condizionata nulla, dati i regressori. Questa è la stessa ipotesi dei minimi quadrati del concetto chiave 5.4, estesa al fine di includere i regressori binari e tutte le T osservazioni su X nel corso del tempo per la i-esima entità, e la discussione di quest’ipotesi nella parte II si estende direttamente. 290 i i i i i i “generale” — 2005/7/10 — 22:25 — page 291 — #321 i i Appendice La seconda ipotesi estende l’ipotesi di i.i.d. della regressione multipla ai dati panel. Questa ipotesi vale se le entità sono estratte dalla popolazione con campionamento casuale semplice. Cosı̀, le variabili relative a un’entità sono distribuite identicamente ma indipendentemente dalle variabili relative a un’altra entità; cioè, queste variabili sono i.i.d. per i = 1, . . . , n. Finora, questo ragionamento ha ricalcato quello per i dati sezionali. Nei dati panel, tuttavia, le entità sono seguite nel tempo e può non essere ragionevole pensare che le variabili siano distribuite indipendentemente nel tempo nell’ambito della stessa entità. Ad esempio, siccome le imposte reali sulla birra tipicamente variano solo leggermente da un anno a un altro, la conoscenza dell’imposta reale sulla birra in uno stato nel 1982 fornisce buona parte dell’informazione sull’imposta reale sulla birra per lo stesso stato nel 1983. Perciò, il concetto appropriato di campionamento è che, in un insieme di dati panel, l’intera evoluzione delle variabili (cioè le variabili per l’intero periodo) sia estratta in modo casuale dalla distribuzione congiunta dell’evoluzione delle variabili tra le entità. La terza e la quarta ipotesi ricalcano fedelmente quelle del concetto chiave 5.4 per il modello di regressione multipla. La quinta ipotesi è che gli errori uit nel modello di regressione con effetti fissi siano incorrelati nel tempo, condizionatamente ai regressori. Ad esempio, in alcuni stati (diciamo il Minnesota), un inverno potrebbe essere particolarmente nevoso, rendendo la guida particolarmente infida e provocando un numero inusualmente alto di incidenti mortali. Inoltre, la quantità di neve non ha niente a che vedere con l’imposta sulla birra e la neve caduta in un inverno è distribuita indipendentemente dalla neve caduta in un altro inverno. Perciò la quantità di neve caduta in Minnesota in un inverno è incorrelata con la quantità di neve dell’inverno successivo, data l’imposta sulla birra del Minnesota. Più in generale, se gli u it sono costituiti da fattori casuali (come le nevicate) che variano indipendentemente da un anno a un altro, condizionatamente ai regressori (l’imposta sulla birra), allora gli uit sono incorrelati da un anno a un altro, condizionatamente ai regressori. In questo caso, vale la quinta ipotesi. Il solo ruolo della quinta ipotesi è di fornire condizioni sotto le quali gli errori standard OLS (robusti all’eteroschedasticità) del capitolo 5 producono inferenze statistiche valide. Se vale la quinta ipotesi, come assunto in questo capitolo, gli errori standard robusti all’eteroschedasticità producono test d’ipotesi il cui livello minimo è uguale al livello di significatività desiderato. In alcune applicazioni, la quinta ipotesi non è plausibile. Ad esempio, se alcuni dei fattori omessi che sono in uit variano lentamente nel tempo, allora uit sarà correlata con il suo valore in altri periodi per lo stesso stato (stessa i), cioè uit e uis saranno correlate per t 6= s, condizionatamente ai regressori. In questo caso, la quinta ipotesi non vale e si dovrebbe usare una nuova formula per calcolare gli errori standard (cosiddetti errori standard robusti all’eteroschedasticità e all’autocorrelazione). Siccome questa formula è piuttosto complicata, un’ulteriore discussione è rimandata al capitolo 13. 291 i i i i i i “generale” — 2005/7/10 — 22:25 — page 292 — #322 i i i i i i i i “generale” — 2005/7/10 — 22:25 — page 293 — #323 i i Capitolo 9 Regressione con variabile dipendente binaria Due persone, identiche eccetto che per la razza, vanno in banca a chiedere un mutuo di ammontare elevato, che permetta loro di acquistare due case identiche. La banca li tratta allo stesso modo? Hanno la stessa probabilità che la loro richiesta di mutuo venga accettata? Per legge, debbono ricevere lo stesso trattamento, ma che ciò avvenga effettivamente è ragione di grande preoccupazione per i regolatori del settore bancario. I prestiti sono concessi e negati per molte ragioni legittime. Ad esempio, se la rata proposta erode gran parte o tutto il reddito mensile del richiedente, allora il funzionario bancario addetto ai prestiti potrebbe a ragione negare il prestito. Inoltre, anche i funzionari addetti ai prestiti sono esseri umani e possono compiere errori in onestà, cosı̀ il rifiuto nei confronti di un singolo richiedente appartenente ad una minoranza etnica non costituisce prova di discriminazione. Molti studi sulla discriminazione, pertanto, ricercano l’evidenza statistica di discriminazione razziale, cioè, la prova, in grandi insiemi di dati, del fatto che bianchi e minoranze siano trattati diversamente. Come si dovrebbe ricercare esattamente l’evidenza statistica di discriminazione nel mercato dei mutui? Un punto di partenza è confrontare la frazione di richiedenti appartenenti a minoranze etniche e di bianchi ai quali viene negato il mutuo. Nei dati esaminati in questo capitolo, tratti dalle domande di mutuo presentate nell’area metropolitana di Boston, Massachusetts, il mutuo è stato riufiutato al 28% dei richiedenti neri, ma soltanto al 9% dei bianchi. Questo confronto non risponde esattamente alla domanda che ha aperto questo capitolo, perché richiedenti neri e bianchi non sono necessariamente “identici a parte la razza”. Abbiamo invece bisogno di un metodo per confrontare i tassi di rifiuto, tenendo costanti le altre caratteristiche dei richiedenti. Questo sembrerebbe il lavoro adatto per l’analisi di regressione multipla –e lo è, ma con i i i i i i “generale” — 2005/7/10 — 22:25 — page 294 — #324 i i 9.1. Variabili dipendenti binarie e modello lineare di probabilità una differenza. La differenza è che la variabile dipendente – il mutuo è o meno negato– è binaria. Nella parte II, abbiamo usato sovente variabili binarie come regressori, che non ci hanno creato problemi particolari. Quando però è binaria la variabile dipendente, le cose sono più complicate: cosa significa adattare una retta ad una variabile dipendente che può assumere solo due valori, zero e uno? La risposta a questa domanda sta nell’interpretare la funzione di regressione come una probabilità predetta. Quest’interpretazione è discussa nella sezione 9.1 e ci permette di applicare i modelli di regressione multipla della parte II al caso di variabili dipendenti binarie. La sezione 9.1 va oltre questo “modello lineare di probabilità”. Forme funzionali alternative possono modellare meglio simili probabilità, come suggerito anche dall’interpretazione della funzione di regressione come probabilità predetta. Queste, chiamate regressioni “probit” e “logit”, sono discusse nella sezione 9.2. La sezione 9.3, che è opzionale, discute il metodo usato per stimare i coefficienti delle regressioni probit e logit, cioè il metodo della massima verosimiglianza. Nella sezione 9.4, questi metodi vengono applicati ai dati sulla richiesta di mutui per la città di Boston per scoprire se vi è evidenza di distorsione razziale nella concessione dei mutui. La variabile dipendente binaria considerata in questo capitolo è un esempio di variabile dipendente con dominio limitato, ovvero una variabile dipendente limitata. Modelli per altri tipi di variabili dipendenti limitate, per esempio quelle che assumono più valori discreti, sono passati in rassegna nell’appendice 9.3. 9.1 Variabili dipendenti binarie e modello lineare di probabilità Il fatto che una richiesta di mutuo venga o meno accettata è un esempio di variabile binaria. Molte altre questioni importanti coinvolgono risultati binari. Qual è l’effetto di una borsa di studio sulla decisione di un individuo di frequentare l’università? Cosa induce un adolescente a fumare? Cosa fa sı̀ che un paese riceva o meno aiuti dall’estero? Cosa determina la riuscita di colui che cerca lavoro? In tutti questi esempi, il risultato di interesse è binario: lo studente frequenta o meno l’università; l’adolescente comincia o meno a fumare; un paese è o non è destinatario di aiuti stranieri; il richiedente ottiene o meno un lavoro. Questa sezione discute cosa distingue regressioni con una variabile dipendente binaria da regressioni con una variabile dipendente continua, poi ritorna al modello più semplice utilizzabile quando la variabile dipendente è binaria, il modello lineare di probabilità. 294 i i i i i i “generale” — 2005/7/10 — 22:25 — page 295 — #325 i i 9.1. Variabili dipendenti binarie e modello lineare di probabilità Variabili dipendenti binarie L’applicazione esaminata in questo capitolo è se la razza sia un fattore determinante del rifiuto di una richiesta di mutuo; la variabile dipendente binaria qui è il fatto che la richiesta di mutuo venga negata o meno. I dati sono una parte di un insieme più ampio di dati raccolto dai ricercatori dalla Federal Riserve Bank of Boston sulla base dell’Home Mortgage Disclosure Act (HMDA) e riguardano le domande per la concessione di mutui registrate nell’area urbana di Boston, Massachusetts, nel 1990. I dati del Boston HMDA sono descritti nell’appendice 9.1. Le richieste di mutuo sono complesse, come lo è il processo attraverso cui il funzionario bancario addetto ai prestiti prende le sue decisioni. Questi deve infatti prevedere se il richiedente pagherà o meno le rate del prestito. Un importante pezzo di informazione è dato dall’entità della rata rispetto al reddito del richiedente. Come sa bene chi ha preso denaro in prestito, è molto più facile effettuare pagamenti che siano il 10% del proprio reddito piuttosto che il 50%! Cominciamo, quindi, considerando la relazione tra due variabili: la variabile dipendente binaria deny, che è pari a uno se la richiesta di mutuo è stata negata e a zero se è stata accettata; la variabile continua P/Iratio, che è il rapporto tra la rata mensile prevista del prestito e il reddito mensile del richiedente. La figura 9.1 presenta un grafico a nuvola di deny su P/Iratio per 127 delle 2.380 osservazioni nei dati (il grafico a nuvola è più facile da leggere usando un sottoinsieme dei dati). Questo grafico appare diverso da quelli della parte II perché la variabile deny è binaria. Tuttavia, sembra mostrare una relazione tra deny e P/Iratio: pochi richiedenti con un rapporto rata-reddito inferiore a 0, 3 vedono rifiutare la propria domanda ma molti con un rapporto rata-reddito superiore a 0, 4. Questa relazione positiva tra P/Iratio e deny (maggiore è P/Iratio, più elevata la frazione di rifiuti) è riassunta nella figura 9.1 dalla retta di regressione OLS, stimata usando queste 127 osservazioni. Come al solito, la retta rappresenta il valore predetto di deny in funzione del regressore, il rapporto rata-reddito. Ad esempio, quando P/Iratio = 0, 3, il valore predetto di deny è 0, 20. Cosa vuol dire, però, esattamente che il valore predetto della variabile binaria deny è 0, 20? La chiave per rispondere a questa domanda –e più in generale per comprendere la regressione con variabile dipendente binaria– è interpretare la regressione come un modello della probabilità che la variabile dipendente sia uguale a uno. Cosı̀, un valore di 0, 20 va interpretato come se significasse che, quando P/Iratio è 0, 3, la probabilità di rifiuto è stimata essere del 20%. In altre parole, se ci fossero molte richieste con P/Iratio = 0, 3, il 20% di queste sarebbe rifiutato. Una simile interpretazione deriva da due constatazioni. In primo luogo, dalla parte II sappiamo che la funzione di regressione della popolazione è il valore atteso di Y dati i regressori, E(Y X1 , . . . , Xk ). In secondo luogo, dalla sezione 2.2, se Y è una variabi295 i i i i i i “generale” — 2005/7/10 — 22:25 — page 296 — #326 i i 9.1. Variabili dipendenti binarie e modello lineare di probabilità Figura 9.1: grafico a nuvola del rifiuto delle richieste di mutuo e rapporto rata-reddito Rifiuto 1,4 1,2 1,0 Mutuo negato 0,8 0,6 Modello di probabilità lineare 0,4 0,2 0,0 Mutuo approvato -0,2 -0,4 0,0 0,1 0,2 0,3 0,4 0,5 0,6 0,7 0,8 Rapporto rata-reddito Chi richiede mutui con un alto rapporto rata-reddito (P/Iratio) vede la propria domanda più verosimilmente rifiutata (deny = 1 se negata, deny = 1 se approvata). Il modello di probabilità lineare utilizza una retta per modellare la probabilità di rifiuto, dato P/Iratio. le binaria 0 − 1, allora il suo valore atteso (o media) è la probabilità che Y = 1 ovvero E(Y ) = Pr(Y = 1). Nel contesto di regressione, il valore atteso è condizionato al valore assunto dai regressori, perciò la probabilità è condizionata ad X. Perciò, per una variabile binaria, E(Y X1 , . . . , Xk ) = Pr(Y = 1 X1 , . . . , Xk ). In breve, per una variabile binaria il valore predetto dalla regressione è la probabilità che Y = 1, data X. Il modello di regressione lineare multipla quando la variabile dipendente è binaria è detto modello lineare di probabilità: “lineare” perché è una retta e “modello di probabilità” perché modella la probabilità che la variabile dipendente (la probabilità di rifiuto del prestito, nel nostro esempio) sia uguale a uno. Modello lineare di probabilità Electronic Publishing Services Inc. Il modello lineare di probabilità è il nome per il modello di regressione multipla della Stock/Watson, Econometrics 1e parte II, nel caso in cui la variabile dipendente sia binaria invece che continua. Siccome la STOC.ITEM.0035 variabile dipendente Y è binaria, la funzione di regressione della popolazione corrisponde alla Fig. 09.01 probabilità che la variabile dipendente sia uguale a uno, data X. Il coefficiente β 1 associato 2nd Proof à che Y3rd=Proof ad un regressore X è1st la Proof variazione nella probabilit 1 associata adFinal una variazione unitaria in X. Similmente, il valore predetto Ŷi , calcolato usando la funzione di regressione 296 i i i i i i “generale” — 2005/7/10 — 22:25 — page 297 — #327 i i 9.1. Variabili dipendenti binarie e modello lineare di probabilità stimata con gli OLS, è la probabilità predetta che la variabile dipendente sia uguale a uno, e lo stimatore OLS β̂1 stima, quindi, la variazione nella probabilità che Y = 1 associata ad una variazione unitaria in X. Quasi tutti gli strumenti della parte II si estendono al modello lineare di probabilità: i coefficienti possono essere stimati con gli OLS; gli intervalli di confidenza al 95% costruiti come ±1, 96 volte gli errori standard; le ipotesi su più coefficienti verificate usando la statistica F discussa nel capitolo 5; le interazioni tra le variabili modellate usando i metodi della sezione 6.3. Siccome gli errori del modello lineare di probabilità sono sempre eteroschedastici (esercizio 9.3), è essenziale che per l’inferenza siano usati gli errori standard robusti all’eteroschedasticità. Uno strumento che non è possibile estendere è l’R 2 . Quando la variabile dipendente è continua, è lecito immaginare una situazione in cui l’R 2 è uguale a uno: tutti i dati giacciono esattamente sulla retta di regressione. Ciò è impossibile quando la variabile dipendente è binaria, a meno che non siano binari anche i regressori. Di conseguenza, l’R 2 non è una statistica particolarmente utile in questo contesto. Ritorneremo alle misure di bontà dell’adattamento nella prossima sezione. Il modello lineare di probabilità è riassunto nel concetto chiave 9.1. Applicazione ai dati del Boston HMDA. La regressione OLS della variabile dipendente binaria, deny, sul rapporto rata-reddito, P/Iratio, stimata usando tutte le 2.380 ossservazioni è d = − 0, 080 + 0, 604 P/Iratio. deny (9.1) (0, 032) (0, 098) Il coefficiente stimato di P/Iratio è positivo e il coefficiente è significativamente diverso da zero all’1% (la statistica t è 6, 13). Perciò, i richiedenti con un alto rapporto rata-reddito vedono negata la propria richiesta con più facilità. Questo coefficiente può essere usato per calcolare la variazione predetta nella probabilità di rifiuto, data una variazione nel regressore. Ad esempio, secondo la (9.1), se P/Iratio cresce di 0, 1, la probabilità di rifiuto cresce di 0, 604 × 0, 1 ∼ = 0, 060, ovvero di 6, 0 punti percentuali. Il modello di probabilità stimato (9.1) può essere usato per calcolare la probabilità di rifiuto in funzione di P/Iratio. Ad esempio, se la rata prospettata è il 30% del reddito del richiedente, allora il rapporto P/Iratio è 0, 3 e il valore predetto dalla (9.1) è −0, 080 + 0, 604 × 0, 3 = 0, 101. Perciò, secondo questo modello lineare di probabilità, un richiedente le cui rate previste sono il 30% del proprio reddito ha una probabilità del 10, 1% che la sua richiesta venga rifiutata (che è diverso dalla probabilità del 20% basata sulla retta di regressione della figura 9.1, stimata usando solo 127 delle 2.380 osservazioni usate per la (9.1)). Qual è l’effetto della razza sulla probabilità di rifiuto, tenendo costante P/Iratio? Per semplicità, focalizziamoci sulle differenze tra richiedenti neri e bianchi. Per stimare l’effetto 297 i i i i i i “generale” — 2005/7/10 — 22:25 — page 298 — #328 i i 9.1. Variabili dipendenti binarie e modello lineare di probabilità Concetto chiave 9.1: il modello lineare di probabilità Il modello lineare di probabilità è il modello di regressione lineare multipla Yi = β0 + β1 X1i + β2 X2i + · · · + βk Xki + ui , (9.2) dove Yi è binaria, cosicché Pr(Y = 1 X1 , X2 , · · · , Xk ) = β0 + β1 X1 + β2 X2 + · · · + βk Xk . Il coefficiente di regressione β1 rappresenta la variazione nella probabilità che Y = 1 associata ad una variazione unitaria in X1 , tenendo costanti gli altri regressori, e cosı̀ via per β2 ecc. I coefficienti di regressione possono essere stimati tramite gli OLS e i comuni errori standard OLS (robusti all’eteroschedasticità) possono essere usati per gli intervalli di confidenza e i test d’ipotesi. della razza, tenendo costante P/Iratio, aggiungiamo alla (9.1) un regressore binario, che è uguale a uno se il richiedente è nero ed è uguale a zero se il richiedente è bianco. Il modello di probabilità stimato diventa d = − 0, 091 + 0, 559 P/Iratio + 0, 177 black. deny (0, 029) (0, 089) (0, 025) (9.3) Il coefficiente di black, 0, 177, indica che un richiedente afro-americano ha una probabilità più alta del 17, 7% di vedere rifiutata la propria richiesta di mutuo rispetto a uno bianco, tenendo costante il rapporto rata-reddito. Questo coefficiente è significativo al livello 1% (la statistica t è 7, 11). Letteralmente, questa stima suggerisce che ci potrebbe essere una distorsione razziale nella decisione di concedere un mutuo, ma una simile conclusione potrebbe essere ancora prematura. Sebbene il rapporto rata-reddito giochi un ruolo importante nella decisione del funzionario bancario addetto ai prestiti, cosı̀ fanno molti altri fattori, come il reddito potenziale del richiedente e le vicende creditorie dell’individuo. Se ognuna di queste variabili fosse correlata con i regressori black o P/Iratio, allora la loro omissione dalla (9.3) causerebbe distorsione da variabile omessa. Dobbiamo pertanto rimandare ogni conclusione sull’esistenza di discriminazione nella concessione di mutui, fino a quando non avremo completato l’analisi della sezione 9.3. Limiti del modello lineare di probabilità. La linearità che rende il modello lineare di probabilità facile da usare è anche il suo maggior difetto. Riguardiamo la figura 9.1: la retta di 298 i i i i i i “generale” — 2005/7/10 — 22:25 — page 299 — #329 i i 9.2. Regressioni probit e logit regressione stimata che rappresenta le probabilità predette giace sotto lo zero per valori molto piccoli di P/Iratio e sopra uno per valori grandi! Questo è un controsenso: una probabilità non può essere minore di zero e maggiore di uno. Questo controsenso è una conseguenza inevitabile della regressione lineare. Per affrontare questo problema, introduciamo ora nuovi modelli non lineari specificatamente disegnati per variabili dipendenti binarie: i modelli di regressione probit e logit. 9.2 Regressioni probit e logit Le regressioni probit e logit sono modelli di regressione non lineari specificatamente disegnati per variabili dipendenti binarie. Siccome una regressione con una variabile dipendente Y binaria modella la probabilità che Y = 1, è ragionevole adottare una formulazione non lineare che costringa i valori predetti ad assumere valori tra zero e uno. Nelle regressioni logit e probit si utilizzano pertanto le funzioni di ripartizione (c.d.f., acronimo dall’inglese cumulative distribution function), poiché producono probabilità tra zero e uno (sezione 2.1): la funzione di ripartizione normale standard per la regressione probit; la c.d.f. “logistica” per la regressione logit, anche detta regressione logistica. La regressione probit Regressione probit con un singolo regressore. Il modello di regressione probit con un singolo regressore X è Pr(Y = 1 X) = Φ(β0 + β1 X), (9.4) dove Φ è la funzione di ripartizione normale standard (tabulata nella tavola 1 dell’appendice finale). Ad esempio, supponiamo che Y sia la variabile binaria rifiuto del prestito (deny), X il rapporto rata-reddito (P/Iratio), β0 = −2 e β1 = 3. Cosa accade se la probabilità di rifiuto è P/Iratio = 0, 4? In base alla (9.4), questa probabilità è Φ(β 0 + β1 P/Iratio) = Φ(−2 + 3P/Iratio) = Φ(−2 + 3 × 0.4) = Φ(−0, 8). Secondo la tavola della funzione di ripartizione normale (tavola 1 dell’appendice finale), Φ(−0, 8) = Pr(Z ≤ −0, 8) = 21, 2%. Ossia, quando P/Iratio è 0, 4, la probabilità predetta che la richiesta venga rifiutata è del 21, 2%, calcolata usando il modello probit con coefficienti β0 = −2 e β1 = 3. Nel modello probit, il termine β0 + β1 X gioca il ruolo della “z” per la tavola della funzione di ripartizione normale standard (tavola 1 dell’appendice finale). Perciò, il calcolo del paragrafo precedente può essere equivalentemente effettuato computando prima il “valore-z”, z = β0 + β1 X = −2 + 3 × 0, 4 = −0, 8, e poi guardando la probabilità nella coda della funzione di densità normale alla destra di z = −0, 8, che è 21, 2%. 299 i i i i i i “generale” — 2005/7/10 — 22:25 — page 300 — #330 i i 9.2. Regressioni probit e logit Se β1 nell’equazione (9.4) è positivo, allora un aumento di X fa aumentare la probabilità che Y = 1; se β1 è negativo, un aumento di X fa diminuire la probabilità che Y = 1. A parte questo, però, non è facile interpretare i coefficienti probit β 0 e β1 direttamente. È meglio invece interpretarli in maniera indiretta, calcolando le probabilità e/o le variazioni delle probabilità. Quando c’è soltanto un regressore, il modo più semplice per interpretare una regressione probit è disegnarne le probabilità. Nella figura 9.2 è tracciata la funzione di regressione stimata fornita dalla regressione probit di deny su P/Iratio per le 127 osservazioni che vediamo nel grafico a nuvola di punti. La funzione di regressione probit stimata ha una forma a “S” allungata: è vicina a zero e piatta per valori piccoli di P/Iratio; cambia concavità e cresce per valori intermedi; si appiattisce nuovamente e si avvicina a uno per valori elevati. Per rapporti rata-reddito piccoli, la probabilità di rifiuto è bassa. Ad esempio, per P/Iratio = 0, 2, la probabilità di rifiuto basata sulla funzione probit stimata (figura 9.2) è Pr(deny = 1 P/Iratio = 0, 2) = 2, 1%; quando P/Iratio è 0, 3 la probabilità di rifiuto stimata è 16, 1%; quando P/Iratio è 0, 4 la probabilità di rifiuto balza repentinamente a 51, 9%; quando P/Iratio è 0, 6, la probabilità di rifiuto è 98, 3%. Secondo questo modello probit stimato, per i richiedenti con alto rapporto rata-reddito, la probabilità di rifiuto è quasi uno. Regressione probit con regressori multipli. In tutti i problemi di regressione che abbiamo studiato finora, tralasciare una determinante di Y che è correlata con i regressori inclusi determina distorsione da variabile omessa. La regressione probit non è un’eccezione. Nella regressione lineare, la soluzione è includere la variabile addizionale come regressore. Questa è la soluzione alla distorsione da variabile omessa anche nella regressione probit. Il modello probit con regressori multipli generalizza il modello probit con un singolo regressore aggiungendo altri regressori nel calcolo del valore di z. Cosı̀, il modello di regressione probit con due regressori, X1 e X2 , è Pr(Y = 1 X1 , X2 ) = Φ(β0 + β1 X1 + β2 X2 ). (9.5) Ad esempio, supponiamo che β0 = −1, 6, β1 = 2 e β2 = 0, 5. Se X1 = 0, 4 e X2 = 1, il valore-z è z = −1, 6 + 2 × 0, 4 + 0, 5 × 1 = −0, 3. Perciò, la probabilità che Y = 1, dati X1 = 0, 4 e X2 = 1, è Pr(Y = 1 X1 = 0, 4, X2 = 1) = Φ(−0, 3) = 38%. Effetto di una variazione in X. In generale l’effetto su Y di una variazione in X è la variazione attesa di Y che deriva da una variazione in X. Quando Y è binaria, la sua aspettativa condizionata è la probabilità condizionata di essere uguale a uno, cosı̀ la variazione attesa di Y per effetto di una variazione in X è la variazione nella probabilità che Y = 1. Ricordiamo dalla sezione 6.1 che, quando la funzione di regressione è una funzione non lineare di X, questa variazione attesa si stima in tre passi: (i) si calcola il valore predetto in corrispondenza del valore di X usando la funzione di regressione stimata; (ii) si calcola il 300 i i i i i i “generale” — 2005/7/10 — 22:25 — page 301 — #331 i i 9.2. Regressioni probit e logit Concetto chiave 9.2: il modello probit, le probabilità predette e gli effetti stimati Il modello probit con regressori multipli è Pr(Y = 1 X1 , X2 , . . . , Xk ) = Φ(β0 + β1 X1 + β2 X2 + · · · βk Xk ), (9.6) dove la variabile dipendente Y è binaria, Φ è la funzione di ripartizione normale standard e X1 , X2 ecc. sono regressori. I coefficienti probit β0 , β1 ecc. non hanno un’interpretazione immediata. Il calcolo delle probabilità predette e dell’effetto di una variazione in un regressore permette di interpretare meglio il modello. La probabilità predetta che Y = 1, dati i valori di X1 , X2 , . . . , Xk , si ottiene calcolando il valore-z, z = β0 + β1 X1 + β2 X2 + · · · βk Xk , e ricercando poi il valore ottenuto nelle tavole della distribuzione normale (tavola 1 dell’appendice finale). L’effetto di una variazione in un regressore si ottiene: (1) calcolando la probabilità predetta in corrispondenza del valore iniziale dei regressori; (2) calcolando la probabilità predetta in corrispondenza del valore nuovo o variato dei regressori; (3) prendendone la differenza. valore predetto corrispondente al nuovo valore di X, X + ∆X; (iii) si calcola la differenza tra i due valori predetti. Questa procedura è riportata in sintesi nel concetto chiave 6.1. Come enfatizzato nella sezione 6.1, questo metodo funziona sempre per calcolare gli effetti predetti di una variazione di X, non importa quanto complicato sia il modello non lineare. Quando applicato al modello probit, il metodo del concetto chiave 6.1 fornisce l’effetto stimato di una variazione in X sulla probabilità che Y = 1. Il modello di regressione probit, le probabilità predette e gli effetti stimati sono riassunti nel concetto chiave 9.2. Applicazione ai dati sui mutui. Come illustrazione, stimiamo un modello probit con le 2.380 osservazioni che abbiamo a disposizione nei dati su rifiuto di prestiti (deny) e rapporto rata-reddito (P/Iratio): Pr(deny =d 1 P/Iratio) = Φ(− 2, 19 + 2, 97 P/Iratio). (0, 16) (0, 47) (9.7) I coefficienti stimati −2, 19 e 2, 97 sono difficilmente interpretabili, dal momento che influenzano la probabilità di rifiuto attraverso il valore-z. In effetti, la sola cosa che può essere prontamente conclusa dalla (9.7) è che P/Iratio è positivamente legato alla probabilità di rifiuto (il coefficiente di P/Iratio è positivo) e che questa relazione è statisticamente significativa (t = 2, 97/0, 47 = 6, 32). 301 i i i i i i “generale” — 2005/7/10 — 22:25 — page 302 — #332 i i 9.2. Regressioni probit e logit Figura 9.2: modello probit della probabilità di rifiuto, dato P/Iratio Rifiuto 1,4 1,2 1,0 Mutuo negato 0,8 0,6 Modello probit 0,4 0,2 0,0 Mutuo approvato -0,2 -0,4 0,0 0,1 0,2 0,3 0,4 0,5 0,6 0,7 0,8 Rapporto rata-reddito Il modello probit utilizza la funzione di ripartizione normale per modellare la probabilità di rifiuto dato il rapporto ˛ rata-reddito o, più in generale, per modellare Pr(Y = 1˛X). Diversamente dal modello di probabilità lineare, le probabilità condizionate probit giacciono sempre tra zero e uno. Qual è la variazione nella probabilità predetta che una richiesta sia rifiutata quando il rapporto rata-reddito cresce da 0, 3 a 0, 4? Per rispondere, seguiamo la procedura del concetto chiave 6.1: calcoliamo la probabilità di rifiuto per P/Iratio = 0, 3; poi, per P/Iratio = 0, 4; infine ne calcoliamo la differenza. La probabilità di rifiuto quando P/Iratio = 0, 3 è Φ(−2, 19+2, 97×0, 3) = Φ(−1, 30) = 0, 097. La probabilità di rifiuto quando P/Iratio = 0, 4 è Φ(−2, 19+2, 97×0, 4) = Φ(−1, 00) = 0, 159. La variazione stimata della probabilità di rifiuto è 0, 159 − 0, 097 = 0, 062. Perciò, un incremento del rapporto rata-reddito da 0, 3 a 0, 4 è associato ad un incremento nella probabilità di rifiuto di 6, 2 punti percentuali, da 9, 7% a 15, 9%. Siccome la funzione di regressione probit è non lineare, l’effetto di una variazione di X dipende dal valore stesso di X. Ad esempio, se P/Iratio = 0, 5, la probabilità di rifiuto Electronic Publishing Services Inc. stimata basandoci sulla (9.7) è Φ(−2, 19 + 2, 97 Stock/Watson, Econometrics 1e× 0, 5) = Φ(−0, 71) = 0, 239. Pertanto, la variazione nella probabilità predetta quando P/Iratio cresce da 0, 4 a 0, 5 è pari a 0, 239 − STOC.ITEM.0036 0, 159, ovveroFig. 8, 0 09.02 punti percentuali, maggiore dell’incremento di 6, 2 punti percentuali che si ha quando P/Iratio cresce da 0, 3 a 0, 4. 1st Proof 2nd Proof 3rd Proof Final Qual è l’effetto della razza sulla probabilità di rifiuto del prestito, tenendo costante il rapporto rata-reddito? Per stimare questo effetto, stimiamo una regressione probit avente sia 302 i i i i i i “generale” — 2005/7/10 — 22:25 — page 303 — #333 i i 9.2. Regressioni probit e logit Concetto chiave 9.3: la regressione logit Il modello logit per la variabile dipendente binaria Y con regressori multipli è Pr(Y = 1 X1 , X2 , . . . , Xk ) = F (β0 + β1 X1 + β2 X2 + · · · + βk Xk ) 1 . (9.9) = −(β +β X +β 0 1 1 2 X2 + ··· +βk Xk ) 1+e La regressione logit è simile alla regressione probit, eccetto che la funzione di ripartizione usata è diversa. P/Iratio sia black come regressori: d Pr(deny = 1 P/Iratio, black) = Φ(− 2, 26 + 2, 74 P/Iratio + 0, 71 black). (9.8) (0, 16) (0, 44) (0, 083) Di nuovo, i valori dei coefficienti hanno un’interpretazione complessa, ma non cosı̀ il loro segno e la loro significatività statistica. Il coefficiente di black è positivo, a indicare che un richiedente afro-americano ha una probabilità di rifiuto più alta rispetto a un richiedente bianco, tenendo costante il loro rapporto rata-reddito. Questo coefficiente è significativo al livello 1% (la statistica t di black è 8, 55). Per un richiedente bianco con P/Iratio = 0, 3, la probabilità di rifiuto predetta è 7, 5%, mentre per un richiedente nero con P/Iratio = 0, 3 essa è 23, 3%; la differenza nelle probabilità di rifiuto tra questi due richiedenti ipotetici è di 15, 8 punti percentuali. Stima dei coefficienti probit. I coefficienti probit qui riportati sono stati stimati usando il metodo della massima verosimiglianza, il quale produce stimatori efficienti (con varianza minima) in un’ampia varietà di applicazioni, che includono la regressione con variabile dipendente binaria. Lo stimatore di massima verosimiglianza è consistente e distribuito normalmente in grandi campioni, cosicché la statistica t e gli intervalli di confidenza per i coefficienti possono essere costruiti nel modo usuale. I software di regressione per la stima dei modelli probit fanno tipicamente uso della stima di massima verosimiglianza, perciò questo è un metodo semplice da applicare in pratica. Gli errori standard prodotti da tali software possono essere usati allo stesso modo degli errori standard dei coefficienti di regressione; ad esempio, un intervallo di confidenza al 95% per il vero coefficiente del probit può essere costruito come il coefficiente stimato ±1, 96 volte l’errore standard. Similmente, la statistica F calcolata usando gli stimatori di massima verosimiglianza può essere usata per verificare ipotesi congiunte. La stima di massima verosimiglianza è discussa ulteriormente nella sezione 9.3, con dettagli addizionali nell’appendice 9.2. 303 i i i i i i “generale” — 2005/7/10 — 22:25 — page 304 — #334 i i 9.2. Regressioni probit e logit Regressione logit Il modello di regressione logit. Il modello di regressione logit è simile al modello di regressione probit, eccetto che nell’equazione (9.6) la funzione di ripartizione normale standard Φ è rimpiazzata dalla funzione di ripartizione logistica standard, indicata con F . La regressione logit è riassunta nel concetto chiave 9.3. La funzione di ripartizione logistica ha una forma funzionale specifica, definita in termini della funzione esponenziale e mostrata nell’ultimo membro della (9.9). Come per il modello probit, i coefficienti modello logit sono meglio interpretati calcolando le probabilità predette e le differenze nelle probabilità predette. I coefficienti logit possono essere stimati con il metodo della massima verosimiglianza. Lo stimatore di massima verosimiglianza è consistente e distribuito normalmente in grandi campioni, cosicché la statistica t e gli intervalli di confidenza per i coefficienti possono essere costruiti nel modo usuale. Le funzioni di regressione logit e probit sono simili. Questo è illustrato nella figura 9.3, che traccia le funzioni di regressione probit e logit per la variabile dipendente deny e il singolo regressore P/Iratio, stimate con il metodo della massima verosimiglianza usando le stesse 127 osservazioni delle figure 9.1 e 9.2. Le differenze tra queste due funzioni sono modeste. Storicamente, la principale motivazione per l’uso della regressione logit è che la funzione di ripartizione logistica può essere calcolata più velocemente rispetto alla funzione di ripartizione normale. Con l’avvento di computer più efficienti, questa distinzione non è più rilevante. Applicazione ai dati del Boston HMDA. Una regressione logit di deny su P/Iratio e black, usando le 2.380 osservazioni disponibili, fornisce la funzione di regressione stimata d Pr(deny = 1 P/Iratio, black) = F (− 4, 13 + 5, 37 P/Iratio + 1, 27 black). (9.10) (0, 35) (0, 96) (0, 15) Il coefficiente di black è positivo e significativo a livello 1% (la statistica t è 8, 47). La probabilità predetta di rifiuto per un richiedente bianco con P/Iratio = 0, 3 è 1/[1 + e−(−4,13+5,37×0,3+1,27×0) ] = 1/[1 + e2,52 ] = 0, 074, ovvero 7, 4%. La probabilità predetta di rifiuto per un richiedente afro-americano con P/Iratio = 0, 3 è 1/[1 + e 1,25 ] = 0, 222, ovvero 22, 2%, la differenza tra le due probabilità è quindi di 14, 8 punti percentuali. Confronto tra i modelli lineare di probabilità, probit e logit I tre modelli –lineare di probabilità, probit e logit– sono solo approssimazioni della funzione di regressione ignota della popolazione E(Y X) = Pr(Y = 1 X). Il modello lineare di probabilità è il più facile da usare e da interpretare, ma non riesce a catturare la natura non 304 i i i i i i “generale” — 2005/7/10 — 22:25 — page 305 — #335 i i 9.2. Regressioni probit e logit Figura 9.3: modelli probit e logit della probabilità di rifiuto, dato P/Iratio Rifiuto 1,4 1,2 1,0 Mutuo negato 0,8 0,6 0,4 Modello probit Modello logit 0,2 0,0 Mutuo approvato -0,2 -0,4 0,0 0,1 0,2 0,3 0,4 0,5 0,6 0,7 0,8 Rapporto rata-reddito Questi modelli probit e logit producono stime pressoché identiche della probabilità che la richiesta di mutuo venga rifiutata, dato il rapporto rata-reddito. lineare della vera funzione di regressione della popolazione. Le regressione probit e logit modellano tale non linearità nella probabilità, ma i loro coefficienti di regressione sono più difficili da interpretare. Quale dovremmo usare in pratica? Non c’è un’unica risposta, e perciò ricercatori diversi usano modelli diversi. Le regressioni probit e logit producono frequentemente risultati simili. Ad esempio, secondo il modello probit stimato (9.8), la differenza nelle probabilità di rifiuto tra un richiedente nero e uno bianco con P/Iratio = 0, 3 era stimata essere di 15, 8 punti percentuali, mentre la stima logit di questa differenza, basata sulla (9.10), era di 14, 9 punti percentuali. A fini pratici, le due stime sono molto simili. Un modo di decidere tra i modelli logit e probit è quello di scegliere il metodo che è più facile da usare dato il software statistico disponibile. Il modello lineare di probabilità fornisce l’approssimazione meno adatta alla funzione di regressione non lineare della popolazione. Anche cosı̀, alcuni dati potrebbero contenere pochi valori estremi dei regressori, nelServices qual casoInc. il modello lineare di probabilità può ancora Electronic Publishing produrre un’adeguata approssimazione. Nella regressione della probabilità di rifiuto (9.3), la Stock/Watson, Econometrics 1e differenza neri/bianchi stimata dal modello lineare di probabilità è 17, 7 punti percentuali, più STOC.ITEM.0037 grande rispetto alle09.03 stime probit e logit ma ancora qualitativamente simile. Il solo modo per Fig. scoprire tutto questo, però, è stimare sia un modello lineare sia uno non lineare e confrontare 1st Proof 2nd Proof 3rd Proof Final le rispettive probabilità predette. 305 i i i i i i “generale” — 2005/7/10 — 22:25 — page 306 — #336 i i 9.3. Stima e inferenza nei modelli logit e probit 9.3 Stima e inferenza nei modelli logit e probit1 I modelli non lineari studiati nel capitolo 6 sono funzioni non lineari delle variabili indipendenti, ma funzioni lineari dei coefficienti ignoti (“parametri”). Di conseguenza, i coefficienti ignoti di quelle funzioni di regressione non lineari possono essere stimati con gli OLS. Di contro, le funzioni di regressione probit e logit sono funzioni non lineari dei coefficienti. In altre parole, i coefficienti probit β0 , β1 ecc. nella (9.6) appaiono all’interno della funzione di ripartizione normale standard Φ e i coefficienti logit nella (9.9) appaiono all’interno della funzione di ripartizione logistica standard F . Siccome la funzione di regressione della popolazione è una funzione non lineare dei coefficienti β0 , β1 ecc., tali coefficienti non possono essere stimati con gli OLS. Questa sezione introduce il metodo standard di stima dei coefficienti probit e logit, la massima verosimiglianza; ulteriori dettagli matematici sono forniti nell’appendice 9.2. Siccome è contenuta nei moderni software statistici, la stima di massima verosimiglianza dei coefficienti probit è facile da utilizzare. La teoria della stima di massima verosimiglianza, tuttavia, è più complessa rispetto a quella dei minimi quadrati. Discutiamo pertanto un altro metodo di stima, i minimi quadrati non lineari, prima di passare alla massima verosimiglianza. Stima dei minimi quadrati non lineari I minimi quadrati non lineari sono un metodo generale di stima dei coefficienti ignoti di una funzione di regressione, quando, come nel caso dei coefficienti probit, essi entrano nella funzione di regressione in modo non lineare. Si ricordi la discussione della sezione 5.3 riguardante lo stimatore OLS dei coefficienti del modello di regressione lineare multipla. Lo stimatore OLS minimizza la somma dei quadrati Pn degli errori di previsione della (5.8), i=1 [Yi −(b0 +b1 X1i +· · ·+bk Xki )]2 . In principio, lo stimatore OLS può essere calcolato assegnando molti valori diversi a b 0 , . . . , bk e scegliendo poi quei valori che minimizzano la somma dei quadrati degli errori. Questo stesso approccio può essere usato per stimare i coefficienti probit. Siccome il modello di regressione è non lineare nei coefficienti, questo metodo è detto dei minimi quadrati non lineari. Per un certo insieme iniziale di valori dei coefficienti b0 , . . . , bk , costruiamo la somma dei quadrati degli errori di previsione n X i=1 [Yi − Φ(b0 + b1 X1i + · · · + bk Xki )]2 . (9.11) Questa procedura è simile a quella per il modello di regressione lineare, eccetto che la funzione di regressione è data dal modello probit. Lo stimatore dei minimi quadrati non lineari dei coefficienti probit è dato dai valori di b0 , b1 , . . . , bk che minimizzano la somma 1 Questa sezione contiene materiale più avanzato, che può essere evitato senza soluzione di continuità. 306 i i i i i i “generale” — 2005/7/10 — 22:25 — page 307 — #337 i i 9.3. Stima e inferenza nei modelli logit e probit dei quadrati degli errori di previsione (9.11). Similmente, lo stimatore dei minimi quadrati non lineari dei coefficienti logit minimizza la somma dei quadrati degli errori di predizione (9.11), con la funzione di ripartizione logistica F che rimpiazza Φ nella (9.11). Nel modello di regressione lineare, c’è una formula esplicita che esprime lo stimatore OLS come funzione dei dati. Sfortunatamente, non esiste una formula simile per il modello probit, cosı̀ lo stimatore dei minimi quadrati non lineari deve essere cercato numericamente dal computer. I software di regressione incorporano di solito sofisticati algoritmi per risolvere simili problemi di minimizzazione, il che semplifica il compito di calcolare lo stimatore dei minimi quadrati non lineari in pratica. Lo stimatore dei minimi quadrati non lineari dei coefficienti probit ha due proprietà fondamentali in comune con lo stimatore OLS nella regressione lineare: è consistente (la probabilità che sia vicino al vero valore tende a uno al crescere della dimensione campionaria) ed è normalmente distribuito in grandi campioni. Ci sono, tuttavia, stimatori che hanno una varianza minore dello stimatore dei minimi quadrati non lineari, per cui lo stimatore dei minimi quadrati non lineari è inefficiente. Per questa ragione, lo stimatore dei minimi quadrati non lineari è raramente usato in pratica per stimare i coefficienti probit, per i quali si usa invece il metodo della massima verosimiglianza. Stima di massima verosimiglianza La funzione di verosimiglianza è la distribuzione di probabilità congiunta dei dati, trattata come funzione dei coefficienti ignoti. Lo stimatore di massima verosimiglianza (stimatore ML) (acronimo dall’inglese Maximum Likelihood) dei coefficienti ignoti è dato dai valori dei coefficienti che massimizzano la funzione di verosimiglianza. Siccome lo stimatore ML sceglie i coefficienti ignoti in modo da massimizzare la funzione di verosimiglianza, che è a sua volta la funzione di probabilità congiunta, lo stimatore ML sceglie in effetti il valore dei parametri al fine di massimizzare la probabilità che i dati osservati siano effettivamente estratti. In questo senso, le stime ML sono i valori dei parametri che “più verosimilmente” hanno prodotto i dati. Per illustrare la stima di massima verosimiglianza, consideriamo due osservazioni i.i.d., Y1 e Y2 , su una variabile dipendente binaria senza regressori. Pertanto, Y è una variabile casuale di Bernoulli e il solo parametro ignoto da stimare è la probabilità p che Y = 1, che è anche la media di Y . Per ottenere lo stimatore di massima verosimiglianza abbiamo bisogno della funzione di verosimiglianza, che a sua volta richiede la distribuzione di probabilità congiunta dei dati. La distribuzione di probabilità congiunta delle due osservazioni Y 1 e Y2 è Pr(Y1 = y1 , Y2 = y2 ). Siccome Y1 e Y2 sono indipendentemente distribuite, la distribuzione congiunta è il prodotto delle distribuzioni individuali (equazione (2.21)), perciò Pr(Y 1 = y1 , Y2 = y2 ) = Pr(Y1 = y1 ) Pr(Y2 = y2 ). La distribuzione di Bernoulli può essere rappresentata dalla 307 i i i i i i “generale” — 2005/7/10 — 22:25 — page 308 — #338 i i 9.3. Stima e inferenza nei modelli logit e probit formula Pr(Y = y) = py (1 − p)1−y : quando y = 1, Pr(Y = 1) = p1 (1 − p)0 = p; quando y = 0, Pr(Y = 0) = p0 (1 − p)1 = 1 − p. Cosı̀, la distribuzione di probabilità congiunta di Y1 e Y2 è Pr(Y1 = y1 , Y2 = y2 ) = [py1 (1 − p)1−y1 ] × [py2 (1 − p)1−y2 ] = p(y1 +y2 ) (1 − p)2−(y1 +y2 ) . La funzione di verosimiglianza è la distribuzione di probabilità congiunta, trattata come funzione dei coefficienti ignoti. Per n = 2 osservazioni i.i.d. su variabili casuali di Bernoulli, la funzione di verosimiglianza è f (p; Y1 , Y2 ) = p(Y1 +Y2 ) (1 − p)2−(Y1 +Y2 ) . (9.12) Lo stimatore di massima verosimiglianze di p è il valore di p che massimizza la funzione di verosimiglianza (9.12). Come in tutti i problemi di massimizzazione o minimizzazione, ciò può essere fatto attraverso un processo di prova ed errori; in altre parole, si può provare con diversi valori di p e calcolare la verosimiglianza f (p; Y1 , Y2 ), fino a quando non si ritiene di aver raggiunto un massimo. In questo esempio, tuttavia, la massimizzazione della funzione di verosimiglianza usando il calcolo matematico produce una formula semplice per lo stimatore ML, che è p̂ = 12 (Y1 + Y2 ). In altre parole, lo stimatore ML di p è semplicemente la media campionaria! In effetti, per un n generico, lo stimatore ML p̂ della probabilità p di una distribuzione di Bernoulli è la sua media campionaria, ovvero p̂ = Ȳ (si veda l’appendice 9.2 per una dimostrazione). In questo esempio, lo stimatore ML è il comune stimatore di p, la frazione di volte in cui Yi = 1 nel campione. Questo esempio è simile al problema della stima dei coefficienti ignoti dei modelli di regressione probit e logit. In tali modelli, la probabilità di successo p non è costante, ma dipende da X; è cioè la probabilità di successo condizionatamente a X, data dalla (9.6) per il modello probit e dalla (9.9) per il modello logit. Perciò, le funzioni di verosimiglianza probit e logit sono simili alla funzione di verosimiglianza (9.12), eccetto che la probabilità di successo varia da un’osservazione all’altra (perché dipende da Xi ). Le funzioni di verosimiglianza per i modelli probit e logit sono riportate nell’appendice 9.2. Come lo stimatore dei minimi quadrati non lineari, lo stimatore ML è consistente e normalmente distribuito in grandi campioni. Siccome i software di regressione calcolano comunemente lo stimatore ML dei coefficienti probit, questo stimatore è facile da usare in pratica. Tutti i coefficienti stimati probit e logit riportati in questo capitolo sono ML. Inferenza statistica basata sullo stimatore ML. Siccome lo stimatore ML è distribuito normalmente in grandi campioni, l’inferenza statistica circa i coefficienti probit e logit basata sullo stimatore ML procede in modo analogo a quella per i coefficienti della funzione di regressione lineare basata sullo stimatore OLS: i test d’ipotesi sono condotti usando la statistica t e gli intervalli di confidenza al 95% sono costruiti come ±1, 96 volte l’errore standard. I test di ipotesi congiunte su più coefficienti utilizzano la statistica F, in un modo simile a quanto 308 i i i i i i “generale” — 2005/7/10 — 22:25 — page 309 — #339 i i 9.4. Applicazione ai dati del Boston HMDA discusso nel capitolo 5 per il modello di regressione lineare. Tutto ciò è del tutto analogo all’inferenza statistica per il modello di regressione lineare. Bisogna puntualizzare che alcuni software statistici riportano test di ipotesi congiunte usando la statistica F, mentre altri software usano la statistica chi-quadrato. La statistica chiquadrato è q × F , dove q è il numero di restrizioni da verificare. Siccome la statistica F è, sotto l’ipotesi nulla, distribuita in grandi campioni secondo una χ 2q /q, q × F è distribuita in grandi campioni secondo una χ2q . Poiché i due approcci differiscono, in effetti, solo per la divisione per q, essi producono identiche inferenze statistiche, ma è necessario conoscere quale approccio sia implementato dal software in uso, cosı̀ da usare i valori critici corretti. Misure di bontà dell’adattamento Nella sezione 9.1, si è menzionato il fatto che l’R 2 costituisca una misura inadeguata della bontà dell’adattamento dei modelli di probabilità lineare. Questo è vero anche per le regressioni probit e logit. Due misure di bontà dell’adattamento per i modelli con variabili dipendenti binarie sono la “frazione correttamente predetta” e lo “pseudo-R 2”. La frazione correttamente predetta utilizza la seguente regola: se Yi = 1 e la probabilità predetta eccede il 50% o se Yi = 0 e la probabilità predetta è minore del 50%, allora si dice che Yi è predetto correttamente; altrimenti, si dice che Yi non è predetto correttamente. La “frazione predetta correttamente” è la frazione delle n osservazioni Y1 , . . . , Yn , che sono predette correttamente. Un vantaggio di questa misura di bontà dell’adattamento è la sua facilità di comprensione. Uno svantaggio è che non riflette la qualità della predizione: se Y i = 1, l’osservazione è trattata come predetto correttamente, indipendentemente dal fatto che la probabilità predetta sia del 51% o del 90%. Lo pseudo-R2 misura l’adattamento del modello usando la funzione di verosimiglianza. Siccome lo stimatore ML massimizza la funzione di verosimiglianza, aggiungere un altro regressore al modello probit o logit accresce il valore della verosimiglianza massimizzata, proprio come l’aggiunta di un regressore riduce necessariamente la somma dei quadrati dei residui OLS della regressione lineare. Ciò suggerisce di misurare la bontà dell’adattamento di un modello probit confrontando i valori della funzione di verosimiglianza massimizzata con tutti i regressori al valore della verosimiglianza senza alcun regressore. Questo, in effetti, e ciò che fa lo pseudo-R2. Una formula per lo pseudo-R2 si può trovare nell’appendice 9.2. 9.4 Applicazione ai dati del Boston HMDA Le regressioni delle due sezioni precedenti indicavano tassi di rifiuto più alti per i richiedenti neri che per quelli bianchi, tenendo costante il loro rapporto rata-reddito. I funzionari bancari addetti ai prestiti, tuttavia, soppesano legittimamente molti fattori nel decidere circa la 309 i i i i i i “generale” — 2005/7/10 — 22:25 — page 310 — #340 i i 9.4. Applicazione ai dati del Boston HMDA concessione di un mutuo e, se qualcuno di questi fattori differisce sistematicamente a seconda della razza, allora gli stimatori considerati finora sono distorti a causa dell’omissione di variabili rilevanti. In questa sezione, considereremo più in dettaglio l’evidenza statistica di discriminazione nei dati del Boston HMDA. Nello specifico, il nostro obiettivo è stimare l’effetto della razza sulla probabilità di rifiuto, tenendo costanti quelle caratteristiche dei richiedenti che un funzionario bancario può per legge tenere in considerazione quando decide su una domanda di mutuo. Le variabili più importanti disponibili per i funzionari bancari attraverso le domande di mutui registrate nella collezione di dati del Boston HMDA sono elencate nella tabella 9.1; queste sono le variabili sulle quali ci concentreremo nei nostri modelli empirici di concessione di prestiti. Le prime due variabili sono misure dirette dell’onere finanziario che graverà sul richiedente, calcolate in relazione al suo reddito: la prima è la variabile P/Iratio; la seconda è il rapporto tra spese relative all’abitazione e reddito. La variabile successiva è la dimensione del prestito rapportata al valore stimato dell’abitazione: se il rapporto prestito-valore tende a uno, allora la banca potrebbe avere problemi nel recuperare l’intero ammontare del prestito, se il richiedente non restituisse il prestito e la banca agisse in via esecutiva. Le ultime tre variabili finanziarie sintetizzano la storia debitoria del richiedente. Se il richiedente ha inadempiuto i suoi debiti in passato, allora il funzionario bancario potrebbe avere dubbi legittimi sulla sua capacità o sulla sua volontà di rimborsare un prestito in futuro. Le tre variabili misurano diversi tipi di storia debitoria, che l’ufficiale bancario potrebbe soppesare diversamente: la prima riguarda il credito al consumo, come lo scoperto sulla carta di credito; la seconda riguarda il rimborso di mutui precedenti; la terza misura problemi creditori tanto gravi, come la bancarotta, da apparire in un registro pubblico giudiziario. La tabella 9.1 elenca anche altre variabili rilevanti per la decisione del funzionario bancario. Talvolta il richiedente deve fare richiesta di un’assicurazione privata sui mutui. 2 Il funzionario bancario sa se quella domanda è stata negata e quel rifiuto dovrebbe pesare negativamente nella decisione del funzionario. Le tre variabili successive, che riguardano lo stato occupazionale, lo stato civile e l’educazione scolastica del richiedente, sono collegate alla capacità prospettica di rimborso del richiedente. Nel caso di espropriazioni giudiziarie, sono rilevanti anche le caratteristiche della proprietà e perciò la variabile successiva indica se la proprietà è un condominio. Le ultime due variabili elencate nella tavole 9.1 indicano se il richiedente è nero o bianco e se la domanda è stata o meno accettata. In questi dati, il 14, 2% dei richiedenti è nero e il 12, 0% delle richieste è stato rifiutato. 2 L’assicurazione sui mutui è una polizza assicurativa in base alla quale la compagnia d’assicurazioni effettua il pagamento mensile alla banca, se non fatto dal mutuatario. Al tempo di questo studio, se il rapporto prestito-valore eccedeva l’80%, al richiedente veniva di solito richiesto di stipulare un’assicurazione sul mutuo. 310 i i i i i i “generale” — 2005/7/10 — 22:25 — page 311 — #341 i i 9.4. Applicazione ai dati del Boston HMDA Tabella 9.1: variabili incluse nei modelli di regressione per la concessione di mutui Variabile Definizione Media campionaria Variabili finanziarie P/Iratio rapporto tra la rata mensile del debito totale sul reddito mensile totale 0,331 housing expense-toincome ratio rapporto tra le spese mensili per l’abitazione e reddito mensile totale 0,255 loan-to-value ratio rapporto tra l’ammontare del prestito sul valore del patrimonio 0,738 consumer credit score 1 in assenza di “ritardi” nei pagamenti o inadempienze 2 in presenza di uno o due pagamenti ritardati o inadempienze 3 in presenza di più di due pagamenti ritardati 4 in assenza di una insufficiente conoscenza della storia debitoria 5 in presenza di una storia debitoria con inadempienze nei pagamenti oltre i 60 giorni 6 in presenza di una storia debitoria con inadempienze nei pagamenti oltre i 90 giorni 2,1 mortgage credit score 1 in assenza di ritardi nei pagamenti del mutuo 2 in assenza di mutui precedenti 3 in presenza di uno o due pagamenti della rata del mutuo con ritardo 4 in presenza di più di due pagamenti della rata del mutuo con ritardo 1,7 public bad credit 1 in presenza di registrazioni pubbliche per problemi debitori (bancarotta, “charge-offs”, pignoramenti) 0 altrimenti record 0,074 Altre caratteristiche del richiedente denied mortgage insurance 1 se il richiedente richiede un’assicurazione sul mutuo e gli viene rifiutata 0 altrimenti 0,020 self-employed 1 se autonomo, 0 altrimenti 0,116 single 1 se single, 0 altrimenti 0,393 high school diploma 1 se il richiedente ha conseguito il diploma di scuola superiore 0 altrimenti 0,984 unemployment rate tasso di disoccupazione nel settore del richiedente in Massachusetts condominium 1 se l’abitazione è un condominio, 0 altrimenti 0,288 black 1 se il richiedente è nero, 0 se bianco 0,142 deny 1 se la richiesta di mutuo è rifiutata, 0 altrimenti 0,120 3,8 311 i i i i i i “generale” — 2005/7/10 — 22:25 — page 312 — #342 i i 9.4. Applicazione ai dati del Boston HMDA La tabella 9.2 presenta i risultati di regressione basati su queste variabili. Le specificazioni di base, riportate nelle colonne (1)–(3), includono le variabili finanziarie della tavola 9.1 più le variabili che indicano se l’assicurazione privata per il mutuo è stata negata e se il richiedente è un lavoratore autonomo. I funzionari addetti ai mutui utilizzano valori-soglia, o valori di esclusione, per il rapporto prestito-valore, perciò la specificazione di base per tale variabile utilizza variabili binarie che indicano se il rapporto prestito-valore è alto (≥ 0, 95), medio (tra 0, 8 e 0, 95) o basso (< 0, 8; questo caso è omesso per evitare la perfetta collinearità). I regressori nelle prime tre colonne sono simili a quelli della specificazione di base considerata dalla Federal Reserve Bank of Boston nella sua analisi iniziale di questi dati. 3 Le regressioni nelle colonne (1)–(3) differiscono solo per il modo in cui viene modellata la probabilità di rifiuto, utilizzando rispettivamente un modello lineare di probabilità e un modello probit. Siccome la regressione nella colonna (1) è un modello lineare di probabilità, i suoi coefficienti sono le variazioni stimate nelle probabilità predette che derivano da una variazione unitaria nella variabile indipendente. Di conseguenza, si stima che un aumento di P/Iratio di 0, 1 accresca la probabilità di rifiuto di 4, 5 punti percentuali (il coefficiente di P/Iratio nella colonna (1) è 0, 449 e 0, 449 × 0, 1 ∼ = 0, 045). Similmente, avere un rapporto elevato prestito-valore aumenta la probabilità di rifiuto: un rapporto prestito-valore superiore al 95% è associato ad una crescita della probabilità di rifiuto di 18, 9 punti percentuali (il coefficiente è 0, 189), relativamente al caso omesso di un rapporto prestito-valore inferiore all’80%, tenendo costanti le altre variabili nella colonna (1). Richiedenti con basso merito di credito hanno anche maggiore difficoltà nell’ottenere un prestito, a parità d’altro, sebbene sia interessante che il coefficiente del credito al consumo sia significativo mentre quello sul mutuo ipotecario non lo è. I richiedenti con problemi di credito, come la bancarotta, hanno difficoltà ancora maggiori ad ottenere un prestito: a parità d’altro, si stima che un’annotazione negativa su un registro giudiziario pubblico aumenti la probabilità di rifiuto di 0, 197, ovvero 19, 7 punti percentuali. Il fatto che l’assicurazione privata sui mutui venga negata sembra essere decisivo: il coefficiente stimato di 0, 702 indica che il rifiuto di un’assicurazione sul mutuo fa aumentare la probabilità che il mutuo venga negato di 70, 2 punti percentuali, a parità d’altro. Delle nove variabile incluse nella regressione (oltre alla razza), i coefficienti di tutte, due escluse, sono signficativi al 5%, il che è consistente con la pratica del funzionario bancario di considerare molti fattori nel prendere le proprie decisioni. 3 La differenza tra i regressori nelle colonne (1)–(3) e quelli contemplati in Munnell et al. (1996), tabella 2(1), è che Munnell et al. includono indicatori aggiuntivi relativi alla localizzazione dell’abitazione e all’identità di chi concede il prestito, dati che non sono di pubblico dominio; un indicatore per le abitazioni multifamiliari, che è irrilevante qui perché il nostro sottogruppo di dati include solo abitazioni unifamiliari; la ricchezza netta, che noi omettiamo poiché contiene alcuni valori estremi positivi e negativi e questo rischia di rendere i risultati sensibili a poche specifiche “osservazioni anomale”. 312 i i i i i i “generale” — 2005/7/10 — 22:25 — page 313 — #343 i i 9.4. Applicazione ai dati del Boston HMDA Tabella 9.2: regressioni del rifiuto della concessione di un mutuo sui dati del Boston HMDA Variabile dipendente: rifiuto = 1 se la richiesta d’ipoteca è respinta, = 0 se accolta; 2.380 osservazioni. Modello di regressione Regressore black P/Iratio housing expense-to-income ratio medium loan-to-value ratio (0,80≤loan-to-value ratio≤0,95) high loan-to-value ratio (loan-to-value ratio>0,95) consumer credit score mortgage credit score public bad credit record denied mortgage insurance self-employed LPM (1) Logit (2) Probit (3) Probit (4) Probit (5) Probit (6) 0,084∗∗ (0,023) 0,449∗∗ (0,114) -0,048 (0,110) 0,031∗ (0.013) 0,189∗∗ (0,050) 0,031∗∗ (0,005) 0,021 (0,011) 0,197∗∗ (0,035) 0,702∗∗ (0,045) 0,060∗∗ (0,021) 0,688∗∗ (0,182) 4,76∗∗ (1,33) -0,11 (1,29) 0,46∗∗ (0.16) 1,49∗∗ (0,32) 0,29∗∗ (0,04) 0,28∗ (0,14) 1,23∗∗ (0,20) 4,55∗∗ (0,57) 0,67∗∗ (0,21) 0,389∗∗ (0,098) 2,44∗∗ (0,61) -0,18 (0,68) 0,21∗∗ (0,08) 0,79∗∗ (0,18) 0,15∗∗ (0,02) 0,15∗ (0,07) 0,70∗∗ (0,12) 2,56∗∗ (0,30) 0,36∗∗ (0,11) 0,371∗∗ (0,099) 2,46∗∗ (0,60) -0,30 (0,68) 0,22∗∗ (0,08) 0,79∗∗ (0,18) 0,16∗∗ (0,02) 0,11 (0,08) 0,70∗∗ (0,12) 2,59∗∗ (0,29) 0,35∗∗ (0,11) 0,23∗∗ (0,08) -0,61∗∗ (0,23) 0,03 (0,02) 0,363∗∗ (0,100) 2,62∗∗ (0,61) -0,50 (0,70) 0,22∗∗ (0,08) 0,84∗∗ (0,18) 0,34∗∗ (0,11) 0,16 (0,10) 0,72∗∗ (0,12) 2,59∗∗ (0,30) 0,34∗∗ (0,11) 0,23∗∗ (0,08) -0,60∗ (0,24) 0,03 (0,02) -0,05 (0,09) 0,246 (0,448) 2,57∗∗ (0,66) -0,54 (0,74) 0,22∗∗ (0,08) 0,79∗∗ (0,18) 0,16∗∗ (0,02) 0,11 (0,08) 0,70∗∗ (0,12) 2,59∗∗ (0,29) 0,35∗∗ (0,11) 0,23∗∗ (0,08) -0,62∗∗ (0,23) 0,03 (0,02) single high school diploma unemployment rate condominium black×P/Iratio -0,58 (1,47) 1,23 black×housing expense-to-income ratio additional credit rating indicator variable constant no no no no yes (1,69) no -0,183∗∗ (0,028) -5,71∗∗ (0,48) -3,04∗∗ (0,23) -2,57∗∗ (0,34) -2,90∗∗ (0,39) -2,54∗∗ (0,35) (Tabella 9.2 continua) 313 i i i i i i “generale” — 2005/7/10 — 22:25 — page 314 — #344 i i 9.4. Applicazione ai dati del Boston HMDA (Tabella 9.2 continua) Statistiche F e valori-p per l’esclusione di gruppi di variabili Regressore (1) (2) (3) applicant single; HS diploma; industry unemployment rate (4) (5) (6) 5,85 (<0,001) 5,22 (0,001) 5,79 (<0,001) additional credit rating indicator variables 1,22 (0,291) race interaction and black 4,96 (0,002) race interaction only 0,27 (0,766) difference in predicted probability of denial, white vs. black (percentage points) 8,4% 6,0% 7,1% 6,6% 6,3% 6,5% Queste regressioni sono state stimate utilizzando n = 2.380 osservazioni tratte dall’HMDA di Boston, descritte nell’appendice 9.1. Il modello lineare di probabilità è stato stimato tramite gli OLS e le regressioni probit e logit sono state stimate tramite la massima verosimiglianza. Gli erorri standard sono riportati in parentesi sotto i coefficienti e i valori-p sono riportati in parentesi sotto le statistiche F . La variazione della probabilità predetta nella riga finale è stata calcolata per un ipotetico richiedente i cui valori dei regressori sono, eccetto che per la razza, pari alla media del campione. I coefficienti sono statisticamente significativi al livello ∗ 5% o ∗∗ 1%. Il coefficiente di black nella regressione (1) è 0, 084, il che indica che la differenza nelle probabilità di rifiuto per i richiedenti neri e bianchi è di 8, 4 punti percentuali, tenendo costanti le altre variabili nella regressione. Questo coefficiente è significativo al livello 1% (t = 3, 65). Le stime logit e probit riportate nelle colonne (2) e (3) portano a conclusioni simili. Nelle regressioni logit e probit, otto coefficienti su nove oltre a quello della razza sono individualmente diversi da zero al livello 5% e il coefficiente di black è significativo al livello 1%. Come discusso nella sezione 9.2, siccome questi modelli sono non lineari, debbono essere attribuiti valori specifici a tutti i regressori per calcolare la differenza tra le probabilità predette per i richiedenti bianchi e neri. Un modo convenzionale per effettuare questa scelta è considerare un richiedente “medio”, ovvero un richiedente che abbia valori campionari medi per tutti i regressori oltre che per la razza. La riga finale della tabella 9.2 riporta questa differenza di probabilità stimata, valutata per questo richiedente medio. I differenziali razziali stimati sono simili tra loro: 8, 4 punti percentuali per il modello lineare di probabilità (colonna (1)), 6, 0 punti percentuali per il modello logit (colonna (2)), e 7, 1 punti percentuali per il modello probit (colonna (3)). Questi effetti razza stimati e i coefficienti di black sono minori rispetto 314 i i i i i i “generale” — 2005/7/10 — 22:25 — page 315 — #345 i i 9.4. Applicazione ai dati del Boston HMDA alle regressioni della sezione precedente, in cui i soli regressori erano P/Irato e black, ad indicare che quelle prime stime erano distorte a causa di variabili omesse. Le regressioni delle colonne (4)–(6) analizzano la sensibilità dei risultati della colonna (3) a variazioni della specificazione della regressione. La colonna (4) modifica la colonna (3) includendo caratteristiche addizionali del richiedente. Queste caratteristiche aiutano a predire se il prestito sarà negato; per esempio, l’avere almeno un diploma di scuola media superiore riduce la probabilità di rifiuto (la stima è negativa e il coefficiente è significativo al livello 1%). Tuttavia, anche controllando per queste caratteristiche personali non varia in maniera rilevante il coefficiente stimato di black o la differenza stimata nelle probabilità di rifiuto (6, 6%). La colonna (5) distingue le sei categorie di credito al consumo e le quattro categorie di mutui per verificare l’ipotesi nulla che queste due variabili entrino linearmente; questa regressione aggiunge anche una variabile che indica se la proprietà è un condominio. L’ipotesi nulla che le variabili per il merito di credito entrino linearmente nell’espressione del valore-z non è rigettata, né è significativo l’indicatore di condominio al livello 5%. Cosa più importante, la differenza razziale stimata nella probabilità di rifiuto (6, 3%) è essenzialmente pari a quella delle colonne (3) e (4). La colonna (6) esamina se ci sono interazioni. Sono applicati criteri diversi per valutare i rapporti rata-reddito e spesa per la casa-reddito ai richiedenti neri rispetto a quelli bianchi? La risposta appare essere negativa: i termini di interazione non sono congiuntamente significativi a livello 5%. Tuttavia, la razza continua ad avere un effetto significativo, dal momento che l’indicatore razziale e i termini di interazione sono congiuntamente significativi a livello 1%. Di nuovo, la differenza razziale nella probabilità di rifiuto stimata (6, 5%) è essenzialmente pari a quella delle altre regressioni probit. In tutte le sei specificazioni, l’effetto della razza sulla probabilità di rifiuto, tenendo costanti le altre caratteristiche del richiedente, è significativo al livello 1%. La differenza stimata nelle probabilità di rifiuto tra richiedenti bianchi e neri varia da 6, 0 a 8, 4 punti percentuali. Un modo per stabilire se questa differenza è grande o piccola è ritornare a una variante della domanda posta all’inizio di questo capitolo. Supponiamo che due individui, uno bianco e uno nero, richiedano un mutuo ma che posseggano gli stessi valori per le altre variabili indipendenti della regressione (3); nello specifico, a parte la razza, i valori delle altre variabili della regressione (3) siano i valori medi campionari dei dati HMDA. Il richiedente bianco fronteggia una probabilità di rifiuto del 7, 4%, mentre il richiedente nero del 14, 5%. La differenza razziale stimata nelle probabilità di rifiuto, pari a 7, 1 punti percentuali, indica che il richiedente nero ha una probabilità di rifiuto quasi doppia rispetto al richiedente bianco. I risultati della tabella 9.2 (e nello studio originale della Boston Fed) forniscono evidenza statistica di una componente razziale nel rifiuto dei mutui, che, per legge, non dovrebbero sussistere. Questa evidenza ha giocato un ruolo importante nell’incentivare la modifica del 315 i i i i i i “generale” — 2005/7/10 — 22:25 — page 316 — #346 i i 9.5. Conclusioni regolamento da parte dell’autorità normativa del settore bancario. 4 Gli economisti, tuttavia, amano le buone discussioni e, non soprendentemente, questi risultati hanno anche stimolato accesi dibattiti. Siccome l’ipotesi che ci sia (o ci fosse) discriminazione razziale nella concessione di prestiti ha un fondamento, ricordiamo brevemente alcuni punti di questo dibattito. Per questo, è utile inquadrare la questione nei termini dell’analisi del capitolo 7, ovvero considerare la validità interna ed esterna dei risultati della tabella 9.2, che rappresentano analisi svolte in precedenza sui dati del Boston HMDA. Alcune critiche rivolte allo studio originale della Federal Reserve Bank of Boston concernono la validità interna: possibili errori nei dati, forme funzionali non lineari alternative, interazioni addizionali e cosı̀ via. I dati originali sono stati sottoposti ad attenta verifica, sono stati individuati alcuni errori e i risultati qui riportati (e nello studio finale pubblicato dalla Boston Fed) sono basati sui dati “ripuliti”. La stima di altre specificazioni –diverse forme funzionali e/o regressori addizionali– producono anch’esse stime dei differenziali razziali comparabili con quelle della tabella 9.2. Un problema di validità interna potenzialmente più delicato è se vi sia informazione finanziaria rilevante di natura non razziale che è ottenuta tramite le interviste ad personam per il prestito e non è registrata nella domanda del prestito stesso, e che sia correlata con la razza; se cosı̀ fosse, ci potrebbe ancora essere distorsione da variabile omessa nelle regressioni della tavola 9.2. Infine, alcuni hanno messo in discussione la validità esterna: anche se ci fosse stata discriminazione razziale a Boston nel 1990, sarebbe sbagliato coinvolgere coloro che oggi concedono prestiti altrove. Il solo modo per risolvere la questione della validità esterna è considerare dati di altre località e anni.5 9.5 Conclusioni Quando la variabile dipendente Y è binaria, la funzione di regressione della popolazione è la probabilità che Y = 1, condizionatamente ai regressori. La stima di questa funzione di regressione richiede di cercare una forma funzionale che sia consona alla sua interpretazione probabilistica, stimando i parametri incogniti di tale funzione e interpretando i risultati. I valori predetti cosı̀ ottenuti sono probabilità predette e l’effetto stimato di una variazione in un regressore X è la variazione stimata della probabilità che Y = 1 che risulta dalla variazione in X. 4 Tali modifiche normative includono variazioni del modo in cui l’esame dell’implausibilità nella concessione dei prestiti viene condotto dai regolatori bancari federali, modifiche delle inchieste condotte dallo U.S. Department of Justice e un miglioramento dei programmi formativi per le banche e le altre società finanziarie. 5 Se si è interessati a ulteriori letture sull’argomento, un buon punto di partenza è il simposio su discriminazione razziale ed economia nel numero della primavera 1998 del Journal of Economic Perspectives. L’articolo di Helen Ladd (1998) in tale simposio passa in rassegna l’evidenza e il dibattito sulla discriminazione razziale nella concessione dei mutui. Una trattazione più dettagliata si trova in Goering e Wienk (1996). 316 i i i i i i “generale” — 2005/7/10 — 22:25 — page 317 — #347 i i 9.5. Conclusioni James J. Heckman e Daniel L. McFadden, premi Nobel Il premio Nobel 2000 per l’economia è stato assegnato congiuntamente a due econometrici James J. Heckman dell’Università di Chicago e Daniel L. McFadden dell’Università di California a Berkeley, per contributi fondamentali all’analisi dei dati su individui e imprese. La maggior parte del loro lavoro affronta difficoltà che insorgono con variabili dipendenti limitate. Heckman è stato insignito del premio per aver sviluppato strumenti per la selezione campionaria. Come discusso nella sezione 7.2 la distorsione da selezione campionaria si verifica quando la disponibilità dei dati è influenzata da un processo di selezione collegato al valore della variabile dipendente. Ad esempio, supponiamo di voler stimare la relazione tra retribuzioni e alcuni regressori X usando un campione casuale estratto dalla popolazione. Se si stima la regressione usando il sottocampione degli occupati –ovvero quelli che riportano retribuzioni positive– la stima OLS potrebbe essere soggetta a distorsione da selezione. La soluzione di Heckman è stata quella di specificare un’equazione preliminare con una variabile dipendente binaria che indicasse se il lavoratore è dentro o fuori dalle forze di lavoro (dentro o fuori dal sottocampione) e trattare quest’equazione e l’equazione per le retribuzioni come un sistema di equazioni simultanee. Questa strategia generale è stata estesa ai problemi di selezione che nascono in molti campi, dall’economia del lavoro all’organizzazione industriale alla finanza. McFadden è stato insignito del premio per aver sviluppato modelli per analizzare dati di scelta discreta (un diplomato di scuola superiore si arruolerà nell’esercito, andrà all’università oppure otterrà un lavoro?). Egli ha cominciato considerando il problema di un individuo che massimizza l’utilità attesa di ognuna delle scelte possibili, la quale potrebbe dipendere da variabili osservabili (come il salario, le caratteristiche del lavoro e le caratteristiche della famiglia). Ha poi derivato modelli per le probabilità di scelta individuale con coefficienti ignoti, che, a loro volta, possono essere stimati con la massima verosimiglianza. Questi modelli e le loro estensioni si sono dimostrati di grande utilità nell’analisi dei dati di scelta discreta in molti campi, incluse l’economia del lavoro, l’economia della salute e l’economia dei trasporti. Per maggiori informazioni su questi e altri premi Nobel per l’economia, si visiti il sito Web della Fondazione Nobel, alla pagina web www.nobel.se/economics. 317 i i i i i i “generale” — 2005/7/10 — 22:25 — page 318 — #348 i i Sommario Un modo naturale per modellare la probabilità che Y = 1 dati i regressori è usare una funzione di ripartizione, dove l’argomento della c.d.f. dipende dai regressori. La regressione probit utilizza una c.d.f. normale e la regressione logit usa una c.d.f. logistica. Siccome questi modelli sono funzioni non lineari dei parametri ignoti, tali parametri sono più complessi da stimare rispetto ai coefficienti della regressione lineare. Il metodo di stima standard è la massima verosimiglianza. In pratica, l’inferenza statistica che utilizza le stime di massima verosimiglianza procede allo stesso modo del modello di regressione lineare multipla; ad esempio, gli intervalli di confidenza al 95% per un coefficiente sono costruiti come il coefficiente stimato ±1, 96 volte l’errore standard. Nonostante la sua non linearità intrinseca, la funzione di regressione della popolazione può essere talvolta adeguatamente approssimata da un modello lineare di probabilità, ovvero dalla retta prodotta dalla regressione lineare multipla. Il modello lineare di probabilità, la regressione probit e la regressione logit danno tutti, alla fine, risposte molto simili, quando applicati ai dati del Boston HMDA: i tre metodi stimano differenze sostanziali nei tassi di rifiuto del mutuo per altrimenti simili richiedenti neri e bianchi. Le variabili dipendenti binarie sono il più comune esempio di variabili dipendenti limitate, ovvero di variabili dipendenti con un dominio limitato. L’ultimo quarto del ventesimo secolo ha visto sviluppi importanti dei metodi econometrici per l’analisi di altre variabili dipendenti limitate (vedi il riquadro dei premi Nobel). Alcuni di questi metodi sono passati in rassegna nell’appendice 9.3. Sommario 1. Quando Y è una variabile binaria, il modello di regressione lineare multipla è detto modello lineare di probabilità. La retta di regressione della popolazione mostra la probabilità che Y = 1, dato il valore dei regressori X1 , X2 , . . . Xk . 2. I modelli di regressione probit e logit sono modelli di regressione non lineare utilizzati quando Y è una variabile binaria. A differenza del modello lineare di probabilità, le regressioni probit e logit assicurano che la probabilità predetta che Y = 1 vari tra zero e uno per tutti i valori di X. 3. La regressione probit utilizza la funzione di ripartizione normale standard. La regressione logit utilizza la funzione di ripartizione logistica standard. I coefficienti logit e probit sono stimati con la massima verosimiglianza. 4. I valori dei coefficienti nelle regressioni probit e logit non sono facili da interpretare. Le variazioni della probabilità che Y = 1 associate a variazioni in una o più X possono essere calcolate usando la procedura generale per i modelli non lineari delineata nel concetto chiave 6.1. 318 i i i i i i “generale” — 2005/7/10 — 22:25 — page 319 — #349 i i Sommario 5. I test d’ipotesi sui coefficienti dei modelli di probabilità lineare, logit e probit sono condotti utilizzando le comuni statistiche t ed F. Termini chiave variabile dipendente limitata (294) modello lineare di probabilità (296) probit (299) logit (299) stimatore dei minimi quadrati non lineari (306) funzione di verosimiglianza (307) stimatore di massima verosimiglianza (307) frazione correttamente predetta (309) pseudo-R2 (309) Verifica dei concetti 9.1 Si supponga che un modello lineare di probabilità fornisca un valore predetto di Y pari a 1, 3. Si spieghi perché ciò non è regionevole. 9.2 Nella tabella 9.2 il coefficiente stimato di black nella colonna (1) è 0, 084, nella colonna (2) 0, 688 e nella colonna (3) 0, 389. Nonostante queste notevoli differenze, i tre modelli fornisco stime simili dell’effetto marginale della razza sulla probabilità di rifiuto del mutuo. Come è possibile? 9.3 Uno dei vostri amici sta usando dati individuali per studiare le determinanti del tabagismo all’università. Vi chiede se dovrebbe usare un probit, un logit o un modello lineare di probabilità. Quale consiglio gli dareste? Perché? 9.4 Perché i coefficienti dei modelli probit e logit sono stimati con la massima verosimiglianza invece che con gli OLS? Esercizi 9.1 Si usi il modello probit stimato (9.8) per rispondere alle seguenti domande: a. un richiedente di un mutuo nero ha un P/Iratio di 0, 35. Qual è la probabilità che la sua domanda sia negata? b. si supponga che il richiedente riduca questo rapporto a 0, 30. Quale effetto questo avrebbe sulla probabilità che la sua richiesta di mutuo sia rifiutata? c. si ripetano le parti (a) e (b) per un richiedente bianco; d. l’effetto marginale del P/Iratio sulla probabilità di rifiuto del mutuo dipende dalla razza? Si fornisca una spiegazione. 319 i i i i i i “generale” — 2005/7/10 — 22:25 — page 320 — #350 i i Appendice 9.2 Si ripeta il punto 9.1 usando il modello logit (9.10). I risultati del probit e del logit sono simili? Si fornisca una spiegazione. 9.3 Si consideri il modello lineare di probabilità Yi = β0 + β1 Xi + ui , dove Pr(Yi = 1 Xi ) = β 0 + β 1 Xi . a. Si mostri che E(ui Xi ) = 0. b. Si mostri che var(ui Xi ) = (β0 + β1 Xi )[1 − (β0 + β1 Xi )] (suggerimento: si consideri la (2.7)). c. ui è eteroschedastico? Si fornisca una spiegazione. d. Si derivi la funzione di verosimiglianza (richiede la conoscenza della sezione 9.3). 9.4 Si usi il modello lineare di probabilità stimato mostrato nella colonna (1) della tavola 9.2 per rispondere alle domande seguenti: a. due individui, uno bianco e uno nero, richiedono un mutuo. Posseggono gli stessi valori relativamente a tutti i regressori eccetto che per la razza. Con quale probabilità il richiedente nero vede rifiutata la sua domanda? b. Si costruisca un intervallo di confidenza al 95% per la risposta data alla (a). c. Si pensi ad una variabile omessa importante che potrebbe distorcere la risposta della (a). Qual è e come distorcerebbe il risultato? 9.5 Si supponga che una variabile casuale Y abbia la seguente distribuzione di probabilità: Pr(Y = 1) = p, Pr(Y = 2) = q e Pr(Y = 3) = 1 − p − q. Un campione casuale di dimensione n viene estratto da questa distribuzione e le variabili casuali sono indicate con Y1 , Y2 , . . . , Yn (richiede la conoscenza della sezione 9.3 e il calcolo matematico). a. Si derivi la funzione di verosimiglianza per i parametri p e q. b. Si derivino le formule per lo stimatore ML di p e q. Appendice 9.1: i dati del Boston HMDA I dati del Boston HMDA sono stati raccolti dai ricercatori della Federal Reserve Bank of Boston. Questi combinano l’informazione tratta dalle richieste di mutuo e da un’indagine successiva di banche e altre istituzioni creditizie che hanno ricevuto le richieste di mutuo. I dati riguardano le richieste di mutui fatte nel 1990 nell’area metropolitana di Boston. I dati completi consistono di 2.925 osservazioni, che comprendono tutte le domande di mutuo da parte di neri e ispanici, più un campione casuale di richieste di mutuo da parte di bianchi. Per restringere lo scopo dell’analisi di questo capitolo, usiamo un sottoinsieme di dati relativi solo a residenze unifamiliari (escludendo perciò i dati sulle abitazioni multifamiliari) 320 i i i i i i “generale” — 2005/7/10 — 22:25 — page 321 — #351 i i Appendice e soltanto a richiedenti neri e bianchi (escludendo perciò i dati su richiedenti appartenenti ad altre minoranze). Restano in tal modo 2.380 osservazioni. Le definizioni delle variabili utilizzate in questo capitolo sono date nella tavola 9.1. I dati sono stati cortesemente forniti da Geoffrey Tootell del Research Department della Federal Reserve Bank of Boston. Maggiori informazioni su questi dati, insieme alle conclusioni raggiunte dai ricercatori della Federal Reserve Bank of Boston, sono disponibili nell’articolo di Alicia H. Munnell, Geoffrey M.B. Tootell, Lynne E. Browne e James McEneaney, “Mortgage Lending in Boston: Interpreting HMDA Data”, American Economic Review, 1996, pp. 25-53. Appendice 9.2: stima di massima verosimiglianza Questa appendice fornisce una breve introduzione alla stima di massima verosimiglianza nel contesto dei modelli a risposta binaria discussi in questo capitolo. Cominciamo derivando lo stimatore ML della probabilità di successo p per n osservazioni i.i.d. tratte da una variabile casuale di Bernoulli. Ritorneremo poi ai modelli probit e logit e discuteremo lo pseudo-R 2. Concluderemo discutendo gli errori standard per le probabilità predette. Questa appendice utilizza in due punti il calcolo matematico. Stimatore ML per n variabili casuali di Bernoulli i.i.d. Il primo passo per il calcolo dello stimatore ML è derivare la distribuzione di probabilità congiunta. Per n osservazioni i.i.d. su una variabile casuale di Bernoulli, questa distribuzione di probabilità congiunta è l’estensione del caso n = 2 della sezione 9.3 al caso di n generico: Pr(Y1 = y1 , Y2 = y2 , . . . , Yn = yn ) = [py1 (1 − p)1−y1 ] × [py2 (1 − p)1−y2 ] × · · · × [pyn (1 − p)1−yn ] = p(y1 +···+yn ) (1 − p)n−(y1 +···+yn ) . (9.13) La funzione di verosimiglianza è la distribuzione di probabilità congiunta, trattata come Pn funzione dei coefficienti ignoti. Sia S = i=1 Yi ; allora la funzione di verosimiglianza è fBernoulli (p; Y1 , . . . , Yn ) = pS (1 − p)n−S . (9.14) lo stimatore ML di p è il valore di p che rende massima la verosimiglianza (9.14). La funzione di verosimiglianza può essere massimizzata con il calcolo matematico. In realtà, conviene massimizzare non la verosimiglianza ma il suo logaritmo (siccome il logaritmo è una funzione strettamente crescente, la massimizzazione della verosimiglianza o del suo logaritmo forniscono lo stesso stimatore). La log verosimiglianza è S ln(p)+(n−S) ln(1−p) 321 i i i i i i “generale” — 2005/7/10 — 22:25 — page 322 — #352 i i Appendice e la sua derivata rispetto a p è S n−S d ln[fBernoulli (p; Y1 , . . . , Yn )] = − . dp p 1−p (9.15) Ponendo la derivata nella (9.15) uguale a zero e risolvendo rispetto a p, si ottiene lo stimatore ML p̂ = S/n = Ȳ . Stimatore ML per il modello probit Per il modello probit, la probabilità che Yi = 1, condizionatamente a X1i , . . . , Xki , è pi = Φ(β0 + β1 X1i + · · · + βk Xki ). La distribuzione di probabilità condizionata per la i-esima osservazione è Pr[Yi = yi X1i , . . . , Xki ] = pyi i (1 − pi )1−yi . Assumendo che (X1i , . . . , Xki , Yi ) siano i.i.d., per i = 1, . . . , n, la distribuzione di probabilità congiunta delle Y1 , . . . , Yn , condizionatamente alle X, è Pr(Y1 = y1 , . . . , Yn = yn X1i , . . . , Xki , i = 1, . . . , n) = Pr(Y1 = y1 |X11 , . . . , Xk1 ) × · · · × Pr(Yn = yn |X1n , . . . , Xkn ) py11 (1 − p1 )1−y1 × · · · × pynn (1 − pn )1−yn . (9.16) La funzione di verosimiglianza è la distribuzione di probabilità congiunta, trattata come funzione dei coefficienti ignoti. Per convenzione, si considera il logaritmo della verosimiglianza. Di conseguenza, la funzione di log verosimiglianza è ln[fprobit (β0 , . . . , βk ; Y1 , . . . , Yn X1i , . . . , Xki , i = 1, . . . , n)] = n P Yi ln[Φ(β0 + β1 X1i + · · · + βk Xki )] i=1 + n P i=1 (1 − Yi ) ln[1 − Φ(β0 + β1 X1i + · · · + βk Xki )], (9.17) dove questa espressione incorpora la formula probit per la probabilità condizionata, p i = Φ(β0 + β1 X1i + · · · + βk Xki ). lo stimatore ML del modello probit massimizza la funzione di verosimiglianza o, equivalentemente, il logaritmo della funzione di verosimiglianza, dato nella (9.17). Siccome non c’è una formula esplicita per lo stimatore ML, la funzione di verosimiglianza del probit deve essere massimizzata usando algoritmi numerici implementati su un computer. Sotto condizioni generali, gli stimatori della massima verosimiglianza sono consistenti ed hanno una distribuzione campionaria normale in grandi campioni. Stimatore ML per il modello logit La verosimiglianza per il modello logit è derivata allo stesso modo della verosimiglianza per il modello probit. La sola differenza è che la probabilità condizionata di successo p i 322 i i i i i i “generale” — 2005/7/10 — 22:25 — page 323 — #353 i i Appendice per il modello logit è data dalla (9.17), con Φ(β0 + β1 X1i + · · · + βk Xki ) rimpiazzata da [1 + e−(β0 +β1 X1i +β2 X2i +···+βk Xki ) ]−1 . Come per il modello probit, non c’è una formula esplicita per lo stimatore ML dei coefficienti logit, perciò la log verosimiglianza deve essere massimizzata numericamente. Pseudo-R2 Lo pseudo-R2 confronta il valore della verosimiglianza per il modello stimato con il valore della verosimiglianza quando nessuna delle X è inclusa come regressore. Specificamente, lo pseudo-R2 è max ln(fprobit ) pseudo-R2 = 1 − , (9.18) max ln(fBernoulli ) max dove fprobit è il valore massimizzato della verosimiglianza probit (che include le X) e max fBernoulli è il valore massimizzato della verosimiglianza bernoulliana (il modello probit escludendo tutte le X). Errori standard per le probabilità predette Per semplicità, si consideri il caso di un singolo regressore nel modello probit. La probabilità predetta corrispondente ad un valore fissato di quel regressore, x, è p̂(x) = Φ( β̂0M L + β̂1M L x), dove β̂0M L e β̂1M L sono gli stimatori ML dei due coefficienti probit. Siccome questa probabilità predetta dipende dagli stimatori β̂0M L e β̂1M L e siccome questi hanno una distribuzione campionaria, la probabilità predetta avrà anch’essa una distribuzione campionaria. La varianza della distribuzione campionaria di p̂(x) si calcola approssimando la funzione Φ(β̂0M L + β̂1M L x), che è una funzione non lineare di β̂0M L e β̂1M L , con una funzione lineare di β̂0M L e β̂1M L . Nello specifico, sia p̂(x) = Φ(β̂0M L + β̂1M L x) ∼ = c + a0 β̂0M L + a1 β̂1M L , (9.19) dove la costante c e i fattori a0 e a1 dipendono dalla x e si ottengono con il calcolo matematico (la (9.19) è l’espansione del primo ordine in serie di Taylor; c = Φ(β 0 +β1 x) e a0 e a1 sono le derivate parziali a0 = ∂Φ(β0 + β1 x)/∂β0 β̂ M L ,β̂ M L e a1 = ∂Φ(β0 + β1 x)/∂β1 β̂ M L ,β̂ M L ). 0 1 0 1 La varianza di p̂(x) può essere ora calcolata usando l’approssimazione (9.19) e la formula (2.31) per la varianza della somma di due variabili casuali: var[p̂(x)] ∼ = var(c + a0 β̂0M L + a1 β̂1M L ) = a20 var(β̂0M L ) + a21 var(β̂1M L ) + 2a0 a1 cov(β̂0M L , β̂1M L ). (9.20) Grazie alla (9.20), l’errore standard di p̂(x) può essere calcolato usando le stime della varianza e della covarianza degli stimatori ML. 323 i i i i i i “generale” — 2005/7/10 — 22:25 — page 324 — #354 i i Appendice Appendice 9.3: altri modelli con variabili dipendenti limitate Questa appendice passa in rassegna alcuni modelli per variabili dipendenti limitate, diversi dalle variabili binarie, che si possono trovare nelle applicazioni econometriche. Nella maggior parte dei casi, gli stimatori OLS dei parametri dei modelli con variabili dipendenti limitate sono inconsistenti, e la stima è fatta solitamente usando il metodo della massima verosimiglianza. Ci sono molti riferimenti avanzati disponibili per i lettori interessati a ulteriori dettagli; si vedano, per esempio, Ruud (2000) e Maddala (1983). Modelli di regressione troncata e censurata Supponiamo di avere dati sezionali sugli acquisti personali di automobili in un dato annuo. Gli acquirenti di automobili hanno spese positive, che possono ragionevolmente essere trattate come variabili casuali continue; mentre i non acquirenti spendono 0$. Perciò, la distribuzione delle spese per automobili è una combinazione di una distribuzione discreta (concentrata al punto zero) e di una distribuzione continua. Il premio Nobel James Tobin ha sviluppato un utile modello per una variabile dipendente con distribuzione in parte continua e in parte discreta (Tobin, 1958). Tobin ha suggerito di modellare l’individuo i-esimo nel campione come avente un livello desiderato di spesa Y i∗ , che è legato ai regressori (ad esempio, la dimensione della famiglia) secondo un modello di regressione lineare. Ossia, con un singolo regressore, il livello desiderato di spesa è Yi∗ = β0 + β1 Xi + ui , i = 1, . . . , n. (9.21) Se Yi∗ (ciò che il consumatore vuolo spendere) supera un valore di soglia, quale il prezzo minimo per una macchina, allora il consumatore acquista la macchina e spende Y i = Yi∗ , che è osservato. Tuttavia, se Yi∗ è inferiore al valore di soglia, allora è osservata la spesa di Yi = 0 invece di Yi∗ . Quando l’equazione (9.21) è stimata usando le spese osservate Y i al posto di Yi∗ , lo stimatore OLS è inconsistente. Tobin ha risolto questo problema derivando la funzione di verosimiglianza che utilizza l’ipotesi addizionale che ui abbia una distribuzione normale e il risultante stimatore ML è stato usato dagli econometrici applicati per analizzare molti problemi economici. In onore di Tobin, l’equazione (9.21), combinata con l’ipotesi di errori normali è chiamata modello di regressione tobit. Il modello tobit è un esempio di modello di regressione censurata, cosı̀ chiamato perché la variabile dipendente è stata “censurata” al di sopra o al di sotto di una certa soglia. 324 i i i i i i “generale” — 2005/7/10 — 22:25 — page 325 — #355 i i Appendice Modelli con selezione del campione Nel modello di regressione censurata, ci sono dati su acquirenti e non acquirenti, come sarebbe per dati ottenuti da un campionamento casuale semplice della popolazione adulta. Se, però, i dati fossero ottenuti dalle registrazioni delle imposte sulle vendite, essi includerebbero soltanto gli acquirenti: non ci sarebbe alcun dato per i non acquirenti. Dati in cui le osservazioni non sono disponibili al di sopra o al di sotto di una certa soglia (dati per i soli acquirenti) sono detti dati troncati. Il modello di regressione troncata è un modello di regressione che si applica a dati in cui le osservazioni sono semplicemente non disponibili, quando la variabile dipendente è al di sopra o al di sotto di una certa soglia. Il modello di regressione troncata è un esempio di modello con selezione del campione, nel quale il meccanismo di selezione (un individuo è nel campione in virtù del fatto di aver acquistato una macchina) è collegato al valore della variabile dipendente (il prezzo dell’automobile). Come discusso nel riquadro della sezione 9.4, un approccio alla stima dei modelli con selezione del campione è quello di sviluppare due equazioni, una per Y i∗ e una per il fatto che Yi∗ sia osservato o meno. I parametri del modello possono allora essere stimati con il metodo della massima verosimiglianza, o con una procedura a due stadi, che stima prima l’equazione di selezione e poi l’equazione relativa a Yi∗ . Per un’ulteriore discussione, si veda Ruud (2000, capitolo 28) o Greene (2000, sezione 20.4). Dati di conteggio I dati di conteggio si presentano quando la variabile dipendente è il valore di un punteggio, ad esempio il numero di pasti consumati al ristorante da un individuo in una settimana. Quando questi numeri sono grandi, la variabile può essere trattata come approssimativamente continua, ma quando sono piccoli, l’approssimazione continua è insoddisfacente. Il modello di regressione lineare, stimato con gli OLS, può essere usato per i dati di conteggio, anche se il valore di conteggio è piccolo. I valori predetti della regressione sono interpretati come valori attesi della variabile dipendente, condizionatamente ai regressori. Cosı̀, quando la variabile dipendente è il numero di pasti consumati al ristorante, un valore predetto di 1, 7 significa 1, 7 pasti al ristorante in media per settimana. Come nel modello di regressione binaria, tuttavia, l’OLS non trae vantaggio dalla speciale struttura dei dati di conteggio e può fornire predizioni senza senso, ad esempio −0, 2 pasti al ristorante per settimana. Proprio come il probit e il logit eliminano predizioni senza senso quando la variabile dipendente è binaria, modelli particolari fanno lo stesso per i dati di conteggio. I due modelli più ampiamente usati sono i modelli di regressione di Poisson e binomiale negativo. 325 i i i i i i “generale” — 2005/7/10 — 22:25 — page 326 — #356 i i Appendice Risposte ordinabili I dati per risposte ordinabili si presentano quando categorie mutualmente esclusive seguono un ordine naturale, come ottenere un diploma di scuola superiore, qualche anno di università (ma senza laurea), o la laurea. Come per i dati di conteggio, i dati per risposte ordinabili hanno un ordine naturale, ma a differenza dei dati di conteggio non hanno valori numerici naturali. Siccome non ci sono valori numerici naturali per i dati per risposte ordinabili, gli OLS sono inappropriati. Invece, i dati ordinati sono spesso analizzati usando una generalizzazione del modello probit chiamata modello probit ordinato, in cui le probabilità di ciascun risultato (ad esempio, gli anni di istruzione universitaria), condizionatamente alle variabili indipendenti (come il reddito dei genitori), sono modellate usando la funzione di ripartizione normale. Dati di scelta discreta Una variabile di scelta discreta o di scelta multipla può assumere più valori qualitativi non ordinabili. Un esempio in economia è il mezzo di trasporto scelto da un pendolare: potrebbe prendere la metropolitana, salire su un autobus, guidare un’automobile o percorrere la strada con le sue forze (a piedi, bicicletta). Se dovessimo analizzare tali scelte, la variabile dipendente avrebbe quattro possibili risultati (metropolitana, autobus, automobile, forza umana). Questi risultati non seguono un ordine naturale. Invece, i risultati rappresentano una scelta tra alternative distinte. Il compito dell’econometria è modellare la probabilità di scelta tra le varie opzioni, dati vari regressori, quali le caratteristiche dell’individuo (quanto lontana è l’abitazione del pendolare dalla fermata della metropolitana) e le caratteristiche di ciascuna opzione (il prezzo della metropolitana). Come discusso nel riquadro della sezione 9.3, i modelli per analizzare dati di scelta discreta possono essere sviluppati partendo dal principio della massimizzazione dell’utilità. Le probabilità di scelta individuale possono essere espresse in forma probit o logit, e tali modelli sono chiamati modelli di regressione probit multinomiale e logit multinomiale. 326 i i i i i i “generale” — 2005/7/10 — 22:25 — page 327 — #357 i i Capitolo 10 Regressione con variabili strumentali Il capitolo 7 ha discusso vari problemi, tra cui l’omissione di variabili, gli errori di misura nelle variabili e la causalità simultanea, che danno luogo a correlazione tra il termine d’errore e i regressori. La distorsione da variabile omessa può essere affrontata in modo diretto, includendo la variabile omessa in una regressione multipla, ma ciò è realizzabile solo se si possiedono dati riguardanti tale variabile. Talvolta, come nel caso in cui la causalità va sia da X a Y sia da Y a X, il che determina distorsione da causalità simultanea, la regressione multipla non può eliminare la distorsione. Se una soluzione diretta a questi problemi è impraticabile o non disponibile, è necessario allora un nuovo metodo. La regressione con variabili strumentali (IV, acronimo dall’inglese Instrumental Variables) è un metodo generale per ottenere uno stimatore consistente dei coefficienti ignoti della funzione di regressione della popolazione quando il regressore X è correlato con l’errore u. Per comprendere come funziona la regressione IV, si pensi a una variazione in X come costituita da due parti: una parte che, per qualsivoglia ragione, è correlata con u (questa è la parte che crea problemi) e una seconda parte che è incorrelata con u. Se si avessero informazioni tali da permettere di isolare la seconda parte, ci si potrebbe allora concentrare sulle variazioni in X che sono incorrelate con u e trascurare le variazioni in X che rendono distorte le stime OLS. Questo è, in pratica, ciò che fa la regressione IV. L’informazione riguardante le variazioni in X che sono incorrelate con u è ottenuta grazie a una o più variabili aggiuntive, dette variabili strumentali o semplicemente strumenti. La regressione con variabili strumentali usa queste variabili addizionali come “strumenti” per isolare le variazioni in X che sono incorrelate con u, il che a sua volta permette di stimare in modo consistente i coefficienti di regressione. Le prime due sezioni di questo capitolo descrivono la meccanica e le assunzioni della i i i i i i “generale” — 2005/7/10 — 22:25 — page 328 — #358 i i 10.1. Lo stimatore IV con un singolo regressore e un singolo strumento regressione IV: perché la regressione IV funziona, qual è uno strumento valido e come implementare e interpretare il metodo più comune di regressione IV, i minimi quadrati a due stadi. La chiave per un’analisi empirica fruttuosa tramite le variabili strumentali è trovare strumenti validi, e la sezione 10.3 affronta la questione di come verificare la validità di un insieme di strumenti. Come illustrazione, la sezione 10.4 usa la regressione IV per stimare l’elasticità della domanda di sigarette. Infine, la sezione 10.5 affronta il difficile problema dell’individuazione di strumenti validi. 10.1 Lo stimatore IV con un singolo regressore e un singolo strumento Cominciamo con il caso di un singolo regressore, X, che potrebbe essere correlato con l’errore di regressione, u. Se X e u fossero correlati, lo stimatore OLS sarebbe inconsistente, ovvero potrebbe non essere vicino al vero valore del coefficiente di regressione anche quando il campione è molto grande (vedi l’equazione (5.1)). Come discusso nella sezione 7.2, questa correlazione tra X e u può derivare da varie fonti, quali le variabili omesse, gli errori nelle variabili (errori di misura nei regressori) o la causalità simultanea (quando la direzione di causalità va sia all’“indietro” da Y a X sia “in avanti” da X a Y ). Qualunque sia l’origine della correlazione tra X e u, se c’è una valida variabile strumentale Z, l’effetto su Y di una variazione unitaria in X può essere stimato tramite le variabili strumentali. Il modello IV e le sue ipotesi Il modello di regressione che mette in relazione la variabile dipendente Y i e il regressore Xi è Yi = β0 + β1 Xi + ui , i = 1, . . . , n. (10.1) dove, come al solito, l’errore ui rappresenta i fattori omessi che determinano Yi . Se Xi e ui sono correlati, lo stimatore OLS è inconsistente. Il metodo delle variabili strumentali utilizza una variabile “strumentale” aggiuntiva Z per isolare quella parte di X che è incorrelata con ui . Endogeneità ed esogeneità. La regressione con variabili strumentali ha una terminologia specifica per distinguere le variabili che sono correlate con l’errore u da quelle che non lo sono. Le variabili correlate con l’errore sono dette variabili endogene, mentre le variabili incorrelate con l’errore sono dette variabili esogene. L’origine storica di questi termini risale ai modelli con equazioni simultanee, in cui la variabile “endogena” è determinata all’interno del modello, mentre la variabile “esogena” è determinata al di fuori del modello. Ad esempio, la sezione 7.2 ha preso in considerazione la possibilità che bassi punteggi del test producano 328 i i i i i i “generale” — 2005/7/10 — 22:25 — page 329 — #359 i i 10.1. Lo stimatore IV con un singolo regressore e un singolo strumento riduzioni nel rapporto studenti-insegnanti per effetto di interventi politici e finanziamenti maggiori; la causalità in questo caso andrebbe sia dal rapporto studenti-insegnanti ai punteggi del test sia dai punteggi del test al rapporto studenti-insegnanti. Tutto ciò è stato rappresentato in termini matematici come un sistema di due equazioni simultanee (le equazioni (7.3) e (7.4), una per ciascun legame causale). Come discusso nella sezione 7.2, poiché i punteggi del test e il rapporto studenti-inseganti sono determinati all’interno del modello, essi sono entrambi correlati con l’errore u; in altre parole, in questo esempio, le variabili sono entrambe endogene. Al contrario, una variabile esogena, che è determinata all’esterno del modello, è incorrelata con u. Le due condizioni per uno strumento valido. Una variabile strumentale (“strumento”) valida deve soddisfare due condizioni, note come rilevanza dello strumento ed esogeneit à dello strumento: 1. rilevanza dello strumento: corr(Zi , Xi ) 6= 0; 2. esogeneità dello strumento: corr(Zi , ui ) = 0. Se uno strumento è rilevante, la variazione nello strumento è legata alla variazione in X i . Se lo strumento è inoltre esogeno, la parte della variazione in Xi catturata dalla variabile strumentale è esogena. Per questo motivo, uno strumento che sia rilevante ed esogeno può catturare movimenti in Xi che sono esogeni. Questa variazione esogena può a sua volta essere usata per stimare il coefficiente β1 . Le due condizioni per la validità di uno strumento sono vitali per la regressione con variabili strumentali e ritorneremo su tale argomento (e su una loro versione rilevante nel caso di più regressori e più strumenti) ripetutamente nel corso di questo capitolo. Lo stimatore dei minimi quadrati a due stadi Se lo strumento Z soddisfa le condizioni di rilevanza e di esogeneità, il coefficiente β 1 può essere stimato usando uno stimatore IV detto minimi quadrati a due stadi (TSLS, acronimo dall’inglese Two Stage Least Squares). Come il nome suggerisce, lo stimatore dei minimi quadrati a due stadi è calcolato in due stadi. Il primo stadio scompone X in due parti: una componente problematica che potrebbe essere correlata con l’errore di regressione e un’altra componente priva di problemi che è incorrelata con l’errore. Il secondo stadio utilizza la componente priva di problemi per stimare β1 . Il primo stadio comincia con una regressione che lega X e Z: Xi = π 0 + π 1 Z i + v i , (10.2) dove π0 è l’intercetta, π1 è la pendenza e vi l’errore. Questa regressione fornisce la scomposizione richiesta di Xi . Una componente è π0 + π1 Zi , la parte di Xi che può essere predetta da 329 i i i i i i “generale” — 2005/7/10 — 22:25 — page 330 — #360 i i 10.1. Lo stimatore IV con un singolo regressore e un singolo strumento Zi . Poiché Zi è esogena, questa componente di Xi è incorrelata con ui , l’errore della (10.1). L’altra componente di Xi è vi , che è la componente problematica di Xi che è correlata con ui . L’idea sottostante i TSLS è quella di usare la componente senza problemi di X i , cioè π0 + π1 Zi , e di ignorare vi . La sola complicazione è che i valori di π0 e π1 sono ignoti, perciò π0 + π1 Zi non può essere calcolata. Di conseguenza, il primo stadio dei TSLS applica gli OLS al modello (10.2) e calcola i valori predetti dalla regressione OLS, X̂i = π̂0 + π̂1 Zi , dove π̂0 e π̂ sono le stime OLS. Il secondo stadio dei TSLS è semplice: si effettua una regressione OLS di Y i su X̂i . Gli stimatori risultanti dalla regressione del secondo stadio sono gli stimatori TSLS, β̂0T SLS e β̂1T SLS . Perché funziona la regressione IV? Due esempi forniscono qualche intuizione sul perché la regressione IV risolve il problema della correlazione tra Xi e ui . Esempio 1: il problema di Philip Wright. Il metodo di stima con variabili strumentali fu pubblicato per la prima volta nel 1928 nell’appendice di un libro scritto da Philip G. Wright (Wright, 1928); si pensa che questa appendice sia stata scritta con oppure da suo figlio Sewall Wright, un importante statistico. Philip Wright era alle prese con un importante problema economico di allora: come fissare una tariffa sulle importazioni di olii e grassi animali e vegetali, come burro e olio di soia. Negli anni ’20, le tariffe all’importazione erano una fonte naturale di introiti fiscali per gli Stati Uniti. La chiave per comprendere l’effetto economico di una tariffa era avere stime quantitative delle curve di domanda e di offerta dei beni. Si ricordi che l’elasticità dell’offerta è la variazione percentuale della quantità offerta associata a un incremento del prezzo dell’1% e l’elasticità della domanda è la variazione percentuale della quantità domandata associata a un incremento del prezzo dell’1%. Philip Wright aveva bisogno di stime dell’elasticità dell’offerta e della domanda. Per essere concreti, consideriamo il problema di stimare l’elasticità della domanda di burro. Si ricordi dal concetto chiave 6.2 che il coefficiente in un’equazione lineare che mette in relazione ln(Yi ) con ln(Xi ) può essere interpretato come l’elasticità di Y rispetto a X. Nel problema di Wright ciò suggerisce l’equazione di domanda ln(Qbutter ) = β0 + β1 ln(Pibutter ) + ui , i (10.3) dove Qbutter è la i-esima osservazione sulla quantità di burro consumata, P ibutter è il suo i prezzo e ui rappresenta altri fattori che influenzano la domanda, come il reddito e i gusti dei consumatori. Nella (10.3), un incremento dell’1% del prezzo del burro induce una variazione percentuale di β1 nella domanda, perciò β1 è l’elasticità della domanda. 330 i i i i i i “generale” — 2005/7/10 — 22:25 — page 331 — #361 i i 10.1. Lo stimatore IV con un singolo regressore e un singolo strumento I Wright avevano dati sul consumo totale annuo di burro sul suo prezzo medio annuo negli Stati Uniti dal 1912 al 1922. Sarebbe stato semplice usare questi dati per stimare l’elasticità della domanda applicando gli OLS alla (10.3), ma ebbero un’intuizione fondamentale: a causa dell’interazione tra offerta e domanda, il regressore ln(Pibutter ) era verosimilmente correlato con l’errore. Per rendercene conto, osserviamo la figura 10.1a che mostra le curve di domanda e di offerta di burro in tre anni diversi. Le curve di domanda e di offerta per il primo anno sono indicate con D1 e S1 e il prezzo e la quantità d’equilibrio sono determinate dalla loro intersezione. Nel secondo anno, la domanda cresce da D1 a D2 (diciamo, a causa di un aumento nel costo di produzione del burro) e l’offerta decresce da S1 a S2 (a causa di un aumento nella produzione di burro); il prezzo e la quantità di equilibrio sono determinati dall’intersezione delle nuove curve di domanda e di offerta. Nel terzo anno, i fattori che influenzano la domanda e l’offerta cambiano nuovamente: la domanda continua a crescere fino a D 3 , l’offerta cresce fino a S3 , e cosı̀ si determinano i nuovi valori d’equilibrio di quantità e prezzo. La figura 10.1b mostra le coppie di quantità e prezzo di equilibrio per questi tre anni e per gli otto anni successivi, dove per ogni anno le curve di offerta e di domanda sono soggette a spostamenti associati a fattori, oltre al prezzo, che influenzano la domanda e l’offerta di mercato. Questo grafico a nuvola di punti è simile a quello che i Wright devono aver visto quando hanno riportato i loro dati in un grafico. Come questi ne dedussero, gli OLS, approssimando questi punti con una retta, non stimerebbero né una curva di domanda né una curva di offerta, perché i punti sono stati determinati da variazioni sia nella domanda sia nell’offerta. I Wright compresero che un modo per evitare questo problema era cercare una terza variabile che spostasse l’offerta ma non la domanda. La figura 10.1c mostra cosa accade quando tale variabile sposta la curva di offerta, ma la domanda rimane stabile. Tutte le coppie di prezzo e quantità d’equilibrio giacciono ora su una curva di domanda stabile e la pendenza della curva di domanda è facilmente stimabile. Nella formulazione del problema dei Wright in termini di variabili strumentali, questa terza variabile –la variabile strumentale– è correlata con il prezzo (sposta la curva di offerta, il che porta a una variazione nel prezzo) ma è incorrelata con u (la curva di domanda resta stabile). I Wright discussero molte variabili strumentali potenziali; una di queste fu il clima. Ad esempio, una quantità di pioggia al di sotto della media in una regione di produzione del latte avrebbe potuto danneggiare i pascoli e ridurre cosı̀ la produzione di burro per ciascun livello del prezzo (avrebbe spostato la curva d’offerta a sinistra, facendo aumentare il prezzo d’equilibrio). Perciò, la quantità di pioggia nelle zone di produzione del latte soddisfa la condizione per la rilevanza dello strumento. La pioggia caduta nelle zone di produzione del latte, tuttavia, non dovrebbe avere un’influenza diretta sulla domanda di burro, perciò la correlazione tra la pioggia nelle zone di produzione del latte e ui sarebbe nulla; in altre parole, la pioggia nelle zone di produzione del latte soddisfa anche la condizione per l’esogeneità dello strumento. 331 i i i i i i “generale” — 2005/7/10 — 22:25 — page 332 — #362 i i 10.1. Lo stimatore IV con un singolo regressore e un singolo strumento Figura 10.1 Prezzo Equilibrio periodo 2 S2 S1 S3 Equilibrio periodo 3 D3 Equilibrio periodo 1 D2 D1 Quantità (a) Domanda e offerta in tre periodi Prezzo Quantità (b) Prezzo e quantità di equilibrio per undici periodi Prezzo S2 S1 S3 D1 Quantità (c) Prezzo e quantità di equilibrio quando solo la curva di offerta si sposta (a) Il prezzo e la quantità sono determinati dall’intersezione delle curve di offerta e di domanda. L’equilibrio nel primo periodo è determinato dall’intersezione della curva di domanda D 1 e la curva d’offerta S1 . L’equilibrio nel secondo periodo è dato dall’intersezione di D2 e S2 e l’equilibrio nel terzo periodo è dato dall’intersezione di D3 e S3 . (b) Il grafico a nuvola mostra il prezzo e la quantità di equilibrio in undici diversi periodi. Le curve di domanda e offerta sono nascoste. Potete determinare le curve di domanda e offerta dai punti del grafico? (c) Quando la curva di offerta si sposta da S1 a S2 a S3 ma la curva di domanda rimane in D1 , i prezzi e le quantità di equilibrio seguono la curva di domanda. 332 i Electronic Publishing Services Inc. Stock/Watson, Econometrics 1e STOC.ITEM.0038 Fig. 10.01, a-c 1st Proof i 2nd Proof 3rd Proof i Final i i i “generale” — 2005/7/10 — 22:25 — page 333 — #363 i i 10.1. Lo stimatore IV con un singolo regressore e un singolo strumento Esempio 2: stima dell’effetto della dimensione delle classi sui punteggi del test. Pur controllando per le caratteristiche degli studenti e del distretto, le stime dell’effetto sui punteggi del test della dimensione delle classi riportate nella parte II potrebbero ancora essere distorte per l’omissione di variabili non misurate, quali le opportunità di apprendimento al di fuori della scuola o la qualità degli insegnanti. Se i dati su queste variabili non sono disponibili, il problema della distorsione non può essere risolto includendo tali variabili nelle regressioni multiple. La regressione con variabili strumentali fornisce un approccio alternativo a questo problema. Consideriamo il seguente esempio ipotetico: alcune scuole della California sono costrette a chiudere per riparazioni a causa di un terremoto estivo. I distretti più vicini all’epicentro sono i più disastrati. Un distretto con alcune scuole chiuse ha bisogno di “raddoppiare” i propri studenti, aumentando temporaneamente la dimensione delle classi. Ciò significa che la distanza dall’epicentro soddisfa la condizione per la rilevanza dello strumento, essendo correlata con la dimensione delle classi. Se la distanza dall’epicentro non avesse alcuna relazione con qualsiasi altro fattore che influenza la prestazione degli studenti (per esempio, se gli studenti stiano ancora apprendendo l’inglese), allora sarebbe esogena perché incorrelata con l’errore. Cosı̀ la variabile strumentale, distanza dall’epicentro, potrebbe essere utilizzata per ovviare alla distorsione da variabile omessa e per stimare l’effetto della dimensione delle classi sui punteggi del test. La distribuzione campionaria dello stimatore TSLS La distribuzione esatta dello stimatore TSLS in piccoli campioni è complessa. Tuttavia, come per lo stimatore OLS, la sua distribuzione in grandi campioni è semplice: lo stimatore TSLS è consistente ed è distribuito normalmente. Formula per lo stimatore TSLS. Sebbene la procedura a due stadi dello stimatore TSLS lo faccia apparire complesso, quando vi è una sola X e un singolo strumento Z, come assumiamo in questa sezione, esiste una formula semplice per questo stimatore. Sia s ZY la covarianza campionaria di Z e Y e sia sZX la covarianza campionaria di Z e X. Come mostrato nell’appendice 10.2, lo stimatore TSLS con un singolo strumento è β̂1T SLS = sZY . sZX (10.4) Lo stimatore di β1 è cioè il rapporto tra la covarianza campionaria di Z e Y e la covarianza campionaria di Z e X. 333 i i i i i i “generale” — 2005/7/10 — 22:25 — page 334 — #364 i i 10.1. Lo stimatore IV con un singolo regressore e un singolo strumento La distribuzione campionaria di β̂1T SLS quando la numerosità campionaria è elevata. La formula (10.4) può essere usata per mostrare che β̂1T SLS è consistente e, in grandi campioni, normalmente distribuito. Il ragionamento è sintetizzato qui di seguito, mentre i dettagli matematici sono forniti nell’appendice 10.3. La prova della consistenza di β̂1T SLS combina le assunzioni di rilevanza ed esogeneità di Zi con la consistenza delle covarianze campionarie per le covarianze della popolazione. Per cominciare, notiamo che siccome Yi = β0 + β1 Xi + ui nella (10.1), cov(Zi , Yi ) = cov(Zi , β0 + β1 Xi + ui ) = β1 cov(Zi , Xi ) + cov(Zi , ui ), (10.5) dove la seconda uguaglianza segue dalle proprietà (2.33) delle covarianze. Per l’ipotesi di esogeneità dello strumento, cov(Zi , Xi ) = 0 e per l’ipotesi di rilevanza dello strumento, cov(Zi , Xi ) 6= 0. Cosı̀, se lo strumento è valido, β1 = cov(Zi , Yi ) . cov(Zi , Xi ) (10.6) Cioè, il coefficiente β1 è il rapporto della covarianza tra Z e Y nella popolazione e la covarianza tra Z ed X nella popolazione. Come discusso nella sezione 3.6, la covarianza campionaria è uno stimatore consistente p p della covarianza della popolazione, perciò sZY → cov(Zi , Yi ) e sZX → cov(Zi , Xi ). La consistenza dello stimatore TSLS segue dalle formule (10.4) e (10.6): β̂1T SLS = sZY p cov(Zi , Yi ) → = β1 . sZX cov(Zi , Xi ) (10.7) La formula (10.4) può anche essere usata per mostrare che la distribuzione campionaria di è normale in grandi campioni. Il ragionamento è lo stesso che per ogni altro stimatore dei minimi quadrati che abbiamo considerato: lo stimatore TSLS è una media di variabili casuali e, quando la dimensione campionaria è grande, il teorema limite centrale ci dice che le medie di variabili casuali sono distribuite normalmente. Nello specifico, il numeratore Pn 1 della (10.4) è sZY = n−1 i=1 (Zi − Z̄)(Yi − Ȳ ), che è una media di (Zi − Z̄)(Yi − Ȳ ). Un po’ di algebra, accennata nell’appendice 10.3, mostra che applicando il teorema limite centrale a questa media, β̂1T SLS ha una distribuzione campionaria che per grandi campioni è approssimativamente N (β1 , σβ̂2 T SLS ), dove β̂1T SLS 1 σβ̂2 T SLS = 1 1 var[(Zi − µZ )ui ] . n [cov(Zi , Xi )]2 (10.8) Inferenza statistica usando la distribuzione per grandi campioni. La varianza σβ̂2 T SLS 1 può essere stimata stimando la varianza e la covarianza che appaiono nella (10.8). La radice 334 i i i i i i “generale” — 2005/7/10 — 22:25 — page 335 — #365 i i 10.1. Lo stimatore IV con un singolo regressore e un singolo strumento quadrata della stima di σβ̂2 T SLS è l’errore standard dello stimatore IV. Nei moderni pacchetti 1 econometrici ciò è prodotto aumaticamente dai comandi per la regressione TSLS. Siccome β̂1T SLS si distribuisce come una normale in grandi campioni, test di ipotesi su β 1 possono essere effettuati calcolando la statistica t; e un intervallo di confidenza al 95% in grandi campioni è dato da β̂1T SLS ± 1, 96SE(β̂1T SLS ). Applicazione alla domanda di sigarette I Wright erano interessati all’elasticità della domanda di burro, ma oggi altri beni, come le sigarette, assumono un’importanza maggiore nel dibattito pubblico. Uno strumento nello sforzo di ridurre le malattie e le morti da tabagismo –e i costi, o le esternalità, imposti da tali malattie al resto della società– è quello di tassare le sigarette cosı̀ pesantemente che gli attuali fumatori ne riducano il consumo e i nuovi fumatori potenziali siano scoraggiati dal prenderne l’abitudine. Precisamente, però, di quanto deve aumentare l’imposta per poter avere un effetto sul consumo di sigarette? Ad esempio, quale dovrebbe essere il prezzo di vendita delle sigarette perché si ottenga una riduzione del 20% nel consumo di sigarette? La risposta a questa domanda dipende dall’elasticità della domanda di sigarette. Se l’elasticità fosse −1, allora l’obiettivo del 20% potrebbe essere raggiunto attraverso un incremento del prezzo del 20%. Se l’elasticità fosse −0, 5, allora il prezzo dovrebbe crescere del 40% per ridurre il consumo del 20%. Naturalmente, non sappiamo cosa sia in astratto l’elasticità della domanda di sigarette: dobbiamo stimarla attraverso dati su prezzi e vendite. Però, come con il burro, a causa delle interazioni tra offerta e domanda, l’elasticità della domanda di sigarette non può essere stimata in maniera consistente tramite una regressione OLS del logaritmo della quantità sul logaritmo del prezzo. Usiamo perciò i TSLS per stimare l’elasticità della domanda di sigarette usando dati annuali relativi ai 48 stati USA continentali per il periodo 1985-1995 (i dati sono descritti nell’appendice 10.1). Per ora, tutti i risultati presentati riguardano dati sezionali per il 1995; i risultati che sfruttano i dati per gli anni precedenti (dati panel) sono presentati nella sezione 10.4. La variabile strumentale SalesT axi è la porzione dell’imposta sulle sigarette che deriva dall’imposta generale sulle vendite, misurata in dollari per pacchetto (in dollari reali, deflazionata attraverso l’indice dei prezzi al consumo). Il consumo di sigarette (Q cigarettes ) è i cigarettes il numero pro capite di pacchetti di sigarette vendute nello stato e il prezzo P i è il prezzo reale medio per pacchetto di sigarette incluse tutte le imposte. Prima di usare i TSLS è essenziale chiedersi se sussistono le due condizioni per la validità dello strumento. Ritorneremo su questo argomento in dettaglio nella sezione 10.3, dove forniremo alcuni strumenti statistici per una simile valutazione. Anche se provvisti di quegli strumenti statistici, il giudizio gioca un ruolo importante, e quindi è utile pensare se è plausibile che le imposte sul consumo di sigarette soddisfino le due condizioni. 335 i i i i i i “generale” — 2005/7/10 — 22:25 — page 336 — #366 i i 10.1. Lo stimatore IV con un singolo regressore e un singolo strumento Si consideri per prima cosa la rilevanza dello strumento. Siccome un’imposta elevata sulle vendite fa aumentare il prezzo totale di vendita Picigarettes , l’imposta sulle vendite per pacchetto soddisfa plausibilmente la rilevanza dello strumento. Si consideri poi l’esogeneità dello strumento. Perché l’imposta sulle vendite sia esogena, deve essere incorrelata con l’errore dell’equazione di domanda; cioè, l’imposta sulle vendite deve influenzare la domanda di sigarette solo indirettamente attraverso il prezzo. Questo sembra plausibile: le aliquote dell’imposta generale sulle vendite variano tra stato e stato, ma ciò accade principalmente perché stati diversi scelgono combinazioni diverse di imposte sulle vendite, sui redditi, sulla proprietà e altre imposte per finanziare le spese pubbliche. Tali scelte di finanza pubblica sono ispirate da considerazioni politiche, non da fattori legati alla domanda di sigarette. Discuteremo ulteriormente la credibilità di quest’assunzione nella sezione 10.4, ma per ora consideriamola come un’ipotesi di lavoro. Nei moderni pacchetti statistici, il primo stadio dei TSLS è stimato automaticamente, cosı̀ non occorre effettuare direttamente la regressione al fine di calcolare lo stimatore TSLS. Solo per questa volta, tuttavia, presentiamo esplicitamente la regressione del primo stadio; utilizzando i dati relativi ai 48 stati per il 1995, essa è d ln(Picigarettes ) = 4, 63 + 0, 031 SalesT axi . (0, 03) (0, 005) (10.9) d d ) = 9, 72 − 1, 08 ln(Picigarettes ). ln(Qcigarettes i (10.10) d ln(Qcigarettes ) = 9, 72 − 1, 08 ln(Picigarettes ). i (1, 53) (0, 32) (10.11) L’R2 di questa regressione è del 47%, e quindi la variazione nell’imposta sulle vendite di sigarette spiega il 47% della varianza dei prezzi delle sigarette tra gli stati. Nel secondo stadio dei TSLS, si effettua una regressione OLS di ln(Qcigarettes ) su i d cigarettes ). La risultante funzione di regressione stimata è ln(Pi Questa funzione di regressione stimata è scritta usando come regressore del secondo stadio il d valore predetto ln(Picigarettes ). Per convenzione e semplicità, tuttavia, riportiamo la funzione d di regressione stimata con ln(Picigarettes ) invece che ln(Picigarettes ). Utilizzando questa notazione, le stime TSLS e gli errori standard robusti all’eteroschedasticità sono La stima TSLS suggerisce che la domanda di sigarette è sorprendentemente elastica se si tiene conto dell’assuefazione causata dal tabacco: un aumento del prezzo dell’1% riduce il consumo dell’1, 08%. Ricordando però la nostra discussione sull’esogeneità dello strumento, forse questa stima non dovrebbe ancora essere presa seriamente. Sebbene l’elasticità sia stata stimata usando una variabile strumentale, ci potrebbero ancora essere variabili omesse che sono correlate con l’imposta sulle vendite per pacchetto. Uno dei principali candidati è 336 i i i i i i “generale” — 2005/7/10 — 22:25 — page 337 — #367 i i 10.2. Il modello generale di regressione IV Concetto chiave 10.1: il modello generale di regressione con variabili strumentali e la sua terminologia Il modello generale di regressione IV è Yi = β0 + β1 X1i + · · · + βk Xki + βk+1 W1i + · · · + βk+r Wri + ui , (10.12) i = 1, . . . , n, dove: • Yi è la variabile dipendente; • ui è l’errore, che rappresenta errori di misura e/o fattori omessi; • X1i , . . . , Xki sono k regressori endogeni, potenzialmente correlati con ui ; • W1i , . . . , Wri sono r regressori esogeni inclusi, incorrelati con ui ; • β0 , β1 , . . . , βk+r sono coefficienti di regressione ignoti; • Z1i , . . . , Zmi sono m variabili strumentali. I coefficienti sono sovraidentificati se ci sono più strumenti che regressori endogeni (m > k); sono sottoidentificati se m < k; e sono esattamente identificati se m = k. La stima del modello di regressione IV richiede l’identificazione esatta o la sovraidentificazione. il reddito: stati con redditi più elevati potrebbero dipendere relativamente meno da un’imposta sulle vendite e più da un’imposta sul reddito per finanziare la spesa pubblica. Inoltre, la domanda di sigarette dipende presumibilmente dal reddito. Vorremmo perciò stimare nuovamente la nostra equazione di domanda includendo il reddito quale regressore addizionale. Per far ciò, tuttavia, dobbiamo prima estendere il modello di regressione IV al fine di includere regressori addizionali. 10.2 Il modello generale di regressione IV Il modello generale di regressione IV ha quattro tipi di variabili: la variabile dipendente Y ; regressori endogeni che causano problemi, come il prezzo delle sigarette, essendo potenzialmente correlati con l’errore e che indichiamo con X; regressori addizionali che non sono correlati con l’errore, chiamati variabili esogene incluse, che indichiamo con W ; variabili strumentali, Z. In generale, ci possono essere più regressori endogeni (le X), più regressori esogeni inclusi (le W ) e più variabili strumentali (le Z). 337 i i i i i i “generale” — 2005/7/10 — 22:25 — page 338 — #368 i i 10.2. Il modello generale di regressione IV Perché sia possibile effettuare una regressione IV, ci debbono essere almeno tante variabili strumentali (le Z) quanti sono i regressori endogeni (le X). Nella sezione 10.1 c’era un singolo regressore endogeno e un singolo strumento. Avere (almeno) uno strumento per questo singolo regressore endogeno era essenziale. Senza lo strumento non avremmo potuto calcolare lo stimatore delle variabili strumentali: non ci sarebbe stata alcuna regressione del primo stadio dei TSLS. La relazione tra il numero di strumenti e il numero di regressori endogeni è sufficientemente importante da avere una terminologia propria. I coefficienti di regressione sono detti esattamente identificati, se il numero di strumenti (m) è uguale al numero di regressori endogeni (k), ovvero m = k. I coefficienti sono sovraidentificati, se il numero di strumenti è maggiore del numero di regressori endogeni, ovvero m > k; sono sottoidentificati, se il numero di strumenti è minore del numero di regressori endogeni, cioè m < k. I coefficienti debbono essere esattamente identificati oppure sovraidentificati perché possano essere stimati tramite una regressione IV. Il modello generale di regressione IV e la sua terminologia sono riassunti nel concetto chiave 10.1. TSLS nel modello generale di regressione IV TSLS con un singolo regressore endogeno. Nel caso di un singolo regressore endogeno X e alcune variabili esogene addizionali incluse, l’equazione d’interesse è Yi = β0 + β1 Xi + β2 W1i + · · · + β1+r Wri + ui , (10.13) dove, come prima, Xi potrebbe essere correlata con l’errore, ma W1i , . . . , Wri non lo sono. La regressione del primo stadio dei TSLS mette in relazione X con le variabili esogene, ovvero con i W e gli strumenti Z: Xi = π0 + π1 Z1i + · · · + πm Zmi + πm+1 W1i + · · · + πm+r Wri + vi , (10.14) dove π0 , π1 , . . . , πm+r sono coefficienti di regressione ignoti e vi è l’errore. La (10.14) è talvolta detta l’equazione in forma ridotta per X. Essa mette in relazione la variabile endogena X con tutte le variabili esogene disponibili, sia quelle incluse nella regressione d’interesse (W ) sia gli strumenti (Z). Nel primo stadio dei TSLS, i coefficienti ignoti della (10.14) sono stimati con gli OLS e i valori predetti da tale regressione sono X̂1 , . . . , X̂n . Nel secondo stadio dei TSLS, la (10.13) è stimata con gli OLS, eccetto che X i è sostituita dai suoi valori predetti ottenuti dal primo stadio. Si effettua cioè una regressione OLS di Y i su X̂i , W1i , . . . , Wri . Lo stimatore risultante di β0 , β1 , . . . , β1+r è lo stimatore TSLS. Estensione a più regressori endogeni. Quando ci sono più regressori endogeni X 1i , . . . , Xki , 338 i i i i i i “generale” — 2005/7/10 — 22:25 — page 339 — #369 i i 10.2. Il modello generale di regressione IV Concetto chiave 10.2: minimi quadrati a due stadi (TSLS) Lo stimatore TSLS per il modello generale di regressione IV (10.12) con più variabili strumentali si calcola in due stadi. 1. Regressione(i) del primo stadio. Si effettua una regressione di X1i sulle variabili strumentali (Z1i , . . . , Zmi ) e sulle variabili esogene incluse (W1i , . . . , Wri ) tramite gli OLS. Si calcolano i valori predetti da questa regressione, indicati con X̂1i . Si ripete lo stesso procedimento per tutti i regressori endogeni X2i , . . . , Xki , calcolando quindi i valori predetti X̂1i , . . . , X̂ki . 2. Regressione del secondo stadio. Si effettua una regressione di Yi sui valori predetti delle variabili endogene (X̂1i , . . . , X̂ki ) e sulle variabili endogene incluse T SLS (W1i , . . . , Wri ) tramite gli OLS. Gli stimatori TSLS β̂0T SLS , . . . , β̂k+r sono gli stimatori ottenuti dalla regressione del secondo stadio. In pratica, i moderni software econometrici accorpano i due stadi nel comando per la stima TSLS. l’algoritmo dei TSLS è simile, eccetto che ciascun regressore endogeno richiede la propria regressione del primo stadio. Ognuna di queste regressioni del primo stadio ha la stessa forma della (10.14), la variabile dipendente è cioè una delle X e i regressori sono tutti gli strumenti (le Z) e tutti i regressori endogeni inclusi (le W ). Insieme, queste regressioni del primo stadio producono valori predetti per ciascun regressore endogeno. Nel secondo stadio dei TSLS, l’equazione (10.12) è stimata con gli OLS, eccetto che i regressori endogeni (le X) sono sostituiti dai rispettivi valori predetti ottenuti dal primo stadio (le X̂). Il risultante stimatore di β0 , β1 , . . . , βk+r è lo stimatore TSLS. In pratica, i moderni software econometrici accorpano i due stadi nel comando per la stima TSLS. Lo stimatore generale dei TSLS è riassunto nel concetto chiave 10.2. Rilevanza dello strumento ed esogeneità nel modello generale IV Le condizioni per la rilevanza e l’esogeneità dello strumento devono essere modificate per il modello generale di regressione IV. Quando c’è un’unica variabile endogena inclusa ma più strumenti, la condizione per la rilevanza degli strumenti è che almeno una Z sia utilizzabile per predire X, data W . Quando ci sono più variabili endogene incluse, questa condizione è più complessa perché dobbiamo 339 i i i i i i “generale” — 2005/7/10 — 22:25 — page 340 — #370 i i 10.2. Il modello generale di regressione IV Concetto chiave 10.3: le due condizioni per la validità degli strumenti Un insieme di m strumenti, Z1i , . . . , Zmi , deve soddisfare le due condizioni seguenti per essere valido: 1. Rilevanza degli strumenti ∗ • In generale, sia X̂1i il valore predetto di X1i dalla regressione di X1i sugli strumenti (le Z) e i regressori esogeni inclusi (i W ) e si indichi con “1” un regressore che è uguale a “1” per tutte le osservazioni (il suo coefficiente è ∗ ∗ l’intercetta). Allora (X̂1i , . . . , X̂ki , W1i , . . . , Wri , 1) non sono perfettamente collineari. • Se c’è una sola X, allora almeno una delle Z deve essere inclusa nella regressione di X sulle Z e i W . 2. Esogeneità degli strumenti Gli strumenti sono incorrelati con l’errore, ovvero corr(Z1i , ui ) = 0, . . . , corr(Zmi , ui ) = 0. evitare la perfetta collinearità nella regressione. Intuitivamente, quando ci sono più variabili endogene incluse, gli strumenti debbono fornire sufficiente informazione sui movimenti esogeni di queste variabili da evidenziarne gli effetti separati su Y . La formulazione generale della condizione di esogeneità dello strumento è che ciascuno strumento deve essere incorrelato con l’errore ui . Le condizioni generali per la validità degli strumenti sono fornite nel concetto chiave 10.3. Le assunzioni della regressione IV e la distribuzione campionaria dello stimatore TSLS Sotto le assunzioni della regressione IV, lo stimatore TSLS è consistente ed ha una distribuzione campionaria che, per grandi campioni, è approssimativamente normale. Le assunzioni della regressione IV. Le assunzioni della regressione IV sono varianti delle assunzioni dei minimi quadrati per il modello di regressione multipla nel concetto chiave 5.4. La prima assunzione della regressione IV modifica l’assunzione circa la media condizionata dell’errore nel concetto chiave 5.4 in modo tale che si applichi solo alle variabili endogene incluse. Proprio come la seconda assunzione dei minimi quadrati per il modello di regressione multipla, la seconda assunzione della regressione IV è che le osservazioni siano i.i.d., come sarebbero se i dati fossero ottenuti tramite un campionamento casuale semplice. 340 i i i i i i “generale” — 2005/7/10 — 22:25 — page 341 — #371 i i 10.2. Il modello generale di regressione IV Concetto chiave 10.4: le assunzioni della regressione IV Le variabili e gli errori nel modello di regressione IV del concetto chiave 10.1 soddisfano: 1. E(ui W1i , . . . , Wri ) = 0; 2. (X1i , . . . , Xki , W1i , . . . , Wri , Z1i , . . . , Zmi , Yi ) sono estratti i.i.d. dalla loro distribuzione congiunta; 3. le X, i W , le Z e la u hanno momenti quarti non nulli e finiti; 4. i W non sono perfettamente collineari; 5. valgono le due condizioni del concetto chiave 10.3 per la validità di uno strumento. Similmente, la terza assunzione della regressione IV è che tutte le variabili abbiano quattro momenti e la quarta è che i regressori esogeni inclusi non siano perfettamente collineari. La quinta assunzione della regressione IV è che sussistano le condizioni del concetto chiave 10.3 per la validità degli strumenti. Le assunzioni della regressione IV sono riassunte nel concetto chiave 10.4. La distribuzione campionaria dello stimatore TSLS. Sotto le assunzioni della regressione IV, lo stimatore TSLS è consistente e normalmente distribuito per grandi campioni. Questo risultato è dimostrato nella sezione 10.1 (e nell’appendice 10.3) per il caso speciale di un singolo regressore endogeno, un singolo strumento e nessuna variabile esogena inclusa. Concettualmente, il ragionamento della sezione 10.1 si estende al caso generale di più strumenti e più variabili endogene incluse. Le formule per il caso generale sono complesse e si rimanda il lettore a Greene (2000, capitolo 9) per i dettagli. Inferenza tramite lo stimatore TSLS Poiché la distribuzione campionaria dello stimatore TSLS è normale per grandi campioni, le procedure generali per l’inferenza statistica (verifica di ipotesi e intervalli di confidenza) nei modelli di regressione si estendono alla regressione TSLS. Ad esempio, gli intervalli di confidenza al 95% sono costruiti come lo stimatore TSLS ±1, 96 volte l’errore standard. Similmente, ipotesi congiunte sui coefficienti del modello possono essere verificate usando la statistica F, come descritto nella sezione 5.7. Calcolo degli errori standard dei TSLS. Ci sono due punti da ricordare per quanto riguarda 341 i i i i i i “generale” — 2005/7/10 — 22:25 — page 342 — #372 i i 10.2. Il modello generale di regressione IV gli errori standard dei TSLS. In primo luogo, gli errori standard riportati dalla stima OLS del secondo stadio della regressione sono sbagliati perché non riconoscono che è il secondo stadio di un processo a due stadi. Specificatamente, gli errori standard OLS del secondo stadio non tengono conto del fatto che la regressione del secondo stadio utilizza i valori predetti delle variabili endogene incluse. Formule per gli errori standard che effettuano le necessarie modifiche sono incorporate nei (e usate automaticamente dai) comandi per la regressione dei TSLS contenuti nei pacchetti econometrici. Non vi è quindi alcun problema nelle applicazioni pratiche, se si usa un comando specifico per la regressione TSLS. In secondo luogo, come sempre, l’errore u potrebbe essere eteroschedastico. Perciò è importante usare errori standard robusti all’eteroschedasticità, esattamente per la stessa ragione per cui è importante usare errori standard robusti all’eteroschedasticità per gli stimatori OLS del modello di regressione multipla. Applicazione alla domanda di sigarette Nella sezione 10.1, abbiamo stimato l’elasticità della domanda di sigarette utilizzando i dati sul consumo annuale in 48 stati degli USA nel 1995 tramite i TSLS con un singolo regressore (il logaritmo del prezzo reale per pacchetto) e un singolo strumento (l’imposta reale sulle vendite per pacchetto). Anche il reddito influenza però la domanda, cosı̀ è parte dell’errore di regressione. Come discusso nella sezione 10.1, se l’imposta sulle vendite di uno stato è legata al reddito dello stato, allora essa è correlata con una variabile contenuta nell’errore dell’equazione della domanda di sigarette, il che viola la condizione di esogeneità dello strumento. Se cosı̀, lo stimatore IV della sezione 10.1 è inconsistente. In altre parole, la regressione IV è affetta da una forma di distorsione da variabile omessa. Per risolvere questo problema, abbiamo bisogno di includere il reddito nella regressione. Consideriamo perciò una specificazione alternativa in cui il logaritmo del reddito è incluso nell’equazione di domanda. Nella terminologia del concetto chiave 10.1, la variabile dipendente Y è il logaritmo del consumo ln(Qcigarettes ); il regressore endogeno X è il loi cigarettes garitmo del prezzo reale ln(Pi ); la variabile esogena inclusa W è il logaritmo del reddito reale pro capite dello stato ln(Inci ); e lo strumento Z è l’imposta reale sulle vendite per pacchetto SalesT axi . Le stime TSLS e gli errori standard (robusti all’eteroschedasticità) sono d ) = 9, 43 − 1, 14 ln(Picigarettes ) + 0, 21 ln(Inci ). ln(Qcigarettes i (0, 31) (1, 26) (0, 37) (10.15) Questa regressione utilizza il solo strumento SalesT axi , ma in effetti vi è un altro strumento disponibile. In aggiunta alle imposte generali sulle vendite, gli stati prelevano imposte speciali che si applicano soltanto alle sigarette e ad altri prodotti a base di tabacco. Tali imposte specifiche sulle sigarette (CigT axi ) costituiscono una seconda possibile variabile 342 i i i i i i “generale” — 2005/7/10 — 22:25 — page 343 — #373 i i 10.3. Verifica della validità degli strumenti strumentale. L’imposta specifica sulle sigarette aumenta il prezzo delle sigarette pagato dal consumatore, e sembra quindi soddisfare la condizione per la rilevanza dello strumento. Se è incorrelata con l’errore nell’equazione di domanda di sigarette, è uno strumento esogeno. Con questo strumento addizionale a disposizione, abbiamo ora due variabili strumentali, l’imposta reale sulle vendite per pacchetto e l’imposta reale specifica sulle sigarette propria di ciascuno stato. Con due strumenti e un singolo regressore endogeno, l’elasticità della domanda è sovraidentificata, ovvero il numero di strumenti (SalesT axi e CigT axi , perciò m = 2) è maggiore del numero di variabili endogene incluse (Picigarettes , perciò k = 1). Possiamo stimare l’elasticità della domanda usando i TSLS, dove i regressori nella regressione del primo stadio sono la variabile esogena inclusa, ln(Inci ), ed entrambi gli strumenti. La stima TSLS della funzione di regressione che si ottiene utilizzando i due strumenti SalesT axi e CigT axi è d ln(Qcigarettes ) = 9, 89 − 1, 28 ln(Picigarettes ) + 0, 28 ln(Inci ). i (0, 25) (0, 96) (0, 25) (10.16) Confrontiamo le due stime (10.15) e (10.16): l’errore standard dell’elasticità rispetto al prezzo nella (10.16) è minore di un terzo (0, 25 nella (10.16) contro 0, 37 nella (10.15)). La ragione per cui l’errore standard nella (10.16) è minore è che questa stima sfrutta una maggiore quantità d’informazioni rispetto alla (10.15): in quest’ultima, viene utilizzato un solo strumento (l’imposta sulle vendite), mentre nella (10.16) vengono utilizzati due strumenti (l’imposta sulle vendite e l’imposta specifica per le sigarette). Usando due strumenti si può spiegare una quota maggiore della variazione nel prezzo delle sigarette che usandone solo uno, e questo si riflette in minori errori standard per l’elasticità stimata della domanda. Queste stime sono credibili? In ultima analisi, la credibilità dipende dal fatto che l’insieme di variabili strumentali –nel nostro caso, le due imposte– soddisfi in modo convincente le due condizioni per la validità degli strumenti. È, quindi, fondamentale stabilire se tali strumenti sono validi ed è su questo problema che ci soffermiamo ora. 10.3 Verifica della validità degli strumenti L’utilità di una regressione con variabili strumentali in una certa applicazione dipende dalla validità degli strumenti: strumenti non validi producono risultati privi di significato. E’ perciò essenziale stabilire se un dato insieme di strumenti sia valido in una particolare applicazione. Assunzione 1: rilevanza dello strumento Il ruolo della condizione relativa alla rilevanza dello strumento nella regressione IV è sottile. Un modo di pensare alla rilevanza dello strumento è che essa gioca un ruolo simile a quello della numerosità campionaria: più rilevante è lo strumento –ovvero, più la variazione in X è 343 i i i i i i “generale” — 2005/7/10 — 22:25 — page 344 — #374 i i 10.3. Verifica della validità degli strumenti spiegata dagli strumenti– più informazione è disponibile per la regressione IV. Uno strumento più rilevante produce uno stimatore più accurato, proprio come una maggiore numerosità campionaria. Inoltre, l’inferenza statistica che utilizza i TSLS dipende in modo essenziale dal fatto che lo stimatore TSLS abbia una distribuzione campionaria normale, ma secondo il teorema limite centrale la distribuzione normale è una buona approssimazione per grandi – ma non necessariamente per piccoli– campioni. Se avere uno strumento più rilevante è come avere una maggiore numerosità campionaria, allora questo suggerisce che, perché la distribuzione normale fornisca una buona approssimazione alla distribuzione campionaria dello stimatore TSLS, gli strumenti dovrebbero essere non semplicemente rilevanti, ma altamente rilevanti. Strumenti che spiegano poco della variazione di X sono chiamati strumenti deboli. Nell’esempio delle sigarette, la distanza di uno stato dagli impianti di produzione delle sigarette dovrebbe essere uno strumento debole: sebbene una maggiore distanza aumenti i costi di trasporto (spostando cosı̀ la curva di offerta in alto e facendo aumentare il prezzo di equilibrio), le sigarette hanno poco peso e quindi i costi di trasporto sono una componente modesta del prezzo delle sigarette. Pertanto, la parte della variazione nel prezzo spiegata dai costi di trasporto, e quindi dalla distanza dagli impianti di produzione, è probabilmente molto piccola. Questa sezione discute perché gli strumenti deboli costituiscano un problema, come individuarli e cosa fare nel caso in cui si abbiano simili strumenti. Si assumerà sempre che gli strumenti siano esogeni. Perché gli strumenti deboli sono un problema. Se gli strumenti sono deboli, allora la distribuzione normale fornisce una cattiva approssimazione alla distribuzione campionaria dello stimatore TSLS, anche se la dimensione campionaria è grande. Pertanto, non c’è una giustificazione teorica per il modo usuale di fare inferenza statistica, neanche in grande campioni. In effetti, se gli strumenti sono deboli, lo stimatore TSLS può essere severamente distorto e gli intervalli di confidenza al 95% costruiti come lo stimatore TSLS ±1, 96 volte l’errore standard, possono contenere il vero valore del coefficiente molto meno del 95% delle volte. In breve, se gli strumenti sono deboli, il metodo TSLS non è più affidabile. Per vedere che c’è un problema con l’approssimazione asintotica normale per grandi campioni alla distribuzione campionaria dello stimatore TSLS, consideriamo il caso particolare, descritto nella sezione 10.1, di una singola variabile endogena inclusa, un singolo strumento e nessun regressore esogeno incluso. Se lo strumento è valido, allora β̂1T SLS è consistente perché le covarianze campionarie sZY e sZX sono consistenti; ovvero, β̂1T SLS = p sZY /sZX → cov(Zi , Yi )/cov(Zi , Xi ) = β1 (equazione (10.7)). Supponiamo ora che lo strumento non sia soltanto debole ma anche irrilevante, cosicché cov(Z i , Xi ) = 0. Allop ra sZX → cov(Zi , Xi ) = 0, e quindi, preso letteralmente, il denominatore del lato destro del limite cov(Zi , Yi )/cov(Zi , Xi ) è zero! Chiaramente, la dimostrazione della consistenza 344 i i i i i i “generale” — 2005/7/10 — 22:25 — page 345 — #375 i i 10.3. Verifica della validità degli strumenti Concetto chiave 10.5: una regola del pollice per valutare la debolezza degli strumenti La statistica F del primo stadio è la statistica F per verificare l’ipotesi che i coefficienti degli strumenti Z1i , . . . , Zmi siano uguali a zero nel primo stadio dei minimi quadrati a due stadi. Quando c’è un singolo regressore endogeno, una F del primo stadio minore di 10 indica che gli strumenti sono deboli, nel qual caso lo stimatore TSLS è distorto (anche in grandi campioni) e la statistica t e gli intervalli di confidenza per i TSLS sono inaffidabili. β̂1T SLS fallisce quando viene meno la condizione della rilevanza dello strumento. Come mostrato nell’appendice 10.4, questo fallimento dà luogo a una distribuzione campionaria non normale per lo stimatore TSLS, anche se la numerosità campionaria è molto grande. In effetti, quando lo strumento è irrilevante, la distribuzione di β̂1T SLS in grandi campioni non è quella di una variabile casuale normale, ma piuttosto, è la distribuzione del rapporto tra due variabili casuali normali! Sebbene il caso di strumenti completamente irrilevanti potrebbe non verificarsi mai in pratica, sorge però una domanda: quanto rilevante debbono essere gli strumenti perché la distribuzione normale fornisca una buona approssimazione in pratica? Rispondere a questa domanda nel caso del modello generale IV è complicato. Fortunatamente, però, c’è una semplice regola del pollice per la situazione più comune in pratica, il caso di un singolo regressore endogeno. Controllo della debolezza degli strumenti quando c’è un solo regressore endogeno. Un modo per controllare se gli strumenti siano deboli quando c’è un singolo regressore endogeno è calcolare la statistica F per verificare l’ipotesi che i coefficienti degli strumenti siano tutti nulli nel primo stadio della regressione dei TSLS. Questa statistica F del primo stadio fornisce una misura del contenuto informativo presente negli strumenti: maggiore è il contenuto informativo, più grande è il valore atteso della statistica F. Una semplice regola del pollice è che non è necessario preoccuparsi del problema degli strumenti deboli, se la statistica F per il primo stadio è superiore a 10. (perché 10? Si veda l’appendice 10.4). Tutto ciò è riassunto nel concetto chiave 10.5. Cosa fare se si hanno strumenti deboli? Dipende. Se si hanno molti strumenti, alcuni di questi sono probabilmente più deboli di altri. Se si ha un numero limitato di strumenti forti e molti strumenti deboli, si farebbe bene a scartare gli strumenti deboli e usare il sottoinsieme più rilevante per l’analisi basata sui TSLS. Gli errori standard TSLS dovrebbero crescere 345 i i i i i i “generale” — 2005/7/10 — 22:25 — page 346 — #376 i i 10.3. Verifica della validità degli strumenti Una regressione allarmante Un modo per stimare l’aumento percentuale delle retribuzioni che deriva da un ulteriore anno di frequenza scolastica (il “rendimento dell’istruzione”) è quello di effettuare una regressione del logaritmo della retribuzione sugli anni di frequenza scolastica usando dati individuali. Però, se gli individui più capaci hanno sia più successo sul mercato del lavoro sia un maggior numero di anni di scuola (magari perché la trovano più facile), allora gli anni di frequenza scolastica saranno correlati con la variabile omessa, l’abilità innata, e lo stimatore OLS del rendimento dell’istruzione sarà distorto. Siccome l’abilità innata è estremamente difficile da misurare e perciò non può essere usata come regressore, alcuni economisti del lavoro si sono affidati alla regressione IV per stimare il rendimento dell’istruzione. Quale variabile è, però, correlata con gli anni di istruzione ma non con l’errore della regressione per le retribuzioni –cioè, qual è una valida variabile strumentale? Il compleanno di una persona, hanno suggerito gli economisti del lavoro Joshua Angrist e Alan Krueger. A causa della legislazione scolastica negli USA, hanno ragionato, il compleanno di una persona è correlato con i suoi anni di istruzione: se la legge richiede che si vada a scuola fino al sedicesimo compleanno e la persona diventa sedicenne in gennaio mentre è nel mezzo del decimo livello d’istruzione, potrebbe rinunciare alla scuola –ma, se una per- sona diventasse invece sedicenne in luglio, avrebbe già completato il decimo livello. Se cosı̀, il compleanno soddisfa la condizione di rilevanza dello strumento. L’essere nati in gennaio o in luglio, però, non dovrebbe avere un effetto diretto sulla retribuzione (oltre a quello che passa attraverso gli anni di istruzione), cosı̀ la data del compleanno soddisfa la condizione di esogeneità dello strumento. I due autori hanno raffinato quest’idea utilizzando come variabile strumentale il trimestre di nascita degli individui. Hanno usato un campione di dati molto grande derivato dal censimento USA (le loro regressioni contenevano almeno 329.000 osservazioni!) e hanno controllato per altre variabili come l’età del lavoratore. John Bound, però, un altro economista del lavoro, si è mostrato scettico. Sapeva che gli strumenti deboli rendono inaffidabili le stime TSLS e temeva che, nonostante la dimensione campionaria estremamente elevata, il trimestre di nascita fosse uno strumento debole in qualche loro specificazione. Cosı̀ quando Bound e Krueger si sono incontrati, la conversazione inevitabilmente è caduta sulla debolezza degli strumenti di Angrist-Krueger. Krueger non era dello stesso avviso e ha suggerito un modo creativo per scoprirlo: perché non rifare le regressioni usando uno strumento effettivamente irrilevante –rimpiazzare il semestre effettivo di nascita dell’individuo con un semestre di nascita falso, generato a caso dal computer 346 i i i i i i “generale” — 2005/7/10 — 22:25 — page 347 — #377 i i 10.3. Verifica della validità degli strumenti – e confrontare i risultati usando gli strumenti reali e quelli fittizi? Ciò che hanno scoperto è stato sorprendente: non importava il fatto di aver usato come strumento il semestre effettivo di nascita o quello falso– il TSLS forniva sostanzialmente la stessa risposta! Questo è un risultato di regressione molto allarmante per gli economisti del lavoro. L’errore standard dei TSLS calcolato usando i dati reali suggeriva che il rendimento dell’istruzione era stimato con precisione – ma lo stesso faceva l’errore standard calcolato usando i dati fittizi. Naturalmente, i dati fittizi non possono stimare i rendimenti dell’istruzione con precisione, perché lo strumento fittizio è totalmente irrilevante. Il timore, quindi, è che le stime TSLS basate su dati reali siano tanto inaffidabili quanto quelle basate sui dati fittizi. Il problema è che gli strumenti sono in effetti davvero deboli in alcune delle regressioni di Angrist e Krueger. In alcune delle loro specificazioni, la statistica F per il primo stadio è minore di 2, molto meno della soglia di 10 richiesta dalla regola del pollice. In altre specificazioni, Angrist e Krueger hanno statistiche F per il primo stadio più grandi, e in quei casi le inferenze TSLS non sono soggette al problema della debolezza degli strumenti. A proposito, in tali specificazioni il rendimento dell’istruzione si stima essere approssimativamente dell’8%, un valore un po’ maggiore di quello stimato dagli OLS.a a Le regressioni IV originali sono riportate in Angrist e Krueger (1991) e il riesame effettuato con strumenti fittizi è pubblicato in Bound, Jaeger e Baker (1995). quando si eliminano strumenti deboli, ma bisogna tenere a mente che gli errori standard originali erano comunque privi di significato! Se, tuttavia, si hanno solo pochi strumenti o se i coefficienti sono esattamente identificati, non è utile scartare strumenti deboli. In questo caso, ci sono due alternative: trovare strumenti addizionali più forti o usare tecniche avanzate disegnate specificamente per il caso di strumenti deboli. La prima alternativa richiede una conoscenza profonda del problema considerato e può portare a rivedere i dati e la natura dello studio empirico. La seconda alternativa richiede procedure che siano meno sensibili dei TSLS agli strumenti deboli, come la massima verosimiglianza con informazione limitata (LIML, acronimo dall’inglese Limited Information Maximum Likelihood); si vedano Hayashi (2000, sezione 8.6) oppure Greene (2000, capitolo 16). Lo sviluppo di procedure che siano affidabili quando gli strumenti sono deboli è attualmente un’area di ricerca attiva. Assunzione 2: esogeneità dello strumento Se gli strumenti non sono esogeni, allora lo stimatore TSLS è inconsistente: esso converge in probabilità a qualcosa di diverso dal coefficiente di regressione per la popolazione. Dopo tutto, l’idea della regressione con variabili strumentali è che lo strumento contenga informa347 i i i i i i “generale” — 2005/7/10 — 22:25 — page 348 — #378 i i 10.3. Verifica della validità degli strumenti zioni sulla parte della variazione in Xi che è slegata dall’errore ui . Se lo strumento non è esogeno, non può catturare questa variazione esogena in X i e ciò determina l’incapacità della regressione IV di fornire uno stimatore consistente. La matematica dietro questo argomento è riassunta nell’appendice 10.4. Si può verificare statisticamente l’assunzione che gli strumenti siano esogeni? No. Più precisamente, supponiamo di avere tanti strumenti quanti sono i regressori endogeni (i coefficienti sono esattamente identificati). Allora, è impossibile sviluppare un test statistico per l’ipotesi che gli strumenti siano effettivamente esogeni. In altre parole, l’evidenza empirica non può essere utilizzata per chiarire la questione se questi strumenti soddisfino realmente la condizione di esogeneità. In questo caso, il solo modo per comprendere se gli strumenti sono esogeni è basarsi sull’opinione di esperti e sull’esperienza personale riguardo al problema empirico considerato. Ad esempio, la conoscenza dell’offerta e domanda di prodotti agricoli da parte dei Wright li indusse a pensare che una quantità di pioggia al di sotto della media avrebbe potuto verosimilmente spostare la curva di offerta di burro, ma non avrebbe direttamente spostato la domanda. Stabilire se gli strumenti siano esogeni richiede necessariamente di formulare un giudizio basato sulla conoscenza personale del problema. Se però ci sono più strumenti che regressori endogeni, esiste uno strumento statistico che può aiutare in questo processo, il cosiddetto test delle restrizioni di sovraidentificazione. Il test delle restrizioni di sovraidentificazione. Supponiamo di avere un singolo regressore endogeno, due strumenti e nessuna variabile esogena inclusa. Possiamo allora calcolare due diversi stimatori TSLS, uno utilizzando il primo strumento, l’altro utilizzando il secondo. A causa della variazione campionaria non otterremo le stesse stime, ma, se entrambi gli strumenti sono esogeni, queste tenderanno ad essere simili. Cosa accade però se i due strumenti producono stime molto diverse? Dovremmo concludere a ragione che c’è qualcosa di sbagliato o con l’uno o con l’altro strumento –o con entrambi. Sarebbe, cioè, ragionevole ritenere che uno, o l’altro o magari entrambi gli strumenti non sono esogeni. Il test delle restrizioni di sovraidentificazione effettua implicitamente questo confronto. Diciamo implicitamente perché il test è condotto senza calcolare effettivamente tutte le diverse possibili stime IV. L’idea è la seguente. L’esogeneità degli strumenti implica che essi sono incorrelati con ui . Ciò suggerisce che gli strumenti dovrebbero essere approssimativamente T SLS incorrelati con ûiT SLS , dove ûiT SLS = Yi − (β̂0T SLS + β̂1T SLS X1i + · · · + β̂k+r Wri ) è il residuo della regressione TSLS stimata utilizzando tutti gli strumenti; diciamo approssimativamente piuttosto che esattamente a causa della variazione campionaria (si noti che questi residui sono costruiti utilizzando le vere X invece che i loro valori predetti nel primo stadio). Di conseguenza, se gli strumenti sono effettivamente esogeni, allora i coefficienti degli stru348 i i i i i i “generale” — 2005/7/10 — 22:25 — page 349 — #379 i i 10.3. Verifica della validità degli strumenti Concetto chiave 10.6: il test delle restrizioni di sovraidentificazione (la statistica J) Siano ûiT SLS i residui dalla stima TSLS (10.12). Usiamo gli OLS per stimare i coefficienti nella regressione ûiT SLS = δ0 + δ1 Z1i + · · · + δm Zmi + δm+1 W1i + · · · + δm+r Wri + ei , (10.17) dove ei è l’errore della regressione. Si indichi con F la classica statistica F per verificare l’ipotesi che δ1 = · · · = δm = 0. La statistica test per le restrizioni di sovraidentificazione è J = mF . Sotto l’ipotesi nulla che tutti gli strumenti siano esogeni, J si distribuisce in grandi campioni come una χ2m−k , dove m − k è il “grado di sovraidentificazione”, ovvero la differenza tra il numero di strumenti e il numero di regressori endogeni. menti in una regressione di ûiT SLS sugli strumenti e le variabili esogene incluse dovrebbero essere tutti nulli, un’ipotesi, questa, che può essere verificata. Il metodo per calcolare il test delle restrizioni di sovraidentificazione è riassunto nel concetto chiave 10.6. La statistica del test, detta comunemente statistica J, corrisponde a una statistica F classica. In grandi campioni, se gli strumenti non sono deboli e gli errori sono omoschedastici, allora, sotto l’ipotesi nulla che gli strumenti siano esogeni, la statistica J ha una distribuzione 2 chi-quadrato con m − k gradi di libertà (Xm−k ). È importante ricordare che, benché il numero di restrizioni da verificare sia m, il numero di gradi di libertà della distribuzione asintotica della statistica J è m − k. La ragione è che si possono solo verificare le restrizioni di sovraidentificazione, che sono m − k. Il modo più semplice per vedere che non si può verificare l’esogeneità dei regressori quando i coefficienti sono esattamente identificati (m = k) è considerare il caso di una singola variabile endogena inclusa (k = 1). Se ci sono due strumenti, allora si possono calcolare due stimatori TSLS, uno per ogni strumento, e confrontarli per vedere se sono simili. Se però abbiamo solo uno strumento, allora possiamo calcolare soltanto uno stimatore TSLS e non abbiano niente con cui confrontarlo. In effetti, se i coefficienti sono esattamente identificati, e quindi m = k, la statistica J del test di sovraidentificazione è esattamente uguale a zero. 349 i i i i i i “generale” — 2005/7/10 — 22:25 — page 350 — #380 i i 10.4. Applicazione alla domanda di sigarette 10.4 Applicazione alla domanda di sigarette1 Il nostro tentativo di stimare l’elasticità della domanda di sigarette ci ha lasciato con le stime TSLS riportate nella (10.16), in cui il reddito era una variabile esogena inclusa e vi erano due strumenti, l’imposta generale sulle vendite e l’imposta specifica sulle sigarette. Possiamo procedere ora a una valutazione più accurata di questi strumenti. Come nella sezione 10.1, è ragionevole pensare che i due strumenti siano rilevanti perché le imposte sono una parte considerevole del prezzo delle sigarette, e tra breve guarderemo a questo aspetto empiricamente. Per cominciare, tuttavia, ci focalizziamo sull’ardua questione se le due variabili relative alle imposte siano verosimilmente esogene. Il primo passo nel valutare se uno strumento è esogeno è quello di pensare ai motivi per cui potrebbe o meno esserlo. Ciò richiede di pensare a quali fattori spieghino l’errore nell’equazione di domanda di sigarette e se questi fattori siano ragionevolmente correlati con gli strumenti. Perché alcuni stati hanno un consumo di sigarette pro capite più alto rispetto ad altri? Una ragione potrebbe essere la differenza di reddito tra gli stati, ma il reddito dello stato è incluso nell’equazione (10.16), e quindi non è parte del termine d’errore. Un’altra spiegazione è che ci siano fattori storici che influenzano la domanda. Ad esempio, gli stati che coltivano tabacco hanno tassi più alti di fumatori rispetto a gran parte degli altri stati. Questi fattori potrebbero essere legati alle imposte? Sembra ragionevole supporlo: se la produzione di tabacco e di sigarette sono industrie importanti in uno stato, allora esse potrebbero esercitare la loro influenza per tenere basse le imposte specifiche sulle sigarette. Ciò suggerisce che un fattore omesso nella domanda di sigarette –se lo stato coltiva tabacco e produce sigarette– potrebbe essere correlato con le imposte specifiche sulle sigarette. Una soluzione a questa possibile correlazione tra l’errore e lo strumento sarebbe quella di includere informazione sulla dimensione dell’industria del tabacco e delle sigarette nello stato; questo è l’approccio che abbiamo seguito quando abbiamo incluso il reddito come regressore nell’equazione di domanda. Siccome però abbiamo dati panel sul consumo di sigarette, abbiamo a disposizione un approccio diverso che non richiede questa informazione. Come discusso nel capitolo 8, i dati longitudinali permettono di eliminare l’influenza delle variabili che variano tra le entità (stati) ma che non cambiano nel tempo, come il clima e le circostanze storiche che hanno portato a una grande industria del tabacco e delle sigarette in uno stato. Due metodi per far ciò sono stati suggeriti nel capitolo 8: costruire dati sulle variazioni nelle variabili tra due diversi periodi e usare la regressione con effetti fissi. Perché l’analisi sia il più possibile semplice, adottiamo il primo approccio ed eseguiamo regressioni del tipo descritto nella sezione 8.2, basate sulle variazioni delle variabili tra due anni diversi. Il lasso temporale tra i due anni considerati influenza il modo di interpretare le elasticità 1 Questa sezione presuppone la conoscenza delle sezioni 8.1 e 8.2 sui dati panel con T = 2. 350 i i i i i i “generale” — 2005/7/10 — 22:25 — page 351 — #381 i i 10.4. Applicazione alla domanda di sigarette Le esternalità del fumo Il fumo impone costi che non sono interamente sostenuti dal fumatore, ovvero genera esternalità. Una giustificazione economica per l’imposizione fiscale sulle sigarette è perciò l’“internalizzazione” delle esternalità. In teoria, le imposte su un pacchetto di sigarette dovrebbe essere pari al valore in dollari delle esternalità create fumandolo. Quali sono però precisamente le esternalità causate dal vizio del fumo, misurate in dollari per pacchetto? Molti studi hanno utilizzato metodi econometrici per stimarle. Le esternalità negative (i costi) sostenute dagli altri includono i costi delle cure mediche a carico del governo per trattare le malattie dei fumatori, i costi per le cure mediche dei non fumatori riconducibili al fumo passivo e gli incendi causati da sigarette. Da un punto di vista puramente economico, però, il vizio del fumo ha anche esternalità positive, o benefici. Il beneficio maggiore è che i fumatori tendono a pagare molto più per la sicurezza sociale (pensioni pubbliche) di quanto non ne traggano vantaggio. Ci sono anche elevati risparmi di spesa per l’assistenza agli anziani (i fumato- ri non vivono in genere cosı̀ tanto). Siccome le esternalità negative del fumo si generano mentre il fumatore è vivo mentre quelle positive si accumulano dopo la sua morte, il valore attuale netto delle esternalità per pacchetto (il valore dei costi netti per pacchetto, scontati al presente) dipende dal tasso di sconto. Gli studi non concordano su un valore specifico in dollari delle esternalità nette. Alcuni suggeriscono che queste, propriamente scontate, siano abbastanza modeste, minori delle imposte correnti. In effetti, le stime più estreme suggeriscono che le esternalità nette siano positive, che i fumatori dovrebbero essere sussidiati! Altri studi, che incorporano costi che sono probabilmente importanti ma difficili da quantificare (come le cure per bambini che non sono sani perché le loro madri fumano) suggeriscono che le esternalità potrebbero essere pari a 1$ per pacchetto, magari anche più. Tuttavia, tutti gli studi convengono che, data la loro tendenza a morire nella tarda mezza età, i fumatori pagano molto più in termini di imposte di quanto ottengano durante il loro breve pensionamento.a a Un primo calcolo è stato riportato da Willard G. Manning et al. (1989). Un calcolo che suggerisce che i costi per le cure mediche aumenterebbero se tutti smettessero di fumare è riportato in Barendregt et al. (1997). Altri studi sulle esternalità del fumo sono passati in rassegna da Chaloupka e Warner (2000). 351 i i i i i i “generale” — 2005/7/10 — 22:25 — page 352 — #382 i i 10.4. Applicazione alla domanda di sigarette stimate. Siccome le sigarette creano assuefazione, le variazioni nei prezzi hanno bisogno di un po’ di tempo per alterare il comportamento. All’inizio, un aumento del prezzo delle sigarette potrebbe avere un effetto ridotto sulla domanda. Nel corso del tempo, tuttavia, esso potrebbe accrescere il desiderio di alcuni fumatori di smettere e, cosa importante, potrebbe scoraggiare i non fumatori dal cominciare. Cosı̀, la reazione della domanda a un aumento nel prezzo potrebbe essere piccola nel breve periodo ma grande nel lungo periodo. Detto diversamente, per un prodotto che crea dipendenza come le sigarette, la domanda potrebbe essere anelastica nel breve periodo, potrebbe cioè avere un’elasticità di breve periodo prossima allo zero, ma potrebbe essere più elastica nel lungo periodo. In quest’analisi, ci focalizziamo sull’elasticità di lungo periodo. Lo facciamo considerando variazioni nelle quantità e nei prezzi che si verificano in periodi di dieci anni. Specificatamente nelle regressioni qui considerate, la variazione decennale nel logaritmo della quantità, ln(Qcigarettes ) − ln(Qcigarettes ), è messa in relazione con la variazione decennale nel logai,1995 i,1985 cigarettes cigarettes ), e la variazione decennale del logaritmo ritmo del prezzo, ln(Pi,1995 ) − ln(Pi,1985 del reddito, ln(Inci,1995 ) − ln(Inci,1985 ). Usiamo due strumenti: la variazione decennale nell’imposta sulle vendite, SalesT axi,1995 − SalesT axi,1985, e la variazione decennale nell’imposta specifica sulle sigarette, CigT axi,1995 − CigT axi,1985 . I risultati sono presentati nella tabella 10.1. Come al solito, ogni colonna della tabella presenta i risultati di una diversa regressione. Tutte le regressioni hanno gli stessi regressori e tutti i coefficienti sono stimati utilizzando i TSLS; la sola differenza tra le tre regressioni è l’insieme di strumenti usati. Nella colonna (1) il solo strumento è l’imposta sulle vendite; nella colonna (2) il solo strumento è l’imposta specifica sulle sigarette; nella colonna (3) entrambe le imposte sono usate come strumenti. Nella regressione IV, l’affidabilità delle stime dei coefficienti dipende dalla validità degli strumenti. Perciò, la prima cosa da osservare nella tabella 10.1 sono le diagnostiche per stabilire la validità degli strumenti. In primo luogo, gli strumenti sono rilevanti? Le statistiche F del primo stadio nelle tre regressioni sono 33, 7, 107, 2 e 88, 6, e quindi in tutti i casi eccedono 10. Ne concludiamo che gli strumenti non sono deboli e possiamo quindi basarci sui metodi standard per l’inferenza statistica (test di ipotesi, intervalli di confidenza) utilizzando le stime dei coefficienti e degli errori standard. In secondo luogo, gli strumenti sono esogeni? Siccome ognuna delle regressione nelle colonne (1) e (2) ha un singolo strumento e un singolo regressore endogeno incluso, i coefficienti di quelle regressioni sono esattamente identificati. Cosı̀ non possiamo utilizzare il test J per nessuna di esse. La regressione della colonna (3), invece, è sovraidentificata perché ci sono due strumenti e un singolo regressore endogeno incluso, e quindi vi è una (m − k = 2 − 1 = 1) restrizione di sovraidentificazione. La statistica J è pari a 4, 93; essa ha una distribuzione χ21 , perciò il suo valore critico al 5% è pari a 3, 84 (tavola 3 dell’appen352 i i i i i i “generale” — 2005/7/10 — 22:25 — page 353 — #383 i i 10.4. Applicazione alla domanda di sigarette dice finale) e l’ipotesi nulla che entrambi gli strumenti siano esogeni è rifiutata al livello di significatività del 5% (questa deduzione può essere derivata direttamente dal valore-p, pari a 0, 026, riportato nella tabella). La ragione per cui la statistica J rifiuta l’ipotesi è che i due strumenti producono coefficienti stimati piuttosto diversi. Quando il solo strumento è l’imposta sulle vendite (colonna (1)), l’elasticità stimata è −0, 94, ma quando il solo strumento è l’imposta specifica sulle sigarette, l’elasticità stimata è −1, 34. Si ricordi l’idea di base della statistica J: se entrambi gli strumenti sono esogeni, allora i due stimatori TSLS che utilizzano un singolo strumento sono consistenti e differiscono tra loro solo per effetto di variazioni campionarie casuali. Se, invece, uno degli strumenti è esogeno e l’altro non lo è, allora lo stimatore basato sullo strumento endogeno è inconsistente, cosa che è individuata dalla statistica J. In questa applicazione, la differenza tra le due elasticità stimate è troppo grande per poter essere il risultato di una pura variazione campionaria, e quindi la statistica J rifiuta l’ipotesi nulla che entrambi gli strumenti siano esogeni. Il rifiuto da parte della statistica J implica che la regressione della colonna (3) si basa su strumenti invalidi (viene meno la condizione di esogenità dello strumento). Che cosa significa questo per le stime delle colonne (1) e (2)? Il rifiuto da parte della statistica J dice che almeno uno degli strumenti è endogeno. Ci sono quindi tre possibilità logiche: l’imposta sulle vendite è esogena ma non lo è l’imposta specifica sulle sigarette, nel qual caso è affidabile la colonna (1); l’imposta specifica per le sigarette è esogena ma non lo è quella sulle vendite, nel qual caso è affidabile la regressione nella colonna (2); nessuna delle due imposte è esogena, e quindi nessuna delle due regressioni è affidabile. L’evidenza statistica non può dirci quale alternativa sia corretta, cosı̀ dobbiamno usare il nostro giudizio. Noi pensiamo che per l’imposta generale sulle vendite l’argomento a favore dell’esogeneità sia più forte che per l’imposta specifica sulle sigarette. Questo perché il processo politico può indurre una relazione tra variazioni dell’imposta specifica sulle sigarette e variazioni del mercato delle sigarette e delle politiche riguardanti il fumo. Ad esempio, se il fumo diminuisce in uno stato perché diventa fuori moda, ci saranno meno fumatori e un indebolimento della lobby per contrastare l’aumento delle imposte specifiche sulle sigarette, il che potrebbe determinare imposte specifiche sulle sigarette più alte. Perciò, variazioni nei gusti (che fanno parte di u) potrebbero essere correlate con variazioni nelle imposte specifiche sulle sigarette (lo strumento). Questo suggerisce di dare poco peso alle stime IV che utilizzano come strumento le imposte per le sole sigarette e di prendere in considerazione solo l’elasticità stimata utilizzando come strumento le imposte generali sulle vendite, che è pari a −0, 94. La stima di −0, 94 indica che il consumo di sigarette non è affatto anelastico: se il prezzo cresce dell’1%, il consumo decresce dello 0, 94%. Ciò potrebbe apparire sorprendente per un prodotto che induce dipendenza, come le sigarette. Ricordiamo però che questa elasticità è stata calcolata utilizzando variazioni decennali ed è perciò un’elasticità di lungo periodo. 353 i i i i i i “generale” — 2005/7/10 — 22:25 — page 354 — #384 i i 10.4. Applicazione alla domanda di sigarette Tabella 10.1: stime TSLS del consumo di sigarette sui dati panel per 48 stati USA Variabile dipendente: ln (Qsigarette ) − ln (Qsigarette ) i,1995 i,1985 Regressore sigarette sigarette ln(Pi,1995 ) − ln(Pi,1985 ) ln(Inci,1995 ) − ln(Inci,1985 ) Intercetta Variabili strumentali Statistica F First-stage Restrizioni di sovraidentificazione test J e p-value (1) (2) (3) -0,94∗∗ (0,21) 0,53 (0,34) 0,21 (0,13) -1,34∗∗ (0,23) 0,43 (0,30) 0,45∗∗ (0,14) -1,20∗∗ (0,20) 0,46 (0,31) 0,37∗∗ (0,12) Sales tax 33,70 Cigarette-specific tax 107,20 Both sales tax and cigarette-specific tax 88,60 4,93 (0,026) Queste regressioni sono state stimate sui dati per 48 stati USA (48 osservazioni su differenze decennali). I dati sono descritti nell’appendice 10.1. Il test-J per le restrizioni di sovraidentificazione è descritto nel concetto chiave 10.6 (il suo valore-p è riportato in parentesi) e la statistica F per il primo stadio è descritta nel concetto chiave 10.5. I coefficienti sono statisticamente significativi al livello ∗ 5% o ∗∗ 1%. Questa stima suggerisce che l’incremento delle imposte può influenzare in modo sostanziale il consumo di sigarette, almeno nel lungo periodo. Quando l’elasticità viene stimata utilizzando variazioni quinquennali dal 1985 al 1990, invece delle variazioni decennali riportate nella tavola 10.1, l’elasticità (stimata usando l’imposta generale sulle vendite come strumento) è pari a −0, 79; per variazioni dal 1990 al 1995, l’elasticità è pari a −0, 68. Queste stime suggeriscono che la domanda è meno elastica su orizzonti quinquennali che decennali. Il risultato di una maggiore elasticità al prezzo su orizzonti più lunghi è coerente con gran parte delle ricerche sulla domanda di sigarette. In tale letteratura, le stime dell’elasticità della domanda tipicamente variano tra −0, 3 e −0, 5, ma sono prevalentemente stime di breve periodo; alcuni studi recenti avanzano l’ipotesi che l’elasticità di lungo periodo potrebbe forse essere il doppio dell’elasticità di breve periodo. 2 2 Il lettore interessato a un approfondimento dell’analisi economica del fumo veda Chaloupka e Warner (2000) e Gruber (2001). 354 i i i i i i “generale” — 2005/7/10 — 22:25 — page 355 — #385 i i 10.5. Dove trovare strumenti validi? 10.5 Dove trovare strumenti validi? In pratica, l’aspetto più difficoltoso della stima IV è trovare strumenti che siano rilevanti ed esogeni. Ci sono due approcci prevalenti, che riflettono due diverse prospettive circa la modellazione econometrica e statistica. Il primo approccio è lasciare che sia la teoria economica a suggerire gli strumenti. Ad esempio, la conoscenza dell’economia del mercato agricolo da parte dei Wright li ha indotti a cercare uno strumento che spostasse la curva d’offerta ma non la curva di domanda; questo, a sua volta, li ha spinti a considerare le condizioni meteorologiche nelle regioni agricole. Un’area dove questo approccio ha avuto particolare successo è quello dell’economia finanziaria. Alcuni modelli economici di comportamento degli investitori richiedono ipotesi sul modo in cui gli investitori fanno previsioni, il che implica allora particolari insiemi di variabili che sono incorrelate con l’errore. Tali modelli sono talvolta non lineari nei dati e nei parametri, e perciò gli stimatori IV discussi in questo capitolo non possono essere utilizzati. Si usa invece un’estensione dei metodi IV a modelli non lineari, detta metodo generalizzato dei momenti. Le teorie economiche sono tuttavia astrazioni che spesso non tengono conto delle sfumature e dei dettagli necessari all’analisi di particolari dati. Cosı̀, questo approccio non sempre funziona. Il secondo approccio per costruire strumenti è cercare fonti esogene di variazione in X che nascano da fenomeni casuali che determinano modifiche nel regressore endogeno. Ad esempio, nel nostro esempio della sezione 10.1, i danni dovuti al terremoto hanno aumentato la dimensione media delle classi in alcuni distretti scolastici, ma questa variazione nella dimensione delle classi non era in relazione con le potenziali variabili omesse che influenzano i rendimenti degli studenti. Un simile approccio richiede in genere la conoscenza del problema da studiare e un’attenzione particolare ai dettagli riguardanti i dati; sarà perciò spiegato meglio attraverso alcuni esempi. Tre esempi Passiamo a considerare tre applicazioni empiriche della regressione IV che forniscono esempi di come ricercatori diversi abbiano usato la loro conoscenza del problema empirico per individuare variabili strumentali. Incarcerare i colpevoli riduce la criminalità? Questa è una questione che solo un’economista chiederebbe. Dopotutto, un criminale non può commettere un crimine al di fuori della prigione mentre è in carcere, e il fatto che alcuni criminali siano catturati e incarcerati serve da deterrente per gli altri. La grandezza però dell’effetto combinato –la variazione nel tasso di criminalità associata a una variazione nell’1% della popolazione incarcerata– è una questione empirica. 355 i i i i i i “generale” — 2005/7/10 — 22:25 — page 356 — #386 i i 10.5. Dove trovare strumenti validi? Una strategia per stimare questo effetto è considerare una regressione dei tassi di criminalità (numero di crimini per 100.000 abitanti) sui tassi di carcerazione (numero di carcerati per 100.000 abitanti), usando dati annuali a un livello appropriato di giurisdizione (ad esempio, gli stati degli USA). Questa regressione potrebbe includere variabili di controllo che misurino le condizioni economiche (la criminalità aumenta quando peggiorano le condizioni economiche generali), demografiche (i giovani commettono più crimini rispetto alle persone di età maggiore) e cosı̀ via. A minare l’analisi c’è tuttavia una possibilità seria di distorsione da causalità simultanea: se aumenta il tasso di criminalità e la polizia fa il suo lavoro, ci saranno più carcerati. Da un lato, l’accresciuta carcerazione riduce il tasso di criminalità; dall’altro, un aumento del tasso di criminalità fa aumentare la popolazione incarcerata. Come nell’esempio del burro della figura 10.1, a causa di questa causalità simultanea una regressione OLS del tasso di criminalità sul tasso di carcerazione stimerà una qualche combinazione complessa di questi due effetti. Il problema non può essere risolto utilizzando migliori variabili di controllo. Questa distorsione da causalità simultanea, tuttavia, può essere eliminata trovando un’appropriata variabile stumentale e usando i TSLS. Lo strumento deve essere correlato col tasso di carcerazione (deve essere rilevante), ma deve anche essere incorrelato con il termine d’errore nell’equazione del tasso di criminalità (deve essere esogeno), cioè deve influenzare il tasso di carcerazione ma essere incorrelato con qualunque fattore inosservato che determina il tasso di criminalità. Dove si può trovare qualcosa che influenza la carcerazione, ma non ha effetto diretto sul tasso di criminalità? Una possibilità sono le variazioni esogene nella capacità delle prigioni esistenti. Siccome c’è bisogno di tempo per costruire una prigione, restrizioni di breve periodo dovute alla capienza possono costringere uno stato a rilasciare i prigionieri prematuramente, o a ridurre altrimenti i tassi di carcerazione. Usando un simile ragionamento, Levitt (1996) ha suggerito che le dispute giudiziarie che hanno l’obiettivo di ridurre il sovraffolamento delle carceri potrebbero servire come variabile strumentale, e ha implementato questa idea usando dati panel per gli stati USA dal 1972 al 1993. Sono strumenti validi le variabili che misurano le dispute relative al sovraffollamento? Sebbene Levitt non riporti le statistiche F del primo stadio, le dispute relative al sovraffolamento delle carceri hanno rallentato, nei suoi dati, la crescita delle carcerazioni, suggerendo la rilevanza di questo strumento. Se le dispute relative al sovraffollamento sono indotte dalle condizioni delle prigioni ma non dal tasso di criminalità o dalle sue determinanti, allora questo strumento è esogeno. Poiché Levitt ha separato la legislazione relativa al sovraffollamento in diversi tipi, ottenendo cosı̀ vari strumenti, è stato in grado di verificare le restrizioni di sovraidentificazione e non le ha rifiutate sulla base del test J, il che rafforza la presunzione che i suoi strumenti siano validi. Tramite questi strumenti e il metodo dei TSLS, Levitt ha stimato che l’effetto della car356 i i i i i i “generale” — 2005/7/10 — 22:25 — page 357 — #387 i i 10.5. Dove trovare strumenti validi? cerazione sul tasso di criminalità è sostanziale. La sua stima TSLS è pari a tre volte l’effetto stimato con gli OLS, suggerendo che gli OLS sono affetti da una forte distorsione da causalità simultanea. Ridurre la dimensione delle classi aumenta i punteggi del test? Come abbiamo visto nell’analisi empirica della parte II, le scuole con classi piccole sono tendenzialmente più ricche e i loro studenti hanno opportunità di apprendimento più elevate sia all’interno sia all’esterno delle classi. Nella parte II, abbiamo usato la regressione multipla per affrontare la minaccia rappresentata dalla distorsione da variabile omessa controllando per varie misure di benessere economico degli studenti, la conoscenza della lingua inglese e cosı̀ via. Nonostante ciò, uno scettico potrebbe chiedersi se abbiamo fatto abbastanza: se abbiamo lasciato fuori qualcosa d’importante, le nostre stime dell’effetto della dimensione delle classi rimarrebbero distorte. Questa distorsione potenziale da variabile omessa potrebbe essere affrontata includendo le giuste variabili di controllo, ma se i dati non sono disponibili (alcuni, come le opportunità di apprendimento all’esterno della scuola, sono difficili da misurare), allora un approccio alternativo potrebbe essere quello di utilizzare la regressione IV. Ciò richiede una variabile strumentale che sia correlata con la dimensione delle classi (rilevanza) ma incorrelata con quelle determinanti omesse della prestazione nel test che influenzano l’errore, come l’interesse dei genitori per l’istruzione dei figli, le opportunità di apprendimento al di fuori della classe, la qualità degli insegnanti, i servizi scolastici ecc. (esogeneità). Dove cercare uno strumento che induca variazioni casuali esogene nella dimensione delle classi, ma che non sia correlato con le altre determinanti della prestazione nel test? Hoxby (2000) ha suggerito la biologia. A causa di fluttuazioni casuali nella distribuzione temporale delle nascite, la dimensione delle classi negli asili varia da un anno all’altro. Sebbene il numero effettivo di bambini che cominciano a frequentare l’asilo possa essere endogeno (notizie recenti sulla scuola potrebbero influenzare la decisione dei genitori di mandare un bambino a una scuola privata), l’autrice ha sostenuto che il numero potenziale di bambini che cominciano a frequentare l’asilo –il numero di bambini di quattro anni nel distretto– è in larga parte riconducibile alle fluttuazioni casuali nelle date di nascita dei bambini. Le iscrizioni potenziali sono un valido strumento? Il fatto che siano esogene dipende dall’assenza di correlazione con le determinanti inosservate della dimensione delle classi. Le fluttuazioni biologiche nelle iscrizioni potenziali sono sicuramente esogene, ma le iscrizioni potenziali fluttuano anche perché i genitori con figli piccoli scelgono di spostarsi da un distretto scolastico in difficoltà a uno in fase di miglioramento. Se cosı̀, un aumento delle iscrizioni potenziali potrebbe essere correlato con fattori inosservati, quali la qualità della gestione della scuola, il che renderebbe questo strumento invalido. Hoxby ha affrontato questo problema sostenendo che, proprio per le ragioni menzionate, l’aumento o la diminuzione del 357 i i i i i i “generale” — 2005/7/10 — 22:25 — page 358 — #388 i i 10.5. Dove trovare strumenti validi? bacino di studenti potenziali avvengono gradualmente nell’arco di molti anni, mentre fluttuazioni casuali nelle date di nascita produrrebbero nel breve periodo “picchi” delle iscrizioni potenziali. Cosı̀, ha usato come strumento non l’iscrizione potenziale ma la deviazione dell’iscrizione potenziale dal suo trend di lungo periodo. Tali deviazioni soddisfano il criterio per la rilevanza dello strumento (le statistiche F del primo stadio eccedono tutte 100). L’autrice presenta un buon argomento a favore dell’esogeneità di questo strumento, ma, come in tutte le analisi IV, la credibilità di questa assunzione è in ultima analisi una questione di giudizio. Hoxby ha implementato questa strategia usando dati panel dettagliati sulle scuole elementari del Connecticut negli anni Ottanta e Novanta. I dati panel le hanno permesso di includere effetti fissi di scuola, che, in aggiunta alla strategia delle variabili strumentali, consentono di affrontare il problema della distorsione da variabile omessa a livello di singola scuola. Le sue stime TSLS suggeriscono che l’effetto della dimensione delle classi sui punteggi del test è ridotto; gran parte delle sue stime non sono significativamente diverse da zero. Il trattamento aggressivo degli attacchi di cuore prolunga la vita? I nuovi trattamenti aggressivi per le vittime di attacchi di cuore (tecnicamente, infarti del miocardio acuti, o AMI dall’inglese Acute Myocardical Infarction) sono potenziali salvavita. Prima che una nuova procedura medica (in questo esempio la cateterizzazione cardiaca 3 ) sia approvata per l’uso generale, deve passare attraverso la sperimentazione clinica, una serie di esperimenti controllati casualizzati disegnati per misurarne gli effetti diretti e gli effetti collaterali. Tuttavia, una cosa sono i risultati positivi nella sperimentazione clinica; un’altra è la prestazione effettiva nel mondo reale. Un punto di partenza naturale per stimare gli effetti reali della cateterizzazione cardiaca è confrontare i pazienti che hanno ricevuto il trattamento con quelli che non lo hanno ricevuto. Questo suggerisce una regressione della lunghezza della sopravvivenza del paziente sull’indicatore binario di trattamento (se il paziente ha ricevuto la cateterizzazione cardiaca) e altre variabili di controllo che influenzano la mortalità (età, peso, altre misure delle condizioni di salute ecc.). Il coefficiente della variabile indicatrice rappresenta l’aumento dell’aspettativa di vita del paziente dovuto al trattamento. Sfortunatamente, lo stimatore OLS è soggetto a distorsione: la cateterizzazione cardiaca non viene “assegnata” al paziente in modo casuale; piuttosto, è effettuata perché il dottore e il paziente decidono che potrebbe essere efficace. Se la loro decisione è basata in parte su fattori rilevanti per i loro effetti sulla salute, ma inosservati perché assenti nei dati, allora la decisione di trattamento sarà correlata con l’errore di regressione. Se i pazienti più in salute sono quelli che ricevono il trattamento, lo stimatore OLS sarà distorto (il trattamento sarà correlato con una variabile omessa) e il trattamento apparirà più efficace di quanto lo sia in realtà. 3 La cateterizzazione cardiaca è una procedura in cui un catetere, o tubo, viene inserito in un vaso sanguigno e guidato verso il cuore al fine di ottenere informazioni sul cuore e le arterie coronarie. 358 i i i i i i “generale” — 2005/7/10 — 22:25 — page 359 — #389 i i 10.5. Dove trovare strumenti validi? Questa distorsione potenziale può essere eliminata tramite regressioni IV che utilizzino una variabile strumentale valida. Lo strumento deve essere correlato con il trattamento (deve essere rilevante), ma deve essere incorrelato con i fattori omessi riguardanti la salute che influenzano la sopravvivenza (deve essere esogeno). Dove cercare qualcosa che influenzi il trattamento, ma non gli esiti sanitari, a parte il suo effetto indiretto tramite il trattamento? McClellan, McNeil e Newhouse (1994) hanno suggerito la geografia. La maggior parte degli ospedali presenti nei loro dati non erano specializzati nella cateterizzazione cardiaca, cosı̀ molti pazienti erano più vicini a ospedali “regolari”, che non offrivano questo trattamento, che a ospedali specializzati nella cateterizzazione cardiaca. McClellan, McNeil e Newhouse hanno perciò usato come variabile strumentale la differenza tra la distanza della casa dei pazienti AMI dal più vicino ospedale per la cateterizzazione cardiaca e la distanza dall’ospedale più vicino: tale distanza è nulla se l’ospedale più vicino è un ospedale con cateterizzazione cardiaca, altrimenti è positiva. Se la distanza relativa influenza la probabilità di ricevere questo trattamento, allora è rilevante; se è distribuita casualmente tra i pazienti AMI, allora è esogena. La distanza relativa dal più vicino ospedale con cateterizzazione cardiaca è un valido strumento? McClellan, McNeil e Newhouse non riportano le statistiche F del primo stadio, ma forniscono altre prove empiriche del fatto che essa non è uno strumento debole. Questa misura di distanza è esogena? Due sono le loro argomentazioni. In primo luogo, essi utilizzano la loro esperienza medica e la loro conoscenza del sistema sanitario per giustificare il fatto che la distanza da un ospedale sia plausibilmente incorrelata con ognuna delle variabili inosservabili che determinano l’AMI. In secondo luogo, essi utilizzano i dati su alcune variabili addizionali che influenzano l’AMI, come il peso del paziente, e nel loro campione la distanza è incorrelata con queste determinanti osservabili della sopravvivenza; questo, sostengono, rende più credibile il fatto che la distanza sia incorrelata anche con le determinanti inosservabili incluse nel termine d’errore. Usando 205.021 osservazioni per i cittadini americani con almeno 64 anni d’età che hanno subito un AMI nel 1987, McClellan, McNeil e Newhouse hanno raggiunto una conclusione sorprendente: le loro stime TSLS suggeriscono che la cateterizzazione cardiaca ha un’efficacia modesta, quasi nulla, sulla salute, cioè la cateterizzazione cardiaca non prolunga la vita in modo sostanziale. Al contrario, le stime OLS suggeriscono un ampio effetto positivo. Gli autori interpretano tale differenza come evidenza di distorsione nelle stime OLS. Il metodo IV di McClellan, McNeil e Newhouse ha un’interessante interpretazione. L’analisi OLS utilizzava come regressore il trattamento effettivo, ma siccome il trattamento effettivo è il risultato di una decisione da parte del paziente e del medico, gli autori sostengono che il trattamento effettivo è correlato con il termine d’errore. Invece, i TSLS utilizzano il trattamento predetto, dove la variazione nel trattamento predetto nasce dalla variazione nella variabile strumentale: i pazienti più vicini a un ospedale con cateterizzazione cardiaca è più 359 i i i i i i “generale” — 2005/7/10 — 22:25 — page 360 — #390 i i 10.6. Conclusioni probabile che ricevano questo trattamento. Questa interpretazione ha due implicazioni. In primo luogo, la regressione IV in realtà stima l’effetto del trattamento non su un paziente “tipico” scelto casualmente, ma piuttosto su pazienti per i quali la distanza è una considerazione importante nella decisione di sottoporsi al trattamento. L’effetto su tali pazienti potrebbe essere diverso dall’effetto su un paziente tipico, il che fornisce una spiegazione della maggiore efficacia stimata del trattamento nella sperimentazione clinica che nello studio IV di McClellan, McNeil e Newhouse. In secondo luogo, suggerisce una strategia generale per trovare strumenti in questo tipo di contesto: si tratta di trovare uno strumento che influenza la probabilità di trattamento, ma lo fa per ragioni che non dipendono dal risultato eccetto che attraverso il loro effetto sulla probabilità del trattamento. Queste implicazioni sono entrambe applicabili a studi sperimentali e “quasisperimentali”, l’argomento del capitolo 11. 10.6 Conclusioni Dal semplice problema iniziale di stimare quanto burro si acquisterà in meno se il suo prezzo sale, i metodi IV si sono evoluti in un approccio generale per stimare regressioni quando una o più variabili sono correlate con gli errori. La regressione con variabili strumentali utilizza gli strumenti per isolare quelle variazioni nei regressori endogeni che sono incorrelate con l’errore della regressione d’interesse; questo è il primo stadio dei minimi quadrati a due stadi. Ciò, a sua volta, consente di stimare l’effetto d’interesse nel secondo stadio. Il successo di una regressione IV richiede strumenti validi, ovvero strumenti che sono sia rilevanti (non deboli) sia esogeni. Se gli strumenti sono deboli, allora lo stimatore TSLS può essere distorto, anche in grandi campioni, e le inferenze statistiche basate sulle statistiche t dei TSLS e sugli intervalli di confidenza possono essere fuorvianti. Fortunatamente, quando c’è un singolo regressore endogeno è possibile verificare la debolezza degli strumenti semplicemente attraverso la statistica F del primo stadio. Se gli strumenti non sono esogeni, cioè se uno o più strumenti sono correlati con l’errore, allora lo stimatore TSLS è inconsistente. Se ci sono più strumenti che regressori endogeni, allora l’esogeneità degli strumenti può essere esaminata sottoponendo a verifica le restrizioni di sovraidentificazione. Tuttavia, l’assunzione cruciale –che ci siano almeno tanti strumenti esogeni quanti regressori endogeni– non può essere verificata. Tocca pertanto all’analista empirico e al lettore critico il compito di usare la loro conoscenza dell’applicazione empirica per valutare se questa assunzione sia ragionevole. L’interpretazione della regressione IV come un modo per sfruttare variazioni esogene note nel regressore endogeno può essere usata come guida nella ricerca di potenziali variabili strumentali in una particolare applicazione. Questa interpretazione sottende la maggior parte dell’analisi empirica nell’area che va sotto il titolo generale di valutazione di programmi, 360 i i i i i i “generale” — 2005/7/10 — 22:25 — page 361 — #391 i i Sommario in cui gli esperimenti o i quasi-esperimenti sono usati per stimare l’effetto di programmi, politiche o altri interventi su alcuni indicatori di risultato. In questo tipo di applicazioni sorgono una serie di problemi addizionali, per esempio l’interpretazione dei risultati IV quando, come nell’esempio della cateterizzazione cardiaca, “pazienti” diversi potrebbero reagire diversamente allo stesso “trattamento”. Questi e altri aspetti della valutazione empirica dei programmi sono affrontati nel capitolo 11. Sommario 1. La regressione con variabili strumentali è un metodo per stimare i coefficienti di regressione quando uno o più regressori sono correlati con l’errore. 2. Le variabili endogene sono correlate con l’errore nell’equazione d’interesse; le variabili esogene sono incorrelate con l’errore. 3. Perché uno strumento sia valido, deve essere (1) correlato con la variabile endogena inclusa e (2) esogeno. 4. La regressione IV richiede almeno tanti strumenti quante sono le variabili endogene incluse. 5. Lo stimatore TSLS ha due stadi: nel primo, si effettua una regressione delle variabili endogene incluse sulle variabili esogene incluse e sugli strumenti; nel secondo, si effettua una regressione della variabile dipendente sulle variabili esogene incluse e sui valori predetti delle variabili endogene incluse, ottenuti dalla regressione (dalle regressioni) del primo stadio. 6. Gli strumenti deboli (gli strumenti che sono quasi incorrelati con le variabili endogene incluse) rendono distorto lo stimatore TSLS e rendono inaffidabili gli intervalli di confidenza e i test d’ipotesi sono inaffidabili. 7. Se uno strumento non è esogeno, allora lo stimatore TSLS è inconsistente. Termini chiave regressione con variabili strumentali (IV) (327) variabili strumentali (strumenti) (327) variabile endogena (328) variabile esogena (328) condizione di rilevanza dello strumento (329) condizione di esogeneità dello strumento (329) minimi quadrati a due stadi (329) variabili esogene incluse (337) identificazione esatta (338) sovraidentificazione (338) sottoidentificazione (338) forma ridotta (338) 361 i i i i i i “generale” — 2005/7/10 — 22:25 — page 362 — #392 i i Sommario regressione del primo stadio (339) regressione del secondo stadio (339) strumenti deboli (344) statistica F del primo stadio (345) test delle restrizioni di sovraidentificazione (348) Verifica dei concetti 10.1 Nel modello di regressione per la curva di domanda (10.3), ln(P ibutter ) è positivamente correlato con l’errore ui ? Se β1 fosse stimato tramite gli OLS, il valore stimato sarebbe maggiore o minore del vero valore di β1 ? Argomenta la risposta. 10.2 Nello studio della domanda di sigarette condotta in questo capitolo, si supponga di aver usato come strumento il numero di alberi pro capite che si trovano nello stato. È uno strumento rilevante? È uno strumento valido? 10.3 Nel suo studio sugli effetti della carcerazione sui tassi di criminalità, si supponga che Levitt abbia usato come strumento il numero di avvocati pro capite. È uno strumento rilevante? È esogeno? È uno strumento valido? 10.4 Nel loro studio sull’efficacia della cateterizzazione cardiaca, McClellan, McNeil e Newhouse (1994) hanno usato come strumento la differenza tra la distanza tra gli ospedali che praticano la cateterizzazione cardiaca e i comuni ospedali. Come si potrebbe determinare la rilevanza di questo strumento? Come si potrebbe determinare l’esogeneità di questo strumento? Esercizi 10.1 Questa domanda fa riferimento alla regressione con dati panel riportata nella tabella 10.1. a. Si supponga che il governo federale stia valutando una nuova imposta sulle sigarette che si stima incrementi il prezzo al dettaglio di 0, 10$ per pacchetto. Il prezzo corrente per pacchetto è 2, 00$. Si utilizzi la regressione della colonna (1) per predire la variazione nella domanda. Si costruisca un intervallo di confidenza al 95% per la variazione nella domanda. b. Si supponga che gli Stati Uniti entrino in recessione e che il reddito cali del 2%. Si utilizzi la regressione nella colonna (1) per predire la variazione nella domanda. c. Le recessioni tipicamente durano meno di un anno. Si ritiene che la regressione della colonna (1) fornirà una risposta affidabile alla domanda nella (b)? Perché o perché no? 362 i i i i i i “generale” — 2005/7/10 — 22:25 — page 363 — #393 i i Appendice d. Si supponga che la statistica F della colonna (1) sia 3, 6 invece di 33, 6. La regressione fornirebbe una risposta affidabile alla domanda posta nella (a)? Perché o perché no? 10.2 Si consideri il modello di regressione con un singolo regressore: Y i = β0 + β1 Xi + ui . Si supponga che siano soddisfatte le ipotesi del concetto chiave 4.3. a. Si mostri che Xi è uno strumento valido. Si mostri, cioè, che il concetto chiave 10.3 è soddisfatto con Zi = Xi . b. Si mostri che le assunzioni per la regressione IV del concetto chiave 10.4 sono soddisfatte con questa scelta di Zi c. Si mostri che lo stimatore IV costruito usando Zi = Xi è identico allo stimatore OLS. 10.3 Uno studente è interessato alla stima della varianza dell’errore nella (10.1). a. Si supponga che usi lo stimatore dalla regressione del secondo stadio del TSLS: Pn 1 T SLS σ̂a2 = n−2 − β̂1T SLS X̂i )2 , dove X̂i è il valore stimato dalla i=1 (Yi − β̂0 regressione del primo stadio. Questo stimatore è consistente? (Ai fini di questa domanda si supponga che il campione sia molto grande e che gli stimatori TSLS siano essenzialmente identici a β0 e β1 ). 1 Pn T SLS − β̂1T SLS X̂i )2 è consistente? b. σ̂b2 = n−2 i=1 (Yi − β̂0 10.4 Si consideri la stima TSLS con una singola variabile endogena inclusa e un solo strumento. Allora, il valore predetto dalla regressione del primo stadio è X̂i = π̂0 + π̂1 Zi . Si utilizzi la definizione di varianza e covarianza campionarie per mostrare che s X̂Y = π̂1 sZY e s2X̂ = π̂12 s2Z . Si utilizzi questo risultato per completare i passaggi per la derivazione della fomula (10.4) nell’appendice 10.2. Appendice 10.1: i dati panel sul consumo di sigarette Questi dati consistono di osservazioni annuali dal 1985 al 1995 per i 48 stati continentali USA. La quantità consumata è misurata dalle vendite pro capite di pacchetti di sigarette per anno fiscale, ottenute dai dati sulle imposte statali. Il prezzo è il prezzo medio di vendita di un pacchetto di sigarette nell’anno fiscale, incluse le imposte. Il reddito è il reddito pro capite. L’imposta generale sulle vendite è la media, in centesimi per pacchetto, delle imposte generali applicate a tutti i beni di consumo venduti. La tassa specifica sulle sigarette è l’imposta applicata alle sole sigarette. I prezzi, il reddito e le imposte usati nelle regressioni di questo capitolo sono tutti deflazionati con l’indice dei prezzi al consumo e sono perciò espressi in dollari costanti (reali). Siamo grati al Professor Jonathan Gruber del MIT per averci fornito questi dati. 363 i i i i i i “generale” — 2005/7/10 — 22:25 — page 364 — #394 i i Appendice Appendice 10.2: derivazione della formula (10.4) per lo stimatore TSLS Il primo stadio dei TSLS consiste in una regressione OLS di Xi sullo strumento Zi e nel calcolo del valore predetto, X̂i ; il secondo stadio consiste in una regressione OLS di Yi su X̂i . Di conseguenza, la formula per lo stimatore TSLS, espressa come funzione del valore predetto X̂i , è la fomula dello stimatore OLS nel concetto chiave 4.2, con X i sostituito da X̂i . Perciò, β̂1T SLS = sX̂Y /s2X̂ , dove s2X̂ è la varianza campionaria di Xi e sX̂Y è la covarianza campionaria tra Yi e X̂i . Poiché X̂i è il valore predetto di Xi dalla regressione del primo stadio, X̂i = π̂0 +π̂1 Zi , le definizioni di varianza e covarianza campionaria implicano che s X̂Y = π̂1 sZY e s2X̂ = π̂12 s2Z (esercizio 10.4). Perciò, lo stimatore TSLS può essere scritto come β̂1T SLS = sX̂Y /s2X̂ = sZY /(π̂1 s2Z ). Infine, π̂1 è la pendenza della regressione OLS del primo stadio dei TSLS, ovvero π̂1 = sZY /s2Z . Sostituendo la formula per π̂1 nella formula per β̂1T SLS si ottiene la formula (10.4) per lo stimatore TSLS. Appendice 10.3: distribuzione dello stimatore TSLS per grandi campioni Questa appendice studia la distribuzione in grandi campioni dello stimatore TSLS per il caso considerato nella sezione 10.1, ovvero con un solo strumento, una singola variabile endogena inclusa e nessuna variabile esogena. Per cominciare, deriviamo la formula dello stimatore TSLS come funzione degli errori, la quale costituisce la base della rimanente discussione, similmente a quanto fatto per lo stimatore OLS (4.51) nell’appendice 4.3. Dalla (10.1), Yi − Ȳ = β1 (Xi − X̄) + (ui − ū). Di conseguenza, la covarianza campionaria tra Z e Y può essere espressa come n sZY = 1 X (Zi − Z̄)(Yi − Ȳ ) n − 1 i=1 n = 1 X (Zi − Z̄)[β1 (Xi − X̄) + (ui − ū)] n − 1 i=1 n = β1 sZX + 1 X (Zi − Z̄)(ui − ū) n − 1 i=1 n = β1 sZX + 1 X (Zi − Z̄)ui , n − 1 i=1 (10.18) 364 i i i i i i “generale” — 2005/7/10 — 22:25 — page 365 — #395 i i Appendice Pn 1 dove sZX = n−1 i=1 (Zi − Z̄)(Xi − X̄) e dove l’uguaglianza finale segue dal fatto che Pn i=1 (Zi − Z̄) = 0. Sostituendo la definizione di sZX e l’epressione finale della (10.18) nella definizione di β̂1T SLS e moltiplicando il numeratore e il denominatore per (n − 1)/n, si ottiene n P 1 (Zi − Z̄)ui n i=1 β̂1T SLS = β1 + P . (10.19) n 1 (Z − Z̄)(X − X̄) i i n i=1 Distribuzione per grandi campioni di β̂1T SLS quando valgono le assunzioni della regressione IV del concetto chiave 10.4 La formula (10.19) per lo stimatore TSLS è simile alla formula (4.51) dell’appendice 4.3 per lo stimatore OLS, eccetto che Z appare al numeratore al posto di X e il denominatore è la covarianza tra Z e X invece che la varianza di X. Grazie a queste similarità e data l’esogeneità di Z, l’argomento dell’appendice 4.2 per il quale lo stimatore OLS è distribuito normalmente in grandi campioni si estende a β̂1T SLS . Nello specifico, quando il campione è grande, Z̄ ∼ = µZ , cosı̀ il numeratore è approsPn simativamente q̄ = n1 i=1 qi , dove qi = (Zi − µZ )ui . Siccome lo strumento è esogeno, E(qi ) = 0. Per le ipotesi della regressione IV del concetto chiave 10.4, q i è i.i.d. con varianza σq2 = var[(Zi − µZ )ui ]. Ne segue che var(q̄) = σq̄2 = σq2 /n e, per il teorema limite centrale, q̄/σq̄ si distribuisce per grandi campioni come N (0, 1). Poiché la covarianza campionaria è uno stimatore consistente della covarianza della pop polazione, sZX → cov(Zi , Xi ), la quale, per la rilevanza dello strumento, è non nulla. Cosı̀ per la (10.19), β̂1T SLS ∼ = β1 + q̄/cov(Zi , Xi ), e quindi β̂1T SLS si distribuisce per grandi campioni approssimativamente come N (β1 , σβ̂2 T SLS ), dove σβ̂2 T SLS = σq̄2 /[cov(Zi , Xi )]2 = 1 1 (1/n)var[(Zi − µZ )ui ]/[cov(Zi , Xi )]2 , che è la formula (10.8). Appendice 10.4: distribuzione per grandi campioni dello stimatore TSLS quando lo strumento non è valido Questa appendice considera la distribuzione per grandi campioni dello stimatore TSLS nel caso considerato nella sezione 10.1 (una X e una Z), quando non vale l’una o l’altra delle condizioni per la validità degli strumenti. Se non vale la condizione per la rilevanza dello strumento (ovvero lo strumento è debole), la distribuzione per grandi campioni dello stimatore TSLS è non normale; in effetti, la sua distribuzione è quella del rapporto tra due variabili 365 i i i i i i “generale” — 2005/7/10 — 22:25 — page 366 — #396 i i Appendice casuali normali. Se non vale la condizione per l’esogeneità dello strumento, lo stimatore TSLS è inconsistente. Distribuzione per grandi campioni di β̂1T SLS quando lo strumento è debole Consideriamo anzitutto il caso in cui lo strumento è irrilevante, cosicché cov(Z i , Xi ) = 0. Il ragionamento dell’appendice 10.3 porterebbe quindi a dividere per zero. Per evitare questo problema, dobbiamo prestare maggiore attenzione al comportamento del termine al denominatore della (10.19), quando la covarianza della popolazione è nulla. Cominciamo riscrivendo la (10.19). Per la consistenza della media campionaria, per grandi campioni Z̄ tende a µZ e X̄ tende a µX . Cosı̀, il termine al denominatore delPn Pn la (10.19) è approssimativamente n1 i=1 (Zi − µZ )(Xi − µX ) = n1 i=1 ri = r̄, dove ri = (Zi − µZ )(Xi − µX ). Siano σr2 = var[(Zi − µZ )(Xi − µX )] e σr̄2 = σr2 /n e si definiscano q̄, σq̄2 e σq2 come nell’appendice 10.3. Allora la (10.19) implica che, per grandi campioni, q̄/σq̄ σq q̄/σq̄ σq̄ q̄ T SLS ∼ = β1 + . (10.20) β̂1 = β1 + = β 1 + r̄ σr̄ r̄/σr̄ σr r̄/σr̄ Se lo strumento è irrilevante, E(ri ) = cov(Zi , Xi ) = 0. Perché, r̄ è la media campionaria delle variabili casuali ri , i = 1, . . . , n, che sono i.i.d. (per la seconda assunzione dei minimi quadrati), hanno varianza σr2 = var[(Zi − µZ )(Xi − µX )] (che è finita per la terza assunzione della regressione IV) e hanno una media nulla (perché gli strumenti sono irrilevanti). Ne segue che il teorema limite centrale si applica ad r̄. Nello specifico, r̄/σ r̄ si distribuisce approssimativamente come N (0, 1). Perciò, l’espressione finale della (10.20) implica che, per grandi campioni, la distribuzione di β̂1T SLS − β1 corrisponde alla distribuzione di aS, dove a = σq /σr ed S è il rapporto di due variabili casuali, ognuna delle quali si distribuisce come una normale standard (queste due variabili casuali normali standard sono correlate). In altre parole, quando lo strumento è irrilevante, il teorema limite centrale si applica al denominatore cosı̀ come al numeratore dello stimatore TSLS, e quindi la distribuzione in grandi campioni dello stimatore TSLS è la distribuzione del rapporto di due variabili casuali normali. Siccome Xi e ui sono correlate, queste due variabili casuali normali sono correlate e la distribuzione per grandi campioni dello stimatore TSLS quando lo strumento è irrilevante è complessa. In effetti, la distribuzione per grandi campioni dello stimatore TSLS con strumenti irrilevanti è centrata attorno al limite in probabilità dello stimatore OLS. Perciò, quando lo strumento è irrilevante, lo stimatore TSLS non elimina la distorsione degli OLS e, inoltre, ha una distribuzione non normale, anche per grandi campioni. Quando lo strumento è debole ma non irrilevante, la distribuzione dello stimatore TSLS continua a essere non normale, cosı̀ la lezione generale circa il caso estremo di uno strumento 366 i i i i i i “generale” — 2005/7/10 — 22:25 — page 367 — #397 i i Appendice irrilevante si estende al caso di strumenti deboli. Ad esempio, è possibile dimostrare che, per grandi campioni, la media della distribuzione campionaria dello stimatore TSLS è approssimativamente uguale a β1 + (β1OLS − β1 )/[E(F ) − 1], dove β1OLS è il limite (in probabilità) p dello stimatore OLS, cioè β̂1 → β1OLS e E(F ) è il valore atteso della statistica F del primo stadio. Questa espressione per la media dello stimatore TSLS è la fonte del valore di soglia suggerito nel concetto chiave 10.5 per la diagnostica relativa agli strumenti deboli. Nello specifico, se E(F ) = 10, la distorsione per grandi campioni dello stimatore TSLS, relativamente alla distorsione per grandi campioni dello stimatore OLS, è pari a 1/9, cioè appena sopra il 10%, abbastanza piccola da essere accettabile in molte applicazioni. Distribuzione per grandi campioni di β̂1T SLS quando lo strumento è endogeno Il numeratore nell’espressione finale della (10.19) converge in probabilità a cov(Z i , ui ). Se lo strumento è esogeno, questa covarianza è uguale a zero e lo stimatore TSLS è consistente (assumendo che lo strumento non sia debole). Se però lo strumento non è esogeno, allora, p posto che lo strumento non sia debole, β̂1T SLS → β1 + cov(Zi , ui )/cov(Zi , Xi ) 6= β1 . Cosı̀, se lo strumento non è esogeno, lo stimatore TSLS è inconsistente. 367 i i i i i i “generale” — 2005/7/10 — 22:25 — page 368 — #398 i i i i i i i i “generale” — 2005/7/10 — 22:25 — page 369 — #399 i i Capitolo 11 Esperimenti e quasi esperimenti In molti campi, come la psicologia e la medicina, gli effetti causali sono comunemente stimati per mezzo di esperimenti. Prima di ottenere l’approvazione per un uso medico diffuso, per esempio, un nuovo farmaco deve essere sottoposto a prove sperimentali nelle quali ad alcuni pazienti selezionati casualmente viene somministrato il farmaco, mentre agli altri viene somministrato un innocuo sostituo senza efficacia (un “placebo”): il farmaco è approvato solo se questo esperimento controllato casualizzato fornisce evidenza statistica convincente della sua sicurezza ed efficacia. Sebbene gli esperimenti controllati casualizzati siano rari in economia, ci sono tre ragioni per studiarli in un corso di econometria. In primo luogo, la nozione di esperimento controllato casualizzato, a livello concettuale, fornisce un riferimento importante rispetto al quale giudicare stime di effetti causali in pratica. In secondo luogo, quando vengono condotti effettivamente degli esperimenti, i loro risultati possono essere influenti, per cui è importante comprendere le limitazioni e le minacce alla validità degli esperimenti veri, cosı̀ come i loro punti di forza. In terzo luogo, circostanze esterne producono talvolta ciò che appare essere casualizzazione; in altre parole, a causa di eventi esterni, il trattamento di alcuni individui avviene “come se fosse” casuale. Ad esempio, supponiamo che una legge sia approvata in un certo stato ma non in quello confinante. Se si ritiene che lo stato di residenza dell’individuo è “come se” fosse assegnato casualmente, allora quando la legge è approvata è “come se” alcune persone vi fossero assoggettate casualmente (gruppo di trattamento), mentre altre non vi sono assoggettate (gruppo di controllo). Cosı̀, l’approvazione della legge produce un “quasi esperimento”, detto anche “esperimento naturale”, e molte delle lezioni apprese studiando gli esperimenti effettivi possono essere applicate (con alcune modifiche) ai quasi esperimenti. Questo capitolo esamina gli esperimenti e i quasi esperimenti in economia. Gli strumenti statistici utilizzati in questo capitolo sono l’analisi di regressione multipla, l’analisi di regressione per dati panel e la regressione con variabili strumentali (IV). Ciò che distingue la i i i i i i “generale” — 2005/7/10 — 22:25 — page 370 — #400 i i 11.1. Esperimenti ideali ed effetti causali discussione di questo capitolo non sono gli strumenti utilizzati, ma piuttosto il tipo di dati analizzati e le opportunità e le sfide peculiari che si presentano analizzando esperimenti e quasi esperimenti. I metodi sviluppati in questo capitolo sono spesso usati per la valutazione di programmi. La valutazione di programmi è il campo di studi che si occupa di stimare gli effetti di un programma, di una politica o di qualche altro intervento o “trattamento”. Qual è l’effetto sulle retribuzioni della partecipazione ad un programma di formazione professionale? Qual è l’effetto sull’impiego dei lavoratori con bassa qualificazione di un aumento del salario minimo? Qual è l’effetto sulla frequenza universitaria dell’introduzione di prestiti agevolati per gli studenti appartenenti al ceto medio? Questo capitolo discute il modo in cui questi programmi o politiche possono essere valutati tramite esperimenti o quasi esperimenti. Cominciamo nella sezione 11.1 sviluppando la discussione del capitolo 1 di un ideale esperimento controllato casualizzato e degli effetti causali. Nella realtà, esperimenti effettivi con cavie umane si scontrano con problemi pratici che costituiscono minacce alla loro validità interna ed esterna, e tali minacce sono discusse nella sezione 11.2. Come discusso nella sezione 11.3, alcune di queste minacce possono essere affrontate o valutate tramite tecniche di regressione, quali lo stimatore delle “differenze di differenze” e la regressione con variabili strumentali. La sezione 11.4 utilizza questi metodi per analizzare un esperimento controllato casualizzato nel quale studenti delle elementari sono stati assegnati casualmente a classi di diversa ampiezza nello stato del Tennessee alla fine degli anni ’80. La sezione 11.5 è dedicata ai quasi esperimenti ed alla stima degli effetti causali tramite quasi esperimenti. Le minacce alla validità dei quasi esperimenti sono discusse nella sezione 11.6. Un problema che nasce sia negli esperimenti sia nei quasi esperimenti è che gli effetti di un trattamento possono differire da un membro della popolazione ad un altro; il problema dell’interpretazione delle stime risultanti degli effetti causali quando la popolazione è eterogenea è affrontato nella sezione 11.7. 11.1 Esperimenti ideali ed effetti causali Si ricordi dalla sezione 1.2 che un esperimento controllato casualizzato seleziona soggetti (individui o, più in generale, entità) a caso da una popolazione d’interesse e li assegna poi ad un gruppo di trattamento, che riceve il trattamento sperimentale, oppure ad un gruppo di controllo, che non riceve il trattamento. L’effetto causale del trattamento è l’effetto atteso del trattamento sul risultato d’interesse, cosı̀ come misurato in un ideale esperimento controllato casualizzato. 370 i i i i i i “generale” — 2005/7/10 — 22:25 — page 371 — #401 i i 11.1. Esperimenti ideali ed effetti causali Esperimenti controllati casualizzati ideali Inizialmente, si potrebbe pensare che un esperimento ideale prenda due individui altrimenti identici, sottoponga a trattamento uno di questi e confronti i rispettivi risultati, tenendo costanti tutti gli altri fattori d’influenza. Questo non è, tuttavia, un disegno sperimentale facilmente realizzabile, perché è impossibile trovare due individui perfettamente uguali: persino gemelli identici hanno esperienze di vita diverse, e quindi non sono identici in tutti gli aspetti. L’idea centrale di un esperimento casualizzato ideale è che l’effetto causale può essere misurato selezionando individui a caso da una popolazione e assegnando poi il trattamento in modo casuale ad alcuni di essi. Se il trattamento è assegnato in modo casuale (ad esempio, tirando una moneta oppure usando un generatore di numeri casuali computerizzato) allora il livello del trattamento è distribuito indipendentemente da ogni altra determinante del risultato, eliminando cosı̀ la possibilità di distorsione da variabile omessa (concetto chiave 5.1). Supponiamo, ad esempio, che gli individui siano assegnati casualmente alla frequenza di un programma di formazione professionale. L’esperienza lavorativa precedente di un individuo influenzerà la sua probabilità di ottenere un lavoro alla fine del programma, ma fintanto che la sua partecipazione (il “trattamento”) è assegnata casualmente, la distribuzione dell’esperienza lavorativa è la stessa nei gruppi di trattamento e di controllo; cioè, la partecipazione è distribuita indipendentemente dalla precedente esperienza lavorativa. Cosı̀, la partecipazione e l’esperienza lavorativa sono incorrelate e l’omissione dall’analisi dell’esperienza lavorativa precedente non causerà una distorsione da variabile omessa nello stimatore dell’effetto del programma di formazione sull’impiego futuro. Il ruolo dell’assegnazione casuale può essere riformulato nei termini del modello di regressione con un singolo regressore, Y i = β 0 + β 1 Xi + u i , (11.1) dove Xi è il livello del trattamento e, come al solito, ui contiene tutte le determinanti addizionali del risultato Yi . Se il trattamento è lo stesso per tutti i membri del gruppo di trattamento, allora Xi è binaria, con Xi = 1 ad indicare che l’individuo i ha ricevuto il trattamento e Xi = 0 ad indicare che non lo ha ricevuto. Se il livello del trattamento varia tra i membri del gruppo di trattamento, allora Xi è il livello del trattamento ricevuto. Ad esempio, Xi potrebbe essere la dose di un farmaco o la durata in settimane del programma di formazione professionale, con Xi = 0 se il trattamento non viene ricevuto (una dose nulla). Se Xi è binaria, allora la funzione di regressione lineare (11.1) non impone alcune restrizioni sulla forma funzionale. Se Xi può assumere più valori, allora la (11.1) tratta la funzione di regressione della popolazione come lineare (eventuali non linearità possono essere affrontate usando i metodi sviluppati nella sezione 6.2). Se Xi è assegnato casualmente, allora Xi è distribuito indipendentemente dai fattori 371 i i i i i i “generale” — 2005/7/10 — 22:25 — page 372 — #402 i i 11.2. Problemi potenziali con gli esperimenti reali omessi contenuti in ui . Siccome questi fattori omessi e Xi sono distribuiti indipendentemente, E(Yi Xi ) = β0 + β1 Xi nella (11.1); detto diversamente, la media condizionata di ui data Xi non dipende da Xi ; ovvero, E(ui Xi ) = 0. Cosı̀ l’assegnazione casuale di Xi implica che valga automaticamente la prima assunzione dei minimi quadrati per il modello di regressione con un singolo regressore (concetto chiave 4.3). L’effetto causale. L’effetto causale su Y del livello di trattamento x è la differenza delle aspettative condizionate E(Y X = x) − E(Y X = 0), dove E(Y X = x) è il valore atteso di Y per il gruppo di trattamento che riceve il livello di trattamento x in un ideale esperimento controllato casualizzato ideale e E(Y X = 0) è il valore atteso di Y per il gruppo di controllo. In ambito sperimentale, l’effetto causale è anche detto effetto del trattamento. A causa dell’assegnazione casuale, E(ui Xi ) = 0 nella (11.1) e quindi β1 rappresenta l’effetto causale di una variazione unitaria in X, misurato dalla differenza attesa nei risultati tra i gruppi di trattamento e di controllo. Lo stimatore delle differenze L’effetto causale è una differenza di valori attesi ed è perciò una caratteristica ignota della popolazione. L’effetto causale può essere stimato usando dati generati da un esperimento controllato casualizzato. Supponiamo che il trattamento Xi sia binario. Siccome il trattamento è assegnato casualmente, l’effetto causale può essere stimato dalla differenza nelle medie campionarie dei risultati dei gruppi di trattamento e di controllo. Equivalentemente, come discusso nella sezione 4.7, β1 può essere stimato dallo stimatore OLS β̂1 nella regressione di Yi su Xi . Poiché E(ui Xi ) = 0 nella (11.1), β̂1 è non distorto. Lo stimatore OLS β̂1 ottenuto dalla regressione di Yi su Xi è detto stimatore delle differenze perché, quando il trattamento è binario, esso è pari alla differenza tra la media campionaria del risultato per il gruppo di trattamento e la media campionaria del risultato per il gruppo di controllo. Assegnando il trattamento in modo casuale, un esperimento controllato casualizzato ideale elimina la correlazione tra il trattamento Xi e l’errore ui , e quindi lo stimatore delle differenze è non distorto e consistente. In pratica, tuttavia, gli esperimenti reali si discostano da quelli ideali e insorgono problemi che possono introdurre correlazione tra X i e ui . 11.2 Problemi potenziali con gli esperimenti reali Si ricordi dal concetto chiave 7.1 che uno studio statistico è internamente valido se l’inferenza statistica sugli effetti causali è valida per la popolazione studiata ed è esternamente valido se le sue inferenze e le sue conclusioni possono essere generalizzate dalla popolazione e dal contesto studiati ad altre popolazioni e ad altri contesti. Vari problemi nel mondo reale 372 i i i i i i “generale” — 2005/7/10 — 22:25 — page 373 — #403 i i 11.2. Problemi potenziali con gli esperimenti reali rappresentano minacce alla validità interna ed esterna dell’analisi statistica degli esperimenti reali con soggetti umani. Minacce alla validità interna Le minacce alla validità interna degli esperimenti controllati casualizzati comprendono l’insuccesso della casualizzazione, l’insuccesso nel seguire il protocollo di trattamento, l’attrito, gli effetti sperimentali e le ridotte dimensioni campionarie. Insuccesso della casualizzazione. L’assegnazione casuale a gruppi di trattamento e di controllo è la caratteristica fondamentale degli esperimenti controllati casualizzati che consente di stimare l’effetto casuale. Se il trattamento non è assegnato in modo casuale, ma è in parte basato sulle caratteristiche o le preferenze dei soggetti, allora i risultati sperimentali rifletteranno sia l’effetto del trattamento sia l’effetto dell’assegnazione non casuale. Ad esempio, supponiamo che i partecipanti ad un esperimento relativo ad un programma di formazione professionale siano assegnati al gruppo di trattamento in base al fatto che l’iniziale del loro cognome appartenga alla prima o alla seconda metà dell’alfabeto. A causa di differenze etniche nei cognomi, l’etnia potrebbe differire sistematicamente tra il gruppo di trattamento e quello di controllo. Se l’esperienza lavorativa, l’istruzione e altre caratteristiche del mercato del lavoro differiscono tra le etnie, ci potrebbero essere differenze sistematiche tra i gruppi di controllo e di trattamento in questi fattori omessi che influenzano i risultati. Più in generale, l’assegnazione non casuale può condurre a correlazione tra il trattamento Xi e l’errore, perché ricevere il trattamento è in parte determinato dalle caratteristiche dell’individuo che compongono il termine d’errore. In generale, un’assegnazione non casuale porta ad una distorsione nello stimatore delle differenze. Insuccesso nel seguire il protocollo di trattamento. In un esperimento reale, le persone non sempre fanno ciò che viene loro richiesto. In un esperimento relativo ad un programma di formazione professionale, ad esempio, alcuni dei soggetti assegnati al gruppo di trattamento potrebbero non presentarsi alle sessioni di formazione e quindi non ricevere il trattamento. Similmente, i soggetti assegnati al gruppo di controllo potrebbero in qualche modo ricevere anch’essi la formazione, magari facendo una speciale richiesta ad un istruttore o un amministratore. Cosı̀, sebbene il trattamento assegnato sia casuale, il trattamento effettivamente ricevuto potrebbe non esserlo. Invece, il trattamento che il soggetto effettivamente riceve è determinato in parte dall’assegnazione casuale (il fatto di essere idoneo per il programma di formazione professionale) e in parte dalle caratteristiche dell’individuo (il desiderio del soggetto di ricevere la formazione professionale). Come sanno gli studenti e gli insegnanti, si può richiedere ad uno studente di seguire un corso, ma è più duro convincerlo a presentarsi a lezione. 373 i i i i i i “generale” — 2005/7/10 — 22:25 — page 374 — #404 i i 11.2. Problemi potenziali con gli esperimenti reali Quando un individuo non può seguire completamente il protocollo di trattamento casuale si parla di adesione parziale al protocollo di trattamento. In alcuni casi, gli sperimentatori sanno se il trattamento è stato effettivamente ricevuto (ad esempio, lo studente ha seguito le lezioni) e il trattamento effettivamente ricevuto è registrato come Xi . Siccome c’è un elemento di scelta nel fatto che il soggetto riceva il trattamento, Xi (il trattamento effettivamente ricevuto) è correlato con ui (che include motivazione e abilità innata) anche se c’è un’assegnazione casuale. In altre parole, nel caso di adesione parziale i gruppi di trattamento e di controllo non sono più campioni casuali dalla popolazione più ampia da cui i soggetti erano stati estratti originariamente; i gruppi di trattamento e di controllo hanno invece un elemento di autoselezione. Cosı̀, non poter seguire il protocollo di trattamento porta a distorsioni nello stimatore OLS. In altri casi lo sperimentatore potrebbe non sapere se il trattamento è stato effettivamente ricevuto. Ad esempio, se al soggetto di un esperimento medico viene somministrato un farmaco, che, all’oscuro dei ricercatori, il soggetto non prende, allora il trattamento registrato (“farmaco somministrato”) è incorretto. La misura non corretta del trattamento effettivamente ricevuto determina a sua volta una distorsione nello stimatore delle differenze. Attrito. L’attrito si riferisce ai soggetti che escono dallo studio dopo essere stati assegnati al gruppo di trattamento o di controllo. Talvolta l’attrito si verifica per ragioni non legate al programma di trattamento; ad esempio, un partecipante ad un programma di formazione professionale potrebbe avere bisogno di lasciare la città per assistere un parente malato. Se la ragione dell’attrito è però legata al trattamento stesso, allora si ha distorsione nello stimatore OLS dell’effetto causale. Ad esempio, supponiamo che le persone più abili abbandonino il programma di formazione professionale perché ottengono lavori fuori città grazie alla preparazione acquisita con il programma, cosicché alla fine dell’esperimento solo gli individui meno abili rimangono nel gruppo di trattamento. In questo caso, la distribuzione delle altre caratteristiche (l’abilità) sarà diversa tra i gruppi di trattamento e di controllo (il trattamento mette in grado gli individui più abili di lasciare la città). In altre parole, il trattamento X i sarà correlato con ui (che include l’abilità) per quelli che rimangono nel campione alla fine dell’esperimento e lo stimatore delle differenze sarà distorto. Poiché l’attrito dà luogo ad un campione selezionato in modo non casuale, se è legato al trattamento, esso porta ad una distorsione da selezione (concetto chiave 7.4). Effetti sperimentali. Negli esperimenti con soggetti umani, il puro e semplice fatto di trovarsi in un esperimento può cambiare l’atteggiamento dei soggetti, un fenomeno talvolta chiamato effetto Hawthorne (si veda il riquadro relativo). Per esempio, l’eccitazione creata o l’attenzione che deriva dall’essere in un programma sperimentale potrebbe produrre un sforzo straordinario in grado di influenzare i risultati. 374 i i i i i i “generale” — 2005/7/10 — 22:25 — page 375 — #405 i i 11.2. Problemi potenziali con gli esperimenti reali In alcuni esperimenti, un protocollo “alla cieca” può mitigare l’effetto di trovarsi in un esperimento: sebbene i soggetti e gli sperimentatori sappiano entrambi di trovarsi in un esperimento, nessuno di loro sa se un soggetto è nel gruppo di trattamento o in quello di controllo. In un esperimento sui farmaci, ad esempio, talvolta il farmaco e il placebo possono essere resi tali da apparire identici, cosicché né il medico che dispensa il farmaco né il paziente sanno se il prodotto somministrato è il farmaco o il placebo. Se l’esperimento è alla cieca, sia il gruppo di trattamento sia quello di controllo dovrebbero subire gli stessi effetti sperimentali, e quindi risultati diversi tra i due gruppi possono essere attribuiti al farmaco. Gli esperimenti alla cieca sono chiaramente irrealizzabili negli esperimenti economici nel mondo reale: sia il soggetto sperimentale sia l’istruttore sanno se il soggetto sta frequentando il programma di formazione professionale. In un esperimento malamente disegnato, questo effetto sperimentale potrebbe essere sostanziale. Ad esempio, gli insegnanti di un programma sperimentale potrebbero sforzarsi di rendere il loro programma un successo se corrono il rischio di perdere il loro lavoro nel caso in cui il programma dia risultati mediocri nell’esperimento. Decidere se i risultati sperimentali sono distorti a causa degli effetti sperimentali richiede di esprimere un giudizio basato su ciò che l’esperimento cerca di valutare e sui dettagli relativi al modo in cui l’esperimento è stato condotto. Dimensioni campionarie ridotte. Siccome gli esperimenti con soggetti umani possono essere costosi, talvolta le dimensioni campionarie sono piccole. Una dimensione campionaria ridotta non distorce gli stimatori dell’effetto causale, ma fa sı̀ che l’effetto causale sia stimato in modo impreciso. Minacce alla validità esterna Le minacce alla validità esterna compromettono la possibilità di generalizzare i risultati dello studio ad altre popolazioni e contesti. Due minacce di questo genere si presentano quando il campione sperimentale non è rappresentativo della popolazione d’interesse e quando il trattamento che si studia non è rappresentativo del trattamento che si vorrebbe implementare in maniera più ampia. Campione non rappresentativo. La popolazione studiata e la popolazione d’interesse debbono essere sufficientemente simili da giustificare la generalizzazione dei risultati sperimentali. Se un programma di formazione professionale è valutato in un esperimento che coinvolge ex carcerati, allora potrebbe essere possibile generalizzare i risultati dello studio al caso di altri ex carcerati. Siccome però il peso di una condanna penale condiziona fortemente l’atteggiamento dei potenziali datori di lavoro, i risultati ottenuti potrebbero non essere generalizzabili a lavoratori che non hanno mai commesso un crimine. Un altro esempio di campione non rappresentativo si può avere quando i partecipanti al375 i i i i i i “generale” — 2005/7/10 — 22:25 — page 376 — #406 i i 11.2. Problemi potenziali con gli esperimenti reali L’effetto Hawthorne Durante gli anni ’20 e ’30, la General Electric ha condotto una serie di studi sulla produttività dei lavoratori nel suo impianto di Hawthorne. In un insieme di esperimenti si variava la potenza delle lampadine per vedere come la luce influenzasse la produttività delle donne che assemblavano componenti elettrici. In altri esperimenti si aumentavano o si diminuivano i periodi di riposo, si variava la disposizione delle stanze e si accorciavano le giornate lavorative. Alcuni influenti resoconti iniziali di questi esperimenti avevano concluso che la produttività continuava a crescere indipendentemente dal fatto che le luci fossero più soffuse o più intense o i giorni di lavoro fossero più lunghi o più corti oppure che le condizioni di lavoro migliorassero o peggiorassero. I ricercatori avevano concluso che i guadagni di produttività non erano la conseguenza di cambiamenti nel luogo di lavoro, ma derivavano invece dal fatto che il loro ruolo speciale nell’esperimento faceva credere ai lavoratori di essere notati e valutati, cosicché essi lavoravano sempre di più. Negli anni, l’idea che essere in un esperimento influenza l’atteggiamento del soggetto è divenuto noto come l’effetto Hawthorne. C’è però un piccolo inconveniente in questa storia: un esame attento dei dati effettivamente raccolti a Hawthorne rivela che non esiste alcun effetto Hawthorne (Gillespie, 1991; Jones, 1992)! Tuttavia, in alcuni esperimenti, specialmente quelli in cui i soggetti hanno un interesse diretto nel risultato, il semplice fatto di trovarsi in un esperimento può influenzare il comportamento. L’effetto Hawthorne e, più in generale, gli effetti sperimentali possono rappresentare una minaccia alla validità interna –anche se l’effetto Hawthorne non è evidente nei dati originali di Hawthorne. l’esperimento sono volontari. Anche se i volontari sono assegnati in modo casuale ai gruppi di trattamento e di controllo, essi potrebbero essere più motivati del resto della popolazione e, per loro, il trattamento potrebbe avere un effetto più grande. Più in generale, selezionare il campione in modo non casuale da una popolazione più ampia può compromettere la possibilità di generalizzare i risultati dalla popolazione studiata (come i volontari) alla popolazione d’interesse. Programma o politica non rappresentativi. La politica o il programma d’interesse devono essere sufficientemente simili al programma studiato per permettere di generalizzarne i risultati. Un aspetto importante è che il programma di un esperimento su scala ridotta e fortemente monitorato potrebbe essere abbastanza diverso dal programma implementato nella realtà. Se quest’ultimo fosse su larga scala, potrebbe non garantire lo stesso controllo di qualità della versione sperimentale o potrebbe avere finanziamenti proporzionalmente minori; in entrambi 376 i i i i i i “generale” — 2005/7/10 — 22:25 — page 377 — #407 i i 11.2. Problemi potenziali con gli esperimenti reali i casi, il programma su larga scala potrebbe risultare meno efficace del programma sperimentale su scala minore. Un’altra differenza tra un programma sperimentale ed un programma effettivo è la sua durata: il programma sperimentale dura soltanto per la lunghezza dell’esperimento, mentre il programma effettivo potrebbe essere disponibile per periodi di tempo più lunghi. Effetti di equilibrio generale. Un problema collegato alla scala e alla durata riguarda quelli che gli economisti chiamano effetti di “equilibrio generale”. Passando da un programma sperimentale piccolo e temporaneo ad uno ampio e permanente, l’ambiente economico potrebbe cambiare in misura tale che i risultati dell’esperimento non possono essere generalizzati. Un piccolo, sperimentale programma di formazione professionale, ad esempio, potrebbe integrare la formazione fornita dai datori di lavoro, ma se il programma fosse diffuso su larga scala potrebbe sostituire la formazione fornita dai datori di lavoro, riducendo cosı̀ i benefici netti del programma. Similmente, una riforma generalizzata dell’istruzione, come quella che prevede l’introduzione di un sistema di “voucher” o una riduzione netta della dimensione delle classi, potrebbe far aumentare la domanda di insegnanti e cambiare il tipo di persone che sono attratte dall’insegnamento, e quindi l’eventuale effetto netto di tale riforma potrebbe riflettere i cambiamenti indotti nel personale scolastico. Detto in termini econometrici, un piccolo esperimento internamente valido potrebbe correttamente misurare un effetto causale, tenendo costante l’ambiente di mercato o quello politico, ma gli effetti di equilibrio generale implicano che questi altri fattori non possono essere tenuti costanti quando il programma è implementato su ampia scala. Effetti di trattamento ed effetti di idoneità. Un’altra potenziale minaccia alla validità esterna nasce dal fatto che nei programmi economici e, più in generale, in quelli sociali, la partecipazione ad un programma effettivo (non sperimentale) è di solito volontaria. Cosı̀, uno studio sperimentale che misuri gli effetti del programma su membri scelti a caso dalla popolazione non fornirà, in genere, uno stimatore non distorto dell’effetto del programma, se ai destinatari del programma effettivamente implementato viene permesso di decidere se parteciparvi o meno. Un programma di formazione professionale potrebbe risultare molto efficace per i pochi che scelgono di frequentarlo, ma relativamente inefficace per un individuo scelto a caso dalla popolazione. Un modo per affrontare questo problema è disegnare l’esperimento in modo tale da imitare il più possibile il programma reale che si vorrebbe implementare. Ad esempio se il programma di formazione professionale nel mondo reale è reso disponibile a individui che soddisfano determinati limiti di reddito, il protocollo sperimentale potrebbe adottare una regola simile: il gruppo di trattamento scelto casualmente riceverebbe il “trattamento” di idoneità al programma, mentre il gruppo di controllo non verrebbe reso idoneo. In questo caso lo stimatore delle differenze stimerebbe l’effetto dell’idoneità al programma, 377 i i i i i i “generale” — 2005/7/10 — 22:25 — page 378 — #408 i i 11.3. Stimatori di effetti causali tramite dati sperimentali che è diverso dall’effetto della formazione professionale per un membro scelto a caso dalla popolazione idonea. 11.3 Stimatori di effetti causali tramite dati sperimentali In un ideale esperimento controllato casualizzato con un trattamento binario, l’effetto causale può essere stimato tramite lo stimatore delle differenze, ovvero tramite lo stimatore OLS di β1 nella (11.1). Se il trattamento è assegnato in modo casuale, allora lo stimatore delle differenze è non distorto, ma non è necessariamente efficiente. Inoltre, se sono presenti alcuni dei problemi legati agli esperimenti reali discussi nella sezione 11.2, allora X i e ui sono correlati e β̂1 è quindi distorto. Questa sezione presenta alcuni metodi basati sulla regressione per analizzare i dati sperimentali. L’obiettivo è quello di ottenere uno stimatore più efficiente rispetto allo stimatore delle differenze, quando il trattamento è somministrato in modo casuale, e ottenere uno stimatore non distorto, o almeno consistente, dell’effetto causale, quando sono presenti alcune minacce alla validità interna. Questa sezione si conclude con una discussione su come sottoporre a verifica l’ipotesi di causalizzazione. Lo stimatore delle differenze con regressori addizionali Spesso sono disponibili dati su altre caratteristiche dei soggetti che sono rilevanti al fine di determinare il risultato sperimentale. Siccome le retribuzioni dipendono dal precedente livello scolare, ad esempio, nel valutare un programma di formazione professionale occorre riconoscere che le retribuzioni dipenderanno sia dall’istruzione precedente sia dal programma di formazione professionale. In un test farmacologico, gli effetti sulla salute potrebbero dipendere dalle caratteristiche del paziente, come l’età, il peso, il genere e le preesistenti condizioni mediche, in aggiunta al trattamento farmacologico. Si indichino con W 1i , . . . , Wri una serie di variabili che misurano r caratteristiche dell’ i-esimo individuo del campione, dove queste caratteristiche individuali non sono influenzate dal trattamento (entrare nel programma di formazione professionale non cambia l’istruzione preesistente). Se queste caratteristiche individuali sono un fattore che determina il risultato Yi , in aggiunta al trattamento Xi , allora esse si trovano implicitamente nell’errore della (11.1). Perciò, la (11.1) può essere modificata in modo che queste caratteristiche entrino esplicitamente nella regressione; assumendo che esse entrino linearmente, otteniamo il modello di regressione multipla Yi = β0 + β1 Xi + β2 W1i + · · · + β1+r Wri + ui , i = 1, . . . , n. (11.2) 378 i i i i i i “generale” — 2005/7/10 — 22:25 — page 379 — #409 i i 11.3. Stimatori di effetti causali tramite dati sperimentali Lo stimatore OLS di β1 nella (11.2) è lo stimatore delle differenze con regressori addizionali. La consistenza dello stimatore delle differenze con regressori addizionali. Se valgono le quattro ipotesi dei minimi quadrati per la regressione multipla (concetto chiave 5.4), allora gli stimatori OLS dei coefficienti della (11.2) sono non distorti, consistenti e formano una base solida per l’inferenza statistica. In alcune applicazioni, la prima ipotesi dei minimi quadrati, ovvero E(ui Xi , W1i , . . . , Wri ) = 0, non è strettamente necessaria. Ad esempio, se uno dei regressori W è il livello d’istruzione precedente, questo potrebbe essere correlato con l’abilità inosservabile dell’individuo, che fa parte di ui . Lo stimatore delle differenze con regressori addizionali è consistente, tuttavia, sotto un’ipotesi più debole di quella usuale di media condizionata nulla; nello specifico, sotto un’ipotesi, formulata matematicamente nell’appendice 11.3, detta di indipendenza in media condizionata. In breve, l’indipendenza in media condizionata richiede che l’aspettativa condizionata di ui date Xi e le variabili W non dipenda da Xi , sebbene possa dipendere dalle variabili W . Ci sono due casi rilevanti in cui, nonostante la correlazione tra le variabili W e u i , vale l’indipendenza in media condizionata e lo stimatore delle differenze con regressori addizionali è consistente (sebbene gli stimatori OLS dei coefficienti delle variabili W non lo siano in generale). Il primo caso è quando il trattamento è assegnato in modo casuale: X i è incorrelato con tutte le caratteristiche dell’individuo, sia quelle incluse nella regressione (le variabili W ) sia quelle escluse (incluse nel termine d’errore), cosı̀ che Xi non può “catturare” l’effetto di una qualche caratteristica dell’individuo, inclusa o meno. Il secondo caso è quando X i è assegnato in modo casuale condizionatamente a Wi : Xi è assegnato in modo casuale, ma la probabilità di essere nel gruppo di trattamento dipende da Wi . Supponiamo, ad esempio, che i partecipanti ad un programma di formazione professionale siano divisi in due gruppi, i diplomati e quelli che non lo sono. Tra i diplomati, il 30% è assegnato in modo casuale al gruppo di trattamento, ma, tra i non diplomati, il 70% è assegnato a caso al gruppo di trattamento. Siccome ogni diplomato ha la stessa probabilità di essere assegnato al gruppo di trattamento, la media di ui è la stessa per i diplomati nei gruppi di trattamento e di controllo. Similmente la media di ui è la stessa per i non diplomati nei gruppi di trattamento e di controllo. La media di ui , tuttavia, è in generale diversa tra diplomati e non diplomati (il conseguimento del diploma è correlato con le variabili omesse capacità e motivazioni). In questo caso, Xi è condizionatamente casuale (Xi è attribuito in modo casuale dato lo status di laureato Wi ). Se Xi è condizionatamente casuale, allora, come discusso ulteriormente nell’appendice 11.3, vale l’indipendenza in media condizionata e lo stimatore delle differenze con regressori addizionali è consistente. È importante che i regressori Wi nella (11.2) non siano essi stessi risultati sperimentali, 379 i i i i i i “generale” — 2005/7/10 — 22:25 — page 380 — #410 i i 11.3. Stimatori di effetti causali tramite dati sperimentali altrimenti Wi sarebbe endogena. Ad esempio, sia Yi la retribuzione dopo il programma di formazione professionale, si indichi con Wi il fatto di ottenere un lavoro dopo il programma e si indichi con Xi il trattamento. Se lo stato occupazionale futuro è incluso nella regressione, allora il coefficiente di Xi non misura più l’effetto del programma, ma piuttosto l’effetto parziale del programma, tenendo costante l’impiego futuro. Inoltre, l’impiego futuro potrebbe essere correlato con Xi (il programma porta a trovare un lavoro) e con il termine di errore (i soggetti più capaci ricevono un lavoro). Restringiamo perciò l’attenzione, nella (11.12), alle variabili W , che misurano caratteristiche pretrattamento, che non sono influenzate dal trattamento sperimentale. Ragioni per usare lo stimatore delle differenze con regressori addizionali. Ci sono tre ragioni per usare questo stimatore. 1. Efficienza. Se il trattamento è assegnato in modo casuale, lo stimatore OLS di β 1 nel modello di regressione multipla (11.2) è più efficiente (ha varianza minore) rispetto allo stimatore OLS nel modello di regressione semplice (11.1). La ragione di questo è che includere le determinanti addizionali di Y nel modello (11.2) riduce la varianza dell’errore (si veda l’esercizio 16.7). 2. Verifica della casualità. Se il trattamento non è assegnato in modo casuale e, in particolare, è assegnato in un modo che è legato alle W , allora lo stimatore delle differenze nel modello (11.1) è inconsistente e, in generale, ha un limite in probabilità diverso rispetto allo stimatore delle differenze con regressori addizionali nel modello (11.2). Cosı̀, un’ampia discrepanza tra le due stime OLS suggerisce che X i non è stato in effetti assegnato in modo casuale. 3. Aggiustamenti per la casualità “condizionata”. Come discusso in precedenza, la probabilità di essere assegnato al gruppo di trattamento può differire tra un gruppo di soggetti e un altro, ovvero può dipendere da caratteristiche pretrattamento W i . Se cosı̀, includere queste variabili W permette di controllare per la probabilità che il partecipante sia assegnato al gruppo di trattamento. In pratica, la seconda e la terza ragione possono essere collegate. Se la verifica della casualità nella 2. indica che il trattamento non è stato assegnato in modo casuale, potrebbe essere possibile tenere conto di questa assegnazione non casuale usando lo stimatore delle differenze con regressori addizionali. Se questo sia possibile nei fatti, tuttavia, dipende dai dettagli dell’assegnazione non casuale. Se la probabilità di assegnazione dipende solo dalle variabili osservabili, W , allora la (11.2) aggiusta per questa assegnazione non casuale, ma se la probabilità di assegnazione dipende da variabili non osservabili, allora l’aggiustamento effettuato, includendo i regressori W , è incompleto. 380 i i i i i i “generale” — 2005/7/10 — 22:25 — page 381 — #411 i i 11.3. Stimatori di effetti causali tramite dati sperimentali Lo stimatore delle differenze nelle differenze I dati sperimentali sono spesso dati panel, ovvero osservazioni sugli stessi soggetti prima e dopo l’esperimento. Con dati panel, l’effetto causale può essere stimato usando lo stimatore delle “differenze nelle differenze”, che è pari alla variazione media di Y nel gruppo di trattamento nel corso dell’esperimento meno la variazione media di Y nel gruppo di controllo nello stesso periodo. Questo stimatore delle differenze nelle differenze può essere calcolato tramite una regressione, alla quale possono essere aggiunti regressori addizionali che misurano le caratteristiche del soggetto. Lo stimatore delle differenze nelle differenze. Sia Ȳ treatment,bef ore la media campionaria di Y nel gruppo di trattamento prima dell’esperimento e sia Ȳ treatment,af ter la media campionaria nel gruppo di trattamento dopo l’esperimento. Siano Ȳ control,bef ore e Ȳ control,af ter le corrispondenti medie campionarie pretrattamento e posttrattamento per il gruppo di controllo. La variazione media di Y nel corso dell’esperimento per gli appartenenti al gruppo di trattamento è Ȳ treatment,af ter − Ȳ treatment,bef ore e la variazione media di Y in questo periodo per gli appartenenti al gruppo di controllo è Ȳ control,af ter − Ȳ control,bef ore . Lo stimatore delle differenze nelle differenze è la variazione media di Y per gli appartenenti al gruppo di trattamento meno la variazione media di Y per gli appartenenti al gruppo di controllo: β̂1dif f s−in−dif f s = (Ȳ treatment,af ter − Ȳ treatment,bef ore ) −(Ȳ control,af ter − Ȳ control,bef ore ) = ∆Ȳ treatment − ∆Ȳ control , (11.3) dove ∆Ȳ treatment è la variazione media di Y nel gruppo di trattamento e ∆Ȳ control è la variazione media di Y nel gruppo di controllo. Se il trattamento è assegnato in modo casuale, allora β̂1dif f s−in−dif f s è uno stimatore non distorto e consistente dell’effetto causale. Lo stimatore delle differenze nelle differenze può essere scritto utilizzando la notazione di regressione. Sia ∆Yi la variazione nel valore di Yi per l’individuo i-esimo nel corso dell’esperimento, ovvero ∆Yi è il valore di Y per l’individuo i-esimo dopo che l’esperimento è stato completato meno il valore di Y prima che esso cominci. Assumendo che X i , la variabile binaria che rappresenta il trattamento, sia assegnata a caso, l’effetto causale è il coefficiente β1 della regressione ∆Yi = β0 + β1 Xi + ui . (11.4) Lo stimatore OLS β̂1 è la differenza tra il valore medio di ∆Y nei due gruppi (sezione 4.7), ovvero β̂1 è lo stimatore delle differenze nelle differenze nella (11.3). Ragioni per usare lo stimatore per le differenze nelle differenze. Lo stimatore delle diffe381 i i i i i i “generale” — 2005/7/10 — 22:25 — page 382 — #412 i i 11.3. Stimatori di effetti causali tramite dati sperimentali renze nelle differenze ha due vantaggi potenziali sullo stimatore delle differenze singole della (11.1). 1. Efficienza. Se il trattamento è assegnato in modo casuale, allora lo stimatore delle differenze nelle differenze può essere più efficiente dello stimatore delle differenze. Questo si verifica se alcune delle determinanti inosservate di Yi persistono nel tempo per un determinato individuo, come il genere e l’istruzione precedente nell’esempio del programma di formazione professionale. Se sia più efficiente lo stimatore delle differenze o quello delle differenze nelle differenze dipende da quanta parte della varianza di Y i è spiegata da queste caratteristiche persistenti specifiche a ciascun individuo (esercizio 11.4). 2. Eliminazione delle differenze pretrattamento in Y . Se il trattamento è correlato con il livello iniziale di Yi prima dell’esperimento, ma E(ui Xi ) = 0 nella (11.4), allora lo stimatore delle differenze è distorto, ma quello delle differenze nelle differenze non lo è. Ciò è illustrato nella figura 11.1. In questa figura, la media campionaria di Y per il gruppo di trattamento è 40 prima dell’esperimento, mentre la media campionaria pretrattamento di Y per il gruppo di controllo è 20. Nel corso dell’esperimento, la media campionaria di Y cresce fino a 30 per il gruppo di controllo, mentre cresce fino a 80 per il gruppo di trattamento. Cosı̀, la differenza delle medie campionarie posttrattamento è 80 − 30 = 50. Tuttavia, alcune di queste differenze sorgono perché i gruppi di trattamento e di controllo hanno medie pretrattamento diverse: il gruppo di trattamento ha cominciato molto al di sopra del gruppo di controllo. Lo stimatore delle differenze nelle differenze misura i guadagni del gruppo di trattamento, relativamente al gruppo di controllo, che in quest’esempio sono pari a (80 − 40) − (30 − 20) = 30. Più in generale, focalizzandosi sulla variazione in Y nel corso dell’esperimento, lo stimatore delle differenze nelle differenze rimuove l’influenza dei valori iniziali di Y che variano sistematicamente tra i gruppi di trattamento e di controllo. Lo stimatore delle differenze nelle differenze con regressori addizionali. Lo stimatore delle differenze nelle differenze può essere esteso includendo regressori addizionali W1i , . . . , Wri , che misurino le caratteristiche individuali precedenti all’esperimento. Ad esempio, nella valutazione di un programma di formazione professionale in cui Y è la retribuzione, una delle variabili W potrebbe essere l’istruzione precedente del partecipante. Questi regressori addizionali possono essere incorporati in un modello di regressione multipla ∆Yi = β0 + β1 Xi + β2 W1i + · · · + β1+r Wri + ui , i = 1, . . . , n. (11.5) Lo stimatore OLS di β1 nella (11.5) è lo stimatore delle differenze nelle differenze con regressori addizionali. Se Xi è assegnato in modo casuale, allora lo stimatore OLS di β̂1 nella (11.5) è non distorto. 382 i i i i i i “generale” — 2005/7/10 — 22:25 — page 383 — #413 i i 11.3. Stimatori di effetti causali tramite dati sperimentali Figura 11.1: funzioni di regressione con pendenze diverse Risultato 90 Y treatment,after 80 70 ^ β 1 diffs-in-diffs 60 50 40 30 20 10 0 Y treatment,before Y control,after Y control,before t = 1 t = 2 Periodo Nella figura 6.1a, la funzione di regressione ha pendenza costante. Nella figura 6.1b, la pendenza della funzione di regressione dipende dal valore di X1 . Nella figura 6.1c, la pendenza della funzione di regressione dipende dal valore di X2 . Le ragioni per includere i regressori addizionali W nella (11.5) sono le stesse tre ragioni che ne giustificano l’inclusione nella (11.2), la quale usa solo i dati posttrattamento: se X i è assegnato in modo casuale, includendo regressori addizionali può migliorare l’efficienza; aggiungendo regressori è possibile verificare la casualità; aggiungere regressori permette di tenere conto di fenomeni di casualità condizionata, ovvero casualità che dipende dalle variabili osservabili W . Come discusso nel contesto dell’equazione (11.2) è importante che le variabili W non includano variabili che sono esse stesse risultato dell’esperimento. L’interpretazione delle variabili W nella (11.5) è diversa rispetto allo stimatore delle differenze con regressori addizionali (equazione (11.2)). Nella (11.2), siccome solo i risultati posttrattamento sono oggetto di confronto, le variabili W controllano per differenze nel livello di Yi . Al contrario, nella (11.5), le variabili W controllano per differenze nella variazione di Yi nel corso dell’esperimento. Nell’esempio del programma di formazione professionale, la variabile dipendente della (11.5) è la variazione delle retribuzioni durante il periodo dell’esperimento, Xi indica se il partecipante era nel gruppo di trattamento e Wi potrebbe essere l’istruzione precedente. Includere l’istruzione precedente in questa regressione tiene conto della possibilità che individui con maggiore istruzione tendano ad avere variazioni più elevate nelle retribuzioni nel corso dell’esperimento, indipendentemente dal fatto che essi Electronic Publishing Services Inc. Stock/Watson, Econometrics 1e STOC.ITEM.0054 Fig. 11.01 i 1st Proof i 2nd Proof 383 3rd Proof i Final i i i “generale” — 2005/7/10 — 22:25 — page 384 — #414 i i 11.3. Stimatori di effetti causali tramite dati sperimentali appartengano al gruppo di trattamento o di controllo. Estensione delle differenze nelle differenze a più periodi. In alcuni esperimenti l’individuo è osservato per più di due periodi. In un esperimento relativo ad un programma di formazione professionale, il reddito dell’individuo e il suo stato occupazionale potrebbero essere osservati mensilmente per un anno o più. In questo caso, i modelli di regressione (11.4) e (11.5), che sono basati sulla variazione nel reddito tra una singola osservazione pretrattamento e una singola osservazione posttrattamento, non sono applicabili. Tali dati possono tuttavia essere