DE ECONOMETRIA Lez. 1 – 21/09/2022 Ricerca applicata vs Ricerca teorica Qual è la differenza? Ricerca applicata vs Ricerca teorica Esempio: le decisioni della famiglia sulla fertilità Relazione positiva o negativa tra fertilità e reddito o ricchezza familiare? Preferenze delle famiglie Elasticità della domanda al reddito Esempio: Decisioni della famiglia sulla fertilità Becker (1960) ha sostenuto che i bambini forniscono utilità ai genitori allo stesso modo dei beni “normali”. o Relazione positiva tra fertilità e reddito o ricchezza familiare. La ricerca sulle decisioni familiari sulla fertilità suggerisce una relazione negativa (serie crosssection e serie storica). Becker e Lewis (1973) hanno aggiunto qualità al loro modello (relazione negativa). o Fertilità basata sul compromesso quantità-qualità (l’elasticità della domanda al reddito per la qualità del bambino dovrebbe essere maggiore di quella per la quantità del bambino riassunto: meglio un figlio etero di due figli froci). Tuttavia, c’è ancora ambiguità (fino al 25 settembre 2022 Meloni, urlo del sium ecc.). Ricerca applicata vs Ricerca teorica La teoria economica modella il funzionamento delle società. L'economia applicata implementa i modelli in modo ampio e in una moltitudine di circostanze specifiche. Caratteristiche dei due approcci: Più teorico ✓ Sviluppa modelli e teorie ✓ Deve essere robusto, basato su prove che generalmente si basano su ipotesi o generalizzazioni ✓ Scambio tra rigore e pertinenza ✓ Può adattare modelli di altri campi (es. esperimenti) Più applicato ✓ Applica/testa modelli e teorie ✓ Deve trovare la reale applicazione dei modelli (diverse attività economiche) ✓ Le decisioni economiche sono incorporate nelle circostanze culturali (credenze e norme sociali) ✓ Quali fattori causali studiare e quali ignorare (conclusioni diverse) Lez. 2 – 23/09/2022 Breve panoramica del corso: L'economia suggerisce relazioni importanti, spesso con implicazioni politiche, ma praticamente non suggerisce mai grandezze quantitative di effetti causali. Qual è l'effetto quantitativo della riduzione delle dimensioni della classe sul rendimento degli studenti? In che modo un altro anno di istruzione cambia i guadagni? Qual è l'elasticità del prezzo delle sigarette? Qual è l'effetto sulla crescita della produzione di un aumento di 1 punto percentuale sui tassi di interesse dalla Fed? Qual è l'effetto dei miglioramenti ambientali sui prezzi delle abitazioni? Questo corso riguarda l'utilizzo dei dati per misurare gli effetti causali. Idealmente, vorremmo un esperimento o quale sarebbe un esperimento per stimare l'effetto della dimensione della classe sui punteggi dei test standardizzati? Ma quasi sempre abbiamo solo dati osservazionali (non sperimentali) o ritorno all'istruzione (tipo Gemitaiz che torna a scuola dopo averla abbandonata) o prezzi delle sigarette o politica monetaria La maggior parte del corso affronta le difficoltà derivanti dall'uso dell'osservazione per stimare gli effetti causali o effetti confondenti (fattori omessi) o causalità simultanea o “la correlazione non implica causalità” Tipi di dati CROSS-SECTIONAL, TIME SERIES AND PANEL DATA I dati cross-section sono costituiti da più entità osservate in un unico periodo di tempo. I dati delle serie temporali sono costituiti da una singola entità osservata in più periodi di tempo. I panel data (noti anche come dati longitudinali) sono costituiti da più entità, in cui ciascuna entità viene osservata in due o più periodi di tempo. Dati sezionali – Cross-sectional data Serie temporali (o serie storiche) – Time series Dati panel – Panel data In questo corso dovrai: Imparare metodi per stimare gli effetti causali utilizzando dati osservabili; Imparare ad usare alcuni strumenti che possono essere utilizzati per altri scopi, ad esempio previsioni, utilizzando dati di serie temporali; Concentrarti sulle applicazioni: la teoria viene utilizzata solo se necessaria per comprendere i “perché” dei metodi; Imparare a valutare l'analisi di regressione di altro – questo significa che sarai in grado di leggere/capire documenti di economia empirica in altri corsi economici; Ottenere un'esperienza pratica con l'analisi di regressione nel tuo insieme di problemi. Revisione della probabilità e della statistica (Capitoli 2 e 3 del SW) Problema empirico: dimensione della classe e output educativo Domanda politica: qual è l'effetto sui punteggi dei test (o su qualche altra misura di esito) della riduzione delle dimensioni della classe di uno studente per classe? E di 8 studenti per classe? Dobbiamo usare i dati per scoprirlo (c'è un modo per rispondere senza dati?) Set di dati del punteggio del test della California Tutti i distretti scolastici della California K-6 e K-8 (n = 420) Variabili: Punteggi del test di quinta elementare (test di rendimento Stanford-9, matematica e lettura), media distrettuale, TestScore Rapporto studenti/insegnanti = numero di studenti nel distretto diviso per il numero di insegnanti equivalenti a tempo pieno, STR Primo sguardo ai dati: (Dovresti già sapere come interpretare questa tabella) NOTA BENE: la media “giusta” è 654.2 (come avrò fatto ad accorgermene? probabile barbatrucco) Questa tabella non ci dice nulla sulla relazione tra i punteggi dei test e STR Ziacane (letto in toscano). I distretti con classi più piccole hanno punteggi più alti nei test? Grafico a dispersione del punteggio del test rispetto al rapporto studente/insegnante Cosa mostra questo grafico? (spoiler: un cazzo) Abbiamo bisogno di ottenere alcune prove numeriche sul fatto che i distretti con STR bassi abbiano punteggi più alti nei test, ma come? 1. Confronta i punteggi medi dei test nei distretti con STR bassi con quelli con STR elevati ("stima"). 2. Testare l'ipotesi “nulla” (H0) che i punteggi medi dei test nei due tipi di distretti siano gli stessi, contro l'ipotesi “alternativa” (H1) che differiscano (“test di ipotesi”). 3. Stimare un intervallo per la differenza tra i punteggi medi dei test, i distretti STR alto vs STR basso ("intervallo di confidenza"). Analisi iniziale dei dati: confrontare i distretti con le dimensioni delle classi “piccole” (STR < 20) e ̅̅̅̅̅ = 19.6 → 𝑚𝑒𝑑𝑖𝑎) “grandi” (STR ≥ 20): (nota: 𝑆𝑇𝑅 1. Stima di = differenza tra le medie di gruppo 2. Verifica l'ipotesi che = 0 3. Costruire un intervallo di confidenza per 657.4 ∗ 238 + 650 ∗ 182 𝑁𝑜𝑡𝑎: 𝑚𝑒𝑑𝑖𝑎 𝑔𝑒𝑛𝑒𝑟𝑎𝑙𝑒 = = 654.193333 238 + 182 1. Stima 𝑌̅𝑠𝑚𝑎𝑙𝑙 − 𝑌̅𝑙𝑎𝑟𝑔𝑒 = 1 𝑛𝑠𝑚𝑎𝑙𝑙 𝑛𝑠𝑚𝑎𝑙𝑙 ∑ 𝑌𝑖 − 𝑖 1 𝑛𝑙𝑎𝑟𝑔𝑒 𝑛𝑙𝑎𝑟𝑔𝑒 ∑ 𝑌𝑖 𝑖 = 657.4 − 650.0 = 7.4 Si tratta di una grande differenza nel senso del mondo reale? Deviazione standard tra i distretti = 19.1 Differenza tra il 60° e il 75° percentile della distribuzione del punteggio del test è 667.6 – 659.4 = 8.2 Questa è una differenza abbastanza grande da essere importante per discussioni sulla riforma scolastica, per i genitori o per un comitato scolastico? 2. Test delle ipotesi Test della differenza nelle medie: calcola la statistica t, 𝑡= 𝑌̅𝑠 −𝑌̅𝑙 2 𝑠2 √ 𝑠𝑠 + 𝑙 𝑛𝑠 𝑛𝑙 𝑌̅ −𝑌̅ 𝑠 𝑙 = 𝑆𝐸(𝑌 (Ti ricordi? – Guè Pequeno) ̅ −𝑌̅ ) 𝑠 𝑙 dove 𝑆𝐸(𝑌̅𝑠 − 𝑌̅𝑙 ) è l'“errore standard” di 𝑌̅𝑠 − 𝑌̅𝑙 , i pedici s e l si riferiscono ai distretti 1 𝑛𝑠 “small” e “large” di STR, e 𝑠𝑠2 = 𝑛 −1 ∑𝑖=1 (𝑌𝑖 − 𝑌̅𝑠 )2 (etc.) 𝑠 Calcola la statistica t della differenza di media: |t| > 1.96, quindi rifiuto (al livello di significatività del 5%) l'ipotesi nulla che le due medie siano le stesse. 3. Intervallo di confidenza Un intervallo di confidenza del 95% per la differenza tra le medie è, (𝑌̅𝑠 − 𝑌̅𝑙 )1.96 ∗ 𝑆𝐸(𝑌̅𝑠 − 𝑌̅𝑙 ) = 7.41.96 ∗ 1.83 = (3.8, 11.0) Due affermazioni equivalenti: 1. L'intervallo di confidenza al 95% per non include 0; 2. L'ipotesi che = 0 sia rifiutata al livello del 5%. Quello che viene dopo... I meccanismi di stima, verifica delle ipotesi e intervalli di confidenza dovrebbero essere familiari Questi concetti si estendono direttamente alla regressione e alle sue varianti Prima di passare alla regressione, tuttavia, esamineremo alcune delle teorie sottostanti della stima, verifica delle ipotesi e intervalli di confidenza: o perché queste procedure funzionano e perché utilizzare queste anziché altre? o Esamineremo quindi i fondamenti intellettuali della statistica e dell'econometria Review di teoria statistica 1. Il quadro delle probabilità per l'inferenza statistica 2. Stima 3. Test 4. Intervalli di confidenza Il quadro delle probabilità per l'inferenza statistica a) Popolazione, variabile casuale e distribuzione b) Momenti di una distribuzione (media, varianza, deviazione standard, covarianza, correlazione) c) Distribuzioni condizionate e medie condizionate d) Distribuzione di un campione di dati estratti casualmente da una popolazione: Y1, ..., Yn a) Popolazione, variabile casuale e distribuzione Popolazione Il gruppo o la raccolta di tutte le possibili entità di interesse (distretti scolastici) Penseremo alle popolazioni come infinitamente grandi ( è un'approssimazione di "molto grande") Variabile casuale Y Riepilogo numerico di un risultato casuale (es. TestScore=punteggio medio del test del distretto o rapporto studenti-insegnanti distrettuali=STR) In altri termini: variabile che assume certi valori con una certa probabilità Distribuzione della popolazione di Y Le probabilità di diversi valori di Y che si verificano nella popolazione, ad es. Pr[Y=650] (quando Y è discreta) oppure: Le probabilità di insiemi di questi valori, ad es. Pr[640Y660] (quando Y è continua). b) Momenti di una distribuzione di popolazione: media, varianza, deviazione standard, covarianza, correlazione ANALISI UNIVARIATA: media = valore atteso (aspettativa) di Y = E(Y) = Y = valore medio di lungo periodo di Y più ripetuto realizzazioni della Y varianza = E(Y – Y)2 = 𝜎𝑌2 = misura dello spread al quadrato della distribuzione deviazione standard = √𝑣𝑎𝑟𝑖𝑎𝑛𝑧𝑎 = 𝜎𝑌 Momenti in analisi univariata 𝐸[(𝑌 − 𝜇𝑌 )3 ] 𝑨𝒔𝒊𝒎𝒎𝒆𝒕𝒓𝒊𝒂 = 𝜎𝑌3 = misura l’asimmetria in una distribuzione Asimmetria = 0 la distribuzione è simmetrica Asimmetria > (<) 0 la distribuzione ha la coda destra (sinistra) lunga 𝑪𝒖𝒓𝒕𝒐𝒔𝒊 = 𝐸[(𝑌 − 𝜇𝑌 )4 ] 𝜎𝑌4 = misura della massa in code = misura della probabilità di grandi valori curtosi = 3: distribuzione normale curtosi > 3: code pesanti (“leptocurtiche”) Variabili casuali: distribuzioni articolari e covarianza ANALISI MULTIVARIATA: Le variabili casuali X e Y hanno una distribuzione congiunta La covarianza tra X e Y è: 𝑐𝑜𝑣(𝑋, 𝑌) = 𝐸[(𝑋 − 𝜇𝑋 )(𝑌 − 𝜇𝑌 )] = 𝜎𝑋𝑌 La covarianza è una misura dell'associazione lineare tra X e Y; le sue unità sono 𝑢𝑛𝑖𝑡à 𝑑𝑖 𝑋 ∗ 𝑢𝑛𝑖𝑡à 𝑑𝑖 𝑌 cov(X,Y) > 0 indica una relazione positiva tra X e Y Se X e Y sono distribuiti indipendentemente, allora cov(X,Y) = 0 (ma non viceversa!!) La covarianza di una variabile casuale con sé stessa è la sua varianza: 𝑐𝑜𝑣(𝑋, 𝑋) = 𝐸[(𝑋 − 𝜇𝑋 )(𝑋 − 𝜇𝑋 )] = 𝐸[(𝑋 − 𝜇𝑋 )2 ] = 𝜎𝑋2 La covarianza tra Test Score e STR è negativa: Il coefficiente di correlazione è definito in termini di covarianza: 𝑐𝑜𝑣(𝑋, 𝑍) 𝜎𝑋𝑍 𝑐𝑜𝑟𝑟(𝑋, 𝑍) = = = 𝑟𝑋𝑍 √𝑣𝑎𝑟(𝑋)𝑣𝑎𝑟(𝑍) √𝜎𝑋 𝜎𝑍 1 corr(X,Z) ≤ 1 corr(X,Z) = 1 significa associazione lineare positiva perfetta corr(X,Z) = –1 significa perfetta associazione lineare negativa corr(X,Z) = 0 significa nessuna associazione lineare (nota: nel nostro campione di 420 distretti 𝑟̂ = −0.23) non vi fate fuorviare dai simboli: prima X e Y ora X e Z (viva il duce) Il coefficiente di correlazione misura l'associazione lineare Nei grafici sottostanti c'è un caso in cui esiste una correlazione, ma corr = 0 (che cos'è? perché?) c) Distribuzioni condizionate e medie condizionate Distribuzioni condizionate La distribuzione di Y dati i valori di qualche altra variabile casuale X Esempio: la distribuzione dei punteggi dei test, dato che STR < 20 Aspettative condizionate e momenti condizionati media condizionata = media della distribuzione condizionata = E(Y|X = x) (concetto e notazione importanti) varianza condizionata = varianza della distribuzione condizionata Esempio: E(Test scores | STR < 20) = la media dei punteggi dei test tra distretti con classi di piccole dimensioni La differenza di medie è la differenza tra le medie di due distribuzioni condizionali: Media condizionata, ctd. = E(Test scores|STR < 20) – E(Test scores|STR ≥ 20) Altri esempi di mezzi condizionali: Salari di tutte le lavoratrici (Y = salario, X = genere) Tasso di mortalità di coloro che hanno ricevuto un trattamento sperimentale (Y = vivere/morire; X = trattato/non trattato) Se E(X|Z) = costante, allora corr(X,Z) = 0 (non necessariamente viceversa però) La media condizionale è un termine (forse nuovo) per l'idea familiare della media di gruppo nota: se E(Y | X < 20) = E(Y | X ≥ 20) Cov(Y, X)=0; e rYX? d) Distribuzione di un campione di dati estratti casualmente da una popolazione: Y1, ..., Yn Assumiamo un semplice campionamento casuale Scegliere e individuo (distretto, entità) a caso dalla popolazione Casualità e dati Prima della selezione del campione, il valore di Y è casuale perché l'individuo selezionato è casuale Una volta selezionato l'individuo e osservato il valore di Y, Y è solo un numero, non casuale Il set di dati è (Y1, Y2, ..., Yn), dove Yi = valore di Y per l'i-esimo individuo (distretto, entità) campionato Distribuzione di Y1, ..., Yn sotto campionamento casuale semplice Poiché gli individui #1 e #2 vengono selezionati a caso, il valore di Y1 non ha contenuto informativo per Y2. Così: o Y1 e Y2 sono distribuiti indipendentemente o Y1 e Y2 provengono dalla stessa distribuzione, ovvero Y1, Y2 sono identicamente distribuiti o Cioè, sotto campionamento casuale semplice, Y1 e Y2 sono distribuiti in modo indipendente e identico (i.i.d.). o Più in generale, sotto campionamento casuale semplice, {Yi}, i = 1, ..., n, sono i.i.d. Questo quadro consente rigorose inferenze statistiche sui momenti di distribuzione della popolazione utilizzando un campione di dati da quella popolazione Lez. 3 – 28/09/2022 1. 2. 3. 4. Il quadro delle probabilità per l'inferenza statistica Stima Test Intervalli di confidenza Stimatori e stime Uno stimatore è una funzione di un campione di dati da estrarre casualmente da una popolazione. Una stima è il valore numerico dello stimatore quando viene effettivamente calcolato utilizzando i dati di un campione specifico. Uno stimatore è una variabile casuale a causa della casualità nella selezione del campione, mentre una stima è un numero non casuale. Stima 𝑌̿ è lo stimatore naturale della media. Ma: a) Quali sono le proprietà di 𝑌̅? b) Perché dovremmo usare 𝑌̅ piuttosto che qualche altro stimatore? Y1 (la prima osservazione) pesi forse disuguali – media non semplice mediana(Y1, ..., Yn) Il punto di partenza è la distribuzione campionaria di 𝑌̅, definita come 𝑛 ∑𝑛𝑖=1 𝑌𝑖 1 𝑌̅ = = ∑ 𝑌𝑖 𝑛 𝑛 𝑖=1 ̅ a) La distribuzione campionaria di 𝒀 𝑌̅ è una variabile casuale e le sue proprietà sono determinate dalla distribuzione campionaria di 𝑌̅ Gli individui nel campione sono estratti a caso. Quindi i valori di (Y1, ..., Yn) sono casuali Quindi le funzioni di (Y1, ..., Yn), come 𝑌̅, sono casuali: avendo un diverso campione prelevato, avrebbero assunto un valore diverso La distribuzione di 𝑌̅ su diversi possibili campioni di dimensione n è chiamata distribuzione campionaria di 𝑌̅. La media e la varianza di 𝑌̅ sono la media e la varianza della sua distribuzione campionaria, E(𝑌̅) e var(𝑌̅); cioè i suoi primi due momenti. Il concetto di distribuzione campionaria è alla base di tutta l’econometria. Cose che vogliamo sapere sulla distribuzione campionaria: Qual è la media di 𝑌̅? o Se 𝐸(𝑌̅) = , allora 𝑌̅ è uno stimatore imparziale (unbiased) di Qual è la varianza di 𝑌̅? o In che modo var(𝑌̅) dipende da n (famosa formula 1/n) 𝑌̅ si avvicina a quando n è grande? o Legge dei grandi numeri: 𝑌̅ è uno stimatore consistente di 𝑌̅ – appare a forma di campana per n grande... è generalmente vero? o In effetti, Y – è approssimativamente normalmente distribuito per n grande (Teorema del limite centrale) ̅ La media e la varianza della distribuzione campionaria di 𝒀 Caso generale, ovvero per Yi i.i.d. da qualsiasi distribuzione: 1 1 1 𝑚𝑒𝑑𝑖𝑎: 𝐸(𝑌̅) = 𝐸 ( ∑𝑛𝑖=1 𝑌𝑖 ) = ∑𝑛𝑖=1 𝐸(𝑌𝑖 ) = ∑𝑛𝑖=1 𝜇𝑌 = 𝜇𝑌 𝑛 𝑛 𝑛 𝑣𝑎𝑟𝑖𝑎𝑛𝑧𝑎: 𝑣𝑎𝑟(𝑌̅) = 𝐸[𝑌̅ − 𝐸(𝑌̅)]2 = 𝐸[𝑌̅ − 𝜇𝑌 ]2 1 = 𝐸 [(𝑛 ∑𝑛𝑖=1 𝑌𝑖 ) − 𝜇𝑌 ] 1 = 𝐸 [𝑛 ∑𝑛𝑖=1(𝑌𝑖 − 𝜇𝑌 )] 2 2 1 = 𝐸 [𝑛2 (∑𝑛𝑖=1(𝑌𝑖 − 𝜇𝑌 ))2 ] 1 = 𝑛2 𝐸(∑𝑛𝑖=1(𝑌𝑖 − 𝜇𝑌 ))2 1 = 𝑛2 ∑𝑛𝑖=1 𝐸(𝑌𝑖 − 𝜇𝑌 )2 1 1 = 𝑛2 ∑𝑛𝑖=1 𝜎𝑌2 = 𝑛2 𝑛𝜎𝑌2 = 𝜎𝑌2 𝑛 Media e varianza della distribuzione campionaria di Y, ctd. 𝐸(𝑌̅) = 𝜇𝑌 𝜎𝑌2 𝑣𝑎𝑟(𝑌̅) = 𝑛 Implicazioni: 1. 𝑌̅ è uno stimatore imparziale di Y (ovvero E(𝑌̅) = Y) 2. var(𝑌̅) è inversamente proporzionale a n lo spread della distribuzione campionaria è proporzionale a 1⁄√𝑛 Pertanto, l'incertezza di campionamento associata a 𝑌̅ è proporzionale a 1⁄√𝑛 (campioni più grandi, meno incertezza, ma con la legge della radice quadrata) ̅ quando n è grande La distribuzione campionaria di 𝒀 Per campioni di piccole dimensioni, la distribuzione di 𝑌̅ è complicata, ma se n è grande, la distribuzione campionaria è semplice! 1. All'aumentare di n, la distribuzione di 𝑌̅ diventa più strettamente centrata intorno a Y (la legge dei grandi numeri) 2. Inoltre, la distribuzione di 𝑌̅ – Y diventa normale (il teorema del limite centrale) La legge dei grandi numeri: Uno stimatore è consistente se la probabilità che rientri in un intervallo del valore reale della popolazione tende a uno all'aumentare della dimensione del campione. Se (Y1, ..., Yn) sono i.i.d. e 𝜎𝑌2 < ∞, allora 𝑌̅ è uno stimatore consistente di Y, cioè: Pr[|𝑌̅ − 𝜇𝑌 | < 𝜀] → 1 𝑐𝑜𝑛 𝑛 → ∞ 𝑝 che può essere scritto, 𝑌̅ → 𝜇𝑌 𝑝 ("𝑌̅ → 𝜇𝑌 " significa "𝑌̅ converge in probabilità a Y"). La matematica: 𝜎2 con n , 𝑣𝑎𝑟(𝑌̅) = 𝑌 → 0, che implica Pr[|𝑌̅ − 𝜇𝑌 | < 𝜀] → 1. 𝑛 Il teorema del limite centrale (CLT): Se (Y1, ..., Yn) sono i.i.d. e 0 < 𝜎𝑌2 < ∞,allora quando n è grande, la distribuzione di 𝑌̅ è ben approssimata da una distribuzione normale. 𝜎2 𝑌̅ è approssimativamente distribuito 𝑁 (𝜇𝑌 , 𝑌 ) (“distribuzione normale con media 𝜇𝑌 𝑛 e varianza 𝜎𝑌2 ⁄𝑛”) √𝑛(𝑌̅ − 𝜇𝑌 )/𝜎𝑌 è approssimativamente distribuito N(0,1) (normale standard) ̅ ̅ ̅ ̅ ] = 𝒀−𝑬(𝒀) = 𝒀−𝝁𝒀 è approssimativamente distribuito Cioè, [standardizzato 𝒀 ̅ 𝝈 ⁄ 𝒏 come N(0,1) Maggiore è n, migliore è l'approssimazione. √𝒗𝒂𝒓(𝒀) 𝒀 √ ̅ Riepilogo: la distribuzione campionaria di 𝒀 2 Per Y1, ..., Yn i.i.d. con 0 < 𝜎𝑌 < ∞, La distribuzione campionaria esatta (a campione finito) di 𝑌̅ ha media 𝜇𝑌 ("𝑌̅ è uno stimatore imparziale di Y") e varianza 𝜎𝑌2 ⁄𝑛 A parte la sua media e varianza, la distribuzione esatta di Y è complicata e dipende dalla distribuzione di Y (la distribuzione della popolazione) Quando n è grande, la distribuzione campionaria semplifica: 𝑝 o 𝑌̅ → 𝜎𝑌 (legge dei grandi numeri) o 𝑌̅−𝐸(𝑌̅) √𝑣𝑎𝑟(𝑌̅) è approssimativamente N(0,1) (CLT) ̅ per stimare 𝝁𝒀 ? b) Perché usare 𝒀 Y è imparziale: 𝐸(𝑌̅) = 𝜇𝑌 𝑝 Y è consistente: 𝑌̅ → 𝜇𝑌 Y è lo stimatore dei “minimi quadrati” di 𝜇𝑌 ; 𝑌̅ risolve, 𝑛 𝑚𝑖𝑛𝑚 ∑(𝑌𝑖 − 𝑚)2 𝑖=1 quindi, 𝑌̅ riduce al minimo la somma delle deviazioni al quadrato ("residui") derivazione opzionale (vedi anche App. 3.2) 𝑑 𝑑 ∑𝑛 (𝑌 − 𝑚)2 = ∑𝑛𝑖=1 (𝑌𝑖 − 𝑚)2 = 2 ∑𝑛𝑖=1(𝑌𝑖 − 𝑚) 𝑑𝑚 𝑖=1 𝑖 𝑑𝑚 Imposta la derivata a zero e denota il valore ottimale di m con 𝑚 ̂: Perché usare 𝒀̅ per stimare 𝝁𝒀 , ctd. Y ha una varianza minore rispetto a tutti gli altri stimatori lineari imparziali: 1 si consideri lo stimatore, 𝜇̂ 𝑌 = 𝑛 ∑𝑛𝑖=1 𝑎𝑖 𝑌𝑖 , dove {ai} sono tali che 𝜇𝑌 è imparziale; quindi var(𝑌̅)<var(𝜇̂ 𝑌 ) (dimostrazione: SW, Ch. 17) 𝑌̅ non è l'unico stimatore di 𝜇𝑌 : riesci a pensare a un momento in cui potresti voler utilizzare invece la mediana? 1. 2. 3. 4. Il quadro delle probabilità per l'inferenza statistica Stima Verifica delle ipotesi Intervalli di confidenza Verifica di ipotesi Il problema della verifica delle ipotesi (per la media): prendere una decisione provvisoria, sulla base dell'evidenza a disposizione, se un'ipotesi nulla è vera, o invece che qualche ipotesi alternativa è vera. Cioè, prova 𝐻0 : 𝐸(𝑌) = 𝜇𝑌,0 𝑣𝑠. 𝐻1 : 𝐸(𝑌) > 𝜇𝑌,0 (𝑑𝑎 𝑢𝑛 𝑙𝑎𝑡𝑜, >) 𝐻0 : 𝐸(𝑌) = 𝜇𝑌,0 𝑣𝑠. 𝐻1 : 𝐸(𝑌) < 𝜇𝑌,0 (𝑑𝑎 𝑢𝑛 𝑙𝑎𝑡𝑜, <) 𝐻0 : 𝐸(𝑌) = 𝜇𝑌,0 𝑣𝑠. 𝐻1 : 𝐸(𝑌) ≠ 𝜇𝑌,0 (𝑑𝑎 𝑑𝑢𝑒 𝑙𝑎𝑡𝑖) Un po' di terminologia per testare ipotesi statistiche: p-value = probabilità di disegnare una statistica (ad es. 𝑌̅) almeno tanto sfavorevole al valore nullo quanto il valore effettivamente calcolato con i tuoi dati, supponendo che l'ipotesi nulla sia vera. Probabilità di errore di tipo I: “la probabilità di commettere un errore rifiutando l'ipotesi nulla quando è vera” Il livello di significatività di un test è una probabilità prestabilita di rifiutare erroneamente il valore nullo, quando il valore nullo è vero. Calcolo del p-value in base a 𝑌̅: 𝑝 − 𝑣𝑎𝑙𝑢𝑒 = 𝑃𝑟𝐻0 [|𝑌̅ − 𝜇𝑌,0 | > |𝑌̅ 𝑎𝑐𝑡 − 𝜇𝑌,0 |] dove 𝑌̅ 𝑎𝑐𝑡 è il valore di 𝑌̅ attualmente osservato (non casuale) Calcolo del valore p, ctd. Per calcolare il p-value, è necessario conoscere la distribuzione campionaria di 𝑌̅, che è complicata se n è piccolo. Se n è grande, puoi usare l'approssimazione normale (CLT): 𝑝 − 𝑣𝑎𝑙𝑢𝑒 = 𝑃𝑟𝐻0 [|𝑌̅ − 𝜇𝑌,0 | > |𝑌̅ 𝑎𝑐𝑡 − 𝜇𝑌,0 |] = 𝑃𝑟𝐻0 [| 𝑌̅ − 𝜇𝑌,0 𝜎𝑌 | > | |] √𝑛