Uploaded by Alberto Caruso

DE ECONOMETRIA

advertisement
DE ECONOMETRIA
Lez. 1 – 21/09/2022
Ricerca applicata vs Ricerca teorica
Qual è la differenza?
Ricerca applicata vs Ricerca teorica
Esempio: le decisioni della famiglia sulla fertilità
Relazione positiva o negativa tra fertilità e reddito o ricchezza familiare?
Preferenze delle famiglie  Elasticità della domanda al reddito
Esempio: Decisioni della famiglia sulla fertilità
 Becker (1960) ha sostenuto che i bambini forniscono utilità ai genitori allo stesso modo dei
beni “normali”.
o Relazione positiva tra fertilità e reddito o ricchezza familiare.
 La ricerca sulle decisioni familiari sulla fertilità suggerisce una relazione negativa (serie crosssection e serie storica).
 Becker e Lewis (1973) hanno aggiunto qualità al loro modello (relazione negativa).
o Fertilità basata sul compromesso quantità-qualità (l’elasticità della domanda al reddito
per la qualità del bambino dovrebbe essere maggiore di quella per la quantità del
bambino  riassunto: meglio un figlio etero di due figli froci).
 Tuttavia, c’è ancora ambiguità (fino al 25 settembre 2022  Meloni, urlo del sium ecc.).
Ricerca applicata vs Ricerca teorica
 La teoria economica modella il funzionamento delle società.
 L'economia applicata implementa i modelli in modo ampio e in una moltitudine di circostanze
specifiche.
Caratteristiche dei due approcci:
Più teorico
✓ Sviluppa modelli e teorie
✓ Deve essere robusto, basato su prove che generalmente si basano su ipotesi o generalizzazioni
✓ Scambio tra rigore e pertinenza
✓ Può adattare modelli di altri campi (es. esperimenti)
Più applicato
✓ Applica/testa modelli e teorie
✓ Deve trovare la reale applicazione dei modelli (diverse attività economiche)
✓ Le decisioni economiche sono incorporate nelle circostanze culturali (credenze e norme sociali)
✓ Quali fattori causali studiare e quali ignorare (conclusioni diverse)
Lez. 2 – 23/09/2022
Breve panoramica del corso:
L'economia suggerisce relazioni importanti, spesso con implicazioni politiche, ma praticamente non
suggerisce mai grandezze quantitative di effetti causali.
 Qual è l'effetto quantitativo della riduzione delle dimensioni della classe sul rendimento degli
studenti?
 In che modo un altro anno di istruzione cambia i guadagni?
 Qual è l'elasticità del prezzo delle sigarette?
 Qual è l'effetto sulla crescita della produzione di un aumento di 1 punto percentuale sui tassi
di interesse dalla Fed?
 Qual è l'effetto dei miglioramenti ambientali sui prezzi delle abitazioni?
Questo corso riguarda l'utilizzo dei dati per misurare gli effetti causali.
 Idealmente, vorremmo un esperimento
o quale sarebbe un esperimento per stimare l'effetto della dimensione della classe sui
punteggi dei test standardizzati?
 Ma quasi sempre abbiamo solo dati osservazionali (non sperimentali)
o ritorno all'istruzione (tipo Gemitaiz che torna a scuola dopo averla abbandonata)
o prezzi delle sigarette
o politica monetaria
 La maggior parte del corso affronta le difficoltà derivanti dall'uso dell'osservazione per
stimare gli effetti causali
o effetti confondenti (fattori omessi)
o causalità simultanea
o “la correlazione non implica causalità”
Tipi di dati
CROSS-SECTIONAL, TIME SERIES AND PANEL DATA
 I dati cross-section sono costituiti da più entità osservate in un unico periodo di tempo.
 I dati delle serie temporali sono costituiti da una singola entità osservata in più periodi di
tempo.
 I panel data (noti anche come dati longitudinali) sono costituiti da più entità, in cui ciascuna
entità viene osservata in due o più periodi di tempo.
Dati sezionali – Cross-sectional data
Serie temporali (o serie storiche) – Time series
Dati panel – Panel data
In questo corso dovrai:
 Imparare metodi per stimare gli effetti causali utilizzando dati osservabili;
 Imparare ad usare alcuni strumenti che possono essere utilizzati per altri scopi, ad esempio
previsioni, utilizzando dati di serie temporali;
 Concentrarti sulle applicazioni: la teoria viene utilizzata solo se necessaria per comprendere i
“perché” dei metodi;
 Imparare a valutare l'analisi di regressione di altro – questo significa che sarai in grado di
leggere/capire documenti di economia empirica in altri corsi economici;
 Ottenere un'esperienza pratica con l'analisi di regressione nel tuo insieme di problemi.
Revisione della probabilità e della statistica (Capitoli 2 e 3 del SW)
Problema empirico: dimensione della classe e output educativo
 Domanda politica: qual è l'effetto sui punteggi dei test (o su qualche altra misura di esito)
della riduzione delle dimensioni della classe di uno studente per classe? E di 8 studenti per
classe?
 Dobbiamo usare i dati per scoprirlo (c'è un modo per rispondere senza dati?)
Set di dati del punteggio del test della California
Tutti i distretti scolastici della California K-6 e K-8 (n = 420)
Variabili:
 Punteggi del test di quinta elementare (test di rendimento Stanford-9, matematica e lettura),
media distrettuale, TestScore
 Rapporto studenti/insegnanti = numero di studenti nel distretto diviso per il numero di
insegnanti equivalenti a tempo pieno, STR
Primo sguardo ai dati:
(Dovresti già sapere come interpretare questa tabella)
NOTA BENE: la media “giusta” è 654.2 (come avrò fatto ad accorgermene?  probabile barbatrucco)
Questa tabella non ci dice nulla sulla relazione tra i punteggi dei test e STR  Ziacane (letto in
toscano).
I distretti con classi più piccole hanno punteggi più alti nei test? Grafico a dispersione del punteggio
del test rispetto al rapporto studente/insegnante
Cosa mostra questo grafico? (spoiler: un cazzo)
Abbiamo bisogno di ottenere alcune prove numeriche sul fatto che i distretti con STR bassi abbiano
punteggi più alti nei test, ma come?
1. Confronta i punteggi medi dei test nei distretti con STR bassi con quelli con STR elevati
("stima").
2. Testare l'ipotesi “nulla” (H0) che i punteggi medi dei test nei due tipi di distretti siano gli
stessi, contro l'ipotesi “alternativa” (H1) che differiscano (“test di ipotesi”).
3. Stimare un intervallo per la differenza tra i punteggi medi dei test, i distretti STR alto vs STR
basso ("intervallo di confidenza").
Analisi iniziale dei dati: confrontare i distretti con le dimensioni delle classi “piccole” (STR < 20) e
̅̅̅̅̅ = 19.6 → 𝑚𝑒𝑑𝑖𝑎)
“grandi” (STR ≥ 20): (nota: 𝑆𝑇𝑅
1. Stima di  = differenza tra le medie di gruppo
2. Verifica l'ipotesi che  = 0
3. Costruire un intervallo di confidenza per 
657.4 ∗ 238 + 650 ∗ 182
𝑁𝑜𝑡𝑎: 𝑚𝑒𝑑𝑖𝑎 𝑔𝑒𝑛𝑒𝑟𝑎𝑙𝑒 =
= 654.193333
238 + 182
1. Stima
𝑌̅𝑠𝑚𝑎𝑙𝑙 − 𝑌̅𝑙𝑎𝑟𝑔𝑒 =
1
𝑛𝑠𝑚𝑎𝑙𝑙
𝑛𝑠𝑚𝑎𝑙𝑙
∑ 𝑌𝑖 −
𝑖
1
𝑛𝑙𝑎𝑟𝑔𝑒
𝑛𝑙𝑎𝑟𝑔𝑒
∑ 𝑌𝑖
𝑖
= 657.4 − 650.0 = 7.4
Si tratta di una grande differenza nel senso del mondo reale?
 Deviazione standard tra i distretti = 19.1
 Differenza tra il 60° e il 75° percentile della distribuzione del punteggio del test è
667.6 – 659.4 = 8.2
 Questa è una differenza abbastanza grande da essere importante per discussioni sulla
riforma scolastica, per i genitori o per un comitato scolastico?
2. Test delle ipotesi
Test della differenza nelle medie: calcola la statistica t,
𝑡=
𝑌̅𝑠 −𝑌̅𝑙
2 𝑠2
√ 𝑠𝑠 + 𝑙
𝑛𝑠 𝑛𝑙
𝑌̅ −𝑌̅
𝑠
𝑙
= 𝑆𝐸(𝑌
(Ti ricordi? – Guè Pequeno)
̅ −𝑌̅ )
𝑠
𝑙
dove 𝑆𝐸(𝑌̅𝑠 − 𝑌̅𝑙 ) è l'“errore standard” di 𝑌̅𝑠 − 𝑌̅𝑙 , i pedici s e l si riferiscono ai distretti
1
𝑛𝑠
“small” e “large” di STR, e 𝑠𝑠2 = 𝑛 −1 ∑𝑖=1
(𝑌𝑖 − 𝑌̅𝑠 )2 (etc.)
𝑠
Calcola la statistica t della differenza di media:
|t| > 1.96, quindi rifiuto (al livello di significatività del 5%) l'ipotesi nulla che le due medie
siano le stesse.
3. Intervallo di confidenza
Un intervallo di confidenza del 95% per la differenza tra le medie è,
(𝑌̅𝑠 − 𝑌̅𝑙 )1.96 ∗ 𝑆𝐸(𝑌̅𝑠 − 𝑌̅𝑙 )
= 7.41.96 ∗ 1.83 = (3.8, 11.0)
Due affermazioni equivalenti:
1. L'intervallo di confidenza al 95% per  non include 0;
2. L'ipotesi che  = 0 sia rifiutata al livello del 5%.
Quello che viene dopo...
 I meccanismi di stima, verifica delle ipotesi e intervalli di confidenza dovrebbero essere
familiari
 Questi concetti si estendono direttamente alla regressione e alle sue varianti
 Prima di passare alla regressione, tuttavia, esamineremo alcune delle teorie sottostanti della
stima, verifica delle ipotesi e intervalli di confidenza:
o perché queste procedure funzionano e perché utilizzare queste anziché altre?
o Esamineremo quindi i fondamenti intellettuali della statistica e dell'econometria
Review di teoria statistica
1. Il quadro delle probabilità per l'inferenza statistica
2. Stima
3. Test
4. Intervalli di confidenza
Il quadro delle probabilità per l'inferenza statistica
a) Popolazione, variabile casuale e distribuzione
b) Momenti di una distribuzione (media, varianza, deviazione standard, covarianza,
correlazione)
c) Distribuzioni condizionate e medie condizionate
d) Distribuzione di un campione di dati estratti casualmente da una popolazione: Y1, ..., Yn
a) Popolazione, variabile casuale e distribuzione
Popolazione
 Il gruppo o la raccolta di tutte le possibili entità di interesse (distretti scolastici)
 Penseremo alle popolazioni come infinitamente grandi ( è un'approssimazione di
"molto grande")
Variabile casuale Y
 Riepilogo numerico di un risultato casuale (es. TestScore=punteggio medio del test
del distretto o rapporto studenti-insegnanti distrettuali=STR)
In altri termini: variabile che assume certi valori con una certa probabilità
Distribuzione della popolazione di Y
 Le probabilità di diversi valori di Y che si verificano nella popolazione, ad es.
Pr[Y=650] (quando Y è discreta)
 oppure: Le probabilità di insiemi di questi valori, ad es. Pr[640Y660] (quando Y è
continua).
b) Momenti di una distribuzione di popolazione: media, varianza, deviazione standard,
covarianza, correlazione
ANALISI UNIVARIATA:
media = valore atteso (aspettativa) di Y
= E(Y)
= Y
= valore medio di lungo periodo di Y più ripetuto realizzazioni della Y
varianza = E(Y – Y)2
= 𝜎𝑌2
= misura dello spread al quadrato della distribuzione
deviazione standard = √𝑣𝑎𝑟𝑖𝑎𝑛𝑧𝑎 = 𝜎𝑌
Momenti in analisi univariata
𝐸[(𝑌 − 𝜇𝑌 )3 ]
𝑨𝒔𝒊𝒎𝒎𝒆𝒕𝒓𝒊𝒂 =
𝜎𝑌3
= misura l’asimmetria in una distribuzione
 Asimmetria = 0  la distribuzione è simmetrica
 Asimmetria > (<) 0  la distribuzione ha la coda destra (sinistra) lunga
𝑪𝒖𝒓𝒕𝒐𝒔𝒊 =
𝐸[(𝑌 − 𝜇𝑌 )4 ]
𝜎𝑌4
= misura della massa in code
= misura della probabilità di grandi valori
 curtosi = 3: distribuzione normale
 curtosi > 3: code pesanti (“leptocurtiche”)
Variabili casuali: distribuzioni articolari e covarianza
ANALISI MULTIVARIATA:
 Le variabili casuali X e Y hanno una distribuzione congiunta
 La covarianza tra X e Y è: 𝑐𝑜𝑣(𝑋, 𝑌) = 𝐸[(𝑋 − 𝜇𝑋 )(𝑌 − 𝜇𝑌 )] = 𝜎𝑋𝑌
 La covarianza è una misura dell'associazione lineare tra X e Y; le sue unità sono
𝑢𝑛𝑖𝑡à 𝑑𝑖 𝑋 ∗ 𝑢𝑛𝑖𝑡à 𝑑𝑖 𝑌
 cov(X,Y) > 0 indica una relazione positiva tra X e Y
 Se X e Y sono distribuiti indipendentemente, allora cov(X,Y) = 0 (ma non viceversa!!)
 La covarianza di una variabile casuale con sé stessa è la sua varianza:
𝑐𝑜𝑣(𝑋, 𝑋) = 𝐸[(𝑋 − 𝜇𝑋 )(𝑋 − 𝜇𝑋 )] = 𝐸[(𝑋 − 𝜇𝑋 )2 ] = 𝜎𝑋2
La covarianza tra Test Score e STR è negativa:
Il coefficiente di correlazione è definito in termini di covarianza:
𝑐𝑜𝑣(𝑋, 𝑍)
𝜎𝑋𝑍
𝑐𝑜𝑟𝑟(𝑋, 𝑍) =
=
= 𝑟𝑋𝑍
√𝑣𝑎𝑟(𝑋)𝑣𝑎𝑟(𝑍) √𝜎𝑋 𝜎𝑍
 1  corr(X,Z) ≤ 1
 corr(X,Z) = 1 significa associazione lineare positiva perfetta
 corr(X,Z) = –1 significa perfetta associazione lineare negativa
 corr(X,Z) = 0 significa nessuna associazione lineare
(nota: nel nostro campione di 420 distretti 𝑟̂ = −0.23)
non vi fate fuorviare dai simboli: prima X e Y ora X e Z (viva il duce)
Il coefficiente di correlazione misura l'associazione lineare
Nei grafici sottostanti c'è un caso in cui esiste una correlazione, ma corr = 0 (che cos'è?
perché?)
c) Distribuzioni condizionate e medie condizionate
Distribuzioni condizionate
 La distribuzione di Y dati i valori di qualche altra variabile casuale X
 Esempio: la distribuzione dei punteggi dei test, dato che STR < 20
Aspettative condizionate e momenti condizionati
 media condizionata = media della distribuzione condizionata
 = E(Y|X = x) (concetto e notazione importanti)
 varianza condizionata = varianza della distribuzione condizionata
 Esempio: E(Test scores | STR < 20) = la media dei punteggi dei test tra distretti con
classi di piccole dimensioni
La differenza di medie è la differenza tra le medie di due distribuzioni condizionali:
Media condizionata, ctd.
= E(Test scores|STR < 20) – E(Test scores|STR ≥ 20)
Altri esempi di mezzi condizionali:
 Salari di tutte le lavoratrici (Y = salario, X = genere)
 Tasso di mortalità di coloro che hanno ricevuto un trattamento sperimentale (Y =
vivere/morire; X = trattato/non trattato)
 Se E(X|Z) = costante, allora corr(X,Z) = 0 (non necessariamente viceversa però)
La media condizionale è un termine (forse nuovo) per l'idea familiare della media di gruppo
nota: se E(Y | X < 20) = E(Y | X ≥ 20)  Cov(Y, X)=0; e rYX?
d) Distribuzione di un campione di dati estratti casualmente da una popolazione: Y1, ..., Yn
Assumiamo un semplice campionamento casuale
 Scegliere e individuo (distretto, entità) a caso dalla popolazione
Casualità e dati
 Prima della selezione del campione, il valore di Y è casuale perché l'individuo
selezionato è casuale
 Una volta selezionato l'individuo e osservato il valore di Y, Y è solo un numero, non
casuale
 Il set di dati è (Y1, Y2, ..., Yn), dove Yi = valore di Y per l'i-esimo individuo (distretto,
entità) campionato
Distribuzione di Y1, ..., Yn sotto campionamento casuale semplice
 Poiché gli individui #1 e #2 vengono selezionati a caso, il valore di Y1 non ha contenuto
informativo per Y2. Così:
o Y1 e Y2 sono distribuiti indipendentemente
o Y1 e Y2 provengono dalla stessa distribuzione, ovvero Y1, Y2 sono
identicamente distribuiti
o Cioè, sotto campionamento casuale semplice, Y1 e Y2 sono distribuiti in modo
indipendente e identico (i.i.d.).
o Più in generale, sotto campionamento casuale semplice, {Yi}, i = 1, ..., n, sono
i.i.d.
Questo quadro consente rigorose inferenze statistiche sui momenti di distribuzione della
popolazione utilizzando un campione di dati da quella popolazione
Lez. 3 – 28/09/2022
1.
2.
3.
4.
Il quadro delle probabilità per l'inferenza statistica
Stima
Test
Intervalli di confidenza
Stimatori e stime
Uno stimatore è una funzione di un campione di dati da estrarre casualmente da una popolazione.
Una stima è il valore numerico dello stimatore quando viene effettivamente calcolato utilizzando i
dati di un campione specifico.
Uno stimatore è una variabile casuale a causa della casualità nella selezione del campione, mentre
una stima è un numero non casuale.
Stima
𝑌̿ è lo stimatore naturale della media. Ma:
a) Quali sono le proprietà di 𝑌̅?
b) Perché dovremmo usare 𝑌̅ piuttosto che qualche altro stimatore?
 Y1 (la prima osservazione)
 pesi forse disuguali – media non semplice
 mediana(Y1, ..., Yn)
Il punto di partenza è la distribuzione campionaria di 𝑌̅, definita come
𝑛
∑𝑛𝑖=1 𝑌𝑖 1
𝑌̅ =
= ∑ 𝑌𝑖
𝑛
𝑛
𝑖=1
̅
a) La distribuzione campionaria di 𝒀
𝑌̅ è una variabile casuale e le sue proprietà sono determinate dalla distribuzione campionaria
di 𝑌̅
 Gli individui nel campione sono estratti a caso.
 Quindi i valori di (Y1, ..., Yn) sono casuali
 Quindi le funzioni di (Y1, ..., Yn), come 𝑌̅, sono casuali: avendo un diverso campione
prelevato, avrebbero assunto un valore diverso
 La distribuzione di 𝑌̅ su diversi possibili campioni di dimensione n è chiamata
distribuzione campionaria di 𝑌̅.
 La media e la varianza di 𝑌̅ sono la media e la varianza della sua distribuzione
campionaria, E(𝑌̅) e var(𝑌̅); cioè i suoi primi due momenti.
 Il concetto di distribuzione campionaria è alla base di tutta l’econometria.
Cose che vogliamo sapere sulla distribuzione campionaria:
 Qual è la media di 𝑌̅?
o Se 𝐸(𝑌̅) = , allora 𝑌̅ è uno stimatore imparziale (unbiased) di 
 Qual è la varianza di 𝑌̅?
o In che modo var(𝑌̅) dipende da n (famosa formula 1/n)
 𝑌̅ si avvicina a  quando n è grande?
o Legge dei grandi numeri: 𝑌̅ è uno stimatore consistente di 
 𝑌̅ –  appare a forma di campana per n grande... è generalmente vero?
o In effetti, Y –  è approssimativamente normalmente distribuito per n grande
(Teorema del limite centrale)
̅
La media e la varianza della distribuzione campionaria di 𝒀
Caso generale, ovvero per Yi i.i.d. da qualsiasi distribuzione:
1
1
1
𝑚𝑒𝑑𝑖𝑎: 𝐸(𝑌̅) = 𝐸 ( ∑𝑛𝑖=1 𝑌𝑖 ) = ∑𝑛𝑖=1 𝐸(𝑌𝑖 ) = ∑𝑛𝑖=1 𝜇𝑌 = 𝜇𝑌
𝑛
𝑛
𝑛
𝑣𝑎𝑟𝑖𝑎𝑛𝑧𝑎: 𝑣𝑎𝑟(𝑌̅) = 𝐸[𝑌̅ − 𝐸(𝑌̅)]2
= 𝐸[𝑌̅ − 𝜇𝑌 ]2
1
= 𝐸 [(𝑛 ∑𝑛𝑖=1 𝑌𝑖 ) − 𝜇𝑌 ]
1
= 𝐸 [𝑛 ∑𝑛𝑖=1(𝑌𝑖 − 𝜇𝑌 )]
2
2
1
= 𝐸 [𝑛2 (∑𝑛𝑖=1(𝑌𝑖 − 𝜇𝑌 ))2 ]
1
= 𝑛2 𝐸(∑𝑛𝑖=1(𝑌𝑖 − 𝜇𝑌 ))2
1
= 𝑛2 ∑𝑛𝑖=1 𝐸(𝑌𝑖 − 𝜇𝑌 )2
1
1
= 𝑛2 ∑𝑛𝑖=1 𝜎𝑌2 = 𝑛2 𝑛𝜎𝑌2
=
𝜎𝑌2
𝑛
Media e varianza della distribuzione campionaria di Y, ctd.
𝐸(𝑌̅) = 𝜇𝑌
𝜎𝑌2
𝑣𝑎𝑟(𝑌̅) =
𝑛
Implicazioni:
1. 𝑌̅ è uno stimatore imparziale di Y (ovvero E(𝑌̅) = Y)
2. var(𝑌̅) è inversamente proporzionale a n
 lo spread della distribuzione campionaria è proporzionale a 1⁄√𝑛
 Pertanto, l'incertezza di campionamento associata a 𝑌̅ è proporzionale a 1⁄√𝑛
(campioni più grandi, meno incertezza, ma con la legge della radice quadrata)
̅ quando n è grande
La distribuzione campionaria di 𝒀
Per campioni di piccole dimensioni, la distribuzione di 𝑌̅ è complicata, ma se n è grande, la
distribuzione campionaria è semplice!
1. All'aumentare di n, la distribuzione di 𝑌̅ diventa più strettamente centrata intorno a Y
(la legge dei grandi numeri)
2. Inoltre, la distribuzione di 𝑌̅ – Y diventa normale (il teorema del limite centrale)
La legge dei grandi numeri:
Uno stimatore è consistente se la probabilità che rientri in un intervallo del valore reale della
popolazione tende a uno all'aumentare della dimensione del campione.
Se (Y1, ..., Yn) sono i.i.d. e 𝜎𝑌2 < ∞, allora 𝑌̅ è uno stimatore consistente di Y, cioè:
Pr[|𝑌̅ − 𝜇𝑌 | < 𝜀] → 1 𝑐𝑜𝑛 𝑛 → ∞
𝑝
che può essere scritto, 𝑌̅ → 𝜇𝑌
𝑝
("𝑌̅ → 𝜇𝑌 " significa "𝑌̅ converge in probabilità a Y").
La matematica:
𝜎2
con n  , 𝑣𝑎𝑟(𝑌̅) = 𝑌 → 0, che implica Pr[|𝑌̅ − 𝜇𝑌 | < 𝜀] → 1.
𝑛
Il teorema del limite centrale (CLT):
Se (Y1, ..., Yn) sono i.i.d. e 0 < 𝜎𝑌2 < ∞,allora quando n è grande, la distribuzione di 𝑌̅ è ben
approssimata da una distribuzione normale.
𝜎2
 𝑌̅ è approssimativamente distribuito 𝑁 (𝜇𝑌 , 𝑌 ) (“distribuzione normale con media 𝜇𝑌
𝑛

e varianza 𝜎𝑌2 ⁄𝑛”)
√𝑛(𝑌̅ − 𝜇𝑌 )/𝜎𝑌 è approssimativamente distribuito N(0,1) (normale standard)
̅
̅
̅
̅ ] = 𝒀−𝑬(𝒀) = 𝒀−𝝁𝒀 è approssimativamente distribuito
Cioè, [standardizzato 𝒀
̅
𝝈 ⁄ 𝒏

come N(0,1)
Maggiore è n, migliore è l'approssimazione.

√𝒗𝒂𝒓(𝒀)
𝒀
√
̅
Riepilogo: la distribuzione campionaria di 𝒀
2
Per Y1, ..., Yn i.i.d. con 0 < 𝜎𝑌 < ∞,
 La distribuzione campionaria esatta (a campione finito) di 𝑌̅ ha media 𝜇𝑌 ("𝑌̅ è uno
stimatore imparziale di Y") e varianza 𝜎𝑌2 ⁄𝑛
 A parte la sua media e varianza, la distribuzione esatta di Y è complicata e dipende
dalla distribuzione di Y (la distribuzione della popolazione)
 Quando n è grande, la distribuzione campionaria semplifica:
𝑝
o 𝑌̅ → 𝜎𝑌 (legge dei grandi numeri)
o
𝑌̅−𝐸(𝑌̅)
√𝑣𝑎𝑟(𝑌̅)
è approssimativamente N(0,1) (CLT)
̅ per stimare 𝝁𝒀 ?
b) Perché usare 𝒀
 Y è imparziale: 𝐸(𝑌̅) = 𝜇𝑌
𝑝
 Y è consistente: 𝑌̅ → 𝜇𝑌
 Y è lo stimatore dei “minimi quadrati” di 𝜇𝑌 ; 𝑌̅ risolve,
𝑛
𝑚𝑖𝑛𝑚 ∑(𝑌𝑖 − 𝑚)2
𝑖=1
quindi, 𝑌̅ riduce al minimo la somma delle deviazioni al quadrato ("residui") derivazione
opzionale (vedi anche App. 3.2)
𝑑
𝑑
∑𝑛 (𝑌 − 𝑚)2 = ∑𝑛𝑖=1 (𝑌𝑖 − 𝑚)2 = 2 ∑𝑛𝑖=1(𝑌𝑖 − 𝑚)
𝑑𝑚 𝑖=1 𝑖
𝑑𝑚
Imposta la derivata a zero e denota il valore ottimale di m con 𝑚
̂:
Perché usare 𝒀̅ per stimare 𝝁𝒀 , ctd.
 Y ha una varianza minore rispetto a tutti gli altri stimatori lineari imparziali:
1
 si consideri lo stimatore, 𝜇̂ 𝑌 = 𝑛 ∑𝑛𝑖=1 𝑎𝑖 𝑌𝑖 , dove {ai} sono tali che 𝜇𝑌 è imparziale; quindi
var(𝑌̅)<var(𝜇̂ 𝑌 ) (dimostrazione: SW, Ch. 17)
 𝑌̅ non è l'unico stimatore di 𝜇𝑌 : riesci a pensare a un momento in cui potresti voler utilizzare
invece la mediana?
1.
2.
3.
4.
Il quadro delle probabilità per l'inferenza statistica
Stima
Verifica delle ipotesi
Intervalli di confidenza
Verifica di ipotesi
Il problema della verifica delle ipotesi (per la media): prendere una decisione provvisoria,
sulla base dell'evidenza a disposizione, se un'ipotesi nulla è vera, o invece che qualche ipotesi
alternativa è vera. Cioè, prova
𝐻0 : 𝐸(𝑌) = 𝜇𝑌,0 𝑣𝑠. 𝐻1 : 𝐸(𝑌) > 𝜇𝑌,0 (𝑑𝑎 𝑢𝑛 𝑙𝑎𝑡𝑜, >)
𝐻0 : 𝐸(𝑌) = 𝜇𝑌,0 𝑣𝑠. 𝐻1 : 𝐸(𝑌) < 𝜇𝑌,0 (𝑑𝑎 𝑢𝑛 𝑙𝑎𝑡𝑜, <)
𝐻0 : 𝐸(𝑌) = 𝜇𝑌,0 𝑣𝑠. 𝐻1 : 𝐸(𝑌) ≠ 𝜇𝑌,0 (𝑑𝑎 𝑑𝑢𝑒 𝑙𝑎𝑡𝑖)
Un po' di terminologia per testare ipotesi statistiche:
p-value = probabilità di disegnare una statistica (ad es. 𝑌̅) almeno tanto sfavorevole al valore
nullo quanto il valore effettivamente calcolato con i tuoi dati, supponendo che l'ipotesi nulla
sia vera. Probabilità di errore di tipo I: “la probabilità di commettere un errore rifiutando
l'ipotesi nulla quando è vera”
Il livello di significatività di un test è una probabilità prestabilita di rifiutare erroneamente il
valore nullo, quando il valore nullo è vero.
Calcolo del p-value in base a 𝑌̅:
𝑝 − 𝑣𝑎𝑙𝑢𝑒 = 𝑃𝑟𝐻0 [|𝑌̅ − 𝜇𝑌,0 | > |𝑌̅ 𝑎𝑐𝑡 − 𝜇𝑌,0 |]
dove 𝑌̅ 𝑎𝑐𝑡 è il valore di 𝑌̅ attualmente osservato (non casuale)
Calcolo del valore p, ctd.
 Per calcolare il p-value, è necessario conoscere la distribuzione campionaria di 𝑌̅, che
è complicata se n è piccolo.
 Se n è grande, puoi usare l'approssimazione normale (CLT):
𝑝 − 𝑣𝑎𝑙𝑢𝑒 = 𝑃𝑟𝐻0 [|𝑌̅ − 𝜇𝑌,0 | > |𝑌̅ 𝑎𝑐𝑡 − 𝜇𝑌,0 |]
= 𝑃𝑟𝐻0 [|
𝑌̅ − 𝜇𝑌,0
𝜎𝑌 | > | |]
√𝑛
Related documents
Download