Uploaded by vividivuolo

20130531.pdf

advertisement
STATISTICA
Prova scritta in data 31-05-2013
Soluzioni
Quesito 1.
Nella seguente tabella è contenuta la distribuzione delle temperature minime giornaliere (in gradi centigradi)
rilevate nel mese di gennaio in una certa stazione meteorologica.
temperature
0⊣2
2⊣5
5⊣8
8 ⊣ 12
frequenze relative
0.30
0.33
0.25
0.12
a) Rappresentare graficamente la distribuzione.
b) Individuare la classe modale.
c) Calcolare la media, la varianza e lo scarto quadratico medio della distribuzione.
d)Ricordiamo che tra la temperatura misurata in gradi centigradi x e la temperatura misurata in gradi
Fahranheit y vale la relazione y = 32 + 1.8 · x. Quali sarebbero i valori degli indicatori di sintesi richiesti nel
punto precedente se le temperature fossero state misurate in gradi Fahranheit?
e) Indichiamo con xi (i = 1, . . . , 31) le temperature minime giornaliere rilevate e con x̄ e M e
∑31
2
rispettivamente la loro media e mediana. Allora
i=1 (xi − x̄) risulta maggiore, uguale o minore di
∑31
2
i=1 (xi − M e) ? Perché? A quale proprietà è necessario far riferimento per rispondere?
Soluzione
a) La rappresentazione grafica idonea per la distribuzione in classi di un carattere quantitativo continuo
è l’istogramma. Dal momento che le classi non hanno tutte la stessa ampiezza è necessario preliminarmente
calcolare le densità di frequenza delle classi.
classi di reddito
0⊣2
2⊣5
5⊣8
8 ⊣ 12
frequenze relative
0.30
0.33
0.25
0.12
ampiezze classi
2
3
3
4
L’istogramma risulta
1
densità di frequenza
0.30
2 = 0.150
0.33
3 = 0.110
0.25
3 = 0.083
0.12
4 = 0.030
0.15
0.10
0.05
0.00
densita’ di frequenza
0
2
5
8
12
temperature
b) La classe modale è quella a cui corrisponde la densità di frequenza più elevata, quindi la classe 0 ⊣ 2.
c) Indicando con x il carattere considerato, con x̄i il valore centrale della classe xi−1 ⊣ xi e con fi
la frequenza relativa corrispondente, sulla base delle informazioni disponibili, possiamo calcolare valori
approssimati della media aritmetica e della varianza della distribuzione attraverso le formule
x̄ ≃
4
∑
s2x
x̄i fi
≃
i=1
4
∑
x̄2i fi − x̄2 .
i=1
Dopo aver effettuato i calcoli intermedi
classi
0⊣2
2⊣5
5⊣8
8 ⊣ 12
totale
fi
0.30
0.33
0.25
0.12
1
x̄i
1.0
3.5
6.5
10.0
x̄i fi
0.3
1.2
1.6
1.2
4.3
x̄2i
1.00
12.25
42.25
100.00
x̄2i fi
0.30
4.04
10.56
12.00
26.91
√
otteniamo x̄ = 4.3 e s2x = 26.91 − 4.32 = 8.59. Il valore dello scarto quadratico medio è sx = 8.59 = 2.93.
d) I valori degli indicatori di sintesi delle temperature misurate in gradi Fahranheit risultano ȳ =
32 + 1.8 · x̄ = 32 + 1.8 · 4.3 = 39.7, s2y = 1.82 · 8.59 = 27.82 e sy = 1.8 · 2.93 = 5.27.
∑
∑31
2
2
e) Sappiamo che 31
i=1 (xi − x̄) ≤
i=1 (xi − M e) , poiché la media rende minima la somma dei quadrati
degli scarti. L’uguaglianza vale solo nei casi in cui il valore della media e della mediana coincidono.
Quesito 2.
Nell’esperienza passata si è osservato che la percentuale di studenti che supera l’esame di statistica è
pari a 65%. Si consideri un campione, di numerosità n = 6, ad elementi indipendenti estratti casualmente
fra gli studenti che sostengono la prova. Si indichi con X il numero di studenti che superano la prova.
a) Qual è la distribuzione di X?
2
b) Qual è la probabilità che al massimo 5 studenti superino il test?
c) Qual è il numero atteso di studenti che superano il test?
d) Quanto vale la varianza di X?
e) Se invece considerassimo un campione di numerosità n = 600, quale sarebbe, con buona
approssimazione, la probabilità che X assuma un valore almeno pari a 413.36? Perchè?
Soluzione
a) La variabile X rappresenta il numero di ”successi” (in cui per successo si intende il fatto che lo
studente considerato supera con successo l’esame di statistica) in n = 6 prove indipendenti, ciascuna
con probabilità di successo π pari a 0.65, quindi
X ∼ Bin(π, n) = Bin(0.65, 6).
b) Il secondo quesito richiede il calcolo della seguente probabilità
( )
6
P (X ≤ 5) = 1 − P (X = 6) = 1 −
· 0.656 · (1 − 0.65)0
6
= 1 − 0.656 = 0.925
c) Il valore atteso di X è dato da:
E(X) = n · π = 6 · 0.65 = 3.9,
d) La varianza di X risulta:
V (X) = n · π · (1 − π) = 6 · 0.65 · 0.35 = 1.365.
e) Per risolvere l’ultimo punto occorre utilizzare il teorema del limite centrale. Tale teorema in questo
caso stabilisce che, se X ∼ Bin(n; π) e n è¨ sufficientemente grande, la distribuzione della variabile
casuale
X −n·π
√
n · π · (1 − π)
è ben approssimabile da una v.a. normale standardizzata Z. Quindi si ha che:
23.36
)=
P (X > 413.36) = P (Z > √
0.65 ∗ 0.35 ∗ 600
= P (Z > 2) = 1 − 0.9772 = 0.0228
Quesito 3.
Un astronomo vuole determinare la lunghezza µ del diametro dell’asteroide Alfa42. Sa che, a causa degli
errori di misurazione, la misura che può effettuare con i suoi strumenti è una realizzazione di una variabile
casuale normale di media µ e varianza σ 2 . Dopo aver effettuato 25 misurazioni ottiene che la somma dei
valori osservati è pari a 4250 Km, mentre la somma dei quadrati degli scarti tra le osservazioni e la loro
media è pari a 5400 Km2 .
a) Ricavare una stima non distorta della media µ e della varianza σ 2 , spiegando anche quale sia il
significato della proprietà di non distorsione.
b) Ricavare un intervallo di confidenza al 95% per µ.
c) L’ipotesi comunemente accettata è che il diametro dell’asteroide misuri 178.4 km. L’astronomo vuol
stabilire se tale ipotesi possa essere accettata o se invece il diametro abbia una lunghezza diversa. Formulare
3
il problema come problema di verifica delle ipotesi statistiche e stabilire cosa si può concludere al livello di
significatività α = 0.05, anche alla luce dei risultati ottenuti nel punto precedente.
d) Senza fare i conti, sarebbero diverse le risposte ai punti b) e c) se l’astronomo avesse ottenuto le stesse
stime della media e della varianza con un campione di 256 misure? Perché?
Soluzione
a) Indichiamo con X la variabile d’interesse. Per stimare la media µ e la varianza σ 2 possiamo utilizzare
gli stimatori non distorti
∑n
∑n
(Xi − X̄)2
2
i=1 Xi
X̄ =
σ̂ = i=1
.
n
n−1
Otteniamo i valori delle stime
∑25
∑25
(xi − x̄)2
4250
5400
2
i=1 xi
x̄ =
=
= 170
σ̂ = i=1
=
= 225.
25
25
25 − 1
24
Per il significato di non distorsione e per le proprietà della media e della varianza campionaria si rimanda
ai paragrafi 13.2, 13.3 e 13.5 del libro di testo.
b) Sappiamo che, per ogni µ reale,
X̄ − µ
√ ∼ tn−1 .
σ̂/ n
Un intervallo di confidenza per µ al livello 1 − α = 0.95 è dato da
σ̂
σ̂
(x̄ − tn−1,α/2 √ , x̄ + tn−1,α/2 √ )
n
n
con n = 25, x̄ = 170, σ̂ = 15 e t24,0.025 = 2.064, cioè
(
)
15
15
170 − 2.064 , 170 + 2.064
= (163.81, 176.19)
5
5
c) Si vogliono confrontare le due ipotesi
H1 : µ ̸= 178.4
H0 : µ = 178.4
Nel caso considerato basta notare che 178.4 ∈
/ (163.81, 176.194), cioè che il valore della media µ ipotizzato
sotto H0 non è contenuto nell’intervallo di confidenza al livello 1−α = 0.95. Questa informazione è sufficiente
per decidere per il rifiuto dell’ipotesi nulla. Al livello di significatività α = 0.05, vi è evidenza sufficiente per
confutare l’ipotesi comunemente accettata sulla misura del diametro dell’asteroide.
Se invece vogliamo procedere in modo diretto, ricordiamo che, se è vera l’ipotesi nulla H0 : µ = µ0 , per
la statistica test si ha
X̄ − µ0
√ ∼ tn−1 .
σ̂/ n
Allora la regione di accettazione del test al livello di significatività α = 0.05 è costituita da tutti i valori
della statistica test tali che
x̄ − µ0
√ ≤ tn−1,α/2 .
−tn−1,α/2 ≤
σ̂/ n
Cioè, visto che già sappiamo che t24,0.025 = 2.064,
−2.064 ≤
x̄ − µ0
√ ≤ 2.064
σ̂/ n
Il valore osservato della statistica test
x̄ − µ0
170 − 178.4
√ =
= −2.8
15/5
σ̂/ n
4
cade al di fuori della regione di accettazione, quindi nella regione critica. L’ipotesi nulla viene respinta a
livello di significatività α = 0.05.
d) Sappiamo che all’aumentare della numerosità campionaria, a parità di livello di confidenza, risulta
minore la lunghezza degli intervalli di confidenza, poiché la maggiore quantità di informazioni riduce il grado
di incertezza sul parametro.
Volendo detreminare l’intervallo bisogna anche tener presente che quando n è sufficientemente grande
(e questo accade per n = 256) la distribuzione tn−1 è ben approssimata dalla Normale standard. Avremo
allora che un intervallo di confidenza per µ al livello 1 − α = 0.95 risulterebbe
(
)
15
15
170 − 1.96 , 170 + 1.96
= (168.16, 171.84)
16
16
in cui 1.96 = z0.025 .
Per quanto riguarda il test, la decisione non sarebbe cambiata. Infatti, dal momento che la lunghezza
dell’intervallo di confidenza risulterebbe ridotta, a maggior ragione il valore della media ipotizzato sotto H0
continuerebbe a non esservi contenuto.
Quesito 4.
I seguenti dati si riferiscono alla retribuzione mensile netta (in migliaia di euro) ed all’anzianità di servizio
(in anni) di cinque dipendenti scelti in modo casuale tra tutti i dipendenti di un’impresa:
dipendente
Andrea
Carla
Marco
Luigi
Maria
retribuzione
2.5
2.6
2.8
2.7
3.0
anzianità
3
4
4
5
6
a) Fornire una stima della correlazione esistente tra la retribuzione mensile e l’anzianità di servizio per
i dipendenti dell’impresa. Spiegare il significato del risultato ottenuto.
b) Assumiamo che la retribuzione mensile possa essere spiegata in funzione dell’anzianità di servizio
mediante il modello di regressione lineare. Introdurre l’espressione del modello ed enunciare le ipotesi sulle
quali si basa.
c) Stimare i parametri del modello di regressione discusso nel punto precedente attraverso il metodo dei
minimi quadrati.
d) Fornire una stima della varianza degli errori del modello di regressione stimato nel punto precedente.
e) Qual è la percentuale di variabilità della variabile dipendente spiegata dalla regressione?
f) Sulla base del modello stimato, quale risulta la differenza di retribuzione tra due dipendenti che sono
stati assunti ad un anno di distanza? Quale risulta la retribuzione di un neo assunto?
g) Calcolare l’errore standard della stima del coefficiente di pendenza della retta di regressione stimata.
h) Verificare se l’anzianità ha un effetto positivo sulla retribuzione mediante un opportuno test statistico
al livello di significatività del 5%.
i) Specificare quali ipotesi è necessario assumere per effettuare il test al punto precedente.
Soluzione
a) Indichiamo con X ed Y rispettivamente le variabili anzianità di servizio (in anni) e retribuzione
mensile netta (in migliaia di euro) dei dipendenti dell’impresa. La stima del coefficiente di correlazione è
data da
∑n
(xi − x̄)(yi − ȳ)
rXY = √∑n i=1
∑n
2
2
i=1 (xi − x̄)
i=1 (yi − ȳ)
in cui (xi , yi ) (i = 1, . . . , n) sono i dati osservati e x̄ e ȳ le corrispondenti medie. Tuttavia per il calcolo
conviene utilizzare la formula equivalente
∑n
i=1 xi yi − nx̄ȳ
rXY = √(∑
).
) (∑n
n
2 − nȳ 2
2 − nx̄2
y
x
i=1 i
i=1 i
5
Dopo aver effettuato i calcoli intermedi, si ottiene:
i
1
2
3
4
5
totale
x̄ =
17
5
= 4.4, ȳ =
8.6
5
xi
3
4
4
5
6
22
x2i
9
16
16
25
36
102
yi
2.5
2.6
2.8
2.7
3.0
13.6
yi2
6.25
6.76
7.84
7.29
9.00
37.14
x i yi
7.5
10.4
11.2
13.5
18.0
60.6
= 2.72 e
rXY = √
60.6 − 5 · 4.4 · 2.72
(102 − 5 · 4.42 )(37.14 − 5 · 2.722 )
= 0.87
La stima del coefficiente di correlazione ottenuta indica la presenza di un legame lineare piuttosto forte tra
le due variabili.
b) Il modello di regressione lineare è
Yi = α + βxi + ϵi
Per le ipotesi sul termine d’errore e sulla variabile esplicativa si veda il paragrafo 18.2 del libro di testo.
c) Applicando il metodo dei minimi quadrati ricaviamo le stime
∑n
∑n
xi yi − nx̄ȳ
(xi − x̄)(yi − ȳ)
60.6 − 5 · 4.4 · 2.72
i=1
∑
= ∑i=1
β̂ =
= 0.146
n
n
2 − nx̄2 =
2
(x
−
x̄)
102 − 5 · 4.42
x
i=1 i
i=1 i
e
α̂ = ȳ − β̂ x̄ = 2.72 − 0.146 · 4.4 = 2.077.
La retta di regressione stimata risulta
ŷi = 2.077 + 0.146xi
d) Indicando con êi (i = 1, . . . n) i residui del modello stimato
êi = yi − ŷi = yi − α̂ − β̂xi
la stima della varianza degli errori si ottiene dallo stimatore non distorto come
1 ∑ 2
êi .
n−2
n
σ̂ 2 =
i=1
Dopo aver effettuato i calcoli intermedi si ottiene
i
1
2
3
4
5
totale
xi
3
4
4
5
6
yi
2.5
2.6
2.8
2.7
3.0
σ̂ 2 =
ŷi
2.515
2.661
2.661
2.807
2.953
êi
-0.015
-0.061
0.139
-0.107
0.047
0.0369
= 0.012
3
6
ê2i
0.0002
0.0037
0.0193
0.0115
0.0022
0.0369
e) Per individuare la percentuale di variabilità della variabile dipendente spiegata dalla regressione
calcoliamo l’indice di determinazione. Sulla base delle informazioni già disponibili conviene calcolarlo come
∑n 2
∑n 2
êi
êi
0.0369
2
i=1
R = 1 − ∑n
= 1 − ∑n i=1
=1−
= 0.75
2
2
2
37.14 − 5 · 2.722
i=1 (yi − ȳ)
i=1 yi − nȳ
Quindi l’anzianità di servizio spiega il 75% della variabilità della retribuzione mensile. In questo caso
l’accostamento dei dati alla retta di regressione risulta abbastanza buono.
f) La differenza di retribuzione tra i due dipendenti assunti ad un anno di distanza è pari al valore stimato
del coefficiente angolare della retta di regressione, cioè 0.146 migliaia di euro. Mentre la retribuzione di un
neoassunto è pari al valore della stima dell’intercetta della retta, cioè a 2.077 migliaia di euro.
g) L’errore standard di β̂ è:
√
√
σ̂ 2
σ̂ 2
∑
ES(β̂) = ∑n
=
.
n
2
2
2
i=1 (xi − x̄)
i=1 xi − nx̄
√
Nel nostro caso risulta
ES(β̂) =
0.012
= 0.048.
102 − 5 · 4.42
h) Il quesito richiede di verificare l’ipotesi H0 : β = 0 contro H1 : β > 0 a livello di significatività del 5%.
Sappiamo che per la statistica test vale
√
σ̂ 2 /
B − β0
∼ tn−2 .
∑n
2
i=1 (xi − x̄)
Il valore osservato della statistica test è pari a
β̂
ES(β̂)
=
0.146
= 3.04
0.048
Confrontando il valore della statisitca test con il valore critico ottenuto dalle tavole al livello di
significatività fissato, si osserva che il valore osservato della statistica test si trova nella regione critica.
Rifiutiamo l’ipotesi nulla a livello di significatività del 5%. L’anzianità di servizio contribuisce a determinare
il livello della retribuzione.
i) Si veda il paragrafo 18.7 (il test nel modello di regressione) del libro di testo. Si notino le differenze
con le ipotesi riportate nel paragrafo 18.2 (il modello di regressione lineare semplice).
7
2.0
1.9
1.8
retribuzione
1.7
1.6
1.5
2.0
2.5
3.0
3.5
anzianità
8
4.0
4.5
5.0
Related documents
Download