Uploaded by vividivuolo

Esame luiss statistica.pdf

advertisement
STATISTICA
Prova scritta in data 09-12-2013
Soluzione B
Quesito 1.
• Si ipotizzi di aver rilevato su 13 famiglie residenti in un determinato quartiere della città di Firenze,
l’importo speso nell’anno 2012 per il riscaldamento (in Euro) e la superficie (in metri quadrati)
dell’abitazione. La tabella seguente presenta la distribuzione unitaria dei due caratteri:
Famiglia
Spesa per il riscaldamento
Superficie abitazione
1
400
70
2
400
90
3
800
90
4
400
110
5
800
90
6
800
90
7
1400
130
8
800
70
9
1400
130
10
800
180
11
800
130
12
1100
180
13
630
70
a) Costruire le distribuzioni di frequenza per entrambi i caratteri e determinare quindi il valore medio, il
valore mediano e la moda.
Con riferimento all’importo speso per il riscaldamento si avrà:
xi
400
630
800
1100
1400
Totale
ni
3
1
6
1
2
13
fi
0.23
0.08
0.46
0.08
0.15
Ni
3
4
10
11
13
Fi
0.23
0.31
0.77
0.85
1.00
L’importo speso medio si ottiene come:
x=
1 ∑k
10530
= 810
i=1 xi ni =
n
13
La mediana è il valore centrale di una distribuzione. Con riferimento alle frequenze relative, la
mediana è quel valore tale che si lascia a sinistra il 50% delle osservazioni. Il valore mediano sarà
pertanto:
M e = 800
La moda è individuata nella modalità cui è associata la più elevata frequenza assoluta (o relativa).
Per la distribuzione dell’importo speso il valore modale è pari a 800.
1
Per quanto riguarda la superficie dell’abitazione si ha:
xi
70
90
110
130
180
Totale
ni
3
4
1
3
2
13
fi
0.23
0.31
0.08
0.23
0.15
Ni
3
7
8
11
13
Fi
0.23
0.54
0.62
0.85
1.00
La superficie media si ottiene come:
x=
1 ∑k
1430
= 110
i=1 xi ni =
n
13
Con riferimento alle frequenze relative, la mediana è quel valore tale che si lascia a sinistra il 50%
delle osservazioni. Il valore mediano sarà pertanto:
M e = 90
La moda è individuata nella modalità a cui è associata la più elevata frequenza assoluta (o relativa).
Per la distribuzione della superficie il valore modale è pari a 90.
b) Facendo riferimento alla distribuzione della superficie dell’abitazione calcolare la differenza
interquartile
La differenza interquartile si ottiene come:
DQ = Q3 − Q1
Per la determinazione del primo e del terzo quartile si procede in modo analogo a quanto visto per
la determinazione della mediana, sia con riferimento alle frequenze assolute cumulate, individuando
la posizione occupata dal primo e dal terzo quartile, che alle frequenze relative, tenendo presente che
il primo quartile Q1 si lascia a sinistra il 25% dei dati e il terzo quartile il 75% delle osservazioni. Il
primo quartile risulta Q1 = 90 mentre il terzo quartile Q3 = 130 da cui:
DQ = 130 − 90 = 40
c) Valutare mediante il calcolo di un indice opportuno quale delle due distribuzioni presenta maggiore
variabilità e commentare il risultato ottenuto.
Per il confronto della variabilità tra le due distribuzioni si fa riferimento al coefficiente di variazione
(CV).
Per la determinazione del CV per le due distribuzioni, avendo già determinato il valore medio, occorre
calcolare la deviazione standard.
Per l’importo speso, si avrà:
s2 =
1
13
[
]
(400 − 810)2 × 3 + (630 − 810)2 × 1 + ... + (1400 − 810)2 × 2 = 101353.85
da cui si ottiene:
s=
√
s2 = 318.36
2
Il coefficiente di variazione si determinerà quindi come:
CVimporto =
318.36
= 0.39
810
Si procede in modo analogo per la distribuzione della superficie:
[
]
1
s2 = 13
(70 − 110)2 × 3 + (90 − 110)2 × 4 + ... + (180 − 110)2 × 2 = 1338.46
da cui si ottiene:
s=
√
s2 = 36.58
Il coefficiente di variazione si determinerà quindi come:
CVsuperf icie =
36.58
= 0.33
110
In base al confronto dei valori del CV ottenuti, si può concludere che la distribuzione dell’importo
speso presenta maggiore variabilità.
d) Ipotizzare di aver commesso un errore di rilevazione e di venire a conoscenza che la superficie
reale di ogni abitazione è superiore del 5% rispetto al valore registrato. Come si modificano la
media, la mediana e la varianza della distribuzione?
La superficie effettiva (Y) di ciascuna abitazione può essere espressa, a partire dal valore rilevato
(X), attraverso la seguente trasformazione lineare:
Y = 1.05X
La media della variabile Y, per la proprietà di linearità, si ottiene come:
y = 1.05x = 115.5
In virtù della stessa proprietà, la mediana sarà:
med (Y ) = 1.05med (X) = 94.5
La varianza si modifica invece come segue:
s2 (Y ) = (1.05)2 s2 (X) = 1475.65
e) Si illustri a livello teorico (senza svolgere calcoli) il procedimento di costruzione di un istogramma
per la distribuzione di un carattere quantitativo continuo suddiviso in k classi.
Si veda il paragrafo 2.5 del libro di testo.
Quesito 2.
• Un professore di statistica dell’Università di Brescia sa che il 16% degli attuali iscritti proviene da
altri atenei. Il professore ha inoltre notato che il 57% degli studenti che provengono da altri atenei
riescono a conseguire la laurea, mentre tale percentuale sale al 72% se si considerano gli studenti che
non provengono da altri atenei ma si iscrivono direttamente all’Università di Brescia.
3
a) Determinare la probabilità che uno studente estratto casualmente consegua il titolo di laurea.
Si indichi con L l’evento ”Lo studente si laurea” e con A l’evento ”Lo studente proviene da
un altro ateneo”. Dal testo si evince che P (A) = 0.16, da cui P (Ā) = 1 − 0.16 = 0.84.
Inoltre, P (L|A) = 0.57 e P (L|Ā) = 0.72. Le probabilità degli eventi complementari sono quindi
P (L̄|A) = 1 − 0.57 = 0.43 e P (L̄|Ā) = 1 − 0.72 = 0.28.
La probabilità richiesta è P (L) = P (L|A) × P (A) + P (L|Ā) × P (Ā) = 0.57 × 0.16 + 0.72 × 0.84 =
0.70.
b) Viene estratto uno studente che ha conseguito il titolo di laurea. Con che probabilità si tratta di
uno studente trasferitosi da un altro ateneo?
La probabilità richiesta è P (A|L), che è possibile ottenere sfruttando il Teorema di Bayes:
P (A|L) =
P (L|A) ∗ P (A)
0.57 × 0.16
=
= 0.13
P (L)
0.70
Pertanto, il laureato proviene da un altro ateneo con probabilità del 13%.
c) E’ possibile sostenere che gli eventi ”Lo studente si laurea” e ”Lo studente proviene da un altro
ateneo” sono indipendenti? Motivare la risposta.
Affinchè i due eventi siano indipendenti occorre che P (L|A) = P (L). Dato che P (L|A) = 0.57
mentre P (L) = 0.70, si può concludere che A e B non sono indipendenti.
d) Si consideri ora la variabile casuale Y che assume valore 1 se viene selezionato uno studente che
consegue la laurea e 0 altrimenti. Che distribuzione ha tale variabile casuale? Quali sono il suo
valore atteso e la sua varianza?
La variabile Y è una variabile dicotomica con distribuzione di Bernoulli, Y ∼ Ber(π = 0.70).
Il suo valore atteso e la sua varianza sono rispettivamente pari a E(Y ) = π = 0.70 e
V ar(Y ) = π × (1 − π) = 0.70 × (1 − 0.70) = 0.21.
e) Vengono estratti casualmente 5 studenti. Qual è la probabilità che almeno 4 di questi conseguano
la laurea?
Dal punto precedente sappiamo che la variabile Y, che descrive l’evento ”Lo studente si laurea”, ha
distribuzione di Bernoulli, con Y ∼ Ber(π) = Ber(0.70). Poichè gli studenti vengono selezionati
∑
casualmente, la variabile X = 5i=1 Yi ha distribuzione Binomiale di parametri n = 5 e π = 0.70.
La probabilità di ottenere almeno 4 studenti che conseguiranno la laurea può essere quindi ricavata
sfruttando la funzione di probabilità della Binomiale:
( )
n x
P (X = x) =
π (1 − π)n−x
x
( )
( )
5
5
1
4
P (X ≥ 4) = P (X = 4)+P (X = 5) =
0.70 (1 − 0.70) +
0.705 (1 − 0.70)0 = 0.36+0.17 = 0.53
4
5
Quesito 3.
• Si vuole fare inferenza sulla propensione all’acquisto di un nuovo profumo π di ragazze in età 16-18
anni. Selezionato un campione di 450 ragazze e fornito loro un campioncino del nuovo profumo, risulta
che 360 delle 450 intervistate sono propense all’acquisto.
4
a) Determinare una stima puntuale di π;
La variabile che descrive la popolazione è una variabile casuale X di Bernoulli che assume il valore
1 o 0 a seconda che una ragazza acquisti o meno il profumo. Uno stimatore per la media E(X) = π
della popolazione è la media campionaria X̄, la cui stima nel campione risulta:
1 ∑
x̄ = π̂ =
xi = 360/450 = 0.8
450
450
i=1
b) Definire le proprietà dello stimatore utilizzato
La media campionaria è uno stimatore corretto del valore atteso E(X) della variabile casuale che
genera il campione E(X̄) = E(X) = π. Inoltre la varianza della media campionaria risulta:
V ar[X̄] =
1 2
1
σ = π(1 − π)
n
n
quindi la varianza dello stimatore tende a zero al crescere della numerosità campionaria. Le due
condizioni sono sufficienti per la consistenza dello stimatore.
c) Utilizzando i dati del campione costruire l’intervallo di confidenza al 95% per π;
Essendo la proporzione campionaria uno stimatore non distorto della probabilità π, ed essendo la
sua varianza data da σ 2 /n, per n sufficientemente elevato, sfruttando il teorema del limite centrale,
possiamo utilizzare l’approssimazione normale (π̂ ∼ N (π; π(1 − π)/n)). Poiché non conosciamo π,
dobbiamo usare una stima della varianza dello stimatore, data da S 2 = π̂(1 − π̂)/n. Quindi si ha che:
[
]
√
√
π̂(1 − π̂)
π̂(1 − π̂)
95%IC ≃ π̂ − z1−α/2
; π̂ + z1−α/2
n
n
]
[
√
√
0.8(1 − 0.8)
0.8(1 − 0.8)
; 0.8 + 1.96 ·
= [0.76; 0.83]
= 0.8 − 1.96 ·
450
450
Ciò significa che π, probabilità che una ragazza di età 16-18 anni acquisti il nuovo profumo, è compresa
tra (0.76; 0.83) al livello di confidenza di circa il 95%.
d) Giustificare il calcolo dell’intervallo di confidenza del punto c.
L’uso dell’intervallo basato sulla distribuzione normale della media campionaria risulta possibile per
l’applicazione del teorema del limite centrale data la numerosità campionaria.
e) Utilizzando i dati del campione, verificare l’ipotesi nulla H0 : π = 0.75 contro l’alternativa H1 : π ̸= 0.75
con un livello di significatività α = 0.05 e giustificare l’uso del test.
Il test è un test bidirezionale, quindi la regione di rifiuto sarà data dall’unione di due regioni, quelle
corrispondenti a valori molto alti o molto bassi della statistica test.
La statistica test utilizzata in questo caso è la media campionaria standardizzata. Poiché X non è
distribuita secondo una normale, anche la media campionaria X̄ non sarà distribuita secondo una
normale, ma si può applicare il teorema del limite centrale in quanto n ≥ 30.
{
H0 : π = π0
H1 : π ̸= π0



RC : √
π̂−π0
π0 (1−π0 )/n
> z1−α/2


RA : √
π̂−π0
π0 (1−π0 )/n
≤ z1−α/2
5



RC : √
π̂−0.75
0.75(1−0.75)/450
> z1−0.025 = 1.96
π̂−0.75
0.75(1−0.75)/450
≤ z1−0.025 = 1.96


RA : √
Per decidere a favore o contro l’ipotesi nulla si calcola il valore della statistica test, dato il campione,
sotto l’ipotesi nulla:
π̂ − π0
0.8 − 0.75
√
=√
= 2.45
π0 (1 − π0 )/n
0.75(1 − 0.75)/450
Dato che il valore osservato della media campionaria standardizzata 2.45 risulta in valore assoluto
maggiore di 1.96 e appartiene alla zona di rifiuto del test, si rifiuta l’ipotesi nulla in favore di quella
alternativa, data l’evidenza empirica. In particolare essendo 2.45 maggiore di 1.96 la probabilità che
una ragazza di età 16-18 anni acquisti il nuovo profumo è superiore a 0.75.
f) Utilizzando il p-valore prendere la decisione relativa al punto e) con un livello di significatività α = 0.02
Il p-valore nal caso di test con ipotesi alternativa bidirezionale risulta:
2P ( √
π̂ − 0.8
0.8(1 − 0.8)/450
> 2.45) = 0.0142
L’ipotesi nulla sarebbe stata rifiutata anche con un livello di significatività α = 0.02 .
Quesito 4.
• Il direttore marketing di un’azienda deve scegliere la tipologia dello stand da affittare per esporre i
propri prodotti alla prossima fiera espositiva. Si sa che l’importo totale Y delle vendite (espresso in
migliaia di euro) effettuate durante le fiere dipende dalla dimensione X dello spazio espositivo (espressa
in metri quadrati). Raccogliendo i dati relativi alle fiere degli anni passati, risulta che
1 ∑50
x̄ = 16.76;
ȳ = 8.71;
i=1 xi yi = 153.26;
50
2
2
sx = 11.26;
sy = 7.15
a) Stimare, utilizzando lo stimatore minimi quadrati, i coefficienti di regressione per la retta
yi = α + βxi + εi ,
dove εi è una variabile casuale non osservabile.
La stima del coefficiente β della retta di regressione dei minimi quadrati è pari a
sxy
β̂ = 2
sx
dove sxy indica la covarianza campionaria:
1 ∑
=
xi yi − x̄ȳ = 153.26 − 16.76 · 8.71 = 7.2804
50
50
sxy
i=1
quindi β̂ = 7.2804/11.26 = 0.6466, mentre la stima dell’intercetta è
α̂ = ȳ − β̂ x̄ = 8.71 − 0.6466 · 16.76 = −2.1270
6
b) Calcolare la percentuale di variabilità della variabile dipendente che viene spiegata dal modello.
Possiamo calcolare l’R2 come il quadrato del coefficiente di correlazione, rxy . A sua volta,
sxy
7.2804
=√
= 0.8114
rxy = √
11.26 · 7.15
s2x s2y
quindi R2 = 0.81142 = 0.6584, cioè il 65.84% della variabilità della y è spiegata dalla relazione
lineare con la x.
c) Stimare σ̂ 2 , la varianza del termine di errore.
Possiamo ottenere una stima di σ̂ 2 come
n
σ̂ 2 =
(1 − R2 )s2y = 2.5442
n−2
d) Calcolare la dimensione che dovrebbe avere lo stand espositivo per ritenere di poter ottenere un
livello di vendite pari a 10000 euro.
La dimensione x⋆ che corrisponde ad un importo totale atteso pari a 10000 euro è desumibile
dalla seguente relazione:
α̂ + β̂ · x⋆ = −2.1270 + 0.6466 · x⋆ = 10,
dalla quale è immediato ricavare
x⋆ =
10 − α̂
β̂
=
10 − (−2.1270)
= 18.7550.
0.6466
e) Sul sito internet che pubblicizza la fiera si afferma che, ad ogni incremento di 3 metri quadrati
di spazio espositivo, le vendite aumentano di 1800 euro. Il direttore marketing ritiene che
l’incremento sia superiore. Formalizzare queste affermazioni sotto forma di sistema di ipotesi
statistiche e sottoporle a verifica, utilizzando un livello di significatività del 10%.
Dato il modello, si può dimostrare che
E(∆y) = β∆x,
dove ∆y e ∆x indicano, rispettivamente, gli incrementi dell’importo venduto e dello spazio
espositivo. L’ipotesi nulla assunta sul sito internet è pertanto
H0 : β = 1.8/3 = 0.6
che deve essere confrontata con l’ipotesi del direttore
H1 : β > 0.6.
Per calcolare il valore della statistica test è necessario in primo luogo calcolare l’errore standard
di β̂:
√
√
σ̂ 2
2.5442
ES(β̂) =
= 0.0672
=
2
nsx
50 · 11.26
Il valore della statistica test è quindi:
t=
β̂ − 0.6
ES(β̂)
=
0.646 − 0.6
= 0.6935
0.0672
Tenendo presente che sotto l’ipotesi nulla la statistica test ha una distribuzione t48 , concludiamo,
in base all’opportuno valore critico desunto dalle tavole, che l’ipotesi nulla non è rifiutata al livello
di significatività indicato.
f) Specificare l’insieme di assunti necessari per lo svolgimento del punto precedente.
Si veda il paragrafo 18.7 (il test nel modello di regressione) del libro di testo. Si notino le differenze
con le ipotesi riportate nel paragrafo 18.2 (il modello di regressione lineare semplice).
7
Download