STATISTICA Prova scritta in data 09-12-2013 Soluzione B Quesito 1. • Si ipotizzi di aver rilevato su 13 famiglie residenti in un determinato quartiere della città di Firenze, l’importo speso nell’anno 2012 per il riscaldamento (in Euro) e la superficie (in metri quadrati) dell’abitazione. La tabella seguente presenta la distribuzione unitaria dei due caratteri: Famiglia Spesa per il riscaldamento Superficie abitazione 1 400 70 2 400 90 3 800 90 4 400 110 5 800 90 6 800 90 7 1400 130 8 800 70 9 1400 130 10 800 180 11 800 130 12 1100 180 13 630 70 a) Costruire le distribuzioni di frequenza per entrambi i caratteri e determinare quindi il valore medio, il valore mediano e la moda. Con riferimento all’importo speso per il riscaldamento si avrà: xi 400 630 800 1100 1400 Totale ni 3 1 6 1 2 13 fi 0.23 0.08 0.46 0.08 0.15 Ni 3 4 10 11 13 Fi 0.23 0.31 0.77 0.85 1.00 L’importo speso medio si ottiene come: x= 1 ∑k 10530 = 810 i=1 xi ni = n 13 La mediana è il valore centrale di una distribuzione. Con riferimento alle frequenze relative, la mediana è quel valore tale che si lascia a sinistra il 50% delle osservazioni. Il valore mediano sarà pertanto: M e = 800 La moda è individuata nella modalità cui è associata la più elevata frequenza assoluta (o relativa). Per la distribuzione dell’importo speso il valore modale è pari a 800. 1 Per quanto riguarda la superficie dell’abitazione si ha: xi 70 90 110 130 180 Totale ni 3 4 1 3 2 13 fi 0.23 0.31 0.08 0.23 0.15 Ni 3 7 8 11 13 Fi 0.23 0.54 0.62 0.85 1.00 La superficie media si ottiene come: x= 1 ∑k 1430 = 110 i=1 xi ni = n 13 Con riferimento alle frequenze relative, la mediana è quel valore tale che si lascia a sinistra il 50% delle osservazioni. Il valore mediano sarà pertanto: M e = 90 La moda è individuata nella modalità a cui è associata la più elevata frequenza assoluta (o relativa). Per la distribuzione della superficie il valore modale è pari a 90. b) Facendo riferimento alla distribuzione della superficie dell’abitazione calcolare la differenza interquartile La differenza interquartile si ottiene come: DQ = Q3 − Q1 Per la determinazione del primo e del terzo quartile si procede in modo analogo a quanto visto per la determinazione della mediana, sia con riferimento alle frequenze assolute cumulate, individuando la posizione occupata dal primo e dal terzo quartile, che alle frequenze relative, tenendo presente che il primo quartile Q1 si lascia a sinistra il 25% dei dati e il terzo quartile il 75% delle osservazioni. Il primo quartile risulta Q1 = 90 mentre il terzo quartile Q3 = 130 da cui: DQ = 130 − 90 = 40 c) Valutare mediante il calcolo di un indice opportuno quale delle due distribuzioni presenta maggiore variabilità e commentare il risultato ottenuto. Per il confronto della variabilità tra le due distribuzioni si fa riferimento al coefficiente di variazione (CV). Per la determinazione del CV per le due distribuzioni, avendo già determinato il valore medio, occorre calcolare la deviazione standard. Per l’importo speso, si avrà: s2 = 1 13 [ ] (400 − 810)2 × 3 + (630 − 810)2 × 1 + ... + (1400 − 810)2 × 2 = 101353.85 da cui si ottiene: s= √ s2 = 318.36 2 Il coefficiente di variazione si determinerà quindi come: CVimporto = 318.36 = 0.39 810 Si procede in modo analogo per la distribuzione della superficie: [ ] 1 s2 = 13 (70 − 110)2 × 3 + (90 − 110)2 × 4 + ... + (180 − 110)2 × 2 = 1338.46 da cui si ottiene: s= √ s2 = 36.58 Il coefficiente di variazione si determinerà quindi come: CVsuperf icie = 36.58 = 0.33 110 In base al confronto dei valori del CV ottenuti, si può concludere che la distribuzione dell’importo speso presenta maggiore variabilità. d) Ipotizzare di aver commesso un errore di rilevazione e di venire a conoscenza che la superficie reale di ogni abitazione è superiore del 5% rispetto al valore registrato. Come si modificano la media, la mediana e la varianza della distribuzione? La superficie effettiva (Y) di ciascuna abitazione può essere espressa, a partire dal valore rilevato (X), attraverso la seguente trasformazione lineare: Y = 1.05X La media della variabile Y, per la proprietà di linearità, si ottiene come: y = 1.05x = 115.5 In virtù della stessa proprietà, la mediana sarà: med (Y ) = 1.05med (X) = 94.5 La varianza si modifica invece come segue: s2 (Y ) = (1.05)2 s2 (X) = 1475.65 e) Si illustri a livello teorico (senza svolgere calcoli) il procedimento di costruzione di un istogramma per la distribuzione di un carattere quantitativo continuo suddiviso in k classi. Si veda il paragrafo 2.5 del libro di testo. Quesito 2. • Un professore di statistica dell’Università di Brescia sa che il 16% degli attuali iscritti proviene da altri atenei. Il professore ha inoltre notato che il 57% degli studenti che provengono da altri atenei riescono a conseguire la laurea, mentre tale percentuale sale al 72% se si considerano gli studenti che non provengono da altri atenei ma si iscrivono direttamente all’Università di Brescia. 3 a) Determinare la probabilità che uno studente estratto casualmente consegua il titolo di laurea. Si indichi con L l’evento ”Lo studente si laurea” e con A l’evento ”Lo studente proviene da un altro ateneo”. Dal testo si evince che P (A) = 0.16, da cui P (Ā) = 1 − 0.16 = 0.84. Inoltre, P (L|A) = 0.57 e P (L|Ā) = 0.72. Le probabilità degli eventi complementari sono quindi P (L̄|A) = 1 − 0.57 = 0.43 e P (L̄|Ā) = 1 − 0.72 = 0.28. La probabilità richiesta è P (L) = P (L|A) × P (A) + P (L|Ā) × P (Ā) = 0.57 × 0.16 + 0.72 × 0.84 = 0.70. b) Viene estratto uno studente che ha conseguito il titolo di laurea. Con che probabilità si tratta di uno studente trasferitosi da un altro ateneo? La probabilità richiesta è P (A|L), che è possibile ottenere sfruttando il Teorema di Bayes: P (A|L) = P (L|A) ∗ P (A) 0.57 × 0.16 = = 0.13 P (L) 0.70 Pertanto, il laureato proviene da un altro ateneo con probabilità del 13%. c) E’ possibile sostenere che gli eventi ”Lo studente si laurea” e ”Lo studente proviene da un altro ateneo” sono indipendenti? Motivare la risposta. Affinchè i due eventi siano indipendenti occorre che P (L|A) = P (L). Dato che P (L|A) = 0.57 mentre P (L) = 0.70, si può concludere che A e B non sono indipendenti. d) Si consideri ora la variabile casuale Y che assume valore 1 se viene selezionato uno studente che consegue la laurea e 0 altrimenti. Che distribuzione ha tale variabile casuale? Quali sono il suo valore atteso e la sua varianza? La variabile Y è una variabile dicotomica con distribuzione di Bernoulli, Y ∼ Ber(π = 0.70). Il suo valore atteso e la sua varianza sono rispettivamente pari a E(Y ) = π = 0.70 e V ar(Y ) = π × (1 − π) = 0.70 × (1 − 0.70) = 0.21. e) Vengono estratti casualmente 5 studenti. Qual è la probabilità che almeno 4 di questi conseguano la laurea? Dal punto precedente sappiamo che la variabile Y, che descrive l’evento ”Lo studente si laurea”, ha distribuzione di Bernoulli, con Y ∼ Ber(π) = Ber(0.70). Poichè gli studenti vengono selezionati ∑ casualmente, la variabile X = 5i=1 Yi ha distribuzione Binomiale di parametri n = 5 e π = 0.70. La probabilità di ottenere almeno 4 studenti che conseguiranno la laurea può essere quindi ricavata sfruttando la funzione di probabilità della Binomiale: ( ) n x P (X = x) = π (1 − π)n−x x ( ) ( ) 5 5 1 4 P (X ≥ 4) = P (X = 4)+P (X = 5) = 0.70 (1 − 0.70) + 0.705 (1 − 0.70)0 = 0.36+0.17 = 0.53 4 5 Quesito 3. • Si vuole fare inferenza sulla propensione all’acquisto di un nuovo profumo π di ragazze in età 16-18 anni. Selezionato un campione di 450 ragazze e fornito loro un campioncino del nuovo profumo, risulta che 360 delle 450 intervistate sono propense all’acquisto. 4 a) Determinare una stima puntuale di π; La variabile che descrive la popolazione è una variabile casuale X di Bernoulli che assume il valore 1 o 0 a seconda che una ragazza acquisti o meno il profumo. Uno stimatore per la media E(X) = π della popolazione è la media campionaria X̄, la cui stima nel campione risulta: 1 ∑ x̄ = π̂ = xi = 360/450 = 0.8 450 450 i=1 b) Definire le proprietà dello stimatore utilizzato La media campionaria è uno stimatore corretto del valore atteso E(X) della variabile casuale che genera il campione E(X̄) = E(X) = π. Inoltre la varianza della media campionaria risulta: V ar[X̄] = 1 2 1 σ = π(1 − π) n n quindi la varianza dello stimatore tende a zero al crescere della numerosità campionaria. Le due condizioni sono sufficienti per la consistenza dello stimatore. c) Utilizzando i dati del campione costruire l’intervallo di confidenza al 95% per π; Essendo la proporzione campionaria uno stimatore non distorto della probabilità π, ed essendo la sua varianza data da σ 2 /n, per n sufficientemente elevato, sfruttando il teorema del limite centrale, possiamo utilizzare l’approssimazione normale (π̂ ∼ N (π; π(1 − π)/n)). Poiché non conosciamo π, dobbiamo usare una stima della varianza dello stimatore, data da S 2 = π̂(1 − π̂)/n. Quindi si ha che: [ ] √ √ π̂(1 − π̂) π̂(1 − π̂) 95%IC ≃ π̂ − z1−α/2 ; π̂ + z1−α/2 n n ] [ √ √ 0.8(1 − 0.8) 0.8(1 − 0.8) ; 0.8 + 1.96 · = [0.76; 0.83] = 0.8 − 1.96 · 450 450 Ciò significa che π, probabilità che una ragazza di età 16-18 anni acquisti il nuovo profumo, è compresa tra (0.76; 0.83) al livello di confidenza di circa il 95%. d) Giustificare il calcolo dell’intervallo di confidenza del punto c. L’uso dell’intervallo basato sulla distribuzione normale della media campionaria risulta possibile per l’applicazione del teorema del limite centrale data la numerosità campionaria. e) Utilizzando i dati del campione, verificare l’ipotesi nulla H0 : π = 0.75 contro l’alternativa H1 : π ̸= 0.75 con un livello di significatività α = 0.05 e giustificare l’uso del test. Il test è un test bidirezionale, quindi la regione di rifiuto sarà data dall’unione di due regioni, quelle corrispondenti a valori molto alti o molto bassi della statistica test. La statistica test utilizzata in questo caso è la media campionaria standardizzata. Poiché X non è distribuita secondo una normale, anche la media campionaria X̄ non sarà distribuita secondo una normale, ma si può applicare il teorema del limite centrale in quanto n ≥ 30. { H0 : π = π0 H1 : π ̸= π0 RC : √ π̂−π0 π0 (1−π0 )/n > z1−α/2 RA : √ π̂−π0 π0 (1−π0 )/n ≤ z1−α/2 5 RC : √ π̂−0.75 0.75(1−0.75)/450 > z1−0.025 = 1.96 π̂−0.75 0.75(1−0.75)/450 ≤ z1−0.025 = 1.96 RA : √ Per decidere a favore o contro l’ipotesi nulla si calcola il valore della statistica test, dato il campione, sotto l’ipotesi nulla: π̂ − π0 0.8 − 0.75 √ =√ = 2.45 π0 (1 − π0 )/n 0.75(1 − 0.75)/450 Dato che il valore osservato della media campionaria standardizzata 2.45 risulta in valore assoluto maggiore di 1.96 e appartiene alla zona di rifiuto del test, si rifiuta l’ipotesi nulla in favore di quella alternativa, data l’evidenza empirica. In particolare essendo 2.45 maggiore di 1.96 la probabilità che una ragazza di età 16-18 anni acquisti il nuovo profumo è superiore a 0.75. f) Utilizzando il p-valore prendere la decisione relativa al punto e) con un livello di significatività α = 0.02 Il p-valore nal caso di test con ipotesi alternativa bidirezionale risulta: 2P ( √ π̂ − 0.8 0.8(1 − 0.8)/450 > 2.45) = 0.0142 L’ipotesi nulla sarebbe stata rifiutata anche con un livello di significatività α = 0.02 . Quesito 4. • Il direttore marketing di un’azienda deve scegliere la tipologia dello stand da affittare per esporre i propri prodotti alla prossima fiera espositiva. Si sa che l’importo totale Y delle vendite (espresso in migliaia di euro) effettuate durante le fiere dipende dalla dimensione X dello spazio espositivo (espressa in metri quadrati). Raccogliendo i dati relativi alle fiere degli anni passati, risulta che 1 ∑50 x̄ = 16.76; ȳ = 8.71; i=1 xi yi = 153.26; 50 2 2 sx = 11.26; sy = 7.15 a) Stimare, utilizzando lo stimatore minimi quadrati, i coefficienti di regressione per la retta yi = α + βxi + εi , dove εi è una variabile casuale non osservabile. La stima del coefficiente β della retta di regressione dei minimi quadrati è pari a sxy β̂ = 2 sx dove sxy indica la covarianza campionaria: 1 ∑ = xi yi − x̄ȳ = 153.26 − 16.76 · 8.71 = 7.2804 50 50 sxy i=1 quindi β̂ = 7.2804/11.26 = 0.6466, mentre la stima dell’intercetta è α̂ = ȳ − β̂ x̄ = 8.71 − 0.6466 · 16.76 = −2.1270 6 b) Calcolare la percentuale di variabilità della variabile dipendente che viene spiegata dal modello. Possiamo calcolare l’R2 come il quadrato del coefficiente di correlazione, rxy . A sua volta, sxy 7.2804 =√ = 0.8114 rxy = √ 11.26 · 7.15 s2x s2y quindi R2 = 0.81142 = 0.6584, cioè il 65.84% della variabilità della y è spiegata dalla relazione lineare con la x. c) Stimare σ̂ 2 , la varianza del termine di errore. Possiamo ottenere una stima di σ̂ 2 come n σ̂ 2 = (1 − R2 )s2y = 2.5442 n−2 d) Calcolare la dimensione che dovrebbe avere lo stand espositivo per ritenere di poter ottenere un livello di vendite pari a 10000 euro. La dimensione x⋆ che corrisponde ad un importo totale atteso pari a 10000 euro è desumibile dalla seguente relazione: α̂ + β̂ · x⋆ = −2.1270 + 0.6466 · x⋆ = 10, dalla quale è immediato ricavare x⋆ = 10 − α̂ β̂ = 10 − (−2.1270) = 18.7550. 0.6466 e) Sul sito internet che pubblicizza la fiera si afferma che, ad ogni incremento di 3 metri quadrati di spazio espositivo, le vendite aumentano di 1800 euro. Il direttore marketing ritiene che l’incremento sia superiore. Formalizzare queste affermazioni sotto forma di sistema di ipotesi statistiche e sottoporle a verifica, utilizzando un livello di significatività del 10%. Dato il modello, si può dimostrare che E(∆y) = β∆x, dove ∆y e ∆x indicano, rispettivamente, gli incrementi dell’importo venduto e dello spazio espositivo. L’ipotesi nulla assunta sul sito internet è pertanto H0 : β = 1.8/3 = 0.6 che deve essere confrontata con l’ipotesi del direttore H1 : β > 0.6. Per calcolare il valore della statistica test è necessario in primo luogo calcolare l’errore standard di β̂: √ √ σ̂ 2 2.5442 ES(β̂) = = 0.0672 = 2 nsx 50 · 11.26 Il valore della statistica test è quindi: t= β̂ − 0.6 ES(β̂) = 0.646 − 0.6 = 0.6935 0.0672 Tenendo presente che sotto l’ipotesi nulla la statistica test ha una distribuzione t48 , concludiamo, in base all’opportuno valore critico desunto dalle tavole, che l’ipotesi nulla non è rifiutata al livello di significatività indicato. f) Specificare l’insieme di assunti necessari per lo svolgimento del punto precedente. Si veda il paragrafo 18.7 (il test nel modello di regressione) del libro di testo. Si notino le differenze con le ipotesi riportate nel paragrafo 18.2 (il modello di regressione lineare semplice). 7