STATISTICA Prova scritta in data 31-05-2013 Soluzioni Quesito 1. Nella seguente tabella è contenuta la distribuzione delle temperature minime giornaliere (in gradi centigradi) rilevate nel mese di gennaio in una certa stazione meteorologica. temperature 0⊣2 2⊣5 5⊣8 8 ⊣ 12 frequenze relative 0.30 0.33 0.25 0.12 a) Rappresentare graficamente la distribuzione. b) Individuare la classe modale. c) Calcolare la media, la varianza e lo scarto quadratico medio della distribuzione. d)Ricordiamo che tra la temperatura misurata in gradi centigradi x e la temperatura misurata in gradi Fahranheit y vale la relazione y = 32 + 1.8 · x. Quali sarebbero i valori degli indicatori di sintesi richiesti nel punto precedente se le temperature fossero state misurate in gradi Fahranheit? e) Indichiamo con xi (i = 1, . . . , 31) le temperature minime giornaliere rilevate e con x̄ e M e ∑31 2 rispettivamente la loro media e mediana. Allora i=1 (xi − x̄) risulta maggiore, uguale o minore di ∑31 2 i=1 (xi − M e) ? Perché? A quale proprietà è necessario far riferimento per rispondere? Soluzione a) La rappresentazione grafica idonea per la distribuzione in classi di un carattere quantitativo continuo è l’istogramma. Dal momento che le classi non hanno tutte la stessa ampiezza è necessario preliminarmente calcolare le densità di frequenza delle classi. classi di reddito 0⊣2 2⊣5 5⊣8 8 ⊣ 12 frequenze relative 0.30 0.33 0.25 0.12 ampiezze classi 2 3 3 4 L’istogramma risulta 1 densità di frequenza 0.30 2 = 0.150 0.33 3 = 0.110 0.25 3 = 0.083 0.12 4 = 0.030 0.15 0.10 0.05 0.00 densita’ di frequenza 0 2 5 8 12 temperature b) La classe modale è quella a cui corrisponde la densità di frequenza più elevata, quindi la classe 0 ⊣ 2. c) Indicando con x il carattere considerato, con x̄i il valore centrale della classe xi−1 ⊣ xi e con fi la frequenza relativa corrispondente, sulla base delle informazioni disponibili, possiamo calcolare valori approssimati della media aritmetica e della varianza della distribuzione attraverso le formule x̄ ≃ 4 ∑ s2x x̄i fi ≃ i=1 4 ∑ x̄2i fi − x̄2 . i=1 Dopo aver effettuato i calcoli intermedi classi 0⊣2 2⊣5 5⊣8 8 ⊣ 12 totale fi 0.30 0.33 0.25 0.12 1 x̄i 1.0 3.5 6.5 10.0 x̄i fi 0.3 1.2 1.6 1.2 4.3 x̄2i 1.00 12.25 42.25 100.00 x̄2i fi 0.30 4.04 10.56 12.00 26.91 √ otteniamo x̄ = 4.3 e s2x = 26.91 − 4.32 = 8.59. Il valore dello scarto quadratico medio è sx = 8.59 = 2.93. d) I valori degli indicatori di sintesi delle temperature misurate in gradi Fahranheit risultano ȳ = 32 + 1.8 · x̄ = 32 + 1.8 · 4.3 = 39.7, s2y = 1.82 · 8.59 = 27.82 e sy = 1.8 · 2.93 = 5.27. ∑ ∑31 2 2 e) Sappiamo che 31 i=1 (xi − x̄) ≤ i=1 (xi − M e) , poiché la media rende minima la somma dei quadrati degli scarti. L’uguaglianza vale solo nei casi in cui il valore della media e della mediana coincidono. Quesito 2. Nell’esperienza passata si è osservato che la percentuale di studenti che supera l’esame di statistica è pari a 65%. Si consideri un campione, di numerosità n = 6, ad elementi indipendenti estratti casualmente fra gli studenti che sostengono la prova. Si indichi con X il numero di studenti che superano la prova. a) Qual è la distribuzione di X? 2 b) Qual è la probabilità che al massimo 5 studenti superino il test? c) Qual è il numero atteso di studenti che superano il test? d) Quanto vale la varianza di X? e) Se invece considerassimo un campione di numerosità n = 600, quale sarebbe, con buona approssimazione, la probabilità che X assuma un valore almeno pari a 413.36? Perchè? Soluzione a) La variabile X rappresenta il numero di ”successi” (in cui per successo si intende il fatto che lo studente considerato supera con successo l’esame di statistica) in n = 6 prove indipendenti, ciascuna con probabilità di successo π pari a 0.65, quindi X ∼ Bin(π, n) = Bin(0.65, 6). b) Il secondo quesito richiede il calcolo della seguente probabilità ( ) 6 P (X ≤ 5) = 1 − P (X = 6) = 1 − · 0.656 · (1 − 0.65)0 6 = 1 − 0.656 = 0.925 c) Il valore atteso di X è dato da: E(X) = n · π = 6 · 0.65 = 3.9, d) La varianza di X risulta: V (X) = n · π · (1 − π) = 6 · 0.65 · 0.35 = 1.365. e) Per risolvere l’ultimo punto occorre utilizzare il teorema del limite centrale. Tale teorema in questo caso stabilisce che, se X ∼ Bin(n; π) e n è¨ sufficientemente grande, la distribuzione della variabile casuale X −n·π √ n · π · (1 − π) è ben approssimabile da una v.a. normale standardizzata Z. Quindi si ha che: 23.36 )= P (X > 413.36) = P (Z > √ 0.65 ∗ 0.35 ∗ 600 = P (Z > 2) = 1 − 0.9772 = 0.0228 Quesito 3. Un astronomo vuole determinare la lunghezza µ del diametro dell’asteroide Alfa42. Sa che, a causa degli errori di misurazione, la misura che può effettuare con i suoi strumenti è una realizzazione di una variabile casuale normale di media µ e varianza σ 2 . Dopo aver effettuato 25 misurazioni ottiene che la somma dei valori osservati è pari a 4250 Km, mentre la somma dei quadrati degli scarti tra le osservazioni e la loro media è pari a 5400 Km2 . a) Ricavare una stima non distorta della media µ e della varianza σ 2 , spiegando anche quale sia il significato della proprietà di non distorsione. b) Ricavare un intervallo di confidenza al 95% per µ. c) L’ipotesi comunemente accettata è che il diametro dell’asteroide misuri 178.4 km. L’astronomo vuol stabilire se tale ipotesi possa essere accettata o se invece il diametro abbia una lunghezza diversa. Formulare 3 il problema come problema di verifica delle ipotesi statistiche e stabilire cosa si può concludere al livello di significatività α = 0.05, anche alla luce dei risultati ottenuti nel punto precedente. d) Senza fare i conti, sarebbero diverse le risposte ai punti b) e c) se l’astronomo avesse ottenuto le stesse stime della media e della varianza con un campione di 256 misure? Perché? Soluzione a) Indichiamo con X la variabile d’interesse. Per stimare la media µ e la varianza σ 2 possiamo utilizzare gli stimatori non distorti ∑n ∑n (Xi − X̄)2 2 i=1 Xi X̄ = σ̂ = i=1 . n n−1 Otteniamo i valori delle stime ∑25 ∑25 (xi − x̄)2 4250 5400 2 i=1 xi x̄ = = = 170 σ̂ = i=1 = = 225. 25 25 25 − 1 24 Per il significato di non distorsione e per le proprietà della media e della varianza campionaria si rimanda ai paragrafi 13.2, 13.3 e 13.5 del libro di testo. b) Sappiamo che, per ogni µ reale, X̄ − µ √ ∼ tn−1 . σ̂/ n Un intervallo di confidenza per µ al livello 1 − α = 0.95 è dato da σ̂ σ̂ (x̄ − tn−1,α/2 √ , x̄ + tn−1,α/2 √ ) n n con n = 25, x̄ = 170, σ̂ = 15 e t24,0.025 = 2.064, cioè ( ) 15 15 170 − 2.064 , 170 + 2.064 = (163.81, 176.19) 5 5 c) Si vogliono confrontare le due ipotesi H1 : µ ̸= 178.4 H0 : µ = 178.4 Nel caso considerato basta notare che 178.4 ∈ / (163.81, 176.194), cioè che il valore della media µ ipotizzato sotto H0 non è contenuto nell’intervallo di confidenza al livello 1−α = 0.95. Questa informazione è sufficiente per decidere per il rifiuto dell’ipotesi nulla. Al livello di significatività α = 0.05, vi è evidenza sufficiente per confutare l’ipotesi comunemente accettata sulla misura del diametro dell’asteroide. Se invece vogliamo procedere in modo diretto, ricordiamo che, se è vera l’ipotesi nulla H0 : µ = µ0 , per la statistica test si ha X̄ − µ0 √ ∼ tn−1 . σ̂/ n Allora la regione di accettazione del test al livello di significatività α = 0.05 è costituita da tutti i valori della statistica test tali che x̄ − µ0 √ ≤ tn−1,α/2 . −tn−1,α/2 ≤ σ̂/ n Cioè, visto che già sappiamo che t24,0.025 = 2.064, −2.064 ≤ x̄ − µ0 √ ≤ 2.064 σ̂/ n Il valore osservato della statistica test x̄ − µ0 170 − 178.4 √ = = −2.8 15/5 σ̂/ n 4 cade al di fuori della regione di accettazione, quindi nella regione critica. L’ipotesi nulla viene respinta a livello di significatività α = 0.05. d) Sappiamo che all’aumentare della numerosità campionaria, a parità di livello di confidenza, risulta minore la lunghezza degli intervalli di confidenza, poiché la maggiore quantità di informazioni riduce il grado di incertezza sul parametro. Volendo detreminare l’intervallo bisogna anche tener presente che quando n è sufficientemente grande (e questo accade per n = 256) la distribuzione tn−1 è ben approssimata dalla Normale standard. Avremo allora che un intervallo di confidenza per µ al livello 1 − α = 0.95 risulterebbe ( ) 15 15 170 − 1.96 , 170 + 1.96 = (168.16, 171.84) 16 16 in cui 1.96 = z0.025 . Per quanto riguarda il test, la decisione non sarebbe cambiata. Infatti, dal momento che la lunghezza dell’intervallo di confidenza risulterebbe ridotta, a maggior ragione il valore della media ipotizzato sotto H0 continuerebbe a non esservi contenuto. Quesito 4. I seguenti dati si riferiscono alla retribuzione mensile netta (in migliaia di euro) ed all’anzianità di servizio (in anni) di cinque dipendenti scelti in modo casuale tra tutti i dipendenti di un’impresa: dipendente Andrea Carla Marco Luigi Maria retribuzione 2.5 2.6 2.8 2.7 3.0 anzianità 3 4 4 5 6 a) Fornire una stima della correlazione esistente tra la retribuzione mensile e l’anzianità di servizio per i dipendenti dell’impresa. Spiegare il significato del risultato ottenuto. b) Assumiamo che la retribuzione mensile possa essere spiegata in funzione dell’anzianità di servizio mediante il modello di regressione lineare. Introdurre l’espressione del modello ed enunciare le ipotesi sulle quali si basa. c) Stimare i parametri del modello di regressione discusso nel punto precedente attraverso il metodo dei minimi quadrati. d) Fornire una stima della varianza degli errori del modello di regressione stimato nel punto precedente. e) Qual è la percentuale di variabilità della variabile dipendente spiegata dalla regressione? f) Sulla base del modello stimato, quale risulta la differenza di retribuzione tra due dipendenti che sono stati assunti ad un anno di distanza? Quale risulta la retribuzione di un neo assunto? g) Calcolare l’errore standard della stima del coefficiente di pendenza della retta di regressione stimata. h) Verificare se l’anzianità ha un effetto positivo sulla retribuzione mediante un opportuno test statistico al livello di significatività del 5%. i) Specificare quali ipotesi è necessario assumere per effettuare il test al punto precedente. Soluzione a) Indichiamo con X ed Y rispettivamente le variabili anzianità di servizio (in anni) e retribuzione mensile netta (in migliaia di euro) dei dipendenti dell’impresa. La stima del coefficiente di correlazione è data da ∑n (xi − x̄)(yi − ȳ) rXY = √∑n i=1 ∑n 2 2 i=1 (xi − x̄) i=1 (yi − ȳ) in cui (xi , yi ) (i = 1, . . . , n) sono i dati osservati e x̄ e ȳ le corrispondenti medie. Tuttavia per il calcolo conviene utilizzare la formula equivalente ∑n i=1 xi yi − nx̄ȳ rXY = √(∑ ). ) (∑n n 2 − nȳ 2 2 − nx̄2 y x i=1 i i=1 i 5 Dopo aver effettuato i calcoli intermedi, si ottiene: i 1 2 3 4 5 totale x̄ = 17 5 = 4.4, ȳ = 8.6 5 xi 3 4 4 5 6 22 x2i 9 16 16 25 36 102 yi 2.5 2.6 2.8 2.7 3.0 13.6 yi2 6.25 6.76 7.84 7.29 9.00 37.14 x i yi 7.5 10.4 11.2 13.5 18.0 60.6 = 2.72 e rXY = √ 60.6 − 5 · 4.4 · 2.72 (102 − 5 · 4.42 )(37.14 − 5 · 2.722 ) = 0.87 La stima del coefficiente di correlazione ottenuta indica la presenza di un legame lineare piuttosto forte tra le due variabili. b) Il modello di regressione lineare è Yi = α + βxi + ϵi Per le ipotesi sul termine d’errore e sulla variabile esplicativa si veda il paragrafo 18.2 del libro di testo. c) Applicando il metodo dei minimi quadrati ricaviamo le stime ∑n ∑n xi yi − nx̄ȳ (xi − x̄)(yi − ȳ) 60.6 − 5 · 4.4 · 2.72 i=1 ∑ = ∑i=1 β̂ = = 0.146 n n 2 − nx̄2 = 2 (x − x̄) 102 − 5 · 4.42 x i=1 i i=1 i e α̂ = ȳ − β̂ x̄ = 2.72 − 0.146 · 4.4 = 2.077. La retta di regressione stimata risulta ŷi = 2.077 + 0.146xi d) Indicando con êi (i = 1, . . . n) i residui del modello stimato êi = yi − ŷi = yi − α̂ − β̂xi la stima della varianza degli errori si ottiene dallo stimatore non distorto come 1 ∑ 2 êi . n−2 n σ̂ 2 = i=1 Dopo aver effettuato i calcoli intermedi si ottiene i 1 2 3 4 5 totale xi 3 4 4 5 6 yi 2.5 2.6 2.8 2.7 3.0 σ̂ 2 = ŷi 2.515 2.661 2.661 2.807 2.953 êi -0.015 -0.061 0.139 -0.107 0.047 0.0369 = 0.012 3 6 ê2i 0.0002 0.0037 0.0193 0.0115 0.0022 0.0369 e) Per individuare la percentuale di variabilità della variabile dipendente spiegata dalla regressione calcoliamo l’indice di determinazione. Sulla base delle informazioni già disponibili conviene calcolarlo come ∑n 2 ∑n 2 êi êi 0.0369 2 i=1 R = 1 − ∑n = 1 − ∑n i=1 =1− = 0.75 2 2 2 37.14 − 5 · 2.722 i=1 (yi − ȳ) i=1 yi − nȳ Quindi l’anzianità di servizio spiega il 75% della variabilità della retribuzione mensile. In questo caso l’accostamento dei dati alla retta di regressione risulta abbastanza buono. f) La differenza di retribuzione tra i due dipendenti assunti ad un anno di distanza è pari al valore stimato del coefficiente angolare della retta di regressione, cioè 0.146 migliaia di euro. Mentre la retribuzione di un neoassunto è pari al valore della stima dell’intercetta della retta, cioè a 2.077 migliaia di euro. g) L’errore standard di β̂ è: √ √ σ̂ 2 σ̂ 2 ∑ ES(β̂) = ∑n = . n 2 2 2 i=1 (xi − x̄) i=1 xi − nx̄ √ Nel nostro caso risulta ES(β̂) = 0.012 = 0.048. 102 − 5 · 4.42 h) Il quesito richiede di verificare l’ipotesi H0 : β = 0 contro H1 : β > 0 a livello di significatività del 5%. Sappiamo che per la statistica test vale √ σ̂ 2 / B − β0 ∼ tn−2 . ∑n 2 i=1 (xi − x̄) Il valore osservato della statistica test è pari a β̂ ES(β̂) = 0.146 = 3.04 0.048 Confrontando il valore della statisitca test con il valore critico ottenuto dalle tavole al livello di significatività fissato, si osserva che il valore osservato della statistica test si trova nella regione critica. Rifiutiamo l’ipotesi nulla a livello di significatività del 5%. L’anzianità di servizio contribuisce a determinare il livello della retribuzione. i) Si veda il paragrafo 18.7 (il test nel modello di regressione) del libro di testo. Si notino le differenze con le ipotesi riportate nel paragrafo 18.2 (il modello di regressione lineare semplice). 7 2.0 1.9 1.8 retribuzione 1.7 1.6 1.5 2.0 2.5 3.0 3.5 anzianità 8 4.0 4.5 5.0