20130531.pdf

STATISTICA Prova scritta in data 31-05-2013 Soluzioni Quesito 1. Nella seguente tabella è contenuta la distribuzione delle temperature minime giornaliere (in gradi centigradi) rilevate nel mese di gennaio in una certa stazione meteorologica. temperature 0⊣2 2⊣5 5⊣8 8 ⊣ 12 frequenze relative 0.30 0.33 0.25 0.12 a) Rappresentare graficamente la distribuzione. b) Individuare la classe modale. c) Calcolare la media, la varianza e lo scarto quadratico medio della distribuzione. d)Ricordiamo che tra la temperatura misurata in gradi centigradi x e la temperatura misurata in gradi Fahranheit y vale la relazione y = 32 + 1.8 · x. Quali sarebbero i valori degli indicatori di sintesi richiesti nel punto precedente se le temperature fossero state misurate in gradi Fahranheit? e) Indichiamo con xi (i = 1, . . . , 31) le temperature minime giornaliere rilevate e con x̄ e M e ∑31 2 rispettivamente la loro media e mediana. Allora i=1 (xi − x̄) risulta maggiore, uguale o minore di ∑31 2 i=1 (xi − M e) ? Perché? A quale proprietà è necessario far riferimento per rispondere? Soluzione a) La rappresentazione grafica idonea per la distribuzione in classi di un carattere quantitativo continuo è l’istogramma. Dal momento che le classi non hanno tutte la stessa ampiezza è necessario preliminarmente calcolare le densità di frequenza delle classi. classi di reddito 0⊣2 2⊣5 5⊣8 8 ⊣ 12 frequenze relative 0.30 0.33 0.25 0.12 ampiezze classi 2 3 3 4 L’istogramma risulta 1 densità di frequenza 0.30 2 = 0.150 0.33 3 = 0.110 0.25 3 = 0.083 0.12 4 = 0.030 0.15 0.10 0.05 0.00 densita’ di frequenza 0 2 5 8 12 temperature b) La classe modale è quella a cui corrisponde la densità di frequenza più elevata, quindi la classe 0 ⊣ 2. c) Indicando con x il carattere considerato, con x̄i il valore centrale della classe xi−1 ⊣ xi e con fi la frequenza relativa corrispondente, sulla base delle informazioni disponibili, possiamo calcolare valori approssimati della media aritmetica e della varianza della distribuzione attraverso le formule x̄ ≃ 4 ∑ s2x x̄i fi ≃ i=1 4 ∑ x̄2i fi − x̄2 . i=1 Dopo aver effettuato i calcoli intermedi classi 0⊣2 2⊣5 5⊣8 8 ⊣ 12 totale fi 0.30 0.33 0.25 0.12 1 x̄i 1.0 3.5 6.5 10.0 x̄i fi 0.3 1.2 1.6 1.2 4.3 x̄2i 1.00 12.25 42.25 100.00 x̄2i fi 0.30 4.04 10.56 12.00 26.91 √ otteniamo x̄ = 4.3 e s2x = 26.91 − 4.32 = 8.59. Il valore dello scarto quadratico medio è sx = 8.59 = 2.93. d) I valori degli indicatori di sintesi delle temperature misurate in gradi Fahranheit risultano ȳ = 32 + 1.8 · x̄ = 32 + 1.8 · 4.3 = 39.7, s2y = 1.82 · 8.59 = 27.82 e sy = 1.8 · 2.93 = 5.27. ∑ ∑31 2 2 e) Sappiamo che 31 i=1 (xi − x̄) ≤ i=1 (xi − M e) , poiché la media rende minima la somma dei quadrati degli scarti. L’uguaglianza vale solo nei casi in cui il valore della media e della mediana coincidono. Quesito 2. Nell’esperienza passata si è osservato che la percentuale di studenti che supera l’esame di statistica è pari a 65%. Si consideri un campione, di numerosità n = 6, ad elementi indipendenti estratti casualmente fra gli studenti che sostengono la prova. Si indichi con X il numero di studenti che superano la prova. a) Qual è la distribuzione di X? 2 b) Qual è la probabilità che al massimo 5 studenti superino il test? c) Qual è il numero atteso di studenti che superano il test? d) Quanto vale la varianza di X? e) Se invece considerassimo un campione di numerosità n = 600, quale sarebbe, con buona approssimazione, la probabilità che X assuma un valore almeno pari a 413.36? Perchè? Soluzione a) La variabile X rappresenta il numero di ”successi” (in cui per successo si intende il fatto che lo studente considerato supera con successo l’esame di statistica) in n = 6 prove indipendenti, ciascuna con probabilità di successo π pari a 0.65, quindi X ∼ Bin(π, n) = Bin(0.65, 6). b) Il secondo quesito richiede il calcolo della seguente probabilità ( ) 6 P (X ≤ 5) = 1 − P (X = 6) = 1 − · 0.656 · (1 − 0.65)0 6 = 1 − 0.656 = 0.925 c) Il valore atteso di X è dato da: E(X) = n · π = 6 · 0.65 = 3.9, d) La varianza di X risulta: V (X) = n · π · (1 − π) = 6 · 0.65 · 0.35 = 1.365. e) Per risolvere l’ultimo punto occorre utilizzare il teorema del limite centrale. Tale teorema in questo caso stabilisce che, se X ∼ Bin(n; π) e n è¨ sufficientemente grande, la distribuzione della variabile casuale X −n·π √ n · π · (1 − π) è ben approssimabile da una v.a. normale standardizzata Z. Quindi si ha che: 23.36 )= P (X > 413.36) = P (Z > √ 0.65 ∗ 0.35 ∗ 600 = P (Z > 2) = 1 − 0.9772 = 0.0228 Quesito 3. Un astronomo vuole determinare la lunghezza µ del diametro dell’asteroide Alfa42. Sa che, a causa degli errori di misurazione, la misura che può effettuare con i suoi strumenti è una realizzazione di una variabile casuale normale di media µ e varianza σ 2 . Dopo aver effettuato 25 misurazioni ottiene che la somma dei valori osservati è pari a 4250 Km, mentre la somma dei quadrati degli scarti tra le osservazioni e la loro media è pari a 5400 Km2 . a) Ricavare una stima non distorta della media µ e della varianza σ 2 , spiegando anche quale sia il significato della proprietà di non distorsione. b) Ricavare un intervallo di confidenza al 95% per µ. c) L’ipotesi comunemente accettata è che il diametro dell’asteroide misuri 178.4 km. L’astronomo vuol stabilire se tale ipotesi possa essere accettata o se invece il diametro abbia una lunghezza diversa. Formulare 3 il problema come problema di verifica delle ipotesi statistiche e stabilire cosa si può concludere al livello di significatività α = 0.05, anche alla luce dei risultati ottenuti nel punto precedente. d) Senza fare i conti, sarebbero diverse le risposte ai punti b) e c) se l’astronomo avesse ottenuto le stesse stime della media e della varianza con un campione di 256 misure? Perché? Soluzione a) Indichiamo con X la variabile d’interesse. Per stimare la media µ e la varianza σ 2 possiamo utilizzare gli stimatori non distorti ∑n ∑n (Xi − X̄)2 2 i=1 Xi X̄ = σ̂ = i=1 . n n−1 Otteniamo i valori delle stime ∑25 ∑25 (xi − x̄)2 4250 5400 2 i=1 xi x̄ = = = 170 σ̂ = i=1 = = 225. 25 25 25 − 1 24 Per il significato di non distorsione e per le proprietà della media e della varianza campionaria si rimanda ai paragrafi 13.2, 13.3 e 13.5 del libro di testo. b) Sappiamo che, per ogni µ reale, X̄ − µ √ ∼ tn−1 . σ̂/ n Un intervallo di confidenza per µ al livello 1 − α = 0.95 è dato da σ̂ σ̂ (x̄ − tn−1,α/2 √ , x̄ + tn−1,α/2 √ ) n n con n = 25, x̄ = 170, σ̂ = 15 e t24,0.025 = 2.064, cioè ( ) 15 15 170 − 2.064 , 170 + 2.064 = (163.81, 176.19) 5 5 c) Si vogliono confrontare le due ipotesi H1 : µ ̸= 178.4 H0 : µ = 178.4 Nel caso considerato basta notare che 178.4 ∈ / (163.81, 176.194), cioè che il valore della media µ ipotizzato sotto H0 non è contenuto nell’intervallo di confidenza al livello 1−α = 0.95. Questa informazione è sufficiente per decidere per il rifiuto dell’ipotesi nulla. Al livello di significatività α = 0.05, vi è evidenza sufficiente per confutare l’ipotesi comunemente accettata sulla misura del diametro dell’asteroide. Se invece vogliamo procedere in modo diretto, ricordiamo che, se è vera l’ipotesi nulla H0 : µ = µ0 , per la statistica test si ha X̄ − µ0 √ ∼ tn−1 . σ̂/ n Allora la regione di accettazione del test al livello di significatività α = 0.05 è costituita da tutti i valori della statistica test tali che x̄ − µ0 √ ≤ tn−1,α/2 . −tn−1,α/2 ≤ σ̂/ n Cioè, visto che già sappiamo che t24,0.025 = 2.064, −2.064 ≤ x̄ − µ0 √ ≤ 2.064 σ̂/ n Il valore osservato della statistica test x̄ − µ0 170 − 178.4 √ = = −2.8 15/5 σ̂/ n 4 cade al di fuori della regione di accettazione, quindi nella regione critica. L’ipotesi nulla viene respinta a livello di significatività α = 0.05. d) Sappiamo che all’aumentare della numerosità campionaria, a parità di livello di confidenza, risulta minore la lunghezza degli intervalli di confidenza, poiché la maggiore quantità di informazioni riduce il grado di incertezza sul parametro. Volendo detreminare l’intervallo bisogna anche tener presente che quando n è sufficientemente grande (e questo accade per n = 256) la distribuzione tn−1 è ben approssimata dalla Normale standard. Avremo allora che un intervallo di confidenza per µ al livello 1 − α = 0.95 risulterebbe ( ) 15 15 170 − 1.96 , 170 + 1.96 = (168.16, 171.84) 16 16 in cui 1.96 = z0.025 . Per quanto riguarda il test, la decisione non sarebbe cambiata. Infatti, dal momento che la lunghezza dell’intervallo di confidenza risulterebbe ridotta, a maggior ragione il valore della media ipotizzato sotto H0 continuerebbe a non esservi contenuto. Quesito 4. I seguenti dati si riferiscono alla retribuzione mensile netta (in migliaia di euro) ed all’anzianità di servizio (in anni) di cinque dipendenti scelti in modo casuale tra tutti i dipendenti di un’impresa: dipendente Andrea Carla Marco Luigi Maria retribuzione 2.5 2.6 2.8 2.7 3.0 anzianità 3 4 4 5 6 a) Fornire una stima della correlazione esistente tra la retribuzione mensile e l’anzianità di servizio per i dipendenti dell’impresa. Spiegare il significato del risultato ottenuto. b) Assumiamo che la retribuzione mensile possa essere spiegata in funzione dell’anzianità di servizio mediante il modello di regressione lineare. Introdurre l’espressione del modello ed enunciare le ipotesi sulle quali si basa. c) Stimare i parametri del modello di regressione discusso nel punto precedente attraverso il metodo dei minimi quadrati. d) Fornire una stima della varianza degli errori del modello di regressione stimato nel punto precedente. e) Qual è la percentuale di variabilità della variabile dipendente spiegata dalla regressione? f) Sulla base del modello stimato, quale risulta la differenza di retribuzione tra due dipendenti che sono stati assunti ad un anno di distanza? Quale risulta la retribuzione di un neo assunto? g) Calcolare l’errore standard della stima del coefficiente di pendenza della retta di regressione stimata. h) Verificare se l’anzianità ha un effetto positivo sulla retribuzione mediante un opportuno test statistico al livello di significatività del 5%. i) Specificare quali ipotesi è necessario assumere per effettuare il test al punto precedente. Soluzione a) Indichiamo con X ed Y rispettivamente le variabili anzianità di servizio (in anni) e retribuzione mensile netta (in migliaia di euro) dei dipendenti dell’impresa. La stima del coefficiente di correlazione è data da ∑n (xi − x̄)(yi − ȳ) rXY = √∑n i=1 ∑n 2 2 i=1 (xi − x̄) i=1 (yi − ȳ) in cui (xi , yi ) (i = 1, . . . , n) sono i dati osservati e x̄ e ȳ le corrispondenti medie. Tuttavia per il calcolo conviene utilizzare la formula equivalente ∑n i=1 xi yi − nx̄ȳ rXY = √(∑ ). ) (∑n n 2 − nȳ 2 2 − nx̄2 y x i=1 i i=1 i 5 Dopo aver effettuato i calcoli intermedi, si ottiene: i 1 2 3 4 5 totale x̄ = 17 5 = 4.4, ȳ = 8.6 5 xi 3 4 4 5 6 22 x2i 9 16 16 25 36 102 yi 2.5 2.6 2.8 2.7 3.0 13.6 yi2 6.25 6.76 7.84 7.29 9.00 37.14 x i yi 7.5 10.4 11.2 13.5 18.0 60.6 = 2.72 e rXY = √ 60.6 − 5 · 4.4 · 2.72 (102 − 5 · 4.42 )(37.14 − 5 · 2.722 ) = 0.87 La stima del coefficiente di correlazione ottenuta indica la presenza di un legame lineare piuttosto forte tra le due variabili. b) Il modello di regressione lineare è Yi = α + βxi + ϵi Per le ipotesi sul termine d’errore e sulla variabile esplicativa si veda il paragrafo 18.2 del libro di testo. c) Applicando il metodo dei minimi quadrati ricaviamo le stime ∑n ∑n xi yi − nx̄ȳ (xi − x̄)(yi − ȳ) 60.6 − 5 · 4.4 · 2.72 i=1 ∑ = ∑i=1 β̂ = = 0.146 n n 2 − nx̄2 = 2 (x − x̄) 102 − 5 · 4.42 x i=1 i i=1 i e α̂ = ȳ − β̂ x̄ = 2.72 − 0.146 · 4.4 = 2.077. La retta di regressione stimata risulta ŷi = 2.077 + 0.146xi d) Indicando con êi (i = 1, . . . n) i residui del modello stimato êi = yi − ŷi = yi − α̂ − β̂xi la stima della varianza degli errori si ottiene dallo stimatore non distorto come 1 ∑ 2 êi . n−2 n σ̂ 2 = i=1 Dopo aver effettuato i calcoli intermedi si ottiene i 1 2 3 4 5 totale xi 3 4 4 5 6 yi 2.5 2.6 2.8 2.7 3.0 σ̂ 2 = ŷi 2.515 2.661 2.661 2.807 2.953 êi -0.015 -0.061 0.139 -0.107 0.047 0.0369 = 0.012 3 6 ê2i 0.0002 0.0037 0.0193 0.0115 0.0022 0.0369 e) Per individuare la percentuale di variabilità della variabile dipendente spiegata dalla regressione calcoliamo l’indice di determinazione. Sulla base delle informazioni già disponibili conviene calcolarlo come ∑n 2 ∑n 2 êi êi 0.0369 2 i=1 R = 1 − ∑n = 1 − ∑n i=1 =1− = 0.75 2 2 2 37.14 − 5 · 2.722 i=1 (yi − ȳ) i=1 yi − nȳ Quindi l’anzianità di servizio spiega il 75% della variabilità della retribuzione mensile. In questo caso l’accostamento dei dati alla retta di regressione risulta abbastanza buono. f) La differenza di retribuzione tra i due dipendenti assunti ad un anno di distanza è pari al valore stimato del coefficiente angolare della retta di regressione, cioè 0.146 migliaia di euro. Mentre la retribuzione di un neoassunto è pari al valore della stima dell’intercetta della retta, cioè a 2.077 migliaia di euro. g) L’errore standard di β̂ è: √ √ σ̂ 2 σ̂ 2 ∑ ES(β̂) = ∑n = . n 2 2 2 i=1 (xi − x̄) i=1 xi − nx̄ √ Nel nostro caso risulta ES(β̂) = 0.012 = 0.048. 102 − 5 · 4.42 h) Il quesito richiede di verificare l’ipotesi H0 : β = 0 contro H1 : β > 0 a livello di significatività del 5%. Sappiamo che per la statistica test vale √ σ̂ 2 / B − β0 ∼ tn−2 . ∑n 2 i=1 (xi − x̄) Il valore osservato della statistica test è pari a β̂ ES(β̂) = 0.146 = 3.04 0.048 Confrontando il valore della statisitca test con il valore critico ottenuto dalle tavole al livello di significatività fissato, si osserva che il valore osservato della statistica test si trova nella regione critica. Rifiutiamo l’ipotesi nulla a livello di significatività del 5%. L’anzianità di servizio contribuisce a determinare il livello della retribuzione. i) Si veda il paragrafo 18.7 (il test nel modello di regressione) del libro di testo. Si notino le differenze con le ipotesi riportate nel paragrafo 18.2 (il modello di regressione lineare semplice). 7 2.0 1.9 1.8 retribuzione 1.7 1.6 1.5 2.0 2.5 3.0 3.5 anzianità 8 4.0 4.5 5.0

20130531.pdf

Related documents

Products

Support

20130531.pdf

Related documents

Add this document to collection(s)

Add this document to saved

Suggest us how to improve StudyLib