Corso di probabilità e statistica (6 CFU) Dispense relative all’anno accademico 2022/2023 Autore: @soulunivr su telegram 1.1 - La statistica descrittiva: definizione La statistica descrittiva si occupa della presentazione di un campione di dati (anche chiamato dataset) nel modo più chiaro possibile, partendo da una sequenza x(1) … x(n) omogenea di informazioni, e scegliendo in modo opportuno la tipologia di grafico migliore per esaltare il significato dei dati e delle statistiche campionarie. Per l’analisi dei dati tramite modelli si dovrà aspettare l’argomento della statistica inferenziale. 1.2 - Concetto di variabile Una sequenza omogenea di dati può avere una o più variabili. Una variabile viene intesa come una modalità per catalogare il dato, e in statistica descrittiva ce ne sono 2: ▪ Le variabili numeriche, dove i dati vengono catalogati da una variabile numerata cardinalmente, pertanto associata ai numeri naturali assorbendone le proprietà matematiche, ad esempio poter stabilire una formula rigorosa per calcolare la media. Per visualizzare, il seguente dataset presenta 3 variabili di tipo numerico, e viste così ci dicono ben poco! X(1) X(2) X(3) Totale Frequenza assoluta 145 40 15 200 Frequenza relativa 0.725 0.2 0.075 1 Frequenza percentuale 72.5% 20% 7.5% 100% ▪ Le variabili categoriche, che al contrario di quelle numeriche catalogano i dati all’interno di una vera e propria etichetta testuale. Nell’esempio precedente, la tabella ci informa sulle frequenze di un determinato dataset, ma esattamente cosa stiamo descrivendo? Ed è qui che le variabili numeriche diventano categoriche: ora acquista un senso leggere i dati! Laureati che lavorano UniVR 2019 Laureati che cercano UniVR 2019 Laureati che fanno altro UniVR 2019 Totale Frequenza assoluta 145 40 15 200 Frequenza relativa 0.725 0.2 0.075 1 Frequenza percentuale 72.5% 20% 7.5% 100% 1.3 - Tipologie di frequenze Quando si è in possesso di un campione di dati, si possono analizzare le frequenze con le quali ogni dato occorre nella sequenza, e rappresentarle con il metodo grafico e numerico che più ci interessa. Per le tipologie di frequenze, ce ne sono 3: ▪ Frequenza assoluta, che è il numero di occorrenze di un dato nel dataset. ▪ Frequenza relativa, che si ottiene dividendo la frequenza assoluta di un dato, per la somma totale delle frequenze assolute. ▪ Frequenza percentuale, la più usata e rappresentativa, che si ottiene moltiplicando la frequenza relativa per 100%. 1.4 - Tipologie di grafici Come affermato precedentemente, ogni dataset può esser visualizzato graficamente in svariati modi, tuttavia solo pochi sono davvero rappresentativi circa il significato che deve lasciare l’analisi dei dati. Ad esempio un primo metodo di rappresentazione grafica è quello tabellare degli esempi precedenti: sicuramente è molto ordinato e semplice da leggere, ma è evidente che la componente grafica è quasi totalmente assente, non lasciandoci interpretare bene i dati. Detto questo, ogni tipo di grafico ha le sue peculiarità, e porta ad accentuare statistiche e caratteristiche diverse, ecco una lista: ▪ Metodo tabellare → semplice e ordinato, ma di scarso significato grafico; ▪ Grafico a torta (areogramma) → ottimo per rappresentare dati descritti con variabili categoriche, tuttavia se usato male può far trasparire proporzioni ingannevoli, specie se viene usato il formato 3D. ▪ Grafico a barre (istogramma) → va sempre abbastanza bene per rappresentare fedelmente l’andamento dei dati, e permette anche la valutazione contemporanea di statistiche multivariabile. ▪ Mappa (cartogramma) → è un grafico più di nicchia e consiste nella colorazione di una mappa con gradienti di colore posti con un criterio tale da rispettare una legenda riportante i dati; è visivamente bella ed impattante, ma si usa solamente in dataset molto specifici. ▪ Diagramma cartesiano → insieme all’istogramma va sempre bene (specie per i multivar) per rappresentare l’andamento dei dati, con l’aggiunta che il picco di ogni barra (che viene spesso tolta) è collegato al picco successivo e precedente, con il tentativo di ricreare una funzione sulla frequenza. ▪ Ideogramma → il metodo meno analitico tra i precedenti, serve solo per esemplificare e figurare la frequenza relativa dei dati, si usa solo in contesti dove non è richiesta nessuna descrizione sull’andamento, ma solo un veloce ricordo di come in proporzione sono disposte le frequenze. 1.5 - Statistiche multivariabile Una statistica non è detto debba tener conto di una sola variabile, anzi, molto spesso non è così siccome si cerca di ricavare una potenziale correlazione tra le 2 (o più). Ad esempio nelle tabelle scorse, la statistica è stata pensata tenendo conto solamente di una variabile, ossia lo stato occupazionale. Cosa succede nel momento in cui analizzo i dati anche secondo una nuova variabile categorica detta “corso di laurea”? La mia interpretazione può portarmi a giungere a conclusioni più precise o che altrimenti non avrei visto? C’è una correlazione tra la variabile “stato occupazionale S.O.” e “corso di laurea C.L.” oppure no? FREQUENZE ASSOLUTE Laureati che lavorano UniVR 2019 Laureati che cercano UniVR 2019 Laureati che fanno altro UniVR 2019 Totale C.L. Laureati in informatica 65 13 2 80 Laureati in biologia 50 9 8 67 Laureati in lettere 30 18 5 53 Totale S.O. 145 40 15 200 1.6 - Valori discreti e valori continui Se una variabile è numerica, il suo valore può essere o discreto (ad esempio l’elenco degli esiti del lancio di un dado, valori frammentati) o continuo (ad esempio la misurazione della pressione sanguigna, ossia un insieme denso di valori). Nella scelta del metodo grafico migliore bisogna tener conto anche del tipo dei valori: ovvio che per valori discreti preferirei un metodo tabellare o un grafico a barre, mentre per valori continui preferirei un diagramma cartesiano per avere una visione maggiore e globale dei dati (è logico che per un insieme denso di dati, utilizzare una tabella è una strategia poco efficiente e inutile). Istogramma delle frequenze 80 60 40 20 0 Laurea in informatica Laurea in biologia Laurea in lettere Lavora Cerca Altro 1.7 - Classi di discretizzazione Spesso lavorare con un insieme di dati a valori continui o è scomodo o e superfluo, siccome la rappresentazione può non richiedere una accurata e dettagliata analisi, ma va bene anche una approssimazione. Pertanto si può passare da valori continui a valori discreti (non sempre il viceversa, specie se l’intervallo di discretizzazione è piuttosto ampio) stabilendo delle classi di discretizzazione, ossia un range di valori per frammentare l’insieme dei dati in modo tale da poterlo rappresentare in modo comunque efficiente tramite metodi grafici più indicati per valori discreti. Ad esempio effettuare un grafico che raccoglie per ogni valore di peso da 1 a 300kg (anche decimale) la % di persone, è difficile oltre che inutile: molto più intelligente frammentare la misura in classi (ad esempio di intervallo 15 kg) ed usare un immediato grafico a torta. Il risultato è molto più leggibile no? (valori non veritieri) Distribuzioni % Peso 1-15 kg [7%] 16-30kg [8%] 31-45kg [11%] 46-60kg [14%] 61-75kg [21%] 76-90kg [21%] 91-105kg [9%] 106-120kg [6%] >121kg [3%] 1.8 - Tipologie di distribuzione dati Un dataset si può distribuire nelle maniere più particolari e complesse, magari senza nemmeno capire con quale criterio, tuttavia le 3 tipologie di distribuzione più frequenti sono quella unimodale, unimodale simmetrica, e bimodale. 1.9 - Moda statistica E’ detta moda statistica la variabile che ha come valore la frequenza più grande di tutto l’insieme dei dati. La moda non è unica: se ‘k’ variabili condividono lo stesso valore massimo, tutte e ‘k’ rappresentano la moda del dataset! Ad esempio nel grafico del peso relativo alla percentuale di persone sulla Terra, la moda non è una variabile sola, ma sono 2, ossia “61-75kg” e “76-90kg” entrambe con il valore massimo trovato del 21% della popolazione terrestre totale. 2.1 - Statistiche campionarie: la media (indice di posizione) Sia x(1) … x(n) un campione di dati relativi ad una variabile di tipo numerica, allora si può definire la media come segue. La media è una statistica campionaria che punta alla centralità del dataset, ad una sorta di ‘baricentro’, fornendo informazioni circa il comportamento della serie al suo centro. 𝑛 𝑥(1) + 𝑥(2) + … + 𝑥(𝑛) 1 𝑥̅ = = ⋅ ∑ 𝑥(𝑖) 𝑛 𝑛 𝑖=1 2.2 - Statistiche campionarie: la mediana (indice di posizione) Sia x(1) … x(n) un campione di dati relativi ad una variabile di tipo numerica, allora si può definire la mediana come segue, dopo aver ordinato in modo crescente il dataset. La mediana, come la media, punta alla centralità dei dati, e serve per dividere a metà la serie nel primo 50% e nel secondo 50%. Al contrario della media non è sensibile a valori posti agli estremi della serie, quindi danno informazioni differenti della stessa zona di dati, infatti i seguenti dataset hanno la stessa mediana (5) ma media diversissima: D1 = -2, 1, 5, 8, 11 D2 = -1, 0, 2, 8, 1576, 2023. 𝑥(𝑛+1) → 𝑠𝑒 ′𝑛′ è 𝑢𝑛 𝑛𝑢𝑚𝑒𝑟𝑜 𝐷𝐼𝑆𝑃𝐴𝑅𝐼 2 𝑀𝑥 = 𝑥(𝑛) + 𝑥(𝑛+1) 2 { 2 2 𝑃 → 𝑠𝑒 ′𝑛′ è 𝑢𝑛 𝑛𝑢𝑚𝑒𝑟𝑜 𝑃𝐴𝑅𝐼 2.3 - Statistiche campionarie: la varianza (indice di dispersione) Sia x(1) … x(n) un campione di dati relativi ad una variabile di tipo numerica, allora si può definire la varianza campionaria come un valore che esprime la distribuzione dei dati attorno alla media, e si determina come segue. Sul motivo della divisione per ‘n-1’ non ci si soffermerà ora, basta sapere che è probabilisticamente giusto. L’elevazione alla seconda serve a rendere positive tutte le somme delle distanze, non si usa il modulo in quanto è dimostrato che non minimizza bene la distanza per la media, ma lo fa per la mediana. 𝑛 𝑆 2 1 2 = ⋅ ∑ (𝑥(𝑖) − 𝑥̅ ) 𝑛−1 𝑖=1 2.4 - Statistiche campionarie: deviazione standard (indice di disp.) Sia x(1) … x(n) un campione di dati relativi ad una variabile di tipo numerica, allora si può definire la deviazione standard come la radice quadrata positiva della varianza campionaria, ed sempre indice della distribuzione dei dati attorno alla media, quindi esprime una informazione simile dalla varianza campionaria, ma che si avvicina più alla media. Infatti, proprio come la media, la deviazione standard ha la proprietà di conservare l’eventuale unità di misura del valore delle variabili. 𝑛 𝑆 = + √𝑆 2 1 2 = +√ ⋅ ∑ (𝑥(𝑖) − 𝑥̅ ) 𝑛−1 𝑖=1 2.5 - Trasformazioni lineari sulle variabili Può capitare che si voglia esprimere i dati tramite una unità diversa, come ad esempio convertire un dataset di ‘tempi cronometrati’ da minuti a secondi, oppure convertire un dataset di ‘temperature’ da celsius a Fahreneit. Effettuare una conversione di questo tipo equivale ad attuare una trasformazione lineare come: 𝑧(𝑖) = 𝑎 ⋅ 𝑥(𝑖) + 𝑏 𝑎 ∈ ℝ − {0} 𝑏∈ℝ Dunque se 𝑥(𝑖) rappresenta una temperatura in celsius, e voglio che 𝑧(𝑖) sia la conversione in Fahreneit, allora la trasformazione lineare è: 𝑧(𝑖) = 9 ⋅ 𝑥 + 32 5 (𝑖) Ok, posso effettuare una trasformazione lineare sulla sequenza di dati, però come ne risentono le statistiche campionarie? Esattamente così: Media 𝑧̅ = 𝑎 ⋅ 𝑥̅ + 𝑏 Mediana 𝑀𝑧 = 𝑎 ⋅ 𝑀𝑥 + 𝑏 Varianza 𝑆𝑧2 = 𝑎2 ⋅ 𝑆𝑥2 Deviazione standard 𝑆𝑧 = |𝑎| ⋅ 𝑆𝑥 2.6 - Statistiche campionarie: percentili (indice di posizione) Sia ‘p’ un valore reale compreso tra 0 e 1 (non inclusi). Allora si definisce il 100pesimo percentile campionario di un insieme di dati ordinati in modo crescente il seguente valore. Osserviamo come il 50esimo percentile (ossia p=0.5) sia l’esatta definizione di mediana campionaria, infatti la funzione del percentile campionario è proprio quella di suddividere il dataset nel primo 100p% e poi nella restante parte data da 100(1-p)%. 𝑥⌈𝑛⋅𝑝⌉ 𝑅100⋅𝑝 = { 𝑥 (𝑛⋅𝑝) + 𝑥(𝑛⋅𝑝+1) 2 𝑠𝑒 𝑛 ⋅ 𝑝 ∉ ℚ 𝑠𝑒 𝑛 ⋅ 𝑝 ∈ ℚ 2.7 - I quartili e il boxplot Si dicono quartili i seguenti percentili fondamentali: 25-esimo percentile (p=0.25) 50-esimo percentile (p=0.5) e 75-esimo percentile (p=0.75). Più precisamente il 25-esimo è detto primo quartile e si indica con Q 1, mentre il 50-esimo è detto secondo quartile e si indica con Q2 (poco usato perché come detto corrisponde alla mediana) infine il 75-esimo è detto terzo quartile e si indica con Q3. Il valore definito tramite la differenza tra terzo quartile e primo quartile è detto scarto (o differenza) interquartile, e si usa sempre per avere un indice sulla concentrazione dei dati nella zona centrale (dunque è un indice di posizione). L’intervallo di valori compresi tra Q1 e Q3 è detto box-plot, ed è usato per individuare graficamente la differenza interquartile. 3.1 - Correlazione tra 2 variabili Quando una serie di dati presenta 2 variabili ‘x’ e ‘y’, si può valutare l’eventuale correlazione di questi ultimi mediante un diagramma a dispersione, o scatterplot, ossia un piano cartesiano i quali punti rappresentano le coppie di variabili (x(i),y(i)). La correlazione non è una cosa garantita, ma se c’è permette di sintetizzare (con la dovuta approssimazione) la seconda variabile in funzione della prima. La correlazione può essere lineare (funzione retta), quadratica (funzione parabola), o sinusoidale o altro (…). In questo corso si vedrà solo come trovare quelle lineari. 3.2 - Grado di correlazione tra 2 variabili L’eventuale presenza di una correlazione tra 2 variabili non comporta una relazione di causa effetto, magari esiste una terza variabile non considerata che si comporta come principio di causalità per entrambe. Posta questa premessa è opportuno però stabilire una costante che esprima questo “grado di compatibilità”, e per questo esiste il coefficiente di correlazione, definito come segue: 𝑅𝑥,𝑦 = 𝑆𝑥,𝑦 𝑆𝑥 ⋅ 𝑆𝑦 dove Sx,y è la covarianza campionaria e SxSy è il prodotto tra le deviazioni standard (attenzione non le varianze) rispetto alla variabile x e poi alla variabile y. 3.3 - Covarianza campionaria La covarianza campionaria si differenzia dalla varianza campionaria per 2 motivi importanti: può essere negativa, e tiene conto di due variabili allo stesso tempo. Ma come è definita? Avendo 2 variabili, abbiamo anche 2 varianze campionarie, una per ‘x’ e una per ‘y’: l’idea per la covarianza è formulare un indice che dica la medesima cosa ma legando le differenze delle variabili con le rispettive medie. Pertanto, la covarianza assume la seguente forma. 𝑛 1 𝑆𝑥2 = ⋅ ∑(𝑥𝑖 − 𝑥̅ )2 𝑛−1 𝑖=1 𝑛 1 𝑆𝑦2 = ⋅ ∑(𝑦𝑖 − 𝑦̅)2 𝑛−1 𝑖=1 𝑛 𝐶𝑂𝑉𝐴𝑅𝐼𝐴𝑁𝑍𝐴: 𝑆𝑥,𝑦 1 = ⋅ ∑ (𝑥𝑖 − 𝑥̅ ) ⋅ (𝑦𝑖 − 𝑦̅) 𝑛−1 𝑖=1 3.4 - Proprietà del coefficiente di correlazione 1. Il coefficiente di correlazione 𝑅𝑥,𝑦 è adimensionale, dunque invariante per l’unità di misura dei dati delle variabili, al contrario della varianza; 2. Il coefficiente di correlazione è sempre tra -1 e 1 (estremi inclusi); 3. Se il coefficiente di relazione è 𝑅𝑥,𝑦 = 1, allora vuol dire che i punti nello scatterplot sono allineati lungo una retta di trend con pendenza positiva; si può anche ricavare l’equazione della retta del tipo ‘y = ax + b’ (del tutto simile ad una funzione di trasformazione lineare), dove a>0; 4. Se il coefficiente di relazione è 𝑅𝑥,𝑦 = −1, allora vuol dire che i punti nello scatterplot sono allineati lungo una retta di trend con pendenza negativa; si può anche ricavare l’equazione della retta del tipo ‘y = ax + b’ dove stavolta si ha a<0; Cosa succede nel momento in cui si ipotizza che la correlazione tra 2 variabili sia descritta nello scatterplot da una retta orizzontale? Semplice, vuol dire che la variabile ‘y’ ospita solo dati tutti uguali, e ciò implica che la deviazione standard per la variabile ‘y’ sia perforza ‘Sy = 0’. A seguito di questo, il calcolo del coefficiente di correlazione è indefinito, siccome a denominatore abbiamo bisogno che le due deviazioni siano rigorosamente diverse da 0. Dunque in conclusione possiamo affermare che se una delle due deviazioni standard relative alle variabili è 0, quella variabile può esser tranquillamente depennata poiché variabile inutile. 3.5 - Trendline sullo scatterplot Il coefficiente di correlazione ci informa su quanto i dati siano fedeli alla tendenza tracciata da una retta chiamata trendline. Le trendline possono essere anche curve, ma occupandoci solo di relazioni lineari per noi può esser solo una retta. Se il coefficiente 𝑅𝑥,𝑦 tende a -1 o 1 ho una buona correlazione e la trendline rappresenta abbastanza fedelmente la dipendenza lineare tra i dati della variabile ‘x’ e ‘y’. Invece se il coefficiente 𝑅𝑥,𝑦 tende a 0 ho una scarsa correlazione e la trendline (se possibile addirittura immaginarla e realizzarla graficamente) è ben lontana da rappresentare la “non” correlazione tra i dati della variabile ‘x’ e ‘y’. In caso il coefficiente sia vicino a -1 o 1, è possibile addirittura operare delle previsioni sulla base della variabile indipendente su quella dipendente. Attenzione, come già detto il coefficiente di correlazione rileva solamente legami lineari, ma non altri tipi di relazioni, talvolta importanti come quella quadratica. 4.1 - Probabilità: lo studio dei modelli aleatori La branchia della matematica che si occupa della descrizione degli esperimenti aleatori (cioè tutti i fenomeni il cui esito non sia esattamente prevedibile) tramite modelli aleatori, è detta probabilità. Cosa esattamente si intende quando si usa la parola ‘aleatoria’? Semplicemente viviamo in una realtà dove tutto è deterministico, ossia con un’elevata accuratezza e una fedele conoscenza della fisica e della matematica è possibile prevedere (nel macrouniverso) praticamente ogni fenomeno sulla base delle leggi naturali. Ad esempio il lancio di una monetina dipende da un sacco di variabili che entrano in gioco per determinare al seguito di equazioni e leggi innominabili se uscirà testa o croce. Lo studio aleatorio dei fenomeni nasce proprio per approssimare la realtà deterministica in probabilistica: appurato il fatto che la moneta sia non truccata, invece che analizzare ogni traiettoria per ogni tiro, mi limito a dire che per i 2 esiti trovo sperimentalmente che ho circa un uguale probabilità di esito testa o croce. 4.2 - Impiego della probabilità La traduzione della realtà in un modello aleatorio è a tutti gli effetti una semplificazione, perché mi baso su statistiche costruite con esiti passati per formulare un modello che mi aiuti a capire come potrebbe avvenire l’evento futuro, tralasciando lo studio fisico delle variabili in gioco per determinare tale esito. Di questo ne risentono le scienze, specie la fisica, che fa della probabilità uno dei capisaldi della meccanica quantistica, ma anche l’informatica che fa della probabilità una materia utilissima nel campo dello speed-up degli algoritmi, che magari possono impiegare un tempo particolarmente grande per computare un problema che si può simulare tramite un modello basato sulle probabilità (verificando che sia il più accurato possibile). 4.3 - Spazio campionario (o spazio degli esiti) Viene chiamato spazio campionario (S) l’insieme di tutti gli esiti possibili, ed è la prima cosa che bisogna stabilire e capire quando si parla di fenomeni aleatori. Ad esempio nel lancio di un dado equilibrato a 6 facce, ho che: 𝑆 = {1, 2, 3, 4, 5, 6} Invece se prendo in esame l’attesa in secondi fino al prossimo terremoto a Verona, l’insieme spazio campionario diventa infinito: 𝑆 = [ 0, +∞ ) 4.4 - Evento come affermazione e insieme Un evento per definizione è un sottoinsieme dello spazio campionario, non perforza di un elemento solo. Un evento di solito corrisponde a una affermazione nel linguaggio comune, ad esempio con il dado posso dire che sono eventi: “esce 4” {4} = 𝐴 ⊆ 𝑆, o “esce un numero dispari” {1, 3, 5} = 𝐵 ⊆ 𝑆. In quanto una affermazione può essere confermata o smentita, è soggetta alle operazioni logiche, che lavorano con vero e falso. Se posso vedere le affermazioni tramite la logica proposizionale, posso vederle anche tramite le operazioni insiemistiche, in particolare con queste regole (siano A e B due eventi contenuti in S): • 𝐴 ∧ 𝐵 ⇔ 𝐴 ∩ 𝐵, il significato è evidenziare gli unici casi comuni a entrambi gli eventi cosicchè accadano entrambi; • 𝐴 ∨ 𝐵 ⇔ 𝐴 ∪ 𝐵, il significato è evidenziare che per l’avvenimento di A o B serve appunto che avvenga o A o B quindi unendo i casi di ogni evento, pertanto l’OR logico è inteso come inclusivo; • ¬𝐴 ⇔ 𝐴𝑐 𝑜 𝐴̅ = 𝑆 − 𝐴, il significato è evidenziare che per negare l’avvenimento di A, basta che accada qualsiasi esito non incluso in A ma incluso nello spazio campionario ‘S’. 4.5 - Eventi disgiunti e differenza con esito Cosa cambia tra evento ed esito? Come detto poco fa, un evento è un qualsiasi sottoinsieme dello spazio campionario, anche l’insieme vuoto, mentre un esito è un singolo elemento dello spazio campionario, anche interpretabile come un evento di cardinalità 1 (contiene appunto 1 esito). Due esiti sono sempre disgiunti in quanto singoli e distinti, invece due eventi possono anche avere esiti in comune. Due eventi A e B sono disgiunti, o incompatibili, quando accade che 𝐴 ∩ 𝐵 = {∅}. 4.6 - Probabilità di un esito e di un evento La probabilità di un esito corrisponde ad un coefficiente numerico che va da 0 a 1 compresi, che viene assegnato ad ogni singolo elemento di S, tale per cui la somma di tali coefficienti fa sempre 1. Il significato di questa attribuzione è di assegnare ad ogni esito un “grado di verosimiglianza”, ossia quanto è opportuno avvenga rispetto ad altri esiti. La probabilità di un evento in quanto sottoinsieme costituito da ‘n’ esiti è la somma delle probabilità di quegli esiti. Per indicare la probabilità di un evento A si usa la terminologia: 0 ≤ ℙ(𝐴) ≤ 1. La seguente descrizione della probabilità di un evento causa questi due assiomi: • ℙ(𝑆) = 1; • Se A e B sono due eventi disgiunti, allora possiamo affermare che vale la seguente proprietà di additività → ℙ(𝐴 ∪ 𝐵 ) = ℙ(𝐴) + ℙ(𝐵 ); 4.7 - Proprietà elementare di ogni probabilità 1. Siano A e B due eventi, e A ⊆ B (si può vedere l’inclusione come l’implicazione logica), allora ho che: ℙ(𝐵 − 𝐴) = ℙ(𝐵 ) − ℙ(𝐴) 2. Se A1, A2 … Ak sono ‘k’ eventi disgiunti, allora ho che: 𝑘 ℙ(𝐴1 ∪ 𝐴2 ∪ ⋯ ∪ 𝐴𝑘 ) = ℙ(𝐴1 ) + ℙ(𝐴2 ) + ⋯ + ℙ(𝐴𝑘 ) = ∑ ℙ(𝐴𝑖 ) 𝑖=1 3. Siano A e B due eventi compatibili (quindi 𝐴 ∩ 𝐵 ≠ {∅}), allora ho una estensione del secondo assioma, ossia che: ℙ (𝐴 ∪ 𝐵 ) = ℙ (𝐴 ) + ℙ (𝐵 ) − ℙ (𝐴 ∩ 𝐵 ) 4.8 - Probabilità ad esiti ed eventi equiprobabili Una serie di ‘n’ esiti A1, A2 … An disgiunti si dicono equiprobabili quando hanno le stesse probabilità di avvenimento ‘c’. Sostanzialmente vale la seguente identità: 𝑛 𝑛 ∑ ℙ ( 𝐴𝑖 ) = ∑ 𝑐 = 𝑛 ⋅ 𝑐 = 1 𝑖=1 𝑖=1 ⇒ 𝑐= 1 1 = |𝑆 | 𝑛 Quindi la probabilità di ognuno di questi eventi di avvenire è uguale è vale il reciproco di ‘n’, ossia la cardinalità dello spazio campionario |S|. Per una serie di ‘n’ eventi B1, B2 … Bn disgiunti, l’equiprobabilità si dimostra con lo stesso concetto, ma dividendo ogni evento Bi nei suoi esiti Cj ( con 1<j<|Bi|+1 ) : ℙ(𝐵𝑖 ) = |𝐵𝑖 | |𝑆| Ad esempio se prendo come evento A = “esce un numero minore di 3” per il lancio di un dado ho: S = {1, 2, 3, 4, 5, 6} A = {1, 2} P(A) = 2/6 = 33.3% 4.9 - Probabilità di un gruppo di eventi Cosa succede però quando io voglio cercare di capire che probabilità c’è che avvenga un evento distribuito su più esiti? Che la cardinalità degli elementi dipende da più fattori e la formula precedente di base va bene, ma va rivisitata. Infatti la cardinalità dello spazio campionario |S| non è più intuibile come “tutti gli esiti possibili” ma come il prodotto tra tutti gli esiti possibili ad ogni test (ad esempio se estraggo una carta da un mazzo di 40, l’estrazione dopo avrò 401=39 possibilità, dunque avendo per l’estrazione di 2 carte un |S| pari a 40x39). Ciò sarebbe sufficiente a patto che consideri l’ordine di questi esiti importante, altrimenti entra in gioco un secondo fattore, ossia i modi in cui gli esiti si possono ordinare, e questo è facile siccome se abbiamo ‘K’ esiti, abbiamo ‘K!’ modi. Pertanto lo spazio campionario avrà cardinalità come segue, ossia il prodotto della serie decrescente di ‘n’ fino a ‘n-k+1’ diviso il numero di modi possibili siccome non ci interessa (per ora) con che ordine arrivano gli esiti: |𝑆 | = 𝑛 ⋅ (𝑛 − 1) ⋯ (𝑛 − 𝑘 + 1) 𝑛 =( ) 𝑘 𝑘! 𝑑𝑒𝑡𝑡𝑜 𝐶𝑂𝐸𝐹𝐹𝐼𝐶𝐼𝐸𝑁𝑇𝐸 𝐵𝐼𝑁𝑂𝑀𝐼𝐴𝐿𝐸 Dove ‘n’ è il numero di elementi distinti e ‘k’ sono il numero di esiti del problema. La cardinalità dell’evento in sé segue la medesima logica di prima, solo che ora invece che vedere il prodotto tra tutti gli esiti possibili, vediamo il prodotto tra tutti gli esiti accettati dall’evento in questione. Se voglio estrarre 2 assi in un mazzo da poker, saprò che gli assi sono 4, dunque esistono ‘4 su 2 modi’ (a parole come si pronuncia il coefficiente binomiale) affinchè avvenga l’evento. Ecco dunque il calcolo dell’esempio appena fatto, questa è la probabilità B di estrarre 2 assi: 4 4 ⋅ (4 − 1) ( ) |𝐵 | 𝑒𝑣𝑒𝑛𝑡𝑖 𝑓𝑎𝑣𝑜𝑟𝑒𝑣𝑜𝑙𝑖 1 2 2! ℙ (𝐵 ) = = = = ≈ 0.44% 52 |𝑆| 𝑒𝑣𝑒𝑛𝑡𝑖 𝑝𝑜𝑠𝑠𝑖𝑏𝑖𝑙𝑖 52 ⋅ (52 − 1) 13 ⋅ 17 ( ) 2! 2 5.1 - Probabilità condizionata Siano A e B due eventi di uno spazio campionario, e imponiamo che la probabilità di avvenimento di B sia diversa da 0. Allora la probabilità che si verifichi A sapendo che si è verificato B è detta “probabilità di A condizionata a B”, ed è descritta da questa formula: ℙ (𝐴 | 𝐵 ) = ℙ (𝐴 ∩ 𝐵 ) ℙ (𝐵 ) Sostanzialmente così si vuole trovare la probabilità che l’evento A accada una volta che l’evento B è accaduto, dunque legando l’avvenimento di A a B. 5.2 - Formula delle probabilità totali La formula delle probabilità totali si occupa di trovare la probabilità di un evento A, che è a sua volta legato all’evento B. L’idea è quella di ottenere una formula che tenga conto di quella precedente, in quanto descrive proprio la probabilità condizionata, ma sia nel caso l’evento B avvenga, che nel caso l’evento B non avvenga, quindi per Bc. Risulta facilmente dimostrabile che la probabilità di avvenimento di un evento A legato ad un evento B vale: ℙ(𝐴) = ℙ(𝐴|𝐵) ⋅ ℙ(𝐵 ) + ℙ(𝐴|𝐵 𝑐 ) ⋅ ℙ(𝐵 𝑐 ) 5.3 - Estensione della formula delle probabilità totali La formula precedente ammette un’estensione oltre al solo evento B. La formula si può estendere per un numero indefinito ‘n’ di eventi disgiunti tra loro, tale che la loro unione formi lo spazio campionario. Poste queste due condizioni e aggiunta la terza che vuole che nessuna delle probabilità associate sia nulla, possiamo affermare che se vi sono ‘n’ eventi che possono avvenire se avviene un evento A, allora la probabilità di A risulta: ℙ(𝐴) = ℙ(𝐴|𝐵1 ) ⋅ ℙ(𝐵1 ) + ℙ(𝐴|𝐵2 ) ⋅ ℙ(𝐵2 ) + ⋯ + ℙ(𝐴|𝐵𝑛 ) ⋅ ℙ(𝐵𝑛 ) 𝑛 ℙ(𝐴) = ∑ ℙ(𝐴|𝐵𝑖 ) ⋅ ℙ(𝐵𝑖 ) 𝑖=1 5.4 - Formula di Bayes Spesso durante la risoluzione di un problema che interpella le probabilità condizionate, viene richiesto di trovare quale sia la probabilità di B condizionato ad A. Spesso tra i dati però vi è la probabilità di A condizionato B, quindi sarebbe opportuno stabilire un metodo per passare da una all’altra, mettendole in correlazione. La formula di Bayes si occupa proprio di questo: ℙ (𝐴 | 𝐵 ) = ℙ (𝐵 | 𝐴 ) ⋅ ℙ (𝐴 ) ℙ (𝐵 ) 5.5 - Eventi indipendenti E’ comune confondere il concetto di disgiunzione tra eventi con il concetto di indipendenza tra eventi: la prima definizione è relativa ad un singolo esperimento aleatorio, ossia l’intersezione di ‘n’ eventi è l’insieme nullo, mentre la seconda definizione è relativa a più esperimenti aleatori, dove l’esperimento kesimo non dipende dagli esperimenti effettuati prima, ossia dal primo al ‘k-1’esimo. Un esempio per capire cosa vuol dire evento indipendente può essere il lancio di una monetina, siccome ogni esperimento non dipende dal precedente. Un controesempio può essere l’estrazione di 2 carte da un mazzo, siccome una volta estratta la prima, la seconda avrà una probabilità condizionata all’esito precedente. Per definizione, due eventi si dicono indipendenti quando vale: ℙ ( 𝐴 ∩ 𝐵 ) = ℙ (𝐴 ) ⋅ ℙ (𝐵 ) Riprendendo il lancio di una monetina, imponiamo A = “al primo lancio esce testa” e B = “al secondo lancio esce testa”. Dunque non è difficile convincersi che l’intersezione A ∩ B = “in entrambi i lanci esce testa”. Per la definizione di eventi indipendenti dunque la probabilità che escano 2 teste è: ℙ (𝐴 ) = ℙ (𝐵 ) = 1 2 “A” e “B” sono indipendenti quindi… ℙ (𝐴 ∩ 𝐵 ) = ℙ ( 𝐴 ) ⋅ ℙ (𝐵 ) = 1 1 1 ⋅ = 2 2 4 5.6 - Indipendenza da più eventi In accordo alla definizione di indipendenza tra due eventi, si può stabilire anche una regola che definisce l’indipendenza di ‘n’ eventi. La serie di eventi A 1 … An si dice indipendente se vale: 𝑛 ℙ(𝐴1 ∩ 𝐴2 ∩ ⋯ ∩ 𝐴𝑛 ) = ℙ(𝐴1 ) ⋅ ℙ(𝐴2 ) ⋯ ℙ(𝐴𝑛 ) = ∏ ℙ(𝐴𝑖 ) 𝑖=1 Per far si che valga ciò bisogna anche accorgersi che valgano le indipendenze tra ogni singolo evento e tra le loro intersezioni. Risulterà più chiaro dopo aver imposto n=3: ℙ(𝐴1 ∩ 𝐴2 ∩ 𝐴3 ) = ℙ(𝐴1 ) ⋅ ℙ(𝐴2 ) ⋅ ℙ(𝐴3 ) Ciò implica che: ℙ(𝐴1 ∩ 𝐴2 ) = ℙ(𝐴1 ) ⋅ ℙ(𝐴2 ) ℙ(𝐴1 ∩ 𝐴3 ) = ℙ(𝐴1 ) ⋅ ℙ(𝐴3 ) ℙ(𝐴3 ∩ 𝐴2 ) = ℙ(𝐴3 ) ⋅ ℙ(𝐴2 ) 5.7 - Probabilità di successo in più esperimenti aleatori Preso atto di cosa voglia dire trovare la probabilità di eventi indipendenti, vogliamo trovare una formula generale per capire la probabilità di un successo al n-esimo esperimento aleatorio e la probabilità di ottenere ‘k’ successi in ‘n’ prove. Per la prima formula basti pensare che per aver un successo al tentativo ‘n’, i tentativi dal primo al ‘n-1’-esimo saranno vani. Dunque assumendo che la probabilità di successo sia 0<p<1 e che ogni evento sia indipendente dal precedente, posso affermare che gli eventi da A 1 ad An-1 sono fallimentari, ossia accade ‘pc’ (1-p), mentre l’evento An è vincente, ossia accade ‘p’. Pertanto: ℙ(𝐴1 ⋯ ∩ 𝐴𝑛−1 ∩ 𝐴𝑛 ) = ℙ(𝐴1 ) ⋯ ℙ(𝐴𝑛−1 ) ⋅ ℙ(𝐴𝑛 ) = (1 − 𝑝)𝑛−1 ⋅ 𝑝 Per la seconda formula il ragionamento è il medesimo: in ‘n’ esperimenti ho ‘k’ vittorie, dunque sarebbe istintivo affermare che la probabilità di ottenere ciò possa essere (1-p)n-k(p)k. Questo vale sicuramente, a patto però che si voglia trovare la probabilità di una sequenza ben precisa di vittorie e fallimenti. Ad esempio se lancio una monetina 5 volte e stabilisco che vinco solo se esce esattamente 2 volte testa, ho diversi modi per cui questo può accadere, uno di questi può essere l’evento Ai = {(C,T,C,C,T)}, ma anche l’evento Aj = {(T,T,C,C,C)} e così via. Il ragionamento si conclude riflettendo in questo modo: se ho diversi modi ‘m’ di ottenere il successo, e ognuno di questi modi ha probabilità di avvenire pari a quella detta prima, ossia (1-p)n-k(p)k, allora la probabilità di avere ‘k’ successi in ‘n’ esperimenti risulterà “m(1-p)n-k(p)k”. I modi ‘m’ di ottenere il successo equivale a dire “ho ‘k’ vittorie da distribuire in ‘n’ esperimenti”, quindi ‘m’ vale proprio “n su k”, ossia il coefficiente binomiale. Arrivati a ciò, la probabilità di avere ‘k’ successi in ‘n’ esperimenti è: 𝑛 ℙ(𝐴1 ∩ … ∩ 𝐴𝑛 ) = ( ) ⋅ (1 − 𝑝)𝑛−𝑘 ⋅ (𝑝)𝑘 𝑘 5.8 - Esempi Lanci un dado 9 volte, e vinci solo se ottieni il numero 2: 1. Quale è la probabilità di vincere al quarto lancio? Quale al nono? 2. Quale è la probabilità di avere 4 vincite su 9 lanci? 3. Quale è la probabilità di avere 4 vincite, ma alternate da 5 sconfitte? 1→ ℙ 1 𝑛=4, 𝑝=6 ℙ 1 𝑛=9, 𝑝=6 = (1 − 𝑝)𝑛−1 5 3 1 53 125 ⋅ (𝑝) = ( ) ⋅ ( ) = 4 = ≈ 9,6% 6 6 6 1296 5 8 1 58 390625 = (1 − 𝑝)𝑛−1 ⋅ (𝑝) = ( ) ⋅ ( ) = 9 = ≈ 3,8% 6 6 6 10077696 2→ ℙ 1 𝑛=9, 𝑘=4, 𝑝=6 5 5 1 4 126 ⋅ 3125 𝑛 9 = ( ) ⋅ (1 − 𝑝)𝑛−𝑘 ⋅ (𝑝)𝑘 = ( ) ⋅ ( ) ⋅ ( ) = ≈ 3,9% 𝑘 4 6 6 10077696 3→ Voglio solo la sequenza Ai = {(S,V,S,V,S,V,S,V,S)} ℙ 1 𝑛=9, 𝑘=4, 𝑝= , 𝐴𝑖 6 = (1 − 𝑝)𝑛−𝑘 ⋅ (𝑝)𝑘 5 5 1 4 55 3125 = ( ) ⋅( ) = 9 = ≈ 0,27% 6 6 6 10077696 6.1 - Variabili aleatorie (V.A.) Una variabile aleatoria è una quantità numerica il cui valore dipende dall’esito di un esperimento aleatorio, e per rappresentarle si usano le lettere maiuscole. Ad esempio considerando il lancio di un dado, una variabile aleatoria può essere senza problemi X=”punteggio maggiore di 4” o “punteggio dispari”. Ad ogni variabile aleatoria corrisponde sicuramente almeno un evento, infatti vale la seguente legge (dove ‘x’ minuscolo è il risultato di evento): {𝑥 = 𝑋 ∨ 𝑥 ∈ 𝑋 } 𝑥∈ℝ Una variabile aleatoria ovviamente permette di calcolare la probabilità che quanto descritto avvenga, e vale ℙ(𝑋 = 𝑥 ). Tuttavia una variabile aleatoria spesso raccoglie più eventi, ad esempio con la scrittura ℙ(𝑋 ≤ 𝑥 ) si vuole calcolare la probabilità che un esito sia maggiore o uguale alla variabile aleatoria. Più in generale consideriamo 𝐴 ⊆ ℝ come un insieme di risultati di eventi, allora la probabilità che si verifichi quanto descritto dalla variabile aleatoria è: ℙ (𝑋 ∈ 𝐴 ) 6.2 - Variabili aleatorie discrete Una variabile aleatoria si dice discreta quando i valori che può assumere, ossia i risultati degli esiti, sono interi e al più numerabili. Dire che una variabile aleatoria è discreta equivale ad affermare che quindi l’insieme A può avere cardinalità finita o infinita, ma è numerabile: 𝑋 ∈ 𝐴 = {𝑥1 , 𝑥2 ⋯ 𝑥𝑛 } → |𝐴 | = 𝑛 ∈ ℝ 6.3 - Funzioni di massa per le V.A. discrete Se X è una variabile aleatoria discreta, allora si può definire una funzione detta “funzione di massa p(x)” per ogni singolo elemento di A, che corrisponde alla probabilità che il relativo evento si verifichi: 𝑝(𝑥𝑖 ) = ℙ(𝑋 = 𝑥𝑖 ). E’ intuitivo pensare che se abbiamo a che fare con variabili discrete, avremo |A| eventi e dunque |A| funzioni di massa. La principale proprietà che caratterizza la funzione di massa ci dice che calcolare 𝑝(𝑥 ∉ 𝐴) restituisce sempre 0, in quanto ‘x’ non è facente parte degli eventi interessati in X. Al contrario calcolare 𝑝(𝑥 ∈ 𝐴) equivale ad effettuare la somma di tutte le |A| funzioni di massa, e deve dare ovviamente come risultato 1: 𝑝(𝑥 ∈ 𝐴) = ∑ 𝑝(𝑥𝑖 ) = 1 𝑥∈𝐴 Siccome ‘x’ o appartiene o non appartiene ad ‘A’ , sappiamo che sicuramente 𝑥 ∈ 𝐴 ∪ 𝐴𝐶 = ℝ1 , e ciò ci informa che la somma delle funzioni di massa di ogni evento deve fare anche essa 1, proprio come ci si aspettava: ∑ 𝑝(𝑥𝑖 ) = ∑ 𝑝(𝑥𝑖 ) + ∑ 𝑝(𝑥𝑖 ) = 𝑝(𝑥 ∈ 𝐴) + 𝑝(𝑥 ∉ 𝐴) = 1 + 0 = 1 𝑥∈ℝ 𝑥∈𝐴 𝑥∉𝐴 6.4 - Variabili aleatorie continue e funzione densità Al contrario delle variabili aleatorie discrete, quelle continue appartengono ad un insieme A con cardinalità sempre infinita e non numerabile, infatti è composto da un insieme denso di valori. Pertanto una variabile aleatoria si definisce continua se esiste una certa funzione f(x) “funzione di densità” tale che per ogni 𝐴 ⊆ ℝ si ha ℙ(𝑥 ∈ 𝐴) = ∫ 𝑓 (𝑥 ) 𝑑𝑥 𝐴 Ma cosa esattamente si intende con una terminologia del genere? Per comprenderlo facciamo un esempio, stabiliamo l’insieme A in modo tale che raccolga tutti i risultati degli eventi compresi tra un certo valore ‘a’ e ‘b’, quindi sostanzialmente si vuole calcolare: 𝑏 ℙ(𝑥 ∈ 𝐴) = ℙ(𝑎 ≤ 𝑥 ≤ 𝑏) = ∫ 𝑓(𝑥 ) 𝑑𝑥 𝑎 Cambiamo esempio, stabiliamo l’insieme B in modo tale che raccolga tutti i risultati degli eventi maggiori di -2, allora si ha che: +∞ ℙ(𝑥 ∈ 𝐵 ) = ℙ(𝑥 > −2) = ∫ −2 𝑓(𝑥 ) 𝑑𝑥 6.5 - Relazione tra funzione densità e funzione di massa Non è difficile capire che se l’insieme corrisponde ai reali, allora per variabili aleatorie continue si ha: +∞ ℙ(𝑥 ∈ ℝ) = ∫ 𝑓 (𝑥 ) ⋅ 𝑑𝑥 = 1 −∞ Come nel caso delle somme delle funzioni di massa su tutto R, si ha che la probabilità risulta sempre 1. Ciò evidenzia una relazione tra le proprietà della funzione di massa e di densità, infatti l’utilizzo del calcolo integrale è il risultato di una somma infinita di funzioni di massa di variabili aleatorie discrete (anche nota come somme di Riemann). La funzione densità usata come funzione integranda è costituita dal legame di ogni singola coordinata (xi, p(xi)), che con il passaggio da discreto a continuo diventa denso, e dunque una funzione continua vera e propria che caratterizza la probabilità di avvenimento di ogni evento ‘x’. 6.6 - Valor medio di una variabile aleatoria Sia ‘X’ una variabile aleatoria discreta. Posso stabilire il valor medio di ‘X’ tramite la seguente formula, che altro non è che una media pesata: 𝐸 (𝑋 ) = ∑ 𝑥 ⋅ 𝑝(𝑥 ) 𝑥∈𝑋∈ℝ 𝑥∈ℝ In questo modo si va a creare uno strumento che pesa maggiormente le funzioni di massa maggiori, ossia quelle con probabilità più alta. Non è difficile immaginarsi come funzioni il valor medio per variabili aleatorie continue: +∞ 𝐸 (𝑥 ) = ∫ 𝑥 ⋅ 𝑓 (𝑥 ) ⋅ 𝑑𝑥 −∞ Cosa esattamente esprime il valor medio? Si può dire che esprima se il gioco probabilistico convenga o meno. Infatti se è negativo ci informa che la variabile aleatoria ‘X’ raccoglie una serie di eventi generalmente non favorevoli. 6.7 - Proprietà del valor medio • Il valor medio di una trasformazione lineare di ‘X’ corrisponde alla medesima trasformazione lineare sul valor medio di ‘X’: 𝐸 (𝑎 ⋅ 𝑋 + 𝑏 ) = 𝑎 ⋅ 𝐸 (𝑋 ) + 𝑏 𝑎, 𝑏 ∈ ℝ • Siano ‘X’ e ‘Y’ due variabili aleatorie dipendenti dallo stesso esperimento aleatorio, allora ho che il valor medio della somma di ‘X’ e ‘Y’ corrisponde alla somma dei valor medi: 𝐸 (𝑋 + 𝑌 ) = 𝐸 (𝑋 ) + 𝐸 (𝑌 ) • Il valor medio di una funzione di una variabile aleatoria discreta vale: 𝐸(𝑔(𝑋 )) = ∑ 𝑔(𝑥 ) ⋅ 𝑝(𝑥 ) 𝑥∈ℝ • Il valor medio di una funzione di una variabile aleatoria continua vale: +∞ 𝐸(𝑔(𝑋 )) = ∫ 𝑔(𝑥 ) ⋅ 𝑓 (𝑥 ) ⋅ 𝑑𝑥 −∞ 6.8 - Varianza di una variabile aleatoria Come è possibile stabilire un valor medio di una variabile aleatoria, è possibile stabilire anche la varianza, ossia un indice che ci informa sulla dispersione dei dati attorno al valor medio, con lo stesso criterio usato nella statistica descrittiva: 𝑉𝑎𝑟(𝑋 ) = 𝐸 [(𝑋 − 𝜇 )2 ] 𝑑𝑜𝑣𝑒 𝜇 = 𝐸 (𝑋 ) Si può dimostrare mediante le proprietà sopra elencate che la varianza può esser trovata anche con un’altra formula, ossia: 𝑉𝑎𝑟(𝑋 ) = 𝐸 (𝑋 2 ) − 𝜇 2 = 𝐸 (𝑋 2 ) − 𝐸 2 (𝑋) Così: 𝐸 [(𝑋 − 𝜇 )2 ] = 𝐸 (𝑋 2 − 2𝑋𝜇 + 𝜇 2 ) quadrato di binomio 𝐸 (𝑋 2 − 2𝑋𝜇 + 𝜇 2 ) = 𝐸 (𝑋 2 − 2𝑋𝜇 ) + 𝜇 2 proprietà 1 𝐸(𝑋 2 − 2𝑋𝜇 ) + 𝜇 2 = 𝐸 (𝑥 2 ) + 𝐸 (−2𝑥𝜇 ) + 𝜇 2 proprietà 2 𝐸(𝑋 2 ) + 𝐸 (−2𝑋𝜇 ) + 𝜇 2 = 𝐸 (𝑋 2 ) − 2𝜇 ⋅ 𝐸 (𝑋) + 𝜇 2 proprietà 1 𝐸 (𝑋 𝐸 (𝑋 2) 2) 2 − 2𝜇 ⋅ 𝐸 (𝑋) + 𝜇 = 𝐸 (𝑋 2 2 − 2𝜇 + 𝜇 = 𝐸(𝑋 2) 2 2) − 2𝜇 + 𝜇 2 proprietà μ = E(X) 2) 2( conclusione − 𝜇 = 𝐸 (𝑋 2 − 𝐸 𝑋) 6.9 - Proprietà della varianza di una variabile aleatoria Le analogie con la varianza campionaria si conservano, infatti anche per la varianza di variabili aleatorie si ha sempre un valore maggiore o uguale a 0. Se la varianza è uguale a 0, proprio come nella statistica descrittiva, l’unica causa è che ogni evento descritto dalla variabile aleatoria abbia uguale probabilità. Valgono anche le seguenti proprietà: • 𝑉𝑎𝑟(𝑎𝑋 + 𝑏) = 𝑎2 ⋅ 𝑉𝑎𝑟(𝑋 ) • 𝑉𝑎𝑟(𝑋 + 𝑌) = 𝑉𝑎𝑟(𝑋 ) + 𝑉𝑎𝑟(𝑌) + 2 ⋅ 𝐶𝑜𝑣(𝑋, 𝑌) La seconda implicitamente ci dice che se X e Y sono indipendenti, allora la varianza della somma è uguale alla sola somma delle varianze. 6.10 - Esempio Due individui, A e B, eseguono il seguente gioco: • Il giocatore A mette 3 euro in palio, e vince se il dado non da esito 6; • Il giocatore B mette 1 solo euro in palio, ma vince se il dado mostra 6. Sia X la variabile aleatoria “guadagno in seguito ad una giocata della persona A”. Si calcolino le funzioni di massa di X e il valor medio di X, cercando di trarre una conclusione sul vantaggio o meno di eseguire un numero ‘k’ consistente di volte questo gioco essendo la persona A. La variabile aleatoria X può assumere solamente 2 valori: il primo è ‘+1’ in quanto se vince A si porta a casa il palio (ossia 4 euro meno i 3 giocati), mentre il secondo è ‘-3’ in quanto se perde, lascia a B i suoi 3 euro. Dunque le funzioni di massa da calcolare saranno 2 (perché A = {1, -3} e dunque |A| = 2): p(X=1) = probabilità che non esca 6 = 5/6 p(X=-3) = probabilità che esca 6 = 1/6 Il valor medio vale ∑𝑥∈𝐴 𝑥 ⋅ 𝑝(𝑥 ) quindi (+1) ⋅ (5⁄6) + (−3) ⋅ (1⁄6) = 1⁄3 Il valor medio è positivo, ciò vuol dire che mediamente il giocatore A si porta a casa ad ogni giocata 0.33 euro. Fosse stato negativo avremmo avuto una media relativa a delle perdite per ogni giocata, dunque il gioco sarebbe stato al contrario svantaggioso per A e favorevole per B. Se la persona A giocasse un numero ‘k’ consistente di partite, considerando un guadagno medio di 0.33 euro si potrebbe fare ‘k·0.33’ieuro. Ad esempio con 100 giocate ci sta una buona probabilità di vincere 33 euro, o al limite se si ha sfiga, almeno è raro andare in perdita! 7.1 - Distribuzioni congiunte Siano X e Y due variabili aleatorie discrete dipendenti dallo stesso esperimento aleatorio. Si definisce la funzione di massa congiunta di X e Y (ossia una funzione che calcola la probabilità che avvengano entrambe): 𝑝𝑥,𝑦 (𝑥, 𝑦) = ℙ(𝑥 = 𝑋, 𝑦 = 𝑌) Ad esempio, siano X=”il punteggio più piccolo nel lancio di 2 dadi” e Y=”il punteggio più grande nel lancio di 2 dadi”, allora posso stabilire quanto valga la funzione di massa calcolata in 1,1, oppure in 2, 5 (ovviamente x ≤ y): px,y(1,1) = probabilità che il lancio più piccolo valga 1 e che il lancio più grande valga 1 = probabilità che esca la combinazione unica 1, 1 = 1/36. px,y(2,5) = probabilità che il lancio più piccolo valga 2 e che il lancio più grande valga 5 = probabilità che esca la combinazione 2, 5 o 5, 2 = il doppio della probabilità di un singolo esito = 1/18. 7.2 - Distribuzioni singole Se è nota la funzione di massa congiunta, è possibile ricavarsi le funzioni di massa singole per ogni variabile aleatoria, anche chiamate funzioni di massa marginali. Attenzione, perché non esiste un processo inverso, infatti dalle distribuzioni singole non si riesce a ricavare la distribuzione congiunta delle variabili. 𝑝𝑥 (𝑥 ) = ℙ(𝑥 = 𝑋 ) = ∑ 𝑝𝑥,𝑦 (𝑥, 𝑦) 𝑝𝑦 (𝑦) = ℙ(𝑦 = 𝑌) = ∑ 𝑝𝑥,𝑦 (𝑥, 𝑦) 𝑦 𝑥 Dall’esempio di prima: px(3) = probabilità che il lancio più piccolo valga 3 = somma delle funzioni di massa congiunte dove escono le combinazioni (3,4) (4,3) (3,5) (5,3) (3,6) (6,3) = 6/36 = 3/18 7.3 – Valore atteso Siano X e Y due variabili aleatorie, allora è detto “valore atteso” il calcolo del valor medio di una funzione che ha come ingressi X e Y (il caso raffigurante vale per variabili aleatorie discrete, per quelle continue servirebbe un doppio integrale): 𝐸 [𝑔(𝑋, 𝑌)] = ∑ 𝑔(𝑥, 𝑦) ⋅ 𝑝𝑥,𝑦 (𝑥, 𝑦) 𝑥,𝑦∈ℝ 7.4 – Indipendenza tra due variabili aleatorie Per definire il concetto di indipendenza tra due variabili aleatorie, ci si rifà al concetto di indipendenza tra due eventi, in quanto una variabile aleatoria non è altro che un modo parallelo di studiare gli eventi. In sostanza, due variabili aleatorie si dicono indipendenti se vale la seguente regola ∀𝐴, 𝐵 ⊆ ℝ . ℙ(𝑥 ∈ 𝐴, 𝑦 ∈ 𝐵 ) = ℙ(𝑥 ∈ 𝐴) ⋅ ℙ(𝑦 ∈ 𝐵 ) la quale implica una seconda regola, ossia la probabilità di X condizionato Y, che come nel caso degli eventi, se X e Y sono indipendenti allora non sono condizionati, e dunque vale ovviamente ℙ (𝑥 ∈ 𝐴 | 𝑦 ∈ 𝐵 ) = ℙ (𝑥 ∈ 𝐴 ) Avevamo discusso su come non sia possibile risalire alla funzione di massa congiunta tramite le funzioni di massa singole, ma nel caso di variabili aleatorie indipendenti invece è consentito tramite la seguente identità, derivata dalla prima regola: 𝑝𝑥,𝑦 (𝑥, 𝑦) = 𝑝𝑥 (𝑥 ) ⋅ 𝑝𝑦 (𝑦) 7.5 – Valor medio di due variabili aleatorie indipendenti Il valor medio di due variabili aleatorie indipendenti utilizza la definizione di valore atteso, con la funzione g(X,Y) = XY, ed è uguale al prodotto dei valor medi delle singole variabili aleatorie (cosa non vera se fossero dipendenti): 𝐸 (𝑋 ⋅ 𝑌) = ∑ 𝑥 ⋅ 𝑦 ⋅ 𝑝𝑥,𝑦 (𝑥, 𝑦) 𝑥,𝑦∈ℝ = ∑ 𝑥 ⋅ 𝑦 ⋅ 𝑝𝑥 (𝑥 ) ⋅ 𝑝𝑦 (𝑦) = ∑ 𝑥 ⋅ 𝑝𝑥 (𝑥 ) ⋅ 𝑦 ⋅ 𝑝𝑦 (𝑦) 𝑥,𝑦∈ℝ 𝑥,𝑦∈ℝ = ∑ 𝑥 ⋅ 𝑝𝑥 (𝑥 ) ⋅ ∑ 𝑦 ⋅ 𝑝𝑦 (𝑦) = 𝐸 (𝑋 ) ⋅ 𝐸 (𝑌) 𝑥,𝑦∈ℝ 𝑥,𝑦∈ℝ 7.6 – Covarianza tra 2 variabili aleatorie Date X e Y come due variabili aleatorie, si può definire la loro covarianza come: 𝐶𝑜𝑣 (𝑋, 𝑌) = 𝐸[(𝑋 − 𝐸 (𝑋 )) ⋅ (𝑌 − 𝐸 (𝑌))] = 𝐸 (𝑋 ⋅ 𝑌) − 𝐸 (𝑋 ) ⋅ 𝐸 (𝑌) E’ interessante osservare come calcolare la covarianza tra X e sé stessa, restituisca la varianza di X, ma soprattutto è interessante analizzare il caso in cui X e Y siano due variabili aleatorie indipendenti. Abbiamo dimostrato non molti paragrafi fa che in tal caso 𝐸 (𝑋 ⋅ 𝑌) = 𝐸 (𝑋 ) ⋅ 𝐸 (𝑌), e dunque sostituendo nella formula della covarianza si ottiene 0. D’altronde il risultato ottenuto è coerente con la definizione di indipendenza (meglio chiamarla scorrelazione in questo caso) infatti non può esserci correlazione tra le due variabili. La covarianza è dotata di segno, il quale ci informa sul modo in cui le due variabili aleatorie si relazionano quando crescono e decrescono. Più precisamente: • 𝐶𝑜𝑣(𝑋, 𝑌) > 0 → • 𝐶𝑜𝑣(𝑋, 𝑌) < 0 → 𝑎𝑙 𝑐𝑟𝑒𝑠𝑐𝑒𝑟𝑒 𝑜 𝑑𝑒𝑐𝑟𝑒𝑠𝑐𝑒𝑟𝑒 𝑑𝑖 𝑋, 𝑎𝑙𝑙𝑜𝑟𝑎 𝑐𝑟𝑒𝑠𝑐𝑒 𝑜 𝑑𝑒𝑐𝑟𝑒𝑠𝑐𝑒 𝑌; 𝑎𝑙 𝑐𝑟𝑒𝑠𝑐𝑒𝑟𝑒 𝑜 𝑑𝑒𝑐𝑟𝑒𝑠𝑐𝑒𝑟𝑒 𝑑𝑖 𝑋, 𝑌 𝑠𝑖 𝑐𝑜𝑚𝑝𝑜𝑟𝑡𝑎 𝑎𝑙 𝑐𝑜𝑛𝑡𝑟𝑎𝑟𝑖𝑜 7.7 – Coefficiente di correlazione Come per la statistica descrittiva, si può stabilire una quantità numerica che descriva il grado di correlazione tra due variabili aleatorie, ossia: 𝐶𝑜𝑟𝑟(𝑋, 𝑌) = 𝐶𝑜𝑣 (𝑋, 𝑌) √𝑉𝑎𝑟 (𝑋 ) ⋅ √𝑉𝑎𝑟(𝑌) Il coefficiente di correlazione ha le seguenti proprietà: • • • • è sempre compreso tra -1 e 1 (inclusi); se Corr(X,Y) = 1, allora Y = aX + b dove ‘a’ è maggiore di 0 e ‘b’ reale; se Corr(X,Y) = 1, allora Y = aX + b dove ‘a’ è minore di 0 e ‘b’ reale; se Corr(X,Y) = 0, allora Cov(X,Y) = 0, implicando che X e Y sono scorrelati. 7.8 – Funzione di ripartizione di una variabile aleatoria Si definisce funzione di ripartizione, una funzione che calcola le probabilità che una variabile aleatoria sia minore o uguale al valore passato per funzione: 𝐹𝑋 (𝑥 ) = ℙ(𝑋 ≤ 𝑥 ) Nel caso X sia discreta, possiamo affermare quanto a sinistra, altrimenti se è continua vale quanto a destra: 𝑥 𝐹𝑋 (𝑥) = ℙ(𝑋 ≤ 𝑥 ) = ∑ 𝑝𝑋 (𝑡 ) 𝐹𝑋 (𝑥 ) = ℙ(𝑋 ≤ 𝑥 ) = ∫ 𝑓𝑋 (𝑡 ) ⋅ 𝑑𝑡 −∞ 𝑡≤𝑥 Prendendo in esame la funzione di ripartizione per le variabili aleatorie continue, per il teorema fondamentale del calcolo integrale, possiamo affermare con sicurezza che vale 𝐹𝑋′ (𝑥 ) = 𝑓𝑋 (𝑥). Questa informazione servirà per calcolare come varia la funzione di densità se effettuo una trasformazione lineare su X del tipo Yt=-aX+b. Ecco: 𝐹𝑌 (𝑦) = ℙ(𝑌 ≤ 𝑦) = ℙ(𝑎 ⋅ 𝑋 + 𝑏 ≤ 𝑦) = ℙ (𝑋 ≤ 𝜕 𝜕 𝑦−𝑏 ⋅ 𝐹𝑌 (𝑦) = ⋅ 𝐹𝑋 ( ) 𝜕𝑦 𝜕𝑦 𝑎 𝑓𝑌 (𝑦) = ⇒ 𝑦−𝑏 𝑦−𝑏 ) = 𝐹𝑋 ( ) 𝑎 𝑎 𝑓𝑌 (𝑦) = 𝐹𝑋′ 𝑦−𝑏 𝑦−𝑏 ′ ( )⋅[ ] 𝑎 𝑎 1 𝑦−𝑏 ⋅ 𝑓𝑋 ( ) 𝑎 𝑎 Il risultato è che la funzione densità relativa alla variabile aleatoria Y = aX+b, è legata alla funzione densità di X tramite l’equazione appena trovata. 8.1 – Classi notevoli di V.A. discrete: variabili di Bernoulli Una variabile aleatoria si dice di Bernoulli con parametro 𝑝 ∈ [0,1] se assume solamente i valori 0 ed 1, dunque gli unici scenari sono X=0 e X=1. • Se X=1 vale ‘p’ allora posso dire che la funzione di massa p x(1) = p; • se X=0 vale ‘1-p’ allora posso dire che la funzione di massa px(0) = 1 – p; dunque vale la seguente proposizione: ℙ(𝑋 = 1) = 𝑝 = 1 − ℙ(𝑋 = 0). Un esempio di variabile di Bernoulli può essere il lancio di una monetina siccome i valori unici di X sono 1 (inteso come testa) e 0 (inteso come croce) mentre il parametro ‘p’ corrisponde a px(1), che è ½. Appurato ciò possiamo anche calcolarci il valor medio e la varianza di X conoscendone il parametro ‘p’, e risultano: • E(X) = 0×px(0) + 1×px(1) = 0×(1-p) + 1×p = p • Var(X) = E(X2) – E2(X) = [ 02×(1-p) + 12×p ] – p2 = p – p2 = p(1-p) 8.2 – Classi notevoli di V.A. discrete: variabili binomiali Una variabile si dice binomiale nel momento in cui possiede una funzione di massa tale, considerando i parametri ‘n’ numero di prove ripetute, e ‘p’ probabilità di avere successo, e si consideri X la variabile aleatoria relativa al numero di successi. 𝑋 ∈ [0, 𝑛] 𝑝𝑋 (𝑥 ∈ 𝑋 ) = ℙ(𝑥 = 𝑋 ) = ( 𝑛 ) ⋅ 𝑝 𝑥 ⋅ (1 − 𝑝)𝑛−𝑥 𝑥 Una variabile aleatoria binomiale può essere reinterpretata anche come fosse di Bernoulli, dove stabiliamo una certa quantita xi (dove ‘i’ va da 1 a n) che segnala se la i-esima prova è un successo o meno. Per intenderla come di Bernoulli, diremo che: 𝑥𝑖 = { 1 0 𝑠𝑒 𝑙𝑎 𝑖 − 𝑒𝑠𝑖𝑚𝑎 𝑝𝑟𝑜𝑣𝑎 è 𝑢𝑛 𝑠𝑢𝑐𝑐𝑒𝑠𝑠𝑜 𝑎𝑙𝑡𝑟𝑖𝑚𝑒𝑛𝑡𝑖 Essendo che per la definizione di prove ripetute ogni esperimento aleatorio è indipendente, ora ho ‘n’ variabili di Bernoulli di parametro ‘p’, siccome ho imposto che il valore di xi può esser solo 0 o 1, con le loro funzioni di massa. 8.3 – Classi notevoli di V.A. discrete: variabili di Poisson Una variabile si dice di Poisson con parametro λ (lamba, sempre > 0) se può assumere dei valori interi xi da i=0 a un certo i=n e ha come funzione di massa: 𝑒 −𝜆 ⋅ 𝜆𝑘 𝑝𝑋 (𝑘 ) = ℙ(𝑋 = 𝑘 ) = 𝑘! 𝑋 ∈ [0, 𝑛] Una funzione di massa strutturata in questo modo può essere accettata? Si purchè la somma di tutte le funzioni di massa dia il canonico valore 1, e questo è dimostrabile in pochi passaggi tramite la serie esponenziale di Taylor: +∞ 𝑛 𝑛 ℙ(𝑋 ∈ ℝ) = ∑ 𝑝𝑥 (𝑖 ) = 𝑙𝑖𝑚 ∑ 𝑝𝑥 (𝑖 ) = 𝑙𝑖𝑚 ∑ 𝑛→+∞ 𝑖=0 𝑖=0 𝑛→+∞ 𝑒 −𝜆 ⋅ 𝜆𝑖 = 𝑖! 𝑖=0 𝑛 𝑒 −𝜆 ⋅ 𝑙𝑖𝑚 ∑ 𝑛→+∞ 𝜆𝑖 = 𝑒 −𝜆 ⋅ 𝑒 𝜆 = 1 𝑖! 𝑖=0 Si può dimostrare che se prendiamo una variabile aleatoria binomiale Y con i suoi parametri ‘n’ e ‘p’, dove n>>1 e p<<1, allora vale quanto segue, dove X è una variabile aleatoria di Poisson: ℙ(𝑌 = 𝑘 ) ≈ ℙ(𝑋 = 𝑘 ). In tal caso il parametro lamda della variabile di Poisson è uguale a 𝜆 = 𝑛 ⋅ 𝑝. 8.4 – Classi notevoli di V.A. continue: variabili uniformi Siano i due parametri α e β tali che siano reali e valga α<β. Una variabile aleatoria X si dice uniforme in (α,β) se è costante in quell’intervallo. Sostanzialmente deve valere che: 𝛽 ℙ(𝛼 ≤ 𝑋 ≤ 𝛽) = ∫ 𝑓𝑋 (𝑥 ) 𝑑𝑥 = 𝑓𝑋 (𝑥) ⋅ (𝛽 − 𝛼 ) = 1 𝛼 𝑓𝑋 (𝑥 ) = { 1 𝑝𝑒𝑟 𝛼 ≤ 𝑥 ≤ 𝛽 𝛽−𝛼 0 𝑝𝑒𝑟 𝑥 > 𝛽 𝑜 𝑥 < 𝛼 A tal proposito, si può ricavare che (ovviamente): 𝐸 (𝑋 ) = 𝛽+𝛼 2 8.5 – Classi notevoli di V.A. continue: variabili normali Siano μ e σ due variabili reali (consideremo la quantità σ2). Possiamo dire che X sia una variabile aleatoria normale con parametri μ (detto valor medio o atteso) e σ2 (detta varianza aleatoria) se: 𝑓𝑋 (𝑥) = 1 √2𝜋𝜎 2 ⋅𝑒 − (𝑥−𝜇)2 2𝜎2 Analizzando la funzione otteniamo delle informazioni, come la caratteristica forma a campana (detta campana di De Moivre) e come il fatto che il parametro μ sia responsabile della traslazione orizzontale di tutta la funzione sull’asse delle x. La funzione è detta distribuzione normale delle variabili aleatorie in quanto è ricorrente spessissimo in natura, molte situazioni seguono un andamento normale, come ad esempio l’altezza degli esseri umani, scarna agli estremi e concentratissima nel valore centrale, ossia in μ. Per segnalare che X è una variabile aleatoria normale si usa la seguente notazione: 𝑋 ~ 𝑁(𝜇, 𝜎 2 ). 8.6 – Osservazioni sulle variabili normali La distribuzione normale è affascinante in quanto sembra essere una proprietà intrinseca di moltissimi fenomeni in natura, pertanto è utile osservare alcune cose riguardo alla funzione di densità normale. Prendiamo in esame 𝑍 ~ 𝑁(0,1): 𝑓𝑍 (𝑥) = 1 √2𝜋 ⋅𝑒 − 𝑥2 2 come si può notare è una funzione pari, quindi è simmetrica sull’asse y, il quale crea l’intersezione con la funzione nel suo massimo, ossia la cima della campana. In tal caso Z prende il nome di normale standard, e possiede le seguenti proprietà dimostrabili: • E(Z) = 0; • Var(Z) = E(Z2) = 1; Proviamo a vedere cosa accade quanto attuo la seguente trasformazione lineare: 𝑋 =𝜎⋅𝑍+𝜇 Succede che 𝑍 ~ 𝑁(0,1) implica che 𝑋 ~ 𝑁(𝜇, 𝜎 2 ), con una conseguente (e velocemente dimostrabile) variazione di valor medio e varianza: E(X) = E(Z) · σ + μ = μ Var(X) = σ2 · Var(Z) = σ2 8.7 – Proprietà delle variabili normali Per la risoluzione di problemi che includono le variabili normali è importante considerare le seguenti 2 proprietà. • Sia 𝑋 ~ 𝑁 (𝜇, 𝜎 2 ), e sia 𝑍 = 𝑎𝑋 + 𝑏, allora concludo 𝑍 ~ 𝑁(𝑎𝜇 + 𝑏, 𝑎2 𝜎 2 ). Dimostro ciò ricordando che i parametri rappresentano rispettivamente media e varianza, e pertanto una loro trasformazione lineare risulterebbe quanto appena descritto. Ciò comporta l’esistenza di una importantissima trasformazione lineare detta standardizzazione, che rende qualsiasi variabile normale una standard: 𝑍= 𝑋−𝜇 1 𝜇 = ⋅𝑋− 𝜎 𝜎 𝜎 ∧ 𝑋 ~ 𝑁(𝜇, 𝜎 2 ) → 𝑍 ~ 𝑁(0,1) • Siano 𝑋 ~ 𝑁(𝜇1 , 𝜎12 ) e 𝑌 ~ 𝑁(𝜇2 , 𝜎22 ) due variabili aleatorie normali indipendenti, e sia 𝑊 = 𝑋 + 𝑌 la loro somma. Allora ho che: (𝑋 + 𝑌) = 𝑍 ~ (𝜇1 + 𝜇2 , 𝜎12 + 𝜎22 ) 8.8 – Calcoli con le variabili normali mediante Ф(x) Se volessi calcolarmi la probabilità che una variabile normale 𝑋 ~ 𝑁(𝜇, 𝜎 2 ) sia in un certo range [a, b], sarebbe necessario utilizzare la standardizzazione attuando la relativa trasformazione lineare: 𝑎−𝜇 𝑋−𝜇 𝑏−𝜇 𝑎−𝜇 𝑏−𝜇 ℙ(𝑎 ≤ 𝑋 ≤ 𝑏) = ℙ ( ≤ ≤ ) = ℙ( ≤𝑍≤ ) 𝜎 𝜎 𝜎 𝜎 𝜎 So di per certo che 𝑍 ~ 𝑁(0,1), dunque posso rifarmi alla funzione Ф, che altro non è che la funzione di ripartizione di una variabile normale standard calcolata in un certo punto, di cui si conoscono i valori tramite una tabella nota (ricavata tramite metodi computazionali). Proseguendo con l’esercizio ho che: 𝑏−𝜇 𝜎 𝑎−𝜇 𝑏−𝜇 ) = ∫ ℙ( ≤𝑍≤ 𝜎 𝜎 𝑥2 𝑒− 2 √2𝜋 ⋅ 𝑑𝑥 = 𝐹𝑍 ( 𝑏−𝜇 𝑎−𝜇 ) − 𝐹𝑍 ( ) 𝜎 𝜎 𝑎−𝜇 𝜎 E siccome 𝑍 ~ 𝑁 (0,1) allora posso affermare: 𝐹𝑍 ( 𝑏−𝜇 𝑎−𝜇 𝑏−𝜇 𝑎−𝜇 ) − 𝐹𝑍 ( ) = 𝛷( )−𝛷( ) 𝜎 𝜎 𝜎 𝜎 Al seguente link pdf (CLICK) vi è la tabella per trovare i valori di una certa 𝛷 (𝑥 ). Noto l’argomento ‘x’, cercare il valore corrispondente nella tabella funziona nel seguente modo. • Si scompone l’argomento alla seconda cifra decimale come somma della parte fino ai decimi + la parte con solo i centesimi. Ad esempio se x=1.34, allora scompongo in x=1.30+0.04. • Si cerca sulla prima colonna l’elemento che contiene la parte fino ai decimi e si appunta l’indice di riga. Nel nostro esempio nella tabella alla 14esima riga (partendo da 0.0) si trova il valore 1.3. • Si cerca sulla prima riga l’elemento che contiene (approssimativamente) la parte con i soli centesimi e si appunta l’indice di colonna. Nel nostro esempio nella tabella alla quinta colonna (partendo da 0.00) si trova il valore 0.04. • Il valore 𝛷(𝑥 ) sarà individuato dal valore presente nell’intersezione dei due indici. Nel nostro esempio riga 14 e colonna 5 generano il valore 0.90988, che sarà proprio 𝛷(𝑥 = 1.34). Accorgimenti importanti: • si può fare anche il lavoro inverso, ossia partire da un valore della funzione 𝛷(𝑥 ) e trovare ‘x’; • per trovare 𝛷(𝑥 ) con ‘x<0’ si può usare la seguente proprietà di simmetria, per poi tornare ad usare la tabella sopra riportata. 𝛷 (−𝑥 ) = 1 − 𝛷 (𝑥 ) Dimostrare ciò non è affatto complicato: 𝑥 𝛷 (𝑥) = 𝐹𝑍 ~ 𝑁(0,1) (𝑥) = ∫ 𝑒 𝑡2 − 2 √2𝜋 ⋅ 𝑑𝑡 −∞ 𝑥 ∫ −∞ 𝑡2 − 𝑒 2 √2𝜋 +∞ ⋅ 𝑑𝑡 + ∫ 𝑡2 − 𝑒 2 √2𝜋 −∞ ⋅ 𝑑𝑡 = 1 𝑓𝑢𝑛𝑧𝑖𝑜𝑛𝑒 𝑝𝑎𝑟𝑖 ⇔ 𝑥 𝛷 (𝑥 ) + ∫ 𝑡2 − 𝑒 2 √2𝜋 ⋅ 𝑑 (−𝑡) = 1 −𝑥 −𝑥 𝛷 (𝑥 ) − ∫ −∞ − 𝑡2 − 𝑒 2 √2𝜋 ⋅ 𝑑𝑡 = 1 𝑡𝑟𝑜𝑣𝑎𝑡𝑜 𝛷(−𝑥) ⇔ 𝛷 (𝑥) + 𝛷(−𝑥) = 1 9.1 – Definizione di statistiche campionarie di var. aleatorie Siano X1, X2, … Xn variabili aleatorie indipendenti e con la stessa distribuzione, rappresentanti il modello di un dataset. Ogni combinazione di tali variabili è detta statistica campionaria di una variabile aleatoria. Ad esempio una statistica campionaria di un modello possono essere la media e la varianza, definite come segue: 𝑛 𝑋̅𝑛 1 1 = ⋅ (𝑋1 + 𝑋2 + ⋯ + 𝑋𝑛 ) = ⋅ ∑ 𝑋𝑖 𝑛 𝑛 𝑖=1 𝑛 𝑆𝑛2 1 = ⋅ ∑ (𝑋𝑖 − 𝑋̅𝑛 )2 𝑛−1 𝑖=1 Cosa cambia dalle statistiche campionarie classiche? La principale variazione sta nel significato di quel che è la singola variabile: prima era un valore numerico senza ulteriore significato se preso singolarmente, facente parte di un insieme di dati; ora è una variabile aleatoria, e ciò comporta un’estensione di significato delle statistiche campionarie. Cosa esattamente vuol dire fare la media di un modello, se anche una singola variabile ha il proprio valor medio? Vediamo: Stabiliamo che per ‘i’ compresa tra 1 e n, i valor medi e le varianze di ogni singola Xi siano E(Xi)=μ e Var(Xi)=σ2. Sapendo che ogni Xi è indipendente dalle restanti variabili del modello, cosa vuol dire calcolare quanto segue? 𝑛 𝑛 𝑛 𝑖=1 𝑖=1 𝑖=1 1 1 1 𝑛⋅𝜇 𝐸 (𝑋̅𝑛 ) = 𝐸 ( ⋅ ∑ 𝑋𝑖 ) = ⋅ ∑ 𝐸 (𝑋𝑖 ) = ⋅ ∑𝜇 = = 𝜇 𝑛 𝑛 𝑛 𝑛 Calcolare il valor medio della variabile aleatoria che rappresenta la media delle variabili del dataset, ognuna con un valor medio μ identico all’altra, corrisponde proprio al valore μ. 𝑛 1 𝑉𝑎𝑟 (𝑋̅𝑛 ) = 𝑉𝑎𝑟 ( ⋅ ∑ 𝑋𝑖 ) = 𝑛 𝑖=1 𝑛 1 𝑛 ⋅ 𝜎2 𝜎2 ( ) ⋅ ∑ 𝑉𝑎𝑟 𝑋𝑖 = = 𝑛2 𝑛2 𝑛 𝑖=1 Mentre il valor medio della media non sempre dipende dal numero di elementi del dataset, la varianza invece si, e ciò è importantissimo per la formulazione della legge dei grandi numeri. 9.2 – La legge dei grandi numeri Abbiamo appena dimostrato che la varianza della media tra le variabili aleatorie è uguale alla somma delle varianze delle singole variabili divisa per il numero di variabili del dataset al quadrato (formula in verde). Nel caso che le varianze siano tutte uguali comunque si preserva la dipendenza da ‘n’, ma ciò esattamente che vuole dire? Proviamo a risolvere questo semplice limite per poter rispondere intuitivamente: 𝑛 1 𝑙𝑖𝑚 𝑉𝑎𝑟(𝑋̅𝑛 ) = 𝑙𝑖𝑚 2 ⋅ ∑ 𝑉𝑎𝑟(𝑋𝑖 ) = 𝑛→+∞ 𝑛→+∞ 𝑛 𝑖=1 𝑙𝑖𝑚 𝑛→+∞ 1 ⋅ 𝑆(𝑛) = 0+ 2 𝑛 Eseguire questo limite vuol dire studiare il comportamento della varianza della media del modello, e si osserva che tende a 0 se ho un’ingente quantità di variabili, tendente a infinito, purchè si dimostri che la funzione relativa alla somma S(n) sia una forma polinomiale di grado MAI superiore al primo. L’affermare che più è grande il dataset e più la varianza della media si avvicina allo 0, è una implicazione alla famosissima “Legge dei grandi numeri”, e in parole povere afferma che “più è alto il numero di prove e più la probabilità sperimentale coincide con quella teorica”. In una definizione più formale e rigorosa la legge dei grandi numeri ci informa che per ogni valore piccolo ε>0 il seguente limite fa 1, traducendo quindi l’affermazione ‘in soldoni’ data prima in questo modo “tendendo a infinito il numero di esperimenti aleatori, la media campionaria e il valor medio coincidono in modo indistinguibile (errore minore di ε)”. 𝑙𝑖𝑚 ℙ( |𝑥̅ 𝑛 − 𝜇 | < 𝜀 ) 𝑛→+∞ 9.3 – Teorema del limite centrale Il teorema afferma che qualunque sia la distribuzione delle variabili normali X i, la distribuzione di Zn per 𝑛 → +∞ è ben approssimata da una normale standard, e . per denotare ciò si usa un puntino sulla tilde: 𝑍𝑛 ~ 𝑁 (0,1). Più precisamente: 𝑛→+∞ 𝐹𝑍𝑛 (𝑧) = ℙ(𝑍𝑛 < 𝑧) → 𝛷 (𝑧 ) L’affermazione precedente ci permette di dire che la media delle X i è approssimabile nel seguente modo . 𝑁 (𝜇, 𝜎 ⁄ ) ̅𝑛 ~ X 𝑛 2 mentre la somma delle Xi nel seguente modo . 𝑋1 + 𝑋2 + ⋯ + 𝑋𝑛 = 𝑋̈ ~ 𝑁 (𝑛𝜇, 𝑛𝜎 2 ) 9.4 – Applicazione del teorema sulle variabili binomiali Come già sappiamo, le variabili binomiali non sono altro che un serie di ‘n’ variabili di Bernoulli. Una variabile binomiale possiede sempre una funzione di ripartizione che si può confondere sempre meglio con la normale più ‘n’ tende a infinito. Esaminiamo le variabili per ora: 𝑋𝑖 ~ 𝐵𝑒(𝑝) 𝑋1 + 𝑋2 + ⋯ + 𝑋𝑛 = 𝑋̈ ~ 𝐵𝑖𝑛(𝑛, 𝑝) Ora applichiamo il teorema del limite centrale, assumendo che effettivamente ‘n’ sia alto a sufficienza per provare a confondere una binomiale con una normale. Il teorema ci informa che vale quanto segue, ma solo a 2 condizioni (e si devono verificare entrambe): . 𝑋̈ ~ 𝑁(𝑛𝑝, 𝑛𝑝(1 − 𝑝)) ⇔ { 𝑛⋅𝑝≥5 𝑛 ⋅ (1 − 𝑝) ≥ 5 Il senso di usare 5 come valore di confronto proviene da prove sperimentali che vanno a conferma del fatto che se non si verificano tali condizioni, allora l’approssimazione sarebbe troppo azzardata e l’errore troppo evidente. I due vincoli impongono che se n<10, allora l’approssimazione da variabili binomiali a normali non avviene MAI. Il teorema del limite centrale si può applicare alle Poisson? Dipende, abbiamo già visto come una Poisson possa confondersi con una binomiale a patto che ‘n’ sia molto grande e ‘p’ tenda a 0. Se i valori di ‘n’ e ‘p’ sono tali da soddisfare le due disequazioni sopra citate allora la risposta è sì, altrimenti no. Un esempio convincente può essere una variabile X di Poisson con parametro λ=np dove n=45000 e p=0.001: sebbene il criterio per considerarla 𝑋 ~ 𝑃𝑜(𝜆) sia soddisfatto, il criterio per approssimarla a normale no, in quanto np=4.5 (<5, NON OK) e n(1-p)=44955 (>5, OK). Per visionare la differenza tra un approccio con le variabili binomiali e con le variabili normali vi è un esempio appena sotto. 9.5 – Esempio: differenza tra binomiale e approssim. normale Sia ‘n’ il numero di lanci di una moneta equilibrata uguale a 100. Si calcoli il valore esatto della probabilità che il numero di teste sia tra le 40 e le 70 (estremi compresi). Preso atto del valore difficilmente calcolabile, approssimarlo con il teorema del limite centrale. CALCOLO ESATTO: Siano n=100, p=0.5 e X=”numero di teste in 100 lanci” ~ Bin(n,p) Allora io voglio calcolare esattamente ℙ(40 ≤ 𝑋 ≤ 70). Per definizione delle variabili binomiali, ho che tale valore equivale alla somma delle funzioni di massa da 40 a 70. Quindi: 70 70 70 𝑛=40 𝑛=40 𝑛=40 1 𝑘 1 𝑛−𝑘 100 100 1 ℙ(40 ≤ 𝑋 ≤ 70) = ∑ ℙ(𝑋 = 𝑛) = ∑ ( )⋅( ) ⋅( ) = ∑( )⋅ 𝑛 𝑛 𝑛 2 2 2 Il valore perfetto è questo, ma numericamente difficile da calcolare, quindi si può provare ad approssimarlo con il teorema del limite centrale. CALCOLO APPROSSIMATO: Siano n=100, p=0.5 e X=”numero di teste in 100 lanci” ~ Bin(n,p) Per poter usare l’approssimazione verifico che np=50 > 5 e n(1-p)=50 > 5. Prima di utilizzare la normale dobbiamo attuale la cosiddetta correzione di continuità, ossia “sistemare” il passaggio da variabile discreta a continua, in quanto le prime usano 𝑋 ∈ ℤ, mentre le seconde 𝑋 ∈ ℝ. Se con le binomiali potevamo affermare con totale certezza che ℙ(40 ≤ 𝑋 ≤ 70) = ℙ(39 < 𝑋 < 71), ora dire ciò sarebbe un errore non da poco. Per sistemare il passaggio da discreto a continuo, la correzione di continuità impone (sempre per ragioni dimostrate sperimentalmente) di utilizzare come estremi una via di mezzo. Dunque il calcolo continua così: . 𝑋̈ ~ 𝑁(𝑛𝑝 = 50, 𝑛𝑝(1 − 𝑝) = 25) ℙ(39,5 < 𝑋 < 70,5) ≈ ℙ(39,5 < 𝑋̈ < 70,5) 39,5 − 50 𝑋̈ − 50 70,5 − 50 ) = ℙ(−2,1 < 𝑁(0,1) < 4,1) = ℙ( < < 5 5 5 𝛷(4,1) − 𝛷(−2,1) = 0,982 ≈ 𝑐𝑜𝑟𝑟𝑒𝑡𝑡𝑜 𝑎𝑙 𝑚𝑖𝑙𝑙𝑒𝑠𝑖𝑚𝑜 10.1 – La statistica inferenziale: definizione La statistica inferenziale si discosta notevolmente da quella descrittiva, utilizzata per lo più nel rappresentare graficamente i dati e caratterizzarne alcuni limitati aspetti come gli indici di dispersione, di posizione e di forma. L’obiettivo della statistica inferenziale è quello di capire l’effettiva distribuzione della popolazione partendo dalle informazioni provenienti da un campione casuale estratto. Più precisamente il problema da risolvere è trovare i valori dei parametri incogniti, data una certa distribuzione dei dati. Fare inferenza sui dati vuol dire proprio trovare e selezionare un valore plausibile per il parametro non noto, oppure effettuare dei test su alcuni valori per capire se hanno una coerenza come ipotesi per essere quanto più vicini al parametro. In questa dispensa si effettuerà inferenza statistica solamente su poplazioni normali e popolazioni di Bernoulli. NOTA: con “parametro” non si intende per forza un singolo valore, ma anche un vettore di valori; ad esempio se si parla di una popolazione normale con media e varianza ignota, il parametro è rappresentato dal vettore θ = (μ, σ2). 10.2 – Stima di un parametro θ Come precedentemente detto, l’obiettivo è ricavare un valore per il parametro il più fedele possibile alla realtà, quindi sulla base del campione casuale e della popolazione che lo contraddistingue, dobbiamo effettuare una stima di θ. Siano i dati del campione x1,…,xn relativi a una variabile aleatoria “X” con una funzione di densità del tipo “f(x; θ)”. Come sappiamo la funzione densità è nota nel momento in cui conosciamo la distribuzione, dunque possiamo usare i dati del campione per provare a dare una stima di θ. Ci sono due tipologie di stime che si possono fare sul parametro. • STIMA PUNTUALE: tramite essa si ottiene un singolo valore che prova a stimare al meglio θ. • STIMA INTERVALLARE: tramite essa si ottiene un intervallo L di valori plausibili per θ, e ad ognuno di questi intervalli si associa un livello di confidenza sul fatto che θ appartenga o meno a L. 10.3 – Definizione di campione, di statistica e di stimatore Un campione casuale (o aleatorio) di ampiezza “n” è una collezione di “n” variabili aleatorie indipendenti X1,…,Xn con medesima distribuzione (ossia con uguale funzione di densità f(x; θ) dove θ è incognito). Una statistica “T” è una variabile aleatoria ottenuta come funzione del campione, si può dire che T = T(X1,…,Xn). Ad esempio possono essere statistiche per un campione casuale X1,…,Xn le seguenti variabili aleatorie: 𝑛 1 𝑋̅ = ⋅ ∑ 𝑋𝑖 𝑛 𝑖=1 𝑃 = 𝑚𝑎𝑥 {𝑋1 , … , 𝑋𝑛 } 𝑛 1 𝑆 2 = ⋅ ∑(𝑋𝑖 − 𝑋̅ )2 𝑛 𝑖=1 𝑉= 2𝑋1 − 𝑋4 + 𝑋𝑛−2 5 ⋅ 𝑋̅ Uno stimatore è una qualsiasi statistica “T” che non ha dipendenza dal parametro θ, e viene usata proprio per trovare θ. Ad esempio le statistiche sopra elencate sono tutte considerabili stimatori, in particolare 𝑋̅ viene spesso usato come stimatore del valor medio μ per una distribuzione normale, mentre 𝑆 2 viene usato come stimatore della varianza σ2 sempre per una distribuzione normale. Chiamiamo “𝜃̂” il valore numerico dello stimatore scelto per rappresentare la stima di θ. Riprendendo quanto appena detto, può essere che 𝜃̂ = (𝑋̅ , 𝑆 2 ) . 10.4 – Stima puntuale: stimatori di massima verosimiglianza Sia X1,…,Xn un campione casuale estratto da una popolazione con densità descritta dalla funzione f(x; θ) con θ incognito (la funzione può rappresentare classi discrete o continue). E’ detta stima di massima verosimiglianza 𝜃̂𝑀𝑉 quel valore di θ che rende massima la funzione f(x1,…,xn; θ) dove sono i dati osservati. La funzione appena citata prende il nome di “Likelihood” ed è uguale al prodotto delle funzioni marginali (che sono indipendenti): In realtà la funzione Likelihood non si usa quasi mai, si preferisce utilizzare la LogLikelihood che rende più facile il calcolo delle derivate, non varia massimi, minimi, e crescenza, ed evita dei prodotti tra numeri molto piccoli (questo grazie alle proprietà del logaritmo). 𝐿𝑖𝑘𝑒𝑙𝑖ℎ𝑜𝑜𝑑: 𝑓 (𝑥1 , … , 𝑥𝑛 ; 𝜃 ) = 𝑓 (𝑥1 ; 𝜃 ) ⋅ 𝑓(𝑥2 ; 𝜃 ) ⋯ 𝑓(𝑥𝑛 ; 𝜃 ) 𝐿𝑜𝑔𝐿𝑖𝑘𝑒𝑙𝑖ℎ𝑜𝑜𝑑: ln(𝑓(𝑥1 , … , 𝑥𝑛 ; 𝜃 )) = ln(𝑓(𝑥1 ; 𝜃 )) + ⋯ + ln(𝑓 (𝑥𝑛 ; 𝜃 )) 10.5 – Stimatore di M.V. per il parametro di una Bernoulli Sia X1,…,Xn un campione estratto da una popolazione con densità discreta di Bernoulli, con parametro “q” incognito tra 0 e 1 (estremi non compresi). Se la distribuzione è di Bernoulli so che la funzione densità corrisponde a quanto segue (dove “x” vale 0 o 1 per definizione): 𝑓 (𝑥; 𝑞 ) = 𝑞 𝑥 ⋅ (1 − 𝑞 )1−𝑥 In questo caso la funzione di Likelihood avrà la seguente forma: 𝑓(𝑥1 , … , 𝑥𝑛 ; 𝑞 ) = 𝑓 (𝑥1 ; 𝑞 ) ⋅ 𝑓 (𝑥2 ; 𝑞 ) ⋯ 𝑓(𝑥𝑛 ; 𝑞) 𝑓(𝑥1 , … , 𝑥𝑛 ; 𝑞 ) = [𝑞 𝑥1 ⋅ (1 − 𝑞 )1−𝑥1 ] ⋅ [𝑞 𝑥2 ⋅ (1 − 𝑞 )1−𝑥2 ] ⋯ [𝑞 𝑥𝑛 ⋅ (1 − 𝑞 )1−𝑥𝑛 ] 𝑓(𝑥1 , … , 𝑥𝑛 ; 𝑞 ) = [𝑞 𝑥1 ⋅ 𝑞 𝑥2 ⋯ 𝑞 𝑥𝑛 ] ⋅ [(1 − 𝑞 )1−𝑥1 ⋯ (1 − 𝑞 )1−𝑥𝑛 ] 𝑛 𝑛 𝑓 (𝑥1 , … , 𝑥𝑛 ; 𝑞 ) = 𝑞 ∑𝑖=1 𝑥𝑖 ⋅ (1 − 𝑞 )∑𝑖=1 1−𝑥𝑖 Trasformiamo la Likelihood in LogLikelihood per semplificarci la vita: 𝑛 𝑛 ln(𝑓 (𝑥1 , … , 𝑥𝑛 ; 𝑞 )) = ln (𝑞 ∑𝑖=1 𝑥𝑖 ⋅ (1 − 𝑞)∑𝑖=1 1−𝑥𝑖 ) 𝑛 𝑛 ln(𝑓(𝑥1 , … , 𝑥𝑛 ; 𝑞 )) = ln (𝑞 ∑𝑖=1 𝑥𝑖 ) + ln ((1 − 𝑞 )𝑛−∑𝑖=1 𝑥𝑖 ) 𝑛 𝑛 ln(𝑓 (𝑥1 , … , 𝑥𝑛 ; 𝑞 )) = (∑ 𝑥𝑖 ) ⋅ ln(𝑞 ) + (𝑛 − ∑ 𝑥𝑖 ) ⋅ 𝑙𝑛(1 − 𝑞) 𝑖=1 𝑖=1 Ora deriviamo rispetto al parametro “q” e otteniamo quanto segue. In ottica di trovare il punto di massimo, poniamo la derivata a 0 (punto stazionario): 𝑛 𝑛 𝑖=1 𝑖=1 𝜕 1 1 ln(𝑓 (𝑥1 , … , 𝑥𝑛 ; 𝑞 )) = (∑ 𝑥𝑖 ) ⋅ ( ) + (𝑛 − ∑ 𝑥𝑖 ) ⋅ (− )=0 𝜕𝑞 𝑞 1−𝑞 𝑛 𝑛 𝑖=1 𝑖=1 1 1 (∑ 𝑥𝑖 ) ⋅ ( ) = (𝑛 − ∑ 𝑥𝑖 ) ⋅ ( ) 𝑞 1−𝑞 1 − 𝑞 𝑛 − ∑𝑛𝑖=1 𝑥𝑖 = ∑𝑛𝑖=1 𝑥𝑖 𝑞 1 𝑛 = 𝑛 ∑𝑖=1 𝑥𝑖 𝑞 1 𝑛 −1= 𝑛 −1 ∑𝑖=1 𝑥𝑖 𝑞 𝑛 1 𝑞 = ⋅ ∑ 𝑥𝑖 𝑛 𝑖=1 Dunque abbiamo trovato che 1 𝑛 ⋅ ∑𝑛𝑖=1 𝑥𝑖 rappresenta un punto di massimo per la funzione di LogLikelihood siccome essa è sempre convessa. Possiamo concludere che lo stimatore θMV di massima verosimiglianza per il parametro “q” di una distribuzione di Bernoulli è: 𝑛 𝜃̂𝑀𝑉 1 = 𝑞̂ = ⋅ ∑ 𝑥𝑖 (𝑐𝑎𝑙𝑐𝑜𝑙𝑜 𝑠𝑢𝑖 𝑑𝑎𝑡𝑖, 𝑛𝑜𝑛 𝑎𝑙𝑒𝑎𝑡𝑜𝑟𝑖𝑜) 𝑛 𝑖=1 𝑛 𝜃𝑀𝑉 1 = ⋅ ∑ 𝑋𝑖 = 𝑋̅ (𝑠𝑡𝑖𝑚𝑎𝑡𝑜𝑟𝑒 𝑣𝑒𝑟𝑜, 𝑎𝑙𝑒𝑎𝑡𝑜𝑟𝑖𝑜) 𝑛 𝑖=1 ESEMPIO: Osserviamo il seguente campione di dati di ampiezza 9, generati da una distribuzione Be(0.25): 1 0 0 0 0 0 1 0 0. Si ricavi la stima di massima verosimiglianza del parametro “q”, supponendo di non sapere che “q” sia 0.25. 𝑛 𝜃̂𝑀𝑉 1 1 2 = 𝑞̂ = ⋅ ∑ 𝑥𝑖 = ⋅ (1 + 0 + 0 + 0 + 0 + 0 + 1 + 0 + 0) = = 0,22.. 𝑛 9 9 𝑖=1 Dai dati ho che 𝜃̂𝑀𝑉 = 𝑞̂ ≈ 0,22, mentre sono stati generati da un parametro leggermente più alto, infatti 𝜃𝑀𝑉 = 𝑞 = 0.25 (errore di pochi centesimi). 10.6 – Stimatore di M.V. per il parametro di una normale Sia X1,…,Xn un campione casuale estratto da una popolazione normale con media 𝜇 ∈ ℝ e varianza 𝜎 2 ∈ ℝ+ entrambe ignote. Con un procedimento del tutto simile a quello fatto nel paragrafo precedente si possono trovare gli stimatori di massima verosimiglianza anche per il parametro θ di una distribuzione normale: 𝜃̂𝑀𝑉 = (𝜇̂ 𝑀𝑉 , 𝜎̂ 2 𝑀𝑉 ) 𝜃 = (𝑋̅ , 𝑆 2 ) 𝑛 𝑑𝑜𝑣𝑒 𝜇̂ 𝑀𝑉 1 = ⋅ ∑ 𝑥𝑖 𝑛 𝑖=1 𝑛 𝑑𝑜𝑣𝑒 1 𝑋̅ = ⋅ ∑ 𝑋𝑖 𝑛 𝑖=1 𝑛 𝜎̂ 2 𝑀𝑉 1 = ⋅ ∑(𝑥𝑖 − 𝜇̂ 𝑀𝑉 )2 𝑛 𝑖=1 𝑛 1 𝑆 2 = ⋅ ∑(𝑋𝑖 − 𝑋̅ )2 𝑛 𝑖=1 ATTENZIONE: per lo stimatore si usa ‘n’ a denominatore, non ‘n-1’! 10.7 – Attendibilità di uno stimatore: il bias Preso uno stimatore “T”, come possiamo valutarne la “bontà”? Cioè quanto sono lontano dal vero parametro? Per verificare ciò devo capire quanto dista lo stimatore da quel valore reale a cui tanto ambiamo. Per svolgere questo lavoro ci viene incontro il concetto di “bias” per uno stimatore “T”, che è definito come segue: 𝑏 ( 𝑇 ) = 𝐸 (𝑇 ) − 𝜃 Più il bias è piccolo, più lo stimatore “T” è considerabile verosimilmente corretto. Se il bias risulta essere 0, allora non ci sono dubbi che sia quello corretto. ESEMPIO: Sia X1,…,Xn un campione casuale estratto da una popolazione normale con media μ. Verificare che 𝑇 = 𝑋̅ è uno stimatore corretto per il parametro μ. 𝑛 1 1 𝑏(𝑇) = 𝑏 (𝑋̅ ) = 𝐸 (𝑋̅ ) − 𝜇 = ⋅ ∑ 𝐸 (𝑋𝑖 ) − 𝜇 = ⋅ 𝑛 ⋅ 𝜇 − 𝜇 = 𝜇 − 𝜇 = 0 𝑛 𝑛 𝑖=1 Il bias viene esattamente 0, quindi 𝑋̅ è uno stimatore corretto per il parametro μ appartenente al parametro generico θ della distribuzione normale. 10.8 – Attendibilità di uno stimatore: il MSE Insieme al bias, si può definire anche il cosiddetto “errore quadratico medio”. Sia T = T(X1,..,Xn) uno stimatore del parametro θ. Allora posso definire la gradezza chiamata MSE (Median Square Error) relativa a “T” in questo modo: 𝑀𝑆𝐸 (𝑇) = 𝐸 [(𝑇 − 𝜃 )2 ] La formula si può sviluppare, per far si che diventi in funzione del bias: 𝑀𝑆𝐸 (𝑇) = 𝐸 [(𝑇 − 𝜃 )2 ] = 𝐸 (𝑇 2 ) − 2𝜃𝐸 (𝑇) + 𝜃 2 𝑀𝑆𝐸 (𝑇) = 𝐸 (𝑇 2 ) − 𝐸 (𝑇)2 + 𝐸 (𝑇)2 − 2𝜃𝐸 (𝑇) + 𝜃 2 𝑀𝑆𝐸 (𝑇) = 𝑉𝑎𝑟(𝑇) + (𝐸 (𝑇) − 𝜃)2 = 𝑉𝑎𝑟(𝑇) + 𝑏(𝑇)2 La varianza misura la dispersione dello stimatore, il bias l’accuratezza invece. Un buon stimatore deve tenere anche conto della sua stessa varianza, infatti più esso è efficiente e più l’errore quadratico medio di “T” tenderà alla varianza di “T”. In tal caso, uno stimatore T1 può avere bias nullo ma risultare più distorto di uno stimatore T2 con bias non nullo ma varianza molto bassa Lo stimatore corretto, quello di massima verosimiglianza, avrà MSE(T) = Var(T). Lo scopo per la ricerca di una stima puntuale di un parametro sta proprio nel minimizzare il più possibile l’errore quadratico medio, dunque anche la varianza. ESEMPIO: Esercizio e correzione della scheda “set 7” dal moodle 2022/23 Sia X1,…,Xn un campione casuale di ampiezza n=10, estratto da una popolazione con media ignota ‘m’ e varianza ‘v’ uguale a 5, e siano i seguenti stimatori 𝑇1 = 𝑋1 + 𝑋3 + 𝑋5 3 𝑇2 = 𝑋1 + 2𝑋5 + 𝑋10 4 Quale stimatore è meno distorto? Quale di più? 𝑇3 = 𝑋2 + 2𝑋4 + 3𝑋6 + 2𝑋8 + 𝑋10 5 11.1 – Stima intervallare di un parametro θ Il problema principale della stima puntuale di un parametro θ è il fatto che non ci si può aspettare che sia il valore reale. Pertanto rispetto a un singolo valore per rappresentare θ, si preferisce trovare un intervallo di valori al quale si associa un certo livello di “fiducia” che la nostra stima prodotta sui dati vi appartenga. Sia X1,…,Xn un campione casuale estratto da una popolazione con data distribuzione, dalla quale vogliamo stimare un parametro. Siano i seguenti due valori delle statistiche non dipendenti da θ: L1=L1(X1,…,Xn) e L2=L2(X1,…,Xn) . L’intervallo aleatorio L=(L1, L2) tale per cui si ha ℙ(𝜃 ∈ 𝐿) = ℙ(𝐿1 < 𝜃 < 𝐿2 ) = 1 − 𝛼 è detto stimatore intervallare del parametro θ, dove “1-α“ è una quantità sempre compresa tra 0 e 1 che prende il nome di “livello di confidenza” che rappresenta la probabilità che il parametro sia effettivamente appartenente allo stimatore intervallare. Il calcolo dello stimatore intervallare sui dati osservati prende il nome di “intervallo di confidenza al (1-α)%” per θ dove 𝐿̂1 = 𝐿̂1 (𝑥1 , . . , 𝑥𝑛 ) e 𝐿̂2 = 𝐿̂2 (𝑥1, . , 𝑥𝑛 ). 11.2 – Differenza tra stimatore intervallare e int. di confidenza La sostanziale differenza è che lo stimatore intervallare è un intervallo aleatorio, ossia un intervallo che ha come estremi due statistiche, che hanno natura aleatoria; mentre l’intervallo di confidenza è una realizzazione numerica dello stimatore intervallare, infatti è ricavato dai dati osservati. Sostanzialmente L 1 e L2 in quanto aleatori possono essere diversi valori, tra i quali vi sono 𝐿̂1 e 𝐿̂2, calcolati dai dati effettivamente osservati, dunque quelli a nostra disposizione per poter fare inferenza. In breve funziona come segue. • Sia X1,…,Xn un campione casuale estratto da una popolazione con data distribuzione, da esso posso ricavarmi L1 e L2 per formare un intervallo aleatorio che fa da stima intervallare, in modo tale che: ℙ(𝐿1 < 𝜃 < 𝐿2 ) = 1 − 𝛼. Per costruire lo stimatore intervallare è fondamentale conoscere la distribuzione per L1 e L2. • Sia x1,…,xn il campione di dati effettivamente osservato (dunque privo di aletorietà): da esso posso ricavarmi 𝐿̂1 e 𝐿̂2 , che ora rappresentano due statistiche campionarie precise, utili per trovare il livello di confidenza “1-α“. 11.3 – Distribuzioni delle statistiche Sia X1,…,Xn un campione casuale estratto da una popolazione distribuzione normale con media μ e varianza σ2. Interessiamoci in particolare a due statistiche, ossia 𝑋̅ e 𝑆 2 . Si dimostra che: • la quantità • la quantità 𝑋̅−𝜇 √𝑆 2⁄𝑛 segue una distribuzione 𝑡𝑛−1 (funzione “t” di student); (𝑛−1)⋅𝑆 2 𝜎2 2 segue una distribuzione 𝜒𝑛−1 (funzione chi-quadro). Quel pedice “n-1” sotto ad ogni funzione rappresenta i gradi di libertà, ossia un parametro indispensabile per creare la funzione stessa. Per il resto, sulle due funzioni non ci sono particolari informazioni da sapere, se non queste: Funzione 𝑡𝑛−1 di Student (CLICK) E’ una funzione pari, essendo più precisi è simmetrica per x=0, ed ha una forma a campana simile ad una Gaussiana con le code “più” pesanti. 2 Funzione 𝜒𝑛−1 chi-quadro (CLICK) E’ una funzione che ha come dominio solo valori positivi, non presenta simmetrie di alcun tipo e ha una forma a campana un po’ distorta. Entrambe le distribuzioni hanno la propria tabella delle funzioni di ripartizione. 11.4 – Intervalli di confidenza per la media di una popolazione normale: varianza nota Sia X1,…,Xn un campione casuale estratto da una popolazione distribuzione normale con media μ parametro da trovare e varianza σ2 nota. Stabiliamo un livello di confidenza “1-α“ verosimile, in base al quale varierà l’intervallo ottenuto. Introduciamo una grandezza “zα” che rappresenta l’area sottostante a una funzione normale standard che parte da x=α e va fino a +infinito. Di conseguenza possiamo definire “α” come la probabilità che una certa quantità “Z” sia maggiore di “zα”: ℙ(𝑍 > 𝑧𝛼 ) = 𝛼. Vale anche ℙ(𝑍 < 𝑧𝛼 ) = 1 − 𝛼. Appurato ciò sappiamo che il nostro parametro “Z” è in un intervallo di confidenza al (1- α)% di probabilità, dunque vale: ℙ (−𝑧𝛼⁄2 < 𝑍 < 𝑧𝛼⁄2 ) = 1 − 𝛼. Sappiamo anche che “Z” si distribuisce secondo una normale standard, quindi possiamo dire ciò che segue, siccome la quantità sostituita a “Z” ha ancora distribuzione da normale standard: 𝑋̅ − 𝜇 1 − 𝛼 = ℙ −𝑧𝛼⁄2 < √ ( 𝜎2 < 𝑧𝛼⁄2 ⁄𝑛 ) Ora proseguo isolando il parametro da stimare, ossia μ: 1 − 𝛼 = ℙ (𝑋̅ − 𝑧𝛼⁄2 ⋅ 𝜎 √𝑛 < 𝜇 < 𝑋̅ + 𝑧𝛼⁄2 ⋅ 𝜎 √𝑛 ) Dunque, avendo x1,…xn come dati osservati, posso concludere che il mio intervallo di confidenza bilaterale lo posso costruire come segue: 𝐿̂ = (𝐿̂1 , 𝐿̂2 ) = (𝑥̅ − 𝑧𝛼⁄2 ⋅ 𝜎 √𝑛 , 𝑥̅ + 𝑧𝛼⁄2 ⋅ 𝜎 √𝑛 ) Mentre con un procedimento analogo a quanto visto fin qui possiamo ricavarci anche gli intervalli di confidenza unilaterali destri e sinistri: 𝐿̂𝐿 = (−∞, 𝑥̅ + 𝑧𝛼 ⋅ 𝜎 √𝑛 ) 𝐿̂𝑅 = (𝑥̅ − 𝑧𝛼 ⋅ 𝜎 √𝑛 , + ∞) ESEMPIO: Ci sono 5 persone e si registrano i seguenti tempi per l’esecuzione di un esercizio: 345s, 389s, 363s, 417s, e 476s. Si supponga che il tempo di esecuzione segua una distribuzione normale con varianza 50 2. Si costruisca l’intervallo di confidenza bilaterale del parametro della media, al 95% di livello di confidenza. La soluzione è trovare 𝐿̂, quindi bisogna trovare 𝐿̂1 = 𝑥̅ − 𝑧𝛼⁄2 𝜎 √𝑛 e 𝐿̂2 = 𝑥̅ + 𝑧𝛼⁄2 Per farlo bisogna trovare 𝛼, 𝜎, 𝑥̅ e √𝑛. Tre dei 4 valori li sappiamo già: • 1 − 𝛼 = 0.95 ⇒ • 𝜎 = √502 = 50; • √𝑛 = √5. 𝛼 = 0,05; 𝜎 . √𝑛 Il quarto valore invece richiede un calcolo in più: 𝑥̅ = 345 + 389 + 363 + 417 + 476 5 = 398. Sapendo “α”, possiamo ricavarci “zα/2” tramite la tabella della funzione di ripartizione per una normale standard, ricordando che “z α/2” rappresenta l’area sottesa alla Gaussiana tra “α” e +infinito: 𝛷 (𝑧𝛼⁄2 ) = 𝛷(𝑧0,025 ) = 1 − 𝛼⁄2 = 1 − 0,025 = 0,975 Cerco 0,975 nella tabella della funzione di ripartizione, e vedo che corrisponde a 1,96; dunque zα/2 = z0,025 = 1,96. Ora ho tutti i dati per comporre l’intervallo: 𝐿̂1 = 398 − 1,96 ⋅ 50 √5 = 354,17 𝐿̂2 = 398 + 1,96 ⋅ 50 √5 = 441,83 11.5 – Intervalli di confidenza per la media di una popolazione normale: varianza ignota Sia X1,…,Xn un campione casuale estratto da una popolazione distribuzione normale con media μ e varianza σ2 parametri da trovare. Stabiliamo un livello di confidenza “1-α“ verosimile, in base al quale varierà l’intervallo ottenuto. In maniera del tutto analoga al paragrafo precedente, imponiamo la seguente equazione, giustificata dal fatto che la quantità in azzurro è una statistica che si distribuisce seguendo la funzione “t” di Student a n-1 gradi di libertà: 1 − 𝛼 = ℙ (−𝑡𝛼⁄2 < 𝑋̅ − 𝜇 𝑆 𝑆 < 𝑡𝛼⁄2 ) = . .. = ℙ (𝑋̅ − 𝑡𝛼⁄2 ⋅ < 𝜇 < 𝑋̅ + 𝑡𝛼⁄2 ) 𝑆⁄ √𝑛 √𝑛 √𝑛 Dunque, avendo x1,…xn come dati osservati, posso concludere che il mio intervallo di confidenza bilaterale lo posso costruire come segue: 𝐿̂ = (𝐿̂1 , 𝐿̂2 ) = (𝑥̅ − 𝑡𝛼⁄2 ⋅ 𝑆 √𝑛 , 𝑥̅ + 𝑡𝛼⁄2 ⋅ 𝑆 √𝑛 ) Mentre gli intervalli di confidenza unilaterali destri e sinistri sono: 𝐿̂𝐿 = (−∞, 𝑥̅ + 𝑡𝛼 ⋅ 𝑆 √𝑛 ) 𝐿̂𝑅 = (𝑥̅ − 𝑡𝛼 ⋅ 𝑆 √𝑛 , + ∞) Ricorda che “S” è la deviazione standard campionaria, calcolata su x 1,…,xn. ESEMPIO: Vengono esaminate 5 sigarette, ottenendo i seguenti quantitativi di catrame: 11,1mg, 10,5mg, 11,4mg 10,7mg e 11,4mg. Si determini l’intervallo di confidenza unilaterale destro della media della popolazione con livello di confidenza al 99%, assumendo la distribuzione sia normale. La soluzione è trovare 𝐿̂𝑅 , quindi bisogna trovare 𝑥̅ − 𝑡𝛼 ⋅ 𝑆 . √𝑛 Per farlo bisogna trovare 𝛼, 𝑆, 𝑥̅ e √𝑛. Due dei 4 valori li sappiamo già: • 1 − 𝛼 = 0.99 • √𝑛 = √5. ⇒ 𝛼 = 0,01; La media campionaria è la seguente: 𝑥̅ = 11,1 + 10,5 + 11,4 + 10,7 + 11,4 5 = 11,02. 1 La deviazione standard campionaria è la seguente: 𝑆 = √ ⋅ ∑5𝑖=1(𝑥𝑖 − 𝑥̅ )2 = 0,41. 4 Sapendo “α”, possiamo ricavarci “tα,n-1” (dove n-1 è 4) tramite la tabella della funzione di ripartizione per una funzione “t” di Student, ricordando che “t α,n-1” rappresenta l’area sottesa al grafico tra “α” e +infinito: 𝛷̇ (𝑡𝛼,𝑛−1 ) = 𝛷̇ (𝑡0.01,4 ) = 1 − 𝛼 = 1 − 0,01 = 0,99 (passaggio superfluo) Noto dalla tabella che il valore che corrisponde è 3,74; dunque tα = t0,01 = 3,74. Ora ho tutti i dati per comporre l’intervallo: 𝐿̂𝑅 = (11,02 − 3,74 ⋅ 0,41 √5 , + ∞) = (10,33 , + ∞) 11.6 – Intervalli di confidenza per la varianza di una popolazione normale: media ignota Sia X1,…,Xn un campione casuale estratto da una popolazione distribuzione normale con media μ e varianza σ2 parametri da trovare. Stabiliamo un livello di confidenza “1-α“ verosimile, in base al quale varierà l’intervallo ottenuto. Con la solita metodologia, imponiamo la seguente equazione, giustificata dal fatto che la quantità in verde è una statistica che si distribuisce seguendo la funzione “chi-quadro” a n-1 gradi di libertà: 1−𝛼 = 2 ℙ (𝜒1− 𝛼⁄ 2 (𝑛 − 1) ⋅ 𝑆 2 (𝑛 − 1) ⋅ 𝑆 2 (𝑛 − 1) ⋅ 𝑆 2 2 2 ) < < 𝜒𝛼⁄ ) = . .. = ℙ ( <𝜎 < 2 2 𝜎2 𝜒𝛼2⁄ 𝜒1− 𝛼⁄ 2 2 Le principali differenze con i primi metodi saltano fuori, e sono le seguenti due: • siccome ora il parametro di cui ci interessa trovare una stima intervallare è la varianza, non isoliamo più “ μ” (che tra l’altro non compare minimamente) ma isoliamo ovviamente “σ2”; • non avendo più una distribuzione che segue una funzione simmetrica, che peraltro è definita solo per i reali positivi, nel valore a sinistra non potrà mai comparire un valore negativo; ciò è coerente al fatto che la varianza da trovare è positiva per definizione, ed è giustificata dal fatto che nel pedice di “𝜒” ci sta “1-α/2”. Dunque, avendo x1,…xn come dati osservati, posso concludere che il mio intervallo di confidenza bilaterale lo posso costruire come segue: (𝑛 − 1) ⋅ 𝑆2 (𝑛 − 1) ⋅ 𝑆2 𝐿̂ = (𝐿̂1 , 𝐿̂2 ) = ( , ) 𝜒2𝛼⁄ 𝜒21−𝛼⁄ 2 2 Mentre gli intervalli di confidenza unilaterali destri e sinistri sono: 𝐿̂𝐿 = (0, (𝑛 − 1) ⋅ 𝑆2 ) 𝜒21−𝛼 𝐿̂𝑅 = ( (𝑛 − 1) ⋅ 𝑆2 , + ∞) 𝜒2𝛼 ESEMPIO: Viene osservato l’errore mensile di 20 orologi, e si trova che la varianza campionaria dei dati trovati è S2=0,14. Si determini l’intervallo di confidenza bilaterale con livello di confidenza al 95%. La soluzione è trovare 𝐿̂, quindi bisogna trovare 𝐿̂1 = (𝑛−1)⋅𝑆2 𝜒2𝛼 ⁄2 e 𝐿̂2 = (𝑛−1)⋅𝑆2 𝜒21−𝛼 ⁄2 Per farlo bisogna trovare 𝛼, 𝑆 2 , e 𝑛 − 1. Tutti e tre i valori li sappiamo già: • 1 − 𝛼 = 0,95 ⇒ 𝛼 = 0,05; • 𝑛 − 1 = 20 − 1 = 19; • 𝑆 2 = 0,14. . Sapendo “α”, possiamo ricavarci “𝜒𝛼2⁄ 2,𝑛−1 2 ” e “𝜒1− 𝛼⁄ 2,𝑛−1 ” (dove n-1 è 19) tramite la tabella della funzione di ripartizione per una funzione “chi-quadro”, ricordando 2 che “𝜒𝛼,𝑛−1 ” rappresenta l’area sottesa al grafico tra “α” e +infinito: ̃ (𝜒𝛼2 𝛷 ⁄ ) 2,𝑛−1 2 ̃ (𝜒1− 𝛷 𝛼⁄ ) 2,𝑛−1 2 ̃ (𝜒0.025,19 =𝛷 ) = 1 − 𝛼⁄2 = 1 − 0,025 = 0,975 2 ̃ (𝜒0,975,19 =𝛷 ) = 𝛼⁄2 = 0,025 (𝑝𝑎𝑠𝑠𝑎𝑔𝑔𝑖 𝑠𝑢𝑝𝑒𝑟𝑓𝑙𝑢𝑖) Noto dalla tabella che per 19 gradi di libertà, posso ricavarmi i seguenti valori: 2 2 2 𝜒𝛼2⁄ ,𝑛−1 = 𝜒0,025,19 = 32,85 e 𝜒1− 𝛼⁄ ,𝑛−1 = 𝜒0,975,19 = 8,91. Ora ho tutti i dati per 2 comporre l’intervallo: 𝐿̂1 = 2 19 ⋅ 0,14 = 0,081 32,85 𝐿̂2 = 19 ⋅ 0,14 = 0,298 8,91 11.7 – Intervalli di confidenza per la media di una popolazione di Bernoulli Ora consideriamo una popolazione di oggetti, ognuno dei quali possiede un certo parametro “q” che rappresenta la probabilità che quel dato oggetto compaia nella popolazione. Quanto descritto non è nuovo, è una semplice variabile di Bernoulli. Sappiamo anche che una popolazione di “n” variabili di Bernoulli rappresenta una variabile binomiale, e che se vale “nq>5” e “n(1-q)>5” allora tale variabile binomiale può essere fedelmente rappresentata da una normale di media “nq” e varianza “n(1-q)q”. Premesse fatte, posso presto intendere che “Q=X/n” (dove X è una una quantità aleatoria che rappresenta il numero di esiti positivi della popolazione) è uno stimatore di massima verosimiglianza di “q”. Dunque, avendo x1,…xn come dati osservati e utilizzando il teorema del limite centrale si può dimostrare (ma non lo facciamo) che l’intervallo di confidenza bilaterale al (1-α)% livello di confidenza è il seguente: 𝐿̂ = (𝐿̂1 , 𝐿̂2 ) = (𝑞̂ − 𝑧𝛼⁄2 ⋅ √ 𝑞̂ ⋅ (1 − 𝑞̂ ) 𝑞̂ ⋅ (1 − 𝑞̂ ) ) , 𝑞̂ + 𝑧𝛼⁄2 ⋅ √ 𝑛 𝑛 Mentre con un procedimento analogo a quanto visto fin qui possiamo ricavarci anche gli intervalli di confidenza unilaterali destri e sinistri: 𝐿̂𝐿 = (−∞, 𝑞̂ + 𝑧𝛼 ⋅ √ 𝑞̂ ⋅ (1 − 𝑞̂ ) ) 𝑛 𝐿̂𝑅 = (𝑞̂ − 𝑧𝛼 ⋅ √ 𝑞̂ ⋅ (1 − 𝑞̂ ) , + ∞) 𝑛 dove “𝑞̂” è il numero di esiti positivi del set di dati a nostra disposizione diviso “n”. ESEMPIO: Viene estratto e testato un campione di 100 transistor da una grande fornitura. Si trova che 80 pezzi sono adeguati. Stabilire un intervallo di confidenza al 95% per il parametro “q” che definisce la % di transistor accettabili in tutta la fornitura. 𝑞̂⋅(1−𝑞̂) 𝑞̂⋅(1−𝑞̂) La soluzione è trovare 𝐿̂1 = 𝑞̂ − 𝑧𝛼⁄2 ⋅ √ e 𝐿̂2 = 𝑞̂ + 𝑧𝛼⁄2 ⋅ √ . 𝑛 𝑛 Per farlo bisogna trovare 𝛼 e 𝑞̂. Tutti e due i valori li sappiamo già: • 1 − 𝛼 = 0,95 ⇒ 𝛼 = 0,05; • 𝑞̂ = 80/100 = 0,8. Sapendo “α”, possiamo ricavarci “zα/2” tramite la tabella della funzione di ripartizione per una normale standard, ricordando che “z α/2” rappresenta l’area sottesa alla Gaussiana tra “α” e +infinito: 𝛷 (𝑧𝛼⁄2 ) = 𝛷(𝑧0,025 ) = 1 − 𝛼⁄2 = 1 − 0,025 = 0,975 Cerco 0,975 nella tabella della funzione di ripartizione, e vedo che corrisponde a 1,96; dunque zα/2 = z0,025 = 1,96. Ora ho tutti i dati per comporre l’intervallo: 𝐿̂1 = 0,8 − 1,96√ 0,8 ⋅ 0,2 = 0,7216 100 𝐿̂2 = 0,8 + 1,96 √ 0,8 ⋅ 0,2 = 0,8784 100 11.8 – Schema riassuntivo per la stima intervallare di un parametro Il seguente schema riassume come poter iniziare calcolare una stima intervallare a partire da un set di dati prestabilito e dalla distribuzione di essi. 12.1 – Verifica delle ipotesi Si stabilisca sempre un campione casuale X1,…,Xn estratto da una popolazione distribuzione nota, caratterizzata dal solito parametro θ. Come nel precedente paragrafo abbiamo imparato a fare stime intervallari del parametro, ora vogliamo verificare un’ipotesi che lo riguarda, sempre sulla base dei dati osservati x1,…,xn. Una ipotesi statistica non è altro che una affermazione sul parametro θ, come possono essere le seguenti 3 (dove θ0 è un valore di confronto) : 𝜃 = 𝜃0 𝜃 ≥ 𝜃0 𝜃 ≤ 𝜃0 La prima delle 3 ipotesi precedenti è detta ipotesi semplice, mentre le altre due sono dette ipotesi composte, ossia che non specificano un singolo valore per θ. 12.2 – Test di una ipotesi Si definisce test di una ipotesi quella procedura che consiste nella verifica di una ipotesi statistica. Effettuare un test vuol dire avere due due risultati, dove uno esclude l’altro: per il primo risultato mettiamo a confronto un’ipotesi che rappresenta la nostra convinzione (ossia quel valore di θ che noi confidiamo possa essere verosimile alla realtà), mentre per il secondo risultato mettiamo a confronto l’ipotesi contrapposta. Il test viene fatto proprio per verifica, dunque ha senso effettuarlo solo se ci si può aspettare che secondo i dati osservati, ci possa essere una smentita della convinzione di partenza. Più precisamente la struttura di un test d’ipotesi funziona così. • H0 : questa è l’ipotesi sottoposta per prima al test, rappresenta la nostra convinzione di partenza, ed è chiamata ipotesi nulla. • H1 : questa è l’ipotesi contrapposta alla nostra convinzione, dunque rappresenta tutto quello che H0 non include dentro di sé, ed è chiamata ipotesi alternativa. Se ad esempio in un test la mia convinzione è che il parametro θ è maggiore o uguale di 0.4, allora avrò che H0 = {θ ≥ 0.4}, mentre di conseguenza H1 = {θ < 0.4}. L’obiettivo del test ora è confermare che la mia ipotesi convinzione H0 sia compatibile con i dati osservati. 12.3 – Criterio di accettazione di un test di ipotesi L’obiettivo è decidere se accettare o meno H 0, basandoci sui dati osservati x1,…,xn, dunque si crea una certa regione critica “C”. Sostanzialmente: • accetto H0 se lo stimatore non è presente nella regione critica “C”; • rifiuto H0 se lo stimatore è presente nella regione critica “C”. In linea di massima, “C” contiene quei valori del parametro molto distanti dalla possibile realtà dei fatti presunta dall’ipotesi nulla H 0. Accettare un’ipotesi piuttosto che un’altra può portare a 2 tipi di errore nel test: • il rifiuto dell’ipotesi nulla quando in realtà è vera (errore di I specie); • non rifiutare l’ipotesi nulla quando andrebbe fatto (errore di II specie). Tendenzialmente H0 non si rifiuta con così tanta facilità, in quanto l’obiettivo di un test non è dare un giudizio rigoroso sull’ipotesi, ma verificare solamente una possibile compatibilità con i dati osservati. L’ipotesi nulla va rifiutata solo se in aperta contraddizione con i dati, per poter invece accettare H 1. 12.4 – Livello (o soglia) di significatività del test Per imporre un criterio numerico che funga da “soglia di accettazione” dell’ipotesi, possiamo stabilire una certa quantità α che rappresenta la probabilità massima di commettere un errore di prima specie, valore oltre il quale non si può eccedere. Possiamo chiamare α livello di significatività del test: ℙ𝐻0 (𝑆𝑇 ∈ 𝐶 ) ≤ 𝛼 dove “ST” è lo stimatore accennato in precedenza, e “ℙ𝐻0 ” indica la probabilità che H0 sia vero e che venga rifiutato in quanto si suppone che “ST” sia in “C”. 12.5 – Il P-VALUE dei dati Nel paragrafo precedente siam partiti dal livello di significatività del test per costruirci la regione critica, ma questo procedimento può esser fatto a ritroso, ossia potremmo chiederci per quale soglia α corrisponderebbe una regione critica “C” la cui frontiera (ossia valore limite tra acettabile e non) risulta essere proprio lo stimatore “ST”, ma valutato sui dati. Questo valore perde il nome di livello di significatività e assume il nome di P-VALUE dei dati, definito così: 𝑃 − 𝑉𝐴𝐿𝑈𝐸 = 𝑠𝑢𝑝 { 𝛼: 𝑆𝑇 ∉ 𝐶 } = 𝑖𝑛𝑓 { 𝛼: 𝑆𝑇 ∈ 𝐶 } che definisce il livello di significatività critico, sotto il quale cambia la decisione presa sull’ipotesi nulla, passando da rifiuto ad accettazione. Dato un test, H0 verrà rifiutato per tutti i livelli di significatività α maggiori del PVALUE, mentre verrà accettato per tutti i livelli di significatività minori o uguali. Nella pratica si calcola sui dati il P-VALUE, e se risulta essere maggiore a quanto siamo disposti ad accettare come errore, conviene accettare, altrimenti no. 12.6 – Test per la media di una popolazione normale: varianza nota Sia X1,…,Xn un campione casuale estratto da una popolazione con distribuzione normale con media incognita μ e varianza nota σ2. Allora posso effettuare sulla media un test chiamato “test-Z” preso μ0 come valore di confronto: Ipotesi H0 Ipotesi H1 𝜇 = 𝜇0 𝜇 ≠ 𝜇0 𝜇 ≤ 𝜇0 𝜇 > 𝜇0 𝜇 ≥ 𝜇0 𝜇 < 𝜇0 Statistica test ST 𝑋̅ − 𝜇0 ~ 𝑁 (0,1) 𝜎 ⁄ 𝑛 √ Rifiuto H0 a livello α se |𝑠𝑡 | > 𝑧𝛼⁄ 2 𝑠𝑡 > 𝑧𝛼 𝑠𝑡 < −𝑧𝛼 ESEMPIO: Delle batterie hanno una durata nominale di 22 ore, e si sa che la deviazione standard σ = 3,5 ore. Prendendo un campione di 20 batterie si è trovata una durata media di 20,7 ore. Supponendo che la durata delle batterie segua un andamento normale, a livello di significatività 5% si può confermare che la durata media delle batterie sia inferiore a quanto dichiarato? Per rispondere alla domanda è opportuno effettuare un test sulla media, dove prendo per ipotesi nulla H0: μ = 22, e per ipotesi alternativa H1: μ < 22. Ora bisogna costruire la statistica test sulla base dei dati osservati, dunque bisogna trovare 𝑥̅ , 𝑛, 𝜇0 e 𝜎, dove tutti e 4 i valori sono già noti: • • • • 𝑥̅ = 20,7; 𝑛 = 20; 𝜇0 = 22; 𝜎 = 3,5. Costruiamo la statistica test: 𝑠𝑡 = 20,7−22 . 3,5 ⁄ 20 √ Ora visioniamo la tabella, siamo nel caso di voler verificare un’ipotesi nulla del tipo μ=μ0 con controparte un’ipotesi alternativa del tipo μ<μ0, dunque per rifiutare H0 a livello di significatività 0,05 deve accadere: 𝑠𝑡 < −𝑧𝛼 ⇔ −1,661 < −𝑧0,05 dove ricordiamo che 𝛷(𝑧𝛼 ) = 1 − 𝛼. Tramite la tabella della funzione di ripartizione per una normale standard trovo che z 0,05=1,645. Quindi accade: −1,661 < −1,645 ⇔ 𝑉𝐸𝑅𝑂! Ciò vuol dire che la statistica test è nella regione critica “C”, dunque per un livello di significatività al 5% devo rifiutare la mia ipotesi sulla media di 22 ore. RISOLUZIONE ALTERNATIVA (con il P-VALUE): Per prima cosa si calcola il P-VALUE sui dati, ossia quel valore 𝛼̂ del livello di significatività per cui vale 𝑠𝑡 = −𝑧𝛼 , questo perché −𝑧𝛼 rappresenta il valore di “confine” della zona critica “C” tra accettazione e rifiuto per la verifica di un’ipotesi nulla del tipo μ=μ0 con controparte un’ipotesi alternativa del tipo μ<μ0. La statistica test è già stata calcolata e vale “st=-1,661”, posso trovare 𝛼̂ : 𝛷 (𝑧𝛼̂ ) = 1 − 𝛼̂ ⇔ 𝛷(1,661) = 1 − 𝛼̂ ⇔ 𝛼̂ = 0,048 Dunque per ogni “𝛼” superiore a 𝛼̂ = 0,048 rifiutiamo H0. Il livello di significatività al 5% vuol dire che 𝛼 = 0,05, che è maggiore anche se di poco. Ciò non cambia l’esito del test, che vede ugualmente H0 ipotesi rifiutata e H1 ipotesi accettata. 12.7 – Test per la media di una popolazione normale: varianza ignota Sia X1,…,Xn un campione casuale estratto da una popolazione con distribuzione normale con sia media μ che varianza σ2 ignote. Allora posso effettuare sulla media un test chiamato “test-T” preso μ0 sempre come valore di confronto: Ipotesi H0 Ipotesi H1 𝜇 = 𝜇0 𝜇 ≠ 𝜇0 𝜇 ≤ 𝜇0 𝜇 > 𝜇0 𝜇 ≥ 𝜇0 𝜇 < 𝜇0 Statistica test ST Rifiuto H0 a livello α se |𝑠𝑡 | > 𝑡𝛼⁄ 2,𝑛−1 𝑋̅ − 𝜇0 ~ 𝑡𝑛−1 𝑆⁄ √𝑛 𝑠𝑡 > 𝑡𝛼,𝑛−1 𝑠𝑡 < −𝑡𝛼,𝑛−1 ESEMPIO: Sia il seguente campione di dati raccolti il numero di pulsazioni cardiache di 10 studenti: 67 64 75 80 60 63 78 68 65 e 68. Il valore medio per dei ragazzi giovani è intorno al 72 battiti al minuto. Esaminare se i dati osservati sono in linea con tale valore di riferimento con un livello di significatività del 5%, sapendo che la distribuzione segue un andamento normale. Per rispondere alla domanda è opportuno effettuare un test sulla media, dove prendo per ipotesi nulla H0: μ = 72, e per ipotesi alternativa H1: μ ≠ 72. Ora bisogna costruire la statistica test sulla base dei dati osservati, dunque bisogna trovare 𝑥̅ , √𝑛, 𝜇0 e 𝑆, dove due valori su 4 sono già noti: • √𝑛 = √10; • 𝜇0 = 72. Trovo 𝑥̅ = 67+64+75+80+60+63+78+68+65+68 10 1 2 = 68,8 e 𝑆 = √ ⋅ ∑10 𝑖=1(𝑥𝑖 − 𝑥̅ ) = 6,68. 9 68,8−72 Compongo lo stimatore: 𝑠𝑡 = 6,68 ⁄ √10 = −1,51. Ora visioniamo la tabella, siamo nel caso di voler verificare un’ipotesi nulla del tipo μ=μ0 con controparte un’ipotesi alternativa del tipo μ≠μ0, dunque per rifiutare H0 a livello di significatività 0,05 deve accadere (con 9 gradi di libertà per “t”): |𝑠𝑡| > 𝑡𝛼⁄2 ⇔ | − 1,51| > 𝑡0,025 dove ricordiamo che 𝛷̇ (𝑡0,025 ) = 1 − 0,025. Tramite la tabella della funzione di ripartizione per la “t” di Student trovo che 𝑡0,025,9 = 2,262. Quindi accade: 1,51 > 2,26 ⇔ 𝐹𝐴𝐿𝑆𝑂! Ciò vuol dire che la statistica test non è nella regione critica “C”, dunque per un livello di significatività al 5% posso accettare la mia ipotesi sulla media di 72. Come l’esempio precedente, l’esercizio si potrebbe risolvere anche tramite il PVALUE, ma va calcolato sulla funzione “t” di Student. 12.8 – Test per la varianza di una popolazione normale: media ignota Sia X1,…,Xn un campione casuale estratto da una popolazione con distribuzione normale con media μ nota o ignota e varianza σ2 ignota. Allora posso effettuare sulla varianza un test chiamato “test-X”, preso σ20 come valore di confronto: Ipotesi H0 Ipotesi H1 𝜎 2 = 𝜎02 𝜎 2 ≠ 𝜎02 𝜎 2 ≤ 𝜎02 𝜎 2 > 𝜎02 𝜎 2 ≥ 𝜎02 𝜎 2 < 𝜎02 Statistica test ST 2 Rifiuto H0 a livello α se 𝑠𝑡 < 𝜒2 1−𝛼⁄ (𝑛 − 1) ⋅ 𝑆 ~ 𝜒 2 𝑛−1 𝜎02 2,𝑛−1 o 𝑠𝑡 > 𝜒2 𝛼⁄ 2,𝑛−1 𝑠𝑡 > 𝜒 2 𝛼,𝑛−1 𝑠𝑡 < 𝜒 21−𝛼,𝑛−1 ESEMPIO: Il peso delle uova prodotte da una azienda segue una distribuzione normale. Preso il seguente campione di dati, si verifichi che la varianza della popolazione sia 36, contro l’alternativa che sia invece minore di 36. Effettuare tutto ciò considerando un livello di significatività sempre del 5%. Dati: 61g 57g 58g 65g 54g 63g 56g 68g 67g 53g 64g 66g Per rispondere alla domanda è opportuno effettuare un test sulla varianza, dove prendo per ipotesi nulla H0: σ2 = 36, e per ipotesi alternativa H1: σ2 < 36. Ora bisogna costruire la statistica test sulla base dei dati osservati, dunque bisogna trovare 𝑛 − 1, 𝜎02 e 𝑆 2 , dove due valori su 3 sono già noti: • 𝑛 − 1 = 11; • 𝜎02 = 36. Trovo 𝑆 2 = 1 11 12 ⋅ ∑𝑖=1(𝑥𝑖 − 𝑥̅ )2 = Compongo lo stimatore: : 𝑠𝑡 = 1 11 11⋅27,45 36 12 ⋅ ∑𝑖=1(𝑥𝑖 − 61)2 = 27,45. = 8,39. Ora visioniamo la tabella, siamo nel caso di voler verificare un’ipotesi nulla del tipo σ2 = σ20 con controparte un’ipotesi alternativa del tipo σ2 < σ20, dunque per rifiutare H0 a livello di significatività 0,05 deve accadere (con 11 gradi di libertà per “𝜒 2”): 𝑠𝑡 < 𝜒 21−𝛼 8,39 < 𝜒 21−0,05 ⇔ dove ricordiamo che 𝛷̈ (𝜒 2 0,95 ) = 1 − 0,95. Tramite la tabella della funzione di ripartizione per la “𝜒 2” chi-quadro trovo che 𝜒 2 0,95=4,575. Quindi accade: 8,39 < 4,57 ⇔ 𝐹𝐴𝐿𝑆𝑂! Ciò vuol dire che la statistica test non è nella regione critica “C”, dunque per un livello di significatività al 5% posso accettare la mia ipotesi sulla varianza di 36. Come già visto, l’esercizio si potrebbe risolvere anche tramite il P-VALUE, ma va calcolato sulla funzione “𝜒 2” chi-quadro. 12.9 – Test per la media di una popolazione di Bernoulli Con un approccio simile per quanto fatto con gli intervalli di confidenza, sfruttiamo il teorema del limite centrale per effettuare dei test asintotici sul parametro “q” che caratterizza una popolazione di Bernoulli. Sia sempre X1,…,Xn un campione casuale estratto da una popolazione di Bernoulli con parametro incognito “q”. Allora posso effettuare sul parametro un test chiamato “test sulla proporzione”, preso q0 come valore di confronto: Ipotesi H0 Ipotesi H1 Statistica test ST 𝑞 = 𝑞0 𝑞 ≠ 𝑞0 𝑄 − 𝑞0 𝑞 ≤ 𝑞0 𝑞 > 𝑞0 𝑞 ≥ 𝑞0 𝑞 < 𝑞0 √𝑞0 (1 − 𝑞0 ) 𝑛 Rifiuto H0 a livello α se |𝑠𝑡 | > 𝑧𝛼⁄ ~ 𝑁(0,1) 2 𝑠𝑡 > 𝑧𝛼 𝑠𝑡 < −𝑧𝛼 ESEMPIO: Un sindaco interroga 260 cittadini, dei quali solo 110 si trovano d’accordo con l’ordinanza comunale da lui proposta. Il sindaco si dichiarava “fiducioso che i cittadini fossero dalla sua parte”. L’affermazione del sindaco ha senso? Per rispondere alla domanda è opportuno effettuare un test sul parametro “q” di una Bernoulli (cittadino d’accordo = 1, cittadino in disaccordo = 0), dove prendo per ipotesi nulla H0: q ≥ 0.5, e per ipotesi alternativa H1: q < 0.5 (questo perché si suppone che il sindaco abbia ragione se almeno il 50% dei cittadini possa essere d’accordo). Ora bisogna costruire la statistica test sulla base dei dati osservati, dunque bisogna trovare 𝑄 e 𝑞0, dove sono entrambi già noti: • 𝑄 = 110⁄260 = 0.42; • 𝑞0 = 0,5. Compongo lo stimatore: : 𝑠𝑡 = 0,42−0,5 √0,5(1−0,5) 260 = −2,48. Ora visioniamo la tabella, siamo nel caso di voler verificare un’ipotesi nulla del tipo q ≥ q0 con controparte un’ipotesi alternativa del tipo q < q0, dunque per rifiutare H0, siccome non ho il livello di significatività a disposizione, bisogna perforza ragionare con il P-VALUE: 𝑠𝑡 = −𝑧𝛼̂ 𝛷 (−2,48) = 1 − 𝛷(𝑧𝛼̂ ) = 𝛼̂ 𝛷(𝑠𝑡 ) = 𝛷 (−𝑧𝛼̂ ) ⇔ ⇔ 1 − 𝛷 (2,48) = 𝛼̂ v dove 1 − 𝛷(2,48) = 𝛼̂ = 0,0066. Il P-VALUE non può esser confrontato con un livello di significatività prestabilito, tuttavia possiamo comunque trarre delle conclusioni in quanto è risultato un valore davvero piccolo, quindi verosimilmente H0 è un’ipotesi da rifiutare Rifiutando H0 ho anche rifiutato che il parametro “q” sia maggiore o uguale a 0,5 ossia che il sindaco possa aver affermato una cosa veritiera: i cittadini sono più orientati verso un disaccordo! 12.10 – Schema riassuntivo per il test di un’ipotesi su un parametro Il seguente schema riassume come poter iniziare ad effettuare il test di una ipotesi a partire da un set di dati prestabilito e dalla distribuzione di essi. Lo schema è simile a quello fatto per le stime intervallari, l’idea di fondo è che per la varianza si usa “χ2α,n-1”, per la media si usa “zα” se la varianza è nota, e “tα,n-1” se è ignota; mentre per “q” in una Bernoulli si usa sempre la normale standard “z α”. 13.1 – Test della media su due popolazioni normali Per decidere se due approcci allo stesso problema hanno portato allo stesso risultato, è opportuno verificare che le due popolazioni in esame abbiano lo stesso valor medio, che sia per popolazioni normali o di Bernoulli. 13.2 – Confronto delle medie di due popolazioni normali: varianze note Siano X1,…,Xn e Y1,…,Ym due campioni casuali indipendenti estratti da due popolazioni normali con medie incognite μx e μy e varianze note σx2 e σy2. Allora posso effettuare come ipotesi un confronto tra μx e μy: Ipotesi H0 Ipotesi H1 𝜇𝑥 = 𝜇𝑦 𝜇𝑥 ≠ 𝜇𝑦 𝜇𝑥 ≤ 𝜇𝑦 𝜇𝑥 > 𝜇𝑦 𝜇𝑥 ≥ 𝜇𝑦 𝜇𝑥 < 𝜇𝑦 Statistica test ST 𝑋̅ − 𝑌̅ 2 𝜎2 √ 𝜎𝑥 + 𝑦 𝑛 𝑚 Rifiuto H0 a livello α se |𝑠𝑡 | > 𝑧𝛼⁄ ~ 𝑁 (0,1) 2 𝑠𝑡 > 𝑧𝛼 𝑠𝑡 < −𝑧𝛼 ESEMPIO: Eta Beta si vuole cronometrare durante delle corse, e lo fa sia prima che dopo le vacanze natalizie, ottenendo i seguenti risultati: • prima delle vacanze la media di 5 corse ha fornito il risultato di 53,82s; • dopo le vacanze la media di 6 corse ha fornito il risultato di 54,41s. Supponi che il tempo della corsa segua una distribuzione normale, con varianza costante σ2 = 0,1; si può concludere che il periodo di vacanze natalizie, tra ozio e cibo, ha influito negativamente (e quanto) sui risultati di Eta Beta? Ciò che ci chiede l’esercizio in breve è di effettuare un test di confronto tra le medie, con ipotesi nulla H0 : μx = μy (ossia le vacanze non hanno influito) in contrasto con l’ipotesi alternativa H 1 : μx ≤ μy (ossia le vacanze hanno influito negativamente). Ora bisogna costruire la statistica test sulla base dei dati osservati, dunque bisogna trovare 𝑥̅ , 𝑦̅, 𝜎𝑥2 e 𝜎𝑦2 : • 𝑥̅ = 53,82; • 𝑦̅ = 54,41; • 𝜎𝑥2 = 𝜎𝑦2 = 𝜎 2 = 0,1. Ora possiamo calcolare la statistica test: 𝑠𝑡 = 53,82 − 54,41 √ 0,1 0,1 − 5 6 = −2,98. Ora visioniamo la tabella, siamo nel caso di voler verificare un’ipotesi nulla del tipo μx = μy con controparte un’ipotesi alternativa del tipo μx ≤ μy , dunque per rifiutare H0, siccome non ho il livello di significatività a disposizione, bisogna perforza ragionare con il P-VALUE: 𝑠𝑡 = −𝑧𝛼̂ 𝛷 (−2,98) = 1 − 𝛷(𝑧𝛼̂ ) = 𝛼̂ 𝛷(𝑠𝑡 ) = 𝛷 (−𝑧𝛼̂ ) ⇔ 1 − 𝛷 (2,98) = 𝛼̂ ⇔ v dove 1 − 𝛷(2,98) = 𝛼̂ = 0,0014. Il P-VALUE non può esser confrontato con un livello di significatività prestabilito, tuttavia possiamo comunque trarre delle conclusioni in quanto è risultato un valore davvero piccolo, quindi verosimilmente H0 è un’ipotesi da rifiutare. Rifiutando H0 ho anche rifiutato che il parametro μx sia maggiore o uguale a μy, quindi Eta Beta ha decisamente esagerato durante le vacanze natalizie, le quali hanno influito nel rendimento nella corsa. 13.3 – Confronto delle medie di due popolazioni normali: varianze ignote ma uguali Siano X1,…,Xn e Y1,…,Ym due campioni casuali indipendenti estratti da due popolazioni normali con medie incognite μx e μy e varianze altrettanto incognite σx2 e σy2. Allora posso effettuare come ipotesi un confronto tra μx e μy, però supponendo che σx2 = σy2 = σ2. Posso effettuare tale supposizione se vale la 2 seguente identità di approssimazione: 1⁄2 < 𝑆𝑥⁄𝑆 2 < 2. 𝑦 Ipotesi H0 Ipotesi H1 𝜇𝑥 = 𝜇 𝑦 𝜇𝑥 ≠ 𝜇𝑦 𝜇𝑥 ≤ 𝜇 𝑦 𝜇𝑥 > 𝜇𝑦 𝜇𝑥 ≥ 𝜇 𝑦 𝜇𝑥 < 𝜇𝑦 Statistica test ST 𝑋̅ − 𝑌̅ √ 𝑆𝑃2 ⋅ (1 + 1 ) 𝑛 𝑚 Rifiuto H0 a livello α se |𝑠𝑡 | > 𝑡𝛼⁄ ~𝑡𝑛−1 dove SP2 è detto stimatore di varianza combinata e vale: 𝑆𝑃2 = (o pooled) 2,𝑛+𝑚−2 𝑠𝑡 > 𝑡𝛼,𝑛+𝑚−2 𝑠𝑡 < −𝑡𝛼,𝑛+𝑚−2 2 ( (𝑛−1)𝑆𝑋 + 𝑚−1)𝑆𝑌2 𝑛+𝑚−2 . ESEMPIO: Vengono testati 12 pezzi di un materiale “A” e 10 pezzi di un materiale “B”. L’usura media del primo campione è di 85 unità con deviazione standard di 4 unità, mentre l’usura media del secondo campione è di 81 unità con deviazione standard di 5 unità. Con un livello di significatività del 5% si può dire che il materiale “A” sia usurato più di quello “B”? Si assuma ovviamente che l’usura segua una distribuzione normale con uguale varianza per entrambi i campioni. Ciò che ci chiede l’esercizio in breve è di effettuare un test di confronto tra le medie, con ipotesi nulla H0 : μx = μy (l’usura media è la medesima) in contrasto con l’ipotesi alternativa H1 : μx > μy (l’usura media del materiale “A” supera quella del materiale “B”). Ora bisogna costruire la statistica test sulla base dei dati osservati, dunque bisogna trovare 𝑥̅ , 𝑦̅, e 𝑆𝑃2 : • 𝑥̅ = 85; • 𝑦̅ = 81; • 𝑆𝑃2 = 2 (𝑛−1)𝑆𝑋 + (𝑚−1)𝑆𝑌2 𝑛+𝑚−2 = (12−1)16 + (10−1)25 12+10−2 Ora possiamo calcolare la statistica test: 𝑠𝑡 = = 11⋅16 + 9⋅25 20 85 − 81 √ 20,05(1⁄12+1⁄10) = 401 20 = 20,05. = 2,086. Ora visioniamo la tabella, siamo nel caso di voler verificare un’ipotesi nulla del tipo μx = μy con controparte un’ipotesi alternativa del tipo μx > μy, dunque per rifiutare H0 a livello di significatività 0,05 deve accadere (con 12+10-2=20 gradi di libertà per “t”): 𝑠𝑡 > 𝑡𝛼 ⇔ 2,086 > 𝑡0,05 dove ricordiamo che 𝛷̇ (𝑡0,05 ) = 1 − 0,05. Tramite la tabella della funzione di ripartizione per la “t” di Student trovo che 𝑡0,05 = 1,742. Quindi accade: 2,086 > 1,742 ⇔ 𝑉𝐸𝑅𝑂! Ciò vuol dire che la statistica test è nella regione critica “C”, dunque per un livello di significatività al 5% devo rifiutare la mia ipotesi nulla, ossia che l’usura media sia identica. Di conseguenza accetterò H1 che mi conferma dai dati osservati sperimentalmente che il materiale “A” ha una usura media superiore a “B”. 13.4 – Confronto delle medie di due popolazioni normali: varianze ignote e diverse Siano X1,…,Xn e Y1,…,Ym due campioni casuali indipendenti estratti da due popolazioni normali con medie incognite μx e μy e varianze altrettanto incognite e soprattutto diverse σx2 e σy2. Fatta tale supposizione, si possono effettuare dei test di tipo asintotico se i campioni sono numerosi (se n e m sono maggiori di 30): Ipotesi H0 Ipotesi H1 𝜇𝑥 = 𝜇𝑦 𝜇𝑥 ≠ 𝜇𝑦 𝜇𝑥 ≤ 𝜇𝑦 𝜇𝑥 > 𝜇𝑦 𝜇𝑥 ≥ 𝜇𝑦 𝜇𝑥 < 𝜇𝑦 Statistica test ST 𝑋̅ − 𝑌̅ 2 𝑆2 √ 𝑆𝑥 + 𝑦 𝑛 𝑚 Rifiuto H0 a livello α se |𝑠𝑡 | > 𝑧𝛼⁄ ~ 𝑁(0,1) 2 𝑠𝑡 > 𝑧𝛼 𝑠𝑡 < −𝑧𝛼 13.5 – Confronto delle medie di due popolazioni normali: campioni accoppiati Ora non abbiamo più due campioni distinti e indipendenti, ma abbiamo un campione costituito da coppie di osservazioni, ognuna relativa allo stesso individuo della popolazione. Ad esempio prima avevamo due campioni casuali e indipendenti del tipo X1,…,Xn e Y1,…,Yn; ora invece abbiamo un unico campione casuale del tipo (X1, Y1),…,(Xn, Yn), ricordando che X e Y si distribuiscono normalmente. Stabiliamo una Wi generica (sempre normale) come la differenza tra X i e Yi. Ora possiamo pensare W1,…,Wn come un campione casuale estratto da una popolazione normale con media μw = μx – μy e varianza σ2w incognite. Ora abbiamo tutti gli strumenti per effettuare un test sulle medie μx e μy, semplicemente testando μw dove il valore di confronto è μ0 = 0. [PARAGRAFO 12.7] ESEMPIO: Vengono esaminate 6 persone per stabilire se un certo farmaco abbassi o meno la quantità di colesterolo. I risultati sono i seguenti: Ipotizzando che il tasso di colesterolo abbia una distribuzione normale, è lecito concludere che il farmaco abbia effetto positivo? Si studi la richiesta per i seguenti livelli di significatività: 1%, 5% e 10%. Per prima cosa compattiamo la tabella considerando la distribuzione W 1,…,W6 tale per cui Wi = Xi - Yi: Rifacendoci al paragrafo 12.7, dobbiamo trovare media e deviazione standard campionaria per costruirci il nostro stimatore “st”. Quindi abbiamo: • 𝑤 ̅= 3,8 − 2,6 +39,2 − 4,9 + 27,9 + 36,8 6 = 16,7; • 𝑆 = √ 1⁄5 ⋅ ∑6𝑖=1(𝑤𝑖 − 𝑤 ̅ )2 = 20,2; • 𝜇0 = 0. Ora ci siamo ridotti al test sulla media di una popolazione normale con varianza ignota. Siamo precisamente nel caso H0 : μw ≤ 0 contro H1 : μw > 0 (questo perché se μw=μx–μy non è maggiore di 0 allora non abbiamo un miglioramento concreto) e prendiamo ciò come ipotesi nulla. Costruiamo lo stimatore giusto: • 𝑠𝑡 = ̅ −𝜇0 𝑤 𝑆⁄ √𝑛 = 16,7−0 20,2 ⁄ √6 = 2,025 mentre ora costruiamo i percentili della funzione “t” di Student nei livelli di confidenza richiesti. Il metodo per trovarli ormai è noto, quindi senza ulteriori calcoli si conferma che: • se 𝛼 = 0,01, allora 𝑡0,01,5 = 3,365; • se 𝛼 = 0,05, allora 𝑡0,05,5 = 2,015; • se 𝛼 = 0,10, allora 𝑡0,10,5 = 1,476. Siamo nel caso dove se vale “st>t α,n” allora si è nella regione critica “C” e dunque l’ipotesi nulla va rifiutata. Solo per α=0,10 ho che non vale “2,065>t0,10” e quindi posso affermare che accetto H0 solo per il livello di confidenza 10%, altrimenti rifiuto. L’esercizio poteva essere affrontato anche con l’approccio P-VALUE. 13.6 – Confronto asintotico delle medie di due popolazioni di Bernoulli Siano X1,…,Xn e Y1,…,Ym due campioni casuali indipendenti estratti da due popolazioni di Bernoullu con parametri qx e qy entrambi ignoti. Allora posso effettuare come ipotesi un confronto tra qx e qy, definendo anche qui una grandezza utile al calcolo dello stimatore, ossia lo stimatore del parametro combinato (o pooled) dei due campioni: 𝑄𝑃 = Ipotesi H0 Ipotesi H1 𝑞𝑥 = 𝑞𝑦 𝑞𝑥 ≠ 𝑞𝑦 𝑞𝑥 ≤ 𝑞𝑦 𝑞𝑥 > 𝑞𝑦 𝑞𝑥 ≥ 𝑞𝑦 𝑞𝑥 < 𝑞𝑦 𝑛 ⋅ 𝑄𝑋 + 𝑚 ⋅ 𝑄𝑌 𝑛+𝑚 Statistica test ST Rifiuto H0 a livello α se |𝑠𝑡 | > 𝑧𝛼⁄ 2 𝑄𝑋 − 𝑄𝑌 √𝑄𝑝 (1 − 𝑄𝑝 ) ( 1 + 1 ) 𝑛 𝑚 ~𝑁(0,1) 𝑠𝑡 > 𝑧𝛼 𝑠𝑡 < −𝑧𝛼 ESEMPIO: Bisogna stabilire se le percentuali di votanti di un partito “A” sono le medesime in due comuni limitrofi “X” e “Y”. Nel comune “X” i dati ci informano che su 560 intervistati, 135 voteranno per il partito “A”, mentre nel comune “Y” su 440 intervistati, 81 voteranno sempre il partito “A”. Si può presupporre che la percentuale di votanti sia la stessa nei due comuni? Ciò che ci chiede l’esercizio in breve è di effettuare un test di confronto tra le medie, con ipotesi nulla H0 : qx = qy (le percentuali corrispondono) in contrasto con l’ipotesi alternativa H1 : qx ≠ qy (le percentuali non corrispondono). Ora bisogna costruire la statistica test sulla base dei dati osservati, dunque bisogna trovare Qx, Qy e Qp: • 𝑄𝑥 = 135⁄560 ≈ 0,24; • 𝑄𝑦 = 81⁄440 ≈ 0,18; 560⋅0,24+440⋅0,18 135+81 • 𝑄𝑝 = = ≈ 0,22. 560+440 1000 Ora possiamo calcolare la statistica test: 𝑠𝑡 = 0,24 −0,18 √ 0,22⋅0,78⋅(1⁄440+1⁄560) ≈ 2,29. Ora visioniamo la tabella, siamo nel caso di voler verificare un’ipotesi nulla del tipo qx = qy con controparte un’ipotesi alternativa del tipo q x ≠ qy, dunque per rifiutare H0, siccome non ho il livello di significatività a disposizione, bisogna perforza ragionare con il P-VALUE: |𝑠𝑡| = 𝑧𝛼̂⁄ 2 𝛷(2,29) = 𝛷 (𝑧𝛼̂ ) 𝛷(|𝑠𝑡|) = 𝛷 (𝑧𝛼̂⁄ ) ⇔ 2 ⇔ 0,989 = 1 − 𝛼̂⁄2 v dove 𝛼̂ = 0,05. Il P-VALUE non può esser confrontato con un livello di significatività prestabilito, tuttavia possiamo comunque trarre delle conclusioni in quanto è risultato un valore davvero piccolo, quindi verosimilmente H 0 è un’ipotesi da rifiutare, quindi le percentuali non sono uguali. 13.7 – Schema riassuntivo sul test d’ipotesi su due popolazioni Il seguente schema, come i precedenti due, vuole riassumere la strategia dietro alla scelta di un test rispetto ad un altro, in base ai dati forniti e alla distribuzione. 14.1 – La regressione lineare semplice Diversi problemi richiedono di determinare una possibile relazione lineare tra due popolazioni di dati X 1,…,Xn e Y1,…,Yn di uguale dimensione. Cosa si intende per relazione lineare? Vuol dire che si presuppone esistano due valori reali β0 e β1 tali per cui vale sui dati: 𝑓 (𝑥 ) = 𝑦 = 𝛽0 + 𝛽1 ⋅ 𝑥 La funzione “f” è quella che descrive il modello di regressione lineare, ossia la relazione che vi è tra ogni dato “xi” indipendente rispetto al corrispettivo dato “yi” dipendente. Si sarebbe fantastico avere una relazione così semplice e “pulita”. tuttavia non bisogna dimenticarsi dell’aletorietà: senza di essa ricordiamo che dovremmo riallacciarci al determinismo degli eventi, dunque la funzione del modello deve variare di conseguenza. Per inserire la componente aleatoria nella relazione lineare, si aggiunge un errore casuale: 𝑌 = 𝛽0 + 𝛽1 ⋅ 𝑥 + 𝜉 dove “𝜉” è una variabile aleatoria con media 0, “Y” è detta risposta e “x” è detto ingresso. L’equazione appena scritta ha un nome ed è la retta di regressione lineare semplice di “Y” rispetto a “x”. Le costanti β0 e β1 sono detti coefficienti di regressione e vengono stimati a partire dal campione di dati osservati. Un campione casuale estratto da un modello di regressione lineare può essere il seguente (x1,Y1),…,(xn,Yn), dove le variabili aleatorie Yi sono della forma: 𝑌𝑖 = 𝛽0 + 𝛽1 ⋅ 𝑥𝑖 + 𝜉𝑖 Con 𝜉1 , . , 𝜉𝑛 variabili aleatorie indipendenti e distribuite ugualmente con media 0. ESEMPIO: La tabella seguente riporta la superficie in m2 e il costo dell’affitto mensile in $ di 20 appartamenti in un quartiere di Seattle. Senza calcoli e con il solo intuito, si può affermare che vi sia una possibile relazione lineare tra le due variabili? Per ora non sappiamo ancora effettuare calcoli affinchè ci arrivi un feedback su una possibile linearità, o addirittura la stima su β0 e β1. L’unico modo per capire dunque è affidarci alla raffigurazione che può offrirci uno scatterplot: Il grafico ci segnala una distribuzione dei punti abbastanza adagiata su una retta di coefficiente angolare positivo e probabilmente passante per l’origine (o li vicino). Concludiamo che un modello di regressione lineare può esser valido. NOTA1: Siccome E(ξ) = 0, allora E(Y) = β0 + β1x di conseguenza. NOTA2: Si dice regressione lineare semplice perché quella “classica” può tener conto di più variabili indipendenti, ad esempio Y = β0 + β1x1 + … + βnxn. 14.2 – Stima dei coefficienti di regressione Ovvio è che i coefficienti di regressione siano un’incognita fondamentale da trovare nel caso si scelga di utilizzare un modello di regressione lineare per un set di dati, infatti, la stima viene fornita proprio da essi. Ora supponiamo di osservare “n” dati con input “xi” e le relative risposte “yi”. Da quanto osservato vogliamo stimare β0 e β1. Come prima cosa, è opportuno sempre rappresentare il campione di dati osservato tramite uno scatterplot, dove ogni elemento del campione viene identificato da un punto nero di coordinate (xi,yi). L’idea che nel concreto diventerà l’obiettivo finale è quella di trovare una retta (come quella azzurra) che più si avvicina a mimetizzare la nube di punti, tradotto quella retta che rende la regressione la meno errata possibile. Per fare ciò, dobbiamo trovare dei coefficienti di regressione tali per cui l’errore quadratico è il più minimizzato possibile. In sostanza, dobbiamo rendere la minore possibile la seguente quantità, che altro non è che la somma degli errori quadratici per ogni risposta: 𝑛 ∑ (𝑦𝑖 − (𝛽̂0 + 𝛽̂1 ⋅ 𝑥𝑖 )) 2 𝑖=1 Questo metodo prende il nome di “metodo dei minimi quadrati” e ci permette di ottenere gli stimatori migliori per i coefficienti di regressione. Si dimostra pertanto che gli stimatori dei coefficienti sono: 𝛽1 = ∑𝑛𝑖=1 𝑥𝑖 𝑌𝑖 − 𝑥̅ ∑𝑛𝑖=1 𝑌𝑖 𝑛 ∑𝑖=1 𝑥𝑖2 − 𝑛𝑥̅ 2 𝛽0 = 𝑌̅ − 𝛽1 ⋅ 𝑥̅ Nella pratica il calcolo dello stimatore si effettua sui dati concreti, quindi partendo da un dataset del tipo (x1,y1),…,(xn,yn) l’aleatorietà viene meno e si passa al seguente calcolo: 𝛽̂1 = ∑𝑛𝑖=1 𝑥𝑖 𝑦𝑖 − 𝑥̅ ∑𝑛𝑖=1 𝑦𝑖 𝑛 ∑𝑖=1 𝑥𝑖2 − 𝑛𝑥̅ 2 𝛽̂0 = 𝑦̅ − 𝛽̂1 ⋅ 𝑥̅ ESEMPIO: Si stimi una retta di regressione per il seguente campione di osservazioni: Le stime dei coefficienti di regressione si calcolano in questo modo, dunque separeremo il calcolo per poi riunificare il tutto componendo la retta: 𝛽̂1 = ∑4𝑖=1 𝑥𝑖 𝑦𝑖 − 𝑥̅ ∑4𝑖=1 𝑦𝑖 4 ∑𝑖=1 𝑥𝑖2 − 𝛽̂0 = 𝑦̅ − 𝛽̂1 ⋅ 𝑥̅ 4𝑥̅ 2 • ∑4𝑖=1 𝑥𝑖 ⋅ 𝑦𝑖 = 1 ⋅ 4 + 2 ⋅ 7 + 3 ⋅ 8 + 5 ⋅ 12 = 102; • ∑4𝑖=1 𝑦𝑖 = 4 + 7 + 8 + 12 = 31; • 𝑥̅ = • 𝑦̅ = 1+2+3+5 4 4+7+8+12 4 4 = 2,75; = 7,75; • ∑𝑖=1 𝑥𝑖2 = 12 + 22 + 32 + 52 = 39. 𝛽̂1 = 102 − 2,75 ⋅ 31 = 1,91 39 − 4(2,75)2 𝛽̂0 = 7,75 − 1,91 ⋅ 2,75 = 2,49 La stima della retta di regressione è: 𝑦 = 2,49 + 1,91 ⋅ 𝑥 . Proviamo a computarla su R e vediamo quanto ci siamo avvicinati: ESEMPIO 14.1 (continuazione): Ora che sappiamo stimare i coefficienti di regressione, computiamo su R l’esempio del paragrafo precedente e vediamo quanto ci siamo avvicinati: Per informazione, la retta di regressione è: y = 122,79 + 11,78 · x . 14.3 – Inferenza statistica sul coefficiente angolare β1 Sia il seguente un modello di regressione lineare semplice, dove l’errore casuale “ξ” è una variabile aleatoria di media 0: 𝑌 = 𝛽0 + 𝛽1 ⋅ 𝑥 + 𝜉 . Per garantire una buona validità della stima dei coefficienti di regressione, sarà necessario che l’errore casuale abbia una distribuzione di media 0 e varianza generica σ2. Un’ipotesi importantissima da verificare per quanto riguarda il modello di regressione lineare, è che β1 possa essere 0. Ovviamente in tal caso verrebbe a mancare la relazione tra la variabile dipendente e indipendente, in quanto si avrebbe un’equazione del tipo “y= β0”. Il test viene costruito così: Ipotesi H0 Ipotesi H1 𝛽1 = 0 𝛽1 ≠ 0 Statistica test ST √ (𝑛 − 2)𝑆𝑥𝑥 𝛽1 ~ 𝑡𝑛−2 𝑆𝑆𝑅 Rifiuto H0 a livello α se |𝑠𝑡| > 𝑡𝛼⁄ 2,𝑛−2 dove Sxx e SSR sono statistiche costruite in questo modo: 𝑛 • 𝑆𝑥𝑥 = ∑𝑖=1 𝑥𝑖2 − 𝑛𝑥̅ 2 ; 𝑛 • 𝑆𝑆𝑅 = ∑𝑖=1(𝑌𝑖 − 𝛽0 − 𝛽1 𝑥𝑖 )2 . ESEMPIO: In un negozio vengono registrate le vendite di 2 marchi di vestiti “A” e “B” per 12 settimane, e i dati sono i seguenti: Si determini una stima della retta di regressione delle vendite della marca “B” rispetto alle vendite della marca “A”, effettuando anche un test dell’ipotesi nulla H0 : β1 = 0 a livello di significatività α = 0,05. Per stimare i coefficienti di regressione, calcoliamo le grandezze interessate: • • • • ∑12 𝑖=1 𝑥𝑖 ⋅ 𝑦𝑖 = 123967; ∑12 𝑖=1 𝑦𝑖 = 1807; 𝑥̅ = 67,75; 𝑦̅ = 150,58; 12 • ∑𝑖=1 𝑥𝑖2 = 55767. 𝛽̂1 = 123967 − 67,75 ⋅ 1807 = 2,25 55767 − 12(67,75)2 𝛽̂0 = 150,58 − 2,25 ⋅ 67,75 = −1,72 La stima della retta di regressione si può comporre così: 𝑦 = −1,72 + 2,25 ⋅ 𝑥 . Approfitto del calcolo precedente notando che la quantità colorata in verde corrisponde proprio a “Sxx”, dunque ora procediamo nel calcolo di “SS R”: • 𝑆𝑥𝑥 = 686,25; 12 • 𝑆𝑆𝑅 = ∑ 2 (𝑦𝑖 − 𝛽̂0 − 𝛽̂1 𝑥𝑖 ) = 494,48. 𝑖=1 Invece ora calcolo la statistica test: 𝑠𝑡 = √ (𝑛−2)𝑆𝑥𝑥 𝑆𝑆𝑅 10⋅686,25 𝛽̂1 = √ ⋅ 2,25 = 8,38. 210,68 Ora visioniamo la tabella, siamo nel caso di voler verificare un’ipotesi nulla del tipo β1=0 con controparte un’ipotesi alternativa del tipo β1≠0, dunque per rifiutare H0 a livello di significatività 0,05 deve accadere (con 10 gradi di libertà per “t”): |𝑠𝑡| > 𝑡𝛼⁄2 ⇔ |8,38| > 𝑡0,025 dove ricordiamo che 𝛷̇ (𝑡0,025 ) = 1 − 0,025. Tramite la tabella della funzione di ripartizione per la “t” di Student trovo che 𝑡0,025 =2,262. Quindi accade: 8,38 > 2,26 ⇔ 𝑉𝐸𝑅𝑂! (𝑒 𝑛𝑒𝑚𝑚𝑒𝑛𝑜 𝑑𝑖 𝑝𝑜𝑐𝑜) Ciò vuol dire che la statistica test è nella regione critica “C”, dunque per un livello di significatività al 5% devo rifiutare la mia ipotesi nulla, confermando (per quanto non fosse già evidente) che il coefficiente angolare β1 non è vicino a 0. 14.4 – Coefficiente di determinazione Potrebbe essere interessante stabilire una quantità che esprima la variabilità (o dispersione) delle risposte Y1,…,Yn ottenute dagli ingressi x1,…,xn. Ciò è fattibile, e se ne occupa la seguente formula: 𝑛 𝑆𝑌𝑌 = ∑ (𝑌𝑖 − 𝑌̅)2 𝑖=1 che altro non è che una sorta di “varianza” per le risposte Y 1,…,Yn. Si osservi che se le risposte sono tutte uguali, alias la retta di regressione è orizzontale, la dispersione risulta essere 0. La variabilità di una determinata risposta è determinata da due fattori: dalla dispersione degli input xi e dalla dispersione provocata dall’errore casuale, con varianza non nota σ2. Appurato ciò, cerchiamo di ricavare matematicamente queste due dipendenze, capendo quale parte della variabilità è dovuta agli ingressi, e quale all’errore casuale. Riscriviamo SYY come: 𝑆𝑌𝑌 = 𝑆𝑆𝑅 + (𝑆𝑌𝑌 − 𝑆𝑆𝑅 ) la quantità in azzurro la chiamiamo varianza residua, mentre la quantità in rosso la chiamiamo varianza spiegata. Dividiamo il tutto per SYY (assumendo che il modello di regressione lineare abbia come ipotesi valida la non nullità del coefficiente β1) e otteniamo: 1 = 𝑆𝑆𝑅 𝑆𝑌𝑌 − 𝑆𝑆𝑅 + 𝑆𝑌𝑌 𝑆𝑌𝑌 Definiamo la statistica coefficiente di determinazione (R2) la quantità colorata in verde: tale valore sarà sempre compreso tra 0 e 1, dove la vicinanza a 1 ci informa che la gran parte delle variazioni delle risposte è dovuta alla variabilità degli input, mentre la vicinanza a 0 ci informa che la gran parte delle variazioni delle risposte è dovuta all’errore casuale. In breve, il valore di R2 ci può tornare utile per decidere quanto è “buono” un determinato modello di regressione lineare per interpretare un dataset: un valore vicino a 1 implica una buona aderenza del modello ai dati, mentre un valore vicino a 0 ci consiglia di non fidarci troppo di questo modello su questi dati. ESEMPIO 14.1 (continuazione II): Dopo aver trovato la seguente retta di regressione per il campione di dati (𝑦 = 122,79 + 11,78𝑥), ora troviamo il coefficiente di determinazione R2: 𝑅2 = 𝑆𝑌𝑌 − 𝑆𝑆𝑅 𝑆𝑆𝑅 2513570 = 1 − = 1 − = 0,84 𝑆𝑌𝑌 𝑆𝑌𝑌 401639,5 Concludiamo che il modello di regressione lineare può esser buono per descrivere i dati, e probabilmente è il più indicato. 14.5 – Analisi dei residui per la verifica del modello Si consideri il seguente modello di regressione lineare semplice: 𝑌 = 𝛽0 + 𝛽1 𝑥 + 𝜉 𝜉 ~ 𝑁 (0, 𝜎 2 ) ora abbiamo capito che per convincerci che esso possa andar bene per un set di dati, si può prima fare un’analisi generale e visiva sullo scatterplot, per poi procedere con un più rigoroso studio con il coefficiente di determinazione. Per togliere ogni dubbio può essere utile effettuare anche un’analisi dei residui. Come “residui” si intendono le n-statistiche costruite nel seguente modo: 𝑈𝑖 = 𝑌𝑖 − 𝛽0 − 𝛽1 𝑥𝑖 √ 𝑆𝑆𝑅 𝑛−2 1≤𝑖≤𝑛 Nel caso il modello di regressione lineare sia corretto, i residui possono essere fedelmente approssimati a variabili aleatorie normali standard, tutte indipendenti. Infatti i residui sono tutti distribuiti attorno allo zero, e circa il 95% di essi è tra i valori -2 e 2. Inoltre evidenziare su un grafico queste quantità non deve darci indizio di alcuna regolarità geometrica: ciò sarebbe un chiaro allarme sul fatto che il modello di regressione lineare non sia valido per il set di dati. ESEMPIO 14.1 (continuazione III): Dopo aver trovato la seguente retta di regressione per il campione di dati (𝑦 = 122,79 + 11,78𝑥), ora troviamo i residui standardizzati stimati dai dati: Ora effettuiamo il plotting dei residui, e concludiamo che il modello effettivamente è calzante al 100%: quasi tutti i valori sono tra -2 e 2 e sono dispersi in un modo parecchio nebuloso. Ecco qui: