Uploaded by Agostino

4 6048485881839358049

advertisement
Corso di probabilità e statistica
(6 CFU)
Dispense relative all’anno accademico 2022/2023
Autore: @soulunivr su telegram
1.1 - La statistica descrittiva: definizione
La statistica descrittiva si occupa della presentazione di un campione di dati
(anche chiamato dataset) nel modo più chiaro possibile, partendo da una
sequenza x(1) … x(n) omogenea di informazioni, e scegliendo in modo opportuno
la tipologia di grafico migliore per esaltare il significato dei dati e delle statistiche
campionarie. Per l’analisi dei dati tramite modelli si dovrà aspettare l’argomento
della statistica inferenziale.
1.2 - Concetto di variabile
Una sequenza omogenea di dati può avere una o più variabili. Una variabile
viene intesa come una modalità per catalogare il dato, e in statistica descrittiva ce
ne sono 2:
▪ Le variabili numeriche, dove i dati vengono catalogati da una variabile
numerata cardinalmente, pertanto associata ai numeri naturali
assorbendone le proprietà matematiche, ad esempio poter stabilire una
formula rigorosa per calcolare la media. Per visualizzare, il seguente dataset
presenta 3 variabili di tipo numerico, e viste così ci dicono ben poco!
X(1)
X(2)
X(3)
Totale
Frequenza
assoluta
145
40
15
200
Frequenza
relativa
0.725
0.2
0.075
1
Frequenza
percentuale
72.5%
20%
7.5%
100%
▪ Le variabili categoriche, che al contrario di quelle numeriche catalogano i
dati all’interno di una vera e propria etichetta testuale. Nell’esempio
precedente, la tabella ci informa sulle frequenze di un determinato dataset,
ma esattamente cosa stiamo descrivendo? Ed è qui che le variabili
numeriche diventano categoriche: ora acquista un senso leggere i dati!
Laureati che lavorano
UniVR 2019
Laureati che cercano
UniVR 2019
Laureati che fanno altro
UniVR 2019
Totale
Frequenza
assoluta
145
40
15
200
Frequenza
relativa
0.725
0.2
0.075
1
Frequenza
percentuale
72.5%
20%
7.5%
100%
1.3 - Tipologie di frequenze
Quando si è in possesso di un campione di dati, si possono analizzare le
frequenze con le quali ogni dato occorre nella sequenza, e rappresentarle con il
metodo grafico e numerico che più ci interessa. Per le tipologie di frequenze, ce
ne sono 3:
▪ Frequenza assoluta, che è il numero di occorrenze di un dato nel dataset.
▪ Frequenza relativa, che si ottiene dividendo la frequenza assoluta di un
dato, per la somma totale delle frequenze assolute.
▪ Frequenza percentuale, la più usata e rappresentativa, che si ottiene
moltiplicando la frequenza relativa per 100%.
1.4 - Tipologie di grafici
Come affermato precedentemente, ogni dataset può esser visualizzato
graficamente in svariati modi, tuttavia solo pochi sono davvero rappresentativi
circa il significato che deve lasciare l’analisi dei dati. Ad esempio un primo
metodo di rappresentazione grafica è quello tabellare degli esempi precedenti:
sicuramente è molto ordinato e semplice da leggere, ma è evidente che la
componente grafica è quasi totalmente assente, non lasciandoci interpretare
bene i dati. Detto questo, ogni tipo di grafico ha le sue peculiarità, e porta ad
accentuare statistiche e caratteristiche diverse, ecco una lista:
▪ Metodo tabellare → semplice e ordinato, ma di scarso significato grafico;
▪ Grafico a torta (areogramma) → ottimo per rappresentare dati descritti con
variabili categoriche, tuttavia se usato male può far trasparire proporzioni
ingannevoli, specie se viene usato il formato 3D.
▪ Grafico a barre (istogramma) → va sempre abbastanza bene per
rappresentare fedelmente l’andamento dei dati, e permette anche la
valutazione contemporanea di statistiche multivariabile.
▪ Mappa (cartogramma) → è un grafico più di nicchia e consiste nella
colorazione di una mappa con gradienti di colore posti con un criterio tale
da rispettare una legenda riportante i dati; è visivamente bella ed
impattante, ma si usa solamente in dataset molto specifici.
▪ Diagramma cartesiano → insieme all’istogramma va sempre bene (specie
per i multivar) per rappresentare l’andamento dei dati, con l’aggiunta che il
picco di ogni barra (che viene spesso tolta) è collegato al picco successivo
e precedente, con il tentativo di ricreare una funzione sulla frequenza.
▪ Ideogramma → il metodo meno analitico tra i precedenti, serve solo per
esemplificare e figurare la frequenza relativa dei dati, si usa solo in contesti
dove non è richiesta nessuna descrizione sull’andamento, ma solo un
veloce ricordo di come in proporzione sono disposte le frequenze.
1.5 - Statistiche multivariabile
Una statistica non è detto debba tener conto di una sola variabile, anzi, molto
spesso non è così siccome si cerca di ricavare una potenziale correlazione tra le 2
(o più). Ad esempio nelle tabelle scorse, la statistica è stata pensata tenendo
conto solamente di una variabile, ossia lo stato occupazionale. Cosa succede nel
momento in cui analizzo i dati anche secondo una nuova variabile categorica
detta “corso di laurea”? La mia interpretazione può portarmi a giungere a
conclusioni più precise o che altrimenti non avrei visto? C’è una correlazione tra
la variabile “stato occupazionale S.O.” e “corso di laurea C.L.” oppure no?
FREQUENZE
ASSOLUTE
Laureati che lavorano
UniVR 2019
Laureati che cercano
UniVR 2019
Laureati che fanno altro
UniVR 2019
Totale C.L.
Laureati in
informatica
65
13
2
80
Laureati in
biologia
50
9
8
67
Laureati in
lettere
30
18
5
53
Totale S.O.
145
40
15
200
1.6 - Valori discreti e valori continui
Se una variabile è numerica, il suo valore può essere o discreto (ad esempio
l’elenco degli esiti del lancio di un dado, valori frammentati) o continuo (ad
esempio la misurazione della pressione sanguigna, ossia un insieme denso di
valori). Nella scelta del metodo grafico migliore bisogna tener conto anche del
tipo dei valori: ovvio che per valori discreti preferirei un metodo tabellare o un
grafico a barre, mentre per valori continui preferirei un diagramma cartesiano per
avere una visione maggiore e globale dei dati (è logico che per un insieme
denso di dati, utilizzare una tabella è una strategia poco efficiente e inutile).
Istogramma delle frequenze
80
60
40
20
0
Laurea in
informatica
Laurea in biologia Laurea in lettere
Lavora
Cerca
Altro
1.7 - Classi di discretizzazione
Spesso lavorare con un insieme di dati a valori continui o è scomodo o e
superfluo, siccome la rappresentazione può non richiedere una accurata e
dettagliata analisi, ma va bene anche una approssimazione. Pertanto si può
passare da valori continui a valori discreti (non sempre il viceversa, specie se
l’intervallo di discretizzazione è piuttosto ampio) stabilendo delle classi di
discretizzazione, ossia un range di valori per frammentare l’insieme dei dati in
modo tale da poterlo rappresentare in modo comunque efficiente tramite metodi
grafici più indicati per valori discreti. Ad esempio effettuare un grafico che
raccoglie per ogni valore di peso da 1 a 300kg (anche decimale) la % di persone,
è difficile oltre che inutile: molto più intelligente frammentare la misura in classi
(ad esempio di intervallo 15 kg) ed usare un immediato grafico a torta. Il risultato
è molto più leggibile no?
(valori non veritieri)
Distribuzioni % Peso
1-15 kg [7%]
16-30kg [8%]
31-45kg [11%]
46-60kg [14%]
61-75kg [21%]
76-90kg [21%]
91-105kg [9%]
106-120kg [6%]
>121kg [3%]
1.8 - Tipologie di distribuzione dati
Un dataset si può distribuire nelle maniere più particolari e complesse, magari
senza nemmeno capire con quale criterio, tuttavia le 3 tipologie di distribuzione
più frequenti sono quella unimodale, unimodale simmetrica, e bimodale.
1.9 - Moda statistica
E’ detta moda statistica la variabile che ha come valore la frequenza più grande di
tutto l’insieme dei dati. La moda non è unica: se ‘k’ variabili condividono lo stesso
valore massimo, tutte e ‘k’ rappresentano la moda del dataset! Ad esempio nel
grafico del peso relativo alla percentuale di persone sulla Terra, la moda non è
una variabile sola, ma sono 2, ossia “61-75kg” e “76-90kg” entrambe con il valore
massimo trovato del 21% della popolazione terrestre totale.
2.1 - Statistiche campionarie: la media
(indice di posizione)
Sia x(1) … x(n) un campione di dati relativi ad una variabile di tipo numerica, allora
si può definire la media come segue. La media è una statistica campionaria che
punta alla centralità del dataset, ad una sorta di ‘baricentro’, fornendo
informazioni circa il comportamento della serie al suo centro.
𝑛
𝑥(1) + 𝑥(2) + … + 𝑥(𝑛)
1
𝑥̅ =
=
⋅ ∑ 𝑥(𝑖)
𝑛
𝑛
𝑖=1
2.2 - Statistiche campionarie: la mediana
(indice di posizione)
Sia x(1) … x(n) un campione di dati relativi ad una variabile di tipo numerica, allora
si può definire la mediana come segue, dopo aver ordinato in modo crescente il
dataset. La mediana, come la media, punta alla centralità dei dati, e serve per
dividere a metà la serie nel primo 50% e nel secondo 50%. Al contrario della
media non è sensibile a valori posti agli estremi della serie, quindi danno
informazioni differenti della stessa zona di dati, infatti i seguenti dataset hanno la
stessa mediana (5) ma media diversissima: D1 = -2, 1, 5, 8, 11 D2 = -1, 0, 2, 8, 1576, 2023.
𝑥(𝑛+1) → 𝑠𝑒 ′𝑛′ è 𝑢𝑛 𝑛𝑢𝑚𝑒𝑟𝑜 𝐷𝐼𝑆𝑃𝐴𝑅𝐼
2
𝑀𝑥
=
𝑥(𝑛) + 𝑥(𝑛+1)
2
{
2
2
𝑃
→ 𝑠𝑒 ′𝑛′ è 𝑢𝑛 𝑛𝑢𝑚𝑒𝑟𝑜 𝑃𝐴𝑅𝐼
2.3 - Statistiche campionarie: la varianza
(indice di dispersione)
Sia x(1) … x(n) un campione di dati relativi ad una variabile di tipo numerica, allora
si può definire la varianza campionaria come un valore che esprime la
distribuzione dei dati attorno alla media, e si determina come segue. Sul motivo
della divisione per ‘n-1’ non ci si soffermerà ora, basta sapere che è
probabilisticamente giusto. L’elevazione alla seconda serve a rendere positive
tutte le somme delle distanze, non si usa il modulo in quanto è dimostrato che
non minimizza bene la distanza per la media, ma lo fa per la mediana.
𝑛
𝑆
2
1
2
=
⋅ ∑ (𝑥(𝑖) − 𝑥̅ )
𝑛−1
𝑖=1
2.4 - Statistiche campionarie: deviazione standard
(indice di disp.)
Sia x(1) … x(n) un campione di dati relativi ad una variabile di tipo numerica, allora
si può definire la deviazione standard come la radice quadrata positiva della
varianza campionaria, ed sempre indice della distribuzione dei dati attorno alla
media, quindi esprime una informazione simile dalla varianza campionaria, ma
che si avvicina più alla media. Infatti, proprio come la media, la deviazione
standard ha la proprietà di conservare l’eventuale unità di misura del valore delle
variabili.
𝑛
𝑆 = + √𝑆 2
1
2
= +√
⋅ ∑ (𝑥(𝑖) − 𝑥̅ )
𝑛−1
𝑖=1
2.5 - Trasformazioni lineari sulle variabili
Può capitare che si voglia esprimere i dati tramite una unità diversa, come ad
esempio convertire un dataset di ‘tempi cronometrati’ da minuti a secondi,
oppure convertire un dataset di ‘temperature’ da celsius a Fahreneit. Effettuare
una conversione di questo tipo equivale ad attuare una trasformazione lineare
come:
𝑧(𝑖) = 𝑎 ⋅ 𝑥(𝑖) + 𝑏
𝑎 ∈ ℝ − {0}
𝑏∈ℝ
Dunque se 𝑥(𝑖) rappresenta una temperatura in celsius, e voglio che 𝑧(𝑖) sia la
conversione in Fahreneit, allora la trasformazione lineare è:
𝑧(𝑖) =
9
⋅ 𝑥 + 32
5 (𝑖)
Ok, posso effettuare una trasformazione lineare sulla sequenza di dati, però come
ne risentono le statistiche campionarie? Esattamente così:
Media
𝑧̅ = 𝑎 ⋅ 𝑥̅ + 𝑏
Mediana
𝑀𝑧 = 𝑎 ⋅ 𝑀𝑥 + 𝑏
Varianza
𝑆𝑧2 = 𝑎2 ⋅ 𝑆𝑥2
Deviazione standard
𝑆𝑧 = |𝑎| ⋅ 𝑆𝑥
2.6 - Statistiche campionarie: percentili
(indice di posizione)
Sia ‘p’ un valore reale compreso tra 0 e 1 (non inclusi). Allora si definisce il 100pesimo percentile campionario di un insieme di dati ordinati in modo crescente il
seguente valore. Osserviamo come il 50esimo percentile (ossia p=0.5) sia l’esatta
definizione di mediana campionaria, infatti la funzione del percentile
campionario è proprio quella di suddividere il dataset nel primo 100p% e poi
nella restante parte data da 100(1-p)%.
𝑥⌈𝑛⋅𝑝⌉
𝑅100⋅𝑝 = { 𝑥
(𝑛⋅𝑝) + 𝑥(𝑛⋅𝑝+1)
2
𝑠𝑒 𝑛 ⋅ 𝑝 ∉ ℚ
𝑠𝑒 𝑛 ⋅ 𝑝 ∈ ℚ
2.7 - I quartili e il boxplot
Si dicono quartili i seguenti percentili fondamentali: 25-esimo percentile (p=0.25)
50-esimo percentile (p=0.5) e 75-esimo percentile (p=0.75). Più precisamente il
25-esimo è detto primo quartile e si indica con Q 1, mentre il 50-esimo è detto
secondo quartile e si indica con Q2 (poco usato perché come detto corrisponde
alla mediana) infine il 75-esimo è detto terzo quartile e si indica con Q3.
Il valore definito tramite la differenza tra terzo quartile e primo quartile è detto
scarto (o differenza) interquartile, e si usa sempre per avere un indice sulla
concentrazione dei dati nella zona centrale (dunque è un indice di posizione).
L’intervallo di valori compresi tra Q1 e Q3 è detto box-plot, ed è usato per
individuare graficamente la differenza interquartile.
3.1 - Correlazione tra 2 variabili
Quando una serie di dati presenta 2 variabili ‘x’ e ‘y’, si può valutare l’eventuale
correlazione di questi ultimi mediante un diagramma a dispersione, o scatterplot,
ossia un piano cartesiano i quali punti rappresentano le coppie di variabili (x(i),y(i)).
La correlazione non è una cosa garantita, ma se c’è permette di sintetizzare (con
la dovuta approssimazione) la seconda variabile in funzione della prima. La
correlazione può essere lineare (funzione retta), quadratica (funzione parabola), o
sinusoidale o altro (…). In questo corso si vedrà solo come trovare quelle lineari.
3.2 - Grado di correlazione tra 2 variabili
L’eventuale presenza di una correlazione tra 2 variabili non comporta una
relazione di causa effetto, magari esiste una terza variabile non considerata che si
comporta come principio di causalità per entrambe. Posta questa premessa è
opportuno però stabilire una costante che esprima questo “grado di
compatibilità”, e per questo esiste il coefficiente di correlazione, definito come
segue:
𝑅𝑥,𝑦 =
𝑆𝑥,𝑦
𝑆𝑥 ⋅ 𝑆𝑦
dove Sx,y è la covarianza campionaria e SxSy è il prodotto tra le deviazioni
standard (attenzione non le varianze) rispetto alla variabile x e poi alla variabile y.
3.3 - Covarianza campionaria
La covarianza campionaria si differenzia dalla varianza campionaria per 2 motivi
importanti: può essere negativa, e tiene conto di due variabili allo stesso tempo.
Ma come è definita? Avendo 2 variabili, abbiamo anche 2 varianze campionarie,
una per ‘x’ e una per ‘y’: l’idea per la covarianza è formulare un indice che dica la
medesima cosa ma legando le differenze delle variabili con le rispettive medie.
Pertanto, la covarianza assume la seguente forma.
𝑛
1
𝑆𝑥2 =
⋅ ∑(𝑥𝑖 − 𝑥̅ )2
𝑛−1
𝑖=1
𝑛
1
𝑆𝑦2 =
⋅ ∑(𝑦𝑖 − 𝑦̅)2
𝑛−1
𝑖=1
𝑛
𝐶𝑂𝑉𝐴𝑅𝐼𝐴𝑁𝑍𝐴:
𝑆𝑥,𝑦
1
=
⋅ ∑ (𝑥𝑖 − 𝑥̅ ) ⋅ (𝑦𝑖 − 𝑦̅)
𝑛−1
𝑖=1
3.4 - Proprietà del coefficiente di correlazione
1. Il coefficiente di correlazione 𝑅𝑥,𝑦 è adimensionale, dunque invariante per
l’unità di misura dei dati delle variabili, al contrario della varianza;
2. Il coefficiente di correlazione è sempre tra -1 e 1 (estremi inclusi);
3. Se il coefficiente di relazione è 𝑅𝑥,𝑦 = 1, allora vuol dire che i punti nello
scatterplot sono allineati lungo una retta di trend con pendenza positiva; si
può anche ricavare l’equazione della retta del tipo ‘y = ax + b’ (del tutto
simile ad una funzione di trasformazione lineare), dove a>0;
4. Se il coefficiente di relazione è 𝑅𝑥,𝑦 = −1, allora vuol dire che i punti nello
scatterplot sono allineati lungo una retta di trend con pendenza negativa; si
può anche ricavare l’equazione della retta del tipo ‘y = ax + b’ dove stavolta
si ha a<0;
Cosa succede nel momento in cui si ipotizza che la correlazione tra 2 variabili sia
descritta nello scatterplot da una retta orizzontale? Semplice, vuol dire che la
variabile ‘y’ ospita solo dati tutti uguali, e ciò implica che la deviazione standard
per la variabile ‘y’ sia perforza ‘Sy = 0’. A seguito di questo, il calcolo del
coefficiente di correlazione è indefinito, siccome a denominatore abbiamo
bisogno che le due deviazioni siano rigorosamente diverse da 0. Dunque in
conclusione possiamo affermare che se una delle due deviazioni standard
relative alle variabili è 0, quella variabile può esser tranquillamente depennata
poiché variabile inutile.
3.5 - Trendline sullo scatterplot
Il coefficiente di correlazione ci informa su quanto i dati siano fedeli alla tendenza
tracciata da una retta chiamata trendline. Le trendline possono essere anche
curve, ma occupandoci solo di relazioni lineari per noi può esser solo una retta.
Se il coefficiente 𝑅𝑥,𝑦 tende a -1 o 1 ho una buona correlazione e la trendline
rappresenta abbastanza fedelmente la dipendenza lineare tra i dati della
variabile ‘x’ e ‘y’. Invece se il coefficiente 𝑅𝑥,𝑦 tende a 0 ho una scarsa correlazione
e la trendline (se possibile addirittura immaginarla e realizzarla graficamente) è
ben lontana da rappresentare la “non” correlazione tra i dati della variabile ‘x’ e
‘y’. In caso il coefficiente sia vicino a -1 o 1, è
possibile addirittura operare delle previsioni sulla
base della variabile indipendente su quella
dipendente. Attenzione, come già detto il
coefficiente di correlazione rileva solamente
legami lineari, ma non altri tipi di relazioni, talvolta
importanti come quella quadratica.
4.1 - Probabilità: lo studio dei modelli aleatori
La branchia della matematica che si occupa della descrizione degli esperimenti
aleatori (cioè tutti i fenomeni il cui esito non sia esattamente prevedibile) tramite
modelli aleatori, è detta probabilità. Cosa esattamente si intende quando si usa la
parola ‘aleatoria’? Semplicemente viviamo in una realtà dove tutto è
deterministico, ossia con un’elevata accuratezza e una fedele conoscenza della
fisica e della matematica è possibile prevedere (nel macrouniverso) praticamente
ogni fenomeno sulla base delle leggi naturali. Ad esempio il lancio di una
monetina dipende da un sacco di variabili che entrano in gioco per determinare
al seguito di equazioni e leggi innominabili se uscirà testa o croce. Lo studio
aleatorio dei fenomeni nasce proprio per approssimare la realtà deterministica in
probabilistica: appurato il fatto che la moneta sia non truccata, invece che
analizzare ogni traiettoria per ogni tiro, mi limito a dire che per i 2 esiti trovo
sperimentalmente che ho circa un uguale probabilità di esito testa o croce.
4.2 - Impiego della probabilità
La traduzione della realtà in un modello aleatorio è a tutti gli effetti una
semplificazione, perché mi baso su statistiche costruite con esiti passati per
formulare un modello che mi aiuti a capire come potrebbe avvenire l’evento
futuro, tralasciando lo studio fisico delle variabili in gioco per determinare tale
esito. Di questo ne risentono le scienze, specie la fisica, che fa della probabilità
uno dei capisaldi della meccanica quantistica, ma anche l’informatica che fa della
probabilità una materia utilissima nel campo dello speed-up degli algoritmi, che
magari possono impiegare un tempo particolarmente grande per computare un
problema che si può simulare tramite un modello basato sulle probabilità
(verificando che sia il più accurato possibile).
4.3 - Spazio campionario (o spazio degli esiti)
Viene chiamato spazio campionario (S) l’insieme di tutti gli esiti possibili, ed è la
prima cosa che bisogna stabilire e capire quando si parla di fenomeni aleatori.
Ad esempio nel lancio di un dado equilibrato a 6 facce, ho che:
𝑆 = {1, 2, 3, 4, 5, 6}
Invece se prendo in esame l’attesa in secondi fino al prossimo terremoto a
Verona, l’insieme spazio campionario diventa infinito:
𝑆 = [ 0, +∞ )
4.4 - Evento come affermazione e insieme
Un evento per definizione è un sottoinsieme dello spazio campionario, non
perforza di un elemento solo. Un evento di solito corrisponde a una affermazione
nel linguaggio comune, ad esempio con il dado posso dire che sono eventi:
“esce 4” {4} = 𝐴 ⊆ 𝑆, o “esce un numero dispari” {1, 3, 5} = 𝐵 ⊆ 𝑆. In quanto una
affermazione può essere confermata o smentita, è soggetta alle operazioni
logiche, che lavorano con vero e falso. Se posso vedere le affermazioni tramite la
logica proposizionale, posso vederle anche tramite le operazioni insiemistiche, in
particolare con queste regole (siano A e B due eventi contenuti in S):
• 𝐴 ∧ 𝐵 ⇔ 𝐴 ∩ 𝐵, il significato è evidenziare gli unici casi comuni a
entrambi gli eventi cosicchè accadano entrambi;
• 𝐴 ∨ 𝐵 ⇔ 𝐴 ∪ 𝐵, il significato è evidenziare che per l’avvenimento di A o B
serve appunto che avvenga o A o B quindi unendo i casi di ogni evento,
pertanto l’OR logico è inteso come inclusivo;
• ¬𝐴 ⇔ 𝐴𝑐 𝑜 𝐴̅ = 𝑆 − 𝐴, il significato è evidenziare che per negare
l’avvenimento di A, basta che accada qualsiasi esito non incluso in A ma
incluso nello spazio campionario ‘S’.
4.5 - Eventi disgiunti e differenza con esito
Cosa cambia tra evento ed esito? Come detto poco fa, un evento è un qualsiasi
sottoinsieme dello spazio campionario, anche l’insieme vuoto, mentre un esito è
un singolo elemento dello spazio campionario, anche interpretabile come un
evento di cardinalità 1 (contiene appunto 1 esito). Due esiti sono sempre
disgiunti in quanto singoli e distinti, invece due eventi possono anche avere esiti
in comune. Due eventi A e B sono disgiunti, o incompatibili, quando accade che
𝐴 ∩ 𝐵 = {∅}.
4.6 - Probabilità di un esito e di un evento
La probabilità di un esito corrisponde ad un coefficiente numerico che va da 0 a
1 compresi, che viene assegnato ad ogni singolo elemento di S, tale per cui la
somma di tali coefficienti fa sempre 1. Il significato di questa attribuzione è di
assegnare ad ogni esito un “grado di verosimiglianza”, ossia quanto è opportuno
avvenga rispetto ad altri esiti. La probabilità di un evento in quanto sottoinsieme
costituito da ‘n’ esiti è la somma delle probabilità di quegli esiti. Per indicare la
probabilità di un evento A si usa la terminologia: 0 ≤ ℙ(𝐴) ≤ 1.
La seguente descrizione della probabilità di un evento causa questi due assiomi:
• ℙ(𝑆) = 1;
• Se A e B sono due eventi disgiunti, allora possiamo affermare che vale la
seguente proprietà di additività
→ ℙ(𝐴 ∪ 𝐵 ) = ℙ(𝐴) + ℙ(𝐵 );
4.7 - Proprietà elementare di ogni probabilità
1. Siano A e B due eventi, e A ⊆ B (si può vedere l’inclusione come
l’implicazione logica), allora ho che:
ℙ(𝐵 − 𝐴) = ℙ(𝐵 ) − ℙ(𝐴)
2. Se A1, A2 … Ak sono ‘k’ eventi disgiunti, allora ho che:
𝑘
ℙ(𝐴1 ∪ 𝐴2 ∪ ⋯ ∪ 𝐴𝑘 ) = ℙ(𝐴1 ) + ℙ(𝐴2 ) + ⋯ + ℙ(𝐴𝑘 ) =
∑ ℙ(𝐴𝑖 )
𝑖=1
3. Siano A e B due eventi compatibili (quindi 𝐴 ∩ 𝐵 ≠ {∅}), allora ho una
estensione del secondo assioma, ossia che:
ℙ (𝐴 ∪ 𝐵 ) = ℙ (𝐴 ) + ℙ (𝐵 ) − ℙ (𝐴 ∩ 𝐵 )
4.8 - Probabilità ad esiti ed eventi equiprobabili
Una serie di ‘n’ esiti A1, A2 … An disgiunti si dicono equiprobabili quando hanno
le stesse probabilità di avvenimento ‘c’. Sostanzialmente vale la seguente identità:
𝑛
𝑛
∑ ℙ ( 𝐴𝑖 ) = ∑ 𝑐 = 𝑛 ⋅ 𝑐 = 1
𝑖=1
𝑖=1
⇒
𝑐=
1
1
=
|𝑆 |
𝑛
Quindi la probabilità di ognuno di questi eventi di avvenire è uguale è vale il
reciproco di ‘n’, ossia la cardinalità dello spazio campionario |S|.
Per una serie di ‘n’ eventi B1, B2 … Bn disgiunti, l’equiprobabilità si dimostra con lo
stesso concetto, ma dividendo ogni evento Bi nei suoi esiti Cj ( con 1<j<|Bi|+1 ) :
ℙ(𝐵𝑖 ) =
|𝐵𝑖 |
|𝑆|
Ad esempio se prendo come evento A = “esce un numero minore di 3” per il
lancio di un dado ho: S = {1, 2, 3, 4, 5, 6}
A = {1, 2}
P(A) = 2/6 = 33.3%
4.9 - Probabilità di un gruppo di eventi
Cosa succede però quando io voglio cercare di capire che probabilità c’è che
avvenga un evento distribuito su più esiti? Che la cardinalità degli elementi
dipende da più fattori e la formula precedente di base va bene, ma va rivisitata.
Infatti la cardinalità dello spazio campionario |S| non è più intuibile come “tutti gli
esiti possibili” ma come il prodotto tra tutti gli esiti possibili ad ogni test (ad
esempio se estraggo una carta da un mazzo di 40, l’estrazione dopo avrò 401=39 possibilità, dunque avendo per l’estrazione di 2 carte un |S| pari a 40x39).
Ciò sarebbe sufficiente a patto che consideri l’ordine di questi esiti importante,
altrimenti entra in gioco un secondo fattore, ossia i modi in cui gli esiti si possono
ordinare, e questo è facile siccome se abbiamo ‘K’ esiti, abbiamo ‘K!’ modi.
Pertanto lo spazio campionario avrà cardinalità come segue, ossia il prodotto
della serie decrescente di ‘n’ fino a ‘n-k+1’ diviso il numero di modi possibili
siccome non ci interessa (per ora) con che ordine arrivano gli esiti:
|𝑆 | =
𝑛 ⋅ (𝑛 − 1) ⋯ (𝑛 − 𝑘 + 1)
𝑛
=( )
𝑘
𝑘!
𝑑𝑒𝑡𝑡𝑜 𝐶𝑂𝐸𝐹𝐹𝐼𝐶𝐼𝐸𝑁𝑇𝐸 𝐵𝐼𝑁𝑂𝑀𝐼𝐴𝐿𝐸
Dove ‘n’ è il numero di elementi distinti e ‘k’ sono il numero di esiti del problema.
La cardinalità dell’evento in sé segue la medesima logica di prima, solo che ora
invece che vedere il prodotto tra tutti gli esiti possibili, vediamo il prodotto tra
tutti gli esiti accettati dall’evento in questione. Se voglio estrarre 2 assi in un
mazzo da poker, saprò che gli assi sono 4, dunque esistono ‘4 su 2 modi’ (a
parole come si pronuncia il coefficiente binomiale) affinchè avvenga l’evento.
Ecco dunque il calcolo dell’esempio appena fatto, questa è la probabilità B di
estrarre 2 assi:
4
4 ⋅ (4 − 1)
( )
|𝐵 | 𝑒𝑣𝑒𝑛𝑡𝑖 𝑓𝑎𝑣𝑜𝑟𝑒𝑣𝑜𝑙𝑖
1
2
2!
ℙ (𝐵 ) =
=
=
=
≈ 0.44%
52
|𝑆| 𝑒𝑣𝑒𝑛𝑡𝑖 𝑝𝑜𝑠𝑠𝑖𝑏𝑖𝑙𝑖
52 ⋅ (52 − 1)
13 ⋅ 17
(
)
2!
2
5.1 - Probabilità condizionata
Siano A e B due eventi di uno spazio campionario, e imponiamo che la
probabilità di avvenimento di B sia diversa da 0. Allora la probabilità che si
verifichi A sapendo che si è verificato B è detta “probabilità di A condizionata a
B”, ed è descritta da questa formula:
ℙ (𝐴 | 𝐵 ) =
ℙ (𝐴 ∩ 𝐵 )
ℙ (𝐵 )
Sostanzialmente così si vuole trovare la probabilità che l’evento A accada una
volta che l’evento B è accaduto, dunque legando l’avvenimento di A a B.
5.2 - Formula delle probabilità totali
La formula delle probabilità totali si occupa di trovare la probabilità di un evento
A, che è a sua volta legato all’evento B. L’idea è quella di ottenere una formula
che tenga conto di quella precedente, in quanto descrive proprio la probabilità
condizionata, ma sia nel caso l’evento B avvenga, che nel caso l’evento B non
avvenga, quindi per Bc. Risulta facilmente dimostrabile che la probabilità di
avvenimento di un evento A legato ad un evento B vale:
ℙ(𝐴) = ℙ(𝐴|𝐵) ⋅ ℙ(𝐵 ) + ℙ(𝐴|𝐵 𝑐 ) ⋅ ℙ(𝐵 𝑐 )
5.3 - Estensione della formula delle probabilità totali
La formula precedente ammette un’estensione oltre al solo evento B. La formula
si può estendere per un numero indefinito ‘n’ di eventi disgiunti tra loro, tale che
la loro unione formi lo spazio campionario. Poste queste due condizioni e
aggiunta la terza che vuole che nessuna delle probabilità associate sia nulla,
possiamo affermare che se vi sono ‘n’ eventi che possono avvenire se avviene un
evento A, allora la probabilità di A risulta:
ℙ(𝐴) = ℙ(𝐴|𝐵1 ) ⋅ ℙ(𝐵1 ) + ℙ(𝐴|𝐵2 ) ⋅ ℙ(𝐵2 ) + ⋯ + ℙ(𝐴|𝐵𝑛 ) ⋅ ℙ(𝐵𝑛 )
𝑛
ℙ(𝐴) = ∑ ℙ(𝐴|𝐵𝑖 ) ⋅ ℙ(𝐵𝑖 )
𝑖=1
5.4 - Formula di Bayes
Spesso durante la risoluzione di un problema che interpella le probabilità
condizionate, viene richiesto di trovare quale sia la probabilità di B condizionato
ad A. Spesso tra i dati però vi è la probabilità di A condizionato B, quindi sarebbe
opportuno stabilire un metodo per passare da una all’altra, mettendole in
correlazione. La formula di Bayes si occupa proprio di questo:
ℙ (𝐴 | 𝐵 ) = ℙ (𝐵 | 𝐴 ) ⋅
ℙ (𝐴 )
ℙ (𝐵 )
5.5 - Eventi indipendenti
E’ comune confondere il concetto di disgiunzione tra eventi con il concetto di
indipendenza tra eventi: la prima definizione è relativa ad un singolo
esperimento aleatorio, ossia l’intersezione di ‘n’ eventi è l’insieme nullo, mentre la
seconda definizione è relativa a più esperimenti aleatori, dove l’esperimento kesimo non dipende dagli esperimenti effettuati prima, ossia dal primo al ‘k-1’esimo.
Un esempio per capire cosa vuol dire evento indipendente può essere il lancio di
una monetina, siccome ogni esperimento non dipende dal precedente. Un
controesempio può essere l’estrazione di 2 carte da un mazzo, siccome una volta
estratta la prima, la seconda avrà una probabilità condizionata all’esito
precedente.
Per definizione, due eventi si dicono indipendenti quando vale:
ℙ ( 𝐴 ∩ 𝐵 ) = ℙ (𝐴 ) ⋅ ℙ (𝐵 )
Riprendendo il lancio di una monetina, imponiamo A = “al primo lancio esce
testa” e B = “al secondo lancio esce testa”. Dunque non è difficile convincersi che
l’intersezione A ∩ B = “in entrambi i lanci esce testa”. Per la definizione di eventi
indipendenti dunque la probabilità che escano 2 teste è:
ℙ (𝐴 ) = ℙ (𝐵 ) =
1
2
“A” e “B” sono indipendenti quindi…
ℙ (𝐴 ∩ 𝐵 ) = ℙ ( 𝐴 ) ⋅ ℙ (𝐵 ) =
1 1
1
⋅ =
2 2
4
5.6 - Indipendenza da più eventi
In accordo alla definizione di indipendenza tra due eventi, si può stabilire anche
una regola che definisce l’indipendenza di ‘n’ eventi. La serie di eventi A 1 … An si
dice indipendente se vale:
𝑛
ℙ(𝐴1 ∩ 𝐴2 ∩ ⋯ ∩ 𝐴𝑛 ) = ℙ(𝐴1 ) ⋅ ℙ(𝐴2 ) ⋯ ℙ(𝐴𝑛 ) = ∏ ℙ(𝐴𝑖 )
𝑖=1
Per far si che valga ciò bisogna anche accorgersi che valgano le indipendenze tra
ogni singolo evento e tra le loro intersezioni. Risulterà più chiaro dopo aver
imposto n=3:
ℙ(𝐴1 ∩ 𝐴2 ∩ 𝐴3 ) = ℙ(𝐴1 ) ⋅ ℙ(𝐴2 ) ⋅ ℙ(𝐴3 )
Ciò implica che:
ℙ(𝐴1 ∩ 𝐴2 ) = ℙ(𝐴1 ) ⋅ ℙ(𝐴2 )
ℙ(𝐴1 ∩ 𝐴3 ) = ℙ(𝐴1 ) ⋅ ℙ(𝐴3 )
ℙ(𝐴3 ∩ 𝐴2 ) = ℙ(𝐴3 ) ⋅ ℙ(𝐴2 )
5.7 - Probabilità di successo in più esperimenti aleatori
Preso atto di cosa voglia dire trovare la probabilità di eventi indipendenti,
vogliamo trovare una formula generale per capire la probabilità di un successo al
n-esimo esperimento aleatorio e la probabilità di ottenere ‘k’ successi in ‘n’ prove.
Per la prima formula basti pensare che per aver un successo al tentativo ‘n’, i
tentativi dal primo al ‘n-1’-esimo saranno vani. Dunque assumendo che la
probabilità di successo sia 0<p<1 e che ogni evento sia indipendente dal
precedente, posso affermare che gli eventi da A 1 ad An-1 sono fallimentari, ossia
accade ‘pc’ (1-p), mentre l’evento An è vincente, ossia accade ‘p’. Pertanto:
ℙ(𝐴1 ⋯ ∩ 𝐴𝑛−1 ∩ 𝐴𝑛 ) = ℙ(𝐴1 ) ⋯ ℙ(𝐴𝑛−1 ) ⋅ ℙ(𝐴𝑛 ) = (1 − 𝑝)𝑛−1 ⋅ 𝑝
Per la seconda formula il ragionamento è il medesimo: in ‘n’ esperimenti ho ‘k’
vittorie, dunque sarebbe istintivo affermare che la probabilità di ottenere ciò
possa essere (1-p)n-k(p)k. Questo vale sicuramente, a patto però che si voglia
trovare la probabilità di una sequenza ben precisa di vittorie e fallimenti. Ad
esempio se lancio una monetina 5 volte e stabilisco che vinco solo se esce
esattamente 2 volte testa, ho diversi modi per cui questo può accadere, uno di
questi può essere l’evento Ai = {(C,T,C,C,T)}, ma anche l’evento Aj = {(T,T,C,C,C)} e
così via. Il ragionamento si conclude riflettendo in questo modo: se ho diversi
modi ‘m’ di ottenere il successo, e ognuno di questi modi ha probabilità di
avvenire pari a quella detta prima, ossia (1-p)n-k(p)k, allora la probabilità di avere
‘k’ successi in ‘n’ esperimenti risulterà “m(1-p)n-k(p)k”.
I modi ‘m’ di ottenere il successo equivale a dire “ho ‘k’ vittorie da distribuire in ‘n’
esperimenti”, quindi ‘m’ vale proprio “n su k”, ossia il coefficiente binomiale.
Arrivati a ciò, la probabilità di avere ‘k’ successi in ‘n’ esperimenti è:
𝑛
ℙ(𝐴1 ∩ … ∩ 𝐴𝑛 ) = ( ) ⋅ (1 − 𝑝)𝑛−𝑘 ⋅ (𝑝)𝑘
𝑘
5.8 - Esempi
Lanci un dado 9 volte, e vinci solo se ottieni il numero 2:
1. Quale è la probabilità di vincere al quarto lancio? Quale al nono?
2. Quale è la probabilità di avere 4 vincite su 9 lanci?
3. Quale è la probabilità di avere 4 vincite, ma alternate da 5 sconfitte?
1→
ℙ
1
𝑛=4, 𝑝=6
ℙ
1
𝑛=9, 𝑝=6
= (1 −
𝑝)𝑛−1
5 3 1
53
125
⋅ (𝑝) = ( ) ⋅ ( ) = 4 =
≈ 9,6%
6
6
6
1296
5 8 1
58
390625
= (1 − 𝑝)𝑛−1 ⋅ (𝑝) = ( ) ⋅ ( ) = 9 =
≈ 3,8%
6
6
6
10077696
2→
ℙ
1
𝑛=9, 𝑘=4, 𝑝=6
5 5 1 4 126 ⋅ 3125
𝑛
9
= ( ) ⋅ (1 − 𝑝)𝑛−𝑘 ⋅ (𝑝)𝑘 = ( ) ⋅ ( ) ⋅ ( ) =
≈ 3,9%
𝑘
4
6
6
10077696
3→
Voglio solo la sequenza Ai = {(S,V,S,V,S,V,S,V,S)}
ℙ
1
𝑛=9, 𝑘=4, 𝑝= , 𝐴𝑖
6
= (1
− 𝑝)𝑛−𝑘
⋅ (𝑝)𝑘
5 5 1 4
55
3125
= ( ) ⋅( ) = 9 =
≈ 0,27%
6
6
6
10077696
6.1 - Variabili aleatorie (V.A.)
Una variabile aleatoria è una quantità numerica il cui valore dipende dall’esito di
un esperimento aleatorio, e per rappresentarle si usano le lettere maiuscole. Ad
esempio considerando il lancio di un dado, una variabile aleatoria può essere
senza problemi X=”punteggio maggiore di 4” o “punteggio dispari”.
Ad ogni variabile aleatoria corrisponde sicuramente almeno un evento, infatti
vale la seguente legge (dove ‘x’ minuscolo è il risultato di evento):
{𝑥 = 𝑋 ∨ 𝑥 ∈ 𝑋 }
𝑥∈ℝ
Una variabile aleatoria ovviamente permette di calcolare la probabilità che
quanto descritto avvenga, e vale ℙ(𝑋 = 𝑥 ). Tuttavia una variabile aleatoria spesso
raccoglie più eventi, ad esempio con la scrittura ℙ(𝑋 ≤ 𝑥 ) si vuole calcolare la
probabilità che un esito sia maggiore o uguale alla variabile aleatoria.
Più in generale consideriamo 𝐴 ⊆ ℝ come un insieme di risultati di eventi, allora
la probabilità che si verifichi quanto descritto dalla variabile aleatoria è:
ℙ (𝑋 ∈ 𝐴 )
6.2 - Variabili aleatorie discrete
Una variabile aleatoria si dice discreta quando i valori che può assumere, ossia i
risultati degli esiti, sono interi e al più numerabili. Dire che una variabile aleatoria
è discreta equivale ad affermare che quindi l’insieme A può avere cardinalità
finita o infinita, ma è numerabile:
𝑋 ∈ 𝐴 = {𝑥1 , 𝑥2 ⋯ 𝑥𝑛 }
→
|𝐴 | = 𝑛 ∈ ℝ
6.3 - Funzioni di massa per le V.A. discrete
Se X è una variabile aleatoria discreta, allora si può definire una funzione detta
“funzione di massa p(x)” per ogni singolo elemento di A, che corrisponde alla
probabilità che il relativo evento si verifichi: 𝑝(𝑥𝑖 ) = ℙ(𝑋 = 𝑥𝑖 ).
E’ intuitivo pensare che se abbiamo a che fare con variabili discrete, avremo |A|
eventi e dunque |A| funzioni di massa.
La principale proprietà che caratterizza la funzione di massa ci dice che calcolare
𝑝(𝑥 ∉ 𝐴) restituisce sempre 0, in quanto ‘x’ non è facente parte degli eventi
interessati in X. Al contrario calcolare 𝑝(𝑥 ∈ 𝐴) equivale ad effettuare la somma di
tutte le |A| funzioni di massa, e deve dare ovviamente come risultato 1:
𝑝(𝑥 ∈ 𝐴) = ∑ 𝑝(𝑥𝑖 ) = 1
𝑥∈𝐴
Siccome ‘x’ o appartiene o non appartiene ad ‘A’ , sappiamo che sicuramente
𝑥 ∈ 𝐴 ∪ 𝐴𝐶 = ℝ1 , e ciò ci informa che la somma delle funzioni di massa di ogni
evento deve fare anche essa 1, proprio come ci si aspettava:
∑ 𝑝(𝑥𝑖 ) = ∑ 𝑝(𝑥𝑖 ) + ∑ 𝑝(𝑥𝑖 ) = 𝑝(𝑥 ∈ 𝐴) + 𝑝(𝑥 ∉ 𝐴) = 1 + 0 = 1
𝑥∈ℝ
𝑥∈𝐴
𝑥∉𝐴
6.4 - Variabili aleatorie continue e funzione densità
Al contrario delle variabili aleatorie discrete, quelle continue appartengono ad un
insieme A con cardinalità sempre infinita e non numerabile, infatti è composto da
un insieme denso di valori. Pertanto una variabile aleatoria si definisce continua
se esiste una certa funzione f(x) “funzione di densità” tale che per ogni 𝐴 ⊆ ℝ si ha
ℙ(𝑥 ∈ 𝐴) = ∫ 𝑓 (𝑥 ) 𝑑𝑥
𝐴
Ma cosa esattamente si intende con una terminologia del genere? Per
comprenderlo facciamo un esempio, stabiliamo l’insieme A in modo tale che
raccolga tutti i risultati degli eventi compresi tra un certo valore ‘a’ e ‘b’, quindi
sostanzialmente si vuole calcolare:
𝑏
ℙ(𝑥 ∈ 𝐴) = ℙ(𝑎 ≤ 𝑥 ≤ 𝑏) = ∫ 𝑓(𝑥 ) 𝑑𝑥
𝑎
Cambiamo esempio, stabiliamo l’insieme B in modo tale che raccolga tutti i
risultati degli eventi maggiori di -2, allora si ha che:
+∞
ℙ(𝑥 ∈ 𝐵 ) = ℙ(𝑥 > −2) = ∫
−2
𝑓(𝑥 ) 𝑑𝑥
6.5 - Relazione tra funzione densità e funzione di massa
Non è difficile capire che se l’insieme corrisponde ai reali, allora per variabili
aleatorie continue si ha:
+∞
ℙ(𝑥 ∈ ℝ) = ∫
𝑓 (𝑥 ) ⋅ 𝑑𝑥 = 1
−∞
Come nel caso delle somme delle funzioni di massa su tutto R, si ha che la
probabilità risulta sempre 1. Ciò evidenzia una relazione tra le proprietà della
funzione di massa e di densità, infatti l’utilizzo del calcolo integrale è il risultato di
una somma infinita di funzioni di massa di variabili aleatorie discrete (anche nota
come somme di Riemann). La funzione densità usata come funzione integranda è
costituita dal legame di ogni singola coordinata (xi, p(xi)), che con il passaggio da
discreto a continuo diventa denso, e dunque una funzione continua vera e
propria che caratterizza la probabilità di avvenimento di ogni evento ‘x’.
6.6 - Valor medio di una variabile aleatoria
Sia ‘X’ una variabile aleatoria discreta. Posso stabilire il valor medio di ‘X’ tramite
la seguente formula, che altro non è che una media pesata:
𝐸 (𝑋 ) = ∑ 𝑥 ⋅ 𝑝(𝑥 )
𝑥∈𝑋∈ℝ
𝑥∈ℝ
In questo modo si va a creare uno strumento che pesa maggiormente le funzioni
di massa maggiori, ossia quelle con probabilità più alta. Non è difficile
immaginarsi come funzioni il valor medio per variabili aleatorie continue:
+∞
𝐸 (𝑥 ) = ∫
𝑥 ⋅ 𝑓 (𝑥 ) ⋅ 𝑑𝑥
−∞
Cosa esattamente esprime il valor medio? Si può dire che esprima se il gioco
probabilistico convenga o meno. Infatti se è negativo ci informa che la variabile
aleatoria ‘X’ raccoglie una serie di eventi generalmente non favorevoli.
6.7 - Proprietà del valor medio
• Il valor medio di una trasformazione lineare di ‘X’ corrisponde alla
medesima trasformazione lineare sul valor medio di ‘X’:
𝐸 (𝑎 ⋅ 𝑋 + 𝑏 ) = 𝑎 ⋅ 𝐸 (𝑋 ) + 𝑏
𝑎, 𝑏 ∈ ℝ
• Siano ‘X’ e ‘Y’ due variabili aleatorie dipendenti dallo stesso esperimento
aleatorio, allora ho che il valor medio della somma di ‘X’ e ‘Y’ corrisponde
alla somma dei valor medi:
𝐸 (𝑋 + 𝑌 ) = 𝐸 (𝑋 ) + 𝐸 (𝑌 )
• Il valor medio di una funzione di una variabile aleatoria discreta vale:
𝐸(𝑔(𝑋 )) = ∑ 𝑔(𝑥 ) ⋅ 𝑝(𝑥 )
𝑥∈ℝ
• Il valor medio di una funzione di una variabile aleatoria continua vale:
+∞
𝐸(𝑔(𝑋 )) = ∫
𝑔(𝑥 ) ⋅ 𝑓 (𝑥 ) ⋅ 𝑑𝑥
−∞
6.8 - Varianza di una variabile aleatoria
Come è possibile stabilire un valor medio di una variabile aleatoria, è possibile
stabilire anche la varianza, ossia un indice che ci informa sulla dispersione dei
dati attorno al valor medio, con lo stesso criterio usato nella statistica descrittiva:
𝑉𝑎𝑟(𝑋 ) = 𝐸 [(𝑋 − 𝜇 )2 ]
𝑑𝑜𝑣𝑒 𝜇 = 𝐸 (𝑋 )
Si può dimostrare mediante le proprietà sopra elencate che la varianza può esser
trovata anche con un’altra formula, ossia:
𝑉𝑎𝑟(𝑋 ) = 𝐸 (𝑋 2 ) − 𝜇 2 = 𝐸 (𝑋 2 ) − 𝐸 2 (𝑋)
Così:
𝐸 [(𝑋 − 𝜇 )2 ] = 𝐸 (𝑋 2 − 2𝑋𝜇 + 𝜇 2 )
quadrato di binomio
𝐸 (𝑋 2 − 2𝑋𝜇 + 𝜇 2 ) = 𝐸 (𝑋 2 − 2𝑋𝜇 ) + 𝜇 2
proprietà 1
𝐸(𝑋 2 − 2𝑋𝜇 ) + 𝜇 2 = 𝐸 (𝑥 2 ) + 𝐸 (−2𝑥𝜇 ) + 𝜇 2
proprietà 2
𝐸(𝑋 2 ) + 𝐸 (−2𝑋𝜇 ) + 𝜇 2 = 𝐸 (𝑋 2 ) − 2𝜇 ⋅ 𝐸 (𝑋) + 𝜇 2
proprietà 1
𝐸 (𝑋
𝐸 (𝑋
2)
2)
2
− 2𝜇 ⋅ 𝐸 (𝑋) + 𝜇 = 𝐸 (𝑋
2
2
− 2𝜇 + 𝜇 = 𝐸(𝑋
2)
2
2)
− 2𝜇 + 𝜇
2
proprietà μ = E(X)
2)
2(
conclusione
− 𝜇 = 𝐸 (𝑋
2
− 𝐸 𝑋)
6.9 - Proprietà della varianza di una variabile aleatoria
Le analogie con la varianza campionaria si conservano, infatti anche per la
varianza di variabili aleatorie si ha sempre un valore maggiore o uguale a 0. Se la
varianza è uguale a 0, proprio come nella statistica descrittiva, l’unica causa è che
ogni evento descritto dalla variabile aleatoria abbia uguale probabilità.
Valgono anche le seguenti proprietà:
• 𝑉𝑎𝑟(𝑎𝑋 + 𝑏) = 𝑎2 ⋅ 𝑉𝑎𝑟(𝑋 )
• 𝑉𝑎𝑟(𝑋 + 𝑌) = 𝑉𝑎𝑟(𝑋 ) + 𝑉𝑎𝑟(𝑌) + 2 ⋅ 𝐶𝑜𝑣(𝑋, 𝑌)
La seconda implicitamente ci dice che se X e Y sono indipendenti, allora la
varianza della somma è uguale alla sola somma delle varianze.
6.10 - Esempio
Due individui, A e B, eseguono il seguente gioco:
• Il giocatore A mette 3 euro in palio, e vince se il dado non da esito 6;
• Il giocatore B mette 1 solo euro in palio, ma vince se il dado mostra 6.
Sia X la variabile aleatoria “guadagno in seguito ad una giocata della persona A”.
Si calcolino le funzioni di massa di X e il valor medio di X, cercando di trarre una
conclusione sul vantaggio o meno di eseguire un numero ‘k’ consistente di volte
questo gioco essendo la persona A.
La variabile aleatoria X può assumere solamente 2 valori: il primo è ‘+1’ in quanto se vince A si porta a
casa il palio (ossia 4 euro meno i 3 giocati), mentre il secondo è ‘-3’ in quanto se perde, lascia a B i suoi 3
euro. Dunque le funzioni di massa da calcolare saranno 2 (perché A = {1, -3} e dunque |A| = 2):
p(X=1) = probabilità che non esca 6 = 5/6
p(X=-3) = probabilità che esca 6 = 1/6
Il valor medio vale ∑𝑥∈𝐴 𝑥 ⋅ 𝑝(𝑥 ) quindi (+1) ⋅ (5⁄6) + (−3) ⋅ (1⁄6) = 1⁄3
Il valor medio è positivo, ciò vuol dire che mediamente il giocatore A si porta a casa ad ogni giocata 0.33
euro. Fosse stato negativo avremmo avuto una media relativa a delle perdite per ogni giocata, dunque il
gioco sarebbe stato al contrario svantaggioso per A e favorevole per B. Se la persona A giocasse un
numero ‘k’ consistente di partite, considerando un guadagno medio di 0.33 euro si potrebbe fare
‘k·0.33’ieuro. Ad esempio con 100 giocate ci sta una buona probabilità di vincere 33 euro, o al limite se si
ha sfiga, almeno è raro andare in perdita!
7.1 - Distribuzioni congiunte
Siano X e Y due variabili aleatorie discrete dipendenti dallo stesso esperimento
aleatorio. Si definisce la funzione di massa congiunta di X e Y (ossia una funzione
che calcola la probabilità che avvengano entrambe):
𝑝𝑥,𝑦 (𝑥, 𝑦) = ℙ(𝑥 = 𝑋, 𝑦 = 𝑌)
Ad esempio, siano X=”il punteggio più piccolo nel lancio di 2 dadi” e Y=”il
punteggio più grande nel lancio di 2 dadi”, allora posso stabilire quanto valga la
funzione di massa calcolata in 1,1, oppure in 2, 5 (ovviamente x ≤ y):
px,y(1,1) = probabilità che il lancio più piccolo valga 1 e che il lancio più grande valga 1 = probabilità che
esca la combinazione unica 1, 1 = 1/36.
px,y(2,5) = probabilità che il lancio più piccolo valga 2 e che il lancio più grande valga 5 = probabilità che
esca la combinazione 2, 5 o 5, 2 = il doppio della probabilità di un singolo esito = 1/18.
7.2 - Distribuzioni singole
Se è nota la funzione di massa congiunta, è possibile ricavarsi le funzioni di massa
singole per ogni variabile aleatoria, anche chiamate funzioni di massa marginali.
Attenzione, perché non esiste un processo inverso, infatti dalle distribuzioni
singole non si riesce a ricavare la distribuzione congiunta delle variabili.
𝑝𝑥 (𝑥 ) = ℙ(𝑥 = 𝑋 ) = ∑ 𝑝𝑥,𝑦 (𝑥, 𝑦)
𝑝𝑦 (𝑦) = ℙ(𝑦 = 𝑌) = ∑ 𝑝𝑥,𝑦 (𝑥, 𝑦)
𝑦
𝑥
Dall’esempio di prima:
px(3) = probabilità che il lancio più piccolo valga 3 = somma delle funzioni di massa congiunte dove
escono le combinazioni (3,4) (4,3) (3,5) (5,3) (3,6) (6,3) = 6/36 = 3/18
7.3 – Valore atteso
Siano X e Y due variabili aleatorie, allora è detto “valore atteso” il calcolo del valor
medio di una funzione che ha come ingressi X e Y (il caso raffigurante vale per
variabili aleatorie discrete, per quelle continue servirebbe un doppio integrale):
𝐸 [𝑔(𝑋, 𝑌)] = ∑ 𝑔(𝑥, 𝑦) ⋅ 𝑝𝑥,𝑦 (𝑥, 𝑦)
𝑥,𝑦∈ℝ
7.4 – Indipendenza tra due variabili aleatorie
Per definire il concetto di indipendenza tra due variabili aleatorie, ci si rifà al
concetto di indipendenza tra due eventi, in quanto una variabile aleatoria non è
altro che un modo parallelo di studiare gli eventi. In sostanza, due variabili
aleatorie si dicono indipendenti se vale la seguente regola
∀𝐴, 𝐵 ⊆ ℝ
.
ℙ(𝑥 ∈ 𝐴, 𝑦 ∈ 𝐵 ) = ℙ(𝑥 ∈ 𝐴) ⋅ ℙ(𝑦 ∈ 𝐵 )
la quale implica una seconda regola, ossia la probabilità di X condizionato Y, che
come nel caso degli eventi, se X e Y sono indipendenti allora non sono
condizionati, e dunque vale ovviamente
ℙ (𝑥 ∈ 𝐴 | 𝑦 ∈ 𝐵 ) = ℙ (𝑥 ∈ 𝐴 )
Avevamo discusso su come non sia possibile risalire alla funzione di massa
congiunta tramite le funzioni di massa singole, ma nel caso di variabili aleatorie
indipendenti invece è consentito tramite la seguente identità, derivata dalla
prima regola:
𝑝𝑥,𝑦 (𝑥, 𝑦) = 𝑝𝑥 (𝑥 ) ⋅ 𝑝𝑦 (𝑦)
7.5 – Valor medio di due variabili aleatorie indipendenti
Il valor medio di due variabili aleatorie indipendenti utilizza la definizione di
valore atteso, con la funzione g(X,Y) = XY, ed è uguale al prodotto dei valor medi
delle singole variabili aleatorie (cosa non vera se fossero dipendenti):
𝐸 (𝑋 ⋅ 𝑌) = ∑ 𝑥 ⋅ 𝑦 ⋅ 𝑝𝑥,𝑦 (𝑥, 𝑦)
𝑥,𝑦∈ℝ
= ∑ 𝑥 ⋅ 𝑦 ⋅ 𝑝𝑥 (𝑥 ) ⋅ 𝑝𝑦 (𝑦) = ∑ 𝑥 ⋅ 𝑝𝑥 (𝑥 ) ⋅ 𝑦 ⋅ 𝑝𝑦 (𝑦)
𝑥,𝑦∈ℝ
𝑥,𝑦∈ℝ
= ∑ 𝑥 ⋅ 𝑝𝑥 (𝑥 ) ⋅ ∑ 𝑦 ⋅ 𝑝𝑦 (𝑦) = 𝐸 (𝑋 ) ⋅ 𝐸 (𝑌)
𝑥,𝑦∈ℝ
𝑥,𝑦∈ℝ
7.6 – Covarianza tra 2 variabili aleatorie
Date X e Y come due variabili aleatorie, si può definire la loro covarianza come:
𝐶𝑜𝑣 (𝑋, 𝑌) = 𝐸[(𝑋 − 𝐸 (𝑋 )) ⋅ (𝑌 − 𝐸 (𝑌))] = 𝐸 (𝑋 ⋅ 𝑌) − 𝐸 (𝑋 ) ⋅ 𝐸 (𝑌)
E’ interessante osservare come calcolare la covarianza tra X e sé stessa, restituisca
la varianza di X, ma soprattutto è interessante analizzare il caso in cui X e Y siano
due variabili aleatorie indipendenti. Abbiamo dimostrato non molti paragrafi fa
che in tal caso 𝐸 (𝑋 ⋅ 𝑌) = 𝐸 (𝑋 ) ⋅ 𝐸 (𝑌), e dunque sostituendo nella formula della
covarianza si ottiene 0. D’altronde il risultato ottenuto è coerente con la
definizione di indipendenza (meglio chiamarla scorrelazione in questo caso)
infatti non può esserci correlazione tra le due variabili.
La covarianza è dotata di segno, il quale ci informa sul modo in cui le due variabili
aleatorie si relazionano quando crescono e decrescono. Più precisamente:
• 𝐶𝑜𝑣(𝑋, 𝑌) > 0 →
• 𝐶𝑜𝑣(𝑋, 𝑌) < 0 →
𝑎𝑙 𝑐𝑟𝑒𝑠𝑐𝑒𝑟𝑒 𝑜 𝑑𝑒𝑐𝑟𝑒𝑠𝑐𝑒𝑟𝑒 𝑑𝑖 𝑋, 𝑎𝑙𝑙𝑜𝑟𝑎 𝑐𝑟𝑒𝑠𝑐𝑒 𝑜 𝑑𝑒𝑐𝑟𝑒𝑠𝑐𝑒 𝑌;
𝑎𝑙 𝑐𝑟𝑒𝑠𝑐𝑒𝑟𝑒 𝑜 𝑑𝑒𝑐𝑟𝑒𝑠𝑐𝑒𝑟𝑒 𝑑𝑖 𝑋, 𝑌 𝑠𝑖 𝑐𝑜𝑚𝑝𝑜𝑟𝑡𝑎 𝑎𝑙 𝑐𝑜𝑛𝑡𝑟𝑎𝑟𝑖𝑜
7.7 – Coefficiente di correlazione
Come per la statistica descrittiva, si può stabilire una quantità numerica che
descriva il grado di correlazione tra due variabili aleatorie, ossia:
𝐶𝑜𝑟𝑟(𝑋, 𝑌) =
𝐶𝑜𝑣 (𝑋, 𝑌)
√𝑉𝑎𝑟 (𝑋 ) ⋅ √𝑉𝑎𝑟(𝑌)
Il coefficiente di correlazione ha le seguenti proprietà:
•
•
•
•
è sempre compreso tra -1 e 1 (inclusi);
se Corr(X,Y) = 1, allora Y = aX + b dove ‘a’ è maggiore di 0 e ‘b’ reale;
se Corr(X,Y) = 1, allora Y = aX + b dove ‘a’ è minore di 0 e ‘b’ reale;
se Corr(X,Y) = 0, allora Cov(X,Y) = 0, implicando che X e Y sono scorrelati.
7.8 – Funzione di ripartizione di una variabile aleatoria
Si definisce funzione di ripartizione, una funzione che calcola le probabilità che
una variabile aleatoria sia minore o uguale al valore passato per funzione:
𝐹𝑋 (𝑥 ) = ℙ(𝑋 ≤ 𝑥 )
Nel caso X sia discreta, possiamo affermare quanto a sinistra, altrimenti se è
continua vale quanto a destra:
𝑥
𝐹𝑋 (𝑥) = ℙ(𝑋 ≤ 𝑥 ) = ∑ 𝑝𝑋 (𝑡 )
𝐹𝑋 (𝑥 ) = ℙ(𝑋 ≤ 𝑥 ) = ∫ 𝑓𝑋 (𝑡 ) ⋅ 𝑑𝑡
−∞
𝑡≤𝑥
Prendendo in esame la funzione di ripartizione per le variabili aleatorie continue,
per il teorema fondamentale del calcolo integrale, possiamo affermare con
sicurezza che vale 𝐹𝑋′ (𝑥 ) = 𝑓𝑋 (𝑥). Questa informazione servirà per calcolare come
varia la funzione di densità se effettuo una trasformazione lineare su X del tipo
Yt=-aX+b. Ecco:
𝐹𝑌 (𝑦) = ℙ(𝑌 ≤ 𝑦) = ℙ(𝑎 ⋅ 𝑋 + 𝑏 ≤ 𝑦) = ℙ (𝑋 ≤
𝜕
𝜕
𝑦−𝑏
⋅ 𝐹𝑌 (𝑦) =
⋅ 𝐹𝑋 (
)
𝜕𝑦
𝜕𝑦
𝑎
𝑓𝑌 (𝑦) =
⇒
𝑦−𝑏
𝑦−𝑏
) = 𝐹𝑋 (
)
𝑎
𝑎
𝑓𝑌 (𝑦) =
𝐹𝑋′
𝑦−𝑏
𝑦−𝑏 ′
(
)⋅[
]
𝑎
𝑎
1
𝑦−𝑏
⋅ 𝑓𝑋 (
)
𝑎
𝑎
Il risultato è che la funzione densità relativa alla variabile aleatoria Y = aX+b, è
legata alla funzione densità di X tramite l’equazione appena trovata.
8.1 – Classi notevoli di V.A. discrete: variabili di Bernoulli
Una variabile aleatoria si dice di Bernoulli con parametro 𝑝 ∈ [0,1] se assume
solamente i valori 0 ed 1, dunque gli unici scenari sono X=0 e X=1.
• Se X=1 vale ‘p’ allora posso dire che la funzione di massa p x(1) = p;
• se X=0 vale ‘1-p’ allora posso dire che la funzione di massa px(0) = 1 – p;
dunque vale la seguente proposizione: ℙ(𝑋 = 1) = 𝑝 = 1 − ℙ(𝑋 = 0). Un
esempio di variabile di Bernoulli può essere il lancio di una monetina siccome i
valori unici di X sono 1 (inteso come testa) e 0 (inteso come croce) mentre il
parametro ‘p’ corrisponde a px(1), che è ½.
Appurato ciò possiamo anche calcolarci il valor medio e la varianza di X
conoscendone il parametro ‘p’, e risultano:
• E(X) = 0×px(0) + 1×px(1) = 0×(1-p) + 1×p = p
• Var(X) = E(X2) – E2(X) = [ 02×(1-p) + 12×p ] – p2 = p – p2 = p(1-p)
8.2 – Classi notevoli di V.A. discrete: variabili binomiali
Una variabile si dice binomiale nel momento in cui possiede una funzione di
massa tale, considerando i parametri ‘n’ numero di prove ripetute, e ‘p’
probabilità di avere successo, e si consideri X la variabile aleatoria relativa al
numero di successi.
𝑋 ∈ [0, 𝑛]
𝑝𝑋 (𝑥 ∈ 𝑋 ) = ℙ(𝑥 = 𝑋 ) = (
𝑛
) ⋅ 𝑝 𝑥 ⋅ (1 − 𝑝)𝑛−𝑥
𝑥
Una variabile aleatoria binomiale può essere reinterpretata anche come fosse di
Bernoulli, dove stabiliamo una certa quantita xi (dove ‘i’ va da 1 a n) che segnala
se la i-esima prova è un successo o meno. Per intenderla come di Bernoulli,
diremo che:
𝑥𝑖 = {
1
0
𝑠𝑒 𝑙𝑎 𝑖 − 𝑒𝑠𝑖𝑚𝑎 𝑝𝑟𝑜𝑣𝑎 è 𝑢𝑛 𝑠𝑢𝑐𝑐𝑒𝑠𝑠𝑜
𝑎𝑙𝑡𝑟𝑖𝑚𝑒𝑛𝑡𝑖
Essendo che per la definizione di prove ripetute ogni esperimento aleatorio è
indipendente, ora ho ‘n’ variabili di Bernoulli di parametro ‘p’, siccome ho
imposto che il valore di xi può esser solo 0 o 1, con le loro funzioni di massa.
8.3 – Classi notevoli di V.A. discrete: variabili di Poisson
Una variabile si dice di Poisson con parametro λ (lamba, sempre > 0) se può
assumere dei valori interi xi da i=0 a un certo i=n e ha come funzione di massa:
𝑒 −𝜆 ⋅ 𝜆𝑘
𝑝𝑋 (𝑘 ) = ℙ(𝑋 = 𝑘 ) =
𝑘!
𝑋 ∈ [0, 𝑛]
Una funzione di massa strutturata in questo modo può essere accettata? Si
purchè la somma di tutte le funzioni di massa dia il canonico valore 1, e questo è
dimostrabile in pochi passaggi tramite la serie esponenziale di Taylor:
+∞
𝑛
𝑛
ℙ(𝑋 ∈ ℝ) = ∑ 𝑝𝑥 (𝑖 ) = 𝑙𝑖𝑚 ∑ 𝑝𝑥 (𝑖 ) = 𝑙𝑖𝑚 ∑
𝑛→+∞
𝑖=0
𝑖=0
𝑛→+∞
𝑒 −𝜆 ⋅ 𝜆𝑖
=
𝑖!
𝑖=0
𝑛
𝑒 −𝜆 ⋅ 𝑙𝑖𝑚 ∑
𝑛→+∞
𝜆𝑖
= 𝑒 −𝜆 ⋅ 𝑒 𝜆 = 1
𝑖!
𝑖=0
Si può dimostrare che se prendiamo una variabile aleatoria binomiale Y con i suoi
parametri ‘n’ e ‘p’, dove n>>1 e p<<1, allora vale quanto segue, dove X è una
variabile aleatoria di Poisson:
ℙ(𝑌 = 𝑘 ) ≈ ℙ(𝑋 = 𝑘 ). In tal caso il parametro
lamda della variabile di Poisson è uguale a 𝜆 = 𝑛 ⋅ 𝑝.
8.4 – Classi notevoli di V.A. continue: variabili uniformi
Siano i due parametri α e β tali che siano reali e valga α<β. Una variabile aleatoria
X si dice uniforme in (α,β) se è costante in quell’intervallo. Sostanzialmente deve
valere che:
𝛽
ℙ(𝛼 ≤ 𝑋 ≤ 𝛽) = ∫ 𝑓𝑋 (𝑥 ) 𝑑𝑥 = 𝑓𝑋 (𝑥) ⋅ (𝛽 − 𝛼 ) = 1
𝛼
𝑓𝑋 (𝑥 ) = {
1
𝑝𝑒𝑟 𝛼 ≤ 𝑥 ≤ 𝛽
𝛽−𝛼
0 𝑝𝑒𝑟 𝑥 > 𝛽 𝑜 𝑥 < 𝛼
A tal proposito, si può ricavare che (ovviamente):
𝐸 (𝑋 ) =
𝛽+𝛼
2
8.5 – Classi notevoli di V.A. continue: variabili normali
Siano μ e σ due variabili reali (consideremo la quantità σ2). Possiamo dire che X
sia una variabile aleatoria normale con parametri μ (detto valor medio o atteso) e
σ2 (detta varianza aleatoria) se:
𝑓𝑋 (𝑥) =
1
√2𝜋𝜎 2
⋅𝑒
−
(𝑥−𝜇)2
2𝜎2
Analizzando la funzione otteniamo delle informazioni, come la caratteristica
forma a campana (detta campana di De Moivre) e come il fatto che il parametro μ
sia responsabile della traslazione orizzontale di tutta la funzione sull’asse delle x.
La funzione è detta distribuzione normale delle variabili aleatorie in quanto è
ricorrente spessissimo in natura, molte situazioni seguono un andamento
normale, come ad esempio l’altezza degli esseri umani, scarna agli estremi e
concentratissima nel valore centrale, ossia in μ. Per segnalare che X è una
variabile aleatoria normale si usa la seguente notazione: 𝑋 ~ 𝑁(𝜇, 𝜎 2 ).
8.6 – Osservazioni sulle variabili normali
La distribuzione normale è affascinante in quanto sembra essere una proprietà
intrinseca di moltissimi fenomeni in natura, pertanto è utile osservare alcune cose
riguardo alla funzione di densità normale. Prendiamo in esame 𝑍 ~ 𝑁(0,1):
𝑓𝑍 (𝑥) =
1
√2𝜋
⋅𝑒
−
𝑥2
2
come si può notare è una funzione pari, quindi è simmetrica sull’asse y, il quale
crea l’intersezione con la funzione nel suo massimo, ossia la cima della campana.
In tal caso Z prende il nome di normale standard, e possiede le seguenti
proprietà dimostrabili:
• E(Z) = 0;
• Var(Z) = E(Z2) = 1;
Proviamo a vedere cosa accade quanto attuo la seguente trasformazione lineare:
𝑋 =𝜎⋅𝑍+𝜇
Succede che 𝑍 ~ 𝑁(0,1) implica che 𝑋 ~ 𝑁(𝜇, 𝜎 2 ), con una conseguente (e
velocemente dimostrabile) variazione di valor medio e varianza:
E(X) = E(Z) · σ + μ = μ
Var(X) = σ2 · Var(Z) = σ2
8.7 – Proprietà delle variabili normali
Per la risoluzione di problemi che includono le variabili normali è importante
considerare le seguenti 2 proprietà.
• Sia 𝑋 ~ 𝑁 (𝜇, 𝜎 2 ), e sia 𝑍 = 𝑎𝑋 + 𝑏, allora concludo 𝑍 ~ 𝑁(𝑎𝜇 + 𝑏, 𝑎2 𝜎 2 ).
Dimostro ciò ricordando che i parametri rappresentano rispettivamente
media e varianza, e pertanto una loro trasformazione lineare risulterebbe
quanto appena descritto. Ciò comporta l’esistenza di una importantissima
trasformazione lineare detta standardizzazione, che rende qualsiasi
variabile normale una standard:
𝑍=
𝑋−𝜇
1
𝜇
= ⋅𝑋−
𝜎
𝜎
𝜎
∧
𝑋 ~ 𝑁(𝜇, 𝜎 2 )
→
𝑍 ~ 𝑁(0,1)
• Siano 𝑋 ~ 𝑁(𝜇1 , 𝜎12 ) e 𝑌 ~ 𝑁(𝜇2 , 𝜎22 ) due variabili aleatorie normali
indipendenti, e sia 𝑊 = 𝑋 + 𝑌 la loro somma. Allora ho che:
(𝑋 + 𝑌) = 𝑍 ~ (𝜇1 + 𝜇2 , 𝜎12 + 𝜎22 )
8.8 – Calcoli con le variabili normali mediante Ф(x)
Se volessi calcolarmi la probabilità che una variabile normale 𝑋 ~ 𝑁(𝜇, 𝜎 2 ) sia in
un certo range [a, b], sarebbe necessario utilizzare la standardizzazione attuando
la relativa trasformazione lineare:
𝑎−𝜇 𝑋−𝜇 𝑏−𝜇
𝑎−𝜇
𝑏−𝜇
ℙ(𝑎 ≤ 𝑋 ≤ 𝑏) = ℙ (
≤
≤
) = ℙ(
≤𝑍≤
)
𝜎
𝜎
𝜎
𝜎
𝜎
So di per certo che 𝑍 ~ 𝑁(0,1), dunque posso rifarmi alla funzione Ф, che altro
non è che la funzione di ripartizione di una variabile normale standard calcolata
in un certo punto, di cui si conoscono i valori tramite una tabella nota (ricavata
tramite metodi computazionali). Proseguendo con l’esercizio ho che:
𝑏−𝜇
𝜎
𝑎−𝜇
𝑏−𝜇
) = ∫
ℙ(
≤𝑍≤
𝜎
𝜎
𝑥2
𝑒− 2
√2𝜋
⋅ 𝑑𝑥 = 𝐹𝑍 (
𝑏−𝜇
𝑎−𝜇
) − 𝐹𝑍 (
)
𝜎
𝜎
𝑎−𝜇
𝜎
E siccome 𝑍 ~ 𝑁 (0,1) allora posso affermare:
𝐹𝑍 (
𝑏−𝜇
𝑎−𝜇
𝑏−𝜇
𝑎−𝜇
) − 𝐹𝑍 (
) = 𝛷(
)−𝛷(
)
𝜎
𝜎
𝜎
𝜎
Al seguente link pdf (CLICK) vi è la tabella per trovare i valori di una certa 𝛷 (𝑥 ).
Noto l’argomento ‘x’, cercare il valore corrispondente nella tabella funziona nel
seguente modo.
• Si scompone l’argomento alla seconda cifra decimale come somma della
parte fino ai decimi + la parte con solo i centesimi. Ad esempio se x=1.34,
allora scompongo in x=1.30+0.04.
• Si cerca sulla prima colonna l’elemento che contiene la parte fino ai decimi
e si appunta l’indice di riga. Nel nostro esempio nella tabella alla 14esima
riga (partendo da 0.0) si trova il valore 1.3.
• Si cerca sulla prima riga l’elemento che contiene (approssimativamente) la
parte con i soli centesimi e si appunta l’indice di colonna. Nel nostro
esempio nella tabella alla quinta colonna (partendo da 0.00) si trova il
valore 0.04.
• Il valore 𝛷(𝑥 ) sarà individuato dal valore presente nell’intersezione dei due
indici. Nel nostro esempio riga 14 e colonna 5 generano il valore 0.90988,
che sarà proprio 𝛷(𝑥 = 1.34).
Accorgimenti importanti:
• si può fare anche il lavoro inverso, ossia partire da un valore della funzione
𝛷(𝑥 ) e trovare ‘x’;
• per trovare 𝛷(𝑥 ) con ‘x<0’ si può usare la seguente proprietà di simmetria,
per poi tornare ad usare la tabella sopra riportata.
𝛷 (−𝑥 ) = 1 − 𝛷 (𝑥 )
Dimostrare ciò non è affatto complicato:
𝑥
𝛷 (𝑥) = 𝐹𝑍 ~ 𝑁(0,1) (𝑥) = ∫
𝑒
𝑡2
−
2
√2𝜋
⋅ 𝑑𝑡
−∞
𝑥
∫
−∞
𝑡2
−
𝑒 2
√2𝜋
+∞
⋅ 𝑑𝑡 + ∫
𝑡2
−
𝑒 2
√2𝜋
−∞
⋅ 𝑑𝑡 = 1
𝑓𝑢𝑛𝑧𝑖𝑜𝑛𝑒 𝑝𝑎𝑟𝑖
⇔
𝑥
𝛷 (𝑥 ) + ∫
𝑡2
−
𝑒 2
√2𝜋
⋅ 𝑑 (−𝑡) = 1
−𝑥
−𝑥
𝛷 (𝑥 ) − ∫
−∞
−
𝑡2
−
𝑒 2
√2𝜋
⋅ 𝑑𝑡 = 1
𝑡𝑟𝑜𝑣𝑎𝑡𝑜 𝛷(−𝑥)
⇔
𝛷 (𝑥) + 𝛷(−𝑥) = 1
9.1 – Definizione di statistiche campionarie di var. aleatorie
Siano X1, X2, … Xn variabili aleatorie indipendenti e con la stessa distribuzione,
rappresentanti il modello di un dataset. Ogni combinazione di tali variabili è
detta statistica campionaria di una variabile aleatoria.
Ad esempio una statistica campionaria di un modello possono essere la media e
la varianza, definite come segue:
𝑛
𝑋̅𝑛
1
1
=
⋅ (𝑋1 + 𝑋2 + ⋯ + 𝑋𝑛 ) =
⋅ ∑ 𝑋𝑖
𝑛
𝑛
𝑖=1
𝑛
𝑆𝑛2
1
=
⋅ ∑ (𝑋𝑖 − 𝑋̅𝑛 )2
𝑛−1
𝑖=1
Cosa cambia dalle statistiche campionarie classiche? La principale variazione sta
nel significato di quel che è la singola variabile: prima era un valore numerico
senza ulteriore significato se preso singolarmente, facente parte di un insieme di
dati; ora è una variabile aleatoria, e ciò comporta un’estensione di significato
delle statistiche campionarie. Cosa esattamente vuol dire fare la media di un
modello, se anche una singola variabile ha il proprio valor medio? Vediamo:
Stabiliamo che per ‘i’ compresa tra 1 e n, i valor medi e le varianze di ogni singola
Xi siano E(Xi)=μ e Var(Xi)=σ2. Sapendo che ogni Xi è indipendente dalle restanti
variabili del modello, cosa vuol dire calcolare quanto segue?
𝑛
𝑛
𝑛
𝑖=1
𝑖=1
𝑖=1
1
1
1
𝑛⋅𝜇
𝐸 (𝑋̅𝑛 ) = 𝐸 ( ⋅ ∑ 𝑋𝑖 ) =
⋅ ∑ 𝐸 (𝑋𝑖 ) =
⋅ ∑𝜇 =
= 𝜇
𝑛
𝑛
𝑛
𝑛
Calcolare il valor medio della variabile aleatoria che rappresenta la media delle
variabili del dataset, ognuna con un valor medio μ identico all’altra, corrisponde
proprio al valore μ.
𝑛
1
𝑉𝑎𝑟 (𝑋̅𝑛 ) = 𝑉𝑎𝑟 ( ⋅ ∑ 𝑋𝑖 ) =
𝑛
𝑖=1
𝑛
1
𝑛 ⋅ 𝜎2
𝜎2
(
)
⋅ ∑ 𝑉𝑎𝑟 𝑋𝑖 =
=
𝑛2
𝑛2
𝑛
𝑖=1
Mentre il valor medio della media non sempre dipende dal numero di elementi
del dataset, la varianza invece si, e ciò è importantissimo per la formulazione
della legge dei grandi numeri.
9.2 – La legge dei grandi numeri
Abbiamo appena dimostrato che la varianza della media tra le variabili aleatorie
è uguale alla somma delle varianze delle singole variabili divisa per il numero di
variabili del dataset al quadrato (formula in verde). Nel caso che le varianze siano
tutte uguali comunque si preserva la dipendenza da ‘n’, ma ciò esattamente che
vuole dire?
Proviamo a risolvere questo semplice limite per poter rispondere intuitivamente:
𝑛
1
𝑙𝑖𝑚 𝑉𝑎𝑟(𝑋̅𝑛 ) = 𝑙𝑖𝑚 2 ⋅ ∑ 𝑉𝑎𝑟(𝑋𝑖 ) =
𝑛→+∞
𝑛→+∞ 𝑛
𝑖=1
𝑙𝑖𝑚
𝑛→+∞
1
⋅ 𝑆(𝑛) = 0+
2
𝑛
Eseguire questo limite vuol dire studiare il comportamento della varianza della
media del modello, e si osserva che tende a 0 se ho un’ingente quantità di
variabili, tendente a infinito, purchè si dimostri che la funzione relativa alla somma
S(n) sia una forma polinomiale di grado MAI superiore al primo.
L’affermare che più è grande il dataset e più la varianza della media si avvicina
allo 0, è una implicazione alla famosissima “Legge dei grandi numeri”, e in parole
povere afferma che “più è alto il numero di prove e più la probabilità
sperimentale coincide con quella teorica”.
In una definizione più formale e rigorosa la legge dei grandi numeri ci informa
che per ogni valore piccolo ε>0 il seguente limite fa 1, traducendo quindi
l’affermazione ‘in soldoni’ data prima in questo modo “tendendo a infinito il
numero di esperimenti aleatori, la media campionaria e il valor medio coincidono
in modo indistinguibile (errore minore di ε)”.
𝑙𝑖𝑚 ℙ( |𝑥̅ 𝑛 − 𝜇 | < 𝜀 )
𝑛→+∞
9.3 – Teorema del limite centrale
Il teorema afferma che qualunque sia la distribuzione delle variabili normali X i, la
distribuzione di Zn per 𝑛 → +∞ è ben approssimata da una normale standard, e
.
per denotare ciò si usa un puntino sulla tilde: 𝑍𝑛 ~ 𝑁 (0,1). Più precisamente:
𝑛→+∞
𝐹𝑍𝑛 (𝑧) = ℙ(𝑍𝑛 < 𝑧) →
𝛷 (𝑧 )
L’affermazione precedente ci permette di dire che la media delle X i è
approssimabile nel seguente modo
. 𝑁 (𝜇, 𝜎 ⁄ )
̅𝑛 ~
X
𝑛
2
mentre la somma delle Xi nel seguente modo
.
𝑋1 + 𝑋2 + ⋯ + 𝑋𝑛 = 𝑋̈ ~ 𝑁 (𝑛𝜇, 𝑛𝜎 2 )
9.4 – Applicazione del teorema sulle variabili binomiali
Come già sappiamo, le variabili binomiali non sono altro che un serie di ‘n’
variabili di Bernoulli. Una variabile binomiale possiede sempre una funzione di
ripartizione che si può confondere sempre meglio con la normale più ‘n’ tende a
infinito. Esaminiamo le variabili per ora:
𝑋𝑖 ~ 𝐵𝑒(𝑝)
𝑋1 + 𝑋2 + ⋯ + 𝑋𝑛 = 𝑋̈ ~ 𝐵𝑖𝑛(𝑛, 𝑝)
Ora applichiamo il teorema del limite centrale, assumendo che effettivamente ‘n’
sia alto a sufficienza per provare a confondere una binomiale con una normale. Il
teorema ci informa che vale quanto segue, ma solo a 2 condizioni (e si devono
verificare entrambe):
.
𝑋̈ ~ 𝑁(𝑛𝑝, 𝑛𝑝(1 − 𝑝))
⇔
{
𝑛⋅𝑝≥5
𝑛 ⋅ (1 − 𝑝) ≥ 5
Il senso di usare 5 come valore di confronto proviene da prove sperimentali che vanno a
conferma del fatto che se non si verificano tali condizioni, allora l’approssimazione
sarebbe troppo azzardata e l’errore troppo evidente. I due vincoli impongono che se
n<10, allora l’approssimazione da variabili binomiali a normali non avviene MAI.
Il teorema del limite centrale si può applicare alle Poisson? Dipende, abbiamo già visto
come una Poisson possa confondersi con una binomiale a patto che ‘n’ sia molto grande
e ‘p’ tenda a 0. Se i valori di ‘n’ e ‘p’ sono tali da soddisfare le due disequazioni sopra
citate allora la risposta è sì, altrimenti no. Un esempio convincente può essere una
variabile X di Poisson con parametro λ=np dove n=45000 e p=0.001: sebbene il criterio
per considerarla 𝑋 ~ 𝑃𝑜(𝜆) sia soddisfatto, il criterio per approssimarla a normale no, in
quanto np=4.5 (<5, NON OK) e n(1-p)=44955 (>5, OK).
Per visionare la differenza tra un approccio con le variabili binomiali e con le variabili
normali vi è un esempio appena sotto.
9.5 – Esempio: differenza tra binomiale e approssim. normale
Sia ‘n’ il numero di lanci di una moneta equilibrata uguale a 100. Si calcoli il
valore esatto della probabilità che il numero di teste sia tra le 40 e le 70 (estremi
compresi). Preso atto del valore difficilmente calcolabile, approssimarlo con il
teorema del limite centrale.
CALCOLO ESATTO:
Siano n=100, p=0.5 e X=”numero di teste in 100 lanci” ~ Bin(n,p)
Allora io voglio calcolare esattamente ℙ(40 ≤ 𝑋 ≤ 70). Per definizione delle
variabili binomiali, ho che tale valore equivale alla somma delle funzioni di massa
da 40 a 70. Quindi:
70
70
70
𝑛=40
𝑛=40
𝑛=40
1 𝑘 1 𝑛−𝑘
100
100 1
ℙ(40 ≤ 𝑋 ≤ 70) = ∑ ℙ(𝑋 = 𝑛) = ∑ (
)⋅( ) ⋅( )
= ∑(
)⋅ 𝑛
𝑛
𝑛
2
2
2
Il valore perfetto è questo, ma numericamente difficile da calcolare, quindi si può
provare ad approssimarlo con il teorema del limite centrale.
CALCOLO APPROSSIMATO:
Siano n=100, p=0.5 e X=”numero di teste in 100 lanci” ~ Bin(n,p)
Per poter usare l’approssimazione verifico che np=50 > 5 e n(1-p)=50 > 5. Prima
di utilizzare la normale dobbiamo attuale la cosiddetta correzione di continuità,
ossia “sistemare” il passaggio da variabile discreta a continua, in quanto le prime
usano 𝑋 ∈ ℤ, mentre le seconde 𝑋 ∈ ℝ. Se con le binomiali potevamo affermare
con totale certezza che ℙ(40 ≤ 𝑋 ≤ 70) = ℙ(39 < 𝑋 < 71), ora dire ciò sarebbe un
errore non da poco.
Per sistemare il passaggio da discreto a continuo, la correzione di continuità
impone (sempre per ragioni dimostrate sperimentalmente) di utilizzare come
estremi una via di mezzo. Dunque il calcolo continua così:
.
𝑋̈ ~ 𝑁(𝑛𝑝 = 50, 𝑛𝑝(1 − 𝑝) = 25)
ℙ(39,5 < 𝑋 < 70,5) ≈ ℙ(39,5 < 𝑋̈ < 70,5)
39,5 − 50 𝑋̈ − 50 70,5 − 50
) = ℙ(−2,1 < 𝑁(0,1) < 4,1) =
ℙ(
<
<
5
5
5
𝛷(4,1) − 𝛷(−2,1) = 0,982
≈
𝑐𝑜𝑟𝑟𝑒𝑡𝑡𝑜 𝑎𝑙 𝑚𝑖𝑙𝑙𝑒𝑠𝑖𝑚𝑜
10.1 – La statistica inferenziale: definizione
La statistica inferenziale si discosta notevolmente da quella descrittiva, utilizzata
per lo più nel rappresentare graficamente i dati e caratterizzarne alcuni limitati
aspetti come gli indici di dispersione, di posizione e di forma.
L’obiettivo della statistica inferenziale è quello di capire l’effettiva distribuzione
della popolazione partendo dalle informazioni provenienti da un campione
casuale estratto. Più precisamente il problema da risolvere è trovare i valori dei
parametri incogniti, data una certa distribuzione dei dati.
Fare inferenza sui dati vuol dire proprio trovare e selezionare un valore plausibile
per il parametro non noto, oppure effettuare dei test su alcuni valori per capire se
hanno una coerenza come ipotesi per essere quanto più vicini al parametro.
In questa dispensa si effettuerà inferenza statistica solamente su poplazioni
normali e popolazioni di Bernoulli.
NOTA: con “parametro” non si intende per forza un singolo valore, ma anche un
vettore di valori; ad esempio se si parla di una popolazione normale con media e
varianza ignota, il parametro è rappresentato dal vettore θ = (μ, σ2).
10.2 – Stima di un parametro θ
Come precedentemente detto, l’obiettivo è ricavare un valore per il parametro il
più fedele possibile alla realtà, quindi sulla base del campione casuale e della
popolazione che lo contraddistingue, dobbiamo effettuare una stima di θ.
Siano i dati del campione x1,…,xn relativi a una variabile aleatoria “X” con una
funzione di densità del tipo “f(x; θ)”. Come sappiamo la funzione densità è nota
nel momento in cui conosciamo la distribuzione, dunque possiamo usare i dati
del campione per provare a dare una stima di θ.
Ci sono due tipologie di stime che si possono fare sul parametro.
• STIMA PUNTUALE: tramite essa si ottiene un singolo valore che prova a
stimare al meglio θ.
• STIMA INTERVALLARE: tramite essa si ottiene un intervallo L di valori
plausibili per θ, e ad ognuno di questi intervalli si associa un livello di
confidenza sul fatto che θ appartenga o meno a L.
10.3 – Definizione di campione, di statistica e di stimatore
Un campione casuale (o aleatorio) di ampiezza “n” è una collezione di “n” variabili
aleatorie indipendenti X1,…,Xn con medesima distribuzione (ossia con uguale
funzione di densità f(x; θ) dove θ è incognito).
Una statistica “T” è una variabile aleatoria ottenuta come funzione del campione,
si può dire che T = T(X1,…,Xn). Ad esempio possono essere statistiche per un
campione casuale X1,…,Xn le seguenti variabili aleatorie:
𝑛
1
𝑋̅ = ⋅ ∑ 𝑋𝑖
𝑛
𝑖=1
𝑃 = 𝑚𝑎𝑥 {𝑋1 , … , 𝑋𝑛 }
𝑛
1
𝑆 2 = ⋅ ∑(𝑋𝑖 − 𝑋̅ )2
𝑛
𝑖=1
𝑉=
2𝑋1 − 𝑋4 + 𝑋𝑛−2
5 ⋅ 𝑋̅
Uno stimatore è una qualsiasi statistica “T” che non ha dipendenza dal parametro
θ, e viene usata proprio per trovare θ. Ad esempio le statistiche sopra elencate
sono tutte considerabili stimatori, in particolare 𝑋̅ viene spesso usato come
stimatore del valor medio μ per una distribuzione normale, mentre 𝑆 2 viene usato
come stimatore della varianza σ2 sempre per una distribuzione normale.
Chiamiamo “𝜃̂” il valore numerico dello stimatore scelto per rappresentare la
stima di θ. Riprendendo quanto appena detto, può essere che 𝜃̂ = (𝑋̅ , 𝑆 2 ) .
10.4 – Stima puntuale: stimatori di massima verosimiglianza
Sia X1,…,Xn un campione casuale estratto da una popolazione con densità
descritta dalla funzione f(x; θ) con θ incognito (la funzione può rappresentare
classi discrete o continue). E’ detta stima di massima verosimiglianza 𝜃̂𝑀𝑉 quel
valore di θ che rende massima la funzione f(x1,…,xn; θ) dove sono i dati osservati.
La funzione appena citata prende il nome di “Likelihood” ed è uguale al prodotto
delle funzioni marginali (che sono indipendenti):
In realtà la funzione Likelihood non si usa quasi mai, si preferisce utilizzare la
LogLikelihood che rende più facile il calcolo delle derivate, non varia massimi,
minimi, e crescenza, ed evita dei prodotti tra numeri molto piccoli (questo grazie
alle proprietà del logaritmo).
𝐿𝑖𝑘𝑒𝑙𝑖ℎ𝑜𝑜𝑑:
𝑓 (𝑥1 , … , 𝑥𝑛 ; 𝜃 ) = 𝑓 (𝑥1 ; 𝜃 ) ⋅ 𝑓(𝑥2 ; 𝜃 ) ⋯ 𝑓(𝑥𝑛 ; 𝜃 )
𝐿𝑜𝑔𝐿𝑖𝑘𝑒𝑙𝑖ℎ𝑜𝑜𝑑:
ln(𝑓(𝑥1 , … , 𝑥𝑛 ; 𝜃 )) = ln(𝑓(𝑥1 ; 𝜃 )) + ⋯ + ln(𝑓 (𝑥𝑛 ; 𝜃 ))
10.5 – Stimatore di M.V. per il parametro di una Bernoulli
Sia X1,…,Xn un campione estratto da una popolazione con densità discreta di
Bernoulli, con parametro “q” incognito tra 0 e 1 (estremi non compresi). Se la
distribuzione è di Bernoulli so che la funzione densità corrisponde a quanto
segue (dove “x” vale 0 o 1 per definizione):
𝑓 (𝑥; 𝑞 ) = 𝑞 𝑥 ⋅ (1 − 𝑞 )1−𝑥
In questo caso la funzione di Likelihood avrà la seguente forma:
𝑓(𝑥1 , … , 𝑥𝑛 ; 𝑞 ) = 𝑓 (𝑥1 ; 𝑞 ) ⋅ 𝑓 (𝑥2 ; 𝑞 ) ⋯ 𝑓(𝑥𝑛 ; 𝑞)
𝑓(𝑥1 , … , 𝑥𝑛 ; 𝑞 ) = [𝑞 𝑥1 ⋅ (1 − 𝑞 )1−𝑥1 ] ⋅ [𝑞 𝑥2 ⋅ (1 − 𝑞 )1−𝑥2 ] ⋯ [𝑞 𝑥𝑛 ⋅ (1 − 𝑞 )1−𝑥𝑛 ]
𝑓(𝑥1 , … , 𝑥𝑛 ; 𝑞 ) = [𝑞 𝑥1 ⋅ 𝑞 𝑥2 ⋯ 𝑞 𝑥𝑛 ] ⋅ [(1 − 𝑞 )1−𝑥1 ⋯ (1 − 𝑞 )1−𝑥𝑛 ]
𝑛
𝑛
𝑓 (𝑥1 , … , 𝑥𝑛 ; 𝑞 ) = 𝑞 ∑𝑖=1 𝑥𝑖 ⋅ (1 − 𝑞 )∑𝑖=1 1−𝑥𝑖
Trasformiamo la Likelihood in LogLikelihood per semplificarci la vita:
𝑛
𝑛
ln(𝑓 (𝑥1 , … , 𝑥𝑛 ; 𝑞 )) = ln (𝑞 ∑𝑖=1 𝑥𝑖 ⋅ (1 − 𝑞)∑𝑖=1 1−𝑥𝑖 )
𝑛
𝑛
ln(𝑓(𝑥1 , … , 𝑥𝑛 ; 𝑞 )) = ln (𝑞 ∑𝑖=1 𝑥𝑖 ) + ln ((1 − 𝑞 )𝑛−∑𝑖=1 𝑥𝑖 )
𝑛
𝑛
ln(𝑓 (𝑥1 , … , 𝑥𝑛 ; 𝑞 )) = (∑ 𝑥𝑖 ) ⋅ ln(𝑞 ) + (𝑛 − ∑ 𝑥𝑖 ) ⋅ 𝑙𝑛(1 − 𝑞)
𝑖=1
𝑖=1
Ora deriviamo rispetto al parametro “q” e otteniamo quanto segue. In ottica di
trovare il punto di massimo, poniamo la derivata a 0 (punto stazionario):
𝑛
𝑛
𝑖=1
𝑖=1
𝜕
1
1
ln(𝑓 (𝑥1 , … , 𝑥𝑛 ; 𝑞 )) = (∑ 𝑥𝑖 ) ⋅ ( ) + (𝑛 − ∑ 𝑥𝑖 ) ⋅ (−
)=0
𝜕𝑞
𝑞
1−𝑞
𝑛
𝑛
𝑖=1
𝑖=1
1
1
(∑ 𝑥𝑖 ) ⋅ ( ) = (𝑛 − ∑ 𝑥𝑖 ) ⋅ (
)
𝑞
1−𝑞
1 − 𝑞 𝑛 − ∑𝑛𝑖=1 𝑥𝑖
=
∑𝑛𝑖=1 𝑥𝑖
𝑞
1
𝑛
= 𝑛
∑𝑖=1 𝑥𝑖
𝑞
1
𝑛
−1= 𝑛
−1
∑𝑖=1 𝑥𝑖
𝑞
𝑛
1
𝑞 = ⋅ ∑ 𝑥𝑖
𝑛
𝑖=1
Dunque abbiamo trovato che
1
𝑛
⋅ ∑𝑛𝑖=1 𝑥𝑖 rappresenta un punto di massimo per la
funzione di LogLikelihood siccome essa è sempre convessa.
Possiamo concludere che lo stimatore θMV di massima verosimiglianza per il
parametro “q” di una distribuzione di Bernoulli è:
𝑛
𝜃̂𝑀𝑉
1
= 𝑞̂ = ⋅ ∑ 𝑥𝑖 (𝑐𝑎𝑙𝑐𝑜𝑙𝑜 𝑠𝑢𝑖 𝑑𝑎𝑡𝑖, 𝑛𝑜𝑛 𝑎𝑙𝑒𝑎𝑡𝑜𝑟𝑖𝑜)
𝑛
𝑖=1
𝑛
𝜃𝑀𝑉
1
= ⋅ ∑ 𝑋𝑖 = 𝑋̅ (𝑠𝑡𝑖𝑚𝑎𝑡𝑜𝑟𝑒 𝑣𝑒𝑟𝑜, 𝑎𝑙𝑒𝑎𝑡𝑜𝑟𝑖𝑜)
𝑛
𝑖=1
ESEMPIO:
Osserviamo il seguente campione di dati di ampiezza 9, generati da una
distribuzione Be(0.25): 1 0 0 0 0 0 1 0 0. Si ricavi la stima di massima
verosimiglianza del parametro “q”, supponendo di non sapere che “q” sia 0.25.
𝑛
𝜃̂𝑀𝑉
1
1
2
= 𝑞̂ = ⋅ ∑ 𝑥𝑖 = ⋅ (1 + 0 + 0 + 0 + 0 + 0 + 1 + 0 + 0) =
= 0,22..
𝑛
9
9
𝑖=1
Dai dati ho che 𝜃̂𝑀𝑉 = 𝑞̂ ≈ 0,22, mentre sono stati generati da un parametro
leggermente più alto, infatti 𝜃𝑀𝑉 = 𝑞 = 0.25 (errore di pochi centesimi).
10.6 – Stimatore di M.V. per il parametro di una normale
Sia X1,…,Xn un campione casuale estratto da una popolazione normale con
media 𝜇 ∈ ℝ e varianza 𝜎 2 ∈ ℝ+ entrambe ignote. Con un procedimento del tutto
simile a quello fatto nel paragrafo precedente si possono trovare gli stimatori di
massima verosimiglianza anche per il parametro θ di una distribuzione normale:
𝜃̂𝑀𝑉 = (𝜇̂ 𝑀𝑉 , 𝜎̂ 2 𝑀𝑉 )
𝜃 = (𝑋̅ , 𝑆 2 )
𝑛
𝑑𝑜𝑣𝑒
𝜇̂ 𝑀𝑉
1
= ⋅ ∑ 𝑥𝑖
𝑛
𝑖=1
𝑛
𝑑𝑜𝑣𝑒
1
𝑋̅ = ⋅ ∑ 𝑋𝑖
𝑛
𝑖=1
𝑛
𝜎̂ 2 𝑀𝑉
1
= ⋅ ∑(𝑥𝑖 − 𝜇̂ 𝑀𝑉 )2
𝑛
𝑖=1
𝑛
1
𝑆 2 = ⋅ ∑(𝑋𝑖 − 𝑋̅ )2
𝑛
𝑖=1
ATTENZIONE: per lo stimatore si usa ‘n’ a denominatore, non ‘n-1’!
10.7 – Attendibilità di uno stimatore: il bias
Preso uno stimatore “T”, come possiamo valutarne la “bontà”? Cioè quanto sono
lontano dal vero parametro? Per verificare ciò devo capire quanto dista lo
stimatore da quel valore reale a cui tanto ambiamo.
Per svolgere questo lavoro ci viene incontro il concetto di “bias” per uno
stimatore “T”, che è definito come segue:
𝑏 ( 𝑇 ) = 𝐸 (𝑇 ) − 𝜃
Più il bias è piccolo, più lo stimatore “T” è considerabile verosimilmente corretto.
Se il bias risulta essere 0, allora non ci sono dubbi che sia quello corretto.
ESEMPIO:
Sia X1,…,Xn un campione casuale estratto da una popolazione normale con
media μ. Verificare che 𝑇 = 𝑋̅ è uno stimatore corretto per il parametro μ.
𝑛
1
1
𝑏(𝑇) = 𝑏 (𝑋̅ ) = 𝐸 (𝑋̅ ) − 𝜇 = ⋅ ∑ 𝐸 (𝑋𝑖 ) − 𝜇 = ⋅ 𝑛 ⋅ 𝜇 − 𝜇 = 𝜇 − 𝜇 = 0
𝑛
𝑛
𝑖=1
Il bias viene esattamente 0, quindi 𝑋̅ è uno stimatore corretto per il parametro μ
appartenente al parametro generico θ della distribuzione normale.
10.8 – Attendibilità di uno stimatore: il MSE
Insieme al bias, si può definire anche il cosiddetto “errore quadratico medio”. Sia
T = T(X1,..,Xn) uno stimatore del parametro θ. Allora posso definire la gradezza
chiamata MSE (Median Square Error) relativa a “T” in questo modo:
𝑀𝑆𝐸 (𝑇) = 𝐸 [(𝑇 − 𝜃 )2 ]
La formula si può sviluppare, per far si che diventi in funzione del bias:
𝑀𝑆𝐸 (𝑇) = 𝐸 [(𝑇 − 𝜃 )2 ] = 𝐸 (𝑇 2 ) − 2𝜃𝐸 (𝑇) + 𝜃 2
𝑀𝑆𝐸 (𝑇) = 𝐸 (𝑇 2 ) − 𝐸 (𝑇)2 + 𝐸 (𝑇)2 − 2𝜃𝐸 (𝑇) + 𝜃 2
𝑀𝑆𝐸 (𝑇) = 𝑉𝑎𝑟(𝑇) + (𝐸 (𝑇) − 𝜃)2 = 𝑉𝑎𝑟(𝑇) + 𝑏(𝑇)2
La varianza misura la dispersione dello stimatore, il bias l’accuratezza invece.
Un buon stimatore deve tenere anche conto della sua stessa varianza, infatti più
esso è efficiente e più l’errore quadratico medio di “T” tenderà alla varianza di “T”.
In tal caso, uno stimatore T1 può avere bias nullo ma risultare più distorto di uno
stimatore T2 con bias non nullo ma varianza molto bassa
Lo stimatore corretto, quello di massima verosimiglianza, avrà MSE(T) = Var(T). Lo
scopo per la ricerca di una stima puntuale di un parametro sta proprio nel
minimizzare il più possibile l’errore quadratico medio, dunque anche la varianza.
ESEMPIO:
Esercizio e correzione della scheda “set 7” dal moodle 2022/23
Sia X1,…,Xn un campione casuale di ampiezza n=10, estratto da una popolazione
con media ignota ‘m’ e varianza ‘v’ uguale a 5, e siano i seguenti stimatori
𝑇1 =
𝑋1 + 𝑋3 + 𝑋5
3
𝑇2 =
𝑋1 + 2𝑋5 + 𝑋10
4
Quale stimatore è meno distorto? Quale di più?
𝑇3 =
𝑋2 + 2𝑋4 + 3𝑋6 + 2𝑋8 + 𝑋10
5
11.1 – Stima intervallare di un parametro θ
Il problema principale della stima puntuale di un parametro θ è il fatto che non ci
si può aspettare che sia il valore reale. Pertanto rispetto a un singolo valore per
rappresentare θ, si preferisce trovare un intervallo di valori al quale si associa un
certo livello di “fiducia” che la nostra stima prodotta sui dati vi appartenga.
Sia X1,…,Xn un campione casuale estratto da una popolazione con data
distribuzione, dalla quale vogliamo stimare un parametro. Siano i seguenti due
valori delle statistiche non dipendenti da θ: L1=L1(X1,…,Xn) e L2=L2(X1,…,Xn) .
L’intervallo aleatorio L=(L1, L2) tale per cui si ha
ℙ(𝜃 ∈ 𝐿) = ℙ(𝐿1 < 𝜃 < 𝐿2 ) = 1 − 𝛼
è detto stimatore intervallare del parametro θ, dove “1-α“ è una quantità sempre
compresa tra 0 e 1 che prende il nome di “livello di confidenza” che rappresenta
la probabilità che il parametro sia effettivamente appartenente allo stimatore
intervallare.
Il calcolo dello stimatore intervallare sui dati osservati prende il nome di
“intervallo di confidenza al (1-α)%” per θ dove 𝐿̂1 = 𝐿̂1 (𝑥1 , . . , 𝑥𝑛 ) e 𝐿̂2 = 𝐿̂2 (𝑥1, . , 𝑥𝑛 ).
11.2 – Differenza tra stimatore intervallare e int. di confidenza
La sostanziale differenza è che lo stimatore intervallare è un intervallo aleatorio,
ossia un intervallo che ha come estremi due statistiche, che hanno natura
aleatoria; mentre l’intervallo di confidenza è una realizzazione numerica dello
stimatore intervallare, infatti è ricavato dai dati osservati. Sostanzialmente L 1 e L2
in quanto aleatori possono essere diversi valori, tra i quali vi sono 𝐿̂1 e 𝐿̂2, calcolati
dai dati effettivamente osservati, dunque quelli a nostra disposizione per poter
fare inferenza.
In breve funziona come segue.
• Sia X1,…,Xn un campione casuale estratto da una popolazione con data
distribuzione, da esso posso ricavarmi L1 e L2 per formare un intervallo
aleatorio che fa da stima intervallare, in modo tale che: ℙ(𝐿1 < 𝜃 < 𝐿2 ) =
1 − 𝛼. Per costruire lo stimatore intervallare è fondamentale conoscere la
distribuzione per L1 e L2.
• Sia x1,…,xn il campione di dati effettivamente osservato (dunque privo di
aletorietà): da esso posso ricavarmi 𝐿̂1 e 𝐿̂2 , che ora rappresentano due
statistiche campionarie precise, utili per trovare il livello di confidenza “1-α“.
11.3 – Distribuzioni delle statistiche
Sia X1,…,Xn un campione casuale estratto da una popolazione distribuzione
normale con media μ e varianza σ2. Interessiamoci in particolare a due statistiche,
ossia 𝑋̅ e 𝑆 2 . Si dimostra che:
• la quantità
• la quantità
𝑋̅−𝜇
√𝑆 2⁄𝑛
segue una distribuzione 𝑡𝑛−1 (funzione “t” di student);
(𝑛−1)⋅𝑆 2
𝜎2
2
segue una distribuzione 𝜒𝑛−1
(funzione chi-quadro).
Quel pedice “n-1” sotto ad ogni funzione rappresenta i gradi di libertà, ossia un
parametro indispensabile per creare la funzione stessa. Per il resto, sulle due
funzioni non ci sono particolari informazioni da sapere, se non queste:
Funzione 𝑡𝑛−1 di Student
(CLICK)
E’ una funzione pari, essendo più
precisi è simmetrica per x=0, ed ha
una forma a campana simile ad una
Gaussiana con le code “più” pesanti.
2
Funzione 𝜒𝑛−1
chi-quadro
(CLICK)
E’ una funzione che ha come
dominio solo valori positivi, non
presenta simmetrie di alcun tipo e ha
una forma a campana un po’ distorta.
Entrambe le distribuzioni hanno la propria tabella delle funzioni di ripartizione.
11.4 – Intervalli di confidenza per la media di una popolazione normale: varianza nota
Sia X1,…,Xn un campione casuale estratto da una popolazione distribuzione
normale con media μ parametro da trovare e varianza σ2 nota. Stabiliamo un
livello di confidenza “1-α“ verosimile, in base al quale varierà l’intervallo ottenuto.
Introduciamo una grandezza “zα” che rappresenta
l’area sottostante a una funzione normale standard
che parte da x=α e va fino a +infinito. Di
conseguenza possiamo definire “α” come la
probabilità che una certa quantità “Z” sia maggiore
di “zα”: ℙ(𝑍 > 𝑧𝛼 ) = 𝛼. Vale anche ℙ(𝑍 < 𝑧𝛼 ) = 1 − 𝛼.
Appurato ciò sappiamo che il nostro parametro “Z” è in un intervallo di
confidenza al (1- α)% di probabilità, dunque vale: ℙ (−𝑧𝛼⁄2 < 𝑍 < 𝑧𝛼⁄2 ) = 1 − 𝛼.
Sappiamo anche che “Z” si distribuisce secondo una normale standard, quindi
possiamo dire ciò che segue, siccome la quantità sostituita a “Z” ha ancora
distribuzione da normale standard:
𝑋̅ − 𝜇
1 − 𝛼 = ℙ −𝑧𝛼⁄2 <
√
(
𝜎2
< 𝑧𝛼⁄2
⁄𝑛
)
Ora proseguo isolando il parametro da stimare, ossia μ:
1 − 𝛼 = ℙ (𝑋̅ − 𝑧𝛼⁄2 ⋅
𝜎
√𝑛
< 𝜇 < 𝑋̅ + 𝑧𝛼⁄2 ⋅
𝜎
√𝑛
)
Dunque, avendo x1,…xn come dati osservati, posso concludere che il mio
intervallo di confidenza bilaterale lo posso costruire come segue:
𝐿̂ = (𝐿̂1 , 𝐿̂2 ) = (𝑥̅ − 𝑧𝛼⁄2 ⋅
𝜎
√𝑛
, 𝑥̅ + 𝑧𝛼⁄2 ⋅
𝜎
√𝑛
)
Mentre con un procedimento analogo a quanto visto fin qui possiamo ricavarci
anche gli intervalli di confidenza unilaterali destri e sinistri:
𝐿̂𝐿 = (−∞, 𝑥̅ + 𝑧𝛼 ⋅
𝜎
√𝑛
)
𝐿̂𝑅 = (𝑥̅ − 𝑧𝛼 ⋅
𝜎
√𝑛
, + ∞)
ESEMPIO:
Ci sono 5 persone e si registrano i seguenti tempi per l’esecuzione di un
esercizio: 345s, 389s, 363s, 417s, e 476s. Si supponga che il tempo di esecuzione
segua una distribuzione normale con varianza 50 2. Si costruisca l’intervallo di
confidenza bilaterale del parametro della media, al 95% di livello di confidenza.
La soluzione è trovare 𝐿̂, quindi bisogna trovare 𝐿̂1 = 𝑥̅ − 𝑧𝛼⁄2
𝜎
√𝑛
e 𝐿̂2 = 𝑥̅ + 𝑧𝛼⁄2
Per farlo bisogna trovare 𝛼, 𝜎, 𝑥̅ e √𝑛. Tre dei 4 valori li sappiamo già:
• 1 − 𝛼 = 0.95 ⇒
• 𝜎 = √502 = 50;
• √𝑛 = √5.
𝛼 = 0,05;
𝜎
.
√𝑛
Il quarto valore invece richiede un calcolo in più: 𝑥̅ =
345 + 389 + 363 + 417 + 476
5
= 398.
Sapendo “α”, possiamo ricavarci “zα/2” tramite la tabella della funzione di
ripartizione per una normale standard, ricordando che “z α/2” rappresenta l’area
sottesa alla Gaussiana tra “α” e +infinito:
𝛷 (𝑧𝛼⁄2 ) = 𝛷(𝑧0,025 ) = 1 − 𝛼⁄2 = 1 − 0,025 = 0,975
Cerco 0,975 nella tabella della funzione di ripartizione, e vedo che corrisponde a
1,96; dunque zα/2 = z0,025 = 1,96. Ora ho tutti i dati per comporre l’intervallo:
𝐿̂1 = 398 − 1,96 ⋅
50
√5
= 354,17
𝐿̂2 = 398 + 1,96 ⋅
50
√5
= 441,83
11.5 – Intervalli di confidenza per la media di una popolazione normale: varianza ignota
Sia X1,…,Xn un campione casuale estratto da una popolazione distribuzione
normale con media μ e varianza σ2 parametri da trovare. Stabiliamo un livello di
confidenza “1-α“ verosimile, in base al quale varierà l’intervallo ottenuto.
In maniera del tutto analoga al paragrafo precedente, imponiamo la seguente
equazione, giustificata dal fatto che la quantità in azzurro è una statistica che si
distribuisce seguendo la funzione “t” di Student a n-1 gradi di libertà:
1 − 𝛼 = ℙ (−𝑡𝛼⁄2 <
𝑋̅ − 𝜇
𝑆
𝑆
< 𝑡𝛼⁄2 ) = . .. = ℙ (𝑋̅ − 𝑡𝛼⁄2 ⋅
< 𝜇 < 𝑋̅ + 𝑡𝛼⁄2 )
𝑆⁄
√𝑛
√𝑛
√𝑛
Dunque, avendo x1,…xn come dati osservati, posso concludere che il mio
intervallo di confidenza bilaterale lo posso costruire come segue:
𝐿̂ = (𝐿̂1 , 𝐿̂2 ) = (𝑥̅ − 𝑡𝛼⁄2 ⋅
𝑆
√𝑛
, 𝑥̅ + 𝑡𝛼⁄2 ⋅
𝑆
√𝑛
)
Mentre gli intervalli di confidenza unilaterali destri e sinistri sono:
𝐿̂𝐿 = (−∞, 𝑥̅ + 𝑡𝛼 ⋅
𝑆
√𝑛
)
𝐿̂𝑅 = (𝑥̅ − 𝑡𝛼 ⋅
𝑆
√𝑛
, + ∞)
Ricorda che “S” è la deviazione standard campionaria, calcolata su x 1,…,xn.
ESEMPIO:
Vengono esaminate 5 sigarette, ottenendo i seguenti quantitativi di catrame:
11,1mg, 10,5mg, 11,4mg 10,7mg e 11,4mg. Si determini l’intervallo di
confidenza unilaterale destro della media della popolazione con livello di
confidenza al 99%, assumendo la distribuzione sia normale.
La soluzione è trovare 𝐿̂𝑅 , quindi bisogna trovare 𝑥̅ − 𝑡𝛼 ⋅
𝑆
.
√𝑛
Per farlo bisogna trovare 𝛼, 𝑆, 𝑥̅ e √𝑛. Due dei 4 valori li sappiamo già:
• 1 − 𝛼 = 0.99
• √𝑛 = √5.
⇒
𝛼 = 0,01;
La media campionaria è la seguente: 𝑥̅ =
11,1 + 10,5 + 11,4 + 10,7 + 11,4
5
= 11,02.
1
La deviazione standard campionaria è la seguente: 𝑆 = √ ⋅ ∑5𝑖=1(𝑥𝑖 − 𝑥̅ )2 = 0,41.
4
Sapendo “α”, possiamo ricavarci “tα,n-1” (dove n-1 è 4) tramite la tabella della
funzione di ripartizione per una funzione “t” di Student, ricordando che “t α,n-1”
rappresenta l’area sottesa al grafico tra “α” e +infinito:
𝛷̇ (𝑡𝛼,𝑛−1 ) = 𝛷̇ (𝑡0.01,4 ) = 1 − 𝛼 = 1 − 0,01 = 0,99
(passaggio superfluo)
Noto dalla tabella che il valore che corrisponde è 3,74; dunque tα = t0,01 = 3,74.
Ora ho tutti i dati per comporre l’intervallo:
𝐿̂𝑅 = (11,02 − 3,74 ⋅
0,41
√5
, + ∞) = (10,33 , + ∞)
11.6 – Intervalli di confidenza per la varianza di una popolazione normale: media ignota
Sia X1,…,Xn un campione casuale estratto da una popolazione distribuzione
normale con media μ e varianza σ2 parametri da trovare. Stabiliamo un livello di
confidenza “1-α“ verosimile, in base al quale varierà l’intervallo ottenuto.
Con la solita metodologia, imponiamo la seguente equazione, giustificata dal
fatto che la quantità in verde è una statistica che si distribuisce seguendo la
funzione “chi-quadro” a n-1 gradi di libertà:
1−𝛼 =
2
ℙ (𝜒1−
𝛼⁄
2
(𝑛 − 1) ⋅ 𝑆 2
(𝑛 − 1) ⋅ 𝑆 2
(𝑛 − 1) ⋅ 𝑆 2
2
2
)
<
< 𝜒𝛼⁄ ) = . .. = ℙ (
<𝜎 <
2
2
𝜎2
𝜒𝛼2⁄
𝜒1−
𝛼⁄
2
2
Le principali differenze con i primi metodi saltano fuori, e sono le seguenti due:
• siccome ora il parametro di cui ci interessa trovare una stima intervallare è
la varianza, non isoliamo più “ μ” (che tra l’altro non compare minimamente)
ma isoliamo ovviamente “σ2”;
• non avendo più una distribuzione che segue
una funzione simmetrica, che peraltro è definita
solo per i reali positivi, nel valore a sinistra non
potrà mai comparire un valore negativo; ciò è
coerente al fatto che la varianza da trovare è
positiva per definizione, ed è giustificata dal
fatto che nel pedice di “𝜒” ci sta “1-α/2”.
Dunque, avendo x1,…xn come dati osservati, posso concludere che il mio
intervallo di confidenza bilaterale lo posso costruire come segue:
(𝑛 − 1) ⋅ 𝑆2 (𝑛 − 1) ⋅ 𝑆2
𝐿̂ = (𝐿̂1 , 𝐿̂2 ) = (
,
)
𝜒2𝛼⁄
𝜒21−𝛼⁄
2
2
Mentre gli intervalli di confidenza unilaterali destri e sinistri sono:
𝐿̂𝐿 = (0,
(𝑛 − 1) ⋅ 𝑆2
)
𝜒21−𝛼
𝐿̂𝑅 = (
(𝑛 − 1) ⋅ 𝑆2
, + ∞)
𝜒2𝛼
ESEMPIO:
Viene osservato l’errore mensile di 20 orologi, e si trova che la varianza
campionaria dei dati trovati è S2=0,14. Si determini l’intervallo di confidenza
bilaterale con livello di confidenza al 95%.
La soluzione è trovare 𝐿̂, quindi bisogna trovare 𝐿̂1 =
(𝑛−1)⋅𝑆2
𝜒2𝛼
⁄2
e 𝐿̂2 =
(𝑛−1)⋅𝑆2
𝜒21−𝛼
⁄2
Per farlo bisogna trovare 𝛼, 𝑆 2 , e 𝑛 − 1. Tutti e tre i valori li sappiamo già:
• 1 − 𝛼 = 0,95 ⇒ 𝛼 = 0,05;
• 𝑛 − 1 = 20 − 1 = 19;
• 𝑆 2 = 0,14.
.
Sapendo “α”, possiamo ricavarci “𝜒𝛼2⁄
2,𝑛−1
2
” e “𝜒1−
𝛼⁄
2,𝑛−1
” (dove n-1 è 19) tramite la
tabella della funzione di ripartizione per una funzione “chi-quadro”, ricordando
2
che “𝜒𝛼,𝑛−1
” rappresenta l’area sottesa al grafico tra “α” e +infinito:
̃ (𝜒𝛼2
𝛷
⁄
)
2,𝑛−1
2
̃ (𝜒1−
𝛷
𝛼⁄
)
2,𝑛−1
2
̃ (𝜒0.025,19
=𝛷
) = 1 − 𝛼⁄2 = 1 − 0,025 = 0,975
2
̃ (𝜒0,975,19
=𝛷
) = 𝛼⁄2 = 0,025
(𝑝𝑎𝑠𝑠𝑎𝑔𝑔𝑖 𝑠𝑢𝑝𝑒𝑟𝑓𝑙𝑢𝑖)
Noto dalla tabella che per 19 gradi di libertà, posso ricavarmi i seguenti valori:
2
2
2
𝜒𝛼2⁄ ,𝑛−1 = 𝜒0,025,19
= 32,85 e 𝜒1−
𝛼⁄ ,𝑛−1 = 𝜒0,975,19 = 8,91. Ora ho tutti i dati per
2
comporre l’intervallo:
𝐿̂1 =
2
19 ⋅ 0,14
= 0,081
32,85
𝐿̂2 =
19 ⋅ 0,14
= 0,298
8,91
11.7 – Intervalli di confidenza per la media di una popolazione di Bernoulli
Ora consideriamo una popolazione di oggetti, ognuno dei quali possiede un
certo parametro “q” che rappresenta la probabilità che quel dato oggetto
compaia nella popolazione. Quanto descritto non è nuovo, è una semplice
variabile di Bernoulli.
Sappiamo anche che una popolazione di “n” variabili di Bernoulli rappresenta
una variabile binomiale, e che se vale “nq>5” e “n(1-q)>5” allora tale variabile
binomiale può essere fedelmente rappresentata da una normale di media “nq” e
varianza “n(1-q)q”.
Premesse fatte, posso presto intendere che “Q=X/n” (dove X è una una quantità
aleatoria che rappresenta il numero di esiti positivi della popolazione) è uno
stimatore di massima verosimiglianza di “q”.
Dunque, avendo x1,…xn come dati osservati e utilizzando il teorema del limite
centrale si può dimostrare (ma non lo facciamo) che l’intervallo di confidenza
bilaterale al (1-α)% livello di confidenza è il seguente:
𝐿̂ = (𝐿̂1 , 𝐿̂2 ) = (𝑞̂ − 𝑧𝛼⁄2 ⋅ √
𝑞̂ ⋅ (1 − 𝑞̂ )
𝑞̂ ⋅ (1 − 𝑞̂ )
)
, 𝑞̂ + 𝑧𝛼⁄2 ⋅ √
𝑛
𝑛
Mentre con un procedimento analogo a quanto visto fin qui possiamo ricavarci
anche gli intervalli di confidenza unilaterali destri e sinistri:
𝐿̂𝐿 = (−∞, 𝑞̂ + 𝑧𝛼 ⋅ √
𝑞̂ ⋅ (1 − 𝑞̂ )
)
𝑛
𝐿̂𝑅 = (𝑞̂ − 𝑧𝛼 ⋅ √
𝑞̂ ⋅ (1 − 𝑞̂ )
, + ∞)
𝑛
dove “𝑞̂” è il numero di esiti positivi del set di dati a nostra disposizione diviso “n”.
ESEMPIO:
Viene estratto e testato un campione di 100 transistor da una grande fornitura. Si
trova che 80 pezzi sono adeguati. Stabilire un intervallo di confidenza al 95% per
il parametro “q” che definisce la % di transistor accettabili in tutta la fornitura.
𝑞̂⋅(1−𝑞̂)
𝑞̂⋅(1−𝑞̂)
La soluzione è trovare 𝐿̂1 = 𝑞̂ − 𝑧𝛼⁄2 ⋅ √
e 𝐿̂2 = 𝑞̂ + 𝑧𝛼⁄2 ⋅ √
.
𝑛
𝑛
Per farlo bisogna trovare 𝛼 e 𝑞̂. Tutti e due i valori li sappiamo già:
• 1 − 𝛼 = 0,95 ⇒ 𝛼 = 0,05;
• 𝑞̂ = 80/100 = 0,8.
Sapendo “α”, possiamo ricavarci “zα/2” tramite la tabella della funzione di
ripartizione per una normale standard, ricordando che “z α/2” rappresenta l’area
sottesa alla Gaussiana tra “α” e +infinito:
𝛷 (𝑧𝛼⁄2 ) = 𝛷(𝑧0,025 ) = 1 − 𝛼⁄2 = 1 − 0,025 = 0,975
Cerco 0,975 nella tabella della funzione di ripartizione, e vedo che corrisponde a
1,96; dunque zα/2 = z0,025 = 1,96. Ora ho tutti i dati per comporre l’intervallo:
𝐿̂1 = 0,8 − 1,96√
0,8 ⋅ 0,2
= 0,7216
100
𝐿̂2 = 0,8 + 1,96 √
0,8 ⋅ 0,2
= 0,8784
100
11.8 – Schema riassuntivo per la stima intervallare di un parametro
Il seguente schema riassume come poter iniziare calcolare una stima intervallare
a partire da un set di dati prestabilito e dalla distribuzione di essi.
12.1 – Verifica delle ipotesi
Si stabilisca sempre un campione casuale X1,…,Xn estratto da una popolazione
distribuzione nota, caratterizzata dal solito parametro θ. Come nel precedente
paragrafo abbiamo imparato a fare stime intervallari del parametro, ora vogliamo
verificare un’ipotesi che lo riguarda, sempre sulla base dei dati osservati x1,…,xn.
Una ipotesi statistica non è altro che una affermazione sul parametro θ, come
possono essere le seguenti 3 (dove θ0 è un valore di confronto) :
𝜃 = 𝜃0
𝜃 ≥ 𝜃0
𝜃 ≤ 𝜃0
La prima delle 3 ipotesi precedenti è detta ipotesi semplice, mentre le altre due
sono dette ipotesi composte, ossia che non specificano un singolo valore per θ.
12.2 – Test di una ipotesi
Si definisce test di una ipotesi quella procedura che consiste nella verifica di una
ipotesi statistica. Effettuare un test vuol dire avere due due risultati, dove uno
esclude l’altro: per il primo risultato mettiamo a confronto un’ipotesi che
rappresenta la nostra convinzione (ossia quel valore di θ che noi confidiamo
possa essere verosimile alla realtà), mentre per il secondo risultato mettiamo a
confronto l’ipotesi contrapposta.
Il test viene fatto proprio per verifica, dunque ha senso effettuarlo solo se ci si
può aspettare che secondo i dati osservati, ci possa essere una smentita della
convinzione di partenza. Più precisamente la struttura di un test d’ipotesi funziona
così.
• H0 : questa è l’ipotesi sottoposta per prima al test, rappresenta la nostra
convinzione di partenza, ed è chiamata ipotesi nulla.
• H1 : questa è l’ipotesi contrapposta alla nostra convinzione, dunque
rappresenta tutto quello che H0 non include dentro di sé, ed è chiamata
ipotesi alternativa.
Se ad esempio in un test la mia convinzione è che il parametro θ è maggiore o
uguale di 0.4, allora avrò che H0 = {θ ≥ 0.4}, mentre di conseguenza H1 = {θ < 0.4}.
L’obiettivo del test ora è confermare che la mia ipotesi convinzione H0 sia
compatibile con i dati osservati.
12.3 – Criterio di accettazione di un test di ipotesi
L’obiettivo è decidere se accettare o meno H 0, basandoci sui dati osservati
x1,…,xn, dunque si crea una certa regione critica “C”. Sostanzialmente:
• accetto H0 se lo stimatore non è presente nella regione critica “C”;
• rifiuto H0 se lo stimatore è presente nella regione critica “C”.
In linea di massima, “C” contiene quei valori del parametro molto distanti dalla
possibile realtà dei fatti presunta dall’ipotesi nulla H 0.
Accettare un’ipotesi piuttosto che un’altra può portare a 2 tipi di errore nel test:
• il rifiuto dell’ipotesi nulla quando in realtà è vera (errore di I specie);
• non rifiutare l’ipotesi nulla quando andrebbe fatto (errore di II specie).
Tendenzialmente H0 non si rifiuta con così tanta facilità, in quanto l’obiettivo di un
test non è dare un giudizio rigoroso sull’ipotesi, ma verificare solamente una
possibile compatibilità con i dati osservati. L’ipotesi nulla va rifiutata solo se in
aperta contraddizione con i dati, per poter invece accettare H 1.
12.4 – Livello (o soglia) di significatività del test
Per imporre un criterio numerico che funga da “soglia di accettazione”
dell’ipotesi, possiamo stabilire una certa quantità α che rappresenta la probabilità
massima di commettere un errore di prima specie, valore oltre il quale non si può
eccedere. Possiamo chiamare α livello di significatività del test:
ℙ𝐻0 (𝑆𝑇 ∈ 𝐶 ) ≤ 𝛼
dove “ST” è lo stimatore accennato in precedenza, e “ℙ𝐻0 ” indica la probabilità
che H0 sia vero e che venga rifiutato in quanto si suppone che “ST” sia in “C”.
12.5 – Il P-VALUE dei dati
Nel paragrafo precedente siam partiti dal livello di significatività del test per
costruirci la regione critica, ma questo procedimento può esser fatto a ritroso,
ossia potremmo chiederci per quale soglia α corrisponderebbe una regione
critica “C” la cui frontiera (ossia valore limite tra acettabile e non) risulta essere
proprio lo stimatore “ST”, ma valutato sui dati. Questo valore perde il nome di
livello di significatività e assume il nome di P-VALUE dei dati, definito così:
𝑃 − 𝑉𝐴𝐿𝑈𝐸 = 𝑠𝑢𝑝 { 𝛼: 𝑆𝑇 ∉ 𝐶 } = 𝑖𝑛𝑓 { 𝛼: 𝑆𝑇 ∈ 𝐶 }
che definisce il livello di significatività critico, sotto il quale cambia la decisione
presa sull’ipotesi nulla, passando da rifiuto ad accettazione.
Dato un test, H0 verrà rifiutato per tutti i livelli di significatività α maggiori del PVALUE, mentre verrà accettato per tutti i livelli di significatività minori o uguali.
Nella pratica si calcola sui dati il P-VALUE, e se risulta essere maggiore a quanto
siamo disposti ad accettare come errore, conviene accettare, altrimenti no.
12.6 – Test per la media di una popolazione normale: varianza nota
Sia X1,…,Xn un campione casuale estratto da una popolazione con distribuzione
normale con media incognita μ e varianza nota σ2. Allora posso effettuare sulla
media un test chiamato “test-Z” preso μ0 come valore di confronto:
Ipotesi H0
Ipotesi H1
𝜇 = 𝜇0
𝜇 ≠ 𝜇0
𝜇 ≤ 𝜇0
𝜇 > 𝜇0
𝜇 ≥ 𝜇0
𝜇 < 𝜇0
Statistica test ST
𝑋̅ − 𝜇0
~ 𝑁 (0,1)
𝜎
⁄ 𝑛
√
Rifiuto H0 a livello α se
|𝑠𝑡 | > 𝑧𝛼⁄
2
𝑠𝑡 > 𝑧𝛼
𝑠𝑡 < −𝑧𝛼
ESEMPIO:
Delle batterie hanno una durata nominale di 22 ore, e si sa che la deviazione
standard σ = 3,5 ore. Prendendo un campione di 20 batterie si è trovata una
durata media di 20,7 ore. Supponendo che la durata delle batterie segua un
andamento normale, a livello di significatività 5% si può confermare che la durata
media delle batterie sia inferiore a quanto dichiarato?
Per rispondere alla domanda è opportuno effettuare un test sulla media, dove
prendo per ipotesi nulla H0: μ = 22, e per ipotesi alternativa H1: μ < 22. Ora
bisogna costruire la statistica test sulla base dei dati osservati, dunque bisogna
trovare 𝑥̅ , 𝑛, 𝜇0 e 𝜎, dove tutti e 4 i valori sono già noti:
•
•
•
•
𝑥̅ = 20,7;
𝑛 = 20;
𝜇0 = 22;
𝜎 = 3,5.
Costruiamo la statistica test:
𝑠𝑡 =
20,7−22
.
3,5
⁄
20
√
Ora visioniamo la tabella, siamo nel caso di voler verificare un’ipotesi nulla del
tipo μ=μ0 con controparte un’ipotesi alternativa del tipo μ<μ0, dunque per
rifiutare H0 a livello di significatività 0,05 deve accadere:
𝑠𝑡 < −𝑧𝛼
⇔
−1,661 < −𝑧0,05
dove ricordiamo che 𝛷(𝑧𝛼 ) = 1 − 𝛼. Tramite la tabella della funzione di
ripartizione per una normale standard trovo che z 0,05=1,645. Quindi accade:
−1,661 < −1,645
⇔
𝑉𝐸𝑅𝑂!
Ciò vuol dire che la statistica test è nella regione critica “C”, dunque per un livello
di significatività al 5% devo rifiutare la mia ipotesi sulla media di 22 ore.
RISOLUZIONE ALTERNATIVA (con il P-VALUE):
Per prima cosa si calcola il P-VALUE sui dati, ossia quel valore 𝛼̂ del livello di
significatività per cui vale 𝑠𝑡 = −𝑧𝛼 , questo perché −𝑧𝛼 rappresenta il valore di
“confine” della zona critica “C” tra accettazione e rifiuto per la verifica di
un’ipotesi nulla del tipo μ=μ0 con controparte un’ipotesi alternativa del tipo μ<μ0.
La statistica test è già stata calcolata e vale “st=-1,661”, posso trovare 𝛼̂ :
𝛷 (𝑧𝛼̂ ) = 1 − 𝛼̂
⇔
𝛷(1,661) = 1 − 𝛼̂
⇔
𝛼̂ = 0,048
Dunque per ogni “𝛼” superiore a 𝛼̂ = 0,048 rifiutiamo H0. Il livello di significatività
al 5% vuol dire che 𝛼 = 0,05, che è maggiore anche se di poco. Ciò non cambia
l’esito del test, che vede ugualmente H0 ipotesi rifiutata e H1 ipotesi accettata.
12.7 – Test per la media di una popolazione normale: varianza ignota
Sia X1,…,Xn un campione casuale estratto da una popolazione con distribuzione
normale con sia media μ che varianza σ2 ignote. Allora posso effettuare sulla
media un test chiamato “test-T” preso μ0 sempre come valore di confronto:
Ipotesi H0
Ipotesi H1
𝜇 = 𝜇0
𝜇 ≠ 𝜇0
𝜇 ≤ 𝜇0
𝜇 > 𝜇0
𝜇 ≥ 𝜇0
𝜇 < 𝜇0
Statistica test ST
Rifiuto H0 a livello α se
|𝑠𝑡 | > 𝑡𝛼⁄
2,𝑛−1
𝑋̅ − 𝜇0
~ 𝑡𝑛−1
𝑆⁄
√𝑛
𝑠𝑡 > 𝑡𝛼,𝑛−1
𝑠𝑡 < −𝑡𝛼,𝑛−1
ESEMPIO:
Sia il seguente campione di dati raccolti il numero di pulsazioni cardiache di 10
studenti: 67 64 75 80 60 63 78 68 65 e 68. Il valore medio per dei ragazzi giovani
è intorno al 72 battiti al minuto. Esaminare se i dati osservati sono in linea con tale
valore di riferimento con un livello di significatività del 5%, sapendo che la
distribuzione segue un andamento normale.
Per rispondere alla domanda è opportuno effettuare un test sulla media, dove
prendo per ipotesi nulla H0: μ = 72, e per ipotesi alternativa H1: μ ≠ 72. Ora
bisogna costruire la statistica test sulla base dei dati osservati, dunque bisogna
trovare 𝑥̅ , √𝑛, 𝜇0 e 𝑆, dove due valori su 4 sono già noti:
• √𝑛 = √10;
• 𝜇0 = 72.
Trovo 𝑥̅ =
67+64+75+80+60+63+78+68+65+68
10
1
2
= 68,8 e 𝑆 = √ ⋅ ∑10
𝑖=1(𝑥𝑖 − 𝑥̅ ) = 6,68.
9
68,8−72
Compongo lo stimatore: 𝑠𝑡 = 6,68
⁄
√10
= −1,51.
Ora visioniamo la tabella, siamo nel caso di voler verificare un’ipotesi nulla del
tipo μ=μ0 con controparte un’ipotesi alternativa del tipo μ≠μ0, dunque per rifiutare
H0 a livello di significatività 0,05 deve accadere (con 9 gradi di libertà per “t”):
|𝑠𝑡| > 𝑡𝛼⁄2
⇔
| − 1,51| > 𝑡0,025
dove ricordiamo che 𝛷̇ (𝑡0,025 ) = 1 − 0,025. Tramite la tabella della funzione di
ripartizione per la “t” di Student trovo che 𝑡0,025,9 = 2,262. Quindi accade:
1,51 > 2,26
⇔
𝐹𝐴𝐿𝑆𝑂!
Ciò vuol dire che la statistica test non è nella regione critica “C”, dunque per un
livello di significatività al 5% posso accettare la mia ipotesi sulla media di 72.
Come l’esempio precedente, l’esercizio si potrebbe risolvere anche tramite il PVALUE, ma va calcolato sulla funzione “t” di Student.
12.8 – Test per la varianza di una popolazione normale: media ignota
Sia X1,…,Xn un campione casuale estratto da una popolazione con distribuzione
normale con media μ nota o ignota e varianza σ2 ignota. Allora posso effettuare
sulla varianza un test chiamato “test-X”, preso σ20 come valore di confronto:
Ipotesi H0
Ipotesi H1
𝜎 2 = 𝜎02
𝜎 2 ≠ 𝜎02
𝜎 2 ≤ 𝜎02
𝜎 2 > 𝜎02
𝜎 2 ≥ 𝜎02
𝜎 2 < 𝜎02
Statistica test ST
2
Rifiuto H0 a livello α se
𝑠𝑡 < 𝜒2 1−𝛼⁄
(𝑛 − 1) ⋅ 𝑆
~ 𝜒 2 𝑛−1
𝜎02
2,𝑛−1
o 𝑠𝑡 > 𝜒2 𝛼⁄
2,𝑛−1
𝑠𝑡 > 𝜒 2 𝛼,𝑛−1
𝑠𝑡 < 𝜒 21−𝛼,𝑛−1
ESEMPIO:
Il peso delle uova prodotte da una azienda segue una distribuzione normale.
Preso il seguente campione di dati, si verifichi che la varianza della popolazione
sia 36, contro l’alternativa che sia invece minore di 36. Effettuare tutto ciò
considerando un livello di significatività sempre del 5%. Dati:
61g 57g 58g 65g 54g 63g 56g 68g 67g 53g 64g 66g
Per rispondere alla domanda è opportuno effettuare un test sulla varianza, dove
prendo per ipotesi nulla H0: σ2 = 36, e per ipotesi alternativa H1: σ2 < 36. Ora
bisogna costruire la statistica test sulla base dei dati osservati, dunque bisogna
trovare 𝑛 − 1, 𝜎02 e 𝑆 2 , dove due valori su 3 sono già noti:
• 𝑛 − 1 = 11;
• 𝜎02 = 36.
Trovo 𝑆 2 =
1
11
12
⋅ ∑𝑖=1(𝑥𝑖 − 𝑥̅ )2 =
Compongo lo stimatore: : 𝑠𝑡 =
1
11
11⋅27,45
36
12
⋅ ∑𝑖=1(𝑥𝑖 − 61)2 = 27,45.
= 8,39.
Ora visioniamo la tabella, siamo nel caso di voler verificare un’ipotesi nulla del
tipo σ2 = σ20 con controparte un’ipotesi alternativa del tipo σ2 < σ20, dunque per
rifiutare H0 a livello di significatività 0,05 deve accadere (con 11 gradi di libertà
per “𝜒 2”):
𝑠𝑡 < 𝜒 21−𝛼
8,39 < 𝜒 21−0,05
⇔
dove ricordiamo che 𝛷̈ (𝜒 2 0,95 ) = 1 − 0,95. Tramite la tabella della funzione di
ripartizione per la “𝜒 2” chi-quadro trovo che 𝜒 2 0,95=4,575. Quindi accade:
8,39 < 4,57
⇔
𝐹𝐴𝐿𝑆𝑂!
Ciò vuol dire che la statistica test non è nella regione critica “C”, dunque per un
livello di significatività al 5% posso accettare la mia ipotesi sulla varianza di 36.
Come già visto, l’esercizio si potrebbe risolvere anche tramite il P-VALUE, ma va
calcolato sulla funzione “𝜒 2” chi-quadro.
12.9 – Test per la media di una popolazione di Bernoulli
Con un approccio simile per quanto fatto con gli intervalli di confidenza,
sfruttiamo il teorema del limite centrale per effettuare dei test asintotici sul
parametro “q” che caratterizza una popolazione di Bernoulli.
Sia sempre X1,…,Xn un campione casuale estratto da una popolazione di
Bernoulli con parametro incognito “q”. Allora posso effettuare sul parametro un
test chiamato “test sulla proporzione”, preso q0 come valore di confronto:
Ipotesi H0
Ipotesi H1
Statistica test ST
𝑞 = 𝑞0
𝑞 ≠ 𝑞0
𝑄 − 𝑞0
𝑞 ≤ 𝑞0
𝑞 > 𝑞0
𝑞 ≥ 𝑞0
𝑞 < 𝑞0
√𝑞0 (1 − 𝑞0 )
𝑛
Rifiuto H0 a livello α se
|𝑠𝑡 | > 𝑧𝛼⁄
~ 𝑁(0,1)
2
𝑠𝑡 > 𝑧𝛼
𝑠𝑡 < −𝑧𝛼
ESEMPIO:
Un sindaco interroga 260 cittadini, dei quali solo 110 si trovano d’accordo con
l’ordinanza comunale da lui proposta. Il sindaco si dichiarava “fiducioso che i
cittadini fossero dalla sua parte”. L’affermazione del sindaco ha senso?
Per rispondere alla domanda è opportuno effettuare un test sul parametro “q” di
una Bernoulli (cittadino d’accordo = 1, cittadino in disaccordo = 0), dove prendo
per ipotesi nulla H0: q ≥ 0.5, e per ipotesi alternativa H1: q < 0.5 (questo perché si
suppone che il sindaco abbia ragione se almeno il 50% dei cittadini possa essere
d’accordo). Ora bisogna costruire la statistica test sulla base dei dati osservati,
dunque bisogna trovare 𝑄 e 𝑞0, dove sono entrambi già noti:
• 𝑄 = 110⁄260 = 0.42;
• 𝑞0 = 0,5.
Compongo lo stimatore: : 𝑠𝑡 =
0,42−0,5
√0,5(1−0,5)
260
= −2,48.
Ora visioniamo la tabella, siamo nel caso di voler verificare un’ipotesi nulla del
tipo q ≥ q0 con controparte un’ipotesi alternativa del tipo q < q0, dunque per
rifiutare H0, siccome non ho il livello di significatività a disposizione, bisogna
perforza ragionare con il P-VALUE:
𝑠𝑡 = −𝑧𝛼̂
𝛷 (−2,48) = 1 − 𝛷(𝑧𝛼̂ ) = 𝛼̂
𝛷(𝑠𝑡 ) = 𝛷 (−𝑧𝛼̂ )
⇔
⇔
1 − 𝛷 (2,48) = 𝛼̂
v
dove 1 − 𝛷(2,48) = 𝛼̂ = 0,0066. Il P-VALUE non può esser confrontato con un
livello di significatività prestabilito, tuttavia possiamo comunque trarre delle
conclusioni in quanto è risultato un valore davvero piccolo, quindi
verosimilmente H0 è un’ipotesi da rifiutare
Rifiutando H0 ho anche rifiutato che il parametro “q” sia maggiore o uguale a 0,5
ossia che il sindaco possa aver affermato una cosa veritiera: i cittadini sono più
orientati verso un disaccordo!
12.10 – Schema riassuntivo per il test di un’ipotesi su un parametro
Il seguente schema riassume come poter iniziare ad effettuare il test di una
ipotesi a partire da un set di dati prestabilito e dalla distribuzione di essi.
Lo schema è simile a quello fatto per le stime intervallari, l’idea di fondo è che per
la varianza si usa “χ2α,n-1”, per la media si usa “zα” se la varianza è nota, e “tα,n-1” se è
ignota; mentre per “q” in una Bernoulli si usa sempre la normale standard “z α”.
13.1 – Test della media su due popolazioni normali
Per decidere se due approcci allo stesso problema hanno portato allo stesso
risultato, è opportuno verificare che le due popolazioni in esame abbiano lo
stesso valor medio, che sia per popolazioni normali o di Bernoulli.
13.2 – Confronto delle medie di due popolazioni normali: varianze note
Siano X1,…,Xn e Y1,…,Ym due campioni casuali indipendenti estratti da due
popolazioni normali con medie incognite μx e μy e varianze note σx2 e σy2. Allora
posso effettuare come ipotesi un confronto tra μx e μy:
Ipotesi H0
Ipotesi H1
𝜇𝑥 = 𝜇𝑦
𝜇𝑥 ≠ 𝜇𝑦
𝜇𝑥 ≤ 𝜇𝑦
𝜇𝑥 > 𝜇𝑦
𝜇𝑥 ≥ 𝜇𝑦
𝜇𝑥 < 𝜇𝑦
Statistica test ST
𝑋̅ − 𝑌̅
2
𝜎2
√ 𝜎𝑥 + 𝑦
𝑛
𝑚
Rifiuto H0 a livello α se
|𝑠𝑡 | > 𝑧𝛼⁄
~ 𝑁 (0,1)
2
𝑠𝑡 > 𝑧𝛼
𝑠𝑡 < −𝑧𝛼
ESEMPIO:
Eta Beta si vuole cronometrare durante delle corse, e lo fa sia prima che dopo le
vacanze natalizie, ottenendo i seguenti risultati:
• prima delle vacanze la media di 5 corse ha fornito il risultato di 53,82s;
• dopo le vacanze la media di 6 corse ha fornito il risultato di 54,41s.
Supponi che il tempo della corsa segua una distribuzione normale, con varianza
costante σ2 = 0,1; si può concludere che il periodo di vacanze natalizie, tra ozio e
cibo, ha influito negativamente (e quanto) sui risultati di Eta Beta?
Ciò che ci chiede l’esercizio in breve è di effettuare un test di confronto tra le
medie, con ipotesi nulla H0 : μx = μy (ossia le vacanze non hanno influito) in
contrasto con l’ipotesi alternativa H 1 : μx ≤ μy (ossia le vacanze hanno influito
negativamente). Ora bisogna costruire la statistica test sulla base dei dati
osservati, dunque bisogna trovare 𝑥̅ , 𝑦̅, 𝜎𝑥2 e 𝜎𝑦2 :
• 𝑥̅ = 53,82;
• 𝑦̅ = 54,41;
• 𝜎𝑥2 = 𝜎𝑦2 = 𝜎 2 = 0,1.
Ora possiamo calcolare la statistica test:
𝑠𝑡 =
53,82 − 54,41
√
0,1 0,1
−
5
6
= −2,98.
Ora visioniamo la tabella, siamo nel caso di voler verificare un’ipotesi nulla del
tipo μx = μy con controparte un’ipotesi alternativa del tipo μx ≤ μy , dunque per
rifiutare H0, siccome non ho il livello di significatività a disposizione, bisogna
perforza ragionare con il P-VALUE:
𝑠𝑡 = −𝑧𝛼̂
𝛷 (−2,98) = 1 − 𝛷(𝑧𝛼̂ ) = 𝛼̂
𝛷(𝑠𝑡 ) = 𝛷 (−𝑧𝛼̂ )
⇔
1 − 𝛷 (2,98) = 𝛼̂
⇔
v
dove 1 − 𝛷(2,98) = 𝛼̂ = 0,0014. Il P-VALUE non può esser confrontato con un
livello di significatività prestabilito, tuttavia possiamo comunque trarre delle
conclusioni in quanto è risultato un valore davvero piccolo, quindi
verosimilmente H0 è un’ipotesi da rifiutare.
Rifiutando H0 ho anche rifiutato che il parametro μx sia maggiore o uguale a μy,
quindi Eta Beta ha decisamente esagerato durante le vacanze natalizie, le quali
hanno influito nel rendimento nella corsa.
13.3 – Confronto delle medie di due popolazioni normali: varianze ignote ma uguali
Siano X1,…,Xn e Y1,…,Ym due campioni casuali indipendenti estratti da due
popolazioni normali con medie incognite μx e μy e varianze altrettanto incognite
σx2 e σy2. Allora posso effettuare come ipotesi un confronto tra μx e μy, però
supponendo che σx2 = σy2 = σ2. Posso effettuare tale supposizione se vale la
2
seguente identità di approssimazione: 1⁄2 < 𝑆𝑥⁄𝑆 2 < 2.
𝑦
Ipotesi H0
Ipotesi H1
𝜇𝑥 = 𝜇 𝑦
𝜇𝑥 ≠ 𝜇𝑦
𝜇𝑥 ≤ 𝜇 𝑦
𝜇𝑥 > 𝜇𝑦
𝜇𝑥 ≥ 𝜇 𝑦
𝜇𝑥 < 𝜇𝑦
Statistica test ST
𝑋̅ − 𝑌̅
√ 𝑆𝑃2 ⋅ (1 + 1 )
𝑛 𝑚
Rifiuto H0 a livello α se
|𝑠𝑡 | > 𝑡𝛼⁄
~𝑡𝑛−1
dove SP2 è detto stimatore di varianza combinata e vale: 𝑆𝑃2 =
(o pooled)
2,𝑛+𝑚−2
𝑠𝑡 > 𝑡𝛼,𝑛+𝑚−2
𝑠𝑡 < −𝑡𝛼,𝑛+𝑚−2
2 (
(𝑛−1)𝑆𝑋
+ 𝑚−1)𝑆𝑌2
𝑛+𝑚−2
.
ESEMPIO:
Vengono testati 12 pezzi di un materiale “A” e 10 pezzi di un materiale “B”. L’usura
media del primo campione è di 85 unità con deviazione standard di 4 unità,
mentre l’usura media del secondo campione è di 81 unità con deviazione
standard di 5 unità. Con un livello di significatività del 5% si può dire che il
materiale “A” sia usurato più di quello “B”? Si assuma ovviamente che l’usura
segua una distribuzione normale con uguale varianza per entrambi i campioni.
Ciò che ci chiede l’esercizio in breve è di effettuare un test di confronto tra le
medie, con ipotesi nulla H0 : μx = μy (l’usura media è la medesima) in contrasto
con l’ipotesi alternativa H1 : μx > μy (l’usura media del materiale “A” supera quella
del materiale “B”). Ora bisogna costruire la statistica test sulla base dei dati
osservati, dunque bisogna trovare 𝑥̅ , 𝑦̅, e 𝑆𝑃2 :
• 𝑥̅ = 85;
• 𝑦̅ = 81;
• 𝑆𝑃2 =
2
(𝑛−1)𝑆𝑋
+ (𝑚−1)𝑆𝑌2
𝑛+𝑚−2
=
(12−1)16 + (10−1)25
12+10−2
Ora possiamo calcolare la statistica test:
𝑠𝑡 =
=
11⋅16 + 9⋅25
20
85 − 81
√ 20,05(1⁄12+1⁄10)
=
401
20
= 20,05.
= 2,086.
Ora visioniamo la tabella, siamo nel caso di voler verificare un’ipotesi nulla del
tipo μx = μy con controparte un’ipotesi alternativa del tipo μx > μy, dunque per
rifiutare H0 a livello di significatività 0,05 deve accadere (con 12+10-2=20 gradi di
libertà per “t”):
𝑠𝑡 > 𝑡𝛼
⇔
2,086 > 𝑡0,05
dove ricordiamo che 𝛷̇ (𝑡0,05 ) = 1 − 0,05. Tramite la tabella della funzione di
ripartizione per la “t” di Student trovo che 𝑡0,05 = 1,742. Quindi accade:
2,086 > 1,742
⇔
𝑉𝐸𝑅𝑂!
Ciò vuol dire che la statistica test è nella regione critica “C”, dunque per un livello
di significatività al 5% devo rifiutare la mia ipotesi nulla, ossia che l’usura media
sia identica. Di conseguenza accetterò H1 che mi conferma dai dati osservati
sperimentalmente che il materiale “A” ha una usura media superiore a “B”.
13.4 – Confronto delle medie di due popolazioni normali: varianze ignote e diverse
Siano X1,…,Xn e Y1,…,Ym due campioni casuali indipendenti estratti da due
popolazioni normali con medie incognite μx e μy e varianze altrettanto incognite e
soprattutto diverse σx2 e σy2. Fatta tale supposizione, si possono effettuare dei test
di tipo asintotico se i campioni sono numerosi (se n e m sono maggiori di 30):
Ipotesi H0
Ipotesi H1
𝜇𝑥 = 𝜇𝑦
𝜇𝑥 ≠ 𝜇𝑦
𝜇𝑥 ≤ 𝜇𝑦
𝜇𝑥 > 𝜇𝑦
𝜇𝑥 ≥ 𝜇𝑦
𝜇𝑥 < 𝜇𝑦
Statistica test ST
𝑋̅ − 𝑌̅
2
𝑆2
√ 𝑆𝑥 + 𝑦
𝑛
𝑚
Rifiuto H0 a livello α se
|𝑠𝑡 | > 𝑧𝛼⁄
~ 𝑁(0,1)
2
𝑠𝑡 > 𝑧𝛼
𝑠𝑡 < −𝑧𝛼
13.5 – Confronto delle medie di due popolazioni normali: campioni accoppiati
Ora non abbiamo più due campioni distinti e indipendenti, ma abbiamo un
campione costituito da coppie di osservazioni, ognuna relativa allo stesso
individuo della popolazione.
Ad esempio prima avevamo due campioni casuali e indipendenti del tipo
X1,…,Xn e Y1,…,Yn; ora invece abbiamo un unico campione casuale del tipo
(X1, Y1),…,(Xn, Yn), ricordando che X e Y si distribuiscono normalmente.
Stabiliamo una Wi generica (sempre normale) come la differenza tra X i e Yi. Ora
possiamo pensare W1,…,Wn come un campione casuale estratto da una
popolazione normale con media μw = μx – μy e varianza σ2w incognite.
Ora abbiamo tutti gli strumenti per effettuare un test sulle medie μx e μy,
semplicemente testando μw dove il valore di confronto è μ0 = 0.
[PARAGRAFO 12.7]
ESEMPIO:
Vengono esaminate 6 persone per stabilire se un certo farmaco abbassi o meno
la quantità di colesterolo. I risultati sono i seguenti:
Ipotizzando che il tasso di colesterolo abbia una distribuzione normale, è lecito
concludere che il farmaco abbia effetto positivo? Si studi la richiesta per i
seguenti livelli di significatività: 1%, 5% e 10%.
Per prima cosa compattiamo la tabella considerando la distribuzione W 1,…,W6
tale per cui Wi = Xi - Yi:
Rifacendoci al paragrafo 12.7, dobbiamo trovare media e deviazione standard
campionaria per costruirci il nostro stimatore “st”. Quindi abbiamo:
• 𝑤
̅=
3,8 − 2,6 +39,2 − 4,9 + 27,9 + 36,8
6
= 16,7;
• 𝑆 = √ 1⁄5 ⋅ ∑6𝑖=1(𝑤𝑖 − 𝑤
̅ )2 = 20,2;
• 𝜇0 = 0.
Ora ci siamo ridotti al test sulla media di una popolazione normale con varianza
ignota. Siamo precisamente nel caso H0 : μw ≤ 0 contro H1 : μw > 0 (questo perché
se μw=μx–μy non è maggiore di 0 allora non abbiamo un miglioramento concreto)
e prendiamo ciò come ipotesi nulla. Costruiamo lo stimatore giusto:
• 𝑠𝑡 =
̅ −𝜇0
𝑤
𝑆⁄
√𝑛
=
16,7−0
20,2
⁄
√6
= 2,025
mentre ora costruiamo i percentili della funzione “t” di Student nei livelli di
confidenza richiesti. Il metodo per trovarli ormai è noto, quindi senza ulteriori
calcoli si conferma che:
• se 𝛼 = 0,01, allora 𝑡0,01,5 = 3,365;
• se 𝛼 = 0,05, allora 𝑡0,05,5 = 2,015;
• se 𝛼 = 0,10, allora 𝑡0,10,5 = 1,476.
Siamo nel caso dove se vale “st>t α,n” allora si è nella regione critica “C” e dunque
l’ipotesi nulla va rifiutata. Solo per α=0,10 ho che non vale “2,065>t0,10” e quindi
posso affermare che accetto H0 solo per il livello di confidenza 10%, altrimenti
rifiuto. L’esercizio poteva essere affrontato anche con l’approccio P-VALUE.
13.6 – Confronto asintotico delle medie di due popolazioni di Bernoulli
Siano X1,…,Xn e Y1,…,Ym due campioni casuali indipendenti estratti da due
popolazioni di Bernoullu con parametri qx e qy entrambi ignoti. Allora posso
effettuare come ipotesi un confronto tra qx e qy, definendo anche qui una
grandezza utile al calcolo dello stimatore, ossia lo stimatore del parametro
combinato (o pooled) dei due campioni:
𝑄𝑃 =
Ipotesi H0
Ipotesi H1
𝑞𝑥 = 𝑞𝑦
𝑞𝑥 ≠ 𝑞𝑦
𝑞𝑥 ≤ 𝑞𝑦
𝑞𝑥 > 𝑞𝑦
𝑞𝑥 ≥ 𝑞𝑦
𝑞𝑥 < 𝑞𝑦
𝑛 ⋅ 𝑄𝑋 + 𝑚 ⋅ 𝑄𝑌
𝑛+𝑚
Statistica test ST
Rifiuto H0 a livello α se
|𝑠𝑡 | > 𝑧𝛼⁄
2
𝑄𝑋 − 𝑄𝑌
√𝑄𝑝 (1 − 𝑄𝑝 ) ( 1 + 1 )
𝑛 𝑚
~𝑁(0,1)
𝑠𝑡 > 𝑧𝛼
𝑠𝑡 < −𝑧𝛼
ESEMPIO:
Bisogna stabilire se le percentuali di votanti di un partito “A” sono le medesime in
due comuni limitrofi “X” e “Y”. Nel comune “X” i dati ci informano che su 560
intervistati, 135 voteranno per il partito “A”, mentre nel comune “Y” su 440
intervistati, 81 voteranno sempre il partito “A”. Si può presupporre che la
percentuale di votanti sia la stessa nei due comuni?
Ciò che ci chiede l’esercizio in breve è di effettuare un test di confronto tra le
medie, con ipotesi nulla H0 : qx = qy (le percentuali corrispondono) in contrasto
con l’ipotesi alternativa H1 : qx ≠ qy (le percentuali non corrispondono). Ora
bisogna costruire la statistica test sulla base dei dati osservati, dunque bisogna
trovare Qx, Qy e Qp:
• 𝑄𝑥 = 135⁄560 ≈ 0,24;
• 𝑄𝑦 = 81⁄440 ≈ 0,18;
560⋅0,24+440⋅0,18
135+81
• 𝑄𝑝 =
=
≈ 0,22.
560+440
1000
Ora possiamo calcolare la statistica test:
𝑠𝑡 =
0,24 −0,18
√ 0,22⋅0,78⋅(1⁄440+1⁄560)
≈ 2,29.
Ora visioniamo la tabella, siamo nel caso di voler verificare un’ipotesi nulla del
tipo qx = qy con controparte un’ipotesi alternativa del tipo q x ≠ qy, dunque per
rifiutare H0, siccome non ho il livello di significatività a disposizione, bisogna
perforza ragionare con il P-VALUE:
|𝑠𝑡| = 𝑧𝛼̂⁄
2
𝛷(2,29) = 𝛷 (𝑧𝛼̂ )
𝛷(|𝑠𝑡|) = 𝛷 (𝑧𝛼̂⁄ )
⇔
2
⇔
0,989 = 1 − 𝛼̂⁄2
v
dove 𝛼̂ = 0,05. Il P-VALUE non può esser confrontato con un livello di
significatività prestabilito, tuttavia possiamo comunque trarre delle conclusioni in
quanto è risultato un valore davvero piccolo, quindi verosimilmente H 0 è
un’ipotesi da rifiutare, quindi le percentuali non sono uguali.
13.7 – Schema riassuntivo sul test d’ipotesi su due popolazioni
Il seguente schema, come i precedenti due, vuole riassumere la strategia dietro
alla scelta di un test rispetto ad un altro, in base ai dati forniti e alla distribuzione.
14.1 – La regressione lineare semplice
Diversi problemi richiedono di determinare una possibile relazione lineare tra
due popolazioni di dati X 1,…,Xn e Y1,…,Yn di uguale dimensione. Cosa si intende
per relazione lineare? Vuol dire che si presuppone esistano due valori reali β0 e β1
tali per cui vale sui dati:
𝑓 (𝑥 ) = 𝑦 = 𝛽0 + 𝛽1 ⋅ 𝑥
La funzione “f” è quella che descrive il modello di regressione lineare, ossia la
relazione che vi è tra ogni dato “xi” indipendente rispetto al corrispettivo dato “yi”
dipendente. Si sarebbe fantastico avere una relazione così semplice e “pulita”.
tuttavia non bisogna dimenticarsi dell’aletorietà: senza di essa ricordiamo che
dovremmo riallacciarci al determinismo degli eventi, dunque la funzione del
modello deve variare di conseguenza. Per inserire la componente aleatoria nella
relazione lineare, si aggiunge un errore casuale:
𝑌 = 𝛽0 + 𝛽1 ⋅ 𝑥 + 𝜉
dove “𝜉” è una variabile aleatoria con media 0, “Y” è detta risposta e “x” è detto
ingresso. L’equazione appena scritta ha un nome ed è la retta di regressione
lineare semplice di “Y” rispetto a “x”. Le costanti β0 e β1 sono detti coefficienti di
regressione e vengono stimati a partire dal campione di dati osservati.
Un campione casuale estratto da un modello di regressione lineare può essere il
seguente (x1,Y1),…,(xn,Yn), dove le variabili aleatorie Yi sono della forma:
𝑌𝑖 = 𝛽0 + 𝛽1 ⋅ 𝑥𝑖 + 𝜉𝑖
Con 𝜉1 , . , 𝜉𝑛 variabili aleatorie indipendenti e distribuite ugualmente con media 0.
ESEMPIO:
La tabella seguente riporta la superficie in m2 e il costo dell’affitto mensile in $ di
20 appartamenti in un quartiere di Seattle. Senza calcoli e con il solo intuito, si
può affermare che vi sia una possibile relazione lineare tra le due variabili?
Per ora non sappiamo ancora effettuare calcoli affinchè ci arrivi un feedback su
una possibile linearità, o addirittura la stima su β0 e β1. L’unico modo per capire
dunque è affidarci alla raffigurazione che può offrirci uno scatterplot:
Il grafico ci segnala una distribuzione dei punti abbastanza adagiata su una retta
di coefficiente angolare positivo e probabilmente passante per l’origine (o li
vicino). Concludiamo che un modello di regressione lineare può esser valido.
NOTA1: Siccome E(ξ) = 0, allora E(Y) = β0 + β1x di conseguenza.
NOTA2: Si dice regressione lineare semplice perché quella “classica” può tener
conto di più variabili indipendenti, ad esempio Y = β0 + β1x1 + … + βnxn.
14.2 – Stima dei coefficienti di regressione
Ovvio è che i coefficienti di regressione siano un’incognita fondamentale da
trovare nel caso si scelga di utilizzare un modello di regressione lineare per un
set di dati, infatti, la stima viene fornita proprio da essi.
Ora supponiamo di osservare “n” dati con input “xi” e le relative risposte “yi”. Da
quanto osservato vogliamo stimare β0 e β1. Come prima cosa, è opportuno
sempre rappresentare il campione di dati osservato tramite uno scatterplot, dove
ogni elemento del campione viene identificato da un punto nero di coordinate
(xi,yi).
L’idea che nel concreto diventerà l’obiettivo finale è quella di trovare una retta
(come quella azzurra) che più si avvicina a mimetizzare la nube di punti, tradotto
quella retta che rende la regressione la meno errata possibile.
Per fare ciò, dobbiamo trovare dei coefficienti di regressione tali per cui l’errore
quadratico è il più minimizzato possibile. In sostanza, dobbiamo rendere la
minore possibile la seguente quantità, che altro non è che la somma degli errori
quadratici per ogni risposta:
𝑛
∑ (𝑦𝑖 − (𝛽̂0 + 𝛽̂1 ⋅ 𝑥𝑖 ))
2
𝑖=1
Questo metodo prende il nome di “metodo dei minimi quadrati” e ci permette di
ottenere gli stimatori migliori per i coefficienti di regressione. Si dimostra
pertanto che gli stimatori dei coefficienti sono:
𝛽1 =
∑𝑛𝑖=1 𝑥𝑖 𝑌𝑖 − 𝑥̅ ∑𝑛𝑖=1 𝑌𝑖
𝑛
∑𝑖=1 𝑥𝑖2 − 𝑛𝑥̅ 2
𝛽0 = 𝑌̅ − 𝛽1 ⋅ 𝑥̅
Nella pratica il calcolo dello stimatore si effettua sui dati concreti, quindi partendo
da un dataset del tipo (x1,y1),…,(xn,yn) l’aleatorietà viene meno e si passa al
seguente calcolo:
𝛽̂1 =
∑𝑛𝑖=1 𝑥𝑖 𝑦𝑖 − 𝑥̅ ∑𝑛𝑖=1 𝑦𝑖
𝑛
∑𝑖=1 𝑥𝑖2
−
𝑛𝑥̅ 2
𝛽̂0 = 𝑦̅ − 𝛽̂1 ⋅ 𝑥̅
ESEMPIO:
Si stimi una retta di regressione per il seguente campione di osservazioni:
Le stime dei coefficienti di regressione si calcolano in questo modo, dunque
separeremo il calcolo per poi riunificare il tutto componendo la retta:
𝛽̂1 =
∑4𝑖=1 𝑥𝑖 𝑦𝑖 − 𝑥̅ ∑4𝑖=1 𝑦𝑖
4
∑𝑖=1 𝑥𝑖2
−
𝛽̂0 = 𝑦̅ − 𝛽̂1 ⋅ 𝑥̅
4𝑥̅ 2
• ∑4𝑖=1 𝑥𝑖 ⋅ 𝑦𝑖 = 1 ⋅ 4 + 2 ⋅ 7 + 3 ⋅ 8 + 5 ⋅ 12 = 102;
• ∑4𝑖=1 𝑦𝑖 = 4 + 7 + 8 + 12 = 31;
• 𝑥̅ =
• 𝑦̅ =
1+2+3+5
4
4+7+8+12
4
4
= 2,75;
= 7,75;
• ∑𝑖=1 𝑥𝑖2 = 12 + 22 + 32 + 52 = 39.
𝛽̂1 =
102 − 2,75 ⋅ 31
= 1,91
39 − 4(2,75)2
𝛽̂0 = 7,75 − 1,91 ⋅ 2,75 = 2,49
La stima della retta di regressione è: 𝑦 = 2,49 + 1,91 ⋅ 𝑥 . Proviamo a computarla
su R e vediamo quanto ci siamo avvicinati:
ESEMPIO 14.1 (continuazione):
Ora che sappiamo stimare i coefficienti di regressione, computiamo su R
l’esempio del paragrafo precedente e vediamo quanto ci siamo avvicinati:
Per informazione, la retta di regressione è: y = 122,79 + 11,78 · x .
14.3 – Inferenza statistica sul coefficiente angolare β1
Sia il seguente un modello di regressione lineare semplice, dove l’errore casuale
“ξ” è una variabile aleatoria di media 0: 𝑌 = 𝛽0 + 𝛽1 ⋅ 𝑥 + 𝜉 . Per garantire una
buona validità della stima dei coefficienti di regressione, sarà necessario che
l’errore casuale abbia una distribuzione di media 0 e varianza generica σ2.
Un’ipotesi importantissima da verificare per quanto riguarda il modello di
regressione lineare, è che β1 possa essere 0. Ovviamente in tal caso verrebbe a
mancare la relazione tra la variabile dipendente e indipendente, in quanto si
avrebbe un’equazione del tipo “y= β0”. Il test viene costruito così:
Ipotesi H0
Ipotesi H1
𝛽1 = 0
𝛽1 ≠ 0
Statistica test ST
√
(𝑛 − 2)𝑆𝑥𝑥
𝛽1 ~ 𝑡𝑛−2
𝑆𝑆𝑅
Rifiuto H0 a livello α se
|𝑠𝑡| > 𝑡𝛼⁄
2,𝑛−2
dove Sxx e SSR sono statistiche costruite in questo modo:
𝑛
• 𝑆𝑥𝑥 = ∑𝑖=1 𝑥𝑖2 − 𝑛𝑥̅ 2 ;
𝑛
• 𝑆𝑆𝑅 = ∑𝑖=1(𝑌𝑖 − 𝛽0 − 𝛽1 𝑥𝑖 )2 .
ESEMPIO:
In un negozio vengono registrate le vendite di 2 marchi di vestiti “A” e “B” per 12
settimane, e i dati sono i seguenti:
Si determini una stima della retta di regressione delle vendite della marca “B”
rispetto alle vendite della marca “A”, effettuando anche un test dell’ipotesi nulla
H0 : β1 = 0 a livello di significatività α = 0,05.
Per stimare i coefficienti di regressione, calcoliamo le grandezze interessate:
•
•
•
•
∑12
𝑖=1 𝑥𝑖 ⋅ 𝑦𝑖 = 123967;
∑12
𝑖=1 𝑦𝑖 = 1807;
𝑥̅ = 67,75;
𝑦̅ = 150,58;
12
• ∑𝑖=1 𝑥𝑖2 = 55767.
𝛽̂1 =
123967 − 67,75 ⋅ 1807
= 2,25
55767 − 12(67,75)2
𝛽̂0 = 150,58 − 2,25 ⋅ 67,75 = −1,72
La stima della retta di regressione si può comporre così:
𝑦 = −1,72 + 2,25 ⋅ 𝑥 .
Approfitto del calcolo precedente notando che la quantità colorata in verde
corrisponde proprio a “Sxx”, dunque ora procediamo nel calcolo di “SS R”:
• 𝑆𝑥𝑥 = 686,25;
12
• 𝑆𝑆𝑅 = ∑
2
(𝑦𝑖 − 𝛽̂0 − 𝛽̂1 𝑥𝑖 ) = 494,48.
𝑖=1
Invece ora calcolo la statistica test:
𝑠𝑡 = √
(𝑛−2)𝑆𝑥𝑥
𝑆𝑆𝑅
10⋅686,25
𝛽̂1 = √
⋅ 2,25 = 8,38.
210,68
Ora visioniamo la tabella, siamo nel caso di voler verificare un’ipotesi nulla del
tipo β1=0 con controparte un’ipotesi alternativa del tipo β1≠0, dunque per rifiutare
H0 a livello di significatività 0,05 deve accadere (con 10 gradi di libertà per “t”):
|𝑠𝑡| > 𝑡𝛼⁄2
⇔
|8,38| > 𝑡0,025
dove ricordiamo che 𝛷̇ (𝑡0,025 ) = 1 − 0,025. Tramite la tabella della funzione di
ripartizione per la “t” di Student trovo che 𝑡0,025 =2,262. Quindi accade:
8,38 > 2,26
⇔
𝑉𝐸𝑅𝑂!
(𝑒 𝑛𝑒𝑚𝑚𝑒𝑛𝑜 𝑑𝑖 𝑝𝑜𝑐𝑜)
Ciò vuol dire che la statistica test è nella regione critica “C”, dunque per un livello
di significatività al 5% devo rifiutare la mia ipotesi nulla, confermando (per quanto
non fosse già evidente) che il coefficiente angolare β1 non è vicino a 0.
14.4 – Coefficiente di determinazione
Potrebbe essere interessante stabilire una quantità che esprima la variabilità (o
dispersione) delle risposte Y1,…,Yn ottenute dagli ingressi x1,…,xn. Ciò è fattibile,
e se ne occupa la seguente formula:
𝑛
𝑆𝑌𝑌 = ∑ (𝑌𝑖 − 𝑌̅)2
𝑖=1
che altro non è che una sorta di “varianza” per le risposte Y 1,…,Yn. Si osservi che
se le risposte sono tutte uguali, alias la retta di regressione è orizzontale, la
dispersione risulta essere 0. La variabilità di una determinata risposta è
determinata da due fattori: dalla dispersione degli input xi e dalla dispersione
provocata dall’errore casuale, con varianza non nota σ2.
Appurato ciò, cerchiamo di ricavare matematicamente queste due dipendenze,
capendo quale parte della variabilità è dovuta agli ingressi, e quale all’errore
casuale. Riscriviamo SYY come:
𝑆𝑌𝑌 = 𝑆𝑆𝑅 + (𝑆𝑌𝑌 − 𝑆𝑆𝑅 )
la quantità in azzurro la chiamiamo varianza residua, mentre la quantità in rosso la
chiamiamo varianza spiegata.
Dividiamo il tutto per SYY (assumendo che il modello di regressione lineare abbia
come ipotesi valida la non nullità del coefficiente β1) e otteniamo:
1 =
𝑆𝑆𝑅
𝑆𝑌𝑌 − 𝑆𝑆𝑅
+
𝑆𝑌𝑌
𝑆𝑌𝑌
Definiamo la statistica coefficiente di determinazione (R2) la quantità colorata in
verde: tale valore sarà sempre compreso tra 0 e 1, dove la vicinanza a 1 ci
informa che la gran parte delle variazioni delle risposte è dovuta alla variabilità
degli input, mentre la vicinanza a 0 ci informa che la gran parte delle variazioni
delle risposte è dovuta all’errore casuale.
In breve, il valore di R2 ci può tornare utile per decidere quanto è “buono” un
determinato modello di regressione lineare per interpretare un dataset: un valore
vicino a 1 implica una buona aderenza del modello ai dati, mentre un valore
vicino a 0 ci consiglia di non fidarci troppo di questo modello su questi dati.
ESEMPIO 14.1 (continuazione II):
Dopo aver trovato la seguente retta di regressione per il campione di dati
(𝑦 = 122,79 + 11,78𝑥), ora troviamo il coefficiente di determinazione R2:
𝑅2 =
𝑆𝑌𝑌 − 𝑆𝑆𝑅
𝑆𝑆𝑅
2513570
= 1 −
= 1 −
= 0,84
𝑆𝑌𝑌
𝑆𝑌𝑌
401639,5
Concludiamo che il modello di regressione lineare può esser buono per
descrivere i dati, e probabilmente è il più indicato.
14.5 – Analisi dei residui per la verifica del modello
Si consideri il seguente modello di regressione lineare semplice:
𝑌 = 𝛽0 + 𝛽1 𝑥 + 𝜉
𝜉 ~ 𝑁 (0, 𝜎 2 )
ora abbiamo capito che per convincerci che esso possa andar bene per un set di
dati, si può prima fare un’analisi generale e visiva sullo scatterplot, per poi
procedere con un più rigoroso studio con il coefficiente di determinazione.
Per togliere ogni dubbio può essere utile effettuare anche un’analisi dei residui.
Come “residui” si intendono le n-statistiche costruite nel seguente modo:
𝑈𝑖 =
𝑌𝑖 − 𝛽0 − 𝛽1 𝑥𝑖
√ 𝑆𝑆𝑅
𝑛−2
1≤𝑖≤𝑛
Nel caso il modello di regressione lineare sia corretto, i residui possono essere
fedelmente approssimati a variabili aleatorie normali standard, tutte
indipendenti. Infatti i residui sono tutti distribuiti attorno allo zero, e circa il 95% di
essi è tra i valori -2 e 2. Inoltre evidenziare su un grafico queste quantità non deve
darci indizio di alcuna regolarità geometrica: ciò sarebbe un chiaro allarme sul
fatto che il modello di regressione lineare non sia valido per il set di dati.
ESEMPIO 14.1 (continuazione III):
Dopo aver trovato la seguente retta di regressione per il campione di dati
(𝑦 = 122,79 + 11,78𝑥), ora troviamo i residui standardizzati stimati dai dati:
Ora effettuiamo il plotting dei residui, e concludiamo che il modello
effettivamente è calzante al 100%: quasi tutti i valori sono tra -2 e 2 e sono
dispersi in un modo parecchio nebuloso. Ecco qui:
Related documents
Download