CAP 1
Statistica
La statistica è la scienza che si occupa di come raccogliere e analizzare dati al fine di
estrarre informazioni che ci aiutano a prendere decisioni in condizione d’incertezza;
Permette di quantificare, non eliminare, l’incertezza nei vari contesti.
Prerequisiti essenziali per prendere decisioni oculate:
-
1. Dati accurati 2. Analisi statistiche rigorose
Big Data: Flusso continuo d’informazioni (notizie, video, immagini satellitari, ecc.)
Analizzando “Big Data” miglioreremo la nostra comprensione di fenomeni importanti in
medicina, fisica, economia, ecc. — 50% IT, 50% Statistica.
es. L’imprenditore vorrebbe conoscere le opinioni di tutti i potenziali utenti
(popolazione). Tuttavia è impossibile chiedere a tutti (troppo costoso, richiederebbe
in
troppo tempo). L’imprenditore assume un’agenzia di marketing per effettuare
-
un’indagine ed essa intervista solo alcune persone (campione) e svolge le analisi
(statistiche) nel campione → Ovviamente rimarrà incertezza riguardo la popolazione
(errore di stima).
Definizioni per linguaggio corretto
Popolazione: insieme completo di tutte le unità oggetto di studio. La dimensione della
popolazione, N, può essere molto grande, anche infinita.
Campione: sottoinsieme della popolazione, unità osservate. Indichiamo con n la
dimensione (o numerosità) del campione, n<<N.
-
Campione casuale: campione scelto a caso dove ogni unità aveva la stessa
probabilità (1/N) di essere scelta dalla popolazione.
completo
Parametro: caratteristica specifica della popolazione. Rimarrà sconosciuto a noi
statistici. Se fosse stato noto, non ci sarebbe stato bisogno della statistica.
Statistica: caratteristica specifica del campione, funzione dei dati. E ottenuta
svolgendo calcoli o analisi nel campione.
es. Consideriamo tutti i teenager di Lugano che hanno uno smartphone (popolazione).
La percentuale di tutti i teenagers che usano lo smartphone più di 2 ore al giorno è un
parametro (caratteristica della popolazione). Non potendo chiedere a tutti i teenagers,
chiediamo ad alcuni studenti di Lugano Centro (estraiamo un campione casuale).
Due grandi capitoli della statistica:
1 Statistica descrittiva: metodi grafici e numerici per sintetizzare e elaborare dati
2 Statistica inferenziale: metodi per previsioni, stime di parametri/verificare ipotesi
CAP 2
Classificazione delle variabili
1. Variabili categoriche→ appartengono a gruppi o categorie, spesso ottenute
rispondendo a domande con risposta ‘chiusa’.
2. Variabili ordinali es. Sei soddisfatto della mensa (poco, indifferente, molto)?
3. Variabili non-ordinali: es. Qual è la tua marca preferita di jeans?
4. Variabili numeriche
-
discreta: può assumere un numero finito di valori (o infinito ma numerabile)
es. Numero di studenti iscritti al corso di Statistica 1 = 100
-
continua: può assumere un valore qualsiasi in un intervallo di numeri reali.
-
Spesso originata da misurazioni: tempo / distanza /peso / altezza
Nella vita quotidiana tendiamo ad arrotondare o troncare le variabili numeriche
continue.
Regola per decidere se una variabile è discreta o continua:
Se è importante distinguere ogni valore che la variabile numerica può assumere, allora
la variabile numerica è discreta (es. numero di clienti al negozio)
Se non è importante distinguere valori ‘simili’, allora la variabile è continua.
es.i attesa ad un call center: non importante distinguere tra 5.323 e 5.329 secondi
Distribuzione di frequenza: tabella per riassumere i dati, consiste in
1 modalità (o classi di misura): tutte le possibile risposte o realizzazioni della variabile
2 frequenze: numero di osservazioni per ogni modalit`a o classe
costruzione: semplice per variabili che assumono pochi valori, meno per variabili
numeriche continue. In tal caso:
1 Scegliere il numero di classi
2 Calcolare l’ampiezza dell’intervallo
Ampiezza dell’intervallo =
(ππππππ πππ π πππ − ππππππ ππππππ)
ππ’ππππ ππ ππππ π π
3 Contare quante osservazioni cadono in ogni classe
distribuzione:
1.
Le classi devono coprire tutti i valori osservati della variabile e non devono
sovrapporsi. Ogni osservazione cade in una e una sola classe.
2. Per facilitare l’interpretazione della distribuzione di frequenza è preferibile
avere classi della stessa ampiezza.
3. La distribuzione di frequenza dà un’informazione aggregata. es. nella classe
[41,50], non specifica quanto guadagna ognuno dei 134 laureati.
4. è visualizzabile tramite
istogrammi, che danno
immediatamente l’idea della
distribuzione di frequenza della
variabile.
Poche classi (sinistra) non vediamo i
dettagli della struttura dei dati.
Troppe classi (destra) l’istogramma `e
caotico o ‘rumoroso’ .
8
=
confronto variabili
tante classi
Frequenza relativa: standardizzazione della frequenza
=
πππππ’πππ§π
ππ’ππππ π‘ππ‘πππ ππ ππ π πππ£ππ§ππππ
Due proprietà fondamentali delle frequenze relative:
1 Ogni frequenza relativa è compresa tra zero e uno
=
1
2 La somma di tutte le frequenze relative e uguale a uno
Frequenze relative cumulate: cumulano\sommano le frequenze relative nelle classi
ordinate. Per calcolare frequenze cumulate, dobbiamo poter ordinare i dati.
Forme tipiche di
istogrammi
“Stacked bar chart”: impiego - soddisfazione
Grafici a torta: Visualizzare
proporzioni
“3D heat map”: impiego soddisfazione
CAP 3
Misure di centralità
I dati tendono a concentrarsi intorno ad un particolare valore, "tendenza" visualizzabile
nell’istogramma delle frequenze: Le misure di centralità o misure di tendenza centrale
danno una misura quantitativa del fenomeno; tipiche misure di centralità sono:
1. Moda
Dato un insieme di osservazioni, è la modalità che si presenta il maggior numero di
volte. Es. Goal segnati dalla Svizzera nelle ultime 6 partite: {1, 2, 0, 1, 3, 3}. Moda = 1 e 3
La moda è semplice da calcolare (basta avere modalità e frequenze), sia per dati
numerici che categorici, e può non essere unica.
2. Media (aritmetica)
La media di un insieme di dati è la somma dei valori osservati ( x1, x2, . . .) diviso il
numero di osservazioni. Formalmente la media è quel valore x tale che la somma delle
deviazioni da x sono uguali a zero.
valori osservati
no
Osservazioni
π
∑ (π₯π − π₯) = 0
π=1
Se i dati si riferiscono all’intera popolazione (di dimensione N), la media della
popolazione, è un parametro μ (caratteristica della popolazione)
π
π₯1 + π₯2 + · · · + π₯π
μ=
π
=
Σπ=1 π₯π
π
Se i dati si riferiscono ad un campione (di dimensione n βͺ N), la media campionaria, π₯,
è una statistica (caratteristica del campione)
π
π₯=
π₯1 + π₯2 + · · · + π₯π
=
π
Σπ=1 π₯π
π
Es. dati osservati: numero di goal segnati dalla Svizzera {2, 0, 1, 2}
π₯=
2+0+1+2
= 1.25
4
La media non corrisponde necessariamente ad un valore osservato dei dati e
possiamo calcolare la media solo di dati numerici. Non ha alcun senso calcolare la
media di dati categorici come ad esempio: {insoddisfatto, indifferente, soddisfatto}.
L’istogramma delle frequenze è in equilibrio
quando è sostenuto nel punto della media,
baricentro dell’istogramma di frequenze e
quindi necessariamente all’interno della
distribuzione dei dati.
Deviazioni dalla media
Consideriamo la media campionaria (vale
- ogni
valore ottenuto dal campione
=
+:
anche per la media della popolazione) dei dati {x1, x2, . . . , xn}, definiamo deviazione (o
π
D
scarto) dalla media la differenza: π₯ − π₯, con i = 1, . . . , n.
β³
β³ media del campione
Valori estremi o outlier
per la media della
popolazione :
deviazione
osservazioni di valori ‘molto grandi’ o ‘molto piccoli’ rispetto alla maggior parte dei
valori osservati. In un istogramma, gli outlier si trovano ‘lontano’ dal centro dei dati,
quindi nella coda destra o nella coda sinistra della distribuzione.
MPopolato se
=
standard
La definizione formale di media mostra che essa è sensibile ai valori estremi,
valore ottenuto da
dimensione
popolazione
media
Anche e una sola osservazione xj → ∞, allora x → ∞, dato che
π₯=
π₯1 + π₯2 + · · · + π₯π
π
Es. Misurazione salto in lungo ad una gara {75, 80, 90, 105, 270} cm. Media = 124 cm. Solo
un’osservazione è maggiore della media. Occorre una misura di centralità non
sensibile agli outlier.
3. Mediana
La mediana è l’osservazione centrale di un insieme di osservazioni ordinate in modo
Use
crescente/decrescente. Con numero di osservazioni, n:
1.
dispari; la mediana è l’osservazione centrale.
2. pari; la mediana è la media delle due osservazioni centrali.
Es. Gol segnati da CH {0, 2, 0, 1, 3}, li ordiniamo {0, 0, 1, 2, 3}, mediana = 1.
Gol segnati da CH {2, 0, 1, 3}, li ordiniamo {0, 1, 2, 3}, mediana = (1 + 2)/2 = 1.5.
Mediana e istogramma delle frequenze
La mediana divide la distribuzione delle frequenze in dati parti uguali: 50% delle
osservazioni a sinistra, 50% delle osservazioni a destra. La distribuzione può essere
-
simmetrica: media e mediana coincidono. media-mediana
-
asimmetrica positiva: media > mediana (valori ‘estremi’ positivi nella coda
destra della distribuzione e alzano il valore della media).
-
asimmetria negativa: media < mediana.
La differenza tra media e mediana è quindi la misura di asimmetria della distribuzione
di frequenza. La mediana non è influenzata dagli outliers.
figura
Distribuzioni di frequenze di dati
simulati. Media triangolo rosso.
Mediana quadrato nero.
Nella statistica inferenziale (e in probabilità), la media ha un ruolo più importante della
mediana (Legge dei Grandi Numeri, Teorema del Limite Centrale, ecc.)
Nella statistica descrittiva, media e mediana danno due informazioni diverse,
complementari ed entrambe utili. Es: Una compagnia assicurativa vuol conoscere:
Indennizzo tipico delle pratiche da sbrigare (dalla mediana degli indennizzi), e riserva
da accantonare per far fronte alle richieste di indennizzi (media degli indennizzi).
Le misure di centralità sono importanti, ma non danno una descrizione completa dei
dati, non riflettono la variabilità o dispersione dei dati. Es. studente X ha voti {6,7,8},
studente Y ha voti {5,7,9}. Entrambi hanno media 7, ma i voti di Y sono più ‘dispersi’.
Per questo vi sono le misure di variabilità: quantificano la variabilità dei dati.
La variabilità esiste in ogni campo.
Range o campo di variazione
Il range è la differenza tra massimo e il minimo dei valori osservati; è estremamente
sensibile agli outliers e non dà informazione sulla variabilità degli altri valori osservati.
Es.: studente X ha voti {6,7,8}, Range dei voti = 8-6 = 2.
tabella
↑
Quantile al livello βΊ, indicato con qβΊ, è il valore dei dati che divide la distribuzione di
(confronto
frequenza relativa in due parti, βΊ e (1 - βΊ). standardizzazione
della frequenza
Es. con βΊ = 0.25, π
divide la distribuzione in 0.25 e 0.75.
variabili)
0.25
Quindi, una frazione βΊ delle osservazioni sono minori di qβΊ.
In un istogramma di frequenze, il quantile è un valore sull’asse delle x.
I quantili sono una funzione crescente (più esattamente non decrescente) del livello βΊ:
per calcolarli ordiniamo prima le osservazioni in modo non decrescente.
Dato che potrebbe non esistere un valore dei dati che divide la distribuzione di
frequenza esattamente in βΊ e (1 - βΊ), diamo un’altra definizione:
Il quantile al livello βΊ ∈ (0, 1), qβΊ, è il più piccolo valore tale per cui la sua frequenza
relativa cumulata è ≥ ad βΊ.
es.
Qual'è il valore di q0.25? Voto = 6
soddisfa la definizione di quantile, quindi q0.25 = 6. Similmente, q0.75 = 8.
Dopo aver ordinato le osservazioni in modo crescente, qβΊ è dato dall’osservazione nella
posizione βΊ(n + 1), dove βΊ(n + 1) è arrotondato all’intero più vicino.
Il quantile a livello βΊ è tale che la frazione βΊ delle osservazioni sono minori qβΊ.
La mediana è quindi q0.5, essendo il 50% delle osservazioni minori della mediana.
Percentili e decili
Quando βΊ è una percentuale intera, es. 1%, 2%, ecc., q0.01 è detto primo percentile,
q0.02 secondo percentile, ecc. Similmente per i decili, quando βΊ è 10%, 20%, ecc.
Quartili: si divide la distribuzione in quarti
q0.25 = Q1 (primo quartile), q0.5 = Q2 (anche mediana), q0.75 = Q3 è terzo quartile.
misura di variabilità
Range interquartile o differenza interquartile = Q3 - Q1
misura la variabilità del 50% centrale dei dati (ampiezza della ‘pancia’ della
distribuzione), è robusto agli outlier ed è in genere rappresentato in boxplot, grafici che
permettono di sintetizzare/visualizzare distribuzioni (quartili, asimmetria, outlier). Molto
utili anche per confrontare varie distribuzioni.
Q1 = 6.5, Q2 = 7.5, Q3 = 8;
Q3 - Q1 = 8-6,5 = 1,5
baffo in su Q3 + 1.5(Q3-Q1),
baffo in giù Q1 - 1.5(Q3-Q1),
arrotondati al valore osservato.
Range interquartile si basa su due soli valori, Q3 - Q1, non tiene conto delle rimanenti
osservazioni.
adivariabilità
La Varianza: misura di variabilità che tiene conto di ogni singola osservazione e della
sua distanza dalla media. Essa è espressa in unità di misura al quadrato: ciò rende il
suo valore numerico non interpretabile.
1. Se i dati osservati si riferiscono all’intera popolazione µ (di dimensione N), la varianza
2
della popolazione, σ , è un parametro
N
π
2
σ=
π
2
2
∑ ππ
Σπ=1(π₯π−µ)
π=1
=
π
, π =π₯ − µ
π
π
π
2. Se i dati osservati si riferiscono ad un campione π₯ (di dimensione n), la varianza
campionaria, s2, è una statistica
2
π
2
π =
π
n
Σπ=1(π₯π−π₯ )
=
π−1
con
2r
*
1
∑ ππ , ππ = π₯π − µ
π−1
π=1
es. dati campionari, goal segnati dalla Svizzera {3, 0, 1, 3}, x = 1.75 goal/partita.
2
2
2
2
(3−1.75) + (0−1.75) + (1−1.75) +(3−1.75)
π =
4−1
2
2
= 2.25(ππππ/ππππ‘ππ‘π)
La deviazione standard o scarto quadratico medio è la radice quadrata della varianza
e quindi è espressa nell'unità di misura originale. Essa misura la dispersione/distanza
media dei valori osservati intorno alla media.
1. Se i dati osservati si riferiscono all’intera popolazione µ (di dimensione N), la
deviazione standard della popolazione, σ, è un parametro
2
π
σ=
Σπ=1(π₯π−µ)
π
2. Se i dati osservati si riferiscono ad un campione π₯ (di dimensione n), la deviazione
standard campionaria, s, è una statistica
2
π
s=
Σπ=1(π₯π−π₯ )
π−1
es. un’azienda vende i suoi prodotti in Svizzera e in Italia.
Svizzera: media = 31.5 CHF, dev. standard = 6.4 CHF
Italia: media = 2.3 EUR, dev. standard = 0.9 EUR
mercato svizzero >> italiano, quindi media e deviazione standard in Svizzera> in Italia.
L’azienda vuol sapere in quale mercato le vendite sono state più volatili: Le due
deviazioni standard non sono direttamente confrontabili perché espresse in due unità
di misura diverse e riferite a due mercati di dimensione diversa.
Un modo per confrontare la variabilità delle vendite in Svizzera e in Italia è usare il
coeciente di variazione.
Il coeciente di variazione, CV, è una d
misura di variabilità
variabilità
i relativa che esprime la
deviazione standard come percentuale della media. Quindi è un numero puro o
adimensionale.
1. Il coeciente di variazione della popolazione (media ≠ 0) è
~
deviaz standard
.
σ
× 100%
CV =
|µ|-media
2. Il coeciente di variazione campionario (media ≠ 0) è
π
~
CV =
deviaz Standard
.
× 100%
|π₯|-media
Nell’esempio precedente, le vendite sono state più volatili in Italia:
CV vendite in CH =
6,4
0,9
× 100%= 20%, CV vendite in ITA =
× 100% = 39%
31,5
2,3
CAP 4
Probabilità
Spesso non è possibile dare una risposta certa, ma può aiutare assegnare una
probabilità ai vari eventi per migliorare il processo decisionale in condizione
d’incertezza basata su un insieme, esplicito o implicito, di probabilità, a cui si
aggiungono gradualmente elementi. Va inoltre sviluppato un linguaggio per riferirci ad
oggetti probabilistici.
β
Esperimento aleatorio: (o casuale) è un processo che porterà a due o più
(Venditedi e
es S
.
u
20 1 2
,
,
...
3
=
,
realizzerà (solo uno). es. lancio di un dado/vendite future di immobili
IN
E = 50 , 1 2 33 =
risultati, che dobbiamo poter elencare, senza sapere per certo quale si
β
Evento elementare, π : è un risultato o esito dell’esperimento aleatorio.
π
,
"evento meno di u
β
immobili venduti
~
di un
esperimentoautorio
Spazio campionario, S: è l’insieme di tutti i possibili risultati o eventi elementari.
β
Evento, E: un sottoinsieme di eventi elementari dello spazio campionario. Un
evento si verifica quando un evento elementare in esso contenuto si realizza.
Poiché gli eventi sono insiemi, utilizziamo le operazioni tra insiemi (unione, intersezione,
ecc.) per trattare più eventi. Operazioni tra insiemi sono intuitive, grazie ai diagrammi
di Venn, e sono alla base del calcolo di probabilità.
Definiamo 3 eventi: A = {2, 4, 6}, B = {1, 3, 5}, C = {6}, spazio campionario = {1, 2, 3, 4, 5, 6}.
~
1.
or
Unione di eventi: A ∪ B significa A o B o entrambi si realizzano. es. A ∪ C = A
~
and
2. Intersezione di eventi: A ∩ B significa sia A che B si realizzano. es. A ∩ C = {6}
3. Eventi mutuamente esclusivi o disgiunti: non hanno alcun evento elementare
in comune. es. A ∩ B = Ø (insieme vuoto)
4. Evento complementare di A: insieme degli eventi elementari in S non
π
appartenenti ad A. es. π΄ o π΄ = “S meno A” = B, πΆ = “S meno C” = {1, 2, 3, 4, 5}
5. Eventi collettivamente esaustivi: eventi la cui unione è lo spazio campionario S.
es. A ∪ B = S, A ∪ B ∪ C = S
3 EnVEe = S
6. Partizione dello spazio campionario S: insieme di eventi mutuamente esclusivi
es
E= 50 1 2 33 E2 = 34 , 5
,
.
,
,
...
e collettivamente esaustivi. es. {A, B} è una partizione di S, {B, C} e {A, B, C} non
sono partizioni di S.
7. Proprietà fondamentale della partizione: dato un evento D (insieme rosso) e
una partizione {A1, A2, A3, A4, A5} dello spazio campionario S (rettangolo
azzurro): D = (D ∩ A1) ∪ (D ∩ A2) ∪ (D ∩ A3) ∪ (D ∩ A4) ∪ (D ∩ A5)
EAiSi
D
=
1
,
....
n
partizione dis
= Di
D
Diagrammi di Venn (due insiemi qualsiasi A e B)
esercizio
Unione
verificare con
intersezione
1) &A
diagramma diven che
vento
3 e una partizione dis Ogni e
.
,
D = (D1ASU(DIES e un caso
precedente
evento
↑
complementare
Ex tale che XEAoxEBOXeAlBS
appartitue
S
AVA'
/A
complementare
particolare della figura
S
AMA =
AeB sono mutualmente
2) AVB AVIANB) Se
=
.
esclusivi allora B
Smeno A = Ex : xESex # A3
↓
Iry"
.
AS2
,
4
I
,
63 /A'S 1 3 33
numeri
pari
,
↓
A 1B = 0 (insieme voto)
es
.
AG0 , 1 2 33
,
,
,
numeridispari
OOB
↑
meno
di u mobili
#54
6
.5
venduti
,
...
3
B37
,
8,9
...
AVB
3
'almeno - mobili
venduti
550 1 2 5 4 5 63
,
,
,
,
,
,
B
S
S
Y
es
=
B
AV/A'nB)
La probabilità è un numero compreso tra 0 (evento impossibile) e 1 (evento certo), non
inclusi, e indica quanto è probabile o verosimile.
Esistono vari approcci alla probabilità:
1.
Definizione classica: assumendo che tutti gli eventi elementari dello spazio
campionario siano ugualmente possibili e di numero finito la probabilità di un
evento A è P(in A) =
#ππ ππ‘π πππ£ππππ£πππ(πππππππ‘π ππ π΄)
#ππ ππ‘π πππ π πππππ
A
Definizione: indichiamo spazio campionario S = {π1, π2,..., ππ}, dove ππ sono gli N
eventi elementari. Definiamo l’evento A = {π1,..., ππ } come sottoinsieme di S,
π΄
P(A) =
ππ΄
6 =N
π
-
3 = NA
-
es. lancio del dado, S = {1, 2, 3, 4, 5, 6}, A = {1, 3, 6}, quindi N = 6, NA = 3,
P(A) =
3
6
1
= 2.
β³ sutto insieme
Lato positivo: se applicabile consente di calcolare concretamente la prob. degli eventi.
2. Interpretazione frequentista: nata dalla problematica del concetto di risultati
ugualmente possibili (o ‘ugualmente probabili’); Secondo l’interpretazione
frequentista, la probabilità è il limite della proporzione di volte in cui l’evento A
si verifica in un numero molto elevato (ovvero infinito) di ripetizioni
ππ΄
dell’esperimento aleatorio: P(A) = lim
π
π→∞
dove ππ΄ è il numero di volte in cui A si è verificato ed n è il numero totale delle ripetizioni.
Definizione: Limite a cui tende la frequenza relativa
ππ΄
π
all’aumentare delle ripetizioni n
dell’esperimento.
Lato positivo rispetto a quello classico: non è richiesto che gli eventi elementari siano
equiprobabili. L’approccio frequentista è molto utile quando è possibile ripetere
l’esperimento aleatorio più volte (es., esperimenti di laboratorio).
In ogni caso, ripetere l’esperimento un numero infinito di volte, n → ∞ è impossibile.
-
Questa limitazione della probabilità frequentista ha portato alla nascita dell’approccio
soggettivo alla probabilità.
3. Interpretazione soggettiva (o soggettivista): fu introdotta da Bruno De Finetti
nel 1930–31, matematico e statistico italiano; Non richiede ripetizione di
esperimenti, né elementi elementari equiprobabili ed è una valutazione
soggettiva della probabilità di un evento. Può basarsi sull’osservazione di
esperimenti ripetuti, informazioni/analisi correlate, esperienza passata, ecc.
Essendo soggettiva, due persone non danno necessariamente la stessa probabilità al
medesimo evento. La probabilità soggettiva si può comprendere usando il concetto
logico-matematico di gioco equo.
1
.
Gioco equo: testa/croce. Scelta tra questi due biglietti:
~
+
Speranza matematica 3p-2 2 p 3p 2
=
/2 Sp
.
-
2 =0
=
Sp = 2 p =
= 0
.
-
4
‘Biglietto X’ paga 3 se esce T e -2 se esce C = ‘Biglietto X’ → 3, P(T) = p → -2, P(C)= 1-p perché
probab degli eventiposs.
la somma delle
.
1
e
‘Biglietto menoX’ paga l’opposto = ‘Biglietto menoX’ → -3, P(T) = p → 2, P(C)= 1-p -1 Speranza matematica
.
-
Secondo te, quale deve essere il valore di p affinchè tu sia indifferente tra avere in
3p + 2 2p = 3p+2
2
-
.
tasca il ‘Biglietto X’ oppure il ‘Biglietto menoX’, ovvero affinché il gioco sia equo?
-
-
3p + 2 = 0
5p =
p
=
-
2
z
=0
.
4
La probabilità soggettiva p è calcolata imponendo che la ‘speranza matematica’ dei
pagamenti di ogni biglietto sia uguale a zero (per un individuo questo è il criterio per
valore per avere
cui è indifferente): 3p - 2(1-p) = -3p + 2(1-p) = 0 allora p = 0.4 (gioco equo)
4. Approccio assiomatico:(Kolmogorov, 1930) Struttura logico-matematica,
consistente con approccio classico, frequentista e soggettivo.
Definizione: Dato uno spazio campionario S = {π1, π2,..., ππ}, dove ππ sono gli N
eventi elementari e un qualsiasi evento A = {π1,..., ππ }, l’approccio si basa su 3 assiomi:
π΄
1.
0 ≤ P(A) ≤ 1 (la probabilità è un numero compreso tra 0 e 1)
2. P(A) = Σ P(π ) dove la sommatoria Σ riguarda tutti gli eventi elementari in A
π΄
π
u
π΄
Secondo assioma è intuitivo: dato che gli eventi elementari ππ in A sono
mutuamente esclusivi, P(A) è la somma delle probabilità di ogni evento
elementare in A.
3. P(S) = 1 (uno degli eventi elementari deve realizzarsi). poiche's comprende tutti i risultati possibili (a
somma delle probabilita
Questo approccio non ci dice come calcolare P(A) e P(ππ ), ma possono essere ditutti
deve
,
questi
calcolati usando l’approccio frequentista o soggettivo. Diversamente dall’approccio
classico, ππ non sono necessariamente ‘ugualmente possibili’.
Conseguenze utili e immediate degli assiomi
Dato uno spazio campionario S = {π1, π2,..., ππ}, dove ππ sono gli N eventi elementari.
1. Se gli eventi elementari sono ugualmente probabili e l’evento A = {π1,..., ππ },
π΄
1
ππ΄
P(ππ) = π , P(A) = π (come nell’approccio classico)
2. Se A e B sono mutuamente esclusivi, A ∩ B = Ø
P(A ∪ B) = P(A) + P(B) (generalizzazione dell’assioma 2)
3. A e π΄ (A complementare) sono per definizione mutuamente esclusivi, A ∩ π΄ = Ø, e
collettivamente esaustivi, A ∪ π΄ = S, quindi una partizione di S,
π
P(A) + P(π΄) = P(A ∪ π΄) = P(S)=1 → P(A)
π΄ )=1 - P(π΄) , detta β΄
Regola dell’evento complementare
es. Un’azienda cerca dirigenti per tre ruoli diversi X, Y, Z. candidati=5 uomini e 3 donne.
Assumendo che ogni combinazione di uomini e donne abbia la stessa probabilità di
esser scelta, qual è la probabilità che venga assunta almeno una donna?
-
1
essere
.
Evento A = {almeno una donna assunta}. Usiamo approccio classico. Calcolare
direttamente P(A) è laborioso (una oppure due oppure tre donne assunte).
Evento π΄ = {nessuna donna assunta} (3 uomini assunti). Dal calcolo combinatorio:
tot Candidati (donnes)
gbromini
# ππ ππ‘π πππ£ππππ£πππ
5×4×3
60
P(π΄) = # ππ ππ‘π πππ π πππππ = 8×7×6 = 336 = 0.18 → P(A)=1 - 0.18 = 0.82
se vengono assuntiu/3 uomini
.
Quantati
# esiti favorevoli = 5 uomini in X × 4 uomini in Y × 3 uomini in Z = 60 permutazioni.
# esiti possibili = 8 persone in X × 7 persone in Y × 6 persone in Z = 336 permutazioni.
↓
se si verifica
almeno uno degli eventi
Regola additiva delle probabilità: P(A∪B) = P(A)+P(B) - P(A∩B)
β
P(A∩B) è la probabilità congiunta che si verifichi sia A che B.
>
un parte di
non inclusa in A
β
A∪B = A∪(π΄∩B). Inoltre A e A ∩ B sono mutuamente esclusivi,
partenoninA(in)
parte in A
quindi P(A∪B) = P(A) + P(A∩B)
in
-
-
M
β
{A∩B} e {π΄∩B} è una partizione di B, quindi P(B) = P(A∩B) + P(π΄∩B)
quindi P(π΄∩B) = P(B) - P(A∩B)
spiegazione
passaggi:
Esempio
di πvoler
calcolarecosì
la probabilità
di pescare
una
carta applicare
rossa o unassioma
re da un2
-Supponiamo
A∪B = A∪(B∩π΄
); scrivendo
ho due eventi
disgiunti
e posso
π
π
mazzo di carte. Denotiamo:
per calcolo probabilità: P(A∪B)= P(A∪(B∩π΄ )) = P(A)+P(B∩π΄ )
• A come
π l'evento di pescare una carta rossa.
con
P(B
P(B)-P(B
A)
∩π΄
• B come)=l'evento
di∩pescare
un re.
π
π
π
-Ciuso
la
partizione
{A,
}
per
scrivere
B: B=(Bdi∩π΄52)∪carte,
(B∩A) ma
→ P(B)
P(Bre∩π΄sono
)+P(B
π΄
∩A)
sono 26 carte rosse e 4 re in un mazzo
due =dei
anche
carte rosse.
1. Se A ∩ B = Ø, ritroviamo il risultato P(A∪B) = P(A) + P(B).
Applicando la formula:
invece
A ∩ BP(B)
6=Ø(A
e B si
P(A∪B)
P(A)2. = Se
26/52
= 0.5;
= 4/52
= intersecano),
1/13; P(A∩B) =quando
2/52 =calcoliamo
1/26
sottrarre
B) altrimenti
Quindi:dobbiamo
P(A∪B) = 0.5
+ 1/13P(A
− ∩1/26
≈ 0.615 contiamo due volte la probabilità di A∩B.
Probabilità condizionata: il verificarsi/l’assumere del verificarsi di un evento può
influenzare la probabilità del verificarsi di un altro evento.
es. P(andrò a sciare|oggi nevica) ≈ 1, “|” = “dato che” , seguito dall’evento
condizionante, che realizzato o no, si prende in entrambi i casi come dato.
? Dato l’evento condizionante (a prescindere dalla sua probabilità di realizzarsi), qual
è la probabilità dell’evento di interesse? Calcoliamo P(A | B), la probabilità di A
assumendo che B si è realizzato, quindi mettendo che il risultato dell’esperimento è
π
in B e che π΅ = π΅ non accade. Per accadere ciò la nuova probabilità deve:
- restringere lo spazio campionario da S
a B e calcolare la probabilità di A ∩ B,
non A
- rinormalizzare la probabilità dividendo
per P(B) perchè ora lo spazio campione
è B, non S, cosicché la probabilità di B sia
1.
Ricordiamo che P(A∩B) è la probabilità congiunta che si verifichi sia A che B.
Definizione: La probabilità condizionata dell’evento A, dato l’evento B, è
P(A|B) =
π(π΄|π΅)
A
π(π΅)
dove P(B) > 0 βΎ P(B|B)=
π(π΅|π΅)
=1
π(π΅)
Ripetendo l’esperimento aleatorio un numero infinito di volte, P(A|B) è la frazione di
volte che si verifica A contando solo le osservazioni nelle quali si è verificato B.
Conseguenza immediata della definizione della probabilità condizionata è la regola
moltiplicativa delle probabilità: P(A∩B) = P(A|B)P(B)
-
Dato un evento B con P(B) > 0 la P(α§ | B) è una vera probabilità, infatti
A βΌ P(A|B) =
1.
π(π΄|π΅)
soddisfa gli assiomi che caratterizzano la probabilità, ossia:
π(π΅)
0 ≤ P(A|B) ≤ 1: dove P(A|B) ≥ 0 poichè P(A|B)≥0 e P(B)>0, P(A|B) ≤ 1 poichè A∩
B⊆B
(tutti gli eventi elementari ππ in A∩B sono anche in B quindi
P(A∩B) =
π(π΄|π΅)
∑ ππ ≤ P(B) = ∑ ππ da cui segue che π(π΅)
πβπ΄∩π΅
≤ 1 (num. ≤ denom.)
πβπ΅
2. se π΄1 ∩ π΄2=0 → P(π΄1 ∪ π΄2 | π΅) = P(π΄1 | π΅) + P(π΄2 | π΅) :
(π΄1∪π΄2 )∩ B =(π΄1 ∩ π΅) U (π΄2 ∩π΅) quindi
P(π΄1 ∪ π΄2 | π΅) =
=
π(π΄1∪ π΄2 | ∩ π΅)
π(π΅)
π(π΄1 ∩ π΅) + (π΄2 ∩π΅)
π(π΅)
3. P(B|B)=1: P(B|B) =
=
=
π(π΄1 ∩ π΅)
π(π΅)
π(π΄1 ∩ π΅) π (π΄2 ∩π΅)
π(π΅)
+
π (π΄2 ∩π΅)
π(π΅)
π = unione disgiunta
= P(π΄1| B) + (π΄2| B)
π(π΅|π΅) π(π΅)
=
=1
π(π΅)
π(π΅)
Fim
Indipendenza: L’evento A è indipendente dall’evento B quando P(A|B) = P(A)
Quindi il verificarsi dell’evento B non influenza la probabilità dell’evento A.
Se A e B sono due eventi indipendenti, la probabilità che si verifichino entrambi è
P(A∩B) = P(A|B)P(B) = P(A)P(B) quindi se πΈ1, πΈ2,..., πΈπΎ sono K eventi indipendenti,
P(πΈ1∩πΈ2∩… ∩πΈπΎ ) = P(πΈ1)P(πΈ2)...P(πΈπΎ )
es. In una nazione, le donne ottengono il 48% di tutte le lauree. Il 17.5% delle lauree è in
economia. Il 6% delle lauree in economia è conferito a donne.
L’evento ‘laureato donna’ è indipendente dell’evento ‘laurea in economia’?
Vogliamo sapere se P(A|B) = P(A); con A={laureato donna}, B={laurea in economia}
P(A)=0.48, P(B)=0.175, P(A∩B)=0.06
~
noncono
indipendent
Se i due eventi fossero indipendenti, allora P(A∩B) = P(A)P(B). Dato che
P(A)P(B) = 0.48×0.175 = 0.084 ≠ 0.06 = P(A∩B) i due eventi non sono indipendenti.
π(π΄∩π΅)
0,06
Infatti P(A|B)= π(π΅) = 0,175 = 0.343 ≠ 0.48 = P(A|B) ≠ P(A), quindi B condiziona A
es. 2 L’esperienza insegna che il 90% dei computer funziona almeno un anno prima
di richiedere una riparazione. Un’azienda acquista 10 computer.
1.
Qual'è la probabilità che funzionino tutti un anno senza riparazioni?
Definiamo πΈπ = {computer i-esimo funziona almeno un anno senza riparazione}.
10
P(πΈ1∩πΈ2∩… ∩πΈ10) = P(πΈ1)P(πΈ2)...P(πΈ10)= 0. 90 = 0.35
2. Qual'è la probabilità che almeno un computer si guasti entro un anno?
Per definizione di πΈπ, πΈπ= {computer i-esimo si guasta entro un anno}.
10
P(πΈπ∪πΈ2∪…∪πΈ10)= 1 - 0. 90
= 0.65
Suggerimento: verificare con un diagramma di Venn, per semplicità con due soli
insiemi, che (πΈ1∪ πΈ2) e (πΈπ ∪ πΈ2) sono una partizione dello spazio campionario S,
quindi (i) (πΈ1∩ πΈ2)∩(πΈπ ∪ πΈ2) = Ø e (ii) (πΈ1∩ πΈ2)∪(πΈπ ∪ πΈ2) = S.
to
Eti
Eventi mutuamente esclusivi (ossia disgiunti)
β³ o EVE, e' il complementare di
(EnNEe)'
Se A e B sono eventi mutuamente esclusivi, A∩B = Ø, allora P(A∩B) = 0, cioè la
probabilità che si verifichino entrambi è zero (evento impossibile). Il verificarsi di un
evento ha un impatto diretto sul verificarsi dell’altro, P(A|B) = 0. L’evento A non è
indipendente dall’evento B, P(A|B) ≠ P(A), con P(A|B)=0 e P(A)>0
In alcuni casi è ragionevole assumere eventi indipendenti, poiché il calcolo delle
probabilità è tipicamente più semplice.
Nella probabilità condizionata P(A|B) vi è causalità: B causa/influenza A.
Quindi, in generale, P(A|B) è diverso da P(B|A).
es. A = {PIL Costa Rica crescerà almeno 2%}, B = {PIL USA crescerà almeno 2%}.
P(A|B) ≠ P(A), ma P(B|A) ≈ P(B) esercizio: Consideriamo due eventi A e B.
L’evento A è indipendente dall’evento B, ovvero P(A|B) = P(A).
L’evento B è indipendente dall’evento A? Ovvero P(B|A) = P(B)? si
Voglio dimostrare P(BIA) P(B) scrivo la def di PCBIA) e uso il fatto che Se A e indipendente
=
P(BIA) =
*
:
.
,
P(A(B) = P(A)P(B)
P PB) =PS
=
valgono le leggi
da B allora
=
di Morgan : 1 (AnAc1
E la legge distributiva
...
2 (AnVAzU
.
..
1An)' = AnVAc?.. VAR
VAn)" = AnRAy:..
dell'Unione + dell'intersezione : Al(BUC)
-
=
An
(ARB)(A1C) & AU(BNC) = CAVBSI/AV
Il Teorema di Bayes è di grande importanza nella teoria delle decisioni poiché
permette di aggiornare razionalmente la probabilità di un evento sulla base di nuove
informazioni. Sviluppato dall’inglese Thomas Bayes a metà del ’700, ricevette scarsa
attenzione in quanto il calcolo di probabilità/giochi di sorte erano considerati opera
e
=?
> IP (Paziente) tes sitivo)
del demonio.
/IPSPaciente gatiro)-
esempio medico
Obiettivo: stabilire se una persona (scelta a caso) è malata di HIV sulla base di un
test di laboratorio, che può essere errato e identifica correttamente le condizioni solo
nel 90% dei casi: se una persona è malata o non, con probabilità 0.90 il test lo indica.
&>
Un individuo scelto a caso, prima di effettuare il test di laboratorio, ha una
/Stival Pa 9
probabilità 0.10 di essere malato, detta prior probability.
IP(tregativo/Paziente) 0
= 0
.
=
Dati conosciuti: il 10% della popolazione è malata. Il primo passo nella risoluzione del
problema è definire gli eventi dello spazio campionario:
H+: persona malata(HIV) H-: persona non malata; T+: test positivo (persona malata);
T : test negativo (persona non malata); spazio campionario S = (H+∪H-)=(T+∪T-)
con (H+∪H-)=Ø (T+∪T-)=Ø. Inoltre, {H+, H-} e {T+, T-} sono due partizioni di S.
Date le informazioni disponibili sulla popolazione e accuratezza del test:
P(H+)=0.10; P(H-)=1-0,10=0.90; P(T+|H+)=0.90; P(T+|H-)=0.10; P(T-|H+)=0.10;
P(T-|H-)=0.90.
=
>
↑
P(H + 1T+ )
IP(T 1H + )
+
=
-
P(Ht)
Il medico è interessato a: 1. P(H+|T +), dato che il test è positivo, la probabilità che il
paziente sia malato; 2. P(H+|T-), dato che il test è negativo, la probabilità che il
paziente sia malato. Due tipi di errore sono possibili: (che conosciamo da chi ha
prodotto l’esperimento, in rosso)
β P(T+|H-) = 0.10, false positive, il paziente non è malato (H-), ma il test è
positivo, indica malato.
β P(T-|H+) = 0.10, false negative, il paziente è malato (H+), ma il test è negativo,
indica non malato.
Usando le probabilità già calcolate, possiamo calcolare le seguenti probabilità
congiunte (che si verifichino entrambi gli eventi)
P(H+∩T+)= P(T+|H+)P(H+)=0.90×0.10=0.09; P(H+∩T-)= P(T-|H+)P(H+)=0.10×0.10=0.01
P(H-∩T+)= P(T+|H-)P(H)= 0.10×0.90= 0.09; P(H-∩T-)= P(T-|H-)P(H)= 0.90×0.90= 0.81
-
posso farlo perche
-
{(T+∩H+),(T+∩H-)} è una partizione di T+, similmente per T-, abbiamo che
H e H- sono ripartizioni
/
diS M
+
CH +
P(T+)= P(T+∩H+) + P(T+∩H-)= 0.18; P(T-)= P(T-∩H+) + P(T-∩H-)= 0.82.
j
/ Possiamo ora calcolare le probabilità di interesse del medico, dette posterior
probability: P(H+|T +) =
V
T
(T 1H )u(T+ H-)
+
+
=
π(π»+∩π+)
0.09
π(π»+∩π−)
0.01
=
= 0.50; P(H+|T ) =
=
= 0.012.
π(π+)
0.18
π(π−)
0.82
+
allora (P(T )
+ =
=
x
(P((T + 1H +) (T 1HT)
+
IP(T nH ) + (P(T + H )
+
+
-
# malato
P
paziente
P (H+ 1T ) = 0 1
+
0
.
ot
0
9
"(y
.
09 =
P(H4) P(T + 1H+)
0 1 =
P(Ht) P(T-1Ht)
·
.
.
-
.
0
X
1
P(H + 15 -
non 1 P(H
0
malato
-
0 1
.
1T + ) = 0 9
.
.
.
·
0 1 = P(H-)
.
P(T 1H)
+
.
.
.
%
g
P(H 15 ) = 0 9 0 9
-
-
.
.
.
=
P /H-) PCT-IHY
.
L’aggiornamento della prior probability avviene con un processo logico-matematico
rigoroso e permette di incorporare nuova informazione nel calcolo della probabilità.
Il Teorema di Bayes è tipicamente formulato come la regola per andare da P(A|B) a
P(B|A), cosiddetti problemi di probabilità inversa.
Nell’esempio medico, il problema di probabilità inversa consiste nell’andare da
P(T+|H+)(informazione sull’accuratezza del test data la condizione di salute della
persona) a P(H+|T +)(informazione sulla salute della persona dato l’esito del test).
Teorema: siano A e B due eventi, il Teorema di Bayes afferma che P(B|A) =
π(π΄|π΅)π(π΅)
π(π΄)
Ricordiamo che per definizione di probabilità condizionata (regola moltiplicativa
della probabilità): P(A∩B)= P(A|B)P(B)= P(B|A)P(A)
Se P(A) non fosse noto ma P(A∩B) e P(A∩π΅) fossero noti, il teorema potrebbe essere
enunciato come P(B|A) =
π(π΄|π΅)π(π΅)
π(π΄∩π΅) + π(π΄∩π΅)
(equivalente)
In generale se {E1,..., EK } è una partizione di S, P(A)= P(A∩πΈ1)+...+P(A∩πΈπ).
esempio Revisione scritture contabili
In base alla sua esperienza, un revisore dei conti sa che il 15% delle scritture contabili
presenta degli errori. Tra tutti i saldi errati il 60% era un valore anomalo rispetto ai
dati storici (il rimanente 40% era errato ma il saldo non era anomalo). Tra tutti i saldi
contabili (corretti e non) il 20% presentava saldi anomali.
anche
Dato che il revisore trova un saldo anomalo, qual è la probabilità che siavun errore?
Definiamo A={valore anomalo} e B={saldo errato}. Sappiamo che P(A)=0.20,
P(B)=0.15, P(A|B)=0.60 (probabilità che siano errati). Usando il Teorema di Bayes
P(B|A)=
π(π΄|π΅)π(π΅)
0.60×0.15
= 0.20 = 0.45 → dalla prior P(B)=0.15 alla posterior P(B|A)=0.45;
π(π΄)
P(B|A)≠P(B), quindi A e B non sono indipendenti.
supponendo invece di voler trovare la probabilità che un dato contabile sia anomalose
P(A1B) =?
AlB
Con
{ dati contabili anomali ed errati
=
β³ P(BIA) P(A)
=
0 45 0 2 = 0 09
P(AIB) P(B)
=
0 6
.
.
.
.
.
.
.
.
0 15 = 0 09
.
.
CAP 5
Variabile aleatoria (o variabile casuale): variabile che assume/descrive valori
numerici in corrispondenza ai risultati di un esperimento aleatorio.
Molti fenomeni di interesse possono essere descritti numericamente: es. Vendite
mensili di cioccolato in Svizzera, n° chiamate ad un callcenter ogni minuto.
E` cruciale distinguere tra variabile aleatoria che esiste prima di osservare l’esito
dell’esperimento e la sua realizzazione che osserviamo dopo aver effettuato
l’esperimento. es. Prima di lanciare un dado, la variabile aleatoria può assumere
valori 1, 2, 3, 4, 5, 6. Dopo aver lanciato il dado, la V.A. si realizza e osserviamo 6.
Dal tipo di fenomeno di interesse che vogliamo descrivere distinguiamo:
1.
Variabile aleatoria discreta: assume un numero finito o infinito numerabile di
valori reali (realizzazioni). es. Lancio del dado {1, 2, 3, 4, 5, 6}
2. Variabile aleatoria continua: assume qualunque valore in un intervallo dei
numeri reali, le realizzazioni sono es. Tempo di attesa ad un call center [0, ∞)
Consideriamo una V.A. come discreta quando è importante assegnare una
probabilità a ogni singolo risultato; tutte le altre continue.
La distribuzione di probabilità di una variabile aleatoria discreta X rappresenta le
probabilità di tutti i possibili valori che X può assumere, P(X = x), al variare dei
possibili valori presi dalla V.A. X. (realizzazione)
Indichiamo con X indica una variabile aleatoria discreta (prima dell’esito
dell’esperimento) e con x la sua realizzazione (dopo l’esito dell’esprimento).
La funzione di probabilità, P(x), di una variabile aleatoria discreta X è
P(x) = P(X = x), per ogni valore di x. (non solo per i valori che X può assumere)
se x = 6, P(6) = P(X = 6)
esempio: Dado speciale
Consideriamo un dado speciale (o truccato) con distribuzione di probabilità:
Quindi, ad esempio, P(6) = P(X = 6) = 0.002, prima di lanciare il dado.
Se il dado non fosse stato truccato, P(X = x)=1/6=0.167 per ogni x.
Rappresenta la “massa” di probabilità nei punti x=1, x=2, x=3, x = 4, x = 5, x = 6.
La distribuzione di probabilità, P(x), di una variabile aleatoria discreta X deve
soddisfare due proprietà caratterizzanti:
1) 0 ≤ P(x) ≤ 1 per ogni valore x.
2) La somma delle singole probabilità deve essere uguale a 1, ∑ P(x)=1
π₯
quindi la sommatoria si estende a tutte le possibili realizzazioni x di X.
π
Altre rappresentazioni equivalenti di sommatoria ∑ P(π₯ ) = ∑ P(π₯ )
π
π
π=1
π
n.b. Se una funzione P(x) non soddisfa anche solo una di queste due proprietà, allora
non è una distribuzione di probabilità.
Nell’esempio del dado speciale, le due proprietà fondamentali di P(x) sono
soddisfatte: Spazio campionario {1, 2, 3, 4, 5, 6},
1) 0 P(x) 1 per come abbiamo definito P(x).
L
-
-
2) {1}, {2}, {3}, {4}, {5}, {6} sono gli eventi elementari, mutuamente esclusivi e
collettivamente esaustivi (partizione dello spazio campionario). In altri termini, si
realizza uno e uno solo degli eventi elementari. (solo una faccia del dado)
Sappiamo che se due eventi A e B sono mutuamente esclusivi (A∩B = Ø), la
probabilità che si verifichi o uno o l’altro è P(A∪B) = P(A) + P(B). Quindi,
P({1}∪{2}∪{3}∪{4}∪{5}∪{6})=P(x=1)+P(x=2)+P(x=3)+P(x=4)+P(X=5)+P(x=6)=∑
π₯
P(x)=1
Funzione di ripartizione F(x0), di una variabile aleatoria X esprime la probabilità che
la realizzazione di X non superi il valore x0, F(π₯ ) = P(X ≤ π₯ ).
0
0
Dato che l’evento “X ≤ π₯ ”, possiamo scriverlo come unione di tutti gli eventi
0
elementari tali che “X ≤ π₯ ”, abbiamo F(x0) = P(X ≤ π₯ ) = ∑ P(X = x),
0
0
π₯ ≤ π₯0
F(π₯ ) esiste per ogni valore di π₯ , non solo per i valori che X può assumere.
0
0
Esempio: dado speciale con sei facce {1, 2, 3, 4, 5, 6}
e
·
F(x) esiste per ogni x anche se X è una variabile aleatoria discreta che può assumere
solo 6 valori.
Le due proprietà fondamentali della distribuzione di probabilità inducono due
proprietà caratterizzanti della funzione di ripartizione F(x):
1) 0 ≤ F(x) ≤ 1 per ogni valore x.
2) Se x1 e x2 sono due valori tali che x1 < x2, allora
F(x1) ≤ F(x2)
Limiti interessanti della funzione di ripartizione, utili
per disegnare una funzione di ripartizione:
lim F(x)=0,
π₯ → −∞
lim F(x)=1
π₯ → −∞
Vediamo ora il legame fondamentale tra probabilità della variabile aleatoria (che
esiste prima di osservare i dati) e frequenze relative (calcolate dopo aver osservato i
dati).
Probabilità e frequenze relative
Le probabilità delle possibili realizzazioni della variabile aleatoria influenzano/
determinano i risultati degli esperimenti e descrivono, insieme alla variabile stessa,
l’esperimento aleatorio prima di osservarne il risultato (analisi ex-ante). Una volta
osservata la realizzazione della V.A. che presenta un numero/dato, non c'è più nulla
di aleatorio e vanno calcolate le frequenze relative che riassumono l’informazione
nei dati (analisi ex-post, statistica descrittiva). Le frequenze relative dei risultati
convergono alle probabilità dei risultati quando il numero di ripetizioni
dell’esperimento aumenta. Questo fenomeno è alla base dell’interpretazione
frequentista della prob. ed è una manifestazione della Legge dei Grandi Numeri che
vale per ‘qualsiasi’ esperimento aleatorio (e tipi di variabili), quando n→∞.
Valore atteso: (o media), E(X), di una variabile aleatoria discreta X è
M E(X) = ∑ x P(x), dove la sommatoria è estesa a tutti i valori che X può assumere, E(X)
=
π₯
è un numero costante (non quantità aleatoria) ed una proprietà di P(x) e invece
P(X=x) è la probabilità che la realizzazione di X sia x.
a
La distribuzione di probabilità fornisce tutte le informazioni sulle proprietà di una
variabile aleatoria. Tuttavia, il valore atteso è una misura di centralità, dà
un'informazione più sintetica sulla ‘posizione’ della distribuzione di probabilità di X.
Intuitivamente, E(X) è il valore medio di X che ci aspettiamo di osservare ripetendo
l’esperimento un gran numero di volte, prima di effettuarli.
esempio: Typo nei libri di testo (errore di battitura)
La variabile aleatoria X descrive il numero di typo per pagina nei libri economicoaziendale ed ha la seguente distribuzione di probabilità:
Il valore atteso è E(X)=0 × 0.81 + 1 × 0.17 + 2 × 0.02 = 0.21
Quindi, prima di leggere i libri, ci aspettiamo di trovare 0.21 typo per pagina,
ovvero 21 typo ogni 100 pagine.
Più in generale se ho una V.A. X e la sua distribuzione
di probabilità, P(X=x) per ogni realizzazione di x, posso
calcolare E[g(x)] dove g è una qualunque funzione
dai reali |R ai reali |R: |R → |R x → g(x)
Per esempio E[ax+b]=? in questo caso g(x) = ax+b,
∑(ax+b) · P(x=X) = ∑ ax · P(X=x) + ∑ b · P(X=x)
π₯
π₯
π₯
= a ∑ x · P(X=x) + b ∑ P(X=x) = aE(X) +1b, riscritto:
π₯
π₯
4. Linearità del valore atteso: E(aX+b) = a·E(X) + b, se a=0 E(b)=b, se b=0 E(aX)=a·EX
5. Additività: E(aX+bY)=a·EX+b·EY; con a,b β R e x, y variabili aleatorie
Deviazioni dal valore atteso
Il valore atteso E(X), è indicabile anche come µ = ∑ · P(x) ed essendo una misura di
π₯
centralità, in valore atteso, le deviazioni (o scarti) di X da µ sono zero: Infatti
E(X-µ)= ∑ (x-µ)· P(x)= ∑ x · P(x) - µ ∑ x · P(x)= µ-µ= 0; µ è una costante e ∑· P(x)= 1.
π₯
π₯
π₯
π₯
esempio dado speciale
applicando la definizione, il suo valore atteso
è E(X)= ∑ x · P(x)= 1×0.168 + 2×0.360 +... = 2.5;
π₯
E(X) è quindi il baricentro della
distribuzione di probabilità ovvero
il punto in cui devo appoggiare il
diagramma della distribuzione di
probabilità per avere equilibrio:
min(X) ≤ E(X) ≤ max(X) in questo
caso min=1 e max=6. In immagine
distribuzione di frequenza e valore
atteso (triangolo rosso) del dado
speciale.
Interpretazione del valore atteso
Il valore atteso è un concetto che esiste prima di osservare le realizzazioni della
variabile aleatoria. Dopo, non c'è più nulla di ‘atteso’ in quel campione.
Poiché le frequenze relative convergono alle probabilità, il valore atteso può essere
interpretato come il valore medio dei risultati osservati ripetendo l’esperimento
aleatorio un gran numero di volte. Quindi, dal seguente esercizio. . .
Lanciamo il dado speciale n=2 volte e calcoliamo la media dei dati osservati.
Lanciamo nuovamente il dado n=5, n=100, n=20,000 volte e calcoliamo la media dei
dati. Ci aspettiamo che la media campionaria converga al valore atteso , E(X).
In immagine: Frequenze relative→ probabilità.
Media (triangolo nero)→ valore atteso (triangolo rosso)
Varianza → misura di variabilità/dispersione della distribuzione di X, numero
costante (non quantità aleatoria), e una proprietà di P(x)
Definizione: la varianza V(X) della variabile aleatoria X, è il valore atteso delle
deviazioni (o scarti) al quadrato di X dal suo valore atteso.
E V(X) = E[(π − µ)2] = ∑(π₯ − µ)2· P(x) con µ = E(X) → E[(π − πΈ(π))2] = ∑(π₯ − πΈ(π))2· P(x)
π₯
π₯
2
2
2
Si utilizza spesso una formula alternativa, V(X) = E(π ) - µ = E(π ) - [πΈ(π)]
2
2
2
con E(π ) = ∑ π₯ · P(x) quindi → ∑ π₯ · P(x) - [πΈ(π)]
π₯
π₯
2
2
Varianza campionaria → misura di variabilità dei dati osservati.
La distinzione che esiste tra valore atteso (ex-ante) e media campionaria (ex-post),
vale anche per la varianza V(X) e varianza campionaria. Nel linguaggio comune,
utilizziamo il termine ‘varianza’ per descrivere i due concetti.
La distinzione: la varianza V(X) è una proprietà della distribuzione di X.
Domanda: a cosa tende la varianza campionaria quando la numerosità del
~
campione n tende a ∞? tende alla varianza V(X)?
2
dim: d
6 =
ππ₯1
ππ₯1
2
ππ₯π
Σ(π₯π − πΈ(π))
2
2
= (π₯1 − -M
πΈ(π)) · π + .. + (π₯1 − πΈ(π)) · π
in
π
ππ₯π
M
con π 1 +...+ π 1 = (π₯1 − πΈπ) · P(π₯1) +..+ (π₯π − πΈπ) · P(π₯π) = V(X)
-
-
P
2
2
L'unità di misura della varianza è quella di X al quadrato, come abbiamo visto
2
quando abbiamo introdotto le misure di variabilità. Indichiamo con σ = V(X).
La deviazione standard (o scarto quadratico medio) è σ =
2
σ = π(π) ed ha la
stessa unità di misura di X.
esempio typo
La variabile aleatoria X descrive il numero di typo per pagina nei libri
economico-aziendale ed ha la seguente distribuzione di probabilità:
Abbiamo già calcolato che il valore atteso (nell’altra parte
dell’esempio)E(X)=0.21 typo/pagina.
2
2
2
2
La varianza è σ = V(X) = (0 − 0. 21) · 0.81 + (1 − 0. 21) · 0.17 + (2 − 0. 21) · 0.02 =
2
0.206 (π‘π¦ππ/ππππππ) e deviazione standard σ =
0. 206 = 0.45 typo/pagina. La
variabile aleatoria Y descrive il numero di typo per pagina nei libri di matematica.
Trasformazioni lineari di variabili aleatorie
Indichiamo con a e b due costanti. X è una variabile aleatoria discreta e la variabile
aleatoria discreta Y = a + bX è una trasformazione lineare di X.
2
E(Y) = a + b · E(X), V(Y) = π · V(X)
Esercizio: dimostrare le due uguaglianze sopra. Applicare la definizione di valore
atteso e varianza. Ricordare che ∑ P(x) = 1 e che ∑ b · P(x) = b∑ x · P(x) = b·E(X).
π₯
π₯
π₯
esempio costo complessivo di un progetto
Un imprenditore vuol conoscere il costo complessivo di un progetto. Valuta il costo
totale dei materiali in CHF 25,000 e il costo della manodopera in CHF 900 al giorno.
Il numero di giorni per completare il progetto è incerto e descritto dalla variabile
aleatoria X. Sapendo che E(X) = 11.9 giorni e V(X)=1.29 giorni, calcolare valore atteso
µπ, e deviazione standard σπ del costo complessivo.
Il costo complessivo C = 25000 + 900X.
Quindi µc = E(C) = E(25000 + 900X) = 25000 + 900E(X) = 25000 + 900 · 11.9 = 35710
2
2
σ π = V(C) = V(25000 + 900X) = 9002V(X) = 9002 · 1.29 = 1044900 πΆπ»πΉ
binomiale molti eventi indipendenti
con probabilità fissa per tutt, , esperimento
>
-
ripetuto + volte con vipetizioni
di Poisson
>
-
indipendenti
>
-
numero di eventi per unità di
un evento
tempo probabilità che siverifichi
costante + The si verifichino 2 of eventi
,
trascurabile
bernoulliano variabile aleatoria discreta X che
pro-assumere solo 2 valori : 1 /successo) e 0 (insuccesso)
,
σπ = π(πΆ) = 1044900 = 1022.2 CHF
Le variabili aleatorie discrete P(X = x), possono essere descritte da:
1. Distribuzioni binomiali → ampiamente usata per problemi di tipo
economico-aziendale es. Se n. clienti entrano in negozio, qual è la probabilità che x
clienti facciano acquisti?; descrive molti eventi indipendenti e ogni evento ha
una probabilità fissa di successo, la stessa per tutti.
La variabile aleatoria binomiale si basa sulla variabile aleatoria di Bernoulli (da
Jacob Bernoulli, matematico Svizzero, fine ’600), X, una variabile discreta che può
assumere due soli valori: 1, che per convenzione chiamiamo “successo”, con
probabilità di successo p e 0, che chiamiamo “insuccesso”, con probabilità di
insuccesso (1 - p). Quindi la sua distribuzione è P(1) = p e P(0) = 1 - p.
↑
β
2
Valore atteso µ e varianza σ di X
µ = E(X) = ∑ x · P(x) = 1·p + 0(1 - p) = p
π₯
2
2
2
2
2
2
2
σ = V(X) = E[(π₯ − πΈ(π)) ] = ∑(π₯ − µ) · P(x) = E(π ) - [πΈ(π)] = ∑ π₯ ·P(x) - µ
π₯
2
2
π₯
2
= 1 p + 0 (1 p) - π = p(1 - p)
La distribuzione binomiale emerge quando un esperimento bernoulliano, con due
soli risultati possibili, 1 e 0, è “ripetuto” più volte e le prove/ripetizioni sono tra loro
indipendenti.
esempio: rischio di credito
Una banca estende un credito ad un suo cliente. Indichiamo con X il rimborso (o non
rimborso) del credito bancario da parte del cliente. Poniamo il rischio di credito di un
cliente come X:
X=sistema{1, πππππππ π πππ ππππππππππ‘à π = 0. 95 π 0, πππππ’ππ‘ πππ ππππππππππ‘à 1 − π = 0. 05}
Calcoliamo valore atteso µ e deviazione standard di X
µ = p = 0.95, σ =
2
σ = π(1 − π) = 0. 95 × 0. 05 = 0.22
Qual è l'interpretazione di µ = 0.95 e σ = 0.22?
µ = 0.95 = valore atteso dei clienti che rimborsano il credito ovvero la probabilità che
lo facciano, σ = 0.22 indica che la variabilità del valore medio di rimborso atteso ha
una deviazione standard del 22%, cioè, pur avendo una media di 0.95, ci sono
fluttuazioni attorno a questo valore.
esempio crediti bancari
Una banca estende n. crediti a n clienti diversi. Supponiamo che i rimborsi dei vari
crediti abbiano uguale probabilità e siano tra loro indipendenti.
Descriviamo il rimborso/insolvenza degli n crediti con n variabili aleatorie
bernoulliane: π1, π2,..., ππ. Ogni variabile assumerà valore 1 (rimborso) oppure 0
(insolvenza).
P(ππ= 1) = p è la probabilità di rimborso del credito i-esimo (successo).
P(ππ= 0) = (1 - p) è la probabilità di insolvenza del credito i-esimo (insuccesso).
Se la banca estende n = 3 crediti, dato che i crediti (eventi) sono indipendenti, la
probabilità che i primi due crediti siano rimborsati mentre il terzo sia insolvente è
P({π1= 1} ∩
{π2 = 1} ∩ {π3 = 0}) = P(π1= 1) P(π2 = 1) P(π3 = 0) = p·p·(1 - p)
I
entrambi si realizzano
Ricordiamo che 2 eventi A e B sono indipendenti se P(A|B) = P(A), e questo implica
π(π΄∩ π΅)
che P(A∩B)= P(A|B)P(B)= P(A)P(B); Infatti P(A|B)=
, quindi P(A)P(B) = P(A∩B).
π(π΅)
In generale, con n crediti, la probabilità che i primi x crediti siano rimborsati (con
0 ≤ x ≤ n) mentre i rimanenti (n - x) siano insolventi è
π₯
(π−π₯)
P(π1= 1)··· P(ππ = 0) = p·p…p·(1 p)·(1 p)···(1 p)= π ·(1 − π)
β’ La banca non è interessata a calcolare la probabilità che esattamente i primi
x crediti siano rimborsati e i rimanenti (n - x) siano insolventi, in particolare
quando i crediti sono ‘identici tra loro’ (stessa probabilità di rimborso,
indipendenti).
β’ La banca è invece molto interessata a calcolare la probabilità che x crediti
siano rimborsati e (n - x) siano in default, a prescindere dall’ordine dei crediti.
Questa probabilità è una misura di rischiosità del portafogli di crediti della banca e si
calcola con la distribuzione binomiale.
Come calcolare la probabilità che x crediti siano rimborsati e (n - x) siano in default?
Ognuna delle ‘molte’ realizzazione di {π1, π2,..., ππ}, sequenza di n risultati dove
π₯
(π−π₯)
abbiamo x rimborsi e (n - x) default, ha la stessa probabilità π ·(1 − π)
.
Nel caso n=3 crediti e x=2 rimborsi, le possibili realizzazioni di {π1, π2, π3} sono tre:
{1, 1, 0}, {1, 0, 1}, {0, 1, 1}. In generale, tutte le possibili realizzazioni di {π1, π2,..., ππ} dove
π
abbiamo x rimborsi e (n - x) default sono date dal coefficiente binomiale, πΆ
π₯
dove n! = n·(n - 1)·(n - 2)...1.
π
πΆπ₯ = possibili combinazioni di “x successi in n prove”.
π
Per riassumere, l’evento “x successi in n prove” può manifestarsi in πΆ
π₯
π₯
mutuamente esclusivi, ognuno con probabilità π ·(1 − π)
modi
(π−π₯)
.
Possiamo ora introdurre formalmente la distribuzione binomiale.
Indichiamo con {π1, π2,..., ππ} n variabili aleatorie bernoulliane indipendenti e
identicamente distribuite (i.i.d.), con P(ππ = 1) = p.
Queste n variabili aleatorie rappresentano n ripetizioni dell’esperimento casuale con
esito successo/insuccesso.
π
La variabili aleatorie X = ∑ π rappresenta (conta) il numero totale di successi in n
π
π=1
prove, dato che ogni π assume valore 1 (successo) oppure 0 (insuccesso). X ha una
π
distribuzione binomiale: la probabilità di avere x successi in n prove è
esempio: X ∼ Binomiale con n=3
X=π ={1, πππππππ π πππ ππππππππππ‘à π = 0. 95 π 0, πππππ’ππ‘ πππ ππππππππππ‘à 1 − π = 0. 05}
π
con i =1, 2, 3
3
numero di successi X = ∑ π = π1+ π2 + π3
π=1
3
3!
π
3·2
=3
2
3
3!
3·2
πΆ1 = 1!(3−1)! = 2 = 3
3
3
3!
3!
πΆ3= 3!(3−3)! = 1 πΆ0= 0!(3−0)! = 1
πΆ2 = 2!(3−2)! =
Esempi di distribuzione binomiale B
x
Xi =
=
i =1
~ un solo
=
(n p)
,
parametro
rimborsi
dicrediti ripagati
su 10
singolo cliente
> probabilità che un
concessi
P(X
=
P(X 10) (4 - p = (d p)
+
=
=
x) =
-
Co p10 (1-p)
.
=
=
p
1
L
9) X 10) p10 10 21 = 0000001
=
%
=
=
.
0
.
p10
=
10 8)10
.
.
= 0
. 107
quindi la probabilità che i no crediti
siano rimborsati e quasi nulla
~
>
-
probabilitcherdita
P(X= 10) = 10 9571
.
Valore atteso delle binomiali
Dato che X ∼ Bin(n, p) è una variabile aleatoria discreta, potremmo calcolare il suo
valore atteso applicando la definizione di valore atteso ed ottenere che E(X) = np:
Questo calcolo può essere svolto ad esempio
con Wolframalpha, 2 (sum x binom(n,x) pˆx
(1-p)ˆ(n-x), x=0 to n), ma il risultato rimane poco
intuitivo.
Un modo più diretto ed istruttivo di calcolare E(X) è usare X = π1+ …. + ππ.
Infatti E(X) = E(π1+ …. + ππ) = E(π1) + ··· + E(ππ) = np dato che E(ππ) = p allora i = 1, ..., n.
Varianza delle binomiali
Dato che X ∼ Bin(n, p) è una variabile aleatoria discreta con E(X) = np, potremmo
calcolare la sua varianza applicando la definizione di varianza:
ed ottenere V(X) = np(1 - p).
Anche questo calcolo può essere svolto ad esempio con Wolframalpha (sum
(x-np)ˆ2 binom(n,x) pˆx (1-p)ˆ(n-x), x=0 to n) ma il risultato rimane poco intuitivo.
Un modo più diretto ed istruttivo di calcolare V(X) è usare X = π1 + ··· + ππ.
Infatti V(X) = V(π1 + ··· + ππ) = V(π1) + ··· + V(ππ) = np(1 - p) dato che π1,..., ππ sono
indipendenti e V(ππ)= p(1 - p) e i = 1, ..., n.
Se X e Y sono 2 variabili aleatorie indipendenti allora la varianza della somma è
uguale alla somma delle varianze: V(X+Y)=V(X)+V(Y).
0 599
.
esempio overbooking volo aereo
Alcuni giorni prima di un volo, il responsabile vendite di biglietti scopre che sono
rimasti 16 posti disponibili. Sa per esperienza che solo l’80% di coloro che acquistano
un biglietto pochi giorni prima del volo, volerà effettivamente. Abbassa il prezzo e
vende 20 biglietti.
1. Qual è la probabilità di overbooking (più viaggiatori che posti disponibili)?
2. Qual è la probabilità che l'aereo partirà almeno con un posto vuoto?
ππ = 1 ‘show’ oppure ππ = 0 ‘no show’, con p = P(ππ = 1) = 0.80.
20
Indichiamo con X = ∑ ππ il numero di viaggiatori (‘show’): X ∼ Bin(n, p), n = 20.
π=1
1) P(X>16)=
P[(X=17)∪(X=18)...∪(X=20)]=
P(X=17)+....+P(X=20)=
0.20 + 0.14 + 0.06 + 0.01= 0.41 Sapendo
che (X=17)...(X=20) sono mutualmente esclusivi, solo uno si verifica.
(P(AUB)=P(A)+P(B))
2) evento complementare di (X ≤ 15)= (X=0)∪(X=1)...∪(X=15) è
πΆ
(X≥16)= (X=16)∪(X=17)...∪(X=20) quindi P(X ≤ 15)= 1 - P·(π = 15) =
1 - [P(X=16)+...+P(X=20)]= 1-(0.22 + 0.20 + 0.14 + 0.06 + 0.01)= 0.37
2. Distribuzioni di Poisson→ molto utile per modellare il ‘numero di eventi per
unità di tempo’ (economia, fisica, ecc.) es. num. di chiamate call center ogni ora.
Le realizzazioni di una V.A. discreta con distribuzione di Poisson saranno 0, 1, 2, 3…
La distribuzione di Poisson si base su 3 ipotesi:
β
La probabilità che si verifichi un evento è costante in ogni sottointervallo.
β
La probabilità che si verifichino 2/più eventi in un ‘piccolo’ sottointervallo è
trascurabile.
β
Eventi che si verificano in intervalli disgiunti sono indipendenti.
La variabile X è una variabile aleatoria discreta di Poisson, X ∼ Po(λ), quando la sua
−λ π₯
π λ
funzione di probabilità è P(x) =
, x = 0, 1, 2,...
dove λ > 0
π₯!
P(x) è la probabilità di x eventi in un dato intervallo di tempo.
“x = 0, 1, 2,...” è la caratteristica della distribuzione di Poisson utile perché a priori è
difficile dire qual è il numero massimo di eventi.
1
Osserviamo che lim P(x) = 0. perchè x! tende a +∞ e ∞ = 0
π₯→∞
Valore atteso
∞
−λ π₯
π λ
E(X) = ∑ x P(x)= ∑ x
=λ
π₯!
π₯=0
π₯
Varianza
∞
−λ π₯
π λ
V(X) = = ∑(π₯ − πΈ(π)) P(x)= ∑ (π₯ − λ)
=λ
π₯!
π₯
2
2
π₯=0
E(X) = λ è il numero atteso di eventi per unità di tempo.
Esercizio: verificare con Wolframalpha che ∑ P(x) = 1, E(X) = λ , V(X) = λ .
π₯
esempi di distribuzione di Poisson
=
X # di eventi attesi in
Esempio : call center
di un ospedale
E(X) S
=
data unità di tempo
E(x)
=
V(x)
=
x
x
X=
Il
·.
P(
=
3)
Chiam
"
=
auto
di chiamate ogni
minuto
Preferisco chiamare il
callcenter A invece del
B sarà più facile
essere meno in attesa
,
=
E(x)
β¬
esempio coda alla mensa dell’USI
Alla mensa dell’USI arrivano mediamente 6 studenti al minuto. Indicando con X gli
arrivi al minuto, trovare la probabilità che, in tale intervallo, arrivino almeno 3
studenti. Abbiamo che E(X) = λ = 6. Quindi X ha distribuzione di Poisson con
parametro λ = 6
2
P(X ≥ 3)= 1 - P(X < 3)=
1 -(0.002 + 0.015 + 0.045) = 0.938
∞
−6 π₯
π 6
Osserviamo che P(X ≥ 3)= ∑ x
= 0.938
π₯!
π₯=3
Relazione tra variabili aleatorie discrete: Molte applicazioni economico-aziendali
riguardano relazioni tra più variabili.
ad es. vendite di vari tipi prodotti (di un’azienda, dei concorrenti, in vari mercati).
Possiamo formalizzare la relazione tra variabili con modelli statistici (o probabilistici),
che permettono di studiare/quantificare l’importanza delle relazioni tra variabili. (per
ora ne consideriamo solo due anche se il concetto fondamentale di distribuzione di
probabilità congiunta si generalizza a N > 2 variabili)
Distribuzione di probabilità congiunta di due variabili aleatorie discrete: Concetto
fondamentale per descrivere la relazione tra due variabile aleatorie, X e Y:
P(x, y) = P(X = x, Y = y) dove P(x, y) è la probabilità che X sia uguale a x e Y sia uguale
a y, ovvero la probabilità che i due eventi {X = x} e {Y = y} si verifichino
contemporaneamente.
P(X=x, Y=y)= P[(X=x) ∩ (X=g)]= P[(w: X(w)=x) ∩ (w: Y(w)=g], è praticamente lo
stesso concetto di probabilità dell’intersezione di due eventi A e B, P(A∩B)
esempio vendita immobili in CH e ITA
X rappresenta le vendite annuali in Svizzera e può assumere valori 1, 2, 3 (CHF milioni)
mentre Y indica le vendite annuali in Italia e può assumere valori 1, 2 (EUR milioni).
Rappresentiamo la distribuzione
congiunta P(X = x, Y = y) con una tabella:
Ad esempio, la probabilità dell’evento {X = 3, Y = 2} è P(X = 3, Y = 2) = 0.10.
Dato che P(X = x, Y = y) è una funzione di probabilità deve necessariamente
soddisfare due proprietà caratterizzanti come ogni funzione di probabilità:
1. 0 ≤ P(X=x, Y=y) ≤ 1 questa viene rispettata!
2.
∑ ∑ P(X=x, Y=y) = 1 β΄
π₯ π¦
∑ ∑ P(X=x, Y=y) =
π₯ π¦
∑
∑ P(X=x, Y=y) =
π₯∈{1, 2, 3} π¦∈{1, 2}
∑
P(X=x, Y=1)+P(X=x, Y=2)
π₯∈{1, 2, 3}
= P(X=1, Y=1)+P(X=1, Y=2)+P(X=2, Y=1)+P(X=2, Y=2)+P(X=3, Y=1)+P(X=3, Y=2)=
0.10 + 0.25 + 0.20 + 0.25 + 0.10 + 0.10= 1, quindi anche questa è soddisfatta
Distribuzioni marginali di X e Y
Lo spazio campionario sono tutte le possibili
realizzazioni di {X, Y }:
{1, 1}, {1, 2}, {2, 1}, {2, 2}, {3, 1}, {3, 2}
Gli eventi {X = 1}, {X = 2}, {X = 3} sono una
partizione dello spazio campionario:
P(Y = y) = P(Y = y, X = 1) + P(Y = y, X = 2) + P(Y = y, X = 3)
esempio: P(Y = 1) = 0.10 + 0.20 + 0.10 = 0.40.
Nell’ambito delle distribuzione congiunte, le distribuzioni di X e di Y prendono il nome
di marginali: P(X = x) nell’ultima riga della foto, P(Y = y) nell’ultima colonna.
Ad esempio, dalle distribuzioni marginali abbiamo E(X)=1.85 e E(Y)=1.6.
(Passaggi sotto)
E(X) = ∑ x·P(X=x)= 1·P(X=1)+ 2·P(X=2)+ 3·P(X=3) poiché osservando la tabella x=1, 2,
π₯
3.
Ho la distribuzione congiunta P(X=x, Y=y), ma mi serve la marginale, cioè ci serve:
β P(X=1)= P[(X=1, Y=1) U (X=1, Y=2)]= P(X=1, Y=1) + P(X=1, Y=2)= 0.10 + 0.25= 0.45
β P(X=2)= P(X=2, Y=1) + P(X=2, Y=2)= 0.20 + 0.25= 0.45
β P(X=3)= P(X=3, Y=!)
+ P(X=3, Y=”)= 0.10 + 0.10= 0.20
βͺ
Da cui E(X)= 1x0.35 + 2x0.45 + 3x0.20= 0.35 + 0.90 + 0.60= 1.85
Calcolare E(Y) sommando le probabilità congiunte rispetto a X , otteniamo le
probabilità marginali di Y : osservando la tabella y=1, 2.
- P(Y=1) = P(X=1, Y=1) + P(X=2, Y=1) + P(X=3, Y=1) = 0.10 + 0.20 + 0.10 = 0.40
- P(Y=2) = P(X=1, Y=2) + P(X=2, Y=2) + P(X=3, Y=2) = 0.25 + 0.25 + 0.10 = 0.60
Con queste probabilità marginali, possiamo calcolare E(Y) :
E(Y) = 1·P(Y=1) + 2·P(Y=2) = 1x0.40 + 2x0.60 = 0.40 + 1.20 = 1.60
Distribuzione condizionata di Y dato X=x: si ottiene dalle probabilità condizionate:
π(π = π¦, π = π₯)
P(Y = y|X = x) =
π(π = π₯)
0.20
Esempio: P(Y=1|X=2) =
= 0.44, distribuzione di
0.45
probabilità di Y, con 0 ≤ P(Y = y|X = x) ≤ 1 e
∑ P(Y = y|X = x)=1
π¦
Similmente, si ottiene la distribuzione di X dato Y: stesso concetto di evento
condizionato P(A|B) = P(A∩B)/P(B).
Assumiamo che X=x, ossia che X è uguale a una delle sue possibili realizzazioni, cioè
non vedremo più X come una V.A.
La distribuzione di probabilità P(Y=1, X=x) è:
Per esempio dato x=1, calcoliamo la distribuzione di probabilità P(Y= β|X=1) per tutte
le possibili realizzazioni di Y, in questo caso per:
P(Y=1|X=1)=
π(π=1, π=1)
0.10
= 0.35
π(π=1)
∈ (0, 1) e P(Y=2|X=1)=
0.10
π(π=1, π=2)
0.25
= 0.35
π(π=1)
∈ (0, 1)
0.25
Osserviamo che ∑ P(Y=y|X=1)= 0.35 + 0.35 = 1, quindi la condizione risulta.
π¦
Similmente si definisce P(X= β|Y=y), probabilità condizionata di X rispetto Y=y.
ad es. dato che Y=2: P(X=1|Y=2)=
P(X=2|Y=2)=
π(π=1, π=2)
0.25
= 0.6 = 0.41
π(π=2)
π(π=2, π=2)
π(π=3, π=2)
0.25
0.10
= 0.6 = 0.41 P(X=3|Y=2)=
= 0.6 = 0.16
π(π=2)
π(π=2)
0.25
0.25
0.10
quindi E(X|Y=2)= 1x 0.6 + 2x 0.6 + 3 0.6 = 1.75 ≠ EX= 1.8
Dalla distribuzione condizionata di Y dato X=x si ottengono:
β il Valore atteso condizionato di Y dato X=x. Ovvero, Y è la variabile aleatoria
(condizionata) di cui calcoliamo il valore atteso:
E(Y|X = x) = ∑ P(Y=y|X=x)
π¦
es. E(Y|X = 2) = 1· P(Y=1|X=2)+
2· P(Y=2|X=2) = 1·
0.25
0.25
+ 2· 0.6 = 1.56
0.6
β la Varianza condizionata (sempre su tabella di prima): ovvero, Y è la variabile
aleatoria, condizionata, di cui calcoliamo la varianza:
2
V(Y|X = x) = ∑ (π¦ − πΈ(π|π = π₯)) · P(Y = y|X = x)
π¦
2
0.20
2
0.20
es. V(Y|X = 2) = (1 − 1. 56) · 0.45 + (2 − 1. 56) · 0.45 = 0.247
La funzione di ripartizione di X e Y nel punto π₯0, π¦0, è definita come:
F(π₯0, π¦0) = P(X ≤ π₯0, Y ≤ π¦0) = ∑
∑ P(X=x, Y=y)
π₯ ≤ π₯0 π¦ ≤ π¦0
Questa soddisfa due proprietà caratterizzanti:
β
0 ≤ F(x, y) ≤ 1
β
F(x, y) funzione non decrescente in x e y
es. F(2, 1) = 0.10 + 0.20 = 0.30
Esercizio: Verificare che la funzione di ripartizione F(x, y) è data dai dati nella tabella:
F(2, 1)= ∑
∑ P(X=x, Y=y)=
π₯ ≤ π₯0 π¦ ≤ π¦0
P(X=1, Y=1) + P(X=2, Y=1)= 0.10 + 0.20= 0.3
Indipendenza
Come verificare se due variabili aleatorie X e Y sono indipendenti?
Sappiamo che X e Y sono indipendenti quando (stesso concetto di due eventi A e B
indipendenti): P(Y = y, X = x) = P(Y = y) P(X = x)
Dato che, ad esempio, P(Y = 1, X = 1) ≠ P(Y = 1)
P(X = 1); 0.10 ≠ 0.40 · 0.35
concludiamo che X e Y non sono indipendenti.
Dipendenza tra due variabili aleatorie
Se due variabili aleatorie X e Y non sono indipendenti, possono avere varie forme di
dipendenza, relazione o co-movimenti.
La loro distribuzione di probabilità congiunta P(x, y) descrive completamente tale
dipendenza poiché determina le loro realizzazioni.
Se abbiamo delle realizzazioni di X e Y (ovvero abbiamo un campione di X e Y ), un
modo efficace per visualizzare graficamente la loro dipendenza è produrre uno
scatter plot.
Esempi di scatterplot : dipendenza x- y
[X y) > ogni punto nei grafici
A = Ex
e- una realizzazione,
A = EY
-
,
(X,Y)
( y) di
,
u
grafici con
coppie di V A
.
.
=
MX
=
MY
diverse
(X , Y)
Covarianza→ misura di variabilità congiunta di due variabili aleatorie, X e Y, è un
numero e misura l'intensità dei co-movimenti o dipendenza lineare tra esse.
Indichiamo con µ = E(X) e µ = E(Y). La covarianza tra X e Y (variabili aleatorie
π₯
π¦
discrete o continue) è definita come Cov(X, Y) = E[(X - µX)(Y - µY)]
Riguardando lo scatter-plot di prima osserviamo che:
1.
Se X tende ad assumere valori elevati (X > µ ) quando Y tende ad assumere
π₯
valori elevati (Y > µ ) e si verifica anche che X tende ad assumere valori bassi
π¦
(X < µ ) quando Y tende ad assumere valori bassi (Y < µ ),
π₯
π¦
allora (X - µ )(Y - µ ) tenderà ad essere positivo.
π₯
π¦
m
2. Se invece X tende ad assumere valori elevati e contemporaneamente Y tende
ad assumere valori bassi (e viceversa), allora (X - µ )(Y - µ ) tenderà ad essere
π₯
π¦
negativo.
Mi
Come calcolare Cov(X, Y)= E[(X-µ )(Y-µ )]? Basta osservare che Cov(X, Y) è il valore
π₯
π¦
atteso di una funzione g della coppia (X, Y), quindi dovrò usare la distribuzione di
probabilità congiunta di (X, Y), P(X=x, Y=Y), per calcolarlo.
In generale: E[g(X, Y)]= ∑ ∑ g(x, y)·P(X=x, Y=y)
π₯ π¦
Per variabili aleatorie discrete,
Cov(X, Y) = E[(X - µ )(Y - µ )] = ∑ ∑(x - µ )(y - µ )·P(x, y)
π₯
π¦
π₯ π¦
π₯
π¦
Esercizio: svolgendo le moltiplicazioni a destra della seconda uguaglianza, ottenere
la seguente formula alternativa della covarianza (utile per calcolare la covarianza):
Cov(X, Y) = ∑ ∑x y · P(x, y) - µ · µ = E(XY) - E(X)E(Y)
π₯ π¦
π₯
π¦
esempio covarianza vendite in Svizzera e in Italia
Cov(X, Y) = ∑ ∑x y · P(x, y) - µ · µ
π₯
π₯ π¦
π¦
= 2.9 - 1.85 · 1.6 = -0.06
Il calcolo della covarianza richiede un certo ammontare di calcoli, anche in questo
semplice esempio, opportuno farli con un software, es. R.
Coefficiente di correlazione lineare
Uno svantaggio della covarianza è la sua dimensione o unità di misura ‘ibrida’ che
rende difficile (se non impossibile) attribuire un significato economico alla misura di
covarianza. Nell’esempio delle vendite in Svizzera e in Italia, X vendite in CHF e Y
vendite in EUR, Cov(X, Y) ha dimensione CHF·EUR e non ha alcun significato
economico. Occorre un numero ‘puro’ o adimensionale per misurare l’eventuale
dipendenza lineare tra X e Y. Questo numero è il coefficiente di correlazione lineare
(o correlazione), ρ, e si ottiene semplicemente standardizzando la covarianza per le
πΆππ£(π, π)
due deviazioni standard: ρ = Corr(X, Y) =
dove σπ₯ = π(π) e σπ¦ = π(π).
σπ₯σπ¦
Interpretazione del coefficiente di correlazione lineare
Il coefficiente di correlazione lineare misura la dipendenza lineare tra X e Y .
Il coefficiente di correlazione lineare, ρ , è un numero compreso tra 1 e 1: -1 ≤ ρ ≤ 1
~
-
ρ = 1 indica una perfetta dipendenza lineare positiva tra X e Y;
-
ρ = -1 indica una perfetta dipendenza lineare negativa tra X e Y;
-
ρ = 0 indica che non c’è dipendenza lineare tra X e Y, potrebbe esserci una
dipendenza non lineare.
Se X e Y sono indipendenti non hanno alcuna dipendenza (lineare o non lineare),
quindi automaticamente ρ = 0. Dimostrazione: P=
πΆππ£(π, π)
quindi ρ=0 e Cov(X, Y)= 0
σπ₯σπ¦
Allora calcoliamo Cov(X, Y)= E(XY) - E(X)E(Y), sapendo che X, Y sono indipendenti,
cioè che P(X=x, Y=y)=P(X=x)P(Y=y):
E(XY)= ∑ ∑x y · P(X=x, Y=y)= ∑ ∑x y · P(X=x)(Y=y)= ∑ x · P(X=x)∑ y · P(Y=y)= E(X)E(Y)
π₯ π¦
π₯ π¦
π₯
π¦
Da cui Cov(X, Y)= EX·EY - E(X)E(Y)= 0 allora ρ = 0 β
Quindi X e Y sono indipendenti e quindi anche linearmente indipendenti (ρ = 0)
Esempi di scatterplot : p o dipendenza non lineare
=
Qui Xe Y sono
e
indipendentic
quindi anche linearmente
indipendenti (p 0)
=
qui non sono
L
indipendenti
nonostante p = o
L
L
esempio correlazione nulla e indipendenza: X e Y con ρ = 0 ma non indipendenti.
La variabile aleatoria X può assumere tre valori: -1, 0, 1
quindi distribuzione di probabilità di X: P(X=-1) = 1/4, P(X=0) = 1/2, P(X=1) = 1/4;
2
La variabile aleatoria Y = π , ovvero Y è una funzione deterministica di X: conoscendo
X possiamo stabilire con certezza quale valore assume Y. Quindi X e Y non sono
sicuramente indipendenti. La distribuzione di probabilità congiunta di X e Y è
P(X = -1, Y = 1) = 1/4, P(X = 0, Y = 0) = 1/2, P(X = 1, Y = 1) = 1/4.
Svolgendo i calcoli, E(X)= ∑ x · P(X=x)= 1·1/4 + 0·1/2 + (-1)·1/4 = 0
2
2
2
2
2
E(Y)= E(π )= ∑ π₯ · P(X=x)= 1 ·1/4 + 0 ·1/2 +(− 1) ·1/4 = 1/2
E(XY) = ∑ x y · P(X=x, Y=y)= -1 · 1 · 1/4 + 0 · 0 · 1/2 + 1 · 1 · 1/4 = 0
e quindi Cov(X, Y) = E(XY) - E(X)E(Y) = 0
Varianza della somma di due variabili aleatorie
X e Y sono due variabili aleatorie (discrete o continue), con µ = E(X), µ = E(Y):
π₯
π¦
V(X + Y) = V(X) + V(Y)+2Cov(X, Y)
Per dimostrare l’uguaglianza sopra, basta applicare la definizione di varianza:
2
2
V(X + Y) = E[(X + Y - (µπ₯ + µπ¦) ] = E[((π − µπ₯) + (π − µπ¦)) ]
2
2
= E[(π − µπ₯) + (π − µπ¦) + 2(X - µπ₯)(Y - µπ¦)] = V(X) + V(Y) + 2Cov(X, Y)
Se Cov(X, Y) = 0, allora V(X + Y) = V(X) + V(Y).
Esercizio: verificare che V(X - Y) = V(X) + V(Y) - 2Cov(X, Y).
Cominciamo con la definizione di varianza per la differenza di due variabili aleatorie
2
X e Y : Var(X - Y) = E[(π − π − πΈ[π − π]) ]
Poiché E[X - Y]= E[X] - E[Y] , possiamo riscrivere l’espressione sopra come:
2
Var(X - Y)= E[(π − π − (πΈ[π] − πΈ[π])) ]
2
Var(X - Y)= E[(π − πΈ[π] − (π − πΈ[π])) ]
Ora possiamo espandere il quadrato:
2
2
2
(π − πΈ[π] − (π − πΈ[π])) = (π − πΈ[π]) + (π − πΈ[π]) - 2(X - E[X])(Y - E[Y])
Prendiamo ora l’aspettativa matematica di ciascun termine:
2
2
Var(X - Y) = E[(π − πΈ[π]) ] + E[(π − πΈ[π]) ] - 2E[(X - E[X])(Y - E[Y])]
Ricordiamo che:
2
2
Var(X) = E[(π − πΈ[π]) ], Var(Y) = E[(π − πΈ[π]) ]
Cov(X, Y) = E[(X - E[X])(Y - E[Y])]
Sostituendo questi valori nell’equazione, otteniamo:
Var(X - Y) = Var(X) + Var(Y) - 2 Cov(X, Y)
Nel libro “Statistica”, l’Esempio 5.18 (pagina 195) è da intendersi solo come illustrativo
dei calcoli. Dal punto di vista della teoria finanziaria, non è corretto calcolare media,
varianza e correlazione di prezzi azionari (si deve calcolare media, varianza e
correlazione dei rendimenti di titoli azionari). Inoltre, come detto nell’esempio, i
rendimenti di titoli azionari sono variabili aleatorie continue (e non variabili aleatorie
discrete).
CAP 6
Come decidere se una variabile numerica è discreta o continua?
‘Criterio economico’: ai fini dello studio del fenomeno di interesse, è importante
distinguere ogni singolo valore che la variabile numerica può assumere?
1. Si, allora la variabile numerica è discreta (es. numero chiamate al call center).
2. No, allora la variabile numerica è continua (es. tempo di attesa).
Alcune variabili numeriche (es. tempo, peso) sono ‘intrinsecamente continue’.
Altre variabili (es. vendite, PIL) sarebbero ‘discrete’ ma vengono trattate come
continue, per semplicità e in base al criterio economico.
Variabili aleatorie continue
Nella classe delle distribuzioni continue vi è la distribuzione normale o Gaussiana
che trova applicazione praticamente in qualsiasi campo ed è legata al Teorema del
Limite Centrale.
Molte caratteristiche delle variabili aleatorie discrete esistono anche per le continue
ed hanno esattamente lo stesso significato/interpretazione:
- F(x)= P(X ≤ x), funzione di ripartizione
- E(X)
-
2
2
Varianza(X)= E(π ) - (πΈπ)
- Cov(X, Y)= E(XY) - E(X)E(Y)
- qβΊ quantile
La caratteristica fondamentale della V.A. continua X, è che può assumere un valore
qualsiasi in un intervallo di R, quindi le sue possibili realizzazioni sono infinite.
Diversamente da variabili aleatorie discrete, per una variabile aleatoria continua X:
P(X = x)=0, dove x indica una possibile realizzazione di X.
Per variabili aleatorie continue, si calcola la probabilità P di intervalli, non di singole
realizzazioni: possiamo calcolare la probabilità che X assuma un valore in un
intervallo (a, b) dei numeri reali così: P(a < X < b) > 0
Funzione di ripartizione
Stesso identico concetto delle variabili aleatorie discrete. Indichiamo con X la
variabile aleatoria continua. La sua funzione di ripartizione: F(x) = P(X ≤ x)
/
la funzione non ha
salti, e- continua
Fl -u) = P(X1 u) = 0
-
F(u) = P(x = 4)
F( b) = 0
-
F(z) = 2
Domanda: P(Xβ³ 0)? 0.5
Come ogni funzione di ripartizione, anche la funzione di una V.A. continua soddisfa
due proprietà fondamentali:
β
0 ≤ F(x, y) ≤ 1 per ogni valore x
β
Se π₯1 e π₯2 sono valori tali che x1 < x2, allora F(x1) ≤ F(x2) (funzione crescente).
F(π₯2)= P(X ≤ π₯2)= P(X ≤ π₯1) + P(π₯1 < X ≤ π₯2)= F(π₯1) + P(π₯1 < X ≤ π₯2) quindi F(π₯2) ≤ F(π₯1) β
Due limiti importanti, utili da ricordare per disegnare F(X):
lim F(x)= 0, lim F(x)= 1
π₯→∞
π₯ → −∞
=
1
2 osservazioni:
1. X V.A continua, poichè P(X=x)= 0 β© x, allora F(x)= P(X ≤ x) = P(X < x)
2. Per variabili discrete e continue, per ogni a<b, vale che: P(a < X ≤ b)= F(b) - F(a)
dimostrazione: F(b)= P(X ≤ b)= P(X ≤ a)+ P(a < X ≤ b) dato che (x ≤ b)=(x ≤ a)U(a<X≤b)
Funzione di densità per variabili continue f(x) ha un ruolo simile alla funzione di
probabilità P(x) = P(X = x) di una variabile aleatoria discreta e non esiste per queste
ultime.
Sia F la funzione di ripartizione di X, una V.A. continua e consideriamo un intervallo
(a, b) e la probabilità: P(a < X < b) = P(X<b) P(X<a) = F(b) - F(a)
Definiamo a=x e b=x + h. La funzione di densità, f(x), è definita come
π(π₯<π≤π₯+β)
πΉ(π₯+β) − πΉ(π₯)
ππΉ(π₯)
f(x) = lim
= lim
= ππ₯ = F’(x)
β
β
β→0
β→0
→ la funzione di densità f(x), nel punto x, è la derivata di F(x), quando è
differenziabile. f(x) non è una probabilità (infatti P(X=x)= 0), ma una densità di
probabilità. (per unità di lunghezza)
Interpretazione: la densità di probabilità f(x) è il limite della probabilità dell’intervallo
(x, x+h), diviso la lunghezza dell’intervallo, quando tale lunghezza va a zero.
Esempio, dedurre f(x) dalla funzione di ripartizione F → f(x)=F’(x)β΄
pendenza
-
pendenca
20
Ma
decresie
#
penden
rende
pendenza
Ricordiamo che F’(x) è la pendenza della retta tangente alla funzione F nel punto x.
Funzione di densità
Dato che f(x) è la derivata di F(x) e quindi f(x) = F’(x),
π
π
π
π
P(a<X<b)= F(b) - F(a)= ∫ πΉ'(π₯)ππ₯ = ∫ f(x) dx
ovvero la probabilità che X assuma un valore nell’intervallo (a, b) è uguale all’area
sotto la curva di densità compresa tra a e b.
Quando a = -∞, l’intervallo (a, b) diventa (-∞, b) e la probabilità che X < b è
π
P(X < b) = F(b) = ∫ f(x) dx
∞
Quindi, la funzione di ripartizione in un punto b è uguale all’area sotto la curva di
densità fino al punto b.
Esempio
di probabilità
e area
dix :E(x)
di ripartizione
Funzione
·
Densitàdiprobabilitàdix f(x)
:
E
Uso funzione di ripartizione F: P(0<X<1)= P(X<1) - P(X<0)= 0.84 - 0.50 = 0.34
1
Uso la densità di probabilità f: P(0<X<1)= ∫f(x)dx = 0.34
0
↓
F(1) = 0 04
.
P(x(1)= F(1)
=
(f(x)d a
=
=
.0
0
Similmente alla distribuzione di probabilità di una variabile aleatoria discreta, la
funzione di densità di una variabile aleatoria continua, X, deve necessariamente
soddisfare due proprietà fondamentali:
1) f(x) ≥ 0 per ogni valore x.
2) L’area sotto la curva di densità deve essere
∞
uguale a 1, ∫ f(x)dx = 1
−∞
dove l’integrale si estende all’intervallo di tutte le
possibili realizzazioni x di X.
Valore atteso e varianza
Valore atteso e varianza di variabili aleatorie continue hanno lo stesso identico
significato di valore atteso e varianza di variabili aleatorie discrete.
Indichiamo con X una variabile aleatoria continua con densità f(x).
Valore atteso di X:
∞
E(X) = ∫ x f(x) dx
−∞
Varianza di X:
∞
2
V(X) = ∫ (π₯ − πΈ(π)) · f(x)dx
−∞
Distribuzione uniforme: Una V.A. (continua) ha distribuzione di probabilità uniforme
nell'intervallo [a, b] quando
funzdensità
funz diripartizione
,
esempio: Guasto di un oleodotto
Una squadra di manutenzione è responsabile di un tratto di oleodotto lungo 2 Km. La
distanza alla quale può verificarsi un guasto è rappresentata da una variabile
aleatoria uniforme con densità uniforme
Calcolare la probabilità che il guasto si verifichi tra il Km 0.5 e il Km 1.5.
1.5
1.5
0.5
0.5
1
P(0.5 < X < 1.5) = ∫ f(x) dx = ∫ 2 dx = 0.5
Alternativamente
P(0.5 < X < 1.5) = P(X < 1.5) - P(X < 0.5) = F(1.5) - F(0.5) =
1.5
2
-
0.5
= 0.5
2
Distribuzione normale→ distribuzione continua più usata poichè approssima molto
bene distribuzioni di fenomeni che consistono in un numero elevato di variabili
aleatorie (emerge dal Teorema del Limite Centrale). Essa è inoltre facile da usare, il
calcolo delle probabilità è immediato (molte distribuzioni non hanno una forma
chiusa o analitica) e in particolare in economia, è usata per descrivere titoli rischiosi,
vendite totali ecc. La distribuzione normale è caratterizzata da due parametri: µ e C
2.
La funzione di densità di una variabile aleatoria normale X è
π₯−µ 2
1
− 2( σ )
1
f(x) =
π
2
dove µ∈(− ∞, ∞) e σ (0, ∞) sono parametri e x∈(− ∞, ∞) =R
2πσ
Valore atteso e varianza sono
∞
V() ∞
−∞
−∞
E(X) = ∫ x f(x) dx = µ,
2
2
∫ (π₯ − µ) f(x) dx = σ
2
Esempi di distribuzione normale, X ∼ N (µ, σ )
N(0 , 1)
I
N(2 1)
,
~ valore
→ la densità di probabilità f(x) di V.A. normali è simmetrica rispetto a µ.
atteso
2
Variando µ e σ , otteniamo un’intera famiglia di distribuzioni normali.
2
Dato σ , aumentare µ significa traslare rigidamente la distribuzione normale a
destra. Viceversa al diminuire di µ: ricordiamo che µ è il baricentro della
distribuzione.
2
Dato µ, aumentare σ significa aumentare la dispersione o variabilità delle possibili
2
realizzazioni di X, ‘la pancia della distribuzione’. Viceversa al diminuire di σ
2
Quando µ = 0 e σ = 1, abbiamo una distribuzione normale standard, Z ∼ N (0, 1)
f(z)=
1
2π
1
− 2π§
π
2
esempio
Trasformazione lineare di una V.A. normale è ancora normale
Una proprietà fondamentale della distribuzione normale è la seguente:
2
se X ∼ N (µ, σ ) è una variabile aleatoria normale, allora una trasformazione lineare di
X, Y = a + bX con a e b costanti, è ancora una variabile aleatoria normale:
2 2
Y = a + bX ∼ N (a + bµ, π σ )
Questo risultato non è vero per altre distribuzioni nel generale: In generale, se X ha
una data distribuzione (es. bernoulliana), una sua trasformazione lineare, Y = a + bX,
ha una distribuzione diversa da X.
Quello che invece è vero per ogni V.A., indipendentemente dalla sua distribuzione, è
2
che se X ha media E(X)= µ e Var(X)= V(X)= σ , allora Y=a+bX ha
2 2
E(Y)= a + bµ e V(Y)= π σ
Infatti Y= a + bX, E(Y)= E(a+bX)= a + bEX= a + bµ
2
Var(Y)= Var(a + bX)= Var(a) + Var(bX) + 2Cov(a, bX)= V(bX) = π V(X)
Caso particolare, molto utile: la trasformazione lineare che standardizza X
Z=
π−µ
∼ N (0, 1)
σ
Grazie a questa relazione, per calcolare probabilità relative ad una V.A. normale,
basta conoscere probabilità associate alla normale standard, dato che ogni V.A.
normale può essere standardizzata.
2 2
Esercizio: Verificare che E(Z)=0 e V(Z)=1; calcolo da Y = a + bX ∼ N (a + bµ, π σ )
sapendo che Z=
π₯−µ
µ
1
=+ σX
σ
σ
Funzione di ripartizione
2
Indichiamo con X ∼ N (µ, σ ). La sua funzione di ripartizione è
∞
∞
−∞
−∞
F(π₯0) = P(X < π₯0) = ∫ x f(x) dx = ∫
1
π₯−µ 2
− 2( σ )
1
dx
π
2πσ
Questo integrale non ha forma chiusa. Sarebbe ‘costoso’ calcolare numericamente
2
tale integrale per ogni valore di π₯0, µ e σ .
Fortunatamente, grazie alla standardizzazione di X, possiamo ricondurre il calcolo di
2
F(π₯0) ad un solo integrale numerico per qualsiasi valore di π₯0, µ e σ :
π₯0−µ
(
π−µ
F(π₯0)= P(X < π₯0)= P σ
<
π₯0−µ
σ
) (
=P π <
π₯0−µ
σ
)= ∫
σ
−∞
1
2π
1
− 2π§
π
2
dz
L’ultimo integrale è calcolato con software (R, Wolframalpha, ecc.) o tavole.
1
Esempio: P(Z < -1) = F(-1) = ∫ f(z) dz = 0.16 → area sotto f(x) tra -∞ e -1
−∞
Calcolo di probabilità con distribuzione normale
L’area sotto la curva di densità f(x) è uguale a uno, P(X < b) + P(X > b) = 1, quindi
P(X < b)= 1 - P(X > b), con {X < b} e {X > b} due eventi complementari e mutuamente
esclusivi, ovvero una partizione dello spazio campionario. (vale per V.A. continue)
r
La distribuzione normale è simmetrica rispetto al suo valore atteso = zero per la
normale standard. Indichiamo con -a un valore negativo es. -a = -1,
P(Z < -a) = P(Z > a) β F(a)=1 - F(a)
a
Similmente, indichiamo con b un valore positivo es. b = 1
P(Z < b) = P(Z > -b) β F(b)= 1 - F(b)
To
ini s
Tavola della normale
Se voglio 2 negativi non li trovo
2wN()
sulla tavola
, ma usero il fatto che
F( 3)
-
=
P(z(3)
=
-
P(z)3)
=
1
-
1
P(z(3)
-
=
F(3)
Me
-
-
-
-
L
2 =0
.
91
F(z) = P(z = 2)
=
0 81
.
se
esempio: Punteggio di un test
I punteggi ottenuti in un test si distribuiscono secondo una normale con valore
atteso 60 e deviazione standard 15. Calcolare la probabilità che uno studente
estratto a caso abbia un punteggio tra 85 e 95.
-
-
2
Indichiamo con X ∼ N (60, 15 ) la variabile aleatoria normale che rappresenta l’esito
del test di uno studente estratto a caso. Quindi la probabilità è
(
P(85 ≤ X ≤ 95)= P
85−60
15
≤π≤
95−60
15
)= P(1.67 ≤ Z ≤ 2.33)= F(2.33)-F(1.67)
= 0.99-0.95 = 0.04; ovvero la probabilità che uno studente estratto a caso abbia un
voto tra 85 e 95 è del 4%.
Continuando l’esempio precedente, supponiamo che il test venga utilizzato per
decidere l’ammissione ad un corso di laurea. Solo il top 10% viene ammesso. Trovare
il punteggio del test che corrisponde alla soglia di ammissione.
2
Ricordiamo che X ∼ N (60, 15 ). Indichiamo con b la soglia di ammissione. Il 90% degli
studenti non viene ammesso al corso di laurea, quindi
(
0.90 = P(X < b) = P π <
π − 60
15
)=F(
π − 60
15
)
Utilizzando un software o una tavola della normale, troviamo che il valore z che
soddisfa F(z)=0.90 è z = 1.28. Quindi 1.28 =
π − 60
15
→ b = 79.2
2
Distribuzioni di X ∼ N (60, 15 ), a sinistra e Z ∼ N (0, 1) a destra
I
b=
I
90 9(x)
·
=
79 2
.
90 9(z)
.
=
1 28
.
Normal probability plot dei rendimenti (daily, monthly, quarterly, yearly)
La distribuzione normale ha due proprietà molto importanti:
2
β
Se X ∼ N (µ, σ ) è una variabile aleatoria normale, una sua trasformazione
2 2
lineare Y= a + bX ∼ N(a + bµ, π σ ), con a e b costanti, è una variabile aleatoria
normale.
2
2
β
Se π1∼ N (µ1, σ1) e π2 ∼ N (µ2, σ2) sono due variabili aleatorie normali, una loro
combinazione lineare, π1π1+ π2π2, è ancora una variabile aleatoria normale:
2 2
2 2
π1π1+ π2π2 ∼ N (π1µ1+ π2µ2, π1σ1 + π2σ2 + 2π1π2·Cov(π1,π2)) dove π1 e π2 sono costanti
Trasformazione lineare di una variabile aleatoria normale
In generale, se X ha una data distribuzione non è necessariamente vero che
Y = a + bX ha una distribuzione dello stesso tipo: è vero invece per le distribuzioni
normali: se X ∼ N , allora Y= a + bX ∼ N .
2
Caso particolare di trasformazione lineare è la standardizzazione di X ∼ N (µ, σ ):
π₯−µ
µ
µ
µ
1
1
1
=+ σ X = a + bX ∼ N (0, 1) poichè E(Z)= E[+ σ X]= + σ E(X)= 0 e
σ
σ
σ
σ
µ
π₯
π₯
1
2
Var(Z)= Var(+ σ )= Var( )= 2 · σ = 1
σ
σ
σ
Z=
Combinazione lineare di variabili aleatorie normali
2
2
1
2
In generale, date due variabili aleatorie π1∼ (µ1, σ ) e π2 ∼ (µ2 σ ), non
necessariamente normali, e due costanti π1 e π2 :
E(π1π1+ π2π2 ) = π1E(π1) + π2 E(π2) = π1µ1+ π2µ2
2 2
2 2
2 2
2 2
V(π1π1+ π2π2 ) = π1σ1 + π2σ2 + 2π1π2·Cov(π1,π2) = π1σ1 + π2σ2 + 2π1π2·ρ σ1σ2
dato che, per definizione, la correlazione ρ=
πΆππ£(π1, π2 )
(σ1σ2)
.
Le equazioni sopra sono dovute alla linearità del valore atteso (non alla distribuzione
di π1 e π2 ). Se π1 e π2 sono normali, come già detto, anche Y= π1π1+ π2π2 è normale:
2 2
2 2
Y = π1π1+ π2π2 ∼ N (π1µ1+ π2µ2, π1σ1 + π2σ2 + 2π1π2· ρ σ1σ2)
esempio rendimento di un portafoglio
2
2
Indichiamo con π1 ∼ N (0.01, 0. 10 ) e π2 ∼ N (0.04, 0. 40 ) il rendimento annuale di due
titoli rischiosi. Quindi, π1 ha un basso rendimento atteso e una bassa volatilità π2 ha
un alto rendimento atteso e un’alta volatilità (‘risk return trade-off). La correlazione
tra i due rendimenti è ρ = 0.3. Il rendimento annuale di un portafoglio Y = 0.6π1 + 0.4
π2 che investe 0.6 in π1 e 0.4 in π2 ha valore atteso e deviazione standard:
E(Y)= 0.6 · 0.01 + 0.4 · 0.04= 0.02, e π(π)= 0.19= πππ(π)
ed è distribuito normalmente, poiché è la somma di V.A. normali:
2
Y = 0.6π1+ 0.4π2 ∼ N (0.02, 0. 19 )
Il rendimento atteso e la volatilità di Y sono compresi tra quelli di π1 e π2:
E(π1 ) ≤ E(Y) ≤ E(π2) e Var(π1) ≤ Var(Y) ≤ Var(π2)
calcoli:
Y=0.6π1 + 0.4π2= c1π1 + c2π2:
-
E(Y)= 0.6E(π1) + 0.4E(π2)= 0.022
-
σ (Y)= Var(Y)= (0.6)2 σ (π1) + (0.4)2 σ (π2) + 2(0.6)(0.4) Cov(π1, π2)
2
2
2
2
2
2
2
= (0. 6) (0. 1) + (0. 4) (0. 4) + 2(0.6)(0.4)·(0.1)(0.4)· 0.3
2
= 0.0036 + 0.0256 + 0.0192= 0.0349 β (0. 19)
Conoscere la distribuzione del rendimento del portafoglio è utile per calcolare varie
misure di rischio, come il ‘Value at Risk’ (VaR): perdita minima che si rischia di subire
con una probabilità (espressa come numero positivo) es. del α = 0.01.
VaR è un quantile al livello α della distribuzione del rendimento del portafoglio Y.
densità di probabilità
di X , X2 Y
,
P(X1 0 Un) = 5 #X (y) dy
%
-
.
-
P(y)
-
0
.
41) = j
-
0
-
P(z) 0 41)
-
.
=
.
41y (y) dy
J o x (y) dy
A
2
Esercizio: calcolare il VaR al livello α = 0.01 del portafoglio con rendimento
2
Y ∼ N (0.02, 0. 19 ). Soluzione: - VaRα = qα = -0.41. Quindi, con una probabilità α= 0.01,
la perdita minima è del 41%.
↑ N 10 01 10 1)2)
,
.
,
X2 -N10 On 10 4)
.
,
.
Perché la deviazione standard
Vy) = 0 (4) aumenta col p ?
p
correlazione
=
Y
trax1eX2
=
CeXn+ 22/
%Y)
=
Var (y) = co + 12 8
+ 2(n(2 (0v/x1 , (2)
-
P
Impatto della correlazione tra π1 e π2 sulla volatilità del rendimento del portafoglio
Y = 0.6π1+ 0.4π2 ,
2 2
π(π)=
2 2
π1σ1 + π2σ2 + 2π1π2 · ρ σ1σ2
π1= 0.6, π2 = 0.4, σ = 0.1, σ = 0.4
1
2
esempio: minimizzare la varianza di un portafoglio
2
2
Indichiamo con π1∼ N (µ1, σ1) e π2 ∼ N (µ2, σ2) il rendimento annuale di due titoli
rischiosi (non necessariamente distribuiti normalmente) e correlazione ρ = 0.
-
Indichiamo con Y il rendimento del portafoglio che investe c e (1 - c) in π1 e π2 ,
rispettivamente: Y = cπ1+ (1 - c)π2
Qual è la composizione ottimale del portafoglio che minimizza la varianza del
2 2
2 2
rendimento del portafoglio Y? V(Y) = π σ1 + (1 − π) σ2
quindi Cov o
=
2
∂π(π)
2
2
Tramite la condizione di primo ordine 0 =
= 2cσ1- 2(1 - c)σ2= c*=
∂π
σ2
2
2
σ1+σ
2
La condizione di secondo ordine,
2
∂ π(π)
2
∂π
2
2
= 2cσ1+ 2σ2 > 0 assicura che abbiamo
trovato un minimo.
c* è l’investimento in π1: investiamo tanto più in π1, quanto più volatile è π2
Al Caso p=o
V(Y) : (20+ 11-11 o
p = 0 3 nella figura
dalla figura redo che la
composizione ottimale che
+ 201024((1-2)
Minimizza la varianza e
* sarà
.
quello che minimizza :
= 2 2(1-c)(1
c
+
*
=
1 01
.
,
1 c* =
+ 20102p(1 -c 1) = 0
-
-
da cri
-
0
01
.
E(y(( * )) = 0 0198
.
Le distribuzioni continue sono utilizzate per descrivere molti fenomeni.
Esistono quindi molte distribuzioni continue: abbiamo visto Uniforme e Gaussiana
Vediamo ora la Distribuzione esponenziale→ molto utile nei problemi di ‘code di
attesa’, per modellare il tempo di attesa alla posta, richieste di rimborsi assicurativi…
Essa è caratterizzata da un solo parametro, λ. Una variabile aleatoria con
distribuzione esponenziale assume solo valori positivi, in accordo col fatto che
modella un tempo di attesa, che non può essere negativo. Una variabile aleatoria T
(es., tempo di attesa) segue una distribuzione esponenziale quando la sua funzione
di densità f (t) è
La sua funzione di ripartizione F(t), per t > 0, è
π‘
−λπ‘
P(T < t)= F(t) = ∫ λπ
0
−λπ‘
ππ‘ = 1 - π
P(t (1) =
x= 0 5
.
i= 1 3
.
X =1
5. f(t)dt
SeXY
,
E(T)t
P(T1) Con X = 1 5 e- maggiore
diP(T < 1) con x 0 3
seconda della
densità the metto
P(T1) la probabilità
.
a
=
Da cri : la probabilità di
attendere più di 1 minuto,P(T >1),
,
di attendere meno di
e minuto cambia
grande quando x
di quando X 1 5
- più
= 0.
=
conviene
.
scegliere
6
−λπ‘
3 distribuzioni esponenziali, f(t) = λπ
, con t > 0. Supponiamo che le tre distribuzioni
modellino i tempi di attesa a tre call center.
Distribuzione esponenziale: Valore atteso e varianza
Valore atteso e varianza di una variabile aleatoria esponenziale T sono
∞
∞
−λπ‘
E(T)= ∫ λπ
(
1 2
ππ‘ V(T)= ∫ π‘ − λ
0
0
) λπ ππ‘=
−λπ‘
1
2
λ
Quindi, all’aumentare di λ , il valore atteso E(T) diminuisce (e viceversa).
E(T) e V(T) aumentano o diminuiscono contemporaneamente al variare di λ.
Una limitazione della distribuzione esponenziale è il non poter modellare E(T) e V(T)
separatamente (come ad esempio nella distribuzione normale).
esempio tempo di attesa allo sportello della biblioteca
Il tempo di attesa medio allo sportello informazioni della biblioteca è di 5 minuti.
Qual è la probabilità di attendere in coda più di 5 minuti?
Indichiamo con T il tempo di attesa che modelliamo come una V.A. esponenziale
1
5 min = E(T) = λ
−0.2π‘
Quindi λ= 1/5= 0.2 e la densità esponenziale è f(t)=0.2π
quando t ≥ 0.
La probabilità di essere in coda per più di 5 min (data in due modi equivalenti) è
∞
.
−0.2π‘
P(T > 5)= ∫ 0. 2π
−0.2×5
ππ‘= 0.38= 1 - P(T ≤ 5)= 1 - F(5)= 1 - (1 - π
)= 0.38
0
Nota: P(T > 5) = P(T > E(T)) ≠ 0.5, ovvero dist. esponenziale è asimmetrica (positiva).
5
1
Dalla figura: λ= 0.2 e E(T)= 0.2 = 5
−λ(0.2)
Mediana= π05 ossia P(T < π05)= 0.5 e F(π05)= 1 - π
Tempo di attesa T ∼ Exp(0.2), P(T > 5)= 0.38, E(T)= 5, mediana = 3.47
Mediana della distribuzione esponenziale
Indichiamo con T ∼ Exp(λ) una variabile aleatoria che segue una distribuzione
esponenziale con parametro λ. Calcoliamo la sua mediana che indichiamo
con m=π05. Per definizione, la mediana m è quel valore tale che P(T < m)=0.5.
−λπ
Quindi F(m)=0.5 → 1 - π
otteniamo m=
= 0.5 risolvendo per m l’ultima equazione,
πππ(2)
. Nell’esempio precedente, dove λ= 0.2, quindi m= 3.47.
λ
Esercizio: disegnare la funzione di ripartizione F(t)= P(T < t) e calcolare il quantile qα
al livello α della distribuzione esponenziale. Ricordare che per definizione di quantile:
F(qα) = α e avendo T∼ exp(λ)
1) Calcolo della mediana π0.5
la mediana è per definizione: P(T < π0.5)= F(π0.5)= 0.5. Ricordiamo che F della
−λπ‘
distribuzione esponenziale è F(t)= 1 - π
1
- λπ0.5 = ln( 2 ); -λπ0.5 = -ln(2); π0.5=
, da cui 1 - π
−λ π0.5
= 0.5 da cui π
−λ π0.5
1
= 2
ππ2
, mediana quando T∼ exp(λ)
λ
2) calcolo di un generico quantile quando T∼ exp(λ)
qα è per definizione: P(T ≤ qα)= F(qα)= α, da cui 1 - π
ππ(1 − α)
−λ πα
1-α=π
; qα =
λ
−λ πα
=α
Esercizio: Funzione generatrice dei momenti
Data una qualsiasi variabile aleatoria X, la funzione M(u) definita come
π’π
M(u)= E(π ) è detta funzione generatrice dei momenti ed ha la seguente proprietà:
1.
Verificare (con Wolframalpha) che per la distribuzione esponenziale
−λπ₯
f(x)= λπ
,x≥0
∞
π’π
π’π₯
M(u)= E(π )= ∫π
−λπ₯
λ
ππ₯ = λ−π’ per λ > π’
λπ
0
2
3
4
2. Calcolare E(X), E(π ), E(π ), E(π ) utilizzando M(u) della distribuzione
esponenziale
∞
∞
π’π₯
π’π₯
E(g(X))= ∫ g(x) f(x) dx; M(u)= E(π )= ∫ π
−∞
f(x) dx
−∞
∞
π’π₯
pongo 0 sotto nell’integrale poiché la densità di X ∼ exp(λ) > 0: ∫π
−λπ₯
λπ
ππ₯
0
∞
∞
−(λ−π’)π₯
= ∫λπ
−(λ−π’)π₯
ππ₯= λ∫π
0
=λ
0
(
−(λ−π’)π₯
−π
λ−π’
)
∞
con λ - u > 0
0
−(λ−π’)π₯
→ 0 quando x → +∞
quindi -π
(
−π
0
)
1
λ
= λ 0 − λ−π’ = λ λ−π’ = λ−π’ , ora posso calcolare le sue derivate.
λ
sempre X ∼ exp(λ): M(u)= λ−π’ = λ(λ − π’)
∂π
∂π
−1
−1
E(X)= ∂π M(u)ο½π’=0= ∂π (λ(λ − π’) )ο½π’=0=
2
∂
2
E(π )=
2
∂π
ο½π’=0=
2λ
Var(X)= V(X)=
2
=
2λ
M(u)=
3
(λ−π’)
3
λ
2
λ
∂π ∂π
∂π
(
M(u))ο½π’=0=
∂π ∂π
∂π
=
-
(
λ(−1)(1)
2
(λ−π’)
λ
2
(λ−π’)
)
ο½π’=0=
λ
2
λ
1
= λ
= λ(− 2)(λ − π’)
−3
(- 1)ο½π’=0
2
2
λ
1
2
λ
=
1
2
λ
β
CAP 7
La Legge dei Grandi Numeri (LGN) e Teorema del Limite Centrale (TLC) forniscono il
quadro teorico per produrre inferenza, processo che consiste nell’analizzare dati
(campionari) per produrre informazione riguardo il fenomeno di interesse che ha
generato i dati. Esistono varie versioni della LGN e TLC (a seconda delle ipotesi
assunte) ma l’importante per noi è comprendere il principio base comune alle varie
versioni.
Motivazione della Legge dei Grandi Numeri
La variabile aleatoria X descrive un fenomeno di interesse. es. crescita annuale del
PIL; Siamo interessati al valore atteso di X, E(X), che nelle applicazioni reali è
sconosciuto. Qui entra in gioco lo statistico che lo stima: Come procedere?
Raccogliamo dati su X ovvero otteniamo un campione, e ne calcoliamo la media del
campionaria, ovvero la nostra stima di E(X). Ma su quale base?
π
π₯π=
∑ π₯π
π=1
π
=π₯ ·
ππ₯1
+....+ π₯ ·
π
π
1
π
ππ₯π
= π₯1π(π = π₯1) +....+ π₯ππ(π = π₯π)= ∑ π₯ππ(π = π₯π)
π
π=1
= E(X)= µ
Questa fatta è una manifestazione della legge.
La Legge dei Grandi Numeri ci assicura che la media campionaria:
β dia una stima di E(X) tanto più accurata quanto più grande è il campione di
dati raccolti, a prescindere dalla distribuzione di X;
β converga al valore atteso, quando la numerosità campionaria aumenta;
β sia uno stimatore valido del valore atteso.
esempio: X ∼ B(1, p) è una variabile aleatoria Bernoulliana con parametro p
sconosciuto. X può assumere solo due valori, 0 e 1. Immaginiamo che X rappresenti
l’esito del gioco testa/croce nel lancio di una moneta: successo/insuccesso, 1 o 0
rispettivamente.
X è una variabile aleatoria discreta: P(X = 1)= p e P(X = 0)= 1 - p.
2
Valore atteso µ= E(X)= p e varianza sono e σ = V(X)= p(1 - p)
EX= ∑ π₯π(π = π₯)= 1·p + (1 - p)·0= p
π₯
2
2
2
E(π )= ∑ π₯ π(π = π₯)= 1 ·p= p
π₯
2
2
2
V(X)= E(π )-(πΈπ) = p - π = p(1 - p)
Sequenza di variabili aleatorie e media campionaria
Indichiamo con π1,...,ππ una sequenza della V.A. X che rappresenta n future
realizzazioni indipendenti della stessa variabile aleatoria X. π1,..., Xn sono n variabili
aleatorie indipendenti e identicamente distribuite (i.i.d.). Prima di osservare il
campione, π1,...,ππ sono variabili aleatorie.
1
π
La media campionaria ππ= π ∑ ππ è una variabile aleatoria.
π=1
Dopo aver osservato il campione, otteniamo n realizzazioni della V.A. X, ovvero
π₯1,...,π₯π sono dei numeri, costanti. Anche π₯π è un numero, costante.
esempio: le realizzazioni π₯ ,...,π₯ di n= 5 lanci di moneta {0, 1, 0, 0, 1} producono una
1
π
realizzazione della media campionaria π₯ = 0.4. π₯5=
π
0+1+0+0+1
2
= 0· 5 = 0.4
5
Media campionaria: Valore atteso e varianza
2
π1,...,ππ sono n variabili aleatorie i.i.d. con µ = E(ππ) e σ = V(ππ) per i= 1,..., n.
π
1
1
La media campionaria ππ = π ∑ π = π (π1, + ··· + ππ) ha
π
π=1
valore atteso
1
1
1
E(ππ) = π (πΈ(π1), + ··· + E(ππ))= π (µ+ ··· + µ) = π πµ= µ
e varianza
V(ππ) =
1
1
1
π
π
π
2 V(π1+ ··· + ππ)=
2 (V(π1))+...+ V(ππ))=
2
2
2 (σ + ··· + σ )=
1
2
2 nσ =
π
2
σ
π
1
La media campionaria ππ ha lo stesso valore atteso di X ma con varianza π di V(X).
Quando la numerosità campionaria n tende ad infinito e la distribuzione di X è
sconosciuta:
lim E(ππ )= µ e lim V(ππ )= 0
π→∞
Questo significa che, per n → ∞ le realizzazioni di ππ saranno sempre più concentrate
π→∞
intorno a µ, a prescindere dalla distribuzione di X.
‘Esperimento’: Legge dei Grandi Numeri in azione
Riprendiamo l’esempio del lancio della moneta, X ∼ B(1, p) variabile aleatoria
Bernoulliana, P(X = 1)= p e P(X = 0)= 1 - p. Fissiamo ‘segretamente’ p= 0.2.
Fissiamo il numero di lanci n= 5.
Lanciamo la moneta n = 5 volte (primo campione) e calcoliamo (e registriamo) π₯π.
Rilanciamo la moneta n = 5 volte (secondo) e calcoliamo (e registriamo) π₯π.
...
Rilanciamo la moneta n = 5 volte (1,000 campione) e calcoliamo e registriamo π₯π.
Facciamo poi un istogramma delle frequenze relative di tutti i 1,000 π₯π generati sopra.
Aumentiamo il numero di lanci. Fissiamo n= 10. Ripetiamo la procedura sopra,
generando 1,000 campioni (indipendenti), ciascuno con n= 10 osservazioni.
Facciamo un istogramma delle frequenze relative di tutti i 1,000 π₯π generati.
Aumentiamo ancora il numero di lanci. Aumentando n, come appariranno le
distribuzioni di frequenza relativa delle π₯π?
Sappiamo che cosa vuol dire che una funzione deterministica tende a un numero,
per esempio
Ma scopriremo che vuol dire che una V.A. tende a una costante quando n → ∞.
Legge dei Grandi Numeri (LGN)
Teorema: Data una variabile aleatoria X con valore atteso µ= E(X) e varianza
2
σ = V(X) e date n future realizzazioni indipendenti π1,...,ππ di X,
la media campionaria ππ converge in probabilità al suo valore atteso E(ππ )= µ
π
quando n → ∞. ππ → µ = E(X)
Nel senso che la probabilità che ππ si discosti da µ di un ε > 0 tende a zero quando
n → ∞ è lim π(|||ππ
π→∞
− µ||| ≥ ε)= 0
per ogni ε > 0 piccolo quanto si vuole. Questa è la Legge (Debole) dei Grandi Numeri.
L’enorme utilità della LGN risiede nel fatto che vale quasi per ogni V.A. X.
Dimostrazione delle Legge (Debole) dei Grandi Numeri
Ricordiamo che E(X)= E(X|A) P(A)+ E(X|π΄) P(π΄), dove A e π΄ sono una partizione.
Applicando tale proprietà alla varianza della media campionaria con
π
A= (|||ππ − µ||| ≥ ε) e (|||ππ − µ||| < ε)= π΄ (partizione), otteniamo:
2
2
2
V(ππ )= E((ππ − µ) )= E((ππ − µ) )ο½|||ππ − µ||| ≥ ε P(|||ππ − µ|||≥ ε) + E((ππ − µ) )
ο½|||ππ − µ||| < ε P(|||ππ − µ||| < ε)
2
≥ ε P(|||ππ − µ|||≥ ε) +0P(|||ππ − µ||| < ε)
La disuguaglianza sopra si vede dal grafico di |ππ
(asse x) e (ππ
− µ|
2
− µ) (asse y). Riarrangiando la
disuguaglianza sopra (otteniamo la disuguaglianza di
Chebyshev):
2
P(|||ππ
− µ|||≥ ε) ≤
πΈ((ππ − µ) )
2
ε
=
2
σ
2
πε
→ 0 quando n → ∞
Commenti sulla Legge dei Grandi Numeri
Una conseguenza immediata dalla LGN: quando µ non è noto e abbiamo bisogno di
stimarlo, possiamo utilizzare la media campionaria ππ.
L’esperimento precedente mostra che all’aumentare della numerosità campionaria
n, la stima di µ diventa sempre più precisa (dato che ππ→ µ).
Altra importante conseguenza della LGN è che possiamo costruire degli ‘intervalli’
intorno al valore atteso µ= E(X), pur non conoscendo la distribuzione di X.
Intervallo intorno alla media campionaria basato sulla LGN
2
La variabile aleatoria X ∼ (µ, σ ) descrive un fenomeno di interesse e la sua
distribuzione e il suo valore atteso µ sono sconosciuti. Assumiamo, per semplicità,
2
che la varianza sia nota σ = 3 (altrimenti la stimiamo. . . ).
La LGN ci assicura che la media campionaria ππ→ µ quando n → ∞.
Quindi, tanto più grande la numerosità campionaria n, tanto più vicina sarà la
realizzazione di ππa µ.
Vogliamo sapere: quanto deve essere grande (almeno) la numerosità campionaria
n affinché la futura realizzazione di ππ si discosti da µ meno di 0.5, con probabilità
maggiore al 99% (quando la distribuzione di X è sconosciuta)?
Formalmente, vogliamo calcolare per quale numerosità campionaria n
P(|||ππ − µ||| < ε) > β, dove ε = 0.5 e β = 0.99. quindi P(|||ππ − µ||| <0.5) > 0.99
Dalla dimostrazione della LGN, dalla partizione (|||ππ
− µ||| ≥ ε)e(|||ππ
− µ||| < ε),
abbiamo:
P(|||ππ
→n>
− µ||| ≥ ε) ≤
2
σ
2
ε (1−β)
2
σ
|π − µ|| < ε) ≤
2 → 1 - P(|
| π
|
πε
ovvero n >
3
2
0.5 (1−0.99)
2
σ
|π − µ|| < ε) ≥ 1 2 → P(|
| π
|
πε
= 1200
Ovvero, quando la numerosità campionaria n > 1200
P(|||ππ − µ||| < ε) > β, dove ε = 0.5 e β= 0.99.
2
σ
2
πε
>β
0
You can add this document to your study collection(s)
Sign in Available only to authorized usersYou can add this document to your saved list
Sign in Available only to authorized users(For complaints, use another form )