Uploaded by Antonello Vicino

settimana 1-2 stat

advertisement
SETTIMANA 1
Unità statistica= unità elementare su cui vengono osservati i caratteri oggetto di studio
Collettivo statistico o popolazione= insieme di unità statistiche che rispettano una o più
caratteristiche
1. Serie storiche t= 1, ...T (stesso dato analizzato al variare nel tempo)
2. Cross section i=1, ...n (dati presi nello stesso periodo di tempo)
Calcolo rendimenti:
𝑅=
𝑝𝑑 − 𝑝𝑑−1
⋅ 100
𝑝𝑑−1
P = prezzo al tempo t
Rendimenti essenziali per eliminare i trend e poter fare un'analisi
VARIABILI STATISTICHE→ possono essere qualitative o quantitative
1. Variabili di carattere quantitativo→ misurabili con unità di misura che possono essere:
• discrete= procede per salti (ex. voti esami)
• continue= variabile senza salti, i valori si susseguono in continuità (ex. tempo, peso)
2. Variabili di carattere qualitativo che possono essere a loro volta:
• ordinabili
• non ordinabili
STAZIONARIETA'
Una variabile si dice stazionaria in media quando dividendo l’insieme T in due sotto campioni T1 e
T2, la media di T1 è uguale alla media di T2.
M(T1) = M(T2)
Wikipedia: "In matematica e statistica, un processo stazionario (o processo fortemente
stazionario) è un processo stocastico la cui distribuzione di probabilità congiunta non cambia se
viene traslata nel tempo. Di conseguenza, parametri quali la media e la varianza, se sono presenti,
pure non cambiano nel tempo"
Se una serie è un serie cross section è molto più difficile avere problemi di NON stazionarietà in
media.
Nelle serie storiche invece molto spesso abbiamo problemi di NON stazionarietà.
Differenza prima= valore al tempo (t) - valore al tempo (t-1)
Esempio di analisi cross section
1. x= reddito --> carattere oggetto di studio studiata in "n" osservazioni diverse
2. n= numero di osservazioni= 7421
•
•
•
•
x1= valore della variabile x nella prima unità statistica (primo dato rilevato)
x2= valore della variabile x nella seconda unità statistica
...
x7421
L'insieme di questi valori è detto PROTOCOLLO ELEMENTARE --> successione di questi 7421 dati
elementari che ho osservato.
7421 numeri sono troppi però da studiare allora devo ridurre l'insieme delle osservazioni
CLASSIFICANDO nei dati; passando quindi dai miei "n" dati INDIVIDUALI a un insieme di "m"
GRUPPI/CLASSI nei quali sintetizzo i dati individuali con ovviamente m<n
Per fare ciò devo conoscere il campo di variazione→ calcolo il minimo e il massimo dei valori che
"x" assume. In questo caso:
min= -6763,19
max= 541879,2
Posso così raggruppare i dati in intervalli definiti→ usare la funzione frequenza su Excel per passare da
protocollo elementare a divisione in classi.
Le classi devono avere alcune caratteristiche:
•
•
omogenee al proprio interno
eterogenee tra di loro
È utile inoltre avere classi di uguale ampiezza per semplificare la rappresentazione e l’analisi→ se non
hanno uguale ampiezza bisogna tenerne conto.
Il passaggio dagli “n” valori del protocollo elementare alla distribuzione in “m” classi è un passaggio in cui
cambia la rappresentazione.
N.B. x1 nel protocollo rappresenta la prima unità di rilevazione statistica mentre x1 nella divisione per classi
rappresenta la modalità, ovvero le caratteristiche della prima classe.
Nella classificazione, x1 x2 … xm si chiamano modalità (valore delle classi)
n1 n2 … nm rappresenta il numero di unità statistiche contenute in ogni classe e vengono chiamate
frequenze assolute. La somma delle “ni” deve dare il numero di unità statistiche analizzate:
π‘š
∑ 𝑛𝑖 = 𝑛
𝑖=1
Ex. x4= quarta modalità del carattere x (se sono nella distribuzione per classi).
Ex. n5= frequenza assoluta, il numero di unità statistiche che presentano la quinta modalità della variabile x:
numero di valori appartenenti alla quinta classe.
La prima e l’ultima classe possono essere aperte (< di oppure > di) e quindi avere ampiezza maggiore delle
altre classi e diventa rilevante nell’istogramma di frequenza (rappresentazione grafica).
ISTOGRAMMA DI FREQUENZA
Asse ascisse (x)→ variabile di interesse (intervalli di ogni classe)
Asse ordinate (y)→ frequenze (numero di variabili in ogni classe)
CLASSI DI UGUALE AMPIEZZA
x
x1→1
x2→2-3
x3→4
n
n1→1
n2→3
n3→1
n= 5
CLASSI DI DIVERSA AMPIEZZA
x
n
x1→1 n1→1
x2→2 n2→2
x3→3 n3→1
n= 4
Per trovare la n corrispondente a 2 e quella corrispondente a 3, divido n2 per l’ampiezza della classe e faccio
una media→ n2/a2 = 3/2 = 1,5
ai= ampiezza della classe
a1→ numero di unità statistiche che assume il valore di 1 (variabili discrete)→ a1=1
a2→ numero di unità statistiche che assume il valore di 2 o 3→ a2=2
Se le classi hanno tutte la stessa ampiezza, allora è equivalente riportare la densità o la frequenza sull’asse
verticale. Quando invece le classi non sono tutti uguali sarebbe un errore disegnare l’altezza di ogni
rettangolo in base alla frequenza. Infatti, un intervallo di valori più ampio tenderà a contenere un numero
maggiore di frequenze di quelle contenuta in un intervallo di valori più stretto. Perciò in questa situazione è
necessario calcolare sempre la densità di frequenza.
densità = frequenza / ampiezza della classe→ densità= ni/aii
Se al numeratore utilizziamo la frequenza assoluta, otteniamo la densità assoluta. Se al numeratore
utilizziamo la frequenza a relativa, otteniamo la densità relativa.
La densità di frequenza costituisce una misura del numero di unità statistiche che presentano modalità di
un certo carattere incluse all'interno di una determinata classe in relazione all'ampiezza di tale classe. La
frequenza del carattere all'interno di una classe è influenzata dall'ampiezza della medesima classe per cui la
densità di frequenza tende ad ovviare a questo inconveniente fornendo un'informazione sulla distribuzione
del carattere depurata da tale influenza.
N.B. nella rappresentazione grafica su un istogramma è necessario ricorrere alla densità (non basta solo la
frequenza assoluta) se le modalità hanno ampiezza diversa tra loro (ai) perché ovviamente più è ampia la
classe più unità statistiche contiene e questo può distorcere l’analisi del grafico.
DISTRIBUZIONE PER CLASSI
n= totale delle unità statistiche
n1→ frequenza assoluta (numero di unità statistiche appartenenti alla prima classe)
𝑛
f1= 𝑛1 → frequenza relativa → spesso espressa in termini percentuali ( 𝑓1 βˆ™ 100)→ numero di unità
statistiche appartenenti alla prima classe diviso totale unità analizzate.
π‘š
∑ π‘“π‘š = 1
𝑖=1
frequenza relativa= frazione di unità statistiche che presentano la i-esima modalità (caratteristiche della
classe) della variabile x. A differenza della frequenza assoluta, il suo valore non dipende dalla numerosità
del campione o della grandezza della classe.
Frequenze cumulate relative= F1= f1 (la prima frequenza cumulata è uguale alla prima frequenza relativa)
MA F2= f1 + f2 e così via→ Fi= f1 + f2 + … + fi
πΉπ‘˜ = ∑π‘˜π‘–=1 𝑓𝑖 → Quindi Fm= f1 + f2 + … + fm = 1
Fi= frazione di unità statistiche che presentano la i-esima modalità della variabile x o i valori più bassi
(comprende anche le modalità/classi precedenti). È un valore che permette di determinare la percentuale
di unità statistiche minore o uguale di xi
Ex. sapendo che f3= 0,2 completare la tabella
xi
0
1
2
3
ni
2
1
2
?
𝑓3 =
𝑛3
𝑛
=
2
𝑛
= 0,2 → n= 10→ n4= 10-(2+1+2) = 5
Qual è la percentuale di casi con valori < 2? Utilizzo la frequenza cumulata relativa
f1=
𝑛1
=
𝑛
2/10= 0,2
f2=
𝑛2
=
𝑛
1/10= 0,1
F2= f1+f2= 0,3 → 30%
INTERVALLI
•
•
•
chiuso (compresi gli estremi)→
compreso l’estremo inferiore ma non quello superiore→
compreso l’estremo superiore ma non quello inferiore→
PARADOSSO DI SIMPSON
In statistica, il paradosso di Simpson indica una situazione in cui una relazione tra due fenomeni appare
modificata, o perfino invertita, dai dati in possesso a causa di altri fenomeni non presi in considerazione
nell'analisi (variabili nascoste). È alla base di frequenti errori nelle analisi statistiche
Abbiamo un campione di laureati (L) e di NON laureati (NL)
L
Reddito
inferiore a
30000
Reddito
superiore a
30000
<30 000
>30 000
NL
uomini
L
26
NL
63
donne
L
145
NL
40
171
103
Totale > 30
0000= 274
129
147
Totale < 30
0000= 276
74
137
55
10
L= 300
NL=250
Campioni tot.
=550
Tot. L
uomini=
100
Tot. NL
uomini=
200
Tot. L
donne=
200
Tot. NL
donne=
50
L
57%
43%
NL
41%
59%
uomini
L
26%
74%
NL
32%
68%
donne
L
72,5%
27,5%
NL
80%
20%
In questo esempio vediamo che il 43% dei laureati ha un reddito superiore a 30000 euro contro il 59% dei
non laureati e questo lascia pensare che sia meglio non essere laureato.
Se si osservano i dati divisi in base al genere però vediamo che il 74% degli uomini laureati prende più di
30000 euro contro il 68% degli uomini non laureati e questo ci lascia pensare sia meglio laurearsi. Stesso
ragionamento vale per il genere femminile. Questo può creare distorsioni nelle analisi statistiche.
RICAPITOLANDO…
Si parte dal protocollo elementare→ si fa la distribuzione in classi→ si effettua la SINTESI ESTREMA il cui
obiettivo è riassumere in un unico argomento i valori analizzati. In sostanza quando vuoi riassumere
un’intera distribuzione di valori ti affidi solitamente a un unico numero, che ti possa rappresentare bene i
dati. Quell'unico numero sintetizza appunto la totalità dei valori e molto spesso è la media.
Per fare ciò spesso si usa la MEDIA ARITMETICA→ indicata con: π‘₯Μ…
La media aritmetica è un indicatore di sintesi che misura la tendenza centrale all'interno di un contesto di
equidistribuzione: è la somma dei valori osservati divisa per il loro numero.
1
π‘₯Μ… = ⋅ ∑𝑛𝑖=1 π‘₯𝑖 → media aritmetica del protocollo elementare (n= numero di casi osservati)→
𝑛
n=numero di osservazioni
π‘š
1
π‘₯Μ… = ⋅ ∑𝑖=1(π‘₯𝑖 βˆ™ 𝑛𝑖 )→ media aritmetica della divisione per classi data la frequenza assoluta (m=
𝑛
numero di classi)→ ni= numero di osservazioni appartenenti a ognuno degli m gruppi
π‘š
π‘₯Μ… = ∑𝑖=1(π‘₯𝑖 βˆ™ 𝑓𝑖 )→ media aritmetica della divisione per classi data la frequenza relativa
Come xi utilizzo il ci ovvero il valore centrale di ogni classe (ex. se la classe va da 5 a 10→ ci= (5+10)/2 =7,5.
Così facendo però si ottiene solo un’approssimazione della media aritmetica poiché non conosciamo con
esattezza i valori ma solo la loro classe di appartenenza. La media è esatta solo se ci rappresenta anche la
media aritmetica di ciascuna classe (ex. il carattere è equidistribuito tra le classi). Se per esempio in ogni
classe la media è vicina all’estremo inferiore, allora la media approssimativa calcolata con il valore centrale
sarà parecchio più alta di quella effettiva.
ci= valore centrale→ Il valore centrale si ottiene sommando il limite inferiore e quello superiore di ogni
singola classe e dividendo per due.
π‘š
1
π‘₯Μ… ≈ ⋅ ∑(𝑐𝑖 βˆ™ 𝑛𝑖 )
𝑛
𝑖=1
𝑛
• Una delle proprietà della media aritmetica è l’identità di somma ovvero: ∑𝑖=1 π‘₯𝑖
l’ammontare complessivo del carattere è uguale a n volte la media aritmetica.
• Un’altra proprietà è la nullità degli scarti ovvero ∑
𝑛
𝑛
𝑛
𝑛
(π‘₯
𝑖=1 𝑖
= 𝑛 ⋅ π‘₯Μ… e quindi
− π‘₯Μ… ) = 0 poiché:
𝑛
∑(π‘₯𝑖 − π‘₯Μ… ) = ∑ π‘₯𝑖 − ∑ π‘₯Μ… = ∑ π‘₯𝑖 − 𝑛 ⋅ π‘₯Μ… = 𝑛 ⋅ π‘₯Μ… − 𝑛 ⋅ π‘₯Μ… (π‘ π‘“π‘Ÿπ‘’π‘‘π‘‘π‘œ 𝑙′𝑖𝑑𝑒𝑛𝑑𝑖𝑑à 𝑑𝑖 π‘ π‘œπ‘šπ‘šπ‘Ž) = 0
𝑖=1
𝑖=1
𝑖=1
𝑖=1
La somma degli scarti è quindi pari a zero e la media aritmetica rappresenta il baricentro della distribuzione.
Questo significa che sommando le differenze tra ogni valore e la media, ottengo 0.
• Altra proprietà è il minimo dei quadrati degli scarti ovvero
𝑛
∑𝑖=1(π‘₯𝑖 − π‘₯Μ… )2 = a un minimo, ovvero la
somma del quadrato degli scarti (xi – c) è minima quando il valore c è uguale alla media (c=π‘₯Μ… ); con c=
𝑛
qualsiasi altro numero, il quadrato di (xi – c) assumerà valori maggiori di ∑𝑖=1(π‘₯𝑖 − π‘₯Μ… )2
𝑛
𝑛
𝑛
∑𝑖=1(π‘₯𝑖 − 𝑐)2 = ∑𝑖=1(π‘₯𝑖 − 𝑐 − π‘₯Μ… + π‘₯Μ… )2 = ∑𝑖=1[(π‘₯𝑖 − π‘₯Μ… ) + (π‘₯Μ… − 𝑐)]2 =
𝑛
𝑛
∑𝑖=1[(π‘₯𝑖 − π‘₯Μ… )2 + (π‘₯Μ… − 𝑐)2 + 2(π‘₯𝑖 − π‘₯Μ… )(π‘₯Μ… − 𝑐)] = ∑𝑖=1[(π‘₯𝑖 − π‘₯Μ… )2 ] +
𝑛
𝑛
𝑛
∑𝑖=1(π‘₯Μ… − 𝑐)2 + 2(π‘₯Μ… − 𝑐) ∑𝑖=1(π‘₯𝑖 − π‘₯Μ… ) = ∑𝑖=1[(π‘₯𝑖 − π‘₯Μ… )2 ] + 𝑛( π‘₯Μ… − 𝑐)2
𝑛
Da questo si evince che il valore minimo di ∑𝑖=1(π‘₯𝑖 − 𝑐)2 si ottiene quando (π‘₯Μ… − 𝑐)= 0 ovvero π‘₯Μ… = 𝑐
•
•
•
Vi è poi la linearità ovvero data una variabile x e una sua trasformazione lineare, si dice che la media è un
operatore lineare poiché data y = a + bx, allora 𝑦̅ = π‘Ž + 𝑏π‘₯Μ… per esempio se ho π‘₯Μ… = reddito medio in euro e
lo moltiplico per il tasso di cambio, ottengo il reddito medio in valuta estera.
Associatività: la media generale è uguale alla media delle medie parziali
Omogeneità: Moltiplicando con una costante "b" i termini di una serie di valori, anche la media risulta
moltiplicata per la costante "b".
MEDIA PONDERARA→ alcune volte si vuole dare diversa importanza alle diverse osservazioni del carattere
nella valutazione; devo tener conto della loro importanza nel conteggio della media→ è presente una
struttura di ponderazione (di pesi) che possono essere indicati in vario modo (ex. w).
Ex. media dei voti universitari o calcolo IPC (inflazione)
π‘₯Μ… =
1
𝑛⋅∑𝑛
𝑖=1 𝑀𝑖
⋅ ∑𝑛𝑖=1 π‘₯𝑖 βˆ™ 𝑀𝑖 → media con protocollo elementare
A seconda della struttura di ponderazione, di come sono articolati i pesi, “n” al denominatore può essere
omessa in molti casi (solo in alcuni casi va messa).
π‘₯Μ… =
1
π‘š
∑𝑖=1(𝑛𝑖 βˆ™π‘€π‘– )
π‘š
⋅ ∑𝑖=1(π‘₯𝑖 βˆ™ 𝑛𝑖 βˆ™ 𝑀𝑖 ) → media con distribuzione per classi
MEDIA TRIMMED (troncata)→ la media è un valore estremamente sensibile ai valori estremi che possono
falsare la sintesi e rappresentazione dei valori; in questo caso vengono eliminate ne calcolo della media i
valori più alti e più bassi→ elimina l’effetto dei valori estremi.
Ex. media trimmed all’80%--> si calcola togliendo il 10% più basso e il 10% più alto dei valori.
Ex. media trimmed al 50%--> si calcola togliendo il 25% più basso e il 25% più alto dei valori.
1
2
3
4
Media= 15/3= 3
5
1
2
3
4
500
Media= 510/3= 102 → il valore estremo rende la sintesi NON affidabile→ meglio usare la media trimmed
anche se così facendo talvolta si escludono anche valori “non estremi” nella distribuzione come l’1 in
questo caso
Così facendo si perdono dei valori→ per evitare questo si usa la MEDIANA= valore centrale nella serie
ORDINATA di unità statistiche. Insensibile rispetto alla presenza di valori estremi→ può essere inoltre
calcolata anche sui caratteri qualitativi e non solo quantitativi a patto che siano ORDINABILI.
1
2
3
4
5
Serie già ordinata→ Mediana= 3
1
2
3
4
Mediana= 3
500
MEDIANA (xme)→ valore centrale nella successione ordinata che divide in 2 parti uguali l’insieme delle unità
statistiche: 50% più piccolo e 50% più grande della mediana→ devo ordinare le n osservazioni dalla min alla
max
• Se n è dispari ho un unico valore centrale→ in questo caso la mediana corrisponde all’elemento: π‘₯𝑛+1
• Se n è pari ho due valori centrali→ in questo caso la mediana corrisponde agli elementi: π‘₯𝑛 e π‘₯𝑛+1
2
2
2
Ex. n=21 (dispari)→ (21+1)/2= 11→ la mediana sarà l’undicesimo numero della serie ordinata
Ex. n=30 (pari)→ 30/2=15 e (30/2)+1=16→ la mediana sarà il quindicesimo e sedicesimo numero della
serie→ se i due valori sono diversi basta fare la semisomma dei due (la media→ (π‘₯𝑛 + π‘₯𝑛+1 )/2
2
2
MEDIANA PER CLASSI (data la classificazione senza il protocollo elementare)
Quando i dati vengono presentati mediante una distribuzione di frequenza di un carattere quantitativo
suddiviso in classi (NO protocollo elementare), non è possibile individuare esattamente la mediana;
tuttavia, si può ottenere una sua approssimazione
Essendo il valore centrale, questa divide la distribuzione in due parti uguali tra loro e quindi divide a metà le
variabili; nel punto mediano avrò F= 50% (frequenza cumulata). Dalla frequenza cumulata posso quindi
individuare la classe mediana (modalità dove sarà contenuta la mediana).
Mediana per classi → π‘₯π‘šπ‘’
≈ πΌπ‘šπ‘’ +
0,5 − πΉπ‘šπ‘’−1
πΉπ‘šπ‘’ −πΉπ‘šπ‘’−1
βˆ™ π΄π‘šπ‘’
Ime = estremo inferiore della classe mediana (la classe che contiene l’unità centrale)
πΉπ‘šπ‘’−1 = frequenza relativa cumulata fino alla classe precedente alla classe mediana
πΉπ‘šπ‘’ = frequenza relativa cumulata fino alla classe mediana
Ame = ampiezza della classe mediana
Proprietà della mediana:
Proprietà del minimo→ per un carattere quantitativo x, la somma degli scarti in valore assoluto dei valori xi
da una costante “c” è minima quando c= xme
∑𝑛𝑖=1|π‘₯𝑖 − 𝑐| è min quando c= xme
QUARTILI→ divide in 4 parti uguali la distribuzione delle unità statistiche
1 quartile→ corrisponde al valore per cui il 25% degli altri valori ha intensità minore (più piccoli)
2 quartile→ corrisponde al valore per cui il 50% degli altri valori ha intensità minore= MEDIANA
3 quartile→ corrisponde al valore per cui il 75% degli altri valori ha intensità minore
4 quartile→ valore più alto registrato
Il primo e terzo quartile vengono molto usati perché individuano un intervallo centrale che contiene circa il
50% delle unità statistiche centrali.
DECILI→ dividono il 10 parti la distribuzione
PERCENTILI→ dividono il 100 parti di uguale numerosità di unità la distribuzione
50o percentile = 5o decile = 2o quartile = mediana
Quartili, decili e percentili sono esempi di statistica NON parametrica→ può essere calcolato sempre a
condizione che la variabile sia una variabile ordinabile (possono essere calcolati anche con le variabili
qualitative).
QUARTILI (decili, percentili…) DISTRIBUITI PER CLASSI→ se la distribuzione è suddivisa in classi non si puàò
trovare esattamente il valore del quartile ma solo una sua approssimazione→ metodo uguale a quello della
mediana. Supponiamo di dover trovare il valore a sinistra del quale cade il 25% delle unità, ovvero il primo
quartile:
π‘₯µ=0,25 = 𝐼0,25 +
0,25 − 𝐹0,25(−1)
βˆ™ 𝐴0,25
𝐹0,25 − 𝐹0,25(−1)
𝐼0,25 = estremo inferiore della classe che contiene il 1o quartile
𝐹0,25(−1) = frequenza relativa cumulata fino alla classe precedente a quella che contiene l primo quartile
𝐹0,25= frequenza relativa cumulata fino alla classe che contiene il primo quartile (individuo la classe con
F=25%)
𝐴0,25 = ampiezza della classe dove c’è il primo quartile (ampiezza classe con F=25%)
Calcolo della mediana
xi
0
1
2
3
4
ni
1
2
3
1
3
ntot= 10 (pari)
fi
0,1
0,2
0,3
0,1
0,3
Fi
0,1
0,3
0,6
0,7
1
Per calcolare la mediana di una serie di valori pari devo prendere la n/2 unità statistica e la (n/2)+1 unità
statistica ovvero: n10/2=n5 e n(10/2)+1=n6
In questo caso se la variabile è discreta, posso ricavare il protocollo elementare:
0 1 1 2 2 2 3 4 4 4 → n5= 2 e n6= 2 → la mediana sarà: xme= (n5+n6)/2= 2
Se invece la variabile è continua devo utilizzare la formula della mediana per classi:
la terza classe contiene la mediana perché contiene F=0,5→ applico la formula
xme= 1+[(0,5-0,3)/(0,6-0,3)]*1 = 1,67
MEDIA GEOMETRICA
Media analitica usata soprattutto nel caso in cui l’insieme di dati è costituito da valori positivi generati da
rapporti→ la media geometrica si un insieme di “n” valori positivi x1,x2…xn di un carattere quantitativo è
pari alla radice n-esima del prodotto dei singoli valori:
π‘₯Μ… g= √π‘₯1 βˆ™ π‘₯2 → media geometrica con 2 unità statistiche
π‘₯Μ… g= 𝑛√π‘₯1 βˆ™ π‘₯2 βˆ™. . . π‘₯𝑛 = 𝑛√∏𝑛𝑖=1 π‘₯𝑖 → formula generale media geometrica con protocollo elementare
π‘₯Μ… g= 𝑛√π‘₯1 𝑛1 βˆ™ π‘₯2 𝑛2 βˆ™. . . π‘₯π‘š π‘›π‘š → media geometrica per classi
Oppure posso calcolarla con le frequenze relative: π‘₯Μ… g= π‘₯1 𝑓1 βˆ™ π‘₯2 𝑓 βˆ™. . . π‘₯π‘š π‘“π‘š dove “m” è il numero di modalità
Proprietà: Il logaritmo della media geometrica è uguale alla media aritmetica dei logaritmi:
1
π‘™π‘œπ‘” π‘₯Μ… g = 𝑛 βˆ™ ∑𝑛𝑖=1 π‘™π‘œπ‘” π‘₯𝑖
N.B. Se è presente un valore xi= 0→ la media geometrica sarà π‘₯Μ… g= 0
VARIABILITA’→ Un unico valore sintetico come la media, da informazioni insufficienti per riassumere delle
rilevazioni statistiche se le unità statistiche presentano una modalità molto distante dalla media→ Più è
alta la variabilità meno è attendibile la media come valore di sintesi.
Una volta accertato che la media è attendibile (è simile alla mediana e quindi non risente molto dei valori
estremi) posso calcolare la variabilità di una variabile QUANTITATIVA.
La VARIABILITA’ di una distribuzione esprime la tendenza delle unità di un collettivo ad assumere diverse
modalità di carattere. Per misurare la variabilità di una distribuzione, è possibile usare degli indici detti
INDICI DI VARIABILITA’→ un indice di variabilità assume il suo valore minimo (0) se e solo se tutte le unità
presentano la stessa modalità del carattere; al contrario aumenta all’aumentare della diversità tra le
modalità assunte dalle varie unità statistiche.
•
•
Le medie sono misure assolute→ forniscono subito informazioni sui dati
VARIABILITA’→ le misure di variabilità sono misure relative→ se una varianza è per esempio pari a 0,3
non posso stabilire se questo valore sia alto o basso MA va paragonato alla varianza di un altro campione
statistico per trarre conclusioni.
Varianza→ la varianza di un insieme di “n” valori x1,x2…xn di una variabile “x” con media aritmetica π‘₯Μ… è
data da:
varianza= σ2 =
σ2 =
1
𝑛
π‘š
βˆ™∑
1
𝑛
𝑛
βˆ™∑
2
Μ…) → varianza con protocollo elementare (funzione Excel: "var.pop.")
(π‘₯𝑖 − π‘₯
𝑖=1
2
Μ…) βˆ™ 𝑛𝑖 ] → varianza con distribuzione per classi
[(π‘₯𝑖 − π‘₯
𝑖=1
NB: se nel calcolo della media con la distribuzione per classi ho utilizzato ci al posto di xi, allora anche nel calcolo della ARIANZA E
DEVIANZA devo utilizzare il valore centrale delle classi nel calcolo.
La varianza assume valore 0 quando tutte le modalità sono uguali al valore medio e quindi sono uguali tra
loro, mentre aumenta all’aumentare della differenza tra i valori osservati.
La varianza rappresenta la media dei quadrati degli scarti della media aritmetica. Il problema della varianza
è che non è nell’unità di misura della “x” bensì diviene elevato al quadrato per questo motivo si fa la radice
quadrata:
σ=√
1
𝑛
βˆ™
𝑛
∑𝑖=1(π‘₯𝑖 − π‘₯Μ… )2 → scarto quadratico medio con protocollo elementare si elimina l’effetto
dell’ordine di grandezza diverso
σ=√
1
𝑛
βˆ™
m
∑𝑖=1[(π‘₯𝑖 − π‘₯Μ… )2 βˆ™ 𝑛𝑖 ] → scarto quadratico medio per classi
σ (sigma) è detto scarto quadratico medio o DEVIAZIONE STANDARD→ istruzione Excel: “dev. St. Pop.”
Lo scarto quadratico medio tiene conto del numero di osservazioni e NON è influenzata dall’unità di misura.
Se voglio rappresentare sull’istogramma lo scarto quadratico medio, dovrò rappresentarlo sull’asse delle x
sia a destra che a sinistra della media in (π‘₯Μ… – σ) e (π‘₯Μ… + σ).
Devianza (numeratore della varianza)→ Calcolo la differenza quadratica di ogni unità dalla media (calcolo
lo scarto) e le sommo;
𝑛
∑𝑖=1(π‘₯𝑖 − π‘₯Μ… )2 → formula definitoria della devianza con protocollo elementare
𝑛
[∑𝑖=1 π‘₯𝑖 2 ] − 𝑛π‘₯Μ… 2 → formula calcolatoria (da usare per fare i calcoli) della devianza con protocollo
elementare
π‘š
∑𝑖=1(π‘₯𝑖 − π‘₯Μ… )2 βˆ™ 𝑛𝑖 → formula definitoria della devianza con distribuzione per classi
π‘š
[∑𝑖=1 π‘₯𝑖 2 βˆ™ 𝑛𝑖 ] − 𝑛π‘₯Μ… 2 → formula calcolatoria
della devianza con distribuzione per classi
Calcolo devianza→ Protocollo elementare: 1 2 3 4 5
π‘₯Μ… = 3→ devianza = 12+22+32+42+52 – 5(32) = 1,22
Le misure di variabilità hanno tutte un minimo che è pari a 0→ valore che si ottiene in assenza di
variabilità→ tutti i valori sono uguali tra loro (e quindi anche alla media aritmetica).
x1= x2= …= xn= π‘₯Μ… → variabilità nulla = 0
VARIANZA DI UNA TRASFORMAZIONE LINEARE→ Data una trasformazione lineare di y= a+bx, la varianza
del carattere y è pari a: V(y) = V(a+by) = b2βˆ™V(x)
•
•
con la media → M(y) = M(a+by) = a+bβˆ™M(x)→ ex. per passare dalla media in chilometri alla media in
metri basta moltiplicare per b= 1000
con la varianza il risultato è diverso → V(y) = V(a+by) = b2βˆ™V(x)
Oltre a devianza, varianza e scarto quadratico medio, ci sono altre misure di variabilità:
σ
Coefficiente di variabilità→ cv = βˆ™ 100 → rapporto tra scarto quadratico medio e media aritmetica
π‘₯Μ…
Il coefficiente di variazione permette di valutare la dispersione dei valori attorno alla media
indipendentemente dall'unità di misura. Ad esempio, la deviazione standard di un campione di redditi
espressi in lire è completamente diversa della deviazione standard degli stessi redditi espressi in euro,
mentre il coefficiente di variazione è lo stesso in entrambi i casi.
N.B. Se la media è però molto bassa, è consigliabile non usare questo coefficiente perché tenderà ad
assumere valori molto elevati.
Campo di variazione→ max - min→ differenza tra il valore più alto e quello più basso del campione
statistico→ il minimo del campo di variazione è 0: quando tutte le unità statistiche hanno stesso valore
Differenza interquartile→ valore 3° quartile - valore 1o quartile→ trasformazione del campo di variazione:
fa riferimento solo al 50% del campione statistico (non il 100% come nel campo di variazione) e quindi a
differenza del campo di variazione, possiamo escludere le unità estreme che spesso risultano essere
anomale e poco indicative.
STANDARDIZZAZIONE→ è una trasformazione lineare applicata ai dati originali, che riconduce qualsiasi
variabile ad avere un valore medio nullo e varianza unitaria. Standardizzando possiamo fare confronti.
I valori standardizzati z1, z2, …, zn corrispondenti a un insieme di “n” osservazioni x1, x2,…, xn sono definiti
come: zi =
xi - π‘₯Μ…
σ
con i= 1, …, n→ la nuova varabile “z” avrà media pari a 0 [M(z)=0] e varianza pari a 1 (σ= 0)
CONCENTRAZIONE→ si può parlare di concentrazione SOLO per le variabili che sono QUANTITATIVE e
TRASFERIBILI e il carattere deve essere ORDINATO.
Una variabile si dice TRASFERIBILE quando la sua intensità può essere spostata da un’unità statistica
all’altra (può essere trasferita)→ un’unità statistica può trasferire tutto o parte del suo carattere a un’altra.
Il peso è quantitativo ma NON è trasferibile→ non posso spostare il peso di un soggetto statistico a un altro
Il reddito è una variabile quantitativa trasferibile; il numero di ragazzi è trasferibile; il fatturato di aziende
il voto è una variabile quantitativa NON trasferibile→ non posso trasferire il voto di un soggetto a un altro
In generale di solito le variabili finanziarie ed economiche sono quantitative e trasferibili.
La concentrazione serve se si vuole sapere come l’ammontare dell’unità statistica è ripartito tra le diverse
unità statistiche del collettivo.
Ex. se sconosco l’ammontare di reddito di un gruppo di persone posso voler sapere come questo è
distribuito tra le persone per vedere se esso è CONCENTRATO o EQUIDISTRIBUITO.
Nella situazione di EQUIDISTRIBUIZIONE tutte le unità statistiche hanno tutte la stessa intensità del
carattere→ tutte le unità statistiche sono uguali tra loro e sono uguali alla media→ ognuna delle “n” unità
possiede 1/n dell’ammontare complessivo del carattere.
Se un carattere NON è equidistribuito, allora sussiste un certo grado di concentrazione del carattere→ più
una variabile trasferibile è concentrata, tanto più è elevata la variabilità del carattere; se la variabilità è
nulla invece, anche la concentrazione sarà nulla (equidistribuzione).
Nella situazione di MASSIMA CONCENTRAZIONE una sola unità detiene l’ammontare complessivo del
carattere mentre tutte le altre unità hanno valore pari a 0 del carattere.
Μ…
Ammontare complessivo del carattere= 𝒏 βˆ™ 𝒙
equidistribuzione
Max concentrazione
La concentrazione si misura con diversi indicatori; il più diffuso è l’INDICE DI GINI
Indice di Gini con protocollo elementare ordinato→ si costruisce facendo riferimento a due frequenze
cumulate: Fi (cumulata delle osservazioni) e Q i (frequenza cumulata del carattere)
Se ho “n” osservazioni e le ordino dalla più piccola alla più grande, ogni osservazione avrà frequenza
relativa pari a 1/n (la modalità ha una sola unità statistica) mentre Qi rappresenta la frazione
dell’ammontare complessivo detenuta dalle prime i-esime unità statistiche:
Q i=
x1 +x2 +...+ xi
∑n
i=1 xi
Ex. se Fi= 0,90 e Qi= 0,75→ significa che il 90% della popolazione statistica detiene il 75% del reddito
complessivo e quindi, il 10% della popolazione detiene il restante 15% del reddito complessivo.
L’indice di Gini assume:
•
•
•
R= 0 quando Qi = Fi → equidistribuzione
R= 1 quando cui Qi= 0 per i= 1,…(n-1) perché x1= x2= …xn-1→ max concentrazione
Valori compresi tra 0 e 1 in ogni altro caso di distribuzione differente
Posso rappresentare la relazione tra Fi e Qi su un diagramma cartesiano:
Nel punto rosa→ il 10% della popolazione detiene il 10% del
reddito
Nel punto blu→ il 10% della popolazione ha lo 0% del
reddito (non detiene nulla)
N:B: il 10% della popolazione più povera può detenere al max
il 10% della ricchezza, altrimenti NON sarebbero i più
poveri→ la BISETTRICE rappresenta la relazione tra Qi e Fi con
Qi sempre minore al massimo ugaule a Fi. nel caso in cui
fossero uguali, allora avrei una euidistribuzione dell’intero
ammontare→ La retta bisettrice rappresenta la retta di
equidistribuzione (Qi = Fi)
In generale Fi ≥ Qi fino al caso limite di massima
concentrazione in cui Qi= 0 per i= 1,…(n-1) perché x1= x2=
…xn-1 mentre Qn= 1 e xn= n βˆ™ xΜ… (ammontare complessivo del
carattere).
Download