Uploaded by Niccolo Bianchi

Lezione 5

advertisement
Sintesi della distribuzione
di una variabile
Facciamo il punto
Abbiamo visto
• cosa sono i dati
I matrice dei dati
I elenco delle osservazioni: y1 , . . . , yn
• cosa sono le distribuzioni di frequenza
I elenco modalità e frequenze
I elenco classi di modalità e loro frequenze
• come le si rappresenta
30
15
25
20
10
15
10
5
5
0
0
Ma a cosa servono distribuzioni e rappresentazioni?
Riassumere i dati
10
15
Rappresentazione
5
Distribuzione per
classi
ni
yi
[60;70] 15
(70;80] 35
(80;90] 22
(90;100] 8
0
Elenco
75 81 77 88 72 78 71 66 82
74 72 80 72 79 84 73 100 77
60 74 87 88 64 82 83 85 96
86 77 84 93 75 85 90 74 77
81 75 78 80 75 61 98 66 82
68 60 85 80 76 63 80 68 72
70 93 87 90 76 79 70 92 77
70 89 81 71 83 78 80 75 95
68 64 70 83 77 77 94 72
60
70
80
Lo scopo è
• riassumere i dati
• mettendo in evidenza alcuni aspetti
• ovvio che il processo di sintesi comporta un “prezzo da
pagare” (perdita di informazioni)
90
100
Il processo di sintesi non si limita alle sole distribuzioni, ma si
può arrivare a sintetizzare con un unico valore una particolare
caratteristica della popolazione
Il processo di sintesi non si limita alle sole distribuzioni, ma si
può arrivare a sintetizzare con un unico valore una particolare
caratteristica della popolazione
⇓
INDICI SINTETICI
Indici sintetici
Possono essere impiegati per:
• Confrontare tra di loro situazioni diverse
- stesso fenomeno rilevato su collettivi diversi;
- stesso fenomeno in tempi e/o luoghi diversi;
- fenomeni diversi tra di loro.
• Valutare il dato ottenuto confrontandolo con un valore
standard noto
Indici sintetici
Quali indici calcolare?
⇒La scelta dipende dalle caratteristiche che descrivono
sinteticamente la popolazione di studio
Indici sintetici
Quali indici calcolare?
⇒La scelta dipende dalle caratteristiche che descrivono
sinteticamente la popolazione di studio
Tra le possibili caratteristiche, quelle sulle quali ci
concentriamo sono:
• centralità
• variabilità
Le misure di
centralità
Misure di Centralità
Esprimono il centro ideale della distribuzione → il valore
intorno al quale “gravitano” i dati.
Misure di Centralità
Esprimono il centro ideale della distribuzione → il valore
intorno al quale “gravitano” i dati.
Quali misure di centralità?
Bisogna tener conto di 2 fattori:
• tipologia del carattere in esame
• motivazioni che inducono a “sintetizzare” la distribuzione
con un unico valore
Misure di Centralità
In generale, distinguiamo 2 grandi categorie
• Medie di Posizione
si identificano in un valore “più
frequente” oppure che occupa una
“determinata posizione”
• Medie Analitiche
calcolate mediante operazioni
algebriche su tutte le modalità del
carattere
Misure di Centralità
In generale, distinguiamo 2 grandi categorie
• Medie di Posizione
si identificano in un valore “più
frequente” oppure che occupa una
“determinata posizione”
% caratteri quantitativi
& caratteri qualitativi
(a volte solo ordinali)
• Medie Analitiche
calcolate mediante operazioni
algebriche su tutte le modalità del
carattere
→ caratteri quantitativi
Indice
Medie di posizione
Moda
Esempio: Difficoltà dell’esame di statistica.
Freq
2
2
1
3
17
4
58
3
5
4
4
5
Difficoltà dell'esame
Come descrivereste questa distribuzione? In particolare,
intorno a quale valore possiamo dire che è posizionata la
distribuzione? In altre parole, dove è il centro della
distribuzione?
Indice
Medie di posizione
Moda
“Posizione” della distribuzione
La domanda precedente ci chiede di sintetizzare la
distribuzione in un unico numero che, in qualche modo, indichi
dove la distribuzione stessa è “posizionata”.
Si potrebbe dire che la distribuzione è posizionata sul valore
che compare più frequentemente.
2
3
4
Difficoltà dell'esame
Questo valore è chiamato moda della distribuzione.
5
Misure di posizione: la moda
La moda di una distribuzione è la modalità cui è associata la
massima frequenza (assoluta, relativa, percentuale)
I La moda esprime la modalità più comune.
I È definita sia per variabili qualitative che quantitative.
Moda per distribuzioni in classi
Si definisce classe modale la classe alla quale corrisponde la
massima frequenza (assoluta, relativa, percentuale)
Se all’interno della classe si vuole individuare un unico valore
si può scegliere quello centrale
Moda per distribuzioni in classi
Si definisce classe modale la classe alla quale corrisponde la
massima frequenza (assoluta, relativa, percentuale)
Se all’interno della classe si vuole individuare un unico valore
si può scegliere quello centrale
Attenzione!
Se le classi hanno ampiezza diversa per individuare la classe modale è necessario fare riferimento alle
densità di frequenza (non alle frequenze assoluto o relative!)
Moda come sintesi.
Esempio 1: Difficoltà dell’esame di statistica
Freq
2
2
1
3
17
4
58
3
5
4
4
5
Difficoltà dell'esame
La moda sintetizza abbastanza bene la distribuzione della
difficoltà.
Moda come sintesi.
Esempio 2: Ore di sonno
Freq
5
1
6
10
7
31
8
32
9
6
Moda come sintesi.
Esempio 2: Ore di sonno
Freq
5
6
5
1
6
10
7
31
7
8
32
9
6
8
9
Ore di sonno per notte
Per le ore di sonno per notte funzionerebbe meno bene.
Moda come sintesi.
Esempio 3: Voto di maturità
ni
60
2
61
1
63
1
64
2
66
2
68
3
70
4
71
2
72
5
73
1
74
3
75
5
76
2
77
7
78
3
79
2
80
5
ni
81
3
82
3
83
3
84
2
85
3
86
1
87
2
88
2
89
1
90
2
92
1
93
2
94
1
95
1
96
1
98
1
100
1
Moda come sintesi.
Esempio 3: Voto di maturità
ni
60
2
61
1
63
1
64
2
66
2
68
3
70
4
71
2
72
5
73
1
74
3
75
5
76
2
77
7
78
3
79
2
80
5
ni
81
3
82
3
83
3
84
2
85
3
86
1
87
2
88
2
89
1
90
2
92
1
93
2
94
1
95
1
96
1
98
1
100
1
60
65
70
75
80
Voto di matura
Per il voto di maturità neanche.
85
90
95
100
Moda - Osservazioni
1. Se tutte le modalità del carattere presentano all’incirca le
stesse frequenze, allora non ha senso determinare la
moda;
2. può ritenersi un buon criterio di sintesi quando si presenta
con una frequenza “nettamente maggiore” di tutte le altre
modalità (almeno il 50% delle osservazioni) ⇒ è
ragionevole assumerla come quel valore più idoneo a
rappresentare sinteticamente la distribuzione;
3. potrebbe non essere unica ⇒ distribuzioni plurimodali.
Download