Sintesi della distribuzione di una variabile Facciamo il punto Abbiamo visto • cosa sono i dati I matrice dei dati I elenco delle osservazioni: y1 , . . . , yn • cosa sono le distribuzioni di frequenza I elenco modalità e frequenze I elenco classi di modalità e loro frequenze • come le si rappresenta 30 15 25 20 10 15 10 5 5 0 0 Ma a cosa servono distribuzioni e rappresentazioni? Riassumere i dati 10 15 Rappresentazione 5 Distribuzione per classi ni yi [60;70] 15 (70;80] 35 (80;90] 22 (90;100] 8 0 Elenco 75 81 77 88 72 78 71 66 82 74 72 80 72 79 84 73 100 77 60 74 87 88 64 82 83 85 96 86 77 84 93 75 85 90 74 77 81 75 78 80 75 61 98 66 82 68 60 85 80 76 63 80 68 72 70 93 87 90 76 79 70 92 77 70 89 81 71 83 78 80 75 95 68 64 70 83 77 77 94 72 60 70 80 Lo scopo è • riassumere i dati • mettendo in evidenza alcuni aspetti • ovvio che il processo di sintesi comporta un “prezzo da pagare” (perdita di informazioni) 90 100 Il processo di sintesi non si limita alle sole distribuzioni, ma si può arrivare a sintetizzare con un unico valore una particolare caratteristica della popolazione Il processo di sintesi non si limita alle sole distribuzioni, ma si può arrivare a sintetizzare con un unico valore una particolare caratteristica della popolazione ⇓ INDICI SINTETICI Indici sintetici Possono essere impiegati per: • Confrontare tra di loro situazioni diverse - stesso fenomeno rilevato su collettivi diversi; - stesso fenomeno in tempi e/o luoghi diversi; - fenomeni diversi tra di loro. • Valutare il dato ottenuto confrontandolo con un valore standard noto Indici sintetici Quali indici calcolare? ⇒La scelta dipende dalle caratteristiche che descrivono sinteticamente la popolazione di studio Indici sintetici Quali indici calcolare? ⇒La scelta dipende dalle caratteristiche che descrivono sinteticamente la popolazione di studio Tra le possibili caratteristiche, quelle sulle quali ci concentriamo sono: • centralità • variabilità Le misure di centralità Misure di Centralità Esprimono il centro ideale della distribuzione → il valore intorno al quale “gravitano” i dati. Misure di Centralità Esprimono il centro ideale della distribuzione → il valore intorno al quale “gravitano” i dati. Quali misure di centralità? Bisogna tener conto di 2 fattori: • tipologia del carattere in esame • motivazioni che inducono a “sintetizzare” la distribuzione con un unico valore Misure di Centralità In generale, distinguiamo 2 grandi categorie • Medie di Posizione si identificano in un valore “più frequente” oppure che occupa una “determinata posizione” • Medie Analitiche calcolate mediante operazioni algebriche su tutte le modalità del carattere Misure di Centralità In generale, distinguiamo 2 grandi categorie • Medie di Posizione si identificano in un valore “più frequente” oppure che occupa una “determinata posizione” % caratteri quantitativi & caratteri qualitativi (a volte solo ordinali) • Medie Analitiche calcolate mediante operazioni algebriche su tutte le modalità del carattere → caratteri quantitativi Indice Medie di posizione Moda Esempio: Difficoltà dell’esame di statistica. Freq 2 2 1 3 17 4 58 3 5 4 4 5 Difficoltà dell'esame Come descrivereste questa distribuzione? In particolare, intorno a quale valore possiamo dire che è posizionata la distribuzione? In altre parole, dove è il centro della distribuzione? Indice Medie di posizione Moda “Posizione” della distribuzione La domanda precedente ci chiede di sintetizzare la distribuzione in un unico numero che, in qualche modo, indichi dove la distribuzione stessa è “posizionata”. Si potrebbe dire che la distribuzione è posizionata sul valore che compare più frequentemente. 2 3 4 Difficoltà dell'esame Questo valore è chiamato moda della distribuzione. 5 Misure di posizione: la moda La moda di una distribuzione è la modalità cui è associata la massima frequenza (assoluta, relativa, percentuale) I La moda esprime la modalità più comune. I È definita sia per variabili qualitative che quantitative. Moda per distribuzioni in classi Si definisce classe modale la classe alla quale corrisponde la massima frequenza (assoluta, relativa, percentuale) Se all’interno della classe si vuole individuare un unico valore si può scegliere quello centrale Moda per distribuzioni in classi Si definisce classe modale la classe alla quale corrisponde la massima frequenza (assoluta, relativa, percentuale) Se all’interno della classe si vuole individuare un unico valore si può scegliere quello centrale Attenzione! Se le classi hanno ampiezza diversa per individuare la classe modale è necessario fare riferimento alle densità di frequenza (non alle frequenze assoluto o relative!) Moda come sintesi. Esempio 1: Difficoltà dell’esame di statistica Freq 2 2 1 3 17 4 58 3 5 4 4 5 Difficoltà dell'esame La moda sintetizza abbastanza bene la distribuzione della difficoltà. Moda come sintesi. Esempio 2: Ore di sonno Freq 5 1 6 10 7 31 8 32 9 6 Moda come sintesi. Esempio 2: Ore di sonno Freq 5 6 5 1 6 10 7 31 7 8 32 9 6 8 9 Ore di sonno per notte Per le ore di sonno per notte funzionerebbe meno bene. Moda come sintesi. Esempio 3: Voto di maturità ni 60 2 61 1 63 1 64 2 66 2 68 3 70 4 71 2 72 5 73 1 74 3 75 5 76 2 77 7 78 3 79 2 80 5 ni 81 3 82 3 83 3 84 2 85 3 86 1 87 2 88 2 89 1 90 2 92 1 93 2 94 1 95 1 96 1 98 1 100 1 Moda come sintesi. Esempio 3: Voto di maturità ni 60 2 61 1 63 1 64 2 66 2 68 3 70 4 71 2 72 5 73 1 74 3 75 5 76 2 77 7 78 3 79 2 80 5 ni 81 3 82 3 83 3 84 2 85 3 86 1 87 2 88 2 89 1 90 2 92 1 93 2 94 1 95 1 96 1 98 1 100 1 60 65 70 75 80 Voto di matura Per il voto di maturità neanche. 85 90 95 100 Moda - Osservazioni 1. Se tutte le modalità del carattere presentano all’incirca le stesse frequenze, allora non ha senso determinare la moda; 2. può ritenersi un buon criterio di sintesi quando si presenta con una frequenza “nettamente maggiore” di tutte le altre modalità (almeno il 50% delle osservazioni) ⇒ è ragionevole assumerla come quel valore più idoneo a rappresentare sinteticamente la distribuzione; 3. potrebbe non essere unica ⇒ distribuzioni plurimodali.