Uploaded by Übermensch

dispense-popolazioni-per-statistica

advertisement
lOMoARcPSD|2790231
Dispense Popolazioni - per statistica
Statistica (Università degli Studi del Piemonte Orientale Amedeo Avogadro)
StuDocu non è sponsorizzato o supportato da nessuna università o ateneo.
Scaricato da ahmed ouerghemi (ahouerghemi@gmail.com)
lOMoARcPSD|2790231
Dispense del corso di Statistica
Primo Modulo - Statistica per Popolazioni
a cura di Enea Bongiorno e Aldo Goia
Università del Piemonte Orientale
Dipartimento di Studi per l’Economia e l’Impresa
enea.bongiorno@uniupo.it
aldo.goia@uniupo.it
a.a. 2019-2020
Scaricato da ahmed ouerghemi (ahouerghemi@gmail.com)
lOMoARcPSD|2790231
2
Scaricato da ahmed ouerghemi (ahouerghemi@gmail.com)
lOMoARcPSD|2790231
Capitolo 1
Concetti preliminari
Lo scopo di questo capitolo introduttivo è quello di presentare i concetti e la terminologia
che si utilizzeranno in tutto il corso. Si tratta di nozioni e di de…nizioni che stanno alla
base del metodo statistico.
1.1
Introduzione
Il metodo scienti…co si basa principalmente sull’analisi di fenomeni collettivi, ossia di
fenomeni che possono essere percepiti mediante numerose osservazioni su fatti elementari,
oppure mediante osservazioni continuate nel tempo.
Come avviene per le discipline “scienti…che”, anche nel contesto economico e sociale l’analisi empirica riveste un ruolo centrale. Infatti, se da un lato il ricercatore può limitarsi al
solo aspetto descrittivo, dall’altro può giungere alla formulazione di ipotesi circa le leggi
che governano il fenomeno in studio. In questo caso, vengono posti in essere dei modelli
matematici che consentono, una volta validati (o “calibrati”), di descrivere e prevedere
le dinamiche del fenomeno sotto indagine. Il punto di partenza è sempre la raccolta
…nalizzata di dati relativi al fenomeno in esame (ossia l’indagine statistica) e la successiva
elaborazione degli stessi.
De…nizione 1 (Statistica) La statistica è quella disciplina che fornisce la metodologia
per studiare i fenomeni collettivi.
Qualunque sia l’ambito in cui l’analisi viene compiuta, si richiede la precomprensione del
fenomeno in studio ed il ricercatore deve valutare con cura gli obiettivi da perseguire,
le informazioni da rilevare, i mezzi di osservazione da utilizzare, le scale di misura da
adottare, la delimitazione nello spazio e nel tempo dell’oggetto della rilevazione, le tecniche
di elaborazione dei dati e la conseguente presentazione dei risultati.
Scaricato da ahmed ouerghemi (ahouerghemi@gmail.com)
lOMoARcPSD|2790231
4
1. Concetti preliminari
Ciò si traduce nella stesura del piano della rilevazione col quale si attua la progettazione
dell’indagine. In sostanza devono essere delineati i seguenti aspetti:
chi e che cosa osservare (de…nizione del collettivo e dei caratteri oggetto di studio);
dove osservare (qual è il luogo in cui si compie la rilevazione);
quali sono le tecniche di rilevazione:
– da un lato si deve chiarire il tipo di rilevazione: essa può essere totale (censimento) o parziale (campionaria),
– dall’altro deve essere stabilito il supporto per la raccolta dati: questionario
(domande chiuse, domande aperte, ecc.), intervistatore, ecc.
quando compiere l’osservazione (indagine occasionale oppure periodica con una
certa cadenza).
I dati statistici possono avere origini (o fonti) diverse:
dati già esistenti reperiti consultando opportune basi di dati (ad es.: ISTAT, Banca
d’Italia, Centrale dei Bilanci, fonti interne aziendali, ecc.);
dati raccolti mediante un’indagine “ad hoc”;
dati derivanti da una sperimentazione condotta in ambiente controllato.
In ogni caso i dati devono essere di “buona qualità”, ossia idonei a fornire le informazioni
utili agli scopi che l’indagine si propone, e deve essere chiaro il metodo usato nella loro
raccolta (soprattuto, per evitare manipolazioni fraudolente).
Una volta e¤ettuata la raccolta dei dati secondo quanto piani…cato, si procede alla loro
elaborazione ed alla presentazione dei risultati.
1.2
Alcune de…nizioni
Nell’Introduzione sono stati presentati alcuni termini propri della disciplina: collettivo,
carattere, censimento, campione, ecc.. Si entra ora nel dettaglio fornendo de…nizioni
rigorose. Inoltre, dal momento che la statistica è una disciplina di carattere quantitativo,
è necessario formalizzare i concetti ricorrendo al linguaggio matematico.
Scaricato da ahmed ouerghemi (ahouerghemi@gmail.com)
lOMoARcPSD|2790231
1.2 Alcune de…nizioni
1.2.1
5
Collettivo statistico, caratteri e modalità
In ogni indagine occorre de…nire prioritariamente il collettivo statistico (o popolazione),
ossia l’insieme U delle unità reali o virtuali u (individui, oggetti o altri enti) mediante le
quali si manifesta il fenomeno oggetto di studio e/o mediante le quali è possibile percepire
le informazioni sul fenomeno stesso. Ogni elemento u 2 U è detto unità statistica.
Il collettivo può essere …nito (popolazione reale) o in…nito (si parla in tal caso di popolazione virtuale). Nel primo caso si chiama numerosità del collettivo il numero N (con
N > 0 intero e …nito) di unità statistiche che sono oggetto di osservazione, ossia la
cardinalità di U (N = #U). Quando il collettivo è …nito si suole indicizzare le unità
statistiche:
U = fu1 ; u2 ; : : : ; uN g :
Precisato il collettivo, devono essere individuati i caratteri che si intendono osservare. Si
stabiliscono quindi le diverse possibili manifestazioni dei singoli caratteri in esame: esse
sono denominate modalità.
De…nizione 2 (Carattere e sue modalità) Un carattere è un aspetto mediante il quale
può essere percepito il fenomeno collettivo in esame. Il carattere si manifesta concretamente sulle unità statistiche mediante espressioni dette modalità.
Si osservi che ad un medesimo carattere possono essere associate modalità di¤erenti. Per
esempio, il carattere “rendimento scolastico” può essere percepito mediante giudizi oppure
voti. Nel primo caso le modalità saranno attributi del tipo: insu¢ciente, su¢ciente, buono,
ecc., mentre nel secondo le modalità saranno dei numeri.
Le modalità sono usualmente classi…cate secondo le seguenti scale di misure dovute a
Stevens (1946)1 :
1. Scala nominale: le modalità si identi…cano in attributi tra i quali non esiste una
relazione d’ordine naturale. Per esempio, sono caratteri in scala nominale il sesso
(o genere), il corso di laurea, la zona di provenienza, ecc.;
2. Scala ordinale (per ranghi): le modalità si identi…cano in attributi che presentano
una relazione d’ordine naturale. Esempi sono: ordine di arrivo in una gara, giudizio
scolastico, titolo di studio, numero di stelle di un albergo, ecc.;
3. Scala per intervalli: le modalità sono numeri di un sistema dotato di origine arbitraria. Per il confronto tra due elementi ha senso ricorrere solo alla di¤erenza.
Esempi di caratteri misurati in scala per intervalli sono la temperatura e il voto di
diploma.
1
Stevens, S. S. (1946). On the Theory of Scales of Measurement. Science, 103, 677–680
Scaricato da ahmed ouerghemi (ahouerghemi@gmail.com)
lOMoARcPSD|2790231
6
1. Concetti preliminari
Consideriamo per esempio la temperatura: è sbagliato a¤ermare che se nella città
A ci sono 10 C e nella città B ce ne sono 20 C, allora B ha temperatura doppia
di A: possiamo solo dire che ci sono 10 C di di¤erenza. Inoltre la mancanza di un
sistema di origine assoluto fa sì che cambiando l’unità di misura si possa alterare
il rapporto tra due grandezze. Per esempio, convertendo i dati precedenti in gradi
Fahrenheit si ottengono 50 F nella città A e 68 F in B: è evidente che nella nuova
scala, la temperatura in B non è il doppia di quella in A (68=50 6= 10=20).
4. Scala per rapporti: le modalità sono numeri di un sistema dotato di origine assoluta,
coincidente con l’assenza di carattere (lo zero). Gli elementi possono essere messi
in relazione mediante la divisione. Sono esempi la ricchezza, il peso, la statura, la
durata di un componente elettronico, il numero di …gli, ecc., ossia tutte le risultanze
di un processo di quanti…cazione. La valutazione degli stock in ambito economico
si e¤ettua sempre mediante scale per rapporti.
Le modalità espresse da un carattere costituiscono un insieme, che indichiamo con M.
Sulla base delle scale di misura usate, si classi…cano i caratteri nel modo seguente:
1. carattere qualitativo: le sue modalità sono espresse in termini di attributi:
(a) qualitativo sconnesso quando è misurato su scala nominale,
(b) qualitativo ordinale quando è misurato su scala ordinale,
2. carattere quantitativo: le sue modalità vengono espresse in termini numerici:
(a) quantitativo discreto: le modalità sono esprimibili mediante numeri interi, cioé
M Z,
(b) quantitativo continuo: le modalità sono esprimibili mediante numeri di un
insieme con la potenza del continuo, cioé M R,
(c) quantitativo in classi: le modalità sono rappresentate da intervalli di misure,
cioé
M = fl0 a l1 ; l1 a l2 ; l2 a l3 ; : : : g:
La modalità li 1 a li (con li 1 < li ), che denominiamo “classe i-ma” (i =
1; 2; 3; : : : ), coincide con l’intervallo (li 1 ; li ]. La quantità wi = li li 1 è detta
ampiezza della classe i-ma e (li + li 1 ) =2 è detto centro della classe i-ma.
Scaricato da ahmed ouerghemi (ahouerghemi@gmail.com)
lOMoARcPSD|2790231
1.2 Alcune de…nizioni
1.2.2
7
Tecniche di rilevazione
La rilevazione è l’operazione con la quale si e¤ettua la raccolta dei dati: per ciascuno dei
caratteri in studio, si associa ad ogni unità statistica una ed una sola modalità. L’operazione, ripetuta per tutte le unità statistiche in esame, porta alla compilazione di una
tabella che denominiamo matrice dei dati (o dataset): in ciascuna riga di detta tabella si
leggono le informazioni relative ad una particolare unità statistica.
Come accennato in precedenza, la rilevazione può essere:
1. totale quando viene ispezionata l’intera popolazione U (ciò è chiaramente possibile
solo quando la popolazione è …nita). Si parla in tal caso di censimento o di indagine
esaustiva;
2. parziale quando viene osservata solo una parte di U detta campione. Parliamo in
tal caso di indagine campionaria. La selezione di un campione può avvenire secondo
criteri deterministici oppure casuali (detti anche aleatori o stocastici).
Le modalità operative (che non sono oggetto di studio in questo testo) con cui si e¤ettua
la rilevazione possono essere di diverso tipo:
1. in taluni casi è possibile la misurazione diretta. Si può facilmente immaginare che
in tal caso possano sorgere problemi connessi alla precisione degli strumenti usati;
2. per i fenomeni di tipo economico e sociale, si utilizza in genere l’intervista mediante
questionario. Essa può avvenire attraverso:
(a) la somministrazione diretta;
(b) la tecnica della Computer Assisted Interview:
CATI (c.a. Telephone i.);
CAPI (c.a. Personal i.);
CASI (c.a. Self i.).
1.2.3
Esempi ed esercizi di riepilogo
La precisa identi…cazione del collettivo e dei caratteri in studio è fondamentale nella
lettura dei dati e nella scelta delle tecniche di elaborazione da utilizzarsi: è inutile saper
fare calcoli, anche complessi, su tabelle contenenti dei numeri “muti” se poi non si sanno
discutere i risultati e associarli al fenomeno in studio. Per …ssare le idee, si presentano
alcuni esempi e si propongono degli esercizi.
Scaricato da ahmed ouerghemi (ahouerghemi@gmail.com)
lOMoARcPSD|2790231
8
1. Concetti preliminari
Esempio 1 Si immagini di voler calcolare il tasso di disoccupazione dei giovani piemontesi con età compresa tra 15 e 24 anni nel primo semestre di quest’anno. Per progettare
l’indagine corrispondente è necessario rispondere ai quesiti elencati qui di seguito:
1) Chi (popolazione): giovani piemontesi con età compresa tra 15 e 24. L’insieme U è
quindi costituito da N giovani; il generico individuo è indicato con uv .
2) Cosa (carattere): occupato sì/no. Il carattere è qualitativo sconnesso. L’insieme M è
formato da due soli elementi (modalità): sì, no.
3) Dove: in Piemonte;
4) Quando: la rilevazione si e¤ettua alla …ne del primo semestre dell’anno in corso.
5) Come: rilevazione mediante indagine campionaria (se si e¤ettuasse il censimento, il numero di interviste sarebbe troppo elevato e l’indagine troppo costosa con tempi
di rilevazione eccessivamente lunghi). Lo strumento di rilevazione potrebbe essere un
questionario somministrato telefonicamente.
Esempio 2 Uno studente prossimo alla laurea vuole valutare le proprie “performance”
in ambito universitario. Per conoscere la situazione deve e¤ettuare una mini-indagine
ponendosi i quesiti visti in precedenza:
1) Chi (popolazione): gli esami sostenuti. Il collettivo U è costituito dagli N esami uv
che lo studente ha superato nel corso del tempo;
2) Cosa (carattere): il voto assegnato. Il carattere è quantitativo discreto e misurato
su scala per intervalli. L’insieme delle modalità è M = f18; 19; 20 : : : ; 30; 32g (ove, 32
rappresenta il voto 30 e Lode). Una seconda informazione che potrebbe essere interessante
raccogliere è il tempo intercorso tra il superamento di un esame ed il superamento del
successivo. In tal caso il carattere è quantitativo continuo e misurato in scala per rapporti.
L’insieme delle modalità in questo caso coincide con R+ .
3) Dove: in segreteria;
4) Come: indagine censuaria su tutti gli esami sostenuti.
Esempio 3 Il responsabile della produzione di un’impresa e¤ettua il controllo della qualità
dei prodotti fabbricati da un dato macchinario. Al …ne di conoscere il fenomeno rispondiamo alle consuete domande:
1) Chi: i prodotti in uscita dal processo produttivo. Il collettivo U è di tipo virtuale: si
tratta di un insieme di dimensioni a priori sconosciute dal momento che i suoi elementi
non possono essere censiti (alcuni sono già stati venduti, altri sono delocalizzati in magazzini, altri sono ancora in produzione o lo saranno in futuro);
2) Cosa: le caratteristiche del prodotto. Il carattere più semplice da osservare è la conformità del prodotto alle speci…che tecniche dettate in sede di progettazione. In tal caso il
carattere è qualitativo sconnesso e M = fconforme; non conformeg;
3) Come e quando: si e¤ettua periodicamente (es.: una volta al giorno) un controllo su
un campione costituito da alcuni elementi scelti a caso dai lotti di produzione.
Scaricato da ahmed ouerghemi (ahouerghemi@gmail.com)
lOMoARcPSD|2790231
1.2 Alcune de…nizioni
9
Esercizio 1 Si progetti l’indagine più opportuna per a¤rontare le seguenti problematiche:
1) Si desidera conoscere il calciatore migliore della stagione in una data categoria.
2) Si vuole scoprire se gli studenti bravi in matematica lo sono anche in diritto.
3) Qual è la situazione occupazionale dei laureati triennali ad un anno dal conseguimento
del diploma?
4) Un direttore di banca vuole conoscere il grado di soddisfazione della propria clientela
quando si presenta agli sportelli.
5) Un revisore contabile deve esprimere un giudizio di congruità sul bilancio di un’impresa.
Scaricato da ahmed ouerghemi (ahouerghemi@gmail.com)
lOMoARcPSD|2790231
10
1. Concetti preliminari
Scaricato da ahmed ouerghemi (ahouerghemi@gmail.com)
lOMoARcPSD|2790231
Analisi Statistica Univariata
Scaricato da ahmed ouerghemi (ahouerghemi@gmail.com)
lOMoARcPSD|2790231
Scaricato da ahmed ouerghemi (ahouerghemi@gmail.com)
lOMoARcPSD|2790231
Capitolo 2
Variabili statistiche e distribuzioni di
frequenze
Nella prima parte ci si occupa del caso in cui si e¤ettui la rilevazione (censuaria) e lo
studio di un solo carattere su una popolazione …nita. In questo caso parliamo di analisi
statistica univariata (o uni-dimensionale) per una popolazione …nita.
In questo capitolo formalizziamo il procedimento della rilevazione mediante l’introduzione
di uno degli strumenti matematici fondamentali: la variabile statistica. In…ne, si passa
ad un altro concetto capitale strettamente collegato al precedente, ossia a quello di distribuzione di frequenza di una variabile statistica. Tali nozioni saranno alla base dei
capitoli successivi.
2.1
Variabile statistica
Consideriamo una popolazione U di numerosità N (con N > 0 intero e …nito) ed un insieme
di modalità M. Come abbiamo già detto, con la rilevazione si associa a ciascuna unità
statistica u uno ed un solo elemento di M. Dal punto di vista formale ciò si traduce
nell’introdurre una particolare funzione, che chiamiamo variabile statistica, avente per
dominio la popolazione U e per codominio l’insieme M delle modalità.
De…nizione 3 (Variabile Statistica) Si chiama variabile statistica (nel seguito v.s.)
la funzione
X:U !M
che ad ogni u 2 U associa una e una sola modalità in M:
u 7! X (u )
v = 1; : : : ; N:
Scaricato da ahmed ouerghemi (ahouerghemi@gmail.com)
lOMoARcPSD|2790231
14
2. Variabili statistiche e distribuzioni di frequenze
Il risultato X (u ) dell’osservazione del carattere sulla unità statistica u è detto v-mo
dato individuale.
Ricorrendo alla consueta schematizzazione di una funzione mediante i diagrammi di Venn,
una v.s. X qualsiasi può essere rappresentata come segue:
Come possiamo notare, il dominio non è mai di tipo numerico (è la collezione delle unità
statistiche uv ) mentre il codominio può avere varia natura: se M è costituito dalle modalità di un carattere qualitativo (nominale o ordinale) allora diciamo che X è una v.s. qualitativa, mentre se M è formato dalle modalità di un carattere quantitativo (discreto,
continuo o in classi di misure) allora diciamo che X è una v.s. quantitativa. Quindi,
quando X è una v.s. qualitativa, allora X(uv ) è un attributo, mentre quando X è una
v.s. quantitativa, X(uv ) è un numero oppure una classe di misura (per semplicità diremo
che X è una v.s. a valori reali nel primo caso e in classi nel secondo).
La collezione dei dati individuali risultanti dalla rilevazione (ordinate secondo il numero
d’ordine assegnato ad ogni unità statistica) è raccolta nella matrice dei dati (o dataset):
U
u1
u2
u3
..
.
X
X(u1 )
X(u2 )
X(u3 )
..
.
uN
X(uN )
Per …ssare le idee sui concetti introdotti, ricorriamo all’esempio che segue.
Esempio 4 Supponiamo che un piccolo teatro abbia 9 posti a sedere, numerati da 1 a 9
e distribuiti su tre …le, come illustrato nello schema seguente:
Fila 3
Fila 2
Fila 1
!
!
!
7 8 9
4 5 6
1 2 3
Scaricato da ahmed ouerghemi (ahouerghemi@gmail.com)
lOMoARcPSD|2790231
2.1 Variabile statistica
15
Sappiamo che i prezzi dei biglietti d’ingresso variano a seconda della posizione del posto
a sedere:
Posto Prezzo Euro
1; 2; 3; 5
30
25
4; 6; 8
15
7; 9
Consideriamo ora la popolazione formata dai 9 spettatori presenti in una data serata:
ciascuno di essi può essere facilmente messo in corrispondenza col numero della poltrona
su cui è seduto. Così facendo, si può descrivere formalmente la popolazione come segue:
U = fu1 ; u2 ; : : : ; u9 g
ove u1 indica lo spettatore seduto sulla poltrona numero 1, u2 quello seduto sulla poltrona
numero 2, e così via.
Si supponga di voler e¤ettuare su tale popolazione la rilevazione del carattere quantitativo
discreto “Prezzo del biglietto in Euro” cui corrisponde l’insieme delle modalità M che
contiene tutti in numeri naturali divisi per 100 (l’unità minima è il centesimo di Euro).
La funzione che modella la rilevazione, ossia la v.s., è la seguente:
8
v = 7; 9
< 15
25
v = 4; 6; 8
X (uv ) =
:
30
v = 1; 2; 3; 5
e la matrice dei dati risultante è:
Spettatore Prezzo pagato
u1
30
u2
30
30
u3
25
u4
u5
30
25
u6
u7
15
25
u8
15
u9
Esercizio 2 Lo Studente e¤ettui la rilevazione dei voti che ha registrato nel corso della
sessione invernale di quest’anno accademico: dopo aver descritto il collettivo U ed il
carattere in studio con le sue modalità M, costruisca la v.s. X = “Voti della sessione
invernale” ed il dataset corrispondente.
Scaricato da ahmed ouerghemi (ahouerghemi@gmail.com)
lOMoARcPSD|2790231
16
2.2
2. Variabili statistiche e distribuzioni di frequenze
Distribuzioni di frequenze
L’informazione raccolta nella matrice dei dati può essere estremamente ampia e non è
organizzata. Essa risulta quindi di di¢cile lettura e dunque non direttamente fruibile: è
necessario fornirne delle riassunzioni.
L’operazione più semplice che può essere compiuta sull’insieme dei dati individuali è
quella di riordinare gli stessi secondo un dato criterio (come già osservato in precedenza,
per alcune tipologie di caratteri esistono degli ordinamenti naturali). Noteremmo allora
che talune modalità ricorrono più volte.
Consideriamo dunque l’insieme immagine della funzione X, ossia l’insieme costituito dagli
elementi distinti e, quando è lecito, ordinati (che indichiamo col simbolo xi ) presenti nella
matrice dei dati:
Im (X) = fx1 ; x2 ; : : : ; xk g
ove k è un intero positivo (con k N ), il generico elemento xi è detto realizzazione della
v.s. X e Im (X) M dal momento che non tutte le modalità presenti in M potrebbero
essere state osservate.
Esempio 5 Riprendendo i dati dell’Esempio 4, l’insieme immagine di X è
Im (X) = fx1 = 15; x2 = 25; x3 = 30g
con
k = # Im (X) = 3:
Se consideriamo ora una speci…ca realizzazione xi 2 Im (X), possiamo individuare un
unico sottoinsieme di U costituito da tutte quelle unità statistiche su cui è stato osservato
xi :
fuv 2 U : X (uv ) = xi g :
Tale insieme non è altro che la controimmagine di xi tramite X (ossia, X 1 (fxi g)), in
modo compatto scriveremo nel seguito fX = xi g in luogo di fuv 2 U : X (uv ) = xi g.
La numerosità di tale insieme (che indichiamo ni ) è chiamata frequenza assoluta di xi :
ni = # fX = xi g :
Rapportando ni alla numerosità N dell’intera popolazione, otteniamo la frequenza relativa
di fX = xi g, che indichiamo fi :
ni
fi = Freq (X = xi ) = ;
N
che, essendo una proporzione, è un numero compreso tra 0 e 1. Di conseguenza, fi
esprime il peso del gruppo di unità statistiche fX = xi g sull’intera popolazione. Le frequenze relative possono essere indicate indi¤erentemente come proporzioni o percentuali.
Riassumiamo quanto detto nella seguente de…nizione:
Scaricato da ahmed ouerghemi (ahouerghemi@gmail.com)
lOMoARcPSD|2790231
2.2 Distribuzioni di frequenze
17
De…nizione 4 (Frequenza assoluta e relativa) Data una v.s. X, la frequenza assoluta ni (risp. la frequenza relativa fi ) è la numerosità (risp. la porzione) di unità
statistiche alle quali è stata assegnata la realizzazione xi mediante X.
Per …ssare le idee vediamo un esempio.
Esempio 6 Sempre facendo riferimento all’Esempio 4 si individuano
fX = 15g = fuv 2 U : X (uv ) = 15g = fu7 ; u9 g ;
fX = 25g = fuv 2 U : X (uv ) = 25g = fu4 ; u6 ; u8 g ;
fX = 30g = fuv 2 U : X (uv ) = 30g = fu1 ; u2 ; u3 ; u5 g ;
da cui si desume immediatamente
n1 = 2
n2 = 3
n3 = 4
f1 = 2=9 = 0:2
f2 = 1=3 = 0:3
f3 = 4=9 = 0:4
(= 22:2%);
(= 33:3%);
(= 44:4%):
Ripetendo l’operazione per ogni xi , otteniamo k sottoinsiemi fX = xi g che sono tra loro
disgiunti e la cui unione resituisce l’intera popolazione U (tecnicamente si tratta di una
partizione di U): il calcolo della frequenza assoluta e relativa per ciascun sottoinsieme individuato si chiama spoglio dei dati e porta alla costruzione della distribuzione di frequenze
assoluta e relativa della v.s. X.
De…nizione 5 (Distribuzione di frequenze) Si chiama distribuzione di frequenza assoluta (risp. relativa) della v.s. X l’insieme delle coppie f(xi ; ni ) ; i = 1; : : : ; kg (risp. f(xi ; fi ),
i = 1; : : : ; kg) ossia, il gra…co della funzione che ad ogni xi assegna la corrispondente frequenza assoluta ni (risp. relativa fi ). Per comodità si suole raccogliere la distribuzione di
frequenza in tabella:
Im(X)
x1
x2
x3
..
.
xk
Freq. Assolute: # fX = xi g Freq. Relative: Freq (X = xi )
n1
f1
n2
f2
n3
f3
..
..
.
.
nk
fk
La somma delle k frequenze assolute deve per forza di cose essere uguale alla numerosità
del collettivo dal momento che le k parti fX = xi g costituiscono una partizione della
popolazione (ossia, sono disgiunte e la loro unione restituisce U):
n 1 + n2 +
+ nk =
k
X
ni = N:
i=1
Scaricato da ahmed ouerghemi (ahouerghemi@gmail.com)
lOMoARcPSD|2790231
18
2. Variabili statistiche e distribuzioni di frequenze
Ne consegue immediatamente che:
k
X
i=1
fi =
k
X
ni
i=1
N
=
k
1 X
ni = 1:
N i=1
Esempio 7 Riprendiamo ancora una volta l’Esempio 4. Le distribuzioni di frequenze
(assoluta e relativa) della v.s. X sono:
Prezzo Freq. Assolute Freq. Relative
pagato (# spettatori) (% spettatori)
15
2
2=9 = 22:2%
3
1=3 = 33:3%
25
30
4
4=9 = 44:4%
9
100%
Leggendo la tabella si deduce che 2 dei 9 spettatori (circa il 22%) hanno pagato 15 Euro,
3 sono quelli che hanno pagato 25 Euro (circa il 33%) e quattro su nove (circa il 44%) 30
Euro.
Si noti che quando è nota la numerosità N di U allora le distribuzioni di frequenze assolute
e relative sono equivalenti.
Proponiamo qui di seguito un esempio che riassume i concetti introdotti …n’ora.
Esempio 8 Un’indagine di customer satisfaction, relativa ad un dato prodotto commercializzato, viene compiuta mediante la somministrazione di un questionario presso un
supermercato in un dato giorno. In particolare, viene chiesto all’intervistato di esprimere
un giudizio (del tipo: Scarso, Su¢ciente, Buono, Ottimo) sul prodotto, nel caso in cui il
cliente lo conosca. Dalla lettura dei questionari si ottengono i dati seguenti:
Questionario Giudizio espresso
1
Su¢ciente
Buono
2
Ottimo
3
Ottimo
4
5
Buono
Buono
6
Cerchiamo ora di comprendere quali informazioni contiene tale dataset.
1) Si deve identi…care innanzi tutto qual è il collettivo e poi va chiarita la natura del
carattere in studio. Per quanto riguarda il primo aspetto è su¢ciente chiedersi “chi” è
Scaricato da ahmed ouerghemi (ahouerghemi@gmail.com)
lOMoARcPSD|2790231
2.2 Distribuzioni di frequenze
19
stato intervistato: è immediato a¤ermare che il collettivo U è formato da N = 6 clienti
uv che conoscono il prodotto in esame e che hanno visitato il supermercato nel giorno in
cui è stato proposto il questionario. Il carattere è qualitativo ordinale, con
M = fScarso, Su¢ciente, Buono, Ottimog :
2) A questo punto è possibile descrivere la rilevazione con l’ausilio della v.s. qualitativa
X = “Giudizio espresso” la cui legge è:
8
v=1
< Su¢ciente
Buono
v = 2; 5; 6
X (uv ) =
:
Ottimo
v = 3; 4
e la cui immagine è:
Im (X) = fx1 = Su¢ciente, x2 = Buono, x3 = Ottimog
con k = 3. Attraverso le controimmagini di X si identi…cano così tre gruppi formati da
quei clienti che hanno espresso un particolare giudizio:
a) fX = Su¢cienteg = fu1 g ;
b) fX = Buonog = fu2 ; u5 ; u6 g ;
c) fX = Ottimog = fu3 ; u4 g :
3) Si procede quindi al calcolo delle frequenze relative corrispondenti:
a) Freq fX = Su¢cienteg = 1=6;
b) Freq fX = Buonog = 1=2;
c) Freq fX = Ottimog = 1=3;
che ci porta a scrivere la distribuzione di frequenze seguente:
% di Clienti
Giudizio
x1 = Su¢ciente f1 = 16:6%
f2 = 50:0%
x2 = Buono
f3 = 33:3%
x3 = Ottimo
Possiamo ora concludere che 1=3 dei clienti intervistati ha espresso un giudizio “Ottimo”
sul prodotto in esame, la metà degli intervistati ha valutato il prodotto di buona qualità,
mentre solo il restante 17% ha giudicato il prodotto “Su¢ciente”. Nessuno ha espresso
giudizi negativi.
Esercizio 3 La seguente matrice dei dati raccoglie le realizzazioni della v.s. X = “Livello
di istruzione degli addetti di un’impresa”:
MI,
MI,
MI,
MS,
MI,
UN,
MI,
MI,
MS,
Scaricato da ahmed ouerghemi (ahouerghemi@gmail.com)
MS
lOMoARcPSD|2790231
20
2. Variabili statistiche e distribuzioni di frequenze
(ove: MI = Media Inf., MS = Media Sup., UN = Laurea).
1) Dopo aver precisato qual è il collettivo, chiarire la natura del carattere in studio.
2) Illustrare schematicamente la funzione X, esplicitarla analiticamente e dire da cos’è
costituito Im (X).
3) Precisare cosa si intende con la notazione fX = MIg.
4) Calcolare Freq (X = MI).
Esercizio 4 La rilevazione delle temperature medie giornaliere nella città di Novara nel
corso del mese di gennaio dello scorso anno ha prodotto le seguenti risultanze:
Temperature Freq. Assolute
10 a 0
6
13
0a5
5 a 10
9
3
10 a 20
1) Dire qual è il collettivo e qual è la sua numerosità N . Chiarire quindi la natura del
carattere in studio.
2) Precisare da cos’è costituito Im (X) e qual è la sua numerosità k.
3) Che cosa conteggiano le frequenze assolute riportate nella tabella?
4) Dopo aver spiegato cosa si intende con fX = 5 a 10g, calcolare Freq (X = 5 a 10).
2.3
Sempli…cazione di una distribuzione di frequenze
Può accadere, in particolare qualora si osservi un carattere quantitativo continuo, che k
sia molto grande: la distribuzione di frequenze può diventare in tale caso di di¢cile lettura
dal momento che di fatto non si ottiene la sintesi della matrice dei dati auspicata con lo
spoglio. Addirittura, se k = N allora si ha ni = 1 per ogni i e quindi la distribuzione di
frequenze non è altro che il dataset riordinato.
Per gestire tale problema e permettere una sintesi utile per le rappresentazioni gra…che
che vedremo in seguito, si ricorre ad una sempli…cazione dell’insieme dei dati originari
ottenuta mediante l’accorpamento degli elementi di Im (X) in gruppi.
Osservazione 1 Tale operazione di accorpamento implica naturalmente una perdita di
informazione: nel caso si e¤ettuino ulteriori analisi è comunque sempre auspicabile utilizzare i dati originali e mai quelli accorpati.
2.3.1
Dicotomizzazione
Il modo più estremo di procedere si chiama dicotomizzazione (ossia riduzione a due sole
modalità distinte): in pratica ci si concentra su un particolare elemento xi e si fanno
Scaricato da ahmed ouerghemi (ahouerghemi@gmail.com)
lOMoARcPSD|2790231
2.3 Sempli…cazione di una distribuzione di frequenze
21
con‡uire tutti gli altri in una nuova realizzazione che chiamiamo “non xi ”. Così facendo
la popolazione viene suddivisa in due soli gruppi, ossia fX = xi g ed il suo complementare
fX 6= xi g, aventi frequenze relative fi e 1 fi rispettivamente. Ovviamente, lo stesso
metodo può essere applicato considerando l’accorpamento di più di una realizzazione in
un unico gruppo (per esempio, se X è quantitativa, si può fare riferimento ad una soglia
che divide la popolazione in due parti disgiunte).
Per chiarire le idee, vediamo un esempio di dicotomizzazione nel caso di una v.s. qualitativa.
Esempio 9 Si consideri la seguente distribuzione di frequenze che illustra la suddivisione
degli studenti di un dato dipartimento circa il “Corso di Laurea frequentato” in un dato
anno:
Corso di Laurea % Studenti
Eco. Aziendale
45%
5%
Eco. Politica
Eco. del Turismo
10%
40%
Giurisprudenza
Se si vuole concentrare l’attenzione sugli studenti di Economia Aziendale è su¢ciente
procedere alla dicotomizzazione che segue:
Corso di Laurea % Studenti
Eco. Aziendale
45%
55%
Altro
Quando si desidera invece porre l’attenzione sul confronto tra gli studenti di discipline
economiche e quelli di materie giuridiche, si può procedere come segue:
% Studenti
Corso di Laurea
Discipline Economiche
60%
Discipline Giuridiche
40%
2.3.2
Raggruppamento di dati in classi
Nel caso si voglia sempli…care la distribuzione di frequenze di una v.s. quantitativa per un
carattere continuo, una tipica operazione consiste nel raggruppamento dei dati in classi di
misure. Consideriamo quindi una v.s. quantitativa a valori reali X e l’intervallo di limiti
a e b (con a < x1 e b xk ). Si suddivide detto intervallo in t intervalli adiacenti e privi di
elementi in comune che indichiamo, usando una notazione già introdotta in precedenza,
lj 1 a lj
j = 1; : : : ; e
k
con l0 = a e lek = b.
e per la quale:
Si costruisce in tal modo una nuova v.s. che indichiamo X
Scaricato da ahmed ouerghemi (ahouerghemi@gmail.com)
lOMoARcPSD|2790231
22
2. Variabili statistiche e distribuzioni di frequenze
le realizzazioni sono classi di valori: x
ej = lj
1
a lj
la frequenza assoluta di una speci…ca classe si ottiene contando il numero di unità
statistiche alle quali la v.s. originaria X ha associato un valore incluso in tale classe:
per la classe j-ma si ha
o
n
e =x
ej = # flj 1 < X lj g :
nj = # X
La frequenza relativa corrispondente è data da: fj = nj =N:
Il raccoglimento di dati in classi può anche essere e¤ettuato per caratteri quantitativi
discreti quando le modalità osservate sono piuttosto numerose: così facendo si assimila
un carattere discreto ad uno continuo. Un esempio di tale modo di procedere è proposto
nell’esercizio che segue.
Esercizio 5 La rilevazione nel corso di un dato mese degli importi X delle fatture emesse
da un’azienda porge i seguenti risultati (valori in Euro):
2990
3000
1660
990
1870
1540
1750
2640
2240
2490
1070
4800
1190
3330
2290
2630
1) Descrivere il collettivo e chiarire la natura del carattere in studio.
2) Raccogliere i dati nelle classi di misure che seguono:
0 a 1000
1000 a 2000
2000 a 2500
2500 a 3000
3000 a 5000
e la v.s. ottenuta col raccoglimento di dati in classi: scrivere la legge di X.
e Dopo aver
Sia X
n
o
n
o
e =x
e =x
individuato x
e3 , dire da cosa è costituito l’insieme X
e3 e calcolare Freq X
e3 .
Al raccoglimento di dati in classi può essere abbinata una ulteriore trasformazione dei
dati che conduce ad una nuova variabile di tipo qualitativo (con carattere misurato in
scala ordinale). Gli esempi possibili sono innumerevoli: ne vediamo due.
Esempio 10 Dalla distribuzione dei redditi mensili delle famiglie, si passa ad ottenere
una distribuzione in classi di reddito per poi etichettare le famiglie che rientrano in ogni
classe come: “indigenti”, “povere”, “benestanti”, ecc..
Esempio 11 Consideriamo il voto in Statistica conseguito in una determinata prova d’esame: è sempre possibile costruire delle classi di voti ed assegnare dei giudizi. Per esempio: agli studenti con voto da 0 a 17 viene assegnato giudizio “Insu¢ciente”, a quelli che
hanno conseguito da 18 a 21 corrisponde un giudizio “Su¢ciente”, ecc..
Nel seguito, con un abuso di notazione denoteremo con lo stesso simbolo X le due variabili
e
statistiche X e X.
Scaricato da ahmed ouerghemi (ahouerghemi@gmail.com)
lOMoARcPSD|2790231
Capitolo 3
Analisi di v.s. quantitative - Gra…ci,
f.ne di densità e di ripartizione
Continuiamo l’analisi statistica univariata per una popolazione …nita, specializzandoci
in questo capitolo e nei due successivi al caso di una v.s. quantitativa. In particolare
introduciamo gli strumenti utili, sia nel caso in cui le realizzazioni siano numeri, sia
quando i dati siano espressi in classi di misure. Dal momento che l’insieme immagine
della v.s. è un insieme numerico o riconducibile ad esso (nel caso delle classi di misure),
le analisi sfrutteranno anche procedimenti di calcolo.
3.1
Rappresentazione gra…ca di una distribuzione
Cominciamo col presentare degli strumenti gra…ci che consentano di visualizzare qualitativamente la distribuzione di frequenze relative (oppure assolute) di una v.s. quantitativa. A seconda che le realizzazioni siano numeri oppure classi di misure, si utilizzeranno
diagrammi di¤erenti.
3.1.1
Diagramma a bastoni
Il diagramma a bastoni si utilizza per v.s. quantitative reali quando il carattere rilevato è
discreto e la numerosità k dell’insieme immagine di X è relativamente modesta (diciamo
per k minore di 20).
Dal momento che si vuole visualizzare la distribuzione di frequenza (ossia, lo ripetiamo,
l’insieme delle coppie f(xi ; fi ) ; i = 1; : : : ; kg), la rappresentazione naturale si basa su un
diagramma cartesiano la cui ascissa riporta gli elementi xi di Im (X) e l’ordinata le frequenze relative. Al …ne di rendere leggibile il gra…co, ogni punto di coordinate (xi ; fi )
viene congiunto all’asse delle ascisse mediante un segmento perpendicolare ad esso: il
Scaricato da ahmed ouerghemi (ahouerghemi@gmail.com)
lOMoARcPSD|2790231
24
3. Analisi di v.s. quantitative - Gra…ci, f.ne di densità e di ripartizione
diagramma risultante appare così formato da k segmenti paralleli all’asse delle ordinate
(“bastoni”), posizionati in corrispondenza delle realizzazioni xi e di lunghezza rispettiva
proporzionale alla frequenza fi associata. Nella costruzione del gra…co si possono utilizzare
le frequenze assolute ni in luogo di quelle relative.
Il diagramma a bastoni può risultare di di¢cile lettura quando k è grande. In questo
caso è da valutare un raggruppamento di dati in classi come illustrato in precedenza: di
conseguenza, cambia il tipo gra…co da utilizzare.
3.1.2
Funzione di densità e Istogramma
Consideriamo ora una v.s. reale per un carattere continuo, oppure un carattere discreto
per il quale si sia reso necessario il raccoglimento dei dati in classi (dal momento che k è
grande), oppure ancora una v.s. con dati in classi. In tutti questi casi, si può fornire una
rappresentazione detta istogramma, costituita da rettangoli contigui, ciascuno dei quali
coincidente con una classe e con area uguale alla frequenza relativa della classe medesima.
L’idea di fondo riposa sul concetto di densità di frequenza: come dice il nome stesso,
si tratta di una misura dell’addensamento delle unità statistiche all’interno di una data
classe. Dato che quando si hanno classi di misure, si potrebbe non conoscere l’esatto
comportamento della distribuzione di frequenza all’interno di ogni singola classe, per
semplicità si assume che il carattere si redistribuisca “uniformemente”, ossia che i valori
assunti dalle unità statistiche in ciascuna classe siano equispaziati. In tal modo, a parità
di frequenza, quanto più la classe è ampia, tanto più la densità è ridotta.
De…nizione 6 (Densità di frequenza) Consideriamo la classe i-ma, di limiti li
ampiezza wj , e frequenza associata fi . La densità di frequenze della classe i-ma è:
hi =
1
e li ,
fi
:
wi
Calcolare la densità di frequenza per ogni classe conduce ad ottenere la funzione di densità
h (x), una funzione costante a tratti la cui legge è de…nita come segue:
8
li 1 < x li
i = 1; : : : ; k;
< hi
h (x) =
:
0
altrove.
Il gra…co della funzione di densità, rappresentato per comodità ricorrendo a dei rettangoli,
è l’istogramma.
Qui di seguito è riportato un esempio in cui si illustra il procedimento di calcolo che porta
alla funzione di densità e al corrispondente gra…co. Scopo dell’esempio è anche quello di
mostrare come la lettura diretta di una distribuzione di frequenze per dati in classi possa
trarre in inganno.
Scaricato da ahmed ouerghemi (ahouerghemi@gmail.com)
lOMoARcPSD|2790231
3.1 Rappresentazione gra…ca di una distribuzione
25
Esempio 12 La tabella che segue raccoglie la distribuzione di frequenze assolute di una
v.s. quantitativa X con dati in classi:
Classi
0 a 10
10 a 12
12 a 20
Freq. Assolute
20
4
16
Volendo rappresentare gra…camente tale distribuzione si deve procedere al calolo preventivo
delle densità di frequenze:
xi
0 a 10
10 a 12
12 a 20
fi
0:5
0:1
0:4
wi
10
2
8
hi
0:5=10 = 0:05
0:1=2 = 0:05
0:4=8 = 0:05
La funzione di densità di X è quindi de…nita
8
0:05
>
>
<
0:05
h (x) =
0:05
>
>
:
0
come segue:
0 < x 10
10 < x 12
12 < x 20
altrove
e l’istogramma corrispondente è riportato qui di seguito:
Il risultato può apparire controintuitivo: il gra…co risultante ha una forma inattesa rispetto alla distribuzione di frequenze che esso rappresenta. Ciò dipende dal fatto che si tende
a ragionare sulle classi come se queste fossero etichette di un carattere qualitativo e così
risulta naturale associare ad ogni classe un rettangolo di altezza pari alla frequenza, dimenticando che le classi hanno ampiezza diversa. Si tratta di un errore piuttosto comune
ma molto grave dato che conduce a rappresentare istogrammi sbagliati e quindi del tutto
fuorvianti per il lettore.
Dal momento che fi = hi wi , ossia la misura d’area di ciascun rettangolo, la misura
dell’area sottesa all’istogramma è uguale a uno. In termini più generali, …ssati due numeri
Scaricato da ahmed ouerghemi (ahouerghemi@gmail.com)
lOMoARcPSD|2790231
26
3. Analisi di v.s. quantitative - Gra…ci, f.ne di densità e di ripartizione
a; b 2 R, con 1 < a
b < +1, è possibile approssimare la frequenza delle unità
statistiche sulle quali è stato osservato un valore nell’intervallo (a; b] mediante la misura
dell’area sottesa al gra…co sull’intervallo (a; b]:
Freq (a < X
b) =
Z
b
h (x) dx:
a
Dato che h (x) è costante a tratti, il calcolo si e¤ettua sommando le misure delle aree dei
rettangoli contigui che sono de…niti da h (x) sull’intervallo (a; b]. Ovviamente si tratta solo
di una approssimazione, dal momento che il calcolo si basa sull’assunzione di uniformità
fatta inizialmente.
Quando della v.s. X si dispone unicamente della distribuzione con dati in classi, allora
per il calcolo delle frequenze su intervalli qualsiasi si deve fare riferimento alla funzione di
densità. In questo caso, dal momento che
Z a
h (x) dx = 0;
a 2 R;
Freq (X = a) =
a
allora, calcolare la frequenza associata ad (a; b] equivale a calcolare quella associata a
(a; b), [a; b], oppure ancora [a; b).
Osservazione 2 In taluni casi si suole rappresentare l’istogramma utilizzando le frequenze assolute: in tal caso ogni densità hi è moltiplicata per N e così l’area del rettangolo
associato alla classe i-ma è ni . In generale, consigliamo l’uso della frequenza relativa.
Gli esempi che seguono hanno lo scopo di permettere di acquisire dimestichezza con l’utilizzo della funzione di densità e di mostrare come a partire da essa si calcolino delle
frequenze.
Scaricato da ahmed ouerghemi (ahouerghemi@gmail.com)
lOMoARcPSD|2790231
3.1 Rappresentazione gra…ca di una distribuzione
27
Esempio 13 Si consideri la seguente funzione di densità di una v.s. con dati in classi:
8
c
2<x 0
>
>
<
0:3
0<x 1
h (x) =
0:1
1<x 5
>
>
:
0
altrove
ove c è una costante che dev’essere calcolata opportunamente. Per identi…care c è su¢ciente ricordare che la misura dell’area sottesa all’istogramma deve essere unitaria: dato
che le frequenze associate alla seconda e alla terza classe sono rispettivamente:
f2 = h2 w2 = 0:3
1 = 0:3
f3 = h3 w3 = 0:1
4 = 0:4
allora, per forza di cose, si deve avere:
f1 = 1
(0:3 + 0:4) = 0:3
e così, la densità c assegnata alla prima classe (la cui ampiezza è w1 = 2) deve essere
pari a:
f1
0:3
=
= 0:15:
c=
w1
2
La funzione di densità risultante è quindi:
8
0:15
2<x 0
>
>
<
0:3
0<x 1
h (x) =
0:1
1<x 5
>
>
:
0
altrove
e la corrispondente distribuzione di frequenze relative, raccolta in tabella, è:
Classi
2a0
0a1
1a5
Freq. Relative
0:3
0:3
0:4
Esempio 14 La funzione di densità della v.s. con dati in classi X = “Statura in cm di
un gruppo di alunni di una scuola media inferiore”, è riportata qui di seguito:
8
130 < x 140
>
> 0:02
<
0:03
140 < x 160
h (x) =
0:01
160 < x 180
>
>
:
0
altrove
Scaricato da ahmed ouerghemi (ahouerghemi@gmail.com)
lOMoARcPSD|2790231
28
3. Analisi di v.s. quantitative - Gra…ci, f.ne di densità e di ripartizione
Se volessimo calcolare la frequenza degli studenti con statura compresa tra i 140 e i 160
cm sarebbe su¢ciente e¤ettuare il calcolo:
f2 = 20
0:03 = 60%:
Ci si potrebbe anche chiedere qual è la frequenza di studenti con statura compresa tra 140
e 150. Dato che facciamo riferimento ad un sottoinsieme della seconda classe, la densità
di riferimento è h2 = 3 e si deve calcolare la misura dell’area sottesa all’istogramma
sull’intervallo (140; 150) come segue:
Z 150
0:03dx = (150 140) 0:03 = 30%:
Freq (140 < X < 150) =
140
Allo stesso modo, se volessimo sapere qual è la percentuale di studenti con statura nell’intervallo (150; 170), dovremmo valutare l’area sottesa dal gra…co su tale intervallo, facendo
attenzione al fatto che esso cade a cavallo di due classi (la seconda e la terza) aventi
densità di¤erenti:
Freq (150 < X < 170) = Freq (150 < X < 160) + Freq (160 < X < 170)
{z
} |
{z
}
|
10 0:03
10 0:01
= 30% + 10% = 40%:
In altri termini, sfruttando il fatto che un integrale de…nito si può spezzare su domini
disgiunti, riscriviamo il calcolo nel seguente modo:
Z 170
Z 160
Z 170
0:01dx:
0:03dx +
h (x) dx =
Freq (150 < X < 170) =
150
150
160
Per concludere la discussione in merito alla funzione di densità e all’istogramma, proponiamo un esempio in cui lo Studente è chiamato a ricostruire la distribuzione di frequenze
a partire da una sua rappresentazione gra…ca.
Esercizio 6 L’istogramma che segue visualizza la distribuzione di frequenze della v.s. X =
“Importo in Euro delle fatture emesse nel corso di un dato anno da un’impresa di servizi”.
Scaricato da ahmed ouerghemi (ahouerghemi@gmail.com)
lOMoARcPSD|2790231
3.1 Rappresentazione gra…ca di una distribuzione
29
1) Descrivere il collettivo e chiarire la natura del carattere in studio e la scala utilizzata
nella rilevazione.
2) Dire quanto vale k. Spiegare da cosa è costituito l’insieme f1000 < X 2000g e
calcolare la frequenza relativa associata.
3) Calcolare la distribuzione di frequenze relative di X e riportarla in tabella.
3.1.3
Simmetria e uniformità di una distribuzione
Grazie ai gra…ci, è possibile rilevare alcune peculiarità delle distribuzioni di frequenze. Ci
so¤ermiamo in particolare su due aspetti che torneranno utili nel prosieguo: la simmetria
e l’uniformità.
De…nizione 7 (V.s. simmetrica) La v.s. X è simmetrica rispetto allo zero se X e X
hanno la stessa distribuzione. La v.s. X è simmetrica rispetto a m se X m è simmetrica
rispetto allo zero. Una v.s. non simmetrica è detta asimmetrica.
Un altro concetto rilevante, che abbiamo già utilizzato nelle pagine precedenti, è quello
di uniformità.
De…nizione 8 (V.s. uniforme) La v.s. quantitativa a valori reali X è uniforme quando
gli elementi xi sono equispaziati tra x1 e xk , e ad essi è associata la stessa frequenza (ossia
xi xi 1 = c; i = 2; 3; : : : ; k, e fi = 1=k). Nel caso di dati in classi, si ha uniformità
quando ad ogni classe è assegnata la medesima densità di frequenze (la funzione di densità
è costante su (l0 ; lk ]: h (x) = 1= (lk l0 ), l0 < x lk ).
Un esempio, di distribuzione di frequenze uniforme è illustrato nella …gura che segue (con
k = 5) ove fi = 1=5 per ogni i:
È evidente che una v.s. uniforme è anche simmetrica rispetto a (x1 + xk ) =2 (nel caso in
classi, rispetto a (l0 + lk ) =2).
Esercizio 7 Discutere simmetria ed uniformità delle distribuzioni di frequenze rappresentate negli Esempi 12 e 25 e nell’Esercizio 6.
Scaricato da ahmed ouerghemi (ahouerghemi@gmail.com)
lOMoARcPSD|2790231
30
3. Analisi di v.s. quantitative - Gra…ci, f.ne di densità e di ripartizione
3.2
Funzione di ripartizione
L’ispezione delle tabelle contenenti le distribuzioni di frequenza permette di sapere immediatamente qual è il numero (o la percentuale) di unità statistiche su cui è stato osservato
un dato valore, oppure (nel caso dei dati in classi), della frequenza di unità su cui è stato
osservato un valore appartenente ad una data classe di misure.
Dal momento che l’analisi coinvolge dati di natura numerica, è sempre lecito porsi domande del tipo: “Qual è la frequenza di individui su cui si sono osservati valori non
superiori a x?” (ove x 2 R è una soglia qualsiasi). Per rispondere a tale domanda è opportuno introdurre il concetto di funzione di ripartizione o cumulativa (cdf - cumulative
distribution function).
De…nizione 9 (Funzione di ripartizione) Diciamo funzione di ripartizione (cdf) della v.s. X quantitativa la funzione
F :R !R
che ad ogni x 2 R associa la proporzione di unità del collettivo su cui sono osservati valori
non superiori ad x:
F (x) = Freq (X x) :
Le seguenti proprietà caratterizzano la cdf :
1. la funzione F (x) è de…nita su tutto R, è limitata tra 0 e 1 (il valore assunto in un
qualsiasi punto rimane una frequenza) e
(a) F (x) = 0 se x
(b) F (x) = 1 se x
x1 (oppure x
xk (oppure x
l0 nel caso in classi)
lk nel caso in classi)
2. si tratta di una funzione monotona non strettamente crescente: due numeri reali
a; b con a
b allora F (a)
F (b). Essa infatti descrive come si accumulano le
frequenze relative (ossia grandezze positive) al crescere di x;
3. è una funzione continua a destra, cioé per ogni x0 2 R,
lim F (x) = F (x0 ) :
x!x+
0
La cdf caratterizza la distribuzione di frequenze in modo univoco (ossia, data una funzione
F che soddisfa le proprietà 1., 2. e 3. , allora esiste una v.s. X che ha F come cdf ) e consente
di valutare agevolmente la frequenza assegnata ad un qualsiasi intervallo di valori. Dati
infatti due numeri reali a; b con a b allora
Freq (a < X
b) = Freq (X
b)
Freq (X
a) :
Ciò si traduce nel risultato fondamentale che segue.
Scaricato da ahmed ouerghemi (ahouerghemi@gmail.com)
lOMoARcPSD|2790231
3.2 Funzione di ripartizione
31
Proposizione 1 Dati due valori a; b 2 R, con a
Freq (a < X
Dim.
Per ogni a
b, allora:
b) = F (b)
F (a) :
b si ha
F (b) = Freq (X
b) = Freq (X
|
{z
a) + Freq (a < X
}
F (a)
da cui: Freq (a < X
b) = F (b)
F (a) :
b)
La De…nizione 9 conduce a scrivere la legge di F (x) in modo diverso a seconda della
natura del carattere: distingueremo il caso di v.s. a valori reali e in classi.
3.2.1
Caso di v.s. a valori reali
Accanto alla frequenza assoluta ni (risp. relativa fi ) associata a xi può essere utile indicare la corrispondente frequenza cumulata Ni (risp. Fi ): essa fornisce il numero (risp. la
porzione) di unità statistiche su cui si è osservato il carattere con un valore inferiore o
uguale (non superiore) a xi , ossia:
Ni = #fX
xi g
Fi = Freq (X
xi ) =
Ni
:
N
La distribuzione delle frequenze assolute (risp. relative) cumulate raccolta in tabella si
ottiene nel modo seguente:
X
x1
x2
x3
..
.
xi
..
.
xk
Freq. Ass. Freq. Ass. Cumul.
n1
N1 = n 1
n2
N2 = n 1 + n 2
n3
N3 = n 1 + n 2 + n 3
..
..
.
.
Pi
ni
Ni = h=1 nh
..
..
.
.
nk
N
Nk = N
Freq. Rel. Freq. Rel. Cumul.
f1
F1 = f1
f2
F2 = f1 + f2
f3
F3 = f1 + f2 + f3
..
..
.
.
Pi
fi
Fi = h=1 fh
..
..
.
.
fk
1
Fk = 1
Utilizzando una distribuzione di frequenze cumulate è dunque possibile assegnare frequenze ad intervalli del tipo ( 1; xi ] e di conseguenza valutare la cdf come segue:
se x < x1 , allora F (x) = 0;
Scaricato da ahmed ouerghemi (ahouerghemi@gmail.com)
lOMoARcPSD|2790231
32
3. Analisi di v.s. quantitative - Gra…ci, f.ne di densità e di ripartizione
se x1
x < x2 , allora F (x) = F1 ;
se x2
x < x3 , allora F (x) = F2 ;
...
se x
xk , allora F (x) = 1.
In modo più compatto scriviamo:
8
< 0
Fi
F (x) =
:
1
x < x1
xi x < xi+1
x xk
i = 1; 2; : : : ; k
1
Si tratta di una funzione costante a tratti con discontinuità di salto pari a Fi Fi 1 = fi
in corrispondenza dei punti xi . Per tale motivo, conoscere la cdf equivale a conoscere la
distribuzione di frequenze.
Per …ssare i concetti introdotti, viene proposto un esempio ed un esercizio.
Esempio 15 Si supponga che l’osservazione della v.s. X abbia prodotto il seguente dataset:
X = f1; 2; 0; 0; 1; 0; 2; 3; 0; 2g :
La corrispondente distribuzione di frequenze relative e di frequenze relative cumulate è
riportata nella tabella che segue:
X
2
0
1
3
Freq. Rel. Freq. Rel. Cum.
0:3
0:3
0:4
0:7
0:2
0:9
0:1
1
Segue che la cdf di X è data da:
8
0
>
>
>
>
0:3
<
0:7
F (x) =
>
>
0:9
>
>
:
1
x< 2
2 x<0
0 x<1
1 x<3
x 3
Scaricato da ahmed ouerghemi (ahouerghemi@gmail.com)
lOMoARcPSD|2790231
3.2 Funzione di ripartizione
33
ed il suo gra…co è rappresentato qui di seguito:
Esercizio 8 La funzione di ripartizione della
8
0
>
>
<
0:5
F (x) =
0:7
>
>
:
1
v.s. quantitativa X è:
x< 2
2 x<0
0 x<1
x 1
1) Calcolare la distribuzione di frequenze relative di X e poi, sapendo che N = 60, quella
di frequenze assolute.
2) Disegnare il gra…co di F (x) e della corrispondente distribuzione di frequenze relative.
3) Calcolare Freq ( 1 < X 0:5).
3.2.2
Caso di v.s. in classi
Quando si dispone unicamente della distribuzione di frequenza con dati in classi, non
si ha alcuna informazione circa il valore assunto esattamente da ciascuna unità statistica
all’interno della classe e così la frequenza cumulata Ni (risp. Fi ) fornisce soltanto il numero
(risp. la proporzione) di unità statistiche su cui si è osservato il carattere con un valore
inferiore o uguale al limite superiore di classe li :
Ni = # fX
li g ;
Fi =
Ni
:
N
Le uniche informazioni disponibili sulla funzione di ripartizione F (x) sono le seguenti:
se x < l0 , allora F (x) = 0;
se l0
x < l1 , allora 0
F (x) < F1 ;
Scaricato da ahmed ouerghemi (ahouerghemi@gmail.com)
lOMoARcPSD|2790231
34
3. Analisi di v.s. quantitative - Gra…ci, f.ne di densità e di ripartizione
se x = l1 , allora F (x) = F1 ;
se x
lk , allora F (x) = 1.
Per valutare la cdf in un punto qualsiasi x 2 R, analogamente a quanto fatto nella
costruzione della funzione di densità, dobbiamo ricorrere all’ipotesi che il carattere si
ripartisca uniformemente in ciascuna classe. Tale assunzione implica che la frequenza
dell’insieme fX xg sia pari all’area sottesa dalla funzione di densità su ( 1; x]:
Z x
h (t) dt:
F (x) =
1
Quindi, senza perdere di generalità, supponendo che li 1 < x
li , la cdf calcolata in
x sarà data dalla frequenza cumulata …no al punto li 1 , ossia Fi 1 , più quella assegnata
all’intervallo (li 1 ; x], ossia l’area del rettangolo di base (x li 1 ) e altezza hi . In altri
termini:
F (x) = Freq (X li 1 ) + Freq (li
= Fi 1 + hi (x li 1 ) :
1
<X
x)
Procedendo in tal modo per ogni x 2 R e posto F0 = 0 si ha:
se x < l0 , allora F (x) = 0;
se l0
x < l1 , allora F (x) = h1 (x
se l1
x < l2 , allora F (x) = F1 + h2 (x
se x
lk , allora F (x) = 1.
In modo più compatto scriviamo:
8
< 0
Fi 1 + hi (x
F (x) =
:
1
li 1 )
l0 );
l1 );
x < l0
li 1 x < li
x lk
i = 1; 2; : : : ; k
Si tratta di una funzione lineare a tratti, continua su tutto R il cui gra…co è una spezzata.
L’inclinazione dei segmenti corrispondenti a ciascuna classe (ossia il coe¢ciente angolare)
Scaricato da ahmed ouerghemi (ahouerghemi@gmail.com)
lOMoARcPSD|2790231
3.2 Funzione di ripartizione
35
è data dalla densità di frequenza assegnata a quella classe: calcolando la derivata prima di F (x) sugli intervalli (li 1 ; li ), si ottengono le densità di frequenze che de…niscono
l’istogramma:
dF (x)
= hi ;
x 2 (li 1 ; li ) :
h (x) =
dx
Il legame tra la funzione di ripartizione e le aree dell’istogramma, può essere visualizzato
mediante il diagramma seguente.
Esempio 16 Sia data la seguente distribuzione di frequenza della v.s. X con dati in classi
X
10 a 0
0 a 10
10 a 30
30 a 70
Freq. Relative
0:1
0:5
0:3
0:1
Si vuole calcolare la funzione di ripartizione F (x) in corrispondenza del valore x = 15.
Dato che 15 è un elemento della classe x3 = 10 a 30, si ha:
0:3
F (15) = F2 + h3 (15 l2 ) = 0:6 +
(15 10) = 0:675:
20
Tale risultato ci dice che la frequenza di unità statistiche su cui è stato osservato un valore
non superiore a 15 è uguale al 67:5%, ossia:
F (15) = Freq (X
15) = 0:675:
Scaricato da ahmed ouerghemi (ahouerghemi@gmail.com)
lOMoARcPSD|2790231
36
3. Analisi di v.s. quantitative - Gra…ci, f.ne di densità e di ripartizione
Esempio 17 Consideriamo l’Esempio 14. La legge della cdf è la seguente:
8
0
x < 130
>
>
>
>
130 x < 140
< 0:02 (x 130)
0:2 + 0:03 (x 140)
140 x < 160
F (x) =
>
>
0:8
+
0:01
(x
160)
160
x < 180
>
>
:
1
x 180
Volendo calcolare la frequenza degli studenti con statura compresa tra 140 e 150 cm e
quella degli studenti con statura tra 150 e 170 cm, possiamo utilizzare direttamente la
Proposizione 1 per ottenere
Freq (140 < X 150) = F (150) F (140) =
= 0:2 + 0:03 (150 140) 0:02 (140 130) = 0:3
nel primo caso e
Freq (150 < X 170) = F (170) F (150) =
= 0:8 + 0:01 (170 160) [0:2 + 0:03 (150
140)] = 0:4:
nel secondo.
Esercizio 9 Il gra…co che segue visualizza la distribuzione di frequenze assolute di una
v.s. quantitativa X con dati in classi.
1) Rispondere ai seguenti quesiti:
1.a) dire da cos’è costituito Im(X) e qual è la sua numerosità k;
1.b) dire che cosa si intende con la notazione f10 < X 20g.
2) Scrivere la funzione di ripartizione di X e quindi calcolare Freq (X > 14).
Scaricato da ahmed ouerghemi (ahouerghemi@gmail.com)
lOMoARcPSD|2790231
Capitolo 4
Analisi di v.s. quantitative Indicatori di posizione
Una v.s. viene usualmente sintetizzata mediante la sua distribuzione di frequenze, o in
modo equivalente, dalla sua funzione di ripartizione. A …ni pratici, risulta comunque utile
fornire dei valori di sintesi detti indici (o indicatori) che danno delle indicazioni circa
taluni aspetti speci…ci. Nel seguito esamineremo in dettaglio: indici di posizione, indici
di variabilità, indici di forma.
Questa sezione è dedicata agli indici di posizione: l’obiettivo è quello di individuare un
numero (che chiamiamo valore medio) che fornisca un ordine di grandezza per X secondo
un dato principio.
De…nizione 10 (Valore medio secondo Cauchy) Sia X una v.s. quantitativa a valori reali. Si dice valore medio di X un qualsiasi numero m tale che
x1
m
xk :
Se X è una v.s. in classi, si dice valore medio di X qualsiasi numero m tale che
l0
m
lk :
In tale de…nizione generale rientrano vari indicatori, a seconda del principio adottato:
ne vedremo alcuni molto utili a descrivere determinati aspetti della distribuzione di una
variabile.
4.1
Minimo, Massimo, Valore centrale e Moda
Per descrivere sinteticamente una distribuzione, la prima cosa da fare è individuare gli
estremi inferiore e superiore dell’intervallo su cui la distribuzione di frequenze è de…nita,
Scaricato da ahmed ouerghemi (ahouerghemi@gmail.com)
lOMoARcPSD|2790231
38
4. Analisi di v.s. quantitative - Indicatori di posizione
ossia di Im (X): il valore minimo x1 ed il valore massimo xk (l0 e lk rispettivamente, nel
caso in classi). Chiamiamo poi valore centrale (o anche mid-range) il numero:
M R (X) =
x1 + xk
2
risp.
M R (X) =
l0 + lk
:
2
È immediato constatare che quando la distribuzione di frequenze di una v.s. presenti
un’andamento molto dissimile rispetto al caso uniforme e quando non vi sia simmetria,
allora il valore centrale è poco interessante quale misura di sintesi.
Quando si desideri concentrare l’attenzione su un criterio di “prevalenza” di talune realizzazioni rispetto ad altre, è utile determinare la moda (o le mode).
La moda della v.s. a valori reali X per un carattere discreto è quella realizzazione che si
presenta con la massima frequenza. Nel caso di v.s. con dati in classi, oppure v.s. quantitative ricodi…cate con classi di misure, si individua la classe modale, ossia la classe avente
la massima densità di frequenza (cioè, alla quale è associato il rettangolo più alto dell’istogramma). Si osservi in questo secondo caso la classe modale individuata è legata
strettamente al tipo di suddivisione in classi che si è stabilito.
Se X ammette una sola moda allora è detta unimodale, se ne ha più d’una è detta plurimodale. L’esistenza di più mode può essere il sintomo della presenza di gruppi di¤erenti
di unità statistiche che sono stati mischiati, come illustrato nell’esempio che segue.
Esempio 18 Si e¤ettua la misurazione delle stature dei maschi ventenni appartenenti a
due gruppi etnici molto di¤erenti (per es.: i pigmei e gli scandinavi): la distribuzione di
frequenze risultante sarà quasi certamente bimodale.
4.2
Quantili
Ci si pone ora l’obiettivo di fornire una sintesi di una distribuzione di frequenza mediante
indicatori che stabiliscono delle “soglie” di modo che la popolazione sia partizionata in
due gruppi aventi frequenza …ssata a priori, e formati il primo da tutte le unità statistiche
su cui sono stati osservati valori non superiori alla soglia individuata, il secondo dalle
unità statistiche su cui si è osservato un valore non inferiore a tale soglia. Ciascuna di
queste soglie è detta quantile e la frequenza usata nel frazionamento (che indichiamo con
la lettera greca , leggasi alpha) è detta ordine del quantile: nel seguito, un quantile
d’ordine verrà indicato q .
Per quanto attraente, l’idea di frazionare la popolazione in gruppi aventi frequenza pre…ssata può essere di¢cilmente praticabile. Consideriamo per esempio una popolazione
formata da N unità statistiche, con N dispari, su cui si è osservata la v.s. reale X e si
desideri trovare q0:5 , ossia quel valore che suddivide la popolazione (ordinata secondo i
Scaricato da ahmed ouerghemi (ahouerghemi@gmail.com)
lOMoARcPSD|2790231
4.2 Quantili
39
valori crescenti di X) a metà. Appare …n da subito che c’è un problema: dato che N è
dispari è impossibile dividere la popolazione in due gruppi aventi la medesima numerosità.
Per risolvere l’inconveniente si ricorre alla seguente de…nizione.
De…nizione 11 (Quantile d’ordine ) Sia
un numero reale compreso tra 0 e 1.
De…niamo quantile d’ordine della v.s. quantitativa X un numero q che suddivide le
unità statistiche in due gruppi di modo che:
1) la parte della popolazione su cui è stato osservato un valore inferiore o uguale a q
abbia frequenza almeno pari ad , ossia:
Freq (X
q )
2) la parte della popolazione su cui è stato osservato valore maggiore o uguale a q abbia
frequenza almeno pari a (1
), ossia:
Freq (X
q )
1
:
Per meglio comprendere il concetto di quantile, si veda il seguente esempio.
Esempio 19 Supponiamo che il quantile d’ordine 0:25 dei redditi mensili di una popolazione di lavoratori dipendenti sia 1500 Euro: ciò vuol dire che che almeno il 25% dei
lavoratori ha redditi non superiori a 1500 Euro e almeno il 75% ha reddito non inferiore a
1500 Euro. Se q0:5 = 2000 Euro, allora almeno metà dei lavoratori ha redditi …no a 2000
Euro mentre i restanti lavoratori hanno almeno 2000 Euro.
Si osservi che a partire dai quantili è sempre possibile costruire una distribuzione di frequenze con dati in classi compatibile con essi (ovviamente tale distribuzione non è unica).
Usando i dati precedenti infatti possiamo scrivere la seguente distribuzione:
Redditi
0 a 1500
1500 a 2000
oltre 2000
Freq. Relat.
0:25
0:25
0:50
Riprendiamo ora la De…nizione 11 e so¤ermiamoci sulla condizione 2). Dal momento che
Freq (X
q )=1
Freq (X < q )
allora, trovare un quantile d’ordine equivale ad individuare quel numero q che soddisfa
simultaneamente le seguenti condizioni:
Freq (X
q )
e
Freq (X < q )
Scaricato da ahmed ouerghemi (ahouerghemi@gmail.com)
:
(4.1)
lOMoARcPSD|2790231
40
4. Analisi di v.s. quantitative - Indicatori di posizione
Un aspetto rilevante è il fatto che, …ssato , il quantile corrispondente potrebbe non essere
unico, dato che un intero intervallo di valori potrebbe soddisfare la coppia di condizioni
(4.1).
L’esempio che segue ha lo scopo di mostrare come si può procedere al calcolo di un quantile
a partire da un semplice dataset.
Esempio 20 Su una popolazione composta da 6 studenti sono stati rilevati i seguenti voti
(in decimi):
u1 u 2 u3 u4 u 5 u6
7 9 4 5 6 7
Vogliamo ora calcolare il quantile d’ordine 0:25 della variabile X =“Voto conseguito”.
Innanzi tutto si debbono riordinare gli studenti secondo il voto conseguito:
u3 u 4 u5 u1 u 6 u2
4 5 6 7 7 9
Quindi bisogna trovare un numero q0:25 tale che, allo stesso tempo:
1) almeno il 25% degli studenti abbia voto non superiore a q0:25 ;
2) almeno il 75% degli studenti abbia voto non inferiore a q0:25 (ossia, al più il 25% degli
studenti abbia voto minore di q0:25 ).
Per guidare il ragionamento può essere utile utilizzare lo schema che segue:
25%
z }| {
u3 u 4 u5
4
5
6
|
u1
7
u6
7
u2
9
{z
75%
}
Possiamo vedere che il numero che soddisfa entrambe le condizioni è q0:25 = 5.
Determiniamo ora il quantile d’ordine 0:5. Ragionando in modo analogo a quanto fatto in precedenza, ci accorgiamo che una possibile scelta per q0:5 è un qualsiasi numero
nell’intervallo [6; 7].
Come mostra l’esempio, il calcolo può risultare piuttosto laborioso soprattutto per dataset
molto estesi e ai …ni pratici è conveniente utilizzare la funzione di ripartizione per de…nire
un quantile.
De…nizione 12 Si dice quantile d’ordine (con 0
q tale che
F (q )
e
F q
1) della v.s. X un numero
Scaricato da ahmed ouerghemi (ahouerghemi@gmail.com)
lOMoARcPSD|2790231
4.2 Quantili
41
dove F (q ) è la frequenza dell’insieme fX < q g, ossia
F q
= lim F (x) :
x!q
Ciò signi…ca che per individuare un quantile d’ordine è su¢ciente confrontare il gra…co
della cdf con la retta y = . Il quantile q è un numero tale che il gra…co di y = F (x) sta
sotto o coincide con la retta sull’intervallo ( 1; q ] e sta sopra o coincide con la medesima
retta sull’intervallo [q ; +1). Formalmente, ciò equivale ad individuare l’intersezione tra
l’insieme F 1 (( 1; ]) = fx : F (x )
g e l’insieme F 1 ([ ; +1)) = fx : F (x)
g.
Data la monotonia di F (x), questi due insiemi sono del tipo
( 1; a]
e
[b; +1)
con b
a:
Quindi:
Se a = b allora ( 1; a] \ [b; +1) si riduce al solo elemento a che è il nostro q ;
Se b < a allora ( 1; a]\[b; +1) = [b; a] e quindi q non è unico, essendo ammissibili
tutti i valori dell’intervallo [b; a]. Per sempli…care l’analisi, dal momento che si
vuole fornire un unico valore per il quantile, per convenzione si prende il centro
dell’intervallo:
a+b
:
q =
2
Per convenzione si de…nisce q0 = x1 (oppure l0 nel caso in classi) e q1 = xk (oppure
lk nel caso in classi).
A titolo esempli…cativo, riportiamo la procedura di calcolo nel caso di v.s. a valori reali e
in classi.
4.2.1
Il caso di una v.s. a valori reali
Dopo aver disegnato il gra…co della funzione di ripartizione, si traccia la retta di equazione
y = e si individuano gli insiemi fx : F (x )
g e fx : F (x)
g. A questo punto si
possono presentare due situazioni di¤erenti: la prima è quella in cui la retta di equazione
y = non incontra mai F (x), ossia, non esiste alcun punto x tale che F (x) = . Il
quantile q in questo caso è unico ed è uguale a quel numero xi tale che Fi 1 < < Fi .
Questa situazione è visualizzata nella …gura che segue dove q = x3 , infatti F2 < < F3 .
Scaricato da ahmed ouerghemi (ahouerghemi@gmail.com)
lOMoARcPSD|2790231
42
4. Analisi di v.s. quantitative - Indicatori di posizione
La seconda situazione è quella in cui esiste un intervallo in corrispondenza del quale
F (x) = . Necessariamente tale intervallo avrà per estremi due realizzazioni consecutive
xi ed xi+1 tali che Fi = . In questo secondo caso, il quantile d’ordine non è unico:
sono infatti ammissibili tutti i valori compresi tra xi ed xi+1
xi
q
xi+1 :
Per convenzione si prende il centro dell’intervallo [xi ; xi+1 ]:
q =
xi + xi+1
:
2
Questo secondo caso è illustrato nel gra…co seguente ove F3 =
x3
q
q =
x3 + x4
:
2
e convenzionalmente si sceglie:
e quindi
x4
Scaricato da ahmed ouerghemi (ahouerghemi@gmail.com)
lOMoARcPSD|2790231
4.2 Quantili
43
Esercizio 10 La funzione di ripartizione della v.s. quantitativa X è riportata qui di
seguito:
8
0
x< 2
>
>
<
0:5
2 x<0
F (x) =
0:7
0
x<1
>
>
:
1
x 1
Individuare il quantile d’ordine 0:3 e quello d’ordine 0:7. Dare quindi un’interpretazione
dei risultati in termini di indici di posizione (cfr. Esempio 19).
4.2.2
Il caso di una v.s. con dati in classi
Qualora il carattere abbia modalità espresse mediante classi di misure, la funzione di
ripartizione è continua. In tal caso, cercare un numero q che soddisfa la coppia di
condizioni
F (q )
e
F q
si riduce, per la continuità di F (x), a risolvere l’equazione:
F (q ) = :
In pratica, si individua la classe a cui il quantile q appartiene, ossia la classe (li 1 ; li ] tale
che Fi 1 <
Fi . Quindi si risolve l’equazione di primo grado:
Fi
1
+ hi (q
li 1 ) = ;
ottenendo:
Fi 1
:
hi
ove, lo ricordiamo, hi = fi =wi . Per convenzione, si assume q0 = l0 e q1 = lk .
q = li
1
+
Esercizio 11 Il gra…co che segue visualizza la funzione di densità di una v.s. quantitativa
X con dati in classi.
Dopo aver scritto la funzione di ripartizione, calcolare il quantile d’ordine 0:3 e darne
un’interpretazione in termini di indice di posizione (cfr. Esempio 19).
Scaricato da ahmed ouerghemi (ahouerghemi@gmail.com)
lOMoARcPSD|2790231
44
4. Analisi di v.s. quantitative - Indicatori di posizione
4.2.3
Mediana, Quartili, Decili, Percentili
A seconda del valore scelto per , i quantili prendono nomi di¤erenti:
1. Mediana
Quando = 1=2 il quantile corrispondente è detto Mediana (M e): si tratta del valore che suddivide l’insieme delle osservazioni in due parti contenenti rispettivamente
almeno la metà delle unità statistiche ordinate secondo i valori crescenti di X.
2. Quartile
Quando = 1=4 il quantile corrispondente è detto primo quartile (Q1 ), per = 2=4
parliamo di secondo quartile (Q2 ), mentre per = 3=4 si ha terzo quartile (Q3 ).
3. Decile e percentile
Se = k=10 (con k = 1; 2; : : : ; 9) allora parliamo di k-esimo decile, mentre quando
= k=100 (con k = 1; 2; : : : ; 99) allora il quantile corrispondente è detto k-esimo
percentile.
È appena il caso di osservare che la mediana è il secondo quartile, ossia il 5o decile, o
ancora il 50o percentile.
4.2.4
Box-Plot
Utilizzando i quartili si può ottenere una rappresentazione gra…ca detta scatola e ba¢ (o
box-plot) costituita da
1. un corpo centrale rettangolare (la scatola) delimitata dal primo e dal terzo quartile
e diviso in due dalla mediana. La scatola può essere orientata in orizzontale o in
verticale a seconda delle esigenze gra…che;
2. due ba¢, ossia due segmenti laterali (a sinistra e a destra della scatola se essa è
posta in orizzontale, sopra e sotto la scatola se essa è disegnata in verticale) la cui
lunghezza può essere determinata in vari modi. Il modo più rudimentale è quello
di cominciare il ba¤o di sinistra (inferiore) partendo da x1 e di terminare quello di
destra (superiore) a xk . Secondo la regola di Tukey1 , la lunghezza massima di ogni
ba¤o è una volta e mezzo la lunghezza della scatola, ossia 1:5 (Q3 Q1 ). Tutto
il gra…co (ba¢ inclusi) non può eccedere l’intervallo [x1 ; xk ] nel caso reale (oppure
[l0 ; lk ] nel caso in classi).
1
John W. Tukey (1977) Exploratory Data Analysis, Addison-Wesley Publishing Company Reading,
Massachusetts.
Scaricato da ahmed ouerghemi (ahouerghemi@gmail.com)
lOMoARcPSD|2790231
4.2 Quantili
45
Nella …gura che segue è riportato un esempio di box-plot con tutti i suoi elementi caratteristici.
Le quantità Ainf e Asup sono dette adiacente inferiore e superiore rispettivamente. Secondo
la succitata regola di Tukey esse si individuano come segue:
Ainf è il più grande valore tra x1 e Q1
1:5 (Q3
Asup è il più piccolo tra Q3 + 1:5 (Q3
Q1 ) e xk .
Q1 ),
In pratica, ciò signi…ca che se il ba¤o inferiore o quello superiore eccedessero gli estremi
della distribuzione, allora andrebbero troncati in corrispondenza degli estremi. Con il
simbolo si indica la presenza di un dato “anomalo” (outlier), ossia troppo grande o
troppo piccolo rispetto alla maggior parte dei dati osservati. Ovviamente, se Ainf e Asup
coincidessero con gli estremi della distribuzione, allora non apparirebbero dati anomali.
Esercizio 12 Il gra…co che segue riporta il box-plot della v.s. X.
Supponendo che X sia una v.s. continua con dati in classi i cui estremi sono individuati
dai valori del box-plot, e che F (x) sia la sua funzione di ripartizione, rispondere alle
seguenti domande:
1) Scrivere la distribuzione di frequenze relative di X.
2) Calcolare F (1).
3) Calcolare il quantile d’ordine 0:6.
Osserviamo che i quantili e quindi il box-plot non identi…cano in modo univoco la distribuzione di frequenze di una v.s. (sia la natura, sia i valori delle realizzazioni, e tanto
meno le frequenze): ad esempio due v.s. diverse (una discreta, l’altra in classi) possono
avere lo stesso box-plot. Qui di seguito si propone un esercizio al riguardo.
Esercizio 13 Facendo riferimento alla …gura dell’Esercizio 12 e alla v.s. X ivi de…nita:
1) Scrivere la distribuzione di frequenze di una v.s. in classi Y che abbia lo stesso box-plot
di X ma diversa distribuzione di frequenza;
2) Scrivere la distribuzione di frequenze di una v.s. discreta Z il cui box-plot sia però
uguale a quello di X.
Scaricato da ahmed ouerghemi (ahouerghemi@gmail.com)
lOMoARcPSD|2790231
46
4.3
4. Analisi di v.s. quantitative - Indicatori di posizione
La media aritmetica
Si supponga che la v.s. a valori reali X sia riferita ad una carattere trasferibile, ossia
un carattere che è misurato in scala per rapporti e che può essere suddiviso e ceduto da
un’unità all’altra (in altre parole, redistribuito). Per esempio, sono caratteri trasferibili
la ricchezza di un paese, la super…cie coltivabile, il numero di turisti, ecc.. Non sono
caratteri trasferibili la statura, il peso, l’età, ecc..
In linea di principio è così possibile cumulare l’intero ammontare del carattere per ottenere
la quantità:
N
X
T =
X(u ):
=1
Supponiamo ora di voler individuare quel valore, che indichiamo
(leggasi mi), che
verrebbe attribuito a ciascuna unità statistica u se fosse possibile redistribuire T tra
tutte le unità in modo invariante (ossia, egualitario). Per determinare detta costante è
su¢ciente porre la seguente uguaglianza, detta condizione di invarianza:
N
X
X(u ) =
=1
da cui si ha
N
X
=1
N
X
X(u ) = N
=1
e quindi
=
N
T
1 X
X(u ) = :
N =1
N
Il numero così calcolato è detto media aritmetica di X: si tratta di quel valore che
rappresenta la ripartizione egualitaria del carattere tra le unità del collettivo.
Dal momento che
N
X
X(u ) = X(u1 ) +
+ X(u ) =
=1
= x1 + ::: + x1 + x2 + ::: + x2 + ::: + xk + ::: + xk
|
{z
} |
{z
}
|
{z
}
n1 volte
n2 volte
nk volte
= x1 n1 + x2 n2 + ::: + xk nk
=
k
X
xi ni
i=1
Scaricato da ahmed ouerghemi (ahouerghemi@gmail.com)
lOMoARcPSD|2790231
4.3 La media aritmetica
47
la condizione di invarianza può essere riscritta equivalentemente come segue
k
X
k
X
xi ni =
i=1
ni
i=1
da cui
=
k
1 X
xi ni
N i=1
oppure ancora, ricordando che il peso dell’i-mo valore distinto xi è fi = ni =N ,
=
k
X
xi fi :
i=1
Si sono così ottenute delle formulazioni equivalenti per il calcolo della media aritmetica:
una media costruita utilizzando i dati originari si dice anche “media semplice”; nel caso
in cui si utilizzi la distribuzione di frequenze, allora si parla di “media ponderata con pesi
fi ”. Chiaramente, si tratta solo di un diverso modo di scrivere lo stesso procedimento di
calcolo ed il risultato non cambia.
Quando si ha a che fare con caratteri quantitativi che non hanno la caratteristica della
trasferibilità, la media aritmetica può essere sempre calcolata: la sua interpretazione
chiaramente non sarà più legata ad un meccanismo di redistribuzione. Semplicemente, la
media aritmetica servirà a caratterizzare la modalità espressa dall’unità statistica “tipo”,
ossia quella che si avrebbe nel caso in cui la variabile statistica associasse ad ogni unità
lo stesso valore (ossia ).
Osservazione 3 Nel linguaggio corrente il termine “media” o “valore medio” viene spesso associato a quello di media aritmetica, riducendone in tal modo il signi…cato dato dalla
de…nizione di Cauchy.
Nel caso in cui si abbiano dati in classi, i calcoli visti in precedenza perdono di signi…cato:
la cosa più semplice è quella di individuare un valore tipo per ciascuna classe ed utilizzare
detti valori per determinare la media aritmetica. La scelta di solito ricade sul valore
centrale di ogni classe: data la classe i-ma si utilizzerà
xC
i =
li
+ li
:
2
1
Di fatto, si sostituisce all’originaria v.s. in classi una nuova v.s. a valori reali: tale processo
è detto discretizzazione per centri di classe.
Scaricato da ahmed ouerghemi (ahouerghemi@gmail.com)
lOMoARcPSD|2790231
48
4. Analisi di v.s. quantitative - Indicatori di posizione
4.3.1
De…nizione di Media Artimetica
Per riassumere quanto detto, diamo la seguente de…nizione:
De…nizione 13 (Media aritmetica) Diciamo media aritmetica della v.s. quantitativa
a valori reali X il numero risultante dalla seguente operazione:
E [X] =
k
X
xi fi =
i=1
oppure, quando X è una v.s. in classi:
E [X] =
k
X
xC
i fi =
i=1
dove xC
i =
li
+ li
è il valore centrale della classe i-ma.
2
1
Con il simbolo E [ ] si indica un operatore che applicato alla v.s. X ne restituisce la sua
media aritmetica2 . È appena il caso di osservare che la media aritmetica è una media
secondo Cauchy:
è un numero compreso nell’intervallo [x1 ; xk ] nel caso reale ovvero,
[l0 ; lk ] nel caso in classi.
La De…nizione 13 può essere generalizzata applicando l’operatore E [ ] ad una qualsiasi
traformazione (ammissibile) di X. Infatti, data g (X), allora:
E [g (X)] =
k
X
g(xi )fi :
i=1
Ciò è lecito perché se xi ha peso fi allora, inevitabilmente, g(xi ) ha lo stesso peso. È
appena il caso di rilevare che E [g (X)] non è una media di X (non rispetta in generale la
De…nizione 10), ma è la media aritmetica della v.s. g (X).
Esempio 21 Vediamo alcuni esempi:
1) se si sceglie g(x) = x2 , allora
E [g (X)] = E X 2 =
k
X
x2i fi
i=1
2
La lettera E per de…nire tale operatore è mutuata dalla letteratura inglese e sta per “Expectation”.
Il concetto verrà chiarito in ambito probabilistico.
Scaricato da ahmed ouerghemi (ahouerghemi@gmail.com)
lOMoARcPSD|2790231
4.3 La media aritmetica
2) se g(x) = x
49
c, ove c è una costante qualsiasi, allora
E [(X
c)] =
k
X
(xi
c)fi
i=1
3) per g(x) = (x
m)2 , ove m 2 R, si ha
E (X
m)2 =
k
X
(xi
m)2 fi :
i=1
Esercizio 14 La funzione di ripartizione della v.s. quantitativa X è riportata qui di
seguito:
8
0
x< 2
>
>
<
0:5
2 x<0
F (x) =
0:7
0
x<1
>
>
:
1
x 1
Esplicitare la formula e calcolare E [g (X)] per
1) g (x) = x
2) g (x) = j x 2 j
3) g (x) = p
x2
4) g (x) = x
5) g (x) = x3
6) g (x) = (x
)2
7) g (x) = ex .
A questo punto è opportuno prestare attenzione al fatto che, in generale, si ha
E [g (X)] 6= g (E [X])
(4.2)
per cui, ad esempio, la media aritmetica dei quadrati è diversa dal quadrato delle media
aritmetica calcolata a partire dai dati originali:
E X 2 6= (E [X])2 :
Quando invece g (x) è una funzione lineare a¢ne (ossia g (x) = a + bx, b 6= 0), allora si ha
l’uguaglianza in (4.2). Tale caratteristica è riassunta nella importante proposizione che
segue.
Proposizione 2 (Proprietà di linearità) Siano a; b 2 R, allora
E [a + bX] = a + bE [X] :
Scaricato da ahmed ouerghemi (ahouerghemi@gmail.com)
lOMoARcPSD|2790231
50
4. Analisi di v.s. quantitative - Indicatori di posizione
Dim.
La giusti…cazione di tale risultato si ottiene semplicemente a partire dalla De…nizione 13,
utilizzando le proprietà associativa della somma e quella distributiva del prodotto:
E [a + bX] =
k
X
(a + bxi )fi =
i=1
k
X
=a
k
X
i=1
fi + b
{z }
|i=1
=1
k
X
afi +
k
X
bxi fi
i=1
xi fi = a + bE [X] :
|i=1{z }
=E[X]
In altre parole, una traslazione (ossia, l’aggiungere una costante a) e/o un cambio di
scala (ossia, il moltiplicare per un fattore di scala b) dei dati osservati di una variabile
producono un identico e¤etto sulla loro media aritmetica.
4.3.2
Alcune proprietà della media aritmetica
Vediamo ora alcune proprietà che permettono di chiarire il signi…cato della media aritmetica e ne giusti…cano l’importanza pratica. In particolare ci so¤ermeremo sulla cosiddetta
proprietà di nullità degli scarti e su quella detta dei minimi quadrati.
Proposizione 3 (Nullità degli scarti) La media aritmetica
E [X
soddisfa:
]=0
Dim.
Si tratta di un’applicazione diretta della proprietà di linearità (vedi Proposizione 2) per
a = e b = 1:
E [X
] = E [X]
=0
Grazie alla proprietà di nullità degli scarti, possiamo concludere che la media aritmetica è
il baricentro (o centro di massa) della distribuzione. All’atto pratico, ciò si traduce nella
possibilità di individuare la media aritmetica di una distribuzione guardandone semplicemente il gra…co: se interpretiamo l’asse delle ascisse come un piano su cui poggiano dei
pesi, rappresentati dai bastoni (nel caso reale) e dai rettangoli dell’istogramma (nel caso
in classi), è il punto di equilibrio di tale sistema di pesi.
Da tale proprietà discende il fatto che la media aritmetica e la mediana coincidono quando
la distribuzione di frequenze è simmetrica rispetto a .
Scaricato da ahmed ouerghemi (ahouerghemi@gmail.com)
lOMoARcPSD|2790231
4.3 La media aritmetica
51
Esercizio 15 Costruire alcuni esempi di distribuzioni simmetriche e veri…care che la
media e la mediana coincidono.
Consideriamo ora la funzione L : R ! R de…nita come segue:
L (m) = E (X
m)2 :
Si tratta di una funzione di perdita (L sta per loss) che quanti…ca la perdita di informazione
che si ha nell’utilizzare un solo valore di sintesi m in luogo dell’intera distribuzione di X.
Tale funzione presenta le seguenti caratteristiche: si tratta di una funzione quadratica
(con variabile indipendente m) con concavità rivolta verso l’alto e il cui punto di minimo
è in m = . Ciò può essere riscritto nel modo seguente.
Proposizione 4 (Proprietà dei minimi quadrati) Sia m 2 R. La media aritmetica
è tale che:
L ( ) < L (m)
m 6= :
Dim.
Si considera la de…nizione di L (m), si aggiunge e toglie
opportunamente:
L (m) = E (X
= E (X
m)2 = E (X
)2 + (
+
m)2 + 2 (X
e si sviluppa il quadrato
m)2
)(
m) :
Grazie alla proprietà di linearità (vedi Proposizione 2) ed alla nullità degli scarti dalla
media aritmetica (vedi Proposizione 3), si ha:
L (m) = E (X
{z
|
L( )
)2 + (
}
m)2 + 2 (
m) E [(X
|
{z
=0
)]:
}
Se m 6= , allora (
m)2 > 0 e quindi L (m) > L ( ).
In sostanza, la proprietà dei minimi quadrati sancisce che la media aritmetica è l’unico
numero che fornisce la migliore approssimazione dell’intera distribuzione dei dati, nel
senso che conduce alla più piccola perdita di informazione (in termini quadratici).
4.3.3
Problemi di “robustezza” legati all’uso della media aritmetica
Se la media aritmetica presenta, come abbiamo visto, una serie di proprietà che la rendono
ottimale, essa so¤re di un grave inconveniente legato al metodo di costruzione. Infatti
è sensibile ai valori “anomali”, o per usare il linguaggio statistico, è un indicatore poco
robusto. Consideriamo il seguente esempio.
Scaricato da ahmed ouerghemi (ahouerghemi@gmail.com)
lOMoARcPSD|2790231
52
4. Analisi di v.s. quantitative - Indicatori di posizione
Esempio 22 Una popolazione di 10 famiglie presenta le seguenti caratteristiche in termini di numero di …gli:
2 1 1 0 9 1 3 1 2 0
Evidentemente la famiglia con 9 …gli è “anomala” in senso statistico: se calcolassimo il
numero medio di …gli per famiglia usando la media aritmetica si otterrebbe = 2, un
numero che sintetizza male la realtà (la mediana è 1 …glio, il terzo quartile è 2 …gli e solo
il 20% della popolazione ha più di 2 …gli).
Al …ne di ottenere un indicatore robusto, si deve procedere preventivamente all’eliminazione dei dati anomali individuati mediante il box-plot (tale procedura è detta di
troncatura o trimming) e quindi ricalcolare la media a partire dai valori rimasti.
Esempio 23 Riprendendo i dati dell’Esempio 22, se sopprimiamo dall’elenco la famiglia
con 9 …gli, la media aritmetica risultante è 1:2, un valore decisamente più rappresentativo.
4.3.4
Il criterio di invarianza secondo Chisini (cenni)
Il metodo di costruzione della media aritmetica utilizzato in precedenza si basa sul cosiddetto criterio di invarianza dovuto a Oscar Chisini3 . Il principio generale è il seguente: sia
: RN ! R, allora una media nel senso di Chisini rispetto a è quel numero m (ammesso
che esista e che soddis… la de…nizione di Cauchy) che realizza la seguente condizione di
invarianza:
(X (u1 ) ; : : : ; X (uN )) = (m; : : : ; m) :
(4.3)
Se si sceglie
(X (u1 ) ; : : : ; X (uN )) =
N
X
g (X (uv ))
v=1
ove g è una trasformazione ammissibile di X ed invertibile su Im (X), allora imponendo
la condizione (4.3) si ha
N
N
X
X
g (X (uv )) =
g (m)
v=1
v=1
da cui
g (m) = E [g (X)]
e in…ne
m=g
1
(E [g (X)]) :
Vediamo alcuni esempi.
1. Quando g è la funzione identità, m è la media aritmetica.
3
Chisini, Oscar (1929). Sul concetto di media. Periodico di Matematiche, 4, 106-116.
Scaricato da ahmed ouerghemi (ahouerghemi@gmail.com)
lOMoARcPSD|2790231
4.3 La media aritmetica
53
2. Se g (x) = x2 , e X > 0 si ottiene la cosiddetta media quadratica: m =
p
2
E [X 2 ].
3. Se g (x) = 1=x, con X > 0 la media risultante è detta armonica: m = (E [X
1
1
]) .
4. Più in generale, per g (x) = xr , con X > 0 e r numero intero diverso da zero, si
ottiene la cosiddetta media di potenza di ordine r: m = (E [X r ])1=r . Si noti che i
tre esempi precedenti sono dei casi particolari per r = 1, r = 2 e r = 1.
5. Per g (x) = ln (x), e X > 0 allora si ha la media geometrica: m = exp fE [ln (X)]g.
Ricordando le proprietà dei logaritmi,
!
N
N
Y
X
X (uv )
ln (X (uv )) = ln
v=1
v=1
e così, la media geometrica può essere riscritta come segue:
m=
N
Y
v=1
X (uv )
!1=N
=
k
Y
i=1
xni i
!1=N
=
k
Y
i=1
Scaricato da ahmed ouerghemi (ahouerghemi@gmail.com)
xfi i :
lOMoARcPSD|2790231
54
4. Analisi di v.s. quantitative - Indicatori di posizione
Scaricato da ahmed ouerghemi (ahouerghemi@gmail.com)
lOMoARcPSD|2790231
Capitolo 5
Analisi di v.s. quantitative Indicatori di variabilità
Il calcolo di una media fornisce un ordine di grandezza per una variabile: il suo utilizzo implica di fatto che si sostituisca un’intera distribuzione con un solo numero. È evidente che
tale informazione sia incompleta e possa fornire indicazioni fuorvianti se non è corredata
da altre indicazioni sulla distribuzione: due distribuzioni completamente diverse possono
avere la stessa media aritmetica.
Esempio 24 Un anziano vuole decidere in quale località passare l’inverno: considera
quindi due scelte possibili, che denominiamo A e B. Le temperature medie giornaliere
(in gradi centigradi), rilevate nel corso di 5 giornate consecutive, in tali località sono:
Località A
Località B
14:5
10
16
13:5
13:5
19
16
20:5
15
12
Il calcolo della media aritmetica delle temperature fornisce 15 per entrambe le località:
se la scelta si basasse sulla sola media, sarebbe indi¤erente scegliere A o B. Notiamo però
che nella località A le temperature sono tutte prossime alla media (oscillano tra 13:5 e 16
gradi), mentre nel secondo sono piuttosto di¤ormi dal dato medio (oscillano infatti tra
10 e 20:5 gradi). Tale fatto segnala chiaramente che le due località non sono per nulla
equivalenti, come invece la sola media aritmetica ci porterebbe a credere.
La di¤erenza messa in evidenza nell’esempio è dovuta ad una maggiore dispersione dei
dati di una variabile rispetto all’altra: se non considerassimo tale aspetto saremmo indotti a valutazioni incongruenti. Infatti l’attitudine dei dati a disperdersi è uno degli
elementi principali da considerarsi in un’analisi statistica: se tutti gli individui fossero
uguali rispetto alle grandezze osservabili non sarebbe necessario e¤ettuare alcuna analisi
statistica (basterebbe la media, che coinciderebbe con l’unico dato osservato).
Scaricato da ahmed ouerghemi (ahouerghemi@gmail.com)
lOMoARcPSD|2790231
56
5. Analisi di v.s. quantitative - Indicatori di variabilità
De…nizione 14 (Variabilità) Diciamo variabilità di una v.s. quantitativa X la sua
attitudine a disperdersi sull’insieme delle modalità M.
La variabilità può essere considerata sotto diversi aspetti e ciò conduce ad introdurre varie
famiglie di indicatori. Nel seguito tratteremo in dettaglio:
1. intervalli di variazione: essi misurano la distanza tra due indici di posizione,
2. scostamenti medi: essi misurano la distanza dei dati da un “centro” predeterminato
(una media).
Non verranno presi in esame i cosiddetti indici di variabilità globale che misurano le
di¤erenze esistenti tra ciascun dato e tutti gli altri.
In generale, per misurare la variabilità si ricorre al calcolo di una particolare distanza tra
due o più punti. Di conseguenza, tutte le misure di variabilità sono non negative (ossia,
0): in caso di assenza di variabilità (ossia, la v.s. X assume un unico valore x1 con
frequenza relativa unitaria, ossia f1 = 1) qualsiasi misura di variabilità sarà pari a zero
(diciamo che X è una v.s. degenere), in ogni altro caso, positiva.
5.1
Intervalli di variazione
A dispetto del loro nome, gli intervalli di variazione sono dei numeri de…niti come differenza tra due quantili ordinati in modo crescente: …ssati ; con 0
<
1, allora
un intervallo di variazione è dato da
q
q :
A seconda della scelta di e si ottengono diverse misure. In genere si utilizza:
con 0 < < 0; 5. Per esempio:
1. Se
=0e
=1
= 1, si ha il campo di escursione o range:
Range = xk
x1
oppure
Range = lk
l0 :
Si tratta della lunghezza dell’intervallo nel quale rientra il 100% delle unità statistiche.
2. Scegliendo
= 0:25 e
= 0:75, si ottiene la di¤erenza interquartile:
IQR = Q3
Q1
che misura l’ampiezza dell’intervallo nel quale rientra almeno il 50% delle unità
statistiche ordinate secondo i valori crescenti di X. Vale la pena notare che IQR è
la lunghezza della scatola del box-plot.
Scaricato da ahmed ouerghemi (ahouerghemi@gmail.com)
lOMoARcPSD|2790231
5.2 Variabilità rispetto ad un valore medio
5.2
57
Variabilità rispetto ad un valore medio
Sia X una v.s. quantitativa ed m un suo valore medio, l’obiettivo che ci si pone è quello di
fornire una misura della distanza dell’insieme delle osservazioni da m (in genere si sceglie
m = oppure m = M e).
5.2.1
Scarti assoluti medi
Consideriamo una v.s. a valori reali. Un primo modo di procedere è quello di misurare la
distanza tra ciascun dato xi ed il valore medio m in termini di scostamento in modulo:
jxi
per i = 1; : : : ; k:
mj
Volendo fornire una sintesi di tali scostamenti se ne calcola la media aritmetica (ponderata
ovviamente con pesi fi ). Si perviene così ad una misura che esprime una distanza tra tutti
i dati e la media scelta. A seconda che il centro di riferimento m utilizzato sia la mediana
oppure la media aritmetica parleremo di:
1. Scarto assoluto medio dalla mediana
E [ jX
M ej ] =
k
X
i=1
jxi
M ej fi :
jxi
j fi :
2. Scarto assoluto medio dalla media aritmetica
E [ jX
j]=
k
X
i=1
Nel caso di v.s. con dati in classi, i calcoli si e¤ettuano sostituendo le realizzazioni xi =
li 1 a li con i corrispondenti centri di classe xC
i .
È appena il caso di osservare che gli scarti assoluti medi mantengono la stessa unità di
misura della variabile X.
Esercizio 16 La v.s. quantitativa X ha la seguente funzione di ripartizione:
8
0
x< 3
>
>
<
0:2
3 x<1
F (x) =
0:6
1
x<5
>
>
:
1
x 5
Dopo aver esplicitato la formula di E [ jX
ed in…ne, m = 2.
mj ] se ne calcoli il valore per m = , m = M e
Scaricato da ahmed ouerghemi (ahouerghemi@gmail.com)
lOMoARcPSD|2790231
58
5.2.2
5. Analisi di v.s. quantitative - Indicatori di variabilità
Varianza e scarto quadratico medio
Un altro modo di misurare la distanza di ciascuna realizzazione xi (o centro di classe xC
i )
dalla media aritmetica è quello di considerare gli scostamenti da presi al quadrato
(xi
)2
per i = 1; : : : ; k
e calcolarne la media aritmetica. L’indicatore risultante è detto varianza.
De…nizione 15 (Varianza) La varianza della v.s. quantitativa a valori reali X è la
media aritmetica del quadrato degli scarti di ogni singolo dato da (la media aritmetica
di X). Essa è indicata con V ar(X) oppure con 2 (leggasi sigma quadro) e corrisponde
al risultato dell’operazione:
V ar(X) =
k
X
(xi
)2 fi =
2
(xC
i
)2 fi =
2
:
i=1
Quando X è una v.s. in classi:
V ar(X) =
k
X
:
i=1
Utilizzando l’operatore E [ ] la varianza si scrive:
V ar(X) = E (X
)2 =
2
:
La varianza è uno degli indicatori più importanti dell’analisi statistica: essa può essere
interpretata come la misura della perdita di informazione che si ha nel momento in cui
si sostituisce all’intera distribuzione di X il solo numero (si veda la Proposizione 4).
Trattandosi di una grandezza quadratica, l’unità di misura della varianza è il quadrato
dell’unità di misura dei dati originari. Per riportare l’indicatore all’unità di misura di X
è su¢ciente estrarne la radice quadrata pervenendo al cosiddetto scarto quadratico medio
(dalla media aritmetica), o più semplicemente deviazione standard.
De…nizione 16 (Deviazione Standard) La deviazione standard (o scarto quadratico
medio) è la radice quadrata della varianza e si indica con la lettera (leggasi sigma).
In conclusione, è una misura della distanza dei dati dalla media aritmetica, che, come
abbiamo visto, è il baricentro della distribuzione. La sua costruzione si basa infatti su una
generalizzazione del Teorema di Pitagora a partire dal quale, lo ricordiamo, si de…nisce la
distanza euclidéa. Di conseguenza,
0 e = 0 se e solo se tutte le realizzazioni di X
sono uguali tra di loro (ossia, quando non c’è variabilità).
Scaricato da ahmed ouerghemi (ahouerghemi@gmail.com)
lOMoARcPSD|2790231
5.2 Variabilità rispetto ad un valore medio
59
In linea di principio, è sempre possibile de…nire delle misure di variabilità quadratiche a
partire da una qualsiasi media m, introducendo lo scarto quadratico medio da m:
q
E (X m)2 :
Ricordando la proprietà dei minimi quadrati della media aritmetica (Proposizione 4) si
ha:
q
E (X m)2 :
In altre parole, lo scarto quadratico medio (calcolato a partire da ) è più piccolo o
uguale dello scarto quadratico medio calcolato da qualsiasi altra media m. Si noti che,
salvo diversa indicazione, lo scarto quadratico medio si intende calcolato da .
Vediamo ora alcune utili proprietà della varianza. La prima, riportata qui di seguito,
fornisce una formula alternativa per il calcolo dell’indicatore di immediato utilizzo.
Proposizione 5 La varianza può essere calcolata come di¤erenza tra la media aritmetica
dei quadrati e la media artimetica al quadrato:
2
V ar(X) = E X 2
:
Dim.
Partendo dalla de…nizione e sviluppando il quadrato del binomio all’interno dell’operatore,
si ha:
V ar(X) = E (X
)2 = E X 2 2X + 2 :
Utilizzando in…ne la proprietà di linearità (Proposizione 2), possiamo scrivere:
E X2
2X +
2
= E X2
2 E [X] +
2
= E X2
2
:
La seconda proprietà che illustriamo, descrive il comportamento dell’indicatore rispetto
alle traslazioni e ai cambi di scala (ossia, alle trasformazioni lineari a¢ni dei dati).
Proposizione 6 Siano a; b 2 R e sia Y = a + bX, allora
V ar(Y ) = b2 V ar(X):
Dim.
Ricordando che Y = a + bX e che, per la Proposizione 2, E [Y ] = a + b
media aritmetica di X), allora, per la de…nizione di varianza di Y si ha:
V ar(Y ) = E (Y
E [Y ])2 = E (a + bX
a
b )2 = E b2 (X
Scaricato da ahmed ouerghemi (ahouerghemi@gmail.com)
(ove
)2 :
è la
lOMoARcPSD|2790231
60
5. Analisi di v.s. quantitative - Indicatori di variabilità
Sempre la proprietà di linearità ci permette di scrivere
E b2 (X
)2 = b2 E (X
{z
|
V ar(X)
)2 :
}
In altre parole, la varianza è un indicatore invariante per traslazione (ossia non cambia
se si aggiunge una costante a alla variabile) ma risente di un cambiamento di scala (viene
ad essere moltiplicata per il fattore di scala b al quadrato). Di conseguenza, lo scarto
quadratico medio di Y sarà pari a jbj .
Esercizio 17 La v.s. quantitativa X ha la seguente distribuzione di frequenze relative:
X
1
0
2
5
Freq. relat.
0:5
0:2
0:2
0:1
q
1) Dopo aver esplicitato la formula dello scarto quadratico medio da 3, ossia E (X 3)2 ,
se ne calcoli il valore nel caso in studio.
2) Si dica, senza e¤ettuare calcoli, se la quantità calcolata in precedenza sia maggiore,
uguale oppure minore dello scarto quadratico medio di X, motivando l’a¤ermazione
fatta.
Per concludere questa sezione dedicata alla varianza, accenniamo al fatto che si possa
realizzare una versione del box-plot utilizzando e . Il principio è quello di costruire
la scatola a partire dalla media (che ne è il centro) a cui si aggiunge e toglie . I ba¢
sono di lunghezza , sempre che non eccedano i limiti della distribuzione. Così facendo,
complessivamente il gra…co è simmetrico rispetto a è lungo al massimo 4 (ba¢ inclusi).
Le realizzazioni che eccedono i “ba¢” sono considerate outliers.
5.3
Misure relative di variabilità
Quando si vogliono confrontare misure di variabilità che non sono omogenee per quanto
concerne l’unità di misura e/o l’ordine di grandezza, è opportuno procedere alla relativizzazione delle stesse. Ciò si e¤ettua dividendo gli indici di variabilità in esame per un
qualsiasi indice di posizione, purché la variabile abbia valori positivi (il carattere oggetto di analisi deve essere in scala per rapporti). Si ottengono in tal modo dei numeri
adimensionali (o numeri puri). Esempi di indici relativi di variabilità sono:
IQR
Range
;
;
Coe¢ciente di Variazione CV = :
Me
Scaricato da ahmed ouerghemi (ahouerghemi@gmail.com)
lOMoARcPSD|2790231
5.4 Indici di forma (cenni)
5.4
61
Indici di forma (cenni)
A partire dalla de…nizione di particolari trasformazioni della v.s. è possibile de…nire alcuni
indicatori che segnalano alcuni aspetti tipici delle distribuzioni; a titolo esempli…cativo ne
vediamo due.
Il primo indicatore che introduciamo permette di individuare se la v.s. X sia o meno
simmetrica rispetto a . Esso è basato sulla seguente quantità
)3
E (X
e la sua versione relativizzata, detta Indice di Skewness, è de…nita da:
1
=
)3
E (X
3
:
Tale indicatore è
nullo quando la variabile è simmetrica rispetto a ,
positivo nel caso di asimmetria dovuta alla presenza di una coda nella distribuzione
di frequenze che si prolunga a destra (anche nota come asimmetria positiva)
negativo nel caso di asimmetria negativa, ossia quando la distribuzione della v.s. presenta una coda che si prolunga a sinistra.
Il secondo indicatore è de…nito a partire dalla media degli scarti al quadrato dalla media
aritmetica :
E (X
)4 :
La sua versione relativizzata è detta Indice di Kurtosis
2
=
)4
E (X
4
e fornisce una misura del peso delle “code” della distribuzione di frequenze.
Scaricato da ahmed ouerghemi (ahouerghemi@gmail.com)
lOMoARcPSD|2790231
62
5. Analisi di v.s. quantitative - Indicatori di variabilità
Scaricato da ahmed ouerghemi (ahouerghemi@gmail.com)
lOMoARcPSD|2790231
Capitolo 6
Analisi di v.s. qualitative
Questo breve capitolo conclude la presentazione delle tecniche per l’analisi statistica univariata: esso è dedicato allo studio delle v.s. qualitative. Ci so¤ermeremo sui gra…ci
che possono essere utilizzati e su alcuni degli indicatori di sintesi della distribuzione di
frequenze.
In linea di massima, nello studio di v.s. qualitative è possibile fornire:
le distribuzioni di frequenze cumulate (solo nel caso di v.s. qualitative ordinali);
un indicatore di sintesi rappresentato dalla moda e, nel caso di variabili ordinali,
degli indicatori di posizione dati dai quantili;
indicatori della eterogeneità (e omogeneità).
6.1
Gra…ci per v.s. qualitative
La famiglia dei gra…ci per variabili qualitative è molto più vasta rispetto a quella per
le variabili quantitative. Dato che il carattere di riferimento non ha natura numerica, è
possibile giungere a rappresentazioni basate su ideogrammi. Per ragioni di semplicità ci
limitiamo a presentare le rappresentazioni più semplici e di diretta implementazione.
Diagrammi a barre o a canne d’organo
Il diagramma a barre è formato da k rettangoli non contigui di base uguale e le cui altezze
sono pari alle frequenze relative fi (o assolute ni ) delle realizzazioni xi della v.s.. Quando
il carattere in studio è sconnesso, le realizzazioni possono essere ordinate secondo i valori
decrescenti (o crescenti) delle rispettive frequenze. Il gra…co risultante è detto diagramma
di Pareto.
Scaricato da ahmed ouerghemi (ahouerghemi@gmail.com)
lOMoARcPSD|2790231
64
6. Analisi di v.s. qualitative
Esempio 25 Si consideri la distribuzione di frequenze della v.s. qualitativa X = “Settore
produttivo delle imprese artigiane operanti in provincia di Novara al 31/12 di un dato
anno”, visualizzata qui di seguito mediante un diagramma di Pareto.
Per procedere all’interpretazione è fondamentale capire qual è il collettivo: esso è costituito
dalle imprese artigiane operanti in provincia di Novara al 31/12 dell’anno considerato.
Tale collettivo si suddivide in k = 6 gruppi ciascuno dei quali è costituito da imprese
identiche per quanto riguarda il settore produttivo:
fX = xi g
i = 1; : : : ; 6:
La distribuzione di frequenze relative di X, riportata in tabella, è:
x1
x2
x3
x4
x5
x6
=
=
=
=
=
=
X
Fr. Rel.
Costruz.
0:25
0:23
Trasp.
Metalmec.
0:20
0:15
Servizi
0:12
Riparaz.
0:05
Ind. legg.
Appare evidente a questo punto che il 25% delle imprese artigiane osservate opera nel
settore delle costruzioni, il 23% nei trasporti, ecc..
Diagramma a colonne
Il diagramma a colonne è utile per descrivere come un carattere qualitativo si ripartisce
sul collettivo. Un rettangolo di altezza L viene suddiviso in k rettangoli contigui (uno per
ciascuna delle realizzazioni xi di X) di altezze rispettive L fi .
Diagramma a settori circolari (o torta)
Il diagramma a settori circolari (o torta) è costruito secondo un principo analogo al precedente: un cerchio è suddiviso in k settori circolari (uno per realizzazione), ciascuno di
ampiezza 360o fi .
Scaricato da ahmed ouerghemi (ahouerghemi@gmail.com)
lOMoARcPSD|2790231
6.2 Analisi dell’eterogeneità (cenni)
6.2
65
Analisi dell’eterogeneità (cenni)
Per le variabili quantitative, la variabilità costituisce un concetto chiave: in modo equivalente, nel caso di caratteri qualitativi, l’attitudine della variabile a manifestarsi con
modalità diversi…cate è detta eterogeneità. Per …ssare le idee, diciamo che la v.s. qualitativa X è massimamente omogenea (o minimamente eterogenea) quando il fenomeno
si manifesta con una sola realizzazione x1 e quindi, qualunque sia l’unità osservata si ha
X = x1 (la variabile è degenere). In tal caso la distribuzione di frequenze si presenta nel
modo seguente:
X Fr. Ass. Fr. Rel.
x1
N
1
Diciamo invece che X è massimamente eterogenea (o minimamente omogenea) quando
n1 = n2 =
= nk
f1 = f2 =
= fk
ossia quando
il che equivale a
1
;
per i = 1; 2; : : : ; k:
k
In tal caso, il fenomeno non manifesta alcuna predilezione per l’una o l’altra modalità
osservate.
Si tratta chiaramente di due situazioni estreme e di¢cilmente riscontrabili nella realtà. In
pratica si possono incontrare in…nite situazioni intermedie ed è quindi opportuno fornire
una valutazione di quanto ci si avvicina (o ci si allontana) da esse, misurando il grado di
eterogeneità (o di omogeneità). A tal …ne sono stati introdotti innumerevoli indicatori: a
scopo puramente introduttivo si presenta quello dovuto a Corrado Gini.
fi =
De…nizione 17 (Indice di eterogeneità di Gini) L’indice di eterogeneità di Gini è
de…nito come segue:
k
X
I=1
fi2 :
i=1
Se siamo in presenza di massima omogeneità (ossia, f1 = 1) allora
I=1
1=0
mentre nel caso di massima eterogenità (cioé quando fi = 1=k) si ha
I=1
k
1
k
2
=1
k 1
1
=
:
k
k
Scaricato da ahmed ouerghemi (ahouerghemi@gmail.com)
lOMoARcPSD|2790231
66
6. Analisi di v.s. qualitative
Ciò permette di costruire una versione normalizzata (ossia, che ha valori tra 0 e 1) dell’indice di Gini. A tal …ne è su¢ciente rapportare I al suo massimo, ossia al valore assunto
in caso di massima eterogeneità:
I? =
k
I
1
=I
k
k
1
:
k
Esempio 26 Riprendiamo i dati dell’Esercizio 25 e calcoliamo l’indice di eterogeneità di
Gini e la sua versione normalizzata:
0:252 + 0:232 + 0:202 + 0:152 + 0:122 + 0:052 = 0:8052;
6
I ? = 0:8052
= 0:9664:
5
I=1
L’indice normalizzato segnala che la popolazione delle imprese artigiane in studio è molto
eterogenea rispetto al settore produttivo.
Scaricato da ahmed ouerghemi (ahouerghemi@gmail.com)
lOMoARcPSD|2790231
Analisi Statistica Bivariata
Scaricato da ahmed ouerghemi (ahouerghemi@gmail.com)
lOMoARcPSD|2790231
Scaricato da ahmed ouerghemi (ahouerghemi@gmail.com)
lOMoARcPSD|2790231
Capitolo 7
Variabili statistiche doppie
Il presente capitolo ed i due che seguono sono dedicati allo studio simultaneo di due
variabili statistiche, che denominiamo X ed Y , de…nite sulla stessa popolazione U, introducendo le cosiddette analisi statistiche bivariate. Il nostro obiettivo è quello di presentare
delle tecniche che permettano di individuare l’esistenza di legami tra le variabili considerate e di stabilirne la natura: in generale si parla di studio della dipendenza. In taluni casi
il legame individuato può essere approssimato in modo soddisfacente mediante l’impiego
di modelli esplicativi.
Dal punto di vista formale, dobbiamo introdurre una leggera complicazione nella descrizione della rilevazione de…nendo le v.s. doppie (o bidimensionali): la loro de…nizione
e lo studio delle loro distribuzioni di frequenze sono l’oggetto principale del presente
capitolo.
7.1
Introduzione
Consideriamo un collettivo U, con #U = N (con N > 0 intero e …nito), un primo
carattere (qualitativo o quantitativo) cui è associato l’insieme di modalità M1 ed un
secondo carattere (qualitativo o quantitativo) con modalità raccolte nell’insieme M2 .
Volendo trattare contemporaneamente i suddetti caratteri si rende necessario individuare
tutte le coppie di modalità possibili: in sostanza si tratta di costruire il prodotto cartesiano
M1 M2 dei due insiemi di modalità.
Generalizzando i concetti introdotti nella Parte I al contesto bivariato, con la rilevazione si
associa a ciascun individuo u una ed una sola coppia di modalità, elemento del prodotto
cartesiano M1 M2 . Per formalizzare tale meccanismo è conveniente introdurre una
generalizzazione del concetto di v.s., ossia la variabile statistica doppia.
Scaricato da ahmed ouerghemi (ahouerghemi@gmail.com)
lOMoARcPSD|2790231
70
7. Variabili statistiche doppie
De…nizione 18 (Variabile doppia) Si chiama v.s. doppia la funzione
(X; Y ) : U ! M1
M2
che ad ogni unità statistica u 2 U associa una e una sola coppia di modalità in M1 M2 :
uv 7! (X(u ); Y (u ))
v = 1; : : : ; N:
Il risultato (X(u ); Y (u )) dell’osservazione simultanea dei caratteri sulla unità statistica
u è detto v-ma coppia di dati individuali.
In base alla natura dei caratteri osservati possiamo fornire una classi…cazione delle v.s. doppie:
1. se i due caratteri sono qualitativi allora diciamo (X; Y ) v.s. doppia qualitativa (o
mutabile doppia),
2. se i due caratteri sono quantitativi allora parliamo di v.s. doppia quantitativa (o
variabile doppia),
3. se un carattere è qualitativo e l’altro quantitativo allora si ha una v.s. doppia mista.
La matrice dei dati (dataset) derivante dalla rilevazione congiunta di due caratteri è
l’insieme delle coppie:
f(X(u ); Y (u )) ; v = 1; : : : ; N g :
Per comodità, essa è riportata in una tabella come segue:
U
u1
u2
u3
..
.
X
X(u1 )
X(u2 )
X(u3 )
..
.
Y
Y (u1 )
Y (u2 )
Y (u3 )
..
.
u
..
.
X(u )
..
.
Y (u )
..
.
uN
X(uN )
Y (uN )
Ogni riga di tale tabella contiene l’informazione congiunta sui due caratteri riferita a ciascuna unità statistica: non è lecito riordinare gli elementi di una colonna senza modi…care
coerentemente l’ordine di quelli dell’altra. D’altro canto è sempre possibile trattare separatamente X ed Y : le v.s. univariate X ed Y sono dette v.s. marginali della v.s. doppia
(X; Y ).
Scaricato da ahmed ouerghemi (ahouerghemi@gmail.com)
lOMoARcPSD|2790231
7.2 Distribuzioni congiunte di frequenze
7.2
71
Distribuzioni congiunte di frequenze
Ci poniamo ora l’obiettivo di riassumere il dataset in modo da ottenere una sintesi. Procedendo in modo simile al contesto univariato, si deve ordinare (sulla base di un qualche
criterio) l’intera matrice dei dati secondo gli elementi distinti di X e quindi secondo quelli
di Y : si perviene ad una riorganizzazione in blocchi ognuno dei quali contiene le medesime
coppie di modalità. Indicando con:
xi ciascuno dei k (con k > 0 intero e k N ) elementi distinti (e, quando è lecito,
ordinati) presenti nell’insieme dei dati originari di X (ossia, xi 2 Im (X)),
yj ciascuno degli m (con m > 0 intero e m
N ) elementi distinti (e, quando è
lecito, ordinati) presenti nell’insieme dei dati originari di Y (ossia, yj 2 Im (Y )),
(xi ; yj ) una generica coppia distinta che è stata rilevata,
allora l’insieme immagine della funzione (X; Y ), è dato da:
Im (X; Y ) = f(xi ; yj ) : 9u 2 U; (X(u ); Y (u )) = (xi ; yj )g :
Analogamente al caso univariato, la coppia (xi ; yj ) è detta realizzazione della v.s. doppia
(X; Y ).
Esempio 27 Si consideri la v.s. (X; Y ) a cui è associata la seguente matrice dei dati:
U
u1
u2
u3
u4
X
a
a
a
b
Y
1
2
2
1
U
u5
u6
u7
u8
X
b
a
b
a
Y
2
2
1
1
Riorganizzando la matrice precedente, usando l’ordine alfabetico per X e l’ordinamento
naturale per Y , si ottiene:
U X Y
u1 a 1
u8 a 1
u2 a 2
u3 a 2
u6 a 2
u4 b 1
u7 b 1
u5 b 2
Scaricato da ahmed ouerghemi (ahouerghemi@gmail.com)
lOMoARcPSD|2790231
72
7. Variabili statistiche doppie
Dato che
x1 = a;
x2 = b;
y1 = 1;
y2 = 2
si ha
Im (X; Y ) =
(a; 1) ; (a; 2)
(b; 1) ; (b; 2)
e quindi la v.s. doppia (X; Y ) è:
8
(a; 1)
>
>
<
(a; 2)
(X; Y ) (uv ) =
(b; 1)
>
>
:
(b; 2)
v
v
v
v
= 1; 8
= 2; 3; 6
= 4; 7
=5
Possiamo osservare che Im (X; Y ) è un sottoinsieme del prodotto cartesiano Im (X)
Im (Y ). Dato che quest’ultimo è costituito da tutte le k m coppie ottenute abbinando
a ciascun xi tutti gli elementi yj :
Im (X)
Im (Y ) = f(x1 ; y1 ) ; (x1 ; y2 ) ; : : : ; (x1 ; ym ) ; (x2 ; y1 ) ; : : : ; (xk ; ym )g
= f(xi ; yj ) ; i = 1; : : : ; k; j = 1; : : : ; mg ;
e poiché non tutte le coppie (xi ; yj ) vengono ad essere necessariamente osservate, i due
insiemi non sempre coincidono. Col solo intento di far comprendere tale aspetto, nel
seguente esempio mostriamo una situazione in cui Im (X; Y ) & Im (X) Im (Y ).
Esempio 28 Si consideri la v.s. (X; Y ) a cui è associata la seguente matrice dei dati:
U
u1
u2
u3
u4
X
a
a
a
b
Y
1
2
2
1
In questo esempio, tramite la variabile statistica X, il collettivo ha espresso le modalità
a e b, ossia Im (X) = fx1 ; x2 g = fa; bg, mentre ha espresso modalità 1 e 2 tramite
la variabile statistica Y , ossia Im (Y ) = fy1 ; y2 g = f1; 2g. Di conseguenza, il prodotto
cartesiano tra le immagini di X e Y è Im (X) Im (Y ) = f(a; 1) ; (a; 2) ; (b; 1) ; (b; 2)g che
però non combacia con l’insieme delle realizzazioni della v.s. doppia (X; Y ). Infatti, non
vi è nessun elemento del collettivo a cui è associata la modalità (b; 2), ossia Im (X; Y ) =
f(a; 1) ; (a; 2) ; (b; 1)g
Scaricato da ahmed ouerghemi (ahouerghemi@gmail.com)
lOMoARcPSD|2790231
7.2 Distribuzioni congiunte di frequenze
73
L’operazione di ordinamento congiunto e¤ettuato sul dataset permette di individuare quei
gruppi di unità statistiche (ossia quelle parti di U) su cui è stata osservata simultanemente
la medesima realizzazione (xi ; yj ):
fu 2 U : X(u ) = xi ; Y (u ) = yj g
= (in modo abbreviato) =
= fX = xi ; Y = yj g:
In altri termini, fX = xi ; Y = yj g è la controimmagine di (xi ; yj ) tramite (X; Y ) ed è
dato dall’intersezione di fX = xi g e fY = yj g:
fX = xi ; Y = yj g = fX = xi g \ fY = yj g:
Ciascuno degli insiemi fX = xi ; Y = yj g non presenta elementi in comune con gli altri e
la loro unione restituisce l’intero U (costituendone così una partizione).
Una volta individuati i gruppi di unità statistiche, è possibile calcolarne le frequenze:
chiamiamo frequenza congiunta assoluta della realizzazione (xi ; yj ) il numero nij di unità
statistiche su cui essa è stata rilevata:
nij = # fX = xi ; Y = yj g :
Analogamente si dice frequenza congiunta relativa corrispondente la quantità:
fij = Freq (X = xi ; Y = yj ) =
nij
N
che esprime la proporzione di unità statistiche a cui è stata associata la realizzazione
(xi ; yj ).
Esempio 29 A partire dal dataset dell’Esempio 27 si individuano i sottoinsiemi di U che
seguono:
fX
fX
fX
fX
= a;
= a;
= b;
= b;
Y
Y
Y
Y
= 1g = fu1 ; u8 g ;
= 2g = fu2 ; u3 ; u6 g ;
= 1g = fu4 ; u7 g ;
= 2g = fu5 g ;
per ottenere
n11 = 2;
n12 = 3;
n21 = 2;
n22 = 1:
Calcolando le frequenze per ciascuno dei blocchi individuati, ossia e¤ettuando lo spoglio dei
dati, si perviene, come nel caso univariato, alla distribuzione di frequenze della v.s. doppia
(X; Y ).
Scaricato da ahmed ouerghemi (ahouerghemi@gmail.com)
lOMoARcPSD|2790231
74
7. Variabili statistiche doppie
De…nizione 19 (Distribuzione congiunta di frequenze) Si chiama distribuzione congiunta di frequenza assoluta (risp. relativa) della v.s. (X; Y ) l’insieme delle terne f(xi ; yj ; nij ),
con (xi ; yj ) 2 Im (X; Y )g (risp. f(xi ; yj ; fij ), con (xi ; yj ) 2 Im (X; Y )g) ossia, il gra…co della funzione che ad ogni (xi ; yj ) assegna la corrispondente frequenza assoluta nij
(risp. relativa fij )..
Per comodità, l’individuazione delle coppie (xi ; yj ) avviene ricorrendo ad una tabella a
doppia entrata le cui righe sono intestate dai valori distinti xi di X e le colonne dai valori
distinti yj di Y . In pratica, si utilizza l’insieme delle k m coppie Im (X) Im (Y ) in
luogo di Im (X; Y ); così facendo però alcuni dei gruppi individuati potrebbero essere vuoti
(dato che alcune delle coppie individuate (xi ; yj ) potrebbero non essere state osservate)
ed avere quindi frequenza nulla.
Per ottenere l’intera distribuzione congiunta di frequenze si completa la tabella a doppia
entrata collocando le frequenze all’interno delle celle della stessa. L’informazione sulla
generica coppia (xi ; yj ) si può così leggere in corrispondenza dell’intersezione della riga
i-ma e della colonna j-ma. La tabella così completata viene detta tavola di contingenza:
#X
y1
n11
n21
..
.
y2
n12
n22
..
.
xi
..
.
ni1
..
.
ni2
..
.
xk
Tot. colonna
nk1
n1
nk2
n2
x1
x2
..
.
Y !
...
yj
n1j
n2j
..
.
..
nij
..
.
.
nkj
nj
...
ym
n1m
n2m
..
.
Tot. riga
n1
n2
..
.
..
nim
..
.
ni
..
.
nkm
nm
nk
N
.
Come avviene nel caso univariato la somma delle frequenze assolute deve restituire la
numerosità N del collettivo:
n1;1 + n1;2 +
+ n1;m +
+ n2;1 + n2;2 +
+ n2;m +
:::
:::
+ nk;1 + nk;2 +
+ nk;m = N:
Introducendo il simbolo di doppia sommatoria il calcolo precedente può essere riscritto in
modo compatto come segue:
k X
m
X
nij = N:
i=1 j=1
Le quantità:
Scaricato da ahmed ouerghemi (ahouerghemi@gmail.com)
lOMoARcPSD|2790231
7.2 Distribuzioni congiunte di frequenze
ni =
nj=
Pm
j=1
Pk
i=1
nij ;
i = 1; 2; : : : ; k;
nij ;
j = 1; 2; : : : ; m;
75
sono dette frequenze assolute marginali di riga e di colonna rispettivamente. Prese
separatamente, le distribuzioni di frequenze marginali identi…cano le distribuzioni delle
v.s. X ed Y , ossia rispettivamente, f(xi ; ni ) ; i = 1; 2; : : : ; kg e f(yj ; n j ) ; j = 1; 2; : : : ; mg,
e quindi:
k
m
X
X
ni =
n j = N:
i=1
j=1
In modo del tutto analogo, la tavola di contingenza può contenere le frequenze congiunte
relative:
nij
;
i = 1; : : : ; k; j = 1; : : : ; m;
fij =
N
e quelle relative marginali:
fi =
ni
;
N
i = 1; : : : ; k;
fj=
nj
;
N
j = 1; : : : ; m:
Esempio 30 Riprendendo i dati dell’Esempio 27, si giunge alla compilazione delle seguenti tavole di contingenza (quella di sinistra raccoglie la distribuzione di frequenze assolute,
mentre quella di destra la distribuzione di frequenze relative):
#X
Y !
a
b
Tot. col.
1
2
2
4
2
3
1
4
#X
Tot. riga
5
3
8
Y !
a
b
Tot. col.
1
0:25
0:25
0:5
2
0:375
0:125
0:5
Tot. riga
0:625
0:375
1
Nel caso in cui X e/o Y siano v.s. a valori reali con un elevato numero di realizzazioni, è
conveniente e¤ettuare lo spoglio utilizzando dati raccolti in classi di misure.
Per …ssare le idee, concludiamo la sezione con un esempio di riepilogo.
Esempio 31 Consideriamo la popolazione
U = fu1 ; : : : ; u10 g
e la v.s. doppia
(X; Y ) : U ! R
R
Scaricato da ahmed ouerghemi (ahouerghemi@gmail.com)
lOMoARcPSD|2790231
76
7. Variabili statistiche doppie
cui è associato il seguente dataset:
U
u1
u2
u3
u4
u5
X
1
0
1
0
2
Y
1
0
1
0
1
U
u6
u7
u8
u9
u10
X
1
1
0
2
1
Y
1
0
0
1
0
Si supponga ora di voler procedere allo spoglio, ossia, individuare gli insiemi fX = xi ; Y = yj g
per poi calcolarne la frequenza congiunta Freq (X = xi ; Y = yj ).
Il primo passo da compiere è stabilire l’immagine della funzione (X; Y ). Dato che i valori
distinti e ordinati in Im (X) sono 0; 1; 2, mentre quelli in Im (Y ) sono 1; 0, e dato che
le coppie (0; 1) e (2; 0) non sono state rilevate, allora si ha:
8
9
< (0; 1) (0; 0) =
(0; 0) (1; 1)
(1; 1) (1; 0)
:
Im (X) Im (Y ) =
Im (X; Y ) =
(1;
0) (2; 1)
:
;
(2; 1) (2; 0)
A questo punto è immediato constatare che il collettivo può essere partizionato nei seguenti
quattro gruppi, ognuno dei quali è la controimmagine di una particolare coppia di valori
(xi ; yj ) attraverso (X; Y ):
fX = x1 ; Y = y2 g = fX = 0; Y = 0g = fu2 ; u4 ; u8 g ;
fX = x2 ; Y = y1 g = fX = 1; Y = 1g = fu1 ; u3 ; u6 g ;
fX = x2 ; Y = y2 g = fX = 1; Y = 0g = fu7 ; u10 g ;
fX = x3 ; Y = y1 g = fX = 2; Y = 1g = fu5 ; u9 g :
La frequenza associata a ciascuno di tali insiemi è dunque:
Freq (X = x1 ; Y = y2 ) = 3=10 = f1;2 ;
Freq (X = x2 ; Y = y1 ) = 3=10 = f2;1 ;
Freq (X = x2 ; Y = y2 ) = 2=10 = f2;2 ;
Freq (X = x3 ; Y = y1 ) = 2=10 = f3;1 :
La tavola di contingenza che raccoglie la distribuzione di frequenze relative della v.s. doppia
quantitativa (X; Y ) è in…ne data da:
#X
Y !
0
1
2
Tot. col.
1
0
0:3
0:2
0:5
0
0:3
0:2
0
0:5
Tot. riga
0:3
0:5
0:2
1
ove f1;1 = f3;2 = 0 dato che fX = x1 ; Y = y1 g = fX = x3 ; Y = y2 g = ?.
Scaricato da ahmed ouerghemi (ahouerghemi@gmail.com)
lOMoARcPSD|2790231
7.3 Prime rappresentazioni gra…che bivariate
7.3
77
Prime rappresentazioni gra…che bivariate
Come già osservato, nello studio congiunto di due caratteri l’obiettivo primario è quello
di cogliere la natura di eventuali legami tra le variabili in gioco. In prima battuta è
quindi utile visualizzare la distribuzione congiunta mediante una rappresentazione gra…ca
in modo da individuare l’esistenza di tali legami.
Diagramma a barre 3D
Nel caso di una v.s. doppia qualitativa la distribuzione congiunta delle frequenze può essere
rappresentata mediante un diagramma in tre dimensioni. Un piano raccoglie il prodotto
cartesiano delle modalità distinte di X e di Y ; in corrispondenza di ogni coppia (xi ; yj )
viene collocata una “colonna” (un cilindro o un parallelepipedo rettangolo) di altezza
proporzionale alla frequenza congiunta nij (o equivalentemente fij ). Il gra…co risultante
presenta il limite di non essere di facile lettura.
Diagramma a Dispersione o Scatterplot
Consideriamo una v.s. doppia le cui componenti sono entrambe quantitative a valori reali.
Volendo visualizzare la distribuzione congiunta è utile rappresentare le osservazioni su un
piano cartesiano: la posizione sul piano di ogni osservazione viene fornita dal punto di
ascissa xi e di ordinata yj . I punti possono essere sostituiti da …gure geometriche piane
quando si voglia porre l’attenzione anche sulle frequenze nij . Per esempio, si possono
utilizzare dei cerchi il cui diametro è proporzionale alle frequenze.
L’insieme dei punti (o nuvola di punti) che si ottiene fornisce visivamente un’idea della
variazione congiunta delle due variabili.
Esercizio 18 Si consideri il diagramma a dispersione che segue relativo alla distribuzione
congiunta di una v.s. doppia quantitativa (X; Y ). Si supponga che ogni cerchietto individui
una coppia di valori (xi ; yj ) che si presenta con la stessa frequenza.
Scrivere la tavola di contingenza associata.
Scaricato da ahmed ouerghemi (ahouerghemi@gmail.com)
lOMoARcPSD|2790231
78
7. Variabili statistiche doppie
Scaricato da ahmed ouerghemi (ahouerghemi@gmail.com)
lOMoARcPSD|2790231
Capitolo 8
Strati…cazione del collettivo:
v.s. condizionate
La sola ispezione della tavola di contingenza è sovente poco illuminante ai …ni dell’individuazione di eventuali legami tra le variabili. In modo molto intuitivo possiamo dire
che sussiste un legame tra le v.s. Y ed X quando le unità statistiche componenti i gruppi de…niti dalle controimmagini di una sola delle due v.s. (per esempio, X) presentano
comportamenti diversi circa l’altra variabile (nel nostro caso, Y ). Ciò si traduce nel fare
riferimento alle singole righe e/o colonne della tabella e conduce a calcolare le cosiddette
distribuzioni condizionate.
Esempio 32 Si consideri una popolazione costituita dai 70 clienti che hanno acquistato
una sola rivista in una certa edicola in un dato giorno. Il venditore annota, per ciascuno
dei suddetti clienti due caratteristiche: il sesso (M o F) e la rivista acquistata (A o B).
La distribuzione congiunta risultante è:
# X = Sesso
Y = Rivista !
M
F
Tot. col.
A
12
16
28
B
18
24
42
Tot. riga
30
40
70
Ci si può domandare se il comportamento dei maschi sia di¤erenziato da quello delle
femmine circa la rivista acquistata. Consideriamo quindi i soli maschi, ossia l’insieme
fuv : X (uv ) = M g: su 30 unità statistiche, 12 hanno acquistato la rivista A e 18 la B (in
percentuale, il 40% ed il 60%). Se analizziamo le sole femmine, ossia fuv : X (uv ) = F g,
su 40 unità, 16 hanno preferito A e le restanti B (in percentuale, il 40% ed il 60%). Ciò
signi…ca che le preferenze di acquisto non sono legate al sesso dell’acquirente: a livello di
popolazione totale, su 70 unità statistiche, 28 (il 40% della popolazione) hanno acquistato
A e le restanti 42 (il 60%) la rivista B.
Scaricato da ahmed ouerghemi (ahouerghemi@gmail.com)
lOMoARcPSD|2790231
80
8. Strati…cazione del collettivo: v.s. condizionate
Nelle pagine che seguono, dopo aver introdotto il concetto di variabile statistica condizionata e di distribuzione di frequenza condizionata, esploreremo le tecniche statistiche che
possono essere utilizzate per fornire idonee rappresentazioni gra…che e opportune misure
di sintesi.
8.1
Variabili statistiche condizionate
Data la v.s. doppia (X; Y ), consideriamo la sola componente marginale X e le sue k realizzazioni fx1 ; x2 ; : : : ; xk g = Im (X). Come abbiamo visto, ad ogni modalità xi corrisponde
il sottoinsieme fX = xi g di U costituito dalle unità statistiche messe in corrispondenza
con xi tramite X. La de…nizione di tali gruppi permette di e¤ettuare una strati…cazione
del collettivo rispetto alle realizzazioni della v.s X. Dal momento che # Im (X) = k,
allora U può essere strati…cato (o partizionato) in k gruppi.
A questo punto è possibile studiare il comportamento della v.s. Y all’interno di ciascuno
dei k gruppi appena de…niti. In pratica, si studiano le restrizioni di Y a fX = xi g, ossia
k nuove v.s. che indichiamo
(Y jX = xi ) : fu 2 U : X(u ) = xi g ! M2
i = 1; 2; : : : ; k;
ove (Y jX = xi ) si legge “Y dato X = xi ”. Tali v.s. vengono chiamate v.s. condizionate
(in questo caso, v.s. Y condizionato ad X = xi ).
Le distribuzioni di frequenze relative di dette variabili sono chiamate distribuzioni condizionate: per ogni i = 1; : : : ; k, esse descrivono il comportamento della v.s. Y limitatamente alla parte della popolazione su cui è stata osservata X = xi . Facendo riferimento
allo strato i-mo, si de…nisce frequenza condizionata di yj dato xi la seguente quantità:
Freq (Y = yj j X = xi ) =
Freq (X = xi ; Y = yj )
fij
nij =N
nij
=
=
=
Freq (X = xi )
fi
ni =N
ni
ove fY = yj j X = xi g è l’insieme delle unità statistiche su cui si è osservato Y = yj
condizionatamente al fatto che per esse è stato rilevato X = xi . In altre parole, la
frequenza di yj condizionata ad xi è la frequenza congiunta fij messa in relazione al peso
dello strato fX = xi g, ossia fi . Per semplicità d’ora in avanti utilizzeremo la seguente
notazione:
Freq (Y = yj j X = xi ) = f (yj jxi ) :
Esempio 33 Con riferimento ai dati dell’Esempio 32, la frequenza di clienti che hanno
acquistato la rivista A (Y = A), limitatamente al gruppo dei maschi (ossia, condizionatamente al fatto che X = M ) è:
Freq (Y = A j X = M ) =
12=70
12
Freq (X = M; Y = A)
=
=
= 40%:
Freq (X = M )
30=70
30
Scaricato da ahmed ouerghemi (ahouerghemi@gmail.com)
lOMoARcPSD|2790231
8.1 Variabili statistiche condizionate
81
Raccogliendo le distribuzioni condizionate in forma tabellare, si perviene ai cosiddetti
“pro…li”.
De…nizione 20 (Distribuzioni condizionate - Pro…li-riga) Diciamo i-mo pro…loriga la distribuzione di frequenze relative della v.s. condizionata (Y jxi ):
y1
Y
Freq (Y jxi )
y2
f (y1 jxi ) =
ni1
ni
ym
f (y2 jxi ) =
ni2
ni
f (ym jxi ) =
Tot.
nim
ni
1
Tutte le distribuzioni condizionate possono essere raccolte in un’unica tabella, detta tabella
dei pro…li-riga:
(Y jX)
Freq(Y jx1 )
Freq(Y jx2 )
..
.
y1
f (y1 jx1 )
f (y1 jx2 )
..
.
y2
f (y2 jx1 )
f (y2 jx2 )
..
.
..
Freq(Y jxi )
..
.
f (y1 jxi )
..
.
f (y2 jxi )
..
.
Freq(Y jxk )
f (y1 jxk )
f (y2 jxk )
.
ym
f (ym jx1 )
f (ym jx2 )
..
.
Tot. riga
1
1
..
.
...
f (ym jxi )
..
.
1
..
.
f (ym jxk )
1
.
yj
f (yj jx1 )
f (yj jx2 )
..
.
..
...
f (yj jxi )
..
.
f (yj jxk )
Esempio 34 La tabella dei pro…li-riga costruita a partire dalla distribuzione congiunta
dell’Esempio 32 è:
# X = Sesso Y = Rivista !
Freq(Y j M )
Freq(Y j F )
Freq(Y )
A
0:4
0:4
0:4
B
0:6
0:6
0:6
Tot. riga
1
1
1
Esercizio 19 Da un’indagine compiuta su una popolazione di 800 studenti con età compresa tra i 15 e i 25 anni compiuti risulta che l’ 80% dei maschi è iscritto a un social
network. Tale percentuale sale all’ 85% per le femmine. Sapendo che il 40% degli intervistati è di sesso femminile, completare la distribuzione congiunta di frequenze assolute,
in forma di tavola di contingenza, che sintetizza quanto descritto in precedenza, riportata
qui di seguito.
# Sesso / Iscritto ! Si No Tot.
M
F
Tot.
Scaricato da ahmed ouerghemi (ahouerghemi@gmail.com)
lOMoARcPSD|2790231
82
8. Strati…cazione del collettivo: v.s. condizionate
In modo del tutto analogo a quanto fatto in precedenza, è possibile strati…care il collettivo
rispetto alle m realizzazioni yj della v.s. Y : si introducono così le m v.s. condizionate
(XjY = yj ). A partire da tale strati…cazione de…niamo le corrispondenti distribuzioni di
frequenze condizionate di X alle realizzazioni yj di Y . Tali distribuzioni, per comodità,
vengono raccolte nella tabella dei pro…li-colonna che segue:
(XjY )
x1
x2
..
.
Freq(Xjy1 )
f (x1 jy1 ) = n11 =n
f (x2 jy1 ) = n21 =n
..
.
xi
..
.
f (xi jy1 ) = ni1 =n
..
.
xk
Tot.
f (xk jy1 ) = nk1 =n
1
8.2
1
1
1
1
Freq(Xjy2 )
f (x1 jy2 ) = n12 =n
f (x2 jy2 ) = n22 =n
..
.
f (xi jy2 ) = ni2 =n
..
.
f (xk jy2 ) = nk2 =n
1
2
2
2
2
..
.
...
...
Freq(Xjyj )
f (x1 jyj ) = n1j =n
f (x2 jyj ) = n2j =n
..
.
f (xi jyj ) = nij =n
..
.
f (xk jyj ) = nkj =n
1
j
j
j
..
.
...
...
j
Sintesi delle distribuzioni condizionate
Le v.s. condizionate appena introdotte sono di tipo univariato. Se sono quantitative, è
possibile valutarne tutti gli indicatori di sintesi visti nella prima parte del corso. Consideriamo, per esempio, la v.s. quantitativa (Y jxi ) (ciò signi…ca che Y è di tipo numerico):
la sua distribuzione di frequenze fa riferimento alla i-ma riga della tavola di contingenza
e risulta naturale de…nire la funzione di ripartizione condizionata, i quantili condizionati,
la moda condizionata, la media aritmetica condizionata, la varianza condizionata, ecc..
Nel caso di v.s. condizionate qualitative, la rappresentazione gra…ca più idonea è fornita
dal cosiddetto diagramma a colonne parallele o appaiate (una colonna per ciascuna distribuzione condizionata). Inoltre si può e¤ettuare lo studio della eterogeneità di ciascuna
v.s. condizionata.
8.2.1
Quantili condizionati e box-plot appaiati
Consideriamo la v.s. doppia (X; Y ) ove la v.s. Y è quantitativa e le v.s. condizionate
(Y jxi ); i = 1; : : : ; k (ovviamente, anch’esse quantitative). Possiamo introdurre sia la funzione di ripartizione per Y , sia le k funzioni di ripartizione condizionate, ciascuna delle
quali è de…nita da:
F (yjxi ) = Freq (Y
y j X = xi )
ed è ottenuta cumulando la distribuzione di frequenza di (Y jxi ) (ossia, nel nostro caso,
l’i-mo pro…lo-riga). Per …ssare le idee vediamo un esempio.
Scaricato da ahmed ouerghemi (ahouerghemi@gmail.com)
lOMoARcPSD|2790231
8.2 Sintesi delle distribuzioni condizionate
83
Esempio 35 Si consideri la distribuzione congiunta che segue:
#X
A
B
Y !
1
10
2
0
5
3
2
3
5
4
2
10
0
2
0:25 0:15
0:15 0:25
4
0:1
0:5
Dato che la tabella dei pro…li-riga è
#X Y !
1
Freq(Y jA)
0:5
Freq(Y jB)
0:1
Tot.
1
1
allora le due funzioni di ripartizione condizionate sono:
8
8
0
y
<
1
>
>
>
>
>
>
>
>
1 y<0
< 0:5
<
0:75
0 y<2
F (yjx1 ) =
F (yjx2 ) =
>
>
>
>
0:9
2
y
<
4
>
>
>
>
:
:
1
y 4
0
0:1
0:25
0:5
1
y< 1
1 y<0
0 y<2
2 y<4
y 4
A questo punto è immediato de…nire i quantili condizionati che si calcolano a partire
dalle funzioni di ripartizione condizionate. Molto importanti sono i quartili condizionati
che rappresentano la base per costruire i box-plot di ciascuna distribuzione condizionata:
a¢ancando i k gra…ci si perviene ad una rappresentazione che permette di percepire le
di¤erenze tra i diversi gruppi indotti dalla strati…cazione, in modo molto più e¢cace di
quello che si avrebbe se si usassero altre rappresentazioni gra…che.
Esempio 36 Riprendiamo i dati dell’Esempio 35. Procedendo al calcolo dei quartili
condizionati si ottengono i seguenti risultati:
Strato
fX = x1 g
fX = x2 g
Primo quartile Mediana Terzo quartile
1
0:5
1
1
3
4
Il gra…co con i box-plot appaiati è dunque:
Scaricato da ahmed ouerghemi (ahouerghemi@gmail.com)
lOMoARcPSD|2790231
84
8. Strati…cazione del collettivo: v.s. condizionate
Vale la pena osservare dal gra…co che la v.s. Y si comporta in maniera di¤erente all’interno dei due gruppi identi…cati da A e B. In particolare, il 75% delle unità statistiche
appartenenti al gruppo fX = Ag assume valori di Y minori o uguali ad 1, mentre al 75%
delle restanti unità statistiche vengono assegnati valori di Y maggiori o uguali ad 1.
8.2.2
Medie e varianze condizionate
Consideriamo la v.s. doppia (X; Y ) ove, ancora una volta, la v.s. Y è quantitativa a valori
reali (ossia, yj 2 R). Di quest’ultima possiamo calcolare la media aritmetica e la varianza
e 2 (in caso di ambiguità, quando anche X è quantitativa, scriveremo Y e Y2 ):
E [Y ] =
Pm
V ar(Y ) =
j=1
yj f j = ;
Pm
j=1 (yj
)2 f j =
2
:
Si può osservare che le de…nizioni sono quelle già date: l’unica di¤erenza risiede nell’impiego del doppio pedice per il simbolo di frequenza, dal momento che si fa riferimento
ai valori contenuti nella tavola di contingenza.
Come già abbiamo avuto modo di dire, anche per le v.s. condizionate (Y jxi ), con i =
1; 2; : : : ; k, è possible calcolare delle misure di posizione e di variabilità. Particolarmente importanti sono le loro medie aritmetiche e le varianze che vengono dette medie
condizionate e varianze condizionate.
Consideriamo dunque la v.s. (Y jxi ): calcolarne la media signi…ca determinare la media
aritmetica di Y facendo riferimento alle sole unità statistiche presenti nel sottoinsieme
fX = xi g di U su cui essa è de…nita. Il risultato viene indicato ricorrendo al consueto
simbolo cui è a¢ancato l’indice identi…cativo del gruppo di appartenenza (in caso di
ambiguità scriveremo Y jxi ):
E [Y jxi ] =
m
X
j=1
yj f (yj jxi ) =
i:
Utilizzando lo stesso ragionamento, si perviene al calcolo della media condizionata di una
qualsiasi trasformazione (ammissibile) g di Y :
E [g (Y ) jxi ] =
m
X
j=1
g (yj ) f (yj jxi ) :
In particolare è interessante introdurre:
Scaricato da ahmed ouerghemi (ahouerghemi@gmail.com)
lOMoARcPSD|2790231
8.2 Sintesi delle distribuzioni condizionate
85
la media dei quadrati (con la scelta: g (y) = y 2 )
2
E Y jxi =
m
X
j=1
yj2 f (yj jxi ) ;
la varianza condizionata che indichiamo, ove non sussistano ambiguità, i2 . La
2
trasformazione utilizzata è g (y) = (y
i ) (ovviamente, la media di riferimento è
i , ossia quella del gruppo i-mo). Tale scelta conduce a:
V ar (Y jxi ) =
m
X
(yj
i)
2
j=1
f (yj jxi ) =
2
i:
Come nel caso univariato, tale scrittura può essere ricondotta a quella che segue
mediante alcuni passaggi algebrici lasciati allo Studente:
V ar (Y jxi ) =
m
X
j=1
|
2
yj2 f (yj jxi )
{z
}
E[Y 2 jxi ]
i
|{z}
=
2
i:
(E[Y jxi ])2
Tutti i concetti introdotti possono essere estesi al caso in cui Y sia una v.s. in classi (ossia,
quando yj è una classe di valori): in tal caso è su¢ciente procedere ad una preventiva
discretizzazione per poi utilizzare i centri di classe yjC .
Riassumiamo quanto detto nella seguente de…nizione.
De…nizione 21 (Medie e varianze condizionate) Date le v.s. (Y jxi ) con i = 1; 2; : : : ; k,
de…niamo le medie condizionate:
E [Y jxi ] =
m
X
j=1
yj f (yj jxi ) =
i
e le varianze condizionate:
V ar(Y jxi ) =
m
X
(yj
j=1
i)
2
f (yj jxi ) =
2
i:
oppure, in modo equivalente,
V ar(Y jxi ) = E Y 2 jxi
(E [Y jxi ])2 :
Nel caso in classi, si sostituiscono le classi di valori con i rispettivi centri yjC .
Scaricato da ahmed ouerghemi (ahouerghemi@gmail.com)
lOMoARcPSD|2790231
86
8. Strati…cazione del collettivo: v.s. condizionate
Ai …ni pratici è molto utile riassumere tutte le informazioni circa medie aritmetiche,
varianze e numerosità di ciascuno strato raccogliendole in un’unica tabella, cui si aggiunge
per comodità una riga coi dati di sintesi sull’intera popolazione:
Strato
fX = x1 g
fX = x2 g
..
.
Medie
E [Y jx1 ] =
E [Y jx2 ] =
..
.
fX = xi g
..
.
E [Y jxi ] =
..
.
fX = xk g
U
E [Y jxk ] =
E [Y ] =
1
2
i
k
Varianze
V ar(Y jx1 ) =
V ar(Y jx2 ) =
..
.
V ar(Y jxi ) =
..
.
2
1
2
2
2
i
V ar(Y jxk ) = k2
V ar(Y ) = 2
Freq. Ass. Freq. Rel.
n1
f1
n2
f2
..
..
.
.
ni
fi
..
..
.
.
nk
N
fk
1
Tale tabella riassuntiva permette di cogliere immediatamente le di¤erenze esistenti tra i
vari gruppi utilizzando semplicemente due indicatori sintetici.
Si noti che tutte le proprietà viste per media e varianza nel caso univariato (linearità,
nullità degli scarti, minimi quadrati, solo per citarne alcune) continuano a valere per medie
e varianze condizionate dal momento che le distribuzioni condizionate sono univariate.
Esempio 37 Consideriamo ancora una volta i dati dell’Esempio 35 ed andiamo a calcolare medie e varianze condizionate:
E [Y jx1 ] = 1 0:5 + 2 0:15 + 4 0:1 = 0:2
E [Y 2 jx1 ] = ( 1)2 0:5 + 22 0:15 + 42 0:1 = 2:7
V ar (Y jx1 ) = 2:7 0:22 = 2:66
E [Y jx2 ] = 1 0:1 + 2 0:25 + 4 0:5 = 2:4
E [Y 2 jx2 ] = ( 1)2 0:1 + 22 0:25 + 42 0:5 = 9:1
V ar (Y jx2 ) = 9:1 2:42 = 3:34:
La media e la varianza di Y sono date rispettivamente da:
8
12
12
+2
+4
= 1: 3
E [Y ] = 1
40
40
40
12
8
12
E [Y 2 ] = ( 1)2
+ 22
+ 42
= 5:9
40
40
40
V ar (Y ) = 5:9 1:32 = 4:21:
Riportando i risultati nella tabella di sintesi si ha
Strato
fX = Ag
fX = Bg
U
Medie Varianze Freq. Ass. Freq. Rel.
0:2
2:66
20
0:5
2:4
3:34
20
0:5
1:3
4:21
40
1
Scaricato da ahmed ouerghemi (ahouerghemi@gmail.com)
lOMoARcPSD|2790231
8.2 Sintesi delle distribuzioni condizionate
87
Vale la pena osservare che è possibile rappresentare gra…camente le distribuzioni condizionate utilizzando dei box-plot appaiati costruiti usando la media e la deviazione
standard, come illustrato nella Sezione 5.2.2 della Parte Prima.
8.2.3
La funzione di regressione
Consideriamo le medie condizionate i = E [Y jX = xi ] e osserviamo che esse dipendono
dagli elementi xi 2 Im (X) (siano questi qualitativi oppure quantitativi). Possiamo quindi
interpretarle come i valori di una funzione a valori reali r ( ) che ha come dominio l’insieme
Im (X) = fx1 ; : : : ; xk g e come insieme immagine f 1 ; : : : ; k g. Tale funzione è chiamata
funzione di regressione.
De…nizione 22 (Funzione di regressione) Si chiama funzione di regressione di Y su
X la funzione
r : Im (X) ! R
xi 7! r (xi ) =
i
che ad ogni xi associa la media condizionata corrispondente
i.
Quando Im (X) è un insieme di numeri o attributi ordinabili, il gra…co ottenuto congiungendo i punti di coordinate (xi ; i ) mediante dei segmenti è detto spezzata di regressione.
Se Im (X) è un insieme di intervalli di misure (classi), la media condizionata i è costante
sull’intervallo (li 1 ; li ]: il gra…co di r (X) è quello di una funzione costante a tratti chiamato
regressogramma.
La spezzata di regressione ed il regressogramma forniscono una visualizzazione di un
eventuale legame funzionale esistente tra Y ed X, a meno di un errore di approssimazione.
Vediamo ora un esempio di costruzione della funzione di regressione e del corrisponente
gra…co.
Esempio 38 Si consideri il diagramma a dispersione che segue: esso rappresenta la distribuzione congiunta di una v.s. doppia quantitativa (X; Y ) e le coppie di valori riportate
presentano tutte la medesima frequenza congiunta.
Scaricato da ahmed ouerghemi (ahouerghemi@gmail.com)
lOMoARcPSD|2790231
88
8. Strati…cazione del collettivo: v.s. condizionate
La funzione di regressione di Y su X si calcola facilmente come segue:
X = xi
r (X = xi ) =
1
1
+2
3
1
+3
3
0
0
1
+1
2
1
= 0:5
2
1
1
1
+2
2
1
= 1:5
2
2
1
1
+2
3
1
+3
3
1
i
1
=2
3
1
=2
3
La spezzata di regressione di Y su X presenta l’andamento riportato nel gra…co che segue
(i punti di coordinate (xi ; i ) sono indicati col simbolo ?):
Dato che la funzione di regressione è una trasformazione della v.s. X, essa stessa è una
v.s. che indichiamo con r (X) = E [Y jX]. Tale v.s. associa ad ogni unità statistica
Scaricato da ahmed ouerghemi (ahouerghemi@gmail.com)
lOMoARcPSD|2790231
8.2 Sintesi delle distribuzioni condizionate
89
appartenente ad un particolare gruppo fX = xi g la media i del gruppo stesso. Così
facendo si produce una evidente sempli…cazione della realtà dal momento che utilizzare la
funzione di regressione signica assumere implicitamente che per tutte le unità statistiche
del medesimo gruppo sia stato rilevato un unico valore, ossia la media del gruppo.
Analizziamo più in dettaglio la v.s. funzione di regressione r (X). La sua distribuzione di
frequenze si costruisce direttamente a partire da quella di X come segue:
Freq (r (X) =
i)
= Freq (X = xi ) = fi
ed è quindi data dall’insieme delle coppie:
f( i ; fi ) ; i = 1; : : : ; kg :
Di tale v.s. possiamo poi calcolare le consuete grandezze di sintesi quali: quantili, medie,
misure di dispersione. In particolare, siamo interessati alla media e alla varianza.
Il risultato che segue, detto teorema della media totale, sancisce che la media aritmetica
della funzione di regressione di Y su X (ossia la media delle medie condizionate) è pari
alla media aritmetica di Y .
Teorema 1 (della media totale) La media della v.s. media condizionata E [Y jX] è
uguale alla media di Y :
E [ E [Y jX] ] = E [Y ] :
Dim:
E [ E [Y jX] ] =
=
k
X
i fi
=
i=1
m
X
j=1
m
k
X
X
j=1
i=1
yj
k
X
i=1
!
yj f (yj jxi ) fi
f (y jx ) f =
| j {zi i}
fij
m
X
yj f j = E [Y ] :
j=1
Si osservi che il Teorema della media totale si estende direttamente quando si sostituisce
ad Y una sua trasformazione (ammissibile) g (Y ):
E [ E [g (Y ) jX] ] = E [g (Y )] :
Per quanto concerne la varianza della v.s. r (X) = E [Y jX] è su¢ciente ricorrere alla
de…nizione per scrivere:
V ar ( E [Y jX] ) = E (r (X)
)
2
=
k
X
(
i
i=1
Scaricato da ahmed ouerghemi (ahouerghemi@gmail.com)
)2 fi ;
lOMoARcPSD|2790231
90
8. Strati…cazione del collettivo: v.s. condizionate
ovvero, usando la formula basata sulla media dei quadrati ed il quadrato della media
aritmetica:
k
X
2
2
2
=
V ar ( E [Y jX] ) = E r (X)2
:
i fi
i=1
Ragionando in modo del tutto analogo per le varianze condizionate V ar(Y jxi ) = i2 , si
giunge alla de…nizione della v.s. Varianza condizionata V ar(Y jX), la cui distribuzione di
frequenze è l’insieme delle coppie:
2
i ; fi
; i = 1; : : : ; k
e la cui media è data da:
E [ V ar (Y jX) ] =
k
X
2
i fi
:
i=1
C’è da chiedersi se per la varianza condizionata esista un risultato analogo al Teorema
della media totale, ossia, in altre parole, se la media delle varianze condizionate restituisca
la varianza di Y . La risposta è no. Il risultato che segue, noto come Teorema della
varianza totale o anche col nome di scissione della varianza mostra come la varianza
di Y possa essere ottenuta come somma di due addendi: la varianza della v.s. media
condizionata e la media aritmetica della v.s. varianza condizionata. Conseguentemente,
0 E [V ar (Y jX)] V ar (Y ).
Teorema 2 (della varianza totale)
(8.1)
V ar(Y ) = V ar (E [Y jX]) + E[V ar(Y jX)]:
Dim.
Per la de…nizione di varianza, il primo addendo della (8.1) si scrive:
V ar ( E [Y jX]) = E E [Y jX]2
E [ E [Y jX]]2
e, per il Teorema della media totale, si ha
V ar ( E [Y jX]) = E E [Y jX]2
E [Y ]2 :
Per quanto riguarda il secondo addendo, la de…nizione di varianza condizionata e la
proprietà di linearità dell’operatore media aritmentica portano a:
E[ V ar(Y jX)] = E E Y 2 jX
E [Y jX]2 = E E Y 2 jX
Ricordando che, E [ E [g (Y ) jX]] = E [g (Y )], per g (Y ) = Y 2 si ha
E [ V ar(Y jX)] = E Y 2
E E [Y jX]2 :
Sommando i due termini si ottiene la tesi.
Scaricato da ahmed ouerghemi (ahouerghemi@gmail.com)
E E [Y jX]2 :
lOMoARcPSD|2790231
8.2 Sintesi delle distribuzioni condizionate
8.2.4
91
Distribuzioni di quantità
Spesso, accanto alla distribuzione delle medie condizionate, si suole produrre la cosiddetta
distribuzione di quantità: ad ogni gruppo fX = xi g indotto dalla strati…cazione si assegna l’ammontare complessivo del carattere posseduto dalle unità statistiche presenti nel
gruppo: Ti = i ni . Il risultato …nale è la seguente tabella:
Strato
fX = x1 g
fX = x2 g
..
.
fX = xi g
..
.
fX = xk g
U
Media Freq. Ass.
n1
1
n2
2
..
..
.
.
..
.
i
k
Quantità
T1 = 1 n1
T2 = 2 n2
..
.
ni
..
.
Ti =
nk
N
Tk =
T =
..
.
i
k
ni
nk
N
Un tipico ambito di applicazione è quello delle cosiddette serie territoriali ove i gruppi
sono rappresentati da aree geogra…che (per es.: paesi, regioni o macro-regioni, ecc.) a cui
viene assegnato l’ammontare del carattere (per es.: la popolazione residente).
Nell’esempio che segue si propone una distribuzione di quantità e si spiega come essa sia
stata costruita. L’esempio ha lo scopo di mostrare come una distribuzione di quantità
possa essere confusa con una distribuzione di frequenze.
Esempio 39 La tabella che segue riporta la composizione percentuale degli investimenti
…ssi lordi per macrosettore di attività economica in un dato anno.
Macrosettore Investimenti %
Industria
36.6
Costruzioni
5.9
57.5
Servizi
Un lettore poco attento potrebbe interpretare il dato presente nella prima riga in modo
errato, a¤ermando che il 36:6% delle imprese industriali ha fatto investimenti. In realtà
il dato sengala che messi a 100 gli investimenti totali annui, l’industria investe 36:6: si
tratta del peso degli investimenti dell’Industria sul totale.
Per costruire tale tabella si è proceduto nel modo seguente:
1. sulla popolazione delle imprese si sono osservati le v.s. X = Macrosettore e Y =
Investimenti …ssi lordi;
2. si è strati…cata la popolazione di imprese sulla base del macrosettore;
3. si è calcolato l’ammontare totale degli investimenti Ti per ogni strato che poi è stato
espresso in termini di quota percentuale sul totale T degli investimenti (ossia Ti =T ).
Scaricato da ahmed ouerghemi (ahouerghemi@gmail.com)
lOMoARcPSD|2790231
92
8.2.5
8. Strati…cazione del collettivo: v.s. condizionate
Variabili condizionate qualitative
Quando le v.s. condizionate sono qualitative, le analisi statistiche possibili si riducono
drasticamente: oltre ai gra…ci, si possono produrre le mode condizionate, i quantili condizionati (se il carattere è in scala ordinale) e studiare l’eterogeneità in ciascuno dei gruppi
indotti dalla strati…cazione.
Per quanto riguarda la rappresentazione gra…ca dei pro…li, la scelta migliore è quella di
a¢ancare i diagrammi a colonne di ciascuna delle distribuzioni condizionate: il gra…co
risultante è detto diagramma a colonne parallele ed è uno strumento estremamente e¢cace
per e¤ettuare confronti. Sono sconsigliate altre rappresentazioni, quali i diagrammi a barre
o, peggio ancora, le torte. Quando il carattere è ordinale, può aver senso rappresentare
dei box-plot appaiati.
Scaricato da ahmed ouerghemi (ahouerghemi@gmail.com)
lOMoARcPSD|2790231
Capitolo 9
Studio della dipendenza
Consideriamo le seguenti a¤ermazioni: “Il fumo aumenta l’incidenza tumorale”, “Le donne
sono discriminate sul posto di lavoro”, “Il PIL di un paese è legato al grado di istruzione
dei suoi cittadini”. Per su¤ragare tali dichiarazioni è indispensabile disporre di una base
conoscitiva (ossia, di un dataset) e poi, una volta individuate delle variabili di interesse,
di capire se esistano dei legami tra di esse. Le argomentazioni non devono ridursi, come
purtroppo spesso accade, a un più o meno autorevole “secondo me” ma vanno supportare
da evidenze empiriche.
Ecco che così, uno dei pilastri fondamentali della statistica, accanto al concetto di variabilità, è quello di dipendenza statistica tra due variabili, ossia l’esistenza di legami (non
necessariamente causali) tra di esse. Tale concetto è strettamente connesso con la struttura delle distribuzioni condizionate ottenute da una strati…cazione indotta da una delle
due variabili in studio. Consideriamo la prima delle a¤ermazioni fatte: se l’incidenza
dei tumori sulle persone fumatrici fosse la stessa che sul gruppo dei non fumatori, allora
diremmo che non c’è alcuna dipendenza tra la variabile “Fumatore (sì/no)” e la variabile
“Incidenza tumorale”. In termini statistici, se le distribuzioni condizionate sono diverse,
allora c’è dipendenza statistica, se sono uguali, allora c’è indipendenza.
Quando una delle variabili è quantitativa, è possibile calcolare le medie condizionate e
l’analisi della dipendenza può avvenire confrontando tali indicatori di sintesi piuttosto
che le distribuzioni condizionate (in e¤etti, le medie sono la migliore sintesi di una distribuzione in senso quadratico). Parleremo in tal caso di studio della correlazione: se
le medie condizionate sono tutte uguali allora la variabile condizionata non è correlata
con la variabile che induce la strati…cazione. Si pensi al problema della “discriminazione
di genere” proposto nella seconda a¤ermazione fatta all’inizio di questo paragrafo: se
confrontando gli stipendi medi di uomini e donne notassimo una di¤erenza che può essere considerata sostanziale (vedremo in seguito come), allora saremmo nelle condizioni
di validare la dichiarazione fatta. La correlazione è chiaramente una forma particolare e
Scaricato da ahmed ouerghemi (ahouerghemi@gmail.com)
lOMoARcPSD|2790231
94
9. Studio della dipendenza
più restrittiva di dipendenza, dal momento che distribuzioni condizionate diverse possono
avere la stessa media.
Per concludere il capitolo, ci si so¤ermerà su un caso particolare di correlazione, ossia la
correlazione lineare: ciò porterà a costruire uno degli indicatori principali nella ricerca di
relazioni lineari tra variabili, la covarianza.
Il presente capitolo è dedicato a introdurre i concetti di dipendenza e correlazione in modo
rigoroso, a sviluppare le tecniche di analisi, e in…ne, a chiarire i legami che esistono tra
tali forme di dipendenza.
9.1
Dipendenza statistica
Consideriamo la v.s. doppia (X; Y ) (sia essa qualitativa, quantitativa o mista) introdotta
precedentemente e le sue distribuzioni di frequenze, ossia, la distribuzione congiunta, le
due distribuzioni marginali, le k distribuzioni condizionate di (Y jxi ) e le m distribuzioni
di (Xjyj ). In questa sezione, dopo aver de…nito l’indipendenza statistica (e quindi la
dipendenza) tra due variabili, si passerà a presentare un modo per misurare l’intensità
della stessa.
9.1.1
De…nizione di dipendenza statistica
Come già accennato nel capitolo precedente, la ricerca di eventuali legami tra la v.s. Y e
la v.s. X avviene esaminando le distribuzioni di frequenza di Y de…nite sui gruppi indotti
dalla strati…cazione del collettivo in base ai valori distinti della v.s. X: se, pur variando il
gruppo di appartenenza, il comportamento degli individui è lo stesso con riferimento alla
v.s. Y , diciamo che c’è indipendenza statistica di Y da X. In altre parole, l’indipendenza
si ha quando le distribuzioni condizionate di Y al variare di xi 2 Im (X) (i pro…li-riga)
sono tutte uguali tra loro per ogni i = 1; : : : ; k e quindi uguali alla distribuzione marginale
di Y . Ciò signi…ca che per j = 1; 2; : : : ; m, si ha
f (yj jx1 ) = f (yj jx2 ) =
= f (yj jxi ) =
= f (yj jxk ) = f j :
Tali uguaglianze implicano che per una qualsiasi coppia di indici (i; j) (ossia per una
qualsiasi riga e colonna) in caso di indipendenza si abbia:
f (yj jxi ) = f j :
Ricordando le de…nizioni di frequenza congiunta e di frequenza condizionata, l’indipendenza si ha quando per ogni (i; j),
fij
=f
fi
j
ossia
fij = f
j
fi ;
Scaricato da ahmed ouerghemi (ahouerghemi@gmail.com)
lOMoARcPSD|2790231
9.1 Dipendenza statistica
95
ossia, in termini di frequenze assolute, quando:
nij =
ni
n
N
j
per ogni i; j:
Quando si veri…ca tale circostanza allora, per ogni (i; j) si ha
fij = f
j
fi
()
fij
= fi
fj
e quindi, necessariamente anche tutti i pro…li-colonna sono uguali tra di loro ed uguali
alla distribuzione marginale di frequenze relative di X: dunque, se Y è indipendente da
X, allora anche X è indipendente da Y .
Riassumiamo quanto detto nelle righe precedenti nella de…nizione che segue.
De…nizione 23 (Indipendenza) Le v.s. X ed Y sono dette statisticamente indipendenti quando si veri…ca una delle seguenti proprietà equivalenti:
1. tutti i pro…li-riga sono uguali, ossia per ogni j = 1; : : : ; m, si ha:
f (yj jx1 ) = f (yj jx2 ) =
= f (yj jxi ) =
= f (yj jxk ) = f
j
2. tutti i pro…li-colonna sono uguali, ossia per ogni i = 1; : : : ; k, si ha:
f (xi jy1 ) = f (xi jy2 ) =
= f (xi jyj ) =
= f (xi jym ) = fi
3. per ogni coppia di indici (i; j) si ha:
fij = fi
f
j
o, equivalentemente,
nij =
ni
n
j
N
ossia, la distribuzione congiunta può essere fattorizzata mediante le marginali.
Non appena ci si allontana dalla situazione di indipendenza statistica, X ed Y sono dette
dipendenti. Ciò non signi…ca che necessariamente esistano dei nessi causali tra le due.
Diciamo che le v.s. X ed Y sono perfettamente dipendenti quando una delle due v.s. è
una trasformazione ammissibile dell’altra.
Quanto precede lascia intendere chiaramente che lo studio della dipendenza è intimamente
legato a quello delle distribuzioni condizionate: una prima analisi qualitativa per l’individuazione della dipendenza può quindi essere compiuta mediante la rappresentazione
gra…ca dei pro…li-riga e/o pro…li-colonna.
Scaricato da ahmed ouerghemi (ahouerghemi@gmail.com)
lOMoARcPSD|2790231
96
9. Studio della dipendenza
Esempio 40 Completare la seguente tabella di distribuzione congiunte in maniera tale
che X e Y siano due v.s. indipendenti.
#X
Y ! 1
a
2
b
c
2
5
3
1
tot
8
24
16
Esempio 41 Le tabelle di frequenza congiunte qui di seguito mostrano due esempi di
v.s. doppie perfettamente dipendenti.
A
#X Y ! 1 2
a
0 20
0 0
b
c
10 0
B
3
0
30
0
#X
a
b
c
d
Y !
1 2
13 0
0 24
0 4
0 0
3
0
0
0
16
In entrambi i casi conoscere il comportamento della v.s. X permette di conoscere il comportamento della v.s. Y . In particolare, la v.s. Y può essere ottenuta mediante una
trasformazione di X come segue:
A
8
se X = c
< 1
2
se X = a
Y =
:
3
se X = b
8
< 1
2
Y =
:
3
B
se X = a
se X = b o X = c
se X = d
Esercizio 20 Scrivere almeno un’altra possibile con…gurazione di perfetta dipendenza per
i casi trattati nell’Esempio 41.
Esercizio 21 Sia Y una v.s. quantitativa a valori reali e X una v.s. qualitativa con
immagine fa; b; cg. Rappresentare mediante box-plot appaiati, delle possibili distribuzioni
condizionate (Y jxi ), i = 1; 2; 3, che si potrebbero avere se X ed Y fossero indipendenti.
Esercizio 22 Si consideri il diagramma a dispersione seguente che visualizza la distribuzione congiunta di una v.s. doppia quantitativa (X; Y ) (ogni cerchietto individua una
coppia di valori (xi ; yj ) che si presenta con la stessa frequenza congiunta).
Scaricato da ahmed ouerghemi (ahouerghemi@gmail.com)
lOMoARcPSD|2790231
9.1 Dipendenza statistica
97
Dire se le v.s. in esame sono dipendenti motivando la risposta.
9.1.2
Misura dell’intensità della dipendenza
Per de…nire una misura dell’intensità del legame esistente tra due v.s. si valuta lo scarto
tra la situazione osservata e quella che si avrebbe nel caso in cui ci fosse indipendenza.
In pratica, si confronta la tavola di contingenza nella quale compaiono le frequenze e¤ettive
nij con una tavola di contingenza costruita utilizzando la Proprietà 3. della De…nizione
23, nella quale sono collocate le frequenze teoriche n?ij (o equivalentemente fij? ) che si
avrebbero nel caso di indipendenza e cioé:
n?ij =
ni
n
j
N
:
Si osservi che le due tavole di contingenza così costruite presentano necessariamente gli
stessi totali marginali. Il confronto si e¤ettua sulla base delle quantità seguenti:
cij = nij
n?ij
che vengono chiamate contingenze. Dal momento che la somma di dette quantità è nulla,
per costruire un indicatore globale che misuri l’intensità della dipendenza, si utilizzano le
contingenze in valore assoluto oppure al quadrato, in modo da fornire una distanza tra le
due distribuzioni.
A partire dalle contingenze al quadrato, si de…nisce l’indicatore Chi-quadrato ( 2 ):
2
m
k X
m
k X
X
X
c2ij
(nij n?ij )2
=
=
:
n?
n?ij
i=1 j=1 ij
i=1 j=1
È immediato notare che 2 0, con 2 = 0 se e solo se per ogni (i; j), nij = n?ij (e quindi
2
cij = 0), ossia nel caso di indipendenza. Si può dimostrare inoltre che 2
max ove
2
max
= N [min(k; m)
1]
Scaricato da ahmed ouerghemi (ahouerghemi@gmail.com)
lOMoARcPSD|2790231
98
9. Studio della dipendenza
e min(k; m) è il più piccolo tra il numero di righe k ed il numero di colonne m della tavola
di contingenza.
Riassumendo, l’indice 2 misura la distanza tra la distribuzione e¤ettiva e quella corrispondente che si avrebbe nel caso di indipendenza, con
2
= 0 se e solo se X ed Y sono indipendenti;
2
0<
2
=
quando X ed Y sono dipendenti;
<
2
max
2
max
nel caso di perfetta dipendenza tra le variabili.
Il valore del 2 dipende da k, da m e da N : per fornire una misura normalizzata tra 0
(indipendenza) e 1 (perfetta dipendenza) è su¢ciente dividere il 2 per il suo massimo
2
max . Estraendo la radice quadrata di tale quoziente, si ottiene il cosiddetto V di Cramer:
s
2
V =
2
max
:
Esso permette di confrontare situazioni non omogenee (per es.: N di¤erente, tavola di
contingenza di dimensioni diverse, fenomeni non confrontabili, ecc.).
Quando X e/o Y sono v.s. quantitative a valori reali con un elevato numero di realizzazioni, allora per il calcolo del 2 si deve utilizzare una tavola di contingenza basata su
dati opportunamente raccolti in classi.
Esercizio 23 Fare riferimento ai dati dell’Esempio 41. Per entrambe le situazioni veri…care che 2 assuma il valore massimo identi…cato da N [min(k; m) 1].
Esercizio 24 Senza calcolare il 2 o l’indice V , abbinare le tavole di contingenza che
seguono ai corrispondenti valori dell’indice V di Cramer. Motivare brevemente le scelte
fatte.
A
#X
a
b
c
Y !
B
1
2
3
7 11 7
6 1 6
10 15 10
#X
V di Cramer
#X
a
b
c
Y !
1
2
3
0 2 20
1 10 1
20 3 0
C
Y ! 1 2
3
a
4 14 8
2 7 4
b
6 21 12
c
V =0
V = 0:163
V = 0:657
Scaricato da ahmed ouerghemi (ahouerghemi@gmail.com)
lOMoARcPSD|2790231
9.2 Correlazione o dipendenza in media
99
Per concludere, è utile osservare che una versione dell’indice di dipendenza può essere
determinata utilizzando le frequenze relative in luogo di quelle assolute:
2
=N
m
k X
X
(fij
i=1 j=1
9.2
fij? )2
ove
fij?
fij? = fi
f j:
Correlazione o dipendenza in media
Come abbiamo accennato nella introduzione al capitolo, il concetto di correlazione rappresenta una forma di dipendenza basata sull’analisi delle sole medie condizionate (a patto
che esse possano essere calcolate): il suo studio è dunque limitato al caso di v.s. condizionate di tipo quantitativo e rappresenta quindi una forma particolare di dipendenza. Qui
di seguito, si fornisce una de…nizione rigorosa di correlazione e, dopo aver introdotto il
modello di regressione, una misura della sua intensità.
9.2.1
Il concetto di correlazione
Consideriamo la v.s. doppia (X; Y ) con Y quantitativa e sia r (X) la funzione di regressione
di Y su X. Quando r (X) non è costante, ossia quando il comportamento di Y in media
cambia al variare di X, allora si dice che Y è correlata (o dipendente in media) con X,
altrimenti diciamo che Y è incorrelata con X (o indipendente in media).
De…nizione 24 (Incorrelazione in media o indipendenza) La v.s. Y è incorrelata
(o indipendente in media) con la v.s. X quando la funzione di regressione è costante:
r (xi ) = ;
i = 1; : : : ; k;
ossia, quando
1
=
2
=
=
k
= :
In caso contrario diciamo che Y è correlata con X.
Notiamo che, il termine correlazione è riservato in statistica allo studio di una forma
particolare di dipendenza per v.s. doppie di cui almeno una quantitativa, mentre nel
linguaggio comune sia spesso utilizzato come sinonimo di dipendenza statistica.
Per individuare la correlazione è su¢ciente una ispezione dei gra…ci delle distribuzioni
condizionate (per esempio, dei box-plot appaiati) oppure, se la v.s. (X; Y ) è quantitativa, una analisi del diagramma a dispersione può essere illuminante. A tal proposito, si
considerino gli esempi che seguono.
Scaricato da ahmed ouerghemi (ahouerghemi@gmail.com)
lOMoARcPSD|2790231
100
9. Studio della dipendenza
Esempio 42 Le distribuzioni degli stipendi mensili in migliaia di euro pagati da una data
impresa strati…cati per genere sono visualizzate qui di seguito. Ai box-plot è sovrapposta
la spezzata di regressione.
Possiamo dedurre che nell’impresa sussista una notevole di¤erenza tra gli stipendi medi
dei maschi e quelli delle femmine: le variabili sono dunque correlate segnalando una
discriminazione di genere. Bisogna però fare attenzione al fatto che esistono maschi che
percepiscono stipendi simili a quelli delle femmine e viceversa: il ragionamento è stato
fatto esclusivamente “in media”.
Esempio 43 I gra…ci che seguono mostrano tutti delle situazioni di incorrelazione: i
primi due in alto fanno riferimento al caso in cui X è qualitativa, quelli in basso al caso
in cui anche X è quantitativa (nei diagrammi a dispersione ogni coppia di valori ha la
medesima frequenza congiunta).
Possiamo osservare che se X ed Y sono indipendenti, allora sono anche incorrelate: di
fatti, se le distribuzioni condizionate di (Y jxi ) sono tutte uguali, allora hanno tutte inevitabilmente la stessa media (se veda per esempio il secondo gra…co partendo da sinistra
Scaricato da ahmed ouerghemi (ahouerghemi@gmail.com)
lOMoARcPSD|2790231
9.2 Correlazione o dipendenza in media
101
proposto nell’Esempio 43). Ovviamente non vale il viceversa come illustrato nel seguente
esempio.
Esempio 44 Il diagramma a dispersione che segue è ripreso dall’Esercizio 18:
Dalla lettura del gra…co emerge che Y non è correlata con X dal momento che la funzione
di regressione di Y su X è costante:
r (xi ) = 4
i = 1; : : : ; 5:
Si tratta però di un caso in cui c’è dipendenza statistica dal momento che le distribuzioni
condizionate di Y al variare di X sono diverse tra di loro. Per esempio: (Y jX = 1)
ha una sola realizzazione uguale a 4 con frequenza unitaria, mentre (Y jX = 2) ha tre
realizzazioni e ha distribuzione uniforme.
9.2.2
Il modello di regressione
Come abbiamo visto, il concetto di correlazione di una v.s. quantitativa Y con la v.s. X è
strettamente connesso al comportamento della funzione di regressione di Y su X che abbiamo indicato r (X). Così, se dal punto di vista generale l’esistenza della correlazione può
essere facilmente individuata, molto più articolato è il percorso che porta alla costruzione
di un indicatore che valuti l’intensità della stessa: la sola osservazione della funzione di
regressione infatti non è su¢ciente dal momento che potrebbero sussistere situazioni in
cui r (X) è identica ma l’intensità della correlazione è molto diversa.
Per …ssare le idee consideriamo il seguente esempio.
Esempio 45 Sia Y una v.s. quantitativa ed X una v.s. con immagine fA; B; Cg e si
suppogna che (X; Y ) venga osservata su tre popolazioni di¤erenti (che indichiamo Caso
1, 2 e 3 rispettivamente). Ciò produce le distribuzioni condizionate visualizzate mediante
i box-plot appaiati che seguono (in rosso sono disegnate le spezzate di regressione).
Scaricato da ahmed ouerghemi (ahouerghemi@gmail.com)
lOMoARcPSD|2790231
102
9. Studio della dipendenza
Come possiamo osservare, anche se le funzioni di regressione sono identiche nei tre casi,
le distribuzioni condizionate sono molto di¤erenti per quanto riguarda la variabilità: Y
è evidentemente correlata con X in tutti i casi, ma l’intensità del legame descritto è
piuttosto diversi…cata. Infatti, nel Caso 3 la funzione di regressione descrive in modo
esatto il comportamento di Y al variare di X, cosa che non avviene negli altri due casi in
cui si commette un errore di approssimazione (più consistente nel Caso 1 che nel Caso 2)
Per formalizzare il ragionamento seguito nell’esempio precedente, è opportuno preventivamente introdurre un modello che metta in relazione le variabili Y ed X e la funzione di
regressione r (X). Tale modello è detto modello di regressione di Y su X e si scrive come
segue:
Y = r (X) + E = E [Y jX] + E:
(9.1)
In tale modello compaiono:
la v.s. Y , ossia la variabile che si vuole spiegare;
la v.s. X, ossia la variabile esplicativa. Se X è quantitativa, essa viene chiamata
anche covariata o regressore;
la funzione di regressione di Y su X che descrive come Y viene “spiegata” dalle
medie condizionate, ossia qual è il legame funzionale esistente tra X ed Y ;
la v.s. E = Y r (X), detta residuo o errore. Tale variabile descrive il comportamento della parte “non spiegata” dalle medie condizionate, ossia misura l’errore di
approssimazione commesso nel momento in cui si utilizza la funzione di regressione
in luogo dell’intera distribuzione.
È bene ribadire il fatto (già accennato nell’introduzione a questo capitolo) che, in generale,
il modello di regressione non postula una relazione di causa-e¤etto tra le variabili coinvolte
ma permette soltanto di descrivere il legame funzionale tra X ed Y a meno di un errore.
In senso statistico è quindi scorretto adottare il linguaggio matematico e dire che Y è una
Scaricato da ahmed ouerghemi (ahouerghemi@gmail.com)
lOMoARcPSD|2790231
9.2 Correlazione o dipendenza in media
103
variabile dipendente ed X è una variabile indipendente; infatti, dette variabili sono state
osservate simultaneamente e non è detto che esista una qualche gerarchia tra le stesse.
La natura e le caratteristiche della funzione di regressione sono state oggetto di un’analisi
nelle pagine precedenti: si tratta ora di chiarire che cosa sia la variabile E, quale distribuzione abbia (anche condizionatamente ad X) e come se ne calcolino la media e la
varianza. Si propone quindi un esempio introduttivo.
Esempio 46 Riprendiamo il diagramma a dispersione a cui è abbinata la spezzata di
regressione dell’Esempio 38:
La v.s. errore E si costruisce, come emerge dalla de…nizione, a partire dagli scostamenti
tra Y e la f.ne di regressione.
Per studiare la media e la varianza di E, conviene studiare preliminarmente le distribuzioni
condizionate ad X. Se X = 1, allora r ( 1) = 2 e (E j X = 1) ha distribuzione di
frequenze:
(E j X = 1) Freq.
1 2= 1
1=3
1=3
2 2=0
3 2=1
1=3
In modo analogo, otteniamo le distribuzione condizionate:
(E j X = 0)
0 0:5 = 0:5
1 0:5 = 0:5
Freq.
1=2
1=2
(E j X = 1)
1 1:5 = 0:5
2 1:5 = 0:5
Freq.
1=2
1=2
(E j X = 2)
1 2= 1
2 2=0
3 2=1
Freq.
1=3
1=3
1=3
Per meglio apprezzare il fatto che X e E sono incorrelate, si consideri lo scatterplot tra
dette variabili riportato qui di seguito:
Scaricato da ahmed ouerghemi (ahouerghemi@gmail.com)
lOMoARcPSD|2790231
104
9. Studio della dipendenza
Grazie all’esempio precedente, possiamo vedere come, …ssato un punto xi , la distribuzione
di E condizionata ad X = xi non è altro che quella di Y condizionata ad X = xi traslata
rispetto alla media i , ossia:
( E j X = xi ) = ( Y
i
j X = xi ) :
Possiamo quindi ricavare le caratteristiche sintetiche di tali variabili. In particolare, per
ogni i = 1; : : : ; k, abbiamo che
E [E j X = xi ] = E [ Y
i
j X = xi ] = E [ Y j X = xi ]
i
=0
ossia che la v.s. E non è correlata con X. Inoltre, per le note proprietà della varianza di
una trasformazione lineare di v.s.,
V ar ( E j X = xi ) = V ar ( Y
= V ar (Y j X = xi ) =
i j
2
i:
X = xi )
Grazie al Teorema della media totale (cf. il Teorema 1), si deduce che l’errore E è una
variabile a media nulla
E [E] = E [ E [EjX] ] = 0:
Inoltre, per il Teorema della varianza totale (cf. il Teorema 2), la varianza di E è pari a:
V ar (E) = V ar ( E [EjX]) + E [ V ar (EjX)] :
Dato che per i = 1; : : : ; k, E [EjX = xi ] = 0 allora V ar ( E [EjX]) = 0 e così
V ar (E) = E [ V ar (EjX)] = E [ V ar (Y jX)] :
Riassumiamo le proprietà dell’errore che abbiamo illustrato nella seguente proposizione
che tornerà utile non solo nell’introduzione di una misura della correlazione ma anche
nello studio di particolari modelli di regressione.
Scaricato da ahmed ouerghemi (ahouerghemi@gmail.com)
lOMoARcPSD|2790231
9.2 Correlazione o dipendenza in media
105
Proposizione 7 (Proprietà del residuo) L’errore E nel modello di regressione è una
v.s. incorrelata con la variabile esplcativa Y , centrata (a media nulla) con varianza pari
alla media delle varianze condizionate di Y ad X:
E [EjX] = 0,
E [E] = 0
e
V ar (E) = E [V ar (Y jX)] :
Vediamo ora come i ragionamenti fatti aiutino ad approfondire l’analisi dei casi proposti
nell’Esempio 45.
Esempio 47 Riprendendo l’Esempio 45, possiamo concludere che:
1. la funzione di regressione di Y su X non è costante (Y è correlata con X) ed è identica
nei tre casi;
2. la V ar (E) è nulla nel Caso 3 (dal momento che (Ejxi ) = 0 per i = 1; 2; 3) ed è positiva
negli altri due casi (maggiore nel Caso 1 rispetto al Caso 2).
9.2.3
Misura dell’intensità della correlazione
Dalla de…nizione di correlazione, ci aspettiamo che la dipendenza sia più forte quanto più
le medie condizionate i = E [Y jX = xi ] sono “lontane” dalla media generale = E [Y ]
(la loro media), ossia dalla situazione che si avrebbe nel caso di incorrelazione. Per
quanti…care tale distanza, è naturale considerare la loro varianza, ossia V ar (r (X)) =
V ar[E(Y jX)], che così fornisce una misura di quanto i gruppi sono diversi in media. Per
tale ragione la varianza delle medie condizionate viene anche chiamata varianza spiegata
(dalle medie di strato) o varianza tra gli strati (between variance).
La varianza spiegata sarebbe su¢ciente a misurare l’intensità della correlazione se la componente dell’errore E (che appare nel modello (9.1)) fosse nulla, ossia se a tutte le unità statistiche presenti in ciascun gruppo fosse associato lo stesso valore di Y : in tal caso ad ogni
uv presente nel generico gruppo i-mo il valore associato sarebbe i e, conseguentemente,
2
i = 0.
Dato che, in generale, E non è nulla, allora la varianza spiegata è tanto più signi…cativa
quanto più le singole medie condizionate sono rappresentative dei singoli strati, ossia
quanto più le i2 sono piccole. Per misurare quest’ultimo aspetto, si ricorre alla media delle
varianze condizionate E[V ar(Y jX)], che, come abbiamo visto, non è altro che la varianza
di E. Tale termine quindi viene denominato varianza residuale o varianza interna (within
variance) e fornisce una misura di quanto gli strati sono “bene descritti” dalle rispettive
medie. Si tratta quindi di una misura della variabilità interna agli strati.
Riprendiamo ancora una volta l’Esempio 45 e completiamo il ragionamento utilizzando i
ragionamenti appena fatti.
Esempio 48 Osservando i gra…ci dell’Esempio 45, possiamo concludere che:
Scaricato da ahmed ouerghemi (ahouerghemi@gmail.com)
lOMoARcPSD|2790231
106
9. Studio della dipendenza
1. dato che la funzione di regressione di Y su X è identica nei tre gra…ci, la varianza
spiegata è la stessa nei tre casi;
2. nel Caso 3, alle unità statistiche presenti in ciascun gruppo è assegnato lo stesso valore
(la media del gruppo): la varianza interna è nulla e quindi la correlazione è perfetta (la
funzione di regressione di Y su X è su¢ciente a descrivere il legame tra le due variabili);
3. nei casi 1 e 2 è presente della variabilità all’interno dei tre gruppi (ad alcune delle unità
statistiche di un gruppo sono assegnati i medesimi valori di unità statistiche presenti in un
altro): dato che le varianze condizionate i2 del Caso 1 sono più grandi delle corrispondenti
del Caso 2, allora la variabilità interna nel Caso 1 (misurata dalla media delle varianze)
è maggiore di quella del Caso 2. Ne consegue che la correlazione nel Caso 2 è più intensa
che nel Caso 1: la funzione di regressione in quest’ultimo caso descrive il legame tra Y
ed X in modo meno accurato che nel Caso 2.
Dal punto di vista formale, la varianza spiegata, la varianza interna e il modello di regressione Y = r (X) + E sono legate attraverso la formula della scissione della varianza (cf. il
Teorema 2):
V ar(Y ) = V ar (E [Y jX]) + E[V ar(Y jX)]
= V ar (r (X)) + V ar (E) :
Essa chiarisce il trade–o¤ tra la varianza spiegata, la varianza interna (o residuale) e la
varianza totale:
1. se Y è perfettamente correlata con X allora, dato che non si commettono errori di
approssimazione (ossia, E = 0), si ha:
Y = r (X)
e quindi V ar (E) = 0 e, conseguentemente, V ar (Y ) = V ar (r (X)) = V ar ( E [Y jX]).
2. se Y non è correlata con X allora r (X) =
Y =
e:
+E
e quindi
E =Y
il ché signi…ca che la varianza del residuo è pari alla varianza di Y :
V ar (E) = E [ V ar (Y jX)] = V ar (Y ) ;
Scaricato da ahmed ouerghemi (ahouerghemi@gmail.com)
lOMoARcPSD|2790231
9.2 Correlazione o dipendenza in media
107
La scissione della varianza consente dunque di fornire una valutazione di quanto le medie
condizionate sono lontane dalla media generale, tenuto conto della variabilità interna agli
strati; se le medie condizionate fossero tutte uguali (ossia, se ci fosse indipendenza in
media), allora tutta la variabilità di Y sarebbe spiegata dalla varianza interna (ossia dal
residuo). Quanto più ci si allontana da tale situazione, tanto più le medie condizionate sono diverse (ossia la loro variabilità cresce) e le varianze interne diventano piccole
(rispetto alla varianza totale): aumenta cioè l’intensità della correlazione.
Tali considerazioni portano alla costruzione di un indice di dipendenza in media normalizzato basato sulla scissione della varianza. Esso è detto Rapporto di correlazione 2
(leggasi: eta quadro) di Pearson, ed è de…nito come segue:
2
=
V ar (E [Y jX])
=1
V ar(Y )
E[V ar(Y jX)]
:
V ar(Y )
Per evitare ambiguità, si suole indicare a pedice la variabile condizionata scrivendo Y2 jX .
Spesso, viene calcolata la radice quadrata del rapporto di correlazione e viene prodotto
l’indice .
Esercizio 25 Dire in quale delle situazioni riprodotte qui di seguito il coe¢ciente di correlazione ha un valore più elevato, spiegando il perché (in rosso le spezzate di regressione).
Vediamo ora alcune proprietà del rapporto di correlazione. Abbiamo già osservato che si
2
tratta di un indice normalizzato: 0
1. In particolare, possiamo distinguere due
casi estremi:
= 0 se e solo se c’è indipendenza in media (ossia, le medie condizionate sono
uguali tra di loro e l’intera variabilità di Y viene interamente spiegata dalle sole
varianze interne agli strati);
2
Scaricato da ahmed ouerghemi (ahouerghemi@gmail.com)
lOMoARcPSD|2790231
108
9. Studio della dipendenza
= 1 se e solo se c’è massima dipendenza in media (ossia, le medie condizionate
catturano tutta l’informazione sugli strati cui fanno riferimento, essendo nulle tutte
le varianze interne agli strati).
2
Il valore dell’indice può dunque essere letto in termini di proporzione di variabilità di
Y che viene spiegata dalle medie condizionate (ossia, dalla funzione di regressione). È
appena il caso di osservare che 2 = 0 implica 2 = 0.
A di¤erenza della dipendenza statistica, la correlazione non è simmetrica: se consideriamo
una v.s. doppia quantitativa, a¤ermare che Y è correlato con X non equivale a dire che
X è correlato con Y . Ciò si ripercuote sull’indice di correlazione: Y2 jX non coincide
2
necessariamente con XjY
, come mostrato nell’esempio che segue.
Esempio 49 Si consideri la distribuzione congiunta:
#X
2
3
4
Y !
0 1
35 5
10 10
7 23
2
5
10
23
3
35
10
7
Una rapida ispezione della tabella permette di concludere che sussiste dipendenza in generale ma non c’è correlazione di Y con X. Infatti le distribuzioni condizionate sono
chiaramente diverse tra loro, mentre le medie condizionate E [Y jxi ] sono tutte uguali a
1:5 (e quindi uguali alla media della variabile Y ): si ha così Y2 jX = 0. Se si studia
invece la correlazione di X con Y si osserva che le medie condizionate E [Xjyj ] non sono
2
uguali tra loro e quindi XjY
6= 0.
9.3
Correlazione lineare
Consideriamo la v.s. doppia (X; Y ) le cui componenti sono entrambe quantitative ed
2
hanno medie rispettive X e Y e varianze X
e Y2 . Come abbiamo visto, Y è correlata
con X se la funzione di regressione di Y su X non è costante: l’ispezione della nuvola di
punti dello scatter-plot è su¢ciente per intuire la natura del legame sottostante.
Un caso particolare è quello in cui il legame visualizzato dal gra…co suggerisce che l’andamento della funzione di regressione sia approssimativamente lineare come nell’esempio
seguente; si parla in questo caso di correlazione lineare. Scopo di questa sezione è quello di introdurre gli strumenti volti a valutare l’esistenza e l’intensità di tale forma di
correlazione.
Scaricato da ahmed ouerghemi (ahouerghemi@gmail.com)
lOMoARcPSD|2790231
9.3 Correlazione lineare
109
Esempio 50 Si consideri la v.s. (X; Y ) con distribuzione di frequenze congiunte:
#X
1
1:5
2
3
tot
Y !
2
5
3
4
3
1
5
2
4
3
5
1
6
6
6
7
8
9
2
2
2
6
3
1
4
1
1
1
1
tot
10
7
8
5
30
La funzione di regressione r di Y su X ha i seguenti valori:
5
+4
10
1
r (1:5) = 3
+5
7
r (1) = 2
3
2
+5
= 3:2
10
10
4
2
+6
= 5:0
7
7
3
2
3
+6
+7
= 5:625
8
8
8
2
1
1
1
r (3) = 6
+7
+8
+9
= 7:2:
5
5
5
5
r (2) = 4
Come si evince dallo scatterplot, r (x) (in verde) non è lineare anche se una sua approssimazione lineare (in rosso) può essere comoda ai …ni interpretatitvi. In questo caso
diciamo che X e Y sono v.s. correlate lineramente.
9.3.1
Covarianza
Dal momento che si desidera individuare la correlazione lineare, la cosa migliore è partire
dallo scatter-plot. Consideriamo dunque lo scatter plot sempli…cato nella …gura seguente.
Scaricato da ahmed ouerghemi (ahouerghemi@gmail.com)
lOMoARcPSD|2790231
110
Se consideriamo le medie
9. Studio della dipendenza
X
e
Y
ed i prodotti
(xi
X )(yj
Y );
cioé le aree con segno dei rettangoli con lati paralleli agli assi e identi…cati dai vertici non
adiacenti di coordinate (xi ; yj ) e ( X ; Y ), si nota che il loro segno cambia coerentemente
con la posizione dei punti nel piano cartesiano rispetto alle medie.
Calcoliamo la media aritmetica delle aree di questi rettangoli prese con il segno indicato
e pesate con le frequenze congiunte corrispondenti fij . Se i punti di coordinate (xi ; yj )
si posizionano prevalentemente nel I e III quadrante nel sistema di riferimento che ha
origine nel punto ( X ; Y ), ossia se la nuvola di punti dello scatterplot presenta una
“tendenza crescente”, allora prevalgono i contributi posiviti e la media risultante sarà
positiva. D’altra parte, se i punti (xi ; yj ) si trovano principalmente nel II e IV quadrante
ossia, se la nuvola di punti dello scatterplot presenta una “tendenza decrescente”, la media
sarà negativa. In…ne se i punti (xi ; yj ) si dislocano in maniera tale che i contributi positivi e
negativi si compensino (ad esempio, quando X e Y sono indipendenti, oppure quando, pur
essendovi correlazione, lo scatterplot presenta delle simmetrie rispetto all’asse orizzontale
o verticale), allora la media risultante è pressocché nulla. Tale media è detta covarianza
ed è la misura principale nello studio della correlazione lineare. La sua de…nizione formale
è la seguente:
Scaricato da ahmed ouerghemi (ahouerghemi@gmail.com)
lOMoARcPSD|2790231
9.3 Correlazione lineare
111
De…nizione 25 (Covarianza) Si chiama covarianza tra le v.s. X ed Y (entrambe quantitative) la media aritmetica del prodotto degli scostamenti delle realizzazioni delle due
variabili dalle rispettive medie:
Cov(X; Y ) = E [(X
X )(Y
Y )]
=
m
k X
X
(xi
X )(yj
Y )fij :
i=1 j=1
Tale indicatore descrive come le variabili in studio co-variano linearmente rispetto al
centro della distribuzione ( X ; Y ).
A titolo esempli…cativo si consideri il seguente esempio di calcolo della covarianza.
Esempio 51 Applichiamo tale de…nizione ai dati dell’Esempio 50. Per cominciare serve
calcolare le medie di X e Y :
5
10
+ ::: + 3
= 1:7167
30
30
1
5
+ ::: + 9
= 4:9333
E [Y ] = 2
30
30
E [X] = 1
Quindi, usando la de…nizione di covarianza si ha:
Cov(X; Y ) = (1
1:7167) (2
(1:5
3
5
+ 0 + (1 1:7167) (4 4:933)
+ 0+
30
30
1
1
4:933)
+ 0 + : : : + (3 1:7167) (9 4:933)
30
30
4:933)
1:7167) (3
= 0:9478
Il fatto che la covarianza sia positiva è coerente con lo scatterplot: la spezzata di regressione
può essere approssimata con una retta crescente.
Nel seguito di questa sezione e all’inizio della successiva, illustriamo alcune proprietà della
covarianza. In primo luogo, si tratta di un indicatore simmetrico dal momento che, per la
proprietà commutativa del prodotto, Cov (X; Y ) = Cov (Y; X). In altri termini: se due
variabili sono correlate linearmente, sia la funzione di regressione di Y su X sia quella
di X su Y sono approssimabili linearmente. Tale indicatore può essere visto come una
generalizzazione della varianza: in e¤etti, se consideriamo la covarianza della v.s. X con
se stessa, si ha:
2
Cov(X; X) = E[(X
X ) ] = V ar(X):
Inoltre, analogamente a quanto visto per la varianza, vale la formulazione alternativa
riportata nella seguente proposizione.
Scaricato da ahmed ouerghemi (ahouerghemi@gmail.com)
lOMoARcPSD|2790231
112
9. Studio della dipendenza
Proposizione 8 La covarianza tra X ed Y può essere calcolata come la di¤erenza tra la
media del prodotto tra le variabili e il prodotto delle medie aritmetiche delle due variabili:
Cov(X; Y ) = E [X Y ]
E [X] E [Y ] :
Dim.
Grazie alla proprietà di linearità dell’operatore E [ ] si ha:
Cov(X; Y ) = E [(X
X )(Y
Y )]
= E [X Y X Y
X Y + X
Y]
= E [X Y ] E [X] Y
X E [Y ] + X
= E [X Y ]
X
Y:
Y
Esempio 52 A titolo esempli…cativo, ricalcoliamo la covarianza di X ed Y dell’Esempio
50 utilizzando il risultato precedente. Le medie di X ed Y sono calcolate nell’Esempio 51,
quindi manca solo il calcolo della media del prodotto di X per Y , cioè:
3
5
+0+1 4
+ 0 + 0 + 0 + 0+
30
30
1
1
+ 0 + 1:5 3
+ 0 + ::: + 3 9
= 9:4168
30
30
E [X Y ] = 1 2
Di conseguenza,
Cov(X; Y ) = E [X Y ]
E [X] E [Y ] = 9:4168
1:7167 4:9333 = 0:9478:
È utile osservare inoltre che la covarianza può essere de…nita sia tra X e Y che tra
qualsiasi trasformazione (ammssibile) di tali variabili. Siano quindi g (X) ed h (Y ) dette
trasformazioni, allora:
Cov (g (X) ; h (X)) = E [ (g (X)
E [g (X)]) (h (Y )
E [h (Y )]) ] :
Una situazione interessante è quella in cui g ed h sono funzioni lineari a¢ni. In tal caso
si ottiene il seguente risultato:
Proposizione 9 (Bilinearità) Date due v.s. X ed Y quantitative e le rispettive trasformazioni lineari g (X) = a + bX e h (X) = c + dY (con a; b; c; d 2 R) allora
Cov (a + bX; c + dY ) = bdCov (X; Y ) :
Scaricato da ahmed ouerghemi (ahouerghemi@gmail.com)
lOMoARcPSD|2790231
9.3 Correlazione lineare
113
Dim.
Usando la de…nizione di covarianza e sfruttando la proprietà di linearità dell’operatore
E [ ] si ha
Cov (a + bX; c + dY ) = E [(a + bX a bE [X]) (c + dY
= E [(bX bE [X]) (dY dE [Y ])]
= bd E [(X E [X]) (Y E [Y ])] :
{z
}
|
c
dE [Y ])]
Cov(X;Y )
Un altro utile risultato lega la covarianza alle medie condizionate, estendendo il Teorema
della media totale al caso di prodotti di v.s.:
Proposizione 10 Siano X e Y v.s. quantitative, allora
(9.2)
E [X Y ] = E [X E [Y jX]]
e quindi:
Cov (X; Y ) = Cov (X; r (X)) :
Dim.
Applicando il Teorema della media totale alla v.s. prodotto X Y possiamo scrivere:
E [X Y ] = E [ E [X Y j X] ]
Il risultato (9.2) si ottiene dal momento che
E [ E [X Y jX] ] =
m
k
X
X
i=1
j=1
!
xi yj f (yj jxi ) fi =
= E [X E [Y jX]] :
k
X
i=1
xi
|
m
X
j=1
yj f (yj jxi )
{z
i
!
fi
}
La de…nizione di covarianza ed il Teorema della media totale permettono di concludere.
Grazie al risultato appena enunciato si evince che per individuare una correlazione lineare è su¢ciente analizzare la covarianza tra i dati, senza far intervenire la funzione di
regressione. Esattamente come avviene per il Teorema della media totale, il risultato può
essere generalizzato nel caso di trasformazioni g (X) e h (Y ):
E [g (X) h (Y )] = E [ g (X) E [h (Y ) j X] ]
La covarianza è un indicatore di correlazione lineare: essa ha valore nullo in caso di
incorrelazione o di indipendenza, come si deduce dalla seguente proposizione.
Scaricato da ahmed ouerghemi (ahouerghemi@gmail.com)
lOMoARcPSD|2790231
114
9. Studio della dipendenza
Proposizione 11 Se X ed Y sono incorrelate oppure statisticamente indipendenti allora
Cov(X; Y ) = 0.
Dim.
Grazie alla Proposizione 8, è su¢ciente mostrare che E [X Y ] = E [X] E [Y ].
Caso di incorrelazione
Se Y è incorrelato con X allora, utilizzando la Proposizione 10, si ha
E [X Y ] = E [ E [X Y j X] ] = E [X E [Y ]] = E [X] E [Y ] :
Lo stesso ragionamento può essere usato quando X è incorrelato con Y .
Caso di indipendenza
La distribuzione congiunta si fattorizza mediante le marginali, e si ha
E [X Y ] =
m
k X
X
i=1 j=1
xi yj fij =
m
k X
X
xi yj fi f j =
i=1 j=1
k
X
xi fi
m
X
yj f
j
:
|i=1 {z } |j=1 {z }
E[X]
E[Y ]
Bisogna far attenzione al fatto che, per sua natura, la covarianza non è in grado di fornire
indicazioni generali sulla dipendenza tra le variabili: quando Cov (X; Y ) = 0 non è detto
che le variabili siano indipendenti o incorrelate dal momento che potrebbe esistere, per
esempio, un legame funzionale non lineare, ossia una correlazione non lineare.
Dal momento che la covarianza è una media aritmetica, essa so¤re degli incovenienti di
non robustezza illustrati in precedenza.
Per concludere, si presenta un’utile proprietà che mette in relazione la varianza di una somma di v.s. quantitative (ossia una combinazione lineare) con la covarianza tra le variabili
coinvolte.
Proposizione 12 (Combinazioni lineari) Date due v.s. X ed Y quantitative una loro
combinazione lineare è la v.s.
Z = aX + bY
a; b 2 R:
Note le medie e le varianze delle due variabili, oltre che la covarianza tra esse, la media
e la varianza di Z si possono calcolare direttamente come segue:
E [Z] = aE [X] + bE [Y ]
V ar (Z) = a2 V ar (X) + b2 V ar (Y ) + 2abCov(X; Y ):
Nel caso in cui X ed Y fossero v.c. indipendenti o incorrelate:
V ar (Z) = a2 V ar (X) + b2 V ar (Y ) :
Scaricato da ahmed ouerghemi (ahouerghemi@gmail.com)
lOMoARcPSD|2790231
9.3 Correlazione lineare
115
Dim.
Per quanto riguarda la media, il risultato discende direttamente dalla proprietà di linearità
dell’operatore E [ ]. Per quanto concerne la varianza, si ha:
V ar (Z) = V ar (aX + bY ) = E (aX + bY
= E (aX
aE [X])2 + (bY
aE [X]
bE [Y ])2
bE [Y ])2 + 2 (aX
aE [X]) (bY
2
2
= a2 E (X E [X]) + b2 E (Y E [Y ]) + 2abE [(X
|
{z
}
{z
}
|
|
V ar(X)
V ar(Y )
bE [Y ])
E [X]) (Y
{z
Cov(X;Y )
E [Y ])]
}
Nel caso di indipendenza o incorrelazione Cov (X; Y ) = 0 e questo conclude la dimostrazione
della proposizione.
9.3.2
Coe¢ciente di correlazione lineare
La covarianza dipende dagli ordini di grandezza delle v.s. considerate. Essa assume valori
in un intervallo fornito dalla cosiddetta disuguaglianza di Cauchy-Schwarz.
Proposizione 13 (Disuguaglianza di Cauchy-Schwarz) Data la v.s. doppia quantitativa (X; Y ), allora
[Cov(X; Y )]2 V ar(X)V ar(Y ):
In altre parole, se ci fosse perfetta correlazione lineare (ossia Y = a + bX, con a 2 R e
b 6= 0, cosicché tutti i punti dello scatterplot sono allineati su una retta), allora:
Cov (X; Y )2 =
2 2
X Y:
La Proposizione 13 fornisce la base per costruire un indicatore relativizzato: dividendo
la covarianza per il suo massimo, si ottiene un indice di correlazione che non dipende più
dagli ordini di grandezza di X ed Y . Tale indice è detto coe¢ciente di correlazione lineare
(detto anche di Bravais-Pearson1 ) ed indicato col simbolo (leggasi rho):
=p
Cov(X; Y )
V ar(X)V ar(Y )
:
Come conseguenza della disuguaglianza di Cauchy-Schwarz,
in particolare,
assume valori tra
1
1 e 1,
Bravais, A. (1846). Analyse mathématique sur les probabilités des erreurs de situation d’un point.
Mémoires présentés par divers savants à l’Académie royale des sciences de l’Institut de France, 9, 255-332.
Pearson, K. (1920). Notes on the history of correlation. Biometrika,13, 25-45
Scaricato da ahmed ouerghemi (ahouerghemi@gmail.com)
lOMoARcPSD|2790231
116
9. Studio della dipendenza
= 1 se esistono a; b 2 R; b > 0, tali che Y = a + bX (perfetta correlazione lineare
positiva);
= 1 se esistono a; b 2 R; b < 0, tali che Y = a + bX (perfetta correlazione lineare
negativa).
Tali considerazioni portano a de…nire in maniera naturale il concetto di incorrelazione
lineare:
De…nizione 26 Due v.s. X ed Y quantitative sono incorrelate linearmente se
= 0.
Poiché la covarianza è un indicatore simmetrico, anche lo è, ossia X;Y = Y;X .
Elevando il coe¢ciente di correlazione lineare al quadrato, si ottiene l’indice normalizzato
2
=
[Cov(X; Y )]2
;
V ar(X)V ar(Y )
che assume valori tra zero (incorrelazione lineare) e 1 (correlazione lineare positiva o
negativa perfetta). Esso è legato al coe¢ciente di correlazione 2 e al 2 nel modo seguente:
1. se
2
= 0, allora
2. se
2
>0e
2
=0e
2
= 0, ma non è necessariamente vero il viceversa;
= 0, allora
2
= 0, ma non vale il viceversa.
2
3. se 2 > 0, allora 2 > 0 e 2 > 0. In particolare, se
assume il suo valore massimo.
2
= 1, allora
2
= 1 e
2
Esercizio 26 Abbinare i diagrammi a dispersione che seguono (ogni punto dei diagrammi
ha frequenza unitaria) ai corrispondenti valori dei coe¢cienti di correlazione (arrotondati
alla prima cifra decimale).
Scaricato da ahmed ouerghemi (ahouerghemi@gmail.com)
lOMoARcPSD|2790231
9.3 Correlazione lineare
117
Coe¢cienti di Correlazione
2
2
=0
Y jX = 0:8
2
Y jX
2
=0
A
Gra…co
B
C
D
=0
A
B
C
D
2
Y jX
= 0:9
2
= 0:9
A
B
C
D
2
Y jX
= 0:9
2
= 0:6
A
B
C
D
Come la covarianza, il coe¢ciente di correlazione lineare è poco robusto e risente della presenza di coppie di dati anomali (o out-liers). Tale fatto può causare risultati
contraddittori: per apprezzare tale fatto si veda l’esempio che segue.
Esempio 53 Nel seguito è riprodotto il calcolo del coe¢ciente
quando si consideri
(gra…co di sinistra) o meno (gra…co di destra) una coppia di dati anomali, segnalata
in rosso.
Un’altra situazione a cui bisogna prestare attenzione è relativa alla presenza di due gruppi
di unità statistiche con dinamiche di correlazione molto di¤erenti che sono stati combinati.
Si veda l’esempio che segue.
Esempio 54 Si consideri il seguente scatter-plot: appaiono due gruppi di realizzazioni che
presentano al loro interno evidenti correlazioni lineari positive e che sono stati mischiati.
Se si calcola il coe¢ciente di correlazione lineare tra X ed Y si ottiene
=
0:45.
La presenza di gruppi nella popolazione è un elemento che va quindi tenuto in considerazione onde evitare risultati privi di signi…cato statistico.
Scaricato da ahmed ouerghemi (ahouerghemi@gmail.com)
lOMoARcPSD|2790231
118
9. Studio della dipendenza
Scaricato da ahmed ouerghemi (ahouerghemi@gmail.com)
lOMoARcPSD|2790231
Capitolo 10
Regressione lineare
Consideriamo la v.s. doppia quantitativa (X; Y ) ed il modello di regressione:
Y = r (X) + E
ove i simboli hanno il signi…cato visto in precedenza e, lo ricordiamo (cfr. la Proposizione
7), l’errore E ha media nulla ed è incorrelato con X.
Nelle pagine che seguono si a¤ronta il caso in cui la funzione di regressione è lineare oppure
può essere approssimata linearmente.
10.1
Il caso della funzione di regressione lineare
Supponiamo ora che la funzione di regressione sia lineare, ossia che:
r (X) =
+ X;
per cui:
Y =
+ X +E
ove E [E] e E [EjX] = 0. Ricordando la Proposizione 11, allora E [EjX] = 0 implica che,
nel caso in cui la funzione di regressione è lineare, Cov (E; X) = 0. Possiamo così scrivere
il modello di regressione nella forma:
Y =
+ X + E;
E [E] = 0;
Cov (E; X) = 0:
(10.1)
I parametri e possono essere calcolati direttamente come segue: applicando l’operatore
E [ ] ad entrambi i membri della espressione (10.1), per la proprietà di linearità (cfr. la
Proposizione 12) si ha:
E [Y ] = +
E [X] + E [E] :
Scaricato da ahmed ouerghemi (ahouerghemi@gmail.com)
lOMoARcPSD|2790231
120
10. Regressione lineare
Dato che E [E] = 0, si conclude che
= E [Y ]
(10.2)
E [X] :
Sostituendo (10.2) nella (10.1) si ha
Y = E [Y ]
E [X] + X + E
ossia
Y
E [Y ] =
(10.3)
E [X]) + E:
(X
Moltiplicando poi entrambi i membri di quest’ultima espressione per (X
(Y
E [Y ]) (X
E [X]) =
E [X])2 + E (X
(X
E [X]) si ha
E [X])
ed applicando ancora una volta l’operatore E [ ] si ottiene:
E [(Y
E [Y ]) (X
E [X])] =
E [X])2 + E [E (X
E (X
E [X])]
ossia:
Cov (X; Y ) =
V ar (X) + Cov (E; X) :
Così, dato che Cov (E; X) = 0 e se V ar (X) 6= 0 si ha
=
Cov (X; Y )
:
V ar (X)
Per sintetizzare quanto fatto e …ssare le idee, diciamo che quando la funzione di regressione
è lineare, allora
Y =
E [E] = 0;
+ X + E;
Cov (E; X) = 0;
con
= E [Y ]
E [X]
=
Cov (X; Y )
:
V ar (X)
Esempio 55 Si consideri la distribuzione congiunta di frequenze (i valori mancanti nelle
celle della seguente tabella sono degli zeri):
#X
2
3
5
8
Y !
1
0
1
2
1
1
4
3
4
3
2
1
5 6
1 2
4 2
7
1
1
Scaricato da ahmed ouerghemi (ahouerghemi@gmail.com)
lOMoARcPSD|2790231
10.2 Il modello di regressione lineare ed il metodo dei minimi quadrati
121
E¤ettuando il calcolo delle medie condizionate di (Y jxi ) si ottengono i seguenti valori
della funzione di regressione:
r (2) = 6;
r (3) = 5;
r (5) = 3;
r (8) = 0:
Per apprezzare la natura del legame funzionale tra Y ed X, sovrapponiamo la spezzata di
regressione al diagramma a dispersione della distribuzione per ottenere:
Si evince che la funzione di regressione è lineare:
r (xi ) =
xi
con = 8 e = 1 ( y= x = 1).
Data la linearità della funzione di regressione, i valori dei coe¢cienti dipendono dalla
covarianza, dalle medie di X e di Y e della varianza di X nel modo seguente:
=
Cov (X; Y )
4:78719
=
=
V ar (X)
4:78719
1
e
= E [Y ]
10.2
E [X] = 3:59091 + 4:40909 = 8:
Il modello di regressione lineare ed il metodo
dei minimi quadrati
Quando la funzione di regressione non è lineare, possiamo gestire il problema della regressione utilizzando delle approsimazioni. Infatti, osservando l’andamento della spezzata di
regressione, si nota che in taluni casi essa presenta delle regolarità: possiamo quindi pensare di approssimare la funzione di regressione utilizzando una funzione approssimante
Scaricato da ahmed ouerghemi (ahouerghemi@gmail.com)
lOMoARcPSD|2790231
122
10. Regressione lineare
detta interpolante tra punti. Ciò signi…ca individuare una funzione reale (leggasi phi)
che non passi necessariamente per i punti di coordinate (xi ; i ) ma si avvicini il più possibile ad essi, fornendo l’andamento globale della relazione (la cosiddetta tendenza). La
scelta del modello viene detta speci…cazione del modello e si e¤ettua in genere a partire
dallo scatter-plot in maniera qualitativa.
Si consideri il caso in cui la forma della nuvola dei punti suggerisca di approssimare la funzione di regressione con una funzione lineare. L’interpolante della funzione di regressione
può allora essere speci…cata come segue:
(x) = a + bx;
a; b 2 R.
ove i coe¢cienti (o parametri) a e b sono ignoti e devono essere determinati opportunamente in modo da assicurare il miglior adattamento possibile ai dati originali. Parliamo
in tal caso di modello di regressione lineare (o retta di regressione).
Si tratta ora di stabilire un metodo che consenta di calcolare i parametri ignoti a partire
dai dati secondo un criterio di ottimalità. Il metodo più di¤uso è detto metodo dei minimi
quadrati 1 (ordinary least square - OLS, nella letteratura anglosassone). Esso consiste nel
determinare i valori a? di a e b? di b che rendono minima la somma (o in modo equivalente,
la media) dei quadrati degli scostamenti tra la vera funzione di regressione ed il modello
interpolante (si ricordi che si stanno approssimando le medie condizionate, che godono
della proprietà dei minimi quadrati). Si tratta cioè di risolvere il seguente problema di
minimo:
12 3
20
6B
min E 4@r (X)
a;b
ossia, in modo esplicito:
min
a;b
( k
X
(
i
C7
(a + bX)A 5
| {z }
(10.4)
(X)
(a + bxi ))2 fi
i=1
)
:
Il procedimento proposto richiede però il preventivo calcolo delle medie condizionate.
Per ovviare all’inconveniente, si può lavorare direttamente sulle coppie (xi ; yj ) osservate,
invece che su (xi ; i ).
Si consideri la funzione di perdita quadratica L : R2 ! R de…nita come segue:
12 3
20
)
( k m
XX
C7
6B
(yj (a + bxi ))2 fij :
(a + bX)A 5 =
L (a; b) = E 4@Y
| {z }
(X)
i=1 j=1
1
A.M. Legendre. Nouvelles méthodes pour la détermination des orbites des comètes (1805). “Sur la
Méthode des moindres quarrés”
C.F. Gauss. Theoria Motus Corporum Coelestium in Sectionibus Conicis Solem Ambientum. (1809)
Scaricato da ahmed ouerghemi (ahouerghemi@gmail.com)
lOMoARcPSD|2790231
10.2 Il modello di regressione lineare ed il metodo dei minimi quadrati
123
Il problema OLS corrispondente si scrive:
(10.5)
min L (a; b)
a;b
Dato che i problemi di minimo (10.4) e (10.5) sono equivalenti, ossia, minimizzare L (a; b)
oppure (10.4) porta agli stessi risultati, per ovvie ragioni, in pratica si risolve (10.5). La
soluzione al problema dei minimi quadrati è riportata nella proposizione che segue:
Proposizione 14 (OLS) Sia (X; Y ) una v.s. doppia quantitativa e si consideri il modello di regressione lineare
Y = a + bX + E.
I valori di a e b che minimizzano la funzione di costo L (a; b) sono:
a? = E [Y ]
b? E [X]
b? =
Cov (X; Y )
:
V ar (X)
Dim.
Si vuole provare che per ogni coppia di valori reali a e b si ha L (a? ; b? ) < L (a; b).
Consideriamo quindi:
L (a; b) = E (Y
= E (Y
(a + bX))2 = E (Y
(a? + b? X) + (a?
(a? + b? X) + (a? + b? X)
a) + (b?
(a + bX))2
b) X)2
Sviluppando il quadrato ed utilizzando la proprietà di linearità dell’operatore E [ ] si ottiene:
L (a; b) = E (Y
+ 2E [(Y
(a? + b? X))2 + E ((a? a) + (b? b) X)2 +
(a? + b? X)) ((a? a) + (b? b) X)]
= L (a? ; b? ) + E ((a? a) + (b? b) X)2 +
+ 2 (a? a) E [E ? ] + 2 (b? b) E [E ? X]
dove E ? = Y (a? + b? X).
Consideriamo ora E [E ? ]: usando la proprietà di linearità dell’operatore E [ ] e sostituendo
il valore del minimo a? otteniamo
E [E ? ] = E [Y (a? + b? X)] = E [Y ] (a? + b? E [X])
= E [Y ] (E [Y ] b? E [X] + b? E [X]) = 0:
Scaricato da ahmed ouerghemi (ahouerghemi@gmail.com)
(10.6)
lOMoARcPSD|2790231
124
10. Regressione lineare
Per quanto concerne E [E ? X], ricordando che E ? ha media nulla ed utilizzando il minimo
a? , otteniamo:
E [E ? X] = Cov (X; E ? ) = Cov (X; Y (a? + b? X)) = Cov (X; Y )
Cov (X; Y )
V ar (X) = 0:
= Cov (X; Y )
V ar (X)
b? Cov (X; X)
(10.7)
Grazie a tali risultati, abbiamo
L (a; b) = L (a? ; b? ) + E (a?
|
Questo implica che L (a; b)
b))2 :
}
a + X (b?
{z
0
L (a? ; b? ) con l’uguaglianza che vale se e solo se
E (a?
a + X (b?
b))2 = 0
cioè se e solo se (a? a + X (b? b)) = 0 e cioè, vista l’arbitrarietà di X, se a? = a e
b? = b. Questo conclude la dimostrazione.
Una volta calcolati i parametri “ottimi” a? e b? , si perviene ad una nuova v.s. Y ? de…nita
da
Y ? = a? + b ? X
i cui valori yj? , detti valori teorici, approssimano quelli osservati yj di Y . Si può in…ne
scrivere
Y = Y ? + E ? = a? + b? X + E ?
introducendo la nuova variabile errore E ? = Y
Y ? , che quanti…ca lo scostamento dei
dati osservati rispetto a quelli calcolati a partire dal modello interpolante (si osservi che,
in generale, E ? 6= E dal momento che r (X) 6= Y ? ).
Come è facile notare, i parametri “ottimi” a? e b? coincidono con i parametri e che
si avrebbero se la funzione di regressione fosse e¤ettivamente lineare. Inoltre la v.s. E ?
eredita le caratteristiche di E: tale v.s. ha media nulla ed è incorrelata con X (si vedano
i risultati (10.6) e (10.7) nella dimostrazione della Proposizione 14).
Quindi, per non appesantire inutilmente la notazione, d’ora in avanti useremo E al posto
di E ? .
Esempio 56 Si supponga che la v.s. doppia (X; Y ) abbia la distribuzione di frequenze
congiunte dell’Esempio 50 che per comodità riportiamo qui di seguito:
#X
1
1:5
2
3
Y ! 2
5
3
4
3
1
3
5
2
4
6
7
8
9
2
2
2
3
1
1
1
Scaricato da ahmed ouerghemi (ahouerghemi@gmail.com)
lOMoARcPSD|2790231
10.2 Il modello di regressione lineare ed il metodo dei minimi quadrati
125
La funzione di regressione calcolata in precedenza è:
8
3:2
>
>
<
5
r (x) =
> 5:625
>
:
7:2
x=1
x = 1:5
x=2
x=3
Si supponga di voler approssimare r (x) con una funzione interpolante
(x) di tipo lineare:
(x) = a + bx:
Utilizzando il metodo dei minimi quadrati si ottengono i parametri ottimi di tale modello
per il caso in studio:
0:9478
= 1:983;
0:4781
a? = 4:9333 1:983 1:7167 = 1:530:
b? =
Il confronto fra la vera funzione di regressione r (x) ed il modello interpolante ottimo
y ? = 1:53 + 1:983x ottenuto col metodo OLS può essere e¤ettuato ricorrendo al gra…co
che segue:
Scaricato da ahmed ouerghemi (ahouerghemi@gmail.com)
lOMoARcPSD|2790231
126
10. Regressione lineare
10.3
Bontà di adattamento del modello di regressione
ai dati
Consideriamo il generico modello di regressione:
Y = r (X) + E,
E [E] = 0 e Cov (E; X) = 0:
Per fornire una misura della bontà di adattamento del modello di regressione ai dati
(goodness-of-…t nella letteratura anglosassone) si può utilizzare la quantità
V ar (E) = E [V ar (Y jX)]
che, come abbiamo visto (alla …ne della Sezione 9.2.2), fornisce una misura della “distanza”
dei dati rispetto alla funzione di regressione e può essere interpretata come la parte della
varianza di Y che non è spiegata dalla funzione di regressione.
Normalizzando detta quantità si perviene al consueto rapporto di correlazione, che nel
contesto della regressione, viene chiamato Rapporto di determinazione ed è indicato col
simbolo R2 :
V ar(E)
V ar(r (X))
=1
:
R2 =
V ar (Y )
V ar (Y )
È appena il caso di osservare che:
R2 = 0 quando il modello di regressione non è in grado di spiegare la variabilità di
Y,
R2 = 1 quando il modello di regressione spiega tutta la variabilità di Y .
Quando si utilizzano delle speci…cazioni per r (X), ossia si individuano dei modelli interpolanti (X), l’indice R2 si calcola a partire dai valori di Y ? che approssimano la funzione
di regressione, oppure dalle approssimazioni degli errori E.
10.3.1
Il caso del modello lineare
Nel caso in cui si utilizzi il modello di regressione lineare, ossia quando si sceglie la
speci…cazione:
Y = a + bX + E,
E [E] = 0 e Cov (E; X) = 0
vediamo che Y è una somma di due v.s., X e E. Per le proprietà della varianza di una
combinazione lineare (cfr. Proposizione 12) si ha:
V ar (Y ) = V ar (a + bX + E) = b2 V ar (X) + V ar (E) :
Scaricato da ahmed ouerghemi (ahouerghemi@gmail.com)
lOMoARcPSD|2790231
10.3 Bontà di adattamento del modello di regressione ai dati
127
Dal momento che, quando si utilizza il metodo OLS, il coe¢ciente ottimale b? è pari a
b? =
ne consegue che:
Cov (X; Y )
V ar (X)
Cov (X; Y )2
V ar (Y ) =
V ar (X) + V ar (E)
V ar (X)2
e quindi,
V ar (E) = V ar (Y )
Cov (X; Y )2
= V ar (Y ) 1
V ar (X)
Cov (X; Y )2
V ar (Y ) V ar (X)
!
ossia:
2
V ar(E) = V ar(Y )(1
):
Grazie a quest’ultimo risultato, e dato che V ar(Y ) > 0, si deduce che
V ar(E) = 0 se e solo se
2
= 1 (perfetta correlazione lineare tra X ed Y ),
V ar(E) = V ar(Y ) se e solo se
2
= 0 (assenza di correlazione lineare tra X ed Y ).
Inoltre, sempre grazie al risultato introdotto, si deduce che il rapporto di determinazione
ed il coe¢ciente di correlazione lineare sono uguali, infatti:
R2 = 1
V ar(E)
=1
V ar(Y )
V ar(Y )(1
V ar(Y )
2
)
=1
1
2
=
2
:
Ciò signi…ca che, nel caso del modello di regressione lineare, è su¢ciente calcolare il
coe¢ciente di correlazione lineare 2 e poi interpretarne il risultato come quota di varianza
spiegata dal modello di regressione.
Scaricato da ahmed ouerghemi (ahouerghemi@gmail.com)
Download