lOMoARcPSD|2790231 Dispense Popolazioni - per statistica Statistica (Università degli Studi del Piemonte Orientale Amedeo Avogadro) StuDocu non è sponsorizzato o supportato da nessuna università o ateneo. Scaricato da ahmed ouerghemi (ahouerghemi@gmail.com) lOMoARcPSD|2790231 Dispense del corso di Statistica Primo Modulo - Statistica per Popolazioni a cura di Enea Bongiorno e Aldo Goia Università del Piemonte Orientale Dipartimento di Studi per l’Economia e l’Impresa enea.bongiorno@uniupo.it aldo.goia@uniupo.it a.a. 2019-2020 Scaricato da ahmed ouerghemi (ahouerghemi@gmail.com) lOMoARcPSD|2790231 2 Scaricato da ahmed ouerghemi (ahouerghemi@gmail.com) lOMoARcPSD|2790231 Capitolo 1 Concetti preliminari Lo scopo di questo capitolo introduttivo è quello di presentare i concetti e la terminologia che si utilizzeranno in tutto il corso. Si tratta di nozioni e di de…nizioni che stanno alla base del metodo statistico. 1.1 Introduzione Il metodo scienti…co si basa principalmente sull’analisi di fenomeni collettivi, ossia di fenomeni che possono essere percepiti mediante numerose osservazioni su fatti elementari, oppure mediante osservazioni continuate nel tempo. Come avviene per le discipline “scienti…che”, anche nel contesto economico e sociale l’analisi empirica riveste un ruolo centrale. Infatti, se da un lato il ricercatore può limitarsi al solo aspetto descrittivo, dall’altro può giungere alla formulazione di ipotesi circa le leggi che governano il fenomeno in studio. In questo caso, vengono posti in essere dei modelli matematici che consentono, una volta validati (o “calibrati”), di descrivere e prevedere le dinamiche del fenomeno sotto indagine. Il punto di partenza è sempre la raccolta …nalizzata di dati relativi al fenomeno in esame (ossia l’indagine statistica) e la successiva elaborazione degli stessi. De…nizione 1 (Statistica) La statistica è quella disciplina che fornisce la metodologia per studiare i fenomeni collettivi. Qualunque sia l’ambito in cui l’analisi viene compiuta, si richiede la precomprensione del fenomeno in studio ed il ricercatore deve valutare con cura gli obiettivi da perseguire, le informazioni da rilevare, i mezzi di osservazione da utilizzare, le scale di misura da adottare, la delimitazione nello spazio e nel tempo dell’oggetto della rilevazione, le tecniche di elaborazione dei dati e la conseguente presentazione dei risultati. Scaricato da ahmed ouerghemi (ahouerghemi@gmail.com) lOMoARcPSD|2790231 4 1. Concetti preliminari Ciò si traduce nella stesura del piano della rilevazione col quale si attua la progettazione dell’indagine. In sostanza devono essere delineati i seguenti aspetti: chi e che cosa osservare (de…nizione del collettivo e dei caratteri oggetto di studio); dove osservare (qual è il luogo in cui si compie la rilevazione); quali sono le tecniche di rilevazione: – da un lato si deve chiarire il tipo di rilevazione: essa può essere totale (censimento) o parziale (campionaria), – dall’altro deve essere stabilito il supporto per la raccolta dati: questionario (domande chiuse, domande aperte, ecc.), intervistatore, ecc. quando compiere l’osservazione (indagine occasionale oppure periodica con una certa cadenza). I dati statistici possono avere origini (o fonti) diverse: dati già esistenti reperiti consultando opportune basi di dati (ad es.: ISTAT, Banca d’Italia, Centrale dei Bilanci, fonti interne aziendali, ecc.); dati raccolti mediante un’indagine “ad hoc”; dati derivanti da una sperimentazione condotta in ambiente controllato. In ogni caso i dati devono essere di “buona qualità”, ossia idonei a fornire le informazioni utili agli scopi che l’indagine si propone, e deve essere chiaro il metodo usato nella loro raccolta (soprattuto, per evitare manipolazioni fraudolente). Una volta e¤ettuata la raccolta dei dati secondo quanto piani…cato, si procede alla loro elaborazione ed alla presentazione dei risultati. 1.2 Alcune de…nizioni Nell’Introduzione sono stati presentati alcuni termini propri della disciplina: collettivo, carattere, censimento, campione, ecc.. Si entra ora nel dettaglio fornendo de…nizioni rigorose. Inoltre, dal momento che la statistica è una disciplina di carattere quantitativo, è necessario formalizzare i concetti ricorrendo al linguaggio matematico. Scaricato da ahmed ouerghemi (ahouerghemi@gmail.com) lOMoARcPSD|2790231 1.2 Alcune de…nizioni 1.2.1 5 Collettivo statistico, caratteri e modalità In ogni indagine occorre de…nire prioritariamente il collettivo statistico (o popolazione), ossia l’insieme U delle unità reali o virtuali u (individui, oggetti o altri enti) mediante le quali si manifesta il fenomeno oggetto di studio e/o mediante le quali è possibile percepire le informazioni sul fenomeno stesso. Ogni elemento u 2 U è detto unità statistica. Il collettivo può essere …nito (popolazione reale) o in…nito (si parla in tal caso di popolazione virtuale). Nel primo caso si chiama numerosità del collettivo il numero N (con N > 0 intero e …nito) di unità statistiche che sono oggetto di osservazione, ossia la cardinalità di U (N = #U). Quando il collettivo è …nito si suole indicizzare le unità statistiche: U = fu1 ; u2 ; : : : ; uN g : Precisato il collettivo, devono essere individuati i caratteri che si intendono osservare. Si stabiliscono quindi le diverse possibili manifestazioni dei singoli caratteri in esame: esse sono denominate modalità. De…nizione 2 (Carattere e sue modalità) Un carattere è un aspetto mediante il quale può essere percepito il fenomeno collettivo in esame. Il carattere si manifesta concretamente sulle unità statistiche mediante espressioni dette modalità. Si osservi che ad un medesimo carattere possono essere associate modalità di¤erenti. Per esempio, il carattere “rendimento scolastico” può essere percepito mediante giudizi oppure voti. Nel primo caso le modalità saranno attributi del tipo: insu¢ciente, su¢ciente, buono, ecc., mentre nel secondo le modalità saranno dei numeri. Le modalità sono usualmente classi…cate secondo le seguenti scale di misure dovute a Stevens (1946)1 : 1. Scala nominale: le modalità si identi…cano in attributi tra i quali non esiste una relazione d’ordine naturale. Per esempio, sono caratteri in scala nominale il sesso (o genere), il corso di laurea, la zona di provenienza, ecc.; 2. Scala ordinale (per ranghi): le modalità si identi…cano in attributi che presentano una relazione d’ordine naturale. Esempi sono: ordine di arrivo in una gara, giudizio scolastico, titolo di studio, numero di stelle di un albergo, ecc.; 3. Scala per intervalli: le modalità sono numeri di un sistema dotato di origine arbitraria. Per il confronto tra due elementi ha senso ricorrere solo alla di¤erenza. Esempi di caratteri misurati in scala per intervalli sono la temperatura e il voto di diploma. 1 Stevens, S. S. (1946). On the Theory of Scales of Measurement. Science, 103, 677–680 Scaricato da ahmed ouerghemi (ahouerghemi@gmail.com) lOMoARcPSD|2790231 6 1. Concetti preliminari Consideriamo per esempio la temperatura: è sbagliato a¤ermare che se nella città A ci sono 10 C e nella città B ce ne sono 20 C, allora B ha temperatura doppia di A: possiamo solo dire che ci sono 10 C di di¤erenza. Inoltre la mancanza di un sistema di origine assoluto fa sì che cambiando l’unità di misura si possa alterare il rapporto tra due grandezze. Per esempio, convertendo i dati precedenti in gradi Fahrenheit si ottengono 50 F nella città A e 68 F in B: è evidente che nella nuova scala, la temperatura in B non è il doppia di quella in A (68=50 6= 10=20). 4. Scala per rapporti: le modalità sono numeri di un sistema dotato di origine assoluta, coincidente con l’assenza di carattere (lo zero). Gli elementi possono essere messi in relazione mediante la divisione. Sono esempi la ricchezza, il peso, la statura, la durata di un componente elettronico, il numero di …gli, ecc., ossia tutte le risultanze di un processo di quanti…cazione. La valutazione degli stock in ambito economico si e¤ettua sempre mediante scale per rapporti. Le modalità espresse da un carattere costituiscono un insieme, che indichiamo con M. Sulla base delle scale di misura usate, si classi…cano i caratteri nel modo seguente: 1. carattere qualitativo: le sue modalità sono espresse in termini di attributi: (a) qualitativo sconnesso quando è misurato su scala nominale, (b) qualitativo ordinale quando è misurato su scala ordinale, 2. carattere quantitativo: le sue modalità vengono espresse in termini numerici: (a) quantitativo discreto: le modalità sono esprimibili mediante numeri interi, cioé M Z, (b) quantitativo continuo: le modalità sono esprimibili mediante numeri di un insieme con la potenza del continuo, cioé M R, (c) quantitativo in classi: le modalità sono rappresentate da intervalli di misure, cioé M = fl0 a l1 ; l1 a l2 ; l2 a l3 ; : : : g: La modalità li 1 a li (con li 1 < li ), che denominiamo “classe i-ma” (i = 1; 2; 3; : : : ), coincide con l’intervallo (li 1 ; li ]. La quantità wi = li li 1 è detta ampiezza della classe i-ma e (li + li 1 ) =2 è detto centro della classe i-ma. Scaricato da ahmed ouerghemi (ahouerghemi@gmail.com) lOMoARcPSD|2790231 1.2 Alcune de…nizioni 1.2.2 7 Tecniche di rilevazione La rilevazione è l’operazione con la quale si e¤ettua la raccolta dei dati: per ciascuno dei caratteri in studio, si associa ad ogni unità statistica una ed una sola modalità. L’operazione, ripetuta per tutte le unità statistiche in esame, porta alla compilazione di una tabella che denominiamo matrice dei dati (o dataset): in ciascuna riga di detta tabella si leggono le informazioni relative ad una particolare unità statistica. Come accennato in precedenza, la rilevazione può essere: 1. totale quando viene ispezionata l’intera popolazione U (ciò è chiaramente possibile solo quando la popolazione è …nita). Si parla in tal caso di censimento o di indagine esaustiva; 2. parziale quando viene osservata solo una parte di U detta campione. Parliamo in tal caso di indagine campionaria. La selezione di un campione può avvenire secondo criteri deterministici oppure casuali (detti anche aleatori o stocastici). Le modalità operative (che non sono oggetto di studio in questo testo) con cui si e¤ettua la rilevazione possono essere di diverso tipo: 1. in taluni casi è possibile la misurazione diretta. Si può facilmente immaginare che in tal caso possano sorgere problemi connessi alla precisione degli strumenti usati; 2. per i fenomeni di tipo economico e sociale, si utilizza in genere l’intervista mediante questionario. Essa può avvenire attraverso: (a) la somministrazione diretta; (b) la tecnica della Computer Assisted Interview: CATI (c.a. Telephone i.); CAPI (c.a. Personal i.); CASI (c.a. Self i.). 1.2.3 Esempi ed esercizi di riepilogo La precisa identi…cazione del collettivo e dei caratteri in studio è fondamentale nella lettura dei dati e nella scelta delle tecniche di elaborazione da utilizzarsi: è inutile saper fare calcoli, anche complessi, su tabelle contenenti dei numeri “muti” se poi non si sanno discutere i risultati e associarli al fenomeno in studio. Per …ssare le idee, si presentano alcuni esempi e si propongono degli esercizi. Scaricato da ahmed ouerghemi (ahouerghemi@gmail.com) lOMoARcPSD|2790231 8 1. Concetti preliminari Esempio 1 Si immagini di voler calcolare il tasso di disoccupazione dei giovani piemontesi con età compresa tra 15 e 24 anni nel primo semestre di quest’anno. Per progettare l’indagine corrispondente è necessario rispondere ai quesiti elencati qui di seguito: 1) Chi (popolazione): giovani piemontesi con età compresa tra 15 e 24. L’insieme U è quindi costituito da N giovani; il generico individuo è indicato con uv . 2) Cosa (carattere): occupato sì/no. Il carattere è qualitativo sconnesso. L’insieme M è formato da due soli elementi (modalità): sì, no. 3) Dove: in Piemonte; 4) Quando: la rilevazione si e¤ettua alla …ne del primo semestre dell’anno in corso. 5) Come: rilevazione mediante indagine campionaria (se si e¤ettuasse il censimento, il numero di interviste sarebbe troppo elevato e l’indagine troppo costosa con tempi di rilevazione eccessivamente lunghi). Lo strumento di rilevazione potrebbe essere un questionario somministrato telefonicamente. Esempio 2 Uno studente prossimo alla laurea vuole valutare le proprie “performance” in ambito universitario. Per conoscere la situazione deve e¤ettuare una mini-indagine ponendosi i quesiti visti in precedenza: 1) Chi (popolazione): gli esami sostenuti. Il collettivo U è costituito dagli N esami uv che lo studente ha superato nel corso del tempo; 2) Cosa (carattere): il voto assegnato. Il carattere è quantitativo discreto e misurato su scala per intervalli. L’insieme delle modalità è M = f18; 19; 20 : : : ; 30; 32g (ove, 32 rappresenta il voto 30 e Lode). Una seconda informazione che potrebbe essere interessante raccogliere è il tempo intercorso tra il superamento di un esame ed il superamento del successivo. In tal caso il carattere è quantitativo continuo e misurato in scala per rapporti. L’insieme delle modalità in questo caso coincide con R+ . 3) Dove: in segreteria; 4) Come: indagine censuaria su tutti gli esami sostenuti. Esempio 3 Il responsabile della produzione di un’impresa e¤ettua il controllo della qualità dei prodotti fabbricati da un dato macchinario. Al …ne di conoscere il fenomeno rispondiamo alle consuete domande: 1) Chi: i prodotti in uscita dal processo produttivo. Il collettivo U è di tipo virtuale: si tratta di un insieme di dimensioni a priori sconosciute dal momento che i suoi elementi non possono essere censiti (alcuni sono già stati venduti, altri sono delocalizzati in magazzini, altri sono ancora in produzione o lo saranno in futuro); 2) Cosa: le caratteristiche del prodotto. Il carattere più semplice da osservare è la conformità del prodotto alle speci…che tecniche dettate in sede di progettazione. In tal caso il carattere è qualitativo sconnesso e M = fconforme; non conformeg; 3) Come e quando: si e¤ettua periodicamente (es.: una volta al giorno) un controllo su un campione costituito da alcuni elementi scelti a caso dai lotti di produzione. Scaricato da ahmed ouerghemi (ahouerghemi@gmail.com) lOMoARcPSD|2790231 1.2 Alcune de…nizioni 9 Esercizio 1 Si progetti l’indagine più opportuna per a¤rontare le seguenti problematiche: 1) Si desidera conoscere il calciatore migliore della stagione in una data categoria. 2) Si vuole scoprire se gli studenti bravi in matematica lo sono anche in diritto. 3) Qual è la situazione occupazionale dei laureati triennali ad un anno dal conseguimento del diploma? 4) Un direttore di banca vuole conoscere il grado di soddisfazione della propria clientela quando si presenta agli sportelli. 5) Un revisore contabile deve esprimere un giudizio di congruità sul bilancio di un’impresa. Scaricato da ahmed ouerghemi (ahouerghemi@gmail.com) lOMoARcPSD|2790231 10 1. Concetti preliminari Scaricato da ahmed ouerghemi (ahouerghemi@gmail.com) lOMoARcPSD|2790231 Analisi Statistica Univariata Scaricato da ahmed ouerghemi (ahouerghemi@gmail.com) lOMoARcPSD|2790231 Scaricato da ahmed ouerghemi (ahouerghemi@gmail.com) lOMoARcPSD|2790231 Capitolo 2 Variabili statistiche e distribuzioni di frequenze Nella prima parte ci si occupa del caso in cui si e¤ettui la rilevazione (censuaria) e lo studio di un solo carattere su una popolazione …nita. In questo caso parliamo di analisi statistica univariata (o uni-dimensionale) per una popolazione …nita. In questo capitolo formalizziamo il procedimento della rilevazione mediante l’introduzione di uno degli strumenti matematici fondamentali: la variabile statistica. In…ne, si passa ad un altro concetto capitale strettamente collegato al precedente, ossia a quello di distribuzione di frequenza di una variabile statistica. Tali nozioni saranno alla base dei capitoli successivi. 2.1 Variabile statistica Consideriamo una popolazione U di numerosità N (con N > 0 intero e …nito) ed un insieme di modalità M. Come abbiamo già detto, con la rilevazione si associa a ciascuna unità statistica u uno ed un solo elemento di M. Dal punto di vista formale ciò si traduce nell’introdurre una particolare funzione, che chiamiamo variabile statistica, avente per dominio la popolazione U e per codominio l’insieme M delle modalità. De…nizione 3 (Variabile Statistica) Si chiama variabile statistica (nel seguito v.s.) la funzione X:U !M che ad ogni u 2 U associa una e una sola modalità in M: u 7! X (u ) v = 1; : : : ; N: Scaricato da ahmed ouerghemi (ahouerghemi@gmail.com) lOMoARcPSD|2790231 14 2. Variabili statistiche e distribuzioni di frequenze Il risultato X (u ) dell’osservazione del carattere sulla unità statistica u è detto v-mo dato individuale. Ricorrendo alla consueta schematizzazione di una funzione mediante i diagrammi di Venn, una v.s. X qualsiasi può essere rappresentata come segue: Come possiamo notare, il dominio non è mai di tipo numerico (è la collezione delle unità statistiche uv ) mentre il codominio può avere varia natura: se M è costituito dalle modalità di un carattere qualitativo (nominale o ordinale) allora diciamo che X è una v.s. qualitativa, mentre se M è formato dalle modalità di un carattere quantitativo (discreto, continuo o in classi di misure) allora diciamo che X è una v.s. quantitativa. Quindi, quando X è una v.s. qualitativa, allora X(uv ) è un attributo, mentre quando X è una v.s. quantitativa, X(uv ) è un numero oppure una classe di misura (per semplicità diremo che X è una v.s. a valori reali nel primo caso e in classi nel secondo). La collezione dei dati individuali risultanti dalla rilevazione (ordinate secondo il numero d’ordine assegnato ad ogni unità statistica) è raccolta nella matrice dei dati (o dataset): U u1 u2 u3 .. . X X(u1 ) X(u2 ) X(u3 ) .. . uN X(uN ) Per …ssare le idee sui concetti introdotti, ricorriamo all’esempio che segue. Esempio 4 Supponiamo che un piccolo teatro abbia 9 posti a sedere, numerati da 1 a 9 e distribuiti su tre …le, come illustrato nello schema seguente: Fila 3 Fila 2 Fila 1 ! ! ! 7 8 9 4 5 6 1 2 3 Scaricato da ahmed ouerghemi (ahouerghemi@gmail.com) lOMoARcPSD|2790231 2.1 Variabile statistica 15 Sappiamo che i prezzi dei biglietti d’ingresso variano a seconda della posizione del posto a sedere: Posto Prezzo Euro 1; 2; 3; 5 30 25 4; 6; 8 15 7; 9 Consideriamo ora la popolazione formata dai 9 spettatori presenti in una data serata: ciascuno di essi può essere facilmente messo in corrispondenza col numero della poltrona su cui è seduto. Così facendo, si può descrivere formalmente la popolazione come segue: U = fu1 ; u2 ; : : : ; u9 g ove u1 indica lo spettatore seduto sulla poltrona numero 1, u2 quello seduto sulla poltrona numero 2, e così via. Si supponga di voler e¤ettuare su tale popolazione la rilevazione del carattere quantitativo discreto “Prezzo del biglietto in Euro” cui corrisponde l’insieme delle modalità M che contiene tutti in numeri naturali divisi per 100 (l’unità minima è il centesimo di Euro). La funzione che modella la rilevazione, ossia la v.s., è la seguente: 8 v = 7; 9 < 15 25 v = 4; 6; 8 X (uv ) = : 30 v = 1; 2; 3; 5 e la matrice dei dati risultante è: Spettatore Prezzo pagato u1 30 u2 30 30 u3 25 u4 u5 30 25 u6 u7 15 25 u8 15 u9 Esercizio 2 Lo Studente e¤ettui la rilevazione dei voti che ha registrato nel corso della sessione invernale di quest’anno accademico: dopo aver descritto il collettivo U ed il carattere in studio con le sue modalità M, costruisca la v.s. X = “Voti della sessione invernale” ed il dataset corrispondente. Scaricato da ahmed ouerghemi (ahouerghemi@gmail.com) lOMoARcPSD|2790231 16 2.2 2. Variabili statistiche e distribuzioni di frequenze Distribuzioni di frequenze L’informazione raccolta nella matrice dei dati può essere estremamente ampia e non è organizzata. Essa risulta quindi di di¢cile lettura e dunque non direttamente fruibile: è necessario fornirne delle riassunzioni. L’operazione più semplice che può essere compiuta sull’insieme dei dati individuali è quella di riordinare gli stessi secondo un dato criterio (come già osservato in precedenza, per alcune tipologie di caratteri esistono degli ordinamenti naturali). Noteremmo allora che talune modalità ricorrono più volte. Consideriamo dunque l’insieme immagine della funzione X, ossia l’insieme costituito dagli elementi distinti e, quando è lecito, ordinati (che indichiamo col simbolo xi ) presenti nella matrice dei dati: Im (X) = fx1 ; x2 ; : : : ; xk g ove k è un intero positivo (con k N ), il generico elemento xi è detto realizzazione della v.s. X e Im (X) M dal momento che non tutte le modalità presenti in M potrebbero essere state osservate. Esempio 5 Riprendendo i dati dell’Esempio 4, l’insieme immagine di X è Im (X) = fx1 = 15; x2 = 25; x3 = 30g con k = # Im (X) = 3: Se consideriamo ora una speci…ca realizzazione xi 2 Im (X), possiamo individuare un unico sottoinsieme di U costituito da tutte quelle unità statistiche su cui è stato osservato xi : fuv 2 U : X (uv ) = xi g : Tale insieme non è altro che la controimmagine di xi tramite X (ossia, X 1 (fxi g)), in modo compatto scriveremo nel seguito fX = xi g in luogo di fuv 2 U : X (uv ) = xi g. La numerosità di tale insieme (che indichiamo ni ) è chiamata frequenza assoluta di xi : ni = # fX = xi g : Rapportando ni alla numerosità N dell’intera popolazione, otteniamo la frequenza relativa di fX = xi g, che indichiamo fi : ni fi = Freq (X = xi ) = ; N che, essendo una proporzione, è un numero compreso tra 0 e 1. Di conseguenza, fi esprime il peso del gruppo di unità statistiche fX = xi g sull’intera popolazione. Le frequenze relative possono essere indicate indi¤erentemente come proporzioni o percentuali. Riassumiamo quanto detto nella seguente de…nizione: Scaricato da ahmed ouerghemi (ahouerghemi@gmail.com) lOMoARcPSD|2790231 2.2 Distribuzioni di frequenze 17 De…nizione 4 (Frequenza assoluta e relativa) Data una v.s. X, la frequenza assoluta ni (risp. la frequenza relativa fi ) è la numerosità (risp. la porzione) di unità statistiche alle quali è stata assegnata la realizzazione xi mediante X. Per …ssare le idee vediamo un esempio. Esempio 6 Sempre facendo riferimento all’Esempio 4 si individuano fX = 15g = fuv 2 U : X (uv ) = 15g = fu7 ; u9 g ; fX = 25g = fuv 2 U : X (uv ) = 25g = fu4 ; u6 ; u8 g ; fX = 30g = fuv 2 U : X (uv ) = 30g = fu1 ; u2 ; u3 ; u5 g ; da cui si desume immediatamente n1 = 2 n2 = 3 n3 = 4 f1 = 2=9 = 0:2 f2 = 1=3 = 0:3 f3 = 4=9 = 0:4 (= 22:2%); (= 33:3%); (= 44:4%): Ripetendo l’operazione per ogni xi , otteniamo k sottoinsiemi fX = xi g che sono tra loro disgiunti e la cui unione resituisce l’intera popolazione U (tecnicamente si tratta di una partizione di U): il calcolo della frequenza assoluta e relativa per ciascun sottoinsieme individuato si chiama spoglio dei dati e porta alla costruzione della distribuzione di frequenze assoluta e relativa della v.s. X. De…nizione 5 (Distribuzione di frequenze) Si chiama distribuzione di frequenza assoluta (risp. relativa) della v.s. X l’insieme delle coppie f(xi ; ni ) ; i = 1; : : : ; kg (risp. f(xi ; fi ), i = 1; : : : ; kg) ossia, il gra…co della funzione che ad ogni xi assegna la corrispondente frequenza assoluta ni (risp. relativa fi ). Per comodità si suole raccogliere la distribuzione di frequenza in tabella: Im(X) x1 x2 x3 .. . xk Freq. Assolute: # fX = xi g Freq. Relative: Freq (X = xi ) n1 f1 n2 f2 n3 f3 .. .. . . nk fk La somma delle k frequenze assolute deve per forza di cose essere uguale alla numerosità del collettivo dal momento che le k parti fX = xi g costituiscono una partizione della popolazione (ossia, sono disgiunte e la loro unione restituisce U): n 1 + n2 + + nk = k X ni = N: i=1 Scaricato da ahmed ouerghemi (ahouerghemi@gmail.com) lOMoARcPSD|2790231 18 2. Variabili statistiche e distribuzioni di frequenze Ne consegue immediatamente che: k X i=1 fi = k X ni i=1 N = k 1 X ni = 1: N i=1 Esempio 7 Riprendiamo ancora una volta l’Esempio 4. Le distribuzioni di frequenze (assoluta e relativa) della v.s. X sono: Prezzo Freq. Assolute Freq. Relative pagato (# spettatori) (% spettatori) 15 2 2=9 = 22:2% 3 1=3 = 33:3% 25 30 4 4=9 = 44:4% 9 100% Leggendo la tabella si deduce che 2 dei 9 spettatori (circa il 22%) hanno pagato 15 Euro, 3 sono quelli che hanno pagato 25 Euro (circa il 33%) e quattro su nove (circa il 44%) 30 Euro. Si noti che quando è nota la numerosità N di U allora le distribuzioni di frequenze assolute e relative sono equivalenti. Proponiamo qui di seguito un esempio che riassume i concetti introdotti …n’ora. Esempio 8 Un’indagine di customer satisfaction, relativa ad un dato prodotto commercializzato, viene compiuta mediante la somministrazione di un questionario presso un supermercato in un dato giorno. In particolare, viene chiesto all’intervistato di esprimere un giudizio (del tipo: Scarso, Su¢ciente, Buono, Ottimo) sul prodotto, nel caso in cui il cliente lo conosca. Dalla lettura dei questionari si ottengono i dati seguenti: Questionario Giudizio espresso 1 Su¢ciente Buono 2 Ottimo 3 Ottimo 4 5 Buono Buono 6 Cerchiamo ora di comprendere quali informazioni contiene tale dataset. 1) Si deve identi…care innanzi tutto qual è il collettivo e poi va chiarita la natura del carattere in studio. Per quanto riguarda il primo aspetto è su¢ciente chiedersi “chi” è Scaricato da ahmed ouerghemi (ahouerghemi@gmail.com) lOMoARcPSD|2790231 2.2 Distribuzioni di frequenze 19 stato intervistato: è immediato a¤ermare che il collettivo U è formato da N = 6 clienti uv che conoscono il prodotto in esame e che hanno visitato il supermercato nel giorno in cui è stato proposto il questionario. Il carattere è qualitativo ordinale, con M = fScarso, Su¢ciente, Buono, Ottimog : 2) A questo punto è possibile descrivere la rilevazione con l’ausilio della v.s. qualitativa X = “Giudizio espresso” la cui legge è: 8 v=1 < Su¢ciente Buono v = 2; 5; 6 X (uv ) = : Ottimo v = 3; 4 e la cui immagine è: Im (X) = fx1 = Su¢ciente, x2 = Buono, x3 = Ottimog con k = 3. Attraverso le controimmagini di X si identi…cano così tre gruppi formati da quei clienti che hanno espresso un particolare giudizio: a) fX = Su¢cienteg = fu1 g ; b) fX = Buonog = fu2 ; u5 ; u6 g ; c) fX = Ottimog = fu3 ; u4 g : 3) Si procede quindi al calcolo delle frequenze relative corrispondenti: a) Freq fX = Su¢cienteg = 1=6; b) Freq fX = Buonog = 1=2; c) Freq fX = Ottimog = 1=3; che ci porta a scrivere la distribuzione di frequenze seguente: % di Clienti Giudizio x1 = Su¢ciente f1 = 16:6% f2 = 50:0% x2 = Buono f3 = 33:3% x3 = Ottimo Possiamo ora concludere che 1=3 dei clienti intervistati ha espresso un giudizio “Ottimo” sul prodotto in esame, la metà degli intervistati ha valutato il prodotto di buona qualità, mentre solo il restante 17% ha giudicato il prodotto “Su¢ciente”. Nessuno ha espresso giudizi negativi. Esercizio 3 La seguente matrice dei dati raccoglie le realizzazioni della v.s. X = “Livello di istruzione degli addetti di un’impresa”: MI, MI, MI, MS, MI, UN, MI, MI, MS, Scaricato da ahmed ouerghemi (ahouerghemi@gmail.com) MS lOMoARcPSD|2790231 20 2. Variabili statistiche e distribuzioni di frequenze (ove: MI = Media Inf., MS = Media Sup., UN = Laurea). 1) Dopo aver precisato qual è il collettivo, chiarire la natura del carattere in studio. 2) Illustrare schematicamente la funzione X, esplicitarla analiticamente e dire da cos’è costituito Im (X). 3) Precisare cosa si intende con la notazione fX = MIg. 4) Calcolare Freq (X = MI). Esercizio 4 La rilevazione delle temperature medie giornaliere nella città di Novara nel corso del mese di gennaio dello scorso anno ha prodotto le seguenti risultanze: Temperature Freq. Assolute 10 a 0 6 13 0a5 5 a 10 9 3 10 a 20 1) Dire qual è il collettivo e qual è la sua numerosità N . Chiarire quindi la natura del carattere in studio. 2) Precisare da cos’è costituito Im (X) e qual è la sua numerosità k. 3) Che cosa conteggiano le frequenze assolute riportate nella tabella? 4) Dopo aver spiegato cosa si intende con fX = 5 a 10g, calcolare Freq (X = 5 a 10). 2.3 Sempli…cazione di una distribuzione di frequenze Può accadere, in particolare qualora si osservi un carattere quantitativo continuo, che k sia molto grande: la distribuzione di frequenze può diventare in tale caso di di¢cile lettura dal momento che di fatto non si ottiene la sintesi della matrice dei dati auspicata con lo spoglio. Addirittura, se k = N allora si ha ni = 1 per ogni i e quindi la distribuzione di frequenze non è altro che il dataset riordinato. Per gestire tale problema e permettere una sintesi utile per le rappresentazioni gra…che che vedremo in seguito, si ricorre ad una sempli…cazione dell’insieme dei dati originari ottenuta mediante l’accorpamento degli elementi di Im (X) in gruppi. Osservazione 1 Tale operazione di accorpamento implica naturalmente una perdita di informazione: nel caso si e¤ettuino ulteriori analisi è comunque sempre auspicabile utilizzare i dati originali e mai quelli accorpati. 2.3.1 Dicotomizzazione Il modo più estremo di procedere si chiama dicotomizzazione (ossia riduzione a due sole modalità distinte): in pratica ci si concentra su un particolare elemento xi e si fanno Scaricato da ahmed ouerghemi (ahouerghemi@gmail.com) lOMoARcPSD|2790231 2.3 Sempli…cazione di una distribuzione di frequenze 21 con‡uire tutti gli altri in una nuova realizzazione che chiamiamo “non xi ”. Così facendo la popolazione viene suddivisa in due soli gruppi, ossia fX = xi g ed il suo complementare fX 6= xi g, aventi frequenze relative fi e 1 fi rispettivamente. Ovviamente, lo stesso metodo può essere applicato considerando l’accorpamento di più di una realizzazione in un unico gruppo (per esempio, se X è quantitativa, si può fare riferimento ad una soglia che divide la popolazione in due parti disgiunte). Per chiarire le idee, vediamo un esempio di dicotomizzazione nel caso di una v.s. qualitativa. Esempio 9 Si consideri la seguente distribuzione di frequenze che illustra la suddivisione degli studenti di un dato dipartimento circa il “Corso di Laurea frequentato” in un dato anno: Corso di Laurea % Studenti Eco. Aziendale 45% 5% Eco. Politica Eco. del Turismo 10% 40% Giurisprudenza Se si vuole concentrare l’attenzione sugli studenti di Economia Aziendale è su¢ciente procedere alla dicotomizzazione che segue: Corso di Laurea % Studenti Eco. Aziendale 45% 55% Altro Quando si desidera invece porre l’attenzione sul confronto tra gli studenti di discipline economiche e quelli di materie giuridiche, si può procedere come segue: % Studenti Corso di Laurea Discipline Economiche 60% Discipline Giuridiche 40% 2.3.2 Raggruppamento di dati in classi Nel caso si voglia sempli…care la distribuzione di frequenze di una v.s. quantitativa per un carattere continuo, una tipica operazione consiste nel raggruppamento dei dati in classi di misure. Consideriamo quindi una v.s. quantitativa a valori reali X e l’intervallo di limiti a e b (con a < x1 e b xk ). Si suddivide detto intervallo in t intervalli adiacenti e privi di elementi in comune che indichiamo, usando una notazione già introdotta in precedenza, lj 1 a lj j = 1; : : : ; e k con l0 = a e lek = b. e per la quale: Si costruisce in tal modo una nuova v.s. che indichiamo X Scaricato da ahmed ouerghemi (ahouerghemi@gmail.com) lOMoARcPSD|2790231 22 2. Variabili statistiche e distribuzioni di frequenze le realizzazioni sono classi di valori: x ej = lj 1 a lj la frequenza assoluta di una speci…ca classe si ottiene contando il numero di unità statistiche alle quali la v.s. originaria X ha associato un valore incluso in tale classe: per la classe j-ma si ha o n e =x ej = # flj 1 < X lj g : nj = # X La frequenza relativa corrispondente è data da: fj = nj =N: Il raccoglimento di dati in classi può anche essere e¤ettuato per caratteri quantitativi discreti quando le modalità osservate sono piuttosto numerose: così facendo si assimila un carattere discreto ad uno continuo. Un esempio di tale modo di procedere è proposto nell’esercizio che segue. Esercizio 5 La rilevazione nel corso di un dato mese degli importi X delle fatture emesse da un’azienda porge i seguenti risultati (valori in Euro): 2990 3000 1660 990 1870 1540 1750 2640 2240 2490 1070 4800 1190 3330 2290 2630 1) Descrivere il collettivo e chiarire la natura del carattere in studio. 2) Raccogliere i dati nelle classi di misure che seguono: 0 a 1000 1000 a 2000 2000 a 2500 2500 a 3000 3000 a 5000 e la v.s. ottenuta col raccoglimento di dati in classi: scrivere la legge di X. e Dopo aver Sia X n o n o e =x e =x individuato x e3 , dire da cosa è costituito l’insieme X e3 e calcolare Freq X e3 . Al raccoglimento di dati in classi può essere abbinata una ulteriore trasformazione dei dati che conduce ad una nuova variabile di tipo qualitativo (con carattere misurato in scala ordinale). Gli esempi possibili sono innumerevoli: ne vediamo due. Esempio 10 Dalla distribuzione dei redditi mensili delle famiglie, si passa ad ottenere una distribuzione in classi di reddito per poi etichettare le famiglie che rientrano in ogni classe come: “indigenti”, “povere”, “benestanti”, ecc.. Esempio 11 Consideriamo il voto in Statistica conseguito in una determinata prova d’esame: è sempre possibile costruire delle classi di voti ed assegnare dei giudizi. Per esempio: agli studenti con voto da 0 a 17 viene assegnato giudizio “Insu¢ciente”, a quelli che hanno conseguito da 18 a 21 corrisponde un giudizio “Su¢ciente”, ecc.. Nel seguito, con un abuso di notazione denoteremo con lo stesso simbolo X le due variabili e statistiche X e X. Scaricato da ahmed ouerghemi (ahouerghemi@gmail.com) lOMoARcPSD|2790231 Capitolo 3 Analisi di v.s. quantitative - Gra…ci, f.ne di densità e di ripartizione Continuiamo l’analisi statistica univariata per una popolazione …nita, specializzandoci in questo capitolo e nei due successivi al caso di una v.s. quantitativa. In particolare introduciamo gli strumenti utili, sia nel caso in cui le realizzazioni siano numeri, sia quando i dati siano espressi in classi di misure. Dal momento che l’insieme immagine della v.s. è un insieme numerico o riconducibile ad esso (nel caso delle classi di misure), le analisi sfrutteranno anche procedimenti di calcolo. 3.1 Rappresentazione gra…ca di una distribuzione Cominciamo col presentare degli strumenti gra…ci che consentano di visualizzare qualitativamente la distribuzione di frequenze relative (oppure assolute) di una v.s. quantitativa. A seconda che le realizzazioni siano numeri oppure classi di misure, si utilizzeranno diagrammi di¤erenti. 3.1.1 Diagramma a bastoni Il diagramma a bastoni si utilizza per v.s. quantitative reali quando il carattere rilevato è discreto e la numerosità k dell’insieme immagine di X è relativamente modesta (diciamo per k minore di 20). Dal momento che si vuole visualizzare la distribuzione di frequenza (ossia, lo ripetiamo, l’insieme delle coppie f(xi ; fi ) ; i = 1; : : : ; kg), la rappresentazione naturale si basa su un diagramma cartesiano la cui ascissa riporta gli elementi xi di Im (X) e l’ordinata le frequenze relative. Al …ne di rendere leggibile il gra…co, ogni punto di coordinate (xi ; fi ) viene congiunto all’asse delle ascisse mediante un segmento perpendicolare ad esso: il Scaricato da ahmed ouerghemi (ahouerghemi@gmail.com) lOMoARcPSD|2790231 24 3. Analisi di v.s. quantitative - Gra…ci, f.ne di densità e di ripartizione diagramma risultante appare così formato da k segmenti paralleli all’asse delle ordinate (“bastoni”), posizionati in corrispondenza delle realizzazioni xi e di lunghezza rispettiva proporzionale alla frequenza fi associata. Nella costruzione del gra…co si possono utilizzare le frequenze assolute ni in luogo di quelle relative. Il diagramma a bastoni può risultare di di¢cile lettura quando k è grande. In questo caso è da valutare un raggruppamento di dati in classi come illustrato in precedenza: di conseguenza, cambia il tipo gra…co da utilizzare. 3.1.2 Funzione di densità e Istogramma Consideriamo ora una v.s. reale per un carattere continuo, oppure un carattere discreto per il quale si sia reso necessario il raccoglimento dei dati in classi (dal momento che k è grande), oppure ancora una v.s. con dati in classi. In tutti questi casi, si può fornire una rappresentazione detta istogramma, costituita da rettangoli contigui, ciascuno dei quali coincidente con una classe e con area uguale alla frequenza relativa della classe medesima. L’idea di fondo riposa sul concetto di densità di frequenza: come dice il nome stesso, si tratta di una misura dell’addensamento delle unità statistiche all’interno di una data classe. Dato che quando si hanno classi di misure, si potrebbe non conoscere l’esatto comportamento della distribuzione di frequenza all’interno di ogni singola classe, per semplicità si assume che il carattere si redistribuisca “uniformemente”, ossia che i valori assunti dalle unità statistiche in ciascuna classe siano equispaziati. In tal modo, a parità di frequenza, quanto più la classe è ampia, tanto più la densità è ridotta. De…nizione 6 (Densità di frequenza) Consideriamo la classe i-ma, di limiti li ampiezza wj , e frequenza associata fi . La densità di frequenze della classe i-ma è: hi = 1 e li , fi : wi Calcolare la densità di frequenza per ogni classe conduce ad ottenere la funzione di densità h (x), una funzione costante a tratti la cui legge è de…nita come segue: 8 li 1 < x li i = 1; : : : ; k; < hi h (x) = : 0 altrove. Il gra…co della funzione di densità, rappresentato per comodità ricorrendo a dei rettangoli, è l’istogramma. Qui di seguito è riportato un esempio in cui si illustra il procedimento di calcolo che porta alla funzione di densità e al corrispondente gra…co. Scopo dell’esempio è anche quello di mostrare come la lettura diretta di una distribuzione di frequenze per dati in classi possa trarre in inganno. Scaricato da ahmed ouerghemi (ahouerghemi@gmail.com) lOMoARcPSD|2790231 3.1 Rappresentazione gra…ca di una distribuzione 25 Esempio 12 La tabella che segue raccoglie la distribuzione di frequenze assolute di una v.s. quantitativa X con dati in classi: Classi 0 a 10 10 a 12 12 a 20 Freq. Assolute 20 4 16 Volendo rappresentare gra…camente tale distribuzione si deve procedere al calolo preventivo delle densità di frequenze: xi 0 a 10 10 a 12 12 a 20 fi 0:5 0:1 0:4 wi 10 2 8 hi 0:5=10 = 0:05 0:1=2 = 0:05 0:4=8 = 0:05 La funzione di densità di X è quindi de…nita 8 0:05 > > < 0:05 h (x) = 0:05 > > : 0 come segue: 0 < x 10 10 < x 12 12 < x 20 altrove e l’istogramma corrispondente è riportato qui di seguito: Il risultato può apparire controintuitivo: il gra…co risultante ha una forma inattesa rispetto alla distribuzione di frequenze che esso rappresenta. Ciò dipende dal fatto che si tende a ragionare sulle classi come se queste fossero etichette di un carattere qualitativo e così risulta naturale associare ad ogni classe un rettangolo di altezza pari alla frequenza, dimenticando che le classi hanno ampiezza diversa. Si tratta di un errore piuttosto comune ma molto grave dato che conduce a rappresentare istogrammi sbagliati e quindi del tutto fuorvianti per il lettore. Dal momento che fi = hi wi , ossia la misura d’area di ciascun rettangolo, la misura dell’area sottesa all’istogramma è uguale a uno. In termini più generali, …ssati due numeri Scaricato da ahmed ouerghemi (ahouerghemi@gmail.com) lOMoARcPSD|2790231 26 3. Analisi di v.s. quantitative - Gra…ci, f.ne di densità e di ripartizione a; b 2 R, con 1 < a b < +1, è possibile approssimare la frequenza delle unità statistiche sulle quali è stato osservato un valore nell’intervallo (a; b] mediante la misura dell’area sottesa al gra…co sull’intervallo (a; b]: Freq (a < X b) = Z b h (x) dx: a Dato che h (x) è costante a tratti, il calcolo si e¤ettua sommando le misure delle aree dei rettangoli contigui che sono de…niti da h (x) sull’intervallo (a; b]. Ovviamente si tratta solo di una approssimazione, dal momento che il calcolo si basa sull’assunzione di uniformità fatta inizialmente. Quando della v.s. X si dispone unicamente della distribuzione con dati in classi, allora per il calcolo delle frequenze su intervalli qualsiasi si deve fare riferimento alla funzione di densità. In questo caso, dal momento che Z a h (x) dx = 0; a 2 R; Freq (X = a) = a allora, calcolare la frequenza associata ad (a; b] equivale a calcolare quella associata a (a; b), [a; b], oppure ancora [a; b). Osservazione 2 In taluni casi si suole rappresentare l’istogramma utilizzando le frequenze assolute: in tal caso ogni densità hi è moltiplicata per N e così l’area del rettangolo associato alla classe i-ma è ni . In generale, consigliamo l’uso della frequenza relativa. Gli esempi che seguono hanno lo scopo di permettere di acquisire dimestichezza con l’utilizzo della funzione di densità e di mostrare come a partire da essa si calcolino delle frequenze. Scaricato da ahmed ouerghemi (ahouerghemi@gmail.com) lOMoARcPSD|2790231 3.1 Rappresentazione gra…ca di una distribuzione 27 Esempio 13 Si consideri la seguente funzione di densità di una v.s. con dati in classi: 8 c 2<x 0 > > < 0:3 0<x 1 h (x) = 0:1 1<x 5 > > : 0 altrove ove c è una costante che dev’essere calcolata opportunamente. Per identi…care c è su¢ciente ricordare che la misura dell’area sottesa all’istogramma deve essere unitaria: dato che le frequenze associate alla seconda e alla terza classe sono rispettivamente: f2 = h2 w2 = 0:3 1 = 0:3 f3 = h3 w3 = 0:1 4 = 0:4 allora, per forza di cose, si deve avere: f1 = 1 (0:3 + 0:4) = 0:3 e così, la densità c assegnata alla prima classe (la cui ampiezza è w1 = 2) deve essere pari a: f1 0:3 = = 0:15: c= w1 2 La funzione di densità risultante è quindi: 8 0:15 2<x 0 > > < 0:3 0<x 1 h (x) = 0:1 1<x 5 > > : 0 altrove e la corrispondente distribuzione di frequenze relative, raccolta in tabella, è: Classi 2a0 0a1 1a5 Freq. Relative 0:3 0:3 0:4 Esempio 14 La funzione di densità della v.s. con dati in classi X = “Statura in cm di un gruppo di alunni di una scuola media inferiore”, è riportata qui di seguito: 8 130 < x 140 > > 0:02 < 0:03 140 < x 160 h (x) = 0:01 160 < x 180 > > : 0 altrove Scaricato da ahmed ouerghemi (ahouerghemi@gmail.com) lOMoARcPSD|2790231 28 3. Analisi di v.s. quantitative - Gra…ci, f.ne di densità e di ripartizione Se volessimo calcolare la frequenza degli studenti con statura compresa tra i 140 e i 160 cm sarebbe su¢ciente e¤ettuare il calcolo: f2 = 20 0:03 = 60%: Ci si potrebbe anche chiedere qual è la frequenza di studenti con statura compresa tra 140 e 150. Dato che facciamo riferimento ad un sottoinsieme della seconda classe, la densità di riferimento è h2 = 3 e si deve calcolare la misura dell’area sottesa all’istogramma sull’intervallo (140; 150) come segue: Z 150 0:03dx = (150 140) 0:03 = 30%: Freq (140 < X < 150) = 140 Allo stesso modo, se volessimo sapere qual è la percentuale di studenti con statura nell’intervallo (150; 170), dovremmo valutare l’area sottesa dal gra…co su tale intervallo, facendo attenzione al fatto che esso cade a cavallo di due classi (la seconda e la terza) aventi densità di¤erenti: Freq (150 < X < 170) = Freq (150 < X < 160) + Freq (160 < X < 170) {z } | {z } | 10 0:03 10 0:01 = 30% + 10% = 40%: In altri termini, sfruttando il fatto che un integrale de…nito si può spezzare su domini disgiunti, riscriviamo il calcolo nel seguente modo: Z 170 Z 160 Z 170 0:01dx: 0:03dx + h (x) dx = Freq (150 < X < 170) = 150 150 160 Per concludere la discussione in merito alla funzione di densità e all’istogramma, proponiamo un esempio in cui lo Studente è chiamato a ricostruire la distribuzione di frequenze a partire da una sua rappresentazione gra…ca. Esercizio 6 L’istogramma che segue visualizza la distribuzione di frequenze della v.s. X = “Importo in Euro delle fatture emesse nel corso di un dato anno da un’impresa di servizi”. Scaricato da ahmed ouerghemi (ahouerghemi@gmail.com) lOMoARcPSD|2790231 3.1 Rappresentazione gra…ca di una distribuzione 29 1) Descrivere il collettivo e chiarire la natura del carattere in studio e la scala utilizzata nella rilevazione. 2) Dire quanto vale k. Spiegare da cosa è costituito l’insieme f1000 < X 2000g e calcolare la frequenza relativa associata. 3) Calcolare la distribuzione di frequenze relative di X e riportarla in tabella. 3.1.3 Simmetria e uniformità di una distribuzione Grazie ai gra…ci, è possibile rilevare alcune peculiarità delle distribuzioni di frequenze. Ci so¤ermiamo in particolare su due aspetti che torneranno utili nel prosieguo: la simmetria e l’uniformità. De…nizione 7 (V.s. simmetrica) La v.s. X è simmetrica rispetto allo zero se X e X hanno la stessa distribuzione. La v.s. X è simmetrica rispetto a m se X m è simmetrica rispetto allo zero. Una v.s. non simmetrica è detta asimmetrica. Un altro concetto rilevante, che abbiamo già utilizzato nelle pagine precedenti, è quello di uniformità. De…nizione 8 (V.s. uniforme) La v.s. quantitativa a valori reali X è uniforme quando gli elementi xi sono equispaziati tra x1 e xk , e ad essi è associata la stessa frequenza (ossia xi xi 1 = c; i = 2; 3; : : : ; k, e fi = 1=k). Nel caso di dati in classi, si ha uniformità quando ad ogni classe è assegnata la medesima densità di frequenze (la funzione di densità è costante su (l0 ; lk ]: h (x) = 1= (lk l0 ), l0 < x lk ). Un esempio, di distribuzione di frequenze uniforme è illustrato nella …gura che segue (con k = 5) ove fi = 1=5 per ogni i: È evidente che una v.s. uniforme è anche simmetrica rispetto a (x1 + xk ) =2 (nel caso in classi, rispetto a (l0 + lk ) =2). Esercizio 7 Discutere simmetria ed uniformità delle distribuzioni di frequenze rappresentate negli Esempi 12 e 25 e nell’Esercizio 6. Scaricato da ahmed ouerghemi (ahouerghemi@gmail.com) lOMoARcPSD|2790231 30 3. Analisi di v.s. quantitative - Gra…ci, f.ne di densità e di ripartizione 3.2 Funzione di ripartizione L’ispezione delle tabelle contenenti le distribuzioni di frequenza permette di sapere immediatamente qual è il numero (o la percentuale) di unità statistiche su cui è stato osservato un dato valore, oppure (nel caso dei dati in classi), della frequenza di unità su cui è stato osservato un valore appartenente ad una data classe di misure. Dal momento che l’analisi coinvolge dati di natura numerica, è sempre lecito porsi domande del tipo: “Qual è la frequenza di individui su cui si sono osservati valori non superiori a x?” (ove x 2 R è una soglia qualsiasi). Per rispondere a tale domanda è opportuno introdurre il concetto di funzione di ripartizione o cumulativa (cdf - cumulative distribution function). De…nizione 9 (Funzione di ripartizione) Diciamo funzione di ripartizione (cdf) della v.s. X quantitativa la funzione F :R !R che ad ogni x 2 R associa la proporzione di unità del collettivo su cui sono osservati valori non superiori ad x: F (x) = Freq (X x) : Le seguenti proprietà caratterizzano la cdf : 1. la funzione F (x) è de…nita su tutto R, è limitata tra 0 e 1 (il valore assunto in un qualsiasi punto rimane una frequenza) e (a) F (x) = 0 se x (b) F (x) = 1 se x x1 (oppure x xk (oppure x l0 nel caso in classi) lk nel caso in classi) 2. si tratta di una funzione monotona non strettamente crescente: due numeri reali a; b con a b allora F (a) F (b). Essa infatti descrive come si accumulano le frequenze relative (ossia grandezze positive) al crescere di x; 3. è una funzione continua a destra, cioé per ogni x0 2 R, lim F (x) = F (x0 ) : x!x+ 0 La cdf caratterizza la distribuzione di frequenze in modo univoco (ossia, data una funzione F che soddisfa le proprietà 1., 2. e 3. , allora esiste una v.s. X che ha F come cdf ) e consente di valutare agevolmente la frequenza assegnata ad un qualsiasi intervallo di valori. Dati infatti due numeri reali a; b con a b allora Freq (a < X b) = Freq (X b) Freq (X a) : Ciò si traduce nel risultato fondamentale che segue. Scaricato da ahmed ouerghemi (ahouerghemi@gmail.com) lOMoARcPSD|2790231 3.2 Funzione di ripartizione 31 Proposizione 1 Dati due valori a; b 2 R, con a Freq (a < X Dim. Per ogni a b, allora: b) = F (b) F (a) : b si ha F (b) = Freq (X b) = Freq (X | {z a) + Freq (a < X } F (a) da cui: Freq (a < X b) = F (b) F (a) : b) La De…nizione 9 conduce a scrivere la legge di F (x) in modo diverso a seconda della natura del carattere: distingueremo il caso di v.s. a valori reali e in classi. 3.2.1 Caso di v.s. a valori reali Accanto alla frequenza assoluta ni (risp. relativa fi ) associata a xi può essere utile indicare la corrispondente frequenza cumulata Ni (risp. Fi ): essa fornisce il numero (risp. la porzione) di unità statistiche su cui si è osservato il carattere con un valore inferiore o uguale (non superiore) a xi , ossia: Ni = #fX xi g Fi = Freq (X xi ) = Ni : N La distribuzione delle frequenze assolute (risp. relative) cumulate raccolta in tabella si ottiene nel modo seguente: X x1 x2 x3 .. . xi .. . xk Freq. Ass. Freq. Ass. Cumul. n1 N1 = n 1 n2 N2 = n 1 + n 2 n3 N3 = n 1 + n 2 + n 3 .. .. . . Pi ni Ni = h=1 nh .. .. . . nk N Nk = N Freq. Rel. Freq. Rel. Cumul. f1 F1 = f1 f2 F2 = f1 + f2 f3 F3 = f1 + f2 + f3 .. .. . . Pi fi Fi = h=1 fh .. .. . . fk 1 Fk = 1 Utilizzando una distribuzione di frequenze cumulate è dunque possibile assegnare frequenze ad intervalli del tipo ( 1; xi ] e di conseguenza valutare la cdf come segue: se x < x1 , allora F (x) = 0; Scaricato da ahmed ouerghemi (ahouerghemi@gmail.com) lOMoARcPSD|2790231 32 3. Analisi di v.s. quantitative - Gra…ci, f.ne di densità e di ripartizione se x1 x < x2 , allora F (x) = F1 ; se x2 x < x3 , allora F (x) = F2 ; ... se x xk , allora F (x) = 1. In modo più compatto scriviamo: 8 < 0 Fi F (x) = : 1 x < x1 xi x < xi+1 x xk i = 1; 2; : : : ; k 1 Si tratta di una funzione costante a tratti con discontinuità di salto pari a Fi Fi 1 = fi in corrispondenza dei punti xi . Per tale motivo, conoscere la cdf equivale a conoscere la distribuzione di frequenze. Per …ssare i concetti introdotti, viene proposto un esempio ed un esercizio. Esempio 15 Si supponga che l’osservazione della v.s. X abbia prodotto il seguente dataset: X = f1; 2; 0; 0; 1; 0; 2; 3; 0; 2g : La corrispondente distribuzione di frequenze relative e di frequenze relative cumulate è riportata nella tabella che segue: X 2 0 1 3 Freq. Rel. Freq. Rel. Cum. 0:3 0:3 0:4 0:7 0:2 0:9 0:1 1 Segue che la cdf di X è data da: 8 0 > > > > 0:3 < 0:7 F (x) = > > 0:9 > > : 1 x< 2 2 x<0 0 x<1 1 x<3 x 3 Scaricato da ahmed ouerghemi (ahouerghemi@gmail.com) lOMoARcPSD|2790231 3.2 Funzione di ripartizione 33 ed il suo gra…co è rappresentato qui di seguito: Esercizio 8 La funzione di ripartizione della 8 0 > > < 0:5 F (x) = 0:7 > > : 1 v.s. quantitativa X è: x< 2 2 x<0 0 x<1 x 1 1) Calcolare la distribuzione di frequenze relative di X e poi, sapendo che N = 60, quella di frequenze assolute. 2) Disegnare il gra…co di F (x) e della corrispondente distribuzione di frequenze relative. 3) Calcolare Freq ( 1 < X 0:5). 3.2.2 Caso di v.s. in classi Quando si dispone unicamente della distribuzione di frequenza con dati in classi, non si ha alcuna informazione circa il valore assunto esattamente da ciascuna unità statistica all’interno della classe e così la frequenza cumulata Ni (risp. Fi ) fornisce soltanto il numero (risp. la proporzione) di unità statistiche su cui si è osservato il carattere con un valore inferiore o uguale al limite superiore di classe li : Ni = # fX li g ; Fi = Ni : N Le uniche informazioni disponibili sulla funzione di ripartizione F (x) sono le seguenti: se x < l0 , allora F (x) = 0; se l0 x < l1 , allora 0 F (x) < F1 ; Scaricato da ahmed ouerghemi (ahouerghemi@gmail.com) lOMoARcPSD|2790231 34 3. Analisi di v.s. quantitative - Gra…ci, f.ne di densità e di ripartizione se x = l1 , allora F (x) = F1 ; se x lk , allora F (x) = 1. Per valutare la cdf in un punto qualsiasi x 2 R, analogamente a quanto fatto nella costruzione della funzione di densità, dobbiamo ricorrere all’ipotesi che il carattere si ripartisca uniformemente in ciascuna classe. Tale assunzione implica che la frequenza dell’insieme fX xg sia pari all’area sottesa dalla funzione di densità su ( 1; x]: Z x h (t) dt: F (x) = 1 Quindi, senza perdere di generalità, supponendo che li 1 < x li , la cdf calcolata in x sarà data dalla frequenza cumulata …no al punto li 1 , ossia Fi 1 , più quella assegnata all’intervallo (li 1 ; x], ossia l’area del rettangolo di base (x li 1 ) e altezza hi . In altri termini: F (x) = Freq (X li 1 ) + Freq (li = Fi 1 + hi (x li 1 ) : 1 <X x) Procedendo in tal modo per ogni x 2 R e posto F0 = 0 si ha: se x < l0 , allora F (x) = 0; se l0 x < l1 , allora F (x) = h1 (x se l1 x < l2 , allora F (x) = F1 + h2 (x se x lk , allora F (x) = 1. In modo più compatto scriviamo: 8 < 0 Fi 1 + hi (x F (x) = : 1 li 1 ) l0 ); l1 ); x < l0 li 1 x < li x lk i = 1; 2; : : : ; k Si tratta di una funzione lineare a tratti, continua su tutto R il cui gra…co è una spezzata. L’inclinazione dei segmenti corrispondenti a ciascuna classe (ossia il coe¢ciente angolare) Scaricato da ahmed ouerghemi (ahouerghemi@gmail.com) lOMoARcPSD|2790231 3.2 Funzione di ripartizione 35 è data dalla densità di frequenza assegnata a quella classe: calcolando la derivata prima di F (x) sugli intervalli (li 1 ; li ), si ottengono le densità di frequenze che de…niscono l’istogramma: dF (x) = hi ; x 2 (li 1 ; li ) : h (x) = dx Il legame tra la funzione di ripartizione e le aree dell’istogramma, può essere visualizzato mediante il diagramma seguente. Esempio 16 Sia data la seguente distribuzione di frequenza della v.s. X con dati in classi X 10 a 0 0 a 10 10 a 30 30 a 70 Freq. Relative 0:1 0:5 0:3 0:1 Si vuole calcolare la funzione di ripartizione F (x) in corrispondenza del valore x = 15. Dato che 15 è un elemento della classe x3 = 10 a 30, si ha: 0:3 F (15) = F2 + h3 (15 l2 ) = 0:6 + (15 10) = 0:675: 20 Tale risultato ci dice che la frequenza di unità statistiche su cui è stato osservato un valore non superiore a 15 è uguale al 67:5%, ossia: F (15) = Freq (X 15) = 0:675: Scaricato da ahmed ouerghemi (ahouerghemi@gmail.com) lOMoARcPSD|2790231 36 3. Analisi di v.s. quantitative - Gra…ci, f.ne di densità e di ripartizione Esempio 17 Consideriamo l’Esempio 14. La legge della cdf è la seguente: 8 0 x < 130 > > > > 130 x < 140 < 0:02 (x 130) 0:2 + 0:03 (x 140) 140 x < 160 F (x) = > > 0:8 + 0:01 (x 160) 160 x < 180 > > : 1 x 180 Volendo calcolare la frequenza degli studenti con statura compresa tra 140 e 150 cm e quella degli studenti con statura tra 150 e 170 cm, possiamo utilizzare direttamente la Proposizione 1 per ottenere Freq (140 < X 150) = F (150) F (140) = = 0:2 + 0:03 (150 140) 0:02 (140 130) = 0:3 nel primo caso e Freq (150 < X 170) = F (170) F (150) = = 0:8 + 0:01 (170 160) [0:2 + 0:03 (150 140)] = 0:4: nel secondo. Esercizio 9 Il gra…co che segue visualizza la distribuzione di frequenze assolute di una v.s. quantitativa X con dati in classi. 1) Rispondere ai seguenti quesiti: 1.a) dire da cos’è costituito Im(X) e qual è la sua numerosità k; 1.b) dire che cosa si intende con la notazione f10 < X 20g. 2) Scrivere la funzione di ripartizione di X e quindi calcolare Freq (X > 14). Scaricato da ahmed ouerghemi (ahouerghemi@gmail.com) lOMoARcPSD|2790231 Capitolo 4 Analisi di v.s. quantitative Indicatori di posizione Una v.s. viene usualmente sintetizzata mediante la sua distribuzione di frequenze, o in modo equivalente, dalla sua funzione di ripartizione. A …ni pratici, risulta comunque utile fornire dei valori di sintesi detti indici (o indicatori) che danno delle indicazioni circa taluni aspetti speci…ci. Nel seguito esamineremo in dettaglio: indici di posizione, indici di variabilità, indici di forma. Questa sezione è dedicata agli indici di posizione: l’obiettivo è quello di individuare un numero (che chiamiamo valore medio) che fornisca un ordine di grandezza per X secondo un dato principio. De…nizione 10 (Valore medio secondo Cauchy) Sia X una v.s. quantitativa a valori reali. Si dice valore medio di X un qualsiasi numero m tale che x1 m xk : Se X è una v.s. in classi, si dice valore medio di X qualsiasi numero m tale che l0 m lk : In tale de…nizione generale rientrano vari indicatori, a seconda del principio adottato: ne vedremo alcuni molto utili a descrivere determinati aspetti della distribuzione di una variabile. 4.1 Minimo, Massimo, Valore centrale e Moda Per descrivere sinteticamente una distribuzione, la prima cosa da fare è individuare gli estremi inferiore e superiore dell’intervallo su cui la distribuzione di frequenze è de…nita, Scaricato da ahmed ouerghemi (ahouerghemi@gmail.com) lOMoARcPSD|2790231 38 4. Analisi di v.s. quantitative - Indicatori di posizione ossia di Im (X): il valore minimo x1 ed il valore massimo xk (l0 e lk rispettivamente, nel caso in classi). Chiamiamo poi valore centrale (o anche mid-range) il numero: M R (X) = x1 + xk 2 risp. M R (X) = l0 + lk : 2 È immediato constatare che quando la distribuzione di frequenze di una v.s. presenti un’andamento molto dissimile rispetto al caso uniforme e quando non vi sia simmetria, allora il valore centrale è poco interessante quale misura di sintesi. Quando si desideri concentrare l’attenzione su un criterio di “prevalenza” di talune realizzazioni rispetto ad altre, è utile determinare la moda (o le mode). La moda della v.s. a valori reali X per un carattere discreto è quella realizzazione che si presenta con la massima frequenza. Nel caso di v.s. con dati in classi, oppure v.s. quantitative ricodi…cate con classi di misure, si individua la classe modale, ossia la classe avente la massima densità di frequenza (cioè, alla quale è associato il rettangolo più alto dell’istogramma). Si osservi in questo secondo caso la classe modale individuata è legata strettamente al tipo di suddivisione in classi che si è stabilito. Se X ammette una sola moda allora è detta unimodale, se ne ha più d’una è detta plurimodale. L’esistenza di più mode può essere il sintomo della presenza di gruppi di¤erenti di unità statistiche che sono stati mischiati, come illustrato nell’esempio che segue. Esempio 18 Si e¤ettua la misurazione delle stature dei maschi ventenni appartenenti a due gruppi etnici molto di¤erenti (per es.: i pigmei e gli scandinavi): la distribuzione di frequenze risultante sarà quasi certamente bimodale. 4.2 Quantili Ci si pone ora l’obiettivo di fornire una sintesi di una distribuzione di frequenza mediante indicatori che stabiliscono delle “soglie” di modo che la popolazione sia partizionata in due gruppi aventi frequenza …ssata a priori, e formati il primo da tutte le unità statistiche su cui sono stati osservati valori non superiori alla soglia individuata, il secondo dalle unità statistiche su cui si è osservato un valore non inferiore a tale soglia. Ciascuna di queste soglie è detta quantile e la frequenza usata nel frazionamento (che indichiamo con la lettera greca , leggasi alpha) è detta ordine del quantile: nel seguito, un quantile d’ordine verrà indicato q . Per quanto attraente, l’idea di frazionare la popolazione in gruppi aventi frequenza pre…ssata può essere di¢cilmente praticabile. Consideriamo per esempio una popolazione formata da N unità statistiche, con N dispari, su cui si è osservata la v.s. reale X e si desideri trovare q0:5 , ossia quel valore che suddivide la popolazione (ordinata secondo i Scaricato da ahmed ouerghemi (ahouerghemi@gmail.com) lOMoARcPSD|2790231 4.2 Quantili 39 valori crescenti di X) a metà. Appare …n da subito che c’è un problema: dato che N è dispari è impossibile dividere la popolazione in due gruppi aventi la medesima numerosità. Per risolvere l’inconveniente si ricorre alla seguente de…nizione. De…nizione 11 (Quantile d’ordine ) Sia un numero reale compreso tra 0 e 1. De…niamo quantile d’ordine della v.s. quantitativa X un numero q che suddivide le unità statistiche in due gruppi di modo che: 1) la parte della popolazione su cui è stato osservato un valore inferiore o uguale a q abbia frequenza almeno pari ad , ossia: Freq (X q ) 2) la parte della popolazione su cui è stato osservato valore maggiore o uguale a q abbia frequenza almeno pari a (1 ), ossia: Freq (X q ) 1 : Per meglio comprendere il concetto di quantile, si veda il seguente esempio. Esempio 19 Supponiamo che il quantile d’ordine 0:25 dei redditi mensili di una popolazione di lavoratori dipendenti sia 1500 Euro: ciò vuol dire che che almeno il 25% dei lavoratori ha redditi non superiori a 1500 Euro e almeno il 75% ha reddito non inferiore a 1500 Euro. Se q0:5 = 2000 Euro, allora almeno metà dei lavoratori ha redditi …no a 2000 Euro mentre i restanti lavoratori hanno almeno 2000 Euro. Si osservi che a partire dai quantili è sempre possibile costruire una distribuzione di frequenze con dati in classi compatibile con essi (ovviamente tale distribuzione non è unica). Usando i dati precedenti infatti possiamo scrivere la seguente distribuzione: Redditi 0 a 1500 1500 a 2000 oltre 2000 Freq. Relat. 0:25 0:25 0:50 Riprendiamo ora la De…nizione 11 e so¤ermiamoci sulla condizione 2). Dal momento che Freq (X q )=1 Freq (X < q ) allora, trovare un quantile d’ordine equivale ad individuare quel numero q che soddisfa simultaneamente le seguenti condizioni: Freq (X q ) e Freq (X < q ) Scaricato da ahmed ouerghemi (ahouerghemi@gmail.com) : (4.1) lOMoARcPSD|2790231 40 4. Analisi di v.s. quantitative - Indicatori di posizione Un aspetto rilevante è il fatto che, …ssato , il quantile corrispondente potrebbe non essere unico, dato che un intero intervallo di valori potrebbe soddisfare la coppia di condizioni (4.1). L’esempio che segue ha lo scopo di mostrare come si può procedere al calcolo di un quantile a partire da un semplice dataset. Esempio 20 Su una popolazione composta da 6 studenti sono stati rilevati i seguenti voti (in decimi): u1 u 2 u3 u4 u 5 u6 7 9 4 5 6 7 Vogliamo ora calcolare il quantile d’ordine 0:25 della variabile X =“Voto conseguito”. Innanzi tutto si debbono riordinare gli studenti secondo il voto conseguito: u3 u 4 u5 u1 u 6 u2 4 5 6 7 7 9 Quindi bisogna trovare un numero q0:25 tale che, allo stesso tempo: 1) almeno il 25% degli studenti abbia voto non superiore a q0:25 ; 2) almeno il 75% degli studenti abbia voto non inferiore a q0:25 (ossia, al più il 25% degli studenti abbia voto minore di q0:25 ). Per guidare il ragionamento può essere utile utilizzare lo schema che segue: 25% z }| { u3 u 4 u5 4 5 6 | u1 7 u6 7 u2 9 {z 75% } Possiamo vedere che il numero che soddisfa entrambe le condizioni è q0:25 = 5. Determiniamo ora il quantile d’ordine 0:5. Ragionando in modo analogo a quanto fatto in precedenza, ci accorgiamo che una possibile scelta per q0:5 è un qualsiasi numero nell’intervallo [6; 7]. Come mostra l’esempio, il calcolo può risultare piuttosto laborioso soprattutto per dataset molto estesi e ai …ni pratici è conveniente utilizzare la funzione di ripartizione per de…nire un quantile. De…nizione 12 Si dice quantile d’ordine (con 0 q tale che F (q ) e F q 1) della v.s. X un numero Scaricato da ahmed ouerghemi (ahouerghemi@gmail.com) lOMoARcPSD|2790231 4.2 Quantili 41 dove F (q ) è la frequenza dell’insieme fX < q g, ossia F q = lim F (x) : x!q Ciò signi…ca che per individuare un quantile d’ordine è su¢ciente confrontare il gra…co della cdf con la retta y = . Il quantile q è un numero tale che il gra…co di y = F (x) sta sotto o coincide con la retta sull’intervallo ( 1; q ] e sta sopra o coincide con la medesima retta sull’intervallo [q ; +1). Formalmente, ciò equivale ad individuare l’intersezione tra l’insieme F 1 (( 1; ]) = fx : F (x ) g e l’insieme F 1 ([ ; +1)) = fx : F (x) g. Data la monotonia di F (x), questi due insiemi sono del tipo ( 1; a] e [b; +1) con b a: Quindi: Se a = b allora ( 1; a] \ [b; +1) si riduce al solo elemento a che è il nostro q ; Se b < a allora ( 1; a]\[b; +1) = [b; a] e quindi q non è unico, essendo ammissibili tutti i valori dell’intervallo [b; a]. Per sempli…care l’analisi, dal momento che si vuole fornire un unico valore per il quantile, per convenzione si prende il centro dell’intervallo: a+b : q = 2 Per convenzione si de…nisce q0 = x1 (oppure l0 nel caso in classi) e q1 = xk (oppure lk nel caso in classi). A titolo esempli…cativo, riportiamo la procedura di calcolo nel caso di v.s. a valori reali e in classi. 4.2.1 Il caso di una v.s. a valori reali Dopo aver disegnato il gra…co della funzione di ripartizione, si traccia la retta di equazione y = e si individuano gli insiemi fx : F (x ) g e fx : F (x) g. A questo punto si possono presentare due situazioni di¤erenti: la prima è quella in cui la retta di equazione y = non incontra mai F (x), ossia, non esiste alcun punto x tale che F (x) = . Il quantile q in questo caso è unico ed è uguale a quel numero xi tale che Fi 1 < < Fi . Questa situazione è visualizzata nella …gura che segue dove q = x3 , infatti F2 < < F3 . Scaricato da ahmed ouerghemi (ahouerghemi@gmail.com) lOMoARcPSD|2790231 42 4. Analisi di v.s. quantitative - Indicatori di posizione La seconda situazione è quella in cui esiste un intervallo in corrispondenza del quale F (x) = . Necessariamente tale intervallo avrà per estremi due realizzazioni consecutive xi ed xi+1 tali che Fi = . In questo secondo caso, il quantile d’ordine non è unico: sono infatti ammissibili tutti i valori compresi tra xi ed xi+1 xi q xi+1 : Per convenzione si prende il centro dell’intervallo [xi ; xi+1 ]: q = xi + xi+1 : 2 Questo secondo caso è illustrato nel gra…co seguente ove F3 = x3 q q = x3 + x4 : 2 e convenzionalmente si sceglie: e quindi x4 Scaricato da ahmed ouerghemi (ahouerghemi@gmail.com) lOMoARcPSD|2790231 4.2 Quantili 43 Esercizio 10 La funzione di ripartizione della v.s. quantitativa X è riportata qui di seguito: 8 0 x< 2 > > < 0:5 2 x<0 F (x) = 0:7 0 x<1 > > : 1 x 1 Individuare il quantile d’ordine 0:3 e quello d’ordine 0:7. Dare quindi un’interpretazione dei risultati in termini di indici di posizione (cfr. Esempio 19). 4.2.2 Il caso di una v.s. con dati in classi Qualora il carattere abbia modalità espresse mediante classi di misure, la funzione di ripartizione è continua. In tal caso, cercare un numero q che soddisfa la coppia di condizioni F (q ) e F q si riduce, per la continuità di F (x), a risolvere l’equazione: F (q ) = : In pratica, si individua la classe a cui il quantile q appartiene, ossia la classe (li 1 ; li ] tale che Fi 1 < Fi . Quindi si risolve l’equazione di primo grado: Fi 1 + hi (q li 1 ) = ; ottenendo: Fi 1 : hi ove, lo ricordiamo, hi = fi =wi . Per convenzione, si assume q0 = l0 e q1 = lk . q = li 1 + Esercizio 11 Il gra…co che segue visualizza la funzione di densità di una v.s. quantitativa X con dati in classi. Dopo aver scritto la funzione di ripartizione, calcolare il quantile d’ordine 0:3 e darne un’interpretazione in termini di indice di posizione (cfr. Esempio 19). Scaricato da ahmed ouerghemi (ahouerghemi@gmail.com) lOMoARcPSD|2790231 44 4. Analisi di v.s. quantitative - Indicatori di posizione 4.2.3 Mediana, Quartili, Decili, Percentili A seconda del valore scelto per , i quantili prendono nomi di¤erenti: 1. Mediana Quando = 1=2 il quantile corrispondente è detto Mediana (M e): si tratta del valore che suddivide l’insieme delle osservazioni in due parti contenenti rispettivamente almeno la metà delle unità statistiche ordinate secondo i valori crescenti di X. 2. Quartile Quando = 1=4 il quantile corrispondente è detto primo quartile (Q1 ), per = 2=4 parliamo di secondo quartile (Q2 ), mentre per = 3=4 si ha terzo quartile (Q3 ). 3. Decile e percentile Se = k=10 (con k = 1; 2; : : : ; 9) allora parliamo di k-esimo decile, mentre quando = k=100 (con k = 1; 2; : : : ; 99) allora il quantile corrispondente è detto k-esimo percentile. È appena il caso di osservare che la mediana è il secondo quartile, ossia il 5o decile, o ancora il 50o percentile. 4.2.4 Box-Plot Utilizzando i quartili si può ottenere una rappresentazione gra…ca detta scatola e ba¢ (o box-plot) costituita da 1. un corpo centrale rettangolare (la scatola) delimitata dal primo e dal terzo quartile e diviso in due dalla mediana. La scatola può essere orientata in orizzontale o in verticale a seconda delle esigenze gra…che; 2. due ba¢, ossia due segmenti laterali (a sinistra e a destra della scatola se essa è posta in orizzontale, sopra e sotto la scatola se essa è disegnata in verticale) la cui lunghezza può essere determinata in vari modi. Il modo più rudimentale è quello di cominciare il ba¤o di sinistra (inferiore) partendo da x1 e di terminare quello di destra (superiore) a xk . Secondo la regola di Tukey1 , la lunghezza massima di ogni ba¤o è una volta e mezzo la lunghezza della scatola, ossia 1:5 (Q3 Q1 ). Tutto il gra…co (ba¢ inclusi) non può eccedere l’intervallo [x1 ; xk ] nel caso reale (oppure [l0 ; lk ] nel caso in classi). 1 John W. Tukey (1977) Exploratory Data Analysis, Addison-Wesley Publishing Company Reading, Massachusetts. Scaricato da ahmed ouerghemi (ahouerghemi@gmail.com) lOMoARcPSD|2790231 4.2 Quantili 45 Nella …gura che segue è riportato un esempio di box-plot con tutti i suoi elementi caratteristici. Le quantità Ainf e Asup sono dette adiacente inferiore e superiore rispettivamente. Secondo la succitata regola di Tukey esse si individuano come segue: Ainf è il più grande valore tra x1 e Q1 1:5 (Q3 Asup è il più piccolo tra Q3 + 1:5 (Q3 Q1 ) e xk . Q1 ), In pratica, ciò signi…ca che se il ba¤o inferiore o quello superiore eccedessero gli estremi della distribuzione, allora andrebbero troncati in corrispondenza degli estremi. Con il simbolo si indica la presenza di un dato “anomalo” (outlier), ossia troppo grande o troppo piccolo rispetto alla maggior parte dei dati osservati. Ovviamente, se Ainf e Asup coincidessero con gli estremi della distribuzione, allora non apparirebbero dati anomali. Esercizio 12 Il gra…co che segue riporta il box-plot della v.s. X. Supponendo che X sia una v.s. continua con dati in classi i cui estremi sono individuati dai valori del box-plot, e che F (x) sia la sua funzione di ripartizione, rispondere alle seguenti domande: 1) Scrivere la distribuzione di frequenze relative di X. 2) Calcolare F (1). 3) Calcolare il quantile d’ordine 0:6. Osserviamo che i quantili e quindi il box-plot non identi…cano in modo univoco la distribuzione di frequenze di una v.s. (sia la natura, sia i valori delle realizzazioni, e tanto meno le frequenze): ad esempio due v.s. diverse (una discreta, l’altra in classi) possono avere lo stesso box-plot. Qui di seguito si propone un esercizio al riguardo. Esercizio 13 Facendo riferimento alla …gura dell’Esercizio 12 e alla v.s. X ivi de…nita: 1) Scrivere la distribuzione di frequenze di una v.s. in classi Y che abbia lo stesso box-plot di X ma diversa distribuzione di frequenza; 2) Scrivere la distribuzione di frequenze di una v.s. discreta Z il cui box-plot sia però uguale a quello di X. Scaricato da ahmed ouerghemi (ahouerghemi@gmail.com) lOMoARcPSD|2790231 46 4.3 4. Analisi di v.s. quantitative - Indicatori di posizione La media aritmetica Si supponga che la v.s. a valori reali X sia riferita ad una carattere trasferibile, ossia un carattere che è misurato in scala per rapporti e che può essere suddiviso e ceduto da un’unità all’altra (in altre parole, redistribuito). Per esempio, sono caratteri trasferibili la ricchezza di un paese, la super…cie coltivabile, il numero di turisti, ecc.. Non sono caratteri trasferibili la statura, il peso, l’età, ecc.. In linea di principio è così possibile cumulare l’intero ammontare del carattere per ottenere la quantità: N X T = X(u ): =1 Supponiamo ora di voler individuare quel valore, che indichiamo (leggasi mi), che verrebbe attribuito a ciascuna unità statistica u se fosse possibile redistribuire T tra tutte le unità in modo invariante (ossia, egualitario). Per determinare detta costante è su¢ciente porre la seguente uguaglianza, detta condizione di invarianza: N X X(u ) = =1 da cui si ha N X =1 N X X(u ) = N =1 e quindi = N T 1 X X(u ) = : N =1 N Il numero così calcolato è detto media aritmetica di X: si tratta di quel valore che rappresenta la ripartizione egualitaria del carattere tra le unità del collettivo. Dal momento che N X X(u ) = X(u1 ) + + X(u ) = =1 = x1 + ::: + x1 + x2 + ::: + x2 + ::: + xk + ::: + xk | {z } | {z } | {z } n1 volte n2 volte nk volte = x1 n1 + x2 n2 + ::: + xk nk = k X xi ni i=1 Scaricato da ahmed ouerghemi (ahouerghemi@gmail.com) lOMoARcPSD|2790231 4.3 La media aritmetica 47 la condizione di invarianza può essere riscritta equivalentemente come segue k X k X xi ni = i=1 ni i=1 da cui = k 1 X xi ni N i=1 oppure ancora, ricordando che il peso dell’i-mo valore distinto xi è fi = ni =N , = k X xi fi : i=1 Si sono così ottenute delle formulazioni equivalenti per il calcolo della media aritmetica: una media costruita utilizzando i dati originari si dice anche “media semplice”; nel caso in cui si utilizzi la distribuzione di frequenze, allora si parla di “media ponderata con pesi fi ”. Chiaramente, si tratta solo di un diverso modo di scrivere lo stesso procedimento di calcolo ed il risultato non cambia. Quando si ha a che fare con caratteri quantitativi che non hanno la caratteristica della trasferibilità, la media aritmetica può essere sempre calcolata: la sua interpretazione chiaramente non sarà più legata ad un meccanismo di redistribuzione. Semplicemente, la media aritmetica servirà a caratterizzare la modalità espressa dall’unità statistica “tipo”, ossia quella che si avrebbe nel caso in cui la variabile statistica associasse ad ogni unità lo stesso valore (ossia ). Osservazione 3 Nel linguaggio corrente il termine “media” o “valore medio” viene spesso associato a quello di media aritmetica, riducendone in tal modo il signi…cato dato dalla de…nizione di Cauchy. Nel caso in cui si abbiano dati in classi, i calcoli visti in precedenza perdono di signi…cato: la cosa più semplice è quella di individuare un valore tipo per ciascuna classe ed utilizzare detti valori per determinare la media aritmetica. La scelta di solito ricade sul valore centrale di ogni classe: data la classe i-ma si utilizzerà xC i = li + li : 2 1 Di fatto, si sostituisce all’originaria v.s. in classi una nuova v.s. a valori reali: tale processo è detto discretizzazione per centri di classe. Scaricato da ahmed ouerghemi (ahouerghemi@gmail.com) lOMoARcPSD|2790231 48 4. Analisi di v.s. quantitative - Indicatori di posizione 4.3.1 De…nizione di Media Artimetica Per riassumere quanto detto, diamo la seguente de…nizione: De…nizione 13 (Media aritmetica) Diciamo media aritmetica della v.s. quantitativa a valori reali X il numero risultante dalla seguente operazione: E [X] = k X xi fi = i=1 oppure, quando X è una v.s. in classi: E [X] = k X xC i fi = i=1 dove xC i = li + li è il valore centrale della classe i-ma. 2 1 Con il simbolo E [ ] si indica un operatore che applicato alla v.s. X ne restituisce la sua media aritmetica2 . È appena il caso di osservare che la media aritmetica è una media secondo Cauchy: è un numero compreso nell’intervallo [x1 ; xk ] nel caso reale ovvero, [l0 ; lk ] nel caso in classi. La De…nizione 13 può essere generalizzata applicando l’operatore E [ ] ad una qualsiasi traformazione (ammissibile) di X. Infatti, data g (X), allora: E [g (X)] = k X g(xi )fi : i=1 Ciò è lecito perché se xi ha peso fi allora, inevitabilmente, g(xi ) ha lo stesso peso. È appena il caso di rilevare che E [g (X)] non è una media di X (non rispetta in generale la De…nizione 10), ma è la media aritmetica della v.s. g (X). Esempio 21 Vediamo alcuni esempi: 1) se si sceglie g(x) = x2 , allora E [g (X)] = E X 2 = k X x2i fi i=1 2 La lettera E per de…nire tale operatore è mutuata dalla letteratura inglese e sta per “Expectation”. Il concetto verrà chiarito in ambito probabilistico. Scaricato da ahmed ouerghemi (ahouerghemi@gmail.com) lOMoARcPSD|2790231 4.3 La media aritmetica 2) se g(x) = x 49 c, ove c è una costante qualsiasi, allora E [(X c)] = k X (xi c)fi i=1 3) per g(x) = (x m)2 , ove m 2 R, si ha E (X m)2 = k X (xi m)2 fi : i=1 Esercizio 14 La funzione di ripartizione della v.s. quantitativa X è riportata qui di seguito: 8 0 x< 2 > > < 0:5 2 x<0 F (x) = 0:7 0 x<1 > > : 1 x 1 Esplicitare la formula e calcolare E [g (X)] per 1) g (x) = x 2) g (x) = j x 2 j 3) g (x) = p x2 4) g (x) = x 5) g (x) = x3 6) g (x) = (x )2 7) g (x) = ex . A questo punto è opportuno prestare attenzione al fatto che, in generale, si ha E [g (X)] 6= g (E [X]) (4.2) per cui, ad esempio, la media aritmetica dei quadrati è diversa dal quadrato delle media aritmetica calcolata a partire dai dati originali: E X 2 6= (E [X])2 : Quando invece g (x) è una funzione lineare a¢ne (ossia g (x) = a + bx, b 6= 0), allora si ha l’uguaglianza in (4.2). Tale caratteristica è riassunta nella importante proposizione che segue. Proposizione 2 (Proprietà di linearità) Siano a; b 2 R, allora E [a + bX] = a + bE [X] : Scaricato da ahmed ouerghemi (ahouerghemi@gmail.com) lOMoARcPSD|2790231 50 4. Analisi di v.s. quantitative - Indicatori di posizione Dim. La giusti…cazione di tale risultato si ottiene semplicemente a partire dalla De…nizione 13, utilizzando le proprietà associativa della somma e quella distributiva del prodotto: E [a + bX] = k X (a + bxi )fi = i=1 k X =a k X i=1 fi + b {z } |i=1 =1 k X afi + k X bxi fi i=1 xi fi = a + bE [X] : |i=1{z } =E[X] In altre parole, una traslazione (ossia, l’aggiungere una costante a) e/o un cambio di scala (ossia, il moltiplicare per un fattore di scala b) dei dati osservati di una variabile producono un identico e¤etto sulla loro media aritmetica. 4.3.2 Alcune proprietà della media aritmetica Vediamo ora alcune proprietà che permettono di chiarire il signi…cato della media aritmetica e ne giusti…cano l’importanza pratica. In particolare ci so¤ermeremo sulla cosiddetta proprietà di nullità degli scarti e su quella detta dei minimi quadrati. Proposizione 3 (Nullità degli scarti) La media aritmetica E [X soddisfa: ]=0 Dim. Si tratta di un’applicazione diretta della proprietà di linearità (vedi Proposizione 2) per a = e b = 1: E [X ] = E [X] =0 Grazie alla proprietà di nullità degli scarti, possiamo concludere che la media aritmetica è il baricentro (o centro di massa) della distribuzione. All’atto pratico, ciò si traduce nella possibilità di individuare la media aritmetica di una distribuzione guardandone semplicemente il gra…co: se interpretiamo l’asse delle ascisse come un piano su cui poggiano dei pesi, rappresentati dai bastoni (nel caso reale) e dai rettangoli dell’istogramma (nel caso in classi), è il punto di equilibrio di tale sistema di pesi. Da tale proprietà discende il fatto che la media aritmetica e la mediana coincidono quando la distribuzione di frequenze è simmetrica rispetto a . Scaricato da ahmed ouerghemi (ahouerghemi@gmail.com) lOMoARcPSD|2790231 4.3 La media aritmetica 51 Esercizio 15 Costruire alcuni esempi di distribuzioni simmetriche e veri…care che la media e la mediana coincidono. Consideriamo ora la funzione L : R ! R de…nita come segue: L (m) = E (X m)2 : Si tratta di una funzione di perdita (L sta per loss) che quanti…ca la perdita di informazione che si ha nell’utilizzare un solo valore di sintesi m in luogo dell’intera distribuzione di X. Tale funzione presenta le seguenti caratteristiche: si tratta di una funzione quadratica (con variabile indipendente m) con concavità rivolta verso l’alto e il cui punto di minimo è in m = . Ciò può essere riscritto nel modo seguente. Proposizione 4 (Proprietà dei minimi quadrati) Sia m 2 R. La media aritmetica è tale che: L ( ) < L (m) m 6= : Dim. Si considera la de…nizione di L (m), si aggiunge e toglie opportunamente: L (m) = E (X = E (X m)2 = E (X )2 + ( + m)2 + 2 (X e si sviluppa il quadrato m)2 )( m) : Grazie alla proprietà di linearità (vedi Proposizione 2) ed alla nullità degli scarti dalla media aritmetica (vedi Proposizione 3), si ha: L (m) = E (X {z | L( ) )2 + ( } m)2 + 2 ( m) E [(X | {z =0 )]: } Se m 6= , allora ( m)2 > 0 e quindi L (m) > L ( ). In sostanza, la proprietà dei minimi quadrati sancisce che la media aritmetica è l’unico numero che fornisce la migliore approssimazione dell’intera distribuzione dei dati, nel senso che conduce alla più piccola perdita di informazione (in termini quadratici). 4.3.3 Problemi di “robustezza” legati all’uso della media aritmetica Se la media aritmetica presenta, come abbiamo visto, una serie di proprietà che la rendono ottimale, essa so¤re di un grave inconveniente legato al metodo di costruzione. Infatti è sensibile ai valori “anomali”, o per usare il linguaggio statistico, è un indicatore poco robusto. Consideriamo il seguente esempio. Scaricato da ahmed ouerghemi (ahouerghemi@gmail.com) lOMoARcPSD|2790231 52 4. Analisi di v.s. quantitative - Indicatori di posizione Esempio 22 Una popolazione di 10 famiglie presenta le seguenti caratteristiche in termini di numero di …gli: 2 1 1 0 9 1 3 1 2 0 Evidentemente la famiglia con 9 …gli è “anomala” in senso statistico: se calcolassimo il numero medio di …gli per famiglia usando la media aritmetica si otterrebbe = 2, un numero che sintetizza male la realtà (la mediana è 1 …glio, il terzo quartile è 2 …gli e solo il 20% della popolazione ha più di 2 …gli). Al …ne di ottenere un indicatore robusto, si deve procedere preventivamente all’eliminazione dei dati anomali individuati mediante il box-plot (tale procedura è detta di troncatura o trimming) e quindi ricalcolare la media a partire dai valori rimasti. Esempio 23 Riprendendo i dati dell’Esempio 22, se sopprimiamo dall’elenco la famiglia con 9 …gli, la media aritmetica risultante è 1:2, un valore decisamente più rappresentativo. 4.3.4 Il criterio di invarianza secondo Chisini (cenni) Il metodo di costruzione della media aritmetica utilizzato in precedenza si basa sul cosiddetto criterio di invarianza dovuto a Oscar Chisini3 . Il principio generale è il seguente: sia : RN ! R, allora una media nel senso di Chisini rispetto a è quel numero m (ammesso che esista e che soddis… la de…nizione di Cauchy) che realizza la seguente condizione di invarianza: (X (u1 ) ; : : : ; X (uN )) = (m; : : : ; m) : (4.3) Se si sceglie (X (u1 ) ; : : : ; X (uN )) = N X g (X (uv )) v=1 ove g è una trasformazione ammissibile di X ed invertibile su Im (X), allora imponendo la condizione (4.3) si ha N N X X g (X (uv )) = g (m) v=1 v=1 da cui g (m) = E [g (X)] e in…ne m=g 1 (E [g (X)]) : Vediamo alcuni esempi. 1. Quando g è la funzione identità, m è la media aritmetica. 3 Chisini, Oscar (1929). Sul concetto di media. Periodico di Matematiche, 4, 106-116. Scaricato da ahmed ouerghemi (ahouerghemi@gmail.com) lOMoARcPSD|2790231 4.3 La media aritmetica 53 2. Se g (x) = x2 , e X > 0 si ottiene la cosiddetta media quadratica: m = p 2 E [X 2 ]. 3. Se g (x) = 1=x, con X > 0 la media risultante è detta armonica: m = (E [X 1 1 ]) . 4. Più in generale, per g (x) = xr , con X > 0 e r numero intero diverso da zero, si ottiene la cosiddetta media di potenza di ordine r: m = (E [X r ])1=r . Si noti che i tre esempi precedenti sono dei casi particolari per r = 1, r = 2 e r = 1. 5. Per g (x) = ln (x), e X > 0 allora si ha la media geometrica: m = exp fE [ln (X)]g. Ricordando le proprietà dei logaritmi, ! N N Y X X (uv ) ln (X (uv )) = ln v=1 v=1 e così, la media geometrica può essere riscritta come segue: m= N Y v=1 X (uv ) !1=N = k Y i=1 xni i !1=N = k Y i=1 Scaricato da ahmed ouerghemi (ahouerghemi@gmail.com) xfi i : lOMoARcPSD|2790231 54 4. Analisi di v.s. quantitative - Indicatori di posizione Scaricato da ahmed ouerghemi (ahouerghemi@gmail.com) lOMoARcPSD|2790231 Capitolo 5 Analisi di v.s. quantitative Indicatori di variabilità Il calcolo di una media fornisce un ordine di grandezza per una variabile: il suo utilizzo implica di fatto che si sostituisca un’intera distribuzione con un solo numero. È evidente che tale informazione sia incompleta e possa fornire indicazioni fuorvianti se non è corredata da altre indicazioni sulla distribuzione: due distribuzioni completamente diverse possono avere la stessa media aritmetica. Esempio 24 Un anziano vuole decidere in quale località passare l’inverno: considera quindi due scelte possibili, che denominiamo A e B. Le temperature medie giornaliere (in gradi centigradi), rilevate nel corso di 5 giornate consecutive, in tali località sono: Località A Località B 14:5 10 16 13:5 13:5 19 16 20:5 15 12 Il calcolo della media aritmetica delle temperature fornisce 15 per entrambe le località: se la scelta si basasse sulla sola media, sarebbe indi¤erente scegliere A o B. Notiamo però che nella località A le temperature sono tutte prossime alla media (oscillano tra 13:5 e 16 gradi), mentre nel secondo sono piuttosto di¤ormi dal dato medio (oscillano infatti tra 10 e 20:5 gradi). Tale fatto segnala chiaramente che le due località non sono per nulla equivalenti, come invece la sola media aritmetica ci porterebbe a credere. La di¤erenza messa in evidenza nell’esempio è dovuta ad una maggiore dispersione dei dati di una variabile rispetto all’altra: se non considerassimo tale aspetto saremmo indotti a valutazioni incongruenti. Infatti l’attitudine dei dati a disperdersi è uno degli elementi principali da considerarsi in un’analisi statistica: se tutti gli individui fossero uguali rispetto alle grandezze osservabili non sarebbe necessario e¤ettuare alcuna analisi statistica (basterebbe la media, che coinciderebbe con l’unico dato osservato). Scaricato da ahmed ouerghemi (ahouerghemi@gmail.com) lOMoARcPSD|2790231 56 5. Analisi di v.s. quantitative - Indicatori di variabilità De…nizione 14 (Variabilità) Diciamo variabilità di una v.s. quantitativa X la sua attitudine a disperdersi sull’insieme delle modalità M. La variabilità può essere considerata sotto diversi aspetti e ciò conduce ad introdurre varie famiglie di indicatori. Nel seguito tratteremo in dettaglio: 1. intervalli di variazione: essi misurano la distanza tra due indici di posizione, 2. scostamenti medi: essi misurano la distanza dei dati da un “centro” predeterminato (una media). Non verranno presi in esame i cosiddetti indici di variabilità globale che misurano le di¤erenze esistenti tra ciascun dato e tutti gli altri. In generale, per misurare la variabilità si ricorre al calcolo di una particolare distanza tra due o più punti. Di conseguenza, tutte le misure di variabilità sono non negative (ossia, 0): in caso di assenza di variabilità (ossia, la v.s. X assume un unico valore x1 con frequenza relativa unitaria, ossia f1 = 1) qualsiasi misura di variabilità sarà pari a zero (diciamo che X è una v.s. degenere), in ogni altro caso, positiva. 5.1 Intervalli di variazione A dispetto del loro nome, gli intervalli di variazione sono dei numeri de…niti come differenza tra due quantili ordinati in modo crescente: …ssati ; con 0 < 1, allora un intervallo di variazione è dato da q q : A seconda della scelta di e si ottengono diverse misure. In genere si utilizza: con 0 < < 0; 5. Per esempio: 1. Se =0e =1 = 1, si ha il campo di escursione o range: Range = xk x1 oppure Range = lk l0 : Si tratta della lunghezza dell’intervallo nel quale rientra il 100% delle unità statistiche. 2. Scegliendo = 0:25 e = 0:75, si ottiene la di¤erenza interquartile: IQR = Q3 Q1 che misura l’ampiezza dell’intervallo nel quale rientra almeno il 50% delle unità statistiche ordinate secondo i valori crescenti di X. Vale la pena notare che IQR è la lunghezza della scatola del box-plot. Scaricato da ahmed ouerghemi (ahouerghemi@gmail.com) lOMoARcPSD|2790231 5.2 Variabilità rispetto ad un valore medio 5.2 57 Variabilità rispetto ad un valore medio Sia X una v.s. quantitativa ed m un suo valore medio, l’obiettivo che ci si pone è quello di fornire una misura della distanza dell’insieme delle osservazioni da m (in genere si sceglie m = oppure m = M e). 5.2.1 Scarti assoluti medi Consideriamo una v.s. a valori reali. Un primo modo di procedere è quello di misurare la distanza tra ciascun dato xi ed il valore medio m in termini di scostamento in modulo: jxi per i = 1; : : : ; k: mj Volendo fornire una sintesi di tali scostamenti se ne calcola la media aritmetica (ponderata ovviamente con pesi fi ). Si perviene così ad una misura che esprime una distanza tra tutti i dati e la media scelta. A seconda che il centro di riferimento m utilizzato sia la mediana oppure la media aritmetica parleremo di: 1. Scarto assoluto medio dalla mediana E [ jX M ej ] = k X i=1 jxi M ej fi : jxi j fi : 2. Scarto assoluto medio dalla media aritmetica E [ jX j]= k X i=1 Nel caso di v.s. con dati in classi, i calcoli si e¤ettuano sostituendo le realizzazioni xi = li 1 a li con i corrispondenti centri di classe xC i . È appena il caso di osservare che gli scarti assoluti medi mantengono la stessa unità di misura della variabile X. Esercizio 16 La v.s. quantitativa X ha la seguente funzione di ripartizione: 8 0 x< 3 > > < 0:2 3 x<1 F (x) = 0:6 1 x<5 > > : 1 x 5 Dopo aver esplicitato la formula di E [ jX ed in…ne, m = 2. mj ] se ne calcoli il valore per m = , m = M e Scaricato da ahmed ouerghemi (ahouerghemi@gmail.com) lOMoARcPSD|2790231 58 5.2.2 5. Analisi di v.s. quantitative - Indicatori di variabilità Varianza e scarto quadratico medio Un altro modo di misurare la distanza di ciascuna realizzazione xi (o centro di classe xC i ) dalla media aritmetica è quello di considerare gli scostamenti da presi al quadrato (xi )2 per i = 1; : : : ; k e calcolarne la media aritmetica. L’indicatore risultante è detto varianza. De…nizione 15 (Varianza) La varianza della v.s. quantitativa a valori reali X è la media aritmetica del quadrato degli scarti di ogni singolo dato da (la media aritmetica di X). Essa è indicata con V ar(X) oppure con 2 (leggasi sigma quadro) e corrisponde al risultato dell’operazione: V ar(X) = k X (xi )2 fi = 2 (xC i )2 fi = 2 : i=1 Quando X è una v.s. in classi: V ar(X) = k X : i=1 Utilizzando l’operatore E [ ] la varianza si scrive: V ar(X) = E (X )2 = 2 : La varianza è uno degli indicatori più importanti dell’analisi statistica: essa può essere interpretata come la misura della perdita di informazione che si ha nel momento in cui si sostituisce all’intera distribuzione di X il solo numero (si veda la Proposizione 4). Trattandosi di una grandezza quadratica, l’unità di misura della varianza è il quadrato dell’unità di misura dei dati originari. Per riportare l’indicatore all’unità di misura di X è su¢ciente estrarne la radice quadrata pervenendo al cosiddetto scarto quadratico medio (dalla media aritmetica), o più semplicemente deviazione standard. De…nizione 16 (Deviazione Standard) La deviazione standard (o scarto quadratico medio) è la radice quadrata della varianza e si indica con la lettera (leggasi sigma). In conclusione, è una misura della distanza dei dati dalla media aritmetica, che, come abbiamo visto, è il baricentro della distribuzione. La sua costruzione si basa infatti su una generalizzazione del Teorema di Pitagora a partire dal quale, lo ricordiamo, si de…nisce la distanza euclidéa. Di conseguenza, 0 e = 0 se e solo se tutte le realizzazioni di X sono uguali tra di loro (ossia, quando non c’è variabilità). Scaricato da ahmed ouerghemi (ahouerghemi@gmail.com) lOMoARcPSD|2790231 5.2 Variabilità rispetto ad un valore medio 59 In linea di principio, è sempre possibile de…nire delle misure di variabilità quadratiche a partire da una qualsiasi media m, introducendo lo scarto quadratico medio da m: q E (X m)2 : Ricordando la proprietà dei minimi quadrati della media aritmetica (Proposizione 4) si ha: q E (X m)2 : In altre parole, lo scarto quadratico medio (calcolato a partire da ) è più piccolo o uguale dello scarto quadratico medio calcolato da qualsiasi altra media m. Si noti che, salvo diversa indicazione, lo scarto quadratico medio si intende calcolato da . Vediamo ora alcune utili proprietà della varianza. La prima, riportata qui di seguito, fornisce una formula alternativa per il calcolo dell’indicatore di immediato utilizzo. Proposizione 5 La varianza può essere calcolata come di¤erenza tra la media aritmetica dei quadrati e la media artimetica al quadrato: 2 V ar(X) = E X 2 : Dim. Partendo dalla de…nizione e sviluppando il quadrato del binomio all’interno dell’operatore, si ha: V ar(X) = E (X )2 = E X 2 2X + 2 : Utilizzando in…ne la proprietà di linearità (Proposizione 2), possiamo scrivere: E X2 2X + 2 = E X2 2 E [X] + 2 = E X2 2 : La seconda proprietà che illustriamo, descrive il comportamento dell’indicatore rispetto alle traslazioni e ai cambi di scala (ossia, alle trasformazioni lineari a¢ni dei dati). Proposizione 6 Siano a; b 2 R e sia Y = a + bX, allora V ar(Y ) = b2 V ar(X): Dim. Ricordando che Y = a + bX e che, per la Proposizione 2, E [Y ] = a + b media aritmetica di X), allora, per la de…nizione di varianza di Y si ha: V ar(Y ) = E (Y E [Y ])2 = E (a + bX a b )2 = E b2 (X Scaricato da ahmed ouerghemi (ahouerghemi@gmail.com) (ove )2 : è la lOMoARcPSD|2790231 60 5. Analisi di v.s. quantitative - Indicatori di variabilità Sempre la proprietà di linearità ci permette di scrivere E b2 (X )2 = b2 E (X {z | V ar(X) )2 : } In altre parole, la varianza è un indicatore invariante per traslazione (ossia non cambia se si aggiunge una costante a alla variabile) ma risente di un cambiamento di scala (viene ad essere moltiplicata per il fattore di scala b al quadrato). Di conseguenza, lo scarto quadratico medio di Y sarà pari a jbj . Esercizio 17 La v.s. quantitativa X ha la seguente distribuzione di frequenze relative: X 1 0 2 5 Freq. relat. 0:5 0:2 0:2 0:1 q 1) Dopo aver esplicitato la formula dello scarto quadratico medio da 3, ossia E (X 3)2 , se ne calcoli il valore nel caso in studio. 2) Si dica, senza e¤ettuare calcoli, se la quantità calcolata in precedenza sia maggiore, uguale oppure minore dello scarto quadratico medio di X, motivando l’a¤ermazione fatta. Per concludere questa sezione dedicata alla varianza, accenniamo al fatto che si possa realizzare una versione del box-plot utilizzando e . Il principio è quello di costruire la scatola a partire dalla media (che ne è il centro) a cui si aggiunge e toglie . I ba¢ sono di lunghezza , sempre che non eccedano i limiti della distribuzione. Così facendo, complessivamente il gra…co è simmetrico rispetto a è lungo al massimo 4 (ba¢ inclusi). Le realizzazioni che eccedono i “ba¢” sono considerate outliers. 5.3 Misure relative di variabilità Quando si vogliono confrontare misure di variabilità che non sono omogenee per quanto concerne l’unità di misura e/o l’ordine di grandezza, è opportuno procedere alla relativizzazione delle stesse. Ciò si e¤ettua dividendo gli indici di variabilità in esame per un qualsiasi indice di posizione, purché la variabile abbia valori positivi (il carattere oggetto di analisi deve essere in scala per rapporti). Si ottengono in tal modo dei numeri adimensionali (o numeri puri). Esempi di indici relativi di variabilità sono: IQR Range ; ; Coe¢ciente di Variazione CV = : Me Scaricato da ahmed ouerghemi (ahouerghemi@gmail.com) lOMoARcPSD|2790231 5.4 Indici di forma (cenni) 5.4 61 Indici di forma (cenni) A partire dalla de…nizione di particolari trasformazioni della v.s. è possibile de…nire alcuni indicatori che segnalano alcuni aspetti tipici delle distribuzioni; a titolo esempli…cativo ne vediamo due. Il primo indicatore che introduciamo permette di individuare se la v.s. X sia o meno simmetrica rispetto a . Esso è basato sulla seguente quantità )3 E (X e la sua versione relativizzata, detta Indice di Skewness, è de…nita da: 1 = )3 E (X 3 : Tale indicatore è nullo quando la variabile è simmetrica rispetto a , positivo nel caso di asimmetria dovuta alla presenza di una coda nella distribuzione di frequenze che si prolunga a destra (anche nota come asimmetria positiva) negativo nel caso di asimmetria negativa, ossia quando la distribuzione della v.s. presenta una coda che si prolunga a sinistra. Il secondo indicatore è de…nito a partire dalla media degli scarti al quadrato dalla media aritmetica : E (X )4 : La sua versione relativizzata è detta Indice di Kurtosis 2 = )4 E (X 4 e fornisce una misura del peso delle “code” della distribuzione di frequenze. Scaricato da ahmed ouerghemi (ahouerghemi@gmail.com) lOMoARcPSD|2790231 62 5. Analisi di v.s. quantitative - Indicatori di variabilità Scaricato da ahmed ouerghemi (ahouerghemi@gmail.com) lOMoARcPSD|2790231 Capitolo 6 Analisi di v.s. qualitative Questo breve capitolo conclude la presentazione delle tecniche per l’analisi statistica univariata: esso è dedicato allo studio delle v.s. qualitative. Ci so¤ermeremo sui gra…ci che possono essere utilizzati e su alcuni degli indicatori di sintesi della distribuzione di frequenze. In linea di massima, nello studio di v.s. qualitative è possibile fornire: le distribuzioni di frequenze cumulate (solo nel caso di v.s. qualitative ordinali); un indicatore di sintesi rappresentato dalla moda e, nel caso di variabili ordinali, degli indicatori di posizione dati dai quantili; indicatori della eterogeneità (e omogeneità). 6.1 Gra…ci per v.s. qualitative La famiglia dei gra…ci per variabili qualitative è molto più vasta rispetto a quella per le variabili quantitative. Dato che il carattere di riferimento non ha natura numerica, è possibile giungere a rappresentazioni basate su ideogrammi. Per ragioni di semplicità ci limitiamo a presentare le rappresentazioni più semplici e di diretta implementazione. Diagrammi a barre o a canne d’organo Il diagramma a barre è formato da k rettangoli non contigui di base uguale e le cui altezze sono pari alle frequenze relative fi (o assolute ni ) delle realizzazioni xi della v.s.. Quando il carattere in studio è sconnesso, le realizzazioni possono essere ordinate secondo i valori decrescenti (o crescenti) delle rispettive frequenze. Il gra…co risultante è detto diagramma di Pareto. Scaricato da ahmed ouerghemi (ahouerghemi@gmail.com) lOMoARcPSD|2790231 64 6. Analisi di v.s. qualitative Esempio 25 Si consideri la distribuzione di frequenze della v.s. qualitativa X = “Settore produttivo delle imprese artigiane operanti in provincia di Novara al 31/12 di un dato anno”, visualizzata qui di seguito mediante un diagramma di Pareto. Per procedere all’interpretazione è fondamentale capire qual è il collettivo: esso è costituito dalle imprese artigiane operanti in provincia di Novara al 31/12 dell’anno considerato. Tale collettivo si suddivide in k = 6 gruppi ciascuno dei quali è costituito da imprese identiche per quanto riguarda il settore produttivo: fX = xi g i = 1; : : : ; 6: La distribuzione di frequenze relative di X, riportata in tabella, è: x1 x2 x3 x4 x5 x6 = = = = = = X Fr. Rel. Costruz. 0:25 0:23 Trasp. Metalmec. 0:20 0:15 Servizi 0:12 Riparaz. 0:05 Ind. legg. Appare evidente a questo punto che il 25% delle imprese artigiane osservate opera nel settore delle costruzioni, il 23% nei trasporti, ecc.. Diagramma a colonne Il diagramma a colonne è utile per descrivere come un carattere qualitativo si ripartisce sul collettivo. Un rettangolo di altezza L viene suddiviso in k rettangoli contigui (uno per ciascuna delle realizzazioni xi di X) di altezze rispettive L fi . Diagramma a settori circolari (o torta) Il diagramma a settori circolari (o torta) è costruito secondo un principo analogo al precedente: un cerchio è suddiviso in k settori circolari (uno per realizzazione), ciascuno di ampiezza 360o fi . Scaricato da ahmed ouerghemi (ahouerghemi@gmail.com) lOMoARcPSD|2790231 6.2 Analisi dell’eterogeneità (cenni) 6.2 65 Analisi dell’eterogeneità (cenni) Per le variabili quantitative, la variabilità costituisce un concetto chiave: in modo equivalente, nel caso di caratteri qualitativi, l’attitudine della variabile a manifestarsi con modalità diversi…cate è detta eterogeneità. Per …ssare le idee, diciamo che la v.s. qualitativa X è massimamente omogenea (o minimamente eterogenea) quando il fenomeno si manifesta con una sola realizzazione x1 e quindi, qualunque sia l’unità osservata si ha X = x1 (la variabile è degenere). In tal caso la distribuzione di frequenze si presenta nel modo seguente: X Fr. Ass. Fr. Rel. x1 N 1 Diciamo invece che X è massimamente eterogenea (o minimamente omogenea) quando n1 = n2 = = nk f1 = f2 = = fk ossia quando il che equivale a 1 ; per i = 1; 2; : : : ; k: k In tal caso, il fenomeno non manifesta alcuna predilezione per l’una o l’altra modalità osservate. Si tratta chiaramente di due situazioni estreme e di¢cilmente riscontrabili nella realtà. In pratica si possono incontrare in…nite situazioni intermedie ed è quindi opportuno fornire una valutazione di quanto ci si avvicina (o ci si allontana) da esse, misurando il grado di eterogeneità (o di omogeneità). A tal …ne sono stati introdotti innumerevoli indicatori: a scopo puramente introduttivo si presenta quello dovuto a Corrado Gini. fi = De…nizione 17 (Indice di eterogeneità di Gini) L’indice di eterogeneità di Gini è de…nito come segue: k X I=1 fi2 : i=1 Se siamo in presenza di massima omogeneità (ossia, f1 = 1) allora I=1 1=0 mentre nel caso di massima eterogenità (cioé quando fi = 1=k) si ha I=1 k 1 k 2 =1 k 1 1 = : k k Scaricato da ahmed ouerghemi (ahouerghemi@gmail.com) lOMoARcPSD|2790231 66 6. Analisi di v.s. qualitative Ciò permette di costruire una versione normalizzata (ossia, che ha valori tra 0 e 1) dell’indice di Gini. A tal …ne è su¢ciente rapportare I al suo massimo, ossia al valore assunto in caso di massima eterogeneità: I? = k I 1 =I k k 1 : k Esempio 26 Riprendiamo i dati dell’Esercizio 25 e calcoliamo l’indice di eterogeneità di Gini e la sua versione normalizzata: 0:252 + 0:232 + 0:202 + 0:152 + 0:122 + 0:052 = 0:8052; 6 I ? = 0:8052 = 0:9664: 5 I=1 L’indice normalizzato segnala che la popolazione delle imprese artigiane in studio è molto eterogenea rispetto al settore produttivo. Scaricato da ahmed ouerghemi (ahouerghemi@gmail.com) lOMoARcPSD|2790231 Analisi Statistica Bivariata Scaricato da ahmed ouerghemi (ahouerghemi@gmail.com) lOMoARcPSD|2790231 Scaricato da ahmed ouerghemi (ahouerghemi@gmail.com) lOMoARcPSD|2790231 Capitolo 7 Variabili statistiche doppie Il presente capitolo ed i due che seguono sono dedicati allo studio simultaneo di due variabili statistiche, che denominiamo X ed Y , de…nite sulla stessa popolazione U, introducendo le cosiddette analisi statistiche bivariate. Il nostro obiettivo è quello di presentare delle tecniche che permettano di individuare l’esistenza di legami tra le variabili considerate e di stabilirne la natura: in generale si parla di studio della dipendenza. In taluni casi il legame individuato può essere approssimato in modo soddisfacente mediante l’impiego di modelli esplicativi. Dal punto di vista formale, dobbiamo introdurre una leggera complicazione nella descrizione della rilevazione de…nendo le v.s. doppie (o bidimensionali): la loro de…nizione e lo studio delle loro distribuzioni di frequenze sono l’oggetto principale del presente capitolo. 7.1 Introduzione Consideriamo un collettivo U, con #U = N (con N > 0 intero e …nito), un primo carattere (qualitativo o quantitativo) cui è associato l’insieme di modalità M1 ed un secondo carattere (qualitativo o quantitativo) con modalità raccolte nell’insieme M2 . Volendo trattare contemporaneamente i suddetti caratteri si rende necessario individuare tutte le coppie di modalità possibili: in sostanza si tratta di costruire il prodotto cartesiano M1 M2 dei due insiemi di modalità. Generalizzando i concetti introdotti nella Parte I al contesto bivariato, con la rilevazione si associa a ciascun individuo u una ed una sola coppia di modalità, elemento del prodotto cartesiano M1 M2 . Per formalizzare tale meccanismo è conveniente introdurre una generalizzazione del concetto di v.s., ossia la variabile statistica doppia. Scaricato da ahmed ouerghemi (ahouerghemi@gmail.com) lOMoARcPSD|2790231 70 7. Variabili statistiche doppie De…nizione 18 (Variabile doppia) Si chiama v.s. doppia la funzione (X; Y ) : U ! M1 M2 che ad ogni unità statistica u 2 U associa una e una sola coppia di modalità in M1 M2 : uv 7! (X(u ); Y (u )) v = 1; : : : ; N: Il risultato (X(u ); Y (u )) dell’osservazione simultanea dei caratteri sulla unità statistica u è detto v-ma coppia di dati individuali. In base alla natura dei caratteri osservati possiamo fornire una classi…cazione delle v.s. doppie: 1. se i due caratteri sono qualitativi allora diciamo (X; Y ) v.s. doppia qualitativa (o mutabile doppia), 2. se i due caratteri sono quantitativi allora parliamo di v.s. doppia quantitativa (o variabile doppia), 3. se un carattere è qualitativo e l’altro quantitativo allora si ha una v.s. doppia mista. La matrice dei dati (dataset) derivante dalla rilevazione congiunta di due caratteri è l’insieme delle coppie: f(X(u ); Y (u )) ; v = 1; : : : ; N g : Per comodità, essa è riportata in una tabella come segue: U u1 u2 u3 .. . X X(u1 ) X(u2 ) X(u3 ) .. . Y Y (u1 ) Y (u2 ) Y (u3 ) .. . u .. . X(u ) .. . Y (u ) .. . uN X(uN ) Y (uN ) Ogni riga di tale tabella contiene l’informazione congiunta sui due caratteri riferita a ciascuna unità statistica: non è lecito riordinare gli elementi di una colonna senza modi…care coerentemente l’ordine di quelli dell’altra. D’altro canto è sempre possibile trattare separatamente X ed Y : le v.s. univariate X ed Y sono dette v.s. marginali della v.s. doppia (X; Y ). Scaricato da ahmed ouerghemi (ahouerghemi@gmail.com) lOMoARcPSD|2790231 7.2 Distribuzioni congiunte di frequenze 7.2 71 Distribuzioni congiunte di frequenze Ci poniamo ora l’obiettivo di riassumere il dataset in modo da ottenere una sintesi. Procedendo in modo simile al contesto univariato, si deve ordinare (sulla base di un qualche criterio) l’intera matrice dei dati secondo gli elementi distinti di X e quindi secondo quelli di Y : si perviene ad una riorganizzazione in blocchi ognuno dei quali contiene le medesime coppie di modalità. Indicando con: xi ciascuno dei k (con k > 0 intero e k N ) elementi distinti (e, quando è lecito, ordinati) presenti nell’insieme dei dati originari di X (ossia, xi 2 Im (X)), yj ciascuno degli m (con m > 0 intero e m N ) elementi distinti (e, quando è lecito, ordinati) presenti nell’insieme dei dati originari di Y (ossia, yj 2 Im (Y )), (xi ; yj ) una generica coppia distinta che è stata rilevata, allora l’insieme immagine della funzione (X; Y ), è dato da: Im (X; Y ) = f(xi ; yj ) : 9u 2 U; (X(u ); Y (u )) = (xi ; yj )g : Analogamente al caso univariato, la coppia (xi ; yj ) è detta realizzazione della v.s. doppia (X; Y ). Esempio 27 Si consideri la v.s. (X; Y ) a cui è associata la seguente matrice dei dati: U u1 u2 u3 u4 X a a a b Y 1 2 2 1 U u5 u6 u7 u8 X b a b a Y 2 2 1 1 Riorganizzando la matrice precedente, usando l’ordine alfabetico per X e l’ordinamento naturale per Y , si ottiene: U X Y u1 a 1 u8 a 1 u2 a 2 u3 a 2 u6 a 2 u4 b 1 u7 b 1 u5 b 2 Scaricato da ahmed ouerghemi (ahouerghemi@gmail.com) lOMoARcPSD|2790231 72 7. Variabili statistiche doppie Dato che x1 = a; x2 = b; y1 = 1; y2 = 2 si ha Im (X; Y ) = (a; 1) ; (a; 2) (b; 1) ; (b; 2) e quindi la v.s. doppia (X; Y ) è: 8 (a; 1) > > < (a; 2) (X; Y ) (uv ) = (b; 1) > > : (b; 2) v v v v = 1; 8 = 2; 3; 6 = 4; 7 =5 Possiamo osservare che Im (X; Y ) è un sottoinsieme del prodotto cartesiano Im (X) Im (Y ). Dato che quest’ultimo è costituito da tutte le k m coppie ottenute abbinando a ciascun xi tutti gli elementi yj : Im (X) Im (Y ) = f(x1 ; y1 ) ; (x1 ; y2 ) ; : : : ; (x1 ; ym ) ; (x2 ; y1 ) ; : : : ; (xk ; ym )g = f(xi ; yj ) ; i = 1; : : : ; k; j = 1; : : : ; mg ; e poiché non tutte le coppie (xi ; yj ) vengono ad essere necessariamente osservate, i due insiemi non sempre coincidono. Col solo intento di far comprendere tale aspetto, nel seguente esempio mostriamo una situazione in cui Im (X; Y ) & Im (X) Im (Y ). Esempio 28 Si consideri la v.s. (X; Y ) a cui è associata la seguente matrice dei dati: U u1 u2 u3 u4 X a a a b Y 1 2 2 1 In questo esempio, tramite la variabile statistica X, il collettivo ha espresso le modalità a e b, ossia Im (X) = fx1 ; x2 g = fa; bg, mentre ha espresso modalità 1 e 2 tramite la variabile statistica Y , ossia Im (Y ) = fy1 ; y2 g = f1; 2g. Di conseguenza, il prodotto cartesiano tra le immagini di X e Y è Im (X) Im (Y ) = f(a; 1) ; (a; 2) ; (b; 1) ; (b; 2)g che però non combacia con l’insieme delle realizzazioni della v.s. doppia (X; Y ). Infatti, non vi è nessun elemento del collettivo a cui è associata la modalità (b; 2), ossia Im (X; Y ) = f(a; 1) ; (a; 2) ; (b; 1)g Scaricato da ahmed ouerghemi (ahouerghemi@gmail.com) lOMoARcPSD|2790231 7.2 Distribuzioni congiunte di frequenze 73 L’operazione di ordinamento congiunto e¤ettuato sul dataset permette di individuare quei gruppi di unità statistiche (ossia quelle parti di U) su cui è stata osservata simultanemente la medesima realizzazione (xi ; yj ): fu 2 U : X(u ) = xi ; Y (u ) = yj g = (in modo abbreviato) = = fX = xi ; Y = yj g: In altri termini, fX = xi ; Y = yj g è la controimmagine di (xi ; yj ) tramite (X; Y ) ed è dato dall’intersezione di fX = xi g e fY = yj g: fX = xi ; Y = yj g = fX = xi g \ fY = yj g: Ciascuno degli insiemi fX = xi ; Y = yj g non presenta elementi in comune con gli altri e la loro unione restituisce l’intero U (costituendone così una partizione). Una volta individuati i gruppi di unità statistiche, è possibile calcolarne le frequenze: chiamiamo frequenza congiunta assoluta della realizzazione (xi ; yj ) il numero nij di unità statistiche su cui essa è stata rilevata: nij = # fX = xi ; Y = yj g : Analogamente si dice frequenza congiunta relativa corrispondente la quantità: fij = Freq (X = xi ; Y = yj ) = nij N che esprime la proporzione di unità statistiche a cui è stata associata la realizzazione (xi ; yj ). Esempio 29 A partire dal dataset dell’Esempio 27 si individuano i sottoinsiemi di U che seguono: fX fX fX fX = a; = a; = b; = b; Y Y Y Y = 1g = fu1 ; u8 g ; = 2g = fu2 ; u3 ; u6 g ; = 1g = fu4 ; u7 g ; = 2g = fu5 g ; per ottenere n11 = 2; n12 = 3; n21 = 2; n22 = 1: Calcolando le frequenze per ciascuno dei blocchi individuati, ossia e¤ettuando lo spoglio dei dati, si perviene, come nel caso univariato, alla distribuzione di frequenze della v.s. doppia (X; Y ). Scaricato da ahmed ouerghemi (ahouerghemi@gmail.com) lOMoARcPSD|2790231 74 7. Variabili statistiche doppie De…nizione 19 (Distribuzione congiunta di frequenze) Si chiama distribuzione congiunta di frequenza assoluta (risp. relativa) della v.s. (X; Y ) l’insieme delle terne f(xi ; yj ; nij ), con (xi ; yj ) 2 Im (X; Y )g (risp. f(xi ; yj ; fij ), con (xi ; yj ) 2 Im (X; Y )g) ossia, il gra…co della funzione che ad ogni (xi ; yj ) assegna la corrispondente frequenza assoluta nij (risp. relativa fij ).. Per comodità, l’individuazione delle coppie (xi ; yj ) avviene ricorrendo ad una tabella a doppia entrata le cui righe sono intestate dai valori distinti xi di X e le colonne dai valori distinti yj di Y . In pratica, si utilizza l’insieme delle k m coppie Im (X) Im (Y ) in luogo di Im (X; Y ); così facendo però alcuni dei gruppi individuati potrebbero essere vuoti (dato che alcune delle coppie individuate (xi ; yj ) potrebbero non essere state osservate) ed avere quindi frequenza nulla. Per ottenere l’intera distribuzione congiunta di frequenze si completa la tabella a doppia entrata collocando le frequenze all’interno delle celle della stessa. L’informazione sulla generica coppia (xi ; yj ) si può così leggere in corrispondenza dell’intersezione della riga i-ma e della colonna j-ma. La tabella così completata viene detta tavola di contingenza: #X y1 n11 n21 .. . y2 n12 n22 .. . xi .. . ni1 .. . ni2 .. . xk Tot. colonna nk1 n1 nk2 n2 x1 x2 .. . Y ! ... yj n1j n2j .. . .. nij .. . . nkj nj ... ym n1m n2m .. . Tot. riga n1 n2 .. . .. nim .. . ni .. . nkm nm nk N . Come avviene nel caso univariato la somma delle frequenze assolute deve restituire la numerosità N del collettivo: n1;1 + n1;2 + + n1;m + + n2;1 + n2;2 + + n2;m + ::: ::: + nk;1 + nk;2 + + nk;m = N: Introducendo il simbolo di doppia sommatoria il calcolo precedente può essere riscritto in modo compatto come segue: k X m X nij = N: i=1 j=1 Le quantità: Scaricato da ahmed ouerghemi (ahouerghemi@gmail.com) lOMoARcPSD|2790231 7.2 Distribuzioni congiunte di frequenze ni = nj= Pm j=1 Pk i=1 nij ; i = 1; 2; : : : ; k; nij ; j = 1; 2; : : : ; m; 75 sono dette frequenze assolute marginali di riga e di colonna rispettivamente. Prese separatamente, le distribuzioni di frequenze marginali identi…cano le distribuzioni delle v.s. X ed Y , ossia rispettivamente, f(xi ; ni ) ; i = 1; 2; : : : ; kg e f(yj ; n j ) ; j = 1; 2; : : : ; mg, e quindi: k m X X ni = n j = N: i=1 j=1 In modo del tutto analogo, la tavola di contingenza può contenere le frequenze congiunte relative: nij ; i = 1; : : : ; k; j = 1; : : : ; m; fij = N e quelle relative marginali: fi = ni ; N i = 1; : : : ; k; fj= nj ; N j = 1; : : : ; m: Esempio 30 Riprendendo i dati dell’Esempio 27, si giunge alla compilazione delle seguenti tavole di contingenza (quella di sinistra raccoglie la distribuzione di frequenze assolute, mentre quella di destra la distribuzione di frequenze relative): #X Y ! a b Tot. col. 1 2 2 4 2 3 1 4 #X Tot. riga 5 3 8 Y ! a b Tot. col. 1 0:25 0:25 0:5 2 0:375 0:125 0:5 Tot. riga 0:625 0:375 1 Nel caso in cui X e/o Y siano v.s. a valori reali con un elevato numero di realizzazioni, è conveniente e¤ettuare lo spoglio utilizzando dati raccolti in classi di misure. Per …ssare le idee, concludiamo la sezione con un esempio di riepilogo. Esempio 31 Consideriamo la popolazione U = fu1 ; : : : ; u10 g e la v.s. doppia (X; Y ) : U ! R R Scaricato da ahmed ouerghemi (ahouerghemi@gmail.com) lOMoARcPSD|2790231 76 7. Variabili statistiche doppie cui è associato il seguente dataset: U u1 u2 u3 u4 u5 X 1 0 1 0 2 Y 1 0 1 0 1 U u6 u7 u8 u9 u10 X 1 1 0 2 1 Y 1 0 0 1 0 Si supponga ora di voler procedere allo spoglio, ossia, individuare gli insiemi fX = xi ; Y = yj g per poi calcolarne la frequenza congiunta Freq (X = xi ; Y = yj ). Il primo passo da compiere è stabilire l’immagine della funzione (X; Y ). Dato che i valori distinti e ordinati in Im (X) sono 0; 1; 2, mentre quelli in Im (Y ) sono 1; 0, e dato che le coppie (0; 1) e (2; 0) non sono state rilevate, allora si ha: 8 9 < (0; 1) (0; 0) = (0; 0) (1; 1) (1; 1) (1; 0) : Im (X) Im (Y ) = Im (X; Y ) = (1; 0) (2; 1) : ; (2; 1) (2; 0) A questo punto è immediato constatare che il collettivo può essere partizionato nei seguenti quattro gruppi, ognuno dei quali è la controimmagine di una particolare coppia di valori (xi ; yj ) attraverso (X; Y ): fX = x1 ; Y = y2 g = fX = 0; Y = 0g = fu2 ; u4 ; u8 g ; fX = x2 ; Y = y1 g = fX = 1; Y = 1g = fu1 ; u3 ; u6 g ; fX = x2 ; Y = y2 g = fX = 1; Y = 0g = fu7 ; u10 g ; fX = x3 ; Y = y1 g = fX = 2; Y = 1g = fu5 ; u9 g : La frequenza associata a ciascuno di tali insiemi è dunque: Freq (X = x1 ; Y = y2 ) = 3=10 = f1;2 ; Freq (X = x2 ; Y = y1 ) = 3=10 = f2;1 ; Freq (X = x2 ; Y = y2 ) = 2=10 = f2;2 ; Freq (X = x3 ; Y = y1 ) = 2=10 = f3;1 : La tavola di contingenza che raccoglie la distribuzione di frequenze relative della v.s. doppia quantitativa (X; Y ) è in…ne data da: #X Y ! 0 1 2 Tot. col. 1 0 0:3 0:2 0:5 0 0:3 0:2 0 0:5 Tot. riga 0:3 0:5 0:2 1 ove f1;1 = f3;2 = 0 dato che fX = x1 ; Y = y1 g = fX = x3 ; Y = y2 g = ?. Scaricato da ahmed ouerghemi (ahouerghemi@gmail.com) lOMoARcPSD|2790231 7.3 Prime rappresentazioni gra…che bivariate 7.3 77 Prime rappresentazioni gra…che bivariate Come già osservato, nello studio congiunto di due caratteri l’obiettivo primario è quello di cogliere la natura di eventuali legami tra le variabili in gioco. In prima battuta è quindi utile visualizzare la distribuzione congiunta mediante una rappresentazione gra…ca in modo da individuare l’esistenza di tali legami. Diagramma a barre 3D Nel caso di una v.s. doppia qualitativa la distribuzione congiunta delle frequenze può essere rappresentata mediante un diagramma in tre dimensioni. Un piano raccoglie il prodotto cartesiano delle modalità distinte di X e di Y ; in corrispondenza di ogni coppia (xi ; yj ) viene collocata una “colonna” (un cilindro o un parallelepipedo rettangolo) di altezza proporzionale alla frequenza congiunta nij (o equivalentemente fij ). Il gra…co risultante presenta il limite di non essere di facile lettura. Diagramma a Dispersione o Scatterplot Consideriamo una v.s. doppia le cui componenti sono entrambe quantitative a valori reali. Volendo visualizzare la distribuzione congiunta è utile rappresentare le osservazioni su un piano cartesiano: la posizione sul piano di ogni osservazione viene fornita dal punto di ascissa xi e di ordinata yj . I punti possono essere sostituiti da …gure geometriche piane quando si voglia porre l’attenzione anche sulle frequenze nij . Per esempio, si possono utilizzare dei cerchi il cui diametro è proporzionale alle frequenze. L’insieme dei punti (o nuvola di punti) che si ottiene fornisce visivamente un’idea della variazione congiunta delle due variabili. Esercizio 18 Si consideri il diagramma a dispersione che segue relativo alla distribuzione congiunta di una v.s. doppia quantitativa (X; Y ). Si supponga che ogni cerchietto individui una coppia di valori (xi ; yj ) che si presenta con la stessa frequenza. Scrivere la tavola di contingenza associata. Scaricato da ahmed ouerghemi (ahouerghemi@gmail.com) lOMoARcPSD|2790231 78 7. Variabili statistiche doppie Scaricato da ahmed ouerghemi (ahouerghemi@gmail.com) lOMoARcPSD|2790231 Capitolo 8 Strati…cazione del collettivo: v.s. condizionate La sola ispezione della tavola di contingenza è sovente poco illuminante ai …ni dell’individuazione di eventuali legami tra le variabili. In modo molto intuitivo possiamo dire che sussiste un legame tra le v.s. Y ed X quando le unità statistiche componenti i gruppi de…niti dalle controimmagini di una sola delle due v.s. (per esempio, X) presentano comportamenti diversi circa l’altra variabile (nel nostro caso, Y ). Ciò si traduce nel fare riferimento alle singole righe e/o colonne della tabella e conduce a calcolare le cosiddette distribuzioni condizionate. Esempio 32 Si consideri una popolazione costituita dai 70 clienti che hanno acquistato una sola rivista in una certa edicola in un dato giorno. Il venditore annota, per ciascuno dei suddetti clienti due caratteristiche: il sesso (M o F) e la rivista acquistata (A o B). La distribuzione congiunta risultante è: # X = Sesso Y = Rivista ! M F Tot. col. A 12 16 28 B 18 24 42 Tot. riga 30 40 70 Ci si può domandare se il comportamento dei maschi sia di¤erenziato da quello delle femmine circa la rivista acquistata. Consideriamo quindi i soli maschi, ossia l’insieme fuv : X (uv ) = M g: su 30 unità statistiche, 12 hanno acquistato la rivista A e 18 la B (in percentuale, il 40% ed il 60%). Se analizziamo le sole femmine, ossia fuv : X (uv ) = F g, su 40 unità, 16 hanno preferito A e le restanti B (in percentuale, il 40% ed il 60%). Ciò signi…ca che le preferenze di acquisto non sono legate al sesso dell’acquirente: a livello di popolazione totale, su 70 unità statistiche, 28 (il 40% della popolazione) hanno acquistato A e le restanti 42 (il 60%) la rivista B. Scaricato da ahmed ouerghemi (ahouerghemi@gmail.com) lOMoARcPSD|2790231 80 8. Strati…cazione del collettivo: v.s. condizionate Nelle pagine che seguono, dopo aver introdotto il concetto di variabile statistica condizionata e di distribuzione di frequenza condizionata, esploreremo le tecniche statistiche che possono essere utilizzate per fornire idonee rappresentazioni gra…che e opportune misure di sintesi. 8.1 Variabili statistiche condizionate Data la v.s. doppia (X; Y ), consideriamo la sola componente marginale X e le sue k realizzazioni fx1 ; x2 ; : : : ; xk g = Im (X). Come abbiamo visto, ad ogni modalità xi corrisponde il sottoinsieme fX = xi g di U costituito dalle unità statistiche messe in corrispondenza con xi tramite X. La de…nizione di tali gruppi permette di e¤ettuare una strati…cazione del collettivo rispetto alle realizzazioni della v.s X. Dal momento che # Im (X) = k, allora U può essere strati…cato (o partizionato) in k gruppi. A questo punto è possibile studiare il comportamento della v.s. Y all’interno di ciascuno dei k gruppi appena de…niti. In pratica, si studiano le restrizioni di Y a fX = xi g, ossia k nuove v.s. che indichiamo (Y jX = xi ) : fu 2 U : X(u ) = xi g ! M2 i = 1; 2; : : : ; k; ove (Y jX = xi ) si legge “Y dato X = xi ”. Tali v.s. vengono chiamate v.s. condizionate (in questo caso, v.s. Y condizionato ad X = xi ). Le distribuzioni di frequenze relative di dette variabili sono chiamate distribuzioni condizionate: per ogni i = 1; : : : ; k, esse descrivono il comportamento della v.s. Y limitatamente alla parte della popolazione su cui è stata osservata X = xi . Facendo riferimento allo strato i-mo, si de…nisce frequenza condizionata di yj dato xi la seguente quantità: Freq (Y = yj j X = xi ) = Freq (X = xi ; Y = yj ) fij nij =N nij = = = Freq (X = xi ) fi ni =N ni ove fY = yj j X = xi g è l’insieme delle unità statistiche su cui si è osservato Y = yj condizionatamente al fatto che per esse è stato rilevato X = xi . In altre parole, la frequenza di yj condizionata ad xi è la frequenza congiunta fij messa in relazione al peso dello strato fX = xi g, ossia fi . Per semplicità d’ora in avanti utilizzeremo la seguente notazione: Freq (Y = yj j X = xi ) = f (yj jxi ) : Esempio 33 Con riferimento ai dati dell’Esempio 32, la frequenza di clienti che hanno acquistato la rivista A (Y = A), limitatamente al gruppo dei maschi (ossia, condizionatamente al fatto che X = M ) è: Freq (Y = A j X = M ) = 12=70 12 Freq (X = M; Y = A) = = = 40%: Freq (X = M ) 30=70 30 Scaricato da ahmed ouerghemi (ahouerghemi@gmail.com) lOMoARcPSD|2790231 8.1 Variabili statistiche condizionate 81 Raccogliendo le distribuzioni condizionate in forma tabellare, si perviene ai cosiddetti “pro…li”. De…nizione 20 (Distribuzioni condizionate - Pro…li-riga) Diciamo i-mo pro…loriga la distribuzione di frequenze relative della v.s. condizionata (Y jxi ): y1 Y Freq (Y jxi ) y2 f (y1 jxi ) = ni1 ni ym f (y2 jxi ) = ni2 ni f (ym jxi ) = Tot. nim ni 1 Tutte le distribuzioni condizionate possono essere raccolte in un’unica tabella, detta tabella dei pro…li-riga: (Y jX) Freq(Y jx1 ) Freq(Y jx2 ) .. . y1 f (y1 jx1 ) f (y1 jx2 ) .. . y2 f (y2 jx1 ) f (y2 jx2 ) .. . .. Freq(Y jxi ) .. . f (y1 jxi ) .. . f (y2 jxi ) .. . Freq(Y jxk ) f (y1 jxk ) f (y2 jxk ) . ym f (ym jx1 ) f (ym jx2 ) .. . Tot. riga 1 1 .. . ... f (ym jxi ) .. . 1 .. . f (ym jxk ) 1 . yj f (yj jx1 ) f (yj jx2 ) .. . .. ... f (yj jxi ) .. . f (yj jxk ) Esempio 34 La tabella dei pro…li-riga costruita a partire dalla distribuzione congiunta dell’Esempio 32 è: # X = Sesso Y = Rivista ! Freq(Y j M ) Freq(Y j F ) Freq(Y ) A 0:4 0:4 0:4 B 0:6 0:6 0:6 Tot. riga 1 1 1 Esercizio 19 Da un’indagine compiuta su una popolazione di 800 studenti con età compresa tra i 15 e i 25 anni compiuti risulta che l’ 80% dei maschi è iscritto a un social network. Tale percentuale sale all’ 85% per le femmine. Sapendo che il 40% degli intervistati è di sesso femminile, completare la distribuzione congiunta di frequenze assolute, in forma di tavola di contingenza, che sintetizza quanto descritto in precedenza, riportata qui di seguito. # Sesso / Iscritto ! Si No Tot. M F Tot. Scaricato da ahmed ouerghemi (ahouerghemi@gmail.com) lOMoARcPSD|2790231 82 8. Strati…cazione del collettivo: v.s. condizionate In modo del tutto analogo a quanto fatto in precedenza, è possibile strati…care il collettivo rispetto alle m realizzazioni yj della v.s. Y : si introducono così le m v.s. condizionate (XjY = yj ). A partire da tale strati…cazione de…niamo le corrispondenti distribuzioni di frequenze condizionate di X alle realizzazioni yj di Y . Tali distribuzioni, per comodità, vengono raccolte nella tabella dei pro…li-colonna che segue: (XjY ) x1 x2 .. . Freq(Xjy1 ) f (x1 jy1 ) = n11 =n f (x2 jy1 ) = n21 =n .. . xi .. . f (xi jy1 ) = ni1 =n .. . xk Tot. f (xk jy1 ) = nk1 =n 1 8.2 1 1 1 1 Freq(Xjy2 ) f (x1 jy2 ) = n12 =n f (x2 jy2 ) = n22 =n .. . f (xi jy2 ) = ni2 =n .. . f (xk jy2 ) = nk2 =n 1 2 2 2 2 .. . ... ... Freq(Xjyj ) f (x1 jyj ) = n1j =n f (x2 jyj ) = n2j =n .. . f (xi jyj ) = nij =n .. . f (xk jyj ) = nkj =n 1 j j j .. . ... ... j Sintesi delle distribuzioni condizionate Le v.s. condizionate appena introdotte sono di tipo univariato. Se sono quantitative, è possibile valutarne tutti gli indicatori di sintesi visti nella prima parte del corso. Consideriamo, per esempio, la v.s. quantitativa (Y jxi ) (ciò signi…ca che Y è di tipo numerico): la sua distribuzione di frequenze fa riferimento alla i-ma riga della tavola di contingenza e risulta naturale de…nire la funzione di ripartizione condizionata, i quantili condizionati, la moda condizionata, la media aritmetica condizionata, la varianza condizionata, ecc.. Nel caso di v.s. condizionate qualitative, la rappresentazione gra…ca più idonea è fornita dal cosiddetto diagramma a colonne parallele o appaiate (una colonna per ciascuna distribuzione condizionata). Inoltre si può e¤ettuare lo studio della eterogeneità di ciascuna v.s. condizionata. 8.2.1 Quantili condizionati e box-plot appaiati Consideriamo la v.s. doppia (X; Y ) ove la v.s. Y è quantitativa e le v.s. condizionate (Y jxi ); i = 1; : : : ; k (ovviamente, anch’esse quantitative). Possiamo introdurre sia la funzione di ripartizione per Y , sia le k funzioni di ripartizione condizionate, ciascuna delle quali è de…nita da: F (yjxi ) = Freq (Y y j X = xi ) ed è ottenuta cumulando la distribuzione di frequenza di (Y jxi ) (ossia, nel nostro caso, l’i-mo pro…lo-riga). Per …ssare le idee vediamo un esempio. Scaricato da ahmed ouerghemi (ahouerghemi@gmail.com) lOMoARcPSD|2790231 8.2 Sintesi delle distribuzioni condizionate 83 Esempio 35 Si consideri la distribuzione congiunta che segue: #X A B Y ! 1 10 2 0 5 3 2 3 5 4 2 10 0 2 0:25 0:15 0:15 0:25 4 0:1 0:5 Dato che la tabella dei pro…li-riga è #X Y ! 1 Freq(Y jA) 0:5 Freq(Y jB) 0:1 Tot. 1 1 allora le due funzioni di ripartizione condizionate sono: 8 8 0 y < 1 > > > > > > > > 1 y<0 < 0:5 < 0:75 0 y<2 F (yjx1 ) = F (yjx2 ) = > > > > 0:9 2 y < 4 > > > > : : 1 y 4 0 0:1 0:25 0:5 1 y< 1 1 y<0 0 y<2 2 y<4 y 4 A questo punto è immediato de…nire i quantili condizionati che si calcolano a partire dalle funzioni di ripartizione condizionate. Molto importanti sono i quartili condizionati che rappresentano la base per costruire i box-plot di ciascuna distribuzione condizionata: a¢ancando i k gra…ci si perviene ad una rappresentazione che permette di percepire le di¤erenze tra i diversi gruppi indotti dalla strati…cazione, in modo molto più e¢cace di quello che si avrebbe se si usassero altre rappresentazioni gra…che. Esempio 36 Riprendiamo i dati dell’Esempio 35. Procedendo al calcolo dei quartili condizionati si ottengono i seguenti risultati: Strato fX = x1 g fX = x2 g Primo quartile Mediana Terzo quartile 1 0:5 1 1 3 4 Il gra…co con i box-plot appaiati è dunque: Scaricato da ahmed ouerghemi (ahouerghemi@gmail.com) lOMoARcPSD|2790231 84 8. Strati…cazione del collettivo: v.s. condizionate Vale la pena osservare dal gra…co che la v.s. Y si comporta in maniera di¤erente all’interno dei due gruppi identi…cati da A e B. In particolare, il 75% delle unità statistiche appartenenti al gruppo fX = Ag assume valori di Y minori o uguali ad 1, mentre al 75% delle restanti unità statistiche vengono assegnati valori di Y maggiori o uguali ad 1. 8.2.2 Medie e varianze condizionate Consideriamo la v.s. doppia (X; Y ) ove, ancora una volta, la v.s. Y è quantitativa a valori reali (ossia, yj 2 R). Di quest’ultima possiamo calcolare la media aritmetica e la varianza e 2 (in caso di ambiguità, quando anche X è quantitativa, scriveremo Y e Y2 ): E [Y ] = Pm V ar(Y ) = j=1 yj f j = ; Pm j=1 (yj )2 f j = 2 : Si può osservare che le de…nizioni sono quelle già date: l’unica di¤erenza risiede nell’impiego del doppio pedice per il simbolo di frequenza, dal momento che si fa riferimento ai valori contenuti nella tavola di contingenza. Come già abbiamo avuto modo di dire, anche per le v.s. condizionate (Y jxi ), con i = 1; 2; : : : ; k, è possible calcolare delle misure di posizione e di variabilità. Particolarmente importanti sono le loro medie aritmetiche e le varianze che vengono dette medie condizionate e varianze condizionate. Consideriamo dunque la v.s. (Y jxi ): calcolarne la media signi…ca determinare la media aritmetica di Y facendo riferimento alle sole unità statistiche presenti nel sottoinsieme fX = xi g di U su cui essa è de…nita. Il risultato viene indicato ricorrendo al consueto simbolo cui è a¢ancato l’indice identi…cativo del gruppo di appartenenza (in caso di ambiguità scriveremo Y jxi ): E [Y jxi ] = m X j=1 yj f (yj jxi ) = i: Utilizzando lo stesso ragionamento, si perviene al calcolo della media condizionata di una qualsiasi trasformazione (ammissibile) g di Y : E [g (Y ) jxi ] = m X j=1 g (yj ) f (yj jxi ) : In particolare è interessante introdurre: Scaricato da ahmed ouerghemi (ahouerghemi@gmail.com) lOMoARcPSD|2790231 8.2 Sintesi delle distribuzioni condizionate 85 la media dei quadrati (con la scelta: g (y) = y 2 ) 2 E Y jxi = m X j=1 yj2 f (yj jxi ) ; la varianza condizionata che indichiamo, ove non sussistano ambiguità, i2 . La 2 trasformazione utilizzata è g (y) = (y i ) (ovviamente, la media di riferimento è i , ossia quella del gruppo i-mo). Tale scelta conduce a: V ar (Y jxi ) = m X (yj i) 2 j=1 f (yj jxi ) = 2 i: Come nel caso univariato, tale scrittura può essere ricondotta a quella che segue mediante alcuni passaggi algebrici lasciati allo Studente: V ar (Y jxi ) = m X j=1 | 2 yj2 f (yj jxi ) {z } E[Y 2 jxi ] i |{z} = 2 i: (E[Y jxi ])2 Tutti i concetti introdotti possono essere estesi al caso in cui Y sia una v.s. in classi (ossia, quando yj è una classe di valori): in tal caso è su¢ciente procedere ad una preventiva discretizzazione per poi utilizzare i centri di classe yjC . Riassumiamo quanto detto nella seguente de…nizione. De…nizione 21 (Medie e varianze condizionate) Date le v.s. (Y jxi ) con i = 1; 2; : : : ; k, de…niamo le medie condizionate: E [Y jxi ] = m X j=1 yj f (yj jxi ) = i e le varianze condizionate: V ar(Y jxi ) = m X (yj j=1 i) 2 f (yj jxi ) = 2 i: oppure, in modo equivalente, V ar(Y jxi ) = E Y 2 jxi (E [Y jxi ])2 : Nel caso in classi, si sostituiscono le classi di valori con i rispettivi centri yjC . Scaricato da ahmed ouerghemi (ahouerghemi@gmail.com) lOMoARcPSD|2790231 86 8. Strati…cazione del collettivo: v.s. condizionate Ai …ni pratici è molto utile riassumere tutte le informazioni circa medie aritmetiche, varianze e numerosità di ciascuno strato raccogliendole in un’unica tabella, cui si aggiunge per comodità una riga coi dati di sintesi sull’intera popolazione: Strato fX = x1 g fX = x2 g .. . Medie E [Y jx1 ] = E [Y jx2 ] = .. . fX = xi g .. . E [Y jxi ] = .. . fX = xk g U E [Y jxk ] = E [Y ] = 1 2 i k Varianze V ar(Y jx1 ) = V ar(Y jx2 ) = .. . V ar(Y jxi ) = .. . 2 1 2 2 2 i V ar(Y jxk ) = k2 V ar(Y ) = 2 Freq. Ass. Freq. Rel. n1 f1 n2 f2 .. .. . . ni fi .. .. . . nk N fk 1 Tale tabella riassuntiva permette di cogliere immediatamente le di¤erenze esistenti tra i vari gruppi utilizzando semplicemente due indicatori sintetici. Si noti che tutte le proprietà viste per media e varianza nel caso univariato (linearità, nullità degli scarti, minimi quadrati, solo per citarne alcune) continuano a valere per medie e varianze condizionate dal momento che le distribuzioni condizionate sono univariate. Esempio 37 Consideriamo ancora una volta i dati dell’Esempio 35 ed andiamo a calcolare medie e varianze condizionate: E [Y jx1 ] = 1 0:5 + 2 0:15 + 4 0:1 = 0:2 E [Y 2 jx1 ] = ( 1)2 0:5 + 22 0:15 + 42 0:1 = 2:7 V ar (Y jx1 ) = 2:7 0:22 = 2:66 E [Y jx2 ] = 1 0:1 + 2 0:25 + 4 0:5 = 2:4 E [Y 2 jx2 ] = ( 1)2 0:1 + 22 0:25 + 42 0:5 = 9:1 V ar (Y jx2 ) = 9:1 2:42 = 3:34: La media e la varianza di Y sono date rispettivamente da: 8 12 12 +2 +4 = 1: 3 E [Y ] = 1 40 40 40 12 8 12 E [Y 2 ] = ( 1)2 + 22 + 42 = 5:9 40 40 40 V ar (Y ) = 5:9 1:32 = 4:21: Riportando i risultati nella tabella di sintesi si ha Strato fX = Ag fX = Bg U Medie Varianze Freq. Ass. Freq. Rel. 0:2 2:66 20 0:5 2:4 3:34 20 0:5 1:3 4:21 40 1 Scaricato da ahmed ouerghemi (ahouerghemi@gmail.com) lOMoARcPSD|2790231 8.2 Sintesi delle distribuzioni condizionate 87 Vale la pena osservare che è possibile rappresentare gra…camente le distribuzioni condizionate utilizzando dei box-plot appaiati costruiti usando la media e la deviazione standard, come illustrato nella Sezione 5.2.2 della Parte Prima. 8.2.3 La funzione di regressione Consideriamo le medie condizionate i = E [Y jX = xi ] e osserviamo che esse dipendono dagli elementi xi 2 Im (X) (siano questi qualitativi oppure quantitativi). Possiamo quindi interpretarle come i valori di una funzione a valori reali r ( ) che ha come dominio l’insieme Im (X) = fx1 ; : : : ; xk g e come insieme immagine f 1 ; : : : ; k g. Tale funzione è chiamata funzione di regressione. De…nizione 22 (Funzione di regressione) Si chiama funzione di regressione di Y su X la funzione r : Im (X) ! R xi 7! r (xi ) = i che ad ogni xi associa la media condizionata corrispondente i. Quando Im (X) è un insieme di numeri o attributi ordinabili, il gra…co ottenuto congiungendo i punti di coordinate (xi ; i ) mediante dei segmenti è detto spezzata di regressione. Se Im (X) è un insieme di intervalli di misure (classi), la media condizionata i è costante sull’intervallo (li 1 ; li ]: il gra…co di r (X) è quello di una funzione costante a tratti chiamato regressogramma. La spezzata di regressione ed il regressogramma forniscono una visualizzazione di un eventuale legame funzionale esistente tra Y ed X, a meno di un errore di approssimazione. Vediamo ora un esempio di costruzione della funzione di regressione e del corrisponente gra…co. Esempio 38 Si consideri il diagramma a dispersione che segue: esso rappresenta la distribuzione congiunta di una v.s. doppia quantitativa (X; Y ) e le coppie di valori riportate presentano tutte la medesima frequenza congiunta. Scaricato da ahmed ouerghemi (ahouerghemi@gmail.com) lOMoARcPSD|2790231 88 8. Strati…cazione del collettivo: v.s. condizionate La funzione di regressione di Y su X si calcola facilmente come segue: X = xi r (X = xi ) = 1 1 +2 3 1 +3 3 0 0 1 +1 2 1 = 0:5 2 1 1 1 +2 2 1 = 1:5 2 2 1 1 +2 3 1 +3 3 1 i 1 =2 3 1 =2 3 La spezzata di regressione di Y su X presenta l’andamento riportato nel gra…co che segue (i punti di coordinate (xi ; i ) sono indicati col simbolo ?): Dato che la funzione di regressione è una trasformazione della v.s. X, essa stessa è una v.s. che indichiamo con r (X) = E [Y jX]. Tale v.s. associa ad ogni unità statistica Scaricato da ahmed ouerghemi (ahouerghemi@gmail.com) lOMoARcPSD|2790231 8.2 Sintesi delle distribuzioni condizionate 89 appartenente ad un particolare gruppo fX = xi g la media i del gruppo stesso. Così facendo si produce una evidente sempli…cazione della realtà dal momento che utilizzare la funzione di regressione signica assumere implicitamente che per tutte le unità statistiche del medesimo gruppo sia stato rilevato un unico valore, ossia la media del gruppo. Analizziamo più in dettaglio la v.s. funzione di regressione r (X). La sua distribuzione di frequenze si costruisce direttamente a partire da quella di X come segue: Freq (r (X) = i) = Freq (X = xi ) = fi ed è quindi data dall’insieme delle coppie: f( i ; fi ) ; i = 1; : : : ; kg : Di tale v.s. possiamo poi calcolare le consuete grandezze di sintesi quali: quantili, medie, misure di dispersione. In particolare, siamo interessati alla media e alla varianza. Il risultato che segue, detto teorema della media totale, sancisce che la media aritmetica della funzione di regressione di Y su X (ossia la media delle medie condizionate) è pari alla media aritmetica di Y . Teorema 1 (della media totale) La media della v.s. media condizionata E [Y jX] è uguale alla media di Y : E [ E [Y jX] ] = E [Y ] : Dim: E [ E [Y jX] ] = = k X i fi = i=1 m X j=1 m k X X j=1 i=1 yj k X i=1 ! yj f (yj jxi ) fi f (y jx ) f = | j {zi i} fij m X yj f j = E [Y ] : j=1 Si osservi che il Teorema della media totale si estende direttamente quando si sostituisce ad Y una sua trasformazione (ammissibile) g (Y ): E [ E [g (Y ) jX] ] = E [g (Y )] : Per quanto concerne la varianza della v.s. r (X) = E [Y jX] è su¢ciente ricorrere alla de…nizione per scrivere: V ar ( E [Y jX] ) = E (r (X) ) 2 = k X ( i i=1 Scaricato da ahmed ouerghemi (ahouerghemi@gmail.com) )2 fi ; lOMoARcPSD|2790231 90 8. Strati…cazione del collettivo: v.s. condizionate ovvero, usando la formula basata sulla media dei quadrati ed il quadrato della media aritmetica: k X 2 2 2 = V ar ( E [Y jX] ) = E r (X)2 : i fi i=1 Ragionando in modo del tutto analogo per le varianze condizionate V ar(Y jxi ) = i2 , si giunge alla de…nizione della v.s. Varianza condizionata V ar(Y jX), la cui distribuzione di frequenze è l’insieme delle coppie: 2 i ; fi ; i = 1; : : : ; k e la cui media è data da: E [ V ar (Y jX) ] = k X 2 i fi : i=1 C’è da chiedersi se per la varianza condizionata esista un risultato analogo al Teorema della media totale, ossia, in altre parole, se la media delle varianze condizionate restituisca la varianza di Y . La risposta è no. Il risultato che segue, noto come Teorema della varianza totale o anche col nome di scissione della varianza mostra come la varianza di Y possa essere ottenuta come somma di due addendi: la varianza della v.s. media condizionata e la media aritmetica della v.s. varianza condizionata. Conseguentemente, 0 E [V ar (Y jX)] V ar (Y ). Teorema 2 (della varianza totale) (8.1) V ar(Y ) = V ar (E [Y jX]) + E[V ar(Y jX)]: Dim. Per la de…nizione di varianza, il primo addendo della (8.1) si scrive: V ar ( E [Y jX]) = E E [Y jX]2 E [ E [Y jX]]2 e, per il Teorema della media totale, si ha V ar ( E [Y jX]) = E E [Y jX]2 E [Y ]2 : Per quanto riguarda il secondo addendo, la de…nizione di varianza condizionata e la proprietà di linearità dell’operatore media aritmentica portano a: E[ V ar(Y jX)] = E E Y 2 jX E [Y jX]2 = E E Y 2 jX Ricordando che, E [ E [g (Y ) jX]] = E [g (Y )], per g (Y ) = Y 2 si ha E [ V ar(Y jX)] = E Y 2 E E [Y jX]2 : Sommando i due termini si ottiene la tesi. Scaricato da ahmed ouerghemi (ahouerghemi@gmail.com) E E [Y jX]2 : lOMoARcPSD|2790231 8.2 Sintesi delle distribuzioni condizionate 8.2.4 91 Distribuzioni di quantità Spesso, accanto alla distribuzione delle medie condizionate, si suole produrre la cosiddetta distribuzione di quantità: ad ogni gruppo fX = xi g indotto dalla strati…cazione si assegna l’ammontare complessivo del carattere posseduto dalle unità statistiche presenti nel gruppo: Ti = i ni . Il risultato …nale è la seguente tabella: Strato fX = x1 g fX = x2 g .. . fX = xi g .. . fX = xk g U Media Freq. Ass. n1 1 n2 2 .. .. . . .. . i k Quantità T1 = 1 n1 T2 = 2 n2 .. . ni .. . Ti = nk N Tk = T = .. . i k ni nk N Un tipico ambito di applicazione è quello delle cosiddette serie territoriali ove i gruppi sono rappresentati da aree geogra…che (per es.: paesi, regioni o macro-regioni, ecc.) a cui viene assegnato l’ammontare del carattere (per es.: la popolazione residente). Nell’esempio che segue si propone una distribuzione di quantità e si spiega come essa sia stata costruita. L’esempio ha lo scopo di mostrare come una distribuzione di quantità possa essere confusa con una distribuzione di frequenze. Esempio 39 La tabella che segue riporta la composizione percentuale degli investimenti …ssi lordi per macrosettore di attività economica in un dato anno. Macrosettore Investimenti % Industria 36.6 Costruzioni 5.9 57.5 Servizi Un lettore poco attento potrebbe interpretare il dato presente nella prima riga in modo errato, a¤ermando che il 36:6% delle imprese industriali ha fatto investimenti. In realtà il dato sengala che messi a 100 gli investimenti totali annui, l’industria investe 36:6: si tratta del peso degli investimenti dell’Industria sul totale. Per costruire tale tabella si è proceduto nel modo seguente: 1. sulla popolazione delle imprese si sono osservati le v.s. X = Macrosettore e Y = Investimenti …ssi lordi; 2. si è strati…cata la popolazione di imprese sulla base del macrosettore; 3. si è calcolato l’ammontare totale degli investimenti Ti per ogni strato che poi è stato espresso in termini di quota percentuale sul totale T degli investimenti (ossia Ti =T ). Scaricato da ahmed ouerghemi (ahouerghemi@gmail.com) lOMoARcPSD|2790231 92 8.2.5 8. Strati…cazione del collettivo: v.s. condizionate Variabili condizionate qualitative Quando le v.s. condizionate sono qualitative, le analisi statistiche possibili si riducono drasticamente: oltre ai gra…ci, si possono produrre le mode condizionate, i quantili condizionati (se il carattere è in scala ordinale) e studiare l’eterogeneità in ciascuno dei gruppi indotti dalla strati…cazione. Per quanto riguarda la rappresentazione gra…ca dei pro…li, la scelta migliore è quella di a¢ancare i diagrammi a colonne di ciascuna delle distribuzioni condizionate: il gra…co risultante è detto diagramma a colonne parallele ed è uno strumento estremamente e¢cace per e¤ettuare confronti. Sono sconsigliate altre rappresentazioni, quali i diagrammi a barre o, peggio ancora, le torte. Quando il carattere è ordinale, può aver senso rappresentare dei box-plot appaiati. Scaricato da ahmed ouerghemi (ahouerghemi@gmail.com) lOMoARcPSD|2790231 Capitolo 9 Studio della dipendenza Consideriamo le seguenti a¤ermazioni: “Il fumo aumenta l’incidenza tumorale”, “Le donne sono discriminate sul posto di lavoro”, “Il PIL di un paese è legato al grado di istruzione dei suoi cittadini”. Per su¤ragare tali dichiarazioni è indispensabile disporre di una base conoscitiva (ossia, di un dataset) e poi, una volta individuate delle variabili di interesse, di capire se esistano dei legami tra di esse. Le argomentazioni non devono ridursi, come purtroppo spesso accade, a un più o meno autorevole “secondo me” ma vanno supportare da evidenze empiriche. Ecco che così, uno dei pilastri fondamentali della statistica, accanto al concetto di variabilità, è quello di dipendenza statistica tra due variabili, ossia l’esistenza di legami (non necessariamente causali) tra di esse. Tale concetto è strettamente connesso con la struttura delle distribuzioni condizionate ottenute da una strati…cazione indotta da una delle due variabili in studio. Consideriamo la prima delle a¤ermazioni fatte: se l’incidenza dei tumori sulle persone fumatrici fosse la stessa che sul gruppo dei non fumatori, allora diremmo che non c’è alcuna dipendenza tra la variabile “Fumatore (sì/no)” e la variabile “Incidenza tumorale”. In termini statistici, se le distribuzioni condizionate sono diverse, allora c’è dipendenza statistica, se sono uguali, allora c’è indipendenza. Quando una delle variabili è quantitativa, è possibile calcolare le medie condizionate e l’analisi della dipendenza può avvenire confrontando tali indicatori di sintesi piuttosto che le distribuzioni condizionate (in e¤etti, le medie sono la migliore sintesi di una distribuzione in senso quadratico). Parleremo in tal caso di studio della correlazione: se le medie condizionate sono tutte uguali allora la variabile condizionata non è correlata con la variabile che induce la strati…cazione. Si pensi al problema della “discriminazione di genere” proposto nella seconda a¤ermazione fatta all’inizio di questo paragrafo: se confrontando gli stipendi medi di uomini e donne notassimo una di¤erenza che può essere considerata sostanziale (vedremo in seguito come), allora saremmo nelle condizioni di validare la dichiarazione fatta. La correlazione è chiaramente una forma particolare e Scaricato da ahmed ouerghemi (ahouerghemi@gmail.com) lOMoARcPSD|2790231 94 9. Studio della dipendenza più restrittiva di dipendenza, dal momento che distribuzioni condizionate diverse possono avere la stessa media. Per concludere il capitolo, ci si so¤ermerà su un caso particolare di correlazione, ossia la correlazione lineare: ciò porterà a costruire uno degli indicatori principali nella ricerca di relazioni lineari tra variabili, la covarianza. Il presente capitolo è dedicato a introdurre i concetti di dipendenza e correlazione in modo rigoroso, a sviluppare le tecniche di analisi, e in…ne, a chiarire i legami che esistono tra tali forme di dipendenza. 9.1 Dipendenza statistica Consideriamo la v.s. doppia (X; Y ) (sia essa qualitativa, quantitativa o mista) introdotta precedentemente e le sue distribuzioni di frequenze, ossia, la distribuzione congiunta, le due distribuzioni marginali, le k distribuzioni condizionate di (Y jxi ) e le m distribuzioni di (Xjyj ). In questa sezione, dopo aver de…nito l’indipendenza statistica (e quindi la dipendenza) tra due variabili, si passerà a presentare un modo per misurare l’intensità della stessa. 9.1.1 De…nizione di dipendenza statistica Come già accennato nel capitolo precedente, la ricerca di eventuali legami tra la v.s. Y e la v.s. X avviene esaminando le distribuzioni di frequenza di Y de…nite sui gruppi indotti dalla strati…cazione del collettivo in base ai valori distinti della v.s. X: se, pur variando il gruppo di appartenenza, il comportamento degli individui è lo stesso con riferimento alla v.s. Y , diciamo che c’è indipendenza statistica di Y da X. In altre parole, l’indipendenza si ha quando le distribuzioni condizionate di Y al variare di xi 2 Im (X) (i pro…li-riga) sono tutte uguali tra loro per ogni i = 1; : : : ; k e quindi uguali alla distribuzione marginale di Y . Ciò signi…ca che per j = 1; 2; : : : ; m, si ha f (yj jx1 ) = f (yj jx2 ) = = f (yj jxi ) = = f (yj jxk ) = f j : Tali uguaglianze implicano che per una qualsiasi coppia di indici (i; j) (ossia per una qualsiasi riga e colonna) in caso di indipendenza si abbia: f (yj jxi ) = f j : Ricordando le de…nizioni di frequenza congiunta e di frequenza condizionata, l’indipendenza si ha quando per ogni (i; j), fij =f fi j ossia fij = f j fi ; Scaricato da ahmed ouerghemi (ahouerghemi@gmail.com) lOMoARcPSD|2790231 9.1 Dipendenza statistica 95 ossia, in termini di frequenze assolute, quando: nij = ni n N j per ogni i; j: Quando si veri…ca tale circostanza allora, per ogni (i; j) si ha fij = f j fi () fij = fi fj e quindi, necessariamente anche tutti i pro…li-colonna sono uguali tra di loro ed uguali alla distribuzione marginale di frequenze relative di X: dunque, se Y è indipendente da X, allora anche X è indipendente da Y . Riassumiamo quanto detto nelle righe precedenti nella de…nizione che segue. De…nizione 23 (Indipendenza) Le v.s. X ed Y sono dette statisticamente indipendenti quando si veri…ca una delle seguenti proprietà equivalenti: 1. tutti i pro…li-riga sono uguali, ossia per ogni j = 1; : : : ; m, si ha: f (yj jx1 ) = f (yj jx2 ) = = f (yj jxi ) = = f (yj jxk ) = f j 2. tutti i pro…li-colonna sono uguali, ossia per ogni i = 1; : : : ; k, si ha: f (xi jy1 ) = f (xi jy2 ) = = f (xi jyj ) = = f (xi jym ) = fi 3. per ogni coppia di indici (i; j) si ha: fij = fi f j o, equivalentemente, nij = ni n j N ossia, la distribuzione congiunta può essere fattorizzata mediante le marginali. Non appena ci si allontana dalla situazione di indipendenza statistica, X ed Y sono dette dipendenti. Ciò non signi…ca che necessariamente esistano dei nessi causali tra le due. Diciamo che le v.s. X ed Y sono perfettamente dipendenti quando una delle due v.s. è una trasformazione ammissibile dell’altra. Quanto precede lascia intendere chiaramente che lo studio della dipendenza è intimamente legato a quello delle distribuzioni condizionate: una prima analisi qualitativa per l’individuazione della dipendenza può quindi essere compiuta mediante la rappresentazione gra…ca dei pro…li-riga e/o pro…li-colonna. Scaricato da ahmed ouerghemi (ahouerghemi@gmail.com) lOMoARcPSD|2790231 96 9. Studio della dipendenza Esempio 40 Completare la seguente tabella di distribuzione congiunte in maniera tale che X e Y siano due v.s. indipendenti. #X Y ! 1 a 2 b c 2 5 3 1 tot 8 24 16 Esempio 41 Le tabelle di frequenza congiunte qui di seguito mostrano due esempi di v.s. doppie perfettamente dipendenti. A #X Y ! 1 2 a 0 20 0 0 b c 10 0 B 3 0 30 0 #X a b c d Y ! 1 2 13 0 0 24 0 4 0 0 3 0 0 0 16 In entrambi i casi conoscere il comportamento della v.s. X permette di conoscere il comportamento della v.s. Y . In particolare, la v.s. Y può essere ottenuta mediante una trasformazione di X come segue: A 8 se X = c < 1 2 se X = a Y = : 3 se X = b 8 < 1 2 Y = : 3 B se X = a se X = b o X = c se X = d Esercizio 20 Scrivere almeno un’altra possibile con…gurazione di perfetta dipendenza per i casi trattati nell’Esempio 41. Esercizio 21 Sia Y una v.s. quantitativa a valori reali e X una v.s. qualitativa con immagine fa; b; cg. Rappresentare mediante box-plot appaiati, delle possibili distribuzioni condizionate (Y jxi ), i = 1; 2; 3, che si potrebbero avere se X ed Y fossero indipendenti. Esercizio 22 Si consideri il diagramma a dispersione seguente che visualizza la distribuzione congiunta di una v.s. doppia quantitativa (X; Y ) (ogni cerchietto individua una coppia di valori (xi ; yj ) che si presenta con la stessa frequenza congiunta). Scaricato da ahmed ouerghemi (ahouerghemi@gmail.com) lOMoARcPSD|2790231 9.1 Dipendenza statistica 97 Dire se le v.s. in esame sono dipendenti motivando la risposta. 9.1.2 Misura dell’intensità della dipendenza Per de…nire una misura dell’intensità del legame esistente tra due v.s. si valuta lo scarto tra la situazione osservata e quella che si avrebbe nel caso in cui ci fosse indipendenza. In pratica, si confronta la tavola di contingenza nella quale compaiono le frequenze e¤ettive nij con una tavola di contingenza costruita utilizzando la Proprietà 3. della De…nizione 23, nella quale sono collocate le frequenze teoriche n?ij (o equivalentemente fij? ) che si avrebbero nel caso di indipendenza e cioé: n?ij = ni n j N : Si osservi che le due tavole di contingenza così costruite presentano necessariamente gli stessi totali marginali. Il confronto si e¤ettua sulla base delle quantità seguenti: cij = nij n?ij che vengono chiamate contingenze. Dal momento che la somma di dette quantità è nulla, per costruire un indicatore globale che misuri l’intensità della dipendenza, si utilizzano le contingenze in valore assoluto oppure al quadrato, in modo da fornire una distanza tra le due distribuzioni. A partire dalle contingenze al quadrato, si de…nisce l’indicatore Chi-quadrato ( 2 ): 2 m k X m k X X X c2ij (nij n?ij )2 = = : n? n?ij i=1 j=1 ij i=1 j=1 È immediato notare che 2 0, con 2 = 0 se e solo se per ogni (i; j), nij = n?ij (e quindi 2 cij = 0), ossia nel caso di indipendenza. Si può dimostrare inoltre che 2 max ove 2 max = N [min(k; m) 1] Scaricato da ahmed ouerghemi (ahouerghemi@gmail.com) lOMoARcPSD|2790231 98 9. Studio della dipendenza e min(k; m) è il più piccolo tra il numero di righe k ed il numero di colonne m della tavola di contingenza. Riassumendo, l’indice 2 misura la distanza tra la distribuzione e¤ettiva e quella corrispondente che si avrebbe nel caso di indipendenza, con 2 = 0 se e solo se X ed Y sono indipendenti; 2 0< 2 = quando X ed Y sono dipendenti; < 2 max 2 max nel caso di perfetta dipendenza tra le variabili. Il valore del 2 dipende da k, da m e da N : per fornire una misura normalizzata tra 0 (indipendenza) e 1 (perfetta dipendenza) è su¢ciente dividere il 2 per il suo massimo 2 max . Estraendo la radice quadrata di tale quoziente, si ottiene il cosiddetto V di Cramer: s 2 V = 2 max : Esso permette di confrontare situazioni non omogenee (per es.: N di¤erente, tavola di contingenza di dimensioni diverse, fenomeni non confrontabili, ecc.). Quando X e/o Y sono v.s. quantitative a valori reali con un elevato numero di realizzazioni, allora per il calcolo del 2 si deve utilizzare una tavola di contingenza basata su dati opportunamente raccolti in classi. Esercizio 23 Fare riferimento ai dati dell’Esempio 41. Per entrambe le situazioni veri…care che 2 assuma il valore massimo identi…cato da N [min(k; m) 1]. Esercizio 24 Senza calcolare il 2 o l’indice V , abbinare le tavole di contingenza che seguono ai corrispondenti valori dell’indice V di Cramer. Motivare brevemente le scelte fatte. A #X a b c Y ! B 1 2 3 7 11 7 6 1 6 10 15 10 #X V di Cramer #X a b c Y ! 1 2 3 0 2 20 1 10 1 20 3 0 C Y ! 1 2 3 a 4 14 8 2 7 4 b 6 21 12 c V =0 V = 0:163 V = 0:657 Scaricato da ahmed ouerghemi (ahouerghemi@gmail.com) lOMoARcPSD|2790231 9.2 Correlazione o dipendenza in media 99 Per concludere, è utile osservare che una versione dell’indice di dipendenza può essere determinata utilizzando le frequenze relative in luogo di quelle assolute: 2 =N m k X X (fij i=1 j=1 9.2 fij? )2 ove fij? fij? = fi f j: Correlazione o dipendenza in media Come abbiamo accennato nella introduzione al capitolo, il concetto di correlazione rappresenta una forma di dipendenza basata sull’analisi delle sole medie condizionate (a patto che esse possano essere calcolate): il suo studio è dunque limitato al caso di v.s. condizionate di tipo quantitativo e rappresenta quindi una forma particolare di dipendenza. Qui di seguito, si fornisce una de…nizione rigorosa di correlazione e, dopo aver introdotto il modello di regressione, una misura della sua intensità. 9.2.1 Il concetto di correlazione Consideriamo la v.s. doppia (X; Y ) con Y quantitativa e sia r (X) la funzione di regressione di Y su X. Quando r (X) non è costante, ossia quando il comportamento di Y in media cambia al variare di X, allora si dice che Y è correlata (o dipendente in media) con X, altrimenti diciamo che Y è incorrelata con X (o indipendente in media). De…nizione 24 (Incorrelazione in media o indipendenza) La v.s. Y è incorrelata (o indipendente in media) con la v.s. X quando la funzione di regressione è costante: r (xi ) = ; i = 1; : : : ; k; ossia, quando 1 = 2 = = k = : In caso contrario diciamo che Y è correlata con X. Notiamo che, il termine correlazione è riservato in statistica allo studio di una forma particolare di dipendenza per v.s. doppie di cui almeno una quantitativa, mentre nel linguaggio comune sia spesso utilizzato come sinonimo di dipendenza statistica. Per individuare la correlazione è su¢ciente una ispezione dei gra…ci delle distribuzioni condizionate (per esempio, dei box-plot appaiati) oppure, se la v.s. (X; Y ) è quantitativa, una analisi del diagramma a dispersione può essere illuminante. A tal proposito, si considerino gli esempi che seguono. Scaricato da ahmed ouerghemi (ahouerghemi@gmail.com) lOMoARcPSD|2790231 100 9. Studio della dipendenza Esempio 42 Le distribuzioni degli stipendi mensili in migliaia di euro pagati da una data impresa strati…cati per genere sono visualizzate qui di seguito. Ai box-plot è sovrapposta la spezzata di regressione. Possiamo dedurre che nell’impresa sussista una notevole di¤erenza tra gli stipendi medi dei maschi e quelli delle femmine: le variabili sono dunque correlate segnalando una discriminazione di genere. Bisogna però fare attenzione al fatto che esistono maschi che percepiscono stipendi simili a quelli delle femmine e viceversa: il ragionamento è stato fatto esclusivamente “in media”. Esempio 43 I gra…ci che seguono mostrano tutti delle situazioni di incorrelazione: i primi due in alto fanno riferimento al caso in cui X è qualitativa, quelli in basso al caso in cui anche X è quantitativa (nei diagrammi a dispersione ogni coppia di valori ha la medesima frequenza congiunta). Possiamo osservare che se X ed Y sono indipendenti, allora sono anche incorrelate: di fatti, se le distribuzioni condizionate di (Y jxi ) sono tutte uguali, allora hanno tutte inevitabilmente la stessa media (se veda per esempio il secondo gra…co partendo da sinistra Scaricato da ahmed ouerghemi (ahouerghemi@gmail.com) lOMoARcPSD|2790231 9.2 Correlazione o dipendenza in media 101 proposto nell’Esempio 43). Ovviamente non vale il viceversa come illustrato nel seguente esempio. Esempio 44 Il diagramma a dispersione che segue è ripreso dall’Esercizio 18: Dalla lettura del gra…co emerge che Y non è correlata con X dal momento che la funzione di regressione di Y su X è costante: r (xi ) = 4 i = 1; : : : ; 5: Si tratta però di un caso in cui c’è dipendenza statistica dal momento che le distribuzioni condizionate di Y al variare di X sono diverse tra di loro. Per esempio: (Y jX = 1) ha una sola realizzazione uguale a 4 con frequenza unitaria, mentre (Y jX = 2) ha tre realizzazioni e ha distribuzione uniforme. 9.2.2 Il modello di regressione Come abbiamo visto, il concetto di correlazione di una v.s. quantitativa Y con la v.s. X è strettamente connesso al comportamento della funzione di regressione di Y su X che abbiamo indicato r (X). Così, se dal punto di vista generale l’esistenza della correlazione può essere facilmente individuata, molto più articolato è il percorso che porta alla costruzione di un indicatore che valuti l’intensità della stessa: la sola osservazione della funzione di regressione infatti non è su¢ciente dal momento che potrebbero sussistere situazioni in cui r (X) è identica ma l’intensità della correlazione è molto diversa. Per …ssare le idee consideriamo il seguente esempio. Esempio 45 Sia Y una v.s. quantitativa ed X una v.s. con immagine fA; B; Cg e si suppogna che (X; Y ) venga osservata su tre popolazioni di¤erenti (che indichiamo Caso 1, 2 e 3 rispettivamente). Ciò produce le distribuzioni condizionate visualizzate mediante i box-plot appaiati che seguono (in rosso sono disegnate le spezzate di regressione). Scaricato da ahmed ouerghemi (ahouerghemi@gmail.com) lOMoARcPSD|2790231 102 9. Studio della dipendenza Come possiamo osservare, anche se le funzioni di regressione sono identiche nei tre casi, le distribuzioni condizionate sono molto di¤erenti per quanto riguarda la variabilità: Y è evidentemente correlata con X in tutti i casi, ma l’intensità del legame descritto è piuttosto diversi…cata. Infatti, nel Caso 3 la funzione di regressione descrive in modo esatto il comportamento di Y al variare di X, cosa che non avviene negli altri due casi in cui si commette un errore di approssimazione (più consistente nel Caso 1 che nel Caso 2) Per formalizzare il ragionamento seguito nell’esempio precedente, è opportuno preventivamente introdurre un modello che metta in relazione le variabili Y ed X e la funzione di regressione r (X). Tale modello è detto modello di regressione di Y su X e si scrive come segue: Y = r (X) + E = E [Y jX] + E: (9.1) In tale modello compaiono: la v.s. Y , ossia la variabile che si vuole spiegare; la v.s. X, ossia la variabile esplicativa. Se X è quantitativa, essa viene chiamata anche covariata o regressore; la funzione di regressione di Y su X che descrive come Y viene “spiegata” dalle medie condizionate, ossia qual è il legame funzionale esistente tra X ed Y ; la v.s. E = Y r (X), detta residuo o errore. Tale variabile descrive il comportamento della parte “non spiegata” dalle medie condizionate, ossia misura l’errore di approssimazione commesso nel momento in cui si utilizza la funzione di regressione in luogo dell’intera distribuzione. È bene ribadire il fatto (già accennato nell’introduzione a questo capitolo) che, in generale, il modello di regressione non postula una relazione di causa-e¤etto tra le variabili coinvolte ma permette soltanto di descrivere il legame funzionale tra X ed Y a meno di un errore. In senso statistico è quindi scorretto adottare il linguaggio matematico e dire che Y è una Scaricato da ahmed ouerghemi (ahouerghemi@gmail.com) lOMoARcPSD|2790231 9.2 Correlazione o dipendenza in media 103 variabile dipendente ed X è una variabile indipendente; infatti, dette variabili sono state osservate simultaneamente e non è detto che esista una qualche gerarchia tra le stesse. La natura e le caratteristiche della funzione di regressione sono state oggetto di un’analisi nelle pagine precedenti: si tratta ora di chiarire che cosa sia la variabile E, quale distribuzione abbia (anche condizionatamente ad X) e come se ne calcolino la media e la varianza. Si propone quindi un esempio introduttivo. Esempio 46 Riprendiamo il diagramma a dispersione a cui è abbinata la spezzata di regressione dell’Esempio 38: La v.s. errore E si costruisce, come emerge dalla de…nizione, a partire dagli scostamenti tra Y e la f.ne di regressione. Per studiare la media e la varianza di E, conviene studiare preliminarmente le distribuzioni condizionate ad X. Se X = 1, allora r ( 1) = 2 e (E j X = 1) ha distribuzione di frequenze: (E j X = 1) Freq. 1 2= 1 1=3 1=3 2 2=0 3 2=1 1=3 In modo analogo, otteniamo le distribuzione condizionate: (E j X = 0) 0 0:5 = 0:5 1 0:5 = 0:5 Freq. 1=2 1=2 (E j X = 1) 1 1:5 = 0:5 2 1:5 = 0:5 Freq. 1=2 1=2 (E j X = 2) 1 2= 1 2 2=0 3 2=1 Freq. 1=3 1=3 1=3 Per meglio apprezzare il fatto che X e E sono incorrelate, si consideri lo scatterplot tra dette variabili riportato qui di seguito: Scaricato da ahmed ouerghemi (ahouerghemi@gmail.com) lOMoARcPSD|2790231 104 9. Studio della dipendenza Grazie all’esempio precedente, possiamo vedere come, …ssato un punto xi , la distribuzione di E condizionata ad X = xi non è altro che quella di Y condizionata ad X = xi traslata rispetto alla media i , ossia: ( E j X = xi ) = ( Y i j X = xi ) : Possiamo quindi ricavare le caratteristiche sintetiche di tali variabili. In particolare, per ogni i = 1; : : : ; k, abbiamo che E [E j X = xi ] = E [ Y i j X = xi ] = E [ Y j X = xi ] i =0 ossia che la v.s. E non è correlata con X. Inoltre, per le note proprietà della varianza di una trasformazione lineare di v.s., V ar ( E j X = xi ) = V ar ( Y = V ar (Y j X = xi ) = i j 2 i: X = xi ) Grazie al Teorema della media totale (cf. il Teorema 1), si deduce che l’errore E è una variabile a media nulla E [E] = E [ E [EjX] ] = 0: Inoltre, per il Teorema della varianza totale (cf. il Teorema 2), la varianza di E è pari a: V ar (E) = V ar ( E [EjX]) + E [ V ar (EjX)] : Dato che per i = 1; : : : ; k, E [EjX = xi ] = 0 allora V ar ( E [EjX]) = 0 e così V ar (E) = E [ V ar (EjX)] = E [ V ar (Y jX)] : Riassumiamo le proprietà dell’errore che abbiamo illustrato nella seguente proposizione che tornerà utile non solo nell’introduzione di una misura della correlazione ma anche nello studio di particolari modelli di regressione. Scaricato da ahmed ouerghemi (ahouerghemi@gmail.com) lOMoARcPSD|2790231 9.2 Correlazione o dipendenza in media 105 Proposizione 7 (Proprietà del residuo) L’errore E nel modello di regressione è una v.s. incorrelata con la variabile esplcativa Y , centrata (a media nulla) con varianza pari alla media delle varianze condizionate di Y ad X: E [EjX] = 0, E [E] = 0 e V ar (E) = E [V ar (Y jX)] : Vediamo ora come i ragionamenti fatti aiutino ad approfondire l’analisi dei casi proposti nell’Esempio 45. Esempio 47 Riprendendo l’Esempio 45, possiamo concludere che: 1. la funzione di regressione di Y su X non è costante (Y è correlata con X) ed è identica nei tre casi; 2. la V ar (E) è nulla nel Caso 3 (dal momento che (Ejxi ) = 0 per i = 1; 2; 3) ed è positiva negli altri due casi (maggiore nel Caso 1 rispetto al Caso 2). 9.2.3 Misura dell’intensità della correlazione Dalla de…nizione di correlazione, ci aspettiamo che la dipendenza sia più forte quanto più le medie condizionate i = E [Y jX = xi ] sono “lontane” dalla media generale = E [Y ] (la loro media), ossia dalla situazione che si avrebbe nel caso di incorrelazione. Per quanti…care tale distanza, è naturale considerare la loro varianza, ossia V ar (r (X)) = V ar[E(Y jX)], che così fornisce una misura di quanto i gruppi sono diversi in media. Per tale ragione la varianza delle medie condizionate viene anche chiamata varianza spiegata (dalle medie di strato) o varianza tra gli strati (between variance). La varianza spiegata sarebbe su¢ciente a misurare l’intensità della correlazione se la componente dell’errore E (che appare nel modello (9.1)) fosse nulla, ossia se a tutte le unità statistiche presenti in ciascun gruppo fosse associato lo stesso valore di Y : in tal caso ad ogni uv presente nel generico gruppo i-mo il valore associato sarebbe i e, conseguentemente, 2 i = 0. Dato che, in generale, E non è nulla, allora la varianza spiegata è tanto più signi…cativa quanto più le singole medie condizionate sono rappresentative dei singoli strati, ossia quanto più le i2 sono piccole. Per misurare quest’ultimo aspetto, si ricorre alla media delle varianze condizionate E[V ar(Y jX)], che, come abbiamo visto, non è altro che la varianza di E. Tale termine quindi viene denominato varianza residuale o varianza interna (within variance) e fornisce una misura di quanto gli strati sono “bene descritti” dalle rispettive medie. Si tratta quindi di una misura della variabilità interna agli strati. Riprendiamo ancora una volta l’Esempio 45 e completiamo il ragionamento utilizzando i ragionamenti appena fatti. Esempio 48 Osservando i gra…ci dell’Esempio 45, possiamo concludere che: Scaricato da ahmed ouerghemi (ahouerghemi@gmail.com) lOMoARcPSD|2790231 106 9. Studio della dipendenza 1. dato che la funzione di regressione di Y su X è identica nei tre gra…ci, la varianza spiegata è la stessa nei tre casi; 2. nel Caso 3, alle unità statistiche presenti in ciascun gruppo è assegnato lo stesso valore (la media del gruppo): la varianza interna è nulla e quindi la correlazione è perfetta (la funzione di regressione di Y su X è su¢ciente a descrivere il legame tra le due variabili); 3. nei casi 1 e 2 è presente della variabilità all’interno dei tre gruppi (ad alcune delle unità statistiche di un gruppo sono assegnati i medesimi valori di unità statistiche presenti in un altro): dato che le varianze condizionate i2 del Caso 1 sono più grandi delle corrispondenti del Caso 2, allora la variabilità interna nel Caso 1 (misurata dalla media delle varianze) è maggiore di quella del Caso 2. Ne consegue che la correlazione nel Caso 2 è più intensa che nel Caso 1: la funzione di regressione in quest’ultimo caso descrive il legame tra Y ed X in modo meno accurato che nel Caso 2. Dal punto di vista formale, la varianza spiegata, la varianza interna e il modello di regressione Y = r (X) + E sono legate attraverso la formula della scissione della varianza (cf. il Teorema 2): V ar(Y ) = V ar (E [Y jX]) + E[V ar(Y jX)] = V ar (r (X)) + V ar (E) : Essa chiarisce il trade–o¤ tra la varianza spiegata, la varianza interna (o residuale) e la varianza totale: 1. se Y è perfettamente correlata con X allora, dato che non si commettono errori di approssimazione (ossia, E = 0), si ha: Y = r (X) e quindi V ar (E) = 0 e, conseguentemente, V ar (Y ) = V ar (r (X)) = V ar ( E [Y jX]). 2. se Y non è correlata con X allora r (X) = Y = e: +E e quindi E =Y il ché signi…ca che la varianza del residuo è pari alla varianza di Y : V ar (E) = E [ V ar (Y jX)] = V ar (Y ) ; Scaricato da ahmed ouerghemi (ahouerghemi@gmail.com) lOMoARcPSD|2790231 9.2 Correlazione o dipendenza in media 107 La scissione della varianza consente dunque di fornire una valutazione di quanto le medie condizionate sono lontane dalla media generale, tenuto conto della variabilità interna agli strati; se le medie condizionate fossero tutte uguali (ossia, se ci fosse indipendenza in media), allora tutta la variabilità di Y sarebbe spiegata dalla varianza interna (ossia dal residuo). Quanto più ci si allontana da tale situazione, tanto più le medie condizionate sono diverse (ossia la loro variabilità cresce) e le varianze interne diventano piccole (rispetto alla varianza totale): aumenta cioè l’intensità della correlazione. Tali considerazioni portano alla costruzione di un indice di dipendenza in media normalizzato basato sulla scissione della varianza. Esso è detto Rapporto di correlazione 2 (leggasi: eta quadro) di Pearson, ed è de…nito come segue: 2 = V ar (E [Y jX]) =1 V ar(Y ) E[V ar(Y jX)] : V ar(Y ) Per evitare ambiguità, si suole indicare a pedice la variabile condizionata scrivendo Y2 jX . Spesso, viene calcolata la radice quadrata del rapporto di correlazione e viene prodotto l’indice . Esercizio 25 Dire in quale delle situazioni riprodotte qui di seguito il coe¢ciente di correlazione ha un valore più elevato, spiegando il perché (in rosso le spezzate di regressione). Vediamo ora alcune proprietà del rapporto di correlazione. Abbiamo già osservato che si 2 tratta di un indice normalizzato: 0 1. In particolare, possiamo distinguere due casi estremi: = 0 se e solo se c’è indipendenza in media (ossia, le medie condizionate sono uguali tra di loro e l’intera variabilità di Y viene interamente spiegata dalle sole varianze interne agli strati); 2 Scaricato da ahmed ouerghemi (ahouerghemi@gmail.com) lOMoARcPSD|2790231 108 9. Studio della dipendenza = 1 se e solo se c’è massima dipendenza in media (ossia, le medie condizionate catturano tutta l’informazione sugli strati cui fanno riferimento, essendo nulle tutte le varianze interne agli strati). 2 Il valore dell’indice può dunque essere letto in termini di proporzione di variabilità di Y che viene spiegata dalle medie condizionate (ossia, dalla funzione di regressione). È appena il caso di osservare che 2 = 0 implica 2 = 0. A di¤erenza della dipendenza statistica, la correlazione non è simmetrica: se consideriamo una v.s. doppia quantitativa, a¤ermare che Y è correlato con X non equivale a dire che X è correlato con Y . Ciò si ripercuote sull’indice di correlazione: Y2 jX non coincide 2 necessariamente con XjY , come mostrato nell’esempio che segue. Esempio 49 Si consideri la distribuzione congiunta: #X 2 3 4 Y ! 0 1 35 5 10 10 7 23 2 5 10 23 3 35 10 7 Una rapida ispezione della tabella permette di concludere che sussiste dipendenza in generale ma non c’è correlazione di Y con X. Infatti le distribuzioni condizionate sono chiaramente diverse tra loro, mentre le medie condizionate E [Y jxi ] sono tutte uguali a 1:5 (e quindi uguali alla media della variabile Y ): si ha così Y2 jX = 0. Se si studia invece la correlazione di X con Y si osserva che le medie condizionate E [Xjyj ] non sono 2 uguali tra loro e quindi XjY 6= 0. 9.3 Correlazione lineare Consideriamo la v.s. doppia (X; Y ) le cui componenti sono entrambe quantitative ed 2 hanno medie rispettive X e Y e varianze X e Y2 . Come abbiamo visto, Y è correlata con X se la funzione di regressione di Y su X non è costante: l’ispezione della nuvola di punti dello scatter-plot è su¢ciente per intuire la natura del legame sottostante. Un caso particolare è quello in cui il legame visualizzato dal gra…co suggerisce che l’andamento della funzione di regressione sia approssimativamente lineare come nell’esempio seguente; si parla in questo caso di correlazione lineare. Scopo di questa sezione è quello di introdurre gli strumenti volti a valutare l’esistenza e l’intensità di tale forma di correlazione. Scaricato da ahmed ouerghemi (ahouerghemi@gmail.com) lOMoARcPSD|2790231 9.3 Correlazione lineare 109 Esempio 50 Si consideri la v.s. (X; Y ) con distribuzione di frequenze congiunte: #X 1 1:5 2 3 tot Y ! 2 5 3 4 3 1 5 2 4 3 5 1 6 6 6 7 8 9 2 2 2 6 3 1 4 1 1 1 1 tot 10 7 8 5 30 La funzione di regressione r di Y su X ha i seguenti valori: 5 +4 10 1 r (1:5) = 3 +5 7 r (1) = 2 3 2 +5 = 3:2 10 10 4 2 +6 = 5:0 7 7 3 2 3 +6 +7 = 5:625 8 8 8 2 1 1 1 r (3) = 6 +7 +8 +9 = 7:2: 5 5 5 5 r (2) = 4 Come si evince dallo scatterplot, r (x) (in verde) non è lineare anche se una sua approssimazione lineare (in rosso) può essere comoda ai …ni interpretatitvi. In questo caso diciamo che X e Y sono v.s. correlate lineramente. 9.3.1 Covarianza Dal momento che si desidera individuare la correlazione lineare, la cosa migliore è partire dallo scatter-plot. Consideriamo dunque lo scatter plot sempli…cato nella …gura seguente. Scaricato da ahmed ouerghemi (ahouerghemi@gmail.com) lOMoARcPSD|2790231 110 Se consideriamo le medie 9. Studio della dipendenza X e Y ed i prodotti (xi X )(yj Y ); cioé le aree con segno dei rettangoli con lati paralleli agli assi e identi…cati dai vertici non adiacenti di coordinate (xi ; yj ) e ( X ; Y ), si nota che il loro segno cambia coerentemente con la posizione dei punti nel piano cartesiano rispetto alle medie. Calcoliamo la media aritmetica delle aree di questi rettangoli prese con il segno indicato e pesate con le frequenze congiunte corrispondenti fij . Se i punti di coordinate (xi ; yj ) si posizionano prevalentemente nel I e III quadrante nel sistema di riferimento che ha origine nel punto ( X ; Y ), ossia se la nuvola di punti dello scatterplot presenta una “tendenza crescente”, allora prevalgono i contributi posiviti e la media risultante sarà positiva. D’altra parte, se i punti (xi ; yj ) si trovano principalmente nel II e IV quadrante ossia, se la nuvola di punti dello scatterplot presenta una “tendenza decrescente”, la media sarà negativa. In…ne se i punti (xi ; yj ) si dislocano in maniera tale che i contributi positivi e negativi si compensino (ad esempio, quando X e Y sono indipendenti, oppure quando, pur essendovi correlazione, lo scatterplot presenta delle simmetrie rispetto all’asse orizzontale o verticale), allora la media risultante è pressocché nulla. Tale media è detta covarianza ed è la misura principale nello studio della correlazione lineare. La sua de…nizione formale è la seguente: Scaricato da ahmed ouerghemi (ahouerghemi@gmail.com) lOMoARcPSD|2790231 9.3 Correlazione lineare 111 De…nizione 25 (Covarianza) Si chiama covarianza tra le v.s. X ed Y (entrambe quantitative) la media aritmetica del prodotto degli scostamenti delle realizzazioni delle due variabili dalle rispettive medie: Cov(X; Y ) = E [(X X )(Y Y )] = m k X X (xi X )(yj Y )fij : i=1 j=1 Tale indicatore descrive come le variabili in studio co-variano linearmente rispetto al centro della distribuzione ( X ; Y ). A titolo esempli…cativo si consideri il seguente esempio di calcolo della covarianza. Esempio 51 Applichiamo tale de…nizione ai dati dell’Esempio 50. Per cominciare serve calcolare le medie di X e Y : 5 10 + ::: + 3 = 1:7167 30 30 1 5 + ::: + 9 = 4:9333 E [Y ] = 2 30 30 E [X] = 1 Quindi, usando la de…nizione di covarianza si ha: Cov(X; Y ) = (1 1:7167) (2 (1:5 3 5 + 0 + (1 1:7167) (4 4:933) + 0+ 30 30 1 1 4:933) + 0 + : : : + (3 1:7167) (9 4:933) 30 30 4:933) 1:7167) (3 = 0:9478 Il fatto che la covarianza sia positiva è coerente con lo scatterplot: la spezzata di regressione può essere approssimata con una retta crescente. Nel seguito di questa sezione e all’inizio della successiva, illustriamo alcune proprietà della covarianza. In primo luogo, si tratta di un indicatore simmetrico dal momento che, per la proprietà commutativa del prodotto, Cov (X; Y ) = Cov (Y; X). In altri termini: se due variabili sono correlate linearmente, sia la funzione di regressione di Y su X sia quella di X su Y sono approssimabili linearmente. Tale indicatore può essere visto come una generalizzazione della varianza: in e¤etti, se consideriamo la covarianza della v.s. X con se stessa, si ha: 2 Cov(X; X) = E[(X X ) ] = V ar(X): Inoltre, analogamente a quanto visto per la varianza, vale la formulazione alternativa riportata nella seguente proposizione. Scaricato da ahmed ouerghemi (ahouerghemi@gmail.com) lOMoARcPSD|2790231 112 9. Studio della dipendenza Proposizione 8 La covarianza tra X ed Y può essere calcolata come la di¤erenza tra la media del prodotto tra le variabili e il prodotto delle medie aritmetiche delle due variabili: Cov(X; Y ) = E [X Y ] E [X] E [Y ] : Dim. Grazie alla proprietà di linearità dell’operatore E [ ] si ha: Cov(X; Y ) = E [(X X )(Y Y )] = E [X Y X Y X Y + X Y] = E [X Y ] E [X] Y X E [Y ] + X = E [X Y ] X Y: Y Esempio 52 A titolo esempli…cativo, ricalcoliamo la covarianza di X ed Y dell’Esempio 50 utilizzando il risultato precedente. Le medie di X ed Y sono calcolate nell’Esempio 51, quindi manca solo il calcolo della media del prodotto di X per Y , cioè: 3 5 +0+1 4 + 0 + 0 + 0 + 0+ 30 30 1 1 + 0 + 1:5 3 + 0 + ::: + 3 9 = 9:4168 30 30 E [X Y ] = 1 2 Di conseguenza, Cov(X; Y ) = E [X Y ] E [X] E [Y ] = 9:4168 1:7167 4:9333 = 0:9478: È utile osservare inoltre che la covarianza può essere de…nita sia tra X e Y che tra qualsiasi trasformazione (ammssibile) di tali variabili. Siano quindi g (X) ed h (Y ) dette trasformazioni, allora: Cov (g (X) ; h (X)) = E [ (g (X) E [g (X)]) (h (Y ) E [h (Y )]) ] : Una situazione interessante è quella in cui g ed h sono funzioni lineari a¢ni. In tal caso si ottiene il seguente risultato: Proposizione 9 (Bilinearità) Date due v.s. X ed Y quantitative e le rispettive trasformazioni lineari g (X) = a + bX e h (X) = c + dY (con a; b; c; d 2 R) allora Cov (a + bX; c + dY ) = bdCov (X; Y ) : Scaricato da ahmed ouerghemi (ahouerghemi@gmail.com) lOMoARcPSD|2790231 9.3 Correlazione lineare 113 Dim. Usando la de…nizione di covarianza e sfruttando la proprietà di linearità dell’operatore E [ ] si ha Cov (a + bX; c + dY ) = E [(a + bX a bE [X]) (c + dY = E [(bX bE [X]) (dY dE [Y ])] = bd E [(X E [X]) (Y E [Y ])] : {z } | c dE [Y ])] Cov(X;Y ) Un altro utile risultato lega la covarianza alle medie condizionate, estendendo il Teorema della media totale al caso di prodotti di v.s.: Proposizione 10 Siano X e Y v.s. quantitative, allora (9.2) E [X Y ] = E [X E [Y jX]] e quindi: Cov (X; Y ) = Cov (X; r (X)) : Dim. Applicando il Teorema della media totale alla v.s. prodotto X Y possiamo scrivere: E [X Y ] = E [ E [X Y j X] ] Il risultato (9.2) si ottiene dal momento che E [ E [X Y jX] ] = m k X X i=1 j=1 ! xi yj f (yj jxi ) fi = = E [X E [Y jX]] : k X i=1 xi | m X j=1 yj f (yj jxi ) {z i ! fi } La de…nizione di covarianza ed il Teorema della media totale permettono di concludere. Grazie al risultato appena enunciato si evince che per individuare una correlazione lineare è su¢ciente analizzare la covarianza tra i dati, senza far intervenire la funzione di regressione. Esattamente come avviene per il Teorema della media totale, il risultato può essere generalizzato nel caso di trasformazioni g (X) e h (Y ): E [g (X) h (Y )] = E [ g (X) E [h (Y ) j X] ] La covarianza è un indicatore di correlazione lineare: essa ha valore nullo in caso di incorrelazione o di indipendenza, come si deduce dalla seguente proposizione. Scaricato da ahmed ouerghemi (ahouerghemi@gmail.com) lOMoARcPSD|2790231 114 9. Studio della dipendenza Proposizione 11 Se X ed Y sono incorrelate oppure statisticamente indipendenti allora Cov(X; Y ) = 0. Dim. Grazie alla Proposizione 8, è su¢ciente mostrare che E [X Y ] = E [X] E [Y ]. Caso di incorrelazione Se Y è incorrelato con X allora, utilizzando la Proposizione 10, si ha E [X Y ] = E [ E [X Y j X] ] = E [X E [Y ]] = E [X] E [Y ] : Lo stesso ragionamento può essere usato quando X è incorrelato con Y . Caso di indipendenza La distribuzione congiunta si fattorizza mediante le marginali, e si ha E [X Y ] = m k X X i=1 j=1 xi yj fij = m k X X xi yj fi f j = i=1 j=1 k X xi fi m X yj f j : |i=1 {z } |j=1 {z } E[X] E[Y ] Bisogna far attenzione al fatto che, per sua natura, la covarianza non è in grado di fornire indicazioni generali sulla dipendenza tra le variabili: quando Cov (X; Y ) = 0 non è detto che le variabili siano indipendenti o incorrelate dal momento che potrebbe esistere, per esempio, un legame funzionale non lineare, ossia una correlazione non lineare. Dal momento che la covarianza è una media aritmetica, essa so¤re degli incovenienti di non robustezza illustrati in precedenza. Per concludere, si presenta un’utile proprietà che mette in relazione la varianza di una somma di v.s. quantitative (ossia una combinazione lineare) con la covarianza tra le variabili coinvolte. Proposizione 12 (Combinazioni lineari) Date due v.s. X ed Y quantitative una loro combinazione lineare è la v.s. Z = aX + bY a; b 2 R: Note le medie e le varianze delle due variabili, oltre che la covarianza tra esse, la media e la varianza di Z si possono calcolare direttamente come segue: E [Z] = aE [X] + bE [Y ] V ar (Z) = a2 V ar (X) + b2 V ar (Y ) + 2abCov(X; Y ): Nel caso in cui X ed Y fossero v.c. indipendenti o incorrelate: V ar (Z) = a2 V ar (X) + b2 V ar (Y ) : Scaricato da ahmed ouerghemi (ahouerghemi@gmail.com) lOMoARcPSD|2790231 9.3 Correlazione lineare 115 Dim. Per quanto riguarda la media, il risultato discende direttamente dalla proprietà di linearità dell’operatore E [ ]. Per quanto concerne la varianza, si ha: V ar (Z) = V ar (aX + bY ) = E (aX + bY = E (aX aE [X])2 + (bY aE [X] bE [Y ])2 bE [Y ])2 + 2 (aX aE [X]) (bY 2 2 = a2 E (X E [X]) + b2 E (Y E [Y ]) + 2abE [(X | {z } {z } | | V ar(X) V ar(Y ) bE [Y ]) E [X]) (Y {z Cov(X;Y ) E [Y ])] } Nel caso di indipendenza o incorrelazione Cov (X; Y ) = 0 e questo conclude la dimostrazione della proposizione. 9.3.2 Coe¢ciente di correlazione lineare La covarianza dipende dagli ordini di grandezza delle v.s. considerate. Essa assume valori in un intervallo fornito dalla cosiddetta disuguaglianza di Cauchy-Schwarz. Proposizione 13 (Disuguaglianza di Cauchy-Schwarz) Data la v.s. doppia quantitativa (X; Y ), allora [Cov(X; Y )]2 V ar(X)V ar(Y ): In altre parole, se ci fosse perfetta correlazione lineare (ossia Y = a + bX, con a 2 R e b 6= 0, cosicché tutti i punti dello scatterplot sono allineati su una retta), allora: Cov (X; Y )2 = 2 2 X Y: La Proposizione 13 fornisce la base per costruire un indicatore relativizzato: dividendo la covarianza per il suo massimo, si ottiene un indice di correlazione che non dipende più dagli ordini di grandezza di X ed Y . Tale indice è detto coe¢ciente di correlazione lineare (detto anche di Bravais-Pearson1 ) ed indicato col simbolo (leggasi rho): =p Cov(X; Y ) V ar(X)V ar(Y ) : Come conseguenza della disuguaglianza di Cauchy-Schwarz, in particolare, assume valori tra 1 1 e 1, Bravais, A. (1846). Analyse mathématique sur les probabilités des erreurs de situation d’un point. Mémoires présentés par divers savants à l’Académie royale des sciences de l’Institut de France, 9, 255-332. Pearson, K. (1920). Notes on the history of correlation. Biometrika,13, 25-45 Scaricato da ahmed ouerghemi (ahouerghemi@gmail.com) lOMoARcPSD|2790231 116 9. Studio della dipendenza = 1 se esistono a; b 2 R; b > 0, tali che Y = a + bX (perfetta correlazione lineare positiva); = 1 se esistono a; b 2 R; b < 0, tali che Y = a + bX (perfetta correlazione lineare negativa). Tali considerazioni portano a de…nire in maniera naturale il concetto di incorrelazione lineare: De…nizione 26 Due v.s. X ed Y quantitative sono incorrelate linearmente se = 0. Poiché la covarianza è un indicatore simmetrico, anche lo è, ossia X;Y = Y;X . Elevando il coe¢ciente di correlazione lineare al quadrato, si ottiene l’indice normalizzato 2 = [Cov(X; Y )]2 ; V ar(X)V ar(Y ) che assume valori tra zero (incorrelazione lineare) e 1 (correlazione lineare positiva o negativa perfetta). Esso è legato al coe¢ciente di correlazione 2 e al 2 nel modo seguente: 1. se 2 = 0, allora 2. se 2 >0e 2 =0e 2 = 0, ma non è necessariamente vero il viceversa; = 0, allora 2 = 0, ma non vale il viceversa. 2 3. se 2 > 0, allora 2 > 0 e 2 > 0. In particolare, se assume il suo valore massimo. 2 = 1, allora 2 = 1 e 2 Esercizio 26 Abbinare i diagrammi a dispersione che seguono (ogni punto dei diagrammi ha frequenza unitaria) ai corrispondenti valori dei coe¢cienti di correlazione (arrotondati alla prima cifra decimale). Scaricato da ahmed ouerghemi (ahouerghemi@gmail.com) lOMoARcPSD|2790231 9.3 Correlazione lineare 117 Coe¢cienti di Correlazione 2 2 =0 Y jX = 0:8 2 Y jX 2 =0 A Gra…co B C D =0 A B C D 2 Y jX = 0:9 2 = 0:9 A B C D 2 Y jX = 0:9 2 = 0:6 A B C D Come la covarianza, il coe¢ciente di correlazione lineare è poco robusto e risente della presenza di coppie di dati anomali (o out-liers). Tale fatto può causare risultati contraddittori: per apprezzare tale fatto si veda l’esempio che segue. Esempio 53 Nel seguito è riprodotto il calcolo del coe¢ciente quando si consideri (gra…co di sinistra) o meno (gra…co di destra) una coppia di dati anomali, segnalata in rosso. Un’altra situazione a cui bisogna prestare attenzione è relativa alla presenza di due gruppi di unità statistiche con dinamiche di correlazione molto di¤erenti che sono stati combinati. Si veda l’esempio che segue. Esempio 54 Si consideri il seguente scatter-plot: appaiono due gruppi di realizzazioni che presentano al loro interno evidenti correlazioni lineari positive e che sono stati mischiati. Se si calcola il coe¢ciente di correlazione lineare tra X ed Y si ottiene = 0:45. La presenza di gruppi nella popolazione è un elemento che va quindi tenuto in considerazione onde evitare risultati privi di signi…cato statistico. Scaricato da ahmed ouerghemi (ahouerghemi@gmail.com) lOMoARcPSD|2790231 118 9. Studio della dipendenza Scaricato da ahmed ouerghemi (ahouerghemi@gmail.com) lOMoARcPSD|2790231 Capitolo 10 Regressione lineare Consideriamo la v.s. doppia quantitativa (X; Y ) ed il modello di regressione: Y = r (X) + E ove i simboli hanno il signi…cato visto in precedenza e, lo ricordiamo (cfr. la Proposizione 7), l’errore E ha media nulla ed è incorrelato con X. Nelle pagine che seguono si a¤ronta il caso in cui la funzione di regressione è lineare oppure può essere approssimata linearmente. 10.1 Il caso della funzione di regressione lineare Supponiamo ora che la funzione di regressione sia lineare, ossia che: r (X) = + X; per cui: Y = + X +E ove E [E] e E [EjX] = 0. Ricordando la Proposizione 11, allora E [EjX] = 0 implica che, nel caso in cui la funzione di regressione è lineare, Cov (E; X) = 0. Possiamo così scrivere il modello di regressione nella forma: Y = + X + E; E [E] = 0; Cov (E; X) = 0: (10.1) I parametri e possono essere calcolati direttamente come segue: applicando l’operatore E [ ] ad entrambi i membri della espressione (10.1), per la proprietà di linearità (cfr. la Proposizione 12) si ha: E [Y ] = + E [X] + E [E] : Scaricato da ahmed ouerghemi (ahouerghemi@gmail.com) lOMoARcPSD|2790231 120 10. Regressione lineare Dato che E [E] = 0, si conclude che = E [Y ] (10.2) E [X] : Sostituendo (10.2) nella (10.1) si ha Y = E [Y ] E [X] + X + E ossia Y E [Y ] = (10.3) E [X]) + E: (X Moltiplicando poi entrambi i membri di quest’ultima espressione per (X (Y E [Y ]) (X E [X]) = E [X])2 + E (X (X E [X]) si ha E [X]) ed applicando ancora una volta l’operatore E [ ] si ottiene: E [(Y E [Y ]) (X E [X])] = E [X])2 + E [E (X E (X E [X])] ossia: Cov (X; Y ) = V ar (X) + Cov (E; X) : Così, dato che Cov (E; X) = 0 e se V ar (X) 6= 0 si ha = Cov (X; Y ) : V ar (X) Per sintetizzare quanto fatto e …ssare le idee, diciamo che quando la funzione di regressione è lineare, allora Y = E [E] = 0; + X + E; Cov (E; X) = 0; con = E [Y ] E [X] = Cov (X; Y ) : V ar (X) Esempio 55 Si consideri la distribuzione congiunta di frequenze (i valori mancanti nelle celle della seguente tabella sono degli zeri): #X 2 3 5 8 Y ! 1 0 1 2 1 1 4 3 4 3 2 1 5 6 1 2 4 2 7 1 1 Scaricato da ahmed ouerghemi (ahouerghemi@gmail.com) lOMoARcPSD|2790231 10.2 Il modello di regressione lineare ed il metodo dei minimi quadrati 121 E¤ettuando il calcolo delle medie condizionate di (Y jxi ) si ottengono i seguenti valori della funzione di regressione: r (2) = 6; r (3) = 5; r (5) = 3; r (8) = 0: Per apprezzare la natura del legame funzionale tra Y ed X, sovrapponiamo la spezzata di regressione al diagramma a dispersione della distribuzione per ottenere: Si evince che la funzione di regressione è lineare: r (xi ) = xi con = 8 e = 1 ( y= x = 1). Data la linearità della funzione di regressione, i valori dei coe¢cienti dipendono dalla covarianza, dalle medie di X e di Y e della varianza di X nel modo seguente: = Cov (X; Y ) 4:78719 = = V ar (X) 4:78719 1 e = E [Y ] 10.2 E [X] = 3:59091 + 4:40909 = 8: Il modello di regressione lineare ed il metodo dei minimi quadrati Quando la funzione di regressione non è lineare, possiamo gestire il problema della regressione utilizzando delle approsimazioni. Infatti, osservando l’andamento della spezzata di regressione, si nota che in taluni casi essa presenta delle regolarità: possiamo quindi pensare di approssimare la funzione di regressione utilizzando una funzione approssimante Scaricato da ahmed ouerghemi (ahouerghemi@gmail.com) lOMoARcPSD|2790231 122 10. Regressione lineare detta interpolante tra punti. Ciò signi…ca individuare una funzione reale (leggasi phi) che non passi necessariamente per i punti di coordinate (xi ; i ) ma si avvicini il più possibile ad essi, fornendo l’andamento globale della relazione (la cosiddetta tendenza). La scelta del modello viene detta speci…cazione del modello e si e¤ettua in genere a partire dallo scatter-plot in maniera qualitativa. Si consideri il caso in cui la forma della nuvola dei punti suggerisca di approssimare la funzione di regressione con una funzione lineare. L’interpolante della funzione di regressione può allora essere speci…cata come segue: (x) = a + bx; a; b 2 R. ove i coe¢cienti (o parametri) a e b sono ignoti e devono essere determinati opportunamente in modo da assicurare il miglior adattamento possibile ai dati originali. Parliamo in tal caso di modello di regressione lineare (o retta di regressione). Si tratta ora di stabilire un metodo che consenta di calcolare i parametri ignoti a partire dai dati secondo un criterio di ottimalità. Il metodo più di¤uso è detto metodo dei minimi quadrati 1 (ordinary least square - OLS, nella letteratura anglosassone). Esso consiste nel determinare i valori a? di a e b? di b che rendono minima la somma (o in modo equivalente, la media) dei quadrati degli scostamenti tra la vera funzione di regressione ed il modello interpolante (si ricordi che si stanno approssimando le medie condizionate, che godono della proprietà dei minimi quadrati). Si tratta cioè di risolvere il seguente problema di minimo: 12 3 20 6B min E 4@r (X) a;b ossia, in modo esplicito: min a;b ( k X ( i C7 (a + bX)A 5 | {z } (10.4) (X) (a + bxi ))2 fi i=1 ) : Il procedimento proposto richiede però il preventivo calcolo delle medie condizionate. Per ovviare all’inconveniente, si può lavorare direttamente sulle coppie (xi ; yj ) osservate, invece che su (xi ; i ). Si consideri la funzione di perdita quadratica L : R2 ! R de…nita come segue: 12 3 20 ) ( k m XX C7 6B (yj (a + bxi ))2 fij : (a + bX)A 5 = L (a; b) = E 4@Y | {z } (X) i=1 j=1 1 A.M. Legendre. Nouvelles méthodes pour la détermination des orbites des comètes (1805). “Sur la Méthode des moindres quarrés” C.F. Gauss. Theoria Motus Corporum Coelestium in Sectionibus Conicis Solem Ambientum. (1809) Scaricato da ahmed ouerghemi (ahouerghemi@gmail.com) lOMoARcPSD|2790231 10.2 Il modello di regressione lineare ed il metodo dei minimi quadrati 123 Il problema OLS corrispondente si scrive: (10.5) min L (a; b) a;b Dato che i problemi di minimo (10.4) e (10.5) sono equivalenti, ossia, minimizzare L (a; b) oppure (10.4) porta agli stessi risultati, per ovvie ragioni, in pratica si risolve (10.5). La soluzione al problema dei minimi quadrati è riportata nella proposizione che segue: Proposizione 14 (OLS) Sia (X; Y ) una v.s. doppia quantitativa e si consideri il modello di regressione lineare Y = a + bX + E. I valori di a e b che minimizzano la funzione di costo L (a; b) sono: a? = E [Y ] b? E [X] b? = Cov (X; Y ) : V ar (X) Dim. Si vuole provare che per ogni coppia di valori reali a e b si ha L (a? ; b? ) < L (a; b). Consideriamo quindi: L (a; b) = E (Y = E (Y (a + bX))2 = E (Y (a? + b? X) + (a? (a? + b? X) + (a? + b? X) a) + (b? (a + bX))2 b) X)2 Sviluppando il quadrato ed utilizzando la proprietà di linearità dell’operatore E [ ] si ottiene: L (a; b) = E (Y + 2E [(Y (a? + b? X))2 + E ((a? a) + (b? b) X)2 + (a? + b? X)) ((a? a) + (b? b) X)] = L (a? ; b? ) + E ((a? a) + (b? b) X)2 + + 2 (a? a) E [E ? ] + 2 (b? b) E [E ? X] dove E ? = Y (a? + b? X). Consideriamo ora E [E ? ]: usando la proprietà di linearità dell’operatore E [ ] e sostituendo il valore del minimo a? otteniamo E [E ? ] = E [Y (a? + b? X)] = E [Y ] (a? + b? E [X]) = E [Y ] (E [Y ] b? E [X] + b? E [X]) = 0: Scaricato da ahmed ouerghemi (ahouerghemi@gmail.com) (10.6) lOMoARcPSD|2790231 124 10. Regressione lineare Per quanto concerne E [E ? X], ricordando che E ? ha media nulla ed utilizzando il minimo a? , otteniamo: E [E ? X] = Cov (X; E ? ) = Cov (X; Y (a? + b? X)) = Cov (X; Y ) Cov (X; Y ) V ar (X) = 0: = Cov (X; Y ) V ar (X) b? Cov (X; X) (10.7) Grazie a tali risultati, abbiamo L (a; b) = L (a? ; b? ) + E (a? | Questo implica che L (a; b) b))2 : } a + X (b? {z 0 L (a? ; b? ) con l’uguaglianza che vale se e solo se E (a? a + X (b? b))2 = 0 cioè se e solo se (a? a + X (b? b)) = 0 e cioè, vista l’arbitrarietà di X, se a? = a e b? = b. Questo conclude la dimostrazione. Una volta calcolati i parametri “ottimi” a? e b? , si perviene ad una nuova v.s. Y ? de…nita da Y ? = a? + b ? X i cui valori yj? , detti valori teorici, approssimano quelli osservati yj di Y . Si può in…ne scrivere Y = Y ? + E ? = a? + b? X + E ? introducendo la nuova variabile errore E ? = Y Y ? , che quanti…ca lo scostamento dei dati osservati rispetto a quelli calcolati a partire dal modello interpolante (si osservi che, in generale, E ? 6= E dal momento che r (X) 6= Y ? ). Come è facile notare, i parametri “ottimi” a? e b? coincidono con i parametri e che si avrebbero se la funzione di regressione fosse e¤ettivamente lineare. Inoltre la v.s. E ? eredita le caratteristiche di E: tale v.s. ha media nulla ed è incorrelata con X (si vedano i risultati (10.6) e (10.7) nella dimostrazione della Proposizione 14). Quindi, per non appesantire inutilmente la notazione, d’ora in avanti useremo E al posto di E ? . Esempio 56 Si supponga che la v.s. doppia (X; Y ) abbia la distribuzione di frequenze congiunte dell’Esempio 50 che per comodità riportiamo qui di seguito: #X 1 1:5 2 3 Y ! 2 5 3 4 3 1 3 5 2 4 6 7 8 9 2 2 2 3 1 1 1 Scaricato da ahmed ouerghemi (ahouerghemi@gmail.com) lOMoARcPSD|2790231 10.2 Il modello di regressione lineare ed il metodo dei minimi quadrati 125 La funzione di regressione calcolata in precedenza è: 8 3:2 > > < 5 r (x) = > 5:625 > : 7:2 x=1 x = 1:5 x=2 x=3 Si supponga di voler approssimare r (x) con una funzione interpolante (x) di tipo lineare: (x) = a + bx: Utilizzando il metodo dei minimi quadrati si ottengono i parametri ottimi di tale modello per il caso in studio: 0:9478 = 1:983; 0:4781 a? = 4:9333 1:983 1:7167 = 1:530: b? = Il confronto fra la vera funzione di regressione r (x) ed il modello interpolante ottimo y ? = 1:53 + 1:983x ottenuto col metodo OLS può essere e¤ettuato ricorrendo al gra…co che segue: Scaricato da ahmed ouerghemi (ahouerghemi@gmail.com) lOMoARcPSD|2790231 126 10. Regressione lineare 10.3 Bontà di adattamento del modello di regressione ai dati Consideriamo il generico modello di regressione: Y = r (X) + E, E [E] = 0 e Cov (E; X) = 0: Per fornire una misura della bontà di adattamento del modello di regressione ai dati (goodness-of-…t nella letteratura anglosassone) si può utilizzare la quantità V ar (E) = E [V ar (Y jX)] che, come abbiamo visto (alla …ne della Sezione 9.2.2), fornisce una misura della “distanza” dei dati rispetto alla funzione di regressione e può essere interpretata come la parte della varianza di Y che non è spiegata dalla funzione di regressione. Normalizzando detta quantità si perviene al consueto rapporto di correlazione, che nel contesto della regressione, viene chiamato Rapporto di determinazione ed è indicato col simbolo R2 : V ar(E) V ar(r (X)) =1 : R2 = V ar (Y ) V ar (Y ) È appena il caso di osservare che: R2 = 0 quando il modello di regressione non è in grado di spiegare la variabilità di Y, R2 = 1 quando il modello di regressione spiega tutta la variabilità di Y . Quando si utilizzano delle speci…cazioni per r (X), ossia si individuano dei modelli interpolanti (X), l’indice R2 si calcola a partire dai valori di Y ? che approssimano la funzione di regressione, oppure dalle approssimazioni degli errori E. 10.3.1 Il caso del modello lineare Nel caso in cui si utilizzi il modello di regressione lineare, ossia quando si sceglie la speci…cazione: Y = a + bX + E, E [E] = 0 e Cov (E; X) = 0 vediamo che Y è una somma di due v.s., X e E. Per le proprietà della varianza di una combinazione lineare (cfr. Proposizione 12) si ha: V ar (Y ) = V ar (a + bX + E) = b2 V ar (X) + V ar (E) : Scaricato da ahmed ouerghemi (ahouerghemi@gmail.com) lOMoARcPSD|2790231 10.3 Bontà di adattamento del modello di regressione ai dati 127 Dal momento che, quando si utilizza il metodo OLS, il coe¢ciente ottimale b? è pari a b? = ne consegue che: Cov (X; Y ) V ar (X) Cov (X; Y )2 V ar (Y ) = V ar (X) + V ar (E) V ar (X)2 e quindi, V ar (E) = V ar (Y ) Cov (X; Y )2 = V ar (Y ) 1 V ar (X) Cov (X; Y )2 V ar (Y ) V ar (X) ! ossia: 2 V ar(E) = V ar(Y )(1 ): Grazie a quest’ultimo risultato, e dato che V ar(Y ) > 0, si deduce che V ar(E) = 0 se e solo se 2 = 1 (perfetta correlazione lineare tra X ed Y ), V ar(E) = V ar(Y ) se e solo se 2 = 0 (assenza di correlazione lineare tra X ed Y ). Inoltre, sempre grazie al risultato introdotto, si deduce che il rapporto di determinazione ed il coe¢ciente di correlazione lineare sono uguali, infatti: R2 = 1 V ar(E) =1 V ar(Y ) V ar(Y )(1 V ar(Y ) 2 ) =1 1 2 = 2 : Ciò signi…ca che, nel caso del modello di regressione lineare, è su¢ciente calcolare il coe¢ciente di correlazione lineare 2 e poi interpretarne il risultato come quota di varianza spiegata dal modello di regressione. Scaricato da ahmed ouerghemi (ahouerghemi@gmail.com)