settimana 1-2 stat

SETTIMANA 1 Unità statistica= unità elementare su cui vengono osservati i caratteri oggetto di studio Collettivo statistico o popolazione= insieme di unità statistiche che rispettano una o più caratteristiche 1. Serie storiche t= 1, ...T (stesso dato analizzato al variare nel tempo) 2. Cross section i=1, ...n (dati presi nello stesso periodo di tempo) Calcolo rendimenti: 𝑅= 𝑝𝑡 − 𝑝𝑡−1 ⋅ 100 𝑝𝑡−1 P = prezzo al tempo t Rendimenti essenziali per eliminare i trend e poter fare un'analisi VARIABILI STATISTICHE→ possono essere qualitative o quantitative 1. Variabili di carattere quantitativo→ misurabili con unità di misura che possono essere: • discrete= procede per salti (ex. voti esami) • continue= variabile senza salti, i valori si susseguono in continuità (ex. tempo, peso) 2. Variabili di carattere qualitativo che possono essere a loro volta: • ordinabili • non ordinabili STAZIONARIETA' Una variabile si dice stazionaria in media quando dividendo l’insieme T in due sotto campioni T1 e T2, la media di T1 è uguale alla media di T2. M(T1) = M(T2) Wikipedia: "In matematica e statistica, un processo stazionario (o processo fortemente stazionario) è un processo stocastico la cui distribuzione di probabilità congiunta non cambia se viene traslata nel tempo. Di conseguenza, parametri quali la media e la varianza, se sono presenti, pure non cambiano nel tempo" Se una serie è un serie cross section è molto più difficile avere problemi di NON stazionarietà in media. Nelle serie storiche invece molto spesso abbiamo problemi di NON stazionarietà. Differenza prima= valore al tempo (t) - valore al tempo (t-1) Esempio di analisi cross section 1. x= reddito --> carattere oggetto di studio studiata in "n" osservazioni diverse 2. n= numero di osservazioni= 7421 • • • • x1= valore della variabile x nella prima unità statistica (primo dato rilevato) x2= valore della variabile x nella seconda unità statistica ... x7421 L'insieme di questi valori è detto PROTOCOLLO ELEMENTARE --> successione di questi 7421 dati elementari che ho osservato. 7421 numeri sono troppi però da studiare allora devo ridurre l'insieme delle osservazioni CLASSIFICANDO nei dati; passando quindi dai miei "n" dati INDIVIDUALI a un insieme di "m" GRUPPI/CLASSI nei quali sintetizzo i dati individuali con ovviamente m<n Per fare ciò devo conoscere il campo di variazione→ calcolo il minimo e il massimo dei valori che "x" assume. In questo caso: min= -6763,19 max= 541879,2 Posso così raggruppare i dati in intervalli definiti→ usare la funzione frequenza su Excel per passare da protocollo elementare a divisione in classi. Le classi devono avere alcune caratteristiche: • • omogenee al proprio interno eterogenee tra di loro È utile inoltre avere classi di uguale ampiezza per semplificare la rappresentazione e l’analisi→ se non hanno uguale ampiezza bisogna tenerne conto. Il passaggio dagli “n” valori del protocollo elementare alla distribuzione in “m” classi è un passaggio in cui cambia la rappresentazione. N.B. x1 nel protocollo rappresenta la prima unità di rilevazione statistica mentre x1 nella divisione per classi rappresenta la modalità, ovvero le caratteristiche della prima classe. Nella classificazione, x1 x2 … xm si chiamano modalità (valore delle classi) n1 n2 … nm rappresenta il numero di unità statistiche contenute in ogni classe e vengono chiamate frequenze assolute. La somma delle “ni” deve dare il numero di unità statistiche analizzate: 𝑚 ∑ 𝑛𝑖 = 𝑛 𝑖=1 Ex. x4= quarta modalità del carattere x (se sono nella distribuzione per classi). Ex. n5= frequenza assoluta, il numero di unità statistiche che presentano la quinta modalità della variabile x: numero di valori appartenenti alla quinta classe. La prima e l’ultima classe possono essere aperte (< di oppure > di) e quindi avere ampiezza maggiore delle altre classi e diventa rilevante nell’istogramma di frequenza (rappresentazione grafica). ISTOGRAMMA DI FREQUENZA Asse ascisse (x)→ variabile di interesse (intervalli di ogni classe) Asse ordinate (y)→ frequenze (numero di variabili in ogni classe) CLASSI DI UGUALE AMPIEZZA x x1→1 x2→2-3 x3→4 n n1→1 n2→3 n3→1 n= 5 CLASSI DI DIVERSA AMPIEZZA x n x1→1 n1→1 x2→2 n2→2 x3→3 n3→1 n= 4 Per trovare la n corrispondente a 2 e quella corrispondente a 3, divido n2 per l’ampiezza della classe e faccio una media→ n2/a2 = 3/2 = 1,5 ai= ampiezza della classe a1→ numero di unità statistiche che assume il valore di 1 (variabili discrete)→ a1=1 a2→ numero di unità statistiche che assume il valore di 2 o 3→ a2=2 Se le classi hanno tutte la stessa ampiezza, allora è equivalente riportare la densità o la frequenza sull’asse verticale. Quando invece le classi non sono tutti uguali sarebbe un errore disegnare l’altezza di ogni rettangolo in base alla frequenza. Infatti, un intervallo di valori più ampio tenderà a contenere un numero maggiore di frequenze di quelle contenuta in un intervallo di valori più stretto. Perciò in questa situazione è necessario calcolare sempre la densità di frequenza. densità = frequenza / ampiezza della classe→ densità= ni/aii Se al numeratore utilizziamo la frequenza assoluta, otteniamo la densità assoluta. Se al numeratore utilizziamo la frequenza a relativa, otteniamo la densità relativa. La densità di frequenza costituisce una misura del numero di unità statistiche che presentano modalità di un certo carattere incluse all'interno di una determinata classe in relazione all'ampiezza di tale classe. La frequenza del carattere all'interno di una classe è influenzata dall'ampiezza della medesima classe per cui la densità di frequenza tende ad ovviare a questo inconveniente fornendo un'informazione sulla distribuzione del carattere depurata da tale influenza. N.B. nella rappresentazione grafica su un istogramma è necessario ricorrere alla densità (non basta solo la frequenza assoluta) se le modalità hanno ampiezza diversa tra loro (ai) perché ovviamente più è ampia la classe più unità statistiche contiene e questo può distorcere l’analisi del grafico. DISTRIBUZIONE PER CLASSI n= totale delle unità statistiche n1→ frequenza assoluta (numero di unità statistiche appartenenti alla prima classe) 𝑛 f1= 𝑛1 → frequenza relativa → spesso espressa in termini percentuali ( 𝑓1 ∙ 100)→ numero di unità statistiche appartenenti alla prima classe diviso totale unità analizzate. 𝑚 ∑ 𝑓𝑚 = 1 𝑖=1 frequenza relativa= frazione di unità statistiche che presentano la i-esima modalità (caratteristiche della classe) della variabile x. A differenza della frequenza assoluta, il suo valore non dipende dalla numerosità del campione o della grandezza della classe. Frequenze cumulate relative= F1= f1 (la prima frequenza cumulata è uguale alla prima frequenza relativa) MA F2= f1 + f2 e così via→ Fi= f1 + f2 + … + fi 𝐹𝑘 = ∑𝑘𝑖=1 𝑓𝑖 → Quindi Fm= f1 + f2 + … + fm = 1 Fi= frazione di unità statistiche che presentano la i-esima modalità della variabile x o i valori più bassi (comprende anche le modalità/classi precedenti). È un valore che permette di determinare la percentuale di unità statistiche minore o uguale di xi Ex. sapendo che f3= 0,2 completare la tabella xi 0 1 2 3 ni 2 1 2 ? 𝑓3 = 𝑛3 𝑛 = 2 𝑛 = 0,2 → n= 10→ n4= 10-(2+1+2) = 5 Qual è la percentuale di casi con valori < 2? Utilizzo la frequenza cumulata relativa f1= 𝑛1 = 𝑛 2/10= 0,2 f2= 𝑛2 = 𝑛 1/10= 0,1 F2= f1+f2= 0,3 → 30% INTERVALLI • • • chiuso (compresi gli estremi)→ compreso l’estremo inferiore ma non quello superiore→ compreso l’estremo superiore ma non quello inferiore→ PARADOSSO DI SIMPSON In statistica, il paradosso di Simpson indica una situazione in cui una relazione tra due fenomeni appare modificata, o perfino invertita, dai dati in possesso a causa di altri fenomeni non presi in considerazione nell'analisi (variabili nascoste). È alla base di frequenti errori nelle analisi statistiche Abbiamo un campione di laureati (L) e di NON laureati (NL) L Reddito inferiore a 30000 Reddito superiore a 30000 <30 000 >30 000 NL uomini L 26 NL 63 donne L 145 NL 40 171 103 Totale > 30 0000= 274 129 147 Totale < 30 0000= 276 74 137 55 10 L= 300 NL=250 Campioni tot. =550 Tot. L uomini= 100 Tot. NL uomini= 200 Tot. L donne= 200 Tot. NL donne= 50 L 57% 43% NL 41% 59% uomini L 26% 74% NL 32% 68% donne L 72,5% 27,5% NL 80% 20% In questo esempio vediamo che il 43% dei laureati ha un reddito superiore a 30000 euro contro il 59% dei non laureati e questo lascia pensare che sia meglio non essere laureato. Se si osservano i dati divisi in base al genere però vediamo che il 74% degli uomini laureati prende più di 30000 euro contro il 68% degli uomini non laureati e questo ci lascia pensare sia meglio laurearsi. Stesso ragionamento vale per il genere femminile. Questo può creare distorsioni nelle analisi statistiche. RICAPITOLANDO… Si parte dal protocollo elementare→ si fa la distribuzione in classi→ si effettua la SINTESI ESTREMA il cui obiettivo è riassumere in un unico argomento i valori analizzati. In sostanza quando vuoi riassumere un’intera distribuzione di valori ti affidi solitamente a un unico numero, che ti possa rappresentare bene i dati. Quell'unico numero sintetizza appunto la totalità dei valori e molto spesso è la media. Per fare ciò spesso si usa la MEDIA ARITMETICA→ indicata con: 𝑥̅ La media aritmetica è un indicatore di sintesi che misura la tendenza centrale all'interno di un contesto di equidistribuzione: è la somma dei valori osservati divisa per il loro numero. 1 𝑥̅ = ⋅ ∑𝑛𝑖=1 𝑥𝑖 → media aritmetica del protocollo elementare (n= numero di casi osservati)→ 𝑛 n=numero di osservazioni 𝑚 1 𝑥̅ = ⋅ ∑𝑖=1(𝑥𝑖 ∙ 𝑛𝑖 )→ media aritmetica della divisione per classi data la frequenza assoluta (m= 𝑛 numero di classi)→ ni= numero di osservazioni appartenenti a ognuno degli m gruppi 𝑚 𝑥̅ = ∑𝑖=1(𝑥𝑖 ∙ 𝑓𝑖 )→ media aritmetica della divisione per classi data la frequenza relativa Come xi utilizzo il ci ovvero il valore centrale di ogni classe (ex. se la classe va da 5 a 10→ ci= (5+10)/2 =7,5. Così facendo però si ottiene solo un’approssimazione della media aritmetica poiché non conosciamo con esattezza i valori ma solo la loro classe di appartenenza. La media è esatta solo se ci rappresenta anche la media aritmetica di ciascuna classe (ex. il carattere è equidistribuito tra le classi). Se per esempio in ogni classe la media è vicina all’estremo inferiore, allora la media approssimativa calcolata con il valore centrale sarà parecchio più alta di quella effettiva. ci= valore centrale→ Il valore centrale si ottiene sommando il limite inferiore e quello superiore di ogni singola classe e dividendo per due. 𝑚 1 𝑥̅ ≈ ⋅ ∑(𝑐𝑖 ∙ 𝑛𝑖 ) 𝑛 𝑖=1 𝑛 • Una delle proprietà della media aritmetica è l’identità di somma ovvero: ∑𝑖=1 𝑥𝑖 l’ammontare complessivo del carattere è uguale a n volte la media aritmetica. • Un’altra proprietà è la nullità degli scarti ovvero ∑ 𝑛 𝑛 𝑛 𝑛 (𝑥 𝑖=1 𝑖 = 𝑛 ⋅ 𝑥̅ e quindi − 𝑥̅ ) = 0 poiché: 𝑛 ∑(𝑥𝑖 − 𝑥̅ ) = ∑ 𝑥𝑖 − ∑ 𝑥̅ = ∑ 𝑥𝑖 − 𝑛 ⋅ 𝑥̅ = 𝑛 ⋅ 𝑥̅ − 𝑛 ⋅ 𝑥̅ (𝑠𝑓𝑟𝑢𝑡𝑡𝑜 𝑙′𝑖𝑑𝑒𝑛𝑡𝑖𝑡à 𝑑𝑖 𝑠𝑜𝑚𝑚𝑎) = 0 𝑖=1 𝑖=1 𝑖=1 𝑖=1 La somma degli scarti è quindi pari a zero e la media aritmetica rappresenta il baricentro della distribuzione. Questo significa che sommando le differenze tra ogni valore e la media, ottengo 0. • Altra proprietà è il minimo dei quadrati degli scarti ovvero 𝑛 ∑𝑖=1(𝑥𝑖 − 𝑥̅ )2 = a un minimo, ovvero la somma del quadrato degli scarti (xi – c) è minima quando il valore c è uguale alla media (c=𝑥̅ ); con c= 𝑛 qualsiasi altro numero, il quadrato di (xi – c) assumerà valori maggiori di ∑𝑖=1(𝑥𝑖 − 𝑥̅ )2 𝑛 𝑛 𝑛 ∑𝑖=1(𝑥𝑖 − 𝑐)2 = ∑𝑖=1(𝑥𝑖 − 𝑐 − 𝑥̅ + 𝑥̅ )2 = ∑𝑖=1[(𝑥𝑖 − 𝑥̅ ) + (𝑥̅ − 𝑐)]2 = 𝑛 𝑛 ∑𝑖=1[(𝑥𝑖 − 𝑥̅ )2 + (𝑥̅ − 𝑐)2 + 2(𝑥𝑖 − 𝑥̅ )(𝑥̅ − 𝑐)] = ∑𝑖=1[(𝑥𝑖 − 𝑥̅ )2 ] + 𝑛 𝑛 𝑛 ∑𝑖=1(𝑥̅ − 𝑐)2 + 2(𝑥̅ − 𝑐) ∑𝑖=1(𝑥𝑖 − 𝑥̅ ) = ∑𝑖=1[(𝑥𝑖 − 𝑥̅ )2 ] + 𝑛( 𝑥̅ − 𝑐)2 𝑛 Da questo si evince che il valore minimo di ∑𝑖=1(𝑥𝑖 − 𝑐)2 si ottiene quando (𝑥̅ − 𝑐)= 0 ovvero 𝑥̅ = 𝑐 • • • Vi è poi la linearità ovvero data una variabile x e una sua trasformazione lineare, si dice che la media è un operatore lineare poiché data y = a + bx, allora 𝑦̅ = 𝑎 + 𝑏𝑥̅ per esempio se ho 𝑥̅ = reddito medio in euro e lo moltiplico per il tasso di cambio, ottengo il reddito medio in valuta estera. Associatività: la media generale è uguale alla media delle medie parziali Omogeneità: Moltiplicando con una costante "b" i termini di una serie di valori, anche la media risulta moltiplicata per la costante "b". MEDIA PONDERARA→ alcune volte si vuole dare diversa importanza alle diverse osservazioni del carattere nella valutazione; devo tener conto della loro importanza nel conteggio della media→ è presente una struttura di ponderazione (di pesi) che possono essere indicati in vario modo (ex. w). Ex. media dei voti universitari o calcolo IPC (inflazione) 𝑥̅ = 1 𝑛⋅∑𝑛 𝑖=1 𝑤𝑖 ⋅ ∑𝑛𝑖=1 𝑥𝑖 ∙ 𝑤𝑖 → media con protocollo elementare A seconda della struttura di ponderazione, di come sono articolati i pesi, “n” al denominatore può essere omessa in molti casi (solo in alcuni casi va messa). 𝑥̅ = 1 𝑚 ∑𝑖=1(𝑛𝑖 ∙𝑤𝑖 ) 𝑚 ⋅ ∑𝑖=1(𝑥𝑖 ∙ 𝑛𝑖 ∙ 𝑤𝑖 ) → media con distribuzione per classi MEDIA TRIMMED (troncata)→ la media è un valore estremamente sensibile ai valori estremi che possono falsare la sintesi e rappresentazione dei valori; in questo caso vengono eliminate ne calcolo della media i valori più alti e più bassi→ elimina l’effetto dei valori estremi. Ex. media trimmed all’80%--> si calcola togliendo il 10% più basso e il 10% più alto dei valori. Ex. media trimmed al 50%--> si calcola togliendo il 25% più basso e il 25% più alto dei valori. 1 2 3 4 Media= 15/3= 3 5 1 2 3 4 500 Media= 510/3= 102 → il valore estremo rende la sintesi NON affidabile→ meglio usare la media trimmed anche se così facendo talvolta si escludono anche valori “non estremi” nella distribuzione come l’1 in questo caso Così facendo si perdono dei valori→ per evitare questo si usa la MEDIANA= valore centrale nella serie ORDINATA di unità statistiche. Insensibile rispetto alla presenza di valori estremi→ può essere inoltre calcolata anche sui caratteri qualitativi e non solo quantitativi a patto che siano ORDINABILI. 1 2 3 4 5 Serie già ordinata→ Mediana= 3 1 2 3 4 Mediana= 3 500 MEDIANA (xme)→ valore centrale nella successione ordinata che divide in 2 parti uguali l’insieme delle unità statistiche: 50% più piccolo e 50% più grande della mediana→ devo ordinare le n osservazioni dalla min alla max • Se n è dispari ho un unico valore centrale→ in questo caso la mediana corrisponde all’elemento: 𝑥𝑛+1 • Se n è pari ho due valori centrali→ in questo caso la mediana corrisponde agli elementi: 𝑥𝑛 e 𝑥𝑛+1 2 2 2 Ex. n=21 (dispari)→ (21+1)/2= 11→ la mediana sarà l’undicesimo numero della serie ordinata Ex. n=30 (pari)→ 30/2=15 e (30/2)+1=16→ la mediana sarà il quindicesimo e sedicesimo numero della serie→ se i due valori sono diversi basta fare la semisomma dei due (la media→ (𝑥𝑛 + 𝑥𝑛+1 )/2 2 2 MEDIANA PER CLASSI (data la classificazione senza il protocollo elementare) Quando i dati vengono presentati mediante una distribuzione di frequenza di un carattere quantitativo suddiviso in classi (NO protocollo elementare), non è possibile individuare esattamente la mediana; tuttavia, si può ottenere una sua approssimazione Essendo il valore centrale, questa divide la distribuzione in due parti uguali tra loro e quindi divide a metà le variabili; nel punto mediano avrò F= 50% (frequenza cumulata). Dalla frequenza cumulata posso quindi individuare la classe mediana (modalità dove sarà contenuta la mediana). Mediana per classi → 𝑥𝑚𝑒 ≈ 𝐼𝑚𝑒 + 0,5 − 𝐹𝑚𝑒−1 𝐹𝑚𝑒 −𝐹𝑚𝑒−1 ∙ 𝐴𝑚𝑒 Ime = estremo inferiore della classe mediana (la classe che contiene l’unità centrale) 𝐹𝑚𝑒−1 = frequenza relativa cumulata fino alla classe precedente alla classe mediana 𝐹𝑚𝑒 = frequenza relativa cumulata fino alla classe mediana Ame = ampiezza della classe mediana Proprietà della mediana: Proprietà del minimo→ per un carattere quantitativo x, la somma degli scarti in valore assoluto dei valori xi da una costante “c” è minima quando c= xme ∑𝑛𝑖=1|𝑥𝑖 − 𝑐| è min quando c= xme QUARTILI→ divide in 4 parti uguali la distribuzione delle unità statistiche 1 quartile→ corrisponde al valore per cui il 25% degli altri valori ha intensità minore (più piccoli) 2 quartile→ corrisponde al valore per cui il 50% degli altri valori ha intensità minore= MEDIANA 3 quartile→ corrisponde al valore per cui il 75% degli altri valori ha intensità minore 4 quartile→ valore più alto registrato Il primo e terzo quartile vengono molto usati perché individuano un intervallo centrale che contiene circa il 50% delle unità statistiche centrali. DECILI→ dividono il 10 parti la distribuzione PERCENTILI→ dividono il 100 parti di uguale numerosità di unità la distribuzione 50o percentile = 5o decile = 2o quartile = mediana Quartili, decili e percentili sono esempi di statistica NON parametrica→ può essere calcolato sempre a condizione che la variabile sia una variabile ordinabile (possono essere calcolati anche con le variabili qualitative). QUARTILI (decili, percentili…) DISTRIBUITI PER CLASSI→ se la distribuzione è suddivisa in classi non si puàò trovare esattamente il valore del quartile ma solo una sua approssimazione→ metodo uguale a quello della mediana. Supponiamo di dover trovare il valore a sinistra del quale cade il 25% delle unità, ovvero il primo quartile: 𝑥µ=0,25 = 𝐼0,25 + 0,25 − 𝐹0,25(−1) ∙ 𝐴0,25 𝐹0,25 − 𝐹0,25(−1) 𝐼0,25 = estremo inferiore della classe che contiene il 1o quartile 𝐹0,25(−1) = frequenza relativa cumulata fino alla classe precedente a quella che contiene l primo quartile 𝐹0,25= frequenza relativa cumulata fino alla classe che contiene il primo quartile (individuo la classe con F=25%) 𝐴0,25 = ampiezza della classe dove c’è il primo quartile (ampiezza classe con F=25%) Calcolo della mediana xi 0 1 2 3 4 ni 1 2 3 1 3 ntot= 10 (pari) fi 0,1 0,2 0,3 0,1 0,3 Fi 0,1 0,3 0,6 0,7 1 Per calcolare la mediana di una serie di valori pari devo prendere la n/2 unità statistica e la (n/2)+1 unità statistica ovvero: n10/2=n5 e n(10/2)+1=n6 In questo caso se la variabile è discreta, posso ricavare il protocollo elementare: 0 1 1 2 2 2 3 4 4 4 → n5= 2 e n6= 2 → la mediana sarà: xme= (n5+n6)/2= 2 Se invece la variabile è continua devo utilizzare la formula della mediana per classi: la terza classe contiene la mediana perché contiene F=0,5→ applico la formula xme= 1+[(0,5-0,3)/(0,6-0,3)]*1 = 1,67 MEDIA GEOMETRICA Media analitica usata soprattutto nel caso in cui l’insieme di dati è costituito da valori positivi generati da rapporti→ la media geometrica si un insieme di “n” valori positivi x1,x2…xn di un carattere quantitativo è pari alla radice n-esima del prodotto dei singoli valori: 𝑥̅ g= √𝑥1 ∙ 𝑥2 → media geometrica con 2 unità statistiche 𝑥̅ g= 𝑛√𝑥1 ∙ 𝑥2 ∙. . . 𝑥𝑛 = 𝑛√∏𝑛𝑖=1 𝑥𝑖 → formula generale media geometrica con protocollo elementare 𝑥̅ g= 𝑛√𝑥1 𝑛1 ∙ 𝑥2 𝑛2 ∙. . . 𝑥𝑚 𝑛𝑚 → media geometrica per classi Oppure posso calcolarla con le frequenze relative: 𝑥̅ g= 𝑥1 𝑓1 ∙ 𝑥2 𝑓 ∙. . . 𝑥𝑚 𝑓𝑚 dove “m” è il numero di modalità Proprietà: Il logaritmo della media geometrica è uguale alla media aritmetica dei logaritmi: 1 𝑙𝑜𝑔 𝑥̅ g = 𝑛 ∙ ∑𝑛𝑖=1 𝑙𝑜𝑔 𝑥𝑖 N.B. Se è presente un valore xi= 0→ la media geometrica sarà 𝑥̅ g= 0 VARIABILITA’→ Un unico valore sintetico come la media, da informazioni insufficienti per riassumere delle rilevazioni statistiche se le unità statistiche presentano una modalità molto distante dalla media→ Più è alta la variabilità meno è attendibile la media come valore di sintesi. Una volta accertato che la media è attendibile (è simile alla mediana e quindi non risente molto dei valori estremi) posso calcolare la variabilità di una variabile QUANTITATIVA. La VARIABILITA’ di una distribuzione esprime la tendenza delle unità di un collettivo ad assumere diverse modalità di carattere. Per misurare la variabilità di una distribuzione, è possibile usare degli indici detti INDICI DI VARIABILITA’→ un indice di variabilità assume il suo valore minimo (0) se e solo se tutte le unità presentano la stessa modalità del carattere; al contrario aumenta all’aumentare della diversità tra le modalità assunte dalle varie unità statistiche. • • Le medie sono misure assolute→ forniscono subito informazioni sui dati VARIABILITA’→ le misure di variabilità sono misure relative→ se una varianza è per esempio pari a 0,3 non posso stabilire se questo valore sia alto o basso MA va paragonato alla varianza di un altro campione statistico per trarre conclusioni. Varianza→ la varianza di un insieme di “n” valori x1,x2…xn di una variabile “x” con media aritmetica 𝑥̅ è data da: varianza= σ2 = σ2 = 1 𝑛 𝑚 ∙∑ 1 𝑛 𝑛 ∙∑ 2 ̅) → varianza con protocollo elementare (funzione Excel: "var.pop.") (𝑥𝑖 − 𝑥 𝑖=1 2 ̅) ∙ 𝑛𝑖 ] → varianza con distribuzione per classi [(𝑥𝑖 − 𝑥 𝑖=1 NB: se nel calcolo della media con la distribuzione per classi ho utilizzato ci al posto di xi, allora anche nel calcolo della ARIANZA E DEVIANZA devo utilizzare il valore centrale delle classi nel calcolo. La varianza assume valore 0 quando tutte le modalità sono uguali al valore medio e quindi sono uguali tra loro, mentre aumenta all’aumentare della differenza tra i valori osservati. La varianza rappresenta la media dei quadrati degli scarti della media aritmetica. Il problema della varianza è che non è nell’unità di misura della “x” bensì diviene elevato al quadrato per questo motivo si fa la radice quadrata: σ=√ 1 𝑛 ∙ 𝑛 ∑𝑖=1(𝑥𝑖 − 𝑥̅ )2 → scarto quadratico medio con protocollo elementare si elimina l’effetto dell’ordine di grandezza diverso σ=√ 1 𝑛 ∙ m ∑𝑖=1[(𝑥𝑖 − 𝑥̅ )2 ∙ 𝑛𝑖 ] → scarto quadratico medio per classi σ (sigma) è detto scarto quadratico medio o DEVIAZIONE STANDARD→ istruzione Excel: “dev. St. Pop.” Lo scarto quadratico medio tiene conto del numero di osservazioni e NON è influenzata dall’unità di misura. Se voglio rappresentare sull’istogramma lo scarto quadratico medio, dovrò rappresentarlo sull’asse delle x sia a destra che a sinistra della media in (𝑥̅ – σ) e (𝑥̅ + σ). Devianza (numeratore della varianza)→ Calcolo la differenza quadratica di ogni unità dalla media (calcolo lo scarto) e le sommo; 𝑛 ∑𝑖=1(𝑥𝑖 − 𝑥̅ )2 → formula definitoria della devianza con protocollo elementare 𝑛 [∑𝑖=1 𝑥𝑖 2 ] − 𝑛𝑥̅ 2 → formula calcolatoria (da usare per fare i calcoli) della devianza con protocollo elementare 𝑚 ∑𝑖=1(𝑥𝑖 − 𝑥̅ )2 ∙ 𝑛𝑖 → formula definitoria della devianza con distribuzione per classi 𝑚 [∑𝑖=1 𝑥𝑖 2 ∙ 𝑛𝑖 ] − 𝑛𝑥̅ 2 → formula calcolatoria della devianza con distribuzione per classi Calcolo devianza→ Protocollo elementare: 1 2 3 4 5 𝑥̅ = 3→ devianza = 12+22+32+42+52 – 5(32) = 1,22 Le misure di variabilità hanno tutte un minimo che è pari a 0→ valore che si ottiene in assenza di variabilità→ tutti i valori sono uguali tra loro (e quindi anche alla media aritmetica). x1= x2= …= xn= 𝑥̅ → variabilità nulla = 0 VARIANZA DI UNA TRASFORMAZIONE LINEARE→ Data una trasformazione lineare di y= a+bx, la varianza del carattere y è pari a: V(y) = V(a+by) = b2∙V(x) • • con la media → M(y) = M(a+by) = a+b∙M(x)→ ex. per passare dalla media in chilometri alla media in metri basta moltiplicare per b= 1000 con la varianza il risultato è diverso → V(y) = V(a+by) = b2∙V(x) Oltre a devianza, varianza e scarto quadratico medio, ci sono altre misure di variabilità: σ Coefficiente di variabilità→ cv = ∙ 100 → rapporto tra scarto quadratico medio e media aritmetica 𝑥̅ Il coefficiente di variazione permette di valutare la dispersione dei valori attorno alla media indipendentemente dall'unità di misura. Ad esempio, la deviazione standard di un campione di redditi espressi in lire è completamente diversa della deviazione standard degli stessi redditi espressi in euro, mentre il coefficiente di variazione è lo stesso in entrambi i casi. N.B. Se la media è però molto bassa, è consigliabile non usare questo coefficiente perché tenderà ad assumere valori molto elevati. Campo di variazione→ max - min→ differenza tra il valore più alto e quello più basso del campione statistico→ il minimo del campo di variazione è 0: quando tutte le unità statistiche hanno stesso valore Differenza interquartile→ valore 3° quartile - valore 1o quartile→ trasformazione del campo di variazione: fa riferimento solo al 50% del campione statistico (non il 100% come nel campo di variazione) e quindi a differenza del campo di variazione, possiamo escludere le unità estreme che spesso risultano essere anomale e poco indicative. STANDARDIZZAZIONE→ è una trasformazione lineare applicata ai dati originali, che riconduce qualsiasi variabile ad avere un valore medio nullo e varianza unitaria. Standardizzando possiamo fare confronti. I valori standardizzati z1, z2, …, zn corrispondenti a un insieme di “n” osservazioni x1, x2,…, xn sono definiti come: zi = xi - 𝑥̅ σ con i= 1, …, n→ la nuova varabile “z” avrà media pari a 0 [M(z)=0] e varianza pari a 1 (σ= 0) CONCENTRAZIONE→ si può parlare di concentrazione SOLO per le variabili che sono QUANTITATIVE e TRASFERIBILI e il carattere deve essere ORDINATO. Una variabile si dice TRASFERIBILE quando la sua intensità può essere spostata da un’unità statistica all’altra (può essere trasferita)→ un’unità statistica può trasferire tutto o parte del suo carattere a un’altra. Il peso è quantitativo ma NON è trasferibile→ non posso spostare il peso di un soggetto statistico a un altro Il reddito è una variabile quantitativa trasferibile; il numero di ragazzi è trasferibile; il fatturato di aziende il voto è una variabile quantitativa NON trasferibile→ non posso trasferire il voto di un soggetto a un altro In generale di solito le variabili finanziarie ed economiche sono quantitative e trasferibili. La concentrazione serve se si vuole sapere come l’ammontare dell’unità statistica è ripartito tra le diverse unità statistiche del collettivo. Ex. se sconosco l’ammontare di reddito di un gruppo di persone posso voler sapere come questo è distribuito tra le persone per vedere se esso è CONCENTRATO o EQUIDISTRIBUITO. Nella situazione di EQUIDISTRIBUIZIONE tutte le unità statistiche hanno tutte la stessa intensità del carattere→ tutte le unità statistiche sono uguali tra loro e sono uguali alla media→ ognuna delle “n” unità possiede 1/n dell’ammontare complessivo del carattere. Se un carattere NON è equidistribuito, allora sussiste un certo grado di concentrazione del carattere→ più una variabile trasferibile è concentrata, tanto più è elevata la variabilità del carattere; se la variabilità è nulla invece, anche la concentrazione sarà nulla (equidistribuzione). Nella situazione di MASSIMA CONCENTRAZIONE una sola unità detiene l’ammontare complessivo del carattere mentre tutte le altre unità hanno valore pari a 0 del carattere. ̅ Ammontare complessivo del carattere= 𝒏 ∙ 𝒙 equidistribuzione Max concentrazione La concentrazione si misura con diversi indicatori; il più diffuso è l’INDICE DI GINI Indice di Gini con protocollo elementare ordinato→ si costruisce facendo riferimento a due frequenze cumulate: Fi (cumulata delle osservazioni) e Q i (frequenza cumulata del carattere) Se ho “n” osservazioni e le ordino dalla più piccola alla più grande, ogni osservazione avrà frequenza relativa pari a 1/n (la modalità ha una sola unità statistica) mentre Qi rappresenta la frazione dell’ammontare complessivo detenuta dalle prime i-esime unità statistiche: Q i= x1 +x2 +...+ xi ∑n i=1 xi Ex. se Fi= 0,90 e Qi= 0,75→ significa che il 90% della popolazione statistica detiene il 75% del reddito complessivo e quindi, il 10% della popolazione detiene il restante 15% del reddito complessivo. L’indice di Gini assume: • • • R= 0 quando Qi = Fi → equidistribuzione R= 1 quando cui Qi= 0 per i= 1,…(n-1) perché x1= x2= …xn-1→ max concentrazione Valori compresi tra 0 e 1 in ogni altro caso di distribuzione differente Posso rappresentare la relazione tra Fi e Qi su un diagramma cartesiano: Nel punto rosa→ il 10% della popolazione detiene il 10% del reddito Nel punto blu→ il 10% della popolazione ha lo 0% del reddito (non detiene nulla) N:B: il 10% della popolazione più povera può detenere al max il 10% della ricchezza, altrimenti NON sarebbero i più poveri→ la BISETTRICE rappresenta la relazione tra Qi e Fi con Qi sempre minore al massimo ugaule a Fi. nel caso in cui fossero uguali, allora avrei una euidistribuzione dell’intero ammontare→ La retta bisettrice rappresenta la retta di equidistribuzione (Qi = Fi) In generale Fi ≥ Qi fino al caso limite di massima concentrazione in cui Qi= 0 per i= 1,…(n-1) perché x1= x2= …xn-1 mentre Qn= 1 e xn= n ∙ x̅ (ammontare complessivo del carattere).

settimana 1-2 stat

Related documents

Products

Support

settimana 1-2 stat

Related documents

Add this document to collection(s)

Add this document to saved

Suggest us how to improve StudyLib