Marketing Statistics and Metrics Slides A.A. 2023-2024 Docente: ANNA LINA SARRA NOZIONI DI BASE DELLA STATISTICA DESCRITTIVA La statistica …che cosa è? Perché viene utilizzata? È una disciplina che concerne la raccolta, l’analisi, l’interpretazione e presentazione dei dati. Nasce dalla necessità di trarre conclusioni e informazioni da un insieme di dati. DEFINIZIONE di STATISTICA: Analisi quantitativa di fenomeni collettivi, allo scopo di descriverli e di individuare leggi e modelli che classificando le loro variazioni permettono di spiegarli e di prevederli. Scopi e funzioni Rendere utilizzabili grandi quantità di informazioni, teoricamente disponibili, ma di fatto difficilmente gestibili. FUNZIONE DESCRITTIVA FUNZIONE PREDITTIVA Tramite la statistica è possibile sostituire ad un’impressione qualitativa di un fenomeno la sua misura quantitativa. Scopi e funzioni TIPI DI STATISTICA: Statistica DESCRITTIVA: procedure per riassumere e presentare i dati e per descriverli attraverso strumenti matematici Statistica INFERENZIALE: procedure per analizzare i dati ottenuti da un campione della popolazione per stimare un fenomeno statistico sull’intera popolazione di riferimento Chi usa la statistica? Le scienze che studiano un aspetto di una collettività di individui (demografia, economia, sociologia…). • • Le • IL scienze sperimentali MARKETING La statistica può descrivere: TUTTA LA POPOLAZIONE (STATISTICA DESCRITTIVA) – La metodologia impiegata è puramente descrittiva ed è un insieme di tecniche relative a questo tipo di indagini. UN CAMPIONE DELLA POPOLAZIONE (STATISTICA INFERENZIALE) – La metodologia impiegata può essere detta inferenziale. Nella statistica inferenziale si devono compiere tutte le operazioni di schematizzazione e di descrizione proprie della statistica descrittiva; ad essi poi vanno aggiunti i procedimenti inferenziali La statistica descrittiva: metodi per organizzare, riassumere e presentare i dati in modo informativo. Esempio 1: Il 35% degli intervistati conosce le modalità di trasmissione del virus HIV. La statistica 35 descrive il numero di persone che conosce le modalità di trasmissione del virus HIV tra 100 intervistate . Esempio 2: In accordo ad interviste ai consumatori, i cellulari di marchio X hanno avuto 5 guasti per 100 durante il 2020. La statistica 5 descrive il numero di guasti su 100 cellulari esaminati. La statistica inferenziale: procedure per lo studio dei dati campionari che consentono di valutare la possibilità di generalizzazione dei risultati descrittivi, ottenuti dall'elaborazione dei dati campionari, alle popolazioni da cui sono stati estratti. Esempio 1: La direzione sanitaria di una azienda ospedaliera vuole selezionare un campione di cartelle cliniche per verificare l’accuratezza delle diagnosi in rapporto ai drg (diagnosis related groups). DEFINIZIONI PRELIMINARI: POPOLAZIONE: Una popolazione statistica o collettivo statistico è un insieme di unità statistiche omogenee rispetto a una o più caratteristiche o caratteri. L’unità statistica è l’elemento su cui si osservano le caratteristiche oggetto di studio. POPOLAZIONE: Esempio: Interessa studiare gli effetti del virus SarCoV2 Popolazione Obiettivo: tutti gli individui che sono stati già esposti al contagio, o lo saranno, tutti i pazienti che si sono ammalati, o si ammaleranno; compresi i soggetti esposti o ammalatisi in passato, e deceduti. Essa è detta POPOLAZIONE OBIETTIVO REALE FITTIZIA Unità statistiche L’unità statistica è l’elemento della popolazione su cui studiamo il fenomeno che ci interessa, andando ad osservare alcune loro caratteristiche. UNITA’ CARATTERISTICHE Campione • Il campione è un sottoinsieme della popolazione. • Viene utilizzato perché non è sempre possibile fare valutazioni sulla popolazione (cosa che fa il censimento) • La tecnica di estrazione di un campione viene detta campionamento Matrice dei dati Caratteri e modalità • Le caratteristiche di interesse delle unità statistiche sono dette CARATTERI, o VARIABILI • I caratteri presentano (si esprimono attraverso) dei VALORI o MODALITA’ – Le unità statistiche differiscono fra loro per le modalità che esse presentano: il carattere presenta una variabilità che è l’oggetto di studio della statistica. Classificazione dei caratteri La natura del carattere dipende da che modalità esso presenta Caratteri qualitativi Presentano modalità che corrispondono a diciture, attributi, caratteristiche descrivibili attraverso “parole” (ovvero, attraverso numeri che però non corrispondono a conteggi o misurazioni, ma esprimono convenzioni) – Non ammettono operazioni matematiche!! Caratteri qualitativi Caratteri quantitativi Presentano modalità effettivamente numeriche, ottenute tramite conteggio o misurazione; sulle modalità è possibile eseguire operazioni matematiche. Caratteri quantitativi Operazioni sulle modalità Gerarchia tra le variabili Gerarchia tra le variabili DISTRIBUZIONI DI FREQUENZE E INDICI DI SINTESI • Frequenze assolute, relative e percentuali • Frequenze cumulate • Tabelle doppie • Indici di sintesi: moda, mediana, media aritmetica Le tabelle di frequenze • La prima operazione utile per sintetizzare una serie di dati relativa ad un carattere è il conteggio: ad ogni modalità (o classe, intervallo di valori) si associa la frequenza, ossia il numero di unità che presentano quella modalità (o cadono in quella classe). Frequenze assolute, relative e percentuali • Assolute : numero di volte in cui si presenta una modalità della variabile • Relative : vengono calcolate come rapporto tra le frequenze assolute e la numerosità del collettivo • Percentuali: vengono calcolate come prodotto delle frequenze relative per 100 Frequenze relative Variabile qualitativa «fumo» (0=no, 1=si, 2=ex fumatore) Osservazioni sulle unità statistiche: 0,1,2,0,0,0,1,2,1,2,1,0,1,2,0,1,2,0,1,1,1 Rapporto delle frequenze assolute per il totale: 7/21=0.33 9/21=0.43 5/21=0.24 Frequenze percentuali Variabile qualitativa fumo (0=no, 1=si, 2=ex fumatore) Osservazioni sulle unità statistiche: 0,1,2,0,0,0,1,2,1,2,1,0,1,2,0,1,2,0,1,1,1 Prodotto delle frequenze relative per 100%: (0.33x100)%=33% (0.43x100)%=43% (0.24x100)%=24% Percentuali: interpretazione ed uso Consideriamo i risultati di uno studio relativo Efficacia strategia di MARKETING Presentiamo 2 scenari in cui le frequenze percentuali di risposta sono le stesse. EFFICACIA EFFICACIA EFFICACIA In presenza di percentuali, guardiamo e riportiamo sempre la numerosità totale del collettivo!! Frequenze cumulate Un’altra utile elaborazione delle frequenze, ma solo per caratteri qualitativi ordinabili e quantitativi è rappresentata dalle frequenze cumulate. Le frequenze cumulate (assolute o percentuali) rappresentano semplicemente le somme parziali delle frequenze fino alla modalità corrente. Ad esempio, guardando l’ultima colonna, posso subito vedere che: 3 donne su 4 (73%) hanno al massimo 1 figlio; il 92% delle donne hanno al massimo 2 figli, e quindi solo l’8% ha più di 2 figli etc Raggruppamento in classi Quando il carattere è quantitativo e il numero di osservazioni è elevato, la presentazione dei dati richiede necessariamente che le modalità contigue siano aggregate tramite la formazioni di classi, cioè di intervalli numerici comprendenti più modalità. Tabelle doppie Tabelle doppie: frequenze assolute ACQUISTO SMARTPHONE ULTIMO MESE GENERE M F TOTALE MARGINALE DI RIGA TOTALE MARGINALE DI COLONNA Tabelle doppie: frequenze relative ACQUISTO SMARTPHONE ULTIMO MESE GENERE M F ACQUISTO SMARTPHONE ULTIMO MESE ACQUISTO SMARTPHONE ULTIMO MESE GENERE GENERE M F M F ACQUISTO SMARTPHONE ULTIMO MESE GENERE M F Indici di sintesi Moda Modalità di una distribuzione a cui corrisponde la massima frequenza ESEMPIO: In quale tipologia di punti vendita ha acquistato i prodotti della nostra azienda? Qui, la moda è la modalità “Negozi del biologico”. In un gruppo di clienti intervistati la maggior parte acquista i prodotti in negozi del biologico La Mediana La mediana di una distribuzione ordinata di valori è il valore dell’unità che si trova a metà della distribuzione, in modo che il 50% dei valori della serie sia uguale o inferiore a esso e il restante 50% sia superiore. Per calcolare la mediana è necessario che la variabile sia quantitativa o qualitativa ordinata. Viene calcolata in modo diverso in base al numero di elementi della serie Se n è dispari, la mediana corrisponde all’osservazione che occupa il posto [(n+1)/2]mo della sequenza ordinata Se n è pari, la mediana è data dalla semisomma dei termini che occupano i posti [n/2]mo & [(n/2) + 1]mo La Mediana: esempio Esempio: in un collettivo di 13 soggetti viene osservato il carattere Altezza (cm): 173 155 162 165 167 175 171 169 164 178 156 158 166 Ordiniamo in senso crescente le osservazioni, attribuendogli la posizione in graduatoria (RANGO): n dispari n pari Robustezza della mediana La mediana non cambia o cambia di poco (è “robusta”) in presenza di alcuni dati molto estremi (ad es. con alcuni valori molto alti rispetto agli altri). Vediamo per esempio che succede se nel collettivo precedente i due soggetti più alti sono ancora più alti: La mediana non cambia poichè l’ordinamento delle prime n osservazioni non cambia. Generalizzazione della mediana: quantili La mediana separa la distribuzione in due parti, ognuna comprendente il 50% delle osservazioni. • I quantili separano la distribuzione ad altre frazioni percentuali, ad esempio: – Il 1 quartile (Q1) separa il primo 25% dal restante 75% – Il 3 quartile (Q3) separa il primo 75% dal restante 25% – Il 10 decile separa il primo 10% dal restante 90% – Il 95°percentile è tale che solo il 5% ha un valore superiore a esso – etc La media aritmetica La media aritmetica è una delle sintesi statistiche più importanti La media, sostituita a ciascuna osservazione, ricostituisce la somma totale delle modalità. Principali proprietà della media La media è interna al range, ossia, è sempre compresa fra l’osservazione più bassa e quella più alta. PRINCIPIO DI INTERNALITA’ DEL CHISINI La somma degli scarti dalla media è nulla: ossia, la media si colloca “al centro” dei valori osservati, bilanciando scarti positivi e scarti negativi. PRIMA PROPRIETA’ MEDIA ARITMETICA Se misuriamo la distanza delle osservazioni da un valore C secondo questa misura globale, essa assume il minimo se C è la media aritmetica: ossia, la media aritmetica è il punto “globalmente meno distante” dalle osservazioni. SECONDA PROPRIETA’ MEDIA ARITMETICA Media aritmetica per le distribuzioni di frequenze x1 · n1 + x2 ·n2 + ... + xk · nk 1 k μ= = xi · ni N N i=1 k = x1 · f1 + x2 · f2 + L + xk · fk = xi · fi i=1 Numero di accessi al sito aziendale Limitazioni della media aritmetica La media è influenzata dai valori molto alti e dai valori molto bassi . Riprendiamo esempio ‘ altezze’ Variabilità Per variabilità si intende l’attitudine dei fenomeni, naturali e sociali, a manifestarsi in modi differenti. • La variabilità è l’attitudine di un carattere a presentare modalità differenti nel collettivo in esame. • La distribuzione di un carattere presenta variabilità nulla se su tutte le unità statistiche si rileva la stessa modalità. In tal caso tutti gli indici di variabilità assumono valore zero. Variabilità Le misure variabilità sono indici che 1. Segnalano quanto sono tra loro diversi i valori della variabile 2. Evidenziano il grado di dispersione di ciascun valore rispetto ad un punto di riferimento 3. Misurano la diversità tra due termini della distribuzione o tra due quantili Variabilità MISURE DI VARIABILITA’ assumono sempre il valore zero se i valori della variabile sono fra loro uguali assumono valori crescenti positivi per livelli progressivamente crescenti di variabilità: quanto più i termini della distribuzione sono fra loro diversi, tanto più l'indice assume valori elevati sono espressi nella stessa unità di misura della variabile Indici di dispersione: Scarto quadratico medio o deviazione standard La deviazione standard rappresenta la distanza media fra tutte le osservazioni e la media. N σ= (x − μ) i=1 i N 2 Scarto quadratico medio distribuzione disaggregata: calcolo xi (xi – μ)2 0 5 6 8 9 10 12 Totale 51.02 4.59 1.31 0.73 3.45 8.16 23.59 92.86 µ=7.14 N σ= (x − μ) i=1 i 2 N Numero di prodotti acquistati nell’ultimo mese 0, 5, 6, 8, 9, 10, 12 Scostamento quadratico medio: σ= = (0 − 7.14) 2 + (5 − 7.14) 2 + L + (12 − 7.14) 2 7 92.86 = 3.64 7 Numero di prodotti σ per una distribuzione di frequenze a k modalità singole: calcolo σ= Numero di prodotti acquistati nell’ultimo mese da 19 persone xi ni 1 2 3 4 5 6 7 8 9 10 totale xi *ni 1 2 3 3 1 2 1 2 3 1 19 1 4 9 12 5 12 7 16 27 10 103 (xi – μ)2 (xi – μ)2·ni 19.54 11.70 5.86 2.02 0.18 0.34 2.50 6.66 12.82 20.98 19.54 46.79 52.71 24.20 0.88 4.04 17.47 106.50 346.04 209.76 827.93 2 (x − μ) i ni i=1 N Media aritmetica µ= 103 = 5.42 19 Scostamento quadratico medio σ= = (1 − 5.42) 2 ·1 + L + (1 − 5.42) 2 ·10 = 19 827 .93 = 6 .6 19 Varianza Il quadrato della deviazione standard prende il nome di VARIANZA ∑ () = Il numeratore è noto come «somma dei quadrati degli scarti dalla media» Si misura in unità quadratiche (Es. se x è l’altezza in cm la varianza sarà espressa in cm2) Per questo conviene avere una misura espressa nelle unità originarie di x, e ciò si realizza calcolando la radice quadrata della varianza. Diversità tra due termini della distribuzione La distanza tra il valore più piccolo e il valore più grande è indicata come Campo di variazione (Range) . Se utilizziamo la mediana come indice del centro della distribuzione, dividendo la distribuzione in due parti, possiamo usare la stessa idea per misurare la dispersione . La distanza tra Q1 e Q3 è una misura di variabilità detta INTERVALLO INTERQUARTILE Intervallo interquartile Intervallo interquartile ∆ = - individuato dal terzo e dal primo quartile : intervallo in cui è compreso il 50% delle osservazioni Q3 =8 ore Q1 =2 ore Può essere calcolato per • VARIABILI QUANTITATIVE • E VARIABILI QUALITATIVE ORDINALI Indici di variabilità relativa Il problema si pone nel confrontare gli indici di variabilità di 2 o più distribuzioni diverse . Coefficiente di variazione Il CV è una misura relativa di variabilità: esprime la variabilità in proporzione alla dimensione media del carattere; inoltre, è un numero senza unità di misura, è quindi una misura adatta a confrontare la variabilità fra popolazioni diverse, e anche fra caratteri diversi Confrontare la variabilità di due distribuzioni Confrontare la variabilità di due distribuzioni Quale delle due distribuzioni risulta essere caratterizzata da maggiore variabilità? Coefficiente di variazione Coefficiente di variazione Il BOX-PLOT • Una descrizione sintetica e abbastanza completa di una distribuzione di frequenze secondo un carattere quantitativo è data dal box-plot; questo è un riassunto a cinque numeri. • I numeri sono i seguenti: • - la mediana (che dà informazioni sulla tendenza centrale) • - il primo e terzo quartile (la cui differenza dà informazioni sulla variabilità) • - i due estremi (la modalità più grande e la modalità più piccola) • Questi numeri forniscono una descrizione sintetica di un insieme di dati anche quando il numero di unità osservate è elevato. Box plot o Diagramma a scatola Il box plot di una distribuzione è un grafico caratterizzato da tre elementi principali: una linea che indica la posizione della mediana della distribuzione un rettangolo (box) i cui estremi sono determinati in base ai quartili Q1 e Q3 della distribuzione e la cui altezza indica la variabilità dei valori prossimi alla mediana due segmenti che partono dal rettangolo i cui estremi sono determinati in base ai valori minimo e massimo della distribuzione yn=max q3 m q1 y1=min ∆q ∆c INTERPRETAZIONE DEL BOXPLOT Il box-plot è utile perché riassume mediante pochi numeri molte informazioni su una distribuzione di frequenze. • La mediana riassume la tendenza centrale della distribuzione. • I quartili danno un’indicazione sulla variabilità, perché con essi si calcola lo scarto interquartile (misura più robusta del campo di variazione). • La posizione della mediana rispetto ai quartili fornisce altre utili informazioni (in particolare sulla asimmetria della distribuzione). • Gli estremi forniscono indicazioni non solo sul valore massimo e valore minimo ma soprattutto sull’eventuale presenza di dati con caratteristiche anomale Il BOX-PLOT Valori anomali ed estremi Un dato è anomalo se: • è maggiore del valore Q3 + 1.5∆ q • è minore del valore Q1 − 1.5∆ q Un dato è estremo (estremamente anomalo) se • è maggiore del valore Q3 + 3∆ q • è minore del valore Q1 − 3∆ q