Uploaded by Davide Colombo

richiami statistica descrittiva

advertisement
Marketing Statistics and Metrics
Slides
A.A. 2023-2024
Docente: ANNA LINA SARRA
NOZIONI DI BASE DELLA STATISTICA
DESCRITTIVA
La statistica …che cosa è? Perché
viene utilizzata?
È una disciplina che concerne la raccolta, l’analisi, l’interpretazione e
presentazione dei dati.
Nasce dalla necessità di trarre conclusioni e informazioni da un
insieme di dati.
DEFINIZIONE di STATISTICA:
Analisi quantitativa di fenomeni collettivi, allo scopo di
descriverli e di individuare leggi e modelli che classificando le
loro variazioni permettono di spiegarli e di prevederli.
Scopi e funzioni
Rendere utilizzabili grandi quantità di informazioni, teoricamente
disponibili, ma di fatto difficilmente gestibili.
FUNZIONE DESCRITTIVA
FUNZIONE PREDITTIVA
Tramite la statistica è possibile sostituire ad un’impressione
qualitativa di un fenomeno la sua misura quantitativa.
Scopi e funzioni
TIPI DI STATISTICA:
Statistica DESCRITTIVA:
procedure per riassumere e
presentare i dati e per descriverli
attraverso strumenti matematici
Statistica INFERENZIALE:
procedure per analizzare i dati ottenuti
da un campione della popolazione per
stimare
un
fenomeno
statistico
sull’intera popolazione di riferimento
Chi usa la statistica?
Le scienze che studiano un
aspetto di una collettività di
individui (demografia, economia,
sociologia…).
•
• Le
• IL
scienze sperimentali
MARKETING
La statistica può descrivere:
TUTTA LA POPOLAZIONE (STATISTICA DESCRITTIVA)
– La metodologia impiegata è puramente descrittiva ed è un insieme di
tecniche relative a questo tipo di indagini.
UN CAMPIONE DELLA POPOLAZIONE (STATISTICA INFERENZIALE)
– La metodologia impiegata può essere detta inferenziale.
Nella statistica inferenziale si devono compiere tutte le operazioni di
schematizzazione e di descrizione proprie della statistica descrittiva; ad essi
poi vanno aggiunti i procedimenti inferenziali
La statistica descrittiva:
metodi per organizzare, riassumere e presentare i
dati in modo informativo.
Esempio 1:
Il 35% degli intervistati conosce le
modalità di trasmissione del virus
HIV.
La statistica 35 descrive il numero di
persone che conosce le modalità di
trasmissione del virus HIV tra 100
intervistate
.
Esempio 2:
In accordo ad interviste ai
consumatori, i cellulari di marchio
X hanno avuto 5 guasti per 100
durante il 2020.
La statistica 5 descrive il numero di
guasti su 100 cellulari esaminati.
La statistica inferenziale:
procedure per lo studio dei dati campionari che consentono di valutare la
possibilità di generalizzazione dei risultati descrittivi, ottenuti dall'elaborazione dei
dati campionari, alle popolazioni da cui sono stati estratti.
Esempio 1:
La direzione sanitaria di una azienda ospedaliera
vuole selezionare un campione di cartelle cliniche
per verificare l’accuratezza delle diagnosi in
rapporto ai drg (diagnosis related groups).
DEFINIZIONI PRELIMINARI:
POPOLAZIONE:
Una popolazione statistica o collettivo statistico è un insieme di
unità statistiche omogenee rispetto a una o più caratteristiche o
caratteri.
L’unità statistica è l’elemento su cui si osservano le caratteristiche
oggetto di studio.
POPOLAZIONE:
Esempio: Interessa studiare gli effetti del virus SarCoV2
Popolazione Obiettivo:
tutti gli individui che sono stati già esposti al contagio, o lo saranno, tutti i
pazienti che si sono ammalati, o si ammaleranno; compresi i soggetti
esposti o ammalatisi in passato, e deceduti.
Essa è detta POPOLAZIONE OBIETTIVO
REALE
FITTIZIA
Unità statistiche
L’unità statistica è l’elemento della popolazione su cui studiamo il fenomeno
che ci interessa, andando ad osservare alcune loro caratteristiche.
UNITA’
CARATTERISTICHE
Campione
• Il campione è un sottoinsieme
della popolazione.
• Viene utilizzato perché non è
sempre possibile fare valutazioni
sulla popolazione (cosa che fa il
censimento)
• La tecnica di estrazione di un
campione
viene
detta
campionamento
Matrice dei dati
Caratteri e modalità
• Le caratteristiche
di interesse delle unità statistiche sono dette
CARATTERI, o VARIABILI
• I caratteri presentano (si esprimono attraverso) dei VALORI o MODALITA’
– Le unità statistiche differiscono fra loro per le modalità che esse
presentano: il carattere presenta una variabilità che è l’oggetto di studio
della statistica.
Classificazione dei caratteri
La natura del carattere dipende da che modalità esso presenta
Caratteri qualitativi
Presentano modalità che corrispondono a diciture, attributi,
caratteristiche descrivibili attraverso “parole” (ovvero, attraverso
numeri che però non corrispondono a conteggi o misurazioni, ma
esprimono convenzioni)
– Non ammettono operazioni matematiche!!
Caratteri qualitativi
Caratteri quantitativi
Presentano modalità effettivamente numeriche, ottenute
tramite conteggio o misurazione; sulle modalità è possibile
eseguire operazioni matematiche.
Caratteri quantitativi
Operazioni sulle modalità
Gerarchia tra le variabili
Gerarchia tra le variabili
DISTRIBUZIONI DI FREQUENZE E INDICI DI SINTESI
• Frequenze assolute, relative e
percentuali
• Frequenze cumulate
• Tabelle doppie
• Indici di sintesi: moda,
mediana, media aritmetica
Le tabelle di frequenze
• La prima operazione utile per
sintetizzare una serie di dati relativa
ad un carattere è il conteggio:
ad ogni modalità (o classe, intervallo
di valori) si associa la frequenza,
ossia il numero di unità che
presentano quella modalità (o
cadono in quella classe).
Frequenze assolute, relative e
percentuali
• Assolute : numero di volte in cui si presenta una modalità
della variabile
• Relative : vengono calcolate come rapporto tra le
frequenze assolute e la numerosità del collettivo
• Percentuali: vengono calcolate come prodotto delle
frequenze relative per 100
Frequenze relative
Variabile qualitativa «fumo»
(0=no, 1=si, 2=ex fumatore)
Osservazioni sulle unità statistiche:
0,1,2,0,0,0,1,2,1,2,1,0,1,2,0,1,2,0,1,1,1
Rapporto delle frequenze
assolute per il totale:
7/21=0.33
9/21=0.43
5/21=0.24
Frequenze percentuali
Variabile qualitativa fumo
(0=no, 1=si, 2=ex fumatore)
Osservazioni sulle unità statistiche:
0,1,2,0,0,0,1,2,1,2,1,0,1,2,0,1,2,0,1,1,1
Prodotto delle frequenze
relative per 100%:
(0.33x100)%=33%
(0.43x100)%=43%
(0.24x100)%=24%
Percentuali: interpretazione ed uso
Consideriamo i risultati di uno studio relativo
Efficacia strategia di MARKETING
Presentiamo 2 scenari in cui le frequenze percentuali di risposta sono le stesse.
EFFICACIA
EFFICACIA
EFFICACIA
In presenza di percentuali, guardiamo e
riportiamo sempre la numerosità totale
del collettivo!!
Frequenze cumulate
Un’altra utile elaborazione delle frequenze, ma solo per caratteri qualitativi
ordinabili e quantitativi è rappresentata dalle frequenze cumulate.
Le frequenze cumulate (assolute o percentuali) rappresentano semplicemente le
somme parziali delle frequenze fino alla modalità corrente.
Ad esempio, guardando l’ultima colonna, posso subito vedere che:
3 donne su 4 (73%) hanno al massimo 1 figlio;
il 92% delle donne hanno al massimo 2 figli, e quindi solo l’8% ha più di 2 figli
etc
Raggruppamento in classi
Quando il carattere è quantitativo e il numero di osservazioni è elevato, la
presentazione dei dati richiede necessariamente che le modalità contigue siano
aggregate tramite la formazioni di classi, cioè di intervalli numerici
comprendenti più modalità.
Tabelle doppie
Tabelle doppie: frequenze
assolute
ACQUISTO SMARTPHONE
ULTIMO MESE
GENERE
M
F
TOTALE MARGINALE DI
RIGA
TOTALE MARGINALE DI
COLONNA
Tabelle doppie:
frequenze relative
ACQUISTO SMARTPHONE
ULTIMO MESE
GENERE
M
F
ACQUISTO SMARTPHONE
ULTIMO MESE
ACQUISTO SMARTPHONE
ULTIMO MESE
GENERE
GENERE
M
F
M
F
ACQUISTO SMARTPHONE
ULTIMO MESE
GENERE
M
F
Indici di sintesi
Moda
Modalità di una distribuzione a cui corrisponde la massima frequenza
ESEMPIO:
In quale tipologia di punti vendita ha acquistato i prodotti della nostra azienda?
Qui, la moda è la modalità
“Negozi del biologico”.
In un gruppo di clienti intervistati
la maggior parte acquista i
prodotti in negozi del biologico
La Mediana
La mediana di una distribuzione ordinata di valori è il valore dell’unità che si trova a metà
della distribuzione, in modo che il 50% dei valori della serie sia uguale o inferiore a esso e il
restante 50% sia superiore.
Per calcolare la mediana è necessario che la variabile sia quantitativa o
qualitativa ordinata.
Viene calcolata in modo diverso in base al numero di elementi della serie
Se n è dispari, la mediana
corrisponde all’osservazione che
occupa il posto [(n+1)/2]mo della
sequenza ordinata
Se n è pari, la mediana è data dalla
semisomma dei termini che occupano i
posti [n/2]mo & [(n/2) + 1]mo
La Mediana: esempio
Esempio: in un collettivo di 13 soggetti viene osservato il carattere Altezza (cm):
173 155 162 165 167 175 171 169 164 178 156 158 166
Ordiniamo in senso crescente le osservazioni, attribuendogli la posizione in
graduatoria (RANGO):
n dispari
n pari
Robustezza della mediana
La mediana non cambia o cambia di poco (è “robusta”) in presenza di alcuni
dati molto estremi (ad es. con alcuni valori molto alti rispetto agli altri).
Vediamo per esempio che succede se nel collettivo precedente i due soggetti
più alti sono ancora più alti:
La mediana non cambia poichè l’ordinamento delle prime n osservazioni non cambia.
Generalizzazione della mediana:
quantili
La mediana separa la distribuzione in due parti, ognuna comprendente il 50%
delle osservazioni.
• I quantili separano la distribuzione ad altre frazioni percentuali, ad esempio:
– Il 1 quartile (Q1) separa il primo 25% dal restante 75%
– Il 3 quartile (Q3) separa il primo 75% dal restante 25%
– Il 10 decile separa il primo 10% dal restante 90%
– Il 95°percentile è tale che solo il 5% ha un valore superiore a esso
– etc
La media aritmetica
La media aritmetica è una delle sintesi statistiche più importanti
La media, sostituita a ciascuna
osservazione, ricostituisce la
somma totale delle modalità.


Principali proprietà della media
La media è interna al range, ossia, è sempre
compresa fra l’osservazione più bassa e quella più
alta.
PRINCIPIO DI
INTERNALITA’ DEL
CHISINI
La somma degli scarti dalla media è nulla: ossia, la
media si colloca “al centro” dei valori osservati,
bilanciando scarti positivi e scarti negativi.
PRIMA PROPRIETA’ MEDIA
ARITMETICA
Se misuriamo la distanza delle osservazioni da un
valore C secondo questa misura globale, essa
assume il minimo se C è la media aritmetica:
ossia, la media aritmetica è il punto “globalmente
meno distante” dalle osservazioni.
SECONDA
PROPRIETA’ MEDIA
ARITMETICA
Media aritmetica per le distribuzioni
di frequenze
x1 · n1 + x2 ·n2 + ... + xk · nk 1 k
μ=
=  xi · ni
N
N i=1
k
= x1 · f1 + x2 · f2 + L + xk · fk =  xi · fi
i=1
Numero di accessi
al sito aziendale
Limitazioni della media aritmetica
La media è influenzata dai valori molto alti e dai valori molto
bassi .
Riprendiamo esempio ‘ altezze’


Variabilità
Per variabilità si intende l’attitudine dei fenomeni, naturali e sociali, a
manifestarsi in modi differenti.
• La variabilità è l’attitudine di un carattere a presentare modalità differenti
nel collettivo in esame.
• La distribuzione di un carattere presenta variabilità nulla se su tutte le
unità statistiche si rileva la stessa modalità. In tal caso tutti gli indici di
variabilità assumono valore zero.
Variabilità
Le misure variabilità sono indici che
1. Segnalano quanto sono tra loro diversi i valori della variabile
2. Evidenziano il grado di dispersione di ciascun valore rispetto
ad un punto di riferimento
3. Misurano la diversità tra due termini della distribuzione o tra
due quantili
Variabilità
MISURE DI VARIABILITA’
 assumono sempre il valore zero se i valori della variabile sono fra
loro uguali
 assumono valori crescenti positivi per livelli progressivamente
crescenti di variabilità: quanto più i termini della distribuzione sono
fra loro diversi, tanto più l'indice assume valori elevati
 sono espressi nella stessa unità di misura della variabile
Indici di dispersione:
Scarto quadratico medio o deviazione standard
La deviazione standard rappresenta la distanza media fra tutte le
osservazioni e la media.
N
σ=
 (x − μ)
i=1
i
N
2
Scarto quadratico medio
distribuzione disaggregata: calcolo
xi
(xi – μ)2
0
5
6
8
9
10
12
Totale
51.02
4.59
1.31
0.73
3.45
8.16
23.59
92.86
µ=7.14
N
σ=
 (x − μ)
i=1
i
2
N
Numero di prodotti acquistati nell’ultimo
mese
0, 5, 6, 8, 9, 10, 12
 Scostamento quadratico medio:
σ=
=
(0 − 7.14) 2 + (5 − 7.14) 2 + L + (12 − 7.14) 2
7
92.86
= 3.64
7
Numero di prodotti
σ per una distribuzione di frequenze a
k
modalità singole: calcolo
σ=
Numero di prodotti acquistati nell’ultimo mese da 19 persone
xi
ni
1
2
3
4
5
6
7
8
9
10
totale
xi *ni
1
2
3
3
1
2
1
2
3
1
19
1
4
9
12
5
12
7
16
27
10
103
(xi – μ)2 (xi – μ)2·ni
19.54
11.70
5.86
2.02
0.18
0.34
2.50
6.66
12.82
20.98
19.54
46.79
52.71
24.20
0.88
4.04
17.47
106.50
346.04
209.76
827.93
2
(x
−
μ)
 i ni
i=1
N
 Media aritmetica
µ=
103
= 5.42
19
 Scostamento quadratico medio
σ=
=
(1 − 5.42) 2 ·1 + L + (1 − 5.42) 2 ·10
=
19
827 .93
= 6 .6
19
Varianza
Il quadrato della deviazione standard prende il nome di VARIANZA


∑
()
 = 


Il numeratore è noto come «somma dei
quadrati degli scarti dalla media»

Si misura in unità quadratiche (Es. se x è
l’altezza in cm la varianza sarà espressa in
cm2)

Per questo conviene avere una misura
espressa nelle unità originarie di x, e ciò si
realizza calcolando la radice quadrata della
varianza.
Diversità tra due termini della distribuzione
La distanza tra il valore più piccolo e il valore più grande è indicata come
Campo di variazione (Range) .
Se utilizziamo la mediana come indice del centro della distribuzione, dividendo la
distribuzione in due parti, possiamo usare la stessa idea per misurare la dispersione .
La distanza tra Q1 e Q3 è una misura di variabilità detta INTERVALLO
INTERQUARTILE
Intervallo interquartile
Intervallo interquartile ∆ = -
individuato dal terzo e dal primo quartile :
intervallo in cui è compreso il 50% delle
osservazioni
Q3 =8 ore
Q1 =2 ore
Può essere calcolato per
• VARIABILI QUANTITATIVE
• E VARIABILI QUALITATIVE ORDINALI
Indici di variabilità relativa
Il problema si pone nel confrontare gli indici di variabilità di 2 o
più distribuzioni diverse .
Coefficiente di variazione
Il CV è una misura relativa di variabilità: esprime la variabilità in proporzione
alla dimensione media del carattere; inoltre, è un numero senza unità di
misura, è quindi una misura adatta a confrontare la variabilità fra popolazioni
diverse, e anche fra caratteri diversi
Confrontare la variabilità di due
distribuzioni
Confrontare la variabilità di due
distribuzioni
Quale delle due distribuzioni risulta
essere caratterizzata da maggiore
variabilità?
Coefficiente di variazione
Coefficiente di variazione
Il BOX-PLOT
• Una descrizione sintetica e abbastanza completa di una distribuzione di
frequenze secondo un carattere quantitativo è data dal box-plot; questo
è un riassunto a cinque numeri.
• I numeri sono i seguenti:
• - la mediana (che dà informazioni sulla tendenza centrale)
• - il primo e terzo quartile (la cui differenza dà informazioni sulla
variabilità)
• - i due estremi (la modalità più grande e la modalità più piccola)
• Questi numeri forniscono una descrizione sintetica di un insieme di dati
anche quando il numero di unità osservate è elevato.
Box plot o Diagramma a scatola
Il box plot di una distribuzione è un
grafico caratterizzato da tre elementi
principali:
 una linea che indica la posizione
della mediana della distribuzione
 un rettangolo (box) i cui estremi
sono determinati in base ai quartili
Q1 e Q3 della distribuzione e la cui
altezza indica la variabilità dei valori
prossimi alla mediana
 due segmenti che partono dal
rettangolo i cui estremi sono
determinati in base ai valori minimo
e massimo della distribuzione
yn=max
q3
m
q1
y1=min
∆q
∆c
INTERPRETAZIONE DEL BOXPLOT
Il box-plot è utile perché riassume mediante pochi numeri molte
informazioni su una distribuzione di frequenze.
• La mediana riassume la tendenza centrale della distribuzione.
• I quartili danno un’indicazione sulla variabilità, perché con essi si
calcola lo scarto interquartile (misura più robusta del campo di
variazione).
• La posizione della mediana rispetto ai quartili fornisce altre utili
informazioni (in particolare sulla asimmetria della distribuzione).
• Gli estremi forniscono indicazioni non solo sul valore massimo e
valore minimo ma soprattutto sull’eventuale presenza di dati
con caratteristiche anomale
Il BOX-PLOT
Valori anomali ed estremi
Un dato è anomalo se:
• è maggiore del valore Q3 + 1.5∆ q
• è minore del valore
Q1 − 1.5∆ q
Un dato è estremo (estremamente anomalo) se
• è maggiore del valore Q3 + 3∆ q
• è minore del valore Q1 − 3∆ q
Download