Uploaded by valentinafellegara

TEORIA

advertisement
07/10/2020
LEZIONE 1
IL FLUSSO DELLE INFORMAZIONI CLIENTE – IMPRESE
Schema slide 1
Da un lato ci sono le IMPRESE e dall’altro il mercato in cui OPERANO.
Tale schema descrive il flusso delle informazioni: che dal mercato arriva all’impresa e dell’impresa viene
restituito al mercato  circolo virtuoso di informazione.
MA QUANDO L’IMPRESA RIESCE AD ACQUISIRE INFORMAZIONI SUL PROPRIO CLIENTE?
Avviene esattamente quando c’è l’acquisto!
Il consumatore in quel momento comunica all’azienda una serie di informazioni.
Oggi spesso gli acquisti avvengono anche tramite canali digitali e si comunica una serie di informazioni (si
pensi al profilo personale)  comunichiamo le nostre preferenze, caratteristiche geografiche, età, genere,
punto di vista valoriale…
Il prodotto/servizio NON è acquistato dal consumatore esclusivamente come portatore esclusivo di un
obiettivo funzionale (non solo per ciò che ci servono), ma anche per quello che esprimono!
Le informazioni e caratteristiche di soggetti che acquistano presso un determinato BRAND, sono diverse dai
soggetti che acquistano presso un BRAND differente.
Difatti se il BRAND comunica con i propri prodotti/servizi un certo messaggio  i soggetti che accolgono
tale messaggio, dovrebbero essere generalmente coerenti con esso.
Quindi lo scambio di informazione mercato – impresa, vede come risposta lo sviluppo di determinati
prodotti/servizi da parte dell’impresa per il soddisfacimento di determinati soggetti e bisogni.
Questa rappresentazione può essere vista come una sorta di “sintesi” del corso!
Noi impareremo che tali informazioni sono molto importanti per noi (x es pensiamo la fidelity card, è stata
introdotta da tantissimi brand  si vogliono acquisire sempre più informazioni sul proprio cliente e sul suo
comportamento d’acquisto).
Tali informazioni sono molto preziose per l’azienda: non solo conoscere il cliente, ma poter anche
PREVEDERE quello che potrebbe essere il suo comportamento, sviluppando in futuro dei servizi che fino a
quel momento magari non erano stati presi in considerazione, al solo scopo di FIDELIZZARLO.
ESTREMA IMPORTANZA del trattamento e della raccolta delle informazioni.
Le informazioni raccolte sono preziose non solo perché ci permettono di produrre prodotti che saranno di
successo sul mercato, ma anche x es. cambiare prodotti/servizi esistenti che non avevano riscosso troppo
successo, fino a farli diventare apprezzati dal mercato!
x es : COCA COLA 0: la sua storia è abbastanza particolare: nei primi anni ’80, viene lanciata sul mercato la
“DIET COKE”, in America si era diffusa una certa attenzione per il fitness e naturalmente la coca cola viene
“vietata” nelle diete! La coca cola attraverso la raccolta e l’analisi delle informazioni, produce sul mercato
un nuovo prodotto/servizio.
Negli anni ’90 viene chiamata “COCA COLA LIGHT”. Risponde proprio a questa esigenza.
Nella metà degli anni 2000, l’azienda si rende conto che questa coca cola viene bevuta quasi solamente da
donne. Ci si pone quindi il problema degli “uomini”: rispondere al mercato con un nuovo prodotto  nasce
la Coca Cola 0.
Difatti la “Coca Cola Light” veniva concepita essenzialmente come un prodotto femminile  si è cercato
quindi di soddisfare un’altra faccia del mercato.
La Coca Cola 0 anche nel packaging ha un modo di presentarsi più “aggressivo” (lattina nera x es).
Appunto l’utilizzo delle informazioni può indurre l’azienda a porre nuovi prodotti o a variare quelli esistenti!
NB: LA SOCIETA’ E’ CAMBIATA RADICALMENTE NEL TEMPO!
Questo incide sia sui prodotti che vengono immessi nel mercato, sia nel modo in cui vengono proposti: si
pensi al canale di comunicazione.
X es: per un pubblico giovane, devo preferire i canali social piuttosto che la TV; per genitori/nonni dovrei
fare scelte alternative.
L’informazione è quello che oggi viene definito come l’ORO DELLE AZIENDE.
INFORMAZIONI CARATTERIZZANTI:
Informazioni Socio-Demografiche: Età, Genere, Reddito, Occupazione, Livello d’istruzione.
x es: più i soggetti sono scolarizzati, più il livello di soddisfazione rispetto alle banche è inferiore  più
critico.
Anche la “capacità di spesa” del cliente è fondamentale per l’azienda: occupazione e soprattutto il
REDDITO! In realtà oggi queste informazioni non sono semplici da reperire: si cerca essenzialmente di
capire se il cliente è un lavoratore oppure no e si cerca successivamente di fare delle domande (non per
forza dirette) per reperire tali informazioni
(x es: fare domande collegate al reddito che non fanno menzione diretta ad esso: se si vive in
casa/appartamento, che auto possediamo, se si vive in centro/periferia….ecc)
SONO SUFFICIENTI QUESTE DOMANDE PER COSTRUIRE PROFILI DEI CLIENTI CHE MI AIUTANO A COSTRUIRE
STRATEGIE DI MARKETING?
Queste informazioni mi raccontano prevalentemente e mi permettono di analizzare la struttura sociale e
demografica dei miei consumatori/clienti.
CHE COSA MANCA A QUESTO SCHEMA DI INFORMAZIONI?
Non conosco quelle che sono le abitudini dei soggetti (x es abitudini di consumo).
Queste informazioni sono facilmente reperibili tramite le fidelity card: x es quando vado a fare la spesa,
quanto spendo, che ora, ecc…
Ma anche altre informazioni “NASCOSTE”, ovvero che non viene fuori attraverso la registrazione di questi
dati, sono importanti
 Profili psicografici: Abitudini, Atteggiamenti, Valori, Interessi, Opinioni
x es: non acquisto carne al supermercato ma solo verdura, perché sono vegetariana / non compro la carne
al supermercato.
Questa motivazione fornisce all’azienda la “spiegazione” del comportamento d’acquisto  l’azienda
capisce se c’è o meno possibilità di vendere qualcosa, oppure se proprio non c’è possibilità di poter
convincere/recuperare il cliente.
Tutta questa parte è estremamente importante, proprio nel momento della segmentazione di mercato
 il mercato non è composto da soggetti che hanno TUTTI stessi comportamenti o valori, quindi l’azienda
non può rispondere con lo stesso prodotto per tutti (a meno che non si tratti di prodotti di lusso, che sono
più standard/basic)
 in altri casi si parla proprio di prodotti alternativi (si pensi a tutti i prodotti vegani: nuovi valori e nuove
abitudini).
E’ proprio questa parte che ci permette di sviluppare un “profilo psicografico” dei soggetti.
LA SEGMENTAZIONE DELLA CUSTOMER BASE passa dall’essere statica all’essere più DINAMICA
 si basa sempre di più sul comportamento (non più solo sulle informazioni demografiche)
Naturalmente anche la struttura demografica del soggetto viene rilevata nella segmentazione più
comportamentale.
Per applicare l’approccio “BEHAVIOURAL” è necessario raccogliere molte più informazioni.
Non si pensi che sia così difficile recuperare queste tipologie di informazioni (psicografiche), difatti si
potrebbero riscontrare difficoltà anche solo a raccogliere informazioni sociodemografiche.
E’ importante ideare il proprio “questionario” in maniera OPPORTUNA!
Esistono linee guida da seguire per ideare il BUON QUESTIONARIO, oltre a tanta esperienza  ideare un
buon questionario è molto molto difficile.
x es: segmentare i soggetti in base a reddito/occupazione (sono due caratteristiche oggettive, a cui i
soggetti dovrebbero rispondere molto facilmente), ma si potrebbero riscontrare difficoltà
L’indagine svolta dall’Instat per esempio chiedeva se si fosse un lavoratore o meno (x l’instat “occupato” è
colui che ha svolto almeno 1 ora di lavoro in una determinata settimana), per un lavoratore saltuario
potrebbe essere difficile pensare o ricordarsi se si è lavorato o meno quella settimana…
altro es: gli italiani sono sensibili particolarmente alla domanda sul reddito (tendono a non rispondere);
quindi l’Instat ha deciso di indicare delle classi di reddito in cui potersi identificare  si è notato che gli
italiani sceglievano la classe inferiore rispetto a quella a cui appartenevano veramente  per ovviare, ha
scelto classi estremamente strette di reddito.
altro es: se chiedo al soggetto “quante volte acquisti il prodotto?”, mi affido alla sua memoria!
Se lo costringessi a concentrarsi su lassi temporali molto lunghi, la memoria potrebbe essere non veritiera.
C’è un effetto telescopico di avvicinamento se il prodotto è particolarmente gradito, di allontanamento se
non lo è.
Non scegliamo la segmentazione “demografica” (/statica) perché è più semplice  ma perché potrebbe
presentare dei problemi.
Se scegliamo la segmentazione “behavioural” facciamo riferimento a degli aspetti più vicini al consumatore
(gli chiediamo di raccontarci il perché di certe azioni, gli permettiamo di esprimerci, le risposte potrebbero
essere più veritiere!)
La segmentazione è una tecnica su cui ci concentriamo particolarmente, ma anch’essa presenta una serie di
problematiche.
La raccolta delle informazioni e la redazione del questionario rappresenta proprio una criticità nella ricerca.
Una buona analisi può essere fatta se abbiamo a disposizione BUONI DATI.
Espressione statistica: “GARBAGE IN, GARBAGE OUT”  se immetto della spazzatura (nei miei modelli):
risposte inutili, sbagliate, immetto dati inseriti male, ecc.., emetto spazzatura!
Il momento del questionario è quindi drammatico ed importante perché io raccolgo l’informazione in quel
momento e basta: dev’essere ideato perfettamente e perfino testato.
SLIDE 3
LEZIONE 2
12/12/2020
IL PROCESSO DI RICERCA DI MARKETING
Ci siamo resi conto dell’importanza delle informazioni  permettono di proporre prodotti aggiornati /
modificare quelli già presenti sul mercato (rispondere alle esigenze del mercato!)
Esistono informazioni più OGGETTIVE ed informazioni più SOGGETTIVE.
Oggi ci occupiamo di capire come utilizzare queste informazioni in maniera opportuna.
Fino a poco tempo fa, le informazioni “non c’erano”
 oggi CI SONO: il problema è di non sapere cosa farci !
 fa parte di un corso di statistica, anche la parte riguardare alla “costruzione dell’informazione”
Identifichiamo le varie fasi del processo di ricerca di marketing:
-DEFINIZIONE DEL PROBLEMA E DEGLI OBIETTIVI DI RICERCA : capire quali sono i dati che potrebbero
rispondere all’obiettivo che ci stiamo ponendo
 più la domanda di ricerca è precisa
 meno fatica faremo nel raccogliere i dati (sia se i dati sono già a disposizione in azienda che nel caso in
cui debbano essere raccolti “ex novo”)
-SVILUPPO DEL PIANO DI RICERCA PER LA RACCOLTA DELLE INFORMAZIONI : se abbiamo un obiettivo
preciso, è nostra cura sviluppare il piano di ricerca (capire se le informazioni sono presenti in azienda
oppure no)
Se sono presenti, capire se vogliamo analizzare la logistica/vendite/CRM/ ecc…;
se devono essere raccolte “ex novo”, dobbiamo stabilire come raccogliere queste informazioni: piano della
ricerca  se devo svolgere una ricerca su persone particolarmente giovani, mi baserò sullo strumento dei
social / survey utilizzando smartphone / focus group
-REALIZZAZIONE DEL PIANO DI RICERCA: raccolta ed analisi delle informazioni : non per tutti utilizzo lo
stesso tipo di raccolta e piano della ricerca  dev’essere declinato di volta in volta all’obiettivo che
vogliamo raggiungere
 i dati raccolti devono essere analizzati e successivamente
-INTERPRETAZIONE E PRESENTAZIONE DEI RISULTATI : l’interpretazione non è necessariamente “univoca”
 si può rispondere allo stesso quesito anche utilizzando tecniche alternative
Esempio di problema di marketing, che trasformiamo in un “problema di ricerca” :
devo lanciare un nuovo prodotto, vorrei capire quali sono le caratteristiche del mercato nel quale provo a
lanciare i mio nuovo prodotto.
Tale problema dev’essere inserito all’interno dello schema precedente:
1. Costruire il problema dal punto di vista degli obiettivi: capire la composizione del mercato potenziale /
caratteristiche / comportamento d’acquisto…ecc
2. Sviluppare il piano di ricerca
3. Analizzare le informazioni ed interpretarle
Altro problema di tipo marketing: fare un posizionamento di prodotto (nuovo / già presente)  vorrei
capire come il mio prodotto viene percepito dai miei consumatori:
l’azienda presenta un determinato posizionamento, ma dopo facendo l’analisi si scoprono nuove
caratteristiche.
Come potremmo fare un’analisi di questo tipo?
Identifico i potenziali competitor : faccio un’analisi del brand, scelgo l’insieme degli attributi che descrivono
il mio prodotto/ i prodotti altrui, faccio valutare ai miei consumatori i prodotti alternativi, cerco di capire
quali sono le caratteristiche di somiglianza o dissomiglianza vincenti
(potrei scoprire che i miei punti di forza sono ancora migliorabili)
Altro tipo di problema: soddisfazione del consumatore
 trasformarlo in un “Problema di ricerca” significa :
scomporre il prodotto nelle sue caratteristiche peculiari / somministrare una survey per capire quanto il
prodotto è apprezzato e quanto gli attributi che lo descrivono son considerati importanti per i soggetti che
lo hanno utilizzato
Quando facciamo la conversione di un “problema di marketing” in un “problema di ricerca” riusciamo
AUTOMATICAMENTE ad identificare o a scrivere il flusso del piano di ricerca  andare ad identificare le
variabili che andremmo a studiare: la definizione del problema dev’essere PARTICOLARMENTE accurata!
IL PROCEDIMENTO DELLA RICERCA
Dobbiamo prima identificare se procedere con un “procedimento induttivo” piuttosto che un
“procedimento deduttivo”.
PROCESSO INDUTTIVO 
OBIETTIVO: mira alla conoscenza generale attraverso l’analisi di n casi particolari
FASI:
1. Osservazione: su un “campione rappresentativo”
2. Astrazione
3. Regola generale: rendere la conoscenza generalizzabile
APPLICAZIONI: analisi di un nuovo mercato (rivolte a fare valutazioni che non erano state fatte prima),
indagini sui processi di scelta nel punto vendita, valutazione di un nuovo product concept (l’idea di creare
prodotti nuovi spesso si realizza anche attraverso un focus group….)  viene applicato ogni volta in cui
“non ho una storia pregressa”, l’azienda non può beneficiare di informazioni ulteriori
PROCESSO DEDUTTIVO 
OBIETTIVO: mira alla verifica di una teoria generale attraverso l’esame di situazioni particolari
FASI:
1. Studio delle fonti
2. Formulazione di una teoria
3. Osservazione
4. Verifica
APPLICAZIONI: analisi della customer satisfaction, misura della brand equity, elasticità della domanda
rispetto al prezzo, etc….
 materia che conosco molto bene, provo a vedere se anche questa volta “sono andata bene”
TIPO DI RICERCA
RICERCA ESPLORATIVA: ha l’obiettivo di far luce su un fenomeno o un problema di cui non sono ancora ben
chiare le manifestazioni ( la definizione degli obiettivi a volte è più vaga, sono quelle più difficili da
analizzare)
RICERCA DESCRITTIVA: ha la finalità di rappresentare una situazione, un fenomeno o un comportamento in
un determinato spazio-temporale. In base alla tipologia di ricerca le osservazioni possono essere condotte
secondo una prospettiva longitudinale o trasversale
(prospettiva cross-action: analizziamo il fenomeno in questo momento/in questo luogo ;
prospettiva longitudinale: come si evolve nel tempo il fenomeno stesso)
x es: customer satisfaction: potrei voler sapere se OGGI i miei clienti sono soddisfatti / cerco di capire se la
customer satisfaction è cambiata o meno
RICERCA CAUSALE: analizza relazioni di causa/effetto che generano determinati comportamenti e di solito
viene condotta attraverso la sperimentazione
( di solito viene usata per quanto riguarda gli abbandoni: x es prodotti bancari/finanziari)
RACCOLTA DELLE INFORMAZIONI
I dati possono essere distinti tra: INTERNI / ESTERNI
A seconda che questi siano direttamente presenti in azienda oppure se devono essere raccolti (non sono
“prodotti” direttamente dall’azienda  fonti di informazioni esterne all’azienda stessa).
I dati che direttamente coinvolgono l’azienda sono di primaria importanza, ma all’interno del mercato
vengono analizzati anche dati provenienti da “aziende di consulenza” , così come esistono anche fonti di
informazioni istituzionali (x es. ISTAT).
Le pubblicazioni / i dati dell’ISTAT liberamente consultabili, potrebbero essere in realtà interessanti.
I dati dell’ISTAT non sono in un’ottica aziendale, ma più che altro si concentrano sulla situazione generale
del Paese.
La raccolta delle informazioni prevede le distinzione tra dati INTERNI/ESTERNI, ma anche la distinzione tra
dati PRIMARI/SECONDARI.
FONTE
INTERNA
DATI PRIMARI
Prodotti all’interno dell’azienda
(dati di vendita, distribuzione…)
 x es performance di un
prodotto
DATI SECONDARI
Dati già realizzati e
immediatamente disponibili
all’interno dell’azienda (risultati
di vendita, budget,
investimenti…)
 non immediatamente
collegabili agli acquisti (x es.)
ESTERNA
Prodotti attraverso un’apposita
rilevazione (opinioni e
atteggiamenti consumatori,
intenzioni d’acquisto…)
rilevazione “ad hoc” : una
survey
Dati pubblicati da Fonti esterne e
immediatamente disponibili
(associazioni categoria, internet,
dati di agenzia, banche dati…)
 non direttamente collegati
alla nostra analisi
(anche se questo tipo di
informazione potrebbe essere
egualmente importante)
X es: Parlando di Apple: quale potrebbe essere un dato “interno” e “secondario” ???  investimenti di
Apple del passato nel “green”  non direttamente viene analizzato, ma potrebbe aver in qualche modo
impattato sulle vendite perché sfruttato dalla comunicazione commerciale
X es: pensiamo alle fidelity card (dato esterno e primario)  di supermercati e negozi, identificano tutta
una serie di atteggiamenti e di attitudini di acquisto che sono utili e fondamentali per l’azienda, ma che
sono ESTERNI all’azienda (non ha modo di conoscere direttamente)
X es: riduzione del nucleo famigliare (dato “esterno” e “secondario”) la proposta che posso fare alla GDO
va di pari passo  anche i prodotti posti in offerta saranno ridotti nelle dimensioni / nascita di prodotti
confezionati in un modo differente (si pensi alle “monoporzioni”)
PRINCIPALI FONTI DI INFORMAZIONE ESTERNE
-Internet: accesso semplice costi non troppo elevati.
Qual è il problema? Il punto importante su cui focalizzarsi è: l’informazione deve sempre essere verificata!
Come capire se un’informazione è accredita??? Se una fonte di informazione è valida?
Mi posso fidare di una fonte di informazione se l’azienda mette a disposizione, la cosiddetta “nota
metodologica”: spiego anche le tecniche che ho utilizzato per raccogliere i dati e gli indicatori usati per
sintetizzare il mio dato  sintomo di serietà/coerenza
NB: fondamentale citare sempre la fonte
-Banche Dati Accessibili: ISTAT (www.istat.it) produce statistiche sulla condizione generale del Paese, ma
anche risultati dell’indagine sui consumi sulla situazione demografica dell’Italia, aspetti della vita diversi
della vita quotidiana (riguardano la parte economico-sociale del nostro Paese, non c’è un approccio di tipo
“aziendale”)
-Enti di Ricerca Economica Sociale: CENSIS, Banca d’Italia, centri studi come CONFINDUSTRIA o ABI
 attività di studio della realtà nazionale, con indagini che potrebbero essere direttamente integrabili con
quelli fatti dall’ISTAT
x es: Censis ogni anno pubblica un rapporto sulla situazione del nostro paese in cui ci racconta gli aspetti
sociali
DATI DI AGENZIA  informazioni vendute da società di ricerca specializzate a clienti diversi che
condividono bisogni informativi comuni (MULTICLIENT).
Spesso sono dati panel su famiglie o consumatori (sondaggi di tipo “OMNIBUS”) : ACNielsen, DOXA, GKFEurisko, IPSOS.
Le indagini sono condotte in modo molto attento (dal punto di vista della qualità del dato) 
successivamente con ragionamento induttivo, il risultato che viene poi presentato può essere esteso in una
prospettiva molto più ampia
(situazione generale che diventa poi interessante nel particolare)
14/10/2020 LEZIONE 3
Nell’ultima lezione abbiamo compiuto una distinzione tra i DATI, classificandoli sulla base di due dimensioni
fondamentali: da un lato possono essere distinti sulla base della loro importanza in dati
PRIMARI/SECONDARI (se interessano direttamente l’obiettivo della nostra analisi / aiutano a dimostrare
quanto si vuole esplorare, raggiungere, evidenziare, sono collaborativi);
dall’altro lato possiamo distinguere i dati a seconda del fatto che vengano prodotti internamente /
esternamente (costruendo survey ad hoc oppure facendo riferimento a database esterni piuttosto che a
report)
 se facciamo riferimento a database esterni, abbiamo elencato una serie di fonti di informazioni possibili,
spesso “open”, che sono a disposizione di colore che navigano nel web.
Le fonti di informazioni possono essere divise in 2 categorie: chi affronta l’analisi economico-sociale da un
punto di vista “macroeconomico” (Istat, Banca D’Italia, ecc…) ed i cosiddetti “dati di agenzia”, che
provengono proprio da chi opera nell’ambito della consulenza più specifica.
La mission di Istat è sicuramente diversa dalla mission di IPSOS !
DIFFERENCE DI INDAGINI NELLA DINAMICA
Tutto nasce dalla “traduzione” del problema di marketing in un problema di ricerca.
È importante stabilire che tipologia di indagini vogliamo andare a realizzare.
La scelta di un tipo di ricerca piuttosto che di un altro si andranno poi a differenziare sul piano della
dinamica.
Abbiamo due tipologie:
-RICERCHE CROSS-SECTION (esplorative/confermative):
Vengono fatte in un determinato TEMPO e LUOGO: sono ricerche di tipo “esplorativo”.
Viene fatta per esempio se devo studiare un mercato che non conosco, dopo che ho effettuato questa
ricerca non la faccio più, perché il mercato lo conosco.
Sono ricerche utilizzate per esplorare ambienti che non sono familiari / nuovi, oppure vengono utilizzati per
confermare delle ipotesi che avevo pensato (x es lanciare un nuovo prodotto).
Si basano essenzialmente su survey (questionari…), ma rientrano in questa categoria anche:
1)Interviste da questionari  mira ad utilizzare un approccio quantitativo, ovvero si basa su numeriche (si
cerca di non intervenire/influire sulla risposta)
2)Focus groups  approccio differente, ovvero più qualitativo: un moderatore propone dei temi e dei
panelist rispondono a sollecitazioni
3)Uso di dati secondari
-RICERCHE LONGITUDINALI: vengono usate quando si vogliono indagare delle dimensioni che risultano
essere particolarmente interessanti per l’azienda (x es customer satisfaction)
Sono ricerche iterate: è uno schema di ricerca ripetuto nel tempo
(sono utilizzate poco nel tempo)
Innanzitutto i dati longitudinali sono più difficili da trattare statisticamente.
Inoltre, oggi un prodotto dura molto poco su un mercato “così come è stato lanciato”, la modifica è
continua  non si può pensare ad un prodotto che rimane tale così nel tempo (il consumatore è molto più
sollecitato)
 la customer satisfaction relativa ad un prodotto (ipotizzando di farla ogni 8 mesi), di poter avere nel ciclo
di 2 anni, 3 rilevazioni  diventa tutto molto oneroso con risultati poco interessanti.
Questo dipende anche dal tipo del prodotto che trattiamo: per un prodotto finanziario, l’analisi della
customer satisfaction viene fatta semestralmente, non sarebbe possibile fare un’indagine del genere per
altre tipologie di prodotti (x es materassi, automobili…, ovvero prodotti con un ciclo di vita decisamente più
lungo).
Pensando alle ricerche longitudinali:
1) INDAGINI RIPETUTE : i soggetti che compongono il campione, non necessariamente sono gli stessi !
Disegniamo il campione in modo tale che sia identico dal punto di vista di variabili socio-demografiche che
siano importanti per l’azienda (x es: metà maschi e metà femmine ; grado di istruzione ; …. ecc), sono i
cosiddetti “pseudo-panel” ;
2) CAMPIONI RUOTATI : panel che presentano una parte “panel” (i soggetti che hanno partecipato alla
prima indagine, partecipano anche alla seconda), un’altra parte viene invece ruotata (nuove unità)  riesco
sia a rispondere all’indagine longitudinale, piuttosto che alla rilevazione cross-action ;
3) PANEL (campione continuativo)  i soggetti intervistati, sono presenti in più rilevazioni : li reintervisto
nel tempo, per vedere se il loro gradimento è cambiato oppure no
 un’azienda difficilmente può svolgere questo tipo di indagine !
Si pensi invece all’ISTAT, lo fa senza problemi (i soggetti indicati dall’Istat sono “obbligati” a far parte delle
interviste).
E’ l’azienda che sceglie quale usare, anche se le indagini panel sono estremamente difficili da applicare.
UN GRUPPO DI INTERVISTATI CHE SI DICHIARA DISPONIBILE AD ESSERE INTERVISTATO NEL TEMPO 
panel continuativo : un campione fisso nel tempo su cui si rilevano le stesse variabili in tempi diversi
(ACNielsen, Auditel, Domoskopea)
panel omnibus : un campione fisso nel tempo su cui si rilevano variabili differenti in tempi diversi (Research
Now)
COSTRUIRE IL QUESTIONARIO
(costruzione di una survey)
Dal punto di vista concettuale, ci sono alcuni passaggi che dobbiamo ricordare, ma l’esperienza è
sicuramente la fonte migliore.
E’ anche fondamentale ricordarsi sempre quelli che sono i “destinatari” del nostro questionario
 colui che riceve il questionario, dev’essere sempre in grado di capire cosa c’è scritto e di saper
rispondere a ciascuna domanda, senza alcun aiuto
Le tematiche da trattare in un questionario sono poi definite insieme all’azienda: più l’azienda possiede un
obiettivo preciso da raggiungere/ conosce bene il proprio prodotto  più mirato e specifico sarà il
questionario.
Da un punto di vista operativo, c’è sempre bisogno di conoscere il nostro cliente, che ci aiuta nella
definizione delle “dimensioni” del questionario da trattare.
Tali dimensioni sono fondamentali, sono quelle che andremo a ripartire all’interno del questionario, il quale
dovrà impegnare il soggetto in un numero limitato di minuti.
Più impegniamo le persone dal punto di vista personale, meno engagement avremo da parte di esse.
Se non si hanno idee chiare invece, cerchiamo di costruire un focus group, attraverso il quale cercheremo di
identificare quelle che sono le tematiche fondamentali da trattare all’interno del mio questionario.
La redazione del questionario dal punto di vista descrittivo :
Che cos’è un questionario? Una lista di domande!
Anche l’ordine delle domande ha una sua importanza, le parti devono essere ben definite: nella parte
iniziale dev’esserci un’introduzione al tema e se possibile inserire anche un messaggio che “conquisti” la
persona interessata, in cui specifichiamo gli obiettivi della nostra analisi (breve introduzione).
Si entra poi nel cuore del questionario, ovvero le domande che trattano le tematiche più importanti.
Si deve sempre utilizzare un linguaggio semplice possibile (chiunque possa leggere e capire) : evitare
termini tecnici, mai utilizzare acronimi o sigle senza spiegare a cosa si riferiscono!
Ciascuna domanda deve misurare un’unica dimensione : evitare che all’interno di una domanda ci siano
due dimensioni da misurare.
Quando si mette appunto il questionario, è importante verificarlo prima di somministrarlo.
Verifica = invio a gruppi selezionati di persone / persone più prossime
Importante anche dare tutte le dimensioni riferite alla domanda proposta!
x es: una persona non trova la risposta che la rappresenta (nel caso di risposte chiuse)
 le opzioni devono contenere tutte le possibilità per il soggetto che risponde
Le domande che sono più semplici (“meno coinvolgenti” : età, sesso, ecc..)), potrebbero anche essere
messe nella parte finale del questionario, perché sono domande la cui risposta non prevede una particolare
riflessione (a meno che non siano oggetto principale della ricerca)
RECAP: COSTRUIRE IL QUESTIONARIO (FASI)
1. COSTRUZIONE DELLO SCHEMA CONCETTUALE: frutto di un’analisi di studi precedenti o di attività di
osservazione e focus group
2. REDAZIONE DEL QUESTIONARIO: comporta la scelta delle specifiche domande di cui servirsi per
raccogliere l’informazione. Le domande devono essere rivolte a tutti nella stessa forma e devono avere lo
stesso significato per tutti coloro che rispondono
3. VERIFICA DEL QUESTIONARIO: attuata attraverso una preventiva somministrazione “di prova” al fine di
verificare la comprensibilità delle domande ed i tempi
TIPOLOGIE DI DOMANDA:
-Domande Aperte (a risposta libera)
x es: “Qual è l’attività principale che lei pratica nel suo tempo libero?”
……………………………..
Non ha una risposta predefinita. Si tende a saltare.
Vantaggi: -minimo condizionamento
-va bene in fase esplorativa
-per argomenti delicati
 necessita di una grande motivazione di risposta!
Svantaggi: -maggiori errori (sintesi registrazione e codifica): ci potranno essere risposte simili, ma
utilizzando magari termini molto diversi, quindi la sintesi diventa più lunga e complessa
-maggior sforzo per il rispondente
-maggior dipendenza dal livello culturale del rispondente
-Domande chiuse (modalità strutturata)
Alternativa fissa predisposta dal ricercatore
 siamo noi a fornire le opzioni di risposta
Se scegliamo questa opzione, tutte le opzioni che forniamo al rispondente devono essere annoverate nello
specchio delle sue possibilità.
Vantaggi: -codifica immediata
-sollecitano la memoria
-meno sforzi per il rispondente
Svantaggi: -lunghezza lista
-ordine lista: è anche importante cercare di volta in volta cambiare l’ordine delle risposte della lista (i
soggetti cercano di ricordarsi solo le prime opzioni)
-risposta non ragionata: risposta non pensata
NB: le risposte devono essere esclusive, indipendenti le une dalle altre.
Se il questionario viene somministrato al telefono, non dev’esserci un elenco troppo lungo delle opzioni di
risposta (4/5).
Per quanto riguarda le domande a risposta chiusa, abbiamo poi due modalità differenti:
-a risposta fissa
SLIDE 4
-a risposta multipla: più risposte compatibili.
SLIDE 5
In questo secondo caso potrebbero verificarsi alcune situazioni: se ad una domanda si possono dare al max
3 risposte, ci saranno soggetti che daranno 1 risposta, soggetti che ne daranno 2 e soggetti che ne danno 3.
Potrebbe essere meglio somministrare una batteria di domande SI/NO.
SLIDE 5
SCALE DI VALUTAZIONE:
COME MISURIAMO LE NOSTRE RISPOSTE AL QUESTIONARIO?
Iniziamo ad occuparci della parte più statistica. Utilizziamo scale di valutazione, che ci permettono di
sviluppare metriche differenti a seconda delle domande/variabili che andiamo a raccogliere.
Le scale di valutazione si dividono in:
-NON METRICE : NOMINALI / ORDINALI
-METRICHE : INTERVALLO / RAPPORTO
In grande parte, si fa riferimento a quelli che sono caratteri quantitativi/qualitativi.
LEZIONE 4 19/10/2020
Parliamo di “scale di valutazione”, perché i nostri caratteri non sono altro che item /domande all’interno di
un questionario.
(Nella statistica, i dati possono avere anche fonti differenti).
Invece nell’analisi quantitativa di mercato sono dati di survey, che devono essere raccolti ed attengono a
chi mette appunto la ricerca di scegliere il dato primario su cui focalizzare il proprio studio  se fa
riferimento ad un dato già presente in azienda / dato da raccogliere
Se si è scelto di raccogliere i dati tramite il questionario  definire il questionario : definire le domande /
come misurarle: quali scale di valutazione utilizzare all’interno della mia ricerca ???
Alcune domande del questionario vanno misurate con scale predefinite (x es: genere del soggetto,
naturalmente viene misurato con una scala di tipo nominale).
Però è anche vero che una scala di tipo nominale potrebbe essere utilizzata per tutti i dati che abbiamo a
disposizione  è una scelta “soggettiva” scegliere la scala migliore da utilizzare nel nostro questionario.
La scala tendenzialmente, per le batterie di domande all’interno del questionario (sarà diviso in “sezioni”)
prevede l’utilizzo di una serie di ITEM
 quando approcciamo per la prima volta, di solito scriviamo scale diverse per la batteria di domande che
abbiamo a disposizione.
In realtà si DEVE scegliere una scala di valutazione ed utilizzarla per tutto il questionario
 riusciamo poi a confrontare le varie risposte.
Quando dobbiamo scegliere x es se la valutare la soddisfazione rispetto ad un prodotto, dobbiamo scegliere
se utilizzare scale nominali / ordinali o metriche… questa scelta NON è ininfluente
 l’utilizzo di una scala metrica permette una conoscenza più approfondita rispetto ad un utilizzo ad una
scala non metrica
(partendo da una scala metrica, si può sempre risalire ad una scala “non metrica”; viceversa NON è
possibile)
Inoltre la maggioranza delle tecniche statistiche si basa sul “numero”, così come la comunicazione di
marketing è più diretta e viene privilegiata
NELLO SPECIFICO
SCALE NON METRICHE: danno origine ad una conoscenza meno approfondita
SCALA NOMINALE:
-Livello più basso di misura (non si può stabilire un ordine);
-Classificazione  uguale/diverso
xi = xj / xi ≠ xj
per ogni i= 1,….,n ; j = 1,…,.n
-Proprietà: SIMMETRIA e TRANSITIVITA’
Se A = B , allora B = A ;
Se A = B e B = C, allora A = C
Esempio: GENERE: Maschio – Femmina
Esempio di scala nominale su cui si potrebbe basare un questionario: SI / NO
 abbiamo due risposte alternative, quindi si può essere d’accordo o non essere d’accordo con le
affermazioni (due opzioni)
Che tipo di conoscenza posso ottenere?
Posso rilevare se i soggetti che sto analizzando sono uguali (rispondono in modo perfettamente identico
agli item) oppure no.
I soggetti possono essere persone / famiglie (parliamo di “unità”).
Il tipo di indagine che otteniamo da questo tipo di scala è molto limitata
 non riesce a rispondere alla domanda: quanto sono in accordo / quanto sono in disaccordo ???
SCALA ORDINALE
-Le modalità delle variabili qualitative presentano una gerarchia (“ordine”)
Per es: Come giudica in generale la sua salute?
Risposte: MOLTO BUONA / BUONA / DISCRETA / PRECARIA / MOLTO PRECARIA
Queste modalità sono sempre alternative, ma presentano un ordine di importanza
Le modalità sono qualitative, ma al tempo stesso mi permettono di stabilire una classifica
X es: Insuff < suff. < buono < distino < ottimo
-Definizione di una variabile sottostante da misurare
-Proprietà: maggioranza, minoranza ed uguaglianza
Posso stabilire se due soggetti gradiscono o meno un determinato prodotto, ma anche chi lo gradisce di più
rispetto all’altro  livello di conoscenza maggiore
LE SCALE AD INTERVALLO
Scale di tipo metrico  fondamentale capirle per utilizzarle all’interno delle nostre ricerche
Dobbiamo stabilire l’origine della scala in un punto arbitrario (stabilito dal ricercatore).
Inoltre le modalità della scala, si devono trovare alla “stessa distanza” le une dalle altre con un’unità di
misura costante  non mi permette di fare dei confronti tra misurazioni, come è possibile fare con la scala
rapporti
x es: NON posso dire che il soggetto che presenta valore 4 nella scala, presenta il doppio di intensità di
carattere rispetto a chi presenta modalità 2.
Tipologie di “scale ad intervallo” :
Scala di Likert  scala utilizzata per misurare l’atteggiamento nei confronti di un certo fenomeno
Viene utilizzata solitamente nei questionari di ricerca e di mercato.
Presenta un “punto di origine arbitrario” : stabiliamo che il valore che abbiamo indicato con il numero 3,
indica la neutralità del soggetto rispetto all’affermazione che facciamo nel nostro questionario
La distanza tra chi presenta valore 4 e chi presenta valore 2 : non indica che chi presenta valore 4 possiede
il doppio di intensità del fenomeno rispetto a chi presenta valore 2.
Possiamo quindi stabilire una distanza ordinabile.
SLIDE 5
Più modalità utilizziamo all’interno della scala di Likert, più l’associazione della scala ad un carattere di tipo
quantitativo, è un’assunzione sostenibile. Meno modalità utilizziamo, più questa scala potrebbe
assomigliare ad una scala di tipo qualitativo ordinale. Numero di modalità ottimale: 10.
Differenza  sintesi dei risultati che provengono da una scala quantitativa, che mi permette di utilizzare
degli indicatori di sintesi (x es media aritmetica), mentre in una scala ordinale, dovrei utilizzare indicatori di
sintesi come quartili o mediana
Scala del differenziale semantico 
ES: quanto ritieni sia utile l’uso del PC nel tuo lavoro?
SLIDE 5
Presenta il livello 0 (nel punto 0), a destra presenta modalità positive, a sinistra modalità negative.
I punti sono equidistanti, dev’esserci tanto un valore positivo quanto valore negativo.
Le modalità devono essere quindi equidistribuite.
Inoltre, è fondamentale prevedere sempre il punto centrale (anche nella scala di Likert)
 aiuta a stabilire il momento in cui passiamo da un livello di insoddisfazione ad un livello di soddisfazione
(distingue i due ambiti)
NB: per fare questo, è necessario privilegiare scale con modalità dispari  presentano o lo 0 centrale,
oppure in un altro punto predeterminato
SCALA RAPPORTI
E’ una scala metrica che a differenza di quella precedente, presenta un punto di origine che si interpreta
come “assenza di carattere”.
X es: numero di figli per famiglia
0 figli : assenza del carattere
E’ possibile fare misurazioni come rapporti : dire che un soggetto che presenta valore 4 della scala ha un
livello del carattere pari a doppio di chi presenta valore 2.
Iniziamo ora ad introdurre il software SPSS
NB: il sesso viene considerata una “variabile numerica”
Si indica come:
1 : Maschio
2 : Femmina
Non necessariamente indicano una variabile quantitativa, ma in questo caso voglio osservare una variabile
nominale, che però per comodità viene indicata con 1 e 2 (sono etichette).
La scala di misurazione è però sempre quella nominale.
LEZIONE 5
21/10/2020
LE MANCATE RISPOSTE
 PROBLEMA NELLA RACCOLTA DI UN QUESTIONARIO
Non tutte le persone che potenzialmente potrebbero entrare nel campione target della mia indagine,
partecipano effettivamente.
La mancate risposte danno origine a problemi gravi.
Le cause associate alle mancate risposte possono essere diverse: tra queste troviamo la lunghezza del
questionario  (deve contenere un numero di domande contenuto e che allo stesso tempo mi permette di
affrontare tutti i temi della mia ricerca), il framework del questionario, l’argomento trattato.
Al fine di incentivare la compilazione è importante sottolineare l’utilità dell’indagine, la promozione della
ricerca, evidenziare il ruolo del rispondente.
NB: se è presente un intervistatore, difficilmente ci saranno mancate risposte
E’ possibile incentivare la partecipazione con ricompense (anche di piccola entità) che rendono massima la
partecipazione  NON dev’essere legata al tema trattato all’interno del questionario / al brand analizzato
dal questionario  falserebbe le risposte dei soggetti intervistati
Oggi spesso esiste il “vincolo” (se non rispondo a tutte le domande, non posso procedere con il
questionario), potrei avere due tipi di risposte: mi impegno e rispondo / mi rifiuto di partecipare e lascio il
questionario.
Se gli intervistati si rifiutano di partecipare all’indagine vengono sostituiti.
Ciò implica l’IPOTESI DI OMOGENEITA’ tra i sottoinsiemi dei rispondenti e di chi invece non risponde
(x es: omogeneità di genere, scolarità, classi di età, ecc…, le risposte possono essere differenti)
Tali ipotesi dovrebbero essere sempre sottoposte a controllo (verificate), cosa della quale spesso ci si
dimentica.
x es : voglio intervistare una determinata quantità di donne di una determinata classe sociale
 se una donna non vuole rispondere, la devo sostituire con un’altra che rispecchia le medesime
caratteristiche della prima : PROFILI DI PERSONE “SIMILI”
Inoltre è importante distinguere da mancate risposte totali e parziali:
- mancate risposte totali  rifiuto alla partecipazione, vengono corrette con soggetti che presentano le
stesse caratteristiche d’interesse oppure in caso di intervista con intervistatore facendo almeno la
domanda cruciale che permette la comparazione con chi risponde all’intero questionario
- mancate risposte parziali  alcuni item che non presentano valutazione numerica;
rappresentate da dati che presentano non risposte su alcune variabili
 necessario utilizzare metodi di IMPUTAZIONE DEI DATI MANCANTI
(In SPSS : c’è il (.))
Se dobbiamo fare una survey, devo identificare una lista di nomi molto lunga, per poter procedere alla
sostituzione del soggetto che si rifiuta di rispondere al questionario.
CASI MANCANTI
Se le unità statistiche campionarie effettivamente rilevate sono in numero di m, invece delle n
originariamente previste (m < n), si può procedere in due modi:
I. Si considera la matrice dei dati formata dalle m unità disponibili;
 problema: i dati mancanti potrebbero essere sparsi nella matrice
 potrei non dar rilievo ad alcune categorie di soggetti (se elimino tutti quei soggetti con “dati mancanti”)
II. Si rilevano (n-m) unità ulteriori, sostituendo ciascuna unità mancante con un’altra (se il piano è
stratificato scegliamo la nuova unità dal medesimo strato di quella mancate)
NB: quando manipolo la matrice dei dati, sto introducendo ulteriore variabilità
 devo utilizzare tali tecniche con grande tutela !
TIPOLOGIE DEI CASI MANCANTI
Quando nella matrice dei dati mancano le modalità relative ad alcuni caratteri. I missing values possono
essere dispersi nella matrice dei dati.
Classificazione di dati mancanti:
I. Carattere non pertinente per la singola unità
Esempio: Hai mai provato il prodotto? SI/NO
Se rispondo SI, avrò un’altra serie di domande / rispondo NO, avrò dei “missing”, non devo rispondere ad
altre domande
II. Risposta “non so” in una domanda riguardante un’opinione
III. Rifiuto di singole risposte
IV. Mancata rilevazione dovute a cause esterne
PROCESSO GENERATORE DEI DATI MANCANTI
Ho a che fare con due variabili: X con tutti i dati, Y con dati mancanti
1) Missing Completely at Random (MCAR)
 la probabilità di riscontrare un valore mancante è indipendente dai valori di X e di Y, per cui i dati omessi
sono completamente casuali
2) Missing at Random (MAR)
 i valori mancanti dipendono da X ma non da Y, se si individuano opportune classi o categorie di X la
probabilità di un dato mancante di Y non è uguale per tutte le classi (o categorie), ma nell’ambito di
ciascuna di esse i valori mancanti sono casuali
3) Missing not at Random
 la probabilità di riscontrare un dato mancante dipende dai valori che assume Y ed eventualmente anche
quelli di X (relazione fra le due variabili)
Esempi:
X professione del soggetto (variabile di struttura completa), Y spesa mensile dedicata al tempo libero
(variabile con dati mancanti)
1)Missing Completely at Random: i missing data sono dovuti a dimenticanza, non esiste alcune relazione tra
le due variabili
2) Missing at Random: le mancate risposte NON sono influenzate dall’ammontare di spesa, ma la
probabilità di avere un missing data è diversa a seconda della professione del capofamiglia (artigiano,
impiegato, dirigente..)
3) Missing not at Random: le mancate risposte NON sono causali, la mancata risposta si registra solo su
particolari valori di spesa (generalmente al crescere della stessa)
TRATTAMENTO DATI MANCANTI
Possiamo comportarci in modi differenti:
1. Analisi solo dei casi completi (esclusione listwise) semplice, ma abbiamo spreco d’informazione.
Utile se MCAR vale per tutte le variabili (non c’è relazione fra le due variabili)
2. Analisi univariata di ciascun carattere su tutte le unità per le quali si conoscono i dati (criterio
columnwise) o per ciascuna coppia di variabili con riferimento alle unità di cui sono noti i valori di
entrambe (criterio pairwise)
Statistiche univariate sono calcolate utilizzando tutte le informazioni disponibili ma il numero di unità può
variare da un carattere all’altro.
3. Altri criteri: stimare i valori mancati con criteri d’imputazione  se i dati son MCAR/MAR non produce
distorsioni nella stima della media ma riduce la variabilità
Se i dati sono Missing not at Random, il livello di spesa mensile è un comportamento (non è un missing
casuale)  non dobbiamo imputare i dati, perché mette in evidenza un comportamento del soggetto
INIZIO A LAVORARE CON SPSS
MANCANTE  la presenza del dato dev’essere residuale rispetto alla disponibilità del dato stesso
 identifico anche l’impatto del “dato mancante” (quanto pesa il dato mancante sul dato disponibile)
DATO ESTREMO (N. di estremi)  n. di casi fuori dall’intervallo
SPSS fa riferimento ad un intervallo detto “intervallo di normalità”.
Che cos’è? Come si costruisce?
Fa riferimento ad una rappresentazione grafica : “BOX PLOT” (grafico a scatola).
E’ utile per identificare la presenza di dati cosiddetti “anomali” o anche detti “outlayer” (o sono
estremamente grandi/estremamente piccoli : non sono errati !)
L’intervallo di normalità, in questo caso fornito direttamente da SPSS, è formato da:
Q1 – 1,5*IQR , Q3 + 1,5*IQR
Esempio pratico:
Spesa
Carne
Cibi_pronti
Panetteria
Store
Gender
N
Media
40
30
33
40
40
40
18,3793
4,4341
2,1074
1,6750
Deviaz.
Std.
6,73216
1,54937
1,12730
0,38254
Mancante
N. di estremi
Conteggio Percentuale Basso
Alto
0
10
7
0
0
0
0
25
17,5
0
0
0
0
0
0
0
3
2
4
0
Com’è formato il BOX PLOT?
- si devono calcolare i tre quartili della distribuzione: Q1 (primo quartile), Q2 = Me (secondo quartile,
coincide con la mediana), Q3 (terzo quartile);
- su un asse orientato, si individua un rettangolo (scatola/box) i cui estremi sono costituiti, rispettivamente,
dal primo e dal terzo quartile, e la cui lunghezza è rappresentata, evidentemente, dalla differenza
interquartile IQR = Q3 – Q1 ;
- il rettangolo (scatola) viene suddiviso in due parti da un segmento che delimita la posizione della mediana;
- si individuano i due valori T1 = max (valore minimo, Q1 – 1, 5IQR) e T2 = min(valore massimo, Q3+1, 5IQR)
Si tracciano due linee esterne alla scatole, dette baffi (whiskers), per questo motivo il diagramma è detto
anche box and whiskers plot.
I baffi sono delimitati, rispettivamente, dai T1 e T2 calcolati in precedenza.
Le osservazioni il cui valore è più piccolo di T1 o più grande di T2 vengono considerate come dati anomali
(outlier)  si trovano al di fuori dei baffi
(non sono dati errati, ma appunto anomali!)
SLIDE 11
Modelli ordinati in tabelle
Spesa
Modelli mancanti(a)
Panetteria Gender
Store
Cibi pronti
Carne
Numero di
Completo
casi
se…(b)
23
23
10
X
33
7
X
30
a. Le variabili vengono ordinate sui modelli mancanti.
b. Numero di casi completi se le variabili mancanti in tale modello (contrassegnate con X) non
vengono utilizzate.
COMPLETARE SLIDE 12
Modelli mancanti (casi con valori mancanti)
Modelli di valori mancanti ed estremi(a)
Caso
# mancanti % mancanti Spesa
Panetteria Gender
Store
Cibi pronti
Carne
1
1
16,7
+
S
2
1
16,7
S
6
1
16,7
S
11
1
16,7
S
17
1
16,7
S
21
1
16,7
S
24
1
16,7
S
26
1
16,7
S
32
1
16,7
S
35
1
16,7
S
14
1
16,7
S
30
1
16,7
S
22
1
16,7
S
33
1
16,7
S
9
1
16,7
S
39
1
16,7
S
40
1
16,7
S
(-) indica un valore estremamente basso, mentre (+) indica un valore estramemnte alto.
L’intervallo utilizzato è (QI – 1.5*IQR, Q3 + 1.5*IQR)
a. I casi e le variabili vengono ordinati sui modelli mancanti
CONTROLLARE AGGIUNGERE SLIDE 13
Se vogliamo lavorare solo su dati completi: da 40 osservazioni, dobbiamo focalizzarci solo su 23
(data set “completo”)
Abbiamo 33 dati, se escludo la variabile carne.
Ne avremmo soltanto 30, se escludo la variabile “cibi-pronti”.
LEZIONE 6 26/10/2020
Esercizio da svolgere
I) Una survey sull’atteggiamento dei giovani verso la sostenibilità ambientale realizzata da uno studente del
corso di ECOMARKS contiene le seguenti domande:
-[A_veg] E’ vegetariano o vegano? Sì No
-[A_NoAntibiotici] Se la risposta alla domanda precedente è negativa risponda alla seguente domanda:
Acquista carni indicanti sull’etichetta “senza uso di antibiotici” ???
-[A_ProdStag] Acquista prodotti di stagione?
-[N_Figli] Indicare il numero di figli in famiglia: ….
-[Genere] Genere M F
a) Commentare la tabella relativa all’analisi dei dati mancanti
Mancante
N
Media
Deviazione Conteggio
std.
A_NoAntibiotici 478
4,19
1,899
61
A_ProdStag
539
5,72
1,144
0
N_figli
539
,65
,928
0
A_veg
539
0
Genere
539
0
a.Numero di casi fuori dall’intervallo (Q1 – 1,5*IQR, Q3 + 1,5*IQR)
N di estremi^a
Percentuale Basso
Alto
11,3
0
0
0
0
0
4
0
0
0
18
b) Posso concludere che i dati mancanti nella tabella sono un comportamento? Motivare la risposta
GENERE
TOTALE
MASCHIO
Conteggio
478
132
Percentuale
88,7
97,1
Mancante
% mancante di 11,3
2,9
sistema
Le variabili indicatore con meno del 5% di valori mancanti non vengono visualizzate.
A_NoAntibiotici Presente
FEMMINA
346
85,9
14,1
Sono nel caso in cui ci si trova in condizioni di MCAR e MAR è plausibile procedere all’imputazione dei
dati mancanti.
In caso di Missing not at Random quello che si osserva è un comportamento
IMPUTAZIONE DEI MISSING
I principali metodi di mancate risposte parziali sono:
-Criteri del donatore
-Imputazione da modello
(possono dar luogo anche a soluzioni differenti!)
Dobbiamo saper giustificare per quale motivo utilizziamo un metodo piuttosto che un altro
Tali tecniche per quanto largamente utilizzate, non sono sostenute da un corpus teorico robusto: le
assunzioni non possono essere verificate, per questo vanno utilizzate con cautela.
CRITERIO DEL DONATORE
Metodo per l’imputazione dei dati mancanti riferiti a variabili qualitative o quantitative.
Il criterio suggerisce che il valore mancante per l’i-sima unità sia mutuato dall’unità simile, appartenente
all’insieme di coloro che ha risposto.
L’unità donatrice può essere individuata secondo 2 procedure:
1. COLD DECK: gli intervistati vengono divisi in 2 gruppi, quello con tutte le variabili valorizzate e quello con
dati mancanti e la selezione avviene solo dal primo gruppo (imputo le variabili valorizzate a quelle con dati
mancanti)
NB: dobbiamo cercare di trovare somiglianza (omogeneità) fra le variabili valorizzate e quelle con dati
missing
2. HOT DECK: le unità che non presentano mancate risposte parziali vengono aggiornate dinamicamente
man mano che avvengono le imputazioni (non vedremo applicazioni)
(imputazione che si aggiorna dinamicamente: ho le risposte mancanti parziali per una determinata
variabile, trovo osservazioni ad essa somiglianti (per la variabile in questione) e decido di imparare solo da
loro: una volta che ho imputato l’unità i-sima ed ho trovato il valore che metto nella cella che prima era
mancante, a quel punto la stessa unità può essere utilizzata insieme alle altre per imputare nuovi dati
 è “pericolosa”: uso un dato imputato, per imputarne degli altri
SPSS  ESERCIZIO 1: valutate se condizioni per dati MAR e procedete all’imputazione dei dati mancanti con
procedura COLD DECK
Età
Genere
1
2
3
4
30
31
31
33
Maschio
Femmina
Maschio
Maschio
5
6
7
8
9
10
11
12
13
33
35
36
39
41
41
41
44
44
Femmina
Maschio
Maschio
Femmina
Maschio
Femmina
Maschio
Femmina
Maschio
Residenza Professione Attività
sportiva
Nord
Impiegato
Si
Centro
Impiegato
No
Nord
Libero prof. No
Centro
Non
No
occupato
Sud
Artigiano
Sì
Sud
Libero prof. No
Centro
Dirigente
Si
Sud
Artigiano
Si
Sud
Artigiano
No
Nord
Dirigente
No
Centro
Dirigente
Si
Nord
Dirigente
Si
Centro
Impiegato
No
Ore sport
sett.
2
0
0
0
Reddito
mensile
1580
1350
2800
.
Scolarità
.
0
3
2
0
0
.
4
0
1370
2340
3200
1600
1250
2800
2500
.
1750
Licenza media
Laurea
Master
Licenza sup.
Licenzia media
Master
Licenza sup.
Laurea
Licenza sup.
Laurea
Laurea
Master
Laurea
14
15
45
45
Maschio
Femmina
Sud
Sud
Impiegato
Impiegato
No
si
0
6
.
1440
Licenza sup.
Licenza sup.
Abbiamo 15 soggetti ed abbiamo raccolto i dati relativi ad una serie di variabili.
Statistiche univariata
N
Media
Deviaz.
Std.
5,49632
1,97419
Mancante
N. di estremi(a)
Conteggio Percentuale Basso
Alto
Età
15
37,9333
0
0
Ore sport.
13
1,3077
2
13,3
Sett.
Reddito
12
1998,3333 686,22595 3
20
mensile
Genere
15
0
0
Residenza
15
0
0
Professione 15
0
0
Attività
15
0
0
sportiva
Scolarità
15
0
0
a. Numero di casi fuori dall’intervallo (Q1 – 1.5*IQR, Q3 + 1.5*IQR)
0
0
0
1
0
0
Modelli mancanti (casi con valori mancanti)
Caso
4
12
14
5
11
#
mancanti
%
mancanti
1
1
1
1
1
14,3
14,3
14,3
14,3
14,3
Modelli di valori mancanti ed estremi (a)
Genere Residenza Professione Att.
Scolarità Ore
Reddito
Sportiva
sport. mensile
Sett.
S
S
S
S
S
I dati mancanti (relativi a reddito e ore di sport) possono essere ricondotti ad un comportamento oppure ad
una casualità?? Andiamo a vedere nello specifico
Genere
Totale
Maschio
Femmina
Conteggio
12
7
5
Percentuale 80,0
77,8
83,3
Mancante
% mancante 20,0
22,2
16,7
di sistema
Ore sport
Presente
Conteggio
13
8
5
sett.
Percentuale 86,7
88,9
83,3
Mancante
% mancante 13,3
11,1
16,7
di sistema
Le variabili indicatore con meno del 5% di valori mancanti non vengono visualizzate
Reddito
mensile
Presente
Residenza
Totale
Nord italia
Centro
Gruppo
12
3
4
Percentuale
80,0
75,0
80,0
Mancante
% mancante
20,0
25
20
di sistema
Ore sport
Presente
Gruppo
13
4
4
sett.
Percentuale
86,7
100
80
Mancante
% mancante
13,3
0
20
di sistema
Le variabili indicatore con meno del 5% di valori mancanti non vengono visualizzate
Reddito
mensile
Presente
Sud
5
83,3
16,7
5
83,3
16,7
Professione
Totale
Reddito
mensile
Ore
sport
sett.
Presente
Conteggio
Percentuale
Mancante %
mancante
di sistema
Presente Conteggio
Percentuale
Mancante %
mancante
di sistema
Dirigente
Artigiano
12
80
20
Impiegato Libero
prof.
4
2
80
100
20
0
3
75
25
3
100
0
Non
occupato
0
0
100
13
86,7
13,3
5
100
0
3
75
25
2
66,7
33,3
1
100
0
2
100
0
NB: le numeriche sono importanti: quando studiamo pochi casi a disposizione (x es 15 osservazioni), anche
solo un’osservazione fa impennare/decrescere le % in modo notevole.
Noto che le variabili che presentano dati mancanti sono 2:
-Ore di sport settimanali (2 osservazioni)
-Reddito mensile (3 osservazioni)
Potremmo prendere in considerazione quindi il “reddito lordo mensile” con alcune variabili categoriali:
studio la professione (variabile importante nella determinazione del reddito!)
Cosa posso fare ora??
Devo imputare il dato del reddito mensile.
Secondo il “COLD DECK”, divido la popolazione in soggetti che presentano “dato non valorizzato” e devo
“imparare” questo dato, dai soggetti che invece ce l’hanno valorizzato.
Come faccio a fare questo?
Prendo l’unità dodicesima.
Divido i soggetti in base alla loro professione svolta  prendo il reddito medio di professione come valore
di riferimento.
La variabile professione mi permette di fare una “classificazione” fra soggetti.
Vado quindi a confrontare il valore delle medie del reddito lordo mensile (variabile dipendente) con la
professione (variabile indipendente)
Professione
Impiegato
Libero prof.
Dirigente
Media
1530,00
2570,00
2833,33
N
4
2
3
Deviaz. Std.
174,547
325,269
351,188
Artigiano
Totale
1406,667
1998,33
3
12
177,857
686,225
Media impiegato  da utilizzare per i dati mancanti con professione impiegato
Media dirigente  da utilizzare per i dati mancanti con professione dirigente
Vado a sostituire per il dirigente  2833
Vado a sostituire per l’impiegato  1530
(NON VADO A SOSTITUIRE LA MEDIA GENERALE  studio le categorie professionali)
Studiamo la seconda variabile da imputare: ore sport in settimana
Calcolo il numero medio di ore settimanali tra i soggetti che svolgono attività sportiva
Ore di attività sportiva a settimana
Attività sportiva nel
tempo libero
No
Sì
Totale
Media
N
Deviazione std.
0
3,4
1,3077
8
5
13
0
1,67332
1,97419
Da utilizzare per i dati mancanti
Costruisco profili che si assomigliano  la variabile che ci potrebbe aiutare a fare un’inferenza più precisa:
faccio attività sportiva oppure no
Confronto medie: ATTIVITA’ SPORTIVA (variabile indipendente) / ORE ATTIVITA’ (variabile dipendente)
IMPUTAZIONE DA MODELLO
Il metodo cosiddetto “imputazione da modello” va utilizzato per lacune riguardanti solo variabili
quantitative.
Il metodo utilizza un’equazione di regressione che collega la variabile dipendente (oggetto di imputazione)
ad altre ad essa correlate, disponibili per unità campionarie
Slide 10
Otteniamo una previsione/ imputare un valore mancante, utilizzando la relazione lineare con le altre
variabili a nostra disposizione  stimiamo un modello di regressione lineare in cui i nostri coefficienti sono
stimati sui rispondenti (dati valorizzati)
Quali variabili inserire all’interno del modello di regressione ??
La stessa relazione lineare è quella che viene in mio aiuto: inserisco come “regressori” di questo modello
lineare, le variabili che risultano avere un’elevata correlazione con la variabile che dev’essere imputata.
Se “Y” presenta dati mancanti, io utilizzo delle variabili che mi aiutino a fare previsioni sulla Y.
Dopo aver stimato la relazione fra le variabili Z e la variabile dipendente  se tale relazione è “buona”, i
coefficienti che ho stimato posso utilizzarli per fare previsione sull’unità i-sima che la variabile Y non ce l’ha
valorizzata.
ESEMPIO: consideriamo i dati del dataset “missing store (Es1)”
Dalla visione dei dati notiamo che le variabili Carne e Cibi_pronti presentano alcuni dati mancanti.
I dati mancanti sono tutti quantitativi. Procediamo ad imputarli applicando la regola: imputazione da
modello.
 eravamo arrivati alla conclusione che non c’erano “comportamenti conclusivi”
Prendiamo la carne come la variabile “Y”  identifichiamo delle variabili che mi aiutino a prevedere la
variabile Y (quelle che presentano una CORRELAZIONE)
La matrice delle correlazioni mi permette di individuare le variabili che maggiormente sono correlate con la
variabile d’interesse (carne x es). Considero solo quelle variabili che hanno una correlazione superiore al
valore assoluto 0,5.
 faccio la correlazione con tutte le variabili quantitative
Spesa
Cibi pronti
Carne
Panetteria
Correlazione di
Pearson
Correlazione di
Pearson
Correlazione di
Pearson
Correlazione di
Pearson
Spesa
1
Cibi pronti
0,960
Carne
0,887
Panetteria
0,767
0,960
1
0,811
0,736
0,887
0,811
1
0,878
0,767
0,736
0,878
1
Tutte queste variabili mi aiutano a prevedere il comportamento della variabile in questione!
Potrei inserire tutte le mie variabili per identificare un modello di regressione lineare.
 trovo il mio modello di regressione
METODO DI REGRESSIONE
Questo metodo calcola le stime di regressione lineare multipla e dispone di opzioni per aumentare le stime
con componenti casuali. Per ogni valore atteso, la procedura può aggiungere un residuo di un caso
completo selezionato in modo casuale, una deviazione standard casuale o una deviazione casuale (scalata
per la radice quadrata della meda dei quadrati residua) della distribuzione t.
C’è un buon adattamento fra le variabili???
Modello
R
R – quadrato
1
0,944^a
0,892
a: Predittori: (costante), Panetteria, Cibi_pronti, Spesa
r^2 : 0,892 : buon livello di adattamento
R- quadrato
adattato
0,875
Errore std. Della
stima
0,58136
L’osservazione 1 del dataset missing_store, viene imputato con il seguente valore
Modello
Coefficienti non standardizzati
B
-1,757
0,159
-0,231
2,277
1
(costante)
Spesa
Cibi_pronti
Panetteria
a: Variabile dipendente: Carne
Errore std.
0,635
0,060
0,356
0,497
L’osservazione 1 del dataset missing_store, che presenta un dato mancante per la carne
STORE
2
2
2
1
2
3
GENDER
M
M
M
SPESA
43,60
26,56
20,76
CARNE
.
.
4,62
CIBI PRONTI
5,95
3,17
2,33
PANETTERIA
2,65
1,72
1,33
Può essere imputato utilizzando il risultato della regressione
Y(oss1) = -1,757 + 0,159*43,6 – 0,231*5,95 + 2,277*2,65 = 9,48
(Spesa per carne dell’osservazione 1)
NB: “B”  coefficienti angolari
Y(oss2) = ……………..
Y(oss3) = ……………..
ESERCIZIO DA SVOLGERE
E’ stata condotta un’indagine sulle abitudini di impiego del tempo libero su 50 clienti di una galleria d’arte.
TAB1 (estratto dei dati sui 50 clienti)
Età
Genere
Residenza Professione
1
2
18
19
Maschio
Maschio
Nord it.
Sud it.
3
4
5
6
7
8
23
23
24
25
26
27
Femmina
Femmina
Femmina
Maschio
Femmina
Femmina
Nord
Centro
Nord
Nord
Centro
Nord
Impiegato
Libero
professionista
Non occupato
Impiegato
Studente
Impiegato
Studente
Non occupato
Ore_sport_sett. Reddito
mensile
0
1400
0
1900
Consumo
cinema
0
10
Consumo
giornali
1
1
0
0
2
0
0
2
0
0
2
0
0
0
0
1
0
0
0
0
0
.
0
1000
50
0
1) Indicare quale/li tecnica/tecniche d’imputazione per dati mancanti scegliereste in questo caso.
Motivare la risposta.
2) L’azienda decide di utilizzare l’imputazione da modello per risolvere il problema dei dati mancanti
sul Reddito. Sulla base delle informazioni fornite nella seguente tabella, indicare quale/quali
variabili introdurre nel modello di regressione
Reddito Età
lordo
mensile
Reddito
lordo
mensile
Età
Ore di
attività
sportiva a
settimana
Consumo
di cinema
settimana
in euro
Acquisto
giornali
settimanali
-Correlazione di
Pearson
-Sig.(2-code)
-N
-Correlazione di
Pearson
-Sig.(2-code)
-N
-Correlazione di
Pearson
-Sig.(2-code)
-N
-Correlazione di
Pearson
-Sig.(2-code)
-N
-Correlazione di
Pearson
-Sig(2-code)
-N
1
0,198
Ore di
attività
sportiva a
settimana
0,212
Consumo di
cinema
settimana
in euro
0,904
Acquisto
giornali
settimanali
49
0,198
0,173
49
1
0,143
49
0,263
0
49
0,223
0
49
0,190
0,173
49
0,212
50
0,263
0,065
50
1
0,120
50
0,192
0,187
50
0,174
0,143
49
0,904
0,065
50
0,223
50
0,192
0,181
50
1
0,228
50
0,911
0
49
0,966
0,120
50
0,190
0,181
50
0,174
50
0,911
0
50
1
0
49
0,187
50
0,228
50
0
50
50
0,966
3) Individuare la regressione più appropriata per la stima del dato mandante nella Tab 1 osservazione
4 e procedere alla sua imputazione
Modello 1
(costante)
Ore di attività sportiva a settimana
Consumo di cinema settimana in euro
Acquisto giornali settimanali
Età
B
416,493
17,234
16,840
866,665
0,675
Modello 2
(costante)
Consumo di cinema settimana in euro
Acquisto giornali settimanali
Ore di attività sportiva a settimana
B
440,423
17,011
866,525
17,798
Modello 3
(costante)
Consumo di cinema settimana in euro
Acquisto giornali settimanali
B
473,627
18,032
867,777
SOLUZIONE
1) Uso la tecnica Cold Deck perché ho a disposizione informazioni socio-demografiche tali che mi
permettono di individuare profili omogenei.
2) Utilizzerei solo Consumo giornali, consumo cinema perché hanno una correlazione maggiore di 0,5 con la
variabile che presenta missing (reddito)
3) utilizzerei la regressione modello 3
Osservaz.4 : reddito = 473,627 + 18,032*0 + 867,77*1 = 1341,39
LEZIONE 7
28/10/2020
LA BUSINESS ANALYTICS PER L’ANALISI DI MARKETING
Finora abbiamo visto l’importanza di avere una strategia efficace per la raccolta del dato  rispondere alla
domanda della ricerca
Se i dati sono presenti in azienda, possiamo rivolgerci ai dataset aziendali.
Se il dato non è presente, o è parzialmente presente, siamo costretti a dover integrare i nostri dati con o
dati secondari/ dati raccolti attraverso una survey.
E’ importante scegliere il “disegno del questionario”, ma anche fare una scelta opportuna dal punto di vista
della somministrazione del questionario.
La parte della raccolta del dato dev’essere particolarmente accurata  una volta raccolto, il dato NON può
essere modificato.
Una volta raccolti i dati (convinti dei dati raccolti), ci siamo imbattuti con le prime difficoltà: risposte
mancanti??
Ci sono anche casi in cui quelle mancate risposte devono rimanere tali: comportamento / la domanda che
facciamo al soggetto che stiamo intervistando, non lo riguarda!
Potrebbero esserci casi di “ineleggibilità” : se non appartengo ad una determinata categoria di persone, il
questionario NON mi viene somministrato.
Vediamo ora casi di analisi  per dimostrare che anche un indicatore di statistica molto semplice, può
essere estremamente efficace
Vediamo ora un caso specifico
Problema: sulla base dei dati ottenuti da una survey sulla GDO, è opportuno applicare strategie
differenziate per le diverse zone della città??
Motivo
principale
per essere
nostro
cliente
Prezzi
Comodità
Servizio
Altro
Qualità
Totale
Zona 1
1
1
0
1
24
27
Indicatore geografico
Zona 2
Zona 3
1
5
1
3
1
0
0
0
8
9
11
17
Zona 4
1
3
0
0
6
10
Zona 5
2
0
1
0
12
15
Totale
10
8
2
1
59
80
RIEPILOGO ELABORAZIONE CASI
N
Valido
Percentuale
N
Casi mancante
Percentuale
N
Totale
Percentuale
Motivo principale per
essere nostro cliente *
indicatore geografico
80
100,0 %
0
0,0%
80
100,0%
Come rispondo? Potrei usare anche diverse tecniche! Ovvero diversi indicatori statistici
In questo caso potrei usare un indicatore che ci aiuta a capire se c’è una certa rispondenza/associazione tra
la valutazione data e la provenienza da quale parte della città faccio la spesa: chi quadrato di Pearson
Piccolo ripasso della  TABELLA DI CONTINGENZA (rxc)
Valutaz/zona Zona 1
Valutaz 1
n11
..
..
Valutaz i
ni1
..
..
Valutaz r
nr1
Tot.
n.1
….
….
….
….
….
Zona j
n1j
..
nij
..
nrj
n.j
….
….
….
….
….
Zona c
n1c
..
nic
..
nrc
n.c
Tot.
n1.
..
ni.
..
nr.
N
nij = frequenza della coppia di modalità i-j
ni. = frequenza marginale di valutazione
n.j = frequenza marginale di zona
MISURA DI ASSOCIAZIONE
Una misura dell’intensità della connessione tra i caratteri è data dall’indice di associazione Chi-quadrato di
Pearson ( misura l’allontanamento da una condizione di indipendenza : si ha quando le righe e le colonne
della matrice non sono associate fra di loro)
SLIDE 4
Tornando al caso precedente: Test del Chi-Quadrato
Valore = 21,736
Il valore ottenuto mi dice che tra valutazione e zone cittadine c’è connessione  chi quadrato positivo
Tale affermazione risponde alla domanda posta dal caso?
Il valore trovato è sufficiente per applicare strategie differenziate per alcune zone? ASSOLUTAMENTE NO!
Il chi quadrato infatti presenta alcuni limiti:
- come dice SPSS: 20 celle hanno un conteggio previsto inferiore a 5 : il chi quadrato potrebbe restituirmi un
valore positivo più alto rispetto a quella che è realmente l’associazione fra due caratteri
 dovrei accorpare colonne o giudizi fra di loro per non aver conteggi così piccoli
Quindi in questo caso il chi quadrato potrebbe essere più elevato del reale
- il chi quadrato è un indicatore che varia da 0 a valore positivo
Vale 0  caso di indipendenza distributiva
Valore positivo  i caratteri sono fra di loro associati
Il chi quadrato sarà sempre positivo! E’ impossibile ottenere casi = 0 (nei casi che analizziamo noi: ci sono
sempre associazioni nei casi che studiamo noi)
Dobbiamo però studiare quanto queste associazioni sono forti!! Non essendo “delimitato superiormente”,
potremmo fare delle conclusioni sbagliate.
Viene da chiedersi infatti: la connessione tra valutazione e zone cittadine quanto è forte??
Abbiamo bisogno di un indicatore che ci permette di capire (anche percentualmente) quanto sono
connesse fra loro riga e colonna
 chi quadrato normalizzato : V di Cramer
E’ necessario calcolare un χ 2 normalizzato che assuma valori tra 0-1
Valore 0 : indipendenza statistica
Valore 1 : massima interdipendenza / associazione perfetta
Per normalizzare un qualsiasi indicatore, devo calcolarmi il massimo valore di χ 2
Max = Nxk
N = totale delle frequenze
k = valore minimo tra il numero delle righe e il numero delle colonne della tabella a doppia entrata cui si
sottrae il valore 1, ossia k = Min[r-1, c-1]
V di Cramer
V = √( χ 2/N ) / k
0≤V≤1
Nel caso in esame:
V = √(21,736/80) / 4
= 0,261
Non è un valore estremamente forte.
Può comunque incidere sulla scelta di operare su strategie differenti.
La relazione che osservo è forte per il 26,1 %
Il valore minimo del χ 2 che l’indice può assumere è 0.
Il valore massimo del χ 2 è Nxk = 80 x 4 = 320
L’indice V potrebbe soffrire di bias nel sovrastimare la forza della relazione esistente.
Per correggere la stima ottenuta di procede al calcolo di un V corretto:
(non viene effettuata questa correzione dal software)
SLIDE 9 – 10
NB. La correzione di V è necessaria in quanto l’indicatore sovrastima la potenza della relazione tra le
variabili monitorate. La relazione indicata è MOLTO MENO importante
 potrei continuare a perseguire il mio approccio, senza utilizzare strategie differenziate
Le strategie si cambiano quando si trovano relazioni forti fra le variabili della tabella a doppia entrata,
altrimenti no.
Esercizio da svolgere
Un brand di abbigliamento ha cambiato design e vuole verificare se ciò ha influito nella percezione dei suoi
prodotti:
Sesso
Totale
Maschio
Femmina
Soddisfazione prezzi
Molto
Alquanto
negativo
negativo
22
47
50
88
72
135
Neutrale
48
92
140
Alquanto
positivo
58
87
145
Molto
positivo
34
56
90
Totale
209
373
582
a) Ci si può aspettare che le donne siano più soddisfatte degli uomini? Motivare la risposta
b) Quale indicatore statistico utilizzereste per valutare l’eventuale presenza di una relazione tra le due
variabili (genere e soddisfazione)? Scrivere la formula
c) Nel caso il chi-quadrato della tabella sia pari a 2.318, calcolare la V di Cramer e commentarne il
valore
a) Possiamo utilizzare anche indicatori che conosciamo  utilizzare una distribuzione di frequenza
c) non è chiesta quella corretta!
LEZIONE 8
02/11/2020
Consideriamo ora il caso delle tabelle 2x2
Immaginiamo di aver raccolto una serie di dati che riguardo l’acquisto o meno di un determinato prodotto
da parte di un soggetto e l’informazione riguardo al like che tale soggetto ha messo o meno al
brand/prodotto stesso.
A (like pagina) e B (acquisto prodotto)
A/B
Like
No Like
Tot.
Acquistato
n11
n21
n.1
Non acquistato
n12
n22
n.2
Tot.
n1.
n2.
n
n11 = numero di transazioni in cui i soggetti hanno messo like alla pagina del brand e hanno acquistato il
prodotto
n = numero totale di transazioni
n1. = numero di soggetti nel caso specifico (che hanno messo like alla pagina)
n2. = numero totale di soggetti che non ha messo like (indipendentemente che l’abbiano acquistato o
meno)
n.1 = numero di soggetti che acquistano
n.2 = numero di soggetti che non acquistano
Oggi vediamo un indicatore che si indica essenzialmente in “epidemiologia”  studia il risultato
(“outcome”) che vediamo su una variabile, condizionatamente al fatto che si sia verificato un particolare
fattore di rischio.
In questo caso l’”outcome” : acquisto / non acquisto ; il “fattore di rischio” : like/no like
Studiamo gli ODD (“quota relativa”) 
Con il termine inglese odds si intende il rapporto tra la probabilità (p) di un evento e la probabilità che tale
evento non accada (cioè la probabilità [1-p] dell’evento elementare)
Esempio: TABELLA DI CONTINGENZA
Acquisto di jeans / like al prodotto stesso
BRAND / JEANS
Like
No like
TOT
Acquistato
92
125
217
Non acquistato
94
118
212
TOT
186
243
429
Proviamo a calcolare gli “ODDS”
Probabilità che si verifichi l’evento  acquisto dei jeans
Probabilità che non si verifichi  non acquisto dei jeans
Andiamo a calcolare gli ODDS siamo nel caso in cui il soggetto preso in considerazione abbia messo like o no
al prodotto in questione (e andiamo a confrontare le due situazioni)
1. Consideriamo i soggetti che hanno messo like  studiamo solo 186 unità (prima riga)
Probabilità dell’evento “acquisto”  92 / 186 = 0,494
Probabilità che si verifichi l’evento complementare  94/186 = 0,505
ODD : 0,494 / 0,505 = 0,978
Oppure : n11/n12 = 92/94 = 0,978
2. Consideriamo i soggetti che non hanno messo like  studiamo solo 243 unità (seconda riga)
Probabilità dell’evento “acquisto”  125 / 243 = 0,514
Probabilità dell’evento complementare  118 / 243 = 0,485
ODD : 0,514 / 0,485 = 1,06
Oppure : n21/n22 = 125/118 = 1,06
NB: L’ODD non è una probabilità! E’ un rapporto tra due probabilità (di successo e di insuccesso) 
potrebbe variare tra 0 e infinito
Perché li calcoliamo???
Dobbiamo costruirci un indicatore  ODDS RATIO : indica quante volte siano più a “rischio” di evento
(acquisto dei jeans) i soggetti ESPOSTI ad un certo fattore di rischio (coloro che mettono like) rispetto ai
soggetti NON ESPOSTI
 valuta quante volte il rischio è più grande in certi soggetti esposti ad un certo fattore di rischio, rispetto a
quelli non esposti
OR = O1 / O2 = (n11*n22) / (n12*n21)
Nell’esempio: (92*118) / (94*125) = 0,92
Come si interpreta tale valore? La probabilità di acquistare i jeans è circa uguale tra coloro che mettono like
e coloro che non lo mettono
OR = 1 , significa che la presenza del like è ininfluente sull’acquisto del jeans
 il fattore di rischio non è molto discriminante
OR > 1 : associazione positiva (relazione diretta) : se un carattere è presente, è relativamente più probabile
che anche l’altro lo sia
0 < OR < 1 : associazione negativa (relazione inversa) : se un carattere è presente, è relativamente più
probabile che l’altro invece non lo sia
Tale indicatore mi aiuta a dare delle indicazioni sulla “direzione” dell’associazione
Esempio 2 : si vuole capire se esiste associazione positiva tra la propensione all’acquisto del vestito 1 e la
propensione all’acquisto del vestito 2
(si pensi ad un sito di e-commerce!)
TABELLA DI CONTINGENZA
Acquisto_Vestito 1
Si
No
Totale
Si
17
15
32
Acquisto_Vestito 2
No
61
112
173
Esiste una propensione positiva tra l’acquisto del vestito 1 e l’acquisto del vestito 2 ??
Calcoliamo gli ODDS RATIO !
O1 = 17/61 = 0,279
O2 = 15/112 = 0,134
[potrei usare anche l’altro metodo di calcolo]
Totale
78
127
205
OR = 0,279/0,134 = 2,08  associazione positiva
La probabilità di acquistare il vestito 2 è 2 volte più grande tra coloro che acquistano il vestito 1, rispetto a
coloro che non l’acquistano affatto!
Tanto più cresce l’ODD RATIO, tanto più è importante considerare il “fattore di rischio”;
tanto più l’associazione è negativa (x es: 0,5 : la probabilità è dimezzata tra quelli che acquistano il vestito 1
di acquistare il vestito 2)
Nell’ambito dello studio di nuovi indicatori, ce n’è uno: “indicatore asimmetrico”, che si utilizza nella tabella
a doppia entrata. Quando calcoliamo il chi-quadrato ci dà l’indicazione, se due caratteri sono tra loro
associati.
L’indicatore asimmetrico va invece a studiare la probabilità che si verifichi un evento, dopo che se n’è
verificato un altro  è interessante perché è come se la caratteristica che si verifica per prima, funge da
predittore a quello che si verifica successivamente
INDICATORI ASIMMETRICI
Considerazioni iniziali: due prodotti, A e B, possono presentarsi insieme “nel carrello” per il solo effetto del
caso se l’acquisto di A è indipendente da quello di B:
P(A ∩ B)= P(A) x P(B)
ovvero
P(A | B) =P(A∩B) / P(B) =P(A)
A ∩ B = intersezione (A e B si verificano simultaneamente);
A | B = A condizionato a B (A si verifica dopo che si è verificato B)
L’associazione si misura valutando lo scarto tra la situazione osservata e quella teorica di indipendenza
Misure di direzione  indici asimmetrici
1. Lambda  riduzione proporzionale nella probabilità dell’errore di previsione (P.R.E.), conoscendo
la modalità della variabile esplicativa ;
2. Tau di G. & K.  riduzione proporzionale nell’incertezza (misurata attraverso l’eterogeneità) ;
3. Coefficiente di incertezza  riduzione proporzionale nell’incertezza (misurata attraverso l’entropia)
NB. Se il “chi-quadrato” è 0, non posso neanche studiare questi indici ! Ovvero lambda sarebbe 0
Tali indici variano tra 0 e 1 :
0  la variabile esplicativa non aumenta l’informazione
1  la variabile esplicativa consente di prevedere esattamente la variabile dipendente (perfetta relazione)
NB: La dicotomia sì/no, acquista/non acquista… spesso trascura informazioni importanti  ad esempio:
motivazioni, caratteristiche personali, preferenze personali, ecc…
Concentriamoci su Lambda
INDICE LAMBDA
L’indice probabilità λY|X rappresenta la riduzione proporzionale nel commettere un errore di previsione,
passando da :
i)nessuna informazione
a
ii) si conosce anche la modalità di X
λY|X = Probabilità di errore nel caso i) – Probabilità di errore nel caso ii)
Probabilità di errore nel caso i)
Esempio:
Legge quotidiano
n11
n21
n31
n.1
Operaio
Impiegato
Manager
TOT
Non legge quotidiano
n12
n22
n32
n.2
TOT
n1.
n2.
n3.
n
In questa tabella ho r : righe della tabella e c : colonne della tabella
In formula:
λY|X = ∑ ni (max) – n. (max)
n – n. (max)
ni(max) = max (ni1,ni2,…..,nic) = max(nij)
n.(max) = max (n.1,n.2,…,n.c) = max(n.j)
(in corrispondenza della riga i-esima) j= 1,2,…c
(più grande dei totali di colonna)
Esempio:
La professione svolta dai consumatori mi aiuta a prevedere la loro scelta sull’acquisto di un nuovo magazine
? (SI / NO) ???
Acquisto
Professione
Imprenditore
Executive
Libero
professionista
Operaio
Commerciante
Impiegato
TOTALE
SI
13
40
37
NO
16
31
49
TOTALE
29
71
86
49
6
98
243
16
18
56
186
65
24
154
429
Se NON conoscessi la professione svolta dai consumatori, potrei concludere che i consumatori osservati
sono acquirenti di una nuova testata giornalistica, azzeccando la previsione nel
243/429 = 0,566 56,6 % delle volte, ma commettendo un errore
186/429 = 0,433 43,3% delle volte
Se conosco la professione svolta dai consumatori posso prevedere la loro scelta sull’acquisto del magazine
(SI/NO)? Utilizzando l’informazione sulla loro professione e calcolato la statistica λY|X
 se conosco la professione, prevedo la loro scelta sull’acquisto o meno della testata giornalistica
utilizzando λY|X
n1max = 16
n2max = 40
n3max = 49
n4max = 49
n5max = 18
n6max = 98
λY|X = (16+40+49+49+18+98) – 243 / 429 – 243 = 0,145
 La conoscenza della professione riduce l’errore sulla propensione all’acquisto del magazine del
14,5% (ho un’indicazione forte su coloro che sono propensi all’acquisto)
USANDO SPSS
Calcolo LAMBDA  è una misura direzionale: non è uguale per tutta la tabella, devo specificare qual è la
variabile che voglio prevedere
ACQUISTO: variabile dipendente
PROFESSIONE: mi aiuta a prevedere l’acquisto, riducendo l’errore di previsione del 14,5%
[Altri calcoli:
Chi-quadrato di Pearson: 30,295
V di cramer: 0,266 ]
Esercizio da svolgere:
Si conoscono i dati di una survey che indaga le abitudini degli italiani circa il proprio tempo libero.
Tra le domande del questionario una affronta il tema dell’acquisto di abbonamenti TV a pagamento
Classe di età
18 - 24
25 - 34
35 - 49
50 – 64
 65
Totale
Conteggio
% in Possiede Pay tv
Conteggio
% in Possiede Pay tv
Conteggio
% in Possiede Pay tv
Conteggio
% in Possiede Pay tv
Conteggio
% in Possiede Pay tv
Conteggio
% in Possiede Pay tv
Possiede Pay tv
No
Sì
1
3
2,3 %
8,1 %
5
8
11,6 %
21,6 %
10
8
23,3 %
21,6 %
16
7
37,2 %
18,9 %
11
11
25,6 %
29,7 %
43
37
100,00 %
100,00 %
Totale
4
5,0 %
13
16,3 %
18
22,5 %
23
28,7 %
22
27,5 %
80
100,00 %
a) Valutare tramite l’uso di un opportuno indice, la previsione circa il possesso della Pay Tv
b) A quale fascia d’età la Pay Tv sembra piacere maggiormente?
LEZIONE 10 09/11/2020
LA MARKET BASKET ANALYSIS
studia l’acquisto simultaneo di prodotti
 ovvero le associazioni di prodotto che vengono fatte dai clienti
Ci fornisce informazioni interessanti riguardo la “customer base”
Obiettivo: evidenziare gruppi di prodotti che tendono a presentarsi insieme in una transazione.
Con riferimento ad un insieme di consumatori, ad esempio quelli con la carta fedeltà di un particolare
supermercato: interessante studiare composizione dei “carrelli di spesa” cioè della composizione dei beni
che vengono acquistati simultaneamente in una visita del consumatore.
Risulta inoltre interessante per l’azienda capire anche quali siano i prodotti NON compaiono mai (o quasi
mai) nel medesimo carrello.
Come già detto, la carta fedeltà ci offre tante informazioni interessanti: la frequenza della spesa, se il
soggetto è singolo oppure fa riferimento ad un intera famiglia.
Ci sono coppie di ITEM che si presentano quasi sempre insieme?
Si pensi a: LATTE + BISCOTTI / CAFFE’ + ZUCCHERO
OGGI la market basket si utilizza anche per analizzare le transazioni di siti di e-commerce
Alcune applicazioni della Market Basket:
-riorganizzazione lay-out supermercato  i prodotti venduti spesso insieme dovrebbero essere posizionati
nella stessa zona (viene effettuato da ogni singolo supermercato!);
Questo vale anche nel caso di vendita online : se visualizzo un prodotto, vicino posiziono un prodotto
“associato”
-aumento efficacia promozioni  prodotti fortemente associati non dovrebbero essere in promozione
insieme  la promozione su uno incrementa anche le vendite dell’altro (non ho necessità di scontarli
insieme);
-brand research  studio effettuati dai brand tra prodotti associati (x es latte e biscotti) oppure nel
riacquisto del medesimo prodotto: c’è fedeltà alla marca ???;
-web mining  si studia la relazioni tra le pagine visitate di un sito di e-commerce (permette di capire e
riorganizzare meglio il sito)
INFORMAZIONI RICAVABILI DA UN PAGAMENTO
 presenta numerosi dettagli
Per una transazione presso un punto vendita si conoscono:
 l’elenco dei prodotti acquistato e la relativa numerosità;
 il prezzo di vendita;
 l’identificativo del cliente, se è in possesso di una carta fedeltà o il pagamento è effettuato con la
carta di credito;
 l’importo complessivo della transazione;
 la modalità di pagamento
Iniziamo ora a studiare la Market Basket Analysis.
Facciamo analisi piuttosto semplici, utilizzando il foglio Excel.
IL PANIERE DEI PRODOTTI ACQUISTATI
Id. transazione
t1
t2
t3
t4
t5
……
tk
Id. cliente
c1
c2
c3
c1
c3
…..
ci
Paniere di prodotti
{A,B,D}
{C,E}
{A,F}
{B,D}
{A,D,F}
{F,Z}
Id. transazione  indichiamo la transazione
(un soggetto i-esimo può effettuare più di una transazione, x es se facciamo statistiche settimanali/mensili)
Il cliente 1 effettua due transazioni: nella prima acquista i prodotti {A,B,D}, nella seconda acquista i prodotti
B e D.
Presso il punto vendita sono disponibili alcuni prodotti che il cliente può acquistare {A,B,C,D,E,F,G,…,Z}.
MATRICE DEI DATI DELLE TRANSAZIONI
Il paniere di prodotti di ogni transazione è rappresentato con una sequenza di numeri binari (applicare una
“codifica disgiuntiva”), che indicano l’acquisto (1) o il mancato acquisto (0) di un prodotto.
Id.
Id.
transazione cliente
t1
c1
t2
c2
t3
c3
t4
c1
t5
c3
…
….
tk
ci
Var. descr.
Cliente
(genere,
età,
residenza….)
A
B
PRODOTTO
C
D
…….
Z
1
0
1
0
1
…..
0
1
0
0
1
0
….
0
0
1
0
0
0
….
0
….
….
….
….
….
….
….
0
0
0
0
0
….
1
1
0
0
1
1
…
0
ESEMPIO: MK 1.XLS (esempio molto semplice)
Focalizziamoci su 5 prodotti: A,B,C,D,E.
Consideriamo un sottoinsieme di transazioni che sono state eseguite nel nostro punto vendita dai clienti
indicati (6 persone).
Id.
Id. cliente
transazione
t1
c1
t2
c2
t3
c3
t4
c1
t5
c3
t6
c4
t7
c5
t8
c2
t9
c4
t10
c6
t11
c5
t12
c6
A
B
Prodotti
C
D
E
1
0
0
0
1
1
1
1
0
1
0
0
1
0
0
1
0
0
0
1
0
1
1
0
1
0
1
0
0
0
0
1
0
0
1
1
1
1
0
1
0
1
0
0
1
0
0
1
0
1
1
0
0
0
1
0
0
0
0
0
INZIAMO studiamo alcuni concetti
La market basket analysis si basa su: se l’acquisto del prodotto A implica l’acquisto del prodotto B
 REGOLE DI ASSOCIAZIONE: DEFINIZIONE
Una regola associativa descrive un’implicazione logica tra due proposizioni (eventi, attributi, …).
NB: si studiano anche caratteristiche/attributi di prodotti
Ad esempio, consideriamo l’acquisto del prodotto A e l’acquisto del prodotto B.
Si può definire una regola associativa che pone in relazione i due eventi.
In generale, si indica con {A} ⟹ {B} la regola associativa «se si acquista A, allora si acquista B».
La regola di associazione pone in relazione due proposizioni:
• «se si acquista A», chiamata proposizione antecedente;
• «allora si acquista B», chiamata proposizione conseguente.
Studiamo ora alcuni INDICATORI
Per misurare la relazione che lega l’acquisto del prodotto A e quello del prodotto B, può essere conveniente
costruire una tabella 2x2 con le frequenze congiunte delle transazioni rispetto all’acquisto dei due prodotti
PRODOTTO B
Acquistato
Non acquistato
Totale
n11
n21
n.1
n12
n22
n.2
n1.
n2.
n
PRODOTTO A
Acquistato
Non acquistato
Totale
n  numero totale delle transazioni
n11  numero di transazioni che includono contemporaneamente i prodotti A e B
Quali sono questi indicatori??
 Il SUPPORTO di {A}  {B}
S ({A}  {B}) = n11 / n
Il supporto di {A}  {B} indica la proporzione di transazioni nelle quali compaiono simultaneamente i
prodotti A e B rispetto al totale delle transazioni avvenute nel punto vendita (è una frequenza relativa)
 La PREDICIBILITA’ di {A}  {B}
P({A}  {B}) = n11/n1.
La predicibilità di {A}  {B} indica la proporzione di transazioni che includono contemporaneamente i
prodotti A e B rispetto al numero di transazioni che includono il prodotto A (è una freq.condizionata)
 Il LIFT di {A}  {B}
L({A}  {B}) = n11/n1.
n.1/n
= n11 / n’11
Dove n’11 è la frequenza teorica dell’acquisto congiunto di A e B ipotizzando che l’acquisto di A e l’acquisto
di B siano eventi indipendenti.
Il lift di {A}  {B} è il rapporto tra la predicibilità osservata e la predicibilità attesa nel caso in cui l’acquisto
di B è indipendente da quello di A.
Se L({A}  {B} > 1 : esiste un’associazione positiva tra l’acquisto di A e l’acquisto di B
Se 0 < L({A}  {B}) < 1 : esiste un’associazione negativa tra l’acquisto di A e l’acquisto di B
ESEMPIO DI LETTURA
-
Il SUPPORTO di {A}  {B} = 0,2
La presenza simultanea dei due prodotti è presente nelle transazioni analizzate per una percentuale pari al
20% (frequenza “importante”)
-
La PREDICIBILITA’ di {A}  {B} = 0,65
La probabilità che uno scontrino annoveri il prodotto B se esso già presenta il prodotto A è pari al 65%
-
Il LIFT di {A}  {B} = 1.95
L’associazione tra i due prodotti è positiva: la probabilità che uno scontrino presenti il prodotto B quando è
già presente il prodotto A è quasi doppia rispetto alla medesima probabilità calcolata sull’insieme di tutte le
transazioni.
Analizziamo ora i dati dell’esempio precedente (foglio excel)
Andiamo ora a calcolare gli indicatori precedentemente introdotti per calcolare l’associazione.
Calcoliamo il SUPPORTO
 per prima cosa effettuo la SOMMA fra l’acquisto di due prodotti
 faccio tutte le combinazioni possibili
Cosa devo considerare??? SOLO l’acquisto congiunto di due prodotti!
Successivamente per trovare n11 : devo dividere tutti gli “acquisti congiunti” / 2
Per trovare il supporto : n11 / n
n: sono le transazioni totali (nel mio esempio sono 12)
Abbiamo due associazioni di prodotti più forti: A+B / B+C = 0,25
CLASSIFICAZIONE DELLE REGOLE DI ASSOCIAZIONE
• Le regole di associazione più rilevanti sono quelle che presentano un elevato supporto ed una elevata
predicibilità
• Un supporto elevato assicura che la frazione di transazioni coinvolte nella regola associativa sia
considerevole.
Quindi che le conseguenti azioni di marketing siano rivolte ad un numero non esiguo di consumatori.
• Una predicibilità elevata permette di selezionare dei gruppi di consumatori con un comportamento di
acquisto prevedibile, a cui indirizzare azioni di marketing mirate.
• Si fissano delle soglie minime per individuare la regole associative più interessanti.
Tali soglie variano in base al contesto in cui la market basket analysis è applicata (grande distribuzione, ecommerce …).
Le regole associative evidenziate dall’analisi possono essere:
-banali (facili da immaginare);
-non banali (individuabili solo con l’esplorazione dei dati delle vendite).
Una regola associativa non banale può derivare da:
attività esogene:
-cambiamenti delle preferenze dei consumatori;
-azioni della concorrenza;
attività endogene:
-promozioni che hanno modificato il comportamento d’acquisto dei consumatori;
-introduzione di nuovi prodotti che determina la cannibalizzazione di altri prodotti.
LEZIONE 11 11/11/2020
Sia nel caso di analisi del carrello della spesa (online o fisico), questi indicatori servono per mettere in
evidenza le associazioni forti.
MARKET BASKET ANALYSIS: dipende essenzialmente da due grandezze: numero di transazioni / numero di
prodotti
Selezione delle regole di associazione
Le regole di associazione da valutare sono numerose nel caso in cui i prodotti acquistabili presso il punto
vendita sono molti.
È necessario selezionare le regole associative più importanti.
L’individuazione delle regole associative più importanti avviene in due stadi:
• 1° stadio: si selezionano le regole associative con un supporto che eguaglia o supera una soglia
minima, detta “supporto minimo”, fissata a priori;
• 2° stadio: tra le regole associative selezionare al 1° stadio, si scelgono quelle con una predicibilità che
eguaglia o supera una soglia minima, detta “predicibilità minima”, stabilita a priori.
VEDI EXCELL
Fisso un “supporto minimo” : 0,2  le combinazioni di valori con cui andremo a lavorare sono {A,B} e {B,C}.
Tutte le altre coppie di prodotti sono inferiori al 20%  non verranno considerate nel calcolo della
predicibilità.
Calcoliamo la predicibilità sulla coppia di prodotto A-B e B-C.
SELEZIONE DELLE REGOLE DI ASSOCIAZIONE: 1^ STADIO
Si considerano cinque prodotti {A,B,C,D,E} e tutte le possibili combinazioni di cinque prodotti, presi a due a
due.
COMBINAZIONI DI
PRODOTTI
{A,B}
{A,C}
{A,D}
{A,E}
{B,C}
{B,D}
{B,E}
{C,D}
{C,E}
{D,E}
SUPPORTO
SUPPORTO MINIMO
SELEZIONE
0,25
0,17
0,17
0,08
0,25
0,17
0,00
0,17
0,08
0,08
0,2
0,2
0,2
0,2
0,2
0,2
0,2
0,2
0,2
0,2
SI
NO
NO
NO
SI
NO
NO
NO
NO
NO
Il supporto di un regola associativa è una misura simmetrica perché non dipende dalla direzione
dell’implicazione logica.
Ad esempio, S({A} ⟹ {B}) è uguale a S({B} ⟹ {A}.
Per una coppia di prodotti, si può calcolare il supporto senza stabilire la direzione della regola.
SELEZIONE DELLE REGOLE DI ASSOCIAZIONE: 2^ STADIO
Predicibilità: si calcola a partire da una tabella a doppia entrata.
EXCEL  prendo i valori di A e B.
Costruisco una tabella “id” ha valore 1 : ciascuna riga ha una transazione.
Tramite l’utilizzo di una tabella pivot, costruisco una tabella a doppia entrata.
In cui in riga inserisco i valori di A ed in colonna inserisco i valori di B.
Trovo quindi la predicibilità
REGOLA
{A}  {B}
{B}  {A}
{B}  {C}
{C}  {B}
PREDICIBILITA’
0,5
0,6
0,6
0,6
PREDICIBILITA’ MINIMA
0,6
0,6
0,6
0,6
SELEZIONE
NO
SI
SI
SI
La cosa ottimale da fare ora è calcolare il LIFT delle regole selezionate (per verificare che la predicibilità
osservata è maggiore di quella attesa nell’ipotesi in cui i prodotti siano acquistati in maniera indipendente).
Calcoliamo il LIFT, riferito alle 3 associazioni di prodotto che sono state identificate come le associazioni più
forti.
(Una volta che le regole associative forti sono state estratte, è conveniente calcolare il lift per verificare se
la predicibilità osservata è maggiore della predicibilità attesa nell’ipotesi che l’acquisto conseguente non sia
influenzato dall’acquisto antecedente)
L({B}  {A}) = 1,22  LA PROBABILITA’ DI ACQUISTARE B E CONSEGUENTEMENTE A E’ MAGGIORE DELLA
PROBABILITA’ DI ACQUISTARE A
L({B}  {C} = 1,44  La probabilità di acquisto del prodotto C, quando si è già acquistato B, è quasi una
volta e mezzo rispetto alla probabilità calcolata su tutte le transazioni
L({C}  {B}) = 1,44
L’osservazione è più interessante quando maggiore è il valore del LIFT.
Una volta trovate le regole, cosa si fa?
Si realizzano dei DIAGRAMMI DI ASSOCIAZIONE in cui descriviamo le regole forti.
Rappresentiamo con i cerchi i prodotti che abbiamo analizzato a coppie.
La freccia indica l’implicazione dell’acquisto.
Il valore che indiciamo sopra la freccia indica la predicibilità osservata.
In alcuni casi possiamo avere una freccia bidirezionale  è importante perché l’associazione funziona in
maniera simmetrica.
SLIDE 5
Generalizzazione
La definizione della regola associativa può coinvolgere più di un prodotto, sia nella proposizione
antecedente sia nella proposizione conseguente.
• {A,B} ⟹ {C} : «se si acquistano i prodotti A e B» è la proposizione antecedente, «allora si acquista C» è la
proposizione conseguente.
• {A,B} ⟹ {C,D} : «se si acquistano i prodotti A e B» è la proposizione antecedente, «allora si acquistano C e
D» è la proposizione conseguente.
• {A,B,C} ⟹ {D} : «se si acquistano i prodotti A, B e C» è la proposizione antecedente, «allora si acquista D»
è la proposizione conseguente.
ESERCIZIO 1
Id. transazione
T1
T2
T3
T4
T5
T6
T7
T8
Id. cliente
C1
C2
C3
C1
C3
C4
C5
C2
A
1
0
1
0
1
1
0
1
Prodotti
B
1
1
0
1
0
0
1
1
C
1
0
1
0
0
1
1
0
D
0
0
0
1
1
0
1
1
T9
T10
T11
T12
C4
C6
C7
C5
0
1
0
1
1
1
1
0
0
1
0
1
0
0
1
0
ESERCIZIO 2
Id.
transazione
T1
T2
T3
T4
T5
T6
T7
Id. cliente
A
B
PRODOTTI
C
C1
C2
C3
C1
C3
C4
C5
1
0
0
0
1
1
1
0
0
0
1
0
0
0
1
0
1
0
0
0
0
D
E
1
1
0
1
0
1
0
0
1
1
0
0
0
1
T8
T9
T10
C2
C4
C6
1
0
1
1
0
0
1
0
0
0
1
0
0
0
0
TECNICHE PER COSTRUIRE UNA LISTA DI CLIENTI
È molto importante riuscire a creare un ranking nella lista di clienti di un’azienda.
Le tecniche che vedremo sono (non sono parametriche):
• Metodo ABC  identificazione di clienti che hanno maggior valore economico
• RFM
Le due tecniche sono molto semplici, poco robuste, ma sono molto usate in azienda.
Non hanno solide basi statistiche, ma si basano su delle regole assegnate a priori che ci aiutano
nell’assegnazione di punteggi automatici.
Noi studieremo solo la tecnica RFM.
Se dovessimo stilare una classifica dei clienti che sono maggiormente interessanti per l’azienda
 quali sono le variabili che consideriamo per poter stabilire questa classifica?
x es: guardare il prezzo degli item acquistati dal soggetto, quante volte il soggetto fa la spesa nel punto
vendita (frequenza), quanto di recente è venuto a fare acquisti….
La tecnica RFM si basa proprio su questi 3 pilastri.
La tecnica contempla oltre al fatturato cioè l’ammontare di acquisti fatti dal cliente nel tempo
(M: monetary) anche la vicinanza temporale dell’acquisto (R: recency) e la frequenza d’acquisto
(F: frequency) nel periodo monitorato.
Alle volte al posto della frequenza d’acquisto si possono utilizzare la percentuale di comunicazioni o mail a
cui il cliente ha dato risposta.
La tecnica mira a segmentare i clienti tra quelli che acquistano spesso items che costano poco da quelli che
ad es. acquistano con meno frequenza ma item più costosi.
La tecnica ha come obiettivo di indicare i clienti “migliori”.
Come funziona la tecnica?
Si basa sullo studio di queste 3 dimensioni.
E’ utile per:
-identificare i clienti migliori (avranno punteggio più alto);
-elaborare proiezione di elevata precisione sui futuri profitti;
-individuare i clienti verso cui indirizzare una campagna;
-accrescere la redditività di un mailing.
CLIENTI MIGLIORI SONO QUELLI:
-hanno effettuato un acquisto di recente;
-hanno acquistato più di frequente nell’intervallo temporale;
-hanno effettuato acquisti di importo monetario rilevante.
Studiamo quindi le mie 3 dimensioni: frequenza, recency e monetary.
• vicinanza temporale dell’acquisto nel periodo è suddiviso in trimestri;
(evidenziare se gli acquisti sono più remoti oppure sono più recenti)
• frequenza degli acquisti (considerata nel punteggio direttamente o ponderata);
• valore monetario calcolato solitamente considerando il 10% del valore totale degli acquisti fatti dal
cliente.
Lo score che andiamo a costruire ha l’obiettivo di “creare una classifica”, ovvero creare un “ranking”.
Lo score RFM richiede un sistema di pesi (ponderazione delle variabili) è differenziato a seconda della
natura del bene.
Tale sistema di pesi può essere ripensato e revisionato, a seconda che l’azienda decida di attribuire
maggiore importanza ad una variabile piuttosto che ad un’altra.
Criteri di ponderazione
Recentezza dell’acquisto
-
20 punti per un acquisto effettuato entro gli
ultimi 3 mesi
10 punti per un acquisto effettuato entro gli
ultimi 6 mesi
5 punti per un acquisto effettuato entro gli ultimi
9 mesi
3 punti per un acquisto effettuato entro gli ultimi
12 mesi
1 punto per un acquisto effettuato entro gli
ultimi 24 mesi
Frequenza di acquisto
-
Valore monetario degli acquisti
-
Ponderazione delle variabili RFM
-
Numero di acquisti effettuati entro gli ultimi 24,
mesi ponderati moltiplicando per 4 il numero di
tali acquisti, fino ad un valore massimo di 20
10% del valore totale degli acquisti effettuati
negli ultimi 24 mesi, fino ad un valore massimo di
20
Recency: 5
Frequency: 3
Monetary: 2
L’azienda in questione decide di dare un maggior peso al fatto che l’acquisto sia successo recentemente,
rispetto alla frequenza di acquisto ed al valore monetario
(scelta soggettiva): in questo caso il valore finale = 10
Caso: possibile applicazione ad un caso
Esempio:
Id
1561
1561
1561
1581
1592
1592
1592
1592
Acquisto n
1
2
3
1
1
2
3
4
Mese
3
9
12
9
3
6
12
12
Vediamo ora
N.
Acquisto Recency
CLIENTE n (1)
(in
mesi)
(2)
1561
1
3
1561
2
9
1561
3
12
1581
1
9
1592
1
3
1592
2
6
1592
3
12
1592
4
12
continuo
Punteggio
assegnato
(3)
20
5
3
5
20
10
3
3
Punteggio
ponderato
x5
(4)=(3) x 5
100
25
15
25
100
50
15
15
N.
Monetary
cliente (.000)
(9)
Punteggio
assegnato
(10)
Punteggio
ponderato x
2
(11) = (10) x
2
1561
1561
1561
1581
4
15
4
20
8
30
8
40
40
150
40
600
Frequency Punteggio Punteggi
(6)
assegnato ponderato x3
(7)
(8)=(7)x3
1
1
2
2
1
2
2
1
Totale
punteggi
ponderati
(12) = (4) +
(8) +
(11)
120
67
47
89
4
4
8
8
4
8
8
4
12
12
24
24
12
24
24
12
Punteggi cumulati
120
187
234
89
1592
1592
1592
1592
110
90
60
30
11
9
6
3
22
18
12
6
134
92
51
33
134
226
277
310
Il cliente 1561 raggiunge il punteggio 234.
Il cliente 1592 totalizza un punteggio pari a 310 e si rivela in assoluto il più interessante per l’azienda.
16/11
LEZIONE 12
Ritorniamo allo studio della RFM.
Proviamo ad applicare tale tecnica in un caso reale.
Consideriamo un caso di studio  campione di circa 1000 clienti da analizzare per identificare chi ha
maggiore probabilità di rispondere a una nuova offerta.
Il file è composto da 4 variabili.
Abbiamo l’importo dell’acquisto / recente (la data dell’acquisto) / n. acquisti
Attraverso SPSS costruisco il mio studio della RFM.
Vediamo le variabili:
DATA O INTERVALLO DELLA TRANSAZIONE  “più recente”
NUMERO DI TRANSAZIONI  “Num. Acquisti”
QUANTITA’  “importo totale”
IDENTIFICATIVI DEL CLIENTE  “ID”
Numero di bin???
Ponderiamo come nell’ultima lezione:
-attualità: 5;
-frequenza: 3;
-monetario: 2
METODO DI RACCOLTA: Può essere di due tipi:
-Nidificato  vengono raccolte le transazioni che si riferiscono ad uno stesso soggetto;
-Indipendente  le transazioni vengono considerate indipendenti (i clienti vengono considerati tali)
Applico RFM.
Ottengo per prima cosa la mappa “Conteggi dei bin”  tutte le possibili classificazioni che possiamo fare a
partire dall’incrocio dei due livelli monetari, 3 livelli di frequenza e 5 livelli differenti in corrispondenza dei
diversi livelli di attualità.
Troviamo tante possibili differenti fasce (30 diverse fasce di clienti).
Le possibili segmentazioni che possiamo ottenere, dipende dal numero dei Bin che compongono le singole
dimensioni.
Come si fa a distinguere il livello monetario (la soglia monetaria) a cui associa il valore 1 o il valore 2 ???
Come si fa a identificare i tre diversi livelli di frequenza??
SPSS cerca di fare delle classificazioni tali in modo da avere all’interno delle singole fasce identificate,
sempre un numero identico / equiparabile di clienti (a differenza di come potremmo fare noi)
 NON stabilisce la soglie a priori!
Proviamo ora a leggere il RISULTATO, rappresentato dalla “MAPPA TERMICA”
Ci racconta la distribuzione del valore medio di spesa per ciascuna delle 15 fasce che sono identificate
nell’incrocio tra i valori di frequenza (3 fasce) e dimensione attualità (5 fasce).
Possiamo quindi identificare coloro che hanno acquistato più recentemente e coloro che hanno un “valore
monetario” più elevato  quelle più scure sono sicuramente quelle più interessanti.
La possibilità di vedere che recentemente acquistano di più e con maggiore frequenza, è un risultato
assolutamente interessante per l’azienda.
Possiamo anche analizzare gli ISTOGRAMMI proposti da SPSS
 rappresentano le tre dimensioni: frequenza / valore item acquistato / recency.
I dati variano da un minimo che è il 2004 ad un acquisto più recente del 2006.
L’analisi degli istogrammi in realtà dovrebbe essere fatta inizialmente  tramite questo tipo di
osservazione possiamo stabilire quanti BIN scegliere (in quante modalità articolare le singole dimensioni).
E’ importante fare attenzione sulla differenza di FRECENCY e MONETARY !
Quanto più diamo importanza alla dimensione ATTUALITA’ (si pensi agli acquisti di un supermercato: ha
senso ragionare in un anno / se il prodotto ha un coinvolgimento più elevato, ha senso estendere il periodo
di osservazione).
Frequenza  più il prodotto sembra avere un valore elevato, più possiamo osservare un numero di item
che non è così grande! Se considerassimo una dimensione frequency articolata in 3 bin, forse è esagerato!
La decisione su quanti bin considerare è molto importante e dev’essere fatta prima.
Questo discorso può essere fatto anche per la dimensione monetaria in questo caso abbiamo prodotti
che variano da 100 euro a 1400 euro (una dimensione monetaria pari a 2 è mortificante e poco
rappresentativa  dovrebbe suddividere in più fasce
Vediamo ora GRAFICI A DISPERSIONE
1 grafico: sull’asse delle ascisse viene riportato il valore monetario dell’ITEM acquistato, sull’asse delle y
troviamo la data di acquisto
 non c’è una relazione di “tipo lineare”, potremmo però evidenziare una relazione  se consideriamo la
fascia da 800 + , notiamo che tali acquisti non sono stati effettuati nel 2004 o 2005, vengono acquistati nei
mesi più recenti;
2 grafico: sull’asse delle x abbiamo il valore monetario dell’acquisto effettuato, sull’asse delle y il n. di item
che compongono lo scontrino
 ci dice che all’aumentare del numero degli ITEM, lo scontrino “pesa di più”  possiamo identificare una
relazione di tipo lineare;
3 grafico: numero di ITEM acquistati sull’asse delle x e sull’asse delle y abbiamo la data nel quale è stata
operato l’acquisto
 i clienti che abbiamo analizzato hanno acquistato un numero di ITEM che va da 1 a 14
 consideriamo 8 come “livello medio” di ITEM considerati, vediamo che i soggetti che abbiamo preso in
considerazione, acquistano un n. di item più elevato in periodi più recenti
INFORMAZIONE UTILE: Le persone spendono di più e mediamente acquistano un n. di prodotti maggiore,
nell’ultimo periodo
In SPSS viene anche dato il “RFM SCORE”  ovvero il valore totale
RFM score ottenuto è naturalmente ottenuto in modo differente rispetto a quanto fatto a lezione  quello
prodotto da SPSS è un punteggio che in realtà non fa altro che giustapporre 3 ranking, ovvero 3 classifiche
ottenute andando a ordinare i dati relativi agli acquisti fatti dai nostri clienti (prima considerando la
recency, poi la frequency e poi la monetary.
Il punteggio calcolato a lezione invece funzionava in modo diverso: lo score era ottenuto come somma
algebrica dei 3 punteggi (all’interno delle singole dimensioni, si erano pesati i singoli acquisti,
differenziandoli…).
E’ un modo differente di ottenere RFM! Non sono quindi confrontabili.
DA RICORDARE
 la determinazione dei pesi che vogliamo dare alle macrodimensioni, è fondamentale guardare le
distribuzioni di frequenza dei valori che osserviamo all’intero del nostro campione!
LA SEGMENTAZIONE DEI CLIENTI
LA SEGMENTAZIONE DEL MERCATO
-Per definire gli obiettivi e le modalità di una strategia commerciale un’azienda deve essere in grado di
valutare le caratteristiche e i bisogni e i comportamenti probabili degli acquirenti potenziali.
-Questa decisione implica una suddivisione (SEGMENTAZIONE) del mercato in gruppi omogenei e distinti di
consumatori (rispetto a determinati parametri) verso i quali indirizzare politiche di vendita altrettanto
specifiche.
-Market SEGMENTATION consiste nell’adeguare tanto i prodotti quanto le strategie di marketing alle
differenze individuabili entro l’insieme delle esigenze manifestate dai consumatori.
IDEA DI BASE: immaginiamo che si possano indirizzare politiche di vendita completamente differenti a
gruppi alternativi.
Le differenze individuali caratterizzano difatti le differenze tra i segmenti  non produco sul mercato un
unico prodotto, ma una serie di prodotti simili che saranno supportate da un sistema di comunicazione,
distribuzione o la presenza di caratteristiche differenti.
Si va incontro maggiormente ai bisogni dei clienti!
Perché segmentare?
Per una comprensione generale del mercato
- benefici ricercati
- modalità di acquisto
- decisioni di acquisto
Per studi sul posizionamento
- uso del prodotto
- preferenze verso i prodotti/ benefici ricercati
Per l’introduzione di nuovi prodotti
- intenzione di acquisto
- preferenze verso brand concorrenti
Per decisioni di prezzo
- sensibilità a cambiamenti di prezzo
- propensione alla trattativa
Per decisioni relative alle politiche pubblicitarie
- stili di vita
- atteggiamenti verso i media
- benefici ricercati
Come segmentare?
-Adottare una strategia di segmentazione significa riconoscere un’esistenza di eterogeneità in un mercato:
l’azienda quindi si trova a dover soddisfare domande differenti per poter servire segmenti distinti
(nel modo più oggettivo possibile!).
Dal punto di vista statistico, cosa dobbiamo fare? Dobbiamo CLASSIFICARE i soggetti che stiamo trattando.
La classificazione si opera rispetto a delle variabili.
-Nei mercati di largo consumo naturalmente una segmentazione troppo granulare non è possibile per cui
risulta impossibile effettuare delle offerte specifiche per ciascuno.
-Pertanto, al fine di poter ottenere una segmentazione che operativamente efficace (nel senso di attuabile
dal punto di vista delle politiche di marketing) esige che la classificazione ottenuta risponda a certi requisiti.
Alcune variabili esplicative impiegate nelle procedure di segmentazione
Le variabili devono essere studiate in modo opportuno, al fine di ottenere una lista che sia contenuta e che
sia focalizzata sull’obiettivo che si vuole approfondire con la survey.
PSICOGRAFICHE
-personalità (introversa, estroversa)
-livelli di bisogno (sicurezza, protezione, autorealizzazione)
-stile di vita
SOCIO-DEMOGRAFICHE
-popolazione (<20.000, 20.000 – 100.000, 100.000 – 250.000, >250.000)
-età (<18, 18-25, 25-30, >30)
-istruzione (diplomato, laureato, dottorato)
GEOGRAFICHE
-Stato (Italia, Francia, Inghilterra)
-città (Milano, Roma, Torino, Napoli)
COMPORTAMENTALI
-utilizzo del prodotto (mai, sempre, qualche volta, una volta)
-fedeltà alla marca ( infedeli casuali, infedeli alla ricerca di un‛altra marca, fedeli alla marca, fedeli al
produttore, fedeli al punto vendita)
Quelle sociodemografiche, geografiche e la professione svolta viene sempre chiesto all’interno di una
survey (sono informazioni fondamentali!)
A meno che tali informazioni siano sottointese (x es: intervisto solo un gruppo di studenti, posso evitare di
chiedere qual è la professione svolta)
Spesso vengono tralasciate alcune informazioni
 sia quelle psicografiche (indagano lo “stile di vita” dei soggetti”)
 quelle comportamentali dei soggetti che mettono in atto
Nel momento in cui dobbiamo classificare, è importante avere sia informazioni più OGGETTIVE (sociodemografiche e geografiche) che quelle più INTERIORI/SOGGETTIVE (psicografiche e comportamentali).
Abbiamo capito che, attraverso la segmentazione riesco ad individuare dei gruppi di soggetti che andranno
poi a far parte del mio campione che osserverò.
DOMANDA SPONTANEA: quando produco la partizione (mi chiedo: ciascun soggetto a quale gruppo
appartiene??)  ho ottenuto una segmentazione?? NO!
Non sempre le partizioni proposte dai classificatori automatici sono delle segmentazioni.
La segmentazione ha delle caratteristiche e dei REQUISITI:
-La tendenziale uniformità delle risposte degli acquirenti agli strumenti tipici del marketing-mix
(il gruppo che ho ottenuto, per essere un segmento, deve essere costituito da soggetti che devono
distinguersi perché forniscono risposte omogene rispetto al “marketing-mix”);
-La profittabilità: nel senso che la dimensione del segmento deve essere tale da garantire un profitto
all’azienda (non dev’essere troppo piccola);
-L’accessibilità, cioè la possibilità di raggiungere il segmento (una volta che l’azienda ha ottenuto la
segmentazione, dev’essere in grado d raggiungerlo);
-La stabilità nel tempo della soluzione trovata
(non deve cambiare velocemente, ovvero la ripartizione si deve focalizzare su variabili stabili nel tempo).
LEZIONE 13
18/11/2020
IDEA DI BASE: l’eterogeneità dei miei clienti può essere “scomposta” e suddivisa in gruppi, in modo da
poter rivolgere l’attenzione a sottoinsiemi di soggetti!
La creazione dei gruppi si basa sulla classificazione  abbiamo identificato alcune variabili che possono
aiutarci a fare ciò.
La segmentazione a volte non è l’obiettivo principale dell’analisi che compiamo  x es l’obiettivo
dell’indagine potrebbe essere un altro, ma utilizziamo la segmentazione ugualmente: potrebbe essere
analizzare la soddisfazione dei consumatori (potrei prima svolgere la mia analisi e successivamente
applicare una segmentazione in gruppi di soggetti).
NB: il risultato di una qualsiasi analisi statistica fatta con dei dati non produce necessariamente una
segmentazione, ma produce una PARTIZIONE ( risultato di un processo di classificazione che operiamo
con degli algoritmi che tira fuori la suddivisione dei soggetti in gruppi)
La partizione NON è segmentazione. Lo diventa quando andiamo ad analizzare la classificazione e ci
rendiamo conto che il risultato che abbiamo ottenuto è composto da gruppi che presentano alcune
caratteristiche (ovvero sono uniformi rispetto agli strumenti di marketing mix).
La segmentazione prevede da un punto di vista operativo passa attraverso delle fasi che si possono
riassumere nei seguenti punti:

definizione del problema

messa a punto del programma indagine sul campo

elaborazione e interpretazione dei risultati
LA SELEZIONE DELLA PROCEDURA
Il modello di segmentazione non è univoco, ma dipende dagli obiettivi che ci poniamo.
La prima fase prevede quindi la scelta di un modello di segmentazione
(ogni procedura risponde a domande completamenti differenti!):
-a priori
-a posteriori
-flessibile
Le informazioni sulla base della quali si costruiscono i modelli di analisi sono suddivisibili in maniera molto
schematica ma intuitiva
Dal punto di vista della tecnica, che cos’è la segmentazione?
E’ un algoritmo ricorsivo che consente di suddividere n unità statistiche in gruppi, in relazione ad un criterio
divisivo, che si propone di massimizzare l’omogeneità interna ai gruppi ottenuti (e di differenziare i gruppi
tra loro):
Segmentazione a posteriori:
Cluster Analysis (gerarchica e non gerarchica)
Quella gerarchica è un tipo di segmentazione che riesce a fornire una classificazione di soggetti in gruppi
distinti (unica che vedremo)
Segmentazione flessibile:
Conjoint Analysis (non vedremo)
Segmentazione a priori:
AID, CHAID, CART, QUEST (alberi di classificazione);
Analisi discriminante;
Regressione logistica : è un modello di analisi discriminante in cui il numero dei gruppi è estremamente
basso (=2)
-Quali sono le domande a cui questi modelli di segmentazione rispondono????
-Quali sono le risposte???
SEGMENTAZIONE A PRIORI
Nella segmentazione “per obiettivi” vengono identificate una variabile dipendente, in base alla quale
dividere in gruppi il collettivo di partenza, e una o più variabili esplicative che influenzano
significativamente la v. dipendente.
Quando utilizziamo la segmentazione a priori, l’obiettivo non è trovare la classificazione (che a quanto pare
è già presente/è già stata ricavata).
Posso avere la variabile dipendente che suddivide i clienti in clienti che hanno acquistato/non hanno
acquistato il prodotto (posso capire le motivazioni che spingono un soggetto ad acquistare o meno)
 la segmentazione l’ho fatta io precedentemente, ma costruisco il modello per classificare NUOVI
soggetti. Quindi non voglio classificare i soggetti che sto osservando in questo momento.
Il modello è definito “a priori” per la scelta preventiva delle variabili esplicative, del numero e delle
tipologie di gruppi da formare.
E’ un modello predittivo, che si basa su una variabile dipendente che è quella che guida la messa appunto
del modello stesso.
Si perviene alla costruzione di una regola che assegna nuove unità statistiche alle categorie (modalità) della
variabile dipendente.
Fa riferimento, in genere, a variabili socio-demografiche e a quelle legate al consumo del prodotto (utilizzo,
fedeltà…)
Tecniche di segmentazione ad albero: AID, CHAID, CART, QUEST;
Analisi discriminante  abbiamo da 2 a più gruppi;
Regressione e logistica  si basa su una classificazione molto semplice (su due gruppi)
Caso classico dell’utilizzo della “regressione e logistica”: ambito bancario, le banche utilizzano tale
regressione e logistica per capire quali sono i driver/le variabili che aiutano a distinguere tra soggetti che
sono buoni/cattivi pagatori.
La segmentazione a priori non è quella tecnica che genera la partizione.
In questo caso la partizione o ce l’abbiamo già a disposizione / la creiamo su variabili che abbiamo a nostra
disposizione (a priori).
SEGMENTAZIONE A POSTERIORI: LA CLUSTER ANALYSIS (CLA)
 quella a cui si fa solitamente riferimento quando si fa ricerca di mercato
 riusciamo a suddividere i nostri soggetti in gruppi distinti
DIFFERENZE con la classificazione a priori: la cluster analysis è una tecnica “non supervisionata”, ovvero
esplorativa  non prevedere una variabile dipendente.
Quindi, sulla base dei dati a mia disposizione, calcolo una regola che mi permette di assegnare sulla base
delle variabili a mia disposizione, se un soggetto appartiene ad un gruppo piuttosto che ad una altro,
cercando di costruire dei gruppi omogenei al suo interno ed eterogenei fra loro.
L’output è una ripartizione (variabile di partizione)! Prima di concludere che ciò che abbiamo ottenuto è
una variabile di partizione, vengono poi fatte tutte le verifiche richieste.
Nel caso dell’analisi di mercato bisogna capire se il risultato della partizione è effettivamente utilizzabile
dall’azienda.
Viene utilizzata nelle ricerche che si propongono di:
-Migliorare il grado di comprensione dei comportamenti di acquisto differenziandoli per tipologia di
consumatore;
-Accertare l’esistenza di opportunità di sviluppo per potenziali nuovi prodotti
La CLA consiste, essenzialmente, in un metodo esplorativo dei dati che consente di riconoscere, partendo
dalle n unità statistiche di partenza, i gruppi entro cui, naturalmente, tali unità ricadono.
L’analisi cluster permette, pertanto, di assegnare ogni unità ad uno specifico gruppo, sulla base delle
caratteristiche (variabili) da questi presentate, con l’obiettivo di rendere ciascun gruppo il più possibile
omogeneo al proprio interno.
Con l’Analisi Cluster, non essendo nota a priori la struttura per gruppi delle unità statistiche, si cerca
l’esistenza di una segmentazione naturale tra le unità rispetto alle variabili considerate.
La valenza interpretativa di tale analisi si basa sul presupposto che esistano dei gruppi latenti, per così dire
“naturali”, tra i casi.
NB: non essendoci una variabile da ricostruire, potremmo avere anche più soluzioni plausibili!
La cluster analysis essenzialmente si basa su variabili di tipo quantitativo
 CLUSTER GERARCHICA: la segmentazione in gruppi si basa su una logica di minimizzazione delle distanze
tra le unità statistiche entro i gruppi e di massimizzazione delle distanze tra gruppi.
Si parte da n gruppi per i quali sono note le distanze, rappresentate dagli elementi della matrice D.
Ovvero costruisce somiglianze e differenze tra i soggetti a partire dalle distanze tra i soggetti.
L’algoritmo costruisce una matrice “D” tra coppie di soggetti, sulla base delle variabili a disposizione.
Si mettono insieme individui che risultano avere distanze estremamente piccole, mentre si differenziano gli
individui che hanno distanze estremamente grandi
La matrice D è una matrice quadrata: ha n righe ed n colonne.
SLIDE 7
E’ una matrice “triangolare”  è simmetrica.
La diagonale principale della matrice delle distanze presenta sempre tutti 0: tutti gli elementi che si trovano
sulla diagonale principale sono le distanze di ciascun individuo da sè stesso.
La matrice D può essere costruita utilizzando che tipo di metrica???
Ovvero come ottengo queste distanze?
d12 : distanza soggetto 1-2
d13: distanza soggetto 1-3
La distanza a cui facciamo riferimento è la DISTANZA EUCLIDEA
 ci permette di valutare quanto due soggetti sono differenti tra loro sulla base delle loro caratteristiche
Esempio: considero 4 soggetti a cui viene chiesto di valutare due marche di caffè (scala likert 1-10).
Calcolo la distanza Euclidea.
Valutazione soddisfazione marca A e B
SOGGETTO
A
B
1
5
3
2
1
2
3
6
5
4
1
4
Sul piano cartesiano:
VEDI SLIDE 8
I soggetti più simili sono 2 e 4.
Come calcoliamo la distanza?
Facciamo la radice quadrata della differenza delle coordinate corrispondenti
 OTTENIAMO LA MATRICE DI PROSSIMITA’
DISTANZA EUCLIDEA
1
2
3
4
1
,000
4,123
2,236
4,123
2
4,123
,000
5,831
2,000
3
2,236
5,831
,000
5,099
4
4,123
2,000
5,099
,000
Questa è una matrice di dissimilarità
Com’è possibile fare l’aggregazione tra le unità?
E’ necessario stabilire una regola che permetta la formattazione dei gruppi ad ogni passo dell’algoritmo e la
valutazione della relativa distanza delle nuove strutture (clusters) create.
Andremo a definire un “cluster gerarchico agglomerativo”.
Si parte dall’idea che le osservazioni a nostra disposizione sono tutti cluster composti da un solo soggetto,
che via via cerchiamo di comporre tra loro e cerchiamo di mettere insieme i soggetti che sono più simili.
Nel fare questo processo di agglomerazione (partiamo da n differenti gruppi) e cerchiamo di ricompattare
insieme questi gruppi, cerchiamo di stabilire dei criteri con cui poi creare i gruppi stessi.
I metodi agglomerativi per creare gruppi sono:
-Legame del vicino più prossimo (o legame singolo);
-Legame del vicino più lontano (legame completo);
-Legame medio;
-Legame di Ward
Per i primi 3 possiamo provare a fare degli esercizi fondamentalmente utilizzando anche solo
penna/carta/calcolatrice; per l’ultimo lo sforzo computazionale è maggiore (quasi inutile).
Quello che faremo è solo cercare di capire come funziona, ma non faremo veri e propri esercizi!
Vediamo come si costruiscono le regole con un esempio.
METODI GERAGHICI AGGLOMERATIVI
Caratterizzati da una gerarchia nel raggruppamento.
1. n gruppi (ciascuno formato da una singola unità statistica)
Sulla base dell’analisi della matrice delle distanze, mettiamo insieme i due soggetti che sono più simili e
costruiamo un gruppo formato da due soggetti e gli altri restano separati…
2. n-1 gruppi (uno formato da 2 unità e i restanti n-2 da una unità)
L’algoritmo procede poi in modo operativo, mettendo insieme i soggetti che risultano più simili
3. n-2 gruppi….n-3 gruppi fino ad arrivare a un unico gruppo formato da n unità
Ad ogni step, ovvero ad ogni passaggio, ad ogni nuova iterazione, l’algoritmo cerca di mettere insieme i
soggetti più simili, indipendentemente da regole differenti che possono essere applicate.
Da n gruppi si passa ad n-1 gruppi, n-2 e via dicendo…
Nell’ultima iterazione, tutti i soggetti vengono messi insieme in un gruppo unico che li ricomprende tutti.
Qual è il vantaggio? Riusciamo a studiare la struttura di somiglianze fra individui e cercheremo di capire
quando è necessario stoppare l’algoritmo che aggrega i soggetti nei gruppi.
 è necessario decidere a quale passo arrestare la procedura di aggregazione delle unità.
SLIDE 10
INDICANDO CON:
-CS = S-mo gruppo (nel I step corrisponde alla prima unità)
-NS = numero unità nell’S-mo gruppo
-CL = L-mo gruppo (nel I step corrisponde alla prima unità)
-NL = numero unità nell’L-mo gruppo
-CM = gruppo formato dai gruppi CS e CL
-NM = numero unità nel gruppo CM
-DSL = distanza tra il gruppo CS e il gruppo CL che risulta minima nella matrice D
-DMJ = distanza tra il gruppo CM (formato) e un generico gruppo CJ
Si immagini di aver rilevato indicatori di programmazione effettuata dalle reti televisive che ha generato la
seguente matrice delle distanze.
Abbiamo 6 canali televisivi che abbiamo monitorato rispetto ad una serie di variabili.
METODO DEL LEGAME SINGOLO (o del vicino più prossimo)
D=matrice delle distanze
RAI1
RAI2
RAI3
RETE4
CANALE5
ITALIA1
RAI1
0
RAI2
864
933
1439
1863
2047
0
1215
1591
2525
1886
0
990
2370
2491
0
2972
2062
0
3223
RAI3
RETE4
CANALE5
ITALIA1
0
La distanza minima tra RAI1 e RAI2 è pari a 864.
DM,J = min(DSJ, DLJ)
 distanza tra S (RAI1) e il generico gruppo J (ad es. RAI3)
Come funziona questo metodo? Parte da 6 gruppi distinti (formati dai singoli canali televisivi)
Prima si mettono insieme i soggetti che presentano una distanza inferiore (in questo caso RAI1 e RAI2).
Si crea una nuova matrice, ricalcolando le distanze tra il gruppo RAI1-RAI2 e le altre reti televisive, come
MINIMO delle distanze presentate prima della fusione, singolarmente, da RAI1 e RAI2 rispetto alle altre
Il legame serve a stabilire come ricompattare/ricostituire la matrice delle distanze.
La mia matrice 6X6 è diventata 5X5.
Di volta in volta vado a ricontrollare le distanze dei soggetti che compongono il nuovo cluster hanno
rispetto al canale televisivo che sto considerando e scelgo la distanza più bassa.
x es: 1439 (?) è la distanza del cluster RAI1 e RAI2 da RETE4 (RAI1 distava 1439, RAI2 distava 1591, quindi
scelgo 1439)
RAI1 e RAI2
RAI1 e RAI2
RAI3
RETE4
CANALE5
ITALIA1
0
933
1439
1863
1886
0
990
2370
2491
0
2972
2062
0
3223
RAI3
RETE4
CANALE5
ITALIA1
0
Ovvero: DRAI1-2,RAI3 = min(933,1215)
Ora vado a vedere i soggetti che presentano la distanza più bassa : cluster composto da RAI1-RAI2 e RAI3
(distanza pari a 933).
A questo punto, tramite il metodo del LEGAME SINGOLO, metto insieme RAI1-RAI2-RAI3 e calcolo la
distanza con gli altri.
RAI1-RAI2-RAI3
RETE4
RAI1-RAI2-RAI3
RETE4
CANALE5
ITALIA1
0
990
1863
1886
0
2972
2062
CANALE5
0
3223
ITALIA1
0
La distanza minima è tra il gruppo RAI1-RAI2-RAI3 e RETE4
RAI1-RAI2-RAI3-RETE4
RAI1-RAI2-RAI3-RETE4
CANALE5
ITALIA1
0
1863
1886
0
3223
CANALE5
ITALIA1
0
La distanza minima è tra il gruppo RAI1-RAI2-RAI3-RETE4 e CANALE 5
RAI1-RAI2-RAI3-RETE4-CANALE5
RAI1-RAI2-RAI3-RETE4-CANALE5
ITALIA1
0
1886
ITALIA1
0
E infine… unico gruppo composto da tutte le unità!
Proviamo ad analizzare invece il METODO DEL LEGAME COMPLETO
(o del vicino più lontano)
D= matrice delle distanze
RAI1
RAI1
RAI2
RAI3
RETE4
CANALE5
ITALIA1
0
864
933
1439
1863
2047
0
1215
1591
2525
1886
0
990
2370
2491
0
2972
2062
0
3223
RAI2
RAI3
RETE4
CANALE5
ITALAI1
0
Al primo step, unisco sempre RAI1 e RAI2  unisco sempre i cluster che presentano distanza più piccola (i
più vicini).
Una volta uniti, devo però stabilire qual è la distanza del nuovo gruppo formato.
Si crea una nuova matrice, ricalcolando le distanze tra il gruppo RAI1-RAI2 e le altre reti televisive, come
MASSIMO delle distanze presentate prima della fusione, singolarmente, da RAI1 e RAI2 rispetto alle altre
DM,J = max (DSJ, DLJ)
RAI1 e RAI2
RAI1 e RAI2
RAI3
RETE4
CANALE5
ITALIA1
0
1215
1519
2525
2047
0
990
2370
2491
0
2972
2062
0
3223
RAI3
RETE4
CANALE5
ITALIA1
0
Ora qual è il canale che vado ad unire??
Quelli con la distanza minima: in questo caso RAI3-RETE4
RAI1-RAI2
RAI1-RAI2
RAI3-RETE4
CANALE5
ITALIA1
0
1591
2525
2047
0
2972
2491
0
3223
RAI3-RETE4
CANALE5
ITALIA1
0
La distanza minima è tra il gruppo RAI1-RAI2 e RAI3-RETE4
RAI1-RAI2-RAI3-RETE4
RAI1-RAI2-RAI3-RETE4
CANALE5
ITALIA1
0
2972
2491
0
3223
CANALE5
ITALIA1
0
La distanza minima è tra il gruppo RAI1-RAI2-RAI3-RETE4 e ITALIA1
RAI1-RAI2-RAI3-RETE4-ITALIA1
RAI1-RAI2-RAI3-RETE4-ITALIA1
CANALE5
0
3223
CANALE5
0
Ed infine, unico gruppo composto da tutte le unità!
LEZIONE 14
30/11/2020
Segmentazione a priori  risponde alla domanda di derivare un modello di classificazione che mi serve per
classificare NUOVE osservazioni. I gruppi non sono classificazioni “banali”.
Utilizziamo un modello di tipo predittivo: abbiamo una variabile target di riferimento che ci guida nella
derivazione del criterio!
Segmentazione a posteriori  detto “non supervisionato”, non c’è una variabile target di riferimento.
Dopo aver rilevato dei comportamenti, è possibile che l’azienda sia interessata a classificare i propri clienti
 per identificare quelli che sono i “clienti più profittevoli”
Segmentazione cluster è una segmentazione esplorativa : a partire dalle variabili che osserviamo, dobbiamo
derivare somiglianze o dissomiglianze tra i soggetti in modo da poterli classificare.
La mia segmentazione viene fatta attraverso tecniche di cluster analysis agglomerative (come abbiamo già
visto). Le somiglianze e le dissomiglianze fra soggetti vengono identificate tramite una matrice D delle
distanze (noi usiamo la distanza euclidea, ma ce ne sono anche tante altre).
Possiamo usare il metodo del legame singolo, metodo del legame completo e il metodo del legame medio.
METODO DEL LEGAME MEDIO
D= matrice delle distanze
RAI1
RAI2
RAI3
RETE4
CANALE5
ITALIA1
0
864
933
1439
1863
2047
RAI2
1215
1591
2525
1886
RAI3
0
990
2370
2491
0
2972
2062
0
3223
RAI1
RETE4
CANALE5
ITALIA1
0
{DM,J = (DsjNs + DljNl) / Nm }
La distanza minima è tra RAI1 e RAI2 pari a 864. Andiamo quindi ad unire questi soggetti.
Si crea una nuova matrice, ricalcolando le distanze tra il gruppo RAI1-RAI2 e le altre reti televisive, come
MEDIA PONDERATA con la numerosità dei gruppi oggetto di fusione (in questo caso Ns=Nl=1), delle
distanze presentate prima della fusione, singolarmente, da RAI1 e RAI2 rispetto alle altre
{DRAI1-2,RAI3 = (933 X 1 + 1215 X 1) / 2 = 1074 }  faccio la media aritmetica
RAI1 e RAI2
RAI1 e RAI2
RAI3
RETE4
CANALE5
ITALIA1
0
1074
1515
2194
1967
0
990
2370
2491
0
2972
2062
0
3223
RAI3
RETE4
CANALE5
ITALIA1
0
La distanza minima è ora tra il gruppo RAI3-RETE4 (990)
RAI1-RAI2
RAI3-RETE4
RAI1-RAI2
RAI3-RETE4
CANALE5
ITALIA1
0
1295
2194
1967
0
2671
2276,5
CANALE5
0
3223
ITALIA1
0
La distanza minima è tra il gruppo RAI1-RAI2 e il gruppo RAI3-RETE4
DRAI1-2-3-RETE4, CANALE5 = (2194 x 2 + 2671 x 2) / 4 = 2433
RAI1-RAI2-RAI3-RETE4
RAI1-RAI2-RAI3-RETE4
CANALE5
ITALIA1
0
2433
2122
0
3223
CANALE5
ITALIA1
0
La distanza minima è tra il gruppo RAI1-RAI2-RAI3-RETE4 e ITALIA 1
D gruppo, CANALE5 = (2433 x 4 + 3223 x 1) / 5 = 2591
RAI1-RAI2-RAI3-RETE4-ITALIA1
RAI1-RAI2-RAI3-RETE4-ITALIA1
CANALE5
0
2591
CANALE5
0
Ed infine, unico gruppo composto da tutte le unità!
[Passiamo da una situazione di “estrema differenza” e mano mano li ricomponiamo e li mettiamo tutti
insieme  unico grande gruppo che li contiene tutti]
Questo processo serve a cosa? Interessante lo studio attraverso un grafico  DENDOGRAMMA
DENDROGRAMMA
Rappresentazione grafica della sequenza delle fusioni che consente di comprendere il numero esatto di
gruppi da formare.
Asse orizzontale = unità coinvolte nel processo di fusione;
Asse verticale = distanza a cui avviene la fusione dei vari gruppi.
Tale costruzione è molto importante perché il grafico ci aiuta e sintetizzare il processo di agglomerazione 
MA possiamo prendere in considerazione il grafico anche per stabilire quando stoppare il processo di
aggregazione stesso (dove “tagliare il dendrogramma”).
Come si fa a scegliere il numero di gruppi ottimali???
O andiamo a considerare il “salto” di distanza che avviene tra un’aggregazione e la successiva  quando
tale salto diventa estremamente grande, stoppiamo  si ferma il processo di aggregazione.
Rispetto ai dendrogrammi degli esercizi precedenti (in particolar modo quello del legame singolo e del
legame completo) 
Non abbiamo una vera e propria costituzione di gruppi, non abbiamo grandissime differenze.
Vediamo la generazione di un gruppo iniziale a cui poi via via vengono aggregate nuove osservazioni.
Quindi possiamo dire che NON abbiamo una vera e propria segmentazione.
E’ una “segmentazione” che non esiste : generalmente sono sbagliate le variabili su cui si è focalizzata la
cluster (non sono efficaci).
Nel metodo del legame medio invece è più evidente una sorta di segmentazione, ma non abbiamo
comunque una forte differenziazione.
Quindi, SINTESI: scelta del numero di gruppi
Dall’esame del dendrogramma si sceglierà il numero di gruppi che viene aggregato ad una distanza non
molto elevata e che determina una configurazione “abbastanza piatta”. In tal senso, i gruppi saranno
caratterizzati da una sufficiente omogeneità interna.
Dall’analisi del dendrogramma, un criterio di scelta può consistere nell’arresto della procedura di fusione
prima di uno dei “salti” che vengono generati da aggregazioni di gruppi molto distanti fra loro (e quindi
disomogenei).
Vediamo ora un esercizio su SPSS
Prendo in considerazione solo le prime 10 regioni del mio dataset.
Nel campo etichetta troviamo le variabili presenti.
Sono riportate varie spese: spese abbigliamento, spese per abitazione, spese per istruzione ecc…; n.
famiglie povere, % famiglie in difficoltà…ecc
Nel mio studio io considero solo 3 variabili: Spesa_complessiva, Spesa Abbigliamento, Spesa Casa sostenute
dalle Regioni espresse in migliaia di euro; riferite alle prime 10 regioni.
Regione
Spesa_Comp
Abb
Casa
1
Piemonte
137,00
542,00
16,00
2
Valle d’Aosta
113,00
517,00
24,00
3
Lombardia
154,00
674,00
24,00
4
Trentino-Alto
Adige
148,00
551,00
26,00
5
Veneto
163,00
630,00
30,00
6
Friuli-Venezia
Giulia
133,00
559,00
22,00
7
Liguria
118,00
534,00
18,00
8
Emilia-Romagna
148,00
647,00
26,00
9
Toscana
145,00
676,00
21,00
10
Umbria
148,00
534,00
32,00
Sulla base dei dati osservati ottengo la matrice di distanza Euclidea (MATRICE DI PROSSIMITA’)
 utilizziamo il metodo del VICINO PIU’ VICINO (metodo del legame singolo)
DISTANZA EUCLIDEA
Caso
1
1
2
3
4
,000
35,567
133,330 17,378
5
6
7
8
9
10
92,822
18,466
20,712
106,047 134,332 21,000
2
35,567
,000
3
133,330 162,265 ,000
4
17,378
48,836
5
92,822
123,713 45,310
6
18,466
46,562
7
20,712
18,708
8
106,047 134,644 27,731
96,000
9
134,332 162,216 9,695
125,136 50,210
10
21,000
39,724
162,265 48,836
123,713 46,562
123,162 45,310
18,708
134,644 162,216 39,724
116,919 144,679 27,731
9,695
80,511
17,464
35,398
125,136 18,028
,0000
77,492
106,701 23,022
50,210
116,919 17,464
77,492
,000
29,428
89,359
117,618 30,822
144,679 35,398
106,701 29,428
,000
117,188 144,575 33,106
23,022
117,188 ,0000
123,162 ,000
80,511
140,357 18,028
97,185
89,359
96,000
117,618 144,575 29,580
39,822
33,106
140,357
97,185
29,580
113,159
,0000
142,457
113,159 142,457 ,000
Come si ottengono queste distanze? A partire dai dati nella Tabella precedente è possibile ottenerle.
Ad esempio: distanza euclidea tra osservazione 2 (Valle d’Aosta) e osservazione 3 (Lombardia) è:
d23 = √ (154-113)^2 + (674-517)^2 + (24-24)^2 = 162,265
 se nella matrice tale valore fosse oscurato/cancellato, posso ritrovarlo attraverso questa formula
Per fare le mie osservazioni io ho bisogno di TUTTI i valori nella matrice delle distanze.
SUCCESSIVAMENTE: primo passaggio dell’aggregazione con metodo del vicino più prossimo (legame
singolo)  considero solo o la triangolare superiore o quella inferiore
Dopo un rapido sguardo, identifichiamo che le unità più simili sono 3-9.
Caso
1
2
3-9
4
5
6
7
8
10
Distanza Euclidea
1
2
3-9
4
5
6
7
8
10
0,000
35,567
133,330
17,378
92,822
18,466
20,712
106,047
21,000
0,000
162,265
48,836
123,713
46,562
18,708
134,644
39,724
0,000
123,162
45,310
116,919
144,575
27,731
140,357
0,000
80,511
17,464
35,398
96,000
18,028
0,000
77,492
106,701
23,022
97,185
0,000
29,428
89,359
30,822
0,000
117,188
33,106
0,000
113,159
0,000
Quando fermare il processo di aggregazione dei clusters?
Bisogna calcolare la distanza di fusione tra due processi successivi e fermarsi in corrispondenza del salto più
grande. In questo caso il numero di clusters è 2.
Vediamo graficamente a partire dal DENDROGRAMMA.
Il mio salto è talmente grande che mi fa capire che quei due gruppi insieme NON devono stare! (ovvero
devono rimanere distinti).
E’ possibile leggere dal basso verso l’alto le aggregazioni delle unità.
Abbiamo un insieme di aggregazioni a sinistra ed un insieme di aggregazioni a destra (2 clusters) che sono
unite fra di loro da un salto molto molto grande.
La barra mostra che i due gruppi devono quindi rimanere distinti (ed incontra due collegamenti, due
clusters appunto).
SLIDE 10
Primo passaggio dell’aggregazione con metodo del vicino più lontano (legame completo)
Distanza euclidea
Caso
1
2
3-9
4
5
6
1
2
3-9
4
5
6
7
8
10
0,000
35,567
133,330
17,378
92,822
18,466
20,712
106,047
21,000
0,000
162,265
48,836
123,713
46,562
18,708
134,644
39,724
0,000
125,136
50,210
117,618
144,679
29,580
142,457
0,000
80,511
17,464
35,398
96,000
18,028
0,000
77,492
106,701
23,022
97,185
0,000
29,428
89,359
30,822
7
8
0,000
117,188
33,106
0,000
113,159
10
0,000
Vediamo ora il DENDROGRAMMA:
Anche in questo caso il numero di clusters è sempre pari a 2 anche con il legame completo
SLIDE 12
Spesso è necessario utilizzare dei criteri che ci possano guidare nella scelta del numero dei clusters.
Facciamo un passo indietro  parliamo di “partizione ben strutturata”
PROPRIETA’ DEI METODI GERARCHICI
-PARTIZIONE BEN STRUTTURATA MINIMALE
Qual è il massimo grado di oggettività che si può conseguire nella formazione dei gruppi di unità partendo
dalla matrice delle distanze ??
SLIDE 15
Si può parlare di classificazione
oggettiva o naturale
In questo caso, è evidente che i gruppi sono 3 : i dati così mappati rispondo alla definizione di cluster stesso
( le unità che si somigliano sono più vicine).
Se dovessimo invece derivare un CRITERIO dobbiamo fare alcune considerazioni.
Un criterio potrebbe essere stabilire che la massima distanza all’interno dei gruppi sia minore della minima
distanza tra i gruppi.
L’individuazione della partizione ben strutturata minimale si basa sulle distanze minime e massime tra i
clusters.
Definizione: consideriamo una partizione in g gruppi: P = {C1,C2,…,Cg} di n individui xi per i quali abbiamo
calcolato una distanza dagli altri individui (sono i cluster presenti nel nostro dataset, la cui unione ci
restituisce l’insieme delle nostre osservazioni. Sappiamo che i clusters sono fra loro mutualmente esclusivi)
La partizione si dice ben strutturata se
Max(dij) < min (drs) per ogni coppia xi e xj appartenenti allo stesso cluster
per ogni coppia xr e xs appartenenti a cluster differenti
Questo per evidenziare che i soggetti che appartengono ad un cluster sono più omogenei rispetto a quelli
che invece appartengono a cluster differenti.
Definizione: la partizione si dice ben strutturata e minimale se presenta sia le caratteristiche di una
partizione ben strutturata e se ha un numero minimo di gruppi.
Castagnoli (1978) ha dimostrato che per ogni matrice delle distanze esiste una e una sola partizione ben
strutturata minimale.
Come individuare la partizione ben strutturata utilizzando le tabelle del piano di agglomerazione delle
unità?
Il legame singolo, il legame medio e il legame completo a un certo punto del piano di agglomerazione
individuano la partizione ben strutturata minimale.
CARATTERISTICHE DEI GRUPPI INDIVIDUATI
Metodo del legame singolo
-soddisfa il criterio della partizione ben strutturata minimale: ad un certo punto del processo di
agglomerazione, c’è l’identificazione del numero minimo di clusters presenti all’interno dei nostri dati ;
-effetto a catena riunire in un gruppo unico unità anche distanti ;
-forme dei gruppi naturali ( generalmente forme allungate) ;
Potrebbe presentarsi anche il cosiddetto “effetto a catena”: due clusters che sembrano distanti ma sono
uniti tramite una “catena” e quindi l’algoritmo li considera appartenenti ad un unico grande cluster
Questo effetto può ingannare l’algoritmo (soggetti che andrebbero divisi vengono invece raggruppati in un
unico cluster)
SLIDE 17
Metodo del legame completo
-soddisfa il criterio della partizione ben strutturata minimale ;
-individua i gruppi compatti di forma sferica
Una caratteristica di questi cluster è proprio avere una forma sferica.
Il metodo che massimamente riesce a rispondere al criterio di partizione ben strutturato minimale è il
METODO DI WARD
E’ un algoritmo iterativo
 si basa sulla scomposizione della devianza totale in devianza tra i gruppi e devianza entro i gruppi.
Tale metodo si propone ad ogni step di massimizzare la devianza tra i gruppi, minimizzando la devianza
entro i gruppi.
Dà luogo quindi a gruppi omogenei al proprio interno, caratterizzati da una bassa variabilità (varianza).
 cluster maggiormente rispondenti agli obiettivi della segmentazione
Questo metodo è quello che maggiormente ci aiuta nell’individuazione di un numero di cluster ottimale e
che in modo migliore risponde a criteri di ottimo.
LEZIONE 15
02/12/2020
Per identificare una partizione ben strutturata minimale dovremmo studiare o il dendrogramma oppure
una tabella del piano di agglomerazione.
Tabella  più è composta da unità, più abbiamo un campione di unità piuttosto rilevante (stiamo
osservando un collettivo di 1000+), diventa una tabella particolarmente lunga ed onerosa da guardare,
quindi diventa difficile identificare in maniera oggettiva la partizione strutturata minimale.
La classificazione che andiamo ad identificare con i legami è una classificazione che gode di alcune
proprietà (abbiamo caratteristiche per il “legame singolo” e per il “legame completo”).
Abbiamo invece definito come ottimale il METODO DI WARD, il quale è un algoritmo di classificazione che si
basa sulla scomposizione della devianza. Tale metodo massimizza la devianza tra i gruppi (o minimizza la
devianza nei gruppi).
E’ un algoritmo alquanto oneroso dato che di volta in volta, avremmo dovuto cercare di minimizzare
l’aumento di devianza entro i gruppi quando uniamo coppie di soggetti (mettere insieme soggetti che
generano un minimo aumento di devianza quando vengono uniti insieme nello stesso gruppo).
Se abbiamo costruito il dendrogramma e sappiamo che ad un certo punto esiste una partizione ben
strutturata, come facciamo a trovare la partizione?  troviamo il salto della distanza di fusione
NON esiste un criterio/indicatore che ci consente di calcolare in maniera oggettiva il numero di
clusters/gruppi presenti nel nostro dataset ???
Tale indice esiste  R^2
 aiuta a scegliere tra partizioni competitive che abbiamo costruito e che possono essere plausibili come
classificazioni di un problema di segmentazione.
Nel caso in cui abbiamo a che fare con un problema di segmentazione a posteriori, in cui sono plausibili sia
delle soluzioni con un numero di clusters che non riusciamo ad identificare in maniera univoca guardando
esclusivamente al dendrogramma, dobbiamo usare dei CRITERI DI VALUTAZIONE DELLE PARTIZIONI
L’indice R^2 mi aiuta a stabilire se un modello lineare (la retta di regressione) si adatta ed è adeguata ad
interpolare i dati che osservo in un particolare caso, in cui la Y viene spiegata da un predittore X.
Tale indice può essere costruito in un contesto anche di classificazione, non solo di regressione
SLIDE 2
La classificazione che abbiamo ottenuto spiega la variabilità complessiva dei nostri dati
 questo criterio di classificazione ci permette di spiegare come mai i nostri dati nella variabile originale
sono così differenti
DEVIANZA TOTALE = DEVIANZA TRA GRUPPI + DEVIANZA ENTRO I GRUPPI
Questi gruppi devono essere esaustivi e mutuamente esclusivi.
Se queste due condizioni sono rispettate, la variabilità che osserviamo può essere descritta utilizzando
questa regola di base.
La devianza totale come la otteniamo? Somma dei quadrati delle differenze delle singole osservazioni – la
media riferita ad una particolare variabile.
Devianza entro i gruppi:
Wh  devianza nel gruppo “h”
g  numero di gruppi
Si calcola la distanza dalle medie delle singole variabili considerate per gruppo, alla seconda.
Facciamo la somma di tutte le devianze entro i gruppi
Potremmo anche lavorare sulla devianza tra i gruppi: andiamo a confrontare le medie di gruppo con la
media generale (il confronto viene fatto con ciascuna variabile). NB dobbiamo ponderare queste distanze
con i pesi di ciascun gruppo (quanto sono numerosi).
0 < R^2 < 1
R^2 =1, spiega molto della variabilità complessiva dei nostri dati classificati in gruppi;
R^2 =0, la classificazione che abbiamo prodotto non spiega granchè della variabilità dei nostri dati (la
classificazione NON risponde, non è una buona classificazione)  la variabilità presente all’interno dei
gruppi è estremamente grande, quindi i gruppi di per sé non sono molto distinti gli uni dagli altri.
PROVIAMO A FARE UN ESERCIZIO
Per capire come utilizzare al meglio tale indice.
Consideriamo il dataset CS_Banca1.sav.
Il dataset contiene le seguenti variabili misurate su scala di likert 1-10.
Le VARIABILI sono:
Tang Soddisfazione per le dimensioni tangibili (ovvero nel caso dell’istituto bancario arredi, personale,
computer….);
CapRass Capacità di rassicurazione
Empatia Empatia
Val_Tot Soddisfazione complessiva
Effettuare un’analisi cluster con algoritmo di WARD e scegliere la partizione opportuna utilizzando come
criterio di scelta R^2
Su SPPS, troviamo anche altre variabili nel dataset (età, genere, ecc…), ma noi vogliamo considerarne solo
alcune.
Facciamo una cluster, utilizzando come variabili le 4 che descrivono i comportamenti dei nostri soggetti
(non inseriamo le variabili socio-demorafiche  le possiamo utilizzare a posteriori, per commentare il
risultato  se i cluster ottenuti hanno una relazione con l’età, genere, ecc…)
Costruiamo i cluster con il metodo di Ward, utilizzando la distanza euclidea.
Troviamo un PIANO DI AGGLOMERAZIONE  tabella che evidenzia a ciascun passo i soggetti che si
uniscono di volta in volta e a quale distanza di fusione (che via via cresce).
Viene presentato anche il DENDROGRAMMA.
Giriamo questo DENDROGRAMMA (è molto grande)
C’è una situazione un po’ DIFFICILE da gestire. Il salto più alto si registra nell’ultimo passaggio. Però per
essere più sicuri della nostra affermazione cerchiamo di utilizzare un indice.
Non riusciamo cioè a trovare una “soluzione oggettiva”.
Ipotizziamo che i nostri dati siano composti da due soli cluster : gli ultimi due che si uniscono (linea
orizzontale). (Anche se, leggendo il dendrogramma dal basso verso l’alto, ci verrebbe spontaneo affermare
che ci troviamo di fronte a 4 macrogruppi).
Calcoliamo quindi R^2. Dobbiamo avere la partizione salvata in due gruppi (su SPSS posso salvare la
soluzione in 2 cluster  mi salva una nuova variabile : CLU2_1.
Quindi SPSS mi dice a quale variabile appartiene: la prima o la seconda.
Facciamo confronta medie ed utilizziamo le variabili utilizzate come “variabili dipendenti”. Tra le “variabili
indipendenti” inseriamo l’Analisi Ward
 voglio vedere le medie e le varianze.
SPSS mi da le varianze, io però devo trovare la DEVIANZA (moltiplico la varianza * N), la numerosità dei
soggetti a nostra disposizione !
Devianza nel gruppo 1 : 348,00
Devianza nel gruppo 2 : 149,89
Devianza nei gruppi tot : 497,89
Devianza tot : 646,76
R^2 = 1 – 0,77 = 0,23
NB: classificazione composta di DUE soli gruppi!
Questa stessa impostazione possiamo anche replicarla nel caso di impostazioni con più gruppi, per capire
come varia il mio indice R^2 e per capire dove “tagliare” il dendrogramma.
Costruiamo le nostre nuove variabili di classificazione e arriviamo fino a 5 gruppi.
Su SPSS si creano le variabili CLU_3, CLU_4, CLU_5. Ovvero si costruisce una variabile a via a via maggiore.
Varia la devianza tra i gruppi, perché quella totale rimane uguale.
Con 3 gruppi R^2 = 1 – 0,607 = 0,393
 la suddivisione in un numero di cluster più elevato, genera un beneficio sulla bontà della partizione
Fa sì che R^2 cresca.
Con 4 gruppi R^2 = 1 – 0,502 = 0,498
 c’è ancora un aumento
Con 5 gruppi R^2 = 1 – 0,437 = 0,563
 salto ancora in positivo
R^2 è sensibile all’articolazione in più gruppi.
Se confrontiamo partizione alternative, confrontando esclusivamente R^2, notiamo che all’aumentare del
numero di gruppi, aumenta anche R^2.
Se abbiamo quindi una partizione particolarmente numerosa di gruppi, cosa significa? Vuol dire che ho
suddiviso i soggetti in gruppi generalmente piccoli, che al loro interno sono particolarmente omogenei
Un indice che al numeratore ha un indicatore di omogeneità all’interno dei gruppi, risente del fatto che
quando suddividiamo i soggetti in più cluster, questa variabile diminuisce.
Suddividere ed aumentare il numero di cluster componenti la partizione, genera un comportamento
“atteso”  il fatto che le singole Wh tendano ad essere più piccole.
Avremo gruppi molto più omogenei al loro interno (la variabilità sarà molto bassa).
La quota di variabilità dovuta alla varianza all’interno dei gruppi diventa sempre più esigua  la variabilità
viene spiegata dalla differenziazione dei gruppi fra di loro.
Come possiamo fare per individuare la partizione migliore??
Piuttosto che guardare R^2 in sé, dovremmo guardare il SALTO: passaggio tra una classificazione a 5
rispetto ad una classificazione a 4, quant’è il salto di R^2 che vado a perdere.
Quando questo salto è estremamente grande, dovrei fermarmi!
{L’indice R^2 varia tra 0-1 pertanto permette di confrontare partizioni con numero di gruppi alternativi,
oppure ottenute con algoritmi differenti.
Se è prossimo a 1 la corrispondente classificazione può essere ritenuta omogenea, in quanto le unità che
appartengono ad un medesimo gruppo sono moto simili tra loro (Wh=0) ed i gruppi sono ben separati.
L’indice R^2 misura la quota di variabilità totale nella matrice dei dati (considerando tutte le variabili) che
può essere spiegata dalla partizione.
All’aumentare dei numero di gruppi R^2 assume valori non decrescenti.
La ricerca del numero ottimo di gruppi porterebbe ad una partizione banale formata da n gruppi di 1
soggetto}
Oggi potremmo anche guardare ad una “misura alternativa”
 Root Mean Square Standard Deviation
SLIDE 7
Il nome viene abbreviato con RMSSD: osserva solo una delle devianze che abbiamo indicato (è molto più
veloce da calcolare!)  devianza nei gruppi.
Consideriamo il numero delle variabili presenti nel nostro dataset (“p”), mentre con “nh” il numero dei
gruppi che compongono la partizione quando stoppiamo il nostro classificatore al passo h.
Partiamo dall’analisi di 2 clusters (sempre partendo dai dati della tabella precedente), continuiamo con
3….fino ad arrivare a 5.
All’aumentare del numero dei gruppi, il nostro criterio diminuisce. Anche in questo caso andiamo a studiare
il SALTO dell’indicatore
x es studiamo il salto tra 4 gruppi e 5 : 5,200 / 4,202 = 1,237
 ho un aumento di variabilità W è di circa il 30%
Se passo da 4 gruppi a 3, ho un salto della variabilità del 34,8%.
Passando da 3 a 2, ho un salto della variabilità interna del 59,2%  in questo caso ho un salto troppo
grande, quindi decido di fermarmi.
Quindi questo indicatore RMSSD, non va letto direttamente, ma andiamo a studiare il salto che presenta
l’indicatore nel passaggio tra una classificazione con più gruppi ad una classificazione meno numerosa.
L’RMSSD viene utilizzato maggiormente per la sua velocità di calcolo.
ULTIMO ARGOMENTO DEL CORSO: 09/12
SEGMENTAZIONE A PRIORI
I due modelli a cui si fa maggiormente riferimento sono la regressione logistica e gli alberi decisionali.
Ci concentreremo soltanto sugli alberi decisionali  procedura particolarmente utilizzata in azienda per dei
motivi: Grande flessibilità di tali algoritmi
(a differenza rispetto alla regressione lineare o per la regressione logistica per esempio)  è un algoritmo
iterativo (“top down”  partiamo dalla totalità del campione e cerchiamo di dividerlo in sottoinsiemi)
Studieremo una procedura di segmentazione che agisce in modo da suddividere il nostro campione che è
studiato nella sua totalità inizialmente.
La regola che otteniamo per effettuare tale suddivisione è la regola che applichiamo anche alle future
osservazioni che non abbiamo direttamente analizzato nel nostro modello
 sono tipicamente utilizzati per problemi di CLASSIFICAZIONE e PREVISIONE
Noi li studiamo nell’ambito della segmentazione, ma possono essere utilizzati anche nel campo della
regressione!
Gli alberi decisionali sono prodotti da procedure di segmentazione.
Quello rappresentato è prodotto da una segmentazione binaria
SLIDE 1
La segmentazione binaria
Obiettivo:
Classificare un collettivo di n oggetti in classi omogenee al loro interno e differenziate fra loro, mediante
una successione di partizioni dicotomiche (partizione recursiva)
“Partizioni dicotomiche”  ad ogni passo l’algoritmo suddivide il sottoinsieme in due sottogruppi
Ci possono anche essere algoritmi ed alberi decisionali che hanno più rami (ovvero non necessariamente
sono BINARI)
La struttura dei dati:
Una matrice (n, p+1): individui;
Oltre alle “p” variabili esplicative {XJ = 1,…..,p categoriche o categorizzate}, ho una variabile dipendente Y
(“variabile target”) che ci racconta a quali classi vengono assegnati i soggetti che osserviamo.
La classe a cui facciamo riferimento potrebbe essere di tipo NOMINALE (caso in cui abbiamo una
classificazione in categorie alternative), ORDINALE (se c’è una graduazione in queste classi), QUANTITATIVA
(se utilizziamo score / punteggi).
Noi faremo più che altro uno studio su variabili di tipo nominale.
Obiettivo interpretativo:
spiegare come attraverso le variabili esplicative, poter prevedere la variabile Y
 l’algoritmo decisionale basato sugli alberi produce tale regola previsionale
Obiettivo strategico/decisionale:
sfruttare la regola di classificazione per classificare nuovi casi
Questa metodologia è molto importante perché, nell’ottica manageriale  futura previsione (sulla base di
ciò che ho osservato sui dati che sono a mia disposizione, genero una regola che mi permette di classificare
anche soggetti che non ho direttamente osservato ma che posso ricondurre a soggetti che ho già studiato)
Un esempio
Obiettivo:
Classificare 8 clienti di un istituto di credito in clienti ad alto/basso rischio, sulla base delle variabili
esplicative: risparmio patrimonio reddito annuo
(un soggetto è “rischioso” o no per la banca?? X es un prestito)
La struttura dei dati:
Cliente
Risparmio
Patrimonio
Reddito annuo (in
euro)
Rischio di credito
A
Medio
Alto
75000
Basso
B
Basso
Basso
50000
Alto
C
Alto
Medio
25000
Alto
D
Medio
Medio
50000
Basso
E
Basso
Medio
100000
Basso
F
Alto
Alto
25000
Basso
G
Basso
Basso
25000
Alto
H
Medio
Medio
75000
Basso
Il rischio del credito è legato ad alcune variabili finanziarie/economiche.
Dobbiamo però stabilire una regola per determinare quali soggetti ricadono nella classe di rischiosità alta
oppure in quella bassa!
Abbiamo quindi due obiettivi:
Obiettivo interpretativo: spiegare la rischiosità sulla base delle caratteristiche note dei clienti
Obiettivo strategico: sfruttare la regola di classificazione per decidere nuovi finanziamenti
 fare riferimento a chi non è stato direttamente osservato
Nell’esempio, si ha : Y variabile NOMINALE con J modalità (in questo caso, J=2)
Ovvero le modalità a cui facciamo riferimento sono due: BASSO / ALTO
X1, X2,…,Xp sono le VARIABILI ESPLICATIVE (in questo caso p=3 : risparmio, patrimonio, reddito annuo).
Ciascun soggetto generico i è descritto dai valori assunti rispetto alle 3 variabili considerate
Xi = [xi1, xi2, xi3]
Definiamo con d(x) una regola che associa ad ogni soggetto considerato un numero interno tra 1,…,J
d(x): x  j
Indichiamo con Aj (j=1,…,J) gli elementi di una partizione.
DEFINIZIONE: Una regola di classificazione è una partizione dello spazio degli attributi in J sottoinsiemi A1,
A2,…,AJ tale che per ogni soggetto appartenente alla classe j-esima, la classe prevista dalla regola sia
effettivamente j, cioè :
Aj = {x: d(x) = j}
La regola di classificazione deve assegnare il soggetto appartenente alla classe j-esima alla classe giusta
 dev’essere ricondotto alla sua classe di appartenenza
Vocabolario (vedere schema alberi decisionali)
In alto c’è la RADICE ( R ) : parte iniziale costituente dell’albero.
L’albero è costituito da un insieme finito di elementi, i NODI.
Ogni nodo è un gruppo di unità a diversi stadi del processo di classificazione.
Il nodo radice è un nodo disomogeneo al suo interno rispetto alla variabile obiettivo perché racchiude tutti
gli individui considerati.
L’insieme dei nodi (ad eccezione della radice) può essere suddiviso in insiemi distinti: i sottoalberi del nodo
R.
Un nodo viene chiamato:
- genitore rispetto ai nodi che esso genera;
- figlio rispetto al nodo da cui discende
{NB: un nodo radice è un nodo genitore}
I valori di soglia di una variabile che dividono le unità di un determinato nodo sono chiamati SPLIT.
I rami sono le condizioni che hanno determinato la suddivisione (sono i “segmenti”).
L’insieme di tutti i nodi terminali di un albero viene indicato con il simbolo T~ (“tree”).
Le foglie sono i nodi terminali per i quali non si ritiene utile una ulteriore suddivisione
 determinano lo stop dell’algoritmo
Riprendiamo i dati che abbiamo osservato inizialmente
NODO INIZIALE: classificazione di 8 clienti in modo da minimizzare la probabilità di errore, cioè la
probabilità di classificare come basso un cliente di elevata rischiosità
Rischio di credito (Y)
Frequenza
Basso
5
Alto
3
TOT
8
Non avendo informazioni ulteriori, la probabilità di errore (stimata) è pari a : 3/8 = 37,5 %
A questo punto, potrei decidere di utilizzare le informazioni che derivano dal “patrimonio”, come
PREDITTORE.
Ovvero deciderei di suddividere il nodo iniziale rispetto alla variabile patrimonio
 riduzione della probabilità di errore conoscendo il patrimonio!
Stabilisco le modalità del patrimonio come: BASSO / MEDIO o ALTO
Rischio di credito
Patrimonio
Basso
Alto
Tot
Basso
0
2
2
Medio/alto
5
1
6
Tot
5
3
8
Se il patrimonio è basso, la previsione è RISCHIO = ALTO (0 errori)
Se il patrimonio è medio/alto, la previsione è RISCHIO = BASSO (1 errore)
Utilizzando le informazioni proveniente dal patrimonio, il rischio si riduce di 1/8 = 12,8 %
Comunque, su tutte le informazioni che ho a disposizione (su 8 soggetti), commetto un errore (su un
soggetto!)
Se volessi mettere appunto una GERARCHIA DI PARTIZIONI, che massimizzi la mia capacità previsiva.
Ad ogni passo lo split massimizza la capacità previsiva (minimizza l’eterogeneità).
Parto dal nodo radice (soggetti che sto osservando) e sulla base del patrimonio, vado a fare una
classificazione. Ogni nodo è attribuito alla classe di Y con frequenza massima (REGOLA DELLA
MAGGIORANZA).
Utilizzando gli alberi decisionali non faccio altro che immettere i predittori all’interno dell’albero
 di volta in volta, cerchiamo lo SPLIT che riesce a massimizzare la capacità previsiva ( suddividere il
collettivo in partizioni di soggetti che presentano una maggiore omogeneità rispetto alla variabile target)
Faccio questo perché voglio creare gruppi (sottoinsiemi finali) omogenei dal punto di vista della variabile Y.
Di volta in volta, l’algoritmo sceglie quale variabile considerare che assicura lo split migliore per poter
identificare la previsione per massimizzare la capacità previsiva.
L’albero ad ogni step suddivide i nodi trovati in sottoinsiemi.
La procedura si ferma quando non trova più suddivisioni ulteriori da operare (si BLOCCA).
L’albero è cresciuto fino alla sua massima profondità: le foglie sono perfettamente omogenee per quel che
riguarda la Y.
A volte si generano alberi molto complessi  tale complessità rende più difficile l’interpretazione della
regola trovata!
E’ necessario quindi applicare una “potatura” dell’albero, ovvero si cerca di semplificarlo.
SLIDE 7
Proviamo ad interpretare TALE REGOLA, utilizzando l’albero a nostra disposizione (costruito con SPSSS 
ha sfruttato solo due variabili a nostra disposizione: patrimonio / risparmio).
Il rettangolo iniziale contiene tutti i dati a nostra disposizione  NODO RADICE: presenta la categoria
basso/alto (descrive il merito di credito)
Abbiamo 3 soggetti a cui corrisponde rischio alto / 5 soggetti a cui corrisponde rischio basso.
Utilizzando due variabili a nostra disposizione, è possibile migliorare la nostra previsione.
L’albero sceglie quale delle 2 utilizzare e in che modo (SPLIT OTTIMALE).
1 SPLIT  andiamo ad utilizzare la variabile patrimonio: “basso” / “medio-alto”
Nodo 1 : composto da due soggetti, in cui tutti e 2 i soggetti presenti hanno un rischio di credito elevato
 diventa un “nodo foglia”;
Nodo 2 : composto da 6 osservazioni, è un nodo genitore
Nodo 3 : coloro che hanno un risparmio medio ( < medio), ci sono 4 osservazioni
100% dei soggetti che appartengono a questo nodo, hanno rischio di credito basso
Nodo 4 : coloro che hanno un risparmio maggiore del medio
 è un nodo genitore
Nodo 5 : patrimonio < o uguale al medio, 1 solo soggetto classificato (alto rischio)
Nodo 6 : patrimonio superiore al medio , 1 solo soggetto classificato (basso rischio)
La partizione dei clienti si trovano suddivisi in 4 foglie (4 gruppi).
Y=1, coloro che presentano un basso rischio di credito: Nodo3 e Nodo6
Y=2, coloro che presentano un alto rischio di credito: Nodo1 e Nodo5
Tale regola può essere applicata per prevedere il rischio di altri clienti non ancora classificati
A1 =
{x: d(x) = 1} = {x = [patrimonio > basso, risparmio ≤ medio] e x = [patrimonio > medio, risparmio > medio]}
A2 =
{x: d(x) = 2} = {x = [patrimonio ≤ basso, risparmio qualunque] e x = [patrimonio ≤ medio, risparmio > medio]}
Risparmio
Basso
Basso
Patrimonio
Medio
Alto
Nodo 1
Medio
Nodo 5
Nodo 3
Alto
Nodo 6
La classificazione ottenuta mette in evidenza l’importanza di usare più informazioni:
patrimonio medio  basso rischio se risparmio <= medio (NODO3)
patrimonio medio  alto rischio se risparmio > medio (NODO5)
Le fasi di una segmentazione binaria
Fase 1. Un insieme di domande binarie: stabilire, per ciascun nodo, l’insieme delle divisioni ammissibili
Fase 2. Un criterio di split: definire un criterio per selezionare la migliore divisione di un nodo
Fase 3. Una regola di arresto: definire una regola per dichiarare un nodo come terminale o intermedio
Fase 4. Una regola di assegnazione: ad ogni nodo terminale viene assegnata una delle J classi della variabile
risposta nominale o un valore della variabile di risposta continua
Fase 5. Costruzione della regola per la classificazione
Fase 6. La valutazione della qualità della regola di decisione: stimare il rischio di errore di classificazione o
di previsione associato
Quanto più è buona la regola di decisone  tanto più è possibile utilizzarla in un ottica di previsione
Fase 1: un insieme di domande binarie
Si tratta per ciascun nodo di stabilire l’insieme delle divisioni ammissibili
Natura del predittore
Numero di modalità
Numero di split
Variabile quantitativa
N
N–1
Variabile binaria
2
1
Variabile ordinale
m
m-1
Variabile nominale
m
2^m-1 -1
{NB: in un albero potrebbero esserci informazioni “misto”: di tipo nominale, ordinale, quantitativo
 variabili di diversa natura}
Es. di variabile nominale (m modalità; 2^m-1 -1 split)
Proviamo a considerare i “colori della confezione” (packaging di un prodotto) possono essere 
rosso, blu, verde
3 modalità, 3 split
-rosso vs blu, verde
-rosso, blu vs verde
-rosso, verde vs blu
Es. di variabile ordinale (m modalità; (m-1) split)
“titolo di studio”: laurea, diploma, licenza media inferiore, licenza elementare, senza titolo
m = 5 split = 4
-laurea vs. diploma, licenza media inferiore, licenza elementare, senza titolo
-laurea, diploma vs. licenza media inferiore, licenza elementare, senza titolo
-laurea, diploma, licenza media inferiore vs. licenza elementare, senza titolo
-laurea, diploma, licenza media inferiore, licenza elementare vs. senza titolo
Fase 2 : un criterio di split
Le tecniche di segmentazione si differenziano per il criterio di split adottato.
Un criterio di split è un indice statistico che consente di selezionare la partizione migliore fra tutte le
possibili di ogni variabile esplicativa.
Fra tutte le variabili esplicative viene selezionata la migliore in relazione al criterio di eterogeneità
prescelto.
L’insieme iniziale deve essere suddiviso in gruppi il più possibile omogenei al loro interno ed il più possibile
eterogenei fra loro.
(es precedente  lo split viene fatto a seconda della variabile patrimonio
 soglia che consentiva la migliore partizione fra tutte le possibili che erano a nostra disposizione)
Fase 3 : una regola di arresto
La ripartizione ricorsiva di un insieme di unità statistiche si arresta quando i nodi terminali contengono solo
individui appartenenti alla stessa classe della variabile dipendente, o una % predefinita.
 algoritmo TOP-DOWN: parte da un gruppo composto da tutti i soggetti e li suddivide
Scelta della regola:
-Fra due regole di arresto si sceglie quella che fornisce l’albero di taglia minore (proprietà della semplicità –
Rasio di Ockham)
-Fra due regole di arresto si sceglie quella che consente di distinguere nel modo più efficace possibile unità
statistiche appartenenti a classi differenti (potere discriminatorio)
“A parità di fattori, la spiegazione più semplice tende ad essere quella esatta”
(William of Ockham)
Potremmo prediligere la semplicità / potere discriminatorio più efficace ed elevato (senza preoccuparmi
della complessità dell’interpretazione)
Fase 4 : una regola di assegnazione
-
Se la foglia comprende casi appartenenti ad una sola classe, la classe assegnata al nodo è quella
corrispondente alle unità che ne fanno parte (REGOLA DELL’UNANIMITA’)
x es: tutti i soggetti che appartengono al Nodo1, appartengono alla medesima classe di rischio
La classe che assegniamo a quel nodo è una classe che corrisponde effettivamente alla classe
presentata da tutte le unità presenti nel nodo.
-
Se la foglia comprende unità di classi diverse ed una delle classi ha frequenza più alta, la classe
assegnata al nodo è quella corrispondente alla frequenza più alta (REGOLA DELLA MAGGIORANZA)
x es: un nodo poteva presentare una percentuale di soggetti con rischio di credito alto ed una
percentuale con rischio di credito basso, che caratterizzazione diamo al nodo ???
(tutti i nodi devono essere battezzati rispetto ad un’unica univoca classe della variabile dipendente)
 andiamo a vedere quale modalità prevale
-
Se la foglia comprende unità di classi diverse con la stessa frequenza, si ha una situazione di
indecisione che viene risolta, in genere assegnando casualmente la classe al nodo
 casi in cui le regole di classificazione sono estremamente complesse
Fase 5 : costruzione della regola
Generazione dell’albero sulla base delle variabili monitorate.
Fase 6 : valutazione della qualità
La misura utilizzata per valutare la bontà del classificatore è il TASSO DI ERRATA CLASSIFICAZIONE associato
alla regola d indicato con il simbolo R(d).
SLIDE 15
 È una media : andiamo a valutare quanti sono gli errori nei nostri errori
 Otteniamo così il tasso di errata classificazione
Cj(i) : classe di effettiva appartenenza della i-esima unità statistica
d(xi) : classe assegnata alla stessa unità statistica della regola d
I : una funzione indicatrice che assume valore 1 se l’affermazione all’interno delle parentesi è vera e valore
0 nel caso contrario
Possiamo costruire una serie di indicatori di performance, che ci permettono di costruire la “matrice di
confusione” : è una tabella a doppia entrata, in cu abbiamo sulle righe la “classificazione vera”
(classificazione della variabile Y che abbiamo osservato), mentre in colonna abbiamo quella che prevediamo
utilizzando la regola che deriviamo attraverso l’albero di classificazione).
Ci aiuta a capire se la nostra regola di classificazione è efficace oppure no.
Classe prevista dal modello (Y*)
Classe vera (Y)
0
1
Totale
0
Veri Negativi
Falsi positivi
N
1
Falsi Negativi
Veri Positivi
P
Totale
N*
P*
I dati “classificati bene” saranno: veri negativi (basso rischio) / veri positivi (alto rischio)
 sono quelli che speriamo di ritrovare, perché vorrebbe dire che la mia regola mi aiuta a fare una
previsione il più esatta possibile !
Ci sono poi i falsi positivi (rischio basso, ma che abbiamo classificato come rischiosi) / falsi negativi (sono i
più pericolosi  abbiamo classificato come clienti poco rischiosi, ma che in realtà lo sono) : cercare di
minimizzare il più possibile i falsi negativi!
Lezione 17 14/12/2020
A partire dalla matrice di confusione è possibile calcolare alcune metriche di performance:
 TASSO DI VERI POSITIVI (o Recall) VP rate = VP / P
(quanto è buono il classificatore nel rilevare i positivi. Un elevato valore del date considerato da
solo può ingannare: il classificatore potrebbe massimizzare il recall restituendo sempre “positivo”
 TASSO DI FALSI POSITIVI FP rate = FP / N
 PRECISIONE del classificatore PRECISION = VP / VP + FP
(quanti dei classificati positivamente sono effettivamente positivi)
 Accuratezza Accuracy = VP + VN / P + N
(quanto il classificatore riesce a classificare correttamente tutte le unità considerate)
Più i veri positivi e veri negativi sono elevati, maggiore sarà l’accuratezza del classificatore!
 Sensitività = Recall
 Specificità Specificity = 1 – FP rate = VN / FP + VN
(quanto è buono il classificatore nell’evitare falsi allarmi; un elevato valore del rate considerato da
solo può ingannare: il classificatore potrebbe massimizzare la specificity restituendo sempre
“negativo”)
 Tasso di errata classificazione = 1 – Accuratezza
(quanto più siamo accurati, quanto meno facciamo errori!)
Proviamo a costruire un albero di classificazione con SPSS
Consideriamo i dati della lezione, costruiamo un albero di classificazione
Cliente
Risparmio
Patrimonio
Reddito Annuo
Rischio
A
Medio
Alto
75000
Basso
B
Basso
Basso
50000
Alto
C
Alto
Medio
25000
Alto
D
Medio
Medio
50000
Basso
E
Basso
Medio
100000
Basso
F
Alto
Alto
25000
Basso
G
Basso
Basso
25000
Alto
H
Medio
Medio
75000
Basso
Variabile di rischio  variabile dipendente
Abbiamo a disposizione le categorie ALTO/BASSO
Focalizziamoci sulla categoria rischio di credito elevato (ovvero quella che mi interessa maggiormente).
Scegliamo patrimonio e risparmio come variabile indipendente.
Utilizziamo il “metodo di crescita : CRT “
ALBERO SLIDE 3
Matrice di classificazione
PREVISTO
OSSERVATO
Basso
Alto
Percentuale di
correttezza
Basso
5
0
100,00 %
Alto
0
3
100,00 %
Percentuale globale
62,5 %
37,5 %
100,00 %
VP = 3/3 = 100,00 %
Specificity = 5/5 = 100,00 %
Accuracy = (5+3) / 8 = 100,00 %
Precision = 3 / (3+0) = 100,00 %
In questo albero abbiamo una classificazione praticamente perfetta!
 il numero dei soggetti a basso rischio, sono riconosciuti come a basso rischio
 coloro che presentavano un elevato rischio di credito, sono stati classificati con elevato rischio
SE provassimo a cambiare la classificazione su SPSS  proviamo ad inserire il reddito annuo al posto del
patrimonio come variabile indipendente
SLIDE 4
L’albero che viene prodotto è diverso dal primo
 anche la classificazione è differente
PREVISTO
OSSERVATO
Basso
Alto
Percentuale di
correttezza
Basso
5
0
100,0 %
Alto
1
2
66,7 %
Percentuale globale
75,0 %
25,0 %
87,5 %
VP = 2/3 = 66,7 %
Specificity = 5 / (5+0) = 100 %
Accuracy = (2+5) / 8 = 87,5 %
Precision = 2 / (2+0) = 100 %
In questo caso quindi non esiste più un errore di classificazione pari a 0, presenta 1 problema per quanto
riguarda i “veri positivi”
Rimane comunque una classificazione molto buona!
Insieme all’albero di classificazione, SPSS fornisce una tabella “GUADAGNI PER NODI”
Nodo
Guadagno
Nodo
N
Percentuale N
Percentuale Risposta
Indice
3
2
25,0 %
2
66,7 %
100,0 %
266,7 %
5
2
25,0 %
1
33,3 %
50,0 %
133,3 %
2
3
37,5 %
0
0,0 %
0,0 %
0,0 %
6
1
12,5 %
0
0,0 %
0,0 %
0,0 %
Come mai SPSS non li ordina in ordine di formazione?
Li ordiniamo in corrispondenza del fatto che le foglie sono state classificate sulla base della variabile
indipendente. Della variabile dipendente abbiamo affermato precedentemente che siamo interessati alla
categoria “alto rischio”.
Il nodo più importante è il nodo 3 : formato da 2 soggetti, entrambi con rischiosità elevata ! Rappresentano
il 66,7 % di coloro che appartengono alla categoria rischiosità elevata.
I nodi 2 e 6 non sono interessanti : non rientrano nella categoria rischiosità elevata.
Il nodo 5 invece è un po’ controverso : presenta 2 soggetti, di cui 1 classificato come rischiosità elevata,
l’altro con rischiosità bassa.
La tabella rispecchia quindi (anche a partire dall’ordine in cui i nodi sono presentati) questi concetti.
La costruzione dell’albero : vediamo le varie fasi
1) Identificazione del tipo di variabile dipendente (variabile target che guida la nostra classificazione)
2) Scelta del tipo di segmentazione (tipo di albero che voglio costruire)
3) Scelta del tipo di predittori (regressori della regola decisionale)
4) Criterio di segmentazione (che va massimizzato/minimizzato)
5) Scelte di analisi (legate ai diversi metodi)
6) Criteri di arresto
 o si ferma automaticamente perché non ci sono più soggetti da classificare/dividere
 o si ferma perché abbiamo raggiunto un criterio che abbiamo indicato inizialmente
Pruning : quando l’albero dovrebbe particolarmente complesso, spesso lo si fa crescere (7/8 livelli) e
successivamente si fa il pruning, ovvero si procede alla potatura dell’albero
I principali algoritmi di segmentazione ad albero
Metodi / Algoritmo
Segmentazione
Variabile (TARGET Y)
Predittori (VARIABILI X)
AID
Binaria
Quantitativa
Qualitativi
CHAID
Multipla
Qualitativa
Qualitativi
CART
Binaria
Qualitativa e
quantitativa
Qualitativi e
quantitativi
C4.5
Binaria
Qualitativa e
quantitativa
Qualitativi e quantitativi
Noi solitamente utilizziamo il metodo CART: sono segmentazioni binarie  ad ogni split, l’albero procede
dividendo ciascun nodo in due soli nodi figli (non sono possibili split con un numero di rami maggiori di
due). La variabile target può essere sia una variabile categoria, che numerica.
Ovvero posso costruire sia “alberi di classificazione” e “alberi di regressione”.
Il CHAID è invece un tipo di segmentazione multipla: lo split genera anche più di due nodi figli.
La variabile target è solo qualitativa, non possiamo avere variabili quantitative !
Proviamo a vedere le differenze fra i due algoritmi di segmentazione
Partiamo con l’algoritmo di tipo
CHAID : introdotto agli inizi degli anni ’80, si basa essenzialmente sul “chi quadrato”.
Abbiamo una variabile dipendente (Y) che è qualitativa e variabili esplicative (X1,….,XP) qualitative.
Possiamo ottenere una classificazione/segmentazione multipla, ovvero gli split non devono essere
necessariamente binari, ma possono anche essere più di due.
Qual è il CRITERIO che guida questa tipologia di classificazione?
Il criterio di suddivisione dei nodi è basato su un test “chi quadrato” per la verifica dell’ipotesi di
indipendenza statistica tra la variabile dipendente e la variabile esplicativa.
Si calcola in corrispondenza di tutti i regressori e si sceglie per lo split la variabile che presenta p-value più
basso.
Ovvero: se abbiamo più regressori, l’albero valuta e costruisce per ciascun regressore (considerato
singolarmente) insieme alla variaible dipendente la tabella a doppia entrata; partendo da tale tabella si
calcola il chi quadrato e si va a valutare il p-value relativo al chi quadrato.
REGOLA DI STOP per la costruzione dell’albero, diventa o il numero massimo di livelli (dimensione massima
dell’albero) oppure il numero minimi di elementi in un nodo.
Proviamo a vedere su SPSS tale split
Partendo dai dati iniziali.
Abbiamo la variabile rischio che è la variabile target. Possiamo considerare SOLO variabili di tipo categorico
(non considero e non inserisco “reddito annuo” nell’algoritmo).
Abbiamo a disposizione due variabili: patrimonio e risparmio.
L’algoritmo calcola diverse tabelle di contingenza e predilige quella che genera il p-value corrispondente al
chi quadrato più basso.
Consideriamo il patrimonio  possiamo avere una segmentazione a 3 rami / a 2 rami
Rischio
Patrimonio
Basso
Alto
Totale
Basso
0
2
2
Medio
3
1
4
Alto
2
0
2
5
3
8
Totale
χ 2 = 4,80 , gdl = 2 ,
p-value = 0,091
Categorie patrimonio: basso + medio vs alto
Rischio
Patrimonio_v2
Basso
Alto
Totale
<= Medio
3
3
6
>Medio
2
0
2
5
3
8
Totale
χ 2 = 1,6 , gdl = 1 ,
p-value = 0,206
Categorie patrimonio: basso vs medio + alto
Rischio
Patrimonio_v1
Totale
Basso
Alto
Totale
Basso
0
2
2
>Basso
5
1
6
5
3
8
χ 2 = 4,44 , gdl = 1 ,
p-value = 0,07
Quest ultima è la SEGMENTAZIONE VINCENTE
Ricapitolando: COS’E’ IL P-VALUE ? Probabilità associata ad una determinata statistica test.
Solitamente si considera come valore soglia il valore 0,05 : se la probabilità associata al test è inferiore  la
probabilità troppo bassa  rifiutiamo il test di ipotesi.
In questo caso SPSS fornisce tale valore automaticamente, che nel caso specifico è 0,07 per l’ultima
tipologia di classificazione.
SLIDE 9
Vediamo l’albero con SPSS
Inserisco come “metodo di crescita” il CHAID.
Inserisco come variabile indipendente, il patrimonio.
Mettiamo come limite di crescita 0,1 (solitamente sono settati a 0,05 ma alziamo la soglia perché abbiamo
numerosità scarsa).
Matrice di classificazione
Previsto
Osservato
Basso
Alto
% di correttezza
Basso
5
0
100,00 %
Alto
1
2
66,7 %
% globale
75,0 %
25,0 %
87,5 %
FP = 0/5 = 0 %
Sensitivity = 2/3 = 66,7 %
Specificity = 5/5 = 100%
Tasso errata classificazione = 1 – (5+2) / 8 = 12,5 %
SLIDE 10 (albero)
L’albero che otteniamo è estremamente semplice.
Avremmo potuto ottenere più di due rami per nodo, però otteniamo uno split binario.
Se inserissimo una variabile di tipo numerico? Andando ne criteri, troviamo un ulteriore scheda nel menù,
in cui mi viene chiesto in quante categorie articolare la variabile numerica  viene fatto un calcolo rispetto
alla creazione delle categorie.
METODO CART (“Classification and Regression Tree”)
-Variabile dipendente Y  qualitativa / quantitativa
-Variabili esplicative X1,….,XP  qualitativa / quantitativa
La segmentazione è binaria
Il CRITERIO di suddivisione dei nodi è basto sulla massima riduzione dell’impurità.
Per gli alberi di classificazione (Y qualitativa)
 L’impurità si misura attraverso l’indice di eterogeneità di GINI
Per gli alberi di regressione (Y quantitativa)
 L’impurità si misura attraverso la varianza
Indice di eterogeneità di GINI
L’indice di Gini I è una misura della eterogeneità di una distribuzione statistica a parte dai valori delle
frequenze relative associate alle k modalità di una generica variabile X.
Es: X (risparmio) osservato su 8 clienti
k = 3 modalità
RISPARMIO
Valido
Frequenza
Percentuale
Percentuale
valida
Percentuale
cumulativa
Basso
3
37,5
37,5
37,5
Medio
3
37,5
37,5
75,0
Alto
2
25,0
25,0
100,0
Totale
8
100,0
100,0
I = 1 - ∑ fi^2
0 : perfetta omogeneità (tutte le unità presentano una sola modalità)
(k-1)/k : massima eterogeneità (tutte le unità sono equamente distribuite tra modalità)
In questo caso:
I = 1 – (0,141 + 0,141 + 0,0625) = 0,656
Vediamo ora l’indice applicato al caso del nostro “albero” attraverso il metodo CART
Considerano il dataset iniziale, identifichiamo la variabile rischio e 3 potenziali regressori: risparmio /
patrimonio / reddito annuo.
Il CART punta a massimizzare la riduzione dell’impurità all’interno dei nodi che si costituiscono.
L’impurità viene misurata attraverso l’indice di Gini  partiamo calcolando l’eterogeneità (impurità del
nodo radice).
Nel caso specifico, l’indice di impurità quanto vale? Andiamo a calcolarla rispetto alla variabile target.
SLIDE 13
Il nodo radice presenta un’eterogeneità pari a 0,469
(abbiamo ottenuto questo valore applicando la distribuzione rischio di credito)
 la distribuzione nel nodo 0 (“nodo radice”) presenta 62% di soggetti che hanno valore di rischio basso /
37,5 % dei soggetti che presentano rischio alto
Questo genera una distribuzione abbastanza eterogenea  l’indice vale 0,469
L’algoritmo cosa fa in automatico?
Prova ad utilizzare come prima variabile, una di quelle che noi mettiamo a disposizione come variabile
esplicativa, x es “patrimonio”.
Cosa succede se uso la variabile patrimonio in termini di split?
Si genera lo split che individua il miglior livello di impurità possibile sulla base dei dati che abbiamo a
disposizione. Si generano 2 nodi:
- nodo 1 (vado a classificare il nodo rispetto alla variabile che voglio prevedere, ovvero la variabile Y),
entrambi i soggetti presentano 1 modalità; I = 0;
- nodo 2 (vado a valutare i soggetti che hanno un patrimonio maggiore del livello basso, è composto da 6
soggetti diversamente distribuiti : 5 sogg con rischio di credito basso e 1 con rischio di credito alto);
I = 0,278 ;
Se voglio calcolare il miglioramento che ottengo passando dal nodo radice, utilizzando il patrimonio come
variabile di split, ottengo un miglioramento dello 0,260.
Com’è ottenuto il valore??
Sottraiamo all’impurità inziale, la percentuale dei soggetti presenti nel nodo1 x impurità1 e la percentuale
dei soggetti presenti nel nodo2 x impurità2
Δimp = 0,469 – 0,25x0 – 0,75x0,278 = 0,26
Proviamo ora a usare come variabile di split la variabile “risparmio”.
C’è maggiore eterogeneità in questo caso nel nodo1 e nodo2.
In questo caso abbiamo un miglioramento di 0,102  inferiore
Δimp = 0,469 – 0,375x0,444 – 0,625x0,32 = 0,102
QUAL E’ LA SEGMENTAZIONE VINCENTE??
Quella che utilizza la variabile patrimonio
Cliente
Risparmio
Patrimonio
Reddito annuo
Rischio
Reddito classi
A
Medio
Alto
75000
Basso
>70000
B
Basso
Basso
50000
Alto
<= 50000
C
Alto
Medio
25000
Alto
<= 50000
D
Medio
Medio
50000
Basso
<= 50000
E
Basso
Medio
100000
Basso
>70000
F
Alto
Alto
25000
Basso
<=50000
G
Basso
Basso
25000
Alto
<=50000
H
Medio
Medio
75000
Basso
>70000
Inseriamo un ulteriore variabile: reddito in classi
Nel caso in cui usassimo come variabile di riferimento il reddito annuo, avremmo un miglioramento dello
0,169.
Nel caso in cui usassimo il reddito in classi avremmo un miglioramento di 0,281.
SLIDE 14
Mettiamo il rischio come variabile dipendente  dobbiamo prevedere rischio alto (attraverso metodo CRT)
SLIDE 15
Quando abbiamo a che fare con gli alberi, possiamo costruire un indicatore che ci aiuta nell’interpretazione
della regola che otteniamo: si basa sull’importanza delle variabili indipendenti sulla previsione della
performance del modello : misuriamo un ranking di importanza fra tutte le variabili esplicative considerate
all’interno della nostra regola
Importanza variabili indipendenti
Variabile indipendente
Importanza
Importanza normalizzata
Patrimonio
0,385
100,0 %
Risparmio
0,185
48,1 %
Reddito annuo
0,083
21,6 %
Vengono ordinate in termini di importanza: in questo caso il patrimonio è la variabile più importante.
Indicatore di importanza viene ricavato a partire dai miglioramenti che le variabili generano all’interno della
regola che stiamo considerando. L’importanza del patrimonio è direttamente calcolabile dalle importanze
delle impurità
X es : 0,26 + 0,125 = 0,385
Nel caso delle variabili risparmio e reddito annuo, SPSS conteggia nel calcolo dell’importanza tutto il
“potenziale predittivo” della variabile includendo anche quei miglioramenti di impurità che non sono stati
salvati nella regola finale
QUINDI in alcune variabili, l’importanza è direttamente calcolabile a partire dalla regola che otteniamo e in
altri no (“potenziale non espresso”).
Importanza normalizzata  riconsidera a partire dall’indice di importanza ottenuto sulla base dei
miglioramenti che ciascuna variabile produce nella predizione della variabile dipendente.
Considera la variabile più importante (in questo caso patrimonio), rispetto alla quale fare poi tutti i
confronti  non fa altro che confrontare i valori dell’indice di importanza con la variabile considerata più
importante !
Reddito annuo ha un importanza normalizzata del 21,6 % :
0,083 / 0,385 = 0,216
Qualche confronto
1.CHAID crea alberi di segmentazione multipla, CART binaria
2.Mentre CHAID utilizza un solo data set, CART ha un training set e un validation set
3.CHAID utilizza criteri statistici per la regola di stop, mentre CART effettua il pruning
(Si tratta di rimuovere i rami che fanno uso di caratteristiche che hanno poca importanza. Ciò riduce la
complessità dell’albero e aumenta il suo potere predittivo).
4.CHAID produce più che un albero una serie di cespugli, ossia spesso conduce a molte foglie, provenienti
da un ramo, facilmente rappresentabile in una tabella di contingenza. Questo fa sì che CHAID sia un
metodo molto utilizzato nelle ricerche di mercato, per la sua capacità descrittiva, basata su un test
statistico
5.CART ha un u9lizzo predittivo più evidente
Download