TEORIA

07/10/2020 LEZIONE 1 IL FLUSSO DELLE INFORMAZIONI CLIENTE – IMPRESE Schema slide 1 Da un lato ci sono le IMPRESE e dall’altro il mercato in cui OPERANO. Tale schema descrive il flusso delle informazioni: che dal mercato arriva all’impresa e dell’impresa viene restituito al mercato  circolo virtuoso di informazione. MA QUANDO L’IMPRESA RIESCE AD ACQUISIRE INFORMAZIONI SUL PROPRIO CLIENTE? Avviene esattamente quando c’è l’acquisto! Il consumatore in quel momento comunica all’azienda una serie di informazioni. Oggi spesso gli acquisti avvengono anche tramite canali digitali e si comunica una serie di informazioni (si pensi al profilo personale)  comunichiamo le nostre preferenze, caratteristiche geografiche, età, genere, punto di vista valoriale… Il prodotto/servizio NON è acquistato dal consumatore esclusivamente come portatore esclusivo di un obiettivo funzionale (non solo per ciò che ci servono), ma anche per quello che esprimono! Le informazioni e caratteristiche di soggetti che acquistano presso un determinato BRAND, sono diverse dai soggetti che acquistano presso un BRAND differente. Difatti se il BRAND comunica con i propri prodotti/servizi un certo messaggio  i soggetti che accolgono tale messaggio, dovrebbero essere generalmente coerenti con esso. Quindi lo scambio di informazione mercato – impresa, vede come risposta lo sviluppo di determinati prodotti/servizi da parte dell’impresa per il soddisfacimento di determinati soggetti e bisogni. Questa rappresentazione può essere vista come una sorta di “sintesi” del corso! Noi impareremo che tali informazioni sono molto importanti per noi (x es pensiamo la fidelity card, è stata introdotta da tantissimi brand  si vogliono acquisire sempre più informazioni sul proprio cliente e sul suo comportamento d’acquisto). Tali informazioni sono molto preziose per l’azienda: non solo conoscere il cliente, ma poter anche PREVEDERE quello che potrebbe essere il suo comportamento, sviluppando in futuro dei servizi che fino a quel momento magari non erano stati presi in considerazione, al solo scopo di FIDELIZZARLO. ESTREMA IMPORTANZA del trattamento e della raccolta delle informazioni. Le informazioni raccolte sono preziose non solo perché ci permettono di produrre prodotti che saranno di successo sul mercato, ma anche x es. cambiare prodotti/servizi esistenti che non avevano riscosso troppo successo, fino a farli diventare apprezzati dal mercato! x es : COCA COLA 0: la sua storia è abbastanza particolare: nei primi anni ’80, viene lanciata sul mercato la “DIET COKE”, in America si era diffusa una certa attenzione per il fitness e naturalmente la coca cola viene “vietata” nelle diete! La coca cola attraverso la raccolta e l’analisi delle informazioni, produce sul mercato un nuovo prodotto/servizio. Negli anni ’90 viene chiamata “COCA COLA LIGHT”. Risponde proprio a questa esigenza. Nella metà degli anni 2000, l’azienda si rende conto che questa coca cola viene bevuta quasi solamente da donne. Ci si pone quindi il problema degli “uomini”: rispondere al mercato con un nuovo prodotto  nasce la Coca Cola 0. Difatti la “Coca Cola Light” veniva concepita essenzialmente come un prodotto femminile  si è cercato quindi di soddisfare un’altra faccia del mercato. La Coca Cola 0 anche nel packaging ha un modo di presentarsi più “aggressivo” (lattina nera x es). Appunto l’utilizzo delle informazioni può indurre l’azienda a porre nuovi prodotti o a variare quelli esistenti! NB: LA SOCIETA’ E’ CAMBIATA RADICALMENTE NEL TEMPO! Questo incide sia sui prodotti che vengono immessi nel mercato, sia nel modo in cui vengono proposti: si pensi al canale di comunicazione. X es: per un pubblico giovane, devo preferire i canali social piuttosto che la TV; per genitori/nonni dovrei fare scelte alternative. L’informazione è quello che oggi viene definito come l’ORO DELLE AZIENDE. INFORMAZIONI CARATTERIZZANTI: Informazioni Socio-Demografiche: Età, Genere, Reddito, Occupazione, Livello d’istruzione. x es: più i soggetti sono scolarizzati, più il livello di soddisfazione rispetto alle banche è inferiore  più critico. Anche la “capacità di spesa” del cliente è fondamentale per l’azienda: occupazione e soprattutto il REDDITO! In realtà oggi queste informazioni non sono semplici da reperire: si cerca essenzialmente di capire se il cliente è un lavoratore oppure no e si cerca successivamente di fare delle domande (non per forza dirette) per reperire tali informazioni (x es: fare domande collegate al reddito che non fanno menzione diretta ad esso: se si vive in casa/appartamento, che auto possediamo, se si vive in centro/periferia….ecc) SONO SUFFICIENTI QUESTE DOMANDE PER COSTRUIRE PROFILI DEI CLIENTI CHE MI AIUTANO A COSTRUIRE STRATEGIE DI MARKETING? Queste informazioni mi raccontano prevalentemente e mi permettono di analizzare la struttura sociale e demografica dei miei consumatori/clienti. CHE COSA MANCA A QUESTO SCHEMA DI INFORMAZIONI? Non conosco quelle che sono le abitudini dei soggetti (x es abitudini di consumo). Queste informazioni sono facilmente reperibili tramite le fidelity card: x es quando vado a fare la spesa, quanto spendo, che ora, ecc… Ma anche altre informazioni “NASCOSTE”, ovvero che non viene fuori attraverso la registrazione di questi dati, sono importanti  Profili psicografici: Abitudini, Atteggiamenti, Valori, Interessi, Opinioni x es: non acquisto carne al supermercato ma solo verdura, perché sono vegetariana / non compro la carne al supermercato. Questa motivazione fornisce all’azienda la “spiegazione” del comportamento d’acquisto  l’azienda capisce se c’è o meno possibilità di vendere qualcosa, oppure se proprio non c’è possibilità di poter convincere/recuperare il cliente. Tutta questa parte è estremamente importante, proprio nel momento della segmentazione di mercato  il mercato non è composto da soggetti che hanno TUTTI stessi comportamenti o valori, quindi l’azienda non può rispondere con lo stesso prodotto per tutti (a meno che non si tratti di prodotti di lusso, che sono più standard/basic)  in altri casi si parla proprio di prodotti alternativi (si pensi a tutti i prodotti vegani: nuovi valori e nuove abitudini). E’ proprio questa parte che ci permette di sviluppare un “profilo psicografico” dei soggetti. LA SEGMENTAZIONE DELLA CUSTOMER BASE passa dall’essere statica all’essere più DINAMICA  si basa sempre di più sul comportamento (non più solo sulle informazioni demografiche) Naturalmente anche la struttura demografica del soggetto viene rilevata nella segmentazione più comportamentale. Per applicare l’approccio “BEHAVIOURAL” è necessario raccogliere molte più informazioni. Non si pensi che sia così difficile recuperare queste tipologie di informazioni (psicografiche), difatti si potrebbero riscontrare difficoltà anche solo a raccogliere informazioni sociodemografiche. E’ importante ideare il proprio “questionario” in maniera OPPORTUNA! Esistono linee guida da seguire per ideare il BUON QUESTIONARIO, oltre a tanta esperienza  ideare un buon questionario è molto molto difficile. x es: segmentare i soggetti in base a reddito/occupazione (sono due caratteristiche oggettive, a cui i soggetti dovrebbero rispondere molto facilmente), ma si potrebbero riscontrare difficoltà L’indagine svolta dall’Instat per esempio chiedeva se si fosse un lavoratore o meno (x l’instat “occupato” è colui che ha svolto almeno 1 ora di lavoro in una determinata settimana), per un lavoratore saltuario potrebbe essere difficile pensare o ricordarsi se si è lavorato o meno quella settimana… altro es: gli italiani sono sensibili particolarmente alla domanda sul reddito (tendono a non rispondere); quindi l’Instat ha deciso di indicare delle classi di reddito in cui potersi identificare  si è notato che gli italiani sceglievano la classe inferiore rispetto a quella a cui appartenevano veramente  per ovviare, ha scelto classi estremamente strette di reddito. altro es: se chiedo al soggetto “quante volte acquisti il prodotto?”, mi affido alla sua memoria! Se lo costringessi a concentrarsi su lassi temporali molto lunghi, la memoria potrebbe essere non veritiera. C’è un effetto telescopico di avvicinamento se il prodotto è particolarmente gradito, di allontanamento se non lo è. Non scegliamo la segmentazione “demografica” (/statica) perché è più semplice  ma perché potrebbe presentare dei problemi. Se scegliamo la segmentazione “behavioural” facciamo riferimento a degli aspetti più vicini al consumatore (gli chiediamo di raccontarci il perché di certe azioni, gli permettiamo di esprimerci, le risposte potrebbero essere più veritiere!) La segmentazione è una tecnica su cui ci concentriamo particolarmente, ma anch’essa presenta una serie di problematiche. La raccolta delle informazioni e la redazione del questionario rappresenta proprio una criticità nella ricerca. Una buona analisi può essere fatta se abbiamo a disposizione BUONI DATI. Espressione statistica: “GARBAGE IN, GARBAGE OUT”  se immetto della spazzatura (nei miei modelli): risposte inutili, sbagliate, immetto dati inseriti male, ecc.., emetto spazzatura! Il momento del questionario è quindi drammatico ed importante perché io raccolgo l’informazione in quel momento e basta: dev’essere ideato perfettamente e perfino testato. SLIDE 3 LEZIONE 2 12/12/2020 IL PROCESSO DI RICERCA DI MARKETING Ci siamo resi conto dell’importanza delle informazioni  permettono di proporre prodotti aggiornati / modificare quelli già presenti sul mercato (rispondere alle esigenze del mercato!) Esistono informazioni più OGGETTIVE ed informazioni più SOGGETTIVE. Oggi ci occupiamo di capire come utilizzare queste informazioni in maniera opportuna. Fino a poco tempo fa, le informazioni “non c’erano”  oggi CI SONO: il problema è di non sapere cosa farci !  fa parte di un corso di statistica, anche la parte riguardare alla “costruzione dell’informazione” Identifichiamo le varie fasi del processo di ricerca di marketing: -DEFINIZIONE DEL PROBLEMA E DEGLI OBIETTIVI DI RICERCA : capire quali sono i dati che potrebbero rispondere all’obiettivo che ci stiamo ponendo  più la domanda di ricerca è precisa  meno fatica faremo nel raccogliere i dati (sia se i dati sono già a disposizione in azienda che nel caso in cui debbano essere raccolti “ex novo”) -SVILUPPO DEL PIANO DI RICERCA PER LA RACCOLTA DELLE INFORMAZIONI : se abbiamo un obiettivo preciso, è nostra cura sviluppare il piano di ricerca (capire se le informazioni sono presenti in azienda oppure no) Se sono presenti, capire se vogliamo analizzare la logistica/vendite/CRM/ ecc…; se devono essere raccolte “ex novo”, dobbiamo stabilire come raccogliere queste informazioni: piano della ricerca  se devo svolgere una ricerca su persone particolarmente giovani, mi baserò sullo strumento dei social / survey utilizzando smartphone / focus group -REALIZZAZIONE DEL PIANO DI RICERCA: raccolta ed analisi delle informazioni : non per tutti utilizzo lo stesso tipo di raccolta e piano della ricerca  dev’essere declinato di volta in volta all’obiettivo che vogliamo raggiungere  i dati raccolti devono essere analizzati e successivamente -INTERPRETAZIONE E PRESENTAZIONE DEI RISULTATI : l’interpretazione non è necessariamente “univoca”  si può rispondere allo stesso quesito anche utilizzando tecniche alternative Esempio di problema di marketing, che trasformiamo in un “problema di ricerca” : devo lanciare un nuovo prodotto, vorrei capire quali sono le caratteristiche del mercato nel quale provo a lanciare i mio nuovo prodotto. Tale problema dev’essere inserito all’interno dello schema precedente: 1. Costruire il problema dal punto di vista degli obiettivi: capire la composizione del mercato potenziale / caratteristiche / comportamento d’acquisto…ecc 2. Sviluppare il piano di ricerca 3. Analizzare le informazioni ed interpretarle Altro problema di tipo marketing: fare un posizionamento di prodotto (nuovo / già presente)  vorrei capire come il mio prodotto viene percepito dai miei consumatori: l’azienda presenta un determinato posizionamento, ma dopo facendo l’analisi si scoprono nuove caratteristiche. Come potremmo fare un’analisi di questo tipo? Identifico i potenziali competitor : faccio un’analisi del brand, scelgo l’insieme degli attributi che descrivono il mio prodotto/ i prodotti altrui, faccio valutare ai miei consumatori i prodotti alternativi, cerco di capire quali sono le caratteristiche di somiglianza o dissomiglianza vincenti (potrei scoprire che i miei punti di forza sono ancora migliorabili) Altro tipo di problema: soddisfazione del consumatore  trasformarlo in un “Problema di ricerca” significa : scomporre il prodotto nelle sue caratteristiche peculiari / somministrare una survey per capire quanto il prodotto è apprezzato e quanto gli attributi che lo descrivono son considerati importanti per i soggetti che lo hanno utilizzato Quando facciamo la conversione di un “problema di marketing” in un “problema di ricerca” riusciamo AUTOMATICAMENTE ad identificare o a scrivere il flusso del piano di ricerca  andare ad identificare le variabili che andremmo a studiare: la definizione del problema dev’essere PARTICOLARMENTE accurata! IL PROCEDIMENTO DELLA RICERCA Dobbiamo prima identificare se procedere con un “procedimento induttivo” piuttosto che un “procedimento deduttivo”. PROCESSO INDUTTIVO  OBIETTIVO: mira alla conoscenza generale attraverso l’analisi di n casi particolari FASI: 1. Osservazione: su un “campione rappresentativo” 2. Astrazione 3. Regola generale: rendere la conoscenza generalizzabile APPLICAZIONI: analisi di un nuovo mercato (rivolte a fare valutazioni che non erano state fatte prima), indagini sui processi di scelta nel punto vendita, valutazione di un nuovo product concept (l’idea di creare prodotti nuovi spesso si realizza anche attraverso un focus group….)  viene applicato ogni volta in cui “non ho una storia pregressa”, l’azienda non può beneficiare di informazioni ulteriori PROCESSO DEDUTTIVO  OBIETTIVO: mira alla verifica di una teoria generale attraverso l’esame di situazioni particolari FASI: 1. Studio delle fonti 2. Formulazione di una teoria 3. Osservazione 4. Verifica APPLICAZIONI: analisi della customer satisfaction, misura della brand equity, elasticità della domanda rispetto al prezzo, etc….  materia che conosco molto bene, provo a vedere se anche questa volta “sono andata bene” TIPO DI RICERCA RICERCA ESPLORATIVA: ha l’obiettivo di far luce su un fenomeno o un problema di cui non sono ancora ben chiare le manifestazioni ( la definizione degli obiettivi a volte è più vaga, sono quelle più difficili da analizzare) RICERCA DESCRITTIVA: ha la finalità di rappresentare una situazione, un fenomeno o un comportamento in un determinato spazio-temporale. In base alla tipologia di ricerca le osservazioni possono essere condotte secondo una prospettiva longitudinale o trasversale (prospettiva cross-action: analizziamo il fenomeno in questo momento/in questo luogo ; prospettiva longitudinale: come si evolve nel tempo il fenomeno stesso) x es: customer satisfaction: potrei voler sapere se OGGI i miei clienti sono soddisfatti / cerco di capire se la customer satisfaction è cambiata o meno RICERCA CAUSALE: analizza relazioni di causa/effetto che generano determinati comportamenti e di solito viene condotta attraverso la sperimentazione ( di solito viene usata per quanto riguarda gli abbandoni: x es prodotti bancari/finanziari) RACCOLTA DELLE INFORMAZIONI I dati possono essere distinti tra: INTERNI / ESTERNI A seconda che questi siano direttamente presenti in azienda oppure se devono essere raccolti (non sono “prodotti” direttamente dall’azienda  fonti di informazioni esterne all’azienda stessa). I dati che direttamente coinvolgono l’azienda sono di primaria importanza, ma all’interno del mercato vengono analizzati anche dati provenienti da “aziende di consulenza” , così come esistono anche fonti di informazioni istituzionali (x es. ISTAT). Le pubblicazioni / i dati dell’ISTAT liberamente consultabili, potrebbero essere in realtà interessanti. I dati dell’ISTAT non sono in un’ottica aziendale, ma più che altro si concentrano sulla situazione generale del Paese. La raccolta delle informazioni prevede le distinzione tra dati INTERNI/ESTERNI, ma anche la distinzione tra dati PRIMARI/SECONDARI. FONTE INTERNA DATI PRIMARI Prodotti all’interno dell’azienda (dati di vendita, distribuzione…)  x es performance di un prodotto DATI SECONDARI Dati già realizzati e immediatamente disponibili all’interno dell’azienda (risultati di vendita, budget, investimenti…)  non immediatamente collegabili agli acquisti (x es.) ESTERNA Prodotti attraverso un’apposita rilevazione (opinioni e atteggiamenti consumatori, intenzioni d’acquisto…) rilevazione “ad hoc” : una survey Dati pubblicati da Fonti esterne e immediatamente disponibili (associazioni categoria, internet, dati di agenzia, banche dati…)  non direttamente collegati alla nostra analisi (anche se questo tipo di informazione potrebbe essere egualmente importante) X es: Parlando di Apple: quale potrebbe essere un dato “interno” e “secondario” ???  investimenti di Apple del passato nel “green”  non direttamente viene analizzato, ma potrebbe aver in qualche modo impattato sulle vendite perché sfruttato dalla comunicazione commerciale X es: pensiamo alle fidelity card (dato esterno e primario)  di supermercati e negozi, identificano tutta una serie di atteggiamenti e di attitudini di acquisto che sono utili e fondamentali per l’azienda, ma che sono ESTERNI all’azienda (non ha modo di conoscere direttamente) X es: riduzione del nucleo famigliare (dato “esterno” e “secondario”) la proposta che posso fare alla GDO va di pari passo  anche i prodotti posti in offerta saranno ridotti nelle dimensioni / nascita di prodotti confezionati in un modo differente (si pensi alle “monoporzioni”) PRINCIPALI FONTI DI INFORMAZIONE ESTERNE -Internet: accesso semplice costi non troppo elevati. Qual è il problema? Il punto importante su cui focalizzarsi è: l’informazione deve sempre essere verificata! Come capire se un’informazione è accredita??? Se una fonte di informazione è valida? Mi posso fidare di una fonte di informazione se l’azienda mette a disposizione, la cosiddetta “nota metodologica”: spiego anche le tecniche che ho utilizzato per raccogliere i dati e gli indicatori usati per sintetizzare il mio dato  sintomo di serietà/coerenza NB: fondamentale citare sempre la fonte -Banche Dati Accessibili: ISTAT (www.istat.it) produce statistiche sulla condizione generale del Paese, ma anche risultati dell’indagine sui consumi sulla situazione demografica dell’Italia, aspetti della vita diversi della vita quotidiana (riguardano la parte economico-sociale del nostro Paese, non c’è un approccio di tipo “aziendale”) -Enti di Ricerca Economica Sociale: CENSIS, Banca d’Italia, centri studi come CONFINDUSTRIA o ABI  attività di studio della realtà nazionale, con indagini che potrebbero essere direttamente integrabili con quelli fatti dall’ISTAT x es: Censis ogni anno pubblica un rapporto sulla situazione del nostro paese in cui ci racconta gli aspetti sociali DATI DI AGENZIA  informazioni vendute da società di ricerca specializzate a clienti diversi che condividono bisogni informativi comuni (MULTICLIENT). Spesso sono dati panel su famiglie o consumatori (sondaggi di tipo “OMNIBUS”) : ACNielsen, DOXA, GKFEurisko, IPSOS. Le indagini sono condotte in modo molto attento (dal punto di vista della qualità del dato)  successivamente con ragionamento induttivo, il risultato che viene poi presentato può essere esteso in una prospettiva molto più ampia (situazione generale che diventa poi interessante nel particolare) 14/10/2020 LEZIONE 3 Nell’ultima lezione abbiamo compiuto una distinzione tra i DATI, classificandoli sulla base di due dimensioni fondamentali: da un lato possono essere distinti sulla base della loro importanza in dati PRIMARI/SECONDARI (se interessano direttamente l’obiettivo della nostra analisi / aiutano a dimostrare quanto si vuole esplorare, raggiungere, evidenziare, sono collaborativi); dall’altro lato possiamo distinguere i dati a seconda del fatto che vengano prodotti internamente / esternamente (costruendo survey ad hoc oppure facendo riferimento a database esterni piuttosto che a report)  se facciamo riferimento a database esterni, abbiamo elencato una serie di fonti di informazioni possibili, spesso “open”, che sono a disposizione di colore che navigano nel web. Le fonti di informazioni possono essere divise in 2 categorie: chi affronta l’analisi economico-sociale da un punto di vista “macroeconomico” (Istat, Banca D’Italia, ecc…) ed i cosiddetti “dati di agenzia”, che provengono proprio da chi opera nell’ambito della consulenza più specifica. La mission di Istat è sicuramente diversa dalla mission di IPSOS ! DIFFERENCE DI INDAGINI NELLA DINAMICA Tutto nasce dalla “traduzione” del problema di marketing in un problema di ricerca. È importante stabilire che tipologia di indagini vogliamo andare a realizzare. La scelta di un tipo di ricerca piuttosto che di un altro si andranno poi a differenziare sul piano della dinamica. Abbiamo due tipologie: -RICERCHE CROSS-SECTION (esplorative/confermative): Vengono fatte in un determinato TEMPO e LUOGO: sono ricerche di tipo “esplorativo”. Viene fatta per esempio se devo studiare un mercato che non conosco, dopo che ho effettuato questa ricerca non la faccio più, perché il mercato lo conosco. Sono ricerche utilizzate per esplorare ambienti che non sono familiari / nuovi, oppure vengono utilizzati per confermare delle ipotesi che avevo pensato (x es lanciare un nuovo prodotto). Si basano essenzialmente su survey (questionari…), ma rientrano in questa categoria anche: 1)Interviste da questionari  mira ad utilizzare un approccio quantitativo, ovvero si basa su numeriche (si cerca di non intervenire/influire sulla risposta) 2)Focus groups  approccio differente, ovvero più qualitativo: un moderatore propone dei temi e dei panelist rispondono a sollecitazioni 3)Uso di dati secondari -RICERCHE LONGITUDINALI: vengono usate quando si vogliono indagare delle dimensioni che risultano essere particolarmente interessanti per l’azienda (x es customer satisfaction) Sono ricerche iterate: è uno schema di ricerca ripetuto nel tempo (sono utilizzate poco nel tempo) Innanzitutto i dati longitudinali sono più difficili da trattare statisticamente. Inoltre, oggi un prodotto dura molto poco su un mercato “così come è stato lanciato”, la modifica è continua  non si può pensare ad un prodotto che rimane tale così nel tempo (il consumatore è molto più sollecitato)  la customer satisfaction relativa ad un prodotto (ipotizzando di farla ogni 8 mesi), di poter avere nel ciclo di 2 anni, 3 rilevazioni  diventa tutto molto oneroso con risultati poco interessanti. Questo dipende anche dal tipo del prodotto che trattiamo: per un prodotto finanziario, l’analisi della customer satisfaction viene fatta semestralmente, non sarebbe possibile fare un’indagine del genere per altre tipologie di prodotti (x es materassi, automobili…, ovvero prodotti con un ciclo di vita decisamente più lungo). Pensando alle ricerche longitudinali: 1) INDAGINI RIPETUTE : i soggetti che compongono il campione, non necessariamente sono gli stessi ! Disegniamo il campione in modo tale che sia identico dal punto di vista di variabili socio-demografiche che siano importanti per l’azienda (x es: metà maschi e metà femmine ; grado di istruzione ; …. ecc), sono i cosiddetti “pseudo-panel” ; 2) CAMPIONI RUOTATI : panel che presentano una parte “panel” (i soggetti che hanno partecipato alla prima indagine, partecipano anche alla seconda), un’altra parte viene invece ruotata (nuove unità)  riesco sia a rispondere all’indagine longitudinale, piuttosto che alla rilevazione cross-action ; 3) PANEL (campione continuativo)  i soggetti intervistati, sono presenti in più rilevazioni : li reintervisto nel tempo, per vedere se il loro gradimento è cambiato oppure no  un’azienda difficilmente può svolgere questo tipo di indagine ! Si pensi invece all’ISTAT, lo fa senza problemi (i soggetti indicati dall’Istat sono “obbligati” a far parte delle interviste). E’ l’azienda che sceglie quale usare, anche se le indagini panel sono estremamente difficili da applicare. UN GRUPPO DI INTERVISTATI CHE SI DICHIARA DISPONIBILE AD ESSERE INTERVISTATO NEL TEMPO  panel continuativo : un campione fisso nel tempo su cui si rilevano le stesse variabili in tempi diversi (ACNielsen, Auditel, Domoskopea) panel omnibus : un campione fisso nel tempo su cui si rilevano variabili differenti in tempi diversi (Research Now) COSTRUIRE IL QUESTIONARIO (costruzione di una survey) Dal punto di vista concettuale, ci sono alcuni passaggi che dobbiamo ricordare, ma l’esperienza è sicuramente la fonte migliore. E’ anche fondamentale ricordarsi sempre quelli che sono i “destinatari” del nostro questionario  colui che riceve il questionario, dev’essere sempre in grado di capire cosa c’è scritto e di saper rispondere a ciascuna domanda, senza alcun aiuto Le tematiche da trattare in un questionario sono poi definite insieme all’azienda: più l’azienda possiede un obiettivo preciso da raggiungere/ conosce bene il proprio prodotto  più mirato e specifico sarà il questionario. Da un punto di vista operativo, c’è sempre bisogno di conoscere il nostro cliente, che ci aiuta nella definizione delle “dimensioni” del questionario da trattare. Tali dimensioni sono fondamentali, sono quelle che andremo a ripartire all’interno del questionario, il quale dovrà impegnare il soggetto in un numero limitato di minuti. Più impegniamo le persone dal punto di vista personale, meno engagement avremo da parte di esse. Se non si hanno idee chiare invece, cerchiamo di costruire un focus group, attraverso il quale cercheremo di identificare quelle che sono le tematiche fondamentali da trattare all’interno del mio questionario. La redazione del questionario dal punto di vista descrittivo : Che cos’è un questionario? Una lista di domande! Anche l’ordine delle domande ha una sua importanza, le parti devono essere ben definite: nella parte iniziale dev’esserci un’introduzione al tema e se possibile inserire anche un messaggio che “conquisti” la persona interessata, in cui specifichiamo gli obiettivi della nostra analisi (breve introduzione). Si entra poi nel cuore del questionario, ovvero le domande che trattano le tematiche più importanti. Si deve sempre utilizzare un linguaggio semplice possibile (chiunque possa leggere e capire) : evitare termini tecnici, mai utilizzare acronimi o sigle senza spiegare a cosa si riferiscono! Ciascuna domanda deve misurare un’unica dimensione : evitare che all’interno di una domanda ci siano due dimensioni da misurare. Quando si mette appunto il questionario, è importante verificarlo prima di somministrarlo. Verifica = invio a gruppi selezionati di persone / persone più prossime Importante anche dare tutte le dimensioni riferite alla domanda proposta! x es: una persona non trova la risposta che la rappresenta (nel caso di risposte chiuse)  le opzioni devono contenere tutte le possibilità per il soggetto che risponde Le domande che sono più semplici (“meno coinvolgenti” : età, sesso, ecc..)), potrebbero anche essere messe nella parte finale del questionario, perché sono domande la cui risposta non prevede una particolare riflessione (a meno che non siano oggetto principale della ricerca) RECAP: COSTRUIRE IL QUESTIONARIO (FASI) 1. COSTRUZIONE DELLO SCHEMA CONCETTUALE: frutto di un’analisi di studi precedenti o di attività di osservazione e focus group 2. REDAZIONE DEL QUESTIONARIO: comporta la scelta delle specifiche domande di cui servirsi per raccogliere l’informazione. Le domande devono essere rivolte a tutti nella stessa forma e devono avere lo stesso significato per tutti coloro che rispondono 3. VERIFICA DEL QUESTIONARIO: attuata attraverso una preventiva somministrazione “di prova” al fine di verificare la comprensibilità delle domande ed i tempi TIPOLOGIE DI DOMANDA: -Domande Aperte (a risposta libera) x es: “Qual è l’attività principale che lei pratica nel suo tempo libero?” …………………………….. Non ha una risposta predefinita. Si tende a saltare. Vantaggi: -minimo condizionamento -va bene in fase esplorativa -per argomenti delicati  necessita di una grande motivazione di risposta! Svantaggi: -maggiori errori (sintesi registrazione e codifica): ci potranno essere risposte simili, ma utilizzando magari termini molto diversi, quindi la sintesi diventa più lunga e complessa -maggior sforzo per il rispondente -maggior dipendenza dal livello culturale del rispondente -Domande chiuse (modalità strutturata) Alternativa fissa predisposta dal ricercatore  siamo noi a fornire le opzioni di risposta Se scegliamo questa opzione, tutte le opzioni che forniamo al rispondente devono essere annoverate nello specchio delle sue possibilità. Vantaggi: -codifica immediata -sollecitano la memoria -meno sforzi per il rispondente Svantaggi: -lunghezza lista -ordine lista: è anche importante cercare di volta in volta cambiare l’ordine delle risposte della lista (i soggetti cercano di ricordarsi solo le prime opzioni) -risposta non ragionata: risposta non pensata NB: le risposte devono essere esclusive, indipendenti le une dalle altre. Se il questionario viene somministrato al telefono, non dev’esserci un elenco troppo lungo delle opzioni di risposta (4/5). Per quanto riguarda le domande a risposta chiusa, abbiamo poi due modalità differenti: -a risposta fissa SLIDE 4 -a risposta multipla: più risposte compatibili. SLIDE 5 In questo secondo caso potrebbero verificarsi alcune situazioni: se ad una domanda si possono dare al max 3 risposte, ci saranno soggetti che daranno 1 risposta, soggetti che ne daranno 2 e soggetti che ne danno 3. Potrebbe essere meglio somministrare una batteria di domande SI/NO. SLIDE 5 SCALE DI VALUTAZIONE: COME MISURIAMO LE NOSTRE RISPOSTE AL QUESTIONARIO? Iniziamo ad occuparci della parte più statistica. Utilizziamo scale di valutazione, che ci permettono di sviluppare metriche differenti a seconda delle domande/variabili che andiamo a raccogliere. Le scale di valutazione si dividono in: -NON METRICE : NOMINALI / ORDINALI -METRICHE : INTERVALLO / RAPPORTO In grande parte, si fa riferimento a quelli che sono caratteri quantitativi/qualitativi. LEZIONE 4 19/10/2020 Parliamo di “scale di valutazione”, perché i nostri caratteri non sono altro che item /domande all’interno di un questionario. (Nella statistica, i dati possono avere anche fonti differenti). Invece nell’analisi quantitativa di mercato sono dati di survey, che devono essere raccolti ed attengono a chi mette appunto la ricerca di scegliere il dato primario su cui focalizzare il proprio studio  se fa riferimento ad un dato già presente in azienda / dato da raccogliere Se si è scelto di raccogliere i dati tramite il questionario  definire il questionario : definire le domande / come misurarle: quali scale di valutazione utilizzare all’interno della mia ricerca ??? Alcune domande del questionario vanno misurate con scale predefinite (x es: genere del soggetto, naturalmente viene misurato con una scala di tipo nominale). Però è anche vero che una scala di tipo nominale potrebbe essere utilizzata per tutti i dati che abbiamo a disposizione  è una scelta “soggettiva” scegliere la scala migliore da utilizzare nel nostro questionario. La scala tendenzialmente, per le batterie di domande all’interno del questionario (sarà diviso in “sezioni”) prevede l’utilizzo di una serie di ITEM  quando approcciamo per la prima volta, di solito scriviamo scale diverse per la batteria di domande che abbiamo a disposizione. In realtà si DEVE scegliere una scala di valutazione ed utilizzarla per tutto il questionario  riusciamo poi a confrontare le varie risposte. Quando dobbiamo scegliere x es se la valutare la soddisfazione rispetto ad un prodotto, dobbiamo scegliere se utilizzare scale nominali / ordinali o metriche… questa scelta NON è ininfluente  l’utilizzo di una scala metrica permette una conoscenza più approfondita rispetto ad un utilizzo ad una scala non metrica (partendo da una scala metrica, si può sempre risalire ad una scala “non metrica”; viceversa NON è possibile) Inoltre la maggioranza delle tecniche statistiche si basa sul “numero”, così come la comunicazione di marketing è più diretta e viene privilegiata NELLO SPECIFICO SCALE NON METRICHE: danno origine ad una conoscenza meno approfondita SCALA NOMINALE: -Livello più basso di misura (non si può stabilire un ordine); -Classificazione  uguale/diverso xi = xj / xi ≠ xj per ogni i= 1,….,n ; j = 1,…,.n -Proprietà: SIMMETRIA e TRANSITIVITA’ Se A = B , allora B = A ; Se A = B e B = C, allora A = C Esempio: GENERE: Maschio – Femmina Esempio di scala nominale su cui si potrebbe basare un questionario: SI / NO  abbiamo due risposte alternative, quindi si può essere d’accordo o non essere d’accordo con le affermazioni (due opzioni) Che tipo di conoscenza posso ottenere? Posso rilevare se i soggetti che sto analizzando sono uguali (rispondono in modo perfettamente identico agli item) oppure no. I soggetti possono essere persone / famiglie (parliamo di “unità”). Il tipo di indagine che otteniamo da questo tipo di scala è molto limitata  non riesce a rispondere alla domanda: quanto sono in accordo / quanto sono in disaccordo ??? SCALA ORDINALE -Le modalità delle variabili qualitative presentano una gerarchia (“ordine”) Per es: Come giudica in generale la sua salute? Risposte: MOLTO BUONA / BUONA / DISCRETA / PRECARIA / MOLTO PRECARIA Queste modalità sono sempre alternative, ma presentano un ordine di importanza Le modalità sono qualitative, ma al tempo stesso mi permettono di stabilire una classifica X es: Insuff < suff. < buono < distino < ottimo -Definizione di una variabile sottostante da misurare -Proprietà: maggioranza, minoranza ed uguaglianza Posso stabilire se due soggetti gradiscono o meno un determinato prodotto, ma anche chi lo gradisce di più rispetto all’altro  livello di conoscenza maggiore LE SCALE AD INTERVALLO Scale di tipo metrico  fondamentale capirle per utilizzarle all’interno delle nostre ricerche Dobbiamo stabilire l’origine della scala in un punto arbitrario (stabilito dal ricercatore). Inoltre le modalità della scala, si devono trovare alla “stessa distanza” le une dalle altre con un’unità di misura costante  non mi permette di fare dei confronti tra misurazioni, come è possibile fare con la scala rapporti x es: NON posso dire che il soggetto che presenta valore 4 nella scala, presenta il doppio di intensità di carattere rispetto a chi presenta modalità 2. Tipologie di “scale ad intervallo” : Scala di Likert  scala utilizzata per misurare l’atteggiamento nei confronti di un certo fenomeno Viene utilizzata solitamente nei questionari di ricerca e di mercato. Presenta un “punto di origine arbitrario” : stabiliamo che il valore che abbiamo indicato con il numero 3, indica la neutralità del soggetto rispetto all’affermazione che facciamo nel nostro questionario La distanza tra chi presenta valore 4 e chi presenta valore 2 : non indica che chi presenta valore 4 possiede il doppio di intensità del fenomeno rispetto a chi presenta valore 2. Possiamo quindi stabilire una distanza ordinabile. SLIDE 5 Più modalità utilizziamo all’interno della scala di Likert, più l’associazione della scala ad un carattere di tipo quantitativo, è un’assunzione sostenibile. Meno modalità utilizziamo, più questa scala potrebbe assomigliare ad una scala di tipo qualitativo ordinale. Numero di modalità ottimale: 10. Differenza  sintesi dei risultati che provengono da una scala quantitativa, che mi permette di utilizzare degli indicatori di sintesi (x es media aritmetica), mentre in una scala ordinale, dovrei utilizzare indicatori di sintesi come quartili o mediana Scala del differenziale semantico  ES: quanto ritieni sia utile l’uso del PC nel tuo lavoro? SLIDE 5 Presenta il livello 0 (nel punto 0), a destra presenta modalità positive, a sinistra modalità negative. I punti sono equidistanti, dev’esserci tanto un valore positivo quanto valore negativo. Le modalità devono essere quindi equidistribuite. Inoltre, è fondamentale prevedere sempre il punto centrale (anche nella scala di Likert)  aiuta a stabilire il momento in cui passiamo da un livello di insoddisfazione ad un livello di soddisfazione (distingue i due ambiti) NB: per fare questo, è necessario privilegiare scale con modalità dispari  presentano o lo 0 centrale, oppure in un altro punto predeterminato SCALA RAPPORTI E’ una scala metrica che a differenza di quella precedente, presenta un punto di origine che si interpreta come “assenza di carattere”. X es: numero di figli per famiglia 0 figli : assenza del carattere E’ possibile fare misurazioni come rapporti : dire che un soggetto che presenta valore 4 della scala ha un livello del carattere pari a doppio di chi presenta valore 2. Iniziamo ora ad introdurre il software SPSS NB: il sesso viene considerata una “variabile numerica” Si indica come: 1 : Maschio 2 : Femmina Non necessariamente indicano una variabile quantitativa, ma in questo caso voglio osservare una variabile nominale, che però per comodità viene indicata con 1 e 2 (sono etichette). La scala di misurazione è però sempre quella nominale. LEZIONE 5 21/10/2020 LE MANCATE RISPOSTE  PROBLEMA NELLA RACCOLTA DI UN QUESTIONARIO Non tutte le persone che potenzialmente potrebbero entrare nel campione target della mia indagine, partecipano effettivamente. La mancate risposte danno origine a problemi gravi. Le cause associate alle mancate risposte possono essere diverse: tra queste troviamo la lunghezza del questionario  (deve contenere un numero di domande contenuto e che allo stesso tempo mi permette di affrontare tutti i temi della mia ricerca), il framework del questionario, l’argomento trattato. Al fine di incentivare la compilazione è importante sottolineare l’utilità dell’indagine, la promozione della ricerca, evidenziare il ruolo del rispondente. NB: se è presente un intervistatore, difficilmente ci saranno mancate risposte E’ possibile incentivare la partecipazione con ricompense (anche di piccola entità) che rendono massima la partecipazione  NON dev’essere legata al tema trattato all’interno del questionario / al brand analizzato dal questionario  falserebbe le risposte dei soggetti intervistati Oggi spesso esiste il “vincolo” (se non rispondo a tutte le domande, non posso procedere con il questionario), potrei avere due tipi di risposte: mi impegno e rispondo / mi rifiuto di partecipare e lascio il questionario. Se gli intervistati si rifiutano di partecipare all’indagine vengono sostituiti. Ciò implica l’IPOTESI DI OMOGENEITA’ tra i sottoinsiemi dei rispondenti e di chi invece non risponde (x es: omogeneità di genere, scolarità, classi di età, ecc…, le risposte possono essere differenti) Tali ipotesi dovrebbero essere sempre sottoposte a controllo (verificate), cosa della quale spesso ci si dimentica. x es : voglio intervistare una determinata quantità di donne di una determinata classe sociale  se una donna non vuole rispondere, la devo sostituire con un’altra che rispecchia le medesime caratteristiche della prima : PROFILI DI PERSONE “SIMILI” Inoltre è importante distinguere da mancate risposte totali e parziali: - mancate risposte totali  rifiuto alla partecipazione, vengono corrette con soggetti che presentano le stesse caratteristiche d’interesse oppure in caso di intervista con intervistatore facendo almeno la domanda cruciale che permette la comparazione con chi risponde all’intero questionario - mancate risposte parziali  alcuni item che non presentano valutazione numerica; rappresentate da dati che presentano non risposte su alcune variabili  necessario utilizzare metodi di IMPUTAZIONE DEI DATI MANCANTI (In SPSS : c’è il (.)) Se dobbiamo fare una survey, devo identificare una lista di nomi molto lunga, per poter procedere alla sostituzione del soggetto che si rifiuta di rispondere al questionario. CASI MANCANTI Se le unità statistiche campionarie effettivamente rilevate sono in numero di m, invece delle n originariamente previste (m < n), si può procedere in due modi: I. Si considera la matrice dei dati formata dalle m unità disponibili;  problema: i dati mancanti potrebbero essere sparsi nella matrice  potrei non dar rilievo ad alcune categorie di soggetti (se elimino tutti quei soggetti con “dati mancanti”) II. Si rilevano (n-m) unità ulteriori, sostituendo ciascuna unità mancante con un’altra (se il piano è stratificato scegliamo la nuova unità dal medesimo strato di quella mancate) NB: quando manipolo la matrice dei dati, sto introducendo ulteriore variabilità  devo utilizzare tali tecniche con grande tutela ! TIPOLOGIE DEI CASI MANCANTI Quando nella matrice dei dati mancano le modalità relative ad alcuni caratteri. I missing values possono essere dispersi nella matrice dei dati. Classificazione di dati mancanti: I. Carattere non pertinente per la singola unità Esempio: Hai mai provato il prodotto? SI/NO Se rispondo SI, avrò un’altra serie di domande / rispondo NO, avrò dei “missing”, non devo rispondere ad altre domande II. Risposta “non so” in una domanda riguardante un’opinione III. Rifiuto di singole risposte IV. Mancata rilevazione dovute a cause esterne PROCESSO GENERATORE DEI DATI MANCANTI Ho a che fare con due variabili: X con tutti i dati, Y con dati mancanti 1) Missing Completely at Random (MCAR)  la probabilità di riscontrare un valore mancante è indipendente dai valori di X e di Y, per cui i dati omessi sono completamente casuali 2) Missing at Random (MAR)  i valori mancanti dipendono da X ma non da Y, se si individuano opportune classi o categorie di X la probabilità di un dato mancante di Y non è uguale per tutte le classi (o categorie), ma nell’ambito di ciascuna di esse i valori mancanti sono casuali 3) Missing not at Random  la probabilità di riscontrare un dato mancante dipende dai valori che assume Y ed eventualmente anche quelli di X (relazione fra le due variabili) Esempi: X professione del soggetto (variabile di struttura completa), Y spesa mensile dedicata al tempo libero (variabile con dati mancanti) 1)Missing Completely at Random: i missing data sono dovuti a dimenticanza, non esiste alcune relazione tra le due variabili 2) Missing at Random: le mancate risposte NON sono influenzate dall’ammontare di spesa, ma la probabilità di avere un missing data è diversa a seconda della professione del capofamiglia (artigiano, impiegato, dirigente..) 3) Missing not at Random: le mancate risposte NON sono causali, la mancata risposta si registra solo su particolari valori di spesa (generalmente al crescere della stessa) TRATTAMENTO DATI MANCANTI Possiamo comportarci in modi differenti: 1. Analisi solo dei casi completi (esclusione listwise) semplice, ma abbiamo spreco d’informazione. Utile se MCAR vale per tutte le variabili (non c’è relazione fra le due variabili) 2. Analisi univariata di ciascun carattere su tutte le unità per le quali si conoscono i dati (criterio columnwise) o per ciascuna coppia di variabili con riferimento alle unità di cui sono noti i valori di entrambe (criterio pairwise) Statistiche univariate sono calcolate utilizzando tutte le informazioni disponibili ma il numero di unità può variare da un carattere all’altro. 3. Altri criteri: stimare i valori mancati con criteri d’imputazione  se i dati son MCAR/MAR non produce distorsioni nella stima della media ma riduce la variabilità Se i dati sono Missing not at Random, il livello di spesa mensile è un comportamento (non è un missing casuale)  non dobbiamo imputare i dati, perché mette in evidenza un comportamento del soggetto INIZIO A LAVORARE CON SPSS MANCANTE  la presenza del dato dev’essere residuale rispetto alla disponibilità del dato stesso  identifico anche l’impatto del “dato mancante” (quanto pesa il dato mancante sul dato disponibile) DATO ESTREMO (N. di estremi)  n. di casi fuori dall’intervallo SPSS fa riferimento ad un intervallo detto “intervallo di normalità”. Che cos’è? Come si costruisce? Fa riferimento ad una rappresentazione grafica : “BOX PLOT” (grafico a scatola). E’ utile per identificare la presenza di dati cosiddetti “anomali” o anche detti “outlayer” (o sono estremamente grandi/estremamente piccoli : non sono errati !) L’intervallo di normalità, in questo caso fornito direttamente da SPSS, è formato da: Q1 – 1,5*IQR , Q3 + 1,5*IQR Esempio pratico: Spesa Carne Cibi_pronti Panetteria Store Gender N Media 40 30 33 40 40 40 18,3793 4,4341 2,1074 1,6750 Deviaz. Std. 6,73216 1,54937 1,12730 0,38254 Mancante N. di estremi Conteggio Percentuale Basso Alto 0 10 7 0 0 0 0 25 17,5 0 0 0 0 0 0 0 3 2 4 0 Com’è formato il BOX PLOT? - si devono calcolare i tre quartili della distribuzione: Q1 (primo quartile), Q2 = Me (secondo quartile, coincide con la mediana), Q3 (terzo quartile); - su un asse orientato, si individua un rettangolo (scatola/box) i cui estremi sono costituiti, rispettivamente, dal primo e dal terzo quartile, e la cui lunghezza è rappresentata, evidentemente, dalla differenza interquartile IQR = Q3 – Q1 ; - il rettangolo (scatola) viene suddiviso in due parti da un segmento che delimita la posizione della mediana; - si individuano i due valori T1 = max (valore minimo, Q1 – 1, 5IQR) e T2 = min(valore massimo, Q3+1, 5IQR) Si tracciano due linee esterne alla scatole, dette baffi (whiskers), per questo motivo il diagramma è detto anche box and whiskers plot. I baffi sono delimitati, rispettivamente, dai T1 e T2 calcolati in precedenza. Le osservazioni il cui valore è più piccolo di T1 o più grande di T2 vengono considerate come dati anomali (outlier)  si trovano al di fuori dei baffi (non sono dati errati, ma appunto anomali!) SLIDE 11 Modelli ordinati in tabelle Spesa Modelli mancanti(a) Panetteria Gender Store Cibi pronti Carne Numero di Completo casi se…(b) 23 23 10 X 33 7 X 30 a. Le variabili vengono ordinate sui modelli mancanti. b. Numero di casi completi se le variabili mancanti in tale modello (contrassegnate con X) non vengono utilizzate. COMPLETARE SLIDE 12 Modelli mancanti (casi con valori mancanti) Modelli di valori mancanti ed estremi(a) Caso # mancanti % mancanti Spesa Panetteria Gender Store Cibi pronti Carne 1 1 16,7 + S 2 1 16,7 S 6 1 16,7 S 11 1 16,7 S 17 1 16,7 S 21 1 16,7 S 24 1 16,7 S 26 1 16,7 S 32 1 16,7 S 35 1 16,7 S 14 1 16,7 S 30 1 16,7 S 22 1 16,7 S 33 1 16,7 S 9 1 16,7 S 39 1 16,7 S 40 1 16,7 S (-) indica un valore estremamente basso, mentre (+) indica un valore estramemnte alto. L’intervallo utilizzato è (QI – 1.5*IQR, Q3 + 1.5*IQR) a. I casi e le variabili vengono ordinati sui modelli mancanti CONTROLLARE AGGIUNGERE SLIDE 13 Se vogliamo lavorare solo su dati completi: da 40 osservazioni, dobbiamo focalizzarci solo su 23 (data set “completo”) Abbiamo 33 dati, se escludo la variabile carne. Ne avremmo soltanto 30, se escludo la variabile “cibi-pronti”. LEZIONE 6 26/10/2020 Esercizio da svolgere I) Una survey sull’atteggiamento dei giovani verso la sostenibilità ambientale realizzata da uno studente del corso di ECOMARKS contiene le seguenti domande: -[A_veg] E’ vegetariano o vegano? Sì No -[A_NoAntibiotici] Se la risposta alla domanda precedente è negativa risponda alla seguente domanda: Acquista carni indicanti sull’etichetta “senza uso di antibiotici” ??? -[A_ProdStag] Acquista prodotti di stagione? -[N_Figli] Indicare il numero di figli in famiglia: …. -[Genere] Genere M F a) Commentare la tabella relativa all’analisi dei dati mancanti Mancante N Media Deviazione Conteggio std. A_NoAntibiotici 478 4,19 1,899 61 A_ProdStag 539 5,72 1,144 0 N_figli 539 ,65 ,928 0 A_veg 539 0 Genere 539 0 a.Numero di casi fuori dall’intervallo (Q1 – 1,5*IQR, Q3 + 1,5*IQR) N di estremi^a Percentuale Basso Alto 11,3 0 0 0 0 0 4 0 0 0 18 b) Posso concludere che i dati mancanti nella tabella sono un comportamento? Motivare la risposta GENERE TOTALE MASCHIO Conteggio 478 132 Percentuale 88,7 97,1 Mancante % mancante di 11,3 2,9 sistema Le variabili indicatore con meno del 5% di valori mancanti non vengono visualizzate. A_NoAntibiotici Presente FEMMINA 346 85,9 14,1 Sono nel caso in cui ci si trova in condizioni di MCAR e MAR è plausibile procedere all’imputazione dei dati mancanti. In caso di Missing not at Random quello che si osserva è un comportamento IMPUTAZIONE DEI MISSING I principali metodi di mancate risposte parziali sono: -Criteri del donatore -Imputazione da modello (possono dar luogo anche a soluzioni differenti!) Dobbiamo saper giustificare per quale motivo utilizziamo un metodo piuttosto che un altro Tali tecniche per quanto largamente utilizzate, non sono sostenute da un corpus teorico robusto: le assunzioni non possono essere verificate, per questo vanno utilizzate con cautela. CRITERIO DEL DONATORE Metodo per l’imputazione dei dati mancanti riferiti a variabili qualitative o quantitative. Il criterio suggerisce che il valore mancante per l’i-sima unità sia mutuato dall’unità simile, appartenente all’insieme di coloro che ha risposto. L’unità donatrice può essere individuata secondo 2 procedure: 1. COLD DECK: gli intervistati vengono divisi in 2 gruppi, quello con tutte le variabili valorizzate e quello con dati mancanti e la selezione avviene solo dal primo gruppo (imputo le variabili valorizzate a quelle con dati mancanti) NB: dobbiamo cercare di trovare somiglianza (omogeneità) fra le variabili valorizzate e quelle con dati missing 2. HOT DECK: le unità che non presentano mancate risposte parziali vengono aggiornate dinamicamente man mano che avvengono le imputazioni (non vedremo applicazioni) (imputazione che si aggiorna dinamicamente: ho le risposte mancanti parziali per una determinata variabile, trovo osservazioni ad essa somiglianti (per la variabile in questione) e decido di imparare solo da loro: una volta che ho imputato l’unità i-sima ed ho trovato il valore che metto nella cella che prima era mancante, a quel punto la stessa unità può essere utilizzata insieme alle altre per imputare nuovi dati  è “pericolosa”: uso un dato imputato, per imputarne degli altri SPSS  ESERCIZIO 1: valutate se condizioni per dati MAR e procedete all’imputazione dei dati mancanti con procedura COLD DECK Età Genere 1 2 3 4 30 31 31 33 Maschio Femmina Maschio Maschio 5 6 7 8 9 10 11 12 13 33 35 36 39 41 41 41 44 44 Femmina Maschio Maschio Femmina Maschio Femmina Maschio Femmina Maschio Residenza Professione Attività sportiva Nord Impiegato Si Centro Impiegato No Nord Libero prof. No Centro Non No occupato Sud Artigiano Sì Sud Libero prof. No Centro Dirigente Si Sud Artigiano Si Sud Artigiano No Nord Dirigente No Centro Dirigente Si Nord Dirigente Si Centro Impiegato No Ore sport sett. 2 0 0 0 Reddito mensile 1580 1350 2800 . Scolarità . 0 3 2 0 0 . 4 0 1370 2340 3200 1600 1250 2800 2500 . 1750 Licenza media Laurea Master Licenza sup. Licenzia media Master Licenza sup. Laurea Licenza sup. Laurea Laurea Master Laurea 14 15 45 45 Maschio Femmina Sud Sud Impiegato Impiegato No si 0 6 . 1440 Licenza sup. Licenza sup. Abbiamo 15 soggetti ed abbiamo raccolto i dati relativi ad una serie di variabili. Statistiche univariata N Media Deviaz. Std. 5,49632 1,97419 Mancante N. di estremi(a) Conteggio Percentuale Basso Alto Età 15 37,9333 0 0 Ore sport. 13 1,3077 2 13,3 Sett. Reddito 12 1998,3333 686,22595 3 20 mensile Genere 15 0 0 Residenza 15 0 0 Professione 15 0 0 Attività 15 0 0 sportiva Scolarità 15 0 0 a. Numero di casi fuori dall’intervallo (Q1 – 1.5*IQR, Q3 + 1.5*IQR) 0 0 0 1 0 0 Modelli mancanti (casi con valori mancanti) Caso 4 12 14 5 11 # mancanti % mancanti 1 1 1 1 1 14,3 14,3 14,3 14,3 14,3 Modelli di valori mancanti ed estremi (a) Genere Residenza Professione Att. Scolarità Ore Reddito Sportiva sport. mensile Sett. S S S S S I dati mancanti (relativi a reddito e ore di sport) possono essere ricondotti ad un comportamento oppure ad una casualità?? Andiamo a vedere nello specifico Genere Totale Maschio Femmina Conteggio 12 7 5 Percentuale 80,0 77,8 83,3 Mancante % mancante 20,0 22,2 16,7 di sistema Ore sport Presente Conteggio 13 8 5 sett. Percentuale 86,7 88,9 83,3 Mancante % mancante 13,3 11,1 16,7 di sistema Le variabili indicatore con meno del 5% di valori mancanti non vengono visualizzate Reddito mensile Presente Residenza Totale Nord italia Centro Gruppo 12 3 4 Percentuale 80,0 75,0 80,0 Mancante % mancante 20,0 25 20 di sistema Ore sport Presente Gruppo 13 4 4 sett. Percentuale 86,7 100 80 Mancante % mancante 13,3 0 20 di sistema Le variabili indicatore con meno del 5% di valori mancanti non vengono visualizzate Reddito mensile Presente Sud 5 83,3 16,7 5 83,3 16,7 Professione Totale Reddito mensile Ore sport sett. Presente Conteggio Percentuale Mancante % mancante di sistema Presente Conteggio Percentuale Mancante % mancante di sistema Dirigente Artigiano 12 80 20 Impiegato Libero prof. 4 2 80 100 20 0 3 75 25 3 100 0 Non occupato 0 0 100 13 86,7 13,3 5 100 0 3 75 25 2 66,7 33,3 1 100 0 2 100 0 NB: le numeriche sono importanti: quando studiamo pochi casi a disposizione (x es 15 osservazioni), anche solo un’osservazione fa impennare/decrescere le % in modo notevole. Noto che le variabili che presentano dati mancanti sono 2: -Ore di sport settimanali (2 osservazioni) -Reddito mensile (3 osservazioni) Potremmo prendere in considerazione quindi il “reddito lordo mensile” con alcune variabili categoriali: studio la professione (variabile importante nella determinazione del reddito!) Cosa posso fare ora?? Devo imputare il dato del reddito mensile. Secondo il “COLD DECK”, divido la popolazione in soggetti che presentano “dato non valorizzato” e devo “imparare” questo dato, dai soggetti che invece ce l’hanno valorizzato. Come faccio a fare questo? Prendo l’unità dodicesima. Divido i soggetti in base alla loro professione svolta  prendo il reddito medio di professione come valore di riferimento. La variabile professione mi permette di fare una “classificazione” fra soggetti. Vado quindi a confrontare il valore delle medie del reddito lordo mensile (variabile dipendente) con la professione (variabile indipendente) Professione Impiegato Libero prof. Dirigente Media 1530,00 2570,00 2833,33 N 4 2 3 Deviaz. Std. 174,547 325,269 351,188 Artigiano Totale 1406,667 1998,33 3 12 177,857 686,225 Media impiegato  da utilizzare per i dati mancanti con professione impiegato Media dirigente  da utilizzare per i dati mancanti con professione dirigente Vado a sostituire per il dirigente  2833 Vado a sostituire per l’impiegato  1530 (NON VADO A SOSTITUIRE LA MEDIA GENERALE  studio le categorie professionali) Studiamo la seconda variabile da imputare: ore sport in settimana Calcolo il numero medio di ore settimanali tra i soggetti che svolgono attività sportiva Ore di attività sportiva a settimana Attività sportiva nel tempo libero No Sì Totale Media N Deviazione std. 0 3,4 1,3077 8 5 13 0 1,67332 1,97419 Da utilizzare per i dati mancanti Costruisco profili che si assomigliano  la variabile che ci potrebbe aiutare a fare un’inferenza più precisa: faccio attività sportiva oppure no Confronto medie: ATTIVITA’ SPORTIVA (variabile indipendente) / ORE ATTIVITA’ (variabile dipendente) IMPUTAZIONE DA MODELLO Il metodo cosiddetto “imputazione da modello” va utilizzato per lacune riguardanti solo variabili quantitative. Il metodo utilizza un’equazione di regressione che collega la variabile dipendente (oggetto di imputazione) ad altre ad essa correlate, disponibili per unità campionarie Slide 10 Otteniamo una previsione/ imputare un valore mancante, utilizzando la relazione lineare con le altre variabili a nostra disposizione  stimiamo un modello di regressione lineare in cui i nostri coefficienti sono stimati sui rispondenti (dati valorizzati) Quali variabili inserire all’interno del modello di regressione ?? La stessa relazione lineare è quella che viene in mio aiuto: inserisco come “regressori” di questo modello lineare, le variabili che risultano avere un’elevata correlazione con la variabile che dev’essere imputata. Se “Y” presenta dati mancanti, io utilizzo delle variabili che mi aiutino a fare previsioni sulla Y. Dopo aver stimato la relazione fra le variabili Z e la variabile dipendente  se tale relazione è “buona”, i coefficienti che ho stimato posso utilizzarli per fare previsione sull’unità i-sima che la variabile Y non ce l’ha valorizzata. ESEMPIO: consideriamo i dati del dataset “missing store (Es1)” Dalla visione dei dati notiamo che le variabili Carne e Cibi_pronti presentano alcuni dati mancanti. I dati mancanti sono tutti quantitativi. Procediamo ad imputarli applicando la regola: imputazione da modello.  eravamo arrivati alla conclusione che non c’erano “comportamenti conclusivi” Prendiamo la carne come la variabile “Y”  identifichiamo delle variabili che mi aiutino a prevedere la variabile Y (quelle che presentano una CORRELAZIONE) La matrice delle correlazioni mi permette di individuare le variabili che maggiormente sono correlate con la variabile d’interesse (carne x es). Considero solo quelle variabili che hanno una correlazione superiore al valore assoluto 0,5.  faccio la correlazione con tutte le variabili quantitative Spesa Cibi pronti Carne Panetteria Correlazione di Pearson Correlazione di Pearson Correlazione di Pearson Correlazione di Pearson Spesa 1 Cibi pronti 0,960 Carne 0,887 Panetteria 0,767 0,960 1 0,811 0,736 0,887 0,811 1 0,878 0,767 0,736 0,878 1 Tutte queste variabili mi aiutano a prevedere il comportamento della variabile in questione! Potrei inserire tutte le mie variabili per identificare un modello di regressione lineare.  trovo il mio modello di regressione METODO DI REGRESSIONE Questo metodo calcola le stime di regressione lineare multipla e dispone di opzioni per aumentare le stime con componenti casuali. Per ogni valore atteso, la procedura può aggiungere un residuo di un caso completo selezionato in modo casuale, una deviazione standard casuale o una deviazione casuale (scalata per la radice quadrata della meda dei quadrati residua) della distribuzione t. C’è un buon adattamento fra le variabili??? Modello R R – quadrato 1 0,944^a 0,892 a: Predittori: (costante), Panetteria, Cibi_pronti, Spesa r^2 : 0,892 : buon livello di adattamento R- quadrato adattato 0,875 Errore std. Della stima 0,58136 L’osservazione 1 del dataset missing_store, viene imputato con il seguente valore Modello Coefficienti non standardizzati B -1,757 0,159 -0,231 2,277 1 (costante) Spesa Cibi_pronti Panetteria a: Variabile dipendente: Carne Errore std. 0,635 0,060 0,356 0,497 L’osservazione 1 del dataset missing_store, che presenta un dato mancante per la carne STORE 2 2 2 1 2 3 GENDER M M M SPESA 43,60 26,56 20,76 CARNE . . 4,62 CIBI PRONTI 5,95 3,17 2,33 PANETTERIA 2,65 1,72 1,33 Può essere imputato utilizzando il risultato della regressione Y(oss1) = -1,757 + 0,159*43,6 – 0,231*5,95 + 2,277*2,65 = 9,48 (Spesa per carne dell’osservazione 1) NB: “B”  coefficienti angolari Y(oss2) = …………….. Y(oss3) = …………….. ESERCIZIO DA SVOLGERE E’ stata condotta un’indagine sulle abitudini di impiego del tempo libero su 50 clienti di una galleria d’arte. TAB1 (estratto dei dati sui 50 clienti) Età Genere Residenza Professione 1 2 18 19 Maschio Maschio Nord it. Sud it. 3 4 5 6 7 8 23 23 24 25 26 27 Femmina Femmina Femmina Maschio Femmina Femmina Nord Centro Nord Nord Centro Nord Impiegato Libero professionista Non occupato Impiegato Studente Impiegato Studente Non occupato Ore_sport_sett. Reddito mensile 0 1400 0 1900 Consumo cinema 0 10 Consumo giornali 1 1 0 0 2 0 0 2 0 0 2 0 0 0 0 1 0 0 0 0 0 . 0 1000 50 0 1) Indicare quale/li tecnica/tecniche d’imputazione per dati mancanti scegliereste in questo caso. Motivare la risposta. 2) L’azienda decide di utilizzare l’imputazione da modello per risolvere il problema dei dati mancanti sul Reddito. Sulla base delle informazioni fornite nella seguente tabella, indicare quale/quali variabili introdurre nel modello di regressione Reddito Età lordo mensile Reddito lordo mensile Età Ore di attività sportiva a settimana Consumo di cinema settimana in euro Acquisto giornali settimanali -Correlazione di Pearson -Sig.(2-code) -N -Correlazione di Pearson -Sig.(2-code) -N -Correlazione di Pearson -Sig.(2-code) -N -Correlazione di Pearson -Sig.(2-code) -N -Correlazione di Pearson -Sig(2-code) -N 1 0,198 Ore di attività sportiva a settimana 0,212 Consumo di cinema settimana in euro 0,904 Acquisto giornali settimanali 49 0,198 0,173 49 1 0,143 49 0,263 0 49 0,223 0 49 0,190 0,173 49 0,212 50 0,263 0,065 50 1 0,120 50 0,192 0,187 50 0,174 0,143 49 0,904 0,065 50 0,223 50 0,192 0,181 50 1 0,228 50 0,911 0 49 0,966 0,120 50 0,190 0,181 50 0,174 50 0,911 0 50 1 0 49 0,187 50 0,228 50 0 50 50 0,966 3) Individuare la regressione più appropriata per la stima del dato mandante nella Tab 1 osservazione 4 e procedere alla sua imputazione Modello 1 (costante) Ore di attività sportiva a settimana Consumo di cinema settimana in euro Acquisto giornali settimanali Età B 416,493 17,234 16,840 866,665 0,675 Modello 2 (costante) Consumo di cinema settimana in euro Acquisto giornali settimanali Ore di attività sportiva a settimana B 440,423 17,011 866,525 17,798 Modello 3 (costante) Consumo di cinema settimana in euro Acquisto giornali settimanali B 473,627 18,032 867,777 SOLUZIONE 1) Uso la tecnica Cold Deck perché ho a disposizione informazioni socio-demografiche tali che mi permettono di individuare profili omogenei. 2) Utilizzerei solo Consumo giornali, consumo cinema perché hanno una correlazione maggiore di 0,5 con la variabile che presenta missing (reddito) 3) utilizzerei la regressione modello 3 Osservaz.4 : reddito = 473,627 + 18,032*0 + 867,77*1 = 1341,39 LEZIONE 7 28/10/2020 LA BUSINESS ANALYTICS PER L’ANALISI DI MARKETING Finora abbiamo visto l’importanza di avere una strategia efficace per la raccolta del dato  rispondere alla domanda della ricerca Se i dati sono presenti in azienda, possiamo rivolgerci ai dataset aziendali. Se il dato non è presente, o è parzialmente presente, siamo costretti a dover integrare i nostri dati con o dati secondari/ dati raccolti attraverso una survey. E’ importante scegliere il “disegno del questionario”, ma anche fare una scelta opportuna dal punto di vista della somministrazione del questionario. La parte della raccolta del dato dev’essere particolarmente accurata  una volta raccolto, il dato NON può essere modificato. Una volta raccolti i dati (convinti dei dati raccolti), ci siamo imbattuti con le prime difficoltà: risposte mancanti?? Ci sono anche casi in cui quelle mancate risposte devono rimanere tali: comportamento / la domanda che facciamo al soggetto che stiamo intervistando, non lo riguarda! Potrebbero esserci casi di “ineleggibilità” : se non appartengo ad una determinata categoria di persone, il questionario NON mi viene somministrato. Vediamo ora casi di analisi  per dimostrare che anche un indicatore di statistica molto semplice, può essere estremamente efficace Vediamo ora un caso specifico Problema: sulla base dei dati ottenuti da una survey sulla GDO, è opportuno applicare strategie differenziate per le diverse zone della città?? Motivo principale per essere nostro cliente Prezzi Comodità Servizio Altro Qualità Totale Zona 1 1 1 0 1 24 27 Indicatore geografico Zona 2 Zona 3 1 5 1 3 1 0 0 0 8 9 11 17 Zona 4 1 3 0 0 6 10 Zona 5 2 0 1 0 12 15 Totale 10 8 2 1 59 80 RIEPILOGO ELABORAZIONE CASI N Valido Percentuale N Casi mancante Percentuale N Totale Percentuale Motivo principale per essere nostro cliente * indicatore geografico 80 100,0 % 0 0,0% 80 100,0% Come rispondo? Potrei usare anche diverse tecniche! Ovvero diversi indicatori statistici In questo caso potrei usare un indicatore che ci aiuta a capire se c’è una certa rispondenza/associazione tra la valutazione data e la provenienza da quale parte della città faccio la spesa: chi quadrato di Pearson Piccolo ripasso della  TABELLA DI CONTINGENZA (rxc) Valutaz/zona Zona 1 Valutaz 1 n11 .. .. Valutaz i ni1 .. .. Valutaz r nr1 Tot. n.1 …. …. …. …. …. Zona j n1j .. nij .. nrj n.j …. …. …. …. …. Zona c n1c .. nic .. nrc n.c Tot. n1. .. ni. .. nr. N nij = frequenza della coppia di modalità i-j ni. = frequenza marginale di valutazione n.j = frequenza marginale di zona MISURA DI ASSOCIAZIONE Una misura dell’intensità della connessione tra i caratteri è data dall’indice di associazione Chi-quadrato di Pearson ( misura l’allontanamento da una condizione di indipendenza : si ha quando le righe e le colonne della matrice non sono associate fra di loro) SLIDE 4 Tornando al caso precedente: Test del Chi-Quadrato Valore = 21,736 Il valore ottenuto mi dice che tra valutazione e zone cittadine c’è connessione  chi quadrato positivo Tale affermazione risponde alla domanda posta dal caso? Il valore trovato è sufficiente per applicare strategie differenziate per alcune zone? ASSOLUTAMENTE NO! Il chi quadrato infatti presenta alcuni limiti: - come dice SPSS: 20 celle hanno un conteggio previsto inferiore a 5 : il chi quadrato potrebbe restituirmi un valore positivo più alto rispetto a quella che è realmente l’associazione fra due caratteri  dovrei accorpare colonne o giudizi fra di loro per non aver conteggi così piccoli Quindi in questo caso il chi quadrato potrebbe essere più elevato del reale - il chi quadrato è un indicatore che varia da 0 a valore positivo Vale 0  caso di indipendenza distributiva Valore positivo  i caratteri sono fra di loro associati Il chi quadrato sarà sempre positivo! E’ impossibile ottenere casi = 0 (nei casi che analizziamo noi: ci sono sempre associazioni nei casi che studiamo noi) Dobbiamo però studiare quanto queste associazioni sono forti!! Non essendo “delimitato superiormente”, potremmo fare delle conclusioni sbagliate. Viene da chiedersi infatti: la connessione tra valutazione e zone cittadine quanto è forte?? Abbiamo bisogno di un indicatore che ci permette di capire (anche percentualmente) quanto sono connesse fra loro riga e colonna  chi quadrato normalizzato : V di Cramer E’ necessario calcolare un χ 2 normalizzato che assuma valori tra 0-1 Valore 0 : indipendenza statistica Valore 1 : massima interdipendenza / associazione perfetta Per normalizzare un qualsiasi indicatore, devo calcolarmi il massimo valore di χ 2 Max = Nxk N = totale delle frequenze k = valore minimo tra il numero delle righe e il numero delle colonne della tabella a doppia entrata cui si sottrae il valore 1, ossia k = Min[r-1, c-1] V di Cramer V = √( χ 2/N ) / k 0≤V≤1 Nel caso in esame: V = √(21,736/80) / 4 = 0,261 Non è un valore estremamente forte. Può comunque incidere sulla scelta di operare su strategie differenti. La relazione che osservo è forte per il 26,1 % Il valore minimo del χ 2 che l’indice può assumere è 0. Il valore massimo del χ 2 è Nxk = 80 x 4 = 320 L’indice V potrebbe soffrire di bias nel sovrastimare la forza della relazione esistente. Per correggere la stima ottenuta di procede al calcolo di un V corretto: (non viene effettuata questa correzione dal software) SLIDE 9 – 10 NB. La correzione di V è necessaria in quanto l’indicatore sovrastima la potenza della relazione tra le variabili monitorate. La relazione indicata è MOLTO MENO importante  potrei continuare a perseguire il mio approccio, senza utilizzare strategie differenziate Le strategie si cambiano quando si trovano relazioni forti fra le variabili della tabella a doppia entrata, altrimenti no. Esercizio da svolgere Un brand di abbigliamento ha cambiato design e vuole verificare se ciò ha influito nella percezione dei suoi prodotti: Sesso Totale Maschio Femmina Soddisfazione prezzi Molto Alquanto negativo negativo 22 47 50 88 72 135 Neutrale 48 92 140 Alquanto positivo 58 87 145 Molto positivo 34 56 90 Totale 209 373 582 a) Ci si può aspettare che le donne siano più soddisfatte degli uomini? Motivare la risposta b) Quale indicatore statistico utilizzereste per valutare l’eventuale presenza di una relazione tra le due variabili (genere e soddisfazione)? Scrivere la formula c) Nel caso il chi-quadrato della tabella sia pari a 2.318, calcolare la V di Cramer e commentarne il valore a) Possiamo utilizzare anche indicatori che conosciamo  utilizzare una distribuzione di frequenza c) non è chiesta quella corretta! LEZIONE 8 02/11/2020 Consideriamo ora il caso delle tabelle 2x2 Immaginiamo di aver raccolto una serie di dati che riguardo l’acquisto o meno di un determinato prodotto da parte di un soggetto e l’informazione riguardo al like che tale soggetto ha messo o meno al brand/prodotto stesso. A (like pagina) e B (acquisto prodotto) A/B Like No Like Tot. Acquistato n11 n21 n.1 Non acquistato n12 n22 n.2 Tot. n1. n2. n n11 = numero di transazioni in cui i soggetti hanno messo like alla pagina del brand e hanno acquistato il prodotto n = numero totale di transazioni n1. = numero di soggetti nel caso specifico (che hanno messo like alla pagina) n2. = numero totale di soggetti che non ha messo like (indipendentemente che l’abbiano acquistato o meno) n.1 = numero di soggetti che acquistano n.2 = numero di soggetti che non acquistano Oggi vediamo un indicatore che si indica essenzialmente in “epidemiologia”  studia il risultato (“outcome”) che vediamo su una variabile, condizionatamente al fatto che si sia verificato un particolare fattore di rischio. In questo caso l’”outcome” : acquisto / non acquisto ; il “fattore di rischio” : like/no like Studiamo gli ODD (“quota relativa”)  Con il termine inglese odds si intende il rapporto tra la probabilità (p) di un evento e la probabilità che tale evento non accada (cioè la probabilità [1-p] dell’evento elementare) Esempio: TABELLA DI CONTINGENZA Acquisto di jeans / like al prodotto stesso BRAND / JEANS Like No like TOT Acquistato 92 125 217 Non acquistato 94 118 212 TOT 186 243 429 Proviamo a calcolare gli “ODDS” Probabilità che si verifichi l’evento  acquisto dei jeans Probabilità che non si verifichi  non acquisto dei jeans Andiamo a calcolare gli ODDS siamo nel caso in cui il soggetto preso in considerazione abbia messo like o no al prodotto in questione (e andiamo a confrontare le due situazioni) 1. Consideriamo i soggetti che hanno messo like  studiamo solo 186 unità (prima riga) Probabilità dell’evento “acquisto”  92 / 186 = 0,494 Probabilità che si verifichi l’evento complementare  94/186 = 0,505 ODD : 0,494 / 0,505 = 0,978 Oppure : n11/n12 = 92/94 = 0,978 2. Consideriamo i soggetti che non hanno messo like  studiamo solo 243 unità (seconda riga) Probabilità dell’evento “acquisto”  125 / 243 = 0,514 Probabilità dell’evento complementare  118 / 243 = 0,485 ODD : 0,514 / 0,485 = 1,06 Oppure : n21/n22 = 125/118 = 1,06 NB: L’ODD non è una probabilità! E’ un rapporto tra due probabilità (di successo e di insuccesso)  potrebbe variare tra 0 e infinito Perché li calcoliamo??? Dobbiamo costruirci un indicatore  ODDS RATIO : indica quante volte siano più a “rischio” di evento (acquisto dei jeans) i soggetti ESPOSTI ad un certo fattore di rischio (coloro che mettono like) rispetto ai soggetti NON ESPOSTI  valuta quante volte il rischio è più grande in certi soggetti esposti ad un certo fattore di rischio, rispetto a quelli non esposti OR = O1 / O2 = (n11*n22) / (n12*n21) Nell’esempio: (92*118) / (94*125) = 0,92 Come si interpreta tale valore? La probabilità di acquistare i jeans è circa uguale tra coloro che mettono like e coloro che non lo mettono OR = 1 , significa che la presenza del like è ininfluente sull’acquisto del jeans  il fattore di rischio non è molto discriminante OR > 1 : associazione positiva (relazione diretta) : se un carattere è presente, è relativamente più probabile che anche l’altro lo sia 0 < OR < 1 : associazione negativa (relazione inversa) : se un carattere è presente, è relativamente più probabile che l’altro invece non lo sia Tale indicatore mi aiuta a dare delle indicazioni sulla “direzione” dell’associazione Esempio 2 : si vuole capire se esiste associazione positiva tra la propensione all’acquisto del vestito 1 e la propensione all’acquisto del vestito 2 (si pensi ad un sito di e-commerce!) TABELLA DI CONTINGENZA Acquisto_Vestito 1 Si No Totale Si 17 15 32 Acquisto_Vestito 2 No 61 112 173 Esiste una propensione positiva tra l’acquisto del vestito 1 e l’acquisto del vestito 2 ?? Calcoliamo gli ODDS RATIO ! O1 = 17/61 = 0,279 O2 = 15/112 = 0,134 [potrei usare anche l’altro metodo di calcolo] Totale 78 127 205 OR = 0,279/0,134 = 2,08  associazione positiva La probabilità di acquistare il vestito 2 è 2 volte più grande tra coloro che acquistano il vestito 1, rispetto a coloro che non l’acquistano affatto! Tanto più cresce l’ODD RATIO, tanto più è importante considerare il “fattore di rischio”; tanto più l’associazione è negativa (x es: 0,5 : la probabilità è dimezzata tra quelli che acquistano il vestito 1 di acquistare il vestito 2) Nell’ambito dello studio di nuovi indicatori, ce n’è uno: “indicatore asimmetrico”, che si utilizza nella tabella a doppia entrata. Quando calcoliamo il chi-quadrato ci dà l’indicazione, se due caratteri sono tra loro associati. L’indicatore asimmetrico va invece a studiare la probabilità che si verifichi un evento, dopo che se n’è verificato un altro  è interessante perché è come se la caratteristica che si verifica per prima, funge da predittore a quello che si verifica successivamente INDICATORI ASIMMETRICI Considerazioni iniziali: due prodotti, A e B, possono presentarsi insieme “nel carrello” per il solo effetto del caso se l’acquisto di A è indipendente da quello di B: P(A ∩ B)= P(A) x P(B) ovvero P(A | B) =P(A∩B) / P(B) =P(A) A ∩ B = intersezione (A e B si verificano simultaneamente); A | B = A condizionato a B (A si verifica dopo che si è verificato B) L’associazione si misura valutando lo scarto tra la situazione osservata e quella teorica di indipendenza Misure di direzione  indici asimmetrici 1. Lambda  riduzione proporzionale nella probabilità dell’errore di previsione (P.R.E.), conoscendo la modalità della variabile esplicativa ; 2. Tau di G. & K.  riduzione proporzionale nell’incertezza (misurata attraverso l’eterogeneità) ; 3. Coefficiente di incertezza  riduzione proporzionale nell’incertezza (misurata attraverso l’entropia) NB. Se il “chi-quadrato” è 0, non posso neanche studiare questi indici ! Ovvero lambda sarebbe 0 Tali indici variano tra 0 e 1 : 0  la variabile esplicativa non aumenta l’informazione 1  la variabile esplicativa consente di prevedere esattamente la variabile dipendente (perfetta relazione) NB: La dicotomia sì/no, acquista/non acquista… spesso trascura informazioni importanti  ad esempio: motivazioni, caratteristiche personali, preferenze personali, ecc… Concentriamoci su Lambda INDICE LAMBDA L’indice probabilità λY|X rappresenta la riduzione proporzionale nel commettere un errore di previsione, passando da : i)nessuna informazione a ii) si conosce anche la modalità di X λY|X = Probabilità di errore nel caso i) – Probabilità di errore nel caso ii) Probabilità di errore nel caso i) Esempio: Legge quotidiano n11 n21 n31 n.1 Operaio Impiegato Manager TOT Non legge quotidiano n12 n22 n32 n.2 TOT n1. n2. n3. n In questa tabella ho r : righe della tabella e c : colonne della tabella In formula: λY|X = ∑ ni (max) – n. (max) n – n. (max) ni(max) = max (ni1,ni2,…..,nic) = max(nij) n.(max) = max (n.1,n.2,…,n.c) = max(n.j) (in corrispondenza della riga i-esima) j= 1,2,…c (più grande dei totali di colonna) Esempio: La professione svolta dai consumatori mi aiuta a prevedere la loro scelta sull’acquisto di un nuovo magazine ? (SI / NO) ??? Acquisto Professione Imprenditore Executive Libero professionista Operaio Commerciante Impiegato TOTALE SI 13 40 37 NO 16 31 49 TOTALE 29 71 86 49 6 98 243 16 18 56 186 65 24 154 429 Se NON conoscessi la professione svolta dai consumatori, potrei concludere che i consumatori osservati sono acquirenti di una nuova testata giornalistica, azzeccando la previsione nel 243/429 = 0,566 56,6 % delle volte, ma commettendo un errore 186/429 = 0,433 43,3% delle volte Se conosco la professione svolta dai consumatori posso prevedere la loro scelta sull’acquisto del magazine (SI/NO)? Utilizzando l’informazione sulla loro professione e calcolato la statistica λY|X  se conosco la professione, prevedo la loro scelta sull’acquisto o meno della testata giornalistica utilizzando λY|X n1max = 16 n2max = 40 n3max = 49 n4max = 49 n5max = 18 n6max = 98 λY|X = (16+40+49+49+18+98) – 243 / 429 – 243 = 0,145  La conoscenza della professione riduce l’errore sulla propensione all’acquisto del magazine del 14,5% (ho un’indicazione forte su coloro che sono propensi all’acquisto) USANDO SPSS Calcolo LAMBDA  è una misura direzionale: non è uguale per tutta la tabella, devo specificare qual è la variabile che voglio prevedere ACQUISTO: variabile dipendente PROFESSIONE: mi aiuta a prevedere l’acquisto, riducendo l’errore di previsione del 14,5% [Altri calcoli: Chi-quadrato di Pearson: 30,295 V di cramer: 0,266 ] Esercizio da svolgere: Si conoscono i dati di una survey che indaga le abitudini degli italiani circa il proprio tempo libero. Tra le domande del questionario una affronta il tema dell’acquisto di abbonamenti TV a pagamento Classe di età 18 - 24 25 - 34 35 - 49 50 – 64  65 Totale Conteggio % in Possiede Pay tv Conteggio % in Possiede Pay tv Conteggio % in Possiede Pay tv Conteggio % in Possiede Pay tv Conteggio % in Possiede Pay tv Conteggio % in Possiede Pay tv Possiede Pay tv No Sì 1 3 2,3 % 8,1 % 5 8 11,6 % 21,6 % 10 8 23,3 % 21,6 % 16 7 37,2 % 18,9 % 11 11 25,6 % 29,7 % 43 37 100,00 % 100,00 % Totale 4 5,0 % 13 16,3 % 18 22,5 % 23 28,7 % 22 27,5 % 80 100,00 % a) Valutare tramite l’uso di un opportuno indice, la previsione circa il possesso della Pay Tv b) A quale fascia d’età la Pay Tv sembra piacere maggiormente? LEZIONE 10 09/11/2020 LA MARKET BASKET ANALYSIS studia l’acquisto simultaneo di prodotti  ovvero le associazioni di prodotto che vengono fatte dai clienti Ci fornisce informazioni interessanti riguardo la “customer base” Obiettivo: evidenziare gruppi di prodotti che tendono a presentarsi insieme in una transazione. Con riferimento ad un insieme di consumatori, ad esempio quelli con la carta fedeltà di un particolare supermercato: interessante studiare composizione dei “carrelli di spesa” cioè della composizione dei beni che vengono acquistati simultaneamente in una visita del consumatore. Risulta inoltre interessante per l’azienda capire anche quali siano i prodotti NON compaiono mai (o quasi mai) nel medesimo carrello. Come già detto, la carta fedeltà ci offre tante informazioni interessanti: la frequenza della spesa, se il soggetto è singolo oppure fa riferimento ad un intera famiglia. Ci sono coppie di ITEM che si presentano quasi sempre insieme? Si pensi a: LATTE + BISCOTTI / CAFFE’ + ZUCCHERO OGGI la market basket si utilizza anche per analizzare le transazioni di siti di e-commerce Alcune applicazioni della Market Basket: -riorganizzazione lay-out supermercato  i prodotti venduti spesso insieme dovrebbero essere posizionati nella stessa zona (viene effettuato da ogni singolo supermercato!); Questo vale anche nel caso di vendita online : se visualizzo un prodotto, vicino posiziono un prodotto “associato” -aumento efficacia promozioni  prodotti fortemente associati non dovrebbero essere in promozione insieme  la promozione su uno incrementa anche le vendite dell’altro (non ho necessità di scontarli insieme); -brand research  studio effettuati dai brand tra prodotti associati (x es latte e biscotti) oppure nel riacquisto del medesimo prodotto: c’è fedeltà alla marca ???; -web mining  si studia la relazioni tra le pagine visitate di un sito di e-commerce (permette di capire e riorganizzare meglio il sito) INFORMAZIONI RICAVABILI DA UN PAGAMENTO  presenta numerosi dettagli Per una transazione presso un punto vendita si conoscono:  l’elenco dei prodotti acquistato e la relativa numerosità;  il prezzo di vendita;  l’identificativo del cliente, se è in possesso di una carta fedeltà o il pagamento è effettuato con la carta di credito;  l’importo complessivo della transazione;  la modalità di pagamento Iniziamo ora a studiare la Market Basket Analysis. Facciamo analisi piuttosto semplici, utilizzando il foglio Excel. IL PANIERE DEI PRODOTTI ACQUISTATI Id. transazione t1 t2 t3 t4 t5 …… tk Id. cliente c1 c2 c3 c1 c3 ….. ci Paniere di prodotti {A,B,D} {C,E} {A,F} {B,D} {A,D,F} {F,Z} Id. transazione  indichiamo la transazione (un soggetto i-esimo può effettuare più di una transazione, x es se facciamo statistiche settimanali/mensili) Il cliente 1 effettua due transazioni: nella prima acquista i prodotti {A,B,D}, nella seconda acquista i prodotti B e D. Presso il punto vendita sono disponibili alcuni prodotti che il cliente può acquistare {A,B,C,D,E,F,G,…,Z}. MATRICE DEI DATI DELLE TRANSAZIONI Il paniere di prodotti di ogni transazione è rappresentato con una sequenza di numeri binari (applicare una “codifica disgiuntiva”), che indicano l’acquisto (1) o il mancato acquisto (0) di un prodotto. Id. Id. transazione cliente t1 c1 t2 c2 t3 c3 t4 c1 t5 c3 … …. tk ci Var. descr. Cliente (genere, età, residenza….) A B PRODOTTO C D ……. Z 1 0 1 0 1 ….. 0 1 0 0 1 0 …. 0 0 1 0 0 0 …. 0 …. …. …. …. …. …. …. 0 0 0 0 0 …. 1 1 0 0 1 1 … 0 ESEMPIO: MK 1.XLS (esempio molto semplice) Focalizziamoci su 5 prodotti: A,B,C,D,E. Consideriamo un sottoinsieme di transazioni che sono state eseguite nel nostro punto vendita dai clienti indicati (6 persone). Id. Id. cliente transazione t1 c1 t2 c2 t3 c3 t4 c1 t5 c3 t6 c4 t7 c5 t8 c2 t9 c4 t10 c6 t11 c5 t12 c6 A B Prodotti C D E 1 0 0 0 1 1 1 1 0 1 0 0 1 0 0 1 0 0 0 1 0 1 1 0 1 0 1 0 0 0 0 1 0 0 1 1 1 1 0 1 0 1 0 0 1 0 0 1 0 1 1 0 0 0 1 0 0 0 0 0 INZIAMO studiamo alcuni concetti La market basket analysis si basa su: se l’acquisto del prodotto A implica l’acquisto del prodotto B  REGOLE DI ASSOCIAZIONE: DEFINIZIONE Una regola associativa descrive un’implicazione logica tra due proposizioni (eventi, attributi, …). NB: si studiano anche caratteristiche/attributi di prodotti Ad esempio, consideriamo l’acquisto del prodotto A e l’acquisto del prodotto B. Si può definire una regola associativa che pone in relazione i due eventi. In generale, si indica con {A} ⟹ {B} la regola associativa «se si acquista A, allora si acquista B». La regola di associazione pone in relazione due proposizioni: • «se si acquista A», chiamata proposizione antecedente; • «allora si acquista B», chiamata proposizione conseguente. Studiamo ora alcuni INDICATORI Per misurare la relazione che lega l’acquisto del prodotto A e quello del prodotto B, può essere conveniente costruire una tabella 2x2 con le frequenze congiunte delle transazioni rispetto all’acquisto dei due prodotti PRODOTTO B Acquistato Non acquistato Totale n11 n21 n.1 n12 n22 n.2 n1. n2. n PRODOTTO A Acquistato Non acquistato Totale n  numero totale delle transazioni n11  numero di transazioni che includono contemporaneamente i prodotti A e B Quali sono questi indicatori??  Il SUPPORTO di {A}  {B} S ({A}  {B}) = n11 / n Il supporto di {A}  {B} indica la proporzione di transazioni nelle quali compaiono simultaneamente i prodotti A e B rispetto al totale delle transazioni avvenute nel punto vendita (è una frequenza relativa)  La PREDICIBILITA’ di {A}  {B} P({A}  {B}) = n11/n1. La predicibilità di {A}  {B} indica la proporzione di transazioni che includono contemporaneamente i prodotti A e B rispetto al numero di transazioni che includono il prodotto A (è una freq.condizionata)  Il LIFT di {A}  {B} L({A}  {B}) = n11/n1. n.1/n = n11 / n’11 Dove n’11 è la frequenza teorica dell’acquisto congiunto di A e B ipotizzando che l’acquisto di A e l’acquisto di B siano eventi indipendenti. Il lift di {A}  {B} è il rapporto tra la predicibilità osservata e la predicibilità attesa nel caso in cui l’acquisto di B è indipendente da quello di A. Se L({A}  {B} > 1 : esiste un’associazione positiva tra l’acquisto di A e l’acquisto di B Se 0 < L({A}  {B}) < 1 : esiste un’associazione negativa tra l’acquisto di A e l’acquisto di B ESEMPIO DI LETTURA - Il SUPPORTO di {A}  {B} = 0,2 La presenza simultanea dei due prodotti è presente nelle transazioni analizzate per una percentuale pari al 20% (frequenza “importante”) - La PREDICIBILITA’ di {A}  {B} = 0,65 La probabilità che uno scontrino annoveri il prodotto B se esso già presenta il prodotto A è pari al 65% - Il LIFT di {A}  {B} = 1.95 L’associazione tra i due prodotti è positiva: la probabilità che uno scontrino presenti il prodotto B quando è già presente il prodotto A è quasi doppia rispetto alla medesima probabilità calcolata sull’insieme di tutte le transazioni. Analizziamo ora i dati dell’esempio precedente (foglio excel) Andiamo ora a calcolare gli indicatori precedentemente introdotti per calcolare l’associazione. Calcoliamo il SUPPORTO  per prima cosa effettuo la SOMMA fra l’acquisto di due prodotti  faccio tutte le combinazioni possibili Cosa devo considerare??? SOLO l’acquisto congiunto di due prodotti! Successivamente per trovare n11 : devo dividere tutti gli “acquisti congiunti” / 2 Per trovare il supporto : n11 / n n: sono le transazioni totali (nel mio esempio sono 12) Abbiamo due associazioni di prodotti più forti: A+B / B+C = 0,25 CLASSIFICAZIONE DELLE REGOLE DI ASSOCIAZIONE • Le regole di associazione più rilevanti sono quelle che presentano un elevato supporto ed una elevata predicibilità • Un supporto elevato assicura che la frazione di transazioni coinvolte nella regola associativa sia considerevole. Quindi che le conseguenti azioni di marketing siano rivolte ad un numero non esiguo di consumatori. • Una predicibilità elevata permette di selezionare dei gruppi di consumatori con un comportamento di acquisto prevedibile, a cui indirizzare azioni di marketing mirate. • Si fissano delle soglie minime per individuare la regole associative più interessanti. Tali soglie variano in base al contesto in cui la market basket analysis è applicata (grande distribuzione, ecommerce …). Le regole associative evidenziate dall’analisi possono essere: -banali (facili da immaginare); -non banali (individuabili solo con l’esplorazione dei dati delle vendite). Una regola associativa non banale può derivare da: attività esogene: -cambiamenti delle preferenze dei consumatori; -azioni della concorrenza; attività endogene: -promozioni che hanno modificato il comportamento d’acquisto dei consumatori; -introduzione di nuovi prodotti che determina la cannibalizzazione di altri prodotti. LEZIONE 11 11/11/2020 Sia nel caso di analisi del carrello della spesa (online o fisico), questi indicatori servono per mettere in evidenza le associazioni forti. MARKET BASKET ANALYSIS: dipende essenzialmente da due grandezze: numero di transazioni / numero di prodotti Selezione delle regole di associazione Le regole di associazione da valutare sono numerose nel caso in cui i prodotti acquistabili presso il punto vendita sono molti. È necessario selezionare le regole associative più importanti. L’individuazione delle regole associative più importanti avviene in due stadi: • 1° stadio: si selezionano le regole associative con un supporto che eguaglia o supera una soglia minima, detta “supporto minimo”, fissata a priori; • 2° stadio: tra le regole associative selezionare al 1° stadio, si scelgono quelle con una predicibilità che eguaglia o supera una soglia minima, detta “predicibilità minima”, stabilita a priori. VEDI EXCELL Fisso un “supporto minimo” : 0,2  le combinazioni di valori con cui andremo a lavorare sono {A,B} e {B,C}. Tutte le altre coppie di prodotti sono inferiori al 20%  non verranno considerate nel calcolo della predicibilità. Calcoliamo la predicibilità sulla coppia di prodotto A-B e B-C. SELEZIONE DELLE REGOLE DI ASSOCIAZIONE: 1^ STADIO Si considerano cinque prodotti {A,B,C,D,E} e tutte le possibili combinazioni di cinque prodotti, presi a due a due. COMBINAZIONI DI PRODOTTI {A,B} {A,C} {A,D} {A,E} {B,C} {B,D} {B,E} {C,D} {C,E} {D,E} SUPPORTO SUPPORTO MINIMO SELEZIONE 0,25 0,17 0,17 0,08 0,25 0,17 0,00 0,17 0,08 0,08 0,2 0,2 0,2 0,2 0,2 0,2 0,2 0,2 0,2 0,2 SI NO NO NO SI NO NO NO NO NO Il supporto di un regola associativa è una misura simmetrica perché non dipende dalla direzione dell’implicazione logica. Ad esempio, S({A} ⟹ {B}) è uguale a S({B} ⟹ {A}. Per una coppia di prodotti, si può calcolare il supporto senza stabilire la direzione della regola. SELEZIONE DELLE REGOLE DI ASSOCIAZIONE: 2^ STADIO Predicibilità: si calcola a partire da una tabella a doppia entrata. EXCEL  prendo i valori di A e B. Costruisco una tabella “id” ha valore 1 : ciascuna riga ha una transazione. Tramite l’utilizzo di una tabella pivot, costruisco una tabella a doppia entrata. In cui in riga inserisco i valori di A ed in colonna inserisco i valori di B. Trovo quindi la predicibilità REGOLA {A}  {B} {B}  {A} {B}  {C} {C}  {B} PREDICIBILITA’ 0,5 0,6 0,6 0,6 PREDICIBILITA’ MINIMA 0,6 0,6 0,6 0,6 SELEZIONE NO SI SI SI La cosa ottimale da fare ora è calcolare il LIFT delle regole selezionate (per verificare che la predicibilità osservata è maggiore di quella attesa nell’ipotesi in cui i prodotti siano acquistati in maniera indipendente). Calcoliamo il LIFT, riferito alle 3 associazioni di prodotto che sono state identificate come le associazioni più forti. (Una volta che le regole associative forti sono state estratte, è conveniente calcolare il lift per verificare se la predicibilità osservata è maggiore della predicibilità attesa nell’ipotesi che l’acquisto conseguente non sia influenzato dall’acquisto antecedente) L({B}  {A}) = 1,22  LA PROBABILITA’ DI ACQUISTARE B E CONSEGUENTEMENTE A E’ MAGGIORE DELLA PROBABILITA’ DI ACQUISTARE A L({B}  {C} = 1,44  La probabilità di acquisto del prodotto C, quando si è già acquistato B, è quasi una volta e mezzo rispetto alla probabilità calcolata su tutte le transazioni L({C}  {B}) = 1,44 L’osservazione è più interessante quando maggiore è il valore del LIFT. Una volta trovate le regole, cosa si fa? Si realizzano dei DIAGRAMMI DI ASSOCIAZIONE in cui descriviamo le regole forti. Rappresentiamo con i cerchi i prodotti che abbiamo analizzato a coppie. La freccia indica l’implicazione dell’acquisto. Il valore che indiciamo sopra la freccia indica la predicibilità osservata. In alcuni casi possiamo avere una freccia bidirezionale  è importante perché l’associazione funziona in maniera simmetrica. SLIDE 5 Generalizzazione La definizione della regola associativa può coinvolgere più di un prodotto, sia nella proposizione antecedente sia nella proposizione conseguente. • {A,B} ⟹ {C} : «se si acquistano i prodotti A e B» è la proposizione antecedente, «allora si acquista C» è la proposizione conseguente. • {A,B} ⟹ {C,D} : «se si acquistano i prodotti A e B» è la proposizione antecedente, «allora si acquistano C e D» è la proposizione conseguente. • {A,B,C} ⟹ {D} : «se si acquistano i prodotti A, B e C» è la proposizione antecedente, «allora si acquista D» è la proposizione conseguente. ESERCIZIO 1 Id. transazione T1 T2 T3 T4 T5 T6 T7 T8 Id. cliente C1 C2 C3 C1 C3 C4 C5 C2 A 1 0 1 0 1 1 0 1 Prodotti B 1 1 0 1 0 0 1 1 C 1 0 1 0 0 1 1 0 D 0 0 0 1 1 0 1 1 T9 T10 T11 T12 C4 C6 C7 C5 0 1 0 1 1 1 1 0 0 1 0 1 0 0 1 0 ESERCIZIO 2 Id. transazione T1 T2 T3 T4 T5 T6 T7 Id. cliente A B PRODOTTI C C1 C2 C3 C1 C3 C4 C5 1 0 0 0 1 1 1 0 0 0 1 0 0 0 1 0 1 0 0 0 0 D E 1 1 0 1 0 1 0 0 1 1 0 0 0 1 T8 T9 T10 C2 C4 C6 1 0 1 1 0 0 1 0 0 0 1 0 0 0 0 TECNICHE PER COSTRUIRE UNA LISTA DI CLIENTI È molto importante riuscire a creare un ranking nella lista di clienti di un’azienda. Le tecniche che vedremo sono (non sono parametriche): • Metodo ABC  identificazione di clienti che hanno maggior valore economico • RFM Le due tecniche sono molto semplici, poco robuste, ma sono molto usate in azienda. Non hanno solide basi statistiche, ma si basano su delle regole assegnate a priori che ci aiutano nell’assegnazione di punteggi automatici. Noi studieremo solo la tecnica RFM. Se dovessimo stilare una classifica dei clienti che sono maggiormente interessanti per l’azienda  quali sono le variabili che consideriamo per poter stabilire questa classifica? x es: guardare il prezzo degli item acquistati dal soggetto, quante volte il soggetto fa la spesa nel punto vendita (frequenza), quanto di recente è venuto a fare acquisti…. La tecnica RFM si basa proprio su questi 3 pilastri. La tecnica contempla oltre al fatturato cioè l’ammontare di acquisti fatti dal cliente nel tempo (M: monetary) anche la vicinanza temporale dell’acquisto (R: recency) e la frequenza d’acquisto (F: frequency) nel periodo monitorato. Alle volte al posto della frequenza d’acquisto si possono utilizzare la percentuale di comunicazioni o mail a cui il cliente ha dato risposta. La tecnica mira a segmentare i clienti tra quelli che acquistano spesso items che costano poco da quelli che ad es. acquistano con meno frequenza ma item più costosi. La tecnica ha come obiettivo di indicare i clienti “migliori”. Come funziona la tecnica? Si basa sullo studio di queste 3 dimensioni. E’ utile per: -identificare i clienti migliori (avranno punteggio più alto); -elaborare proiezione di elevata precisione sui futuri profitti; -individuare i clienti verso cui indirizzare una campagna; -accrescere la redditività di un mailing. CLIENTI MIGLIORI SONO QUELLI: -hanno effettuato un acquisto di recente; -hanno acquistato più di frequente nell’intervallo temporale; -hanno effettuato acquisti di importo monetario rilevante. Studiamo quindi le mie 3 dimensioni: frequenza, recency e monetary. • vicinanza temporale dell’acquisto nel periodo è suddiviso in trimestri; (evidenziare se gli acquisti sono più remoti oppure sono più recenti) • frequenza degli acquisti (considerata nel punteggio direttamente o ponderata); • valore monetario calcolato solitamente considerando il 10% del valore totale degli acquisti fatti dal cliente. Lo score che andiamo a costruire ha l’obiettivo di “creare una classifica”, ovvero creare un “ranking”. Lo score RFM richiede un sistema di pesi (ponderazione delle variabili) è differenziato a seconda della natura del bene. Tale sistema di pesi può essere ripensato e revisionato, a seconda che l’azienda decida di attribuire maggiore importanza ad una variabile piuttosto che ad un’altra. Criteri di ponderazione Recentezza dell’acquisto - 20 punti per un acquisto effettuato entro gli ultimi 3 mesi 10 punti per un acquisto effettuato entro gli ultimi 6 mesi 5 punti per un acquisto effettuato entro gli ultimi 9 mesi 3 punti per un acquisto effettuato entro gli ultimi 12 mesi 1 punto per un acquisto effettuato entro gli ultimi 24 mesi Frequenza di acquisto - Valore monetario degli acquisti - Ponderazione delle variabili RFM - Numero di acquisti effettuati entro gli ultimi 24, mesi ponderati moltiplicando per 4 il numero di tali acquisti, fino ad un valore massimo di 20 10% del valore totale degli acquisti effettuati negli ultimi 24 mesi, fino ad un valore massimo di 20 Recency: 5 Frequency: 3 Monetary: 2 L’azienda in questione decide di dare un maggior peso al fatto che l’acquisto sia successo recentemente, rispetto alla frequenza di acquisto ed al valore monetario (scelta soggettiva): in questo caso il valore finale = 10 Caso: possibile applicazione ad un caso Esempio: Id 1561 1561 1561 1581 1592 1592 1592 1592 Acquisto n 1 2 3 1 1 2 3 4 Mese 3 9 12 9 3 6 12 12 Vediamo ora N. Acquisto Recency CLIENTE n (1) (in mesi) (2) 1561 1 3 1561 2 9 1561 3 12 1581 1 9 1592 1 3 1592 2 6 1592 3 12 1592 4 12 continuo Punteggio assegnato (3) 20 5 3 5 20 10 3 3 Punteggio ponderato x5 (4)=(3) x 5 100 25 15 25 100 50 15 15 N. Monetary cliente (.000) (9) Punteggio assegnato (10) Punteggio ponderato x 2 (11) = (10) x 2 1561 1561 1561 1581 4 15 4 20 8 30 8 40 40 150 40 600 Frequency Punteggio Punteggi (6) assegnato ponderato x3 (7) (8)=(7)x3 1 1 2 2 1 2 2 1 Totale punteggi ponderati (12) = (4) + (8) + (11) 120 67 47 89 4 4 8 8 4 8 8 4 12 12 24 24 12 24 24 12 Punteggi cumulati 120 187 234 89 1592 1592 1592 1592 110 90 60 30 11 9 6 3 22 18 12 6 134 92 51 33 134 226 277 310 Il cliente 1561 raggiunge il punteggio 234. Il cliente 1592 totalizza un punteggio pari a 310 e si rivela in assoluto il più interessante per l’azienda. 16/11 LEZIONE 12 Ritorniamo allo studio della RFM. Proviamo ad applicare tale tecnica in un caso reale. Consideriamo un caso di studio  campione di circa 1000 clienti da analizzare per identificare chi ha maggiore probabilità di rispondere a una nuova offerta. Il file è composto da 4 variabili. Abbiamo l’importo dell’acquisto / recente (la data dell’acquisto) / n. acquisti Attraverso SPSS costruisco il mio studio della RFM. Vediamo le variabili: DATA O INTERVALLO DELLA TRANSAZIONE  “più recente” NUMERO DI TRANSAZIONI  “Num. Acquisti” QUANTITA’  “importo totale” IDENTIFICATIVI DEL CLIENTE  “ID” Numero di bin??? Ponderiamo come nell’ultima lezione: -attualità: 5; -frequenza: 3; -monetario: 2 METODO DI RACCOLTA: Può essere di due tipi: -Nidificato  vengono raccolte le transazioni che si riferiscono ad uno stesso soggetto; -Indipendente  le transazioni vengono considerate indipendenti (i clienti vengono considerati tali) Applico RFM. Ottengo per prima cosa la mappa “Conteggi dei bin”  tutte le possibili classificazioni che possiamo fare a partire dall’incrocio dei due livelli monetari, 3 livelli di frequenza e 5 livelli differenti in corrispondenza dei diversi livelli di attualità. Troviamo tante possibili differenti fasce (30 diverse fasce di clienti). Le possibili segmentazioni che possiamo ottenere, dipende dal numero dei Bin che compongono le singole dimensioni. Come si fa a distinguere il livello monetario (la soglia monetaria) a cui associa il valore 1 o il valore 2 ??? Come si fa a identificare i tre diversi livelli di frequenza?? SPSS cerca di fare delle classificazioni tali in modo da avere all’interno delle singole fasce identificate, sempre un numero identico / equiparabile di clienti (a differenza di come potremmo fare noi)  NON stabilisce la soglie a priori! Proviamo ora a leggere il RISULTATO, rappresentato dalla “MAPPA TERMICA” Ci racconta la distribuzione del valore medio di spesa per ciascuna delle 15 fasce che sono identificate nell’incrocio tra i valori di frequenza (3 fasce) e dimensione attualità (5 fasce). Possiamo quindi identificare coloro che hanno acquistato più recentemente e coloro che hanno un “valore monetario” più elevato  quelle più scure sono sicuramente quelle più interessanti. La possibilità di vedere che recentemente acquistano di più e con maggiore frequenza, è un risultato assolutamente interessante per l’azienda. Possiamo anche analizzare gli ISTOGRAMMI proposti da SPSS  rappresentano le tre dimensioni: frequenza / valore item acquistato / recency. I dati variano da un minimo che è il 2004 ad un acquisto più recente del 2006. L’analisi degli istogrammi in realtà dovrebbe essere fatta inizialmente  tramite questo tipo di osservazione possiamo stabilire quanti BIN scegliere (in quante modalità articolare le singole dimensioni). E’ importante fare attenzione sulla differenza di FRECENCY e MONETARY ! Quanto più diamo importanza alla dimensione ATTUALITA’ (si pensi agli acquisti di un supermercato: ha senso ragionare in un anno / se il prodotto ha un coinvolgimento più elevato, ha senso estendere il periodo di osservazione). Frequenza  più il prodotto sembra avere un valore elevato, più possiamo osservare un numero di item che non è così grande! Se considerassimo una dimensione frequency articolata in 3 bin, forse è esagerato! La decisione su quanti bin considerare è molto importante e dev’essere fatta prima. Questo discorso può essere fatto anche per la dimensione monetaria in questo caso abbiamo prodotti che variano da 100 euro a 1400 euro (una dimensione monetaria pari a 2 è mortificante e poco rappresentativa  dovrebbe suddividere in più fasce Vediamo ora GRAFICI A DISPERSIONE 1 grafico: sull’asse delle ascisse viene riportato il valore monetario dell’ITEM acquistato, sull’asse delle y troviamo la data di acquisto  non c’è una relazione di “tipo lineare”, potremmo però evidenziare una relazione  se consideriamo la fascia da 800 + , notiamo che tali acquisti non sono stati effettuati nel 2004 o 2005, vengono acquistati nei mesi più recenti; 2 grafico: sull’asse delle x abbiamo il valore monetario dell’acquisto effettuato, sull’asse delle y il n. di item che compongono lo scontrino  ci dice che all’aumentare del numero degli ITEM, lo scontrino “pesa di più”  possiamo identificare una relazione di tipo lineare; 3 grafico: numero di ITEM acquistati sull’asse delle x e sull’asse delle y abbiamo la data nel quale è stata operato l’acquisto  i clienti che abbiamo analizzato hanno acquistato un numero di ITEM che va da 1 a 14  consideriamo 8 come “livello medio” di ITEM considerati, vediamo che i soggetti che abbiamo preso in considerazione, acquistano un n. di item più elevato in periodi più recenti INFORMAZIONE UTILE: Le persone spendono di più e mediamente acquistano un n. di prodotti maggiore, nell’ultimo periodo In SPSS viene anche dato il “RFM SCORE”  ovvero il valore totale RFM score ottenuto è naturalmente ottenuto in modo differente rispetto a quanto fatto a lezione  quello prodotto da SPSS è un punteggio che in realtà non fa altro che giustapporre 3 ranking, ovvero 3 classifiche ottenute andando a ordinare i dati relativi agli acquisti fatti dai nostri clienti (prima considerando la recency, poi la frequency e poi la monetary. Il punteggio calcolato a lezione invece funzionava in modo diverso: lo score era ottenuto come somma algebrica dei 3 punteggi (all’interno delle singole dimensioni, si erano pesati i singoli acquisti, differenziandoli…). E’ un modo differente di ottenere RFM! Non sono quindi confrontabili. DA RICORDARE  la determinazione dei pesi che vogliamo dare alle macrodimensioni, è fondamentale guardare le distribuzioni di frequenza dei valori che osserviamo all’intero del nostro campione! LA SEGMENTAZIONE DEI CLIENTI LA SEGMENTAZIONE DEL MERCATO -Per definire gli obiettivi e le modalità di una strategia commerciale un’azienda deve essere in grado di valutare le caratteristiche e i bisogni e i comportamenti probabili degli acquirenti potenziali. -Questa decisione implica una suddivisione (SEGMENTAZIONE) del mercato in gruppi omogenei e distinti di consumatori (rispetto a determinati parametri) verso i quali indirizzare politiche di vendita altrettanto specifiche. -Market SEGMENTATION consiste nell’adeguare tanto i prodotti quanto le strategie di marketing alle differenze individuabili entro l’insieme delle esigenze manifestate dai consumatori. IDEA DI BASE: immaginiamo che si possano indirizzare politiche di vendita completamente differenti a gruppi alternativi. Le differenze individuali caratterizzano difatti le differenze tra i segmenti  non produco sul mercato un unico prodotto, ma una serie di prodotti simili che saranno supportate da un sistema di comunicazione, distribuzione o la presenza di caratteristiche differenti. Si va incontro maggiormente ai bisogni dei clienti! Perché segmentare? Per una comprensione generale del mercato - benefici ricercati - modalità di acquisto - decisioni di acquisto Per studi sul posizionamento - uso del prodotto - preferenze verso i prodotti/ benefici ricercati Per l’introduzione di nuovi prodotti - intenzione di acquisto - preferenze verso brand concorrenti Per decisioni di prezzo - sensibilità a cambiamenti di prezzo - propensione alla trattativa Per decisioni relative alle politiche pubblicitarie - stili di vita - atteggiamenti verso i media - benefici ricercati Come segmentare? -Adottare una strategia di segmentazione significa riconoscere un’esistenza di eterogeneità in un mercato: l’azienda quindi si trova a dover soddisfare domande differenti per poter servire segmenti distinti (nel modo più oggettivo possibile!). Dal punto di vista statistico, cosa dobbiamo fare? Dobbiamo CLASSIFICARE i soggetti che stiamo trattando. La classificazione si opera rispetto a delle variabili. -Nei mercati di largo consumo naturalmente una segmentazione troppo granulare non è possibile per cui risulta impossibile effettuare delle offerte specifiche per ciascuno. -Pertanto, al fine di poter ottenere una segmentazione che operativamente efficace (nel senso di attuabile dal punto di vista delle politiche di marketing) esige che la classificazione ottenuta risponda a certi requisiti. Alcune variabili esplicative impiegate nelle procedure di segmentazione Le variabili devono essere studiate in modo opportuno, al fine di ottenere una lista che sia contenuta e che sia focalizzata sull’obiettivo che si vuole approfondire con la survey. PSICOGRAFICHE -personalità (introversa, estroversa) -livelli di bisogno (sicurezza, protezione, autorealizzazione) -stile di vita SOCIO-DEMOGRAFICHE -popolazione (<20.000, 20.000 – 100.000, 100.000 – 250.000, >250.000) -età (<18, 18-25, 25-30, >30) -istruzione (diplomato, laureato, dottorato) GEOGRAFICHE -Stato (Italia, Francia, Inghilterra) -città (Milano, Roma, Torino, Napoli) COMPORTAMENTALI -utilizzo del prodotto (mai, sempre, qualche volta, una volta) -fedeltà alla marca ( infedeli casuali, infedeli alla ricerca di un‛altra marca, fedeli alla marca, fedeli al produttore, fedeli al punto vendita) Quelle sociodemografiche, geografiche e la professione svolta viene sempre chiesto all’interno di una survey (sono informazioni fondamentali!) A meno che tali informazioni siano sottointese (x es: intervisto solo un gruppo di studenti, posso evitare di chiedere qual è la professione svolta) Spesso vengono tralasciate alcune informazioni  sia quelle psicografiche (indagano lo “stile di vita” dei soggetti”)  quelle comportamentali dei soggetti che mettono in atto Nel momento in cui dobbiamo classificare, è importante avere sia informazioni più OGGETTIVE (sociodemografiche e geografiche) che quelle più INTERIORI/SOGGETTIVE (psicografiche e comportamentali). Abbiamo capito che, attraverso la segmentazione riesco ad individuare dei gruppi di soggetti che andranno poi a far parte del mio campione che osserverò. DOMANDA SPONTANEA: quando produco la partizione (mi chiedo: ciascun soggetto a quale gruppo appartiene??)  ho ottenuto una segmentazione?? NO! Non sempre le partizioni proposte dai classificatori automatici sono delle segmentazioni. La segmentazione ha delle caratteristiche e dei REQUISITI: -La tendenziale uniformità delle risposte degli acquirenti agli strumenti tipici del marketing-mix (il gruppo che ho ottenuto, per essere un segmento, deve essere costituito da soggetti che devono distinguersi perché forniscono risposte omogene rispetto al “marketing-mix”); -La profittabilità: nel senso che la dimensione del segmento deve essere tale da garantire un profitto all’azienda (non dev’essere troppo piccola); -L’accessibilità, cioè la possibilità di raggiungere il segmento (una volta che l’azienda ha ottenuto la segmentazione, dev’essere in grado d raggiungerlo); -La stabilità nel tempo della soluzione trovata (non deve cambiare velocemente, ovvero la ripartizione si deve focalizzare su variabili stabili nel tempo). LEZIONE 13 18/11/2020 IDEA DI BASE: l’eterogeneità dei miei clienti può essere “scomposta” e suddivisa in gruppi, in modo da poter rivolgere l’attenzione a sottoinsiemi di soggetti! La creazione dei gruppi si basa sulla classificazione  abbiamo identificato alcune variabili che possono aiutarci a fare ciò. La segmentazione a volte non è l’obiettivo principale dell’analisi che compiamo  x es l’obiettivo dell’indagine potrebbe essere un altro, ma utilizziamo la segmentazione ugualmente: potrebbe essere analizzare la soddisfazione dei consumatori (potrei prima svolgere la mia analisi e successivamente applicare una segmentazione in gruppi di soggetti). NB: il risultato di una qualsiasi analisi statistica fatta con dei dati non produce necessariamente una segmentazione, ma produce una PARTIZIONE ( risultato di un processo di classificazione che operiamo con degli algoritmi che tira fuori la suddivisione dei soggetti in gruppi) La partizione NON è segmentazione. Lo diventa quando andiamo ad analizzare la classificazione e ci rendiamo conto che il risultato che abbiamo ottenuto è composto da gruppi che presentano alcune caratteristiche (ovvero sono uniformi rispetto agli strumenti di marketing mix). La segmentazione prevede da un punto di vista operativo passa attraverso delle fasi che si possono riassumere nei seguenti punti:  definizione del problema  messa a punto del programma indagine sul campo  elaborazione e interpretazione dei risultati LA SELEZIONE DELLA PROCEDURA Il modello di segmentazione non è univoco, ma dipende dagli obiettivi che ci poniamo. La prima fase prevede quindi la scelta di un modello di segmentazione (ogni procedura risponde a domande completamenti differenti!): -a priori -a posteriori -flessibile Le informazioni sulla base della quali si costruiscono i modelli di analisi sono suddivisibili in maniera molto schematica ma intuitiva Dal punto di vista della tecnica, che cos’è la segmentazione? E’ un algoritmo ricorsivo che consente di suddividere n unità statistiche in gruppi, in relazione ad un criterio divisivo, che si propone di massimizzare l’omogeneità interna ai gruppi ottenuti (e di differenziare i gruppi tra loro): Segmentazione a posteriori: Cluster Analysis (gerarchica e non gerarchica) Quella gerarchica è un tipo di segmentazione che riesce a fornire una classificazione di soggetti in gruppi distinti (unica che vedremo) Segmentazione flessibile: Conjoint Analysis (non vedremo) Segmentazione a priori: AID, CHAID, CART, QUEST (alberi di classificazione); Analisi discriminante; Regressione logistica : è un modello di analisi discriminante in cui il numero dei gruppi è estremamente basso (=2) -Quali sono le domande a cui questi modelli di segmentazione rispondono???? -Quali sono le risposte??? SEGMENTAZIONE A PRIORI Nella segmentazione “per obiettivi” vengono identificate una variabile dipendente, in base alla quale dividere in gruppi il collettivo di partenza, e una o più variabili esplicative che influenzano significativamente la v. dipendente. Quando utilizziamo la segmentazione a priori, l’obiettivo non è trovare la classificazione (che a quanto pare è già presente/è già stata ricavata). Posso avere la variabile dipendente che suddivide i clienti in clienti che hanno acquistato/non hanno acquistato il prodotto (posso capire le motivazioni che spingono un soggetto ad acquistare o meno)  la segmentazione l’ho fatta io precedentemente, ma costruisco il modello per classificare NUOVI soggetti. Quindi non voglio classificare i soggetti che sto osservando in questo momento. Il modello è definito “a priori” per la scelta preventiva delle variabili esplicative, del numero e delle tipologie di gruppi da formare. E’ un modello predittivo, che si basa su una variabile dipendente che è quella che guida la messa appunto del modello stesso. Si perviene alla costruzione di una regola che assegna nuove unità statistiche alle categorie (modalità) della variabile dipendente. Fa riferimento, in genere, a variabili socio-demografiche e a quelle legate al consumo del prodotto (utilizzo, fedeltà…) Tecniche di segmentazione ad albero: AID, CHAID, CART, QUEST; Analisi discriminante  abbiamo da 2 a più gruppi; Regressione e logistica  si basa su una classificazione molto semplice (su due gruppi) Caso classico dell’utilizzo della “regressione e logistica”: ambito bancario, le banche utilizzano tale regressione e logistica per capire quali sono i driver/le variabili che aiutano a distinguere tra soggetti che sono buoni/cattivi pagatori. La segmentazione a priori non è quella tecnica che genera la partizione. In questo caso la partizione o ce l’abbiamo già a disposizione / la creiamo su variabili che abbiamo a nostra disposizione (a priori). SEGMENTAZIONE A POSTERIORI: LA CLUSTER ANALYSIS (CLA)  quella a cui si fa solitamente riferimento quando si fa ricerca di mercato  riusciamo a suddividere i nostri soggetti in gruppi distinti DIFFERENZE con la classificazione a priori: la cluster analysis è una tecnica “non supervisionata”, ovvero esplorativa  non prevedere una variabile dipendente. Quindi, sulla base dei dati a mia disposizione, calcolo una regola che mi permette di assegnare sulla base delle variabili a mia disposizione, se un soggetto appartiene ad un gruppo piuttosto che ad una altro, cercando di costruire dei gruppi omogenei al suo interno ed eterogenei fra loro. L’output è una ripartizione (variabile di partizione)! Prima di concludere che ciò che abbiamo ottenuto è una variabile di partizione, vengono poi fatte tutte le verifiche richieste. Nel caso dell’analisi di mercato bisogna capire se il risultato della partizione è effettivamente utilizzabile dall’azienda. Viene utilizzata nelle ricerche che si propongono di: -Migliorare il grado di comprensione dei comportamenti di acquisto differenziandoli per tipologia di consumatore; -Accertare l’esistenza di opportunità di sviluppo per potenziali nuovi prodotti La CLA consiste, essenzialmente, in un metodo esplorativo dei dati che consente di riconoscere, partendo dalle n unità statistiche di partenza, i gruppi entro cui, naturalmente, tali unità ricadono. L’analisi cluster permette, pertanto, di assegnare ogni unità ad uno specifico gruppo, sulla base delle caratteristiche (variabili) da questi presentate, con l’obiettivo di rendere ciascun gruppo il più possibile omogeneo al proprio interno. Con l’Analisi Cluster, non essendo nota a priori la struttura per gruppi delle unità statistiche, si cerca l’esistenza di una segmentazione naturale tra le unità rispetto alle variabili considerate. La valenza interpretativa di tale analisi si basa sul presupposto che esistano dei gruppi latenti, per così dire “naturali”, tra i casi. NB: non essendoci una variabile da ricostruire, potremmo avere anche più soluzioni plausibili! La cluster analysis essenzialmente si basa su variabili di tipo quantitativo  CLUSTER GERARCHICA: la segmentazione in gruppi si basa su una logica di minimizzazione delle distanze tra le unità statistiche entro i gruppi e di massimizzazione delle distanze tra gruppi. Si parte da n gruppi per i quali sono note le distanze, rappresentate dagli elementi della matrice D. Ovvero costruisce somiglianze e differenze tra i soggetti a partire dalle distanze tra i soggetti. L’algoritmo costruisce una matrice “D” tra coppie di soggetti, sulla base delle variabili a disposizione. Si mettono insieme individui che risultano avere distanze estremamente piccole, mentre si differenziano gli individui che hanno distanze estremamente grandi La matrice D è una matrice quadrata: ha n righe ed n colonne. SLIDE 7 E’ una matrice “triangolare”  è simmetrica. La diagonale principale della matrice delle distanze presenta sempre tutti 0: tutti gli elementi che si trovano sulla diagonale principale sono le distanze di ciascun individuo da sè stesso. La matrice D può essere costruita utilizzando che tipo di metrica??? Ovvero come ottengo queste distanze? d12 : distanza soggetto 1-2 d13: distanza soggetto 1-3 La distanza a cui facciamo riferimento è la DISTANZA EUCLIDEA  ci permette di valutare quanto due soggetti sono differenti tra loro sulla base delle loro caratteristiche Esempio: considero 4 soggetti a cui viene chiesto di valutare due marche di caffè (scala likert 1-10). Calcolo la distanza Euclidea. Valutazione soddisfazione marca A e B SOGGETTO A B 1 5 3 2 1 2 3 6 5 4 1 4 Sul piano cartesiano: VEDI SLIDE 8 I soggetti più simili sono 2 e 4. Come calcoliamo la distanza? Facciamo la radice quadrata della differenza delle coordinate corrispondenti  OTTENIAMO LA MATRICE DI PROSSIMITA’ DISTANZA EUCLIDEA 1 2 3 4 1 ,000 4,123 2,236 4,123 2 4,123 ,000 5,831 2,000 3 2,236 5,831 ,000 5,099 4 4,123 2,000 5,099 ,000 Questa è una matrice di dissimilarità Com’è possibile fare l’aggregazione tra le unità? E’ necessario stabilire una regola che permetta la formattazione dei gruppi ad ogni passo dell’algoritmo e la valutazione della relativa distanza delle nuove strutture (clusters) create. Andremo a definire un “cluster gerarchico agglomerativo”. Si parte dall’idea che le osservazioni a nostra disposizione sono tutti cluster composti da un solo soggetto, che via via cerchiamo di comporre tra loro e cerchiamo di mettere insieme i soggetti che sono più simili. Nel fare questo processo di agglomerazione (partiamo da n differenti gruppi) e cerchiamo di ricompattare insieme questi gruppi, cerchiamo di stabilire dei criteri con cui poi creare i gruppi stessi. I metodi agglomerativi per creare gruppi sono: -Legame del vicino più prossimo (o legame singolo); -Legame del vicino più lontano (legame completo); -Legame medio; -Legame di Ward Per i primi 3 possiamo provare a fare degli esercizi fondamentalmente utilizzando anche solo penna/carta/calcolatrice; per l’ultimo lo sforzo computazionale è maggiore (quasi inutile). Quello che faremo è solo cercare di capire come funziona, ma non faremo veri e propri esercizi! Vediamo come si costruiscono le regole con un esempio. METODI GERAGHICI AGGLOMERATIVI Caratterizzati da una gerarchia nel raggruppamento. 1. n gruppi (ciascuno formato da una singola unità statistica) Sulla base dell’analisi della matrice delle distanze, mettiamo insieme i due soggetti che sono più simili e costruiamo un gruppo formato da due soggetti e gli altri restano separati… 2. n-1 gruppi (uno formato da 2 unità e i restanti n-2 da una unità) L’algoritmo procede poi in modo operativo, mettendo insieme i soggetti che risultano più simili 3. n-2 gruppi….n-3 gruppi fino ad arrivare a un unico gruppo formato da n unità Ad ogni step, ovvero ad ogni passaggio, ad ogni nuova iterazione, l’algoritmo cerca di mettere insieme i soggetti più simili, indipendentemente da regole differenti che possono essere applicate. Da n gruppi si passa ad n-1 gruppi, n-2 e via dicendo… Nell’ultima iterazione, tutti i soggetti vengono messi insieme in un gruppo unico che li ricomprende tutti. Qual è il vantaggio? Riusciamo a studiare la struttura di somiglianze fra individui e cercheremo di capire quando è necessario stoppare l’algoritmo che aggrega i soggetti nei gruppi.  è necessario decidere a quale passo arrestare la procedura di aggregazione delle unità. SLIDE 10 INDICANDO CON: -CS = S-mo gruppo (nel I step corrisponde alla prima unità) -NS = numero unità nell’S-mo gruppo -CL = L-mo gruppo (nel I step corrisponde alla prima unità) -NL = numero unità nell’L-mo gruppo -CM = gruppo formato dai gruppi CS e CL -NM = numero unità nel gruppo CM -DSL = distanza tra il gruppo CS e il gruppo CL che risulta minima nella matrice D -DMJ = distanza tra il gruppo CM (formato) e un generico gruppo CJ Si immagini di aver rilevato indicatori di programmazione effettuata dalle reti televisive che ha generato la seguente matrice delle distanze. Abbiamo 6 canali televisivi che abbiamo monitorato rispetto ad una serie di variabili. METODO DEL LEGAME SINGOLO (o del vicino più prossimo) D=matrice delle distanze RAI1 RAI2 RAI3 RETE4 CANALE5 ITALIA1 RAI1 0 RAI2 864 933 1439 1863 2047 0 1215 1591 2525 1886 0 990 2370 2491 0 2972 2062 0 3223 RAI3 RETE4 CANALE5 ITALIA1 0 La distanza minima tra RAI1 e RAI2 è pari a 864. DM,J = min(DSJ, DLJ)  distanza tra S (RAI1) e il generico gruppo J (ad es. RAI3) Come funziona questo metodo? Parte da 6 gruppi distinti (formati dai singoli canali televisivi) Prima si mettono insieme i soggetti che presentano una distanza inferiore (in questo caso RAI1 e RAI2). Si crea una nuova matrice, ricalcolando le distanze tra il gruppo RAI1-RAI2 e le altre reti televisive, come MINIMO delle distanze presentate prima della fusione, singolarmente, da RAI1 e RAI2 rispetto alle altre Il legame serve a stabilire come ricompattare/ricostituire la matrice delle distanze. La mia matrice 6X6 è diventata 5X5. Di volta in volta vado a ricontrollare le distanze dei soggetti che compongono il nuovo cluster hanno rispetto al canale televisivo che sto considerando e scelgo la distanza più bassa. x es: 1439 (?) è la distanza del cluster RAI1 e RAI2 da RETE4 (RAI1 distava 1439, RAI2 distava 1591, quindi scelgo 1439) RAI1 e RAI2 RAI1 e RAI2 RAI3 RETE4 CANALE5 ITALIA1 0 933 1439 1863 1886 0 990 2370 2491 0 2972 2062 0 3223 RAI3 RETE4 CANALE5 ITALIA1 0 Ovvero: DRAI1-2,RAI3 = min(933,1215) Ora vado a vedere i soggetti che presentano la distanza più bassa : cluster composto da RAI1-RAI2 e RAI3 (distanza pari a 933). A questo punto, tramite il metodo del LEGAME SINGOLO, metto insieme RAI1-RAI2-RAI3 e calcolo la distanza con gli altri. RAI1-RAI2-RAI3 RETE4 RAI1-RAI2-RAI3 RETE4 CANALE5 ITALIA1 0 990 1863 1886 0 2972 2062 CANALE5 0 3223 ITALIA1 0 La distanza minima è tra il gruppo RAI1-RAI2-RAI3 e RETE4 RAI1-RAI2-RAI3-RETE4 RAI1-RAI2-RAI3-RETE4 CANALE5 ITALIA1 0 1863 1886 0 3223 CANALE5 ITALIA1 0 La distanza minima è tra il gruppo RAI1-RAI2-RAI3-RETE4 e CANALE 5 RAI1-RAI2-RAI3-RETE4-CANALE5 RAI1-RAI2-RAI3-RETE4-CANALE5 ITALIA1 0 1886 ITALIA1 0 E infine… unico gruppo composto da tutte le unità! Proviamo ad analizzare invece il METODO DEL LEGAME COMPLETO (o del vicino più lontano) D= matrice delle distanze RAI1 RAI1 RAI2 RAI3 RETE4 CANALE5 ITALIA1 0 864 933 1439 1863 2047 0 1215 1591 2525 1886 0 990 2370 2491 0 2972 2062 0 3223 RAI2 RAI3 RETE4 CANALE5 ITALAI1 0 Al primo step, unisco sempre RAI1 e RAI2  unisco sempre i cluster che presentano distanza più piccola (i più vicini). Una volta uniti, devo però stabilire qual è la distanza del nuovo gruppo formato. Si crea una nuova matrice, ricalcolando le distanze tra il gruppo RAI1-RAI2 e le altre reti televisive, come MASSIMO delle distanze presentate prima della fusione, singolarmente, da RAI1 e RAI2 rispetto alle altre DM,J = max (DSJ, DLJ) RAI1 e RAI2 RAI1 e RAI2 RAI3 RETE4 CANALE5 ITALIA1 0 1215 1519 2525 2047 0 990 2370 2491 0 2972 2062 0 3223 RAI3 RETE4 CANALE5 ITALIA1 0 Ora qual è il canale che vado ad unire?? Quelli con la distanza minima: in questo caso RAI3-RETE4 RAI1-RAI2 RAI1-RAI2 RAI3-RETE4 CANALE5 ITALIA1 0 1591 2525 2047 0 2972 2491 0 3223 RAI3-RETE4 CANALE5 ITALIA1 0 La distanza minima è tra il gruppo RAI1-RAI2 e RAI3-RETE4 RAI1-RAI2-RAI3-RETE4 RAI1-RAI2-RAI3-RETE4 CANALE5 ITALIA1 0 2972 2491 0 3223 CANALE5 ITALIA1 0 La distanza minima è tra il gruppo RAI1-RAI2-RAI3-RETE4 e ITALIA1 RAI1-RAI2-RAI3-RETE4-ITALIA1 RAI1-RAI2-RAI3-RETE4-ITALIA1 CANALE5 0 3223 CANALE5 0 Ed infine, unico gruppo composto da tutte le unità! LEZIONE 14 30/11/2020 Segmentazione a priori  risponde alla domanda di derivare un modello di classificazione che mi serve per classificare NUOVE osservazioni. I gruppi non sono classificazioni “banali”. Utilizziamo un modello di tipo predittivo: abbiamo una variabile target di riferimento che ci guida nella derivazione del criterio! Segmentazione a posteriori  detto “non supervisionato”, non c’è una variabile target di riferimento. Dopo aver rilevato dei comportamenti, è possibile che l’azienda sia interessata a classificare i propri clienti  per identificare quelli che sono i “clienti più profittevoli” Segmentazione cluster è una segmentazione esplorativa : a partire dalle variabili che osserviamo, dobbiamo derivare somiglianze o dissomiglianze tra i soggetti in modo da poterli classificare. La mia segmentazione viene fatta attraverso tecniche di cluster analysis agglomerative (come abbiamo già visto). Le somiglianze e le dissomiglianze fra soggetti vengono identificate tramite una matrice D delle distanze (noi usiamo la distanza euclidea, ma ce ne sono anche tante altre). Possiamo usare il metodo del legame singolo, metodo del legame completo e il metodo del legame medio. METODO DEL LEGAME MEDIO D= matrice delle distanze RAI1 RAI2 RAI3 RETE4 CANALE5 ITALIA1 0 864 933 1439 1863 2047 RAI2 1215 1591 2525 1886 RAI3 0 990 2370 2491 0 2972 2062 0 3223 RAI1 RETE4 CANALE5 ITALIA1 0 {DM,J = (DsjNs + DljNl) / Nm } La distanza minima è tra RAI1 e RAI2 pari a 864. Andiamo quindi ad unire questi soggetti. Si crea una nuova matrice, ricalcolando le distanze tra il gruppo RAI1-RAI2 e le altre reti televisive, come MEDIA PONDERATA con la numerosità dei gruppi oggetto di fusione (in questo caso Ns=Nl=1), delle distanze presentate prima della fusione, singolarmente, da RAI1 e RAI2 rispetto alle altre {DRAI1-2,RAI3 = (933 X 1 + 1215 X 1) / 2 = 1074 }  faccio la media aritmetica RAI1 e RAI2 RAI1 e RAI2 RAI3 RETE4 CANALE5 ITALIA1 0 1074 1515 2194 1967 0 990 2370 2491 0 2972 2062 0 3223 RAI3 RETE4 CANALE5 ITALIA1 0 La distanza minima è ora tra il gruppo RAI3-RETE4 (990) RAI1-RAI2 RAI3-RETE4 RAI1-RAI2 RAI3-RETE4 CANALE5 ITALIA1 0 1295 2194 1967 0 2671 2276,5 CANALE5 0 3223 ITALIA1 0 La distanza minima è tra il gruppo RAI1-RAI2 e il gruppo RAI3-RETE4 DRAI1-2-3-RETE4, CANALE5 = (2194 x 2 + 2671 x 2) / 4 = 2433 RAI1-RAI2-RAI3-RETE4 RAI1-RAI2-RAI3-RETE4 CANALE5 ITALIA1 0 2433 2122 0 3223 CANALE5 ITALIA1 0 La distanza minima è tra il gruppo RAI1-RAI2-RAI3-RETE4 e ITALIA 1 D gruppo, CANALE5 = (2433 x 4 + 3223 x 1) / 5 = 2591 RAI1-RAI2-RAI3-RETE4-ITALIA1 RAI1-RAI2-RAI3-RETE4-ITALIA1 CANALE5 0 2591 CANALE5 0 Ed infine, unico gruppo composto da tutte le unità! [Passiamo da una situazione di “estrema differenza” e mano mano li ricomponiamo e li mettiamo tutti insieme  unico grande gruppo che li contiene tutti] Questo processo serve a cosa? Interessante lo studio attraverso un grafico  DENDOGRAMMA DENDROGRAMMA Rappresentazione grafica della sequenza delle fusioni che consente di comprendere il numero esatto di gruppi da formare. Asse orizzontale = unità coinvolte nel processo di fusione; Asse verticale = distanza a cui avviene la fusione dei vari gruppi. Tale costruzione è molto importante perché il grafico ci aiuta e sintetizzare il processo di agglomerazione  MA possiamo prendere in considerazione il grafico anche per stabilire quando stoppare il processo di aggregazione stesso (dove “tagliare il dendrogramma”). Come si fa a scegliere il numero di gruppi ottimali??? O andiamo a considerare il “salto” di distanza che avviene tra un’aggregazione e la successiva  quando tale salto diventa estremamente grande, stoppiamo  si ferma il processo di aggregazione. Rispetto ai dendrogrammi degli esercizi precedenti (in particolar modo quello del legame singolo e del legame completo)  Non abbiamo una vera e propria costituzione di gruppi, non abbiamo grandissime differenze. Vediamo la generazione di un gruppo iniziale a cui poi via via vengono aggregate nuove osservazioni. Quindi possiamo dire che NON abbiamo una vera e propria segmentazione. E’ una “segmentazione” che non esiste : generalmente sono sbagliate le variabili su cui si è focalizzata la cluster (non sono efficaci). Nel metodo del legame medio invece è più evidente una sorta di segmentazione, ma non abbiamo comunque una forte differenziazione. Quindi, SINTESI: scelta del numero di gruppi Dall’esame del dendrogramma si sceglierà il numero di gruppi che viene aggregato ad una distanza non molto elevata e che determina una configurazione “abbastanza piatta”. In tal senso, i gruppi saranno caratterizzati da una sufficiente omogeneità interna. Dall’analisi del dendrogramma, un criterio di scelta può consistere nell’arresto della procedura di fusione prima di uno dei “salti” che vengono generati da aggregazioni di gruppi molto distanti fra loro (e quindi disomogenei). Vediamo ora un esercizio su SPSS Prendo in considerazione solo le prime 10 regioni del mio dataset. Nel campo etichetta troviamo le variabili presenti. Sono riportate varie spese: spese abbigliamento, spese per abitazione, spese per istruzione ecc…; n. famiglie povere, % famiglie in difficoltà…ecc Nel mio studio io considero solo 3 variabili: Spesa_complessiva, Spesa Abbigliamento, Spesa Casa sostenute dalle Regioni espresse in migliaia di euro; riferite alle prime 10 regioni. Regione Spesa_Comp Abb Casa 1 Piemonte 137,00 542,00 16,00 2 Valle d’Aosta 113,00 517,00 24,00 3 Lombardia 154,00 674,00 24,00 4 Trentino-Alto Adige 148,00 551,00 26,00 5 Veneto 163,00 630,00 30,00 6 Friuli-Venezia Giulia 133,00 559,00 22,00 7 Liguria 118,00 534,00 18,00 8 Emilia-Romagna 148,00 647,00 26,00 9 Toscana 145,00 676,00 21,00 10 Umbria 148,00 534,00 32,00 Sulla base dei dati osservati ottengo la matrice di distanza Euclidea (MATRICE DI PROSSIMITA’)  utilizziamo il metodo del VICINO PIU’ VICINO (metodo del legame singolo) DISTANZA EUCLIDEA Caso 1 1 2 3 4 ,000 35,567 133,330 17,378 5 6 7 8 9 10 92,822 18,466 20,712 106,047 134,332 21,000 2 35,567 ,000 3 133,330 162,265 ,000 4 17,378 48,836 5 92,822 123,713 45,310 6 18,466 46,562 7 20,712 18,708 8 106,047 134,644 27,731 96,000 9 134,332 162,216 9,695 125,136 50,210 10 21,000 39,724 162,265 48,836 123,713 46,562 123,162 45,310 18,708 134,644 162,216 39,724 116,919 144,679 27,731 9,695 80,511 17,464 35,398 125,136 18,028 ,0000 77,492 106,701 23,022 50,210 116,919 17,464 77,492 ,000 29,428 89,359 117,618 30,822 144,679 35,398 106,701 29,428 ,000 117,188 144,575 33,106 23,022 117,188 ,0000 123,162 ,000 80,511 140,357 18,028 97,185 89,359 96,000 117,618 144,575 29,580 39,822 33,106 140,357 97,185 29,580 113,159 ,0000 142,457 113,159 142,457 ,000 Come si ottengono queste distanze? A partire dai dati nella Tabella precedente è possibile ottenerle. Ad esempio: distanza euclidea tra osservazione 2 (Valle d’Aosta) e osservazione 3 (Lombardia) è: d23 = √ (154-113)^2 + (674-517)^2 + (24-24)^2 = 162,265  se nella matrice tale valore fosse oscurato/cancellato, posso ritrovarlo attraverso questa formula Per fare le mie osservazioni io ho bisogno di TUTTI i valori nella matrice delle distanze. SUCCESSIVAMENTE: primo passaggio dell’aggregazione con metodo del vicino più prossimo (legame singolo)  considero solo o la triangolare superiore o quella inferiore Dopo un rapido sguardo, identifichiamo che le unità più simili sono 3-9. Caso 1 2 3-9 4 5 6 7 8 10 Distanza Euclidea 1 2 3-9 4 5 6 7 8 10 0,000 35,567 133,330 17,378 92,822 18,466 20,712 106,047 21,000 0,000 162,265 48,836 123,713 46,562 18,708 134,644 39,724 0,000 123,162 45,310 116,919 144,575 27,731 140,357 0,000 80,511 17,464 35,398 96,000 18,028 0,000 77,492 106,701 23,022 97,185 0,000 29,428 89,359 30,822 0,000 117,188 33,106 0,000 113,159 0,000 Quando fermare il processo di aggregazione dei clusters? Bisogna calcolare la distanza di fusione tra due processi successivi e fermarsi in corrispondenza del salto più grande. In questo caso il numero di clusters è 2. Vediamo graficamente a partire dal DENDROGRAMMA. Il mio salto è talmente grande che mi fa capire che quei due gruppi insieme NON devono stare! (ovvero devono rimanere distinti). E’ possibile leggere dal basso verso l’alto le aggregazioni delle unità. Abbiamo un insieme di aggregazioni a sinistra ed un insieme di aggregazioni a destra (2 clusters) che sono unite fra di loro da un salto molto molto grande. La barra mostra che i due gruppi devono quindi rimanere distinti (ed incontra due collegamenti, due clusters appunto). SLIDE 10 Primo passaggio dell’aggregazione con metodo del vicino più lontano (legame completo) Distanza euclidea Caso 1 2 3-9 4 5 6 1 2 3-9 4 5 6 7 8 10 0,000 35,567 133,330 17,378 92,822 18,466 20,712 106,047 21,000 0,000 162,265 48,836 123,713 46,562 18,708 134,644 39,724 0,000 125,136 50,210 117,618 144,679 29,580 142,457 0,000 80,511 17,464 35,398 96,000 18,028 0,000 77,492 106,701 23,022 97,185 0,000 29,428 89,359 30,822 7 8 0,000 117,188 33,106 0,000 113,159 10 0,000 Vediamo ora il DENDROGRAMMA: Anche in questo caso il numero di clusters è sempre pari a 2 anche con il legame completo SLIDE 12 Spesso è necessario utilizzare dei criteri che ci possano guidare nella scelta del numero dei clusters. Facciamo un passo indietro  parliamo di “partizione ben strutturata” PROPRIETA’ DEI METODI GERARCHICI -PARTIZIONE BEN STRUTTURATA MINIMALE Qual è il massimo grado di oggettività che si può conseguire nella formazione dei gruppi di unità partendo dalla matrice delle distanze ?? SLIDE 15 Si può parlare di classificazione oggettiva o naturale In questo caso, è evidente che i gruppi sono 3 : i dati così mappati rispondo alla definizione di cluster stesso ( le unità che si somigliano sono più vicine). Se dovessimo invece derivare un CRITERIO dobbiamo fare alcune considerazioni. Un criterio potrebbe essere stabilire che la massima distanza all’interno dei gruppi sia minore della minima distanza tra i gruppi. L’individuazione della partizione ben strutturata minimale si basa sulle distanze minime e massime tra i clusters. Definizione: consideriamo una partizione in g gruppi: P = {C1,C2,…,Cg} di n individui xi per i quali abbiamo calcolato una distanza dagli altri individui (sono i cluster presenti nel nostro dataset, la cui unione ci restituisce l’insieme delle nostre osservazioni. Sappiamo che i clusters sono fra loro mutualmente esclusivi) La partizione si dice ben strutturata se Max(dij) < min (drs) per ogni coppia xi e xj appartenenti allo stesso cluster per ogni coppia xr e xs appartenenti a cluster differenti Questo per evidenziare che i soggetti che appartengono ad un cluster sono più omogenei rispetto a quelli che invece appartengono a cluster differenti. Definizione: la partizione si dice ben strutturata e minimale se presenta sia le caratteristiche di una partizione ben strutturata e se ha un numero minimo di gruppi. Castagnoli (1978) ha dimostrato che per ogni matrice delle distanze esiste una e una sola partizione ben strutturata minimale. Come individuare la partizione ben strutturata utilizzando le tabelle del piano di agglomerazione delle unità? Il legame singolo, il legame medio e il legame completo a un certo punto del piano di agglomerazione individuano la partizione ben strutturata minimale. CARATTERISTICHE DEI GRUPPI INDIVIDUATI Metodo del legame singolo -soddisfa il criterio della partizione ben strutturata minimale: ad un certo punto del processo di agglomerazione, c’è l’identificazione del numero minimo di clusters presenti all’interno dei nostri dati ; -effetto a catena riunire in un gruppo unico unità anche distanti ; -forme dei gruppi naturali ( generalmente forme allungate) ; Potrebbe presentarsi anche il cosiddetto “effetto a catena”: due clusters che sembrano distanti ma sono uniti tramite una “catena” e quindi l’algoritmo li considera appartenenti ad un unico grande cluster Questo effetto può ingannare l’algoritmo (soggetti che andrebbero divisi vengono invece raggruppati in un unico cluster) SLIDE 17 Metodo del legame completo -soddisfa il criterio della partizione ben strutturata minimale ; -individua i gruppi compatti di forma sferica Una caratteristica di questi cluster è proprio avere una forma sferica. Il metodo che massimamente riesce a rispondere al criterio di partizione ben strutturato minimale è il METODO DI WARD E’ un algoritmo iterativo  si basa sulla scomposizione della devianza totale in devianza tra i gruppi e devianza entro i gruppi. Tale metodo si propone ad ogni step di massimizzare la devianza tra i gruppi, minimizzando la devianza entro i gruppi. Dà luogo quindi a gruppi omogenei al proprio interno, caratterizzati da una bassa variabilità (varianza).  cluster maggiormente rispondenti agli obiettivi della segmentazione Questo metodo è quello che maggiormente ci aiuta nell’individuazione di un numero di cluster ottimale e che in modo migliore risponde a criteri di ottimo. LEZIONE 15 02/12/2020 Per identificare una partizione ben strutturata minimale dovremmo studiare o il dendrogramma oppure una tabella del piano di agglomerazione. Tabella  più è composta da unità, più abbiamo un campione di unità piuttosto rilevante (stiamo osservando un collettivo di 1000+), diventa una tabella particolarmente lunga ed onerosa da guardare, quindi diventa difficile identificare in maniera oggettiva la partizione strutturata minimale. La classificazione che andiamo ad identificare con i legami è una classificazione che gode di alcune proprietà (abbiamo caratteristiche per il “legame singolo” e per il “legame completo”). Abbiamo invece definito come ottimale il METODO DI WARD, il quale è un algoritmo di classificazione che si basa sulla scomposizione della devianza. Tale metodo massimizza la devianza tra i gruppi (o minimizza la devianza nei gruppi). E’ un algoritmo alquanto oneroso dato che di volta in volta, avremmo dovuto cercare di minimizzare l’aumento di devianza entro i gruppi quando uniamo coppie di soggetti (mettere insieme soggetti che generano un minimo aumento di devianza quando vengono uniti insieme nello stesso gruppo). Se abbiamo costruito il dendrogramma e sappiamo che ad un certo punto esiste una partizione ben strutturata, come facciamo a trovare la partizione?  troviamo il salto della distanza di fusione NON esiste un criterio/indicatore che ci consente di calcolare in maniera oggettiva il numero di clusters/gruppi presenti nel nostro dataset ??? Tale indice esiste  R^2  aiuta a scegliere tra partizioni competitive che abbiamo costruito e che possono essere plausibili come classificazioni di un problema di segmentazione. Nel caso in cui abbiamo a che fare con un problema di segmentazione a posteriori, in cui sono plausibili sia delle soluzioni con un numero di clusters che non riusciamo ad identificare in maniera univoca guardando esclusivamente al dendrogramma, dobbiamo usare dei CRITERI DI VALUTAZIONE DELLE PARTIZIONI L’indice R^2 mi aiuta a stabilire se un modello lineare (la retta di regressione) si adatta ed è adeguata ad interpolare i dati che osservo in un particolare caso, in cui la Y viene spiegata da un predittore X. Tale indice può essere costruito in un contesto anche di classificazione, non solo di regressione SLIDE 2 La classificazione che abbiamo ottenuto spiega la variabilità complessiva dei nostri dati  questo criterio di classificazione ci permette di spiegare come mai i nostri dati nella variabile originale sono così differenti DEVIANZA TOTALE = DEVIANZA TRA GRUPPI + DEVIANZA ENTRO I GRUPPI Questi gruppi devono essere esaustivi e mutuamente esclusivi. Se queste due condizioni sono rispettate, la variabilità che osserviamo può essere descritta utilizzando questa regola di base. La devianza totale come la otteniamo? Somma dei quadrati delle differenze delle singole osservazioni – la media riferita ad una particolare variabile. Devianza entro i gruppi: Wh  devianza nel gruppo “h” g  numero di gruppi Si calcola la distanza dalle medie delle singole variabili considerate per gruppo, alla seconda. Facciamo la somma di tutte le devianze entro i gruppi Potremmo anche lavorare sulla devianza tra i gruppi: andiamo a confrontare le medie di gruppo con la media generale (il confronto viene fatto con ciascuna variabile). NB dobbiamo ponderare queste distanze con i pesi di ciascun gruppo (quanto sono numerosi). 0 < R^2 < 1 R^2 =1, spiega molto della variabilità complessiva dei nostri dati classificati in gruppi; R^2 =0, la classificazione che abbiamo prodotto non spiega granchè della variabilità dei nostri dati (la classificazione NON risponde, non è una buona classificazione)  la variabilità presente all’interno dei gruppi è estremamente grande, quindi i gruppi di per sé non sono molto distinti gli uni dagli altri. PROVIAMO A FARE UN ESERCIZIO Per capire come utilizzare al meglio tale indice. Consideriamo il dataset CS_Banca1.sav. Il dataset contiene le seguenti variabili misurate su scala di likert 1-10. Le VARIABILI sono: Tang Soddisfazione per le dimensioni tangibili (ovvero nel caso dell’istituto bancario arredi, personale, computer….); CapRass Capacità di rassicurazione Empatia Empatia Val_Tot Soddisfazione complessiva Effettuare un’analisi cluster con algoritmo di WARD e scegliere la partizione opportuna utilizzando come criterio di scelta R^2 Su SPPS, troviamo anche altre variabili nel dataset (età, genere, ecc…), ma noi vogliamo considerarne solo alcune. Facciamo una cluster, utilizzando come variabili le 4 che descrivono i comportamenti dei nostri soggetti (non inseriamo le variabili socio-demorafiche  le possiamo utilizzare a posteriori, per commentare il risultato  se i cluster ottenuti hanno una relazione con l’età, genere, ecc…) Costruiamo i cluster con il metodo di Ward, utilizzando la distanza euclidea. Troviamo un PIANO DI AGGLOMERAZIONE  tabella che evidenzia a ciascun passo i soggetti che si uniscono di volta in volta e a quale distanza di fusione (che via via cresce). Viene presentato anche il DENDROGRAMMA. Giriamo questo DENDROGRAMMA (è molto grande) C’è una situazione un po’ DIFFICILE da gestire. Il salto più alto si registra nell’ultimo passaggio. Però per essere più sicuri della nostra affermazione cerchiamo di utilizzare un indice. Non riusciamo cioè a trovare una “soluzione oggettiva”. Ipotizziamo che i nostri dati siano composti da due soli cluster : gli ultimi due che si uniscono (linea orizzontale). (Anche se, leggendo il dendrogramma dal basso verso l’alto, ci verrebbe spontaneo affermare che ci troviamo di fronte a 4 macrogruppi). Calcoliamo quindi R^2. Dobbiamo avere la partizione salvata in due gruppi (su SPSS posso salvare la soluzione in 2 cluster  mi salva una nuova variabile : CLU2_1. Quindi SPSS mi dice a quale variabile appartiene: la prima o la seconda. Facciamo confronta medie ed utilizziamo le variabili utilizzate come “variabili dipendenti”. Tra le “variabili indipendenti” inseriamo l’Analisi Ward  voglio vedere le medie e le varianze. SPSS mi da le varianze, io però devo trovare la DEVIANZA (moltiplico la varianza * N), la numerosità dei soggetti a nostra disposizione ! Devianza nel gruppo 1 : 348,00 Devianza nel gruppo 2 : 149,89 Devianza nei gruppi tot : 497,89 Devianza tot : 646,76 R^2 = 1 – 0,77 = 0,23 NB: classificazione composta di DUE soli gruppi! Questa stessa impostazione possiamo anche replicarla nel caso di impostazioni con più gruppi, per capire come varia il mio indice R^2 e per capire dove “tagliare” il dendrogramma. Costruiamo le nostre nuove variabili di classificazione e arriviamo fino a 5 gruppi. Su SPSS si creano le variabili CLU_3, CLU_4, CLU_5. Ovvero si costruisce una variabile a via a via maggiore. Varia la devianza tra i gruppi, perché quella totale rimane uguale. Con 3 gruppi R^2 = 1 – 0,607 = 0,393  la suddivisione in un numero di cluster più elevato, genera un beneficio sulla bontà della partizione Fa sì che R^2 cresca. Con 4 gruppi R^2 = 1 – 0,502 = 0,498  c’è ancora un aumento Con 5 gruppi R^2 = 1 – 0,437 = 0,563  salto ancora in positivo R^2 è sensibile all’articolazione in più gruppi. Se confrontiamo partizione alternative, confrontando esclusivamente R^2, notiamo che all’aumentare del numero di gruppi, aumenta anche R^2. Se abbiamo quindi una partizione particolarmente numerosa di gruppi, cosa significa? Vuol dire che ho suddiviso i soggetti in gruppi generalmente piccoli, che al loro interno sono particolarmente omogenei Un indice che al numeratore ha un indicatore di omogeneità all’interno dei gruppi, risente del fatto che quando suddividiamo i soggetti in più cluster, questa variabile diminuisce. Suddividere ed aumentare il numero di cluster componenti la partizione, genera un comportamento “atteso”  il fatto che le singole Wh tendano ad essere più piccole. Avremo gruppi molto più omogenei al loro interno (la variabilità sarà molto bassa). La quota di variabilità dovuta alla varianza all’interno dei gruppi diventa sempre più esigua  la variabilità viene spiegata dalla differenziazione dei gruppi fra di loro. Come possiamo fare per individuare la partizione migliore?? Piuttosto che guardare R^2 in sé, dovremmo guardare il SALTO: passaggio tra una classificazione a 5 rispetto ad una classificazione a 4, quant’è il salto di R^2 che vado a perdere. Quando questo salto è estremamente grande, dovrei fermarmi! {L’indice R^2 varia tra 0-1 pertanto permette di confrontare partizioni con numero di gruppi alternativi, oppure ottenute con algoritmi differenti. Se è prossimo a 1 la corrispondente classificazione può essere ritenuta omogenea, in quanto le unità che appartengono ad un medesimo gruppo sono moto simili tra loro (Wh=0) ed i gruppi sono ben separati. L’indice R^2 misura la quota di variabilità totale nella matrice dei dati (considerando tutte le variabili) che può essere spiegata dalla partizione. All’aumentare dei numero di gruppi R^2 assume valori non decrescenti. La ricerca del numero ottimo di gruppi porterebbe ad una partizione banale formata da n gruppi di 1 soggetto} Oggi potremmo anche guardare ad una “misura alternativa”  Root Mean Square Standard Deviation SLIDE 7 Il nome viene abbreviato con RMSSD: osserva solo una delle devianze che abbiamo indicato (è molto più veloce da calcolare!)  devianza nei gruppi. Consideriamo il numero delle variabili presenti nel nostro dataset (“p”), mentre con “nh” il numero dei gruppi che compongono la partizione quando stoppiamo il nostro classificatore al passo h. Partiamo dall’analisi di 2 clusters (sempre partendo dai dati della tabella precedente), continuiamo con 3….fino ad arrivare a 5. All’aumentare del numero dei gruppi, il nostro criterio diminuisce. Anche in questo caso andiamo a studiare il SALTO dell’indicatore x es studiamo il salto tra 4 gruppi e 5 : 5,200 / 4,202 = 1,237  ho un aumento di variabilità W è di circa il 30% Se passo da 4 gruppi a 3, ho un salto della variabilità del 34,8%. Passando da 3 a 2, ho un salto della variabilità interna del 59,2%  in questo caso ho un salto troppo grande, quindi decido di fermarmi. Quindi questo indicatore RMSSD, non va letto direttamente, ma andiamo a studiare il salto che presenta l’indicatore nel passaggio tra una classificazione con più gruppi ad una classificazione meno numerosa. L’RMSSD viene utilizzato maggiormente per la sua velocità di calcolo. ULTIMO ARGOMENTO DEL CORSO: 09/12 SEGMENTAZIONE A PRIORI I due modelli a cui si fa maggiormente riferimento sono la regressione logistica e gli alberi decisionali. Ci concentreremo soltanto sugli alberi decisionali  procedura particolarmente utilizzata in azienda per dei motivi: Grande flessibilità di tali algoritmi (a differenza rispetto alla regressione lineare o per la regressione logistica per esempio)  è un algoritmo iterativo (“top down”  partiamo dalla totalità del campione e cerchiamo di dividerlo in sottoinsiemi) Studieremo una procedura di segmentazione che agisce in modo da suddividere il nostro campione che è studiato nella sua totalità inizialmente. La regola che otteniamo per effettuare tale suddivisione è la regola che applichiamo anche alle future osservazioni che non abbiamo direttamente analizzato nel nostro modello  sono tipicamente utilizzati per problemi di CLASSIFICAZIONE e PREVISIONE Noi li studiamo nell’ambito della segmentazione, ma possono essere utilizzati anche nel campo della regressione! Gli alberi decisionali sono prodotti da procedure di segmentazione. Quello rappresentato è prodotto da una segmentazione binaria SLIDE 1 La segmentazione binaria Obiettivo: Classificare un collettivo di n oggetti in classi omogenee al loro interno e differenziate fra loro, mediante una successione di partizioni dicotomiche (partizione recursiva) “Partizioni dicotomiche”  ad ogni passo l’algoritmo suddivide il sottoinsieme in due sottogruppi Ci possono anche essere algoritmi ed alberi decisionali che hanno più rami (ovvero non necessariamente sono BINARI) La struttura dei dati: Una matrice (n, p+1): individui; Oltre alle “p” variabili esplicative {XJ = 1,…..,p categoriche o categorizzate}, ho una variabile dipendente Y (“variabile target”) che ci racconta a quali classi vengono assegnati i soggetti che osserviamo. La classe a cui facciamo riferimento potrebbe essere di tipo NOMINALE (caso in cui abbiamo una classificazione in categorie alternative), ORDINALE (se c’è una graduazione in queste classi), QUANTITATIVA (se utilizziamo score / punteggi). Noi faremo più che altro uno studio su variabili di tipo nominale. Obiettivo interpretativo: spiegare come attraverso le variabili esplicative, poter prevedere la variabile Y  l’algoritmo decisionale basato sugli alberi produce tale regola previsionale Obiettivo strategico/decisionale: sfruttare la regola di classificazione per classificare nuovi casi Questa metodologia è molto importante perché, nell’ottica manageriale  futura previsione (sulla base di ciò che ho osservato sui dati che sono a mia disposizione, genero una regola che mi permette di classificare anche soggetti che non ho direttamente osservato ma che posso ricondurre a soggetti che ho già studiato) Un esempio Obiettivo: Classificare 8 clienti di un istituto di credito in clienti ad alto/basso rischio, sulla base delle variabili esplicative: risparmio patrimonio reddito annuo (un soggetto è “rischioso” o no per la banca?? X es un prestito) La struttura dei dati: Cliente Risparmio Patrimonio Reddito annuo (in euro) Rischio di credito A Medio Alto 75000 Basso B Basso Basso 50000 Alto C Alto Medio 25000 Alto D Medio Medio 50000 Basso E Basso Medio 100000 Basso F Alto Alto 25000 Basso G Basso Basso 25000 Alto H Medio Medio 75000 Basso Il rischio del credito è legato ad alcune variabili finanziarie/economiche. Dobbiamo però stabilire una regola per determinare quali soggetti ricadono nella classe di rischiosità alta oppure in quella bassa! Abbiamo quindi due obiettivi: Obiettivo interpretativo: spiegare la rischiosità sulla base delle caratteristiche note dei clienti Obiettivo strategico: sfruttare la regola di classificazione per decidere nuovi finanziamenti  fare riferimento a chi non è stato direttamente osservato Nell’esempio, si ha : Y variabile NOMINALE con J modalità (in questo caso, J=2) Ovvero le modalità a cui facciamo riferimento sono due: BASSO / ALTO X1, X2,…,Xp sono le VARIABILI ESPLICATIVE (in questo caso p=3 : risparmio, patrimonio, reddito annuo). Ciascun soggetto generico i è descritto dai valori assunti rispetto alle 3 variabili considerate Xi = [xi1, xi2, xi3] Definiamo con d(x) una regola che associa ad ogni soggetto considerato un numero interno tra 1,…,J d(x): x  j Indichiamo con Aj (j=1,…,J) gli elementi di una partizione. DEFINIZIONE: Una regola di classificazione è una partizione dello spazio degli attributi in J sottoinsiemi A1, A2,…,AJ tale che per ogni soggetto appartenente alla classe j-esima, la classe prevista dalla regola sia effettivamente j, cioè : Aj = {x: d(x) = j} La regola di classificazione deve assegnare il soggetto appartenente alla classe j-esima alla classe giusta  dev’essere ricondotto alla sua classe di appartenenza Vocabolario (vedere schema alberi decisionali) In alto c’è la RADICE ( R ) : parte iniziale costituente dell’albero. L’albero è costituito da un insieme finito di elementi, i NODI. Ogni nodo è un gruppo di unità a diversi stadi del processo di classificazione. Il nodo radice è un nodo disomogeneo al suo interno rispetto alla variabile obiettivo perché racchiude tutti gli individui considerati. L’insieme dei nodi (ad eccezione della radice) può essere suddiviso in insiemi distinti: i sottoalberi del nodo R. Un nodo viene chiamato: - genitore rispetto ai nodi che esso genera; - figlio rispetto al nodo da cui discende {NB: un nodo radice è un nodo genitore} I valori di soglia di una variabile che dividono le unità di un determinato nodo sono chiamati SPLIT. I rami sono le condizioni che hanno determinato la suddivisione (sono i “segmenti”). L’insieme di tutti i nodi terminali di un albero viene indicato con il simbolo T~ (“tree”). Le foglie sono i nodi terminali per i quali non si ritiene utile una ulteriore suddivisione  determinano lo stop dell’algoritmo Riprendiamo i dati che abbiamo osservato inizialmente NODO INIZIALE: classificazione di 8 clienti in modo da minimizzare la probabilità di errore, cioè la probabilità di classificare come basso un cliente di elevata rischiosità Rischio di credito (Y) Frequenza Basso 5 Alto 3 TOT 8 Non avendo informazioni ulteriori, la probabilità di errore (stimata) è pari a : 3/8 = 37,5 % A questo punto, potrei decidere di utilizzare le informazioni che derivano dal “patrimonio”, come PREDITTORE. Ovvero deciderei di suddividere il nodo iniziale rispetto alla variabile patrimonio  riduzione della probabilità di errore conoscendo il patrimonio! Stabilisco le modalità del patrimonio come: BASSO / MEDIO o ALTO Rischio di credito Patrimonio Basso Alto Tot Basso 0 2 2 Medio/alto 5 1 6 Tot 5 3 8 Se il patrimonio è basso, la previsione è RISCHIO = ALTO (0 errori) Se il patrimonio è medio/alto, la previsione è RISCHIO = BASSO (1 errore) Utilizzando le informazioni proveniente dal patrimonio, il rischio si riduce di 1/8 = 12,8 % Comunque, su tutte le informazioni che ho a disposizione (su 8 soggetti), commetto un errore (su un soggetto!) Se volessi mettere appunto una GERARCHIA DI PARTIZIONI, che massimizzi la mia capacità previsiva. Ad ogni passo lo split massimizza la capacità previsiva (minimizza l’eterogeneità). Parto dal nodo radice (soggetti che sto osservando) e sulla base del patrimonio, vado a fare una classificazione. Ogni nodo è attribuito alla classe di Y con frequenza massima (REGOLA DELLA MAGGIORANZA). Utilizzando gli alberi decisionali non faccio altro che immettere i predittori all’interno dell’albero  di volta in volta, cerchiamo lo SPLIT che riesce a massimizzare la capacità previsiva ( suddividere il collettivo in partizioni di soggetti che presentano una maggiore omogeneità rispetto alla variabile target) Faccio questo perché voglio creare gruppi (sottoinsiemi finali) omogenei dal punto di vista della variabile Y. Di volta in volta, l’algoritmo sceglie quale variabile considerare che assicura lo split migliore per poter identificare la previsione per massimizzare la capacità previsiva. L’albero ad ogni step suddivide i nodi trovati in sottoinsiemi. La procedura si ferma quando non trova più suddivisioni ulteriori da operare (si BLOCCA). L’albero è cresciuto fino alla sua massima profondità: le foglie sono perfettamente omogenee per quel che riguarda la Y. A volte si generano alberi molto complessi  tale complessità rende più difficile l’interpretazione della regola trovata! E’ necessario quindi applicare una “potatura” dell’albero, ovvero si cerca di semplificarlo. SLIDE 7 Proviamo ad interpretare TALE REGOLA, utilizzando l’albero a nostra disposizione (costruito con SPSSS  ha sfruttato solo due variabili a nostra disposizione: patrimonio / risparmio). Il rettangolo iniziale contiene tutti i dati a nostra disposizione  NODO RADICE: presenta la categoria basso/alto (descrive il merito di credito) Abbiamo 3 soggetti a cui corrisponde rischio alto / 5 soggetti a cui corrisponde rischio basso. Utilizzando due variabili a nostra disposizione, è possibile migliorare la nostra previsione. L’albero sceglie quale delle 2 utilizzare e in che modo (SPLIT OTTIMALE). 1 SPLIT  andiamo ad utilizzare la variabile patrimonio: “basso” / “medio-alto” Nodo 1 : composto da due soggetti, in cui tutti e 2 i soggetti presenti hanno un rischio di credito elevato  diventa un “nodo foglia”; Nodo 2 : composto da 6 osservazioni, è un nodo genitore Nodo 3 : coloro che hanno un risparmio medio ( < medio), ci sono 4 osservazioni 100% dei soggetti che appartengono a questo nodo, hanno rischio di credito basso Nodo 4 : coloro che hanno un risparmio maggiore del medio  è un nodo genitore Nodo 5 : patrimonio < o uguale al medio, 1 solo soggetto classificato (alto rischio) Nodo 6 : patrimonio superiore al medio , 1 solo soggetto classificato (basso rischio) La partizione dei clienti si trovano suddivisi in 4 foglie (4 gruppi). Y=1, coloro che presentano un basso rischio di credito: Nodo3 e Nodo6 Y=2, coloro che presentano un alto rischio di credito: Nodo1 e Nodo5 Tale regola può essere applicata per prevedere il rischio di altri clienti non ancora classificati A1 = {x: d(x) = 1} = {x = [patrimonio > basso, risparmio ≤ medio] e x = [patrimonio > medio, risparmio > medio]} A2 = {x: d(x) = 2} = {x = [patrimonio ≤ basso, risparmio qualunque] e x = [patrimonio ≤ medio, risparmio > medio]} Risparmio Basso Basso Patrimonio Medio Alto Nodo 1 Medio Nodo 5 Nodo 3 Alto Nodo 6 La classificazione ottenuta mette in evidenza l’importanza di usare più informazioni: patrimonio medio  basso rischio se risparmio <= medio (NODO3) patrimonio medio  alto rischio se risparmio > medio (NODO5) Le fasi di una segmentazione binaria Fase 1. Un insieme di domande binarie: stabilire, per ciascun nodo, l’insieme delle divisioni ammissibili Fase 2. Un criterio di split: definire un criterio per selezionare la migliore divisione di un nodo Fase 3. Una regola di arresto: definire una regola per dichiarare un nodo come terminale o intermedio Fase 4. Una regola di assegnazione: ad ogni nodo terminale viene assegnata una delle J classi della variabile risposta nominale o un valore della variabile di risposta continua Fase 5. Costruzione della regola per la classificazione Fase 6. La valutazione della qualità della regola di decisione: stimare il rischio di errore di classificazione o di previsione associato Quanto più è buona la regola di decisone  tanto più è possibile utilizzarla in un ottica di previsione Fase 1: un insieme di domande binarie Si tratta per ciascun nodo di stabilire l’insieme delle divisioni ammissibili Natura del predittore Numero di modalità Numero di split Variabile quantitativa N N–1 Variabile binaria 2 1 Variabile ordinale m m-1 Variabile nominale m 2^m-1 -1 {NB: in un albero potrebbero esserci informazioni “misto”: di tipo nominale, ordinale, quantitativo  variabili di diversa natura} Es. di variabile nominale (m modalità; 2^m-1 -1 split) Proviamo a considerare i “colori della confezione” (packaging di un prodotto) possono essere  rosso, blu, verde 3 modalità, 3 split -rosso vs blu, verde -rosso, blu vs verde -rosso, verde vs blu Es. di variabile ordinale (m modalità; (m-1) split) “titolo di studio”: laurea, diploma, licenza media inferiore, licenza elementare, senza titolo m = 5 split = 4 -laurea vs. diploma, licenza media inferiore, licenza elementare, senza titolo -laurea, diploma vs. licenza media inferiore, licenza elementare, senza titolo -laurea, diploma, licenza media inferiore vs. licenza elementare, senza titolo -laurea, diploma, licenza media inferiore, licenza elementare vs. senza titolo Fase 2 : un criterio di split Le tecniche di segmentazione si differenziano per il criterio di split adottato. Un criterio di split è un indice statistico che consente di selezionare la partizione migliore fra tutte le possibili di ogni variabile esplicativa. Fra tutte le variabili esplicative viene selezionata la migliore in relazione al criterio di eterogeneità prescelto. L’insieme iniziale deve essere suddiviso in gruppi il più possibile omogenei al loro interno ed il più possibile eterogenei fra loro. (es precedente  lo split viene fatto a seconda della variabile patrimonio  soglia che consentiva la migliore partizione fra tutte le possibili che erano a nostra disposizione) Fase 3 : una regola di arresto La ripartizione ricorsiva di un insieme di unità statistiche si arresta quando i nodi terminali contengono solo individui appartenenti alla stessa classe della variabile dipendente, o una % predefinita.  algoritmo TOP-DOWN: parte da un gruppo composto da tutti i soggetti e li suddivide Scelta della regola: -Fra due regole di arresto si sceglie quella che fornisce l’albero di taglia minore (proprietà della semplicità – Rasio di Ockham) -Fra due regole di arresto si sceglie quella che consente di distinguere nel modo più efficace possibile unità statistiche appartenenti a classi differenti (potere discriminatorio) “A parità di fattori, la spiegazione più semplice tende ad essere quella esatta” (William of Ockham) Potremmo prediligere la semplicità / potere discriminatorio più efficace ed elevato (senza preoccuparmi della complessità dell’interpretazione) Fase 4 : una regola di assegnazione - Se la foglia comprende casi appartenenti ad una sola classe, la classe assegnata al nodo è quella corrispondente alle unità che ne fanno parte (REGOLA DELL’UNANIMITA’) x es: tutti i soggetti che appartengono al Nodo1, appartengono alla medesima classe di rischio La classe che assegniamo a quel nodo è una classe che corrisponde effettivamente alla classe presentata da tutte le unità presenti nel nodo. - Se la foglia comprende unità di classi diverse ed una delle classi ha frequenza più alta, la classe assegnata al nodo è quella corrispondente alla frequenza più alta (REGOLA DELLA MAGGIORANZA) x es: un nodo poteva presentare una percentuale di soggetti con rischio di credito alto ed una percentuale con rischio di credito basso, che caratterizzazione diamo al nodo ??? (tutti i nodi devono essere battezzati rispetto ad un’unica univoca classe della variabile dipendente)  andiamo a vedere quale modalità prevale - Se la foglia comprende unità di classi diverse con la stessa frequenza, si ha una situazione di indecisione che viene risolta, in genere assegnando casualmente la classe al nodo  casi in cui le regole di classificazione sono estremamente complesse Fase 5 : costruzione della regola Generazione dell’albero sulla base delle variabili monitorate. Fase 6 : valutazione della qualità La misura utilizzata per valutare la bontà del classificatore è il TASSO DI ERRATA CLASSIFICAZIONE associato alla regola d indicato con il simbolo R(d). SLIDE 15  È una media : andiamo a valutare quanti sono gli errori nei nostri errori  Otteniamo così il tasso di errata classificazione Cj(i) : classe di effettiva appartenenza della i-esima unità statistica d(xi) : classe assegnata alla stessa unità statistica della regola d I : una funzione indicatrice che assume valore 1 se l’affermazione all’interno delle parentesi è vera e valore 0 nel caso contrario Possiamo costruire una serie di indicatori di performance, che ci permettono di costruire la “matrice di confusione” : è una tabella a doppia entrata, in cu abbiamo sulle righe la “classificazione vera” (classificazione della variabile Y che abbiamo osservato), mentre in colonna abbiamo quella che prevediamo utilizzando la regola che deriviamo attraverso l’albero di classificazione). Ci aiuta a capire se la nostra regola di classificazione è efficace oppure no. Classe prevista dal modello (Y*) Classe vera (Y) 0 1 Totale 0 Veri Negativi Falsi positivi N 1 Falsi Negativi Veri Positivi P Totale N* P* I dati “classificati bene” saranno: veri negativi (basso rischio) / veri positivi (alto rischio)  sono quelli che speriamo di ritrovare, perché vorrebbe dire che la mia regola mi aiuta a fare una previsione il più esatta possibile ! Ci sono poi i falsi positivi (rischio basso, ma che abbiamo classificato come rischiosi) / falsi negativi (sono i più pericolosi  abbiamo classificato come clienti poco rischiosi, ma che in realtà lo sono) : cercare di minimizzare il più possibile i falsi negativi! Lezione 17 14/12/2020 A partire dalla matrice di confusione è possibile calcolare alcune metriche di performance:  TASSO DI VERI POSITIVI (o Recall) VP rate = VP / P (quanto è buono il classificatore nel rilevare i positivi. Un elevato valore del date considerato da solo può ingannare: il classificatore potrebbe massimizzare il recall restituendo sempre “positivo”  TASSO DI FALSI POSITIVI FP rate = FP / N  PRECISIONE del classificatore PRECISION = VP / VP + FP (quanti dei classificati positivamente sono effettivamente positivi)  Accuratezza Accuracy = VP + VN / P + N (quanto il classificatore riesce a classificare correttamente tutte le unità considerate) Più i veri positivi e veri negativi sono elevati, maggiore sarà l’accuratezza del classificatore!  Sensitività = Recall  Specificità Specificity = 1 – FP rate = VN / FP + VN (quanto è buono il classificatore nell’evitare falsi allarmi; un elevato valore del rate considerato da solo può ingannare: il classificatore potrebbe massimizzare la specificity restituendo sempre “negativo”)  Tasso di errata classificazione = 1 – Accuratezza (quanto più siamo accurati, quanto meno facciamo errori!) Proviamo a costruire un albero di classificazione con SPSS Consideriamo i dati della lezione, costruiamo un albero di classificazione Cliente Risparmio Patrimonio Reddito Annuo Rischio A Medio Alto 75000 Basso B Basso Basso 50000 Alto C Alto Medio 25000 Alto D Medio Medio 50000 Basso E Basso Medio 100000 Basso F Alto Alto 25000 Basso G Basso Basso 25000 Alto H Medio Medio 75000 Basso Variabile di rischio  variabile dipendente Abbiamo a disposizione le categorie ALTO/BASSO Focalizziamoci sulla categoria rischio di credito elevato (ovvero quella che mi interessa maggiormente). Scegliamo patrimonio e risparmio come variabile indipendente. Utilizziamo il “metodo di crescita : CRT “ ALBERO SLIDE 3 Matrice di classificazione PREVISTO OSSERVATO Basso Alto Percentuale di correttezza Basso 5 0 100,00 % Alto 0 3 100,00 % Percentuale globale 62,5 % 37,5 % 100,00 % VP = 3/3 = 100,00 % Specificity = 5/5 = 100,00 % Accuracy = (5+3) / 8 = 100,00 % Precision = 3 / (3+0) = 100,00 % In questo albero abbiamo una classificazione praticamente perfetta!  il numero dei soggetti a basso rischio, sono riconosciuti come a basso rischio  coloro che presentavano un elevato rischio di credito, sono stati classificati con elevato rischio SE provassimo a cambiare la classificazione su SPSS  proviamo ad inserire il reddito annuo al posto del patrimonio come variabile indipendente SLIDE 4 L’albero che viene prodotto è diverso dal primo  anche la classificazione è differente PREVISTO OSSERVATO Basso Alto Percentuale di correttezza Basso 5 0 100,0 % Alto 1 2 66,7 % Percentuale globale 75,0 % 25,0 % 87,5 % VP = 2/3 = 66,7 % Specificity = 5 / (5+0) = 100 % Accuracy = (2+5) / 8 = 87,5 % Precision = 2 / (2+0) = 100 % In questo caso quindi non esiste più un errore di classificazione pari a 0, presenta 1 problema per quanto riguarda i “veri positivi” Rimane comunque una classificazione molto buona! Insieme all’albero di classificazione, SPSS fornisce una tabella “GUADAGNI PER NODI” Nodo Guadagno Nodo N Percentuale N Percentuale Risposta Indice 3 2 25,0 % 2 66,7 % 100,0 % 266,7 % 5 2 25,0 % 1 33,3 % 50,0 % 133,3 % 2 3 37,5 % 0 0,0 % 0,0 % 0,0 % 6 1 12,5 % 0 0,0 % 0,0 % 0,0 % Come mai SPSS non li ordina in ordine di formazione? Li ordiniamo in corrispondenza del fatto che le foglie sono state classificate sulla base della variabile indipendente. Della variabile dipendente abbiamo affermato precedentemente che siamo interessati alla categoria “alto rischio”. Il nodo più importante è il nodo 3 : formato da 2 soggetti, entrambi con rischiosità elevata ! Rappresentano il 66,7 % di coloro che appartengono alla categoria rischiosità elevata. I nodi 2 e 6 non sono interessanti : non rientrano nella categoria rischiosità elevata. Il nodo 5 invece è un po’ controverso : presenta 2 soggetti, di cui 1 classificato come rischiosità elevata, l’altro con rischiosità bassa. La tabella rispecchia quindi (anche a partire dall’ordine in cui i nodi sono presentati) questi concetti. La costruzione dell’albero : vediamo le varie fasi 1) Identificazione del tipo di variabile dipendente (variabile target che guida la nostra classificazione) 2) Scelta del tipo di segmentazione (tipo di albero che voglio costruire) 3) Scelta del tipo di predittori (regressori della regola decisionale) 4) Criterio di segmentazione (che va massimizzato/minimizzato) 5) Scelte di analisi (legate ai diversi metodi) 6) Criteri di arresto  o si ferma automaticamente perché non ci sono più soggetti da classificare/dividere  o si ferma perché abbiamo raggiunto un criterio che abbiamo indicato inizialmente Pruning : quando l’albero dovrebbe particolarmente complesso, spesso lo si fa crescere (7/8 livelli) e successivamente si fa il pruning, ovvero si procede alla potatura dell’albero I principali algoritmi di segmentazione ad albero Metodi / Algoritmo Segmentazione Variabile (TARGET Y) Predittori (VARIABILI X) AID Binaria Quantitativa Qualitativi CHAID Multipla Qualitativa Qualitativi CART Binaria Qualitativa e quantitativa Qualitativi e quantitativi C4.5 Binaria Qualitativa e quantitativa Qualitativi e quantitativi Noi solitamente utilizziamo il metodo CART: sono segmentazioni binarie  ad ogni split, l’albero procede dividendo ciascun nodo in due soli nodi figli (non sono possibili split con un numero di rami maggiori di due). La variabile target può essere sia una variabile categoria, che numerica. Ovvero posso costruire sia “alberi di classificazione” e “alberi di regressione”. Il CHAID è invece un tipo di segmentazione multipla: lo split genera anche più di due nodi figli. La variabile target è solo qualitativa, non possiamo avere variabili quantitative ! Proviamo a vedere le differenze fra i due algoritmi di segmentazione Partiamo con l’algoritmo di tipo CHAID : introdotto agli inizi degli anni ’80, si basa essenzialmente sul “chi quadrato”. Abbiamo una variabile dipendente (Y) che è qualitativa e variabili esplicative (X1,….,XP) qualitative. Possiamo ottenere una classificazione/segmentazione multipla, ovvero gli split non devono essere necessariamente binari, ma possono anche essere più di due. Qual è il CRITERIO che guida questa tipologia di classificazione? Il criterio di suddivisione dei nodi è basato su un test “chi quadrato” per la verifica dell’ipotesi di indipendenza statistica tra la variabile dipendente e la variabile esplicativa. Si calcola in corrispondenza di tutti i regressori e si sceglie per lo split la variabile che presenta p-value più basso. Ovvero: se abbiamo più regressori, l’albero valuta e costruisce per ciascun regressore (considerato singolarmente) insieme alla variaible dipendente la tabella a doppia entrata; partendo da tale tabella si calcola il chi quadrato e si va a valutare il p-value relativo al chi quadrato. REGOLA DI STOP per la costruzione dell’albero, diventa o il numero massimo di livelli (dimensione massima dell’albero) oppure il numero minimi di elementi in un nodo. Proviamo a vedere su SPSS tale split Partendo dai dati iniziali. Abbiamo la variabile rischio che è la variabile target. Possiamo considerare SOLO variabili di tipo categorico (non considero e non inserisco “reddito annuo” nell’algoritmo). Abbiamo a disposizione due variabili: patrimonio e risparmio. L’algoritmo calcola diverse tabelle di contingenza e predilige quella che genera il p-value corrispondente al chi quadrato più basso. Consideriamo il patrimonio  possiamo avere una segmentazione a 3 rami / a 2 rami Rischio Patrimonio Basso Alto Totale Basso 0 2 2 Medio 3 1 4 Alto 2 0 2 5 3 8 Totale χ 2 = 4,80 , gdl = 2 , p-value = 0,091 Categorie patrimonio: basso + medio vs alto Rischio Patrimonio_v2 Basso Alto Totale <= Medio 3 3 6 >Medio 2 0 2 5 3 8 Totale χ 2 = 1,6 , gdl = 1 , p-value = 0,206 Categorie patrimonio: basso vs medio + alto Rischio Patrimonio_v1 Totale Basso Alto Totale Basso 0 2 2 >Basso 5 1 6 5 3 8 χ 2 = 4,44 , gdl = 1 , p-value = 0,07 Quest ultima è la SEGMENTAZIONE VINCENTE Ricapitolando: COS’E’ IL P-VALUE ? Probabilità associata ad una determinata statistica test. Solitamente si considera come valore soglia il valore 0,05 : se la probabilità associata al test è inferiore  la probabilità troppo bassa  rifiutiamo il test di ipotesi. In questo caso SPSS fornisce tale valore automaticamente, che nel caso specifico è 0,07 per l’ultima tipologia di classificazione. SLIDE 9 Vediamo l’albero con SPSS Inserisco come “metodo di crescita” il CHAID. Inserisco come variabile indipendente, il patrimonio. Mettiamo come limite di crescita 0,1 (solitamente sono settati a 0,05 ma alziamo la soglia perché abbiamo numerosità scarsa). Matrice di classificazione Previsto Osservato Basso Alto % di correttezza Basso 5 0 100,00 % Alto 1 2 66,7 % % globale 75,0 % 25,0 % 87,5 % FP = 0/5 = 0 % Sensitivity = 2/3 = 66,7 % Specificity = 5/5 = 100% Tasso errata classificazione = 1 – (5+2) / 8 = 12,5 % SLIDE 10 (albero) L’albero che otteniamo è estremamente semplice. Avremmo potuto ottenere più di due rami per nodo, però otteniamo uno split binario. Se inserissimo una variabile di tipo numerico? Andando ne criteri, troviamo un ulteriore scheda nel menù, in cui mi viene chiesto in quante categorie articolare la variabile numerica  viene fatto un calcolo rispetto alla creazione delle categorie. METODO CART (“Classification and Regression Tree”) -Variabile dipendente Y  qualitativa / quantitativa -Variabili esplicative X1,….,XP  qualitativa / quantitativa La segmentazione è binaria Il CRITERIO di suddivisione dei nodi è basto sulla massima riduzione dell’impurità. Per gli alberi di classificazione (Y qualitativa)  L’impurità si misura attraverso l’indice di eterogeneità di GINI Per gli alberi di regressione (Y quantitativa)  L’impurità si misura attraverso la varianza Indice di eterogeneità di GINI L’indice di Gini I è una misura della eterogeneità di una distribuzione statistica a parte dai valori delle frequenze relative associate alle k modalità di una generica variabile X. Es: X (risparmio) osservato su 8 clienti k = 3 modalità RISPARMIO Valido Frequenza Percentuale Percentuale valida Percentuale cumulativa Basso 3 37,5 37,5 37,5 Medio 3 37,5 37,5 75,0 Alto 2 25,0 25,0 100,0 Totale 8 100,0 100,0 I = 1 - ∑ fi^2 0 : perfetta omogeneità (tutte le unità presentano una sola modalità) (k-1)/k : massima eterogeneità (tutte le unità sono equamente distribuite tra modalità) In questo caso: I = 1 – (0,141 + 0,141 + 0,0625) = 0,656 Vediamo ora l’indice applicato al caso del nostro “albero” attraverso il metodo CART Considerano il dataset iniziale, identifichiamo la variabile rischio e 3 potenziali regressori: risparmio / patrimonio / reddito annuo. Il CART punta a massimizzare la riduzione dell’impurità all’interno dei nodi che si costituiscono. L’impurità viene misurata attraverso l’indice di Gini  partiamo calcolando l’eterogeneità (impurità del nodo radice). Nel caso specifico, l’indice di impurità quanto vale? Andiamo a calcolarla rispetto alla variabile target. SLIDE 13 Il nodo radice presenta un’eterogeneità pari a 0,469 (abbiamo ottenuto questo valore applicando la distribuzione rischio di credito)  la distribuzione nel nodo 0 (“nodo radice”) presenta 62% di soggetti che hanno valore di rischio basso / 37,5 % dei soggetti che presentano rischio alto Questo genera una distribuzione abbastanza eterogenea  l’indice vale 0,469 L’algoritmo cosa fa in automatico? Prova ad utilizzare come prima variabile, una di quelle che noi mettiamo a disposizione come variabile esplicativa, x es “patrimonio”. Cosa succede se uso la variabile patrimonio in termini di split? Si genera lo split che individua il miglior livello di impurità possibile sulla base dei dati che abbiamo a disposizione. Si generano 2 nodi: - nodo 1 (vado a classificare il nodo rispetto alla variabile che voglio prevedere, ovvero la variabile Y), entrambi i soggetti presentano 1 modalità; I = 0; - nodo 2 (vado a valutare i soggetti che hanno un patrimonio maggiore del livello basso, è composto da 6 soggetti diversamente distribuiti : 5 sogg con rischio di credito basso e 1 con rischio di credito alto); I = 0,278 ; Se voglio calcolare il miglioramento che ottengo passando dal nodo radice, utilizzando il patrimonio come variabile di split, ottengo un miglioramento dello 0,260. Com’è ottenuto il valore?? Sottraiamo all’impurità inziale, la percentuale dei soggetti presenti nel nodo1 x impurità1 e la percentuale dei soggetti presenti nel nodo2 x impurità2 Δimp = 0,469 – 0,25x0 – 0,75x0,278 = 0,26 Proviamo ora a usare come variabile di split la variabile “risparmio”. C’è maggiore eterogeneità in questo caso nel nodo1 e nodo2. In questo caso abbiamo un miglioramento di 0,102  inferiore Δimp = 0,469 – 0,375x0,444 – 0,625x0,32 = 0,102 QUAL E’ LA SEGMENTAZIONE VINCENTE?? Quella che utilizza la variabile patrimonio Cliente Risparmio Patrimonio Reddito annuo Rischio Reddito classi A Medio Alto 75000 Basso >70000 B Basso Basso 50000 Alto <= 50000 C Alto Medio 25000 Alto <= 50000 D Medio Medio 50000 Basso <= 50000 E Basso Medio 100000 Basso >70000 F Alto Alto 25000 Basso <=50000 G Basso Basso 25000 Alto <=50000 H Medio Medio 75000 Basso >70000 Inseriamo un ulteriore variabile: reddito in classi Nel caso in cui usassimo come variabile di riferimento il reddito annuo, avremmo un miglioramento dello 0,169. Nel caso in cui usassimo il reddito in classi avremmo un miglioramento di 0,281. SLIDE 14 Mettiamo il rischio come variabile dipendente  dobbiamo prevedere rischio alto (attraverso metodo CRT) SLIDE 15 Quando abbiamo a che fare con gli alberi, possiamo costruire un indicatore che ci aiuta nell’interpretazione della regola che otteniamo: si basa sull’importanza delle variabili indipendenti sulla previsione della performance del modello : misuriamo un ranking di importanza fra tutte le variabili esplicative considerate all’interno della nostra regola Importanza variabili indipendenti Variabile indipendente Importanza Importanza normalizzata Patrimonio 0,385 100,0 % Risparmio 0,185 48,1 % Reddito annuo 0,083 21,6 % Vengono ordinate in termini di importanza: in questo caso il patrimonio è la variabile più importante. Indicatore di importanza viene ricavato a partire dai miglioramenti che le variabili generano all’interno della regola che stiamo considerando. L’importanza del patrimonio è direttamente calcolabile dalle importanze delle impurità X es : 0,26 + 0,125 = 0,385 Nel caso delle variabili risparmio e reddito annuo, SPSS conteggia nel calcolo dell’importanza tutto il “potenziale predittivo” della variabile includendo anche quei miglioramenti di impurità che non sono stati salvati nella regola finale QUINDI in alcune variabili, l’importanza è direttamente calcolabile a partire dalla regola che otteniamo e in altri no (“potenziale non espresso”). Importanza normalizzata  riconsidera a partire dall’indice di importanza ottenuto sulla base dei miglioramenti che ciascuna variabile produce nella predizione della variabile dipendente. Considera la variabile più importante (in questo caso patrimonio), rispetto alla quale fare poi tutti i confronti  non fa altro che confrontare i valori dell’indice di importanza con la variabile considerata più importante ! Reddito annuo ha un importanza normalizzata del 21,6 % : 0,083 / 0,385 = 0,216 Qualche confronto 1.CHAID crea alberi di segmentazione multipla, CART binaria 2.Mentre CHAID utilizza un solo data set, CART ha un training set e un validation set 3.CHAID utilizza criteri statistici per la regola di stop, mentre CART effettua il pruning (Si tratta di rimuovere i rami che fanno uso di caratteristiche che hanno poca importanza. Ciò riduce la complessità dell’albero e aumenta il suo potere predittivo). 4.CHAID produce più che un albero una serie di cespugli, ossia spesso conduce a molte foglie, provenienti da un ramo, facilmente rappresentabile in una tabella di contingenza. Questo fa sì che CHAID sia un metodo molto utilizzato nelle ricerche di mercato, per la sua capacità descrittiva, basata su un test statistico 5.CART ha un u9lizzo predittivo più evidente

TEORIA

Products

Support

TEORIA

Add this document to collection(s)

Add this document to saved

Suggest us how to improve StudyLib