Regressione Multipla con Dati Categoriali: Un Algoritmo

Quaderni di Statistica e Matematica Applicata alle Scienze Economico-Sociali VOLUME ?? - n° ? - MESE 199? Un algoritmo per la regressione multipla con dati categoriali PIETRO GIORGIO LOVAGLIO Dipartimento di metodi quantitativi per l’Economia e l’Azienda, Facoltà di Economia, MilanoBicocca Abstract Il presente lavoro propone un algoritmo per la regressione multipla tra una variabile dipendente z e k variabili indipendenti xi di natura categoriale (nominale, ordinale) e/o continue, nell’ambito dell’optimal scaling: ciò comporta la stima dei parametri  di regressione e dei parametri di scaling che definiscono le trasformazioni ottime per ogni variabile categoriale zos, xjos. Le proposte esistenti (Morals Young et al. 1976, Canals Gifi 1981) pervengono nel passo di scaling (stima dei punteggi delle variabili categoriali) ad una diminuzione del residuo solo nel passo di normalizzazione, non durante la stima dei punteggi di xiu (le stime di xjos non normalizzate). La proposta attuale si basa sulla decomposizione dello spazio generato da zu, una stima ottima di z, ma non ancora normalizzata in zos, in k sottospazi ortogonali ottenendo la stima dei parametri di scaling per le xj separatamente, senza dover eliminare a priori le correlazioni tra le xj: la stima di optimal scaling non normalizzata di ogni regressore xiu è la proiezione di zu su ogni sottospazio di xj (Gj), la normalizzazione successiva (di xiu in xios) tiene conto della scala di misurazione di ogni variabile. 1. Natura del problema e lavori precedenti Il presente lavoro propone un algoritmo per la regressione multipla tra una variabile dipendente z e k variabili indipendenti xi di natura categoriale o miste. Nelle scienze sociali una variabile può essere rilevata su scala intervallo o rapporto (variabile numerica) oppure, più frequentemente, su scala ordinale e nominale (negli item di un questionario). Per evitare di trattare le categorie come punteggi si specifica ogni variabile categoriale come prodotto di una matrice indicatore (nota) che riflette la struttura di ogni variabile osservata Gj (n*kj) e di un vettore (kj*1) di parametri di scaling yi che, una volta stimati, originano le variabili zos=Gzt# , xjos=Gjyj# dove os sta per optimal scaling. 2 P.G. LOVAGLIO Le k variabili indipendenti e la variabile dipendente vengono parametrizzate rispettivamente come Gy e Gzt con Gz matrice indicatore di z, G=(G1…Gk) è la matrice indicatore completo di dimensione n*jkj ed y (jkj*1) dove y = (y1,….,yk) è il vettore diviso in k blocchi yi (uno per ogni xj) di kj elementi (numero di categorie di xj) ognuno, t = (t1......tk) vettore delle categorie di z. Per una variabile nominale i parametri di scaling non presentano nessun vincolo nello spazio dei parametri di scaling (Cj), mentre per variabili ordinali esiste un ordinamento supposto a priori: t1 ... ti ....tk y1 .… yi …... ykj La regressione multipla in contesto di optimal scaling induce una funzione di perdita tipica dei minimi quadrati (SSQ(x) è la somma dei quadrati di x): min (zos-Xos)(zos-Xos) = min SSQ(zos- j xjos j) = min SSQ(Gzt- Gy) (1) , z , y , z , y , t, y j da minimizzare rispetto ai parametri di scaling yj, t e al vettore dei parametri , con i vincoli: uGzt =0, tGzGzt = 1, yjCj tCz (2) dove u è un vettore di uno, Cj e Cz sono gli spazi delle trasformazioni ammissibili (spazio dei parametri di scaling) per le categorie di ogni variabile che tengono conto del livello di misurazione (Cj Cz sono coni chiusi convessi, Gifi, 1981), e gli altri vincoli standardizzano zos. Una variabile nominale non induce nessun vincolo sulle categorie, una variabile ordinale tiene conto del vincolo di ordinamento delle stesse, mentre i punteggi di una variabile numerica restano costanti nell’algoritmo. La procedura che qui si propone è coerente con la filosofia Alternating Least Squares (ALS, Young 1981) che divide i parametri in due sottinsiemi, minimizzando la (1) in due passi: nel primo rispetto a , tenendo fissi i parametri di scaling ad una stima iniziale: min SSQ(z0- j xj0j) (3)  e nel secondo passo con  stimato nel passo precedente si stimano i parametri di scaling t, yj, iterando i due passi fino a convergenza dell’algoritmo. L’algoritmo proposto, come quelli Als, converge (De Leeuw, 1973) poiché in ogni iterazione della procedura iterativa il residuo si riduce progressivamente all’interno di ogni passo. Il primo problema di minimo è ovviamente ottenuto con il metodo dei minimi quadrati applicato ad una stima iniziale delle variabili z0, xi0 con i valori categoriali grezzi, (z0= zos, xi0 = xios) mentre appare meno chiaro, viste le differenti proposte in 2 UN ALGORITMO REGRESSIONE 3 letteratura, il modo di ottenere i parametri di scaling che trasformano le variabili categoriali in variabili "optimal scaled". Le proposte esistenti in letteratura (Morals, Young et al. 1976, Canals, Gifi 1981) stimano i parametri di scaling con vincoli sulla media, sulla varianza e sulla scala di misurazione (nominale, ordinale, numerica) delle stesse, trovando una soluzione (tu, yju) secondo un criterio di ottimo che però non tiene conto dei vincoli presenti in Cj (soluzione non normalizzata), successivamente tali soluzioni vengono normalizzate (t#, yj#) dando luogo a zos, xos. Morals (Young et al. 1976) propone di ricavare la i-esima componente di tu come  la media dei punteggi di z (previsore lineare di z) appartenenti alla i-esima categoria della variabile grezza z0, infine si normalizza la soluzione zu =Gz tu in base ai vincoli supposti per ottenere zos. Successivamente si ricavano le variabili xiu dall'identità: zos = b1x10 +…..+ bkxk0 (4) isolando i punteggi delle k variabili esplicative xi0 dalle relazioni algebriche nella (4), tenendo fissi i parametri noti bi e le altre k-1 variabili xi0. La normalizzazione delle xiu (in xios) e di zu (in zos) si ottiene proiettando i vettori zu ed xiu sullo spazio delle colonne delle rispettive matrici indicatore, costruite in modo da tener conto della scala di misurazione di ogni variabile (Young 1981). La normalizzazione di Morals richiede che la variabile dipendente e quelle indipendenti abbiano media nulla e varianza unitaria. Infine per l’aggiornamento dei parametri di regressione in una successiva iterazione si effettua una regressione multipla con le nuove variabili zos ed xios e così via fino a convergenza dell’algoritmo. Canals (van der Burg de Leeuw 1983) un algoritmo per la correlazione canonica, che consente la regressione con optimal scaling specificando una sola variabile nel secondo insieme, è equivalente a Morals per il passo di scaling (4) senza richiedere la standardizzazione delle variabili indipendenti nel passo di normalizzazione che inficia la convergenza dell’algoritmo Morals (Gifi 1981 pag 221). . 2. La proposta Partendo dai valori iniziali delle categorie osservate si ottiene una stima iniziale delle variabili trasformate: z0, X0=(x10.....xk0) e si minimizza rispetto a  la (3)  tenendo fisse t , yi, attraverso le stime dei minimi quadrati che generano z : b = (X0 X0)-1X0z0  z = X0 b (5) 4 P.G. LOVAGLIO Successivamente si stimano i parametri di scaling, con bj fissi dal passo precedente, minimizzando la devianza residua di regressione SSQ(z0 -j xj0bj) riparametrizzata in: SSQ(Gzt - Gy*) (6) rispetto a t, y* con Gy* = (G1y1*,…,Gkyk*) con yj* = yjbj. Le stime di t, y* coerenti con i vincoli supposti originano zos=Gzt e xjos=Gjyj (le stime di optimal scaling di z, xi). De Leeuw (1977) ha dimostrato che la minimizzazione della (1) rispetto ai parametri che rispettano certi vincoli (es. t#, yj#) può essere ottenuta in un primo stadio da una stima iniziale non vincolata (es. tu, yiu) imponendo successivamente sulle stime ottenute i vincoli opportuni. I parametri di scaling yj* delle categorie di ogni xi si possono dunque stimare, dopo aver fissato i parametri di scaling delle altre k-1 variabili xi (ij), condizionatamente ad una stima iniziale (basic estimate) di z ricavata dalle variabili indipendenti: nel  presente lavoro il vettore considerato come basic estimate di z è z =X0b il miglior previsore lineare dei minimi quadrati di z0. La (6) che va minimizzata rispetto a t ed y* si può esprimere come somma di due addendi:   SSQ(Gzt - z ) + SSQ( z - Gy*) + DP (7) separando in due parti la stima dei parametri di optimal scaling: il primo membro va   minimizzato rispetto a t, con y* fissato (e il doppio prodotto DP=(Gzt - z )( z - Gy*) si   annulla poichè z =Gy* per costruzione) e il secondo membro rispetto ad y* (con z fissato).  Il primo membro della (7) è minimo rispetto a t proiettando z sulle colonne di Gz:  tu = (GzGz)-1 Gz z  zu = Gz tu (8) Se z è variabile nominale tu = t#, (zu = zos) se z è invece una variabile ordinale tu deve rispettare il vincolo di rango delle categorie e t# si ottiene attraverso una regressione monotona di tu su t0 (Kruskal, 1964). La stima di zos con la regressione monotona ha la seguente proprietà:   SSQ(zos - z )  SSQ(zu - z )  (9) cioè zos minimizza SSQ(z- z ) rispetto a tutti i vettori zCz, anche rispetto a zu la “basic estimate” di z, (Barlow et al. 1972) ed inoltre: 4 UN ALGORITMO REGRESSIONE  5  i (zios - z i)  i (zi - z i)  z  Cz (10) per ogni  convessa (es.  = || . ||P, Malmgren, 1972). Proseguendo nel passo di scaling, va minimizzato il secondo membro della (7); una soluzione naturale per yu sarebbe:  yu = (GG)-1 G z (11) ma non è una strada percorribile perchè i vettori colonna in G sono linearmente dipendenti, rendendo GG non invertibile. La matrice a blocchi GG è il corrispettivo della matrice di covarianza per variabili categoriali poiché nei blocchi diagonali essa evidenzia la struttura categoriale di ogni variabile categoriale (GjGj) e nei blocchi esterni la struttura incrociata di ogni coppia di variabili (GiGj). Una regressione con variabili dummy con intercetta, eliminando una colonna per ogni variabile indipendente nelle matrici Gj, rende comunque i parametri stimati non confrontabili con y nella (6). Nè è efficiente l'utilizzo di D=diag(C), ignorando la struttura di ogni coppia di variabili esplicative (ponendo i blocchi esterni di C uguali a zero).  La soluzione proposta per stimare ogni yj* consiste nel proiettare z su x10, ..xj-10, xj+10.. xk0 (=X-j):  z -j = b1 x10 +.…+ bj-i xj-10 + bj+1 xj+10 +…+ bk xk0 = X-j b-j (12) ed ottenere il vettore:    z j = z - z -j  (13)  dove z j è il contributo da parte di xj.0 (di xj0 cioè al netto di X-j) alla stima di z . Tale vettore è scomposto in k termini ortogonali per costruzione:    z = j z j = j Pj z j Pj = I, PjPi = PjPi =0 (14) dove Pj è la matrice di proiezione ortogonale generata da xj. (di xj al netto delle correlazioni tra xj ed X-j). Il secondo termine della (7) può essere espressa allora come:    SSQ( z -Gy*) = SSQ (j z j-j Gjyjbj) = j SSQ( z j - Gjyjbj) + ij aij (15) 6 P.G. LOVAGLIO dove aij tiene conto di tutti i doppi prodotti tra gli elementi con indici (i, j). Le soluzioni di yju (non vincolate di yj# ) che minimizzano singolarmente i termini   SSQ( z j - Gjyjbj) nella parte finale della (15) sono ottenute proiettando z j sullo spazio generate dalle rispettive matrici indicatore Gj,   yju = bj-1 (GjGj)-1 Gj z j  Gjyju = bj-1 Pcj z j xj (16) dove Pcj il proiettore corrispondente di Gj, lo spazio generatore di xj. Si dimostrerà che le soluzioni yju minimizzano congiuntamente la (15). Proposizione 1  Le soluzioni yju (t.c. Gjyju = bj-1 Pcj z j) che minimizzano il j-esimo termine di   SSQ( z j - Gjyj) dell’ultimo membro della (15) minimizzano anche SSQ (j z j -jGjyj)  = SSQ( z - Gy*). Dimostrazione Basta far vedere che tutti i termini aij nella (15) si annullano. Poiché per la natura discreta dei punteggi di xj. (contributo di xj al netto di X-j alla  spiegazione di z con proiettore Pj) esiste sempre un vettore  tale che xj. =Gj , dove Gj rappresenta lo spazio generatore (S) della variabile categoriale grezza xj con proiettore Pcj, allora: xj. S(Gj)  S(xj.)  S(Gj)  PcjPj = PjPcj =Pj (17) (Takeuchi et al. 1982 pag. 31). Allora considerando l’i-esimo e il j-esimo termine nella (15) si annullano tutti i prodotti incrociati:   z j z i = 0 per la (14),          z j Gi yi = z j Pci z i = (Pj z ) Pci z i = z PjPci Pi z = z Pj Pi z = 0 ij per la (17):       (Gjyj)Gi yi = (Pcj z j) Pci z i = (PcjPj z )PciPi z = z PjPi z = 0 C.V.D. (18) Come si nota da (os. 2) i parametri di optimal scaling per ogni xj sono ottenuti  separatamente in ognuno dei k termini SSQ( z j -Gjyj), perché il vettore y* è reso separabile nelle sue componenti. In questo modo i vettori di scaling così stimati tengono conto delle interazioni tra coppie di variabili categoriali. Se la variabile in questione è nominale yiu = yi# se è ordinale, analogamente al discorso per zos, y# si ottiene attraverso una regressione monotona delle yju sulle yj0. 6 UN ALGORITMO REGRESSIONE 7 Una volta ottenute zos ed xjos si applica successivamente una regressione multipla, minimizzando la (1) rispetto ai , con t#, yj# fissati, e così via, fino alla convergenza dell’algoritmo che è assicurata (de Leeuw, 1973). 3. Osservazioni a) Come la filosofia Als suggerisce (Young 1981), le stime trovate in uno stadio per un sottinsieme di parametri, andrebbero sostituite nel passo successivo per ottenere le stime dell’altro sottinsieme; la stima zos andrebbe sostituita nella (15) per ricavare i pesi di scaling yj, ottenendo stime dei parametri di scaling probabilmente differenti. (Lo stesso problema si presenta in Morals e Canals per la stima dei punteggi delle variabili indipendenti ricavate dalla (4) in cui ogni variabile stimata xjos andrebbe immediatamente sostituita nella (4) per ricavare le altre xiu con i j) b) La (8) e la (16) per variabili nominali implicano che le quantificazioni delle categorie (t) di z coincidono con la media dei valori previsti dal modello per z, in  altre parole ta è la media dei valori z dei soggetti che rientrano nella categoria a, mentre la quantificazione della categoria a della variabile xj (yja) è uguale alla media  dei valori di z j che corrispondono alla categoria a in xj.  La (os. 2) mostra che la stima di xju coincide con la proiezione di z j sulle colonne di Gj. Se z è continua (o lo sono alcune variabili indipendenti) i punteggi di tali variabili restano costanti durante tutto l’algoritmo, evitando la fase di optimal scaling (zos = z, xos = x). c) La metodologia per ottenere le stime di optimal scaling è coerente con il problema di minimo del modello poichè le stime dei parametri di scaling yju sono ottenute riducendo ulteriormente la devianza residua (DR) che il modello di regressione lascia dopo la stima dei pesi  del primo stadio:    DR = SSQ(z0- j xj0 bj) = SSQ(z0 - z )  SSQ(zos - z ) + j SSQ( z j- xjos) (19) poiché nella (9) emerge che, sia nel passo di stima di zos sia di xjos:     SSQ(z os - z )  SSQ(z0 - z ) & SSQ( z j- xjos)  SSQ( z j- xj0) (20) Mentre il residuo viene minimizzato nel passo di stima di zu ed xju (e ulteriormente per variabili ordinali nel passo di regressione monotona in zos ed xjos), nell’algoritmo Morals, invece, la riduzione del residuo avviene solo nel passo di normalizzazione di xiu in xios, dove le xju sono ricavate dall’identità (4) senza alcuna riduzione della devianza residua. 8 P.G. LOVAGLIO Infine il presente algoritmo consente la regressione tra dati misti (quantitativi e categoriali) di qualsiasi tipo (nominale, ordinale), mentre Canals non ammette variabili continue oltre ad avere gli stessi limiti di Morals nel passo di scaling. d) Ignorare la struttura di covarianza delle variabili indipendenti nel passo di scaling, dato che Morals ne tiene conto solo nel passo di stima di , limita fortemente l'analisi. Tale problema viene risolto nell’algoritmo proposto con la teoria dei proiettori (Takeuchi et al. 1982), scindendo il previsore lineare dei minimi  quadrati z , che tiene conto della correlazione tra z0 e la struttura di covarianza tra le  k(k-1)/2 coppie di variabili categoriali, in k componenti ortogonali z j. 4. Una Applicazione La tecnica proposta è stata applicata ad un collettivo di 190 studenti universitari estratti casualmente dalla popolazione di studenti residenti nel 1999 nelle residenze universitarie dell’Università di Bologna. Alle unità statistiche si è somministrato un questionario con item ordinali, su scala Likert a sette gradi, (1 indica completo disaccordo, 7 completo accordo con ogni item) per testare la soddisfazione dei residenti dopo un anno trascorso nella residenza universitaria. La variabile dipendente (X1) è l’item “soddisfazione”, mentre le variabili indipendenti (X2….X8) riguardano gli item: X2= “in questo collegio ho sviluppato una buona capacità relazionale”; X3= “in questo collegio mi sento sicuro”; X4= “sono costantemente aiutato nello studio”; X5= ”in collegio ho trovato difficoltà nello studio”; X6= “il direttore è sensibile alle mie richieste”; X7= “la qualità della mensa è buona”; X8= “la stanza è confortevole”. Tutte le variabili sono di natura ordinale e vanno trasformate in modo da minimizzare la devianza residua; l’output dell’algoritmo restituisce i coefficienti di regressione stimati, i relativi standard error, (Tab.II) e i parametri di scaling che vengono proiettati sulle categorie iniziali del questionario (Figura1) definendo la trasformazione ottima per ogni item. Tab.I mostra il numero di iterazioni prima della convergenza dell’algoritmo. Il valore di R2=0.5 e i coefficienti stimati mostrano che le uniche informazione “prevedibili” sui segni dei coefficiente di regressione (negativo di X5 e positivo per le altre variabili) sono rispettate. Una analoga regressione lineare, trattando le categorie come punteggi, restituisce un R2=0.36. 8 UN ALGORITMO REGRESSIONE 3 9 3 2 2 1 0 0 -1 1 2 3 4 5 Quan ti fi cazi on e di X 8 Quanti fi cazi on e d i X 7 1 -1 -2 -3 6 -4 7 1 2 3 4 5 6 7 X7 X8 1.5 1.5 1.0 1.0 .5 .5 0.0 0.0 -.5 -.5 -1.0 -1.0 T(X2) T(X1) -1.5 -1.5 1 -2.0 1 2 3 4 5 6 2 3 4 5 6 7 7 X2 X1 1.5 1.0 1.0 .5 .5 0.0 0.0 -.5 -.5 -1.0 -1.0 T(X5) T(X6) -1.5 -2.0 -1.5 -2.0 1 -2.5 1 2 3 4 5 6 7 2 X6 X5 Figura 1: Quantificazione ottima di X1, X2, X5, X6, X7, X8 3 4 5 6 7 10 P.G. LOVAGLIO Tab. I: Iterazioni Tab II: Stima dei parametri ITERAZIONI R2 VARIABILE STIMA STD. ERR. 1 0.36277 Intercetta 1.251 0.45073 2 0.50130 X2 0.2343 0.05592 3 0.50819 ILE X3 0.1455 0.05266 4 0.50918 X4 0.1001 0.04917 5 0.50934 X5 -0.1288 0.04714 6 0.50936 X6 0.2143 0.04428 7 0.50937 X7 0.0985 0.04623 8 0.50937 X8 0.1728 0.05915 La stima di X1 attraverso i previsori permette di classificare e/o costruire graduatorie tra individui, applicando un qualsiasi metodo di clustering alla distribuzione dei valori previsti per X1 (es. con i quantili a seconda del numero di gruppi che si vogliono creare). In questo modo la variabile dipendente è a tutti gli effetti una variabile continua utilizzabile in analisi successive e può essere concepita come la stima di una variabile latente (di cui si conosce una sua approssimazione grezza) attraverso un insieme di indicatori esplicativi. Bibliografia Barlow R., Bartolomew D.J., Bremner J.M., Brunck H.D.(1972). Statistical Inference under Order Restrictions, Wiley N.Y. De Leeuw J. (1977) Normalized cone regression, Datatheory, Leiden Olanda Gifi A. (1981). Nonlinear Multivariate Analysis, 1981, Departement of data Theory, University of Leiden, The Netherlands. Kruskal J.B. (1965). Analysis of factorial experiments by estimating monotone trasformations of the data, Journal of Royal Statistical Society, Series B,27, 251-263 Malmgren E. (1972). Contributions to the estimation of ordered parameters, Ph.D. thesis, Departement of statistics, University of Iowa. Takeuchi K., Yanai H., Mukherjee B.N., (1982). The Foundations of Multivariate Analysis, A Unified approach by means of projection onto linear subspaces, Wiley Eastern Limited. Young F., (1981). Quantitative Analysis of Qualitative data, Psychometrika, 46, 357-388 Young F., De Leeuw J., Takane W. (1976). Regression with Qualitative and Quantitative Variables: an Alternating Least Squares with Optimal Scaling Features, Psychometrika, 41, 505-529 10 UN ALGORITMO REGRESSIONE 11

Regressione Multipla con Dati Categoriali: Un Algoritmo

Related documents

Products

Support

Regressione Multipla con Dati Categoriali: Un Algoritmo

Related documents

Add this document to collection(s)

Add this document to saved

Suggest us how to improve StudyLib