Uploaded by piergiorgio.lovaglio

1. articolo trento

advertisement
Quaderni di Statistica e Matematica
Applicata alle Scienze Economico-Sociali
VOLUME ?? - n° ? - MESE 199?
Un algoritmo per la regressione multipla
con dati categoriali
PIETRO GIORGIO LOVAGLIO
Dipartimento di metodi quantitativi per l’Economia e l’Azienda, Facoltà di Economia, MilanoBicocca
Abstract
Il presente lavoro propone un algoritmo per la regressione multipla tra una variabile dipendente z e k variabili
indipendenti xi di natura categoriale (nominale, ordinale) e/o continue, nell’ambito dell’optimal scaling: ciò comporta la
stima dei parametri  di regressione e dei parametri di scaling che definiscono le trasformazioni ottime per ogni
variabile categoriale zos, xjos.
Le proposte esistenti (Morals Young et al. 1976, Canals Gifi 1981) pervengono nel passo di scaling (stima dei punteggi
delle variabili categoriali) ad una diminuzione del residuo solo nel passo di normalizzazione, non durante la stima dei
punteggi di xiu (le stime di xjos non normalizzate).
La proposta attuale si basa sulla decomposizione dello spazio generato da zu, una stima ottima di z, ma non ancora
normalizzata in zos, in k sottospazi ortogonali ottenendo la stima dei parametri di scaling per le xj separatamente, senza
dover eliminare a priori le correlazioni tra le xj: la stima di optimal scaling non normalizzata di ogni regressore xiu è la
proiezione di zu su ogni sottospazio di xj (Gj), la normalizzazione successiva (di xiu in xios) tiene conto della scala di
misurazione di ogni variabile.
1. Natura del problema e lavori precedenti
Il presente lavoro propone un algoritmo per la regressione multipla tra una
variabile dipendente z e k variabili indipendenti xi di natura categoriale o miste.
Nelle scienze sociali una variabile può essere rilevata su scala intervallo o rapporto
(variabile numerica) oppure, più frequentemente, su scala ordinale e nominale (negli
item di un questionario).
Per evitare di trattare le categorie come punteggi si specifica ogni variabile
categoriale come prodotto di una matrice indicatore (nota) che riflette la struttura di
ogni variabile osservata Gj (n*kj) e di un vettore (kj*1) di parametri di scaling yi che,
una volta stimati, originano le variabili zos=Gzt# , xjos=Gjyj# dove os sta per optimal
scaling.
2
P.G. LOVAGLIO
Le k variabili indipendenti e la variabile dipendente vengono parametrizzate
rispettivamente come Gy e Gzt con Gz matrice indicatore di z, G=(G1…Gk) è la
matrice indicatore completo di dimensione n*jkj ed y (jkj*1) dove y = (y1,….,yk)
è il vettore diviso in k blocchi yi (uno per ogni xj) di kj elementi (numero di categorie
di xj) ognuno, t = (t1......tk) vettore delle categorie di z.
Per una variabile nominale i parametri di scaling non presentano nessun vincolo
nello spazio dei parametri di scaling (Cj), mentre per variabili ordinali esiste un
ordinamento supposto a priori:
t1 ... ti ....tk
y1 .… yi …... ykj
La regressione multipla in contesto di optimal scaling induce una funzione di
perdita tipica dei minimi quadrati (SSQ(x) è la somma dei quadrati di x):
min (zos-Xos)(zos-Xos) = min SSQ(zos- j xjos j) = min SSQ(Gzt- Gy) (1)
, z , y
, z , y
, t, y j
da minimizzare rispetto ai parametri di scaling yj, t e al vettore dei parametri , con i
vincoli:
uGzt =0, tGzGzt = 1, yjCj tCz
(2)
dove u è un vettore di uno, Cj e Cz sono gli spazi delle trasformazioni ammissibili
(spazio dei parametri di scaling) per le categorie di ogni variabile che tengono conto
del livello di misurazione (Cj Cz sono coni chiusi convessi, Gifi, 1981), e gli altri
vincoli standardizzano zos.
Una variabile nominale non induce nessun vincolo sulle categorie, una variabile
ordinale tiene conto del vincolo di ordinamento delle stesse, mentre i punteggi di una
variabile numerica restano costanti nell’algoritmo.
La procedura che qui si propone è coerente con la filosofia Alternating Least
Squares (ALS, Young 1981) che divide i parametri in due sottinsiemi, minimizzando
la (1) in due passi: nel primo rispetto a , tenendo fissi i parametri di scaling ad una
stima iniziale:
min SSQ(z0- j xj0j)
(3)

e nel secondo passo con  stimato nel passo precedente si stimano i parametri di
scaling t, yj, iterando i due passi fino a convergenza dell’algoritmo.
L’algoritmo proposto, come quelli Als, converge (De Leeuw, 1973) poiché in ogni
iterazione della procedura iterativa il residuo si riduce progressivamente all’interno di
ogni passo.
Il primo problema di minimo è ovviamente ottenuto con il metodo dei minimi
quadrati applicato ad una stima iniziale delle variabili z0, xi0 con i valori categoriali
grezzi, (z0= zos, xi0 = xios) mentre appare meno chiaro, viste le differenti proposte in
2
UN ALGORITMO REGRESSIONE
3
letteratura, il modo di ottenere i parametri di scaling che trasformano le variabili
categoriali in variabili "optimal scaled".
Le proposte esistenti in letteratura (Morals, Young et al. 1976, Canals, Gifi 1981)
stimano i parametri di scaling con vincoli sulla media, sulla varianza e sulla scala di
misurazione (nominale, ordinale, numerica) delle stesse, trovando una soluzione (tu,
yju) secondo un criterio di ottimo che però non tiene conto dei vincoli presenti in Cj
(soluzione non normalizzata), successivamente tali soluzioni vengono normalizzate
(t#, yj#) dando luogo a zos, xos.
Morals (Young et al. 1976) propone di ricavare la i-esima componente di tu come

la media dei punteggi di z (previsore lineare di z) appartenenti alla i-esima categoria
della variabile grezza z0, infine si normalizza la soluzione zu =Gz tu in base ai vincoli
supposti per ottenere zos.
Successivamente si ricavano le variabili xiu dall'identità:
zos = b1x10 +…..+ bkxk0
(4)
isolando i punteggi delle k variabili esplicative xi0 dalle relazioni algebriche nella (4),
tenendo fissi i parametri noti bi e le altre k-1 variabili xi0.
La normalizzazione delle xiu (in xios) e di zu (in zos) si ottiene proiettando i vettori zu
ed xiu sullo spazio delle colonne delle rispettive matrici indicatore, costruite in modo
da tener conto della scala di misurazione di ogni variabile (Young 1981).
La normalizzazione di Morals richiede che la variabile dipendente e quelle
indipendenti abbiano media nulla e varianza unitaria.
Infine per l’aggiornamento dei parametri di regressione in una successiva
iterazione si effettua una regressione multipla con le nuove variabili zos ed xios e così
via fino a convergenza dell’algoritmo.
Canals (van der Burg de Leeuw 1983) un algoritmo per la correlazione canonica,
che consente la regressione con optimal scaling specificando una sola variabile nel
secondo insieme, è equivalente a Morals per il passo di scaling (4) senza richiedere la
standardizzazione delle variabili indipendenti nel passo di normalizzazione che
inficia la convergenza dell’algoritmo Morals (Gifi 1981 pag 221).
.
2. La proposta
Partendo dai valori iniziali delle categorie osservate si ottiene una stima iniziale
delle variabili trasformate: z0, X0=(x10.....xk0) e si minimizza rispetto a  la (3)

tenendo fisse t , yi, attraverso le stime dei minimi quadrati che generano z :
b = (X0 X0)-1X0z0

z = X0 b
(5)
4
P.G. LOVAGLIO
Successivamente si stimano i parametri di scaling, con bj fissi dal passo precedente,
minimizzando la devianza residua di regressione SSQ(z0 -j xj0bj) riparametrizzata in:
SSQ(Gzt - Gy*)
(6)
rispetto a t, y* con Gy* = (G1y1*,…,Gkyk*) con yj* = yjbj.
Le stime di t, y* coerenti con i vincoli supposti originano zos=Gzt e xjos=Gjyj (le
stime di optimal scaling di z, xi).
De Leeuw (1977) ha dimostrato che la minimizzazione della (1) rispetto ai
parametri che rispettano certi vincoli (es. t#, yj#) può essere ottenuta in un primo
stadio da una stima iniziale non vincolata (es. tu, yiu) imponendo successivamente
sulle stime ottenute i vincoli opportuni.
I parametri di scaling yj* delle categorie di ogni xi si possono dunque stimare, dopo
aver fissato i parametri di scaling delle altre k-1 variabili xi (ij), condizionatamente
ad una stima iniziale (basic estimate) di z ricavata dalle variabili indipendenti: nel

presente lavoro il vettore considerato come basic estimate di z è z =X0b il miglior
previsore lineare dei minimi quadrati di z0.
La (6) che va minimizzata rispetto a t ed y* si può esprimere come somma di due
addendi:


SSQ(Gzt - z ) + SSQ( z - Gy*) + DP
(7)
separando in due parti la stima dei parametri di optimal scaling: il primo membro va


minimizzato rispetto a t, con y* fissato (e il doppio prodotto DP=(Gzt - z )( z - Gy*) si


annulla poichè z =Gy* per costruzione) e il secondo membro rispetto ad y* (con z
fissato).

Il primo membro della (7) è minimo rispetto a t proiettando z sulle colonne di Gz:

tu = (GzGz)-1 Gz z  zu = Gz tu
(8)
Se z è variabile nominale tu = t#, (zu = zos) se z è invece una variabile ordinale tu deve
rispettare il vincolo di rango delle categorie e t# si ottiene attraverso una regressione
monotona di tu su t0 (Kruskal, 1964).
La stima di zos con la regressione monotona ha la seguente proprietà:


SSQ(zos - z )  SSQ(zu - z )

(9)
cioè zos minimizza SSQ(z- z ) rispetto a tutti i vettori zCz, anche rispetto a zu la
“basic estimate” di z, (Barlow et al. 1972) ed inoltre:
4
UN ALGORITMO REGRESSIONE

5

i (zios - z i)  i (zi - z i)  z  Cz
(10)
per ogni  convessa (es.  = || . ||P, Malmgren, 1972).
Proseguendo nel passo di scaling, va minimizzato il secondo membro della (7);
una soluzione naturale per yu sarebbe:

yu = (GG)-1 G z
(11)
ma non è una strada percorribile perchè i vettori colonna in G sono linearmente
dipendenti, rendendo GG non invertibile. La matrice a blocchi GG è il corrispettivo
della matrice di covarianza per variabili categoriali poiché nei blocchi diagonali essa
evidenzia la struttura categoriale di ogni variabile categoriale (GjGj) e nei blocchi
esterni la struttura incrociata di ogni coppia di variabili (GiGj).
Una regressione con variabili dummy con intercetta, eliminando una colonna per ogni
variabile indipendente nelle matrici Gj, rende comunque i parametri stimati non
confrontabili con y nella (6). Nè è efficiente l'utilizzo di D=diag(C), ignorando la
struttura di ogni coppia di variabili esplicative (ponendo i blocchi esterni di C uguali
a zero).

La soluzione proposta per stimare ogni yj* consiste nel proiettare z su x10, ..xj-10,
xj+10.. xk0 (=X-j):

z -j = b1 x10 +.…+ bj-i xj-10 + bj+1 xj+10 +…+ bk xk0 = X-j b-j
(12)
ed ottenere il vettore:



z j = z - z -j

(13)

dove z j è il contributo da parte di xj.0 (di xj0 cioè al netto di X-j) alla stima di z .
Tale vettore è scomposto in k termini ortogonali per costruzione:



z = j z j = j Pj z
j Pj = I, PjPi = PjPi =0
(14)
dove Pj è la matrice di proiezione ortogonale generata da xj. (di xj al netto delle
correlazioni tra xj ed X-j). Il secondo termine della (7) può essere espressa allora
come:



SSQ( z -Gy*) = SSQ (j z j-j Gjyjbj) = j SSQ( z j - Gjyjbj) + ij aij
(15)
6
P.G. LOVAGLIO
dove aij tiene conto di tutti i doppi prodotti tra gli elementi con indici (i, j).
Le soluzioni di yju (non vincolate di yj# ) che minimizzano singolarmente i termini


SSQ( z j - Gjyjbj) nella parte finale della (15) sono ottenute proiettando z j sullo spazio
generate dalle rispettive matrici indicatore Gj,


yju = bj-1 (GjGj)-1 Gj z j  Gjyju = bj-1 Pcj z j
xj
(16)
dove Pcj il proiettore corrispondente di Gj, lo spazio generatore di xj.
Si dimostrerà che le soluzioni yju minimizzano congiuntamente la (15).
Proposizione 1

Le soluzioni yju (t.c. Gjyju = bj-1 Pcj z j) che minimizzano il j-esimo termine di


SSQ( z j - Gjyj) dell’ultimo membro della (15) minimizzano anche SSQ (j z j -jGjyj)

= SSQ( z - Gy*).
Dimostrazione
Basta far vedere che tutti i termini aij nella (15) si annullano.
Poiché per la natura discreta dei punteggi di xj. (contributo di xj al netto di X-j alla

spiegazione di z con proiettore Pj) esiste sempre un vettore  tale che xj. =Gj , dove
Gj rappresenta lo spazio generatore (S) della variabile categoriale grezza xj con
proiettore Pcj, allora:
xj. S(Gj)  S(xj.)  S(Gj)  PcjPj = PjPcj =Pj
(17)
(Takeuchi et al. 1982 pag. 31). Allora considerando l’i-esimo e il j-esimo termine
nella (15) si annullano tutti i prodotti incrociati:


z j z i = 0 per la (14),









z j Gi yi = z j Pci z i = (Pj z ) Pci z i = z PjPci Pi z = z Pj Pi z = 0 ij per la (17):






(Gjyj)Gi yi = (Pcj z j) Pci z i = (PcjPj z )PciPi z = z PjPi z = 0
C.V.D.
(18)
Come si nota da (os. 2) i parametri di optimal scaling per ogni xj sono ottenuti

separatamente in ognuno dei k termini SSQ( z j -Gjyj), perché il vettore y* è reso
separabile nelle sue componenti.
In questo modo i vettori di scaling così stimati tengono conto delle interazioni tra
coppie di variabili categoriali.
Se la variabile in questione è nominale yiu = yi# se è ordinale, analogamente al
discorso per zos, y# si ottiene attraverso una regressione monotona delle yju sulle yj0.
6
UN ALGORITMO REGRESSIONE
7
Una volta ottenute zos ed xjos si applica successivamente una regressione multipla,
minimizzando la (1) rispetto ai , con t#, yj# fissati, e così via, fino alla convergenza
dell’algoritmo che è assicurata (de Leeuw, 1973).
3. Osservazioni
a) Come la filosofia Als suggerisce (Young 1981), le stime trovate in uno stadio
per un sottinsieme di parametri, andrebbero sostituite nel passo successivo per
ottenere le stime dell’altro sottinsieme; la stima zos andrebbe sostituita nella (15) per
ricavare i pesi di scaling yj, ottenendo stime dei parametri di scaling probabilmente
differenti. (Lo stesso problema si presenta in Morals e Canals per la stima dei
punteggi delle variabili indipendenti ricavate dalla (4) in cui ogni variabile stimata
xjos andrebbe immediatamente sostituita nella (4) per ricavare le altre xiu con i j)
b) La (8) e la (16) per variabili nominali implicano che le quantificazioni delle
categorie (t) di z coincidono con la media dei valori previsti dal modello per z, in

altre parole ta è la media dei valori z dei soggetti che rientrano nella categoria a,
mentre la quantificazione della categoria a della variabile xj (yja) è uguale alla media

dei valori di z j che corrispondono alla categoria a in xj.

La (os. 2) mostra che la stima di xju coincide con la proiezione di z j sulle colonne di
Gj. Se z è continua (o lo sono alcune variabili indipendenti) i punteggi di tali variabili
restano costanti durante tutto l’algoritmo, evitando la fase di optimal scaling (zos = z,
xos = x).
c) La metodologia per ottenere le stime di optimal scaling è coerente con il
problema di minimo del modello poichè le stime dei parametri di scaling yju sono
ottenute riducendo ulteriormente la devianza residua (DR) che il modello di
regressione lascia dopo la stima dei pesi  del primo stadio:



DR = SSQ(z0- j xj0 bj) = SSQ(z0 - z )  SSQ(zos - z ) + j SSQ( z j- xjos)
(19)
poiché nella (9) emerge che, sia nel passo di stima di zos sia di xjos:




SSQ(z os - z )  SSQ(z0 - z ) & SSQ( z j- xjos)  SSQ( z j- xj0)
(20)
Mentre il residuo viene minimizzato nel passo di stima di zu ed xju (e ulteriormente
per variabili ordinali nel passo di regressione monotona in zos ed xjos), nell’algoritmo
Morals, invece, la riduzione del residuo avviene solo nel passo di normalizzazione di
xiu in xios, dove le xju sono ricavate dall’identità (4) senza alcuna riduzione della
devianza residua.
8
P.G. LOVAGLIO
Infine il presente algoritmo consente la regressione tra dati misti (quantitativi e
categoriali) di qualsiasi tipo (nominale, ordinale), mentre Canals non ammette
variabili continue oltre ad avere gli stessi limiti di Morals nel passo di scaling.
d) Ignorare la struttura di covarianza delle variabili indipendenti nel passo di
scaling, dato che Morals ne tiene conto solo nel passo di stima di , limita
fortemente l'analisi. Tale problema viene risolto nell’algoritmo proposto con la teoria
dei proiettori (Takeuchi et al. 1982), scindendo il previsore lineare dei minimi

quadrati z , che tiene conto della correlazione tra z0 e la struttura di covarianza tra le

k(k-1)/2 coppie di variabili categoriali, in k componenti ortogonali z j.
4. Una Applicazione
La tecnica proposta è stata applicata ad un collettivo di 190 studenti universitari
estratti casualmente dalla popolazione di studenti residenti nel 1999 nelle residenze
universitarie dell’Università di Bologna.
Alle unità statistiche si è somministrato un questionario con item ordinali, su scala
Likert a sette gradi, (1 indica completo disaccordo, 7 completo accordo con ogni
item) per testare la soddisfazione dei residenti dopo un anno trascorso nella residenza
universitaria. La variabile dipendente (X1) è l’item “soddisfazione”, mentre le
variabili indipendenti (X2….X8) riguardano gli item:
X2= “in questo collegio ho sviluppato una buona capacità relazionale”;
X3= “in questo collegio mi sento sicuro”;
X4= “sono costantemente aiutato nello studio”;
X5= ”in collegio ho trovato difficoltà nello studio”;
X6= “il direttore è sensibile alle mie richieste”;
X7= “la qualità della mensa è buona”;
X8= “la stanza è confortevole”.
Tutte le variabili sono di natura ordinale e vanno trasformate in modo da
minimizzare la devianza residua; l’output dell’algoritmo restituisce i coefficienti di
regressione stimati, i relativi standard error, (Tab.II) e i parametri di scaling che
vengono proiettati sulle categorie iniziali del questionario (Figura1) definendo la
trasformazione ottima per ogni item.
Tab.I mostra il numero di iterazioni prima della convergenza dell’algoritmo. Il
valore di R2=0.5 e i coefficienti stimati mostrano che le uniche informazione
“prevedibili” sui segni dei coefficiente di regressione (negativo di X5 e positivo per
le altre variabili) sono rispettate. Una analoga regressione lineare, trattando le
categorie come punteggi, restituisce un R2=0.36.
8
UN ALGORITMO REGRESSIONE
3
9
3
2
2
1
0
0
-1
1
2
3
4
5
Quan ti fi cazi on e di X 8
Quanti fi cazi on e d i X 7
1
-1
-2
-3
6
-4
7
1
2
3
4
5
6
7
X7
X8
1.5
1.5
1.0
1.0
.5
.5
0.0
0.0
-.5
-.5
-1.0
-1.0
T(X2)
T(X1)
-1.5
-1.5
1
-2.0
1
2
3
4
5
6
2
3
4
5
6
7
7
X2
X1
1.5
1.0
1.0
.5
.5
0.0
0.0
-.5
-.5
-1.0
-1.0
T(X5)
T(X6)
-1.5
-2.0
-1.5
-2.0
1
-2.5
1
2
3
4
5
6
7
2
X6
X5
Figura 1: Quantificazione ottima di X1, X2, X5, X6, X7, X8
3
4
5
6
7
10
P.G. LOVAGLIO
Tab. I: Iterazioni
Tab II: Stima dei parametri
ITERAZIONI
R2
VARIABILE
STIMA
STD. ERR.
1
0.36277
Intercetta
1.251
0.45073
2
0.50130
X2
0.2343
0.05592
3
0.50819
ILE
X3
0.1455
0.05266
4
0.50918
X4
0.1001
0.04917
5
0.50934
X5
-0.1288
0.04714
6
0.50936
X6
0.2143
0.04428
7
0.50937
X7
0.0985
0.04623
8
0.50937
X8
0.1728
0.05915
La stima di X1 attraverso i previsori permette di classificare e/o costruire graduatorie tra individui,
applicando un qualsiasi metodo di clustering alla distribuzione dei valori previsti per X1 (es. con i
quantili a seconda del numero di gruppi che si vogliono creare).
In questo modo la variabile dipendente è a tutti gli effetti una variabile continua utilizzabile in
analisi successive e può essere concepita come la stima di una variabile latente (di cui si conosce una
sua approssimazione grezza) attraverso un insieme di indicatori esplicativi.
Bibliografia
Barlow R., Bartolomew D.J., Bremner J.M., Brunck H.D.(1972). Statistical Inference under
Order Restrictions, Wiley N.Y.
De Leeuw J. (1977) Normalized cone regression, Datatheory, Leiden Olanda
Gifi A. (1981). Nonlinear Multivariate Analysis, 1981, Departement of data Theory, University of
Leiden, The Netherlands.
Kruskal J.B. (1965). Analysis of factorial experiments by estimating monotone trasformations of
the data, Journal of Royal Statistical Society, Series B,27, 251-263
Malmgren E. (1972). Contributions to the estimation of ordered parameters, Ph.D. thesis,
Departement of statistics, University of Iowa.
Takeuchi K., Yanai H., Mukherjee B.N., (1982). The Foundations of Multivariate Analysis, A
Unified approach by means of projection onto linear subspaces, Wiley Eastern Limited.
Young F., (1981). Quantitative Analysis of Qualitative data, Psychometrika, 46, 357-388
Young F., De Leeuw J., Takane W. (1976). Regression with Qualitative and Quantitative
Variables: an Alternating Least Squares with Optimal Scaling Features, Psychometrika, 41, 505-529
10
UN ALGORITMO REGRESSIONE
11
Download