Uploaded by jjones.sp

Acrescimo Analise Linearidade

advertisement
Universidade de Brasília - Instituto de Psicologia - PPGA
Programa de Pós-graduação em Psicologia Social, do Trabalho e das Organizações.
Segundo Período Letivo de 2012
Disciplinas: Análises Multivariadas e Regressão Múltipla
Roteiro para Estudo de linearidade
Luís Gustavo Vinha
Objetivo: O objetivo do presente trabalho é descrever as rotinas básicas e comandos para realização de estudo
de utilizando o software SPSS, versão 18.
A linearidade é uma suposição presente em todas as técnicas multivariadas baseadas em medidas
correlacionais de associação. Como o coeficiente de correlação de Pearson quantifica a associação linear
entre as variáveis, os efeitos não lineares não serão representados no valor da correlação, o que resulta
em uma subestimação da força real da relação. Portanto, é sempre prudente examinar as relações entre
as variáveis analisadas para identificar quaisquer desvios da linearidade que possam causar impacto na
análise (Hair, 2005).
São apresentadas a seguir algumas rotinas para verificação de linearidade e sugestões de ações corretivas.
Os procedimentos serão apresentados utilizando os dados do arquivo Paises.sav, esse arquivo contém
algumas informações de uma amostra de 80 países, as variáveis são:
Código
Variável
POPULACAO
População em milhares
DENSIDADE
Pessoas/ km quadrado
URBANA
Pessoas vivendo em cidades (%)
VIDAFEM
Expectativa de vida das mulheres
VIDAMASC
Expectativa de vida dos homens
CRESPOP
Crescimento populacional anual (%)
MORTINF
Mortalidade infantil/ 1000 nascidos vivos
PIBCAPIT
PIB per capita
LEFEM
Mulheres alfabetizadas (%)
Na Figura 1 está uma reprodução parcial desse banco de dados.
Figura 1 – Ilustração do banco de dados
PARTE I
Avaliando linearidade: Análise Gráfica
A avaliação gráfica da linearidade é realizada através da análise do diagrama de dispersão, ou matriz de
dispersão, com possibilidade de inclusão de linha de tendência. Este gráfico é essencial para o estudo de
linearidade mas é útil apenas para a análise de linearidade entre duas variáveis. Na presença de mais de
duas variáveis (o que acontece na análise multivariada) podemos utilizar a matriz de dispersão.
1. Diagrama de dispersão com linha de tendência
SPSS.
Na Figura 2 são apresentados os passos para a construção do gráfico de dispersão utilizando o
Figura 2 – Menu de construção do diagrama de dispersão
Pela Figura 3 verifica-se que a relação entre as variáveis é linear e negativa, com o aumento da
proporção de pessoas que vivem na cidade observa-se uma tendência de redução da mortalidade infantil
no país e essa tendência pode ser descrita por uma reta.
Figura 3 – Diagrama de dispersão das variáveis Mortalidade Infantil e a % da população na área urbana
O SPSS possibilita a inclusão de linhas de tendência no gráfico, o que pode ajudar na análise da
linearidade. Na Figura 4 são apresentados os menus para inclusão da linha de tendência, para chegar a
esse menu clique duas vezes no gráfico na janela de Output do SPSS.
Figura 4 – Menu de inclusão de linha de tendência no diagrama de dispersão
Note que o SPSS apresenta algumas opções de linhas: a média de Y (linha paralela ao eixo X
correspondente a média da variável Y); tendência linear; tendência quadrática; tendência cúbica; e
tendência obtida através do método não paramétrico LOESS. O Excel oferece mais opções de linhas de
tendência além das polinomiais, nessa planilha é possível propor relações exponenciais, logarítmicas e
outras.
Figura 5 – Diagrama de dispersão com linha de tendência para as variáveis
Mortalidade Infantil e a % da população na área urbana
Como verificado anteriormente, a linearidade entre a mortalidade infantil e a porcentagem de
pessoas vivendo nas áreas urbanas é confirmada (Figura 5). A reta apresentada descreve o comportamento
geral dos dados e apresenta um coeficiente de determinação de 51,6%.
Considere agora as variáveis % da população na área urbana e expectativa de vida das mulheres do
país, o diagrama de dispersão para essas duas variáveis é apresentado na Figura 6. Neste caso verifica-se
que a relação é positiva mas a dispersão dos pontos apresenta uma curvatura.
Figura 6 – Diagrama de dispersão para as variáveis Expectativa de vida das mulheres e
% da população na área urbana
Para verificar a presença dessa curvatura podemos adicionar diferentes linhas de tendência no
gráfico e comparar os ajustes. Na Figura 7 são apresentadas duas linhas de tendência para esses dados,
tendência linear e quadrática, visualmente verifica-se que a tendência quadrática é mais apropriada pois
parece descrever melhor o comportamento dos dados. Na comparação dos coeficientes de determinação
verifica-se um aumento de 4,4% com a utilização do efeito quadrático.
Figura 7 – Diagramas de dispersão com linhas de tendência para as variáveis
Expectativa de vida das mulheres e % da população na área urbana
Uma transformação poderia ser proposta para esse caso, como a variável resposta apresenta
assimetria negativa a aplicação da transformação do tipo Raiz(C-X) poderia ser interessante. Na Figura 8 é
apresentado o gráfico com a variável VIDAFEM transformada, a transformação ajudou a “linearizar” a
relação.
Figura 8 – Diagramas de dispersão para as variáveis Expectativa de vida das mulheres transformada e
% da população na área urbana
2. Exemplo de transformação
Em um terceiro exemplo vamos estudar a relação entre a % da população na área urbana e o
produto interno bruto per capita (Figura 9).
Figura 9 – Diagramas de dispersão para as variáveis Produto Interno Bruto per Capita
e % da população na área urbana
A relação entre essas variáveis é nitidamente não linear. Além disso, verifica-se que a variável
PIBCAPIT apresenta forte assimetria. Na Figura 10 são apresentadas algumas linhas de tendência nos
diagramas de dispersão. Observação: o gráfico 9b foi feito no Excel.
120
URBANA
100
80
60
y = 13,763ln(x) - 35,567
R² = 0,3997
40
20
0
0
5000
10000
15000
20000
25000
PIBCAPIT
(b)
(a)
Figura 10 – Diagramas de dispersão com linha de tendência para as variáveis
Produto Interno Bruto per Capita e % da população na área urbana
A utilização da relação logarítmica neste caso foi mais eficaz que a relação linear. Como a relação
entre as variáveis é descrita por uma função logarítmica podemos propor uma transformação para que se
possa obter uma relação linear. Foi proposta então a transformação do logaritmo na base 10, o diagrama
de dispersão considerando a variável transformada é apresentado na Figura 11.
Figura 11 – Diagramas de dispersão para o logaritmo na base 10 do Produto Interno Bruto per Capita e
% da população na área urbana
A variável PIBCAPIT transformada apresenta relação linear com a variável URBANA. Além de
“linearizar” a relação entre as variáveis verifica-se também que a transformação também modificou o
valor do coeficiente de correlação de Pearson, entre PIBCAPIT e URBANA a correlação é de 0,598 e entre o
logaritmo de PIBCAPIT e URBANA é de 0,788 o que representa um aumento de 0,19 (Tabela 1).
Tabela 1:
Correlações entre variáveis
1. Matriz de dispersão
Esse gráfico pode ser útil quando o estudo de linearidade deve ser realizado em um grande número
de variáveis pois em apenas uma representação são avaliadas diversas relações. Na Figura 12 são
apresentados os menus utilizados e na Figura 13 o gráfico obtido.
Figura 12 – Menu da matriz de dispersão
Figura 13 – Matriz de dispersão
Os gráficos que compõem a matriz de dispersão são os mesmos obtidos a partir dos comandos do
diagrama de dispersão logo a análise é a mesma. Nesse gráfico também é possível inserir a linha de
tendência (da mesma forma apresentada anteriormente) e pode-se ainda inserir os histogramas das
variáveis na diagonal da matriz (Figura 14).
Figura 14 – Menu de inserção dos histogramas na matriz de dispersão
PARTE II
Avaliando linearidade: Regressão linear Simples
Os métodos gráficos apresentados acima podem não ser conclusivos pois são baseados em
observação de gráficos e comparação simples de valores. Em casos de dúvidas pode-se utilizar os
resultados do modelo de regressão linear simples para avaliar a linearidade entre duas variáveis.
São apresentadas a seguir algumas rotinas utilizando a análise de regressão linear simples com o
objetivo de avaliar a linearidade das relações, retomando os exemplos apresentados acima. No primeiro
exemplo foi avaliada a relação entre a mortalidade infantil e a % de pessoas que vivem em cidades (Figura
5). Nas Figuras 15 e 16 são apresentados os menus da análise de regressão e de apresentação dos gráficos
de resíduos.
Figura 15 – Menu de análise de regressão linear
Figura 16 – Menu de gráficos na análise de regressão linear
Pela Tabela 2 observa-se que a relação entre as variáveis é significativa (pelo p-valor assinalado) e
pela Figura 17 observa-se que a dispersão dos resíduos não apresenta tendências ou indícios de
heterocedasticidade. A relação entre as variáveis é significativa e a suposição de linearidade está
satisfeita.
Tabela 2
Resultados do modelo de regressão em MORTINF função de URBANA
Figura 17 – Diagrama de dispersão entre os resíduos e os valores ajustados para a variável dependente
No segundo exemplo foi avaliada a relação entre a expectativa de vida das mulheres e a % de
pessoas que vivem em cidades (Figuras 6 e 7). Os resultados anteriores indicavam uma possível relação
não linear, quadrática, entre as variáveis.
Foi ajustado inicialmente o modelo de VIDAFEM em função de URBANA, os resultados são
apresentado na Tabela 3. Observa-se também que a relação entre as variáveis é significativa (pelo p-valor
assinalado), entretanto pela Figura 18 observa-se que a dispersão dos resíduos apresenta uma curvatura.
Tabela 3
Resultados do modelo de regressão em VIDAFEM função de URBANA
Figura 18 – Diagrama de dispersão entre os resíduos e os valores ajustados para a variável dependente
A avaliação do gráfico é subjetiva, pode variar de pessoa para pessoa, logo é necessário o uso de
um resultado mais concreto. Uma forma de verificar se essa curvatura é realmente significativa é através
da entrada de um termo quadrático no modelo. O procedimento então é realizado da seguinte forma: uma
nova variável é gerada, a variável independente elevada ao quadrado, essa nova variável é introduzida no
modelo e a sua significância é avaliada através do teste de significância do seu coeficiente. Se o
coeficiente é significativo, a curvatura é significativa logo a relação não é linear, caso contrário o efeito
quadrático é descartado.
Para a geração da nova variável utilize os passos apresentados na Figura 19.
Figura 19 – Menu de geração da nova variável
O menu da nova análise de regressão é apresentado a seguir na Figura 20.
Figura 20 – Menu da nova análise de regressão
Os resultados são apresentados na Tabela 4 e Figura 21. O efeito quadrático é significativo pois o
p-valor associado ao teste de significância do coeficiente é 0,002, portanto a linearidade é descartada. Os
resíduos do novo modelo não apresentam qualquer tipo de tendência.
Tabela 4
Resultados do modelo de regressão em VIDAFEM função de URBANA e URBANA2
Figura 21 – Diagrama de dispersão entre os resíduos e os valores ajustados para as variáveis
dependentes a URBANA E URBANA2
No terceiro exemplo foi avaliada a relação entre a % de pessoas que vivem em cidades e o produto
interno bruto per capita (Figuras 9). Os resultados anteriores indicavam uma possível relação não linear,
logaritimica, entre as variáveis.
Foi ajustado inicialmente o modelo de URBANA em função de PIBCAPIT, os resultados são
apresentadoS na Tabela 5. Observa-se também que a relação entre as variáveis é significativa (pelo pvalor assinalado), entretanto pela Figura 22 observa-se que a dispersão dos resíduos apresenta uma
tendência.
Tabela 5
Resultados do modelo de regressão em URBANA em função de PIBCAPIT
Figura 22 – Diagrama de dispersão entre os resíduos e os valores ajustados para a variável dependente
Com a aplicação da transformação logarítmica proposta para variável PIBCAPIT temos os seguintes
resultados (Tabela 6 e Figura 23). A linearidade está presente na relação entre as variáveis uma vez que a
variável PIBCAPIT é transformada.
Tabela 6
Resultados do modelo de regressão em URBANA em função do Log10 de PIBCAPIT.
Figura 23 – Diagrama de dispersão entre os resíduos e os valores ajustados para a variável dependente
transformada
PARTE III
Avaliando linearidade: Teste Reset para modelos de regressão múltipla
No ajuste modelos de regressão múltipla a análise da linearidade pode ser realizada através de
testes. Alguns testes têm sido propostos para detectar a má especificação do modelo no que se refere ao
tipo de relação entre variáveis. O teste de erro de especificação da regressão (RESET) de Ramsey tem se
mostrado útil a esse respeito. Esse teste é interessante quando o número de variáveis independentes é
elevado.
Considere o modelo de regressão linear múltipla
, (Modelo 1)
que supõem que a relação da variável dependente com as variáveis independentes é linear. O teste RESET
adiciona polinômios de valores estimados de Y a essa equação para detectar tipos gerais de má
especificação da forma funcional. Para implementar o teste em geral são adicionados termos quadráticos
e cúbicos, essa procedimento tem apresentado resultados satisfatórios em grande parte das aplicações.
Seja o valor ajustado para a variável dependente em um ajuste inicial, o teste RESET é baseado
na equação expandida
. (Modelo 2)
Essa equação é um tanto estranha mas não estamos interessado nos valores obtidos ou parâmetros
estimados a partir dessa equação. Ela é utilizada apenas para identificar se a relação linear proposta está
correta, a hipótese de linearidade é a hipótese de que os parâmetros e
são nulos.
O teste então é baseado na estatística
,
onde
é a soma de quadrados dos resíduos do modelo 1,
é a soma de quadrado dos resíduos
do modelo 2, é o tamanho da amostra, é o número de variáveis independentes. Essa estatística tem
distribuição F com graus de liberdade no numerador e
no denominador.
Como exemplo, pode-se avaliar a forma funcional do modelo a seguir através do teste RESET
. (Modelo 1)
Passos para realização do teste:
Passo 1: O modelo 1 é ajustado e os valores previstos para a variável dependente são armazenados. A
soma de quadrados dos resíduos
é registrada.
Passo 2: O modelo 2 é ajustado utilizando os valores ajustados para a variável dependente obtidos no
passo 1. A soma de quadrados dos resíduos é registrada.
. (Modelo 2)
Passo 3: O valor observado da estatística F é calculado com os resultados dos passos 1 e 2. A partir do
valor da estatística o p-valor correspondente é calculado.
Passo 1: Ajuste do modelo 1
O modelo 1 é ajustado e os valores preditos para a variável VIDAFEM são armazenados. Na Figura
24 é apresentado o menu para armazenamento dos valores preditos.
Figura 24 – Menu para armazenamento dos valores preditos
O valor da soma de quadrados dos resíduos
é apresentado na saída do SPSS (Tabela 7).
Tabela 7
Resultados do modelo de regressão em VIDAFEM em função de URBANA, CRESPOP e logPIB.
Passo 2: Ajuste do modelo 2
O modelo 2 é ajustado com os valores preditos obtidos no passo 1 elevados ao quadrado e ao cubo.
Na Figura 25 é apresentado o menu da nova regressão.
Figura 25 – Menu para a nova regressão
Os resultados são apresentados na Tabela 8.
Tabela 8
Resultados do modelo de regressão em VIDAFEM em função de URBANA, CRESPOP e logPIB e os previstos.
Passo 2: Estatística F e p-valor
Neste caso temos
Para distribuição F2,74 e o valor obtido para a estatística, o p-valor é 0,003. Portanto a hipótese
nula de relação linear entre a variável dependente e as independentes é linear é rejeitada. O resultado do
teste indica a presença de alguma relação não linear mas não indica qual é, com a rejeição da hipótese
nula o pesquisador deve averiguar as relações separadamente e propor ações corretivas.
Download