Universidade de Brasília - Instituto de Psicologia - PPGA Programa de Pós-graduação em Psicologia Social, do Trabalho e das Organizações. Segundo Período Letivo de 2012 Disciplinas: Análises Multivariadas e Regressão Múltipla Roteiro para Estudo de linearidade Luís Gustavo Vinha Objetivo: O objetivo do presente trabalho é descrever as rotinas básicas e comandos para realização de estudo de utilizando o software SPSS, versão 18. A linearidade é uma suposição presente em todas as técnicas multivariadas baseadas em medidas correlacionais de associação. Como o coeficiente de correlação de Pearson quantifica a associação linear entre as variáveis, os efeitos não lineares não serão representados no valor da correlação, o que resulta em uma subestimação da força real da relação. Portanto, é sempre prudente examinar as relações entre as variáveis analisadas para identificar quaisquer desvios da linearidade que possam causar impacto na análise (Hair, 2005). São apresentadas a seguir algumas rotinas para verificação de linearidade e sugestões de ações corretivas. Os procedimentos serão apresentados utilizando os dados do arquivo Paises.sav, esse arquivo contém algumas informações de uma amostra de 80 países, as variáveis são: Código Variável POPULACAO População em milhares DENSIDADE Pessoas/ km quadrado URBANA Pessoas vivendo em cidades (%) VIDAFEM Expectativa de vida das mulheres VIDAMASC Expectativa de vida dos homens CRESPOP Crescimento populacional anual (%) MORTINF Mortalidade infantil/ 1000 nascidos vivos PIBCAPIT PIB per capita LEFEM Mulheres alfabetizadas (%) Na Figura 1 está uma reprodução parcial desse banco de dados. Figura 1 – Ilustração do banco de dados PARTE I Avaliando linearidade: Análise Gráfica A avaliação gráfica da linearidade é realizada através da análise do diagrama de dispersão, ou matriz de dispersão, com possibilidade de inclusão de linha de tendência. Este gráfico é essencial para o estudo de linearidade mas é útil apenas para a análise de linearidade entre duas variáveis. Na presença de mais de duas variáveis (o que acontece na análise multivariada) podemos utilizar a matriz de dispersão. 1. Diagrama de dispersão com linha de tendência SPSS. Na Figura 2 são apresentados os passos para a construção do gráfico de dispersão utilizando o Figura 2 – Menu de construção do diagrama de dispersão Pela Figura 3 verifica-se que a relação entre as variáveis é linear e negativa, com o aumento da proporção de pessoas que vivem na cidade observa-se uma tendência de redução da mortalidade infantil no país e essa tendência pode ser descrita por uma reta. Figura 3 – Diagrama de dispersão das variáveis Mortalidade Infantil e a % da população na área urbana O SPSS possibilita a inclusão de linhas de tendência no gráfico, o que pode ajudar na análise da linearidade. Na Figura 4 são apresentados os menus para inclusão da linha de tendência, para chegar a esse menu clique duas vezes no gráfico na janela de Output do SPSS. Figura 4 – Menu de inclusão de linha de tendência no diagrama de dispersão Note que o SPSS apresenta algumas opções de linhas: a média de Y (linha paralela ao eixo X correspondente a média da variável Y); tendência linear; tendência quadrática; tendência cúbica; e tendência obtida através do método não paramétrico LOESS. O Excel oferece mais opções de linhas de tendência além das polinomiais, nessa planilha é possível propor relações exponenciais, logarítmicas e outras. Figura 5 – Diagrama de dispersão com linha de tendência para as variáveis Mortalidade Infantil e a % da população na área urbana Como verificado anteriormente, a linearidade entre a mortalidade infantil e a porcentagem de pessoas vivendo nas áreas urbanas é confirmada (Figura 5). A reta apresentada descreve o comportamento geral dos dados e apresenta um coeficiente de determinação de 51,6%. Considere agora as variáveis % da população na área urbana e expectativa de vida das mulheres do país, o diagrama de dispersão para essas duas variáveis é apresentado na Figura 6. Neste caso verifica-se que a relação é positiva mas a dispersão dos pontos apresenta uma curvatura. Figura 6 – Diagrama de dispersão para as variáveis Expectativa de vida das mulheres e % da população na área urbana Para verificar a presença dessa curvatura podemos adicionar diferentes linhas de tendência no gráfico e comparar os ajustes. Na Figura 7 são apresentadas duas linhas de tendência para esses dados, tendência linear e quadrática, visualmente verifica-se que a tendência quadrática é mais apropriada pois parece descrever melhor o comportamento dos dados. Na comparação dos coeficientes de determinação verifica-se um aumento de 4,4% com a utilização do efeito quadrático. Figura 7 – Diagramas de dispersão com linhas de tendência para as variáveis Expectativa de vida das mulheres e % da população na área urbana Uma transformação poderia ser proposta para esse caso, como a variável resposta apresenta assimetria negativa a aplicação da transformação do tipo Raiz(C-X) poderia ser interessante. Na Figura 8 é apresentado o gráfico com a variável VIDAFEM transformada, a transformação ajudou a “linearizar” a relação. Figura 8 – Diagramas de dispersão para as variáveis Expectativa de vida das mulheres transformada e % da população na área urbana 2. Exemplo de transformação Em um terceiro exemplo vamos estudar a relação entre a % da população na área urbana e o produto interno bruto per capita (Figura 9). Figura 9 – Diagramas de dispersão para as variáveis Produto Interno Bruto per Capita e % da população na área urbana A relação entre essas variáveis é nitidamente não linear. Além disso, verifica-se que a variável PIBCAPIT apresenta forte assimetria. Na Figura 10 são apresentadas algumas linhas de tendência nos diagramas de dispersão. Observação: o gráfico 9b foi feito no Excel. 120 URBANA 100 80 60 y = 13,763ln(x) - 35,567 R² = 0,3997 40 20 0 0 5000 10000 15000 20000 25000 PIBCAPIT (b) (a) Figura 10 – Diagramas de dispersão com linha de tendência para as variáveis Produto Interno Bruto per Capita e % da população na área urbana A utilização da relação logarítmica neste caso foi mais eficaz que a relação linear. Como a relação entre as variáveis é descrita por uma função logarítmica podemos propor uma transformação para que se possa obter uma relação linear. Foi proposta então a transformação do logaritmo na base 10, o diagrama de dispersão considerando a variável transformada é apresentado na Figura 11. Figura 11 – Diagramas de dispersão para o logaritmo na base 10 do Produto Interno Bruto per Capita e % da população na área urbana A variável PIBCAPIT transformada apresenta relação linear com a variável URBANA. Além de “linearizar” a relação entre as variáveis verifica-se também que a transformação também modificou o valor do coeficiente de correlação de Pearson, entre PIBCAPIT e URBANA a correlação é de 0,598 e entre o logaritmo de PIBCAPIT e URBANA é de 0,788 o que representa um aumento de 0,19 (Tabela 1). Tabela 1: Correlações entre variáveis 1. Matriz de dispersão Esse gráfico pode ser útil quando o estudo de linearidade deve ser realizado em um grande número de variáveis pois em apenas uma representação são avaliadas diversas relações. Na Figura 12 são apresentados os menus utilizados e na Figura 13 o gráfico obtido. Figura 12 – Menu da matriz de dispersão Figura 13 – Matriz de dispersão Os gráficos que compõem a matriz de dispersão são os mesmos obtidos a partir dos comandos do diagrama de dispersão logo a análise é a mesma. Nesse gráfico também é possível inserir a linha de tendência (da mesma forma apresentada anteriormente) e pode-se ainda inserir os histogramas das variáveis na diagonal da matriz (Figura 14). Figura 14 – Menu de inserção dos histogramas na matriz de dispersão PARTE II Avaliando linearidade: Regressão linear Simples Os métodos gráficos apresentados acima podem não ser conclusivos pois são baseados em observação de gráficos e comparação simples de valores. Em casos de dúvidas pode-se utilizar os resultados do modelo de regressão linear simples para avaliar a linearidade entre duas variáveis. São apresentadas a seguir algumas rotinas utilizando a análise de regressão linear simples com o objetivo de avaliar a linearidade das relações, retomando os exemplos apresentados acima. No primeiro exemplo foi avaliada a relação entre a mortalidade infantil e a % de pessoas que vivem em cidades (Figura 5). Nas Figuras 15 e 16 são apresentados os menus da análise de regressão e de apresentação dos gráficos de resíduos. Figura 15 – Menu de análise de regressão linear Figura 16 – Menu de gráficos na análise de regressão linear Pela Tabela 2 observa-se que a relação entre as variáveis é significativa (pelo p-valor assinalado) e pela Figura 17 observa-se que a dispersão dos resíduos não apresenta tendências ou indícios de heterocedasticidade. A relação entre as variáveis é significativa e a suposição de linearidade está satisfeita. Tabela 2 Resultados do modelo de regressão em MORTINF função de URBANA Figura 17 – Diagrama de dispersão entre os resíduos e os valores ajustados para a variável dependente No segundo exemplo foi avaliada a relação entre a expectativa de vida das mulheres e a % de pessoas que vivem em cidades (Figuras 6 e 7). Os resultados anteriores indicavam uma possível relação não linear, quadrática, entre as variáveis. Foi ajustado inicialmente o modelo de VIDAFEM em função de URBANA, os resultados são apresentado na Tabela 3. Observa-se também que a relação entre as variáveis é significativa (pelo p-valor assinalado), entretanto pela Figura 18 observa-se que a dispersão dos resíduos apresenta uma curvatura. Tabela 3 Resultados do modelo de regressão em VIDAFEM função de URBANA Figura 18 – Diagrama de dispersão entre os resíduos e os valores ajustados para a variável dependente A avaliação do gráfico é subjetiva, pode variar de pessoa para pessoa, logo é necessário o uso de um resultado mais concreto. Uma forma de verificar se essa curvatura é realmente significativa é através da entrada de um termo quadrático no modelo. O procedimento então é realizado da seguinte forma: uma nova variável é gerada, a variável independente elevada ao quadrado, essa nova variável é introduzida no modelo e a sua significância é avaliada através do teste de significância do seu coeficiente. Se o coeficiente é significativo, a curvatura é significativa logo a relação não é linear, caso contrário o efeito quadrático é descartado. Para a geração da nova variável utilize os passos apresentados na Figura 19. Figura 19 – Menu de geração da nova variável O menu da nova análise de regressão é apresentado a seguir na Figura 20. Figura 20 – Menu da nova análise de regressão Os resultados são apresentados na Tabela 4 e Figura 21. O efeito quadrático é significativo pois o p-valor associado ao teste de significância do coeficiente é 0,002, portanto a linearidade é descartada. Os resíduos do novo modelo não apresentam qualquer tipo de tendência. Tabela 4 Resultados do modelo de regressão em VIDAFEM função de URBANA e URBANA2 Figura 21 – Diagrama de dispersão entre os resíduos e os valores ajustados para as variáveis dependentes a URBANA E URBANA2 No terceiro exemplo foi avaliada a relação entre a % de pessoas que vivem em cidades e o produto interno bruto per capita (Figuras 9). Os resultados anteriores indicavam uma possível relação não linear, logaritimica, entre as variáveis. Foi ajustado inicialmente o modelo de URBANA em função de PIBCAPIT, os resultados são apresentadoS na Tabela 5. Observa-se também que a relação entre as variáveis é significativa (pelo pvalor assinalado), entretanto pela Figura 22 observa-se que a dispersão dos resíduos apresenta uma tendência. Tabela 5 Resultados do modelo de regressão em URBANA em função de PIBCAPIT Figura 22 – Diagrama de dispersão entre os resíduos e os valores ajustados para a variável dependente Com a aplicação da transformação logarítmica proposta para variável PIBCAPIT temos os seguintes resultados (Tabela 6 e Figura 23). A linearidade está presente na relação entre as variáveis uma vez que a variável PIBCAPIT é transformada. Tabela 6 Resultados do modelo de regressão em URBANA em função do Log10 de PIBCAPIT. Figura 23 – Diagrama de dispersão entre os resíduos e os valores ajustados para a variável dependente transformada PARTE III Avaliando linearidade: Teste Reset para modelos de regressão múltipla No ajuste modelos de regressão múltipla a análise da linearidade pode ser realizada através de testes. Alguns testes têm sido propostos para detectar a má especificação do modelo no que se refere ao tipo de relação entre variáveis. O teste de erro de especificação da regressão (RESET) de Ramsey tem se mostrado útil a esse respeito. Esse teste é interessante quando o número de variáveis independentes é elevado. Considere o modelo de regressão linear múltipla , (Modelo 1) que supõem que a relação da variável dependente com as variáveis independentes é linear. O teste RESET adiciona polinômios de valores estimados de Y a essa equação para detectar tipos gerais de má especificação da forma funcional. Para implementar o teste em geral são adicionados termos quadráticos e cúbicos, essa procedimento tem apresentado resultados satisfatórios em grande parte das aplicações. Seja o valor ajustado para a variável dependente em um ajuste inicial, o teste RESET é baseado na equação expandida . (Modelo 2) Essa equação é um tanto estranha mas não estamos interessado nos valores obtidos ou parâmetros estimados a partir dessa equação. Ela é utilizada apenas para identificar se a relação linear proposta está correta, a hipótese de linearidade é a hipótese de que os parâmetros e são nulos. O teste então é baseado na estatística , onde é a soma de quadrados dos resíduos do modelo 1, é a soma de quadrado dos resíduos do modelo 2, é o tamanho da amostra, é o número de variáveis independentes. Essa estatística tem distribuição F com graus de liberdade no numerador e no denominador. Como exemplo, pode-se avaliar a forma funcional do modelo a seguir através do teste RESET . (Modelo 1) Passos para realização do teste: Passo 1: O modelo 1 é ajustado e os valores previstos para a variável dependente são armazenados. A soma de quadrados dos resíduos é registrada. Passo 2: O modelo 2 é ajustado utilizando os valores ajustados para a variável dependente obtidos no passo 1. A soma de quadrados dos resíduos é registrada. . (Modelo 2) Passo 3: O valor observado da estatística F é calculado com os resultados dos passos 1 e 2. A partir do valor da estatística o p-valor correspondente é calculado. Passo 1: Ajuste do modelo 1 O modelo 1 é ajustado e os valores preditos para a variável VIDAFEM são armazenados. Na Figura 24 é apresentado o menu para armazenamento dos valores preditos. Figura 24 – Menu para armazenamento dos valores preditos O valor da soma de quadrados dos resíduos é apresentado na saída do SPSS (Tabela 7). Tabela 7 Resultados do modelo de regressão em VIDAFEM em função de URBANA, CRESPOP e logPIB. Passo 2: Ajuste do modelo 2 O modelo 2 é ajustado com os valores preditos obtidos no passo 1 elevados ao quadrado e ao cubo. Na Figura 25 é apresentado o menu da nova regressão. Figura 25 – Menu para a nova regressão Os resultados são apresentados na Tabela 8. Tabela 8 Resultados do modelo de regressão em VIDAFEM em função de URBANA, CRESPOP e logPIB e os previstos. Passo 2: Estatística F e p-valor Neste caso temos Para distribuição F2,74 e o valor obtido para a estatística, o p-valor é 0,003. Portanto a hipótese nula de relação linear entre a variável dependente e as independentes é linear é rejeitada. O resultado do teste indica a presença de alguma relação não linear mas não indica qual é, com a rejeição da hipótese nula o pesquisador deve averiguar as relações separadamente e propor ações corretivas.