Análise de Dados Análise de Correlação Paula Rodrigues 2 Análise de Correlação Quando se trabalha com duas variáveis, estamos muitas vezes interessados em avaliar quer o tipo de relações existentes entre estas, quer a magnitude (ou intensidade) e a direcção desta associação ou correlação. O coeficiente de correlação linear é uma estatística que permite avaliar a magnitude e a direcção da associação ou correlação existente entre duas variáveis. Este coeficiente mede a associação entre duas variáveis sem qualquer tipo de assunção de funcionalidade, isto é, nenhuma das variáveis é tida como dependente da outra variável. 3 Análise da Correlação Quando se fala em relações entre 2 fenómenos, podemos ter 2 situações distintas: existe uma relação funcional entre as variáveis: o valor de uma é exactamente determinado a partir do valor da outra (exemplo: perímetro de uma circunferência). as variáveis estão relacionadas, mas o valor de uma não determina exactamente o valor da outra (exemplo: em geral, a altura e o peso de uma pessoa estão relacionados). 4 Análise da Correlação Consideremos o segundo tipo de relação: A altura e o peso das pessoas estão relacionados, no entanto, a relação entre estes dois fenómenos não se pode representar por uma fórmula, de tal modo que, se soubermos a altura de uma pessoa possamos imediatamente saber o seu peso exacto ou viceversa. Correlação entre as variáveis É possível utilizar métodos para avaliar a existência e o grau da relação entre as duas variáveis (altura e peso) – é este o objectivo da correlação. 5 Correlação Linear A correlação linear procura medir a relação entre duas variáveis X e Y através da disposição das observações da variável (X, Y) em torno de uma recta. Ao conjunto de pontos que representam as observações (xi , yi ), i = 1,2,..., n , num sistema de eixos, chama-se diagrama de dispersão. 6 Diagrama de Dispersão Exemplo: Considere os seguintes dados, que representam o número de idas mensais ao ginásio e a distância (em km) a que a casa dos os inquiridos se encontra do ginásio: Distância x (km) N.º idas ao ginásio 1 8 3 5 4 8 6 7 8 6 10 3 12 5 14 2 14 4 18 2 7 Tipos de Correlação Correlação Linear Positiva: A correlação entre 2 variáveis é considerada positiva se, quando uma das variáveis varia num determinado sentido, a outra tem tendência a variar nesse mesmo sentido (isto é, se a valores crescentes de X estiverem associados valores crescentes de Y, ou se a valores decrescentes de X estiverem associados valores decrescentes de Y). 8 Correlação Linear Positiva 9 Tipos de Correlação Correlação Linear Negativa: A correlação entre 2 variáveis é considerada negativa se, quando uma das variáveis varia num determinado sentido, a outra tem tendência a variar no sentido contrário (isto é, se a valores crescentes de X estiverem associados valores decrescentes de Y, ou se a valores decrescentes de X estiverem associados valores crescentes de Y). 10 Correlação Linear Negativa 11 Tipos de Correlação Correlação Linear Nula: A correlação entre 2 variáveis é considerada nula quando não há relação linear entre as variáveis X e Y, ou seja, quando os 2 fenómenos ocorrem de forma independente. 12 Correlação Linear Nula 13 Coeficiente de Correlação Linear Coeficiente de Correlação Linear: Mede a correlação linear existente entre duas variáveis X e Y, representa-se por e define-se por: (x − x )(y − y ) n rXY = i =1 i i (x − x ) (y − y ) n i =1 2 i n i =1 2 i 14 Coeficiente de Correlação Linear O coeficiente de correlação linear varia entre -1 e 1, sendo que: 0 rXY 1 Correlação linear positiva Se rXY = 1 , a correlação é positiva perfeita (a relação linear entre as variáveis é exacta, todos os pontos se situam sobre uma mesma recta, de declive positivo) 15 Coeficiente de Correlação Linear − 1 rXY 0 Correlação linear negativa Se rXY = −1 , a correlação é negativa perfeita (a relação linear entre as variáveis é exacta, todos os pontos se situam sobre uma mesma recta, de declive negativo) rXY = 0 Correlação linear nula 16 Coeficiente de Correlação Linear Aplicando as propriedades dos somatórios e a definição de valor médio, o coeficiente de correlação pode ser escrito na seguinte forma: n n rXY = n x y i xi yi − i =1 i =1 i i =1 n 2 2 n n x y i i n n 2 i =1 2 i =1 xi − yi − n n i =1 i =1 = S X ,Y S X SY 17 Coeficiente de Correlação Linear Para efectuar os cálculos envolvidos na expressão do coeficiente de correlação linear, é habitual construir-se uma tabela com todas as quantidades necessárias à determinação do referido coeficiente: xi yi xi 2 yi n n x i =1 i y i =1 i n x i =1 i 2 2 n y i =1 xi yi i 2 n x y i =1 i i 18 Coeficiente de Correlação Linear Exercício: A probabilidade de uma parturiente dar à luz um bebé m o síndrome de Down aumenta significativamente com a idade. Numa determinada maternidade obteve-se a seguinte informação: X1 = Idade X2 = Incidência do Síndrome de Down (%) 18 19 22 23 27 28 31 0,0348 0,0535 0,0504 0,0752 0,0746 0,1000 0,0945 Determine o coeficiente de correlação linear. 19 Coeficiente de Correlação Linear Resolução: 7 7 x1i = 168 i =1 i =1 7 x2i = 0,483 i =1 7 x x = 12,225 1i 2i i =1 rx1 , x2 = 0,913 7 x12i = 4172 i =1 x22i = 0,03676