Uploaded by António Durães

Análise de Correlações

advertisement
Análise de Dados
Análise de Correlação
Paula Rodrigues
2
Análise de Correlação
Quando se trabalha com duas variáveis, estamos muitas vezes
interessados em avaliar quer o tipo de relações existentes entre
estas, quer a magnitude (ou intensidade) e a direcção desta
associação ou correlação.
O coeficiente de correlação linear é uma estatística que
permite avaliar a magnitude e a direcção da associação ou
correlação existente entre duas variáveis.
Este coeficiente mede a associação entre duas variáveis sem
qualquer tipo de assunção de funcionalidade, isto é, nenhuma
das variáveis é tida como dependente da outra variável.
3
Análise da Correlação
Quando se fala em relações entre 2 fenómenos,
podemos ter 2 situações distintas:
 existe uma relação funcional entre as variáveis: o
valor de uma é exactamente determinado a partir do
valor da outra (exemplo: perímetro de uma
circunferência).
 as variáveis estão relacionadas, mas o valor de uma
não determina exactamente o valor da outra (exemplo:
em geral, a altura e o peso de uma pessoa estão
relacionados).
4
Análise da Correlação
Consideremos o segundo tipo de relação:
A altura e o peso das pessoas estão relacionados, no entanto, a
relação entre estes dois fenómenos não se pode representar por
uma fórmula, de tal modo que, se soubermos a altura de uma
pessoa possamos imediatamente saber o seu peso exacto ou viceversa.
Correlação
entre as variáveis
É possível utilizar métodos para avaliar a existência e o grau da
relação entre as duas variáveis (altura e peso) – é este o objectivo
da correlação.
5
Correlação Linear
A correlação linear procura medir a relação entre duas
variáveis X e Y através da disposição das observações
da variável (X, Y) em torno de uma recta.
Ao conjunto de pontos que representam as
observações (xi , yi ), i = 1,2,..., n , num sistema de eixos,
chama-se diagrama de dispersão.
6
Diagrama de Dispersão
Exemplo: Considere os seguintes dados, que representam o número de idas
mensais ao ginásio e a distância (em km) a que a casa dos os inquiridos se
encontra do ginásio:
Distância x (km)
N.º idas ao
ginásio
1
8
3
5
4
8
6
7
8
6
10
3
12
5
14
2
14
4
18
2
7
Tipos de Correlação
Correlação Linear Positiva:
A correlação entre 2 variáveis é considerada positiva
se, quando uma das variáveis varia num determinado
sentido, a outra tem tendência a variar nesse mesmo
sentido (isto é, se a valores crescentes de X estiverem
associados valores crescentes de Y, ou se a valores
decrescentes de X estiverem associados valores
decrescentes de Y).
8
Correlação Linear Positiva
9
Tipos de Correlação
Correlação Linear Negativa:
A correlação entre 2 variáveis é considerada negativa
se, quando uma das variáveis varia num determinado
sentido, a outra tem tendência a variar no sentido
contrário (isto é, se a valores crescentes de X
estiverem associados valores decrescentes de Y, ou se
a valores decrescentes de X estiverem associados
valores crescentes de Y).
10
Correlação Linear Negativa
11
Tipos de Correlação
Correlação Linear Nula:
A correlação entre 2 variáveis é considerada nula
quando não há relação linear entre as variáveis X e Y,
ou seja, quando os 2 fenómenos ocorrem de forma
independente.
12
Correlação Linear Nula
13
Coeficiente de Correlação Linear
Coeficiente de Correlação Linear:
Mede a correlação linear existente entre duas
variáveis X e Y, representa-se por e define-se por:
 (x − x )(y − y )
n
rXY =
i =1
i
i
 (x − x )   (y − y )
n
i =1
2
i
n
i =1
2
i
14
Coeficiente de Correlação Linear
O coeficiente de correlação linear varia entre -1 e 1,
sendo que:
 0  rXY  1  Correlação linear positiva
Se rXY = 1 , a correlação é positiva perfeita
(a relação linear entre as variáveis é exacta, todos os
pontos se situam sobre uma mesma recta, de declive
positivo)
15
Coeficiente de Correlação Linear
 − 1  rXY  0  Correlação linear negativa
Se rXY = −1 , a correlação é negativa perfeita
(a relação linear entre as variáveis é exacta, todos os
pontos se situam sobre uma mesma recta, de declive
negativo)
 rXY = 0  Correlação linear nula
16
Coeficiente de Correlação Linear
Aplicando as propriedades dos somatórios e a definição de valor
médio, o coeficiente de correlação pode ser escrito na seguinte
forma:
n
n
rXY =

n
 x  y
i
xi yi − i =1
i =1
i
i =1
n
2
2

 n
  
 n
 


  

 

x
y
i
i

   n

 
 n




2  i =1
2  i =1

 



xi −

yi −




n
n
 i =1
  i =1


 


 


 





=
S X ,Y
S X  SY
17
Coeficiente de Correlação Linear
Para efectuar os cálculos envolvidos na expressão do coeficiente
de correlação linear, é habitual construir-se uma tabela com todas
as quantidades necessárias à determinação do referido
coeficiente:
xi
yi
xi
2
yi




n
n
x
i =1
i
y
i =1
i
n
x
i =1
i
2
2

n
y
i =1
xi yi
i
2
n
x y
i =1
i
i
18
Coeficiente de Correlação Linear
Exercício:
A probabilidade de uma parturiente dar à luz um bebé m o síndrome de
Down aumenta significativamente com a idade. Numa determinada
maternidade obteve-se a seguinte informação:
X1 = Idade
X2 = Incidência do Síndrome de Down (%)
18
19
22
23
27
28
31
0,0348
0,0535
0,0504
0,0752
0,0746
0,1000
0,0945
Determine o coeficiente de correlação linear.
19
Coeficiente de Correlação Linear
Resolução:
7

7
x1i = 168
i =1

i =1
7
x2i = 0,483

i =1
7
 x x = 12,225
1i 2i
i =1
rx1 , x2 = 0,913
7
x12i = 4172

i =1
x22i = 0,03676
Download