Uploaded by Manuel Elias Leonardo Espinoza Challco

Análisis de Regresión - Correlación

advertisement
BIOESTADÍSTICA
DISTRIBUCIÓN BIDIMENSIONAL
Si a cada unidad estadística se le observa simultáneamente dos variables cuantitativas entonces se
obtiene dos series de datos emparejados. En este caso con frecuencia se desea conocer si ambas variables
están relacionadas o si son independientes.
Unidad estadística
Variable 𝑋
Variable π‘Œ
1
π‘₯1
𝑦1
2
π‘₯2
𝑦2
3
π‘₯3
𝑦3
…
…
…
n
π‘₯𝑛
𝑦𝑛
Es decir, se tiene n observaciones bidimensionales:
(π‘Ώπ’Š , π’€π’Š ): (π‘ΏπŸ , π’€πŸ ); (π‘ΏπŸ , π’€πŸ ); (π‘ΏπŸ‘ , π’€πŸ‘ ); … ; (𝑿𝒏 , 𝒀𝒏 )
Diagrama de Dispersión.- Es una gráfica de puntos representados en el plano cartesiano, donde se
ubica
como
pares
ordenados
o
puntos,
de
la
siguiente
forma:
(𝒙, π’š) =
(π’—π’‚π’“π’Šπ’‚π’ƒπ’π’† π’Šπ’π’…π’†π’‘π’†π’π’…π’Šπ’†π’π’•π’†, π’—π’‚π’“π’Šπ’‚π’ƒπ’π’† π’…π’†π’‘π’†π’π’…π’Šπ’†π’π’•π’†) de la muestra observada. En el eje X se ubica la
variable independiente y en el eje Y se ubica la variable dependiente.
Este conjunto de puntos (π‘Ώπ’Š , π’€π’Š ) se llama “diagrama de esparcimiento”, “diagrama de dispersión”,
“dispersigrama” o ”nube de puntos”. El diagrama de dispersión puede tomar diferentes formas:
1
BIOESTADÍSTICA
ANALISIS DE REGRESIÓN
El análisis de regresión es un proceso que permite establecer una relación funcional o ecuación
matemática entre dos variables, así como la fuerza de esa relación. En la terminología de la regresión,
hay dos tipos de variables: variable dependiente y variable independiente.
Variable Independiente.- Es la variable o las variables que se usan para predecir el valor de la
variable dependiente y se denota por 𝑋. Las variables independientes se denominan variables
predictores, regresores o exógenas.
Variable Dependiente.- Es la variable que se va a predecir, explicar y se denota por “Y”. Esta variable
está influenciado por los valores tomados por una o más variables independientes diferentes. La variable
aleatoria Y se denomina variable respuesta o endógena.
Según la forma del diagrama de dispersión; podemos pensar en un modelo matemático que mejor
describa la relación existente entre X e Y. El objetivo del análisis regresión es el de predicción de una
variable basándonos en el conocimiento de otra. Existen varias formas en que las variables se pueden
relacionar,
a) Relación lineal directa.- Se caracteriza porque, cuando el valor de la variable X aumenta (o crece),
la variable dependiente Y también aumenta y porque los puntos forman una línea recta.
2
BIOESTADÍSTICA
b) Relación lineal inversa.- Se caracteriza porque, cuando el valor de la variable X aumenta (o crece),
la variable dependiente Y disminuye (o decrece) y porque los puntos forman una línea recta.
c) Relación no lineal directa.- Se caracteriza porque, cuando el valor de la variable X aumenta (o
crece), la variable dependiente Y también aumenta y porque los puntos forman una curva.
d) Relación no lineal inversa.- Se caracteriza porque, cuando el valor de la variable X aumenta (o
crece), la variable dependiente Y disminuye (o decrece) y porque los puntos forman una curva.
3
BIOESTADÍSTICA
REGRESIÓN LINEAL SIMPLE.- Es la relación que se aproxima por medio de una línea recta. El
modelo de regresión lineal simple (población 𝑡) es:
𝒀 = 𝜢 + πœ·π’™ + 𝒆
Dónde: x es la variable independiente.
y: variable dependiente.
𝛼: Es el intercepto de la recta en el eje Y.
𝛽: Es la pendiente de la recta.
𝑒: Error aleatorio y cumple los siguientes supuestos:
SUPUESTOS DEL MODELO REGRESIÓN
οƒ˜ Cada error 𝒆 está normalmente distribuido con:
οƒ˜ Esperanza o el promedio de los errores igual a cero, es decir 𝐸(𝑒𝑖 ) = πœ‡π‘’ = 0
οƒ˜ Varianza de los errores igual a una constante 𝝈𝟐
οƒ˜ Covarianza de los errores π‘ͺπ’π’—π’‚π’“π’Šπ’‚π’π’›π’‚(π’†π’Š , 𝒆𝒋 ) = 𝟎 para todo 𝑖 ≠ 𝑗
ECUACIÓN ESTIMADA DE REGRESIÓN LINEAL: Los valores 𝜢 y 𝜷 se llaman parámetros del
modelo y generalmente no se conocen y deben estimarse a partir de los datos de la muestra. Estos
parámetros se calculan usando las observaciones de la muestra y son valores conocidos como
estimadores de los parámetros.
Μ‚ = 𝒂 + 𝒃𝒙
π’š
4
BIOESTADÍSTICA
Dónde
𝑦̂: Valor predicho o valor estimado
π‘₯: Variable independiente
π‘Ž: Intercepto de la recta con el eje Y.
𝑏: Pendiente de la recta de regresión estimada.
Rectas posibles de regresión en la regresión lineal simple
METODO DE MÍNIMOS CUADRADOS PARA ESTIMAR 𝒂 𝐲 𝒃
5
BIOESTADÍSTICA
Ejemplo:
Este método emplea los datos de la muestra para determinar las características de la recta que hacen
mínima la suma de los cuadrados de las desviaciones:
𝒏
π’Žπ’Šπ’π’Šπ’Žπ’Šπ’›π’‚π’“ ∑(π’†π’Š
𝒏
)𝟐
Μ‚π’Š )𝟐
= π’Žπ’Šπ’π’Šπ’Žπ’Šπ’›π’‚π’“ ∑(π’šπ’Š − π’š
π’Š=𝟏
π’Š=𝟏
Donde:
π’šπ’Š : Valor observado de la variable dependiente para la i − esima observación
π’šΜ‚π’Š : Valor estimado de la variable dependiente para la i − esima observacion.
Μ‚ = 𝒂 + 𝒃𝒙
Reemplazando π’š
𝒏
𝒏
Μ‚π’Š )𝟐 = π’Žπ’Šπ’ ∑(π’šπ’Š − (𝒂 + 𝒃𝒙))𝟐
π’Žπ’Šπ’ ∑(π’šπ’Š − π’š
π’Š=𝟏
π’Š=𝟏
Minimizar la ecuación del lado derecho de la ecuación anterior implica calcular las derivadas
parciales de la expresión con respecto a los coeficientes de regresión e igualar a cero las dos derivadas.
Al finalizar este procedimiento se llega a las siguientes ecuaciones, conocidas como ecuaciones normales.
𝑛
𝑛
∑ 𝑦𝑖 = π‘›π‘Ž + 𝑏 ∑ π‘₯𝑖
𝑖=1
𝑛
𝑛
𝑛
∑ π‘₯𝑖 𝑦𝑖 = π‘Ž ∑ π‘₯𝑖 + 𝑏 ∑ π‘₯𝑖 2
;
𝑖=1
𝑖=1
𝑖=1
𝑖=1
De donde se obtiene:
Μ… − 𝒃𝒙
Μ…
𝒂=π’š
𝒃=
𝒏 ∑π’π’Š=𝟏 π’™π’Š π’šπ’Š − (∑π’π’Š=𝟏 π’™π’Š )(∑π’π’Š=𝟏 π’šπ’Š )
𝟐
𝒏 ∑π’π’Š=𝟏 π’™π’Š 𝟐 − (∑π’π’Š=𝟏 π’™π’Š )
∑π’π’Š=𝟏 π’™π’Š π’šπ’Š − 𝒏 Μ…
Μ…
π’™π’š
=
𝒏
∑π’Š=𝟏 π’™π’Š 𝟐 − 𝒏𝒙
Μ…πŸ
INTERPRETACIÓN DE LOS ESTIMADORES
οƒΌ 𝒂: Cuando la variable independiente π‘₯ es cero, la variable dependiente 𝑦 es 𝒂 unidades.
οƒΌ El coeficiente 𝒃 corresponde a la pendiente de la recta. En general, este coeficiente expresa la
razón de cambio entre la variable dependiente con respecto a un cambio unitario en la variable
independiente. “Es decir si la variable independiente 𝒙 aumenta en una unidad entonces
la variable dependiente π’š puede aumentar o disminuir 𝒃 unidades, dependiendo del
signo de 𝒃.”
6
BIOESTADÍSTICA
Ejercicio 1.- La distribución de edades y presión arterial de 10 estudiantes es:
a) Construir el diagrama de dispersión e indicar qué relación existe entre la edad y la presión
arterial.
b) Calcular la ecuación de regresión estimada.
c) Interpretar los coeficientes de la ecuación 𝒂 π’š 𝒃.
d) Estimar o pronosticar la presión arterial de una persona de 60 años.
n
1
2
3
4
5
6
6
7
9
10
SUMA
Edad X
30
28
35
42
51
42
63
32
70
67
460
Presión arterial Y
11.5
11.3
12.5
13.5
14.6
13.0
16.6
12.0
16.9
17.0
138.9
π’™π’Š ∗ π’šπ’Š
345.0
316.4
437.5
567.0
744.6
546.0
1045.8
384.0
1183.0
1139.0
6708.3
π’™πŸπ’Š
900
784
1225
1764
2601
1764
3969
1024
4900
4489
23420
Presión arterial
a) Diagrama de dispersión
18
16
14
12
10
8
6
4
2
0
0
10
20
30
40
Edad
50
60
70
80
Existe una relación lineal directa entre la edad y la presión arterial, además se observa que los puntos
forman una línea recta, en consecuencia la pendiente 𝒃 > 𝟎 es positiva.
b) Calcular la ecuación de regresión estimada.
460
138.9
= 46 π‘Žñπ‘œπ‘  ; 𝑦̅ =
= 13.89
10
10
∑π’π’Š=𝟏 π’™π’Š π’šπ’Š − 𝒏 𝒙
Μ…π’š
Μ… πŸ”πŸ•πŸŽπŸ–. πŸ‘ − 𝟏𝟎(πŸ’πŸ”)(πŸπŸ‘. πŸ–πŸ—) 318.9
𝑏=
=
=
= 𝟎. πŸπŸ’πŸπŸ > 𝟎
𝒏
𝟐
𝟐
πŸπŸ‘πŸ’πŸπŸŽ − 𝟏𝟎(πŸ’πŸ”)𝟐
2260
∑π’Š=𝟏 π’™π’Š − 𝒏𝒙
Μ…
π‘₯Μ… =
π‘Ž = 𝑦̅ − 𝑏π‘₯Μ… = 13.89 − 0.1411(46) = πŸ•. πŸ‘πŸ—πŸ—πŸ
7
Presión arterial
BIOESTADÍSTICA
20
18
16
14
12
10
8
6
4
2
0
y = 0.1411x + 7.3991
R² = 0.9901
0
10
20
30
40
Edad
50
60
70
80
La ecuación de regresión estimada es:
Μ‚ = πŸ•. πŸ‘πŸ—πŸ—πŸ + 𝟎. πŸπŸ’πŸπŸπ’™
π’š
π‘ƒπ‘Ÿπ‘’π‘ π‘–π‘œπ‘› π‘Žπ‘Ÿπ‘‘π‘’π‘Ÿπ‘–π‘Žπ‘™ = 7.3991 + 0.1411(πΈπ‘‘π‘Žπ‘‘)
INTERPRETACIÓN
𝒂 = πŸ•. πŸ‘πŸ—πŸ—πŸ . Cuando la edad es cero entonces la presión arterial es 7.3991 unidades.
𝒃 = 𝟎. πŸπŸ’πŸπŸ > 𝟎 Si la edad aumenta en un año entonces la presión arterial aumenta en 0.1411
unidades.
c) Estimar o pronosticar la presión arterial de una persona de 60 años.
𝑦̂ = π‘Ž + 𝑏π‘₯ = 7.3991 + 0.1411(Edad) = 7.3991 + 0.1411(60) = 15.85.
Cuando la edad de una persona es 60 años, la presión arterial esperada es 15.85.
Ejercicio 2. Pesos de automóviles (libras) y consumo de combustible (mi/gal). Analice los
siguientes datos.
Peso X
Consumo Y
3175
27
3450
29
3225
27
3985
24
2440
37
2500
34
2290
37
8
BIOESTADÍSTICA
Solución
a) Trazar el diagrama de esparcimiento (dispersión).
40
Consumo (mi/gal)
35
30
25
20
15
10
5
0
0
500
1000
1500
2000
2500
3000
3500
4000
4500
Peso (libras)
Existe una tendencia decreciente entre peso del automóvil y el consumo de combustible. Es decir existe
una relación inversa entre el peso del automóvil y el consumo de combustible. Esto significa que,
cuando el peso del automóvil crece entonces el consumo de combustible decrece (𝒃 < 𝟎).
b) Determine la ecuación estimada de regresión lineal e interprete los coeficientes.
40
Consumo (mi/gal)
35
y = -0.008x + 54.695
R² = 0.891
30
25
20
15
10
5
0
0
500
1000
1500
2000
2500
3000
3500
4000
4500
Peso (libras)
Interpretación
𝒂 = πŸ“πŸ’. πŸ”πŸ—πŸ“
Cuando el peso del automóvil es 0, entonces el consumo de combustible es 54.695 mi/gal.
𝒃 = −𝟎. πŸŽπŸŽπŸ– < 𝟎
Si el peso del automóvil aumenta en una libra, entonces el consumo de combustible disminuye
en 0.008 mi/gal.
Por cada libra que aumenta el peso del automóvil, el consumo de combustible disminuye en
0.008 mi/gal.
9
BIOESTADÍSTICA
VARIANZA DE LA ECUACIÓN DE REGRESIÓN
∑π’π’Š=𝟏(π’šπ’Š − π’š
Μ‚π’Š )𝟐
𝑺π‘ͺ𝑬
𝒔 =
=
𝒏−𝟐
𝒏−𝟐
𝟐
DESVIACIÓN ESTANDAR DE LA ECUACIÓN DE REGRESIÓN: La desviación estándar de la
ecuación estimada, denotado por 𝑠𝑒 es una medida de las diferencias (o distancias) entre los valores
Μ‚ que se obtiene por medio de la ecuación de
muestrales observados de π’š y los valores predichos π’š
regresión. Está dado por:
∑(π’š − π’š
Μ‚)𝟐
𝑺π‘ͺ𝑬
𝒔𝒆 = √π’”πŸ = √
=√
𝒏−𝟐
𝒏−𝟐
𝒐
∑ π’šπŸ − 𝒂 ∑ π’š − 𝒃 ∑ π’™π’š
𝒔𝒆 = √
𝒏−𝟐
Ejercicio 3.- El ingreso anual de 5 empresas en millones de soles y el número de empleados de
empleados en miles, se muestran en la siguiente tabla. Calcular la varianza y la desviación estándar.
# de empleados X
Ingresos anual Y
Μ‚π’Š = 𝟎. πŸ”πŸπŸ’πŸ’ + 𝟎. πŸπŸ‘πŸ‘πŸ“π’™π’Š
π’š
Μ‚π’Š
π’†π’Š = π’šπ’Š − π’š
(π’šπ’Š − π’š
Μ‚π’Š )𝟐
16
5.7
2.7604
2.9396
8.64124816
29
3.8
4.4959
-0.6959
0.48427681
17
1.9
2.8939
-0.9939
0.98783721
6
1.0
1.4254
-0.4254
0.18096516
9
1.0
1.8259
-0.8259
0.68211081
sumatorias
10.9764382
10
Ingreso anual (millones de
s./)
BIOESTADÍSTICA
6
5
4
3
2
1
0
0
5
10
15
20
25
Número de empleados (miles)
30
35
Existe una tendencia creciente entre el número de empleados y el ingreso anual. Es decir existe una
relación directa entre el número de empleados y el ingreso anual. Esto significa que, cuando el número
Ingreso anual (millones de s./)
de empleados crece entonces el ingreso anual crece (𝒃 > 𝟎).
6
5
y = 0.1335x + 0.6244
R² = 0.3399
4
3
2
1
0
0
5
10
15
20
25
Número de empleados (miles)
30
35
Interpretación
𝒂 = 𝟎. πŸ”πŸπŸ’πŸ’
Cuando el número de empleados es 0, entonces el ingreso anual es 0.6244 millones de soles.
𝒃 = 𝟎. πŸπŸ‘πŸ‘πŸ“ > 𝟎
Si el número de empleados aumenta en 1000, entonces el ingreso anual aumenta en 0.1335
millones de soles.
La varianza de la regresión es:
∑π’π’Š=𝟏(π’šπ’Š − π’š
Μ‚π’Š )𝟐 𝟏𝟎. πŸ—πŸ•πŸ”πŸ’
𝑺π‘ͺ𝑬
𝒔 =
=
=
= πŸ‘. πŸ”πŸ“πŸ–πŸ– (π’Žπ’Šπ’π’π’π’π’†π’” 𝒅𝒆 𝒔𝒐𝒍𝒆𝒔)𝟐
𝒏−𝟐
𝒏−𝟐
πŸ“−𝟐
𝟐
La desviación estándar o error típico es:
𝑺π‘ͺ𝑬
𝒔𝒆 = √
= √πŸ‘. πŸ”πŸ“πŸ–πŸ–π’Žπ’Šπ’π’π’π’π’†π’” 𝒅𝒆 π’”π’π’π’†π’”πŸ = 𝟏. πŸ—πŸπŸπŸ– π’Žπ’Šπ’π’π’π’π’†π’” 𝒅𝒆 𝒔𝒐𝒍𝒆𝒔
𝒏−𝟐
11
BIOESTADÍSTICA
ANÁLISIS DE CORRELACIÓN
Es el método empleado para determinar el grado de relación entre las variables que se estudian
para así determinar en qué medida una relación funcional describe o explica de una forma adecuada la
relación entre estas variables.
Fuerza de la correlación: Es la cercanía en los cambios de ambas variables. A mayor correlación, más
tienden a formar una línea recta en el diagrama de dispersión.
COVARIANZA: La covarianza es un valor que indica el grado de variación conjunta de dos variables
aleatorias respecto a sus medias. Es el dato básico para determinar si existe una dependencia entre
ambas variables y además es el dato necesario para estimar otros parámetros básicos, como el coeficiente
de correlación lineal o la recta de regresión.
Covarianza de la población
𝒏
𝟏
Μ…)(π’šπ’Š − π’š
Μ…)
π‘ͺ𝒐𝒗(𝑿, 𝒀) = πˆπ’™π’š = ∑(π’™π’Š − 𝒙
𝑡
π’Š=𝟏
Covarianza muestral. La covarianza de la muestra de una variable aleatoria bidimensional (π‘₯, 𝑦) se
define como el promedio de los productos de las respectivas desviaciones respecto de las medias de
𝒏
𝟏
Μ…)(π’šπ’Š − π’š
Μ…)
π‘Ίπ’™π’š =
∑(π’™π’Š − 𝒙
𝒏−𝟏
π’Š=𝟏
𝑛
1
π‘Ίπ’™π’š =
∑(π‘₯𝑖 𝑦𝑖 − 𝑛π‘₯Μ… 𝑦̅)
𝑛−1
𝑖=1
𝒐
∑𝑛𝑖=1 π‘₯𝑖 𝑦𝑖
π‘Ίπ’™π’š =
− π‘₯Μ… 𝑦̅
𝑛
La covarianza sirve para estudiar la relación lineal entre dos variables:
Si 𝑆π‘₯𝑦 > 0 existe una relación lineal creciente.
Si 𝑆π‘₯𝑦 < 0 existe una relación lineal decreciente.
Si 𝑆π‘₯𝑦 = 0 no existe una relación lineal.
12
BIOESTADÍSTICA
Coeficiente de Correlación Lineal Simple 𝒓: (Coeficiente de Pearson): Indica si hay relación
lineal entre dos variables y el grado de esta relación (alta, baja o nula). Permite contestar ¿qué tan
estrecha es la relación entre X e Y?
Coeficiente de correlación poblacional
𝝆=
π‘ͺ𝒐𝒗(𝑿, 𝒀)
πˆπ’™ 𝝈 π’š
Coeficiente de correlación muestral
𝒓=
𝒓=
∑π’π’Š=𝟏(π’™π’Š − 𝒙
Μ…)(π’šπ’Š − π’š
Μ…)
Μ…)𝟐 √∑π’π’Š=𝟏(π’šπ’Š − π’š
Μ…)𝟐
√∑π’π’Š=𝟏(π’™π’Š − 𝒙
π‘Ίπ’™π’š
𝑺𝒙 π‘Ίπ’š
𝒏 ∑π’π’Š=𝟏 π’™π’Š π’šπ’Š − ∑π’π’Š=𝟏 π’™π’Š ∑π’π’Š=𝟏 π’šπ’Š
=
√𝒏 ∑π’π’Š=𝟏 π’™π’Š 𝟐 − (∑π’π’Š=𝟏 π’™π’Š )𝟐 √𝒏 ∑π’π’Š=𝟏 π’šπ’Š 𝟐 − (∑π’π’Š=𝟏 π’šπ’Š )𝟐
El signo de 𝒓 tiene que ver sólo con la dirección de la relación entre dos variables, ya sea directa o inversa
y la magnitud del coeficiente tiene que ver con la intensidad o estrechez de la relación. El valor de 𝒓
puede ser positivo, negativo o cero.
Propiedades del coeficiente de correlación
1. Este número no tiene dimensiones y su valor esta entre −𝟏 ≤ π’“π’™π’š ≤ +𝟏.
2. Los valores extremos +1 y -1 se alcanzan solamente si todos los datos se sitúan exactamente sobre
una recta.
3. Si el coeficiente de correlación lineal toma valores cercanos a +𝟏 la correlación es fuerte y directa,
y será tanto más fuerte cuanto más se aproxime r a +𝟏.
4. Si el coeficiente de correlación lineal toma valores cercanos a 0, la correlación es débil.
5. El signo de r tiene que ver sólo con la dirección de la relación entre dos variables, ya sea directa o
inversa y la magnitud del coeficiente tiene que ver con la intensidad o estrechez de la relación.
6. Todo 𝒓 ≠ 𝟎 indica cierto grado de relación entre dos variables. Una correlación baja no siempre
significa ausencia de relación ya que puede existir una correlación curvilínea muy estrecha.
13
BIOESTADÍSTICA
INTERPRETACIÓN
Valor
Significado
-1
Correlación negativa perfecta
-0.70 a -0.99
Correlación negativa alta
-0.50 a -0.69
Correlación negativa moderada
-0,20 a -0.49
Correlación negativa baja
-0.01 a -0.19
Correlación negativa muy baja
0
No
es
recomendable
aplicar regresión lineal
Correlación nula
+0.01 a +0.19
Correlación positiva muy baja
+0,20 a +0.49
Correlación positiva baja
+0.50 a +0.69
Correlación positiva moderada
+0.70 a +0.99
Correlación positiva alta
+1
Correlación positiva perfecta
Ejercicio 1: Una encuesta entre vendedores de autos usados para determinar la relación entre la
cantidad de anuncios clasificados y la venta de autos usados, dio los siguientes resultados del número
de avisos clasificados y el número de automóviles usados vendidos para cada uno de los negocios que no
utilizaron ningún otro medio publicitario.
n
1
2
3
4
5
6
Nº Anuncios clasificados:
74
45
50
38
29
17
14
Nº Autos vendidos:
139
110
95
78
60
54
BIOESTADÍSTICA
Calcular e interpretar el coeficiente de correlación.
Sea Y: Nº Autos vendidos y X: Nº Anuncios clasificados
N° de autos vendidos
Solución
160
140
120
100
80
60
40
20
0
0
10
20
30
40
50
N° de anuncios clasificados
60
70
80
Existe una correlación negativa.
n
1
2
3
4
5
6
Sumas
N° de anuncios clasificados X
74
45
50
38
29
17
253
N° de autos vendidos Y
139
110
95
78
60
54
536
𝒏 ∑π’π’Š=𝟏 π’™π’Š π’šπ’Š − ∑π’π’Š=𝟏 π’™π’Š ∑π’π’Š=𝟏 π’šπ’Š
𝒓=
=
√𝒏 ∑π’π’Š=𝟏 π’™π’Š 𝟐 − (∑π’π’Š=𝟏 π’™π’Š )𝟐 √𝒏 ∑π’π’Š=𝟏 π’šπ’Š 𝟐 − (∑π’π’Š=𝟏 π’šπ’Š )𝟐
XY
10286
4950
4750
2964
1740
918
25608
π’™π’Š 𝟐
5476
2025
2500
1444
841
289
12575
π’šπ’Š 𝟐
19321
12100
9025
6084
3600
2916
53046
πŸ”(πŸπŸ“πŸ”πŸŽπŸ–) − (πŸπŸ“πŸ‘)(πŸ“πŸ‘πŸ”)
√πŸ”(πŸπŸπŸ“πŸ•πŸ“) − (πŸπŸ“πŸ‘)𝟐 √πŸ”(πŸ“πŸ‘πŸŽπŸ’πŸ”) − (πŸ“πŸ‘πŸ”)𝟐
𝒓 = 𝟎. πŸ—πŸ“πŸ–
En Excel se usa la función
=COEF.DE.CORREL(Matriz 1, Matriz 2)
Interpretación: Como 𝒓 = 𝟎. πŸ—πŸ“πŸ– > 𝟎 existe una correlación positiva alta entre el número de anuncios
clasificados y el número de autos vendidos.
Aplicación
15
BIOESTADÍSTICA
Ejercicio 2: Una persona se entrena para obtener el carnet de conducir repitiendo un test de 50
preguntas. Calcule el coeficiente de correlación.
n
1
2
3
4
5
6
7
8
9
10
N° de intentos
1
2
3
4
5
6
7
8
9
10
N° de errores
15
12
10
8
7
5
5
3
1
1
Diagrama de dispersión
Existe una correlación negativa.
n
1
2
3
4
5
6
7
8
9
10
Sumas
N° de intentos
1
2
3
4
5
6
7
8
9
10
55
N° de errores
15
12
10
8
7
5
5
3
1
1
67
16
XY
15
24
30
32
35
30
35
24
9
10
244
XX
1
4
9
16
25
36
49
64
81
100
385
YY
225
144
100
64
49
25
25
9
1
1
643
𝒏 ∑π’π’Š=𝟏 π’™π’Š π’šπ’Š − (∑π’π’Š=𝟏 π’™π’Š )(∑π’π’Š=𝟏 π’šπ’Š )
𝒓=
BIOESTADÍSTICA
=
√𝒏 ∑π’π’Š=𝟏 π’™π’Š 𝟐 − (∑π’π’Š=𝟏 π’™π’Š )𝟐 √𝒏 ∑π’π’Š=𝟏 π’šπ’Š 𝟐 − (∑π’π’Š=𝟏 π’šπ’Š )𝟐
𝟏𝟎(πŸπŸ’πŸ’) − (πŸ“πŸ“)(πŸ”πŸ•)
√𝟏𝟎(πŸ‘πŸ–πŸ“) − (πŸ“πŸ“)𝟐 √𝟏𝟎(πŸ”πŸ’πŸ‘) − (πŸ”πŸ•)𝟐
𝒓 = −𝟎. πŸ—πŸ–πŸ‘πŸ–
Interpretación: Como 𝒓 = −𝟎. πŸ—πŸ–πŸ‘πŸ– < 𝟎 existe una correlación negativa alta entre el número de intetos
y el número de errores.
UNA MEDIDA DE BONDAD DE AJUSTE: Coeficiente de determinación: El coeficiente de
determinación mide la bondad del ajuste de la línea de regresión a un conjunto de datos; es decir, cuán
“bien” se ajusta la línea de regresión a los datos.
COEFICIENTE DE DETERMINACIÓN (π‘ΉπŸ ): El coeficiente de determinación es la cantidad de
variación en "𝑦" que está explicada por la recta de regresión. Este se calcula como:
𝑅2 =
∑𝑛𝑖(π’šΜ‚π’Š − 𝑦̅)2
π‘‰π‘Žπ‘Ÿπ‘–π‘Žπ‘π‘–ó𝑛 𝑒π‘₯π‘π‘™π‘–π‘π‘Žπ‘‘π‘Ž
𝑆𝐢𝑅𝑒𝑔
= 𝑛
=
2
∑𝑖=1(𝑦𝑖 − 𝑦̅)
π‘‰π‘Žπ‘Ÿπ‘–π‘Žπ‘π‘–ó𝑛 π‘‘π‘œπ‘‘π‘Žπ‘™
𝑆𝐢𝑇
Este se calcula elevando al cuadrado el coeficiente de correlación.
π‘ΉπŸ = π’“πŸ
𝑅2 =
π‘Ž ∑𝑛𝑖=1 𝑦𝑖 + 𝑏 ∑𝑛𝑖=1 π‘₯𝑖 𝑦𝑖 − 𝑛𝑦̅ 2
∑𝑛𝑖=1 𝑦𝑖2 − 𝑛𝑦̅ 2
π‘ΉπŸ = π’“πŸ ∗ 𝟏𝟎𝟎
INTERPRETACIÓN: El valor de 𝑅 2 es la proporción de la variación en “𝑦” que está explicada por la
ecuación lineal entre 𝒙 𝐲 π’š. El coeficiente de determinación puede interpretarse como la proporción de la
variabilidad de “y” que es explicada por “x”. Mide la proximidad de la recta ajustada a los valores
observados de “y”.
Ejercicio 3. Los siguientes datos muestran la relación anual entre los gastos en investigación y
ganancias.
Año
1995
1994
1993
1992
1991
1990
Gastos en Investigación (Millones de $) Ganancia anual (Millones dólares)
5
31
11
40
4
30
5
34
3
25
2
20
17
BIOESTADÍSTICA
Solución
π’™π’Š
π’šπ’Š
π’™π’Š π’šπ’Š
π‘₯𝑖2
π’šπŸπ’Š
1
5
31
155
25
961
2
11
40
440
121
1600
3
4
30
120
16
900
4
5
34
170
25
1156
5
3
25
75
9
625
6
2
20
40
4
400
SUMAS
30
180
1000
200
5642
a) Diagrama de dispersión
b) Ecuación de regresión lineal estimada
∑𝑛𝑖=1 π‘₯𝑖 30
∑𝑛𝑖=1 𝑦𝑖 180
=
= 5 ; 𝑦̅ =
=
= 30
𝑛
6
𝑛
6
∑𝑛𝑖=1 π‘₯𝑖 𝑦𝑖 − 𝑛 π‘₯Μ… 𝑦̅ 1000 − 6(5)(30) 100
𝑏=
=
=
= 2 ; π‘Ž = 𝑦̅ − 𝑏π‘₯Μ… = 30 − 2(5) = 20
∑𝑛𝑖=1 π‘₯ 2 − 𝑛π‘₯Μ… 2
200 − 6(5)2
50
π‘₯Μ… =
Ecuación de regresión estimada es:
Μ‚ = 𝟐𝟎 + πŸπ’™
π’š
Interpretación:
 𝒃 = 𝟐 > 𝟎. Cuando los gastos en investigación y desarrollo aumenta en 1 millón de dólares
entonces la ganancia anual aumentara en 2 millones de dólares.
 𝒂 = 𝟐𝟎. Cuando los gastos en investigación y desarrollo es cero entonces la ganancia anual es 20
millones de dólares.
18
BIOESTADÍSTICA
c) COEFICIENTE DE CORRELACION
𝐢𝑂𝑉(π‘₯, 𝑦) = 𝑠π‘₯𝑦 =
∑𝑛𝑖=1 π‘₯𝑖 𝑦𝑖
1000
− π‘₯Μ… 𝑦̅ =
− 5 ∗ 30 = 166.667 − 150 = 16.667
𝑛
6
𝑠π‘₯2 =
∑𝑛𝑖=1 π‘₯𝑖2
200
− π‘₯Μ… 2 =
− (5)2 = 33.333 − 25 = 8.333 Entonces 𝑠π‘₯ = √𝑠π‘₯2 = √8.333 = 2.887
𝑛
6
𝑠𝑦2 =
∑𝑛𝑖=1 𝑦𝑖2
5642
− 𝑦̅ 2 =
− (30)2 = 940.333 − 900 = 40.333 Entonces 𝑠𝑦 = √𝑠𝑦2 = √40.333 = 6.351
𝑛
6
π‘Ÿπ‘₯𝑦 =
𝑠π‘₯𝑦
16.667
=
= 0.9090 = 0.91
𝑠π‘₯ ∗ 𝑠𝑦 2.887 ∗ 6.351
Interpretación.- Se observa una relación fuerte y directa entre los gastos de investigación y desarrollo
y las ganancias anuales.
Coeficiente de Determinación:
π‘ΉπŸ = π’“πŸ = (𝟎. πŸ—πŸ)2 = 0.8281
𝑦 𝑅 2 = π‘Ÿ 2 ∗ 100 = 0.828 ∗ 100 = 82.81%
Interpretación.- Así, podemos concluir que la variación en los gastos en investigación y desarrollo (la
variable independiente X) explica el 82.8% de la variación en las ganancias anuales (la variable
dependiente Y). O la proximidad de la recta ajustada a los valores observados de “y” es un
82.8%.
OTRA FORMA DE CALCULAR 𝒓
π‘ΉπŸ = π’“πŸ → π‘Ÿ = √𝑅 2 → 𝑅 2 = 0.8264 → π‘Ÿ = √0.8264 = 0.9090
Las diferencias entre la correlación y regresión, que son dos tipos de análisis que a veces tienden a
mezclarse y confundirse. El análisis basado en correlación permite cuantificar el grado en que se
relacionan dos variables. En cambio, el análisis basado en regresión trata de encontrar la mejor recta (o
curva) de ajuste para predecir el valor de una variable dependiente Y a partir del valor conocido de una
variable independiente X. En la correlación ambas variables están en igualdad de condiciones (el
coeficiente de correlación es el mismo si se intercambian). Por el contrario, en una regresión sí importa
cuál es X y cuál es Y, ya que la función que mejor predice Y a partir de X en general no coincide con la
función que mejor predice X a partir de Y.
19
Download