BIOESTADÍSTICA DISTRIBUCIÓN BIDIMENSIONAL Si a cada unidad estadística se le observa simultáneamente dos variables cuantitativas entonces se obtiene dos series de datos emparejados. En este caso con frecuencia se desea conocer si ambas variables están relacionadas o si son independientes. Unidad estadística Variable π Variable π 1 π₯1 π¦1 2 π₯2 π¦2 3 π₯3 π¦3 … … … n π₯π π¦π Es decir, se tiene n observaciones bidimensionales: (πΏπ , ππ ): (πΏπ , ππ ); (πΏπ , ππ ); (πΏπ , ππ ); … ; (πΏπ , ππ ) Diagrama de Dispersión.- Es una gráfica de puntos representados en el plano cartesiano, donde se ubica como pares ordenados o puntos, de la siguiente forma: (π, π) = (ππππππππ πππ πππππ πππππ, ππππππππ π πππππ πππππ) de la muestra observada. En el eje X se ubica la variable independiente y en el eje Y se ubica la variable dependiente. Este conjunto de puntos (πΏπ , ππ ) se llama “diagrama de esparcimiento”, “diagrama de dispersión”, “dispersigrama” o ”nube de puntos”. El diagrama de dispersión puede tomar diferentes formas: 1 BIOESTADÍSTICA ANALISIS DE REGRESIÓN El análisis de regresión es un proceso que permite establecer una relación funcional o ecuación matemática entre dos variables, así como la fuerza de esa relación. En la terminología de la regresión, hay dos tipos de variables: variable dependiente y variable independiente. Variable Independiente.- Es la variable o las variables que se usan para predecir el valor de la variable dependiente y se denota por π. Las variables independientes se denominan variables predictores, regresores o exógenas. Variable Dependiente.- Es la variable que se va a predecir, explicar y se denota por “Y”. Esta variable está influenciado por los valores tomados por una o más variables independientes diferentes. La variable aleatoria Y se denomina variable respuesta o endógena. Según la forma del diagrama de dispersión; podemos pensar en un modelo matemático que mejor describa la relación existente entre X e Y. El objetivo del análisis regresión es el de predicción de una variable basándonos en el conocimiento de otra. Existen varias formas en que las variables se pueden relacionar, a) Relación lineal directa.- Se caracteriza porque, cuando el valor de la variable X aumenta (o crece), la variable dependiente Y también aumenta y porque los puntos forman una línea recta. 2 BIOESTADÍSTICA b) Relación lineal inversa.- Se caracteriza porque, cuando el valor de la variable X aumenta (o crece), la variable dependiente Y disminuye (o decrece) y porque los puntos forman una línea recta. c) Relación no lineal directa.- Se caracteriza porque, cuando el valor de la variable X aumenta (o crece), la variable dependiente Y también aumenta y porque los puntos forman una curva. d) Relación no lineal inversa.- Se caracteriza porque, cuando el valor de la variable X aumenta (o crece), la variable dependiente Y disminuye (o decrece) y porque los puntos forman una curva. 3 BIOESTADÍSTICA REGRESIÓN LINEAL SIMPLE.- Es la relación que se aproxima por medio de una línea recta. El modelo de regresión lineal simple (población π΅) es: π = πΆ + π·π + π Dónde: x es la variable independiente. y: variable dependiente. πΌ: Es el intercepto de la recta en el eje Y. π½: Es la pendiente de la recta. π: Error aleatorio y cumple los siguientes supuestos: SUPUESTOS DEL MODELO REGRESIÓN ο Cada error π está normalmente distribuido con: ο Esperanza o el promedio de los errores igual a cero, es decir πΈ(ππ ) = ππ = 0 ο Varianza de los errores igual a una constante ππ ο Covarianza de los errores πͺπππππππππ(ππ , ππ ) = π para todo π ≠ π ECUACIÓN ESTIMADA DE REGRESIÓN LINEAL: Los valores πΆ y π· se llaman parámetros del modelo y generalmente no se conocen y deben estimarse a partir de los datos de la muestra. Estos parámetros se calculan usando las observaciones de la muestra y son valores conocidos como estimadores de los parámetros. Μ = π + ππ π 4 BIOESTADÍSTICA Dónde π¦Μ: Valor predicho o valor estimado π₯: Variable independiente π: Intercepto de la recta con el eje Y. π: Pendiente de la recta de regresión estimada. Rectas posibles de regresión en la regresión lineal simple METODO DE MÍNIMOS CUADRADOS PARA ESTIMAR π π² π 5 BIOESTADÍSTICA Ejemplo: Este método emplea los datos de la muestra para determinar las características de la recta que hacen mínima la suma de los cuadrados de las desviaciones: π πππππππππ ∑(ππ π )π Μπ )π = πππππππππ ∑(ππ − π π=π π=π Donde: ππ : Valor observado de la variable dependiente para la i − esima observación πΜπ : Valor estimado de la variable dependiente para la i − esima observacion. Μ = π + ππ Reemplazando π π π Μπ )π = πππ ∑(ππ − (π + ππ))π πππ ∑(ππ − π π=π π=π Minimizar la ecuación del lado derecho de la ecuación anterior implica calcular las derivadas parciales de la expresión con respecto a los coeficientes de regresión e igualar a cero las dos derivadas. Al finalizar este procedimiento se llega a las siguientes ecuaciones, conocidas como ecuaciones normales. π π ∑ π¦π = ππ + π ∑ π₯π π=1 π π π ∑ π₯π π¦π = π ∑ π₯π + π ∑ π₯π 2 ; π=1 π=1 π=1 π=1 De donde se obtiene: Μ − ππ Μ π=π π= π ∑ππ=π ππ ππ − (∑ππ=π ππ )(∑ππ=π ππ ) π π ∑ππ=π ππ π − (∑ππ=π ππ ) ∑ππ=π ππ ππ − π Μ Μ ππ = π ∑π=π ππ π − ππ Μ π INTERPRETACIÓN DE LOS ESTIMADORES οΌ π: Cuando la variable independiente π₯ es cero, la variable dependiente π¦ es π unidades. οΌ El coeficiente π corresponde a la pendiente de la recta. En general, este coeficiente expresa la razón de cambio entre la variable dependiente con respecto a un cambio unitario en la variable independiente. “Es decir si la variable independiente π aumenta en una unidad entonces la variable dependiente π puede aumentar o disminuir π unidades, dependiendo del signo de π.” 6 BIOESTADÍSTICA Ejercicio 1.- La distribución de edades y presión arterial de 10 estudiantes es: a) Construir el diagrama de dispersión e indicar qué relación existe entre la edad y la presión arterial. b) Calcular la ecuación de regresión estimada. c) Interpretar los coeficientes de la ecuación π π π. d) Estimar o pronosticar la presión arterial de una persona de 60 años. n 1 2 3 4 5 6 6 7 9 10 SUMA Edad X 30 28 35 42 51 42 63 32 70 67 460 Presión arterial Y 11.5 11.3 12.5 13.5 14.6 13.0 16.6 12.0 16.9 17.0 138.9 ππ ∗ ππ 345.0 316.4 437.5 567.0 744.6 546.0 1045.8 384.0 1183.0 1139.0 6708.3 πππ 900 784 1225 1764 2601 1764 3969 1024 4900 4489 23420 Presión arterial a) Diagrama de dispersión 18 16 14 12 10 8 6 4 2 0 0 10 20 30 40 Edad 50 60 70 80 Existe una relación lineal directa entre la edad y la presión arterial, además se observa que los puntos forman una línea recta, en consecuencia la pendiente π > π es positiva. b) Calcular la ecuación de regresión estimada. 460 138.9 = 46 πñππ ; π¦Μ = = 13.89 10 10 ∑ππ=π ππ ππ − π π Μ π Μ ππππ. π − ππ(ππ)(ππ. ππ) 318.9 π= = = = π. ππππ > π π π π πππππ − ππ(ππ)π 2260 ∑π=π ππ − ππ Μ π₯Μ = π = π¦Μ − ππ₯Μ = 13.89 − 0.1411(46) = π. ππππ 7 Presión arterial BIOESTADÍSTICA 20 18 16 14 12 10 8 6 4 2 0 y = 0.1411x + 7.3991 R² = 0.9901 0 10 20 30 40 Edad 50 60 70 80 La ecuación de regresión estimada es: Μ = π. ππππ + π. πππππ π ππππ πππ πππ‘πππππ = 7.3991 + 0.1411(πΈπππ) INTERPRETACIÓN π = π. ππππ . Cuando la edad es cero entonces la presión arterial es 7.3991 unidades. π = π. ππππ > π Si la edad aumenta en un año entonces la presión arterial aumenta en 0.1411 unidades. c) Estimar o pronosticar la presión arterial de una persona de 60 años. π¦Μ = π + ππ₯ = 7.3991 + 0.1411(Edad) = 7.3991 + 0.1411(60) = 15.85. Cuando la edad de una persona es 60 años, la presión arterial esperada es 15.85. Ejercicio 2. Pesos de automóviles (libras) y consumo de combustible (mi/gal). Analice los siguientes datos. Peso X Consumo Y 3175 27 3450 29 3225 27 3985 24 2440 37 2500 34 2290 37 8 BIOESTADÍSTICA Solución a) Trazar el diagrama de esparcimiento (dispersión). 40 Consumo (mi/gal) 35 30 25 20 15 10 5 0 0 500 1000 1500 2000 2500 3000 3500 4000 4500 Peso (libras) Existe una tendencia decreciente entre peso del automóvil y el consumo de combustible. Es decir existe una relación inversa entre el peso del automóvil y el consumo de combustible. Esto significa que, cuando el peso del automóvil crece entonces el consumo de combustible decrece (π < π). b) Determine la ecuación estimada de regresión lineal e interprete los coeficientes. 40 Consumo (mi/gal) 35 y = -0.008x + 54.695 R² = 0.891 30 25 20 15 10 5 0 0 500 1000 1500 2000 2500 3000 3500 4000 4500 Peso (libras) Interpretación π = ππ. πππ Cuando el peso del automóvil es 0, entonces el consumo de combustible es 54.695 mi/gal. π = −π. πππ < π Si el peso del automóvil aumenta en una libra, entonces el consumo de combustible disminuye en 0.008 mi/gal. Por cada libra que aumenta el peso del automóvil, el consumo de combustible disminuye en 0.008 mi/gal. 9 BIOESTADÍSTICA VARIANZA DE LA ECUACIÓN DE REGRESIÓN ∑ππ=π(ππ − π Μπ )π πΊπͺπ¬ π = = π−π π−π π DESVIACIÓN ESTANDAR DE LA ECUACIÓN DE REGRESIÓN: La desviación estándar de la ecuación estimada, denotado por π π es una medida de las diferencias (o distancias) entre los valores Μ que se obtiene por medio de la ecuación de muestrales observados de π y los valores predichos π regresión. Está dado por: ∑(π − π Μ)π πΊπͺπ¬ ππ = √ππ = √ =√ π−π π−π π ∑ ππ − π ∑ π − π ∑ ππ ππ = √ π−π Ejercicio 3.- El ingreso anual de 5 empresas en millones de soles y el número de empleados de empleados en miles, se muestran en la siguiente tabla. Calcular la varianza y la desviación estándar. # de empleados X Ingresos anual Y Μπ = π. ππππ + π. ππππππ π Μπ ππ = ππ − π (ππ − π Μπ )π 16 5.7 2.7604 2.9396 8.64124816 29 3.8 4.4959 -0.6959 0.48427681 17 1.9 2.8939 -0.9939 0.98783721 6 1.0 1.4254 -0.4254 0.18096516 9 1.0 1.8259 -0.8259 0.68211081 sumatorias 10.9764382 10 Ingreso anual (millones de s./) BIOESTADÍSTICA 6 5 4 3 2 1 0 0 5 10 15 20 25 Número de empleados (miles) 30 35 Existe una tendencia creciente entre el número de empleados y el ingreso anual. Es decir existe una relación directa entre el número de empleados y el ingreso anual. Esto significa que, cuando el número Ingreso anual (millones de s./) de empleados crece entonces el ingreso anual crece (π > π). 6 5 y = 0.1335x + 0.6244 R² = 0.3399 4 3 2 1 0 0 5 10 15 20 25 Número de empleados (miles) 30 35 Interpretación π = π. ππππ Cuando el número de empleados es 0, entonces el ingreso anual es 0.6244 millones de soles. π = π. ππππ > π Si el número de empleados aumenta en 1000, entonces el ingreso anual aumenta en 0.1335 millones de soles. La varianza de la regresión es: ∑ππ=π(ππ − π Μπ )π ππ. ππππ πΊπͺπ¬ π = = = = π. ππππ (ππππππππ π π πππππ)π π−π π−π π−π π La desviación estándar o error típico es: πΊπͺπ¬ ππ = √ = √π. ππππππππππππ π π ππππππ = π. ππππ ππππππππ π π πππππ π−π 11 BIOESTADÍSTICA ANÁLISIS DE CORRELACIÓN Es el método empleado para determinar el grado de relación entre las variables que se estudian para así determinar en qué medida una relación funcional describe o explica de una forma adecuada la relación entre estas variables. Fuerza de la correlación: Es la cercanía en los cambios de ambas variables. A mayor correlación, más tienden a formar una línea recta en el diagrama de dispersión. COVARIANZA: La covarianza es un valor que indica el grado de variación conjunta de dos variables aleatorias respecto a sus medias. Es el dato básico para determinar si existe una dependencia entre ambas variables y además es el dato necesario para estimar otros parámetros básicos, como el coeficiente de correlación lineal o la recta de regresión. Covarianza de la población π π Μ )(ππ − π Μ ) πͺππ(πΏ, π) = πππ = ∑(ππ − π π΅ π=π Covarianza muestral. La covarianza de la muestra de una variable aleatoria bidimensional (π₯, π¦) se define como el promedio de los productos de las respectivas desviaciones respecto de las medias de π π Μ )(ππ − π Μ ) πΊππ = ∑(ππ − π π−π π=π π 1 πΊππ = ∑(π₯π π¦π − ππ₯Μ π¦Μ ) π−1 π=1 π ∑ππ=1 π₯π π¦π πΊππ = − π₯Μ π¦Μ π La covarianza sirve para estudiar la relación lineal entre dos variables: Si ππ₯π¦ > 0 existe una relación lineal creciente. Si ππ₯π¦ < 0 existe una relación lineal decreciente. Si ππ₯π¦ = 0 no existe una relación lineal. 12 BIOESTADÍSTICA Coeficiente de Correlación Lineal Simple π: (Coeficiente de Pearson): Indica si hay relación lineal entre dos variables y el grado de esta relación (alta, baja o nula). Permite contestar ¿qué tan estrecha es la relación entre X e Y? Coeficiente de correlación poblacional π= πͺππ(πΏ, π) ππ π π Coeficiente de correlación muestral π= π= ∑ππ=π(ππ − π Μ )(ππ − π Μ ) Μ )π √∑ππ=π(ππ − π Μ )π √∑ππ=π(ππ − π πΊππ πΊπ πΊπ π ∑ππ=π ππ ππ − ∑ππ=π ππ ∑ππ=π ππ = √π ∑ππ=π ππ π − (∑ππ=π ππ )π √π ∑ππ=π ππ π − (∑ππ=π ππ )π El signo de π tiene que ver sólo con la dirección de la relación entre dos variables, ya sea directa o inversa y la magnitud del coeficiente tiene que ver con la intensidad o estrechez de la relación. El valor de π puede ser positivo, negativo o cero. Propiedades del coeficiente de correlación 1. Este número no tiene dimensiones y su valor esta entre −π ≤ πππ ≤ +π. 2. Los valores extremos +1 y -1 se alcanzan solamente si todos los datos se sitúan exactamente sobre una recta. 3. Si el coeficiente de correlación lineal toma valores cercanos a +π la correlación es fuerte y directa, y será tanto más fuerte cuanto más se aproxime r a +π. 4. Si el coeficiente de correlación lineal toma valores cercanos a 0, la correlación es débil. 5. El signo de r tiene que ver sólo con la dirección de la relación entre dos variables, ya sea directa o inversa y la magnitud del coeficiente tiene que ver con la intensidad o estrechez de la relación. 6. Todo π ≠ π indica cierto grado de relación entre dos variables. Una correlación baja no siempre significa ausencia de relación ya que puede existir una correlación curvilínea muy estrecha. 13 BIOESTADÍSTICA INTERPRETACIÓN Valor Significado -1 Correlación negativa perfecta -0.70 a -0.99 Correlación negativa alta -0.50 a -0.69 Correlación negativa moderada -0,20 a -0.49 Correlación negativa baja -0.01 a -0.19 Correlación negativa muy baja 0 No es recomendable aplicar regresión lineal Correlación nula +0.01 a +0.19 Correlación positiva muy baja +0,20 a +0.49 Correlación positiva baja +0.50 a +0.69 Correlación positiva moderada +0.70 a +0.99 Correlación positiva alta +1 Correlación positiva perfecta Ejercicio 1: Una encuesta entre vendedores de autos usados para determinar la relación entre la cantidad de anuncios clasificados y la venta de autos usados, dio los siguientes resultados del número de avisos clasificados y el número de automóviles usados vendidos para cada uno de los negocios que no utilizaron ningún otro medio publicitario. n 1 2 3 4 5 6 Nº Anuncios clasificados: 74 45 50 38 29 17 14 Nº Autos vendidos: 139 110 95 78 60 54 BIOESTADÍSTICA Calcular e interpretar el coeficiente de correlación. Sea Y: Nº Autos vendidos y X: Nº Anuncios clasificados N° de autos vendidos Solución 160 140 120 100 80 60 40 20 0 0 10 20 30 40 50 N° de anuncios clasificados 60 70 80 Existe una correlación negativa. n 1 2 3 4 5 6 Sumas N° de anuncios clasificados X 74 45 50 38 29 17 253 N° de autos vendidos Y 139 110 95 78 60 54 536 π ∑ππ=π ππ ππ − ∑ππ=π ππ ∑ππ=π ππ π= = √π ∑ππ=π ππ π − (∑ππ=π ππ )π √π ∑ππ=π ππ π − (∑ππ=π ππ )π XY 10286 4950 4750 2964 1740 918 25608 ππ π 5476 2025 2500 1444 841 289 12575 ππ π 19321 12100 9025 6084 3600 2916 53046 π(πππππ) − (πππ)(πππ) √π(πππππ) − (πππ)π √π(πππππ) − (πππ)π π = π. πππ En Excel se usa la función =COEF.DE.CORREL(Matriz 1, Matriz 2) Interpretación: Como π = π. πππ > π existe una correlación positiva alta entre el número de anuncios clasificados y el número de autos vendidos. Aplicación 15 BIOESTADÍSTICA Ejercicio 2: Una persona se entrena para obtener el carnet de conducir repitiendo un test de 50 preguntas. Calcule el coeficiente de correlación. n 1 2 3 4 5 6 7 8 9 10 N° de intentos 1 2 3 4 5 6 7 8 9 10 N° de errores 15 12 10 8 7 5 5 3 1 1 Diagrama de dispersión Existe una correlación negativa. n 1 2 3 4 5 6 7 8 9 10 Sumas N° de intentos 1 2 3 4 5 6 7 8 9 10 55 N° de errores 15 12 10 8 7 5 5 3 1 1 67 16 XY 15 24 30 32 35 30 35 24 9 10 244 XX 1 4 9 16 25 36 49 64 81 100 385 YY 225 144 100 64 49 25 25 9 1 1 643 π ∑ππ=π ππ ππ − (∑ππ=π ππ )(∑ππ=π ππ ) π= BIOESTADÍSTICA = √π ∑ππ=π ππ π − (∑ππ=π ππ )π √π ∑ππ=π ππ π − (∑ππ=π ππ )π ππ(πππ) − (ππ)(ππ) √ππ(πππ) − (ππ)π √ππ(πππ) − (ππ)π π = −π. ππππ Interpretación: Como π = −π. ππππ < π existe una correlación negativa alta entre el número de intetos y el número de errores. UNA MEDIDA DE BONDAD DE AJUSTE: Coeficiente de determinación: El coeficiente de determinación mide la bondad del ajuste de la línea de regresión a un conjunto de datos; es decir, cuán “bien” se ajusta la línea de regresión a los datos. COEFICIENTE DE DETERMINACIÓN (πΉπ ): El coeficiente de determinación es la cantidad de variación en "π¦" que está explicada por la recta de regresión. Este se calcula como: π 2 = ∑ππ(πΜπ − π¦Μ )2 πππππππóπ ππ₯πππππππ ππΆπ ππ = π = 2 ∑π=1(π¦π − π¦Μ ) πππππππóπ π‘ππ‘ππ ππΆπ Este se calcula elevando al cuadrado el coeficiente de correlación. πΉπ = ππ π 2 = π ∑ππ=1 π¦π + π ∑ππ=1 π₯π π¦π − ππ¦Μ 2 ∑ππ=1 π¦π2 − ππ¦Μ 2 πΉπ = ππ ∗ πππ INTERPRETACIÓN: El valor de π 2 es la proporción de la variación en “𦔠que está explicada por la ecuación lineal entre π π² π. El coeficiente de determinación puede interpretarse como la proporción de la variabilidad de “y” que es explicada por “x”. Mide la proximidad de la recta ajustada a los valores observados de “y”. Ejercicio 3. Los siguientes datos muestran la relación anual entre los gastos en investigación y ganancias. Año 1995 1994 1993 1992 1991 1990 Gastos en Investigación (Millones de $) Ganancia anual (Millones dólares) 5 31 11 40 4 30 5 34 3 25 2 20 17 BIOESTADÍSTICA Solución ππ ππ ππ ππ π₯π2 πππ 1 5 31 155 25 961 2 11 40 440 121 1600 3 4 30 120 16 900 4 5 34 170 25 1156 5 3 25 75 9 625 6 2 20 40 4 400 SUMAS 30 180 1000 200 5642 a) Diagrama de dispersión b) Ecuación de regresión lineal estimada ∑ππ=1 π₯π 30 ∑ππ=1 π¦π 180 = = 5 ; π¦Μ = = = 30 π 6 π 6 ∑ππ=1 π₯π π¦π − π π₯Μ π¦Μ 1000 − 6(5)(30) 100 π= = = = 2 ; π = π¦Μ − ππ₯Μ = 30 − 2(5) = 20 ∑ππ=1 π₯ 2 − ππ₯Μ 2 200 − 6(5)2 50 π₯Μ = Ecuación de regresión estimada es: Μ = ππ + ππ π Interpretación: οΆ π = π > π. Cuando los gastos en investigación y desarrollo aumenta en 1 millón de dólares entonces la ganancia anual aumentara en 2 millones de dólares. οΆ π = ππ. Cuando los gastos en investigación y desarrollo es cero entonces la ganancia anual es 20 millones de dólares. 18 BIOESTADÍSTICA c) COEFICIENTE DE CORRELACION πΆππ(π₯, π¦) = π π₯π¦ = ∑ππ=1 π₯π π¦π 1000 − π₯Μ π¦Μ = − 5 ∗ 30 = 166.667 − 150 = 16.667 π 6 π π₯2 = ∑ππ=1 π₯π2 200 − π₯Μ 2 = − (5)2 = 33.333 − 25 = 8.333 Entonces π π₯ = √π π₯2 = √8.333 = 2.887 π 6 π π¦2 = ∑ππ=1 π¦π2 5642 − π¦Μ 2 = − (30)2 = 940.333 − 900 = 40.333 Entonces π π¦ = √π π¦2 = √40.333 = 6.351 π 6 ππ₯π¦ = π π₯π¦ 16.667 = = 0.9090 = 0.91 π π₯ ∗ π π¦ 2.887 ∗ 6.351 Interpretación.- Se observa una relación fuerte y directa entre los gastos de investigación y desarrollo y las ganancias anuales. Coeficiente de Determinación: πΉπ = ππ = (π. ππ)2 = 0.8281 π¦ π 2 = π 2 ∗ 100 = 0.828 ∗ 100 = 82.81% Interpretación.- Así, podemos concluir que la variación en los gastos en investigación y desarrollo (la variable independiente X) explica el 82.8% de la variación en las ganancias anuales (la variable dependiente Y). O la proximidad de la recta ajustada a los valores observados de “y” es un 82.8%. OTRA FORMA DE CALCULAR π πΉπ = ππ → π = √π 2 → π 2 = 0.8264 → π = √0.8264 = 0.9090 Las diferencias entre la correlación y regresión, que son dos tipos de análisis que a veces tienden a mezclarse y confundirse. El análisis basado en correlación permite cuantificar el grado en que se relacionan dos variables. En cambio, el análisis basado en regresión trata de encontrar la mejor recta (o curva) de ajuste para predecir el valor de una variable dependiente Y a partir del valor conocido de una variable independiente X. En la correlación ambas variables están en igualdad de condiciones (el coeficiente de correlación es el mismo si se intercambian). Por el contrario, en una regresión sí importa cuál es X y cuál es Y, ya que la función que mejor predice Y a partir de X en general no coincide con la función que mejor predice X a partir de Y. 19