Resumen Teórico de Estadística 1

Resumen Teórico de Estadística 1 PROFESOR: HUGO CARRASCO Alumno: Facundo Diaz Índice:  Notación del resumen (pág. 2).  Capítulo 1: Variables aleatorias multivariadas (pág. 5).  Capítulo 2: Estadística descriptiva (pág. 22).  Capítulo 3: Regresión lineal (pág.33).  Capítulo 4: Distribución en el muestreo (pág. 39).  Capítulo 5: Intervalos de confianza (pág. 44).  Capítulo 6: Prueba de hipótesis (pág. 50). 1 Notación del resumen:  𝑋; 𝑌; … (Letras mayúsculas): Variables aleatorias.   𝐸(𝑋, 𝑌): Esperanza conjunta de 𝑋 e 𝑌.  ∎: Fin de la demostración.  𝐶𝑂𝑉(𝑋, 𝑌): Covarianza entre 𝑋 e 𝑌. Si está 𝑥; 𝑦; … (Letras minúsculas): números   𝑝 : Función de cuantía de una variable  𝑃(𝑋 < 𝑥): Probabilidad de que 𝑋 sea 𝐹 , ;𝑝 en minúscula , , : Coeficiente de correlación lineal de , es poblacional, en cambio, 𝑝 : Cuantía condicional de 𝑋 dado ⁄ 𝑌=𝑦 . 𝑝 : Cuantía condicional de 𝑌 dado ⁄ 𝑋=𝑥 . menor a 𝑥.  está será 𝑟 , es muestral. aleatoria discreta.  𝜌 Pearson. 𝜌 𝑓 : Función de densidad de una variable aleatoria absolutamente continua.  si esta 𝑐𝑜𝑣(𝑥, 𝑦), esta será covarianza muestral. 𝐹 : Función de distribución de variable aleatoria 𝑋.  mayúscula, poblacional, reales.  en  ; 𝑓 , : Funciones de distribución, 𝑓 ⁄ : Densidad condicional de 𝑋 dado 𝑌=𝑦 . cuantía y densidad bivariadas.  𝑓 : Densidad condicional de 𝑌 dado  ∪: Unión.  ∩: Intersección.  ∨: O (de esto o lo otro).  ∀: Para todo.  ∧: Y (de esto y lo otro).  𝐸(𝑋⁄𝑌 = 𝑦 ): Esperanza condicional de  ∈: Pertenece.  ∉: No pertenece.  ∃: Existe.  ∄: No existe.  𝑅𝑒𝑐(𝑋): ⁄ 𝑋=𝑥 . 𝑋 dado 𝑌 = 𝑦 .  𝐸(𝑌⁄𝑋 = 𝑥 ): Esperanza condicional de 𝑌 dado 𝑥 = 𝑥 . Recorrido de la variable  𝑛: Número de observaciones.  𝑎: ⊂: Contiene.  ×: Si está entre medio de dos conjuntos, absoluta de la observación 𝑥 . aleatoria 𝑋.  Frecuencia  ℎ : Frecuencia relativa de la observación 𝑥.  entonces denota producto cartesiano 𝐹(𝑥 ): Frecuencia relativa acumulada hasta 𝑥 . entre ellos.  ℝ: números reales.  𝑥  𝐸(𝑋): Esperanza de 𝑋.  𝑥̅ : Media.  𝑉(𝑋): Varianza de 𝑋.  𝑥 : Percentil 𝑝. 2 , : Mediana.  𝑄 =𝑥 , : Cuartil 1 o percentil 0,25.   𝑄 =𝑥 , : Cuartil 3 o percentil 0,75.  𝑠 : Varianza muestral (atención, está en dice 𝑆 ∗ , si bien seguimos en la muestra, minúscula y es un número). Si dice 𝑆 , si nos referimos a una variable aleatoria, no bien seguimos en la muestra, nos a un número. Esta es la cuasi varianza referimos a una variable aleatoria, no a previa a la realización. está en minúscula y es un número). Si  un número. Esta es la varianza previa a  𝑠 ∗ : Cuasi desvío estándar muestral la realización. (atención, está en minúscula y es un 𝑠: Desvío estándar muestral (atención, número). Si dice 𝑆 ∗ , si bien seguimos en está en minúscula y es un número). Si la muestra, nos referimos a una variable dice 𝑆, si bien seguimos en la muestra, aleatoria, no a un número. Esta es el nos referimos a una variable aleatoria, no cuasi desvió estándar previa a la a un número. Esta es el desvió estándar realización.  previa a la realización.  𝑅: Rango.  𝑅𝐼: Rango intercuartílico.  𝐶𝑉: Coeficiente de Variación.  𝐴𝑆: Coeficiente de simetría.  𝑓  𝜀 : Error en la observación 𝑥 .  ∕: Si está dentro de una probabilidad es ∗ (𝑥 ⎯⎯⎯ : A medida que 𝑛 crece la variable → aleatoria antes de la fecha, tiende a tener la misma distribución que la variable aleatoria de la derecha de la fecha. ): Densidad empírica.  𝑋⃗ : Muestra de tamaño 𝑛.  𝑥 ; 𝑥 ; … ; 𝑥 : Realización de la 𝑀𝐴𝑆 𝑐⁄𝑟 𝑋 ;𝑋 ;… ;𝑋 .  Dado que. Sino, es tal que.  𝑠 ∗ : Cuasi varianza muestral (atención, (1 − 𝛼): Nivel de confianza del intervalo de confianza. 𝑎: Si tiene el gorro, quiere decir  estimado. 𝑡 : Distribución 𝑡 de Student con 𝑛 − 1 grados de libertad.  ℍ: Matriz Hessiana.  𝐷𝑒𝑡(𝐴): Determinante de una matriz 𝐴.  𝑅 : Coeficiente de determinación.  𝑀𝐸: Margen de error.  Ω: Población.  𝐼𝐴: Intervalo aleatorio.  ~: Distribuye.  𝐼𝐶: Intervalo de confianza.  𝜃: Parámetro poblacional. 𝑀𝐴𝑆 𝑐⁄𝑟: Muestra Aleatoria Simple con  𝑋~𝐵𝑒𝑟(𝑝): 𝑋 tiene distribución Bernoulli Reposición de 𝑋.     𝑁(0; 1) = Φ(𝑧): Distribución Normal Estándar. de parámetro 𝑝. 𝜃: Estadístico. 𝑋~𝐵𝑖𝑛(𝑝): 𝑋 tiene distribución Binomial de parámetro 𝑝 y 𝑛. 3   𝑛 : Muestra ajustada para poblaciones 𝑝̂ : Proporción promedio muestral finitas. considerada éxito (atención, está en  𝐻 : Hipótesis nula. minúscula y es un número). Si dice 𝑃, si  𝐻 : Hipótesis alternativa. bien seguimos en la muestra, nos  𝛼: Probabilidad de tener un error de tipo referimos a una variable aleatoria, no a 1, también llamado nivel de significación. un número. Esta es la proporción 𝛽: Probabilidad de tener un error de tipo promedio muestral considerada éxito 2. previa a la realización.   (1 − 𝛽): Potencia de una prueba de  𝑅𝐶: Región Crítica. hipótesis.  𝐾(𝜃): Función de potencia de una prueba de hipótesis para un valor determinado de 𝜃. 4 Capítulo 1: Variables aleatorias multivariadas. 1. Variable aleatoria bivariada: 1.1. Definición: Llamaremos función de distribución conjunta 𝐹 𝐹 , (𝑥, 𝑦) a aquella función que cumpla que: , (𝑥, 𝑦) = ({𝑋 ≤ 𝑥} ∩ {𝑌 ≤ 𝑦}) = 𝑃(𝑋 ≤ 𝑥, 𝑌 ≤ 𝑦). Observación: _ La función de distribución conjunta valuada en el punto 𝑃(𝑎, 𝑏) está representada por el área sombreada. 𝐹 , (𝑎, 𝑏) = 𝑃(𝑋 ≤ 𝑎, 𝑌 ≤ 𝑏) Ejemplo: ¿Cuál es la probabilidad de que (𝑥, 𝑦) ∈ 𝐷? 𝑃((𝑥, 𝑦) ∈ 𝐷) = 𝐹 , (𝑥 , 𝑦 ) − 𝐹 5 , (𝑥 , 𝑦 ) − 𝐹 , (𝑥 , 𝑦 ) + 𝐹 , (𝑥 , 𝑦 ) 1.2. Tipos: La variable aleatoria bivariada será: 1) Discreta ⇔ 𝑋 ∧ 𝑌 son discretas. 2) Absolutamente continua ⇔ 𝑋 ∧ 𝑌 son absolutamente continuas. 3) Mixta ⇔ 𝑋 es discreta e 𝑌 es absolutamente continua o viceversa. 2. Variable aleatoria bivariada discreta : 2.1. Definición: Sean 𝑋 e 𝑌 dos variables aleatorias discretas. La probabilidad de que 𝑋 = 𝑥 e 𝑌 = 𝑦 está determinada por la función de probabilidad bivariada, también llamada función de cuantía conjunta (doble). Notamos: 𝑝 , (𝑥, 𝑦) = 𝑃(𝑋 = 𝑥, 𝑌 = 𝑦) ∀ (𝑥, 𝑦) ∈ 𝑅𝑒𝑐(𝑋, 𝑌) 0 𝑒𝑛 𝑜𝑡𝑟𝑜 𝑐𝑎𝑠𝑜 Observación: 𝑅𝑒𝑐(𝑋, 𝑌) ⊂ 𝑅𝑒𝑐(𝑋) × 𝑅𝑒𝑐(𝑌), es decir, el recorrido de (𝑋, 𝑌) está contenido en el producto cartesiano entre el recorrido de 𝑋 y el de 𝑌. Cabe destacar que el 𝑅𝑒𝑐(𝑋, 𝑌) no siempre puede tomar todos los valores de 𝑅𝑒𝑐(𝑋) × 𝑅𝑒𝑐(𝑌). 2.2. Propiedades: 1) 𝑝 , (𝑥, 𝑦) ≥ 0, ∀ (𝑥, 𝑦) ∈ ℝ . 2) La suma se efectúa sobre todos los valores posibles de 𝑥 e 𝑦: 𝑝 ∈ 2.3. ( ) ∈ (𝑥, 𝑦) = 1 , ( ) Función de distribución acumulativa para un vector discreto: Está dada por: 𝐹 , (𝑥, 𝑦) = 𝑝 ∈ ( ) ∈ , (𝑖, 𝑗) ( ) 2.3.1. Propiedades de la función de distribución: 1) Es continua por derecha en ambas variables. lim 𝐹 , (𝑥, 𝑏) = 𝐹 , (𝑎, 𝑏) lim 𝐹 , (𝑎, 𝑦) = 𝐹 , (𝑎, 𝑏) → → lim 𝐹 → → , (𝑥, 𝑦) = 𝐹 2) Es no decreciente en ambas variables. Si 𝑥 < 𝑥 ∧ 𝑦 < 𝑦 , entonces:  𝐹 , (𝑥 , 𝑦) ≤ 𝐹 , (𝑥 , 𝑦).  𝐹 , (𝑥, 𝑦 ) ≤ 𝐹 , (𝑥, 𝑦 ). 6 , (𝑎, 𝑏)  𝐹 , (𝑥 , 𝑦 ) ≤ 𝐹 , (𝑥 , 𝑦 ). Observación: Será no decreciente si lo miramos tanto por una sola variable como si lo miramos por ambas. 3) lim 𝐹 → , (𝑥, 𝑦) = lim 𝐹 → (𝑥, 𝑦) = 0, con que uno de los dos elementos tienda a −∞ , alcanza para afirmar que la función de distribución tiende a 0. Sin embargo, para que la función de distribución tienda a 1, es necesario que ambos elementos tiendan a +∞. lim 𝐹 → , (𝑥, 𝑦) = 1. → 4) Llamaremos distribuciones marginales a: 2.4.  lim 𝐹 , (𝑥, 𝑦) = 𝐹 (𝑦).  lim 𝐹 , (𝑥, 𝑦) = 𝐹 (𝑥). → → Función de cuantía marginal: 2.4.1. Definición: La función de cuantía marginal de 𝑋 es aquella que únicamente considera la variable aleatoria 𝑋. Esto es, para cada valor de 𝑋 consideramos todos los valores de 𝑌. Notamos: 𝑝 (𝑥) = ∈ ( ) ∈ ( ) 𝑝 (𝑦) = 𝑝 , (𝑥, 𝑦) 𝑝 , (𝑥, 𝑦) Observación: Cuando quiero mirar la marginal de 𝑋 sumo en 𝑌 (análogo para el otro caso). 2.4.2. Cuadro de cuantía conjunta y marginales: 𝑥 … (𝑥 , 𝑦 ) … 𝑌∖𝑋 𝑦 𝑝 , … 𝑦 𝑝 … 𝑝 , , 𝑝 , … … (𝑥 , 𝑦 ) 7 𝑝 (𝑥 , 𝑦 ) … (𝑥 , 𝑦 ) 𝑝 𝑥 𝑝 … 𝑝 , (𝑥 , 𝑦 ) 𝑝 , (𝑥 , 𝑦 ) , (𝑥 , 𝑦 ) … 𝑝 , 1 (𝑥 , 𝑦 ) Ejemplo: Lanzamos simultáneamente 2 dados no cargados. 𝑋 = Registra el máximo valor alcanzado de los 2 dados y 𝑌 = |𝑑 − 𝑑 |, registra el valor absoluto de la diferencia entre los valores de ambos dados. 𝑅𝑒𝑐(𝑋) = {1; 2; 3; 4; 5; 6} 𝑅𝑒𝑐(𝑌) = {0; 1; 2; 3; 4; 5} 1 36 𝑝 , (1; 0) = 𝑃(1; 1) = 𝑝 , (2; 1) = 𝑃({2; 1}, {1; 2}) = 2 36 𝑌∖𝑋 1 2 3 4 5 6 𝑝 0 1 36 1 0 1 36 2 36 2 0 0 1 36 2 36 2 36 3 0 0 0 1 36 2 36 2 36 2 36 4 0 0 0 0 1 36 2 36 2 36 2 36 2 36 5 0 0 0 0 0 1 36 2 36 2 36 2 36 2 36 2 36 6 36 10 36 8 36 6 36 4 36 2 36 𝑝 1 36 3 36 5 36 7 36 9 36 11 36 1 Si quisiéramos calcular: 𝐹 , (2, 2) = 𝑃(𝑋 ≤ 2, 𝑌 ≤ 2) = + + = . También podemos hallar ese valor utilizando la tabla, sumamos las celdas coloreadas. Nótese que si utilizamos la tabla, el color se va “moviendo” desde la esquina superior izquierda hasta la esquina inferior derecha. Si incluye o no al valor de interés, nos indica si debemos pintar o no la columna con ese valor. Por ejemplo: 𝐹 , (2 ; 2) = 𝑃(𝑋 < 2, 𝑌 ≤ 2) = 𝑌∖𝑋 1 2 3 4 5 6 𝑝 0 1 36 1 0 1 36 2 36 1 36 2 36 1 36 2 36 1 36 2 36 1 36 2 36 6 36 10 36 8 2.5. 2 0 0 2 36 2 36 2 36 2 36 2 36 2 36 3 0 0 0 4 0 0 0 0 5 0 0 0 0 0 𝑝 1 36 3 36 5 36 7 36 9 36 2 36 2 36 2 36 2 36 8 36 6 36 4 36 2 36 11 36 1 Relaciones entre variables aleatorias: 1) Igualdad: Diremos que 𝑋 e 𝑌 son iguales sí y solo si 𝑃(𝑋 = 𝑌) = 1. El hecho que 𝑋 e 𝑌 tengan el mismo recorrido es condición suficiente pero no necesaria para afirmar que son iguales. Ahora bien, si encima la sumatoria de los valores de la diagonal principal es 1 y el resto 0, podemos afirmar que 𝑋 e 𝑌 son iguales. Uno puede sospechar igualdad cuando en la diagonal principal del cuadro de cuantía conjunta hay valores positivos y el resto es 0. 2) Semejanza: Diremos que 𝑋 e 𝑌 son semejantes sí y sólo si 𝐹 (𝑧) = 𝐹 (𝑧) ∀ 𝑧 ∈ ℝ. Si 𝑋 e 𝑌 son variables aleatorias discretas esto es equivalente a 𝑝 (𝑧) = 𝑝 (𝑧) ∀ 𝑧 ∈ ℝ. Esto quiere decir que las marginales tienen que ser iguales en todos los puntos. Observación: Si 𝑋 e 𝑌 son iguales, entonces, 𝑋 e 𝑌 son semejantes. Atención porque no vale el recíproco. Ejemplo: 𝑌∖𝑋 1 2 3 1 1 4 0 0 2 0 1 2 0 3 0 0 1 4 𝑝 1 4 1 2 1 4 𝑝 1 4 1 2 1 4 1 9 En este caso, 𝑋 e 𝑌 son iguales y semejantes. 𝑌∖𝑋 1 2 3 𝑝 1 0 0 1 4 2 0 1 2 0 3 1 4 0 0 1 4 1 2 1 4 𝑝 1 4 1 2 1 4 1 En este caso, 𝑋 e 𝑌 son semejantes pero no iguales. 3) Independencia: Diremos que 𝑋 e 𝑌 son variables aleatorias independientes sí y sólo si: 𝐹 , (𝑥, 𝑦) = 𝐹 (𝑥) ∙ 𝐹 (𝑦) ∀ (𝑥, 𝑦) ∈ ℝ . En particular, si 𝑋 e 𝑌 son discretas: 𝑝 , (𝑥, 𝑦) = 𝑝 (𝑥) ∙ 𝑝 (𝑦) ∀ (𝑥, 𝑦) ∈ ℝ . Observación: Si encontramos un 0 en el cuadro de cuantía conjunta, se puede descartar independencia. Lo visualizamos de la siguiente manera: 𝑌∖𝑋 𝑥 𝑥 𝑥 𝑝 𝑦 𝑎 𝑏 𝑐 𝑎+𝑏+𝑐 𝑦 𝑑 𝑒 𝑓 𝑑+𝑒+𝑓 𝑦 𝑔 ℎ 𝑖 𝑔+ℎ+𝑖 𝑝 𝑎+𝑑+𝑔 𝑏+𝑒+ℎ 𝑐+𝑓+𝑖 1 Donde, utilizando la definición de independencia en caso discreto, podemos calcular las letras minúsculas, por ejemplo, como: 𝑎 = 𝑝 , (𝑎) = 𝑝 (𝑎) ∙ 𝑝 (𝑎). Notaremos que si alguna de las letras minúsculas es 0, podremos descartar independencia ya que 𝑝 y 𝑝 nunca valen 0. En los casos en los que todas las letras minúsculas sean mayores a 0, deberemos verificar letra a letra para ver si 𝑋 e 𝑌 son independientes. 2.6. Esperanza conjunta: 2.6.1. Definición: Si 𝑋 e 𝑌 son variables aleatorias discretas, definiremos y notaremos a la esperanza conjunta de 𝑋 e 𝑌 como: 𝐸(𝑋, 𝑌) = 𝑥∙𝑦∙𝑝 ∈ ( ) ∈ , (𝑥, 𝑦) ( ) 10 Ejemplo: 𝑌∖𝑋 0 3 7 𝑝 1 2 3 𝑝 1 32 1 8 3 32 1 16 1 4 3 16 1 32 1 8 3 32 1 8 1 2 3 8 1 4 1 2 1 4 1 Utilizando el eje 𝑦 como referencia y calculamos 𝐸(𝑋, 𝑌): 1 1 1 1 1 1 3 +0∙2∙ +0∙3∙ +3∙1∙ +3∙2∙ +3∙3∙ +7∙1∙ +7∙2 32 16 32 8 4 8 32 3 3 33 ∙ +7∙3∙ = 16 32 4 𝐸(𝑋, 𝑌) = 0 ∙ 1 ∙ 2.6.2. Teorema: Si 𝑋 e 𝑌 son variables aleatorias independientes, entonces: 𝐸(𝑋, 𝑌) = 𝐸(𝑋) ∙ 𝐸(𝑌) Demostración: 𝐸(𝑋, 𝑌) = 𝑥∙𝑦∙𝑝 ∈ ( ) ∈ , (𝑥, 𝑦) ( ) 𝑥 ∙ 𝑦 ∙ 𝑝 (𝑥)𝑝 (𝑦) 𝐸(𝑋, 𝑌) = ∈ ( ) ∈ ( ) ∈ ( ) 𝑥 ∙ 𝑝 (𝑥) ∙ 𝐸(𝑋, 𝑌) = 𝑦 ∙ 𝑝 (𝑦) ∈ ( ) 𝐸(𝑋, 𝑌) = 𝐸(𝑋) ∙ 𝐸(𝑌) ∎ Verifiquemos esto con el ejemplo anterior: 𝑌∖𝑋 0 3 7 𝑝 1 2 3 𝑝 1 32 1 8 3 32 1 16 1 4 3 16 1 32 1 8 3 32 1 8 1 2 3 8 1 4 1 2 1 4 1 11 Habíamos hallado 𝐸(𝑋, 𝑌) = . Sabiendo que 𝑋 e 𝑌 son independientes intentemos hallar 𝐸(𝑋, 𝑌) utilizando el teorema que demostramos recién. 1 1 1 𝐸(𝑋) = 1 ∙ + 2 ∙ + 3 ∙ = 2 4 2 4 1 1 3 33 𝐸(𝑌) = 0 ∙ + 3 ∙ + 7 ∙ = 8 2 8 8 33 33 𝐸(𝑋, 𝑌) = 𝐸(𝑋) ∙ 𝐸(𝑌) = 2 ∙ = 8 4 2.7. Cuantía condicional de 𝑋 dado 𝑌 = 𝑦 : 2.7.1. Definición: Es la cuantía de 𝑋 condicionada a que 𝑌 = 𝑦 . Notamos: (𝑥) = 𝑝 𝑝 (𝑥, 𝑦 ) 𝑝 (𝑦 ) , Con 𝑝 (𝑦 ) ≠ 0 y ∀ (𝑥, 𝑦 ) ∈ 𝑅𝑒𝑐(𝑋, 𝑌). El resultado es análogo para cuantía condicional de 𝑌 dado 𝑋 = 𝑥 . Ejemplo: 𝑌∖𝑋 2 4 6 𝑝 𝑝 𝑝 −1 0 1 𝑝 1 8 1 16 1 16 2 16 1 4 1 16 1 8 1 8 1 16 6 16 7 16 3 16 4 16 7 16 5 16 1 (1⁄16) ⎧ 𝑠𝑖 𝑥 = −1 ⎪(3⁄16) ⎪ (1⁄16) 𝑝 , (𝑥, 6) (𝑥) = = (3⁄16) 𝑠𝑖 𝑥 = 0 𝑝 (6) ⎨ (1⁄16) ⎪ 𝑠𝑖 𝑥 = 1 ⎪ (3⁄16) ⎩ 0 𝑒𝑛 𝑜𝑡𝑟𝑜 𝑐𝑎𝑠𝑜 1 𝑠𝑖 𝑥 = −1 ⎧ 3 ⎪ ⎪ 1 𝑠𝑖 𝑥 = 0 (𝑥) = 3 ⎨ 1 ⎪ ⎪ 3 𝑠𝑖 𝑥 = 1 ⎩0 𝑒𝑛 𝑜𝑡𝑟𝑜 𝑐𝑎𝑠𝑜 12 2.7.2. Esperanza condicional de 𝑋 dado 𝑌 = 𝑦 : Es la esperanza de 𝑋 condicionada a que 𝑌 = 𝑦 . Notamos: 𝐸(𝑋⁄𝑌 = 𝑦 ) = 𝑥 ∙𝑝 (𝑥) Análogamente podemos definir esperanza condicional de 𝑌 dado 𝑋 = 𝑥 . 3. Covarianza: 3.1. Definición: La covarianza entre 𝑋 e 𝑌 es una “medida” de la variabilidad conjunta de las variables. Se calcula como “la esperanza del producto de los desvíos”. Notamos: 𝐶𝑂𝑉(𝑋, 𝑌) = 𝐸[(𝑋 − 𝐸(𝑋)) ∙ (𝑌 − 𝐸(𝑌))] Observaciones: 1) Si 𝐶𝑂𝑉(𝑋, 𝑌) > 0 entonces, cuando 𝑋 crece, tendencialmente 𝑌 crece. Diremos que 𝑋 e 𝑌 están correlacionadas positivamente. 2) Si 𝐶𝑂𝑉(𝑋, 𝑌) < 0 entonces, cuando 𝑋 crece, tendencialmente 𝑌 decrece. Diremos que 𝑋 e 𝑌 están correlacionadas negativamente. 3) Si 𝐶𝑂𝑉(𝑋, 𝑌) > 0 diremos que 𝑋 e 𝑌 están incorrelacionadas. 3.2. Teorema: 𝐶𝑂𝑉(𝑋, 𝑌) = 𝐸(𝑋𝑌) − 𝐸(𝑋) ∙ 𝐸(𝑌) Demostración: 𝐶𝑂𝑉(𝑋, 𝑌) = 𝐸[(𝑋 − 𝐸(𝑋)) ∙ (𝑌 − 𝐸(𝑌))] 𝐶𝑂𝑉(𝑋, 𝑌) = 𝐸[𝑋𝑌 − 𝐸(𝑋)𝑌 − 𝑋𝐸(𝑌) + 𝐸(𝑋)𝐸(𝑌)] 𝐶𝑂𝑉(𝑋, 𝑌) = 𝐸(𝑋, 𝑌) − 𝐸(𝑋)𝐸(𝑌) − 𝐸(𝑋)𝐸(𝑌) + 𝐸(𝑋)𝐸(𝑌) 𝐶𝑂𝑉(𝑋, 𝑌) = 𝐸(𝑋, 𝑌) − 𝐸(𝑋)𝐸(𝑌) ∎ 3.2.1. Observación: Si 𝑋 e 𝑌 son independientes, entonces: 𝐶𝑂𝑉(𝑋, 𝑌) = 0. Demostración: 𝐶𝑂𝑉(𝑋, 𝑌) = 𝐸(𝑋, 𝑌) − 𝐸(𝑋)𝐸(𝑌) Por independencia sabemos que 𝐸(𝑋, 𝑌) = 𝐸(𝑋) ∙ 𝐸(𝑌), entonces: 𝐶𝑂𝑉(𝑋, 𝑌) = 𝐸(𝑋)𝐸(𝑌) − 𝐸(𝑋)𝐸(𝑌) 𝐶𝑂𝑉(𝑋, 𝑌) = 0 ∎ ¿Vale el recíproco? Veámoslo con un ejemplo: 𝑋 es una variable aleatoria cuyo recorrido, 𝑅𝑒𝑐(𝑋) = {−1, 0, 1}. 𝑌 es una variable aleatoria que depende de 𝑋. Está dada por la siguiente relación: 𝑌 = 𝑋 y su recorrido es 𝑅𝑒𝑐(𝑌) = {0, 1}. 13 0,25 𝑠𝑖 𝑥 = −1 0,5 𝑠𝑖 𝑥 = 0 𝑝 (𝑥) = 0,25 𝑠𝑖 𝑥 = 1 0 𝑒𝑛 𝑜𝑡𝑟𝑜 𝑐𝑎𝑠𝑜 0,5 𝑠𝑖 𝑦 = 0 𝑝 (𝑦) = 0,5 𝑠𝑖 𝑦 = 1 0 𝑒𝑛 𝑜𝑡𝑟𝑜 𝑐𝑎𝑠𝑜 𝑌∖𝑋 −1 0 1 0 0 1 2 0 1 1 4 0 1 4 𝑝 1 4 1 2 1 4 𝑝 1 2 1 2 1 1 1 1 𝐸(𝑋) = −1 ∙ + 0 ∙ + 1 ∙ = 0 ⎫ 4 2 4 ⎪ 1 1 1 1 ⇒ 𝐶𝑂𝑉(𝑋, 𝑌) = 𝐸(𝑋, 𝑌) − 𝐸(𝑋)𝐸(𝑌) = 0 − 0 ∙ = 0 𝐸(𝑌) = 0 ∙ + 1 ∙ = 2 2 2 2 ⎬ 1 1 ⎪ 𝐸(𝑋, 𝑌) = 1 ∙ (−1) ∙ + 1 ∙ 1 ∙ = 0⎭ 4 4 3.3. Propiedades: Sean 𝑋, 𝑌 variables aleatorias y 𝑎, 𝑏, 𝑐, 𝑑 ∈ ℝ: 1) 𝐶𝑂𝑉(𝑋, 𝑎) = 0 Demostración: 𝐶𝑂𝑉(𝑋, 𝑎) = 𝐸[(𝑋 − 𝐸(𝑋)) ∙ (𝑎 − 𝐸(𝑎))] 𝐶𝑂𝑉(𝑋, 𝑎) = 𝐸 𝑋 − 𝐸(𝑋) ∙ (𝑎 − 𝑎) 𝐶𝑂𝑉(𝑋, 𝑎) = 𝐸 𝑋 − 𝐸(𝑋) ∙ 0 𝐶𝑂𝑉(𝑋, 𝑎) = 𝐸(0) 𝐶𝑂𝑉(𝑋, 𝑎) = 0 ∎ 2) 𝐶𝑂𝑉(𝑋, 𝑋) = 𝑉(𝑋) Demostración: 𝐶𝑂𝑉(𝑋, 𝑋) = 𝐸[(𝑋 − 𝐸(𝑋)) ∙ (𝑋 − 𝐸(𝑋))] 𝐶𝑂𝑉(𝑋, 𝑋) = 𝐸[𝑋 − 2 ∙ 𝑋 ∙ 𝐸(𝑋) + 𝐸 (𝑋)] 𝐶𝑂𝑉(𝑋, 𝑋) = 𝐸(𝑋 ) − 2 ∙ 𝐸(𝑋) ∙ 𝐸(𝑋) + 𝐸 (𝑋) 𝐶𝑂𝑉(𝑋, 𝑋) = 𝐸(𝑋 ) − 2 ∙ 𝐸 (𝑋) + 𝐸 (𝑋) 𝐶𝑂𝑉(𝑋, 𝑋) = 𝐸(𝑋 ) − 𝐸 (𝑋) 𝐶𝑂𝑉(𝑋, 𝑋) = 𝑉(𝑋) ∎ 3) 𝐶𝑂𝑉(𝑋, 𝑌) = 𝐶𝑂𝑉(𝑌, 𝑋) Demostración: 𝐶𝑂𝑉(𝑋, 𝑌) = 𝐸[(𝑋 − 𝐸(𝑋)) ∙ (𝑌 − 𝐸(𝑌))] 14 𝐶𝑂𝑉(𝑋, 𝑌) = 𝐸 𝑌 − 𝐸(𝑌) ∙ 𝑋 − 𝐸(𝑋) 𝐶𝑂𝑉(𝑋, 𝑌) = 𝐶𝑂𝑉(𝑌, 𝑋) ∎ 4) 𝐶𝑂𝑉(𝑎𝑋 + 𝑏, 𝑐𝑌 + 𝑑) = 𝑎𝑐 ∙ 𝐶𝑂𝑉(𝑋, 𝑌) Demostración: 𝐶𝑂𝑉(𝑎𝑋 + 𝑏, 𝑐𝑌 + 𝑑) = 𝐸 𝑎𝑋 + 𝑏 − 𝐸(𝑎𝑋 + 𝑏) ∙ 𝑐𝑌 + 𝑑 − 𝐸(𝑐𝑌 + 𝑑) 𝐶𝑂𝑉(𝑎𝑋 + 𝑏, 𝑐𝑌 + 𝑑) = 𝐸[(𝑎𝑋 + 𝑏 − 𝑎𝐸(𝑋) − 𝑏) ∙ (𝑐𝑌 + 𝑑 − 𝑐𝐸(𝑌) − 𝑑)] 𝐶𝑂𝑉(𝑎𝑋 + 𝑏, 𝑐𝑌 + 𝑑) = 𝐸 𝑎 𝑋 − 𝐸(𝑋) ∙ 𝑐 𝑌 − 𝐸(𝑌) 𝐶𝑂𝑉(𝑎𝑋 + 𝑏, 𝑐𝑌 + 𝑑) = 𝑎𝑐 ∙ 𝐶𝑂𝑉(𝑋, 𝑌) ∎ 3.4. Teorema: Sean 𝑋 e 𝑌 variables aleatorias cualesquiera y 𝑎, 𝑏, 𝑐 ∈ ℝ, entonces: 𝑉(𝑎𝑋 + 𝑏𝑌 + 𝑐) = 𝑎 𝑉(𝑋) + 𝑏 𝑉(𝑌) + 2𝑎𝑏 ∙ 𝐶𝑂𝑉(𝑋, 𝑌) Demostración: 𝑉(𝑎𝑋 + 𝑏𝑌 + 𝑐) = 𝐸[𝑎𝑋 + 𝑏𝑌 + 𝑐 − 𝐸(𝑎𝑋 + 𝑏𝑌 + 𝑐)] 𝑉(𝑎𝑋 + 𝑏𝑌 + 𝑐) = 𝐸[𝑎𝑋 + 𝑏𝑌 + 𝑐 − 𝑎𝐸(𝑋) − 𝑏𝐸(𝑌) − 𝑐] 𝑉(𝑎𝑋 + 𝑏𝑌 + 𝑐) = 𝐸 𝑎 𝑋 − 𝐸(𝑋) + 𝑏(𝑌 − 𝐸(𝑌)) 𝑉(𝑎𝑋 + 𝑏𝑌 + 𝑐) = 𝐸 𝑎 𝑋 − 𝐸(𝑋) + 𝑏 𝑌 − 𝐸(𝑌) + 2𝑎𝑏 ∙ 𝑋 − 𝐸(𝑋) ∙ 𝑌 − 𝐸(𝑌) 𝑉(𝑎𝑋 + 𝑏𝑌 + 𝑐) = 𝑎 𝑉(𝑋) + 𝑏 𝑉(𝑌) + 2𝑎𝑏 ∙ 𝐶𝑂𝑉(𝑋, 𝑌) ∎ 4. Coeficiente de correlación lineal: 4.1. Definición: Es una medida que indica cuán fuerte es la relación entre 𝑋 e 𝑌, pero exclusivamente desde el punto de vista lineal. En otras palabras, mide cuánto es el esfuerzo de 𝑋 e 𝑌 para estar sobre una recta. Notamos: 𝜌 4.2. , = 𝐶𝑂𝑉(𝑋, 𝑌) 𝑉(𝑋) ∙ 𝑉(𝑌) Observación: El coeficiente de correlación no tiene unidad de medida, trasciende ellas. Por ejemplo, es posible que 𝑋 esté medida en 𝑐𝑚 e 𝑌 esté medida en 𝐾𝑔, por lo tanto, 𝑉(𝑋) estará medida en 𝑐𝑚 y 𝑉(𝑌) estará medida en 𝐾𝑔 , pero el 𝜌 , no tendrá unidad de medida, porque estás se cancelan. Expresado algebraicamente obtenemos: 𝜌 , = 𝐶𝑂𝑉(𝑋, 𝑌)𝐾𝑔 ∙ 𝑐𝑚 𝑉(𝑋)𝑐𝑚 ∙ 𝑉(𝑌)𝐾𝑔 = 𝐶𝑂𝑉(𝑋, 𝑌)𝐾𝑔 ∙ 𝑐𝑚 𝐶𝑂𝑉(𝑋, 𝑌) = 𝜎 𝑐𝑚 ∙ 𝜎 𝐾𝑔 𝜎 ∙𝜎 15 4.3. Propiedades: 1) 𝜌 =𝜌 , , 2) Si 𝑌 = 𝑎𝑋 + 𝑏 ⇒ 𝜌 Esto implica que 𝜌 𝜌 = 1, ∀ 𝑎, 𝑏 ∈ ℝ. , valdrá (1) ∨ (−1) y tendrá el mismo signo que 𝑎. Es decir: , = 𝑠𝑖𝑔𝑛𝑜(𝑎) , Demostración:  𝑉(𝑌) = 𝑎 ∙ 𝑉(𝑋)  𝐶𝑂𝑉(𝑋, 𝑌) = 𝐶𝑂𝑉(𝑋, 𝑎𝑋 + 𝑏) 𝐶𝑂𝑉(𝑋, 𝑌) = 𝐸 𝑋(𝑎𝑋 + 𝑏) − 𝐸(𝑋) ∙ 𝐸(𝑎𝑋 + 𝑏) 𝐶𝑂𝑉(𝑋, 𝑌) = 𝑎𝐸(𝑋 ) + 𝑏𝐸(𝑋) − 𝑎𝐸 (𝑋) − 𝑏𝐸(𝑋) 𝐶𝑂𝑉(𝑋, 𝑌) = 𝑎 𝐸(𝑋 ) − 𝐸 (𝑋) 𝐶𝑂𝑉(𝑋, 𝑌) = 𝑎𝑉(𝑋) ⇒𝜌 , 𝐶𝑂𝑉(𝑋, 𝑌) = 𝑉(𝑋) ∙ 𝑉(𝑌) 𝑎𝑉(𝑋) = 𝑉(𝑋) ∙ 𝑎 𝑉(𝑋) 3) Sea 𝑊 = 𝑎𝑋 + 𝑏, 𝑍 = 𝑐𝑌 + 𝑑 ⇒ 𝜌 = 𝑎𝑉(𝑋) 𝑎 = = 𝑠𝑖𝑔𝑛𝑜(𝑎) ∎ |𝑎|𝑉(𝑋) |𝑎| = 𝑠𝑖𝑔𝑛𝑜(𝑎 ∙ 𝑐) ∙ 𝜌 , , Demostración: Recordemos que: 𝐶𝑂𝑉(𝑊, 𝑍) = 𝐶𝑂𝑉(𝑎𝑋 + 𝑏, 𝑐𝑌 + 𝑑) = 𝑎𝑐 ∙ 𝐶𝑂𝑉(𝑋, 𝑌) 𝜌 , 𝐶𝑂𝑉(𝑊, 𝑍) = 𝑉(𝑊)𝑉(𝑍) = 𝑠𝑖𝑔𝑛𝑜(𝑎𝑐) ∙ 𝜌 4) −1 ≤ 𝜌 , = 𝑎𝑐𝐶𝑂𝑉(𝑋, 𝑌) 𝑎 𝑉(𝑋)𝑐 𝑉(𝑌) = 𝑎𝑐 𝐶𝑂𝑉(𝑋, 𝑌) 𝑎𝑐 ∙ = ∙𝜌 |𝑎||𝑐| 𝑉(𝑋) ∙ 𝑉(𝑌) |𝑎𝑐| ∎ , ≤ 1 ∀ 𝑋, 𝑌 variables aleatorias Demostración: 𝜌 , = 𝐸 𝑋 − 𝐸(𝑋) 𝑌 − 𝐸(𝑌) Sea 𝑍 = 𝑉(𝑋) 𝑉(𝑌) ( ) ( ) 0 ≤ 𝐸(𝑍 ) = 𝐸 =𝐸 = 𝑋 − 𝐸(𝑋) 𝑉(𝑋) 𝐸 𝑋 − 𝐸(𝑋) 𝑉(𝑋) ( ) ± ( ) 𝑋 − 𝐸(𝑋) 𝑉(𝑋) 𝑌 − 𝐸(𝑌) 𝑉(𝑌) 𝑌 − 𝐸(𝑌) 𝑉(𝑌) ±2 𝐸 𝑌 − 𝐸(𝑌) 𝑉(𝑌) ±2 + + ± = 𝑋 − 𝐸(𝑋) 𝑌 − 𝐸(𝑌) 𝑉(𝑋)𝑉(𝑌) 𝐸 𝑋 − 𝐸(𝑋) 𝑌 − 𝐸(𝑌) 16 𝑉(𝑋)𝑉(𝑌) = = , = = 𝑉(𝑋) 𝑉(𝑌) + ± 2𝜌 𝑉(𝑋) 𝑉(𝑌) ⇒ 0 ≤ 2 ± 2𝜌 ⇒ −1 ≤ 𝜌 , , = 1 + 1 ± 2𝜌 , , ≤1 ∎ 5. Variables aleatorias dobles absolutamente continuas: 5.1. Definición: Sea (𝑥, 𝑦) un vector aleatorio, 𝑋 e 𝑌 definidas en el mismo espacio de probabilidad, (𝑥, 𝑦) es absolutamente continua sí y sólo si 𝑋 e 𝑌 son absolutamente continuas. (𝑥, 𝑦) tiene asociada una función de densidad conjunta 𝑓 𝐹 5.2. , (𝑥, 𝑦) = , : ℝ → ℝ tal que: (𝑡, 𝑤) 𝑑𝑡𝑑𝑤 Propiedades: 1) 𝑓 , (𝑥, 𝑦) ≥ 0 ∀(𝑥, 𝑦) ∈ ℝ 2) ∫ 5.3. 𝑓 , ∫ 𝑓 , (𝑥, 𝑦) 𝑑𝑥𝑑𝑦 = 1 Relaciones entre variables aleatorias: Si 𝑋 e 𝑌 son absolutamente continuas: 1) Igualdad: No difiere de la definición brindada en la página 9. 2) Semejanza: 𝑋 e 𝑌 serán semejantes ⇔ 𝑓 (𝑧) = 𝑓 (𝑧) ∀ 𝑧 ∈ ℝ 3) Independencia: 𝑋 e 𝑌 serán independientes ⇔ 𝑓 , (𝑥, 𝑦) = 𝑓 (𝑥) ∙ 𝑓 (𝑦) ∀ (𝑥, 𝑦) ∈ ℝ . Una condición necesaria para que haya independencia entre 𝑋 e 𝑌 es que el dominio de 𝑓 , sea un rectángulo. En otras palabras, si 𝑋 e 𝑌 son independientes, entonces el dominio de 𝑓 5.4. , necesariamente tiene que ser un rectángulo. Densidades marginales: 5.4.1. Densidad marginal de 𝑋: Es la densidad de la variable aleatoria 𝑋. Debemos utilizar los límites de integración de 𝒀 e integrar con respecto a la misma. Notamos: 𝑓 (𝑥) = 𝑓 , (𝑥, 𝑦)𝒅𝒚 17 5.4.2. Densidad marginal de 𝑌: Es la densidad de la variable aleatoria 𝑌. Debemos utilizar los límites de integración de 𝑿 e integrar con respecto a la misma. Notamos: 𝑓 (𝑦) = 𝑓 (𝑥, 𝑦)𝒅𝒙 , 5.4.3. Ejemplo: Veamos el ejemplo del primer parcial del 26/09/2022 que es el que me toco a mí. El razonamiento se basa en un video que tienen más abajo. Sea el vector aleatorio (𝑋, 𝑌) con función de densidad conjunta 𝑓 , , definida como: 𝑓 , (𝑥, 𝑦) = 𝑘(𝑥 + 𝑦) 𝑠𝑖 0 ≤ 𝑦 ≤ 1; 𝑦 ≤ 𝑥 ≤ 2 − 𝑦 0 𝑒𝑛 𝑜𝑡𝑟𝑜 𝑐𝑎𝑠𝑜 a) Determinar 𝑘 para que 𝑓 , sea efectivamente una función de densidad. Primer paso: Plantear la región de integración de 𝑓 , . 𝑆 = {(𝑥, 𝑦) ∈ ℝ ⁄0 ≤ 𝑦 ≤ 1; 𝑦 ≤ 𝑥 ≤ 2 − 𝑦} Segundo paso: Hallamos 𝑘. Por propiedad 2 de las funciones de densidad sabemos que: 𝑓 ⇒ 𝑘 ⇒𝑘= , (𝑥, 𝑦) 𝑑𝑥𝑑𝑦 = 1 ⇒ 𝑥 + 𝑦𝑥 2 3 ⇒𝑓 4 , 𝑑𝑦 = 1 ⇒ 𝑘 𝑘(𝑥 + 𝑦) 𝑑𝑥𝑑𝑦 = 1 2 − 2𝑦 𝑑𝑦 = 1 ⇒ 2𝑘 𝑦 − 3 (𝑥, 𝑦) = 4 (𝑥 + 𝑦) 𝑠𝑖 0 ≤ 𝑦 ≤ 1; 𝑦 ≤ 𝑥 ≤ 2 − 𝑦 0 𝑒𝑛 𝑜𝑡𝑟𝑜 𝑐𝑎𝑠𝑜 18 𝑦 3 = 1 ⇒ 2𝑘 2 =1 3 b) Hallar la función de densidad marginal de 𝑿 (𝑓 ). Indicar el intervalo en que 𝑓 es positiva. Observación: https://youtu.be/0C5k6Svtj9c este es el video, espero que les sirva. Siguiendo las “flechas” vemos que mientras 0 ≤ 𝑥 < 1; 𝑦 “entra” por 𝑦 = 0 y “sale” por 𝑦 = 𝑥. Ahora bien, mientras 1 ≤ 𝑥 ≤ 2; 𝑦 “entra” por 𝑦 = 0 y “sale” por 𝑦 = 2 − 𝑥; lo que nos da el indicio de que 𝑓 (𝑥) nos va a quedar partida. Planteamos 𝑓 (𝑥): ⎧ ⎪ 𝑓 (𝑥) = (𝟏) (𝟐) = ⎨ ⎪ ⎩ 3 (𝑥 + 𝑦)𝒅𝒚 𝑠𝑖 0 ≤ 𝑥 < 1 (𝟏) 4 3 (𝑥 + 𝑦)𝒅𝒚 𝑠𝑖 1 ≤ 𝑥 ≤ 2 (𝟐) 4 0 𝑒𝑛 𝑜𝑡𝑟𝑜 𝑐𝑎𝑠𝑜 3 3 𝑦 (𝑥 + 𝑦)𝒅𝒚 = 𝑥𝑦 + 4 4 2 = 3 𝑥 𝑥 + 4 2 3 3 𝑦 (𝑥 + 𝑦)𝒅𝒚 = 𝑥𝑦 + 4 4 2 = 9 = 𝑥 8 (2 − 𝑥) 3 2𝑥 − 𝑥 + 4 2 3 3 − 𝑥 2 8 9 ⎧ 𝑥 𝑠𝑖 0 ≤ 𝑥 < 1 ⎪ 8 ∴ 𝑓 (𝑥) = 3 3 ∧ 𝑓 (𝑥) > 0 ∀ 𝑥 ∈ (0; 2) ⎨ − 𝑥 𝑠𝑖 1 ≤ 𝑥 ≤ 2 ⎪2 8 ⎩ 0 𝑒𝑛 𝑜𝑡𝑟𝑜 𝑐𝑎𝑠𝑜 19 = 3 1 2− 𝑥 4 2 = c) Hallar la función de densidad marginal de 𝒀 (𝑓 ). Indicar el intervalo en que 𝑓 es positiva. Siguiendo las “flechas” vemos que mientras 0 ≤ 𝑦 ≤ 1; 𝑥 “entra” por 𝑥 = 𝑦 y “sale” por 𝑥 = 2 − 𝑦. En este caso, claramente, la función 𝑓 no quedará partida. Planteamos 𝑓 (𝑦): 𝑓 (𝑦) = 3 (𝑥 + 𝑦)𝒅𝒙 𝑠𝑖 0 ≤ 𝑦 ≤ 1 4 0 𝑒𝑛 𝑜𝑡𝑟𝑜 𝑐𝑎𝑠𝑜 3 3 𝑥 (𝑥 + 𝑦)𝒅𝒙 = + 𝑦𝑥 4 4 2 3 3 3 = (2 − 2𝑦 ) = − 𝑦 4 2 2 3 3 ∴ 𝑓 (𝑦) = 2 − 2 𝑦 𝑠𝑖 0 ≤ 𝑦 ≤ 1 ∧ 𝑓 (𝑥) > 0 ∀ 𝑥 ∈ (0; 1) 0 𝑒𝑛 𝑜𝑡𝑟𝑜 𝑐𝑎𝑠𝑜 5.5. Esperanza: 𝐸(𝑋, 𝑌) = 𝑥∙𝑦∙𝑓 , (𝑥, 𝑦) 𝑑𝑥𝑑𝑦 Ejemplo: Calcularemos la esperanza de la función de densidad del apartado 5.4.3. 𝑓 , 3 (𝑥, 𝑦) = 4 (𝑥 + 𝑦) 𝑠𝑖 0 ≤ 𝑦 ≤ 1; 𝑦 ≤ 𝑥 ≤ 2 − 𝑦 0 𝑒𝑛 𝑜𝑡𝑟𝑜 𝑐𝑎𝑠𝑜 𝐸(𝑋, 𝑌) = 3 3 𝑥 ∙ 𝑦 ∙ (𝑥 + 𝑦)𝑑𝑥𝑑𝑦 = 4 4 20 𝑥 𝑦 + 𝑥𝑦 𝑑𝑥𝑑𝑦 = = 3 4 = 3 4 𝑥 𝑥 𝑦+ 𝑦 3 2 − 3 4 (2 − 𝑦) (2 − 𝑦) 𝑦 𝑦 𝑦+ 𝑦 − 𝑦− 𝑦 3 2 3 2 2𝑦 8𝑦 3 2 𝑦 𝑦 8 𝑦 − 2𝑦 + 𝑑𝑦 = − ∙ −2∙ + ∙ 3 3 4 3 5 3 3 2 ∴ 𝐸(𝑋, 𝑌) = 5.6. 𝑑𝑦 = = 𝑑𝑦 = 3 8 2 = 4 15 5 2 5 Densidad condicional de 𝑋 dado 𝑌 = 𝑦 : 𝑓 (𝑥) = 𝑓 (𝑥, 𝑦 ) 𝑓 (𝑦 ) , Con 𝑓 (𝑦 ) ≠ 0 y ∀ (𝑥, 𝑦 ) ∈ 𝑅𝑒𝑐(𝑋, 𝑌). El resultado es análogo para densidad condicional de 𝑌 dado 𝑋 = 𝑥 . 5.7. Esperanza de 𝑋 dado 𝑌 = 𝑦 : 𝐸(𝑋⁄𝑌 = 𝑦 ) = 𝑥∙𝑓 (𝑥) 𝑑𝑥 Es análogo para 𝐸(𝑌⁄𝑋 = 𝑥 ). Recordar que debemos cambiar 𝒅𝒙 por 𝒅𝒚. 21 Capítulo 2: Estadística descriptiva. 1. Tipos de variables: (definiciones sacadas de economipedia.com) 1) Cualitativas: Son aquellas variables estadísticas que expresan una cualidad, o característica, del objeto o individuo en cuestión. a) Nominales: Diremos que es de este tipo si no logramos ordenarlas bajo ningún criterio lógico. b) Ordinales: Diremos que es de este tipo si, efectivamente, logramos ordenarlas bajo un criterio lógico. 2) Cuantitativas: Son aquellas variables estadísticas que, a diferencia de las cualitativas, pueden expresarse a través de cifras. Por esta razón, puede analizarse con métodos estadísticos. a) Discretas: Son aquellas que toman, solamente, determinados valores y no cualquier valor que se encuentre entre dos de ellos. b) Continuas: Son aquellas que pueden tomar cualquier valor. Habitualmente, esto quiere decir que puede tomar valores que no son enteros. 2. Frecuencias absolutas: Suponemos que el total de observaciones es 𝑛. Dada una variable cualquiera, la frecuencia absoluta de un valor que toma la variable es el número de casos observados con ese valor. Si la variable 𝑋 toma los valores 𝑥 ; 𝑥 ; … ; 𝑥 , cada uno de ellos con frecuencia absoluta 𝑎 ; 𝑎 ; … ; 𝑎 , tenemos que: 𝑎 =𝑛 Ejemplo: Se consideran el número de integrantes de 20 familias y llamamos a esa variable 𝑋: 𝑿 𝒂𝒊 1 3 𝑎 2 4 𝑎 22 3 7 𝑎 4 3 𝑎 5 2 𝑎 6 1 𝑎 20 𝑛 Ejemplo: Se consulta a un grupo de consumidores de mate sobre la marca de yerba que prefieren: Marca 𝒂𝒊 Canaria 6 𝑎 Baldo 4 𝑎 Sara 4 𝑎 Armiño 2 𝑎 16 𝑛 3. Frecuencia Relativa: Es la proporción de observaciones de un valor de la variable en el total de observaciones. Diremos que ℎ es la frecuencia relativa de 𝑥 . Está dada por: ℎ = . Observación: ℎ = ∑ 𝑛 𝑛 𝑛 = = =1 𝑛 𝑛 𝑛 Ejemplo: (usamos el primer caso de frecuencia absoluta) 𝑿 𝒂𝒊 𝒉𝒊 1 3 3⁄20 ℎ 2 4 4⁄20 ℎ 3 7 7⁄20 ℎ 4 3 3⁄20 ℎ 5 2 2⁄20 ℎ 6 1 1⁄20 ℎ 20 1 Ejemplo: (Usamos el segundo caso de frecuencia absoluta) 23 Marca 𝒂𝒊 Canaria 6 6⁄16 ℎ Baldo 4 4⁄16 ℎ Sara 4 4⁄16 ℎ Armiño 2 2⁄16 ℎ 16 𝒉𝒊 1 4. Gráficos: 4.1. De líneas: 4.2. De barras: 24 5. Medidas de resumen para variables cualitativas nominales: Moda: Es el valor de la variable con mayor frecuencia. Si todas las observaciones tienen la misma frecuencia, entonces diremos que no hay moda. Observación: Esto también se cumple para otro tipo de variables. 6. Medidas de resumen para variables cualitativas ordinales: Ejemplo: Calidad del servicio 𝒂𝒊 𝒉𝒊 𝑭(𝒙𝒊 ) Muy malo 4 4⁄20 4⁄20 Malo 6 6⁄20 10⁄20 Regular 6 6⁄20 16⁄20 Bueno 3 3⁄20 19⁄20 Muy bueno 1 1⁄20 1 20 1 Frecuencia relativa acumulada: 𝐹(𝑥 ) = ℎ Mediana: Es el menor valor de la variable con una frecuencia relativa acumulada de 0,5 o superior. Es el primer elemento 𝑥 cuyo valor correspondiente de frecuencia relativa acumulada sobrepasa 0,5. Notamos: 𝑋 , . 7. Variables cuantitativas (datos desagregados): 7.1. Tenemos un conjunto de 𝑛 valores de una variable 𝑥, con 𝑛 valores no necesariamente todos distintos. A los 𝑘 valores distintos de 𝑥 los llamaremos 𝑦 , 𝑦 , … , 𝑦 . 𝒉𝒊 = 𝒏𝒊 ⁄𝒏 Frecuencia relativa acumulada 𝒚𝒊 𝒏𝒊 𝑦 𝑛 ℎ 𝐹 =ℎ 𝑦 𝑛 ℎ 𝐹 = ℎ +ℎ … … … … 𝑦 𝑛 ℎ 𝐹 = ℎ + ℎ + ⋯+ ℎ = 1 𝑛 1 25 Observación: El gráfico de frecuencia relativa acumulada es parecido al de una función de distribución de una variable aleatoria discreta. 7.2. Medidas de resumen: 1) Medidas de posición: a) Media: Es el promedio de las observaciones. Tenemos distintas formas de calcularla dependiendo de qué dato decidamos usar: Si usamos las 𝑥, la calculamos de la siguiente manera: 𝑥̅ = 1 𝑛 𝑥 Si usamos las 𝑥 únicas, es decir las 𝑦, y la frecuencia relativa. La calculamos de la siguiente manera: 𝑥̅ = 𝑦 ∙ℎ Si usamos las 𝑥 únicas y la frecuencia absoluta: 𝑥̅ = 1 𝑛 𝑦 ∙𝑛 Observación: La media es sensible a datos atípicos. Propiedades: 1) 𝑚í𝑛{𝑥 } ≤ 𝑥̅ ≤ 𝑚á𝑥{𝑥 } 2) Unicidad, la media es única. 3) La suma de los desvíos siempre es 0. (𝑥 − 𝑥̅ ) = 0 Demostración: (𝑥 − 𝑥̅ ) = (𝑥 − 𝑥̅ ) = 𝑛 ∙ 𝑥 − ∑ 𝑥̅ 𝑥 𝑛 − 𝑛 ∙ 𝑥̅ (𝑥 − 𝑥̅ ) = 𝑛 ∙ 𝑥̅ − 𝑛 ∙ 𝑥̅ = 0 ∎ 26 4) ∑ (𝑥 − 𝐶) > ∑ (𝑥 − 𝑥̅ ) ∀ 𝐶 ≠ 𝑥̅ Demostración: 𝜕 𝜕𝐶 (𝑥 − 𝐶) = ∑ 𝑥 = (−2) ∙ 𝑛 ∙ 2 ∙ (𝑥 − 𝐶) ∙ (−1) = (−2) ∙ 𝑥 − 𝐶 = −𝑛∙𝐶 =0 ∎ 𝑛 𝐶 = 𝑥̅ 5) Si 𝑧 = 𝑎𝑥 + 𝑏 ⇒ 𝑧̅ = 𝑎𝑥̅ + 𝑏 ∀ 𝑎, 𝑏 ∈ ℝ Demostración: ∑𝑧 ∑(𝑎𝑥 + 𝑏) 𝑎 ∑ 𝑥 + 𝑛𝑏 ∑𝑥 𝑛𝑏 = = =𝑎∙ + = 𝑎𝑥̅ + 𝑏 ∎ 𝑛 𝑛 𝑛 𝑛 𝑛 b) Mediana: Llamaremos 𝑥( ) , 𝑥( ) , … , 𝑥( 𝑥 =𝑥 𝑥( 𝑥 , = ) a la muestra ordenada 𝑥( ) ≤ 𝑥( ) si 𝑖 ≤ 𝑗. , ⁄ ) 𝑥 + 𝑥( 2 ⁄ ) 𝑠𝑖 𝑛 𝑒𝑠 𝑝𝑎𝑟. 𝑠𝑖 𝑛 𝑒𝑠 𝑖𝑚𝑝𝑎𝑟. Ejemplo: 1, 1, 2, 2, 2, 3, 𝟒, 𝟓, 6, 7, 7, 9, 9, 9 donde 𝑛 = 14 𝑥 , = 𝑥( ) + 𝑥( 2 ) 4+5 = 4,5 2 = c) Percentiles: 𝑥 es el percentil 𝑝. Es el valor que deja a su izquierda por lo menos 𝑝 ∙ 100 % de los datos. En particular 𝑥 es el percentil 0,5. , Pasos para calcular: 1. (𝑛 + 1) ∙ 𝑝 = 𝑘 + 𝛼 donde 𝑘 es la parte natural y 𝛼 es la parte fraccionaria. En otras palabras 𝑘 es la parte antes de la coma y 𝛼 es la parte después de la coma. 2. 𝑥( ) = (1 − 𝛼) ∙ 𝑥( ) + 𝛼 ∙ 𝑥( ) = 𝑥( ) + 𝛼 ∙ 𝑥( Son de particular interés los cuartiles: 𝑄 = 𝑥 Los deciles son: 𝑥 , ,𝑥 , ,…,𝑥 , , ) − 𝑥( ,𝑄 =𝑥 , ) y𝑥 , . . d) Moda: Es el valor de 𝑦 con mayor frecuencia así como es el valor de 𝑥 que más se repite. 2) Medidas de dispersión: Observación: todas deben ser positivas. 27 a) Varianza: Es el promedio de los desvíos, respecto a la media, al cuadrado. 𝑠 = = 1 ∙ 𝑛 (𝑥 − 𝑥̅ ) = 1 ∙ 𝑛 1 ∙ 𝑛 (𝑥 + 𝑥̅ − 2 ∙ 𝑥 ∙ 𝑥̅ ) = ∑𝑥 ∑𝑥 𝑛 ∙ 𝑥̅ + − 2 ∙ 𝑥̅ ∙ = 𝑛 𝑛 𝑛 𝑥 − 𝑥̅ Si utilizamos la frecuencia relativa, entonces la varianza está dada por: (𝑦 − 𝑥̅ ) ∙ ℎ 𝑠 = Propiedades: 1) 𝑠 ≥ 0 “Porque es un promedio de cosas al cuadrado”. 2) Si todas las observaciones son iguales: 𝑥 = 𝑥 = ⋯ = 𝑥 ⇒ 𝑠 = 0. 3) Si 𝑦 = 𝑎𝑥 + 𝑏 ⇒ 𝑠 = 𝑎 𝑠 con 𝑎, 𝑏 ∈ ℝ. Demostración: 𝑠 = = 1 ∙ 𝑛 1 ∙ 𝑛 (𝑦 − 𝑦) = 1 ∙ 𝑛 𝑎 ∙ (𝑥 − 𝑥̅ ) = 𝑎 ∙ 𝑎𝑥 + 𝑏 − (𝑎𝑥̅ + 𝑏) 1 ∙ 𝑛 𝑠 c) Rango: 𝑅 = 𝑥( − 𝑥( ) ) d) Rango intercuartílico: 𝑅𝐼 = 𝑥( , ) − 𝑥( , ) e) Coeficiente de variación: 𝑠 𝐶𝑉 = |𝑥̅ | 3) Medidas de asimetría: a) Coeficiente de asimetría: 𝐴𝑆 = 1 ∙ 𝑛∙𝑠 1 ∙ 𝑛 (𝑥 − 𝑥̅ ) = 𝑎 ∙ 𝑠 ∎ b) Desvío: 𝑠= = (𝑥 − 𝑥̅ ) 28 (𝑎𝑥 − 𝑎𝑥̅ ) = Interpretación: Si 𝐴𝑆 < 0 entonces existe simetría negativa. Si 𝐴𝑆 > 0 entonces existe simetría positiva. Si 𝐴𝑆 = 0 entonces la distribución es simétrica. 7.3. Diagrama de caja: Se utiliza fundamentalmente para ver la dispersión y la simetría. 7.3.1. Elementos: 1) 𝑄 y 𝑄 son los percentiles 𝑥 2) 𝑥 , , y𝑥 , respectivamente. Definen la caja. , la mediana, es la línea vertical dentro de la caja. 3) 𝑅𝐼 = 𝑄 − 𝑄 4) 𝐵𝑜𝑟𝑑𝑒 𝑖𝑛𝑓𝑒𝑟𝑖𝑜𝑟 = 𝑄 − 1,5𝑅𝐼 5) 𝐵𝑜𝑟𝑑𝑒 𝑠𝑢𝑝𝑒𝑟𝑖𝑜𝑟 = 𝑄 + 1,5𝑅𝐼 6) Los bigotes indican el valor más cercano al borde superior o inferior (dentro de ese rango). 𝐵𝑖𝑔𝑜𝑡𝑒 𝑖𝑛𝑓𝑒𝑟𝑖𝑜𝑟 = min{𝑥 } con 𝑥 ≥ 𝐵𝑜𝑟𝑑𝑒 𝑖𝑛𝑓𝑒𝑟𝑖𝑜𝑟. 𝐵𝑖𝑔𝑜𝑡𝑒 𝑠𝑢𝑝𝑒𝑟𝑖𝑜𝑟 = max{𝑥 } con 𝑥 ≤ 𝐵𝑜𝑟𝑑𝑒 𝑠𝑢𝑝𝑒𝑟𝑖𝑜𝑟. 7) Los datos atípicos son aquellos que están por fuera de los bigotes. 8. Variables cuantitativas (Datos agrupados): Se agrupan en 𝑘 intervalos. Se pierde el dato original. Clase 𝐼 = [𝑥 ; 𝑥 ) Representante Frecuencia Frecuencia de clase Absoluta Relativa 𝑛(𝑥 ) ℎ(𝑥 ) 𝑥 = 𝑥 +𝑥 2 29 Frecuencia Relativa acumulada. 𝐹 ∗ (𝑥 ) = ℎ(𝑥 ) Densidad Empírica ℎ(𝑥 ) 𝑥 −𝑥 𝐼 = [𝑥 ; 𝑥 ) 𝑥 = 𝑥 +𝑥 2 … 𝐼 = [𝑥 𝐼 = [𝑥 𝑛(𝑥 ) ℎ(𝑥 ) 𝐹 ∗ (𝑥 ) + ℎ(𝑥 ) … … … … ;𝑥 ) 𝑥 = ;𝑥 ) 𝑥 = 𝑥 +𝑥 2 𝑛(𝑥 ) ℎ(𝑥 ) 𝑥 +𝑥 2 𝑛(𝑥 ) ℎ(𝑥 ) 𝑛 =𝑛 8.1. 𝐹 ∗ (𝑥 ℎ(𝑥 ) 𝑥 −𝑥 … ) + ℎ(𝑥 ) ℎ(𝑥 ) 𝑥 −𝑥 1 ℎ(𝑥 ) 𝑥 −𝑥 ℎ =1 Elementos:  𝑥 = 𝑅𝑒𝑝𝑟𝑒𝑠𝑒𝑛𝑡𝑎𝑛𝑡𝑒 𝑑𝑒 𝑐𝑙𝑎𝑠𝑒.  𝑛(𝑥 ) = 𝐹𝑟𝑒𝑐𝑢𝑒𝑛𝑐𝑖𝑎 𝑎𝑏𝑠𝑜𝑙𝑢𝑡𝑎 𝑑𝑒 𝑙𝑎 𝑐𝑙𝑎𝑠𝑒 𝑖. Es el número de observaciones de la clase.  ℎ(𝑥 ) = ( ) = 𝐹𝑟𝑒𝑐𝑢𝑒𝑛𝑐𝑖𝑎 𝑟𝑒𝑙𝑎𝑡𝑖𝑐𝑎 𝑑𝑒 𝑙𝑎 𝑐𝑙𝑎𝑠𝑒 𝑖.  Estás ultimas 3 le dan todo el peso al representante de la clase.  La Frecuencia Relativa Acumulada le da todo el peso al borde derecho del intervalo/clase. 𝐹 ∗ (𝑥 ) = 𝐹𝑟𝑒𝑐𝑢𝑒𝑛𝑐𝑖𝑎 𝑅𝑒𝑙𝑎𝑡𝑖𝑣𝑎 𝐴𝑐𝑢𝑚𝑢𝑙𝑎𝑑𝑎.  𝑓 ∗ (𝑥 ) = 𝐷𝑒𝑛𝑠𝑖𝑑𝑎𝑑 𝐸𝑚𝑝í𝑟𝑖𝑐𝑎. Asumimos que es lineal. 8.2. Medidas de posición: 1) Media: Si usamos la frecuencia relativa: 𝑥 ∙ ℎ(𝑥 ) 𝑥̅ = Si usamos la frecuencia absoluta: 𝑥̅ = 1 ∙ 𝑛 𝑥 ∙ 𝑛(𝑥 ) Observación: 𝑛 denota cantidad de observaciones, mientras que 𝑛(𝑥 ) denota la frecuencia absoluta de la observación 𝑥 . 2) Percentiles: 𝑥 con 0 < 𝑝 < 1. 𝑥 deja a su izquierda una cantidad 𝑝 de Frecuencia Relativa Acumulada. 𝑥 =𝑥 + 𝑝 − 𝐹 ∗ (𝑥 ) ∙ (𝑥 − 𝑥 𝐹 ∗ (𝑥 ) − 𝐹 ∗ (𝑥 ) Evidentemente, la mediana es 𝑥 , 30 ) 3) Intervalo modal: Es la clase o intervalo con mayor densidad empírica. El histograma es un gráfico de frecuencia relativa. 8.3. Medidas de dispersión: 1) Varianza: Si usamos la frecuencia relativa: 𝑠 = (𝑥 − 𝑥̅ ) ∙ ℎ(𝑥 ) 𝑠 = 𝑥 ∙ ℎ(𝑥 ) − 𝑥̅ Si usamos la frecuencia absoluta: 𝑠 = 1 𝑛 (𝑥 − 𝑥̅ ) ∙ 𝑛(𝑥 ) 2) Desvío estándar o típico: 𝑠= 𝑠 3) Coeficiente de variación: 𝑠 𝐶𝑉 = |𝑥̅ | 31 4) Rango: 𝑅 =𝑥 −𝑥 5) Rango intercuartílico: 𝑅𝐼 = 𝑥 , −𝑥 , 32 Capítulo 3: Regresión Lineal. 1. Covarianza muestral: 1.1. Definición: Es una medida de la variabilidad conjunta de 𝑥 e 𝑦. 𝑐𝑜𝑣(𝑥, 𝑦) = 1.2. 1 ∙ 𝑛 (𝑥 − 𝑥̅ ) ∙ (𝑦 − 𝑦) Casos: a) Si 𝑐𝑜𝑣(𝑥, 𝑦) > 0 decimos que 𝑥 e 𝑦 están correlacionadas positivamente. b) Si 𝑐𝑜𝑣(𝑥, 𝑦) < 0 decimos que 𝑥 e 𝑦 están correlacionadas negativamente. c) Si 𝑐𝑜𝑣(𝑥, 𝑦) = 0 decimos que x e y no están correlacionadas. 1.3. Teorema: 𝑐𝑜𝑣(𝑥, 𝑦) = 1 𝑛 𝑥 𝑦 − 𝑥̅ 𝑦 Demostración: 𝑐𝑜𝑣(𝑥, 𝑦) = 1 ∙ 𝑛 (𝑥 − 𝑥̅ ) ∙ (𝑦 − 𝑦) = = 1 ∙ 𝑛 𝑥 ∙𝑦 −𝑦∙ 1 ∙ 𝑛 = 1 ∙ 𝑛 𝑥 ∙ 𝑦 − 𝑦 ∙ 𝑥̅ − 𝑥̅ ∙ 𝑦 + 𝑥̅ ∙ 𝑦 ∙ 𝑥 − 𝑥̅ ∙ 1 ∙ 𝑛 1 ∙ 𝑛 (𝑥 ∙ 𝑦 − 𝑥 ∙ 𝑦 − 𝑥̅ ∙ 𝑦 + 𝑥̅ ∙ 𝑦) = 𝑦 + 𝑥̅ ∙ 𝑦 ∙ 1 1 ∙𝑛 = ∙ 𝑛 𝑛 1 ∙ 𝑛 1= 𝑥 ∙ 𝑦 − 𝑥̅ ∙ 𝑦 ∎ 2. Coeficiente de correlación lineal de Pearson: 2.1. Definición: Mide “cuan cerca de una relación lineal” se encuentra un conjunto de datos bivariados. 𝑟 2.2. = 𝑐𝑜𝑣(𝑥, 𝑦) 𝑠 ∙𝑠 Propiedades: 1) −1 ≤ 𝑟 ≤1 Demostración: 0≤ 1 ∙ 𝑛 (𝑥 − 𝑥̅ ) (𝑦 − 𝑦) ± 𝑠 𝑠 = 33 = (𝑥 − 𝑥̅ ) (𝑦 − 𝑦) (𝑥 − 𝑥̅ ) ∙ (𝑦 − 𝑦) + ±2∙ = 𝑠 ∙𝑠 𝑠 𝑠 1 ∙ 𝑛 1 ∙∑ 𝑛 = (𝑥 − 𝑥̅ ) 𝑠 1 ∙∑ 𝑛 + 1 ∙∑ 𝑛 ±2∙ (𝑦 − 𝑦) 𝑠 (𝑥 − 𝑥̅ ) ∙ (𝑦 − 𝑦) 𝑠 ∙𝑠 = =1+1±2∙𝑟 0≤2±2∙𝑟 2) 𝑟 ⇒ −2 ≤ ±2 ∙ 𝑟 ⇒ −1 ≤ ±𝑟 ⇒ −1 ≤ 𝑟 ≤1 ∎ =𝑟 3) Si 𝑟 = 1, entonces, todos los puntos (𝑥, 𝑦) están sobre una recta. 4) Si 𝑟 = 0 decimos que no hay relación lineal pero puede haber otro tipo de relación. Observación: 𝑟 es sensible a datos atípicos. 5) Sea 𝑧 = 𝑎𝑥 + 𝑏 y 𝑤 = 𝑐𝑦 + 𝑑 para 𝑎, 𝑏, 𝑐, 𝑑 ∈ ℝ con 𝑎, 𝑐 ≠ 0, entonces: 𝑟 = 𝑠𝑖𝑔𝑛𝑜(𝑎 ∙ 𝑐) ∙ 𝑟 3. Regresión Lineal Simple: Siempre miro dos variables: 𝑥 e 𝑦; donde la primera es la variable de proyección (independiente) y la segunda es la variable de respuesta (dependiente). 𝒙 𝒚 𝑥 𝑦 𝑥 𝑦 … … 𝑥 𝑦 Queremos encontrar 𝑎, 𝑏 ∈ ℝ⁄𝑌 = 𝑎 + 𝑏𝑋. Lo que observamos es que 𝑦 = 𝑎 + 𝑏𝑥 + 𝜀 . Donde 𝜀 son errores atribuibles a diferentes causas. La diferencia entre el valor observado y el resultado de la recta de regresión es el error: 𝑦 − (𝑎 + 𝑏𝑥 ) = 𝜀 Queremos hallar 𝑎, 𝑏 ∕ ∑ 𝐹(𝑎, 𝑏) = 𝜀 ⇒ 𝐹(𝑎, 𝑏) = 𝜀 sea mínimo: (𝑦 − 𝑎 − 𝑏𝑥 ) Optimizamos: 𝜕 𝐹(𝑎, 𝑏) = 𝜕𝑎 −2 (𝑦 − 𝑎 − 𝑏𝑥 ) = 0 ⇒ 𝑦 − 𝑎 − 𝑏𝑥 = 0 ⇒ 34 𝑦 = 𝑛𝑎 + 𝑏 𝑥 𝜕 𝐹(𝑎, 𝑏) = 𝜕𝑏 ⇒ 2 (𝑦 − 𝑎 − 𝑏𝑥 )(−𝑥 ) = 0 ⇒ 𝑥 ∙𝑦 = 𝑎𝑥 + 𝑏𝑥 ⇒ 𝑥 ∙𝑦 =𝑎 𝑥 (𝑦 − 𝑎 − 𝑏𝑥 ) = 0 𝑥 +𝑏 𝑥 Ecuaciones normales: ⎧ ⎪ ⎨ ⎪ ⎩ 𝑦 = 𝑛𝑎 + 𝑏 𝑥 ∙𝑦 =𝑎 𝑥 (𝟏) 𝑥 +𝑏 𝑥 (𝟐) Supongo que cuento con las 𝑛 observaciones de (𝑥 ; 𝑦 ) y vamos a estimar los parámetros 𝑎 y 𝑏 para este conjunto de datos y los llamaremos 𝑎 y 𝑏. De la primer ecuación normal tenemos que: 1 ∙ 𝑛 𝑦 = 1 1 ∙𝑛∙𝑎+𝑏∙ ∙ 𝑛 𝑛 𝑥 ⇒ 𝑦 = 𝑎 + 𝑏 ∙ 𝑥̅ ⟹ 𝑎 = 𝑦 − 𝑏 ∙ 𝑥̅ De la segunda ecuación normal tenemos que: 1 ∙ 𝑛 𝑥 ∙𝑦 =𝑎∙ 1 ∙ 𝑛 𝑥 +𝑏∙ 1 ∙ 𝑛 ⇒ 1 ∙ 𝑛 𝑥 ∙ 𝑦 = 𝑦 − 𝑏 ∙ 𝑥̅ ∙ 𝑥̅ + 𝑏 ∙ ⇒ 1 ∙ 𝑛 𝑥 ∙ 𝑦 − 𝑥̅ 𝑦 = 𝑏 1 ∙ 𝑛 𝑥 ⇒ 1 ∙ 𝑛 𝑥 − 𝑥̅ 1 ∙ 𝑛 𝑥 ⇒ 𝑥 ∙ 𝑦 = 𝑎 ∙ 𝑥̅ + 𝑏 ∙ 1 ∙ 𝑛 ⇒ 𝑐𝑜𝑣(𝑥, 𝑦) = 𝑏 ∙ 𝑠 ⇒ 𝑏 = 𝑎 = 𝑦 − 𝑏 ∙ 𝑥̅ 𝑐𝑜𝑣(𝑥, 𝑦) 𝑏= 𝑠 Demostración de que 𝑎; 𝑏 efectivamente es mínimo: 𝜀 = (𝑦 − 𝑎 − 𝑏𝑥 ) 𝜕 𝐹(𝑎, 𝑏) = (−2) ∙ 𝜕𝑎 (𝑦 − 𝑎 − 𝑏𝑥 ) 𝜕 𝐹(𝑎, 𝑏) = (−2) ∙ 𝜕𝑏 (𝑦 − 𝑎 − 𝑏𝑥 ) ∙ (𝑥 ) 35 𝑥 𝑥 ∙ 𝑦 = 𝑥̅ 𝑦 − 𝑏𝑥̅ + 𝑏 ∙ Por lo tanto, hemos hallado que: 𝐹(𝑎, 𝑏) = 1 ∙ 𝑛 1 𝑛 𝑐𝑜𝑣(𝑥, 𝑦) 𝑠 𝑥 𝜕 𝐹(𝑎, 𝑏) = (−2) ∙ 𝜕𝑎 (−1) = 2𝑛 𝜕 𝐹(𝑎, 𝑏) = 2 ∙ 𝜕𝑎𝜕𝑏 𝑥 𝜕 𝐹(𝑎, 𝑏) = 2 ∙ 𝜕𝑏 2𝑛 ⎛ ℍ=⎜ ⎜ 2 𝑥 𝑥 2 𝑥 2 𝑥 ⎝ ⎠ det(ℍ) = 4𝑛 ∙ = 4 𝑛 ⎞ ⎟ ⎟ 1 ∙ 𝑛 𝑥 −4 𝑥 − 1 𝑛 𝑥 𝑥 =4∙ 𝑛∙ = 4 𝑛 1 ∙ 𝑛 Como 𝑠 siempre es positivo, entonces 𝑥 − 𝑥 − 𝑥 1 ∙ 𝑛 𝑥 = = 4 ∙𝑠 𝑛 ∙ 𝑠 > 0. Por lo que, dado el criterio de Hess1, podemos afirmar que estamos frente a un mínimo. 3.1. Análisis de los residuos: Llamaremos “residuo de la i-ésima observación” a: 𝜀 = 𝑦 − 𝑦 donde 𝑦 = 𝑎 + 𝑏𝑥 . 3.1.1. Propiedades: 1) ∑ 𝜀 =0 Demostración: 𝜀 = 𝑦 − 𝑎 + 𝑏𝑥 = 𝑦 − 𝑛𝑎 − 𝑏 𝑥 = 𝑛𝑦 − 𝑛𝑎 − 𝑏𝑛𝑥̅ = 𝑛 𝑦 − 𝑎 − 𝑏𝑥̅ = 𝑛 𝑦 − 𝑦 − 𝑏𝑥̅ − 𝑏𝑥̅ = 0 ∎ 2) ∑ 𝑦 =∑ 3) ∑ 𝑥𝜀 =0 𝑦 Demostración: 𝑥 (𝑦 − 𝑦 ) = 𝑥 𝑦 − 𝑎 − 𝑏𝑥 =0 ∎ 1 Si el 𝑎 > 0 y det (ℍ) > 0, tenemos un mínimo relativo. En cambio, si el 𝑎 máximo relativo. 36 < 0 y det (ℍ) > 0, tenemos un Por la segunda ecuación normal, sabemos que todo queda igual a 0. 3.2. Análisis de la varianza (ANOVA): 1 𝑛 𝑠 = (𝑦 − 𝑦) Observación: 𝑦 −𝑦 =𝑦 −𝑦 +𝑦 −𝑦 (𝑦 − 𝑦) = (𝑦 − 𝑦 ) + (𝑦 − 𝑦) (𝑦 − 𝑦) = (𝑦 − 𝑦 ) + = (𝑦 − 𝑦 ) + (𝑦 − 𝑦) + 2(𝑦 − 𝑦 )(𝑦 − 𝑦) (𝑦 − 𝑦) + 2 (𝑦 − 𝑦 )(𝑦 − 𝑦) Donde: ∑ (𝑦 − 𝑦) es la varianza total. ∑ (𝑦 − 𝑦 ) es la varianza de los residuos. ∑ (𝑦 − 𝑦) es la varianza del modelo. 2 (𝑦 − 𝑦 )(𝑦 − 𝑦) = 0 Demostración: (𝑦 − 𝑦 )(𝑦 − 𝑦) = =𝑎 1= 𝜀 +𝑏 ∑ ∑ 𝜀 (𝑦 − 𝑦) = 𝜀 𝑥 −𝑦 ∑ (𝑦 − 𝑦) = ∑ (𝑦 − 𝑦) 𝑦𝜀 − 𝑦𝜀 = 𝑎 + 𝑏𝑥 ∙ 𝜀 − 𝑦∙𝜀 = 𝜀 =𝑎∙0+𝑏∙0−𝑦∙0=0 ∎ ∑ (𝑦 − 𝑦) + ∑ (𝑦 − 𝑦) (𝑦 − 𝑦 ) (𝑦 − 𝑦) Donde el primer sumando es la proporción de variabilidad de 𝑦 explicada por el modelo, es decir, 𝑅 . El segundo, es la proporción de la variabilidad de 𝑦 explicada por los residuos. 3.3. Coeficiente de determinación (𝑅 ): Es una medida de la bondad de ajuste del modelo a los datos. Notamos: 𝑅 = ∑ ∑ ∑ (𝑦 − 𝑦) =1− ∑ (𝑦 − 𝑦) (𝑦 − 𝑦 ) (𝑦 − 𝑦) 3.3.1. Observación: 𝑅 =𝑟 37 Demostración: ∑ 𝑅 = ∑ 1 ∑ (𝑦 − 𝑦) 𝑛 = 1 (𝑦 − 𝑦) ∑ 𝑛 1 ∑ 𝑛 = 𝑦 − 𝑏 ∙ 𝑥̅ + 𝑏𝑥 − 𝑦 𝑐𝑜𝑣(𝑥, 𝑦) 𝑠 = 𝑠 𝑠 ∙𝑠 (𝑦 − 𝑦) 1 ∑ 𝑛 = (𝑦 − 𝑦) 1 ∑ 𝑛 = 𝑎 + 𝑏𝑥 − 𝑦 𝑠 𝑏 (𝑥 − 𝑥̅ ) 𝑠 = 𝑐𝑜𝑣(𝑥, 𝑦) ∙𝑠 𝑐𝑜𝑣(𝑥, 𝑦) 𝑠 = = =𝑟 𝑠 𝑠 ∙𝑠 38 = 𝑐𝑜𝑣(𝑥, 𝑦) 𝑠 ∙ 1 ∑ 𝑛 𝑠 ∎ (𝑥 − 𝑥̅ ) = Capítulo 4: Distribución en el muestreo. 1. Introducción:  En esta etapa nos vamos a dedicar a una de las tareas fundamentales de la estadística, esto es la inferencia estadística.  Para comprender la esencia de la inferencia, es necesario comprender la naturaleza de una población y de una muestra.  Una población representa el estado de la naturaleza o la forma de las cosas con respecto a un fenómeno aleatorio en particular, que puede identificarse con una variable aleatoria 𝑋.  La manera en que ocurren las cosas en relación con 𝑋, puede definirse por un modelo de probabilidad que recibe el nombre de distribución de probabilidad de la población.  Por otro lado, una muestra es una colección de datos que se obtienen al llevar a cabo repetidos ensayos de un experimento para lograr una evidencia representativa de la población en relación con la característica 𝑋.  Si la manera de obtener la muestra es imparcial y técnicamente buena, entonces la muestra puede contener información útil con respecto al estado de la naturaleza y a partir de ello se podrían formular inferencias.  Se considera una población Ω donde se encuentra definida la variable aleatoria 𝑋. Se conoce la familia de distribuciones a la que pertenece la distribución de 𝑋, pero esta distribución depende de 1 o más parámetros desconocidos cuyos valores se desean saber por lo menos en forma aproximada.  La inferencia estadística es un proceso inductivo (a diferencia del proceso deductivo habitual en matemáticas), esto quiere decir que va de lo particular a lo general, por lo tanto, están sujetas a riesgo y errores.  La inferencia estadística parte de una muestra aleatoria; en base a la cual se construye un estadístico, cuyo valor, para la muestra observada, servirá como aproximación del parámetro desconocido que queremos observar.  El carácter científico de esta inferencia se logra acompañando la aproximación por una medida del error en términos de probabilidad. 2. Definiciones: 1) Una familia de distribuciones de parámetro 𝜃, es el conjunto de funciones dado por {𝐹 : 𝐹 (𝑥; 𝜃), 𝜃 ∈ Θ}. 39 Ejemplo: Familia de distribuciones normales con parámetros 𝜇 ∈ ℝ y 𝜎 ∈ ℝ . (𝜇; 𝜎 ) = 𝜃 y (ℝ; ℝ ) = Θ. 2) Un parámetro es una cantidad poblacional, una característica medible de la población, generalmente desconocida. 3) El conjunto de valores posibles de un parámetro se denomina espacio paramétrico. 4) Sea 𝑋 una variable aleatoria, 𝑋: Ω ↦ ℝ⁄𝑋 ∼ 𝐹 (𝑋 tiene distribución 𝐹 ), entonces decimos que 𝑋 ; 𝑋 ; … ; 𝑋 , variables aleatorias independientes e idénticamente distribuidas a 𝑋 (IID), constituyen una muestra aleatoria simple con reposición de 𝑿 y lo vamos a notar como 𝑴𝑨𝑺 𝒄⁄𝒓. 5) Sea 𝑋 ; 𝑋 ; … ; 𝑋 una 𝑀𝐴𝑆 𝑐⁄𝑟 de 𝑋, llamaremos distribución de la muestra a la distribución conjunta de 𝑋 ; 𝑋 ; … ; 𝑋 . Como 𝑋 ; 𝑋 ; … ; 𝑋 son IID: 𝐹 ; ⇒𝐹 (𝑥 ; 𝑥 ; … ; 𝑥 ) = 𝐹 (𝑥 ) ∙ 𝐹 (𝑥 ) ∙ … ∙ 𝐹 (𝑥 ) por independencia. ;…; ; ;…; (𝑥 ; 𝑥 ; … ; 𝑥 ) = 𝐹 (𝑥 ) Si 𝑋 es discreta con función de cuantía 𝑝 , entonces: 𝑝 ; ;…; (𝑥 ; 𝑥 ; … ; 𝑥 ) = 𝑝 (𝑥 ) Si 𝑋 es absolutamente continua con función de densidad 𝑓 , entonces: 𝑓 ; ;…; (𝑥 ; 𝑥 ; … ; 𝑥 ) = 𝑓 (𝑥 ) 6) Cualquier función de las observaciones de la muestra que no contenga parámetros desconocidos lo llamaremos estadístico. Así, 𝑇 = 𝑡(𝑋 ; 𝑋 ; … ; 𝑋 ), donde 𝑡 es una función 𝑡: ℝ ↦ ℝ , es un estadístico. Observación: 𝑇 es una variable aleatoria por ser función de variables aleatorias. Ejemplo: Sea 𝑋 ; 𝑋 ; … ; 𝑋 una 𝑀𝐴𝑆 𝑐⁄𝑟 de 𝑋: 1 𝑛 𝑋 =𝑋 1 𝑛 (𝑋 − 𝑋) = 𝑆 𝑋y𝑆 serán estadísticos 40 7) Sea 𝑋 ; 𝑋 ; … ; 𝑋 una 𝑀𝐴𝑆 𝑐⁄𝑟 de 𝑋 ∼ 𝐹 , 𝑇 = 𝑡(𝑋 ; 𝑋 ; … ; 𝑋 ) un estadístico. La distribución de 𝑇 se llama distribución de muestreo del estadístico 𝑻. Ejemplo: Sea 𝑋 ; 𝑋 ; … ; 𝑋 una 𝑀𝐴𝑆 𝑐⁄𝑟 de 𝑋 ∼ 𝑁(𝜇; 𝜎 ) con 𝜇 y 𝜎 conocidos ¿cuál es la distribución de 𝑋? 𝑋= 1 𝑛 1 ∙𝜇; 𝑛 𝑋 ∼𝑁 Dado que: ∑ 𝑋 ∼ 𝑁 𝜇; =𝑛∙ 1 𝑛 ∙𝜎 diremos que: 𝜎 𝑛 Demostración de que la suma de dos o más normales es normal: Si 𝑍 ∼ 𝑁(0; 1) ⇒ 𝑀 (𝑡) = 𝑒 Si 𝑋 ∼ 𝑁(𝜇; 𝜎 ) ⇒ = 𝑍 ⇒ 𝑋 = 𝜎𝑍 + 𝜇 ⇒ 𝑀 (𝑡) = 𝑀 (𝜎𝑍) ∙ 𝑒 𝑌 = 𝑎𝑋 + 𝑏𝑋 ⇒ 𝑀 (𝑡) = 𝑀 ⇒ 𝑀 (𝑡) = 𝑒 ( ) (𝑡)𝑀 (𝑡) = 𝑀 (𝑎𝑡)𝑀 (𝑏𝑡) = 𝑒 ⇒ 𝑀 (𝑡) = 𝑒 𝑒 𝑒 ∙𝑒 𝑒 = ∙𝑒 Si 𝑋 y 𝑋 son independientes, entonces: 𝑎𝑋 + 𝑏𝑋 ∼ 𝑁 (𝑎 + 𝑏)𝜇; (𝑎 + 𝑏 )𝜎 8) Dada una población Ω, una variable aleatoria 𝑋: Ω ↦ ℝ con distribución 𝐹 (𝑥; 𝜃) y una 𝑀𝐴𝑆 𝑐⁄𝑟 de 𝑋: 𝑋 ; 𝑋 ; … ; 𝑋 . Llamaremos estimador de 𝜽 al estadístico 𝑇 = 𝑡(𝑋 ; 𝑋 ; … ; 𝑋 ) tal que su valor en una realización de la muestra 𝑥 ; 𝑥 ; … ; 𝑥 es igual a 𝑡 = 𝑡(𝑥 ; 𝑥 ; … ; 𝑥 ). Este valor puntual lo usaremos para aproximar 𝜃, y diremos que una estimación puntual. Observación: 𝑡 = 𝑡(𝑥 ; 𝑥 ; … ; 𝑥 ) es un valor numérico, mientras que, 𝑇 = 𝑡(𝑋 ; 𝑋 ; … ; 𝑋 ) = 𝜃 es una variable aleatoria. 9) Sea 𝜃 un estadístico usado para estimar 𝜃. Definimos sesgo 𝜃 como 𝐸 𝜃 − 𝜃 = 𝐸 𝜃 − 𝜃. Con esto, si 𝐸 𝜃 = 𝜃, decimos que 𝜃 es un estimador insesgado. Ejemplo: Sea 𝑋 ; 𝑋 ; … ; 𝑋 una 𝑀𝐴𝑆 𝑐⁄𝑟 de 𝑋 ∼ 𝐹 ¿𝑋 y 𝑆 son estimadores insesgados de 𝜇 y 𝜎 respectivamente? Justificar. 41 𝑋= 1 𝑛 𝑆 = = 1 𝑛 𝑋 1 𝑛 (𝑋 − 𝑋) = 1 𝑛 𝑋 − 2𝑋 𝑋 + 𝑋 = 1 𝑛 𝐸(𝑋 ) = 1 𝑛 𝑋 − 2𝑋 1 𝑛 1 𝑋 + 𝑛𝑋 = 𝑛 𝑋 −𝑋 𝐸(𝑋) = 𝐸 1 𝑛 1 𝑛 𝐸(𝑆 ) = 𝐸 𝑋 = 𝑋 −𝑋 = 1 𝑛 1 ∙ 𝑛 ∙ 𝜇 = 𝜇 ⇒ 𝑋 𝑒𝑠 𝑖𝑛𝑠𝑒𝑠𝑔𝑎𝑑𝑜 ∎ 𝑛 − 𝐸(𝑋 ) =∗ 𝐸 𝑋 Recordemos que: 𝑉(𝑋 ) = 𝐸 𝑋 ∗= 1 𝑛 − 𝐸 (𝑋 ) ⇒ 𝐸 𝑋 = 𝑉(𝑋 ) + 𝐸 (𝑋 ) 𝑉(𝑋 ) + 𝐸 (𝑋 ) − 𝑉(𝑋 ) + 𝐸 (𝑋) =∗ Ahora bien: 𝑉(𝑋 ) = 𝑉 1 𝑛 𝑋 = 1 𝑛 𝑉(𝑋 ) = 1 𝜎 ∙ 𝑛 ∙ 𝜎 ⇒ 𝑉(𝑋) = 𝑛 𝑛 𝑉(𝑋 ) = 𝜎 𝐸(𝑋) = 𝐸(𝑋 ) = 𝜇 ∗= 1 𝑛 (𝜎 + 𝜇 ) − 𝜎 +𝜇 𝑛 = 1 1 𝜎 𝜎 ∙ 𝑛𝜎 + ∙ 𝑛𝜇 − −𝜇 = 𝜎 − 𝑛 𝑛 𝑛 𝑛 𝑛−1 ∙ 𝜎 ⇒ 𝑆 𝑒𝑠 𝑠𝑒𝑠𝑔𝑎𝑑𝑜 ∎ 𝑛 𝑛−1 1 𝑠𝑒𝑠𝑔𝑜(𝑆 ) = 𝐸(𝑆 ) − 𝜎 = ∙𝜎 −𝜎 =− 𝜎 𝑛 𝑛 ⇒ 𝐸(𝑆 ) = Estadístico insesgado para 𝜎 : 𝑛 𝑆∗ = ∙𝑆 𝑛−1 𝑆 ∗ es un estimador insesgado para la varianza (𝜎 ) porque 𝐸(𝑆 ∗ ) = 𝜎 . Demostración: Vimos que 𝐸(𝑆 ) = ⇒ 𝐸(𝑆 ∗ ) = 𝐸 𝑛 ∙𝑆 𝑛−1 ∙𝜎 = 𝑛 𝑛 𝑛−1 𝐸(𝑆 ) = ∙ ∙𝜎 =𝜎 𝑛−1 𝑛−1 𝑛 42 𝑠𝑒𝑠𝑔𝑜(𝑆 ∗ ) = 𝐸(𝑆 ∗ ) − 𝜎 = 𝜎 − 𝜎 = 0 ∴ 𝑆 ∗ es un estimador insesgado para 𝜎 ∎ Teorema: Sea 𝑋 ; 𝑋 ; … ; 𝑋 una 𝑀𝐴𝑆 𝑐⁄𝑟 de 𝑋 ∼ 𝐹 ; 𝐸(𝑋) = 𝜇; 𝑉(𝑋) = 𝜎 ⇒ 𝐸(𝑋) = 𝜇; 𝑉(𝑋 ) = La demostración de este teorema la hicimos más arriba. 3. Teorema Central del Límite: Sea 𝑋 ; 𝑋 ; … ; 𝑋 una 𝑀𝐴𝑆 𝑐⁄𝑟 de 𝑋 ∼ 𝐹 ; 𝐸(𝑋) = 𝜇; 𝑉(𝑋) = 𝜎 , entonces: 𝑋−𝜇 𝜎⁄√𝑛 ⎯⎯⎯ 𝑁(0, 1) → En otras palabras, cuando 𝑛 tiende a infinito, En otra forma (sin demostración): 𝑋 ⎯⎯⎯ → 𝑁 𝜇, 𝜎 𝑛 43 ⁄√ tiende a una distribución normal estándar. Capítulo 5: Intervalos de confianza. 1. Introducción: La idea en intervalo de confianza para un parámetro 𝜃, es encontrar un intervalo 𝐶, vinculado al estadístico 𝜃 usado para estimar a 𝜃, que brindará de alguna forma una medida de la certeza de que el intervalo contenga al verdadero valor de 𝜃. Ese intervalo 𝐶 depende de la muestra 𝑋⃗ = 𝑋 ; 𝑋 ; … ; 𝑋 , en realidad estamos hablando de 𝐶 𝑋⃗ . 2. Definiciones: 1) 𝑋 ; 𝑋 ; … ; 𝑋 una 𝑀𝐴𝑆 𝑐⁄𝑟 de 𝑋 ∼ 𝐹 (𝑥; 𝜃). 2) 𝑇 = 𝑡 (𝑋 ; 𝑋 ; … ; 𝑋 ) estadístico. 𝑇 = 𝑡 (𝑋 ; 𝑋 ; … ; 𝑋 ) estadístico. Son tales que 𝑇 < 𝑇 y 𝑃(𝑇 ≤ 𝜃 ≤ 𝑇 ) = 1 − 𝛼 con 0 < 𝛼 < 1 y 𝛼 no depende de 𝜃. 3) 𝑥 ; 𝑥 ; … ; 𝑥 es una realización de la 𝑀𝐴𝑆 𝑐⁄𝑟 𝑋 ; 𝑋 ; … ; 𝑋 . 4) A [𝑇 ; 𝑇 ] le llamaremos intervalo aleatorio al (1 − 𝛼) × 100 % para 𝜃. A (1 − 𝛼) se le llama probabilidad de cobertura del intervalo aleatorio. 5) 𝑡 = 𝑡 (𝑥 ; 𝑥 ; … ; 𝑥 ) y 𝑡 = 𝑡 (𝑥 ; 𝑥 ; … ; 𝑥 ) son, respectivamente, una realización de 𝑇 y𝑇. A [𝑡 ; 𝑡 ] le llamaremos intervalo de confianza al (1 − 𝛼) × 100 % para 𝜃. A (1 − 𝛼) se le llama nivel de confianza del intervalo. 2.1. Observaciones: 1) El intervalo aleatorio [𝑇 ; 𝑇 ] es un intervalo cuyos extremos son variables aleatorias, y cuando escribimos 𝑃(𝑇 ≤ 𝜃 ≤ 𝑇 ) en realidad es lo mismo que 𝑃(𝑇 ≤ 𝜃; 𝑇 ≥ 𝜃). 𝜃 es un parámetro desconocido, no una variable aleatoria. 2) 𝑡 y 𝑡 no son variables aleatorias, son números que quedan definidos una vez que se hace la realización 𝑥 ; 𝑥 ; … ; 𝑥 de la 𝑀𝐴𝑆 𝑐⁄𝑟 𝑋 ; 𝑋 ; … ; 𝑋 . 3) (1 − 𝛼) en la definición de intervalo aleatorio es una probabilidad, mientras que en la definición de intervalo de confianza, no lo es. En este último caso, al (1 − 𝛼) lo debemos interpretar como2: “Si hacemos un número grande de realizaciones de la muestra y en cada caso construimos el intervalo de confianza al (1 − 𝛼) × 100 %, sabemos que, aproximadamente, en el (1 − 𝛼) × 100 % de los casos, el verdadero valor de 𝜃 quedará comprendido en el intervalo construido”. 2 Esta interpretación es importante. 44 3. Distribución t de Student: 𝑋−𝜇 𝑆 ∗ ⁄√𝑛 ~𝑡 Donde: 𝑆∗ = 1 𝑛−1 (𝑋 − 𝑋) 4. Tipos de intervalos de confianza: 1) Intervalo de confianza para 𝜇, bajo normalidad y con varianza conocida: 𝑋~𝑁(𝜇; 𝜎 ) 𝑋 ; 𝑋 ; … ; 𝑋 una 𝑀𝐴𝑆 𝑐⁄𝑟 de 𝑋 𝑋= 1 𝑛 𝑋 𝑋~𝑁 𝜇; 𝜎 𝑛 Es fácil observar que: 𝑋−𝜇 𝜎⁄√𝑛 ~𝑁(0; 1) Si llamamos 𝑍 a aquel valor que 𝑃(𝑍 ≤ 𝑍 ) = 𝛼 con 𝑍~𝑁(0; 1). Observación: 𝑍 = −𝑍 ⇒ 𝑃 −𝑍 ≤𝑍≤𝑍 ⇒ 𝑃 −𝑍 ∙ 𝜎 √𝑛 ⇒𝑃 𝑋+𝑍 ∙ ⇒𝑃 𝑋−𝑍 ∙ ∴ 𝑋−𝑍 ∙ √ = 1 − 𝛼 ⇒ 𝑃 −𝑍 − 𝑋 ≤ −𝜇 ≤ 𝑍 𝜎 √𝑛 𝜎 √𝑛 ∙ ≥𝜇 ≥𝑋−𝑍 ≤𝜇 ≤𝑋+𝑍 ; 𝑋+𝑍 ∙ √ ≤ 𝑋−𝜇 𝜎⁄√𝑛 ≤𝑍 =1−𝛼 𝜎 −𝑋 =1−𝛼 √𝑛 𝜎 ∙ =1−𝛼 √𝑛 𝜎 ∙ =1−𝛼 √𝑛 es un intervalo aleatorio al (1 − 𝛼) × 100 % para 𝜇. Sea 𝑥 ; 𝑥 ; … ; 𝑥 una realización de 𝑋 ; 𝑋 ; … ; 𝑋 : 𝑥̅ − 𝑍 √ ∙ √ ; 𝑥̅ + 𝑍 ∙ √ es un intervalo de confianza al (1 − 𝛼) × 100 % para 𝜇. se llama error típico o error estándar. 45 𝑀𝐸 = 𝑍 ∙ es el margen de error. √ Amplitud del intervalo = 2𝑀𝐸 2) Intervalo de confianza bajo normalidad para 𝜇 con varianza desconocida: Sean 𝑋 ; 𝑋 ; … ; 𝑋 una 𝑀𝐴𝑆 𝑐⁄𝑟 de 𝑋~𝑁(𝜇; 𝜎 ) con 𝜇 y 𝜎 desconocidos. 1 𝑛−1 𝑆∗ = 𝑋−𝜇 𝑆 ∗ ⁄√𝑛 𝑃 𝑡 (𝑋 − 𝑋) ~𝑡 ≤ ; ⇒ 𝑃 −𝑡 𝑋−𝜇 ∙ ; ⇒𝑃 𝑋+𝑡 ⇒𝑃 𝑋−𝑡 ∴ 𝑋−𝑡 ≤𝑡 𝑆 ∗ ⁄√𝑛 𝑆∗ √𝑛 ; ∙ ; ∙ ∙ ; ∗ √ = 1 − 𝛼 → 𝑝𝑜𝑟 𝑠𝑖𝑚𝑒𝑡𝑟í𝑎 𝑡 ; − 𝑋 ≤ −𝜇 ≤ 𝑡 𝑆∗ √𝑛 𝑆∗ √𝑛 ; ≥ 𝜇 ≥𝑋−𝑡 ; ≤ 𝜇 ≤𝑋+𝑡 ; 𝑋+𝑡 ∙ ; ∙ ∗ √ = −𝑡 ; 𝑆∗ −𝑋 =1−𝛼 √𝑛 𝑆∗ ∙ =1−𝛼 √𝑛 ∙ ; ; 𝑆∗ √𝑛 =1−𝛼 es un intervalo aleatorio al (1 − 𝛼) × 100 % para 𝜇. Sea 𝑥 ; 𝑥 ; … ; 𝑥 una realización de 𝑋 ; 𝑋 ; … ; 𝑋 : 𝑥̅ − 𝑡 ∙ ; ∗ √ ; 𝑥̅ + 𝑡 ; ∙ ∗ √ es un intervalo de confianza al (1 − 𝛼) × 100 % para 𝜇. Ejemplo: El tiempo que permanecen los clientes de un supermercado tiene distribución normal. Se toma una muestra aleatoria de 17 clientes y se observa un promedio de 25 minutos con una varianza (muestral) de 36 𝑚𝑖𝑛 . Hallar el intervalo de confianza para 𝜇 al 95% y 98%. 𝑠∗ = 𝑠∗ = √𝑛 𝑀𝐸 𝐼𝐶 , , 𝑛 ∙𝑠 = 𝑛−1 6,18466 √17 =𝑡 , 17 ∙ 6 ≈ 6,18466 16 ≈ 1,5 ; ∙ 𝑠∗ √𝑛 = 2,120 ∙ 1,5 = 3,18 = [25 ± 3,18] = [21,82; 28,18] 46 𝑀𝐸 𝐼𝐶 , , =𝑡 , ∙ ; 𝑠∗ √𝑛 = 2,921 ∙ 1,5 = 4,3815 = [25 ± 4,3815] = [20,6185; 29,3815] 3) Intervalo de confianza para la media bajo cualquier distribución que no sea normal ni Bernoulli: Sea 𝑋 ; 𝑋 ; … ; 𝑋 una 𝑀𝐴𝑆 𝑐⁄𝑟 de 𝑋~𝐹 (no normal ni Bernoulli) con 𝑛 suficientemente grande (𝑛 ≥ 30) y 𝜎 conocida. Por TCL sabemos que: 𝑋−𝜇 𝜎⁄√𝑛 ⎯⎯⎯ 𝑁(0, 1) → 𝑃 𝑍 ≤ 𝑋−𝜇 𝜎⁄√𝑛 ⇒ 𝑃 −𝑍 ∙ ≤𝑍 𝜎 √𝑛 ⇒𝑃 𝑋+𝑍 ∙ ⇒𝑃 𝑋−𝑍 ∙ ≈ 1 − 𝛼 ⇒ 𝑃 −𝑍 − 𝑋 ≤ −𝜇 ≤ 𝑍 𝜎 √𝑛 𝜎 √𝑛 ≥𝜇 ≥𝑋−𝑍 ≤𝜇 ≤𝑋+𝑍 ∙ ≤ 𝑋−𝜇 𝜎⁄√𝑛 ≤𝑍 ≈1−𝛼 𝜎 −𝑋 ≈1−𝛼 √𝑛 𝜎 ∙ ≈1−𝛼 √𝑛 𝜎 ∙ ≈1−𝛼 √𝑛 El intervalo aleatorio al (1 − 𝛼) × 100 % para 𝜇 es: 𝜎 𝜎 𝑋−𝑍 ∙ ; 𝑋+𝑍 ∙ √𝑛 √𝑛 Sea 𝑥 ; 𝑥 ; … ; 𝑥 una realización de 𝑋 ; 𝑋 ; … ; 𝑋 , el intervalo de confianza al (1 − 𝛼) × 100 % para 𝜇 es: 𝜎 𝜎 𝑥̅ − 𝑍 ∙ ; 𝑥̅ + 𝑍 ∙ √𝑛 √𝑛 Observación: Si no se conoce 𝜎 se sustituye en todos lados por 𝑆 ∗ hasta el intervalo aleatorio inclusive, para el intervalo de confianza sustituimos por 𝑠 ∗ porque ya hicimos la realización, el resto queda igual. 4) Intervalo de confianza para la media bajo distribución Bernoulli: Sea 𝑋 ; 𝑋 ; … ; 𝑋 una 𝑀𝐴𝑆 𝑐⁄𝑟 de 𝑋~𝐵𝑒𝑟(𝑝) con 𝑛 ≥ 30 y 𝑝 desconocido. Si 𝑋~𝐵𝑒𝑟(𝑝) ⇒ 𝐸(𝑋) = 𝑝; 𝑉(𝑋) = 𝑝(1 − 𝑝) 𝑋~𝐵𝑖𝑛(𝑛; 𝑝) ⇒ 𝐸(𝑋) = 𝑝; 𝑉(𝑋) = 𝑝(1 − 𝑝) 𝑛 Sea 𝑋 = 𝑃 : 47 𝑃−𝑝 ⎯⎯⎯ 𝑝(1 − 𝑝) 𝑛 𝑁(0, 1) → Por simetría: 𝑃 𝑍 ≤ 𝑃−𝑝 𝑝(1 − 𝑝) √𝑛 ⇒ 𝑃 −𝑍 ≤ ⇒ 𝑃 −𝑍 ∙ ⇒𝑃 𝑍 ∙ ⇒𝑃 𝑃−𝑍 ≤𝑍 𝑃−𝑝 𝑝(1 − 𝑝) √𝑛 ≈1−𝛼 ≤𝑍 ≈1−𝛼 𝑝(1 − 𝑝) − 𝑃 ≤ −𝑝 ≤ 𝑍 𝑛 𝑝(1 − 𝑝) + 𝑃 ≥ 𝑝 ≥ −𝑍 𝑛 ∙ 𝑝(1 − 𝑝) −𝑃 ≈1−𝛼 𝑛 ∙ ∙ 𝑝(1 − 𝑝) ≤𝑝 ≤𝑃+𝑍 𝑛 𝑝(1 − 𝑝) +𝑃 ≈1−𝛼 𝑛 ∙ 𝑝(1 − 𝑝) ≈1−𝛼 𝑛 El intervalo aleatorio al (1 − 𝛼) × 100% para 𝑝 es: 𝑃−𝑍 ∙ 𝑝(1 − 𝑝) ; 𝑃+𝑍 𝑛 Sea 𝑥 ; 𝑥 ; … ; 𝑥 ∙ 𝑝(1 − 𝑝) 𝑛 una realización de 𝑋 ; 𝑋 ; … ; 𝑋 , el intervalo de confianza al (1 − 𝛼) × 100 % para 𝑝 es: 𝑝̂ − 𝑍 ∙ 𝑝(1 − 𝑝) ; 𝑝̂ + 𝑍 𝑛 ∙ 𝑝(1 − 𝑝) 𝑛 5. Determinación del tamaño de la muestra 𝑛: Sean 𝐼𝐶 un intervalo de confianza al (1 − 𝛼), 𝑀𝐸 el margen de error del intervalo de confianza y 𝜎 el desvío estándar, hallaremos 𝑛 como: 𝑍 𝑛= ∙𝜎 𝑀𝐸 Para un intervalo de confianza para 𝑝 donde 𝛼 y 𝑀𝐸 están dados: Sabemos que: 𝑀𝐸 = 𝑍 ∙ 𝑝(1 − 𝑝) 𝑛 48 Sea 𝑋~𝐵𝑒𝑟(𝑝) ⇒ 𝑉𝑎𝑟(𝑋) = 𝑓(𝑝) = 𝑝(1 − 𝑝) = 𝑝 − 𝑝 ⇒ 𝑓 (𝑝) = 1 − 2𝑝 𝑓 (𝑝) = 0 ⇔ 𝑝 = 1 2 Como podemos ver, con 𝑃 = maximizo la varianza y me aseguro de cumplir con el 𝑀𝐸 y el 𝛼 solicitados. En 𝑃 = el tamaño de la muestra será el más grande posible, mientras que si es mayor o menor a , 𝑛 se reducirá. Si 𝑝̂ es un dato, calculamos 𝑛 como: 𝑍 ∙ 𝑝̂ (1 − 𝑝̂ ) 𝑛= 𝑀𝐸 Si no lo es, calculamos 𝑛 como: 𝑍 𝑛= ∙ 0,5 𝑀𝐸 6. Ajuste del tamaño de muestra para poblaciones finitas: Si 𝑁 es el tamaño de la población y cumple que 𝑁 ∙ 0,1 ≤ 𝑛, se debe aplicar el ajuste del tamaño de muestra para poblaciones finitas. Atención, este ajuste como mucho puede realizarse una sola vez. Llamaremos 𝑛 a nuestra muestra ajustada y la calculamos como: 𝑛 𝑛 = 𝑛 1+ 𝑁 49 Capítulo 6: Prueba de hipótesis. 1. Definición: Una hipótesis estadística es una afirmación relativa a la distribución de una o más variables aleatorias. 𝐻 será la hipótesis nula y 𝐻 será la hipótesis alternativa. Probar una hipótesis estadística es decidir si la misma se encuentra apoyada por la evidencia experimental que se obtiene a través de una muestra aleatoria. La decisión acerca de si los datos muestrales apoyan estadísticamente la afirmación se toma con base en la probabilidad. 2. Tipos: 1) Las que especifican un valor concreto o un intervalo para los parámetros de una variable aleatoria. Llamaremos hipótesis simple a aquellas que especifican un único valor para el parámetro. Llamaremos hipótesis compuestas a aquellas que especifican un intervalo de valores para el parámetro. 2) Las que establecen la igualdad de las distribuciones de dos o más variables aleatorias. 3) Las que determinan la forma de la distribución de la variable aleatoria. 3. Criterios para identificar cuál es la hipótesis nula y cuál la alternativa: 1) La que tiene los signos: =, ≥, ≤ es la nula. 2) Aquella hipótesis que quiero probar es la alternativa. 3) Considerar que el peor error es el de tipo 1, se plantea 𝐻 y 𝐻 acorde a esto. 4. Tipos de errores: Realidad 𝐻 es cierta 𝐻 es falsa Decisión No rechazo 𝐻 Rechazo 𝐻 Correcta Error tipo 1 Error tipo 2 Correcta Observaciones: 1) No es posible cometer ambos errores al mismo tiempo. 2) Nunca acepto 𝐻 , sólo la rechazo o no. 3) Si no rechazo 𝐻 no hay consecuencias, me mantengo en el estatus quo. En cambio, si rechazo sí habrá consecuencias. 50 4) Si armo 𝐻 y 𝐻 y el valor que viene de la muestra cae dentro de la región de la hipótesis nula, no rechazo 𝐻 , no debo hacer la región crítica. 4.1. Se denomina nivel de significación a la máxima probabilidad de cometer un error de tipo 1 y lo denotamos 𝜶. 𝑃(𝑅𝑒𝑐ℎ𝑎𝑧𝑎𝑟 𝐻 ⁄𝐻 𝑐𝑖𝑒𝑟𝑡𝑎) = 𝛼 4.2. Llamaremos error de tipo 2 a la máxima probabilidad de cometer este y lo denotaremos 𝜷. 𝑃(𝑁𝑜 𝑟𝑒𝑐ℎ𝑎𝑧𝑎𝑟 𝐻 ⁄𝐻 𝑓𝑎𝑙𝑠𝑎) = 𝛽 4.3. La potencia de una prueba de hipótesis es igual al complemento de la probabilidad de cometer un error de tipo 2, es decir, (𝟏 − 𝜷) 5. Tipos de pruebas de hipótesis: En todos los casos consideraremos una muestra 𝑋 ; 𝑋 ; … ; 𝑋 una 𝑀𝐴𝑆 𝑐⁄𝑟 de 𝑋 con función de distribución 𝐹 (𝑥; 𝜇), de la que se obtiene una realización 𝑥 ; 𝑥 ; … ; 𝑥 . 1) Si la población es normal, 𝑋~𝑁(𝜇; 𝜎 ), con 𝜎 conocida, tenemos que 𝑋 ~𝑁 𝜇; . Si la población no es normal, 𝜎 es conocida y el tamaño de la muestra es grande (𝑛 ≥ 30), aplicando el Teorema Central del Límite tenemos que la distribución de 𝑋 tiende a ser 𝑁 𝜇; . Sean 𝜇 y 𝛼 valores conocidos: 1.1) 𝐻 :𝜇 ≤𝜇 𝐻 :𝜇 >𝜇 𝛼 = 𝑃 𝑅𝑒𝑐ℎ𝑎𝑧𝑎𝑟 𝐻 ⁄𝐻 𝐶𝑖𝑒𝑟𝑡𝑎 = 𝑃(𝑋 > 𝑘⁄𝜇 = 𝜇 ) ⇒ 𝑃 𝑋−𝜇 𝜎⁄√𝑛 ≤ 𝑘−𝜇 𝜎⁄√𝑛 = 1−𝛼 Buscamos en tabla: 𝑘−𝜇 𝜎⁄√𝑛 =𝑍 ⇒𝑘=𝑍 𝑅𝐶 = 𝑥⃗ ⁄ 𝑥̅ ≥ 𝜇 + 𝑍 ∙ ∙ 𝜎 √𝑛 𝜎 +𝜇 √𝑛 Donde 𝑥⃗ son las muestras de tamaño 𝑛. 1.2) 𝐻 :𝜇 ≥𝜇 𝐻 :𝜇 <𝜇 𝛼 = 𝑃 𝑅𝑒𝑐ℎ𝑎𝑧𝑎𝑟 𝐻 ⁄𝐻 𝐶𝑖𝑒𝑟𝑡𝑎 = 𝑃(𝑋 ≤ 𝑘⁄𝜇 = 𝜇 ) ⇒ 𝑃 51 𝑋−𝜇 𝜎⁄√𝑛 ≤ 𝑘−𝜇 𝜎⁄√𝑛 =𝛼 Buscamos en tabla: Recordar que por simetría de 𝑍 sabemos que 𝑍 = −𝑍 𝑘−𝜇 𝜎⁄√𝑛 = −𝑍 ⇒ 𝑘 = −𝑍 𝑅𝐶 = 𝑥⃗ ⁄ 𝑥̅ ≤ 𝜇 − 𝑍 ∙ ∙ 𝜎 √𝑛 +𝜇 𝜎 √𝑛 1.3) 𝐻 :𝜇 =𝜇 𝐻 :𝜇 ≠𝜇 𝛼 = 𝑃[(𝑋 ≤ 𝑘 ) ∪ (𝑋 ≥ 𝑘 )⁄𝜇 = 𝜇 ] ⇒ 𝛼 𝑋−𝜇 𝑘 −𝜇 = 𝑃(𝑋 ≤ 𝑘 ⁄𝜇 = 𝜇 ) = 𝑃 ≤ 2 𝜎⁄√𝑛 𝜎⁄√𝑛 𝑍 = −𝑍 = 𝑘 −𝜇 𝜎⁄√𝑛 𝛼 𝑋−𝜇 𝑘 −𝜇 𝑘 −𝜇 = 𝑃(𝑋 ≥ 𝑘 ⁄𝜇 = 𝜇 ) = 𝑃 ≥ 𝑍 = 2 𝜎⁄√𝑛 𝜎⁄√𝑛 𝜎⁄√𝑛 𝜎 𝑘 =𝜇 −𝑍 ∙ √𝑛 𝜎 𝑘 =𝜇 +𝑍 ∙ √𝑛 𝜎 𝜎 𝑅𝐶 = 𝑥⃗ ⁄ 𝑥̅ ≤ 𝜇 − 𝑍 ∙ ∨ 𝑥̅ ≥ 𝜇 + 𝑍 ∙ = 𝑥⃗ ⁄|𝑥̅ − 𝜇 | ≥ 𝑍 √𝑛 √𝑛 ⇒ ∙ 𝜎 √𝑛 2) Si la población es normal, 𝑋 ∼ 𝑁(𝜇; 𝜎 ), con 𝜎 desconocida, tenemos que: 𝑋−𝜇 𝑠 ∗ ⁄√𝑛 ~𝑡 Observación: Usamos 𝑠 ∗ la cuasi varianza muestral 𝑠 ∗ = ∙ 𝑠 ⇒ 𝑠∗ = Tenga en cuenta que: 𝑠 = 1 𝑛 (𝑥 − 𝑥̅ ) = 1 𝑛 𝑥 − 𝑥̅ 2.1) 𝐻 :𝜇 ≤𝜇 𝐻 :𝜇 >𝜇 𝛼 = 𝑃(𝑋 ≥ 𝑘⁄𝜇 = 𝜇 ) = 𝑃 ⇒ 𝑘 =𝜇 +𝑡 ; ∙ 𝑋−𝜇 𝑠 ∗ ⁄√𝑛 ≥ 𝑘−𝜇 𝑠 ∗ ⁄√𝑛 𝑠∗ √𝑛 52 ⇒𝑡 ; = 𝑘−𝜇 𝑠 ∗ ⁄√𝑛 ∙𝑠 𝑅𝐶 = 𝑥⃗ ⁄ 𝑥̅ ≥ 𝜇 + 𝑡 ∙ ; 𝑠∗ √𝑛 2.2) 𝐻 :𝜇 ≥𝜇 𝐻 :𝜇 <𝜇 𝑋−𝜇 𝛼 = 𝑃(𝑋 ≤ 𝑘⁄𝜇 = 𝜇 ) = 𝑃 ⇒ 𝑘−𝜇 =𝑡 𝑠 ∗ ⁄√𝑛 = −𝑡 ; 𝑅𝐶 = 𝑥⃗ ⁄ 𝑥̅ ≤ 𝜇 − 𝑡 𝑠 ∗ ⁄√𝑛 ≤ 𝑘−𝜇 =𝑃 𝑡 𝑠 ∗ ⁄√𝑛 ⇒𝑘 =𝜇 −𝑡 ; ∙ ; ∙ ; 𝑘−𝜇 ≤ 𝑠 ∗ ⁄√𝑛 𝑠∗ √𝑛 𝑠∗ √𝑛 2.3) 𝐻 :𝜇 =𝜇 𝐻 :𝜇 ≠𝜇 𝛼 = 𝑃[(𝑋 ≤ 𝑘 ) ∪ (𝑋 ≥ 𝑘 )⁄𝜇 = 𝜇 ] 𝛼 𝑋−𝜇 𝑘 −𝜇 = 𝑃(𝑋 ≤ 𝑘 ⁄𝜇 = 𝜇 ) = 𝑃 ∗ ≤ ∗ 2 𝑠 ⁄√𝑛 𝑠 ⁄√𝑛 ⇒ 𝑘 −𝜇 𝑠 ∗ ⁄√𝑛 =𝑡 ; = −𝑡 =𝑃 𝑡 ⇒𝑘 =𝜇 −𝑡 ; 𝛼 𝑋−𝜇 𝑘 −𝜇 = 𝑃(𝑋 ≥ 𝑘 ⁄𝜇 = 𝜇 ) = 𝑃 ∗ ≥ ∗ 2 𝑠 ⁄√𝑛 𝑠 ⁄√𝑛 ⇒ 𝑘 −𝜇 𝑠 ∗ ⁄√𝑛 =𝑡 ; ⇒𝑘 =𝜇 +𝑡 𝑅𝐶 = 𝑥⃗ ⁄ 𝑥̅ ≤ 𝜇 − 𝑡 ; ∙ 𝑠 ∙ ; ; ≤ ∙ 𝑠 ∗ ⁄√𝑛 𝑠∗ √𝑛 =𝑃 𝑡 ≥ 𝑘 −𝜇 𝑠 ∗ ⁄√𝑛 𝑠∗ √𝑛 ∗ √𝑛 𝑘 −𝜇 ∨ 𝑥̅ ≥ 𝜇 + 𝑡 ; ∙ 𝑠∗ √𝑛 = 𝑥⃗ 𝑥̅ − 𝜇 𝑠 ∗ ⁄√𝑛 ≥𝑡 ; 3) Para cualquier distribución que no sea normal, ni Bernoulli, 𝑛 ≥ 30 y 𝜎 desconocida, aplicando el Teorema Central del Límite, tenemos que la distribución de 𝑋 tiende a ser 𝑁 𝜇; ∗ . Observación: Usamos 𝑠 ∗ la cuasi varianza muestral 𝑠 ∗ = ∙ 𝑠 ⇒ 𝑠∗ = ∙𝑠 Tenga en cuenta que: 𝑠 = 1 𝑛 (𝑥 − 𝑥̅ ) = 1 𝑛 𝑥 − 𝑥̅ En el caso que no se tuviera 𝜎, en todos lados se cambia 𝜎 por 𝑠 ∗ , y no hay variación. 53 3.1) 𝐻 :𝜇 ≤𝜇 𝐻 :𝜇 >𝜇 𝑋−𝜇 𝛼 = 𝑃(𝑋 > 𝑘⁄𝜇 = 𝜇 ) = 𝑃 ⇒1−𝑎 =𝑃 𝑍 ≤ 𝜎⁄√𝑛 𝑘−𝜇 ⇒ 𝜎⁄√𝑛 𝑅𝐶 = 𝑥⃗ ⁄ 𝑥̅ ≥ 𝜇 + 𝑍 ∙ > 𝑘−𝜇 𝜎⁄√𝑛 𝑘−𝜇 ≈𝑃 𝑍> 𝜎⁄√𝑛 =𝑍 𝑘−𝜇 𝜎⁄√𝑛 ⇒𝑘 =𝜇 +𝑍 ∙ 𝜎 √𝑛 𝜎 √𝑛 3.2) 𝐻 :𝜇 ≥𝜇 𝐻 :𝜇 <𝜇 𝑋−𝜇 𝛼 = 𝑃(𝑋 < 𝑘⁄𝜇 = 𝜇 ) = 𝑃 ⇒𝑎=𝑃 𝑍< 𝑘−𝜇 𝜎⁄√𝑛 𝑅𝐶 = 𝑥⃗ ⁄ 𝑥̅ ≤ 𝜇 − 𝑍 ⇒ 𝜎⁄√𝑛 𝑘−𝜇 𝜎⁄√𝑛 𝜎 ∙ √𝑛 < 𝑘−𝜇 ≈𝑃 𝑍< 𝜎⁄√𝑛 = 𝑍 = −𝑍 𝑘−𝜇 𝜎⁄√𝑛 ⇒𝑘 =𝜇 −𝑍 ∙ 𝜎 √𝑛 3.3) 𝐻 :𝜇 =𝜇 𝐻 :𝜇 ≠𝜇 𝛼 = 𝑃[(𝑋 ≤ 𝑘 ) ∪ (𝑋 ≥ 𝑘 )⁄𝜇 = 𝜇 ] 𝛼 𝑋−𝜇 𝑘 −𝜇 = 𝑃(𝑋 ≤ 𝑘 ⁄𝜇 = 𝜇 ) = 𝑃 ≤ 2 𝜎⁄√𝑛 𝜎⁄√𝑛 ⇒ 𝑘 −𝜇 𝜎⁄√𝑛 = 𝑍 = −𝑍 ⇒𝑘 =𝜇 −𝑍 ∙ =𝑃 𝑍≤ 𝑘 −𝜇 𝜎⁄√𝑛 =𝑍 ⇒𝑘 =𝜇 +𝑍 𝑅𝐶 = 𝑥⃗ ⁄ 𝑥̅ ≤ 𝜇 − 𝑍 ∙ 𝜎 √𝑛 ∙ 𝜎⁄√𝑛 𝜎 √𝑛 𝛼 𝑋−𝜇 𝑘 −𝜇 = 𝑃(𝑋 ≥ 𝑘 ⁄𝜇 = 𝜇 ) = 𝑃 ≥ 2 𝜎⁄√𝑛 𝜎⁄√𝑛 ⇒ 𝑘 −𝜇 =𝑃 𝑍≥ 𝑘 −𝜇 𝜎⁄√𝑛 𝜎 √𝑛 ∨ 𝑥̅ ≥ 𝜇 + 𝑍 54 ∙ 𝜎 √𝑛 = 𝑥⃗ 𝑥̅ − 𝜇 𝜎⁄√𝑛 ≥𝑍 4) Si la población es 𝐵𝑒𝑟(𝑝) y el tamaño de la muestra es grande, aplicando el Teorema Central del Límite tenemos que la distribución de 𝑋 tiende a ser 𝑁 𝑝; ( ) En este punto: 𝑃 = 𝑋 ∧ 𝑝̂ = 𝑥̅ Sean 𝑝 y 𝛼 valores conocidos: 4.1) 𝐻 :𝑝 ≤𝑝 𝐻 :𝑝 >𝑝 𝛼 = 𝑃(𝑅𝑒𝑐ℎ𝑎𝑧𝑎𝑟 𝐻 ⁄𝐻 𝑐𝑖𝑒𝑟𝑡𝑎) = 𝑃 𝑃 ≥ 𝑘⁄𝑝 = 𝑝 = 1−𝑃⎛ 𝑃−𝑝 𝑝 (1 − 𝑝 ) ⎝ 𝑛 = 1 − 𝑃 𝑃 < 𝑘⁄𝑝 = 𝑝 𝑘−𝑝 𝑃−𝑝 ⎞ ⇒ 𝑃⎛ < 𝑝 (1 − 𝑝 ) 𝑝 (1 − 𝑝 ) ⎠ ⎝ 𝑛 𝑛 < = 𝑘−𝑝 ⎞=1−𝛼 𝑝 (1 − 𝑝 ) ⎠ 𝑛 Sabemos que si 𝑛 es suficientemente grande y aplicamos TCL, ( ) ≈ 𝑁(0; 1) Buscamos en tabla: 𝑘−𝑝 𝑝 (1 − 𝑝 ) 𝑛 =𝑍 ⇒𝑘 =𝑝 +𝑍 𝑅𝐶 = 𝑥⃗ ⁄𝑝̂ ≥ 𝑝 + 𝑍 ∙ ∙ 𝑝 (1 − 𝑝 ) 𝑛 𝑝 (1 − 𝑝 ) 𝑛 4.2) 𝐻 :𝑝 ≥𝑝 𝐻 :𝑝 <𝑝 𝛼 = 𝑃(𝑅𝑒𝑐ℎ𝑎𝑧𝑎𝑟 𝐻 ⁄𝐻 𝑐𝑖𝑒𝑟𝑡𝑎) = 𝑃 𝑃 ≤ 𝑘⁄𝑝 = 𝑝 ⇒ 𝑘−𝑝 𝑝 (1 − 𝑝 ) 𝑛 = 𝑍 = −𝑍 𝑅𝐶 = 𝑥⃗ ⁄𝑝̂ ≤ 𝑝 − 𝑍 ∙ ⇒ 𝑘 = 𝑝 −𝑍 𝑝 (1 − 𝑝 ) 𝑛 55 ∙ = 𝑃⎛ 𝑃−𝑝 𝑝 (1 − 𝑝 ) ⎝ 𝑛 𝑝 (1 − 𝑝 ) 𝑛 ≤ 𝑘−𝑝 ⎞ 𝑝 (1 − 𝑝 ) ⎠ 𝑛 4.3) 𝐻 :𝑝 =𝑝 𝐻 :𝑝 ≠𝑝 𝛼=𝑃 𝑃≤𝑘 ∪ 𝑃 ≥ 𝑘 ⁄𝑝 = 𝑝 𝛼 = 𝑃 𝑃 ≤ 𝑘 ⁄𝑝 = 𝑝 2 ⇒ 𝑘 −𝑝 𝑝 (1 − 𝑝 ) 𝑛 ⇒ 𝑘 −𝑝 𝑝 (1 − 𝑝 ) 𝑛 =𝑍 𝑅𝐶 = 𝑥⃗ ⎨ ⎩ ⎞ 𝑝 (1 − 𝑝 ) ⎠ 𝑛 ⇒𝑘 = 𝑝 −𝑍 = 1 − 𝑃 𝑃 < 𝑘 ⁄𝑝 = 𝑝 ⇒𝑘 =𝑝 +𝑍 𝑅𝐶 = 𝑥⃗ ⁄ 𝑝̂ ≤ 𝑝 − 𝑍 ⎧ 𝑘 −𝑝 ≤ 𝑝 (1 − 𝑝 ) ⎝ 𝑛 = 𝑍 = −𝑍 𝛼 = 𝑃 𝑃 ≥ 𝑘 ⁄𝑝 = 𝑝 2 𝑃−𝑝 = 𝑃⎛ 𝑝̂ − 𝑝 𝑝 (1 − 𝑝 ) 𝑛 ∙ ∙ ∙ 𝑝 (1 − 𝑝 ) 𝑛 = 1−𝑃⎛ 𝑃−𝑝 𝑝 (1 − 𝑝 ) ⎝ 𝑛 < 𝑘 −𝑝 ⎞ 𝑝 (1 − 𝑝 ) ⎠ 𝑛 𝑝 (1 − 𝑝 ) 𝑛 𝑝 (1 − 𝑝 ) ∨ 𝑝̂ ≥ 𝑝 + 𝑍 𝑛 ∙ 𝑝 (1 − 𝑝 ) 𝑛 ⎫ ≥𝑍 ⎬ ⎭ 6. P-Valor: Es una probabilidad que, bajo el supuesto de que 𝐻 sea verdadera, calcula cuán probable es que ocurra lo que da la muestra (esto es posterior a la muestra) o “peor” en el sentido de la hipótesis alternativa. Si P-Valor > 𝛼 concluimos que la ocurrencia de este evento no es poco frecuente y entonces no rechazo 𝐻 . Por el contrario, si el P-Valor es muy pequeño, indica que la ocurrencia de este tipo de evento es poco frecuente y entonces rechazamos 𝐻 . 𝑃 − 𝑉𝑎𝑙𝑜𝑟 = 𝑃(𝑃𝑎𝑠𝑒 𝑙𝑜 𝑞𝑢𝑒 𝑝𝑎𝑠ó 𝑜 𝑝𝑒𝑜𝑟 𝑒𝑛 𝑠𝑒𝑛𝑡𝑖𝑑𝑜 𝑑𝑒 𝑙𝑎 𝑎𝑙𝑡𝑒𝑟𝑛𝑎𝑡𝑖𝑣𝑎⁄𝐻 𝑐𝑖𝑒𝑟𝑡𝑎) 7. Función de potencia: Definiremos a la potencia de una prueba de hipótesis para un valor de 𝜃 como: 56 𝐾(𝜃) = 𝑃(𝑅𝑒𝑐ℎ𝑎𝑧𝑎𝑟 𝐻 ⁄𝐻 𝑐𝑖𝑒𝑟𝑡𝑎) = 𝑃(𝐸𝑟𝑟𝑜𝑟 𝑇𝑖𝑝𝑜 1) = 𝛼 𝑃(𝑅𝑒𝑐ℎ𝑎𝑧𝑎𝑟 𝐻 ⁄𝐻 𝑐𝑖𝑒𝑟𝑡𝑎) = 1 − 𝑃(𝐸𝑟𝑟𝑜𝑟 𝑇𝑖𝑝𝑜 2) = 1 − 𝛽(𝜃) Ejemplo: Sea 𝑋~𝑁(𝜇; 3 ), 𝛼 = 0,05 y 𝑛 = 36 𝐻 : 𝜇 ≥ 17 𝐻 : 𝜇 < 17 𝑅𝐶 = {𝑥⃗ ⁄𝑥̅ ≤ 𝑘} = 𝑥⃗ ⁄𝑥̅ ≤ 17 − 𝑍 , ∙ 3 √36 = {𝑥⃗ ⁄𝑥̅ ≤ 16,1775} Puntos de la función de potencia: 1) 𝐾(𝜇 ) = 𝐾(17) = 0,05 = 𝛼 2) 𝐾(16,5) = 𝑃(𝑅𝑒𝑐ℎ𝑎𝑧𝑎𝑟 𝐻 ⁄𝜇 = 16,5) = 𝑃(𝑋 ≤ 16,1775⁄𝜇 = 16,5) = =𝑃 𝑋 − 16,5 3⁄√36 ≤ 16,1775 − 16,5 3⁄√36 = Φ(−0,645) = 0,2595 3) Caso generalizado: ∀ 𝑚 < 𝜇 . Acá va < por como está definida 𝐻 . 𝐾(𝑚) = 𝑃(𝑅𝑒𝑐ℎ𝑎𝑧𝑎𝑟 𝐻 ⁄𝜇 = 𝑚) = 𝑃(𝑋 ≤ 𝑘⁄𝜇 = 𝑚) = 𝑃 Observación: 𝐾(𝑘) = Φ(0) = 0,5 Donde 𝑘 es el valor con el que contrastamos 𝑥̅ en la 𝑅𝐶. Gráficas de 𝐾(𝜃): 1) 𝐻 :𝜇 ≥ 𝜇 𝐻 :𝜇 < 𝜇 57 𝑋−𝑚 𝜎⁄√𝑛 ≤ 𝑘−𝑚 𝜎⁄√𝑛 =Φ 𝑘−𝑚 𝜎⁄√𝑛 2) 𝐻 :𝜇 ≤ 𝜇 𝐻 :𝜇 > 𝜇 3) 𝐻 :𝜇 = 𝜇 𝐻 :𝜇 ≠ 𝜇 58

Resumen Teórico de Estadística 1

Related documents

Products

Support

Resumen Teórico de Estadística 1

Related documents

Add this document to collection(s)

Add this document to saved

Suggest us how to improve StudyLib