Facultad de Ingeniería, Universidad de Cuenca INTRODUCCION A manera de introducción debe ser mencionado que en la actualidad la estadística es un elemento importante en muchas áreas de la ciencia y el conocimiento; y, con mayor razón en el campo de la ingeniería e investigación, pasando por el control de calidad y diseños de nuevos procesos. Esto, sin dejar de lado la estadística cuotidiana que nos inunda en periódicos, revistas, noticieros y libros en general. Advertencia En esencia, si bien no es posible eliminar la incertidumbre y la posibilidad de un juicio erróneo, se puede formular una estrategia, sobre la base de reglas probabilísticas asociadas a las hipótesis de investigación que conduzca a una decisión fundamentada en la información recabada, conociendo el riesgo de error. (Jean Thiébaux, 1994) Vladimiro Tobar 14/3/2018 Estadistica e investigación El empleo del método científico en la investigación, requiere del planteamiento de hipótesis sobre un problema de particular interés para el investigador. En la actualidad estas hipótesis involucran ya sea problemas de muestreo o diseño experimental que empleando análisis estadísticos conduzcan a probar dichas hipótesis. ESTADÍSTICA La estadística puede concebirse integrada por tres partes principales: ESTADISTICA DESCRIPTIVA, PROBABILIDAD Y ESTADISTICA INFERENCIAL. 1 Facultad de Ingeniería, Universidad de Cuenca 14/3/2018 ESTADÍSTICA DESCRIPTIVA La Estadística descriptiva, es quizá la parte más conocida de la estadística. Incluye los métodos y técnicas empleadas para la recopilación, organización, análisis y presentación de datos sobre determinada característica o aspecto de interés. Clasificación de características Cualitativas Nominales Ordinales Cuantitativas Discretas Continuas características Características y variabilidad Se puede mencionar que virtualmente todos los procesos y sistemas naturales o artificiales exhiben variabilidad. Siendo ésta el objeto de análisis estadístico. Variables Las variables nos permiten representar los posibles valores que tomen las características. El nivel y tipo de análisis a realizarse dependerá del tipo de variable. La clasificación de características depende de su sentido intrínseco, no de la unidad de medicion o valor con el cual sea representada Vladimiro Tobar 2 Facultad de Ingeniería, Universidad de Cuenca 14/3/2018 Representación de distribuciones de frecuencia. Cuando hablamos de una característica, en particular, la frecuencia es el número de veces que se repite determinada observación (cualitativas y cuantitativas discretas), o el número de observaciones que caen en un intervalo dado (cuantitativas continuas). En razón de que a cada posible valor de la variable le corresponderá una frecuencia, el análisis de su distribución se convertirá en uno de los principales objetivos Representación gráfica (características cualitativas) Very S trong 29% Very Strong Mild 12% Strong Mild 0 2 4 6 Frecue ncia 8 10 S trong 59% Las características cualitativas suelen representarse en gráficos de barras (horizontales) Un gráfico de pie, se emplea en general cuando se trata de transmitir la idea de cómo de un todo se distribuyen sus partes Vladimiro Tobar (compendio/colonias) Intensity rating Mild Strong Very Strong Total Frecuencia 2 10 5 17 Frec. Rel 0.118 0.588 0.294 La representación tabular, incluye la característica, la frecuencia, el total y la frecuencia relativa. Representación tabular (características cuantitativas) (compendio/auto2000) Intensidad de coloni as Intensidad de colonias Representación tabular (características cualitativas) Intervalo de clase Frecuencia 12.0 14.5 4 14.5 17.0 9 17.0 19.5 20 19.5 22.0 40 22.0 24.5 17 24.5 27.0 29.5 27.0 29.5 32.0 Total 9 4 3 106 F.Rel 0.0377 0.0849 0.1887 0.3774 0.1604 FRA 0.0377 0.1226 0.3113 0.6887 0.8491 0.0849 0.0377 0.0283 1.0000 0.9340 0.9717 1.0000 La representación tabular, incluye: intervalos de clase, frecuencias, total, la frecuencias relativas y frecuencias relativas acumuladas. 3 Facultad de Ingeniería, Universidad de Cuenca 14/3/2018 Representación tabular (características cuantitativas) Representación gráfica (características cuantitativas) Número de intervalos: k n.datos (Sturges) k = 1 + 3.32 log10 n K, No menos de 5 ni más de 20 Ojiva: La variable se ubica en el eje horizontal de las x, y las frecuencias en el eje vertical de las y. No deben quedar espacios vacíos entre columnas. Ojiva de mi llage de vehículos 40 30 20 10 0 1.2 1.0 0.8 0.6 0.4 0.2 0.0 9.5 12 - 14.5 14.5 - 17 17 - 19.5 19.5 - 22 22 - 24.5 24.5 - 27 27 - 29.5 29.5 - 32 Clase Representación gráfica (características cuantitativas) Se asocia con función de densidad (auto2000 pesos) Se asocia con función de distribución acumulada. Vladimiro Tobar Histograma de F.R.A (F.D.A.) 1.20 0.25 1.00 0.20 0.80 0.15 0.10 Interrupter Speaker Female Male Female 10 10 Male 5 15 Total interrupter 15 25 Interrupter según speaker 0.60 0.40 0.05 0.20 0.00 0.00 Total speaker 20 20 40 Gráfico side by side: ojiva Speaker F .R .A . F .r el Histograma de F.rel (F. Densidad) 0.30 milla ge (Mi /ga l) Tabla cruzada (compendio/inter) 2.4 - 2.8 2.8 - 3.2 3.2 - 3.6 3.6 - 4.0 4.0 - 4.4 4.4 - 4.8 4.8 - 5.2 5.2 - 5.6 5.6 - 6.0 2.4 - 2.8 2.8 - 3.2 3.2 - 3.6 3.6 - 4.0 4.0 - 4.4 4.4 - 4.8 4.8 - 5.2 5.2 - 5.6 5.6 - 6.0 weights (x1000 Lbs) w eights (x1000 Lbs) Male Histograma de frecuencias relativas acumuladas: 12.0 14. 5 17. 0 19. 5 22.0 24.5 27.0 29.5 32. 0 34. 5 Relación entre dos características cualitativas 15 5 Male Female Histograma de frecuencias relativas: Es una línea no descendente, que comienza desde cero en el Li del primer intervalo y llega hasta 1 en el Ls del último intervalo Millage de autos (mi/gal) 50 vehículos con consumo menor Seleccionar máximo y mínimo. Amplitud de clase = (max-min)/k Marca de clase = (Li + Ls)/2 Criterio de pertenencia a un intervalo: x intervalo si: Li < x Ls Frec uencia Histograma de frecuencias: Female 10 10 0 5 10 15 20 4 Facultad de Ingeniería, Universidad de Cuenca 14/3/2018 Relación entre dos características cuantitativas Gráfico de dispersión: Representación gráfica apropiada Principios de excelencia gráfica: Se debe identificar adecuadamente la variable independiente y la dependiente. Salario según años de experiencia 120000 Salario 100000 80000 60000 40000 20000 0 0 10 Años 20 30 Practical Statistics by Example Using Ms Excel (T. Sincich) Representación numérica. Si bien una tabla o un gráfico nos dicen bastante sobre la distribución de una variable, también es posible llevar una distribución a un lenguaje matemático a través de su representación numérica: Representación gráfica Histograma de F.rel (F. Densidad) 0.30 0.25 F .re l 0.20 0.15 0.10 0.05 0.00 2.4 - 2.8 2.8 - 3.2 3.2 - 3.6 3.6 - 4.0 4.0 - 4.4 4.4 - 4.8 4.8 - 5.2 5.2 - 5.6 5.6 - 6.0 Representación numérica x 3.5 0.63 a 1 .0 La excelencia gráfica implica una bien diseñada presentación de datos que provea sustancia, estadística y diseño. La excelencia gráfica es comunicar ideas complejas con claridad, precisión y eficiencia. La excelencia gráfica provee al observador el mayor número de ideas en un corto intervalo de tiempo con la menor cantidad de tinta. La excelencia gráfica casi siempre incluye varias dimensiones. La excelencia gráfica requiere que se diga la verdad acerca de los datos. Idea transmitida por la rep. numérica Medidas de localización. Medidas de tendencia central: Media Mediana Moda Medidas de posicionamiento: Cuartiles Percentiles weights (x1000 Lbs) Vladimiro Tobar 5 Facultad de Ingeniería, Universidad de Cuenca 14/3/2018 Medidas de tendencia central Medidas de tendencia central: Media La media muestral viene dada por: La media muestral viene dada por (asume los datos concentrados en la marca de clase (xi): x fx f i i x i Influenciada por presencia de valores extremos. La mediana: Es el valor que ocupa la posición central en una serie de datos ordenada. Medidas de tendencia central: Mediana La mediana es el valor que ocupa la posición central en una serie de datos ordenada: ~x x n1/ 2 n impar ~x x x n/2 n / 2 1 2 n par Cuando los datos se encuentran agrupados: Vladimiro Tobar i i i La sumatoria de las desviaciones respecto de la media es cero La sumatoria de los cuadrados de las desviaciones, respecto de una constante A es mínima, cuando A es la media. Es el punto de equilibrio si consideramos cargas unitarias colocadas en el eje x en cada valor que toma la variable La media es fuertemente influenciada por la presencia de valores extremos. ~x x n 1 / 2 n impar ~x x x n/ 2 n / 2 1 2 n par Moda: es el valor de más alta repitencia Propiedades: fx f Medidas de tendencia central: Mediana La mediana exhibe una propiedad en que la sumatoria de los valores absolutos de las desviaciones, respecto de una constante A es mínima, cuando A es la mediana. ~x Li n 2 Fa w Donde: fm Li es el limite inferior de la clase mediana Fa es la frecuencia acumulada hasta antes de la clase mediana. w es la amplitud del intervalo de clase mediana y fm es la frecuencia de la clase mediana. 6 Facultad de Ingeniería, Universidad de Cuenca 14/3/2018 Medidas de tendencia central: Moda La moda es el valor de más alta repitencia (variables cualitativas y cuantitativas discretas). Para el caso de variables cuantitativas continuas, esta definición carece de sentido, no obstante operativamente primero se define la clase modal y luego la moda. Clase modal es la clase de mayor repitencia. 1 w xˆ Li 1 2 x̂ Medidas de posicionamiento Percentiles (Pk): dividen una serie de datos ordenada en cien partes: Para nuestro propósito, existirán 101 percentiles comenzando por P0 y terminando en P100 Para datos agrupados se pueden calcular de la siguiente forma: nk 100 Fa Pk Li w fk Medidas de posicionamiento Quartiles (Q1, Q2, Q3): dividen una serie de datos ordenada en cuatro partes: Q1, es el valor que tiene en su valor o bajo el al 25% de los datos y en su valor o sobre el al 75% de los datos Q2, es el valor que tiene en su valor o bajo el al 50% de los datos y en su valor o sobre el al 50% de los datos Q3 , es el valor que tiene en su valor o bajo el al 75% de los datos y en su valor o sobre el al 25% de los datos Medidas de variabilidad. Medidas de dispersión absolutas Rango: max-min Rango intercuartil IQR: Q3 – Q1 Desviación media Varianza: La cual se constituye en la operativización matemática del cálculo gráfico en la ojiva. Para datos sin agrupar, una fórmula es: Pk X n1k 100 Vladimiro Tobar 1 n 1k n 1k 100 100 X n 1k X n1k 1 100 2 100 2 xi 2 x2 2 , N DM s2 f i xi x n f i xi x Desviación típica muestral n 1 s 2 n x2 x 2 n 1 fi xi x n 1 2 7 Facultad de Ingeniería, Universidad de Cuenca Medidas de variabilidad. Medidas de dispersión relativas Zscore DM x xi x s s x Medidas de asimetría Coeficiente cuartil de sesgo: ((Q3-Q2)-(Q2-Q1))/(Q3-Q1) Coeficiente de asimetría: 3 a3 Vladimiro Tobar Zscore Coeficiente de Variación CV Otra medida de posición relativa el Z score Coeficiente de Desviación media CDM 14/3/2018 n x x M i M 33/ 2 (n 1)(n 2) s 2 BASES MATEMATICAS PARA PROBABILIDAD Combinatoria Principio fundamental: Si un evento A se puede presentar de n1 formas diferentes y si el evento B puede presentarse de n2 formas diferentes, los dos eventos en conjunto pueden presentarse de n1*n2 formas diferentes. Ejemplo Cuenca Guayaquil Manta, ejemplo computadores. 8 Facultad de Ingeniería, Universidad de Cuenca Combinatoria Permutaciones Considerando un total de n elementos distinguibles entre sí, se denominan permutaciones al total de ordenamientos diferentes de los n elementos. Pn = n(n-1)(n-2) … 1 = n! Ejemplo, en una competencia donde intervienen, n=3 deportistas, el número total de formas diferentes en las cuales pueden terminar la competencia es de 6. Combinatoria Combinaciones Considerando un total de n elementos distinguibles, se denominan combinaciones al total de grupos diferentes de tamaño r que pueden formarse con los n elementos. n! n r r!n r ! Ejemplo, en una alacena tengo n=5 snacks diferentes: leche, un paquete de galletas, una manzana, un chocolate y papas fritas. El número total de grupos tres de estos snacks que pueden traerse a la universidad es… Vladimiro Tobar 14/3/2018 Combinatoria Variaciones Considerando un total de n elementos distinguibles, se denominan variaciones, al total de ordenamientos de los n elementos en grupos de tamaño r. Vnr = n(n-1)(n-2) … (n-r+1) = n!/(n-r)! Ejemplo, en una alacena tengo n=5 snacks diferentes: leche, un paquete de galletas, una manzana, un chocolate y papas fritas. El número total de formas diferentes en las cuales pueden ingerirse tres de estos es… Combinatoria (con repetición de elementos) Permutaciones Considerando un total de n elementos de clases: a,b,c … m, con na, nb, nc, … nm repetidos de cada clase, de tal forma que: na + nb + nc + … + nm = n, el total de permutaciones de los n elementos será: n m , n c , n b , n a Pn n! n a ! n b ! n c ! n m ! 9 Facultad de Ingeniería, Universidad de Cuenca 14/3/2018 Combinatoria (con repetición de elementos) Variaciones Combinatoria (con repetición de elementos) Combinaciones Si se disponen de n clases de elementos: a,b,c … n, cada una de ellas conteniendo al menos r elementos, el total de ordenamientos de los n elementos será: vnr = nr Si se disponen de n clases de elementos: a,b,c … n, cada una de ellas conteniendo al menos r elementos, el total de grupos que pueden formarse con los n elementos será: n r 1 n r 1! r r!n 1! Combinatoria Particiones Considerando un total de n elementos distinguibles entre sí, si se desea una partición en grupos de tamaños: na, nb, nc, … nm, de tal forma que: na + nb + nc + … + nm = n, el total de posibles particiones será: n m , n c , n b , n a Vladimiro Tobar Pn n! n a ! n b ! n c ! n m ! PROBABILIDAD Fenómenos Aleatorios El fundamento matemático de la estadística lo constituye el cálculo de probabilidades, puesto que permite modelar matemáticamente los fenómenos aleatorios. Un fenómeno aleatorio es aquel que pudiendo repetirse indefinidamente en condiciones similares, no puede predecirse el resultado de cada ensayo. De tal manera que no existe una regularidad determinística sino estadística. 10 Facultad de Ingeniería, Universidad de Cuenca 14/3/2018 Algebra de Sucesos (Teoría de Conjuntos) Algebra de Sucesos Operaciones El conjunto de todos los posibles resultados de un fenómeno aleatorio se llama espacio muestral. Se llama suceso o evento aleatorio a un subconjunto de A su vez cada uno de los posibles resultados simples de un experimento aleatorio se denomina suceso elemental i Vladimiro Tobar Suceso cierto: aquel cuyos resultados incluyen Suceso imposible: se llama suceso imposible a aquel que no contiene resultados en Diferencia: siendo A, B dos sucesos en , el suceso diferencia A-B es el conjunto de resultados que pertenecen a A y no pertenecen a B y es igual a AB’ Sucesos incompatibles: A, B son sucesos incompatibles si AB= A AB B A AB B A A’ Algebra de Sucesos Ejemplo Algebra de Sucesos Operaciones Unión: siendo A, B dos sucesos en , se llama unión AB al conjunto de resultados que pertenecen a A ó a B Intersección: siendo A, B dos sucesos en , la intersección AB (ó AB), es el conjunto de resultados que pertenecen aAyaB Complemento: siendo A un suceso aleatorio en , se llama suceso complementario A’ al conjunto de resultados de que no pertenecen a A • Consideremos el experimento en el que dos piezas son examinadas a efectos de ver si cumplen o no con las especificaciones. Los posibles sucesos elementales serán: 1 (C, C), 2 (C, N ), 3 (N ,C), 4 ( N, N ) A A-B B A B El espacio muestral será: 1 , 2 , 3 , 4 . El evento A, en el que al menos una pieza cumple con las especificaciones será: A 1 , 2 , 3 11 Facultad de Ingeniería, Universidad de Cuenca 14/3/2018 Probabilidad, Axiomas Probabilidad, Teoremas Para un evento A, P(A) es su probabilidad, la cual satisface los siguientes axiomas: Partiendo de los axiomas, se obtienen los siguientes teoremas: 1.- P(A) ≥ 0 1.- P(A’) = 1 – P(A) No negatividad de la probabilidad. 2.- P() = 1 2.- P() = 0 3.- P(AB) = P(A) + P(B), si AB= 3.- P(AB) = P(A) + P(B) – P(AB) 4.- P n VARIABLES ALEATORIAS: Introducción La probabilidad es la herramienta matemática que nos permite la modelación y análisis de experimentos aleatorios. Un experimento aleatorio podrá dar resultados diferentes en cada ocasión, aun cuando se repita en las mismas condiciones. El espacio muestral es el conjunto de todos los posibles resultados de un experimento aleatorio. Vladimiro Tobar Un espacio muestral es discreto cuando consiste de un número finito o infinito contable de posibles resultados. Un espacio muestral es continuo cuando sus posibles resultados pueden ser cualesquier valor en un intervalo de los números reales. i 1 A i n i 1 P ( A i ), con Ai A j i j VARIABLES ALEATORIAS Una variable aleatoria es una función que asigna un número real a cada resultado en el espacio muestral de un experimento. La variable aleatoria se representa por X (mayúscula) y un posible valor de la misma por x (minúscula). 12 Facultad de Ingeniería, Universidad de Cuenca 14/3/2018 VARIABLES ALEATORIAS Y Distribuciones de Probabilidad VARIABLES ALEATORIAS Y Distribuciones discretas de Probabilidad A continuación se presenta un ejemplo sencillo de como se puede modelar un experimento aleatorio con una distribución de probabilidad: Sea el experimento aleatorio lanzamiento de un par de dados: Función de masa de probabilidad (Función de densidad) de una variable aleatoria discreta, es una función tal que: x f 2 3 4 5 6 7 8 9 10 11 12 15 25 50 55 73 96 69 70 48 31 8 F.rel 0.03 0.05 0.09 0.10 0.14 0.18 0.13 0.13 0.09 0.06 0.01 p 0.03 0.06 0.08 0.11 0.14 0.17 0.14 0.11 0.08 0.06 0.03 0.2 0.18 0.16 0.14 0.12 0.1 0.08 0.06 0.04 0.02 0 F.rel p 2 3 4 5 6 7 8 9 10 11 12 VARIABLES ALEATORIAS Y Distribuciones discretas de Probabilidad VARIABLES ALEATORIAS Y Distribuciones discretas de Probabilidad Función de distribución acumulada (Función de distribución) de una variable aleatoria discreta, se define como: La Esperanza Matemática o media de una variable aleatoria discreta, se define como: F ( x) P ( X x) f xi xi x De tal forma que cumpla con lo siguiente: 0 ≤ FX(x) ≤ 1 FX(-∞) = 0, FX(+∞) = 1 Si: a < b, FX(a) ≤ FX(b) E ( X ) xf x x La Esperanza matemática de la función de una variable aleatoria discreta es: E g X g ( x ) f x x La varianza viene dada por: 2 V ( X ) E X x f x x 2 f x 2 2 2 x Vladimiro Tobar x 13 Facultad de Ingeniería, Universidad de Cuenca 14/3/2018 Computadora sin virus Distribución Uniforme discreta Una variable aleatoria tiene distribución uniforme discreta si cada uno de los posibles valores de la variable tiene igual probabilidad. Asumiendo la función definida entre los enteros a y b, se tiene: fX(xi) = 1/(b-a+1); a ≤ xi ≤ b Con esperanza matemática y varianza: E( X ) b a 2 2 b a 12 1 Una variable aleatoria tiene distribución binomial si: Se trata de un experimento aleatorio en el cual se realizan n ensayos Bernoulli, tales que: Los ensayos sean independientes: La probabilidad de éxito denotada por p, siendo 0<p<1, es constante. La variable aleatoria X consiste en el número de éxitos en los n ensayos. La función de masa de probabilidad está definida por: n n x f x p x 1 p x 0,1,2,3...n x Vladimiro Tobar Ensayo Bernoulli es un experimento aleatorio con dos posibles resultados: A éxito y B, fracaso. Se considera que los ensayos son independientes, y que la probabilidad de éxito, p es constante. Ejemplos: En el lanzamiento de una moneda, sea A el evento que salga cara. En la transmisión de bits por un canal digital, sea A el evento que el bit transmitido sea error. En el nacimiento de un bebé, sea A que nazca mujer. 12 Distribución Binomial Distribución Binomial Distribución Binomial La esperanza matemática y varianza de una variable aleatoria binomial vienen dadas por: E( X ) n p 2 V ( X ) np(1 p) Ejemplo: Because not all airline passengers show up for their reserved seat, an airline sells 125 tickets for a flight that holds only 120 passengers. The probability that a passenger does not show up is 0.10, and the passengers behave independently. (a) What is the probability that every passenger who shows up can take the flight? (b) What is the probability that the flight departs with empty seats? 14 Facultad de Ingeniería, Universidad de Cuenca Distribución de Poisson Dado un intervalo de números reales (generalmente este intervalo será el tiempo, longitud, área, etc.), si se asume que conteos ocurren randómicamente en el intervalo, y si: 2. 3. la probabilidad de más de un conteo en cada subintervalo es cero; La probabilidad de un conteo en cada subintervalo es la misma para todos los subintervalos y proporcional a su longitud; y El conteo en cada subintervalo es independiente de otros subintervalos; entonces el experimento se denomina PROCESO POISSON La variable aleatoria X que representa el conteo total en el intervalo es una Variable Aleatoria Poisson con parámetro (promedio esperado de conteos en dicho intervalo); cuya función de masa de probabilidad es: f (x) ex x! x 0,1,2,3,.... La contaminación es un problema en la manufactura de discos de almacenamiento óptico. El número de partículas contaminantes que aparecen en un disco tiene una distribución de Poisson con una media de 0.1 partículas por centímetro cuadrado. El área de un disco en estudio es 100 cm2. Encuentre la probabilidad de que: a) no exista contaminación en el disco b) existan 12 partículas en el disco, c) cuando más 8 partículas sean encontradas: Sea X el número de partículas contaminantes en el área del disco en estudio, se tiene: E(X) = = x = 0.1 part./ cm2 x 100 cm2 = 10 part. (en 100 cm2) Vladimiro Tobar a) b) c) A menudo es necesario emplear el valor de , que es la media esperada de conteos para un intervalo unitario. La distribución de Poisson puede ser deducida a partir de la distribución binomial, en el caso de que n es muy grande, p es pequeño y el producto np tiende a una constante : 10 0 e 10 0.000045 0! e10 1012 P ( X 12) 0. 0948 12! 8 e10 10i P ( X 8) 0.3328 i! i 0 P ( X 0) x 1 n x n( n 1)(n 2)...(n x 1) n n x Lim x x p 1 p Lim x! n n n 1 p 0 p 0 np np n x x n ( n 1 )( n 2 )...( n x 1 ) e e Lim nx x! n x! n p 0 np La Esperanza matemática y la varianza son iguales a Distribución de Poisson: ejemplo Distribución de Poisson El intervalo puede ser particionado en subintervalos pequeños, tales que 1. 14/3/2018 Otras distribuciones discretas de probabilidad Distribución Geométrica: siendo X el número de ensayos Bernoulli hasta la obtención del primer éxito: f x 1 p x 1 p x 1, 2,3... E ( X ) 1 p 2 (1 p) p 2 Binomial Negativa: siendo X el número de ensayos Bernoulli hasta la obtención de r éxitos: x 1 1 p xr p r x r , r 1, r 2, r 3... f x r 1 E ( X ) r p 2 r (1 p) p 2 15 Facultad de Ingeniería, Universidad de Cuenca 14/3/2018 Variables aleatorias continuas y distribuciones probabilidad Variables aleatorias continuas y distribuciones de probabilidad Si el dominio de definición de una variable aleatoria X contiene un intervalo ya sea finito o infinito de números reales, entonces X es una variable aleatoria continua. Función de distribución acumulada de una variable aleatoria continua, se define como: F ( x ) P ( X x) f t dt x Px X x dx f (x)dx De tal forma que la función de densidad en términos de la función de distribución es: x x +dx La función de densidad de una variable aleatoria continua, es una función tal que: f x d x f t dt dx dF x f x F ' x dx f ( x) 0 f ( x )dx 1 Pa X b f ( x)dx b a Variables aleatorias continuas y distribuciones de probabilidad La Esperanza Matemática o media de una variable aleatoria continua, se define como: Distribución Uniforme continua Una variable aleatoria continua X, definida en el intervalo [a, b] tiene distribución continua uniforme si la probabilidad de ocurrencia para cada subintervalo (igual) dx en elf intervalo es la misma. (x) X k E ( X ) xf x dx La Esperanza matemática de la función de una variable aleatoria continua es: E g X g ( x ) f x dx La varianza viene dada por: Vladimiro Tobar b a x 2 f xdx x2 f x dx 2 b X De tal forma que si la función de densidad f(x) = k: 2 V ( X ) E X 2 a k dx 1 kx ba k 1 (b a ) f ( x ) : a x b A su vez la función de distribución sería: F ( x ) PX x x a x 1 xa t dt ba b a a b a 16 Facultad de Ingeniería, Universidad de Cuenca 14/3/2018 Distribución Normal La distribución normal es la más conocida forma para modelar experimentos aleatorios. Originalmente fue descubierta en 1733 por De Moivre como extensión del problema binomial cuando el número de ensayos tiende a infinito, no obstante esta no fue reconocida sino hasta cien años después cuando K. F. Gauss la redescubriera con un trabajo independiente. Muchos experimentos aleatorios en los cuales intervienen efectos aleatorios independientes, cada uno de estos influyendo de igual forma en más o en menos, tienen generalmente distribuciones normales. Distribución Uniforme continua F(x): 1 a b La esperanza matemática y varianza son: E( X ) b a 2 2 b a 2 12 Distribución Normal N(0,1) Distribución Normal N(,2) De Moivre partiendo de una variable binomial tipificada: X b np La variable aleatoria X cuya función de densidad es: n np (1 p ) f ( x) 1 2 b a e 1 x2 2 dx Con lo que se obtienen la función de densidad y función de distribución de la variable normal estándar (de media 0 y varianza 1). f ( z ) dz P z Z z dz Vladimiro Tobar e 1 z2 2 2 dz ( x) P( X x) x e 1 x 2 2 x 2 Se conoce como distribución normal con parámetros y ; ó, N(, 2). Nótese que cuando =0 y =1, se obtiene la distribución normal estándar. No es difícil demostrar que la media y varianza de la distribución normal son: Logró demostrar que: P a n b e E(X)= V(X)= 2 1 y2 2 2 dy 17 Facultad de Ingeniería, Universidad de Cuenca 14/3/2018 Distribución Normal Distribución Normal 2 =0, =1 Las áreas más conocidas y que caracterizan a una distribución normal son: f ( x) e 1 x 2 0.4 A la derecha se presentan unos ejemplos gráficos de distribuciones normales. 2 2 Distribución Normal 2 =3, =5 0.2 0.15 0.1 0.05 0 -5 -4 -3 -2 -1 0 1 2 3 4 5 6 7 8 9 z d1 d2 d3 10 Transformación a variable N(0,1) 0.16 0.50 0.14 0.45 0.40 0.12 F. densidad F. densidad 2 =4, =2 0.3 0.25 Distribución Normal Ajuste normal 0.35 0.10 0.30 0.25 0.08 0.20 0.06 0.15 0.04 0.10 0.02 0.05 0.00 0.00 -10 -5 0 5 Variable Vladimiro Tobar =2, 2=2 0.35 10 15 -10 -5 0 5 10 15 Variable 18 Facultad de Ingeniería, Universidad de Cuenca Distribución Exponencial La distribución de Poisson nos sirve para modelar una variable aleatoria discreta R igual al número de eventos de un proceso Poisson que pueden suceder en determinado intervalo de números reales. La distribución exponencial, nos servirá para modelar la longitud de intervalo X hasta que se produce el primer evento desde cualquier punto de inicio. El punto de incicio desde el cual se mida, no interesa, puesto que la distribución de X sólo depende de que los eventos sigan un proceso Poisson, mas no de su posición. R (long.=x) X Distribución Exponencial Sea , la media de eventos de un proceso Poisson por unidad de longitud (área, tiempo, etc), de tal forma que el número de eventos para una longitud dada x, es una variable aleatoria Poisson con media x, así se tendrá que: e x x e x 0! Con lo que la función de distribución acumulada es: 0 P ( X x) P ( R 0) F ( x) P ( X x) 1 P ( X x) 1 e x , x 0 Y la función de densidad es: f ( x) e x , x 0 X Distribución Exponencial Siendo , el parámetro de la distribución exponencial igual a la media de eventos por unidad de longitud, la esperanza matemática y varianza de la variable aleatoria exponencial X, viene dada por: b u x, dv e x dx E ( X ) x e x dx Lim x e x dx 0 0 b du dx, v e x b x x Lim xe e dx 0 b 14/3/2018 Distribución Exponencial La vida de los reguladores de voltage de automóviles tiene una distribución exponencial con media de seis años. Usted compra un automóvil de segunda mano con cinco años de antigüedad, con un regulador funcionando. Si planea tener el auto por seis años: Cuál es la probabilidad de que el regulador falle mientras usted es el dueño? E ( x) 1 1 6 F ( x) P ( X 6) 1 e 1 6 6 0.632 b 1 Lim xe x e x b 0 1 x 1 1 Lim x e xe x e x b e 0 b La distribución exponencial exhibe la llamada propiedad de carencia de memoria, que consiste en: P ( X t1 t 2 | X t1 ) P ( X t 2 ) 0 0 1 1 V ( X ) 1 2 Vladimiro Tobar 19 Facultad de Ingeniería, Universidad de Cuenca 14/3/2018 Otras distribuciones de variables aleatorias continuas Distribución Erlang: Sea X la variable aleatoria que representa el intervalo en que se presentan r conteos en un proceso Poisson con media >0, su función de densidad es: f x ; , r r x r 1e x r 1! ; x0 y r 1,2,3 ... La esperanza matemática y la varianza son: EX r 2 V X r 2 Distribución gamma: en el caso de una distribución Erlang, sin ser necesariamente r un entero, pero r > 0, se tiene la siguiente función de densidad: f x ; , r r x r 1e x r ; x0 r x r 1 e x dx El campo de la estadística inferencial cubre los procesos y metodologías tales que basados en el conocimiento de lo que significan población y muestra y de cómo estas se relacionan, partiendo de una muestra se puedan estimar parámetros poblacionales o establecer conclusiones acerca de los mismos. 0 La esperanza matemática y la varianza son: EX r Vladimiro Tobar y r 0 ESTIMACIÓN PUNTUAL DE PARAMETROS 2 V X r 2 Población y muestra: Población. Población y muestra: Población. Población: es el conjunto de todos los resultados de las mediciones de cierta variable en un universo sobre el cual queremos establecer conclusiones. El universo ha de ser completamente definido con el objeto de que pueda ser identificado claramente, sin lugar a confusión. Las poblaciones pueden ser finitas e infinitas. Poblaciones finitas son las que tienen un número finito contable de resultados. En poblaciones infinitas el número de resultados es infinito 20 Facultad de Ingeniería, Universidad de Cuenca 14/3/2018 Población y muestra: Muestra. Muestra aleatoria Muestra: es (debe ser) un subconjunto de la población objetivo. Sobre este punto, hemos de resaltar que la muestra que se pretenda tomar de una población, con el objeto de analizarla estadísticamente, ha de cumplir con una característica importante: ser representativa de la población. Para asegurar esto se debe eliminar cualquier sesgo o facilitismo en su selección. En razón de que los procesos de análisis estadístico se fundamentan en la probabilidad y en distribuciones de variables aleatorias, siempre se han de preferir muestras aleatorias. De esta forma, la selección de la muestra se convierte en un experimento aleatorio, en el que cada observación de la muestra es el valor observado de una variable aleatoria. Población y muestra: Muestra. Muestreo aleatorio Población objetivo Población muestreada no incluida en marco para muestreo no alcanzable no respuesta Vladimiro Tobar muestra Marco para muestreo no elegible para obtener información Por su forma el muestreo puede ser considerado como con remplazamiento y sin remplazamiento en poblaciones finitas o infinitas. 21 Facultad de Ingeniería, Universidad de Cuenca Muestreo Sin Remplazamiento En el muestreo sin remplazamiento, cada vez que se registra una observación, esta se excluye para una siguiente observación. Vladimiro Tobar 14/3/2018 Muestreo Con Remplazamiento El considera que cada vez que se registra una observación, su probabilidad de ser nuevamente seleccionada se mantiene la misma para una siguiente observación. Muestreo con y sin remplazamiento Parámetro vs. estimador En casos prácticos, poblaciones grandes pueden ser consideradas infinitas; y, muestreo sin reemplazo en dichas poblaciones puede considerarse como muestreo con reemplazo. A su vez un muestreo con reemplazo sobre una población finita, hace que la población pueda considerarse como infinita. Un aspecto clave a ser considerado es que el investigador no está interesado en una muestra, el interés es el de conocer determinado parámetro poblacional . El muestreo, permitirá encontrar un estimador estadístico, el cual es variable de muestra en muestra. Serán las pruebas de hipótesis las que permitan contrastar los estimadores con los parámetros poblacionales. 22 Facultad de Ingeniería, Universidad de Cuenca 14/3/2018 Ejemplo: Número de granjas por condado (USA,1992). Número de granjas por condado: muestra Histograma de una muestra 35 30 Frequency 4000 3500 3000 2500 2000 1500 1000 500 0 25 20 15 10 Bin Número de granjas por condado: Distribución muestral D istribución de la po blación y distrib ución muestral de media s Bin 0 2 0 1 0 7000 6500 6000 5500 5000 4500 4000 3500 0 3000 775 745 715 685 655 625 595 0 0 3 2500 10 0 4 2000 20 0 5 1500 30 0 6 1000 40 7 500 Frequency 50 4 000 3 500 3 000 2 500 2 000 1 500 1 000 500 0 0 60 565 M or e Número de granjas por condado: Distribución de la población y Distribución muestral 70 535 24 00 Tamaño de muestra: 109. Promedio de 622.9 granjas por condado. Varianza de 217215. Distribución muestral de Medias 505 20 00 Bin Total 30780 condados, promedio de 625.5 granjas por condado. Varianza de 240695 Frequency 16 00 12 00 80 0 0 40 0 6600 6000 5400 4800 4200 3600 3000 2400 1800 600 1200 5 0 0 Frequency Histograma de la población B in Promedio de 628.9 granjas por condado. Varianza de 2032. (2201) Vladimiro Tobar 23 Facultad de Ingeniería, Universidad de Cuenca 14/3/2018 Distribucion muestral de medias Distribución muestral de medias Histograma 0.08 0.25 0. 2 0.06 Frecuencia Fr ecuencia Frecuencia 0.07 0.05 0.15 0.04 0. 1 0.03 0.02 0.05 0.01 INTERVALOS DE CONFIANZA Si bien un estadístico muestral nos proporciona una idea del valor de un parámetro poblacional, sólo es conociendo las distribuciones de muestreo que podemos entender la variabilidad que existe en un estadístico muestral. Esta es la clave que nos permite extender una estima puntual a una estima de intervalo o intervalo de confianza. Siendo el parámetro poblacional de interés, la forma general de expresar un intervalo de confianza vendrá deducida de acuerdo con lo siguiente: Vladimiro Tobar 178 174 170 166 162 158 154 150 146 139 142 142 136 133 138 134 130 130 126 122 118 114 110 106 98 102 94 0 90 0 La media de la distribución muestral de medias es la media de las medias de las muestras. La varianza de la distribución muestral de medias, para el caso de muestreo con reemplazamiento (o población infinita) es: 2X = 2/n. Para muestreo sin reemplazamiento (población finita), la varianza de la distribución muestral de medias es: 2X = (2/n) ((N-n)/(N-1)) Intervalo de confianza para la media de una distribución normal, varianza conocida Siendo X1, X2, X3, … Xn, una muestra aleatoria de tamaño n, el teorema de límite central _ señala que la distribución de la variable aleatoria X , sería normal de media y varianza 2/n, entonces: P(L U) = 1-. De tal forma que una vez seleccionada una muestra x1, x2, x3, … xn, el intervalo de confianza para será: l u Donde: 100(1-)% será el nivel de confianza NC; y, l y u se conocen como límites de confianza. Esto indica con que probabilidad se puede encontrar al parámetro poblacional entre L y U 24 Facultad de Ingeniería, Universidad de Cuenca 14/3/2018 IdC para la media de una distribución normal, varianza conocida Considerando la variable estandarizada: X X se tiene : Z X X n P z 2 Z z 2 1 X z 1 P z 2 2 n IdC para la media de una distribución normal, varianza conocida El intervalo de confianza para la media de una distribución normal, cuando su varianza es conocida y se dispone de una muestra de tamaño n, viene dado por: x z 2 X z 2 P X z 2 1 n n n x z 2 n con lo que: L X z 2 n y U X z 2 n IdC para la media de una distribución normal, varianza conocida La interpretación del intervalo de confianza debe hacerse considerando que si partiendo de una muestra específica de tamaño n, se ha obtenido el intervalo: x z 2 n x z 2 n IdC para la media de una distribución normal, varianza conocida Una representación gráfica de los intervalos de confianza se incluye a continuación: o sea : l u Para otra muestra se obtendrá un intervalo diferente. En este sentido, como ya se expresó antes, se tendrá en general el intervalo de la forma L U; con L y U siendo variables aleatorias, por tanto podría o no estar incluida en cada intervalo. De aquí que se espera que el 100(1-)% de los intervalos, así generados, incluyan al parámetro poblacional desconocido . Vladimiro Tobar 25 Facultad de Ingeniería, Universidad de Cuenca IdC para la media de una distribución normal, varianza conocida: tamaño de muestra Uno de los aspectos más importantes a ser decididos de forma previa al muestreo es el tamaño de muestra a ser seleccionada. Para este efecto, debe previamente ser conocido: 1. Qué parámetro se desea estimar (en este caso la media ). El 2. 3. 4. investigador debe definir claramente su interés. Cuál es la varianza poblacional. Cuál es el error admisible esperado x El NC para la estima. El tamaño de muestra vendrá definido, entonces como: z 2 n E Si se trata de estimar un intervalo de confianza para un parámetro poblacional cualquiera , tal que el tamaño de muestra sea grande, y que: se conozca un estimador insesgado para , cuya distribución de probabilidad sea aproximadamente normal, y la varianza de la distribución muestral pueda ser estimada a partir de la muestra, entonces: ˆ z 2 ˆ ˆ z 2 ˆ Vladimiro Tobar IdC para la media de una distribución normal, varianza desconocida, n grande Se puede decir en general que si la varianza es desconocida, pero el tamaño muestral es grande, el intervalo de confianza 100(1-)% puede ser obtenido empleando s2 en lugar de 2 en las fórmulas de intervalos de confianza cuando se conoce la varianza. Esto debido a que la varianza muestral es un estimador de la varianza poblacional, que no cambiaría en mucho la distribución muestral. Generalmente se recomienda un tamaño muestral n de al menos 40. 2 Forma general de un IdC , n grande 14/3/2018 x z 2 s s x z 2 n n IdC para la media de una distribución normal, varianza desconocida Para el caso en que la varianza poblacional es desconocida y n no es grande, la situación es diferente, por esta razón es necesario hacer una asunción acerca de la distribución de probabilidad de la población. Como se había mencionado, esto no sería difícil para muchas de las situaciones con que debamos trabajar. No obstante, la distribución muestral de la variable estandarizada, ya no es normal, será una distribución t con n-1 grados de libertad. 26 Facultad de Ingeniería, Universidad de Cuenca 14/3/2018 IdC para la media de una distribución normal, varianza desconocida, distribución t IdC para la media de una distribución normal, varianza desconocida Siendo X1, X2, X3, … Xn, una muestra aleatoria cualquiera de tamaño n de una población normal la variable estandarizada: Partiendo, entonces de la variable estandarizada, se tiene: X T S T X , S P t n 1, 2 T t n 1, n Tiene una distribución t con n-1 grados de libertad, cuya función de densidad viene dada por: La media de la distribución t es cero y su varianza es k/(k-2), con k > 2. IdC para la media de una distribución normal, varianza desconocida Luego el intervalo de confianza 100(1-)% para la media, varianza desconocida y población normal, cuando se conocen los datos de una muestra es: x t 2, n1 o sea : l u 2 1 X t P t n 1, 2 n 1, 2 1 S n S S P X t n 1, 2 X t n 1, 2 1 n n L X t n 1, l x t n 1, s s x t 2, n1 n n luego : n 2 2 S n s n y U X t n 1, y u x t n 1 , 2 2 S n s n IdC para la varianza de una distribución normal, distribución 2 Siendo X1, X2, X3, … Xn, una muestra aleatoria cualquiera de tamaño n de una población normal de media y varianza 2, y siendo S2 la varianza muestral, se tiene que: X2 n 1S 2 2 Tiene una distribución 2 con n-1 grados de libertad, cuya función de densidad viene dada por: Donde k son los grados de libertad. La media de la distribución 2 es k y su varianza 2k. La distribución 2 es una distribución Gamma con parámetros =1/2 y r=k/2 Vladimiro Tobar 27 Facultad de Ingeniería, Universidad de Cuenca 14/3/2018 IdC para la varianza de una distribución normal IdC para la varianza de una distribución normal Sea s2 la varianza muestral de la muestra de tamaño n tomada de una población normal: Luego el intervalo de confianza 100(1-)% para la varianza de una población normal, cuando se conocen los datos de una muestra es: X2 n 1S 2 , 2 n 1s 2 2 2 luego : P 21 2 , n 1 X 2 2 2, n 1 1 n 1S 2 2 2 , n 1 1 P 21 2 , n 1 2 n 1S 2 n 1S 2 2 2 1 P 2 1 2, n 1 2 , n 1 IdC para una proporción poblacional, muestra grande Hasta ahora se ha hablado de intervalos de confianza para características cuantitativas, en el caso de que nos interese una característica cualitativa, entonces nuestro enfoque será sobre la proporción de muestras que cumple determinada condición (éxito), de tal forma que se desea establecer límites de confianza para la proporción poblacional (de éxitos). Si la ocurrencia o no de un evento de interés es un experimento bernoulli, el número X de casos favorables a la presentación del evento, de entre los n de la muestra, tomada de una población grande, sigue una distribución binomial. Si nuestro interés se concentra en la proporción poblacional, una estima puntual de ésta será el cuociente X/n. En general este procedimiento puede ser empleado siempre que la proporción poblacional p no sea próxima ni a cero ni a uno; usualmente como regla rápida se debe chequear que: np > 5 y n(1-p) > 5 Vladimiro Tobar 2 , n 1 n 1s 2 21 2 , n 1 IdC para una proporción poblacional, muestra grande Al tener X distribución binomial, se puede trabajar con la variable estandarizada Z, cuya distribución es aproximadamente normal estándar: X np X n p , dividiendo para n : Z np (1 p ) p (1 p) n P z 2 Z z 2 1 Z Pˆ p P z 2 z 2 1 p(1 p) n p(1 p) p(1 p) P Pˆ z 2 p Pˆ z 2 n n Pˆ p p(1 p) n 1 28 Facultad de Ingeniería, Universidad de Cuenca 14/3/2018 IdC para una proporción poblacional, muestra grande Lo anterior implica que para definir el intervalo de confianza para p se necesita conocer p. Por esta razón se emplea la estima de p, X/n con lo que queda: Pˆ (1 Pˆ ) Pˆ (1 Pˆ ) p Pˆ z 2 1 P Pˆ z 2 n n Luego, una vez tomada una muestra grande, el intervalo de confianza está definido por: pˆ z 2 pˆ (1 pˆ ) p pˆ z 2 n pˆ (1 pˆ ) n PRUEBAS DE HIPÓTESIS Un aspecto de principal interés consiste en fundamentar una decisión acerca de determinado parámetro poblacional. En situaciones comunes casi siempre existe una idea o proposición clara, ya sea definida o inferida sobre el valor de un parámetro poblacional. En estos casos, se pretende con apoyo de la inferencia estadística tomar una decisión de rechazar o no dicha proposición. Vladimiro Tobar IdC para una proporción, tamaño de muestra Cuando el parámetro de interés es la proporción poblacional p, la selección del tamaño de muestra requiere el conocimiento de: la varianza poblacional, el error admisible esperado y el NC para la estima. Sea el error esperado en la estima de p: E Pˆ p El tamaño de muestra deducido es: 2 z 2 p(1 p) p1 p n n E Cuando no se conoce p, se puede emplear la estima obtenida en una muestra previa. En caso de no conocerse, se recomienda trabajar con la mayor varianza admisible, esta es cuando p=1-p=0.5 E z 2 2 z 2 z pˆ 1 pˆ ; ó, n 0.25 2 n E E 2 Hipótesis estadísticas Las proposiciones acerca de los parámetros poblacionales se denominan hipótesis estadísticas. HIPOTESIS NULA: Las proposiciones que se plantean describiendo el estado actual aceptado como cierto acerca de los parámetros de una población se denominan hipótesis nulas Ho. Comúnmente esta hipótesis se plantea expresando un valor del parámetro poblacional. HIPOTESIS ALTERNATIVA: Las proposiciones tentativas sobre los parámetros poblacionales, a favor de las cuales se intenta conseguir evidencia estadística se denominan hipótesis alternativas. PRUEBAS DE HIPOTESIS: Es el procedimiento estadístico que nos permite probar las hipótesis. 29 Facultad de Ingeniería, Universidad de Cuenca 14/3/2018 Pruebas de hipótesis: regiones de aceptacion y rechazo Pruebas de hipótesis: errores Error tipo I rechazar la hipótesis nula cuando es verdadera Error tipo II aceptar la hipótesis nula cuando es falsa. REGION DE ACEPTACION REGION DE RECHAZO Valor crítico 0 Decisión Aceptar Ho Rechazar Ho REGION DE RECHAZO correcto Error tipo I Error tipo II correcto Valor crítico Pruebas de hipótesis ejemplo Consideremos el ejemplo siguiente: Se está interesado en la tasa de combustión de un propelente sólido, del cual se dice que la tasa de combustión es 50 cm/s y que nosotros pensamos que no es. Entonces cualquiera de las siguientes hipótesis podrían ser planteadas, de manera previa a la realización de la prueba: Ho: = y Ha: para un ensayo de dos colas Ho: = y Ha: > (si se sospecha que la media es mayor) Ho: =0 y Ha: < (si se sospecha que la media es menor) • Que sucedería si al tomar una muestra, diga de tamaño 45 la media muestral da un valor menor a 50?, se puede concluir algo?. Una prueba de hipótesis puede especificarse de la siguiente forma: Ho: =0 y Ha: 0 para ensayo de dos colas Ha: >0 ó Ha: <0 para ensayos de una cola = Probabilidad de cometer error tipo I = P(rechazar Ho|Ho es verdadera) = Probabilidad de cometer error tipo II = P(aceptar Ho|Ho es falsa) Vladimiro Tobar Ho falsa La probabilidad de cometer error tipo I se denomina nivel de significación Pruebas de hipótesis: formas de especificar Ho Ho: =0 y Ho: =0 y Ho verdadera • La verdad no, puesto que sólo es una muestra y no se ha definido una región de aceptación. 30 Facultad de Ingeniería, Universidad de Cuenca 14/3/2018 Pruebas de hipótesis: ejemplo Ahora bien, pudimos haber establecido una regla de decisión bilateral tal que si la media muestral esta entre 48.5 y 51.5, no rechazamos la hipótesis nula de que la media poblacional es 50. Cuáles serían entonces y . El valor de puede ser calculado directamente, pero para el valor de debemos dar hipótesis alternativas fijas tales como =52. = P(rechazar Ho | Ho verdadera) = P( X 48. 5 o X 51. 5 | 50) = P(aceptar Ho | Ho falsa) = P(48.5 X 51. 5 | 52) Que sucede si se amplia la región de aceptación? P( X 48 o X 52 | 50) P(48 X 52 | 52) Pruebas de hipótesis: procedimiento Un procedimiento general para la prueba de hipótesis es el siguiente: 1. 2. 3. 4. 5. 6. 7. 8. Identificar el parámetro de interés. Establecer la hipótesis nula. Plantear la hipótesis alternativa. Seleccionar el nivel de significación. Establecer un estadístico de prueba apropiado. Establecer una región de rechazo. Calcular las cantidades muestrales y sustituirlas en la ecuación para el estadístico de prueba. Decidir si debe o no rechazarse Ho. Prueba de hipótesis para la media, varianza conocida Prueba de hipótesis para la media, varianza conocida Las pruebas de hipótesis pueden ser realizadas tanto en la distribución muestral de medias como en la distribución de la variable estandarizada, siendo esta última una de las que comúnmente se utiliza. Así pues, si se plantea que el parámetro de interés es la media poblacional , las hipótesis estadísticas para un ensayo de dos colas serán: Ho: =0 y Ha: 0 Una vez definido un nivel de significación El estadístico de prueba será: En el caso de preferirse un procedimiento de prueba en términos de la distribución muestral de la media, el estadístico de prueba sería la media muestral, con el siguiente análisis: _ Si X cae fuera del intervalo 0 Z 2 n , 0 Z 2 n se rechazaría la hipótesis nula; y si, Zo cae dentro de dicho intervalo, no se podría rechazar la hipótesis nula. Z0 X 0 n De tal forma que si Zo cae fuera del intervalo (–Z/2, Z/2) se rechazaría la hipótesis nula; y si, Zo cae dentro del intervalo (–Z/2, Z/2) no se podría rechazar la hipótesis nula. Vladimiro Tobar 31 Facultad de Ingeniería, Universidad de Cuenca Prueba de hipótesis para la media, varianza conocida: valor P El valor P es el nivel de significación más pequeño que conduce al rechazo de la hipótesis nula. P se calcularía como: 21 z 0 dos colas P 1 z 0 cola superior z cola inferior 0 14/3/2018 Prueba de hipótesis para la media, varianza conocida: error tipo II y tamaño de muestra Es claro que al tener definido un tamaño de muestra y un nivel de significación , el error tipo II , está definido. En algunos casos se puede querer disminuir a la vez los dos tipos de error; para eso, es necesario especificar tanto , como . Supóngaes para esto que Ho es falsa y que el verdadero valor de la media es . esto se traduce en que: X X ( ) n Z0 0 0 n n Por tanto la distribución de Zo cuando H1 es verdadera n ,1 Z 0 ~ N Prueba de hipótesis para la media, varianza conocida: error tipo II y tamaño de muestra De lo anterior se deduce que la probabilidad de cometer error tipo II viene dada por: = P(–Z/2<Z0< Z/2) = n n z / 2 z / 2 z / 2 De donde: n con z n Vladimiro Tobar z /2 Prueba de hipótesis para la media de una distribución normal, varianza desconocida De forma similar a la prueba de la media varianza conocida, para un ensayo de dos colas, se tienen las hipótesis: Ho: =0 y Ha: 0 El estadístico de prueba será: T0 X 0 S n De tal forma que si To cae fuera del intervalo (–t/2,n-1, t/2,n-1) se rechazaría la hipótesis nula; y si cae dentro de dicho intervalo, no se podría rechazar la hipótesis nula. z 2 2 2 32 Facultad de Ingeniería, Universidad de Cuenca 14/3/2018 Prueba de hipótesis para la varianza de una distribución normal INFERENCIA ESTADÍSTICA PARA DOS MUESTRAS Las hipótesis a ser probadas en este caso son: Ho: =02 y Ha: 02 El estadístico de prueba será: X 02 n 1S 2 02 2 2 De tal forma que si cae fuera del intervalo 1 2, n 1 , 2, n1 se rechazaría la hipótesis nula; y si cae dentro de dicho intervalo, no se podría rechazar la hipótesis nula. Inferencia para la diferencia de medias de dos distribuciones normales Supóngase que se tienen dos poblaciones normales con medias 1 y 2 desconocidas y varianzas 12 y 22; y que, se requieren hacer inferencias acerca de la diferencia de medias 1 - 2. Deben distinguirse los siguientes casos: Diferencias de medias, poblaciones normales Varianzas conocidas Varianzas desconocidas 1 2 y 2 2 1 2 = 2 2 = 2 1 2 2 2 Hasta ahora se han visto inferencias sobre un parámetro poblacional de una población lo que a continuación se incluye corresponde a inferencias sobre la relaciones entre un parámetro poblacional de dos poblaciones diferentes. Inferencia para la diferencia de medias de dos distribuciones normales, varianzas conocidas Supóngase que se tienen dos poblaciones normales con medias 1 y 2 desconocidas y con varianzas 12 y 22, y que se requieren hacer inferencias acerca de la diferencia de medias 1 - 2. Sean X11, X12, X13, … X1n1, una muestra aleatoria de tamaño n1, tomada de la población 1; y, X21, X22, X23, … X2n2, una muestra aleatoria _ de _tamaño n2, tomada de la población 2. El estadístico: X1 – X2 es un estimador puntual de 1 - 2. Pudiendo plantearse de acuerdo con la notación antes empleada que: X X 1 2 parámetro poblaciona l de interés 1 2 ˆ X1 X 2 estimador del parámetro poblaciona l 2ˆ X2 X 1 Vladimiro Tobar 2 12 n1 22 n2 varianza del estimador 33 Facultad de Ingeniería, Universidad de Cuenca 14/3/2018 Pruebas de hipótesis para la diferencia de medias, varianzas conocidas IdC para la diferencia de medias de dos distribuciones normales, varianzas conocidas Supongamos que estamos interesados en probar si la diferencia de medias de dos poblaciones normales es igual a determinado valor (usualmente 0), entonces nuestro interés recae en probar si 1 - 2 = 0. Siendo las hipótesis estadísticas: Ho: 1 - 2 = 0 y Ha: 1 - 2 0 Nuestro estadístico de prueba será: Considerando la estandarización: Z ˆ ˆ X1 X 2 1 2 , se tiene : 12 n1 22 n2 P z 2 Z z 2 1 12 22 12 22 1 2 X 1 X 2 z 2 P X 1 X 2 z 2 n1 n2 n1 n2 Z0 Con lo que el intervalo de confianza para la diferencia de dos medias poblacionales, varianzas conocidas es: 2 2 x 1 x 2 z 2 1 2 n1 n2 1 2 x 1 x 2 z 2 12 n1 n1 1S12 n2 1S22 n1 n2 2 n2 X1 X 2 0 12 22 n2 IdC para la diferencia de medias de dos distribuciones normales, varianzas desconocidas pero iguales Considerando la estandarización: Y con 12 = 22 = 2 ; y, siendo Sp2 un estimador de 2 , se tiene: T X X 2 1 2 1 Sp 1 1 n1 n2 X 1 X 2 1 2 12 n1 22 n2 cuya distribución es aproximadamente t con n 1 n 2 2 grados de libertad; luego : P t 2, n1 n 2 2 T t 2 ,n1 n2 2 1 1 1 1 1 1 2 X1 X 2 t 2 , n1 n 2 2 S p P X1 X 2 t 2, n1 n 2 2 S p n n n n 1 2 1 2 Con lo que el IdC para la diferencia de dos medias poblacionales, varianzas desconocidas pero iguales es: x 1 x 2 t 2, n n 2 s p 1 Vladimiro Tobar n1 Inferencia para la diferencia de medias de dos distribuciones normales, varianzas desconocidas pero iguales S p2 ˆ De tal forma que si Zo cae fuera del intervalo (–Z/2, Z/2) se rechazaría la hipótesis nula; y si cae dentro de dicho intervalo, no se podría rechazar la hipótesis nula. 22 Supóngase que se tienen dos poblaciones normales con medias 1 y 2 y varianzas 12 = 22 = 2 desconocidas; y que, se requiere hacer inferencias acerca de la diferencia de medias 1 - 2. Sean X11, X12, X13, … X1n1, una muestra aleatoria de tamaño n1, tomada de la población 1; y, X21, X22, X23, … X2n2, una muestra aleatoria _ de_tamaño n2, tomada de la población 2. El estadístico: X1 – X2 es un estimador puntual de 1 - 2. Un estimador de la varianza común 2 viene dado por: ˆ 0 2 1 1 1 1 1 2 x1 x2 t 2, n1 n2 2 s p n1 n2 n1 n 2 34 Facultad de Ingeniería, Universidad de Cuenca 14/3/2018 Pruebas de hipótesis para la diferencia de medias, varianzas desconocidas pero iguales Inferencia para la diferencia de medias de dos distribuciones normales, varianzas desconocidas y diferentes Supongamos que estamos interesados en probar si la diferencia de medias de dos poblaciones normales de varianzas desconocidas es igual a determinado valor 0 (usualmente 0), entonces nuestro interés recae en probar si 1 - 2 = 0. Siendo las hipótesis estadísticas: Ho: 1 - 2 = 0 y Ha: 1 - 2 0 Si las varianzas son iguales, el estadístico de prueba será: T0 X 1 X 2 0 Sp 1 1 n1 n2 De tal forma que si T0 cae fuera del intervalo (–t/2,n1+n2-2 , t/2,n1+n2-2) se rechazaría la hipótesis nula; y si cae dentro de dicho intervalo, no se podría rechazar la hipótesis nula. IdC para la diferencia de medias de dos distribuciones normales, varianzas desconocidas y diferentes La distribución de T será aproximadamente t, con grados de libertad definidos por: 2 2 2 Luego: S S1 S 2 n1 n 2 2 2 S2 n 1 n1 2 2 n1 1 n2 1 2 P t 2, T t 2 , 1 P X1 X 2 t 2 , S12 S 22 1 2 X 1 X 2 t 2, n1 n2 S12 S 22 n1 n 2 Con lo que el IdC para la diferencia de dos medias poblacionales, varianzas desconocidas y diferentes es: x 1 x 2 t 2, Vladimiro Tobar s12 s22 1 2 x 1 x 2 t 2 , n1 n2 s12 s 22 n1 n2 Supóngase que se tienen dos poblaciones normales con medias 1 y 2 y varianzas 12 y 22 desconocidas y diferentes; y que, se requiere hacer inferencias acerca de la diferencia de medias 1 - 2. Sean X11, X12, X13, … X1n1, una muestra aleatoria de tamaño n1, tomada de la población 1; y, X21, X22, X23, … X2n2, una muestra aleatoria _ de_tamaño n2, tomada de la población 2. El estadístico: X1 – X2 es un estimador puntual de 1 - 2. Las varianzas muestrales S12 ,y S22 son estimadores de las varianzas 12 y 22; entonces, puede trabajarse con el estadístico: X1 X 2 1 2 T S12 S 22 n1 n2 Pruebas de hipótesis para la diferencia de medias, varianzas desconocidas y diferentes Supongamos que estamos interesados en probar si la diferencia de medias de dos poblaciones normales de varianzas desconocidas es igual a determinado valor 0 (usualmente 0), entonces nuestro interés recae en probar si 1 - 2 = 0. Siendo las hipótesis estadísticas: Ho: 1 - 2 = 0 y Ha: 1 - 2 0 El estadístico de prueba será: T0 X 1 X 2 0 S12 S 22 n1 n 2 De tal forma que si T0 cae fuera del intervalo (–t/2, , t/2, ) se rechazaría la hipótesis nula; y si cae dentro de dicho intervalo, no se podría rechazar la hipótesis nula. 35 Facultad de Ingeniería, Universidad de Cuenca 14/3/2018 Prueba t pareada Un procedimiento de prueba para la diferencia de medias poblacionales se emplea cuando el muestreo no es completamente aleatorizado en cada población, sino que se procede a tomar las muestras por pares. Para ilustrar esto, supongamos que estamos interesados en probar la diferencia en tiempos de secado de dos tipos de pinturas A y B. Para emplear los procedimientos de prueba anteriores se debería realizar un muestreo aleatorio de tiempos de secado en diferentes superficies con la pintura A y otro muestreo aleatorio con la pintura B. Para la prueba pareada, se toman aleatoriamente n superficies, las cuales son pintadas una parte con la pintura A y otra con la B; de esta forma se obtiene una relación directa entre los tiempos de secado dentro de cada par, con la ventaja de que la variabilidad entre superficies diferentes, no infla la variabilidad total del estimador. Prueba t pareada Supóngase que se tienen dos poblaciones con medias 1 y 2 y varianzas 12 y 22 desconocidas; y que, se requiere hacer inferencias acerca de la diferencia de medias 1 - 2. Si una prueba pareada ha sido diseñada, se obtendrán n pares de observaciones: (X11, X21), (X12, X22), (X13, X23) … (X1n1, X2n2); luego, dentro de cada par se pueden calcular las diferencias D _ k = X1k - X2k. El estadístico: D es un estimador puntual de D = 1 - 2. La varianza D2 es: D2 V ( D ) V X1 X 2 V X1 V X 2 2 covX 1 , X 2 El estimador de la varianza D2 sería la varianza muestral de las diferencias SD2 Prueba t pareada Partiendo de la variable estandarizada, se tiene: D D , T SD P t n 1, 2 luego : n T t n 1, 2 1 S S P D t n 1, 2 D D D t n 1, 2 D n n Prueba de Independencia en tablas cruzadas Cuando el objeto de nuestro estudio se centra en la relación entre dos características cualitativas, la pregunta de investigación común es si están relacionadas de alguna forma. En este sentido, la hipótesis estadística nula será de que las características son independientes. Con lo que el IdC para la diferencia de medias en pruebas pareadas es: d t n 1, 2 Vladimiro Tobar sd n D d t n 1 , 2 sd n 36 Característica 1 Facultad de Ingeniería, Universidad de Cuenca 14/3/2018 Prueba de Independencia en tablas cruzadas Prueba de Independencia en tablas cruzadas La frecuencia esperada en cada celda, en condiciones de independencia viene dada por: 1 2 . i . r 1 O11 O21 .. Oi1 .. O r1 2 O12 O22 .. Oi2 .. Or2 Característica 2 j .. O 1j .. O 2j .. .. .. O ij .. .. .. Orj .. .. .. .. .. .. c O 1c O 2c .. Oic .. Orc A B n= Prueba de Independencia en tablas cruzadas Para n grande, el estadístico: Se distribuye aproximadamente como 2, con (r-1)(c-1) grados de libertad, lo que proporciona un medio para probar la hipótesis nula. Si 20 > 2,(r-1)(c-1), entonces la hipótesis nula será rechazada. Vladimiro Tobar E 15 (13.4) 11 (12.6) B 23 (28.3) 32 (26.7) R 17 (13.4) 9 (12.6) 55 26 55 26 107 52 REGRESIÓN LINEAL SIMPLE 120000 Salary Considere los datos de sueldos 100000 . versus años de experiencia. 80000 Si supongo fijo un valor de x 60000 se tendrán diferentes valores de 40000 Y. De tal forma que si existe un 20000 0 valor medio de Y para x dado, 0 5 10 15 20 puede ser expresada en términos de x, así: E(Y|x) = Y|x = 0 + 1 x Esto obviamente nos describe la media de los valores de Y para cada x. 25 30 37 Facultad de Ingeniería, Universidad de Cuenca 14/3/2018 MODELOS DE REGRESION Modelos de regresión De lo anterior podemos plantear que si un modelo lineal es conveniente, este puede generalizarse a: Y = 0 + 1 x + Donde 0 + 1 x, es la parte determinística del modelo y es un error aleatorio que tiene media cero y varianza 2. Este modelo es comúnmente conocido como Modelo de regresión lineal simple. Si bien los modelos, pueden provenir de un análisis sobre las condiciones teóricas de las relaciones entre las variables, en muchos otros casos, esto debe ser juzgado sobre la base de los datos y sus posibles tendencias. Cuando un modelo lineal ha sido elegido, existen diferentes formas de estimar los coeficientes 0 y 1 ;una de ellas consiste en minimizar los cuadrados de las desviaciones de los valores yi de la recta Y = 0 + 1xi . En escencia, si podemos expresar observaciones de la forma: yi = 0 + 1xi + i , las deviaciones serán: i = yi – (0 + 1xi ) SALARIO 120000 100000 80000 60000 40000 20000 0 AÑOS DE EXPERIENCIA 0 5 10 15 20 25 30 Estimadores de mínimos cuadrados Para minimizar los cuadrados de los errores i, se define una función: L = i2 = (yi – 0 – 1xi )2. Las variables de interés en la misma, serán 0 y 1 cuya variación generan diferentes familias de rectas. Por tanto, para obtener los valores que minimicen L, se deriva parcialmente con relación a 0 y 1, se obtienen las siguientes ecuaciones: L/0= – 2(yi – 0 – 1xi ) L/1= – 2(yi – 0 – 1xi ) xi Luego igualando a cero estas ecuaciones, los estimadores de 0 y 1, ˆ0 y ˆ1 vienen dados por: Estimadores de mínimos cuadrados ˆ 0 y ˆ1 x n i 1 2 n 1 n 2 xi xi x n i1 i 1 i1 1 n n y i x i n n i1 i 1 1 n n Sxy y i x i y i xi 2 n n n i 1 1 i1 i 1 xi 2 n xi Sxy i 1 i 1 ˆ1 Sxx y x i ˆ1 n Sxx x i 2 i Cada una de las observaciones será: yi ˆ0 ˆ1 xi ei Donde ei , son los residuales: yˆ i ˆ 0 ˆ1 xi Vladimiro Tobar ei yi yˆ i 38 Facultad de Ingeniería, Universidad de Cuenca 14/3/2018 Estimadores de mínimos cuadrados Siendo SSE = ei 2 Y debido a que dos grados de libertad se pierden al estimar 0 y 1, se puede demostrar que un estimador de la varianza 2 viene dado por: ˆ 2 SS E (n 2) SS E y i yˆ i y i ˆ0 ˆ1 x i SS E SST ˆ1 Sxy 2 2 Estimadores de mínimos cuadrados Las propiedades de los estimadores de mínimos cuadrados son: 2 E ˆ1 1 ; V ˆ1 E ˆ0 0 ; Sxx 1 x2 V ˆ0 2 n Sxx con : SST yˆi y i 2 Tests de hipótesis en regresión Uno de los test de hipótesis en regresión más importantes es el test de la pendiente. Este test tiene por objeto rechazar la hipótesis nula de que la pendiente sea cero, puesto que esto significa que el modelo como tal es independiente de los valores de x. Tests de hipótesis en regresión La hipótesis nula se plantearía como: Ho: 1 = 1,0 y Ha: 1 1,0 Usualmente, 1,0 = 0 Luego el estadístico: T0 ˆ1 ˆ1, 0 ˆ 2 Sxx Sigue una distribución t con n-2 grados de libertad. De tal forma que si To cae fuera del intervalo (–t/2,n-2, t/2,n-2) se rechazaría la hipótesis nula; y si cae dentro de dicho intervalo, no se podría rechazar la hipótesis nula. Vladimiro Tobar 39