ESTADÍSTICA I PLUTARCO MARTÍNEZ BUSTOS Contenido Unidad I: Conocimientos Básicos y Generales Sobre Estadística Descriptiva – ¿Qué es Estadística? – Conceptos Básicos: Estadística descriptiva, estadística inferencial, población, Muestra, variable, variables cuantitativas y cualitativas – Elaboración de una tabla de frecuencias. – Análisis e interpretación de tablas de frecuencias. Variables cuantitativas discretas y continuas y variables cualitativas – Representaciones gráficas Contenido Unidad II. Medidas de Tendencia Central, de Dispersión y de Forma – Medidas de Tendencia Central: Media, mediana, moda, cuartiles, deciles y percentiles. – Medidas de dispersión: Varianza, desviación típica, coeficiente de variación. Unidad IV. Probabilidad – Experimento, Espacio Muestral, – Eventos – Permutaciones y Combinaciones – Probabilidad de un Evento – Reglas aditivas y probabilidad condicional Undidad V. Distribuciones de Probabilidad – Distribuciones discretas: Binomial, Poisson – Distribuciones Continuas: Distribución normal Estadística Es la ciencia que se ocupa de 1) La recolección, organización, resumen y análisis de los datos y 2) la obtención de inferencias a partir de un volumen de datos cuando se examina solo una parte de estos. Las personas que realizan esta actividad estadística deben estar preparadas para interpretar y comunicar los resultados a los demás, tal como lo demande la situación. En términos sencillos, se puede decir que los datos son números, que los números contienen información y que el propósito de la estadística es investigar y evaluar la naturaleza y el significado de esa información. Conceptos Básicos en Estadística Estadística Descriptiva Procedimientos empleados para organizar y resumir conjuntos de observaciones en forma cuantitativa, puede hacerse mediante tablas y gráficos, estos permiten simplificar la complejidad de los datos que intervienen en la distribución. Así mismo se calculan parámetros estadísticos que caracterizan la distribución. No se hace uso del cálculo de probabilidades y únicamente se limita a realizar deducciones directamente a partir de los datos y parámetros obtenidos. Con este método, se obtienen conclusiones sobre el conjunto de datos sin que sobrepasen el conjunto de conocimientos que proporcionan. Estadística Inferencial Plantea y resuelve el problema de establecer previsiones y conclusiones generales sobre una población a partir de la información contenida en una muestra. Los modelos estadísticos actúan de puente entre lo observado (muestra) y lo desconocido (población). Su conclusión y estudio están basado en el cálculo de las probabilidades. Método y conjunto de técnicas utilizadas para obtener un conjunto de datos, conclusiones que sobrepasan los límites de los conocimientos aportados por el conjunto de datos. Generalmente este proceso se determina mediante el estudio de muestras. Conceptos Básicos Población: Es el conjunto de todos los elementos que cumplen ciertas propiedades y entre los cuales se desea estudiar un determinado fenómeno. Muestra: Es el subconjunto de la población que es estudiado y a partir de la cual se sacan conclusiones sobre las características de la población. La muestra debe ser representativa, en el sentido de que las conclusiones obtenidas deben servir para el total de la población. Variable: Cada uno de los rasgos o característica de los elementos de una población y que varían de un individuo a otro (salario, color de ojos, sexo, número de hijos, etc.) Conceptos Básicos Tipos de Variables Variables cualitativas (o categóricas): Aquellas que no aparecen en forma numérica, sino como categorías o atributos (sexo, estado civil, color de ojos, etc.) Estas pueden agruparse en variables nominales u ordinales. Variable nominal: Cuando los datos correspondan a una variable cualitativa que se agrupa sin ninguna jerarquía entre sí, como por ejemplo: nombres de personas, de establecimientos, raza, grupos sanguíneos, estado civil. Estas variables no tienen ningún orden inherente a ellas ni un orden de jerarquía. Variable ordinal: Cuando las categorías o valores que adopte una variable cualitativa poseen un orden, secuencia o progresión natural esperable, por ejemplo: grados de desnutrición, respuesta a un tratamiento, nivel socioeconómico, intensidad de consumo de alcohol, días de la semana, meses del año, etc. Conceptos Básicos Variables cuantitativas: Las que pueden expresarse numéricamente (temperatura, producción, edad, etc.) Las Variables cuantitativas se clasifican en variables discretas y variables continuas Si entre dos valores determinados existen infinitas posibilidades de valores, hablaremos de una variable de tipo continuo. Ejemplos de este tipo de variables son: el peso, la talla, la presión arterial o el nivel de colesterol, etc. Si la variable a medir sólo puede adoptar un sólo valor numérico, entero, con valores intermedios que carecen de sentido, hablaremos de variable cuantitativa de tipo discreto. Son ejemplos de ellas: el número de hijos, de unidades vecinales del sector, número de exámenes de laboratorio o de pacientes atendidos. Elaboración de una Tabla de Frecuencias – Datos no Agrupados Para elaborar una tabla de frecuencias se procede de la siguiente manera: • Marca de clase (ππ): Son las observaciones • Frecuencia absoluta (ππ): Es el número de veces que se repite cada observación • Frecuencia absoluta acumulada (πΉπ΄): Es la suma sucesiva de la frecuencia absoluta • Frecuencia relativa (ππ): Es la relación entre la frecuencia absoluta y el total de observaciones multiplicado por cien. Esto es: ππ ππ = ∗ 100 π • Frecuencia relativa acumulada (πΉπ ): Es la suma sucesiva de la frecuencia relativa Ejemplo 1 Los siguientes datos corresponden al número de libros leídos por un grupo de 30 alumnos, en un lapso de 2 años. Elaborar la tabla de distribución de frecuencias. 3 2 1 4 5 3 2 1 3 1 2 3 5 1 2 2 1 3 4 2 3 4 0 1 2 2 0 1 2 3 Representación Gráfica Para dar una información general de los datos, se usan las representaciones gráficas. Las gráficas sirven visualizar mejor la información, pero nunca sustituyen al cuadro, tan solo se les debe considerar como complemento. Gráfico de frecuencias (Gráfico de barra): En el eje horizontal se colocan los distintos valores de la variable Xi y en el eje vertical van los valores de las frecuencias absolutas o relativas. Representación Gráfica Gráfico circular: Es el área del circulo dividido en sectores o porciones de área correspondiente a la frecuencia relativa, cada sector circular se encuentra por la expresión. ππ πΌ= ∗ 360 100 donde ππ es la frecuencia relativa. Ejemplo 2 Los siguientes datos representan los tiempos (redondeados a minutos) que demoran en ser atendidos 40 clientes de un banco 13 10 10 13 10 11 10 12 11 9 9 9 9 10 9 9 11 9 13 12 11 15 11 12 10 10 10 11 15 15 12 12 13 13 10 15 11 12 10 11 Elabore la tabla de frecuencias Realice un gráfico de barras para la frecuencia relativa Realice un gráfico circular Que porcentaje de personas demoran en ser mas atendidos Ejemplo 3 Los siguientes datos representan los ingresos anuales de 30 familias expresados en millones de pesos 20 20 22 20 20 21 22 21 21 19 22 19 18 20 22 20 21 21 18 19 20 19 20 22 21 21 22 20 20 21 Elabore la tabla de frecuencias Realice un gráfico de barras para la frecuencia relativa Realice un gráfico circular Que porcentaje de personas demoran en ser mas atendidos Elaboración de una Tabla de Frecuencias – Datos Agrupados A 40 estudiantes se les pidió que estimen el número de horas que habrían dedicado a estudiar la semana pasada (tanto en clase como fuera de ella), obteniéndose los siguientes resultados 36 45 30 37 30 52 55 56 47 48 49 58 60 58 39 50 32 60 58 47 35 38 50 58 40 32 65 55 50 35 35 39 54 56 56 58 35 48 47 45 Representación Gráfica Histograma: Son diagramas de frecuencias unidimensionales en los cuales en un plano cartesiano se levantan rectángulos de área proporcionales a las frecuencias sobre los intervalos del eje horizontal. en ellos se representan las frecuencias absolutas y relativa. Ojiva: La representación gráfica para las frecuencias absolutas y relativas acumuladas en una variable se hace a través de una ojiva ascendente. Para ello se determinan los puntos de intercepción entre cada valor de la variable y su respectiva frecuencia, luego se une con trazos rectilíneos Ejemplo 2 Los siguientes datos corresponden al número de clientes que acudieron al “CAFÉ INTERNET” durante 30 días. 15 34 13 20 20 35 30 17 30 32 21 32 22 14 30 36 23 14 20 39 18 24 20 16 31 38 22 13 28 19 Ejemplo 3 La compañía High Performance Bicycle Products de Chapel Hill, Carolina del Norte, hizo un muestreo de sus registros de embarque (Tiempo entre la relación de una orden y su entrega) para ciertos días con los siguientes resultados : 4 12 8 14 11 6 7 13 13 11 11 20 5 19 10 15 24 7 29 6 a. Elabore una tabla de frecuencias b. Si la compañía desea asegurar que la mitad de sus entregas se hagan en 9 días o menos, ¿puede determinar, a partir de la distribución de frecuencias, si han logrado esta meta? c. Elabore un histograma para la frecuencia relativa y una ojiva para la frecuencia relativa acumulada Ejemplo 4 Los resultados siguientes representan las calificaciones del examen final de un curso de estadística elemental. 23 60 79 32 57 74 52 70 82 36 80 77 81 95 41 65 92 85 55 76 52 10 64 75 78 25 80 98 81 67 41 71 83 54 64 72 88 62 74 43 60 78 89 76 84 48 84 90 15 79 34 67 17 82 69 74 63 80 85 61 Construya una tabla de frecuencias Realice un histograma para fa y una ojiva para FR Medidas de Tendencia Central Las medidas de tendencia central nos permiten determinar la posición de un valor respecto a un conjunto de datos, el cual consideramos como representativo para el total de las observaciones. Dentro de las medidas de tendencia central tenemos: Media Aritmética, mediana, moda. Media Aritmética πΏ: Es la mas conocida y sencilla de calcular, de gran estabilidad en el muestreo y sus formulas admiten tratamientos algebraicos. Su principal desventaja es el de ser muy sensibles a los cambios que se le haga en algunos de sus valores, o cuando los valores extremos son demasiado grandes o pequeños. La media se define como: Medidas de tendencia Central π₯ π₯= π Mediana (Me):Se dene como el valor central en la distribución de los datos. De la mediana se puede decir que es única, es simple y los valores extremos no tienen efectos importantes sobre la mediana, lo que si ocurre con la media. a. Número impar de observaciones: Si tomamos los datos originales para calcular la mediana, lo primero que debemos hacer es ordenar los datos de menor a mayor o de mayor a menor y luego tomamos el valor central. Medidas de tendencia Central b. Número par de observaciones: Cuando el número de observaciones es par, la mediana es igual al promedio aritmético de los dos términos centrales, es decir, el valor resultante de la suma de las dos observaciones centrales dividida por dos. Medidas de tendencia Central Moda (Mo): Es el valor de la variable que presenta mayor frecuencia. La moda se puede hallar en variables cuantitativas y cualitativas. • Si en un grupo hay dos o varias puntuaciones con la misma frecuencia y esa frecuencia es la máxima, la distribución es bimodal o multimodal, es decir, tiene varias modas • Cuando todas las puntuaciones de un grupo tienen la misma frecuencia, no hay moda Medidas de Posición Cuando la distribución contiene un número alto de intervalos o de marca de clases y se requiere obtener un promedio de una parte de ella, se puede dividir la distribución en cuatro, diez o cien partes. En el primer caso se habla de cuartiles, en el segundo se denomina deciles y en el último centiles o percentiles. Medidas de Posición Cuartiles: son los tres valores que dividen al conjunto de datos ordenados en cuatro partes iguales. • El primer cuartil Q1 se dene como aquel valor de la variable que supera el 25% de la observaciones y es superado por el 75% de las observaciones • El segundo cuartil Q2 (la mediana), es aquel valor de la variable que supera al 50% y es superado por el 50% • El tercer cuartil Q3 es aquel valor de la variable que supera al 75% y es superado por el 25% de las observaciones Medidas de Posición Deciles: son los nueve valores que dividen al conjunto de datos ordenados en diez partes iguales. Percentiles: Son 99 valores que dividen el conjunto de datos ordenados en cien partes iguales. Ejemplos 1. Para el siguiente conjunto de datos 14 17 10 6 8 15 19 11 13 9 Hallar: a. D3, D6 y D9 b. P8; P35; P60 Ejemplos 2. Los siguientes datos representan los ingresos mensuales de 15 persona. 650 670 700 750 800 750 800 850 900 900 650 670 650 670 800 Hallar: a. Ingreso medio b. Ingreso central c. Ingreso que mas se repite d. Q1, D4; P80 Medidas de dispersión Son aquella que nos determinan como se agrupan o se dispersan los datos alrededor de un promedio (o media). Entre las mas importantes tenemos: Varianza, desviación típica o desviación estándar y coeficiente de variación. Medidas de dispersión Varianza: De todas las medidas de dispersión es la mas importante, mas conocida y usada. Se le define como la media aritmética de los cuadrados de las desviaciones respecto a su media. Esta dada por: 2 π₯ − π₯ π 2 π = π−1 Medidas de dispersión Desviación típica o desviación estándar: Es la raíz cuadrada de la varianza, y está dada por: π = π 2 Coeficiente de variación: En ocasiones nos interesa comparar la variabilidad de dos series de datos. Generalmente podemos encontrar que ambas series están expresadas en diferentes unidades. Puede darse el caso en que estén expresadas en la misma unidad, pero nos interesa determinar la variación respecto a una base. Para resolver el anterior problema se usa π πΆπ = 100 π₯