UNIDAD II ESTADÍSTICA DESCRIPTIVA 2.1 IMPORTANCIA DE LA ESTADÍSTICA DESCRIPTIVA • Proporciona las herramientas necesarias para realizar un estudio descriptivo en un caso de investigación particular. • Los elementos que utiliza la estadística descriptiva son efectivos cuando se busca el objetivo de mostrar las características de una población o muestra. • Se integra a otros elementos de la estadística, como la estadística inferencial. 2.2 ESTADÍSTICA DESCRIPTIVA • Conjunto de técnicas estadísticas que se utilizan para describir el comportamiento o características de un grupo de datos. • Medidas Descriptivas: Son básicamente valores estadísticos calculados a partir de los datos de una población o una muestra y que nos permiten describir a la población o la muestra en relación a la variable que se estudia. • Se clasifican en dos grandes grupos: – Medidas de tendencia central – Medidas de dispersión 2.2 ESTADÍSTICA DESCRIPTIVA Medidas de tendencia central: Se encargan de representar los valores típicos que ubican el centro de la distribución de los datos. Entre las principales se encuentran: la media aritmética, la mediana, la moda y algunas otras medidas, que son variantes de la media. Medidas de dispersión: Estas se encargan de representar el grado de heterogeneidad o dispersión que existe en el conjunto de datos que se estudian. Ente las principales medidas de dispersión se encuentran: la desviación media, la varianza, la desviación estándar y el coeficiente de variación. 2.2.1 MEDIDAS DE TENDENCIA CENTRAL PARA DATOS NO AGRUPADOS La Media Aritmética Es la medida de tendencia central más conocida y la que la mayoría de personas tiene en mente cuando se habla de promedios. Esta se obtiene sumando todos los valores de la población o de la muestra y dividiéndose el valor obtenido entre el numero de valores que se sumaron. n n = X i =1 i N Donde : N = Número de observaciones de la población X i = Valores de la var iable que se promedia ____ X = x i =1 i n Donde : n = Número de observaciones de la muestra xi = Valores de la var iable que se promedia 2.2.1 MEDIDAS DE TENDENCIA CENTRAL PARA DATOS NO AGRUPADOS Características de la Media Aritmética La media aritmética posee tres características principales: 1. Unicidad: Se refiere que para todo conjunto de observaciones únicamente existe una media aritmética que es determinada aplicando la función anterior. 2. Simplicidad: Se refiere a que la media aritmética es fácil de calcular e interpretar. 3. La media aritmética es afectada en su valor por valores extremos que se presentan en la distribución de datos. 2.2.1 MEDIDAS DE TENDENCIA CENTRAL PARA DATOS NO AGRUPADOS Ejemplo Se realizó una encuesta para verificar ciertos datos socioeconómicos de los empleados de una empresa agroindustrial. Una de las variables observadas fue el salario diario de un grupo de trabajadores. Se seleccionó una muestra al azar de 7 trabajadores (que casualmente incluyó al gerente de la empresa). Los resultados fueron los siguientes (Quetzales): Q67.00, Q 72.00, Q55.00, Q64.00, Q88.00, Q76.00 y Q350.00. Calcular el promedio del salario diario de los trabajadores de la empresa. Todos los datos Q110.29 Sin valores extremos Q70.3 2.2.1 MEDIDAS DE TENDENCIA CENTRAL PARA DATOS NO AGRUPADOS Mediana La mediana de un conjunto finito de valores es el valor que divide al conjunto en dos partes iguales (se encuentra en el centro del conjunto de datos), cuando están dispuestos en orden creciente o decreciente. Cuando n es par : Cuando n es impar: X n + X n Me = +1 2 2 2 Donde : n = Número de observaciones X i = Valores de la var iable 𝑀𝑒 = 𝑋 𝑛+1 2 Donde: n = Número de observaciones Xi = Valores de la variable 2.2.1 MEDIDAS DE TENDENCIA CENTRAL PARA DATOS NO AGRUPADOS Características de la Mediana La mediana también presenta tres características principales: 1. Unicidad: Se refiere que para todo conjunto de observaciones únicamente existe una mediana. 2. Simplicidad: Se refiere a que la mediana es fácil de calcular e interpretar. 3. La mediana no es afectada por valores extremos de la distribución de datos. 2.2.1 MEDIDAS DE TENDENCIA CENTRAL PARA DATOS NO AGRUPADOS Ejemplo Considerando el ejemplo de las notas obtenidas por un grupo de 20 estudiantes de la promoción 2021-2023 i 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 x(i) 15 45 47 53 58 58 60 62 67 74 75 78 80 80 81 85 85 85 90 92 Cuando n es par : X n + X n Me = +1 2 2 2 Donde : n = Número de observaciones X i = Valores de la var iable 2.2.1 MEDIDAS DE TENDENCIA CENTRAL PARA DATOS NO AGRUPADOS Moda La moda de un conjunto de valores es el valor que ocurre con más frecuencia (el valor que más se repite). Si todos los valores son distintos entonces no existe moda y hablamos de una distribución amodal. Por otro lado puede presentarse el caso en que puedan haber 2 o más modas y estaríamos hablando de distribución bimodal, trimodad, etc. 2.2.1 MEDIDAS DE TENDENCIA CENTRAL PARA DATOS NO AGRUPADOS Ejemplos: 1. 5, 8, 7, 14, 11, 12 Mo = No hay moda = Amodal 2. 7, 9, 5, 7, 14, 11, 5, 8 Mo = 5, 7 = Bimodal 3. 8, 9, 15, 7, 1, 3, 1 Mo = 1 = Unimodal 2.2.1 MEDIDAS DE TENDENCIA CENTRAL PARA DATOS NO AGRUPADOS Media Ponderada: Esta medida se aplica cuando los datos a los que se les desea aplicar el promedio no tienen el mismo peso o importancia, de tal manera que la media ponderada tiene la capacidad de asignar un peso diferente a cada uno de los valores que se promedian. n p x Xp = i =1n i i p i =1 i A cada dato xi le damos la importancia representada por su respectivo pi. 2.2.1 MEDIDAS DE TENDENCIA CENTRAL PARA DATOS NO AGRUPADOS Ejemplo: En la lechería “La Unión” se produce queso de tres calidades diferentes identificadas como A, B y C, en diferentes cantidades y a un precio distinto, como se observara a continuación y se desea calcular el precio promedio de venta diario por unidad. Calidad Precio Cantidad Producida A Q20.00 200 B Q12.00 100 C Q8.00 50 Total 350 2.2.1 MEDIDAS DE TENDENCIA CENTRAL PARA DATOS NO AGRUPADOS Calidad Precio xi Cantidad Producida pi pi*xi A Q20.00 200 4000 B Q12.00 100 1200 C Q8.00 50 400 350 5600 Total n Xp = p x i =1 n i i p i =1 i = 5600 = Q16.00 350 2.2.2 MEDIDAS DE DISPERSIÓN PARA DATOS SIN AGRUPAR Rango o amplitud Constituye la media de dispersión más simple y su valor se obtiene efectuando la resta entre el valor mayor y el valor menor de un conjunto de datos. Rango = xmáx − xmin Presenta el inconveniente de solamente llevar en consideración los valores extremos del conjunto de datos. 2.2.2 MEDIDAS DE DISPERSIÓN PARA DATOS SIN AGRUPAR Desviación Media Es una medida que consiste en el cálculo del promedio de los valores absolutos de las desviaciones de las observaciones con respecto a la media aritmética. n ___ X−X DM = i =1 n 2.2.2 MEDIDAS DE DISPERSIÓN PARA DATOS SIN AGRUPAR n X−X Desviación Media DM = i =1 Ejemplo: X(i) = 6, 8, 10, 12, 14, 16, 18 Xi Xi - X │Xi – X │ 6 -6 6 8 -4 4 -2 2 12 0 0 14 2 2 16 4 4 18 6 6 ∑ 0 24 10 ___ X (promedio) 12 n DM = 24/7 = 3.43 2.2.2 MEDIDAS DE DISPERSIÓN PARA DATOS SIN AGRUPAR VARIANZA (variancia): La varianza se define como el promedio de los cuadrados de las desviaciones de las observaciones con respecto a la media. n 1 2 = (xi − )2 N i =1 ___ 2 1 s = x − x i n − 1 i =1 2 n Grados de libertad : El número de valores que podemos elegir libremente en una muestra 2.2.2 MEDIDAS DE DISPERSIÓN PARA DATOS SIN AGRUPAR Aunque la varianza es una de las medidas estadísticas más importantes presenta dos ligeros problemas: • El primero consiste en que al elevar al cuadrado las desviaciones para promediarlas generalmente estas desviaciones se sobredimensionan • El segundo consiste en que al elevar al cuadrado las dimensiones se elevan al cuadrado las unidades dimensionales la cual muchas veces resulta en un problema de interpretaciones. Xi N 2 i =1 X − i N 2 = i =1 N N 2 Xi N 2 i =1 X − i n s 2 = i =1 n −1 N 2 2.2.2 MEDIDAS DE DISPERSIÓN PARA DATOS SIN AGRUPAR Desviación Estándar: Es una medida de dispersión que consiste en calcular la raíz cuadrada positiva de la varianza. Xi N 2 i =1 X − i N = i =1 N N 2 X i N 2 i =1 X − i n s = i =1 n −1 N 2 2.2.2 MEDIDAS DE DISPERSIÓN PARA DATOS SIN AGRUPAR Ejemplo: En la siguiente tabla se presentan los datos referentes a la duración (expresada en horas) de 15 focos, de los utilizados en la producción de pollos de engorde. 180 190 190 205 210 210 220 250 250 265 280 310 330 350 370 Calcular la varianza y la desviación estándar muestral s2 = ___ 2 1 x − x i n − 1 i =1 n 15 1 2 𝑠 = 𝑥𝑖 − 254 2 15 − 1 𝑖=1 𝑠2 = 1 53510 14 𝑠 2 = 3822.1429 Intervalo = 254 + 61.82 = 315.82 254 - 61.82 = 192.18 2.2.2 MEDIDAS DE DISPERSIÓN PARA DATOS SIN AGRUPAR Coeficiente de variación: Mide la variabilidad porcentual de datos respecto a su media. Esta es una medida de dispersión relativa que tiene varios propósitos, entre ellos: • Comparar el grado de variación o de heterogeneidad que exista entre dos o más conjuntos de datos que correspondan a diferente variable. • comparar el grado de variación entre dos conjuntos de datos que, aunque sean de la misma variable sus magnitudes son significativamente diferentes. S C .V = ____ *100 = % X C .V = *100 = % 2.2.2 MEDIDAS DE DISPERSIÓN PARA DATOS SIN AGRUPAR Ejemplo: Si en un estudio sobre aspectos nutricionales en una comunidad se tomaron las variables de estudio, peso corporal de adultos y peso corporal de niños; y se desean comparar los resultados de dichas variables. Los resultados se resumen a continuación. • Adultos x= 138 libras y s = 22 lbs. • Niños x= 86 libras y s = 18 lbs. Si se comparan las variaciones solamente observando las desviaciones estándar podría concluirse erróneamente que los adultos presentan mayor variación; sin embargo, al calcular los coeficientes de variación, los resultados son: Adultos= 15.94% Niños = 20.93% EJERCICIO • Se realizó un estudio en una escuela para determinar niveles de nutrición en los niños, entre las variables medidas estuvieron X1= estatura (cm.) X2= peso (lb.); se toma una muestra de 12 niños y los resultados de esta variable fueron los siguientes: Estatura • X1 = 112cm., 104cm., 116cm., 108cm., 121cm., 112cm., 103cm., 122cm., 107cm., 119cm., 110cm., 119cm. Peso • X2 = 103lb., 109lb., 117lb., 96lb., 128lb., 107lb., 121lb., 97lb., 107lb., 112lb., 114lb., 121lb. Con esta información calcule las principales medidas estadísticas descriptivas 2.3.1 DISTRIBUCIÓN DE FRECUENCIAS • Muchas veces es necesario realizar estudios estadísticos con determinados conjuntos de observaciones en donde el número de datos bajo estudio es relativamente alto. • Con el objeto de sintetizar la información y simplificar su interpretación se recomienda muchas veces utilizar una técnica de agrupar los datos en un conjunto de intervalos contiguos que no se traslapen de tal manera que cada valor de una observación pueda ser incluido en uno y solamente en un intervalo, a estos intervalos se les llama intervalo de clase. 2.3.1 DISTRIBUCIÓN DE FRECUENCIAS • Una de las primeras preguntas que surge es en relación a ¿Qué número de intervalos debería usar?, en este sentido no es conveniente establecer muy pocos intervalos puesto que existiera pérdida de información, tampoco es conveniente establecer muchos intervalos puesto que no se logra el objetivo de síntesis. • La mejor decisión puede lograrse con el conocimiento mismo que el investigador tenga de la información, una guía que podría utilizarse corresponde a la fórmula de Sturges. K = 1 + 3.32 log10 n Donde : k = número de int ervalos de clase n = número de observaciones(datos) 2.3.1 DISTRIBUCIÓN DE FRECUENCIAS • La otra pregunta que surge se relaciona a la determinación o amplitud de los intervalos guía: W= R K Donde : R = Rango K = número de int ervalos de clase 2.3.1 DISTRIBUCIÓN DE FRECUENCIAS LA = Límite aparente (de clase): LA LR LAi = Límite aparente inferior. LAi - LAs LRi - LRs LAs = Límite aparente superior. LR = Límite real. LRi = Límite real inferior LRs = Límite real superior fi = Frecuencia. fa = Frecuencia acumulada. fr = Frecuencia relativa = fr = fi n mi = Marca de clase o punto medio = mi = LRi + LRs 2 fi fa fr mi fimi mi2fi Ejemplo: Se realizó un estudio para determinar la productividad de la variedad de papa Loman, los resultados obtenidos en libras por parcela, en 57 parcelas fueron los siguientes: 68, 65, 12, 22, 63, 43, 32, 43, 42, 25, 49, 27, 27, 74, 38, 49, 30, 51, 42, 28, 36, 36, 27, 23, 28, 42, 31, 19, 32, 28, 50, 46, 79, 31, 38, 30, 27, 28, 21, 43, 22, 23, 16, 49, 23, 45, 24, 12, 24, 12, 69, 25, 57, 47, 44, 51, 23. LA LR LAi - LAs LRi - LRs fi fa fr mi fimi mi2fi Resolución K = 1 + 3.32 log10 n Donde : k = número de int ervalos de clase n = número de observaciones(datos) K = 1 + 3.32log(57) K = 6.829 ≈ 7 clases Amplitud W= R K Donde : R = Rango K = número de int ervalos de clase W = (79-12)/7 W = 9.57≈ 10 Ejemplo: Clase LA LAi - LAs LR LRi - LRs fi fa fr mi fimi mi2fi 1 10 – 19 9.5 – 19.5 5 5 0.0877 14.5 72.5 1051.25 2 20 – 29 19.5 - 29.5 19 24 0.3333 24.5 465.5 11404.75 3 30 – 39 29.5 – 39.5 10 34 0.1754 34.5 345 11902.5 4 40 – 49 39.5 – 49.5 13 47 0.2281 44.5 578.5 25743.25 5 50 – 59 49.5 – 59.5 4 51 0.0702 54.5 218 11881.0 6 60 – 69 59.5 – 69.5 4 55 0.0702 64.5 258 16641.0 7 70 - 79 69.5 – 79.5 2 57 0.0351 74.5 149 11100.5 2086.5 89724.25 57 2.3.2 MEDIDAS DE TENDENCIA CENTRAL PARA DATOS AGRUPADOS Media Aritmética k ____ fimi X = i =1k fi i =1 ____ 𝑋 2086.5 = 57 ____ 𝑋 =36.605lb/parcela 2.3.2 MEDIDAS DE TENDENCIA CENTRAL PARA DATOS AGRUPADOS Mediana n − fa *i Me = LRi + 2 fm Donde : LRi = Límite real inf erior de la clase mediana fa = Frecuencia acumulada anterior a la clase mediana fm = Frecuencia absoluta de la clase mediana i = Amplitud o tamaño del int ervalo 𝑀𝑒 = 29.5 + 28.5 − 24 ∗ 10 10 𝑀𝑒 = 34 𝑙𝑏/𝑝𝑎𝑟𝑐𝑒𝑙𝑎 2.3.2 MEDIDAS DE TENDENCIA CENTRAL PARA DATOS AGRUPADOS Moda 1 * i Mo = LRi + + 2 1 Donde : LRi = Límite real inf erior de la clase mod al 1 = Diferencia de Frecuencia de la clase mod al y frecuencia de la clase anterior 2 = Diferencia de Frecuencia de la clase mod al y frecuencia de la clase posterior i = Amplitud o tamaño del int ervalo 𝑀𝑜 = 19.5 + 14 ∗ 10 14 + 9 𝑀𝑜 = 25.58 𝑙𝑏/𝑝𝑎𝑟𝑐𝑒𝑙𝑎 2.3.3 MEDIDAS DE DISPERSIÓN PARA DATOS AGRUPADOS VARIANZA ( fimi ) fimi − 2 2 2 = n −1 n 2086.5 2 89,724.25 − 57 2 𝑠 = 56 − 1 𝑠 2 =238.34 lb2 Desviación Es tan dar = 2 C.V = *100 = % s = 𝑠2 s = 238.34 𝐶. 𝑉 = 15.44 ∗ 100 36.605 s = 15.44 lb 𝐶. 𝑉 = 42.18% EJERCICIO • En la siguiente tabla se presentan los datos de producción de resina (expresado en Kg) de 40 árboles de Pinus elliotti 0.71 1.53 1.94 2.16 2.39 2.67 3.06 3.34 3.57 3.93 0.75 1.57 2.04 2.16 2.48 2.75 3.09 3.37 3.63 3.94 1.20 1.67 2.06 2.18 2.48 2.77 3.26 3.55 3.69 4.05 1.42 1.80 2.06 2.22 2.63 2.78 3.32 3.56 3.77 5.41 • Calcular las medidas de tendencia central y de dispersión: RESPUESTAS Medida Resina Kg Media 2.70 kg Mediana 2.64 kg Moda 2.45 kg Varianza 0.901 kg2 Desviación estándar 0.95 kg Coeficiente de variación 35.08% 2. 4 GRÁFICAS ESTADÍSTICAS Son herramientas que nos permiten representar resultados de manera más ilustrada y con mayor facilidad de interpretación que cuando se hace a través de datos numéricos de tablas o cuadros. Existen diferentes tipos de graficas que se ajustan a aplicaciones y objetivos diferentes sin embargo la mayoría poseen en común los siguientes elementos: • Titulo general o principal • Titulo de ejes • Contenido de la grafica – Escala – Variable • Referencias 2. 4 GRAFICAS ESTADISTICAS Principales tipos de gráficas: 2.4.1 PICTOGRAMAS Son gráficas sencillas que representan datos muy aproximados utilizando símbolos o figuras sencillas, sugerentes, relacionadas con la variable que se represente. Están diseñados para público con poca experiencia en la interpretación de gráficas. Figura 5. (Pictograma) Número de socios de la Cooperativa “ENCA Grande” durante los años 2005 al 2007. 2. 4 GRAFICAS ESTADISTICAS 2.4.2 GRAFICA DE LÍNEAS Este tipo de grafica se utiliza para representar tendencias en el tiempo o en el espacio de determinadas variables. Se recomienda no utilizar este tipo de graficas para representar mas de cinco variables por la confusión que podría provocar el cruce de líneas. Ejemplo de gráfica de líneas 2. 4 GRAFICAS ESTADISTICAS 2.4.3 GRAFICA DE SECTORES, CIRCULAR O DE PASTEL Es una gráfica sencilla que se utiliza cuando se desea representar una sola variable y se basa en la distribución del todo en diferentes segmentos de la circunferencia de acuerdo a la magnitud de los valores de las diferentes categorías de la variable. Se construye haciendo corresponder el 100% de la suma de los valores de la variable con 360o de circunferencia y distribuyendo esos 360o de acuerdo al porcentaje de valores que presenta cada categoría. 2. 4 GRAFICAS ESTADISTICAS Ejemplo: Se realiza un estudio sobre la procedencia de los estudiantes de la ENCA encontrándose que éstos provienen de 5 regiones del país clasificado de la siguiente manera: Procedencia Número de estudiantes Porcentaje Grados Norte 37 13.75 49.5 Sur 46 17.10 61.6 Oriente 40 14.86 53.5 Occidente 62 23.04 83 Centro 84 31.22 112.4 269 100 % 360o 2. 4 GRAFICAS ESTADISTICAS 2. 4 GRAFICAS ESTADISTICAS 2.4.4 GRAFICA DE BARRAS Es una de las más utilizadas, generalmente se usan para representar datos categorizados de variables cualitativas o cuantitativas, pudiendo representar una o más variables. Una variación de este tipo de gráfica lo constituye la gráfica de barras apiladas, en donde para cada categoría los resultados por variable se van colocando como segmentos de barra uno encima de otro. Ejemplo: Clase LA LAi - LAs LR LRi - LRs fi fa fr mi fimi mi2fi 1 10 – 19 9.5 – 19.5 5 5 0.0877 14.5 72.5 1051.25 2 20 – 29 19.5 - 29.5 19 24 0.3333 24.5 465.5 11404.75 3 30 – 39 29.5 – 39.5 10 34 0.1754 34.5 345 11902.5 4 40 – 49 39.5 – 49.5 13 47 0.2281 44.5 578.5 25743.25 5 50 – 59 49.5 – 59.5 4 51 0.0702 54.5 218 11881.0 6 60 – 69 59.5 – 69.5 4 55 0.0702 64.5 258 16641.0 7 70 - 79 69.5 – 79.5 2 57 0.0351 74.5 149 11100.5 2086.5 89724.25 57 2.3.3 GRAFICAS DE DISTRIBUCIÓN DE FRECUENCIAS 2.3.3.1 HISTOGRAMA Consiste en una gráfica de barras apareadas que ilustra la distribución de las frecuencias de las diferentes clases construidas y se diseña en función de los límites reales en el eje de las X y las frecuencias absolutas en el eje de las Y. Histograma de frecuencias para la variable rendimiento de papa en libras por parcela. 2.3.3 GRAFICAS DE DISTRIBUCIÓN DE FRECUENCIAS 2.3.3.2 POLÍGONO FRECUENCIAS DE Es otra gráfica que se utiliza para representar la distribución de las frecuencias de un conjunto de observaciones correspondientes a una variable en particular. Para construirla se toma como base en el eje de las X los puntos medios o marcas de clase y en el eje de las Y las frecuencias absolutas correspondientes. Polígono de frecuencia para la distribución de frecuencia de la variable rendimiento papa Tarea: Investigar la gráfica de frecuencias acumuladas u ojiva. 2.3.3 GRAFICAS DE DISTRIBUCIÓN DE FRECUENCIAS
0
You can add this document to your study collection(s)
Sign in Available only to authorized usersYou can add this document to your saved list
Sign in Available only to authorized users(For complaints, use another form )