INGENIERO JAIME DEVIA DIAZ CONCEPTOS ESTADÍSTICOS INTRODUCCIÓN ¿Qué es la estadística? Es una Ciencia que explica y provee de herramientas para trabajar con datos, ha experimentado un gran desarrollo a lo largo de los últimos años. ¿En qué áreas se aplica la estadística? Actualmente se aplica en todas las áreas del saber, por ejemplo en Sociología, Educación, Psicología, Administración, Economía, Medicina, Ciencias Políticas, Metrología, entre otras. Ejemplos de su aplicación son: 1) En Administración de Empresas: la estadística se utiliza para evaluar un producto antes de comercializarlo. 2) En Economía: para medir la evolución de los precios mediante números índice o para estudiar los hábitos de los consumidores a través de encuestas de presupuestos familiares. Etapas de un estudio estadístico Un análisis estadístico se lleva a cabo siguiendo las etapas habituales en el llamado método científico cuyas etapas son: 1) Planteamiento del problema: consiste en definir el objetivo de la investigación y precisar el universo o población. 2) Recogida de la información: consiste en recolectar los datos necesarios relacionados al problema de investigación. 3) Análisis descriptivo: consiste en resumir los datos disponibles para extraer la información relevante en el estudio. 4) Inferencia estadística: consiste en suponer un modelo para toda la población partiendo de los datos analizados para obtener conclusiones generales. 5) Diagnóstico: consiste en verificar la validez de los supuestos del modelo que nos han permitido interpretar los datos y llegar a conclusiones sobre la población ESTADISTICA SEGÚN LA REAL ACADEMIA DE LA LENGUA 1. Estudio de los datos cuantitativos de la población, de los recursos naturales e industriales, del tráfico o de cualquier otra manifestación de las sociedades humanas. 2. Conjunto de estos datos. 3. Rama de la matemática que utiliza grandes conjuntos de datos numéricos para obtener inferencias basadas en el cálculo de probabilidades. ¿Qué es la estadística? • “Medio para recolectar y representar grandes cantidades de información” • “Medio para tomar decisiones de frente a la incertidumbre” • Ciencia de recolectar, describir e interpretar datos Introducción Esquema de las etapas de un estudio estadístico AREA DE INTERES DATOS ORGANIZAR Y RESUMIR Tema de Investigación -Antecedentes Previos -Objetivos -Preguntas de Investigación -Posibles Hipótesis -Unidad de Análisis -Población -Variables ESTADÍSTICA DESCRIPTIVA (Tablas, Gráficos, Medidas Descriptivas, etc.) INTERPRETACIÓN Muestra ¿Población o Muestra? Población INFERENCIA ESTADÍSTICA CONCLUSIONES INFORMACIÓN Probabilidad Ejemplos de algunos problemas a estudiar 1) Se quiere estudiar si en cierto colectivo existe discriminación salarial debida al sexo de la persona empleada. 2) Se quiere determinar el perfil de los trabajadores en términos de condiciones económicas y sociales en diferentes comunidades. 3) Se quiere estudiar el consumo de las personas de una zona determinada en cuanto a vestuario, alimentación, ocio y vivienda. 4) Se quiere determinar las tallas estándar en vestuario para mujeres españolas. 5) Se quiere determinar el tiempo que dedican al trabajo y a la familia los trabajadores de distintas empresas del país. 6) Se quiere determinar el perfil sociodemográfico de los estudiantes de una Universidad. 7) Se quiere estudiar el gasto en teléfono móvil mensual de los estudiantes de una Universidad, y si éste tiene alguna relación con su edad u otras características. CONCEPTOS BÁSICOS • VARIABLE: es lo que se va a medir y representa una característica de la UNIDAD DE ANÁLISIS. • ¿QUIÉNES VAN A SER MEDIDOS?: Los sujetos u objetos o Unidades de Análisis de una Población o una Muestra • POBLACIÓN : Es el total de unidades de análisis que son tema de estudio. • MUESTRA: Es un conjunto de unidades de análisis provenientes de una población. CONCEPTOS • • • • • • • • Población Muestra Variable Dato Datos Experimento Parámetros Estadística Población • Es la colección o conjunto de individuos, objetos o eventos cuyas propiedades serán analizadas. • • • Ejemplo de población bien definida “Todos los estudiantes que han asistido alguna vez a una universidad mexicana” “El conjunto de trabajadores de la industria entre 20 y 40 años en el Estado de Querétaro” Muestra • Es un subconjunto de la población Una muestra consta de los individuos, objetos o medidas seleccionados de la población por el recolector de la muestra Variable • • Característica de interés sobre cada elemento individual de una población o muestra Ejemplo: La edad de un estudiante que ingresa a la universidad, el color de su cabello, su estatura y su peso Dato • Valor de la variable asociada a un elemento de una población o muestra. Este valor puede ser un número, una palabra o un símbolo • Ejemplo: José Hernández ingresó a la universidad a la edad de “23” años, su cabello es “café”, mide “1.80m” y pesa “83 kg”. Estas cuatro piezas de datos son los valores de las cuatro variables aplicadas a José Hernández. Datos • • Conjunto de valores recolectados para la variable de cada uno de los elementos que pertenecen a la muestra Ejemplo: El conjunto de 25 estaturas recolectadas de 25 estudiantes. Experimento • Actividad planeada cuyos resultados producen un conjunto de datos • El experimento incluye las actividades para seleccionar los elementos y obtener los valores de los datos Parámetro • • Valor numérico que resume todos los datos de una población completa. Es un valor que describe a toda la población. Ejemplo: La edad “promedio” en el momento de admisión de todos los estudiantes que han asistido alguna vez a una universidad o la “proporción” de estudiantes que tenían más de 21 años de edad cuando ingresaron a la universidad. Estadística • Valor numérico que resume los datos de la muestra. Es un valor que describe una muestra. Casi todas las estadísticas muestrales se determinan con ayuda de fórmulas y suele asignárseles denominaciones simbólicas. • Ejemplo: La estatura “promedio” encontrada al utilizar el conjunto de 25 estaturas es un ejemplo de una estadística muestral. La estadística descriptiva es la rama de la estadística que recolecta, analiza y caracteriza un conjunto de datos (peso de la población, beneficios diarios de una empresa, temperatura mensual,…) con el objetivo de describir las características y comportamientos de este conjunto mediante medidas de resumen, tablas o gráficos. Una variable estadística es el conjunto de valores que puede tomar cierta característica de la población sobre la que se realiza el estudio estadístico y sobre la que es posible su medición. Estas variables pueden ser: la edad, el peso, las notas de un examen, los ingresos mensuales, las horas de sueño de un paciente en una semana, el precio medio del alquiler en las viviendas de un barrio de una ciudad, etc. Medidas de posición central Las medidas de tendencia central (o de centralización) son medidas que tienden a localizar en qué punto se encuentra la parte central de un conjunto ordenado de datos de una variable cuantitativa. Media Definimos media (también llamada promedio o media aritmética) de un conjunto de datos (X1,X2,…,XN) al valor característico de una serie de datos resultado de la suma de todas las observaciones dividido por el número total de datos. ES DECIR: Visto desde un punto de vista más conceptual, la media aritmética es el centro de los datos en el sentido numérico, ya que intenta equilibrarlos por exceso y por defecto. Es decir, si sumamos todas las diferencias de los datos a la mediada cero. Mediana La mediana (Me(X)) es el elemento de un conjunto de datos ordenados (X1,X2,…,XN) que deja a izquierda y derecha la mitad de valores. Si el conjunto de datos no está ordenado, la mediana es el valor del conjunto tal que el 50% de los elementos son menores o iguales y el otro 50% mayores o iguales. Moda La moda (Mo(X)) es el valor más repetido del conjunto de datos, es decir, el valor cuya frecuencia relativa es mayor. En un conjunto puede haber más de una moda. Media geométrica La media geométrica (MG) de un conjunto de números estrictamente positivos (X1, X2,…,XN) es la raíz N-ésima del producto de los N elementos. Todos los elementos del conjunto tienen que ser mayores que cero. Si algún elemento fuese cero (Xi=0), entonces la MG sería 0 aunque todos los demás valores estuviesen alejados del cero. Media armónica La media armónica (H) de un conjunto de elementos no nulos (X1, X2,…,XN) es el recíproco de la suma de los recíprocos (donde 1/Xi es el recíproco de Xi)) multiplicado por el número de elementos del conjunto (N). Media cuadrática La media cuadrática o RMS (Root Mean Square) de un conjunto de valores (X1, X2,…,XN) es una medida de posición central. Esta se define como la raíz cuadrada del promedio de los elementos al cuadrado. Media ponderada La media ponderada (MP) es una medida de centralización. Consiste en otorgar a cada observación del conjunto de datos (X1,X2,…,XN) unos pesos (p1,p2,…,pN) según la importancia de cada elemento. Cuanto más grande sea el peso de un elemento, más importante se considera que es éste. Ejemplo: Se puede usar una media ponderada para calcular la nota final de un curso escolar, en donde se asigna distinta importancia (peso) a los distintos exámenes que se realicen. Por ejemplo, los dos primeros exámenes tienen un peso o valor de 30% y 20% respectivamente, y el último del 50%; las calificaciones respectivas son de 6.4, 9.2 y 8.1, entonces la nota final corresponde a la siguiente media ponderada: Relación entre medias Existe una relación de orden entre cuatro tipos de media. En esta relación se excluye la media ponderada porque depende de los pesos. Sean: •H la media armónica •MG la media geométrica •x la media aritmética •RMS la media cuadrática Entonces: En esta relación, solamente se cumple la igualdad cuando todos los datos sean iguales, es decir si: x1 = x2 = x3 = … = xN. Medidas de posición no central Las medidas de posición no central (o medidas de tendencia no central) permiten conocer puntos característicos de una serie de valores, que no necesariamente tienen que ser centrales. La intención de estas medidas es dividir el conjunto de observaciones en grupos con el mismo número de valores. Cuartiles Los cuartiles son los tres valores que dividen una serie de datos ordenada en cuatro porciones iguales. El primer cuartil (Q1) deja a la izquierda el 25% de los datos. El segundo (Q2) deja a izquierda y derecha el 50% y coincide con la mediana. El tercero (Q3) deja a la derecha el 25% de valores. Los tres cuartiles son: CONTINUA Percentiles El percentil es una medida de posición no central. Los percentiles Pi son los 99 puntos que dividen una serie de datos ordenada en 100 partes iguales, es decir, que contienen el mismo número de elementos cada una. El percentil 50 es la mediana. Sea (X1, X2,…,XN) una muestra de N elementos. El percentil Pi es: Donde Pi es la posición del percentil buscado en la serie ordenada de datos. Los percentiles están pensados para conjuntos de elementos de más de cien elementos. CONTINUA Un percentil es una de las llamadas medidas de posición no central (cuartiles, deciles, quintiles, percentiles, etc) que se puede describir como una forma de comparación de resultados, por ello es un concepto ampliamente utilizado en campos como la estadística o el análisis de datos. El percentil es un número de 0 a 100 que está muy relacionado con el porcentaje pero que no es el porcentaje en sí. Para un conjunto de datos, el percentil para un valor dado indica el porcentaje de datos que son igual o menores que dicho valor; en otras palabras, nos dice dónde se posiciona una muestra respecto al total. CONTINUA El concepto es más sencillo de entender con unos ejemplos: •Ejemplo 1: Tenemos un conjunto de datos consistente en la nota de cada uno de los alumnos de una clase. Si un alumno tiene un 9,5 y está en el P85 (percentil 85), significa que el 85% de los alumnos tiene un 9,5 o menos. •Ejemplo 2: Tenemos unas muestra con los sueldos de 10.000 trabajadores. ¿Cuál sería el percentil 60? El P60 sería aquel sueldo por debajo del cuál estaría el 60% de los trabajadores, es decir, si ordenamos los trabajadores desde el que cobra menos hasta el cobra más, el P60 sería el sueldo del trabajador número 6.000 (60% de 10.000). •Ejemplo 3: Si medimos el tiempo que tarda cada uno de los atletas de una competición en recorrer una cierta distancia. ¿Cuánto tiempo tardan en recorrer esta distancia el 45% de los corredores? La respuesta es el percentil 45. La idea es simple, encontrar un porcentaje a partir del cuál los valores son iguales o están por debajo. Cálculo de percentiles Para calcular los percentiles de un conjunto de datos, primero se han de ordenar los datos en orden ascendente. Una vez ordenados, un determinado percentil puede encontrarse restando 0,5 a la posición del dato en la secuencia, dividiendo por el número total de datos y multiplicando luego por 100. Fórmula general para calcular percentiles Siendo P el percentil, Xn la posición en la secuencia de la muestra X y N el número total de datos. CONTINUA CONTINUA Ejemplo: Tenemos 47 datos, el valor mínimo que encontramos entre todos los datos es 51 y el máximo es 99. Ordenamos los datos desde el que tiene valor 51 hasta el que tiene valor 99. Si queremos saber el percentil al que pertenece el valor 63, miramos el dato cuyo valor es 63, supongamos que su posición en la secuencia es 12. Para calcular su percentil, restamos 12 menos 0,5, el resultado (11,5) lo dividimos entre 47 (el total de datos); nos da 0,2446; multiplicamos por 100 y obtenemos 24,46: Este resultado indica que el valor 63 se encuentra en el percentil 24,46, o lo que es lo mismo, que el 24,46% de los datos tiene un valor de 63 o menos, o que el P24,46 es 63. Este tipo de cálculos tiene numerosas aplicaciones en cualquier cálculo estadístico como datos de empleo o el análisis de muestras. Por ejemplo, imagina que se está midiendo la concentración de un determinado contaminante en el aire cuya concentración máxima segura es de 3 ppm. Para ello se toman muchas muestras de aire y se va midiendo la concentración de este contaminante. Imagina que los resultados concluyen que el 35% de las muestras presentan una concentración de contaminante de 3 ppm o menos. Es decir, el percentil 35 tiene concentraciones seguras y el percentil 65 tiene una concentración superior a la segura. Este dato podría ser suficiente para recomendar a las autoridades competentes que tomen medidas para su reducción. Medidas de dispersión Las medidas de dispersión o medidas de variabilidad muestran la variabilidad de un conjunto de datos, indicando la mayor o menor concentración de datos respecto a las medias de centralización. Rango El rango (R) o recorrido estadístico es la diferencia entre el valor máximo y el mínimo de un conjunto de elementos. Varianza La varianza (S2) mide la dispersión de los datos de una muestra respecto a la media, calculando la media de los cuadrados de las distancias de todos los datos. Al elevar las diferencias al cuadrado se garantiza que las diferencias absolutas respecto a la media no se anulan entre si. Además, resaltan los valores alejados. Cómo calcular la varianza La varianza es una medida de qué tan disperso es un conjunto de datos. Si la varianza es pequeña, significa que los valores del conjunto están bastante agrupados. Si la varianza es grande, significa que los números están más dispersos. En estadística, este concepto tiene muchos usos. Por ejemplo, si comparas las varianzas de dos conjuntos de datos (por ejemplo, resultados de pacientes femeninos contra resultados de pacientes masculinos) puedes comprobar si una variable produce un efecto perceptible. La varianza también es muy útil para crear modelos estadísticos, ya que una varianza pequeña puede ser un indicio de que estás ajustando demasiado los datos. Método •1-Toma nota de la muestra del conjunto de datos. En la mayoría de los casos, los estadísticos solo tienen acceso a una muestra o a un subconjunto de la población que van a analizar. Por ejemplo, en vez de analizar la población "costo de todos los autos de Alemania", un estadístico averiguaría el costo de una muestra aleatoria de unos pocos miles de autos. De este modo podría basarse en esa muestra para obtener una estimación aproximada del costo de los autos en Alemania, aunque es posible que no coincida con el valor exacto. Ejemplo: analizando la cantidad de ponquecitos que se venden todos los días en una cafetería, tomas una muestra de seis días aleatorios y obtienes los siguientes resultados: 17, 15, 23, 7, 9, 13. Esta es una muestra, no la población, ya que no tienes los datos de todos y cada uno de los días en los cuales ha estado abierta la cafetería. • OJO Si tenemos todos los puntos de datos de una población, se usa el próximo método (método 2). 1 2 Anota la fórmula de la varianza de una muestra. La varianza de un conjunto de datos te indica qué tan dispersos están los puntos de datos. Mientras más cerca de cero esté la varianza, más cercanos estarán entre sí los puntos de datos. Cuando vayas a trabajar con muestras de conjuntos de datos, utiliza la siguiente fórmula para calcular la varianza 2 3 4 5 6 7 8 Desviación típica La desviación típica es la medida de dispersión (S) asociada a la media. Mide el promedio de las desviaciones de los datos respecto a la media en las mismas unidades de los datos. El cuadrado de la desviación típica es la varianza. Coeficiente de variación de Pearson El coeficiente de variación de Pearson (r) mide la variación de los datos respecto a la media, sin tener en cuenta las unidades en la que están. El coeficiente de variación toma valores entre 0 y 1. Si el coeficiente es próximo al 0, significa que existe poca variabilidad en los datos y es una muestra muy compacta. En cambio, si tienden a 1 es una muestra muy dispersa. Para interpretar fácilmente el coeficiente, podemos multiplicarlo por cien para tenerlo en tanto por cien. EJERCICIO Con los valores del ejemplo de varianza, determina el coeficiente de variación de Pearson (r) e interpretalo Cómo calcular la variación porcentual En matemáticas, el concepto de la variación porcentual se utiliza para describir la relación entre un valor pasado y uno presente. De manera específica, la variación porcentual representa la diferencia entre un valor pasado y uno presente en términos de un porcentaje del valor pasado. Generalmente se puede calcular la variación porcentual con la fórmula ((V2-V1)/V1) × 100 en la que V1 representa el valor pasado o inicial y V2 representa el valor presente o final. Ten en cuenta que el resultado se expresa como un porcentaje. EJERCICIO 1- Encuentra los valores pasados y presentes de una variable. Como se mencionó anteriormente, la meta de la variación porcentual es determinar el cambio de una variable a lo largo del tiempo. Por lo tanto, si quieres calcular la variación porcentual de una variable, tendrás que conseguir dos valores: el valor pasado (o "inicial") y el valor presente (o "final"). Con la fórmula de la variación porcentual podrás calcular el cambio entre estos dos puntos, expresado como un porcentaje. Puedes encontrar ejemplos de una variable que cambia en el tiempo en las ventas minoristas. Cuando un vendedor le reduce el precio a un producto, generalmente se dice que le da un "descuento de un porcentaje determinado". En otras palabras, el precio del producto tiene una variación porcentual con relación al precio pasado. Imagina que encontraste unos pantalones que tenían un precio de $ 50, pero que ahora cuestan $ 30. Para este ejemplo, $ 50 es el valor "pasado" y $ 30 es el valor "presente". En los pasos siguientes encontrarás la variación porcentual entre estos precios. 2 Resta el valor pasado del valor presente. El primer paso para calcular la variación porcentual es encontrar la diferencia entre el valor pasado y el presente. Para encontrar la diferencia tienes que restar uno de los valores del otro. El motivo por el que tienes que restar el valor pasado del valor presente (y no al revés) es porque el resultado final de la fórmula será negativo en el caso de que el valor de la variable disminuya o positivo si ocurre lo contrario. 2 3 Divide el resultado entre el valor pasado. Toma el resultado que conseguiste al restar el valor pasado del valor presente y divídelo en el valor pasado. Esto te dará un número decimal que expresa la relación proporcional del cambio de valores con relación al valor pasado. En otras palabras, el resultado será un número que representa el cambio total que tuvo la variable en función del valor pasado. 3 4 Multiplica el resultado por 100 para calcular un porcentaje. El resultado de la variación porcentual se expresa apropiadamente como un porcentaje, en vez de un número decimal. Para convertir un número decimal en un porcentaje, multiplícalo por 100. Por último, todo lo que tienes que hacer es añadir el símbolo del porcentaje. ¡Felicitaciones! El resultado final representa la variación porcentual entre el valor pasado y el presente. 4 IMPORTANTE Cuando trabajes con variables que cambien más de una vez, calcula la variación porcentual únicamente para los dos valores que quieres comparar. Encontrar la variación porcentual de una variable que cambia más de una vez en el tiempo puede parecer una tarea intimidante, pero no dejes que los cambios múltiples te hagan complicar las cosas. En la fórmula de la variación porcentual solo puedes comparar dos valores al mismo tiempo. Esto quiere decir que si tienes que encontrar la variación porcentual de una variable que cambia varias veces, puedes usar únicamente dos valores específicos para calcular el resultado. No calcules las variaciones porcentuales de todos los cambios de la variable para luego promediarlas o sumarlas. Esto no es lo mismo que determinar la variación porcentual entre dos valores y puedes llegar fácilmente a una respuesta sin sentido. Asimetría y curtosis La asimetría y curtosis informan sobre la forma de la distribución de una variable. Estas medidas permiten saber las características de su asimetría y homgeneidad sin necesidad de representarlos gráficamente. Asimetría La asimetría es la medida que indica la simetría de la distribución de una variable respecto a la media aritmética, sin necesidad de hacer la representación gráfica. Los coeficientes de asimetría indican si hay el mismo número de elementos a izquierda y derecha de la media. Existen tres tipos de curva de distribución según su asimetría: •Asimetría negativa: la cola de la distribución se alarga para valores inferiores a la media. •Simétrica: hay el mismo número de elementos a izquierda y derecha de la media. En este caso, coinciden la media, la mediana y la moda. La distribución se adapta a la forma de la campana de Gauss, o distribución normal. •Asimetría positiva: la cola de la distribución se alarga para valores superiores a la media. Curtosis La curtosis (o apuntamiento) es una medida de forma que mide cuán escarpada o achatada está una curva o distribución. Este coeficiente indica la cantidad de datos que hay cercanos a la media, de manera que a mayor grado de curtosis, más escarpada (o apuntada) será la forma de la curva. La curtosis se mide promediando la cuarta potencia de la diferencia entre cada elemento del conjunto y la media, dividido entre la desviación típica elevado también a la cuarta potencia. Sea el conjunto X=(x1, x2,…, xN), entonces el coeficiente de curtosis será: EJERCICIO CON LOS DATOS DEL EJERCICIO DE VARIANZA DETERMINA LA CURTOSIS DE DICHO EJEMPLO Frecuencias La frecuencia es una medida que sirve para comparar la aparición de un elemento Xi en un conjunto de elementos (X1, X2,…, XN). Mediante tablas de distribuciones de frecuencia se puede presentar organizadamente el recuento de datos. Las frecuencias de cada elemento se pueden expresar tanto absolutas (número total de apariciones) como relativas (proporción de apariciones). Frecuencia absoluta La frecuencia absoluta (ni) de un valor Xi es el número de veces que el valor está en el conjunto (X1, X2,…, XN). La suma de las frecuencias absolutas de todos los elementos diferentes del conjunto debe ser el número total de sujetos N. Si el conjunto tiene k números (o categorías) diferentes, entonces: Frecuencia absoluta acumulada La frecuencia absoluta acumulada(Ni) de un valor Xi del conjunto (X1, X2,…, XN) es la suma de las frecuencias absolutas de los valores menores o iguales a Xi, es decir: Frecuencia relativa La frecuencia relativa (fi) de un valor Xi es la proporción de valores iguales a Xi en el conjunto de datos (X1, X2,…, XN). Es decir, la frecuencia relativa es la frecuencia absoluta dividida por el número total de elementos N: Las frecuencias relativas son valores entre 0 y 1, 0 ≤ fi ≤ 1. La suma de las frecuencias relativas de todos los sujetos da 1. Supongamos que en el conjunto tenemos k números (o categorías) diferentes, entonces: Si se multiplica la frecuencia relativa por cien se obtiene el porcentaje (tanto por cien %). Frecuencia relativa acumulada Definimos la frecuencia relativa acumulada (Fi) de un valor Xi como la proporción de valores iguales o menores a Xien el conjunto de datos (X1, X2,…, XN). Es decir, la frecuencia relativa acumulada es la frecuencia absoluta acumulada dividida por el número total de sujetos N: La frecuencia relativa acumulada de cada valor siempre es mayor que la frecuencia relativa. De hecho, la frecuencia relativa acumulada de un elemento es la suma de las frecuencias relativas de los elementos menores o iguales a él, es decir: •Valor de chi-cuadrado El valor de chi-cuadrado es un valor en la distribución chicuadrado. Una prueba estadística genera un valor de chicuadrado. El valor especifica la probabilidad de obtener el valor de chi-cuadrado de casualidad. Si la probabilidad es menor que el nivel de significación, la prueba se considera que es estadísticamente significativa. •Desviación de la distribución normal La desviación de la distribución normal es una medida de tamaño del efecto para la prueba de K-cuadrado de D’Agostino de normalidad. Mide hasta qué punto una distribución de campo no coincide con la distribución normal teórica. •Desviación de la distribución general La desviación de la distribución general es una medida de tamaño del efecto para la prueba de distribución. Mide hasta qué punto una distribución condicional no coincide con la distribución marginal del campo objetivo. •Frecuencia La frecuencia es otra palabra para recuento. Mide el número total de registros o el número de registros de un grupo específico. En otras palabras, la frecuencia mide cada cuándo tiempo se produce un valor. •Distribución normal La distribución normal es una distribución teórica de valores. A menudo, se denomina la curva de campana porque la representación visual de esta distribución se asemeja a la forma de una campana. Es teórica porque su distribución de frecuencia se deriva de una fórmula, en lugar de la observación de datos reales. •Distribución general La distribución general es la distribución de registros en el campo objetivo antes de cualquier agrupación con el campo o campos de entrada. •Nivel de significación El nivel de significación es el corte para juzgar un resultado como estadísticamente significativo. Si el valor de significación es menor que el nivel de significación, el resultado se juzga estadísticamente significativo. El nivel de significación también se conoce como el nivel alfa. •Valor de significación El valor de significación, o valor p, es la probabilidad de que se produzca un resultado por casualidad. El valor de significación se compara con un corte predeterminado (el nivel de significación) para determinar si una prueba es estadísticamente significativa. Si el valor de significación es menor que el nivel de significación (de forma predeterminada, 0,05), la prueba se considera estadísticamente significativa. ¿Cómo se plantea un contraste estadístico? Hipótesis nula vs. hipótesis alternativa Un contraste de hipótesis estadístico se plantea como una decisión entre dos hipótesis. La hipótesis nula consiste en una afirmación acerca de la población de origen de la muestra. Usualmente, es más simple (menor número de parámetros, por ejemplo) que su antagonista. Se designa a la hipótesis nula con el símbolo H0. La hipótesis alternativa es igualmente una afirmación acerca de la población de origen. Muchas veces, aunque no siempre, consiste simplemente en negar la afirmación de H0. La hipótesis alternativa se designa con el símbolo H1. TABULACIÓN CRUZADA La tabulación cruzada es el proceso de creación de una tabla de contingencia desde la distribución de frecuencias multivariada de las variables estadísticas. Muy utilizada en la investigación de encuestas, la tabulación cruzada (o tabla cruzada, de forma abreviada) se suelen producir por una serie de paquetes estadísticos, entre ellos algunos que se especializan en la tarea. Frecuentemente se suelen incorporar ponderaciones de encuesta. DISTRIBUCIÓN CHI CUADRADO Es una distribución probabilística continua que se apoya en un parámetro que representa los grados de libertad La utilidad de este tipo de distribución es que permite determinar la relación entre dos variables Es decir si existe o no dependencia estadística entre ellas Veamos un ejemplo: EJEMPLO: La siguiente tabla muestra los resultados de la cantidad de estudiantes; según la calificación obtenida en matemáticas de dos universidades Hipótesis general: Influye el tipo de universidad en la calificación obtenida? Hipótesis Nula:No Influye el tipo de universidad en la calificación obtenida Hipótesis alternativa: SI Influye el tipo de universidad en la calificación obtenida Entonces planteamos las dos hipótesis, y determinamos la frecuencia teórica, al igual que los grados de libertad, Aplicamos estos resultados para calcular chi cuadrado= X² Margen de error=0,05 Ft(5)= 25x23/78=7,37 Ft(11)= 43x23/78=12,68 Ft(7)= 10x55/78=2,95 Ft(20)= 25x55/78=17,63 Ft(32)=43x55/78=30,32 Ft(3)= 10x55/78=7,05 Grado de libertad: V=(Nofilas-1)x(Nocolumnas-1) V= (2-1).(3-1) =1x2=2 X²=∑(f-ft) ²/ft=(5-7,37) ²/7,37+(11-12,68) ²/12,68+(7-2,95) ²/2,95+(20-17,63) ²/17,63+(3230,32) ²/30,32+(3-7,05) ²/7,05=9,28 Ahora usamos la tabla de chi cuadrado con el valor de chi cuadrado calculado que ya conocemos X² calculado= 9,28 X² calculado > X² tabla X² tabla= 5,9915 Ho X² calculado < X² tabla 9,28 >5,9915 entonces en este caso el tipo de universidad SI influye H1 EJERCICIO TABLA DE CHI CUADRADO MUCHAS GRACIAS INGENIERO JAIME DEVIA DIAZ CONCEPTOS ESTADÍSTICOS Ejercicio 1 • Un fabricante de medicamentos está interesado en la proporción de personas que padecen hipertensión (presión arterial elevada) cuya condición pueda ser controlada por un nuevo producto desarrollado por la empresa. Se condujo un estudio en el que participaron 5000 personas que padecen de hipertensión, y se encontró que 80% de las personas pueden controlar su hipertensión con el medicamento. Suponiendo que las cinco mil personas son representativas del grupo con hipertensión, conteste las siguientes preguntas: a) ¿Cuál es la población? b) ¿Cuál es la muestra? c) Identifique el parámetro de interés d) Identifique la estadística y proporcione su valor e) ¿Se conoce el valor del parámetro? Ejercicio 2 • Un técnico de control de calidad selecciona piezas ensambladas de una línea de montaje y registra la siguiente información sobre cada pieza: – A: defectuosa o no defectuosa – B: el número de identificación del trabajador que ensambló la pieza. – C: el peso de la pieza. a) b) c) d) ¿cuál es la población? La población ¿es finita o infinita? ¿cuál es la muestra? Clasifique las respuestas para cada una de las tres variables como datos de atributo o cuantitativos. Ejercicio 3 • Identifique las siguientes expresiones como ejemplos de variables de atributos (cualitativas) o variables numéricas (cuantitativas) a) b) c) d) e) f) La resistencia a la rotura de un tipo de cuerda dado El color de cabello de los niños que se presentan a una audición para la revista musical Annie El número de señales de alto que hay en poblaciones con menos de quinientos habitantes Si un grifo es o no defectuoso El número de reactivos contestados correctamente en una prueba estandarizada El tiempo necesario para contestar una llamada telefónica en cierta oficina de bienes raíces. Recolección de Datos • Definir los objetivos de la investigación o del experimento. – Ejemplos: comparar la eficacia de un nuevo medicamento con la eficacia del medicamento normal; estimar el ingreso familiar medio en algún municipio. • Definir la variable y la población de interés. – Ejemplos: duración del tiempo de recuperación de los pacientes que sufren alguna enfermedad particular; ingreso total de los hogares en algún municipio. • Definir los esquemas para recolectar y medir los datos. – Esto incluye los procedimientos de muestreo, el tamaño de la muestra y el instrumento de medición (cuestionario, por teléfono, etc.) de los datos. • Determinar las técnicas idóneas para realizar el análisis de datos: descriptivas o inferenciales. La presentación de resultados inicia a partir de lo establecido en el diseño conceptual y es hasta que se obtiene la información en la etapa de procesamiento que se determinan los medios y las formas para presentarla o publicarla, particularmente, la elaboración de cuadros y gráficas es una herramienta para la presentación de la información. Componentes de un cuadro Un cuadro estadístico, también denominado tabulado o tabulación, es una presentación ordenada de un conjunto de datos cuantitativos, ya sea en una sola columna o en un solo renglón o, también, en columnas o renglones cruzados. El cuadro incluye tanto los valores numéricos como las descripciones conceptuales a las que se refieren estos; además, incorpora indicaciones particulares sobre el origen de los datos, así como aclaraciones específicas que son de utilidad para el usuario interesado en conocer aspectos de naturaleza conceptual, técnica o metodológica. Los cuadros pueden requerir indicaciones sobre su fragmentación o presentación en distintas páginas, o sobre su identificación numérica, cuando se trata de un conjunto de cuadros. Un cuadro incluye seis componentes A) Título Describe el contenido del cuadro, con base en la indicación de cuatro aspectos: • Enunciado. Expresa el nombre de las categorías, indicadores o variables. • Cobertura geográfica. Indica el espacio territorial al que se refiere el conjunto de datos estadísticos. • Referencia temporal. Indica la fecha o periodo al que se refieren los datos estadísticos. • Unidad de medida. Indica la referencia de una magnitud constante adoptada. B) Columna matriz Enuncia las categorías, variables, clasificaciones o indicadores a los que se refieren los datos, según su agrupamiento en renglones. La columna matriz consta de dos apartados: B1 Encabezado de la columna matriz. Enuncia las categorías, variables o indicadores que aparecen en los descriptores de renglón. B2 Descriptores de renglón. Enuncian los conceptos a los que se refieren los datos de cada renglón. C) Encabezado en columnas de la matriz de cifras En esta parte se enuncian las categorías, variables, clasificaciones o indicadores de los descriptores de columna; éstos son los conceptos a que se refieren los datos de cada columna D) Matriz de cifras Es el espacio destinado a la incorporación de los valores cuantitativos de los datos, o los símbolos que explican la ausencia de éstos. E) Pie de cuadro Son las precisiones conceptuales, técnicas o metodológicas que facilitan la comprensión de los datos presentados: E1 Nota. Información general sobre definiciones o referencias técnicas o metodológicas de los datos estadísticos presentados en cada cuadro. E2 Llamadas. Información específica aplicable a determinada parte o elemento del cuadro. E3 Símbolos aclaratorios. Son todos los signos convencionales que se indican mediante una letra o una abreviatura en el contexto del cuadro estadístico. E4 Fuentes. Indica la procedencia de la información contenida en el cuadro estadístico. F) Indicaciones de orden Expresan el número de cuadro y la secuencia de las partes cuando éste se fracciona. Permite ver la secuencia de la información presentada y la relación que se pudiera dar entre ella. En los casos de preparación y presentación de cuadros para internet o en disco compacto, pudiera no necesitar el elemento de secuencia, debido a que existe la posibilidad de integrar toda la información completa (por ejemplo, en una página de Excel, la sábana íntegra con toda la información de un cuadro). 1. Consideraciones De carácter general • Es necesario cuidar la claridad de los enunciados que describen el contenido del cuadro. En ese sentido, las recomendaciones generales son: • Utilizar un lenguaje preciso y claro en todos los enunciados que describen los títulos, descriptores de columna y renglón, notas, llamadas y fuentes. • Escribir los textos con mayúsculas y minúsculas en los diversos componentes del cuadro (título, encabezado de columna matriz, descriptores de renglón y encabezado de matriz de cifras). El uso de mayúsculas en estos elementos estará reservada a la inicial del enunciado y a los nombres propios. En los casos de las palabras Nota, Fuente, Cuadro y Continúa, solamente la letra inicial irá con mayúscula. • Vigilar el número y diversidad de categorías, indicadores y variables por incorporar al diseñar un cuadro, evitando en lo posible una excesiva heterogeneidad en la combinación de conceptos. Se recomienda, además, que en un cuadro no se cruce la información de más de tres variables. Debe considerarse, también, la extensión de las clasificaciones que contenga cada una de las variables. • En cuadros impresos, ordenar y distribuir los conceptos en las columnas y renglones de tal manera que se facilite la identificación de conceptos específicos y la localización de los datos correspondientes, destinando los renglones para los desgloses más amplios y las descripciones más largas, y las columnas para desgloses y enunciados más cortos, evitando en lo posible grandes crecimientos en sentido vertical y horizontal. En el caso de cuadros en medios informáticos (como las hojas de Excel) se tiene la libertad de extenderse e integrar el cuadro completo. Incluir, como mínimo, los siguientes cinco componentes del cuadro estadístico, descritos en los componentes de un cuadro: • Título. • Columna matriz. • Encabezado de la matriz de cifras. • Matriz de cifras • Fuente •Evitar el uso de abreviaturas. • Las siglas y acrónimos deben ir en mayúsculas y sin puntos intermedios. • En clasificaciones cuantitativas, usar números y no letras. • Los límites del intervalo en las clasificaciones cuantitativas deben unirse con la preposición “a”. •El enunciado de entidades federativas, municipios y localidades debe ser con las denominaciones oficiales. Cuando se haga referencia al país, debe citarse como Estados Unidos Mexicanos. COMPONENTES DE UNA GRAFICA • Una presentación gráfica de información estadística se compone de tres partes principales: título, cuerpo o ilustración gráfica y pie de gráfica. Sin embargo, en los casos en que en el documento o sección que se trabaje contenga más de una gráfica, se recomienda utilizar un cuarto componente denominado número de gráfica. EXAMEN GRACIAS A TODOS PONENTE: INGENIERO JAIME DEVIA DIAZ