Final de estadística aplicada a la psicologia ESTADÍSTICA − Es una manera de pensar y de tratar cierta problemática que la realidad plantea de una manera más elaborada, consciente y exacta, que lo que hace el pensamiento ingenuo dando criterios de decisión para evaluar los hechos cuando prevalecen condiciones de indeterminación. Su problema central es el intento de explicar la tendencia de los resultados a variar aun cuando las observaciones, desde el punto de vista del observador, parecen hacerse en condiciones idénticas. Es una herramienta de la epidemiología y nos brinda herramientas para enfrentarnos a la incertidumbre. Se utiliza para estudiar aquellos fenómenos en los que tenemos gran cantidad de observaciones y cuya aparición se rige por leyes del azar o aleatorias. La aplicación de la estadística tiene lugar porque los fenómenos de algunas ciencias no se dan siempre iguales entre sí exactamente, sino que presentan variaciones. Refiere a los métodos científicos por medio de los cuales podemos recolectar, organizar, resumir, presentar y analizar datos numéricos relativos a un conjunto de individuos u observaciones y que nos permiten extraer conclusiones válidas y efectuar decisiones lógicas, basadas en dichos análisis. El método es el modo, manera o forma de realizar algo de forma sistemática, organizada y/o estructurada. Permite satisfacer el objetivo de resumir y transmitir de un modo comprensible la información procedente de datos empíricos (estadística descriptiva) así como, cuando sea oportuno, generalizar a partir de la información recogida de un conjunto reducido de sujetos a una población más amplia a la que éstos representen (estadística inferencial). Tiene dos funciones: − − − − − − ESTADÍSTICA DESCRIPTIVA: si estudiamos una característica de un grupo, sea en una población o en una muestra y lo describimos sin sacar de ello conclusiones estamos en la etapa de la estadística descriptiva. Se encarga de recolectar, organizar, analizar e interpretar datos para sacar conclusiones. ESTADÍSTICA INFERENCIAL: si estudiamos en una muestra una característica cualquiera e inferimos, a partir de los resultados obtenidos en la muestra, conclusiones sobre la población correspondiente, estamos haciendo estadística inductiva o inferencial y como estas inferencias no pueden ser exactamente ciertas, aplicamos el lenguaje probabilístico para sacar las conclusiones. Sirve para realizar generalizaciones, predicciones y estimaciones. Tiene dos objetivos fundamentales que son la estimación de parámetros y la prueba de hipótesis. ETAPAS DE UN PROCESO ESTADÍSTICO 1. 2. 3. 4. 5. 6. Planteamiento del problema: ¿qué quiero estudiar y por qué? Selección de una muestra. Definición teórica y operativa de las variables. Recolección y ordenamiento de los datos: selección de instrumentos – codificación y matriz de datos. Organización y presentación de los datos: tablas – gráficos. Análisis e interpretación de los datos: medidas estadísticas. Informe con las conclusiones. POBLACIÓN Y MUESTRA Cuando queremos estudiar una característica de un grupo, este grupo en total, es nuestra población. Es el conjunto total de sujetos o elementos que presentan características comunes. Generalmente, si la población (que puede ser finita o infinita) es muy grande, no se puede estudiar a todos los individuos y se toma un subgrupo que se llama muestra. Es un subconjunto representativo de la población que debe contener todas las características de la población o universo, para que los resultados sean generalizables. Los parámetros son las medidas de la población y los estadísticos las medidas de la muestra. DATO Un dato se expresa en una proposición y presupone toda una serie de operaciones que se llevan a cabo en forma simultánea dentro de un sistema conformado por múltiples dimensiones. No nos es simplemente “dado” de manera inmediata y es inmediatamente racional, es decir, no se ve más que lo que ya se está dispuesto a ver. El dato conlleva toda una serie de elecciones teórico-metodológicas. Un dato se representa a través de una tabla o gráfico. Es el valor que toma una variable en una unidad de análisis. Todo dato tiene una estructura denominada tripartita porque está constituida por tres elementos y las relaciones que mantienen entre sí: unidad de análisis, valor y variable. 1. 2. 3. UNIDAD DE ANÁLISIS: es cada uno de los elementos sobre los que se desea recoger información en un determinado estudio, son los sujetos u objetos de estudio. VALOR: es la cantidad de valores que puede asumir una característica o propiedad. Es parte de una variable, no existen sino por las relaciones que guarda con los otros valores que componen esta variable. A su vez, una variable no es otra cosa que el conjunto de los valores que la conforman y de las relaciones que éstos mantienen entre sí. VARIABLE: son las características o propiedades que pueden asumir distintos valores en cada una de las unidades de análisis. Las variables desde el punto de vista estadístico pueden dividirse en cualitativas y cuantitativas (discretas y continuas). Cuando una variable tiene dos categorías mutuamente excluyentes, se llama variable dicotómica. 1 VARIABLES CUALITATIVAS VARIABLES CUANTITATIVAS El rasgo específico que caracteriza estas variables es que pueden ser divididas en clases separadas y mutuamente exclusivas. Son esencialmente variables para la clasificación de las entidades, toman cualidades como valores. Algunas veces tienen una pauta de orden, por ejemplo, las notas de los exámenes. - DISCRETRAS son variables en donde las entidades se cuentan. Existe una separación total entre un valor y otro (no se puede tener un hijo y medio, por ejemplo) pero siempre están ordenados y podemos contar sus elementos. Entre un valor y otro de la variable no hay valores intermedios. - CONTINUAS son aquellas variables que se pueden medir y pueden tener cualquier valor en un ámbito finito de valores continuos. Entre un valor y otro de la variable existen valores intermedios. Sexo, religión, partido político, raza, ocupación, estado civil, etc. El número de hijos de una familia, años de educación completados, el ingreso anual de una familia, los goles de un equipo, etc. Edad, talla, peso, tiempo que una persona ha vivido en una ciudad, la temperatura, altura de una montaña, etc. MATRIZ DE DATOS Es un cuadro de doble entrada donde se visualizan claramente la estructura tripartita del dato. Nos permite hacer una lectura horizontal donde podemos analizar todas las variables en una unidad de análisis en particular y una lectura vertical donde se puede analizar una variable en particular en todas las unidades de análisis. CONSTRUCTO, PROCESO DE OPERATIVIZACIÓN, INSTRUMENTACIÓN Y DIMENSIÓN DE LA VARIABLE Partimos siempre de un concepto abstracto, llamado constructo. Bunge lo define como un concepto no observacional en contraposición con los conceptos observacionales o empíricos, ya que los constructos son no empíricos, es decir, no se pueden demostrar. Estos conceptos no son directamente manipulables, igual que lo es algo físico, pero sí son inferibles a través de la conducta. Un constructo es un fenómeno no tangible que a través de un determinado proceso de categorización se convierte en una variable que puede ser medida y estudiada. En Psicología son constructos por ejemplo la inteligencia, la personalidad, la motivación y la creatividad. Por lo tanto, debemos realizar un proceso que es la operativización de la variable, con la finalidad de convertir un concepto abstracto en uno empírico, susceptible de ser medido a través de la aplicación de un instrumento. Otro concepto importante a tener en cuenta es la dimensión de la variable, que responde a la pregunta ¿en qué sentido la tomamos? Por ejemplo, la variable fiebre la puedo tomar desde la dimensión si tiene o no fiebre o desde la dimensión de la temperatura, menos de 37 grados o más de 37 grados. Cuando el concepto tiene varias dimensiones o clasificaciones o categorías, éstas deben especificarse en el estudio. Una vez que operacionalizamos las variables tenemos que pensar con qué instrumento las medimos. El manejo de estos instrumentos de medición requiere de una fundamentación teórica, de un conocimiento técnico de los instrumentos y de un manejo ético de los mismos. La necesidad de medir es evidente en la mayoría de las actividades técnicas o científicas. Sin embargo, no solo importa contar con medidas sino también saber si dichas medidas son válidas. Los instrumentos de medición nos permiten recolectar información válida y confiable. Deben tener dos condiciones prioritarias: 1. 2. VALIDEZ: se refiere al grado en que un instrumento mide la variable que pretende medir. Una regla mide la distancia entre dos puntos lineales, pero no es válida para medir la extensión de una línea en círculo. CONFIABILIDAD: se refiere al grado de precisión o exactitud de la medida, en el sentido de que si aplicamos repetidamente el instrumento al mismo sujeto u objeto produzca iguales resultados. MEDICIÓN Hay dos definiciones a tener en cuenta: “Asignar números, símbolos o valores a las propiedades de los objetos de acuerdo a ciertas reglas” (Stevens, 1951) Y otra más actual que la define como: “El proceso de vincular conceptos abstracto con indicadores empíricos (Carmines, 1991). Cuando a partir de la observación de un sistema predicamos una propiedad, podemos decir que estamos realizando una medición. Los sistemas no son jamás medidos en sí mismos, sino que lo que medimos son siempre propiedades de los sistemas. Un dato es el producto de un procedimiento de medición y medir supone predicar una propiedad. La medición de una propiedad implica por lo tanto una relación de isomorfismo que significa una equivalencia de formas, es decir una relación uno a uno, entre la estructura lógica del sistema numérico y la estructura de la naturaleza que se manifiesta en las propiedades que se miden. Los niveles superiores presentan, además de las propiedades que les son propias, todas las características que pertenecen a los niveles inferiores. Es como si en la medición hubiera grados de perfección de acuerdo con la exactitud con que las variables a medir cumplen con las propiedades lógicas de los números. ¿Qué determina el nivel de medición? El grado de operatividad de la variable a partir de las propiedades aritméticas que admite. El problema de la medición posiblemente es más controversial en psicología que en otros dominios del conocimiento debido a la complejidad del comportamiento humano y las limitaciones de los instrumentos utilizados. El objeto de estudio de la psicología es complejo, subjetivo y multivariado. El psicólogo que investiga, analiza, evalúa, diagnostica está midiendo, aunque no se lo imagine o lo niegue. La medición en psicología constituye una herramienta que le permite al psicólogo cuantificar características humanas y objetivizar procesos de evaluación. NIVELES O ESCALA DE MEDICIÓN Es el conjunto de los posibles valores que una cierta variable puede tomar. El nivel en que una variable puede ser medida determina las propiedades de medición de una variable, el tipo de operaciones matemáticas que puede usarse apropiadamente con dicho nivel, las fórmulas y procedimientos estadísticos que se utilizan para el análisis de datos y la prueba de hipótesis teóricas. Al hablar de niveles de medición, se está aludiendo ya a la 2 existencia de una jerarquía entre los modelos matemáticos aplicables a los objetos. Es importante indicar el nivel de medición de todas las variables, porque dependiendo de dicho nivel se selecciona uno u otro tipo de análisis estadístico. Las escalas o niveles de medición se utilizan para medir variables o atributos. Por lo general, se distinguen cuatro escalas o niveles de medición: nominal, ordinal, intervalos y escalas de proporción, cociente o razón. Las dos primeras (nominal y ordinal) se conocen como escalas categóricas, y las dos últimas (intervalar y racional) como escalas numéricas. Las escalas categóricas se usan comúnmente para variables cualitativas, mientras que las numéricas son adecuadas para la medición de variables cuantitativas. ESCALA NOMINAL – categórica y variable cualitativa. ORDINAL – categórica y variable cualitativa. INTERVALAR – numérica y variable cuantitativa. RACIONAL – numérica y variable cuantitativa. OPERACIÓN BÁSICA Determinación de igualdad y clasificación. No tiene origen, orden ni distancia. ESTADÍSTICOS PERMITIDOS / MEDIDAS Número de casos. Modo. Correlación de contingencia. Gráfico de barras separadas o torta. Determinación de mayor o menor y Mediana. orden de las categorías. Percentiles. Hay orden pero no distancia real. La media y la desviación estándar NO. Gráfico de barras separadas o torta. Determinación de igualdad de Media. intervalos o diferencias, distancias Desviación estándar. entre categorías. Coeficiente de variación. Hay distancia, orden pero origen (0) Correlación de orden de rango. arbitrario (no real / no absoluto) Gráfico sectorial, barras juntas, separadas, Histogramas y polígonos de frecuencia Determinación de igualdad de razones. Coeficiente de variación. Hay distancia, orden y origen (0) real. Sectoriales, barras juntas, separadas, Histogramas y polígonos de frecuencia. EJEMPLOS DE VARIABLES Sexo, afiliación política, Nacionalidad, religión. Nacionalismo, religiosidad, Escalas de actitudes, nivel Económico-social. Edad en años, ingreso en $, Tasa de suicidios, los puntajes de test, la temperatura. Medidas de peso, longitud, Distancia en metros. 1) NIVEL NOMINAL - En este nivel se clasifican objetos, personas o características. La operación más básica y a la vez más sencilla de toda ciencia es la clasificación. Al clasificar, agrupamos nuestras unidades de análisis en clases mutuamente excluyentes basándonos en sus semejanzas y diferencias. - Los números hacen distinciones categóricas más que cuantitativas, es decir, cumplen una función puramente de clasificación y no se pueden manipular aritméticamente; cada cifra representa una categoría diferente. Las categorías deben ser exhaustivas y excluyentes, es decir, un individuo no puede estar en las dos categorías y tenemos que tener en cuenta todas las categorías en que se puede presentar la variable. - La asignación de números es puramente arbitraria: los números de las chapas de automóviles, etc. - La escala nominal corresponde al nivel más bajo de medición y es a su vez una condición necesaria que deben satisfacer los niveles más elevados. - Requiere que se puedan distinguir dos o más categorías significativas y que se establezcan los criterios según los cuales los individuos, grupos, objetos o respuestas serán incluidos en una u otra categoría. Es decir, los miembros, elementos u observaciones de una clase o categoría deben ser equivalentes, idénticos, respecto al atributo que tenemos en cuenta. - Algunas propiedades que se encuentran definidas nominalmente son el sexo, estado civil, nacionalidad, afiliación partidaria, etc. - En este nivel, si usamos números les hacemos cumplir la función de meros nombres que nos permiten identificar las categorías designándolas de modo diferente. - La operación de medición queda limitada a referir una observación a una clase o categoría para luego poder contar cuántos casos caen dentro de cada categoría. - Las únicas relaciones matemáticas adecuadas a las escalas nominales son las de equivalencia (=) o no equivalencia (≠). Así, una entidad u objeto particular posee la característica que define la clase (=) o no la tiene (≠). - Sólo admiten el cálculo de proporciones, porcentajes y razones. 2) NIVEL ORDINAL - Aquí aparece la idea de orden. - No sólo se puede distinguir entre distintas categorías, sino que es además posible afirmar si una unidad de análisis posee en mayor, en igual o en menor grado que otra, la propiedad que se está midiendo. Rigen los postulados matemáticos de identidad y de orden jerárquico. - Las trasformaciones que no cambien el orden de las clases son perfectamente admisibles. - Si bien una escala ordinal define la posición relativa de objetos o individuos con respecto a una característica, no ofrece información sobre la distancia entre posiciones o categorías (por ejemplo, podemos ordenar las categorías capitán > teniente > sargento con respecto a la autoridad que ejercen, pero no podemos determinar con exactitud cuánta más autoridad tiene un capitán que un teniente ni si la diferencia entre éstos es menor o mayor que la que existe entre los grados de sargento y teniente). 3 - Algunas variables medidas en el nivel ordinal son: los índices de nivel económico-social, el prestigio ocupacional, el grado de nacionalismo, la religiosidad, etc. Sólo admiten el cálculo de proporciones, porcentajes y razones. 3) NIVEL INTERVALAR - En este nivel es posible diferenciar y ordenar las unidades de análisis, además de que también se puede especificar la distancia que separa a unas unidades de otras en una determinada propiedad. Es decir, las distancias numéricamente iguales representan distancias iguales empíricas en la variable que miden. - Para eso es necesario trabajar con una escala de intervalos iguales. - Este nivel de medición requiere que se establezca algún tipo de unidad de medida que pueda ser considerado por todos como una norma común y que sea repetible, produciendo los mismos resultados no importa cuántas veces se la aplique a los mismos objetos. Esta unidad de medición es común y constante y asigna un número real a todos los pares de objetos del conjunto ordenado. - Un ejemplo serían las escalas de temperatura Celsius y Fahrenheit., el tiempo del calendario, la altura de las montañas a partir del nivel del mar, los puntajes de test de inteligencia, aptitudes o conocimiento. - Cumple con las propiedades de identidad, magnitud e igual distancia (significa que puede saberse cuántas unidades de más tiene una unidad de análisis comparada con otra, con relación a la característica analizada). - La limitación de este nivel deviene de la ausencia de un punto 0 absoluto (es un cero arbitrario porque no refleja ausencia de la magnitud medida) y que hace que las operaciones de multiplicación y de división carezcan de sentido, con lo que las proporciones resultan también carentes de significado. Por ejemplo, en la escala Celsius, no podemos sostener que una temperatura de 20 C sea el doble de una de 10 C. El punto 0 de origen y la unidad de medida son arbitrarios por lo que la relación entre intervalos es independiente de estos dos. - Ejemplo: La diferencia entre 24 y 26 años es la misma que hay entre 28 y 30 años. El cero es arbitrario porque se mide desde el nacimiento (no hay ausencia de variable) 4) NIVEL RACIONAL o de cocientes - Cuando una escala tiene todas las características de una escala intervalar y además, tiene un punto 0 verdadero en su origen y sólo es arbitraria la unidad de medición. El 0 de la escala ha de coincidir con la “nada” en la variable a medir. - En una escala racional, la relación entre dos puntos cualquiera de la escala es independiente de la unidad de medida. - El hecho de fijar el origen permite hacer comparaciones no sólo de los intervalos de los objetos, sino también de los valores de los números asignados a estos objetos. Es así que en este tipo de escala tiene sentido las ‘razones’. Un ejemplo son afirmaciones como “A pesa el doble que B”, “yo gasté la mitad que vos” o propiedades como la distancia en metros, intervalos de tiempo en segundos, medidas de peso, resistencia, longitud velocidad, etc. - Desde el punto de vista matemático, las escalas de razón admiten el cálculo de todo tipo de operaciones matemáticas. ORDEN, DISTANCIA Y ORIGEN. Son las propiedades que tienen los valores finales de una variable. - ORDEN: Los números están ordenados de menor a mayor. DISTANCIA: las diferencias entre los números también están ordenadas. Esto es, cualquier diferencia entre un par de números es igual, mayor o menor que la diferencia entre otro par de números. ORIGEN: la serie tiene un origen único que llamamos “cero” y lo importante es que la diferencia entre cualquier par de números que tienen a 0 en un miembro es igual al número del otro miembro. ORGANIZACIÓN Y PRESENTACIÓN DE DATOS: MEDIDAS DE FRECUENCIA 1) 2) 3) 4) 5) 6) 7) FRECUENCIA absoluta (f): es la cantidad de veces que cada valor de la variable aparece o se repite. FRECUENCIA relativa (fr): me da la relación de la frecuencia de una categoría en relación al total de casos. La suma de todas las frecuencias relativas de un conjunto de datos es igual a 1. FRECUENCIA PORCENTUAL (F%): se trata de convertir f en porcentajes. FRECUENCIA ACUMULADA (F): es la cantidad de veces que aparece el valor de una variable (frecuencia) a la que se le suma las frecuencias de los valores anteriores (menores) de dicha variable. Sólo puede calcularse cuando los valores de la variable son plausibles de ser ordenados, es decir, a partir del nivel de medición ordinal. Existen situaciones en las que es conveniente conocer la cantidad de valores “mayores que”, “menores que”, un determinado valor. Esto se obtiene fácilmente con la distribución de frecuencias acumuladas que además puede hallarse también en porcentajes o frecuencias acumuladas relativas. PROPORCIONES: es una medida de frecuencia en la que se expresa qué parte del total de observaciones presenta determinada característica. Es el cociente que resulta de dividir un subconjunto por el conjunto total en que está incluido. Por ejemplo, las mujeres de una población respecto a la población total. El numerador está incluido en el denominador. PORCENTAJES: surgen de las proporciones multiplicando por 100. RAZÓN: todo índice obtenido al dividir dos cantidades. En la razón ninguno o solo algunos elementos del numerador están incluidos en el denominador. Es el cociente que resultad de dividir dos conjuntos o subconjuntos distintos que no tienen elementos comunes. la razón de 4 un número A respecto de otro B se define como el cociente 8) 𝐴 𝐵 Es decir, se denomina razón a todo índice obtenido al dividir dos cantidades. Se emplea en variables de tipo nominal. Por ejemplo, los hombres de una población respecto a las mujeres de esa población denominada razón de masculinidad. También las tasas de crecimiento son un tipo común de razones. TASA: mide la magnitud del cambio. Es un tipo especial de razón o de proporción. En las tasas usadas en epidemiología, la magnitud Y del numerador es el número de sujetos con una determinada característica y la magnitud X del denominador es el tiempo. Por tanto, la Tasa es una medida de cambio que permite ver el “ritmo” de aparición y cambio de un evento. Es el cociente que resultad de dividir un número de acontecimientos sucedidos durante un período de tiempo por la población existente durante ese período. En el numerador aparecen los eventos (casos nuevos de enfermedad, defunciones, etc.) y en el denominador la población de estudio de donde provienen los casos, durante el período en que fueron estudiados. Lo que distingue a una tasa de las proporciones y de las razones es que: 1. En la tasa se relaciona un evento con la población en riesgo de presentar ese evento. 2. Para expresar una tasa debe incluirse en el denominador el tiempo durante el cual las personas estuvieron en riesgo de presentar el evento (tiempo en riesgo). 3. También se multiplican por una constante (10 o múltiplos de 10) que facilita la comparación de tasas de poblaciones diferentes, aún cuando las mismas sean de diferente tamaño. Esta constante nunca debe ser mayor que la población en riesgo > La tasa de mortalidad infantil indica la cantidad de niños menores de 1 año que fallecieron en relación a los niños que nacieron, en un tiempo y lugar predeterminado. INCIDENCIA Y PREVALENCIA Son dos medidas de frecuencia de la enfermedad, es decir, miden la frecuencia con que una enfermedad aparece en un grupo de población. 1) 2) PREVALENCIA: describe la proporción de la población que padece la enfermedad que queremos estudiar, es decir, el número de casos en un momento determinado como una foto fija. No tiene en cuenta la variable tiempo. La prevalencia intenta mostrar la frecuencia con la que un evento de salud o enfermedad existe en el momento, independientemente de cuándo se haya originado. Para calcularla, se debe determinar el número de sujetos en quienes se presenta el evento estudiado y relacionar dicho número con el total de individuos que forman el grupo observado. Puede expresarse en forma de proporción, porcentaje, o multiplicarla por cualquier múltiplo de 10. INCIDENCIA: va a contabilizar el número de casos nuevos de la enfermedad que estudiamos, que aparecen en un período de tiempo determinado. La incidencia de la enfermedad representa la frecuencia de casos nuevos en una población durante un período determinado de tiempo. La duración de ese período de observación influye en los resultados de la incidencia, pues si éste aumenta ocurrirán más casos e hipotéticamente pueden llegar a enfermarse todos los individuos y el valor entonces de la incidencia será igual a 1,00 o 100%. Por eso, al usar esta medida, debe siempre expresarse el período de observación. → NÚMEROS ÍNDICE miden los cambios de una variable o de un grupo de variables respecto al tiempo. Uno de los ejemplos más simples de números índice es el precio de un producto durante un determinado período con su precio en otro período, llamado período base o de referencia. REPRESENTACIONES GRÁFICAS 1) 2) 3) BOXPLOT O DIAGRAMA DE CAJAS: se utiliza para realizar un análisis más detallado y conciso respecto a la distribución de los datos de la muestra. Esto se complementa, de manera cualitativa, con los resultados cuantitativos obtenidos a través de los estadísticos de la muestra. Adicionalmente permite determinar si la muestra tiene elementos “outliers” y si presenta un sesgo. El máximo interés es visualizar la distribución de una variable numérica de la manera más simplificada posible. Sólo utiliza los valores de los cuartiles, los extremos (el mínimo y el máximo) y valores raros o outlier. PIRÁMIDE POBLACIONAL: es un gráfico que brinda información sobre la población de un lugar en un momento determinado. En ella se representa la composición por edad y sexo de la población, pero además, se puede inferior otro tipo de información como migraciones, mortalidad infantil, guerras, epidemias, políticas vinculadas a la natalidad, etc. Es decir, analizando una pirámide de población se puede interpretar la dinámica y evolución de una población. OJIVA DE GALTON: es un gráfico que trabaja con las frecuencias acumuladas y se grafica de la siguiente manera: en la abscisa se colocan los límites inferiores reales de cada intervalo y en la ordenada van los valores de las frecuencias hasta este límite inferior. Un ejemplo es cuando se habla de la curva del COVID-19. Los gráficos más comunes para representar variables cualitativas de nivel nominal u ordinal son: 1) 2) 3) GRÁFICOS DE BARRAS: colocamos en el eje horizontal categorías de la variable, todas de la misma amplitud y en el eje vertical el número de casos. Es útil para comparar la frecuencia de aparición de distintos valores de una variable. Las barras deben estar separadas ya que los valores no son continuos. GRÁFICO PASTEL O SECTORIAL: la circunferencia del gráfico vale 360° por lo que debe establecerse una proporción del ángulo correspondiente a cada categoría. Se utiliza cuando vamos a mostrar la totalidad de los resultados. No podemos dejar por fuera ninguna categoría, aunque podríamos agruparlas bajo el título “otros”: Entonces no será conveniente cuando la variable tenga muchos valores posibles. PICTOGRAMAS: se toma, por ejemplo, un dibujo que represente esquemáticamente una persona, y esto podría significar 10 millones de personas 5 Los gráficos más comunes para las variables cuantitativas continuas de nivel intervalar o racional son: 1) 2) HISTOGRAMA DE PEARSON: en el que representamos la frecuencia del intervalo por una superficie. En la abscisa (horizontal) se colocan los límites inferiores de cada intervalo y las columnas están pegadas una a la otra, no separadas como en las variables discretas. POLÍGONO DE FRECUENCIAS: en el que la frecuencia del intervalo se representa por una ordenada en el punto medio del intervalo. Los valores de la ordenada (vertical) corresponden a un punto medio de cada intervalo y para los datos se coloca un punto medio anterior y uno posterior a la distribución con frecuencia cero, para que quede cerrada la figura del polígono. Las medidas que sirven para describir un conjunto de datos son: las medidas de tendencia central, las medidas de variabilidad, la asimetría y la curtosis. MEDIDAS DE POSICIÓN Como su nombre lo indica, estas medidas constituyen los valores de la variable que representan ciertas posiciones dentro de la distribución de los datos. Son medidas de resumen que recogen las características más relevantes de una distribución de frecuencias. 1) MEDIDAS DE POSICIÓN CENTRAL O TENDENCIA CENTRAL son aquellas que marcan las posiciones centrales de la distribución (es decir, aquel valor de la variable alrededor del cual se agrupa la mayoría de las observaciones). Se llama tendencia central a la tendencia que tienen las observaciones de concentrarse en algún sector de la variable. El nivel de medición de la variable, el tipo de distribución (simétrica o asimétrica) y los objetivos del investigador determina cuál es la medida de tendencia central apropiada para ser utilizada. En las variables asimétricas, si calculamos las tres medidas de tendencia central: la media da más bajo y la moda da más alto. Cuando las distribuciones son simétricas, las tres medidas coinciden en el mismo valor. En el caso de que sea asimétrica positiva, el valor más bajo la tiene la moda y la media tiene el valor más alto. a) MODO (Mo) es el valor de la variable que más veces se repite, el más común o, lo que es lo mismo, el valor que tiene la mayor frecuencia absoluta. Puede no existir, incluso si existe puede no ser única. Si una distribución presenta dos modas se la denomina bimodal y si presenta una sola moda se la denomina unimodal (por ejemplo, la curva normal). Si presenta más de dos modas se llama multimodal. El Modo tiene en cuenta aquellos casos cuyo valor se repite más veces, sin importar que estos casos se encuentren efectivamente en el centro de la distribución. Esta es la medida de tendencia central más simple, ya que en general basta con una simple observación de los datos brutos o de la tabla de frecuencias para hallarla. Además, es posible su uso con variables de cualquier nivel de medición. Aquí coincide el concepto desde el sentido común y desde la definición estadística: Si las prendas de vestir de determinado color, cierto corte de pelo o un género musical específico están de moda, desde el sentido común esto quiere decir que la mayoría de las personas usan esa ropa, ese corte de pelo, o escuchan esa música. > EJEMPLO: Si habiendo preguntado a un grupo de alumnos en qué ciudad nacieron obtuve las siguientes respuestas: La Plata, La Plata, Saladillo, Quilmes, Tandil, La Plata, Olavarría, La Plata, Quilmes. Mo="La Plata" b) MEDIANA (Md) es el valor de la variable por encima y por debajo del cual hay la misma cantidad de datos. Es decir, es el valor de aquel caso que divide a la distribución en dos partes iguales de un 50% cada una. Se utiliza cuando queremos saber el orden medio de un conjunto de datos y cuando las distribuciones son asimétricas. También es una medida de orden y se utiliza en escalas abiertas. Decir “por encima” o “por debajo” implica que debe ser posible ordenar los datos de menor a mayor o viceversa. Esto no tendría ningún sentido en una variable de nivel nominal por lo que es una medida de tendencia central que sólo podremos extraer a partir del nivel de medición ordinal. Para hallarla, primero se deberá ordenar la serie de datos. Luego, se debe hallar la Mediana de orden, o localización de la Mediana: ala cantidad de casos más uno dividido dos. Esto no dará por resultado el valor de la mediana, sino que nos indicará en qué lugar de la serie ordenada se encuentra el caso cuyo valor se corresponde con la mediana. A continuación, bastará con contar desde cualquiera de los extremos de dicha serie hasta llegar a la posición indicada por la mediana de orden y ese sí será el valor de la mediana. Si n fuera par, (Md) dará por resultado una posición con decimales. Por ejemplo, si n fuera 10 la (Md) será 5,5. Esto indica que, al contar los lugares en la serie ordenada, llegaremos a ubicarnos entre el quinto y el sexto caso, y deberemos promediar ambos valores para arribar al valor de la Mediana. La Mediana sólo tiene en cuenta un caso (o dos, si n es par): aquél que se halla en una posición tal que divide a la distribución en dos partes iguales. Los casos que se encuentran en los extremos no tienen ninguna influencia sobre ella. 6 MEDIA (M) es la sumatoria de los valores de todos los casos, dividido por la cantidad de casos. Sólo es posible calcular la media aritmética a partir del nivel de medición intervalar. Se la puede definir como el centro de gravedad, o punto de equilibrio, de una distribución de datos. A veces se dice que el promedio o media de un grupo de registros muestra la tendencia central o el valor típico o representativo de un grupo de observaciones. La Media aritmética contempla absolutamente todos los casos, ya que debo sumar todos sus valores. Se utiliza en distribuciones simétricas para estimar parámetros y con variables cuantitativas del nivel intervalar y racional. La suma de los desvíos con respecto a la Media da siempre cero. Y la suma de los cuadrados de los desvíos de los valores respecto a la media es menor que la suma de los cuadrados de los desvíos respecto a cualquier valor. Los desvíos a la Media son la distancia que cada observación de la muestra tiene con respecto a ella. Los valores extremos tienden a hacer que la media no sea representativa de la muestra debido a su distribución asimétrica y por lo tanto la sensibilidad de la Media aritmética puede volverse una desventaja. Siempre el valor de la media aritmética tiene que estar entre el valor más bajo y el más alto. > EJEMPLO: Supongamos que una psicoterapeuta observó cuántas sesiones habían tardado sus últimos 10 pacientes en completar una terapia breve. Las cantidades de sesiones eran las siguientes: 7, 8, 8, 7, 3, 1, 6, 9, 3, 8. La media de las 10 observaciones anteriores es 6 (la suma de 60 sesiones dividida por 10 pacientes). Es decir, en promedio, los últimos 10 pacientes de la terapeuta habían asistido a 6 sesiones. MODO MEDIANA MEDIA 2) VENTAJAS - Muestra el valor más importante de un conjunto. - No se afecta por valores extremos en una dirección. - Se puede obtener cuando se desconocen los valores extremos. - Es más informativa que la media cuando la distribución tiene forma de U. - Utilizable en cualquier nivel de medición. - Es más fácil de calcular que la media (con grupos pequeños y sin valores iguales) - No se afecta por valores extremos en una dirección. - Se puede obtener cuando se desconocen los valores extremos. - Toma una posición central exacta en una escala de intervalo. DESVENTAJAS - No considera el valor exacto de cada unidad. - No se puede emplear en estimaciones de parámetros de población. - No es útil para conjuntos de datos más o menos pequeños, donde diversos valores ocurren con la misma frecuencia. - No se puede estimar con certeza cuándo los datos se agrupan en intervalos de clase. - No considera el valor exacto de cada unidad. - No se puede utilizar en estimaciones de parámetros de población ni el nivel nominal. - Si son pocos valores, puede no ser representativa. - Tiene una alta sensibilidad a los valores extremos (al menos que se usen extremos en ambas direcciones para cancelar uno a otros). - Sólo se puede calcular a partir del nivel intervalar. MEDIDAS DE POSICIÓN NO CENTRAL O DE ORDEN son aquellas que marcan las posiciones no centrales de la distribución. Surgen de dividir a la distribución en determinado número de partes, cada una con la misma cantidad de observaciones. Por eso hemos dicho que la Mediana es también una medida de orden, ya que surge de la división de la distribución en dos partes iguales, cada una con el 50% de los casos. Los datos deben estar ordenados, por lo que sólo será posible a partir del nivel de medición ordinal. La manera de interpretarlas, en general, será a partir del porcentaje de casos que las mismas dejan por debajo. a) CUARTILES (C) Son los tres valores de la variable que dividen a la distribución en cuatro partes, cada una de las cuales contiene al 25% de las observaciones. Así, el Cuartil 1 (C1) será el valor de la variable que deje por debajo al 25% de los casos, C2 será aquel que supere al 50% de los mismos (coincidiendo de esta manera con la Mediana) y C3 será el que supere al 75% de las observaciones. b) DECILES (D) Son nueve, y surgen de dividir a la distribución en 10 partes iguales, cada una con el 10% de las observaciones. El Decil 1 (D1) superará al 10% de los casos, D2 superará al 20% y así sucesivamente. 7 c) PERCENTILES (P) Son 99, y dividen a la distribución en 100 partes con el 1% de las observaciones cada una. Los percentiles son la medida de orden más utilizada a la hora de realizar diversas evaluaciones o tests de desarrollo e inteligencia, por el grado de discernimiento que aportan. Sin embargo, tienen la desventaja de exagerar las diferencias en el centro de la distribución. Será más sencillo entender esto gráficamente en el polígono de frecuencias: el porcentaje de casos está representado en el área del grafico que hay entre la curva y el eje X, y el área se define como el producto entre base y altura. Esto quiere decir que, para mantenerse igual (es decir, para abarcar la misma cantidad de casos), el área deberá ser más angosta cuanto más alta sea la curva. Esto ya se apreciaba en el gráfico anterior, donde se observa que las dos porciones del gráfico más cercanas a la Mediana son mucho más angostas que las dos que se encuentran hacia los extremos. Con los percentiles, esto se exagera hasta el punto en que se vuelve dificultoso distinguir entre los percentiles centrales. Cuando decimos que los percentiles exageran las diferencias en el centro de la distribución, nos referimos a que para avanzar 10 percentiles, un sujeto debe recorrer una distancia mucho mayor en los valores de la variable si se encuentra en alguno de los extremos de la distribución, que si se encontrara en el centro. Por ejemplo, si estuviéramos analizando una distribución de calificaciones escolares con esta forma, un sujeto debería esforzarse mucho más para pasar del percentil 1 al 11, que para pasar del 50 al 60, ya que la distancia a recorrer en el eje X (en el que se plasman los valores de la variable) es mucho mayor en el primer caso. La ventaja de los percentiles es que me da la ubicación de una persona en relación al total de casos y permite ver su ubicación en dos pruebas distintas. Pero tiene una desventaja: exagera las diferencias individuales de los que están en los extremos en relación con lo que están en el centro. ¿CÓMO HALLAR ESTAS MEDIDAS DE ORDEN? Es el mismo procedimiento que para hallar la Mediana aunque luego de ordenar la serie de datos deben introducirse pequeñas modificaciones en la fórmula para calcular el cuartil, decil o percentil de orden que corresponda. H es el número de Cuartil, Decil o Percentil que se quiere hallar, mientras que debajo de la barra de división aparece la cantidad de partes iguales en que cada medida divide a la distribución. Luego, para completar el procedimiento, bastará con contar desde el inicio de la serie de datos la cantidad de lugares indicados por estas fórmulas. MEDIDAS DE VARIABILIDAD O DISPERSIÓN: Son importantes debido a que dos muestras de observaciones con el mismo valor central pueden tener una variabilidad muy distinta. La media puede ser la misma pero no implica que la distribución sea igual. Las medidas de variabilidad son valores numéricos que indican o describen la forma en que las observaciones están dispersas o diseminadas, con respecto al valor central. Informan sobre la homogeneidad o heterogeneidad de un conjunto de datos. Cuanto más se aleja de las medidas de tendencia central hay mayor dispersión. A mayor dispersión, mayor heterogeneidad. A menor dispersión, mayor homogeneidad. a) b) c) RANGO O AMPLITUD TOTAL (At): también llamado recorrido, es la diferencia entre el valor mayor y el valor menos de una distribución. Da información rápida pero escasa porque no dice nada respecto a lo que se halla dentro de la distribución y sólo toma los dos valores extremos. No proporciona una medida de variabilidad de las observaciones con respecto a la centralidad de la distribución. No se usaría, por ejemplo, cuando existen huecos en las escalas. Se utiliza cuando el modo es elegido como Medida de Tendencia Central. DESVIACIÓN SEMI-INTERCUARTIL (Q): es la mitad del intervalo entre el C1 (25%) y el C3 (75%). Está relacionado con la mediana. Me da información sobre la dispersión del 50% central de los casos. Cuando la desviación semi-intercuartil es más chica, el 50% central de los casos es más homogéneo y hay menor dispersión. También sirva para analizar la forma de la distribución a partir de los cuartiles: simetría (cuando a C1+Q = C2), asimetría positiva (la mayoría de los casos se concentran en los valores bajos de la variable y hay pocos casos en los valores altos entonces C1+Q > C2) y asimetría negativa (la mayoría de los casos se concentran en los valores altos de la variable y hay pocos casos en los valores bajos C1+Q < C2). Se utiliza cuando la Mediana es elegida como Medida de Tendencia Central. DESVÍO ESTÁNDAR (S): es la raíz cuadrada del promedio de los desvíos a la media al cuadrado. Si se suma o resta una constante a todas las observaciones, la desviación estándar NO varía. Si multiplicamos o dividimos a todos los valores de la variable por una constante, la desviación estándar queda multiplicada o dividida por la constante. Se utiliza cuando la Media Aritmética es elegida como Medida de Tendencia Central y en su cálculo intervienen todos los valores de la muestra. Nos dice cuánto se alejan, en promedio, todas las observaciones de la distribución con respecto a la Media Aritmética (la suma de los desvíos a la media da siempre por resultado 0). Generalmente el desvío estándar está contenido aproximadamente 6 veces dentro de la distribución, si la misma tiene una forma normal. Para distribuciones normales o simétricas resulta que: − El 68,27% de los casos están comprendidos en la media y más/menos un desvío estándar. Es decir, el valor de la desviación estándar a ambos lados de la media aritmética. Se denomina zona de normalidad estadística. 8 − d) e) El 95,45% de los casos están comprendidos entre la media y más/menos dos desvíos estándar. Es decir, el doble del valor de la desviación estándar a ambos lados de la media aritmética. − El 99,74% de los casos están comprendidos entre la media y más/menos 3 desvíos estándar. Es decir, el triple del valor de la desviación estándar a ambos lados de la media aritmética. VARIANZA: nos permite identificar la diferencia promedio que hay entre cada uno de los valores respecto a su punto central (media aritmética). Este promedio es calculado elevando cada una de las diferencias al cuadrado (con el fin de eliminar los signos negativos) y calculando su promedio o media. Es decir, sumando todos los cuadrados de las diferencias de cada valor respecto a la media y dividiendo este resultado por el número de observaciones que se tengan. Se relaciona con la media aritmética. El cálculo es igual al del Desvío Estándar pero omitiendo la raíz cuadrada. Tiene propiedades aditivas ya que con la raíz cuadrada no se puede sumar o restar. Las dos medidas que definen una población son la media aritmética y la varianza aunque a veces se trabaja con el desvio estándar. La varianza es útil cuando se compara la variabilidad de dos o más conjuntos de datos y utiliza toda la información disponible. Pero las desventajas es que no proporciona ayuda inmediata cuando se estudia la dispersión de un solo conjunto de datos y es difícil de interpretar por tener sus unidades elevadas al cuadrado. COEFICIENTE DE VARIACIÓN: sólo puede emplearse con variables de nivel racional y se emplea cuando se quiere comparar la variabilidad de dos variables que han sido medidas con unidades distintas. Es independiente de las unidades de medida utilizadas. ASIMETRÍA Nos permite identificar si los datos se distribuyen de forma uniforme alrededor del punto central (media aritmética). La asimetría presenta tres estados diferentes, cada uno de los cuales define de forma concisa como están distribuidos los datos respecto al eje de asimetría. Se dice que la asimetría es positiva cuando la mayoría de los datos se encuentran por debajo del valor de la media aritmética, la curva es simétrica cuando se distribuyen aproximadamente la misma cantidad de valores en ambos lados de la media y se conoce como asimetría negativa cuando la mayor cantidad de datos se aglomeran en los valores mayores que la media. 1) COEFICIENTE DE PEARSON: → Si As < 0 la distribución será asimétrica negativa. → Si As = 0 la distribución será simétrica. → Si As = 0 la distribución será asimétrica positiva. CURTOSIS Indica la pendiente de la curva, es decir, el grado de elevamiento o aplastamiento de la distribución. La curtosis de la distribución normal es mesocúrtica. → Si el resultado de Cu es 0,263 la distribución es mesocúrtica. → Si el resultado de Cu es mayor a 0,263 la distribución es platicúrtica. → Si el resultado es Cu es menor a 0.263 la distribución es leptocúrtica. PROBABILIDAD La estadística nos brinda herramientas para estudiar fenómenos en los cuales no se conocen las leyes que los rigen, a los que llamamos fenómenos aleatorios. La base matemática de estos fenómenos aleatorios la proporciona la Teoría de la Probabilidad y su importancia en psicología se debe a que: − − La psicología tiene como objetivo la descripción, la comprensión, la predicción y el control de la conducta y los procesos mentales. Por predicción se entiende la capacidad para prever una conducta con certeza. Es decir, para que la psicología pueda en su momento predecir la conducta es necesario que sea capaz de hacer que todos los datos particulares que obtiene mediante la investigación sean capaces de ser generalizados y de ahí poder inferir, con una tasa de certeza suficiente, un comportamiento, acción o situación. La importancia de la probabilidad radica en que, mediante este recurso matemático, es posible ajustar de la manera más exacta posible los imponderables debidos al azar en los más variados campos tanto de la ciencia como de la vida cotidiana. La probabilidad y la estadística son usadas, por un lado, como forma de obtener, interpretar y generalizar los datos, y por el otro, para poder predecir de ahí mismo ciertos eventos futuros. → FENÓMENO ALEATORIO: es aquel que ejecutado bajo las mismas condiciones puede tener varios resultados. En cada ocurrencia del fenómeno es imposible predecir el resultado, atribuyéndose al azar. Pese a su naturaleza aleatoria, hay algunos comportamientos que podemos esperar. Siempre que el evento sea equiprobable quiere decir que todos los posibles resultados tienen las mismas oportunidades de salir (si tiramos muchas veces una moneda podríamos esperar que más o menos la mitad salga cara y la otra mitad seca). Para considerar que un experimento es aleatorio se tienen que dar las siguientes condiciones: − Se puede repetir indefinidamente, siempre en las mismas condiciones. − Antes de realizarlo, no se puede predecir el resultado que se va a obtener. 9 − El resultado que se obtenga pertenece a un conjunto conocido previamente de resultados posibles. → ESPACIO MUESTRAL: cuando tenemos un suceso aleatorio, el conjunto de cada uno de los resultados individuales posibles de ese suceso se denomina espacio muestral y suele denotarse con la letra omega mayúscula Ω. Por ejemplo, al tirar un dado obtengo 6 resultados posibles. → EVENTO: es cualquier subconjunto del espacio muestral. Ya vimos que el espacio muestral al tirar un dado es 6 pero si yo estos buscando que salga par el evento está conformado por 3 resultados posibles (2,4 y 6). La probabilidad de que ocurra un evento se mide por un número entre 0 y 1 inclusive. Si un evento nunca ocurre, su probabilidad asociada es 0 mientras que si ocurriese siempre su probabilidad sería igual a 1. Así, las probabilidades suelen venir expresadas como decimales, fracciones o porcentajes. Existen diferentes formas para definir la probabilidad de un evento basadas en formas distintas de calcular o estimar la probabilidad. Hay tres formas de obtener la probabilidad de un suceso y la elección dependerá de la naturaleza del problema: 1) TEÓRICA: es la definición clásica de probabilidad. Fue una de las primeras que se dieron (1900) y se atribuye a Laplace. También se conoce con el nombre de probabilidad pues, para calcularla, el espacio muestral y el número de resultados que entran a formar parte del suceso. La regla de Laplace dice que en un espacio muestral formado por sucesos equiprobables (todos tienen la misma probabilidad), la probabilidad de un suceso A es el número de casos favorables divido por el número de casos posibles. La aplicación de la definición clásica de probabilidad puede presentar dificultades de aplicación cuando el espacio muestral es infinito o cuando los posibles resultados de un experimento no son equiprobables. Por eso se ve limitada a situaciones en las que hay un número infinito de resultados igualmente probables. Ejemplo: en el lanzamiento de un dado, consideramos el suceso A= “salir números par” entonces espacio muestral 6 resultados posibles y el evento 3 resultados posibles. Otro ejemplo es si en una comisión tengo 80 personas, donde 65 son mujeres y quiero saber cuál es la probabilidad de que si extraigo un alumno al azar sea mujer (65/30=0.8125) 2) EMPÍRICO: para determinar los valores de probabilidad se requiere de la observación y de la recopilación de datos. Es el cociente entre el número de casos en que el hecho ocurre y el número total de veces que se realiza el experimento. Se obtiene en base a resultados obtenidos de un experimento, se basa en la frecuencia con la que cierto resultado sucede. La definición empírica se basa en la frecuencia relativa de ocurrencia de un evento con respecto a un gran número de repeticiones del experimento. También se le denomina a posteriori, ya que el resultado se obtiene después de realizar el experimento un cierto número grande de veces. No implica ningún supuesto previo de igualdad de probabilidades. Al calcular probabilidades con este método de frecuencias relativas obtenemos una aproximación en vez de un valor exacto. A mayor número de veces que repitamos el experimento, más cerca estará la aproximación del valor real. Esta propiedad se enuncia en forma de teorema, el cual se conoce comúnmente como la ley de los números grandes. Cuando se una la definición empírica, es importante tomar en cuenta los siguientes aspectos: − La probabilidad obtenida de esta manera es únicamente una estimación del valor real. − Cuanto mayor sea el número de repeticiones del experimento, tanto mejor será la estimación de la probabilidad. − La probabilidad es propia de sólo un conjunto de condiciones idénticas a aquellas en las que se obtuvieron los resultados, o sea, la validez de emplear esta definición depende de que las condiciones en que se realizó el experimento sean repetidas idénticamente. Ejemplo: quiero saber cuál es la probabilidad de sacar cada al tirar 30 veces una moneda. Tiro 30 veces y saco 11 veces cara por lo tanto la probabilidad de (A) sacar cara es 11/30= 0.366 3) SUBJETIVA: se refiere a la probabilidad de ocurrencia de un suceso basado en la experiencia previa, la opinión personal o la intuición del individuo. En este caso, después de estudiar la información disponible, se asigna un valor de probabilidad a los sucesos basado en el grado de creencia de que el suceso pueda ocurrir. Se diferencia de los enfoques anteriores debido a que tanto el enfoque clásico como el de frecuencia relativa producen valores objetivos de probabilidad. El enfoque subjetivo define la probabilidad de un evento a base del grado de confianza que una persona tiene de que el evento ocurra, teniendo en cuenta toda la evidencia que tiene disponible, fundamentado en la intuición, opiniones, creencias personales y otra información indirecta relevante. Ejemplo: las cosas no metodológicas que las personas tienen en cuenta para decir que hay probabilidad de lluvia. También por ejemplo un paciente le pregunta al doctor cuánta probabilidad tiene de salir exitosa una operación: respuesta que va a dar basado en su conocimiento y la obtenida al trabajar casos similares. REGLAS DE PROBABILIDAD Dado cualquier evento imaginable, puede ocurrir una de tres cosas: − − − Es imposible que ocurra. Es seguro que ocurre. La certeza de que ocurra está en un punto intermedio. 10 La probabilidad de un suceso sólo toma valores entre 0 y 1 (o entre 0 y 100 si es en porcentaje). El valor 0 es para los sucesos que no pueden ocurrir y 1 para un suceso que siempre va a ocurrir. SI la probabilidad de un suceso es p, entonces la probabilidad de que no ocurra el suceso (la probabilidad de que pase lo contrario al suceso) es 1-p. La regla de multiplicación o regla del producto permite encontrar la probabilidad de que ocurra el evento A y el evento B al mismo tiempo (probabilidad conjunta). Esta regla depende de si los eventos son dependientes o independientes. → EVENTOS DEPENDIENTES: si la ocurrencia de uno de ellos afecta la ocurrencia del otro. → EVENTOS INDEPENDIENTES: si la ocurrencia de uno de ellos no afecta la ocurrencia del otro, es decir, cuando los eventos A y B no están relacionados. La regla de la adición o regla de la suma establece que la probabilidad de ocurrencia de cualquier evento en particular es igual a la suma de las probabilidades individuales, si es que los eventos son mutuamente excluyentes, es decir, que dos no pueden ocurrir al mismo tiempo. → EVENTOS MUTUAMENTE EXCLUYENTES P (A o B) = P (A) + P (B) → EVENTOS NO MUTUAMENTE EXCLUYENTES P (A o B) = P (A) + P (B) – P (A y B) ELECCIÓN DE PRUEBAS ESTADÍSTICAS La elección de una prueba estadística determinada adecuada para el caso estudiado depende de: − La naturaleza de las variables (cualitativas, cuantitativas discretas o continuas). − El nivel de medición de las variables. − El número de casos de la muestra. − Si los datos se distribuyen normalmente o no. DISTRIBUCIONES PROBABILÍSTICAS Está relacionada con la distribución de frecuencias, podemos pensar en la distribución de probabilidad como una distribución de frecuencia teórica. Estas describen las formas en las que se esperan que varíen los resultados. Son modelos útiles para hacer inferencias y tomar decisiones. 1) DISTRIBUCIÓN NORMAL o CURVA NORMAL → variables cuantitativas continuas En estadística y probabilidad se llama distribución normal, distribución de Gauss o distribución gaussiana, a una de las distribuciones de probabilidad de variable continua que con más frecuencia aparece en fenómenos reales. Comprende una familia de distribuciones que pueden tener una media y un desvío estándar distinto. Para su uso, la muestra debe estar integrada por un alto número de unidades de análisis y las variables deben ser cuantitativas continuas. Hay infinitas curvas normales y es definida por la media aritmética y el desvío estándar. Entonces, la curva normal se representa gráficamente con una curva continua que se define por su media () y su desviación estándar (). Además trabaja con puntajes Z. La curva normal estándar se caracteriza por una =0 y =1. Es mesocúrtica (curtosis media), asintótica (la curva nunca va a cortar el eje horizontal porque se extiende de +∞ a -∞) unimodal y simétrica respecto de su punto medio, el cual corresponde a su vez al valor de la Media. Por ser una curva simétrica, la media también coincide con la mediana y el modo, y es igual a 0. Por lo tanto, media mediana y modo coinciden. Por debajo de la curva está determinada el área de probabilidad de 11 ocurrencia de todos los eventos de una misma índole y es igual a 1. Se puede determinar qué área se encuentra bajo la curva entre el punto central (media aritmética) y el punto en el que cae una desviación estándar. De hecho, al expresarse en el eje horizontal las unidades de desviación estándar, es posible calcular cualquier área dentro de la curva. En todos los casos, la gráfica presenta una forma de campana conocida específicamente como Campana de Gauss. De esta manera, los casos se concentran en el centro de la distribución y van disminuyendo simétricamente hacia ambas colas de manera asintótica. La probabilidad total bajo la curva normal es igual a 1. Entre dos puntos de la abscisa, el área bajo la curva es constante. Y por debajo de la curva normal encontramos el 100% de los casos de la misma naturaleza; 50% desde un extremo hacia el punto medio y lo mismo desde el otro extremo. El 99,74% central del 100% de los casos se encuentra entre los dos valores que obtenemos al restar y sumar a la media (0) tres veces el valor del desvío estándar (1). El 95,44% central de los casos se encuentra entre dos valores bien delimitados y obtenidos como resultado de restar y de sumar a la media (0) dos veces el valor del desvío estándar (1). El 68,26% central de los casos marca la zona de rendimiento estadísticamente normal y los valores delimitadores de la misma se obtienen al restar y sumar una vez el valor del desvío estándar (1) a la media (0). En términos de percentiles, la normalidad estadística se encuentra en el rango de valores de la variable comprendidos entre los percentiles 16 y 84. Por su parte, el percentil 84 equivale a decir que el 84,13% de los casos tienen puntuaciones iguales o inferiores a z=+1. El percentil 16 equivale a decir que el 15,87% de los casos tienen puntuaciones iguales o inferiores a z= -1. La Distribución Probabilística de curva normal sirve para: − − − − − − − − Comparar el rendimiento individual de un sujeto con el rendimiento del grupo al cual pertenece. Comparar el rendimiento de un mismo sujeto en varias pruebas diferentes. Averiguar la probabilidad de ocurrencia de un determinado evento o el porcentaje de casos esperables de ser observados, por debajo de un puntaje o entre dos puntajes determinados. Averiguar entre qué o hasta qué puntuaciones se encuentra cierta probabilidad de ocurrencia de un evento o se encuentra cierto porcentaje de casos. Es decir, determinar los límites dentro de una distribución normal que incluye un determinado porcentaje de casos. Determinar el porcentaje de casos en una distribución normal dentro de determinados límites. Por ejemplo, qué porcentaje de casos hay entre la media aritmética y z=1,25 es 0.3944 (39,44%) de casos Clasificar o dividir un grupo en subgrupos a los que se puede asignar categorías diagnósticas. Se aplica en el campo de la estadística inferencial para la estimación de parámetros y en la prueba de hipótesis. Determinar las dificultades relativas de preguntas de test, problemas o ítems. TRANSFORMACIÓN DE PUNTAJES PUNTAJE DIRECTO, ORIGINAL o BRUTO es la cantidad bruta de unidades en las que se mide una variable. No permite comparar a un sujeto en dos pruebas distintas. Su transformación a una escala común permite comparar las distintas observaciones de un mismo o distintos sujetos, las distintas variables y la posición de una persona adentro de la distribución, según el porcentaje que deja por debajo (escala percentilar). Este puede transformarse: → No linealmente en percentiles que expresa el rendimiento de un sujeto según el porcentaje de casos que iguala o supera respecto a su grupo, es decir, el porcentaje de casos que supera un sujeto al haber obtenido un determinado puntaje directo. Es una transformación no lineal del puntaje directo a otro valor de la variable que está determinado por el porcentaje de casos que deja por debajo el rendimiento particular de un sujeto respecto de su grupo. Un percentil expresa en términos de porcentaje, el valor de la probabilidad de encontrar sujetos que obtuvieron puntuaciones menores o iguales a un determinado valor de la variable. La transformación de puntajes a percentiles se realiza a partir del puntaje z. Se busca el área correspondiente en la table y se suma o resta el área hallada al 50%, según corresponda. → Se puede determinar el área por encima o debajo de cualquier puntaje o entre dos puntajes. Para ello, habrá que convertirlos en un puntaje común que me permita compararlos. Linealmente se puede convertir en puntuación z que expresa el rendimiento de un sujeto respecto de los desvíos a la media aritmética y luego usar el tabla de áreas. Es decir, pasamos de medir cuántos puntos obtuvo un sujeto a medir cuántas partes de lo que vale el desvío estándar de la distribución empírica, se aleja el rendimiento particular de un sujeto, del promedio del grupo. Al estandarizar las puntuaciones directas obtenidas en pruebas con unidades de medidas diferentes se produce una transformación lineal a un sistema de puntuaciones, puntuaciones z, que permite la comparación de rendimientos diversos, de diferentes sujetos. Los puntajes z indican cuántas partes del desvío estándar un sujeto se ubica del promedio del grupo. Para la puntuación Z es necesario definir: 12 − − − La distancia entre un puntaje y el promedio. La desviación estándar que nos indicará cuan heterogéneo u homogéneo es una distribución. Se dividen ambos valores y se genera esta transformación a un puntaje Z o estándar. PUNTAJES z o PUNTAJE ESTÁNDAR son unidades de desvío estándar que miden la distancia entre un valor de la variable y la media aritmética en unidades de desvío estándar. Es igual al valor de la variable – media aritmética / desvío. Nos dice a cuántas unidades de desviación estándar del promedio está un puntaje determinado, es decir, no contamos en cantidad de puntos brutos sino en cantidades de desviaciones estándar. Para utilizar el puntaje Z requerimos que la distribución será normal (curva simétrica) y conocer el promedio y la desviación estándar de los puntajes. La curva se extiende entre z 3: cuanto más se aleja de la media hacia los valores de la derecha de la variable, mejor ubicado está y viceversa. Sus desventajas son que por debajo de la media va a tener valores negativos y trabaja con decimales (para evitarlo se puede trabajar con z derivado). Esta transformación implica un corrimiento del origen al lugar de la media aritmética de la curva normal estándar que es 0 y un cambio de la unidad de medida, es decir, en unidades de desvío. → De puntaje z a puntaje Z derivado y esta transformación permite evitar las puntuaciones negativas características de las puntuaciones z menores a la media. El punto de origen se traslada del valor 0 al valor 50 puntos (es su media arbitraria) y el valor del desvío estándar pasa de 1 a un valor de 10 (es su desvío estándar arbitrario). La ventaja que tiene en relación a los puntajes z es que no tiene valores negativos y podemos despreciar los decimales porque representan una cantidad pequeña. → De puntaje z a puntajes originales/directo/bruto. Si la persona está ubicada en la media, el puntaje z va a ser 0. TABLA DE ÁREAS La curva normal tiene dos tablas: nosotros vamos a usar la tabla de áreas porque tiene el origen en la media aritmética. Viene expresada en puntajes z y se puede utilizar para curva normal no importa cuál sea su media y su desvío. El área bajo la curva siempre demuestra el número de casos. Si me dan el área como dato tengo que hallar el puntaje z y si me dan el puntaje z tengo que hallar el área. La tabla se encuentra ordenada en términos de valores de z, hasta dos decimales, como por ejemplo: 2,78. Una particularidad de una tabla normal típica es que los valores z se presentan en dos pares. Los valores enteros y el primer decimal (2.7) se enumeran hacia abajo en el lado izquierdo de la table, es decir, primera columna mientras que el último digito aparece en la parte superior. Veamos un ejemplo calculando el área bajo la curva entre la media y un valor z cuando z= 1,25. Primero localizamos el valor 1.2 en el lado izquierdo de la tabla. Luego en la parte superior, el valor de 0,05. El área bajo la curva se puede encontrar (leer) en la intersección de la fila z= 1.2 y la columna 0,05. 2) DISTRIBUCIÓN BINOMIAL → variables discretas. Un modelo es una distribución de probabilidades (frecuencias relativas teóricas). La distribución binomial es una distribución de probabilidad discreta que cuenta el número de éxitos en una secuencia de n ensayos de Bernoulli independientes entre sí, con una probabilidad fija p de ocurrencia del éxito entre los ensayos. Existen una gran diversidad de experimentos o sucesos que pueden ser caracterizados bajo esta distribución de probabilidad, por ejemplo, imaginemos el lanzamiento de una moneda en el que definimos el suceso “sacar cara” como el éxito. Si lanzamos 5 veces la moneda y contamos los éxitos (sacar cara) que obtenemos, nuestra distribución de probabilidades se ajustaría a una distribución binomial. La distribución binomial se entiende como una serie de pruebas o ensayos en la que solo podemos tener 2 resultados (éxito o fracaso) siendo el éxito nuestra variable aleatoria. Es importante destacar que el resultado “no éxito o fracaso” no se refiere al contrario de ¡éxito” sino que se refiere a cualquier caso distinto al que representa a “éxito” siempre y cuando haya más de dos posibilidades. Por ejemplo, en el caso de tirar un dado, si la variable “éxito” se refiere a obtener un 4 en una tirada, la variable “no éxito o fracaso” será cualquier resultado distinto a 4 que podamos obtener en una tirada. Los parámetros de la distribución p son: Un experimento de Bernoulli se caracteriza por ser dicotómico, es decir, sólo dos resultados son posibles. La distribución de Bernoulli se utiliza cuando la probabilidad de ocurrencia de solo unas ciertas combinaciones en 13 un número dado de eventos es necesitada y en este caso se usa la ecuación de combinación. El número combinatorio es llamado también coeficiente binomial y es todas las posibles maneras que aparece k en n experimentos. Cuando queremos hallar distintas probabilidades de un experimento aleatorio utilizamos el Binomio de Newton. El binomio de Newton también llamado teorema binomial es un modelo de algoritmo que te permite obtener potencias a partir de binomios. Para poder obtener esta potencia binomial se utilizan los coeficientes llamados coeficientes binomiales. P = éxito, q = fracaso, n = número de experimentos. Para que una variable aleatoria se considere que sigue una distribución binomial, tiene que cumplir las siguientes propiedades: − − En cada ensayo, experimento o prueba solo son posibles dos resultados (éxito o fracaso). La probabilidad del éxito ha de ser constante. Esta se representa mediante la letra p. La probabilidad de que salga cara al lanzar una moneda es de 0,5 y esta es constante dado que la moneda no cambia en cada experimento y las probabilidades de sacar cara es constante. La probabilidad de fracaso ha de ser también constante. Esta se representa mediante la letra q = 1-p. Es importante fijarse que mediante esa ecuación, sabiendo p o sabiendo q, podemos obtener la que nos falte. El resultado obtenido en cada experimento es independiente del anterior. Por lo tanto, lo que ocurra en cada experimento no afecta a los siguientes. Los sucesos son mutuamente excluyentes, es decir, no pueden ocurrir los 2 al mismo tiempo. No puedo lanzar una moneda y que salga cara y seca al mismo tiempo. Los sucesos son colectivamente exhaustivos, es decir, al menos uno de los 2 ha de ocurrir. Si se lanza una moneda, si no sale cara ha de salir seca. Para representar que una variable aleatoria x sigue una distribución binomial de parámetros n y p, se escribe: − − − − − CORRELACIÓN (coeficiente de correlación de Pearson) La correlación es una medida de la relación (covariación) lineal entre dos variables cuantitativas continuas (x, y) de nivel intervalar o racional. Es una técnica descriptiva. La manera más sencilla de saber si dos variables están correlacionadas es determinar si covarían (varían conjuntamente). Es importante hacer notar que esta covariación no implica necesariamente causalidad, la correlación puede ser fortuita como en el caso de la correlación entre el número de venta de helados e incendios, debido al efecto de una tercera variable que es la temperatura ambiental. Esta medida o índice de correlación r puede variar entre -1 y +1, ambos extremos indicando correlación perfecta, negativa y positiva respectivamente. Un valor de r = 0 indica que no existe relación lineal entre las dos variables. − − Una correlación positiva indica que ambas variables varían en el mismo sentido (aumentan o disminuyen en la misma dirección). Por ejemplo, horas de estudio y nota del examen. Una correlación entre dos variables es perfecta positiva (+1) cuando exactamente en la medida que aumenta una de ellas aumenta la otra. Esto difícilmente ocurra en las correlaciones de psicología, pero es frecuente en las ciencias físicas. En los fenómenos humanos fuertemente cargados de componentes aleatorios no suele ser posible establecer relaciones funcionales exactas. Dado un cierto valor en la variable X no encontramos uno y solo un único valor en la variable Y. Una correlación negativa significa que ambas variables varían en sentidos opuestos (mientras una variable aumenta, la otra disminuye). Por ejemplo, la cantidad de cigarrillos consumidos y la resistencia aeróbica. Una relación entre dos variables es perfecta negativa cuando exactamente en la medida que aumenta una variable, disminuye la otra. El coeficiente de correlación r de Pearson aporta la siguiente información: − − La dirección o sentido de esa relación (si es + o -). La fuerza o grado de la relación (es un valor entre +/- 1 pasando por 0). Cuanto más cerca de 1 más fuerte la correlación, cuanto más cerca de 0 más débil. − Si hay o no relación entre las variables. Cuando analizamos si hay o no relación entre dos variables cuantitativas continuas primero realizamos un Diagrama de Dispersión que es la representación gráfica del grado y dirección de la relación. Ambas variables se representan como un punto en el plano cartesiano. Tenemos dos ejes, la abscisa y la ordenada, en la primera colocamos los valores de la variable X y en la segunda los valores de la variable Y. Después vamos a graficar para cada valor de X el valor de Y que le corresponda. 14 1 2 4 3 5 6 1) Se observa que todos los pares ordenados forman una línea recta que pasa por los cuadrantes I y III → correlación perfecta positiva entonces r = +1 2) Algunos pocos pares ordenados no están sobre una línea recta → correlación es alta y positiva. 3) Hay más dispersión de los pares ordenados en relación a la línea recta → positiva porque la mayoría de los pares ordenados están en los cuadrantes I y III pero la correlación es más baja. 4) Todos los pares ordenados están sobre una misma recta y en los cuadrantes II y IV → correlación perfecta negativa. 5) Algunos pocos pares ordenados no están sobre una línea recta → correlación alta y negativa. 6) Los pares ordenados están dispersos en los cuatro cuadrantes → no hay correlación entonces r = 0 (nula) Si el diagrama de dispersión me indica que hay correlación, entonces procedo a calcular el coeficiente de correlación para ver en qué grado están correlacionadas las variables. 1. 2. 3. Calcular la media aritmética de X;Y Hallar los desvíos a la media de X y los desvíos a la media de Y. Realizar el producto de cada desvío de X por cada desvío de Y. El coeficiente de correlación también se puede interpretar en términos de proporción de variabilidad compartida o explicada donde se ofrece una idea más cabal de la magnitud de la relación. Hablamos del coeficiente de determinación que se define como el cuadrado del coeficiente de correlación, esto es, dada dos variables X e Y, hace referencia a r2. Por ejemplo, si la correlación entre inteligencia y rendimiento académico es de 0,8 significa que 0,8 x 0,8 = 0,64 es la proporción de varianza compartida entre ambas variables. Puede interpretarse como que un 64% del rendimiento académico es debido a la inteligencia o bien que inteligencia y rendimiento comparten un 64% de elementos. Si tomamos como variable dependiente el rendimiento académico y como variable predictora o explicativa la inteligencia, tendremos que tal variable da cuenta de un 64% de variabilidad en rendimiento. Queda 1-0x64=0,36 un 36% del rendimiento que queda sin explicar. A este valor se lo denomina coeficiente de no determinación. CORRELACIÓN (coeficiente de correlación Rho de Spearman) Es el equivalente al coeficiente de Pearson pero con una previa transformación de los datos a rangos. Se emplea cuando los valores son ordinales, o bien cuando los valores son continuos, pero no satisfacen la condición de normalidad requerida por el coeficiente de Pearson y se pueden ordenar transformándolos en rangos. Al trabajar con rangos, es menos sensible que Pearson a valores extremos. Requiere que la relación entre las variables sea monotónica, es decir, que cuando una variable crece la otra también lo hace o cuando una crece la otra decrece (que la tendencia sea constante). Es una medida de asociación lineal que utiliza los rangos, números de orden, de cada grupo de sujetos y compara dichos rangos. Es una prueba no paramétrica, ya que los datos no tienen que distribuirse normalmente, se analizan variables nominales y ordinales. Es recomendable utilizarlo ante distribuciones no normales o cuando los datos presentan valores extremos ya que dichos valores afectan mucho el coeficiente de correlación de Pearson. No debe usarse para comparar dos métodos que miden el mismo evento. Para aplicar este coeficiente se requiere que las variables estén medidas al menos en escala ordinal, es decir, de forma que las puntuaciones puedan ser colocadas en dos series ordenadas. Conviene usarlo cuando tenemos no más de 30 casos. El valor varía entre -1 y +1 pasando por 0 que es la no correlación. Un valor negativo indica una relación inversa mientras que uno positivo indica una relación directa. Aunque el procedimiento de cálculo de la correlación de Pearson y de Spearman son muy parecidos, los resultados son diferentes pues la prueba de Spearman se basa en los rangos de los valores perdiendo parte de la información que se encuentra en los datos. − − − − Un valor de +1 en significa una perfecta asociación de rango. Un valor 0 en significa que no hay asociación de rangos. Un valor de -1 en significa una perfecta asociación negativa entre los rangos. Si el valor de se acerca a 0, la asociación entre los dos rangos es más débil. Los pasos a seguir para calcular el valor de coeficiente por rangos de Spearman son: 1. 2. 3. 4. Colocar en columnas contiguas los valores X y los de Y, de modo tal que, el par de valores de estas variables que corresponden a un mismo elemento de la muestra queden uno al lado del otro. Convertir de modo independiente, si fuera necesario, los valores de cada una de estas variables en rangos. Esto es imprescindible para la variable que esté medida en escala métrica. Determinar para un mismo elemento de la muestra, las diferencias (d) entre cada rango de la variable obtenidos en el paso 2 y su correspondiente rango de la otra variable. En una nueva columna, elevar al cuadrado cada resultado del paso anterior y obtener la suma de esa columna. 15 5. 6. 7. 8. Multiplicar por seis el resultado del paso 4. Elevar al cuadrado el tamaño de la muestra, restarle uno a ese resultado y a continuación multiplicarlo por el volumen de la muestra. Dividir el resultado del paso 5 por el del paso 6. Al valor uno restarle el resultado del paso 7. CORRELACIÓN (coeficiente de correlación Q de Kendall - Yule) Evalúa la intensidad de una relación entre variables dicotómicas. Es aplicable cuando tenemos dos variables nominales, cada una de ellas con sólo dos categorías cuyos datos están organizados en una tabla de contingencia de dos por dos. Se interpreta igual que el coeficiente de correlación de Pearson. El coeficiente de Yule se representa con el símbolo “Q”. Un ejemplo es querer saber la asociación entre las variables sexo y práctica de deportes. REGRESIÓN El coeficiente de correlación y la regresión lineal simple son las dos técnicas estadísticas más utilizadas para investigar la relación entre dos variables continuas X e Y. La correlación pertenece a la estadística descriptiva y la regresión a la estadística inferencial. REGRESIÓN SIMPLE LINEAL Es un modelo matemático para estimar el efecto de una variable sobre otra. Está asociado con el coeficiente r de Pearson. La regresión sirve para describir cómo es la relación entre dos variables X e Y, de tal manera que nos permite hacer predicciones sobre los valores de la variable Y a partir de los de X. Es importante saber que las predicciones que se realizan no son para los sujetos de las muestras que conocemos, sino para cualquier sujeto perteneciente a la misma población Cuando la correlación entre ambas variables es fuerte, la regresión nos ofrece un modelo estadístico que pueda alcanzar finalidades predictivas. Es la estimación de una recta que mejor se ajusta a las observaciones. Esta recta se obtiene aplicando el criterio de los cuadrados mínimos, lo que significa que la suma de las distancias de cada punto a la recta teórica, elevados al cuadrado, será un valor mínimo. La regresión supone que hay una variable fija controlada por el investigador (es la variable independiente, variable X) y otra que no está controlada (variable dependiente, variable Y). La correlación supone que ninguna es fija: las dos variables están fuera del control del investigador. Se trata de una técnica estadística que analiza la relación entre dos variables cuantitativas, tratando de verificar si dicha relación es lineal. Si tenemos dos variables hablamos de regresión simple, si hay más de dos variables regresión múltiple. Tenemos que tener los siguientes supuestos: − − Que la muestra haya sido tomada al azar de la población (muestreo probabilístico) Que las dos variables se distribuyan normalmente. Ejemplo: supongamos que un investigador administró un test de inteligencia y hallo el Coeficiente Intelectual (CI) de un grupo de alumnos, esta sería la variable independiente o predictora (X) y quiere predecir el rendimiento de los alumnos en una prueba de Razonamiento Lógico, esta es la variable dependiente o respuesta (Y). Dicho de otra manera el investigador a través del conocimiento del CI puede predecir el rendimiento de los alumnos en la prueba de Razonamiento Lógico ¿A QUÉ LLAMAMOS RELACIÓN LINEAL ENTRE DOS VARIABLES? Es una tendencia en los datos que se puede expresar mediante una línea recta. Cuando ambas variables aumentan o disminuyen simultáneamente a un ritmo constante, existe una relación lineal positiva. Cuando una variable aumenta mientras que la otra disminuye, existe una relación lineal negativa. 16 Una vez que hemos hecho el diagrama de dispersión y después de observar una posible relación lineal entre las dos variables, nos proponemos encontrar la ecuación de la recta que mejor se ajuste a la nube de puntos. Esta recta se denomina recta de regresión. Es la estimación de una recta que mejor se ajusta a las observaciones. Esta recta se obtiene aplicando el criterio de los cuadrados mínimos, lo que significa que la suma de las distancias de cada punto a la recta teórica, elevados al cuadrado, será un valor mínimo. Nos basamos para realizar la predicción en la ecuación de la recta: Y = a + b.x donde Y es un valor de la variable dependiente, que se desea predecir, “a” es la ordenada en el origen (distancia donde la recta corta el eje Y desde el origen). “b” la pendiente y “x” el valor de la variable independiente. El coeficiente de regresión es muy importante, porque mide el cambio de la variable Y por cada unidad de cambio de la variable X. Este parámetro nos informa de cómo están relacionadas las dos variables en el sentido de que nos indica si es positiva o negativa y en qué cantidad varían los valores de Y cuando varían los valores de la X en una unidad. De hecho, el coeficiente de regresión b y el coeficiente de correlación r siempre tendrán el mismo signo. − − Si b > 0, cada aumento de X se corresponde con un aumento de Y. Si b < 0, Y decrece a medida que aumenta X. Uno de los objetivos más importantes de la regresión es la aplicación del modelo para el pronóstico del valor de la variable dependiente (Y) para un valor de la variable independiente (X) no observado en la muestra. Un aspecto importante a la hora de aplicar el modelo de regresión obtenido es el riesgo de la extrapolación. Es decir, cuando queremos conocer el valor que presentará la variable Y para un determinado valor de X que se encuentre fuera del intervalo de valores que toma la muestra, tenemos que ir con mucho cuidado: a. b. Hemos determinado el modelo con la información contenida en la muestra, de manera que no hemos tenido ninguna información del comportamiento de la variable Y para valores de X de fuera del rango de la muestra. Es posible que no tenga sentido la extrapolación que queremos hacer. Antes de utilizar el modelo de regresión, debemos preguntarnos por lo que estamos haciendo. Por ejemplo, no tendría ningún sentido utilizar el modelo de regresión para calcular el peso de personas de diez centímetros o en el caso de nuestro ejemplo donde las calificaciones están comprendidas entre 1 y 10 reemplazar por 15 para predecir el valor de Y. Si la correlación no es perfecta siempre se va a cometer un error en el valor estimado, es posible determinar el error que se puede cometer en la predicción realizada, para ello se debe determinar el ERROR ESTÁNDAR DE LA ESTIMACIÓN PREDICTIVA. Si conocemos el desvío de la variable dependiente (Sy) y el coeficiente de correlación (r), podemos calcular el error estándar de la estimación predictiva. Este valor (para estimar Y a partir de X, siendo la variable independiente X) es: Con este error estándar conocido es posible determinar el camino crítico (dos líneas de puntos alrededor de la recta de regresión). Me permite calcular entre qué valores estará cualquier valor que estoy prediciendo. 3) DISTRIBUCIÓN CHI CUADRADO → variables cualitativas (generalmente del nivel nominal y ordinal) 17 En la investigación nos encontramos con frecuencia con datos o variables de tipo cualitativo, mediante las cuales un grupo de individuos se clasifican en dos o más categorías mutuamente excluyentes. Las proporciones son una forma habitual de expresar frecuencias cuando la variable objeto de estudio tiene dos posibles respuestas, como presentar o no un evento de interés (enfermedad, muerte, curación, etc.). Cuando lo que se pretende es comparar dos o más grupos de sujetos con respecto a una variable categórica, los resultados se suelen presentar a modo de tablas de doble entrada que reciben el nombre de tablas de contingencia. Así, la situación más simple de comparación entre dos variables cualitativas es aquella en la que ambas tienen sólo dos posibles opciones de respuesta (es decir, variables dicotómicas). Una de las tantas pruebas de hipótesis que existen es la Prueba de Chi cuadrado que permite evaluar hipótesis acerca de la relación entre dos variables categóricas. Se concentra en la cantidad de objetos o personas de las diferentes categorías más que en la media aritmética de alguna dimensión. * En las pruebas de Chi cuadrado la idea básica es que se compare la forma en que se reparten las personas u objetos dentro del esquema observado (varias categorías de la variable) y sobre este esquema de reparto, observar cómo se ajusta a un esquema esperado. Por lo tanto, una prueba Chi cuadrado describe cómo la comparación de una distribución de frecuencias observadas con una distribución de frecuencias esperadas y luego observar si esas discrepancias son mayores de lo que se esperaría por casualidad o azar. En otras palabras, para realizar este contraste se disponen los datos en una tabla de frecuencias. Para cada valor o intervalo de valores se indica la frecuencia absoluta observada o empírica (Oi). A continuación, y suponiendo que la hipótesis nula es cierta, se calculan para cada valor o intervalo de valores la frecuencia absoluta que cabría esperar o frecuencia esperada (Ei= n.pi, donde n es el tamaño de la muestra y p, la probabilidad del iésimo valor o intervalo de valores según la hipótesis nula). La fórmula de Chi cuadrado nos permite obtener un indicador general de la discrepancia entre las frecuencias observadas y las frecuencias esperadas, denominándose a la cantidad obtenida estadístico de Chi-cuadrado. La hipótesis nula de la prueba chi-cuadrado postula una distribución de probabilidad totalmente específica como el modelo matemático de la población que ha generado la muestra. Hipótesis nula (H0): postula que X e Y son independientes. Hipótesis alternativa (Ha): postula que X e Y no son independientes (no importa cual sea la relación que mantengan ni el grado de esta). La condición de dependencia es: Si X e Y son independientes si y sólo si para cualquiera pareja de valores x e y la probabilidad de que X tome valor X e Y el valor Y simultáneamente es igual al producto de las probabilidades de que cada una tome el valor correspondiente. Por tanto, todo lo que necesitamos serán unas estimas de las funciones de probabilidad de ambas variables por separado [f(x) y f(y)] y de la función de probabilidad conjunta [f(x,y)]. Una condición básica para que podamos llevar a cabo una prueba chi-cuadrado es que las frecuencias de las distintas clases deberán ser suficientemente altas como para garantizar que pequeñas desviaciones aleatorias en la muestra no tengan importancia decisiva sobre el valor del estadístico de contraste. Este estadístico tiene una distribución Chi-cuadrado con k-1 grados de libertad si n es suficientemente grande, es decir, si todas las frecuencias esperadas son mayores que 5. En la práctica se tolera un máximo del 20% de frecuencias inferiores a 5. Si existe concordancia perfecta entre las frecuencias observadas y las esperadas el estadístico tomará un valor igual a 0; por el contrario, si existen grandes discrepancias entre estas frecuencias el estadístico tomará un valor grande y, en consecuencia, se rechazará la hipótesis nula. Así pues, la región crítica estará situada en el extremo superior de la distribución Chi-cuadrado con k-1 grados de libertad. La prueba de Chi – cuadrado no requiere los supuestos usuales de normalidad de la población, de igualdad de varianza, etc. Si debemos tener en cuenta un supuesto: NO DEBE EXISTIR NINGUNA RELACIÓN ESPECIAL DE NINGUNO DE LOS VALORES OBSERVADOS CON ALGÚN OTRO VALOR OBSERVADO. Significa que no es posible utilizar las pruebas de Chi – cuadrado, si las observaciones se basan en las mismas personas puestas a prueba más de una vez. Para poder averiguar si el estadístico de Chi- cuadrado obtenido presenta una discrepancia mayor a la que podría ocurrir por casualidad (azar) debemos saber cuáles son las probabilidades de que Chi cuadrado asuma valores de distintos intervalos obtenidos por azar, es decir, necesitamos la distribución del estadístico de Chi- cuadrado que ocurriría por casualidad. Para ello, se utiliza una distribución de probabilidad (modelo matemático) que recibe el nombre de DISTRIBUCIÓN DE CHI-CUADRADO. 18 Se puede utilizar este modelo debido a que valores obtenidos empíricamente del estadístico Chi - cuadrado se aproximan en forma estable a dicha distribución matemática. La Distribución de Chi – cuadrado depende de los grados de libertad (k). En una prueba de Chi- cuadrado, los grados de libertad son la cantidad de categorías que son libres de variar en cuanto a sus frecuencias, dándose como conocido el total de elementos que las componen. GRADOS DE LIBERTAD (K) = (cantidad de columnas -1) (cantidad de hileras -1) UTILIZACIÓN DE LA DISTRIBUCIÓN CHI CUADRADO: tiene muchas aplicaciones en inferencia estadística, por ejemplo en la denominada prueba χ² utilizada como prueba de independencia y como prueba de bondad de ajuste y en la estimación de varianzas. También está involucrada en el problema de estimar la media de una población normalmente distribuida y en el problema de estimar la pendiente de una recta de regresión lineal, a través de su papel en la distribución t de Student, y participa en todos los problemas de análisis de varianza, por su papel en la distribución F de Snedecor, que es la distribución del cociente de dos variables aleatorias independientes con distribución χ². TABLA DE CHI CUADRADO: Lo importante acerca de la distribución de Chi cuadrado, cuando establecemos prueba de hipótesis, es el punto de corte que nos indica que un Chi- cuadrado es lo suficientemente grande como para rechazar la hipótesis nula (H0). Una tabla de Chi cuadrado proporciona los puntos de corte para los distintos niveles de significación y para varios grados de libertad. ESTIMACIÓN DE PARÁMETROS La estadística tiene dos funciones: describir un conjunto de datos, probar hipótesis y estimar parámetros (correspondientes a la estadística inferencial). Las muestras son tomadas para estimar parámetros y para probar hipótesis de esos parámetros. − PARÁMETROS: son las medidas estadísticas de la población, por ejemplo, media aritmética y el desvío estándar de la población. Los parámetros de la población se desconocen generalmente, siendo uno de los primordiales principios de la estadística el estimarlos. El método o estadístico empleado para ello se denomina estimador del parámetro poblacional. − ESTADÍSTICOS: son las medidas que calculamos en la muestra, por ejemplo, la media aritmética y el estándar de la muestra. Supongamos que extraemos una muestra de una población y calculamos la media, si tomamos otra muestra, la media tendrá otro valor y así sucesivamente. Lo mismo pasa con las varianzas de cada una de las muestras, son distintas en cada muestra. Con las medias obtenidas, podemos construir una distribución de frecuencias para los valores de las medias de cada muestra bien, a medida que aumenta el número de muestras extraídas de tamaño n, esa distribución se aproxima a una distribución teórica que denominaremos distribución muestral del estadístico media. La media de la distribución muestral es igual a la media de la población. Esta distribución muestral se distribuye normalmente (teorema central del límite). La variabilidad de las medias muestrales se puede medir por su desviación estándar. Esta medida se conoce como el error estándar y tiende a disminuir cuando aumenta el tamaño de la(s) muestra(s). I. II. ESTIMACIÓN PUNTUAL: es cuando asignamos al parámetro de la población un valor concreto. Los mejores estimadores puntuales de la media poblacional es la media de la distribución normal y de la desviación estándar de la población es el error estándar de la distribución muestral. ESTIMACIÓN POR INTERVALOS: como no se puede esperar que un estimador puntual suministre el valor exacto del parámetro poblacional, se suele calcular una estimación por intervalo al sumar y restar al estimador puntual una cantidad llamada margen de error. La amplitud de un intervalo de confianza para la media poblacional depende de tres factores: el nivel de confianza (que está determinado por dos valores dentro de los cuales afirmamos que está el verdadero parámetro con cierta probabilidad son unos límites o margen de variabilidad que damos al valor estimado para poder afirmar bajo un criterio de probabilidad que el verdadero valor no estará por fuera de esos límites), la desviación estándar poblacional y el tamaño de la muestra. En la estimación por intervalos se usan los siguientes conceptos: − VARIABILIDAD DEL PARÁMETRO: si no se conoce, puede obtenerse una aproximación en los datos o en un estudio piloto. También hay métodos para calcular el tamaño de la muestra que prescinden de este aspecto. Habitualmente se usa como medida de esta variabilidad la desviación típica poblacional y se denota . − ERROR DE ESTIMACIÓN: es una medida de su precisión que se corresponde con la amplitud del intervalo de confianza. Cuanta más precisión se desee en la estimación de un parámetro, más estrecho deberá ser el intervalo de confianza y, por lo tanto, menor el error y más sujetos deberán incluirse en la muestra estudiada. − NIVEL DE CONFIANZA: es la probabilidad de que el verdadero valor del parámetro estimado en la población se sitúe en el intervalo de confianza obtenido. El nivel de confianza se denota por (1-) aunque habitualmente suele expresarse con un porcentaje ((1-) .100%). Es habitual tomar como nivel de confianza un 95% o un 99% que se corresponden con valores de 0,05 y 0,01 respectivamente. 19 − − VALOR / VALOR DE SIGNIFICACIÓN: es la probabilidad de fallar en nuestra estimación, esto es, la diferencia entre la certeza (1) y el nivel de confianza (1-). Por ejemplo, en una estimación con un nivel de confianza del 95%, el valor es (100-95)/100= 0,05 VALOR CRÍTICO: Se representa por 𝑍𝑎/2 . Es el valor de la abscisa en una determinada distribución que deja a su derecha un área igual a α/2, siendo 1-α el nivel de confianza. Normalmente los valores críticos están tabulados o pueden calcularse en función de la distribución de la población. Por ejemplo, para una distribución normal, de media 0 y desviación típica 1, el valor crítico para α = 0,05 se calcularía del siguiente modo: se busca en la tabla de la distribución ese valor (o el más aproximado), bajo la columna "Área"; se observa que se corresponde con -0,64. Entonces Zα/2 = 0,64. 20 PRUEBA DE HIPÓTESIS Si la variable X es normal y no conocemos el desvío estándar poblacional (así que lo estimamos usando el desvío estándar muestral S) utilizamos el puntaje t. La distribución es t de student con n-1 grados de libertad. Si la variable X tiene distribución normal y conocemos el desvío estándar poblacional, entonces la estadístico que se usa es el puntaje z. Y realizamos el siguiente procedimiento: − Establecemos la hipótesis de que la media de la muestra pertenece a la población. − Establecemos la hipótesis de nulidad. H0= no hay diferencia entre la media de la muestra y la media de la población, a un nivel de significación del 5%, dicho de otro modo, con un nivel de confianza del 95%. − Establezco la hipótesis alternativa. H1= hay diferencias entre la media de la muestra y la media de la población. − Reducimos la diferencia entre la media poblacional y la media muestral a puntajes z. − Buscamos en la tabla de la curva normal el valor de z teniendo en cuenta el nivel de significación elegido 5% me quedaría a cada lado de la curva el 2,5%. Entonces bucaría el área del 47,5% y el z que le corresponde es z=+/- 1,96 − Hallo el z empírico con los datos de la muestra. − Comparo el z hallado en la tabla con el z calculado con la fórmula. Si el z hallado en la tabla es mayor que el z calculado NO RECHAZAMOS la hipótesis nula y decimos que las diferencias entre las medias no son significativas. Si el z hallado en la tabla es menor que el z calculado RECHAZAMOS la hipótesis nula y decimos que la media de la muestra no pertenece a la población, con un riesgo a equivocarnos del 1% (si trabajé con el nivel de aceptación del 99%). A) B) 4) ERROR TIPO I o ALFA: se comete al rechazar la hipótesis nula (H0) siendo esta verdadera. Así, la probabilidad de cometer un error de tipo I es , que es el nivel de significación que hemos establecido para nuestra prueba de hipótesis. Si por ejemplo el que habíamos establecido es de 0,05 esto indicaría que estamos dispuestos a aceptar una probabilidad del 5% de equivocarnos al rechazar la hipótesis nula. ERROR TIPO ll o BETA: se comete al aceptar la hipótesis nula (H0) siendo esta falsa. Es decir, la probabilidad de cometer un error tipo ll es beta (B) y depende de la potencia de la prueba (1-B). Para reducir el riesgo de cometer un error tipo II, podemos optar por asegurarnos de que la prueba tiene suficiente potencia. Para ello, deberemos asegurarnos de que el tamaño de la muestra es lo suficientemente grande como para detectar una diferencia cuando ésta realmente exista. DISTRIBUCIÓN T DE STUDENT → muestras chicas >30 casos Se usa en los niveles intervalar y racional. Se aplica cuando queremos estimar la media aritmética de la población y para comparar medias. Es unimodal y simétrica con media igual a 0. Es semejante a la curva normal pero más aplanada y más alargada. El estadístico t es como el puntaje z. Hay diferentes distribuciones t según los grados de libertad (gl) que se refiere al número de valores que puede variar libremente después que se han impuesto ciertas restricciones a la serie de datos. A medida que aumentan los grados de libertad, las diferencia entre la CN y la t de Student se hacen mínimas. Cuando los grados de libertad son mayores a 30 la distribución t de Student puede ser reemplazada por la normal. Aplicaciones de la t de Student: − − − Prueba de hipótesis sobre el valor de una media paramétrica con muestras pequeñas y se desconoce el desvío estándar de la población. Prueba de hipótesis sobre diferencias entre medias con muestras pequeñas. Es una prueba para evaluar si dos grupos difieren entre sí de manera significativa respecto a sus medias en una variable. Ho = los grupos no difieren significativamente; Ha = los grupos difieren significativamente. Estimación de parámetros para muestras menores a 30 casos. MUESTREO El proceso del diseño del muestreo tiene diferentes pasos: 1) Definición de la población meta. 2) Determinar el marco de muestreo. 3) Seleccionar las técnicas de muestreo. 4) Determinar el tamaño de la muestra. El muestreo es una herramienta estadística cuya función básica es determinar qué parte de una población debe examinarse con la finalidad de hacer inferencias sobre la misma. En ocasiones en que no es posible o conveniente realizar un censo (analizar a todos los elementos de una población) 21 se selecciona una muestra entendiendo por tal un subconjunto representativo de la población. La muestra debe lograr una representación adecuada de la población en la que se reproduzca de la mejor manera los rasgos esenciales de la misma. Para que una muestra sea representativa y, por lo tanto útil, debe de reflejar las similitudes y diferencias encontradas en la población, es decir, ejemplificar las características de ésta. Los errores más comunes que se pueden cometer son: 1) 2) Hacer conclusiones muy generales a partir de la observación de sólo una parte de la población: esto es llamado error de muestreo. Hacer conclusiones hacia una población mucho más grande de la que originalmente se tomó la muestra: esto se llama error de inferencia. La elección del tamaño de la muestra se debe justificar convenientemente de acuerdo al planteamiento del problema, la población, los objetivos y el propósito de la investigación. El tamaño muestral dependerá de decisiones estadísticas y no estadísticas, puede incluir por ejemplo la disponibilidad de los recursos humanos y económicos. Antes de calcular el tamaño muestra necesitamos determinar varias cosas: → TAMAÑO DE POBLACIÓN: cuanto más grande es una población, mayor será el tamaño de la muestra. → HOMOGENEIDAD: hace referencia a la dispersión en alguna variable relevante en la investigación. Cuanto más heterogénea sea una población, mayor será el tamaño de la muestra. → ERROR MUESTRAL: hace referencia a cuánto varían los resultados de la muestra respecto a la población. Equivale a un rango de valores en el que se encuentra el resultado de la población. Lo escoge el investigador, aunque suelen ser en investigaciones psicológicas 3% o 5%. Cuanto menor sea el error muestral, más grande será el tamaño de la muestra ya que para ser más precisos (menos error) debemos estudiar más individuos (más tamaño de la muestra). → NIVEL DE CONFIANZA: es la probabilidad de que el resultado obtenido se encuentre dentro del intervalo de confianza. Se suelen utilizar niveles de confianza del 95% y 99%. Hay también distintas formas de calcular el tamaño de la muestra, según se conozca o no el tamaño de la población: → CÁLCULO DEL TAMAÑO DE LA MUESTRA DESCONOCIENDO EL TAMAÑO DE LA POBLACIÓN: → CÁLCULO DEL TAMAÑO DE LA MUESTRA CONOCIENDO EL TAMAÑO DE LA POBLACIÓN: MUESTREO PROBABILÍSTICO Son aquellos que se basan en el principio de igual probabilidad. Es decir, aquellos en los que todos los individuos tienen la misma probabilidad de ser elegidos para formar parte de una muestra y, por consiguiente, todas las posibles muestras de tamaño n tienen la misma probabilidad de ser seleccionadas. Sólo estos métodos de muestreo probabilísticos nos aseguran la representatividad de la muestra extraída y son, por lo tanto, los más recomendables. 1) MUESTREO ALEATORIO SIMPLE: se realiza un listado y se asigna un número a cada individuo de la población. A través de algún medio (bolas dentro de una bolsa, tables de números aleatorios, números aleatorios generados con una computadora, etc.) se eligen tantos sujetos como sea necesario para completar el tamaño de muestra requerido. Este procedimiento tiene poca o nula utilidad práctica cuando la población que estamos manejando es muy grande. La tabla de números aleatorios se utiliza para seleccionar individuos por azar simple. Se puede escoger los individuos por columna o por fila. Lo importante es que siempre tenemos que trabajar con la cantidad de dígitos que tiene la población. 2) MUESTRO ALEATORIO SISTEMÁTICO: exige numerar todos los elementos de la población pero en lugar de extraer n números aleatorios sólo se extrae uno. Se parte de ese número aleatorio que se obtiene dividiendo la cantidad de casos de la población (N) por la cantidad de casos de la muestra (n). Por ejemplo, si tengo una población de 1000 casos y quiero sacar una muestra de 50 casos hago 1000/50= 20, k sería el intervalo para extraer cada individuo entonces si k es igual a 20, cada 20 casos tomo uno, pero el primero lo selecciono por el método de azar simple. Por ejemplo, extraigo por azar el 5 entonces al siguiente debería sumarle 20, es decir, el segundo sería el individuo 25. El riesgo de este tipo de muestreo está en los casos en que se dan periodicidades en la población ya que al elegir a los miembros de la muestra con una periocidad constante (k) podemos introducir una homogeneidad que no se da en la población. 3) MUESTREO ALEATORIO ESTRATIFICADO: trata de obviar las dificultades que presentan los anteriores muestreos, simplificando los procesos y suele reducir el error muestral para un tamaño dado de la muestra. Consiste en considerar categorías típicas diferentes entre sí (estratos) 22 que poseen gran homogeneidad respecto a alguna característica (se puede estratificar, por ejemplo, según la profesión, el municipio de residencia, el sexo, el estado civil, etc.). Lo que se pretende con este tipo de muestreo es asegurarse de que todos los estratos de interés estarán representados adecuadamente en la muestra. Cada estrato funciona independientemente, pudiendo aplicarse dentro de ellos el muestreo aleatorio simple o sistemático para elegir los individuos que formarán parte de la muestra. En ocasiones, las dificultades que plantean son demasiado grandes, pues exige un conocimiento detallado de la población. Sus ventajas son: − Cuenta con mayor capacidad de hacer inferencia y comparaciones dentro de un grupo. − Las muestras son más representativas ya que los elementos de cada estrato o grupo son representados en la muestra. − Se puede obtener mayor conocimiento sobre la población abordada. − Permite aplicar diversos métodos de investigación y procedimientos para ser aplicados en los diferentes estratos. − Hace posible el análisis de los patrones dentro del estrato y la notificación separada de los resultados para cada uno de los estratos. Sus desventajas son: − − − − a. b. 4) Es necesario información sobre la proporción de la población que pertenece a cada estrato. Se requiere la información sobre las variables de estratificación de cada elemento de la población, ya que de no contar con esta información puede ser muy costosa la recopilación. Es un método más costoso, ya que implica tiempo y es un poco más complicado en comparación con otros métodos. Si se trabaja con un gran número de variables, la selección de las de estratificación resultará más difícil. MUESTREO ESTRATIFICADO PROPORCIONAL: cuando dividimos una población en estratos, es habitual que el tamaño de dichos estratos sea diferente. Por ejemplo, si queremos estudiar el porcentaje de personas que tienen algún padecimiento mental en Argentina y pensamos que la edad puede ser un buen criterio para estratificar, podemos definir estratos: de 0 a 14, de 15 a 24, de 25 a 54, de 55 a 64 y de 65 y más. Es de esperar que al dividir toda la población argentina en estos 5 estratos no resulten grupos de igual tamaño. La muestra deberá tener estratos que guarden las mismas proporciones observadas en la población. MUESTREO ESTRATIFICADO NO PROPORCIONAL: permite al investigador, sin importar la cantidad de individuos que conformen la población del estrato, realizar una muestra de forma equitativa. MUESTREO ALEATORIO POR CONGLOMERADOS: el investigador selecciona grupos o conglomerados y de cada grupo selecciona a los sujetos individuales, ya sea por muestreo aleatorio simple o muestreo aleatorio sistemático. El investigador también puede optar por incluir a todo el conglomerado, no sólo a un subconjunto. El conglomerado más utilizado en la investigación es un conglomerado geográfico. Lo más importante sobre esta técnica de muestreo es dar a todos los conglomerados iguales posibilidades de ser seleccionados. Los conglomerados son homogéneos entre sí y heterogéneos en sí. Sus ventajas son: − Es económica, rápida y fácil. El investigador puede asignar sus recursos limitados a los pocos conglomerados o áreas seleccionadas aleatoriamente. − El investigador puede aumentar el tamaño de su muestra, puede seleccionar más sujetos ya que son más accesibles. Sus desventajas: − De todos los diferentes tipos de muestreo probabilístico, esta técnica es la menos representativa de la población. − La tendencia de los individuos dentro de un conglomerado es tener características similares y con una muestra por conglomerados, existe la posibilidad de que el investigador pueda tener un conglomerado sobrerrepresentado o infrarrepresentado. − Tiene una posibilidad de error de muestreo muy alto. MUESTREO POR CONGLOMERADOS Sólo se elige una muestra de subpoblaciones Su objetivo es incrementar la precisión al reducir costos. En relación a la homogeneidad y heterogeneidad, el criterio para formar conglomerados es el opuesto al de formar estratos. Los elementos dentro de un conglomerado deben ser tan heterogéneos como sea posible. Cada conglomerado debe ser una representación en pequeña escala de la población. Sólo se realiza una muestra sobre una cantidad de conglomerados y los demás quedan sin representación. MUESTREO ESTRATIFICADO Todas las subpoblaciones (estratos) se seleccionan para muestreo posterior. MUESTREO NO PROBABILÍSTICO A veces, para estudios exploratorios, el muestreo probabilístico resulta excesivamente costoso y se acude a métodos no probabilísticos, aun siendo conscientes de que no sirven para realizar generalizaciones (estimaciones inferenciales sobre la población), pues no se tiene certeza de que la muestra extraída sea representativa, ya que no todos los sujetos de la población tienen la misma probabilidad de ser elegidos. Se utilizan en estudios de tipo piloto. 1) MUESTREO POR CUOTAS O ACCIDENTAL: se asienta generalmente sobre la base de un buen conocimiento de los estratos de la población y/o los individuos más “representativos” o “adecuados” para los fines de la investigación. Mantiene semejanzas con el muestreo aleatorio 23 2) 3) estratificado, pero no tiene el carácter de aleatoriedad de aquél. Los individuos no son elegidos al azar. En este tipo de muestreo se fijan unas “cuotas” que consisten en un número de individuos que reúnen unas determinadas condiciones. Una vez determinada la cuota se eligen los primeros que se encuentren que cumplan con esas características. Este método se utiliza mucho en las encuestas de opinión. MUESTREO INTENCIONAL O DE CONVENIENCIA: se caracteriza por un esfuerzo deliberado de obtener muestras “representativas” mediante la inclusión en la muestra de grupos supuestamente típicos. Es muy frecuente su utilización en sondeos preelectorales de zonas que en anteriores votaciones han marcado tendencias de voto. También puede ser que el investigador seleccione directa o intencionalmente los individuos de la población. El caso más frecuente de este procedimiento es utilizar como muestra los individuos a los que se tiene fácil acceso, por ejemplo, los profesores de universidad que emplean con mucha frecuencia a sus propios alumnos. BOLA DE NIEVE: se localiza a algunos individuos, los cuales conducen a otros y estos a otros y así hasta conseguir una muestra suficiente. Este tipo de muestreo se emplea muy frecuentemente cuando se hacen estudios con poblaciones marginales como delincuentes, sectas, determinados tipos de enfermos, etc. 24