CONCEPTOS BÁSICOS Y ORGANIZACIÓN DE DATOS EN TABLAS DE FRECUENCIAS Profesora: Ysabel Adriazola Valores que inspiran nuestra actividad académica en la universidad: El amor al saber, la libertad, la honestidad, la responsabilidad y el respeto. UNIDAD 1: “ESTADÍSTICA DESCRIPTIVA” PRIMERA SEMANA 1.Concepto y definición de la Estadística 2.Clasificación de la Estadística. Objetivos 3.Terminología Estadística: Población, muestra, muestreo, parámetro, unidad de análisis. 4.Clasificación de variables: Cuantitativa y cualitativa. 3/30/2023 2 1. Estadística : Definición La Estadística es la Ciencia que proporciona un conjunto de métodos y procedimientos para: recolección, clasificación (organización), análisis e interpretación de datos, en adecuada para la toma decisiones. forma 2. Clasificación de la Estadística 1. Estadística Descriptiva 2. Estadística Inferencial Estadística Descriptiva Un estudio estadístico se considera “descriptivo” cuando la finalidad es describir y analizar los datos de una población o de una muestra. En esta parte de la estadística se estudia los siguientes temas: # Tablas de distribuciones de frecuencias. # Representaciones gráficas. # Estadísticas de tendencia central o de posición. # Estadísticas o estadígrafos de dispersión. # Estadísticas de forma. 5 Estadística Inferencial Es la rama de la estadística que usa métodos estadísticos con los que es posible hacer una generalización o inferencia acerca de una característica de la población en base a la información contenida en la muestra. La Teoría de la Probabilidad es el soporte de la Inferencia Estadística. Ejemplos: # La estadística inferencial comprende dos áreas importantes: # Estimación : Puntual y por intervalos. # Pruebas de hipótesis estadística. # Encuestas de opinión sobre la calidad de servicio de una Empresa. Encuestas de satisfacción laboral de una empresa. 6 3.Terminología Estadística: Población, muestra, muestreo, parámetro, unidad de análisis 3/30/2023 7 CONCEPTOS BÁSICOS Población: Es la colección de todos los individuos, objetos u observaciones que poseen al menos una característica en común (N). Muestra: Parte extraída de una población mediante métodos que permiten considerarla representativa de la misma: Muestra estadística (n). Parámetro: Es un número que Estadístico: Es una medida de describe alguna característica de la población. Para conocer su valor es necesario utilizar los datos de toda la población. En general los parámetros de una población son desconocidos. resumen utilizada para describir alguna característica de la muestra. Para determinar su valor numérico se utiliza solo la información de una muestra. 3/30/2023 Unidad de análisis: Se define como el elemento que se observa y del que se busca la información relacionada a las variables de interés. Dato: Es el valor registrado de una variable en una unidad de análisis. Muestreo: Es una herramienta de la investigación científica. Su función básica es determinar que parte de una realidad en estudio (población) debe examinarse con la finalidad de hacer inferencias sobre dicha población. Ejemplos: Población # Todos los alumnos matriculados en la Universidad Technology en el Semestre 2022-1. # Todas las personas residentes en el distrito de Pueblo Libre. # Todas las personas mayores de edad que residen en la ciudad de Lima al mes de marzo del año 2022. Unidad de análisis Muestra # Cien alumnos matriculados en la Universidad Technology en el Semestre 2022-1. # Quinientas personas residentes en el distrito de Pueblo Libre. # Mil personas mayores de edad que residen en la ciudad de Lima al mes de marzo del año 2022. # Un alumno matriculado en la Universidad Technology en el Semestre 2022-1. # Una persona residente en el distrito de Pueblo Libre. # Una persona mayor de edad que reside en la ciudad de Lima al mes de marzo del año 2022. Parámetro (Población) Estadístico (Muestra) # La edad promedio de todos alumnos matriculados en la los Universidad Technology en el Semestre 2022-2. # La edad promedio una muestra de 𝑿 100 alumnos matriculados en la Universidad Technology en el Semestre 2022-2. # La variabilidad existente en la edad de todos los alumnos 2 matriculados en la Universidad Technology en el Semestre 2022-2. # La variabilidad existente en la edad de una muestra de 100 alumnos 2 S matriculados en la Universidad Technology en el Semestre 2022-2. # La proporción de alumnos matriculados en la Universidad 𝝅 Technology en el Semestre 2022-2. con un PPA de como mínimo 15. # La proporción de alumnos con un PPA de como mínimo 15 en una muestra de p 100 alumnos matriculados en la Universidad Technology en el Semestre 2022-2 . Variable / Dato # # # # Edad: 18 años. Nota: 20. Género: Femenino Carrera: Economía. PARÁMETROS y ESTADÍGRAFOS (ESTADÍSTICOS) NOTACIÓN MEDIDA PARÁMETRO (POBLACIÓN) ESTADÍGRAFO (MUESTRA) Media 𝑿 Varianza 2 S2 Desviación estándar S Proporción 𝜋 3/30/2023 p 11 3/30/2023 12 4.Clasificación de variables: Cuantitativa y cualitativa. 3/30/2023 13 CLASIFICACIÓN DE VARIABLES Una variable es una característica observable que varía entre los diferentes elementos de una población o muestra. Una variable puede ser clasificada como cualitativa o cuantitativa. Convencionalmente las variables son representadas por las últimas letras del alfabeto, por ejemplo X, es la letra más usada para representar a una variable. 3/30/2023 14 VARIABLES CUALITATIVAS Las variables cualitativas (atributo) tienen la característica que sus valores (modalidades) no pueden ser expresados en términos numéricos (no se pueden hacer operaciones algebraicas con ellos). Pueden ser medidas en escala nominal u ordinal. Ejemplos: • Estado civil de los clientes de una tienda (escala nominal): Soltero, casado, viudo, divorciado. • Calidad de los frascos de mermelada: A, B, C. (escala ordinal). 3/30/2023 Nominal: Si sus valores no se pueden ordenar. Ordinal: Si sus valores pueden ser jerarquizados 15 Una variable cuantitativa, es la que se expresa mediante un número, por tanto se pueden realizar operaciones aritméticas con ella. Pueden ser discretas o continuas: Ejemplos: • Variable discreta: Número de veces que un cliente visita un banco en un mes. • Variable continua: Contenido neto en gramos de los frascos de mermelada 3/30/2023 Discretas: Puede tomar un número finito o infinito numerable de valores. Su recorrido lo conforman valores enteros. Continuas: Su recorrido puede tomar cualquier número real; lo conforman infinitos valores (entre dos valores numéricos hay infinitos valores intermedios). 16 3/30/2023 17 GESTIÓN DE BASES DE DATOS CON R Studio Estadística Descriptiva herramientas 3/30/2023 20 PROCEDIMIENTO 1. Inicie una sesión del programa R-Studio Ventana 1 Aquí se digitan las instrucciones Ventana 3 Aquí se observarán los resultados Ventana 2 Aquí se visualizan las bases de datos cargadas y objetos creados Ventana 4 Aquí se eligen los paquetes para su instalación IMPORTAR UN ARCHIVO EN EXCEL 1 2 3 4 3/30/2023 3/30/2023 23 3/30/2023 24 RECODIFICACIÓN: VARIABLE CUALITATIVA EN SUS ETIQUETAS DE VALORES 3/30/2023 25 RECODIFICACIÓN: VARIABLE CUALITATIVA EN SUS ETIQUETAS DE VALORES 3/30/2023 26 3/30/2023 27 RECODIFICACIÓN: VARIABLE CUANTITATIVA-VARIABLE CUALITATIVA RECODIFICACIÓN: VARIABLE CUANTITATIVA-VARIABLE CUALITATIVA 1. Utilice los datos de la variable cuantitativa sueldo (columna 3) y genere la variable cualitativa nivel de sueldo (que denominaremos: NIVEL_SUELDO) guardando los datos en la columna 9. Para la recodificación considere la siguiente clasificación: • • • Nivel 1 Nivel 2 Nivel 3 : sueldos menores que 2500 soles. : sueldos de 2500 o más pero inferiores a 7000 soles. : sueldos de 7000 soles a más. #A continuación se generará una variable CUALITATIVA denominada NIVEL_ SUELDO a partir de una variable CUANTITATIVA (SUELDO). Esto se realizará con una recodificación por RANGOS. # Llamar al paquete car library(car) #Seguidamente en la ventana 1, incluir la sentencia que nos permitirá realizar la recodificación por rangos: herramientasR$NIVEL_SUELDO=recode(herramientasR$SUELDO, "0:2499.99= 'Nivel1'; 2500:6999.99= 'Nivel2';7000:max(herramientasR$SUELDO)= 'Nivel3'") 3/30/2023 29 3/30/2023 30 3/30/2023 31 3/30/2023 32 Organización de datos en una tabla de frecuencia: Una variable cualitativa 1. Construya la tabla de distribución de frecuencias para la variable estado civil (columna 5) table(herramientasR$ECIVIL) fi_ECIVIL<-table(herramientasR$ECIVIL) prop.table(fi_ECIVIL) round(prop.table(fi_ECIVIL),4) hi_ECIVIL <-round(prop.table(fi_ECIVIL),4) pi_ECIVIL <- hi_ECIVIL*100 cbind(fi_ECIVIL, pi_ECIVIL) Variable: ESTADO CIVIL Edición de los resultados en una tabla de frecuencias. De los 223 trabajadores 8 son casados; es decir, el 3.59 % del total de trabajadores son casados. Organización de datos en una tabla de frecuencias bidimensional : Dos variables cualitativas. herramientasR Organización de datos: Dos variables cualitativas en una tabla bidimensional. table(herramientasR$ECIVIL,herramientasR$GENERO) tabla11<- table(herramientasR$ECIVIL,herramientasR$GENERO) addmargins(tabla11) 3/30/2023 38 3/30/2023 39