INFORME DE MEDIDAS NUMÉRICAS EN EL SOFTWARE “R” JEFFERSON JAHYR JORDAN CABRERA ESCUELA SUPERIOR POLITÉCNICA DE CHIMBORAZO CARRERA DE INGENIERÍA EN SOFTWARE ESTADÍSTICA RESUMEN Dentro del presente informe, se detalla minuciosamente el paso a paso de cómo usar de manera eficiente el software para manipulación de datos “R” Se parte desde el proceso de instalación del software, posteriormente, la implementación y el uso de este con un ejemplo el cual fue realizado manualmente en el aula de clases. Tabla de Contenidos Introducción Instalación del software “R” Listado de comandos y nombres de los gráficos Ejemplo práctico propuesto en clases Gráficos Conclusiones Introducción En el ámbito de la estadística y el análisis de datos, la utilización de medidas numéricas desempeña un papel fundamental para comprender y describir fenómenos complejos. El software "R" se ha consolidado como una herramienta esencial en este campo, proporcionando a los analistas y científicos de datos una amplia gama de funciones y bibliotecas para llevar a cabo cálculos precisos y análisis estadísticos de alta calidad. Este informe se centra en la exploración y aplicación de medidas numéricas en el contexto del software "R". Estas medidas, también conocidas como estadísticas descriptivas, permiten resumir, cuantificar y caracterizar los datos de manera objetiva, brindando una comprensión profunda de las distribuciones, tendencias y variabilidades presentes en un conjunto de datos. La aplicación de medidas numéricas en "R" ofrece una ventaja crucial al proporcionar resultados precisos y reproducibles, lo que resulta esencial en la toma de decisiones basadas en datos y en la validación de hipótesis. A lo largo de este informe, exploraremos diversas medidas numéricas, tales como medidas de tendencia central, de dispersión, de forma, y de asociación, y examinaremos cómo se calculan y utilizan en el software "R". Al comprender en detalle estas medidas, los profesionales de la estadística y la ciencia de datos podrán mejorar su capacidad para analizar datos de manera efectiva y comunicar hallazgos de manera más precisa Instalación del software “R” 1. Para instalar R primero debemos instalar el software R. Para ello, visitarla página web: www.r-project.org. Dar click en Download – CRAN y seleccionar el servidor 0-Cloud. 2. Seleccionar el sistema operativo deseado: Linux, Mac OS X, Windows. 3. Dar click en “install R for the first time” 4. Descargar el fichero 5. Ir a la carpeta de descargas y ejecutar el fichero de instalación Listado de comandos y nombres de los gráficos Asignación de variables: <- o =: Se utilizan para asignar valores a variables. Por ejemplo: x <- 10 o y = c(1, 2, 3). Operaciones matemáticas: +, -, *, /: Operadores aritméticos para realizar operaciones matemáticas. ^: Para elevar un número a una potencia. Funciones matemáticas: sqrt(): Para calcular la raíz cuadrada. log(): Para el logaritmo natural. exp(): Para el exponencial. Estructuras de datos: vector(): Para crear vectores. matrix(): Para crear matrices. data.frame(): Para crear data frames, que son estructuras de datos tabulares. list(): Para crear listas que pueden contener diferentes tipos de datos. Funciones estadísticas: mean(): Calcula la media. median(): Calcula la mediana. sd(): Calcula la desviación estándar. var(): Calcula la varianza. cor(): Calcula la correlación. Control de flujo: if(): Estructura condicional para tomar decisiones. for(), while(): Bucles para la iteración. Gráficos: plot(): Para crear gráficos. hist(): Para crear histogramas. boxplot(): Para crear diagramas de caja. Lectura y escritura de datos: read.csv(), read.table(): Para leer datos desde archivos. write.csv(), write.table(): Para escribir datos en archivos. Paquetes y librerías: library(): Para cargar paquetes adicionales que amplían la funcionalidad de R. Ayuda y documentación: help(), ?: Para obtener información sobre funciones y paquetes. example(): Para ver ejemplos de uso de funciones. Ejemplo práctico propuesto en clases 1. Ingreso de datos En primer lugar, ingresamos todos los datos que tenemos dentro del ejercicio, estos, los almacenamos en un vector. El vector puede tener cualquier nombre, en este caso, lo denominaremos como “RendimientoSustratoCeramico” RendimientoSustratoCeramico = c(94.1, 93.2, …, 84.5) 2. Ordenamiento de Datos A través de la función sort(), ordenamos los elementos de manera ascendente. Los datos ordenados se almacenarán en otro vector llamado VectorOrdenado VectorOrdenado sort(RendimientoSustratoCeramico) 3. Cálculo de las medidas numéricas Para cada medida numérica se usan diferentes funciones, tales como: - Media ← mean (RendimientoSustratoCerámico) - Mediana ← median (RendimientoSustratoCerámico) - Moda: calcular_moda <function(x) unique_values <- unique(x) { counts <- sapply (unique_values, function(val) sum (x == val)) moda <unique_values[which.max(counts)] return(moda) } - Cuartiles ← quantile (RendimientoSustratoCerámico, probs = c(0.25, 0.5, 0.75)) - Varianza ← var (RendimientoSustratoCerámico) - DesviacionTipica ← sd (RendimientoSustratoCerámico) Gráficos Dependiendo del tipo de gráfico que el usuario desee realizar, requerirá algunos paquetes y funciones diferentes. En este caso, se analiza los gráficos a través del histograma y el diagrama de caja y bigotes - Histograma hist (RendimientoSustratoCerámico, main =” Histograma”, xlab=” Valores”, ylab=” Frecuencia”) - Caja y bigote boxplot (RendimientoSustratoCerámico, horizontal = TRUE, main = “Diagrama de Caja y Bigote”, xlab = “Valores”) Conclusiones 1. Los cuartiles indican que el 25% de los datos son menores o iguales a 86.1, el 50% son menores o iguales a 89.25 y el 75% son menores o iguales a 93.1. 2. La media, mediana y moda son medidas que ofrecen datos acerca de la centralización de los valores y la posición de los números más comunes en un conjunto de datos. 3. La variación de los valores finales calculados manualmente se pueden diferenciar mínimamente a los cálculos obtenidos en el software de cálculo “R”