UNIVERSIDAD NACIONAL DE SAN ANTONIO ABAD DEL CUSCO _____________________________________________________________________________ VICERECTORADO ACADEMICO SILABO I.- DATOS INFORMATIVOS: 1.1 Nombre de la asignatura 1.2 Código de la asignatura 1.3 Categoría 1.4 Número de créditos 1.5 Fecha de inicio 1.6 Fecha de conclusión 1.7 Número de horas 1.8 Aula y horario 1.9 Modo 1.10 Semestre académico 1.11 Docente 1.12 Email docente 1.13 Escuela profesional MINERIA DE DATOS IF653AIN EEEP 4 26/09/2022 20/01/2023 5 T:MA 7 -9 IN206; T:VI 7 -8 IN206; P:JU 7 -9 IN203; Virtual 2022-2 CARBAJAL-LUNA-JULIO CESAR Julio.carbajal@unsaac.edu.pe INGENIERÍA INFORMÁTICA Y DE SISTEMAS II.- SUMILLA Es una asignatura de naturaleza teórico – práctica, perteneciente al área curricular de estudios específicos. Permite al estudiante adquirir habilidades y entender principios básicos de técnicas y métodos de resolución de problemas de Minería de Datos. Los ejes temáticos por desarrollar son: Introducción. – Datos y exploración. – Agrupamiento. – Clasificación. – Análisis de asociación. III.- COMPETENCIA Capacidad para abordar proyectos de extracción de conocimiento y para aplicar técnicas de Minería de Datos para la resolución de problemas específicos mediante el uso de los algoritmos existentes para cada tipo de problema. IV.- RESULTADOS DE APRENDIZAJE Comprender el concepto de minería de datos y sus fases. Conocer y saber aplicar las principales técnicas de extracción de conocimiento en bases de datos. Saber manejar herramientas para la aplicación de técnicas de extracción de conocimiento en bases de datos. V.- PROGRAMACION DE CONTENIDOS PRIMERA UNIDAD DIDACTICA: DATOS Y EXPLORACION – AGRUPAMIENTO Página 1 Oficina de Capacitación y Evaluación Académica Centro de Cómputo 13/10/2022 17:40:33 UNIVERSIDAD NACIONAL DE SAN ANTONIO ABAD DEL CUSCO _____________________________________________________________________________ CONTENIDOS ACTIVIDADES Introducción ¿Qué es la minería de datos? Tareas de minería de datos. Relación con Estadística, Optimización, Aprendizaje automático. Instrumentos. Datos R: Conceptos básicos de programación Exploración de datos e informes R para ciencia de datos 10 horas Computadora, laptop, tablet, celular Microsoft Office 365, Adobe Acrobat, Correo electrónico, Google Classroom Datos y exploración Atributos/Características. Tipos de conjuntos de datos. Calidad de datos. Pre procesamiento de datos. Semejanza y disimilitud. Densidad. Análisis exploratorio de datos. Resumen estadístico. Visualización Conceptos básicos de programación Exploración de datos e informes Manejo de datos con tidyverse Visualización de datos con ggplot2 El sistema de objetos de S3 para R 10 horas Computadora, laptop, tablet, celular Microsoft Office 365, Adobe Acrobat, Correo electrónico, Google Classroom, Google Meet Agrupamiento Introducción Tipos de agrupamiento Tipos de Clústeres Algoritmos de agrupamiento. Agrupamiento K-means. - Agrupamiento jerárquico. Agrupamiento basado en la densidad Validación de clúster Análisis de agrupamiento: preparación de datos. Métodos de agrupamiento: k-means Clustering. Agrupación jerárquica. Clustering basado en densidad con DBSCAN. Particionamiento alrededor de Medoids (PAM). Modelos de mezcla gaussiana 10 horas Computadora, laptop, tablet, celular Microsoft Office 365, Adobe Acrobat, Correo electrónico, Google Classroom, Google Meet 5 horas Computadora, laptop, tablet, celular Microsoft Office 365, Adobe Acrobat, Correo electrónico, Google Classroom, Google Meet Practica EXAMEN PARCIAL Solución TIEMPO SEGUNDA UNIDAD DIDACTICA: CLASIFICACIÓN CONTENIDOS ACTIVIDADES TIEMPO Clasificación Introducción Árboles de decisión. Visión general. Inducción de árbol. Sobreajuste y otros problemas prácticos El conjunto de datos del zoológico Árboles de decisión. Evaluación del modelo con Caret. Pruebas: matriz de confusión e intervalo de confianza para la precisión. 20 horas HERRAMIENTAS DIGITALES HERRAMIENTAS DIGITALES Computadora, laptop, tablet, celular Microsoft Office 365, Adobe Acrobat, Correo electrónico, Google Classroom, Google Meet Página 2 Oficina de Capacitación y Evaluación Académica Centro de Cómputo 13/10/2022 17:40:33 UNIVERSIDAD NACIONAL DE SAN ANTONIO ABAD DEL CUSCO _____________________________________________________________________________ Evaluación del Modelo. - Métricas para la Evaluación del Desempeño. - Métodos para Obtener Estimaciones Confiables. Comparación de modelos (rendimiento relativo) Selección de características Desequilibrio de clases Práctica EXAMEN PARCIAL Solución Comparación de modelos. Selección de funciones y preparación de funciones. Desequilibrio de clases 5 horas TERCERA UNIDAD DIDACTICA: ANÁLISIS DE ASOCIACIÓN CONTENIDOS ACTIVIDADES TIEMPO Análisis de asociación. – Definición Minería de conjuntos de elementos frecuentes (APRIORI) Representación concisa de conjuntos de elementos Métodos alternativos para encontrar conjuntos de elementos frecuentes Generación de reglas de asociación Distribución de apoyo Evaluación de patrones TERCER EXAMEN PARCIAL EXAMEN SUSTITUTORIO Ingreso de notas tercera parcial y sustitutorio Computadora, laptop, tablet, celular Microsoft Office 365, Adobe Acrobat, Correo electrónico, Google Classroom, Google Meet HERRAMIENTAS DIGITALES El paquete de reglas Conjuntos de elementos frecuentes. Reglas de asociación. Visualización de reglas de asociación. Visualizaciones interactivas 20 horas Computadora, laptop, tablet, celular Microsoft Office 365, Adobe Acrobat, Correo electrónico, Google Classroom. 5 horas Computadora, laptop, tablet, celular Microsoft Office 365, Adobe Acrobat, Correo electrónico, Google Classroom, Google Meet VI.- ESTRATEGIA METODOLÓGICA El formato de clase combinará lectura, presentaciones y otras herramientas de aprendizaje. La clase será interactiva y requerirá que cada estudiante participe en la discusión y tareas del aula. Además de las Página 3 Oficina de Capacitación y Evaluación Académica Centro de Cómputo 13/10/2022 17:40:33 UNIVERSIDAD NACIONAL DE SAN ANTONIO ABAD DEL CUSCO _____________________________________________________________________________ conferencias, capturas de pantalla y finalización oportuna de las tareas, se espera que cada estudiante sea un participante activo y un individuo dedicado que aplique lo que aprende a cada elemento del trabajo del curso. Este curso se centra tanto en los conceptos como en la práctica. Introduciremos (a) los conceptos básicos de minería de datos y (b) habilidades prácticas para aplicar técnicas de minería de datos para resolver problemas del mundo real. El código resultante de cada práctica deberá estar documentado, ser legible, utilizar diseño descendente modular y orientado a objetos, ser ejecutable sin errores, mostrar un funcionamiento conforme a lo solicitado y ser entregado a tiempo. Originalidad de los trabajos académicos: El estudiante deberá desarrollar sus conocimientos con sus propias palabras y expresiones. En ningún caso se aceptarán copias literales de párrafos, imágenes, gráficos, tablas, etc. de los materiales consultados. En caso de ser necesaria su reproducción, esta deberá contemplar las normas adecuadas para la citación académica. El profesor valorará si el trabajo presentado cuenta con los criterios de originalidad exigidos o, en su caso, se atribuye adecuadamente la información no propia a las fuentes correspondientes. La adjudicación como propia de información que corresponde a otros autores podrá suponer el suspenso de la actividad. Abstenerse del trabajo deshonesto, ya que recibirá una penalización mínima de cero en la asignación y una multa máxima de un cero para el curso Durante las sesiones de clase se tomará en cuenta la asistencia a clases, porque en cada sesión de clase se tendrá en cuenta la participación de los estudiantes. Se valora la entrega puntual de trabajos prácticos e informes. Las prácticas de laboratorio se evalúan en línea. Los exámenes parciales serán desarrollados y con un tiempo límite. Para que un estudiante aprenda se propicia a que: (1) Sea responsable de su propio aprendizaje, que desarrolle habilidades de búsqueda, selección, análisis y evaluación de la información, asumiendo un papel más activo en la construcción de su conocimiento. (2) Participe en actividades que le permitan intercambiar experiencias y opiniones con sus compañeros, construir su aprendizaje con y desde otros. (3) Se comprometa en procesos de reflexión sobre lo que hace, cómo lo hace y qué resultados logra, proponiendo acciones concretas para su mejora. (4) Desarrolle la autonomía, el pensamiento crítico, actitudes colaborativas y capacidad de autoevaluación. VII.- EVALUACIÓN DE APRENDIZAJES UNIDAD ACTIVIDAD CON ENTORNOS VIRTUALES I Entrega de trabajos de investigación y resolución de problemas. Ejecución de las prácticas de laboratorio. Examen escrito con preguntas de respuesta abierta Entrega de trabajos de investigación y resolución de problemas. Ejecución de las prácticas de laboratorio. Examen escrito con preguntas de respuesta abierta II EVALUACION TECNICAS INSTRUMENTOS Revisión de trabajos personales Revisión del trabajo práctico en el laboratorio Revisión del examen escrito Escala de comprobación Escala descriptiva. Revisión de trabajos personales Revisión del trabajo práctico en el laboratorio Revisión del examen escrito Escala de comprobación Escala descriptiva. PORCENTAJE DE UNIDAD PORCENTAJE DE ASIGNATURA 15% 33.33% 40% 45% 15% 33.33% 40% 45% Página 4 Oficina de Capacitación y Evaluación Académica Centro de Cómputo 13/10/2022 17:40:33 UNIVERSIDAD NACIONAL DE SAN ANTONIO ABAD DEL CUSCO _____________________________________________________________________________ III Entrega de trabajos de investigación y resolución de problemas. Ejecución de las prácticas de laboratorio. Examen escrito con preguntas de respuesta abierta Revisión de trabajos personales Revisión del trabajo práctico en el laboratorio Revisión del examen escrito Escala de comprobación Escala descriptiva. 15% 33.33% 40% 45% TOTAL 100% VIII.- REFERENCIAS BIBLIOGRAFICAS 8.1 Bibliografía básica 1. Introduction to Data Mining by Pang-Ning Tan, Michael Steinbach and Vipin Kumar, Addison Wesley, 1st or 2nd edition, 2019. 2. An R Companion for Introduction to Data Mining by Michael Hahsler, 2021. 8.2 Bibliografía complementaria 1. R for Data Science by Garrett Grolemund and Hadley Wickham, 2017. 2. Data Visualization: A practical introduction by Kieran Healy, 2019. 3. Applied Predictive Modeling (with Examples using R and caret) by Max Kuhn and Kjell Johnson, Springer, 2013. 4. The Elements of Statistical Learning by Trevor Hastie, Robert Tibshirani and Jerome Friedman, 2nd edition, Springer, 2009. 5. Mining of Massive Datasets by Anand Rajaraman and Jeff Ullman, Cambridge University Press, 2011. 8.3. Herramientas 1. R. 2. Download and install R from the R homepage. 3. Download and install RStudio IDE and/or Microsoft R Tools for Visual Studio 8.4. Web grafía 1. R a) b) c) d) Work through Introduction to R. Workshop Series Introduction to R Programming Find R packages using CRAN Task Views. Packages and short descriptions are organized by topic. Useful cheat sheets: R Reference Card, R Data Wrangling cheatsheet, R Reference Card for Data Mining , more cheat sheets (from RStudio). e) Quick-R: A very good introduction. 2. Comunidad y Guías a) KDNuggets - Data Mining Community’s Top Resource b) CRISP-DM User Guide (SPSS, IBM) 3. Videos a) StatQuest! Great explanation of statistical concepts, statistical learning and machine learning methods. b) 3Blue1Brown Introduction of mathematical concepts and artifical neural networks. c) Videos for Statistics 202: Statistical Aspects of Data Mining. These videos cover the textbook used in this class. d) CS109 Data Science - Harvard (videos, slides) e) In-depth introduction to machine learning in 15 hours of expert videos - Data School 8.5. Data Sets 1. UCI Machine Learning Repository 2. KDnuggets - Datasets 3. StatCruch (datasets) 4. Airline Data (20 years) Página 5 Oficina de Capacitación y Evaluación Académica Centro de Cómputo 13/10/2022 17:40:33 UNIVERSIDAD NACIONAL DE SAN ANTONIO ABAD DEL CUSCO _____________________________________________________________________________ 5. 6. 7. 8. 9. 10. 11. 12. City of Dallas Open Data Portal Murder Accountability Project World DataBank (World Bank) kaggle - Making Science Sport (Data Mining Competitions) Innocentive - innovative Solutions to Real Problems (Competitions including Data Mining) data.world - Data set repository HealthData.gov - Making high value health data more accessible to entrepreneurs, researchers, and policy makers PhysioNEt - large collections of recorded physiologic signals Página 6 Oficina de Capacitación y Evaluación Académica Centro de Cómputo 13/10/2022 17:40:33