Uploaded by Charly vq

IF653AIN2022-2

advertisement
UNIVERSIDAD NACIONAL DE SAN ANTONIO ABAD DEL CUSCO
_____________________________________________________________________________
VICERECTORADO ACADEMICO
SILABO
I.- DATOS INFORMATIVOS:
1.1 Nombre de la asignatura
1.2 Código de la asignatura
1.3 Categoría
1.4 Número de créditos
1.5 Fecha de inicio
1.6 Fecha de conclusión
1.7 Número de horas
1.8 Aula y horario
1.9 Modo
1.10 Semestre académico
1.11 Docente
1.12 Email docente
1.13 Escuela profesional
MINERIA DE DATOS
IF653AIN
EEEP
4
26/09/2022
20/01/2023
5
T:MA 7 -9 IN206; T:VI 7 -8 IN206; P:JU 7 -9 IN203;
Virtual
2022-2
CARBAJAL-LUNA-JULIO CESAR
Julio.carbajal@unsaac.edu.pe
INGENIERÍA INFORMÁTICA Y DE SISTEMAS
II.- SUMILLA
Es una asignatura de naturaleza teórico – práctica, perteneciente al área curricular de estudios específicos. Permite
al estudiante adquirir habilidades y entender principios básicos de técnicas y métodos de resolución de problemas
de Minería de Datos.
Los ejes temáticos por desarrollar son: Introducción. – Datos y exploración. – Agrupamiento. – Clasificación. –
Análisis de asociación.
III.- COMPETENCIA
 Capacidad para abordar proyectos de extracción de conocimiento y para aplicar técnicas de Minería de Datos
para la resolución de problemas específicos mediante el uso de los algoritmos existentes para cada tipo de
problema.
IV.- RESULTADOS DE APRENDIZAJE



Comprender el concepto de minería de datos y sus fases.
Conocer y saber aplicar las principales técnicas de extracción de conocimiento en bases de datos.
Saber manejar herramientas para la aplicación de técnicas de extracción de conocimiento en bases de datos.
V.- PROGRAMACION DE CONTENIDOS
PRIMERA UNIDAD DIDACTICA: DATOS Y EXPLORACION – AGRUPAMIENTO
Página 1
Oficina de Capacitación y Evaluación Académica
Centro de Cómputo
13/10/2022 17:40:33
UNIVERSIDAD NACIONAL DE SAN ANTONIO ABAD DEL CUSCO
_____________________________________________________________________________
CONTENIDOS
ACTIVIDADES
 Introducción
 ¿Qué es la minería de
datos? Tareas de
minería de datos.
Relación con Estadística,
Optimización,
Aprendizaje automático.
Instrumentos. Datos
 R: Conceptos básicos de
programación
 Exploración de datos e
informes
 R para ciencia de datos
10 horas
 Computadora, laptop,
tablet, celular
 Microsoft Office 365,
Adobe Acrobat, Correo
electrónico, Google
Classroom
 Datos y exploración
 Atributos/Características.
Tipos de conjuntos de
datos. Calidad de datos.
Pre procesamiento de
datos. Semejanza y
disimilitud. Densidad.
 Análisis exploratorio de
datos. Resumen
estadístico. Visualización
 Conceptos básicos de
programación
 Exploración de datos e
informes
 Manejo de datos con
tidyverse
 Visualización de datos
con ggplot2
 El sistema de objetos de
S3 para R
10 horas
 Computadora, laptop,
tablet, celular
 Microsoft Office 365,
Adobe Acrobat, Correo
electrónico, Google
Classroom, Google Meet
 Agrupamiento
Introducción
 Tipos de agrupamiento
Tipos de Clústeres
 Algoritmos de
agrupamiento. Agrupamiento K-means.
- Agrupamiento
jerárquico. Agrupamiento basado
en la densidad
 Validación de clúster
 Análisis de
agrupamiento:
preparación de datos.
 Métodos de
agrupamiento: k-means
Clustering. Agrupación
jerárquica. Clustering
basado en densidad con
DBSCAN.
Particionamiento
alrededor de Medoids
(PAM). Modelos de
mezcla gaussiana

10 horas
 Computadora, laptop,
tablet, celular
 Microsoft Office 365,
Adobe Acrobat, Correo
electrónico, Google
Classroom, Google Meet
5 horas
 Computadora, laptop,
tablet, celular
 Microsoft Office 365,
Adobe Acrobat, Correo
electrónico, Google
Classroom, Google Meet



Practica
EXAMEN PARCIAL
Solución
TIEMPO
SEGUNDA UNIDAD DIDACTICA: CLASIFICACIÓN
CONTENIDOS
ACTIVIDADES
TIEMPO



Clasificación
Introducción
Árboles de decisión. Visión general. Inducción de árbol. Sobreajuste y otros
problemas prácticos
 El conjunto de datos del
zoológico
 Árboles de decisión.
Evaluación del modelo
con Caret. Pruebas:
matriz de confusión e
intervalo de confianza
para la precisión.
20 horas
HERRAMIENTAS
DIGITALES
HERRAMIENTAS
DIGITALES
 Computadora, laptop,
tablet, celular
 Microsoft Office 365,
Adobe Acrobat, Correo
electrónico, Google
Classroom, Google Meet
Página 2
Oficina de Capacitación y Evaluación Académica
Centro de Cómputo
13/10/2022 17:40:33
UNIVERSIDAD NACIONAL DE SAN ANTONIO ABAD DEL CUSCO
_____________________________________________________________________________






Evaluación del Modelo.
- Métricas para la
Evaluación del
Desempeño. - Métodos
para Obtener
Estimaciones
Confiables. Comparación de
modelos (rendimiento
relativo)
Selección de
características
Desequilibrio de clases
Práctica
EXAMEN PARCIAL
Solución
Comparación de
modelos. Selección de
funciones y preparación
de funciones.
Desequilibrio de clases
5 horas

TERCERA UNIDAD DIDACTICA: ANÁLISIS DE ASOCIACIÓN
CONTENIDOS
ACTIVIDADES
TIEMPO










Análisis de asociación. –
Definición
Minería de conjuntos de
elementos frecuentes
(APRIORI)
Representación concisa
de conjuntos de
elementos
Métodos alternativos
para encontrar
conjuntos de elementos
frecuentes
Generación de reglas de
asociación
Distribución de apoyo
Evaluación de patrones
TERCER EXAMEN
PARCIAL
EXAMEN
SUSTITUTORIO
Ingreso de notas tercera
parcial y sustitutorio
 Computadora, laptop,
tablet, celular
 Microsoft Office 365,
Adobe Acrobat, Correo
electrónico, Google
Classroom, Google Meet
HERRAMIENTAS
DIGITALES
 El paquete de reglas
 Conjuntos de elementos
frecuentes.
 Reglas de asociación.
Visualización de reglas
de asociación.
Visualizaciones
interactivas
20 horas
 Computadora, laptop,
tablet, celular
 Microsoft Office 365,
Adobe Acrobat, Correo
electrónico, Google
Classroom.

5 horas
 Computadora, laptop,
tablet, celular
 Microsoft Office 365,
Adobe Acrobat, Correo
electrónico, Google
Classroom, Google Meet
VI.- ESTRATEGIA METODOLÓGICA

El formato de clase combinará lectura, presentaciones y otras herramientas de aprendizaje. La clase será
interactiva y requerirá que cada estudiante participe en la discusión y tareas del aula. Además de las
Página 3
Oficina de Capacitación y Evaluación Académica
Centro de Cómputo
13/10/2022 17:40:33
UNIVERSIDAD NACIONAL DE SAN ANTONIO ABAD DEL CUSCO
_____________________________________________________________________________
conferencias, capturas de pantalla y finalización oportuna de las tareas, se espera que cada estudiante sea un
participante activo y un individuo dedicado que aplique lo que aprende a cada elemento del trabajo del curso.
 Este curso se centra tanto en los conceptos como en la práctica. Introduciremos (a) los conceptos básicos de
minería de datos y (b) habilidades prácticas para aplicar técnicas de minería de datos para resolver problemas
del mundo real. El código resultante de cada práctica deberá estar documentado, ser legible, utilizar diseño
descendente modular y orientado a objetos, ser ejecutable sin errores, mostrar un funcionamiento conforme a lo
solicitado y ser entregado a tiempo.
 Originalidad de los trabajos académicos: El estudiante deberá desarrollar sus conocimientos con sus propias
palabras y expresiones. En ningún caso se aceptarán copias literales de párrafos, imágenes, gráficos, tablas, etc.
de los materiales consultados. En caso de ser necesaria su reproducción, esta deberá contemplar las normas
adecuadas para la citación académica. El profesor valorará si el trabajo presentado cuenta con los criterios de
originalidad exigidos o, en su caso, se atribuye adecuadamente la información no propia a las fuentes
correspondientes. La adjudicación como propia de información que corresponde a otros autores podrá suponer
el suspenso de la actividad.
 Abstenerse del trabajo deshonesto, ya que recibirá una penalización mínima de cero en la asignación y una
multa máxima de un cero para el curso
 Durante las sesiones de clase se tomará en cuenta la asistencia a clases, porque en cada sesión de
clase se tendrá en cuenta la participación de los estudiantes. Se valora la entrega puntual de trabajos
prácticos e informes. Las prácticas de laboratorio se evalúan en línea. Los exámenes parciales serán
desarrollados y con un tiempo límite.
 Para que un estudiante aprenda se propicia a que: (1) Sea responsable de su propio aprendizaje, que desarrolle
habilidades de búsqueda, selección, análisis y evaluación de la información, asumiendo un papel más activo en
la construcción de su conocimiento. (2) Participe en actividades que le permitan intercambiar experiencias y
opiniones con sus compañeros, construir su aprendizaje con y desde otros. (3) Se comprometa en procesos de
reflexión sobre lo que hace, cómo lo hace y qué resultados logra, proponiendo acciones concretas para su
mejora. (4) Desarrolle la autonomía, el pensamiento crítico, actitudes colaborativas y capacidad de
autoevaluación.
VII.- EVALUACIÓN DE APRENDIZAJES
UNIDAD
ACTIVIDAD CON
ENTORNOS VIRTUALES
I
Entrega de trabajos de
investigación y resolución
de problemas.
Ejecución de las prácticas
de laboratorio.
Examen escrito con
preguntas de respuesta
abierta
Entrega de trabajos de
investigación y resolución
de problemas.
Ejecución de las prácticas
de laboratorio.
Examen escrito con
preguntas de respuesta
abierta
II
EVALUACION
TECNICAS
INSTRUMENTOS
Revisión de trabajos
personales
Revisión del trabajo
práctico en el
laboratorio
Revisión del examen
escrito
Escala de
comprobación
Escala
descriptiva.
Revisión de trabajos
personales
Revisión del trabajo
práctico en el
laboratorio
Revisión del examen
escrito
Escala de
comprobación
Escala
descriptiva.
PORCENTAJE
DE UNIDAD
PORCENTAJE DE
ASIGNATURA
15%
33.33%
40%
45%
15%
33.33%
40%
45%
Página 4
Oficina de Capacitación y Evaluación Académica
Centro de Cómputo
13/10/2022 17:40:33
UNIVERSIDAD NACIONAL DE SAN ANTONIO ABAD DEL CUSCO
_____________________________________________________________________________
III
Entrega de trabajos de
investigación y resolución
de problemas.
Ejecución de las prácticas
de laboratorio.
Examen escrito con
preguntas de respuesta
abierta
Revisión de trabajos
personales
Revisión del trabajo
práctico en el
laboratorio
Revisión del examen
escrito
Escala de
comprobación
Escala
descriptiva.
15%
33.33%
40%
45%
TOTAL
100%
VIII.- REFERENCIAS BIBLIOGRAFICAS
8.1 Bibliografía básica
1. Introduction to Data Mining by Pang-Ning Tan, Michael Steinbach and Vipin Kumar, Addison Wesley, 1st or
2nd edition, 2019.
2. An R Companion for Introduction to Data Mining by Michael Hahsler, 2021.
8.2 Bibliografía complementaria
1. R for Data Science by Garrett Grolemund and Hadley Wickham, 2017.
2. Data Visualization: A practical introduction by Kieran Healy, 2019.
3. Applied Predictive Modeling (with Examples using R and caret) by Max Kuhn and Kjell Johnson, Springer,
2013.
4. The Elements of Statistical Learning by Trevor Hastie, Robert Tibshirani and Jerome Friedman, 2nd edition,
Springer, 2009.
5. Mining of Massive Datasets by Anand Rajaraman and Jeff Ullman, Cambridge University Press, 2011.
8.3. Herramientas
1. R.
2. Download and install R from the R homepage.
3. Download and install RStudio IDE and/or Microsoft R Tools for Visual Studio
8.4. Web grafía
1. R
a)
b)
c)
d)
Work through Introduction to R.
Workshop Series Introduction to R Programming
Find R packages using CRAN Task Views. Packages and short descriptions are organized by topic.
Useful cheat sheets: R Reference Card, R Data Wrangling cheatsheet, R Reference Card for Data
Mining , more cheat sheets (from RStudio).
e) Quick-R: A very good introduction.
2. Comunidad y Guías
a) KDNuggets - Data Mining Community’s Top Resource
b) CRISP-DM User Guide (SPSS, IBM)
3. Videos
a) StatQuest! Great explanation of statistical concepts, statistical learning and machine learning methods.
b) 3Blue1Brown Introduction of mathematical concepts and artifical neural networks.
c) Videos for Statistics 202: Statistical Aspects of Data Mining. These videos cover the textbook used in this
class.
d) CS109 Data Science - Harvard (videos, slides)
e) In-depth introduction to machine learning in 15 hours of expert videos - Data School
8.5. Data Sets
1. UCI Machine Learning Repository
2. KDnuggets - Datasets
3. StatCruch (datasets)
4. Airline Data (20 years)
Página 5
Oficina de Capacitación y Evaluación Académica
Centro de Cómputo
13/10/2022 17:40:33
UNIVERSIDAD NACIONAL DE SAN ANTONIO ABAD DEL CUSCO
_____________________________________________________________________________
5.
6.
7.
8.
9.
10.
11.
12.
City of Dallas Open Data Portal
Murder Accountability Project
World DataBank (World Bank)
kaggle - Making Science Sport (Data Mining Competitions)
Innocentive - innovative Solutions to Real Problems (Competitions including Data Mining)
data.world - Data set repository
HealthData.gov - Making high value health data more accessible to entrepreneurs, researchers, and policy makers
PhysioNEt - large collections of recorded physiologic signals
Página 6
Oficina de Capacitación y Evaluación Académica
Centro de Cómputo
13/10/2022 17:40:33
Download