Uploaded by loquesea

LIVE Data Science & AI- Del Concepto a desarrollo de aplicaciones

advertisement
DIPLOMADO
DATA SCIENCE & AI: DEL CONCEPTO
A DESARROLLO DE APLICACIONES
¿TOMAS
DECISIONES
IMPORTANTES
EN TU TRABAJO
POR INSTINTO O
EXPERIENCIA?
¡FORTALECE AÚN
MÁS TU TOMA DE
DECISIONES CON
EL USO DEL DATA
SCIENCE!
DATA SCIENCE & AI: DEL CONCEPTO A DESARROLLO DE APLICACIONES
2
Es una modalidad que te permite disfrutar
tus clases de Educación Continua en tiempo
real, estés donde estés.
LEARNING
Todo tu aprendizaje es significativo gracias
al uso de casos reales y el enfoque a la
aplicabilidad en tu entorno laboral.
INTERACTIVE
Interactúa con los mejores maestros y
compañeros de todo el mundo participando
en sesiones virtuales en tiempo real.
VIRTUAL
Aprovecha las ventajas de la tecnología de
una plataforma digital para enriquecer aún
más tu experiencia de aprendizaje.
EXPERIENCE
Experimenta un modelo educativo que te
pone en el centro a ti, el participante.
DATA SCIENCE & AI: DEL CONCEPTO A DESARROLLO DE APLICACIONES
3
OBJETIVO DEL
PROGRAMA
DIRIGIDO A
Con este diplomado en modalidad live
aprenderás a aplicar las herramientas tecnológicas y matemáticas para desarrollar
modelos de ciencia de datos para el perfil
data science jr, requeridos en organización/
innovación/emprendimiento para la toma
decisiones basadas en datos.
Es ideal para profesionistas encargados de
generar análisis descriptivos, inferenciales, predictivos y prescriptivos; dashboards
para la toma de decisiones; desarrollar una
aplicación de datos y emprendimiento.
DATA SCIENCE & AI: DEL CONCEPTO A DESARROLLO DE APLICACIONES
4
PERFIL DEL
TOP 3 DE ÁREAS ORGANIZACIONALES
PARTICIPANTE
EDAD
PROMEDIO:
34 años
TOP 3 DE
PERFILES
PROFESIONALES
26%
10%
7%
Sistemas y
tecnologías de
información
Finanzas y contabilidad
Administración
25%
Ciencias de la computación
21%
Ingeniería industrial, mecánica y metalúrgica
14%
Negocios y administración
NIVELES
ORGANIZACIONALES
Coordinadores
Directivos
2%
24%
13%
Dueños de
empresas
40%
14%
Gerentes
Especialistas
TAMAÑO
DE LA EMPRESA
EN QUE LABORAN
Menos de 50
trabajadores
5%
DATA SCIENCE & AI: DEL CONCEPTO A DESARROLLO DE APLICACIONES
De 51 a 200
trabajadores
6%
Más de 200
trabajadores
79%
5
ROI
ROI PARA EL
PARTICIPANTE
3º HARD SKILL
De acuerdo con LinkedIn, en este 2020 el tercer “hard
skill” más demandado es el razonamiento analítico ya
que los datos son la base de cada negocio*.
$60,000 MXN
En México, los perfiles de data scientist reportan
remuneraciones mensuales de hasta $60,000 MXN.
*LinkedIn
*Hays, Análisis de Tendencias y Salarios, América Latina 2020
ROI PARA LA
EMPRESA
Las organizaciones que sepan interpretar y
aprovechar los macrodatos o big data son las
que podrán aumentar su ventaja competitiva
en un mundo cada vez más digitalizado.
Big Data está entregando el mayor valor a las
empresas al disminuir los gastos (49.2%) y al
crear nuevas vías para la innovación y la disrupción (44.3%)*.
*Forbes
DATA SCIENCE & AI: DEL CONCEPTO A DESARROLLO DE APLICACIONES
6
DIFERENCIADORES
¿QUÉ HACE ÚNICO A
ESTE PROGRAMA?
Vivirás sesiones síncronas y sesiones asíncronas, para interactuar en tiempo real con
los instructores, así como para poder estudiar a tu propio ritmo.
Realizarás actividades prácticas vinculadas
a los temas presentados en cada módulo
y resolverás problemas enfocados a tu entorno laboral.
Al terminar tu diplomado, obtendrás una
insignia digital blue con tecnología blockchain para fortalecer tu currículum digital y
demostrar tus habilidades de una manera
rápida y segura en plataformas digitales.
¿CÓMO VIVIRÁS
TU APRENDIZAJE?
Enfoque a la aplicabilidad en tu entorno
laboral
Acompañamiento de tu instructor
Gran parte del programa se imparte en
sesiones sincrónicas
Grupos pequeños para maximizar
interacción con expertos
Plataforma de aprendizaje virtual
PLAN DE
ESTUDIOS
DURACIÓN
120
12
HORAS
MÓDULOS
DIVIDIDOS EN 3 ÁREAS
DE CONCENTRACIÓN
ÁREA DE CONCENTRACIÓN 1: MANIPULACIÓN DE DATOS
01
FUNDAMENTOS DE PYTHON I
10 HORAS
Diseñarás programas en lenguaje de programación Python sobre el ambiente
de programación notebook, para que se cumpla con los requerimientos de la
aplicación de Ciencia de Datos.
1. Introducción
6. Definición de funciones
2. Estándares en Python
7. Manejo de archivos csv: incluir
identificar archivos vacíos, crear
una lista de archivos a procesar
3. Estructuras de datos: lista,
diccionarios, tuple, strings;
4. Estatutos condicionales
5. Control de flujo
02
8. Ambiente de programación
notebook (Jupiter y/o “Google
Colab)
PLATAFORMAS DE APLICACIÓN SOBRE PYTHON I
10 HORAS
Diseñarás programas en las plataformas de Panda y Numpy de Python
sobre el ambiente de programación notebook, para que se cumpla con los
requerimientos de la aplicación de Ciencia de Datos requerida.
1. Introducción (plataformas /
frameworks)
2. Manipulación de datos en Panda
4. Instalar bibliotecas que no estén
la pre-instaladas (plataformas /
frameworks)
3. Manipulación de datos en Numpy
DATA SCIENCE & AI: DEL CONCEPTO A DESARROLLO DE APLICACIONES
8
03
MANIPULACIÓN DE DATOS EN PYTHON I
10 HORAS
Manipularás una base de datos en la plataforma de Panda de Python que
involucre llamadas (queries) a las bases de datos y estatuos para concatenar y
unir bases de datos.
1. Introducción
3. Funciones: join, merge, append
2. Algebra relacional
4. Ejemplo
ÁREA DE CONCENTRACIÓN 2: VISUALIZACIÓN PARA ANÁLISIS
DESCRIPTIVO E INFERENCIAL Y DISEÑO DE APLICACIONES DASHBOARD
IN WEB
04
PLATAFORMAS DE VISUALIZACIÓN I
10 HORAS
Explotarás las ventajas y desventajas que tienen Python, y las plataformas de
visualización Matplotlib y Seaborn, para generar gráficas que compartan ejes
horizontales (x); el eje vertical (y) puede ser compartido a la misma escala,
para que se cumpla con los requerimientos de interfase de la visualización
requerida.
1. Introducción
6. Sub-gráficas (subplots)
2. Validación estadística del modelo
7. Anotaciones de texto en las
gráficas
3. Plataformas de visualización:
panda, matplotlib, y seaborn
4. Gráficas superpuestas
compartiendo eje horizontal (x) y
vertical (y)
5. Gráficas superpuestas
compartiendo eje horizontal (x) y
con ejes verticales diferentes (y1,
y2), cada uno con escala diferente
DATA SCIENCE & AI: DEL CONCEPTO A DESARROLLO DE APLICACIONES
8. Diferentes tipos de gráficas para
exploración de los datos: Boxplot,
distribuciones, dispersiones
(Scatter Plot), matriz de
dispersiones (Scatter Plot Matrix)
9
05
INGENIERÍA DE CARACTERÍSTICAS I
Seleccionarás las características de las bases de datos más importantes por su
importancia para la visualización o por su importancia en mejorar la exactitud,
precisión de un modelo de datos.
1. Imputación de valores perdidos
6. Operaciones en grupos (groupby)
2. Valores atípicos (handling outliers)
7. Separación de datos (feature split)
3. Agrupamiento en contenedores
(binning)
8. Escalamiento (Scaling)
4. Transformación logarítmica
10. Reducción de dimensiones (FA,
PCA, IDA)
9. Extracción de fecha (date)
5. Distribución de valores de una
columna en múltiples columnas
binarias (one-hot encoding)
06
10 HORAS
APLICACIÓN WEB DE CIENCIA DE DATOS I
10 HORAS
Desarrollarás un dashboard en la plataforma Streamlit para la visualización de
datos interactivos requeridos por la organización para presentar KPIs o para
toma de decisiones.
1. Fundamentos de UX/UI
4. Sidebar
2. Plataforma Streamlit
5. Estatutos slider, radio, selectbox
3. Manipulación de datos
6. Estatuto caching
ÁREA DE CONCENTRACIÓN 3: MÁQUINAS INTELIGENTES
07
APRENDIZAJE NO-SUPERVISADO I
10 HORAS
Desarrollarás modelos inteligentes no supervisado de datos utilizando scikitlearn de Python, seleccionando el número de agrupaciones adecuadas y
analizando la efectividad del modelo utilizando medidas de calidad que
cumplan lo mejor posible con los requerimientos de la tarea requerida.
1. Introducción
2. Medidas de calidad de los
algoritmos de clusterización
3. Número de agrupaciones
utilizando la gráfica K-Elbow.
4. Número de agrupaciones
DATA SCIENCE & AI: DEL CONCEPTO A DESARROLLO DE APLICACIONES
utilizando los valores de los
coeficientes de Silhouette (gráfica
Silhouette Plot)
5. Distancia relativa entre
agrupaciones; importancia relativa
de las agrupaciones
6. Índice Calinski-Harabasz
10
08
APRENDIZAJE SUPERVISADO I
10 HORAS
Desarrollarás modelos inteligentes supervisado de datos utilizando scikit-learn
de Python; seleccionar el modelo adecuado y analizar la exactitud, precisión
del modelo que cumplan lo mejor posible con los requerimientos de la tarea
requerida.
1. Introducción
2. Modelación de datos clásica:
Árboles, Bosques, Gaussian NaiveBayes, regresión lógica, Support
Vector Machine
09
3. Evaluación de modelos medida
a utilizar: matriz de confusión,
exactitud, precisión, F1, curva ROC
VISUALIZACIÓN DE MÁQUINAS INTELIGENTES I
10 HORAS
Utilizarás herramientas visuales de máquinas inteligentes para desarrollar
modelos de datos más exactos y/o precisos, que cumplan con los
requerimientos de la necesidad del problema a resolver.
1. Herramienta Yellow Brick
5. Decision boundaries
2. Hyperparameters optimization
6. ANN Visualiser
3. Data wrapper
7. Variational autoencoders (VAE)
4. Export_graphviz from sklearn.tree
10
PLATAFORMAS Y MÁQUINAS INTELIGENTES EN BIG DATA I
10 HORAS
Desarrollarás modelos inteligentes supervisados de grandes volúmenes de
datos utilizando PySpark de Python, seleccionarás el modelo adecuado y
analizarás la exactitud, precisión del modelo, que cumplan lo mejor posible con
los requerimientos de la tarea requerida.
1. Introducción
2. Estructura de datos en PySpark
DATA SCIENCE & AI: DEL CONCEPTO A DESARROLLO DE APLICACIONES
3. Modelación inteligente de datos en
PySpark
11
11
ANALÍTICA DE TEXTO I
10 HORAS
Desarrollarás modelos inteligentes supervisado de datos de texto utilizando la
plataforma máquinas inteligentes en Python, seleccionarás el modelo adecuado
y analizarás la exactitud, precisión del modelo, que cumplan lo mejor posible
con los requerimientos de la tarea requerida.
1. Introducción herramientas NLTK,
Spacy, TextBlob, PyTorch-NLP,
Textacy
5. Modelo inteligentes estadísticos,
lingüísticos y profundos
2. Introducción: aplicaciones en
detección de plagio y detección de
autoría
7. Visualización del Corpus t-SNE: use
stochastic neighbor embedding to
project documents
6. Visualización de texto
3. Análisis de frecuencias, personas,
eventos
8. Visualizar la dispersión de palabras
clave en el Corpus.
4. Conceptos de transformadores
12
ANALÍTICA DE REDES SOCIALES I
9. Visualiza de documentos similares
(UMAP)
10 HORAS
Desarrollarás modelos de redes de datos utilizando la NetworkX en Python;
analizarás la robustez de las redes, encontrarás las personas que más se
comunican, así como los líderes de las conversaciones en una red social.
1. Introducción: aplicaciones
2. Definición de nodos, vértices, y
atributos
3. Tipos de redes: direccional,
bidireccional, pesada, bipartita
4. Representación y manipulación de
datos utilizando NetworkX
DATA SCIENCE & AI: DEL CONCEPTO A DESARROLLO DE APLICACIONES
5. Métricas: distancia, alcance
(reachability) y redundancia para
explorar lo robusto de redes a
ataques intencionales o al quitar
nodos o vértices
6. Centralidad (grado, “closeness”,
and “betweenness”, “page rank”)
12
¿POR QUÉ SOMOS EL MEJOR ALIADO PARA
TU DESARROLLO PROFESIONAL?
Mejor universidad privada
de México,QS University
Rankings 2020
Nuestros programas en
línea y live están diseñados
para potencializar tu
experiencia de aprendizaje
con el uso de herramientas
digitales.
En el top 3 de las mejores
universidades de
Latinoamérica QS University
Rankings: Latin America 2020
Aprende de la mano de
expertos con grado de
maestría y doctorado con
gran trayectoria académica y
laboral.
Universidad #1 en México
en la opinión de los
empleadores QS Graduate
Employability Rankings 2020
Vives un aprendizaje
siempre significativo y
aplicable a los retos de tu
entorno laboral.
DATA SCIENCE & AI: DEL CONCEPTO A DESARROLLO DE APLICACIONES
13
¡APRENDE
MÁS SOBRE TU
PROGRAMA!
www.maestriasydiplomados.tec.mx
HAZ CONTACTO
800 044 01 86
educacion.continua@itesm.mx
Download