DIPLOMADO DATA SCIENCE & AI: DEL CONCEPTO A DESARROLLO DE APLICACIONES ¿TOMAS DECISIONES IMPORTANTES EN TU TRABAJO POR INSTINTO O EXPERIENCIA? ¡FORTALECE AÚN MÁS TU TOMA DE DECISIONES CON EL USO DEL DATA SCIENCE! DATA SCIENCE & AI: DEL CONCEPTO A DESARROLLO DE APLICACIONES 2 Es una modalidad que te permite disfrutar tus clases de Educación Continua en tiempo real, estés donde estés. LEARNING Todo tu aprendizaje es significativo gracias al uso de casos reales y el enfoque a la aplicabilidad en tu entorno laboral. INTERACTIVE Interactúa con los mejores maestros y compañeros de todo el mundo participando en sesiones virtuales en tiempo real. VIRTUAL Aprovecha las ventajas de la tecnología de una plataforma digital para enriquecer aún más tu experiencia de aprendizaje. EXPERIENCE Experimenta un modelo educativo que te pone en el centro a ti, el participante. DATA SCIENCE & AI: DEL CONCEPTO A DESARROLLO DE APLICACIONES 3 OBJETIVO DEL PROGRAMA DIRIGIDO A Con este diplomado en modalidad live aprenderás a aplicar las herramientas tecnológicas y matemáticas para desarrollar modelos de ciencia de datos para el perfil data science jr, requeridos en organización/ innovación/emprendimiento para la toma decisiones basadas en datos. Es ideal para profesionistas encargados de generar análisis descriptivos, inferenciales, predictivos y prescriptivos; dashboards para la toma de decisiones; desarrollar una aplicación de datos y emprendimiento. DATA SCIENCE & AI: DEL CONCEPTO A DESARROLLO DE APLICACIONES 4 PERFIL DEL TOP 3 DE ÁREAS ORGANIZACIONALES PARTICIPANTE EDAD PROMEDIO: 34 años TOP 3 DE PERFILES PROFESIONALES 26% 10% 7% Sistemas y tecnologías de información Finanzas y contabilidad Administración 25% Ciencias de la computación 21% Ingeniería industrial, mecánica y metalúrgica 14% Negocios y administración NIVELES ORGANIZACIONALES Coordinadores Directivos 2% 24% 13% Dueños de empresas 40% 14% Gerentes Especialistas TAMAÑO DE LA EMPRESA EN QUE LABORAN Menos de 50 trabajadores 5% DATA SCIENCE & AI: DEL CONCEPTO A DESARROLLO DE APLICACIONES De 51 a 200 trabajadores 6% Más de 200 trabajadores 79% 5 ROI ROI PARA EL PARTICIPANTE 3º HARD SKILL De acuerdo con LinkedIn, en este 2020 el tercer “hard skill” más demandado es el razonamiento analítico ya que los datos son la base de cada negocio*. $60,000 MXN En México, los perfiles de data scientist reportan remuneraciones mensuales de hasta $60,000 MXN. *LinkedIn *Hays, Análisis de Tendencias y Salarios, América Latina 2020 ROI PARA LA EMPRESA Las organizaciones que sepan interpretar y aprovechar los macrodatos o big data son las que podrán aumentar su ventaja competitiva en un mundo cada vez más digitalizado. Big Data está entregando el mayor valor a las empresas al disminuir los gastos (49.2%) y al crear nuevas vías para la innovación y la disrupción (44.3%)*. *Forbes DATA SCIENCE & AI: DEL CONCEPTO A DESARROLLO DE APLICACIONES 6 DIFERENCIADORES ¿QUÉ HACE ÚNICO A ESTE PROGRAMA? Vivirás sesiones síncronas y sesiones asíncronas, para interactuar en tiempo real con los instructores, así como para poder estudiar a tu propio ritmo. Realizarás actividades prácticas vinculadas a los temas presentados en cada módulo y resolverás problemas enfocados a tu entorno laboral. Al terminar tu diplomado, obtendrás una insignia digital blue con tecnología blockchain para fortalecer tu currículum digital y demostrar tus habilidades de una manera rápida y segura en plataformas digitales. ¿CÓMO VIVIRÁS TU APRENDIZAJE? Enfoque a la aplicabilidad en tu entorno laboral Acompañamiento de tu instructor Gran parte del programa se imparte en sesiones sincrónicas Grupos pequeños para maximizar interacción con expertos Plataforma de aprendizaje virtual PLAN DE ESTUDIOS DURACIÓN 120 12 HORAS MÓDULOS DIVIDIDOS EN 3 ÁREAS DE CONCENTRACIÓN ÁREA DE CONCENTRACIÓN 1: MANIPULACIÓN DE DATOS 01 FUNDAMENTOS DE PYTHON I 10 HORAS Diseñarás programas en lenguaje de programación Python sobre el ambiente de programación notebook, para que se cumpla con los requerimientos de la aplicación de Ciencia de Datos. 1. Introducción 6. Definición de funciones 2. Estándares en Python 7. Manejo de archivos csv: incluir identificar archivos vacíos, crear una lista de archivos a procesar 3. Estructuras de datos: lista, diccionarios, tuple, strings; 4. Estatutos condicionales 5. Control de flujo 02 8. Ambiente de programación notebook (Jupiter y/o “Google Colab) PLATAFORMAS DE APLICACIÓN SOBRE PYTHON I 10 HORAS Diseñarás programas en las plataformas de Panda y Numpy de Python sobre el ambiente de programación notebook, para que se cumpla con los requerimientos de la aplicación de Ciencia de Datos requerida. 1. Introducción (plataformas / frameworks) 2. Manipulación de datos en Panda 4. Instalar bibliotecas que no estén la pre-instaladas (plataformas / frameworks) 3. Manipulación de datos en Numpy DATA SCIENCE & AI: DEL CONCEPTO A DESARROLLO DE APLICACIONES 8 03 MANIPULACIÓN DE DATOS EN PYTHON I 10 HORAS Manipularás una base de datos en la plataforma de Panda de Python que involucre llamadas (queries) a las bases de datos y estatuos para concatenar y unir bases de datos. 1. Introducción 3. Funciones: join, merge, append 2. Algebra relacional 4. Ejemplo ÁREA DE CONCENTRACIÓN 2: VISUALIZACIÓN PARA ANÁLISIS DESCRIPTIVO E INFERENCIAL Y DISEÑO DE APLICACIONES DASHBOARD IN WEB 04 PLATAFORMAS DE VISUALIZACIÓN I 10 HORAS Explotarás las ventajas y desventajas que tienen Python, y las plataformas de visualización Matplotlib y Seaborn, para generar gráficas que compartan ejes horizontales (x); el eje vertical (y) puede ser compartido a la misma escala, para que se cumpla con los requerimientos de interfase de la visualización requerida. 1. Introducción 6. Sub-gráficas (subplots) 2. Validación estadística del modelo 7. Anotaciones de texto en las gráficas 3. Plataformas de visualización: panda, matplotlib, y seaborn 4. Gráficas superpuestas compartiendo eje horizontal (x) y vertical (y) 5. Gráficas superpuestas compartiendo eje horizontal (x) y con ejes verticales diferentes (y1, y2), cada uno con escala diferente DATA SCIENCE & AI: DEL CONCEPTO A DESARROLLO DE APLICACIONES 8. Diferentes tipos de gráficas para exploración de los datos: Boxplot, distribuciones, dispersiones (Scatter Plot), matriz de dispersiones (Scatter Plot Matrix) 9 05 INGENIERÍA DE CARACTERÍSTICAS I Seleccionarás las características de las bases de datos más importantes por su importancia para la visualización o por su importancia en mejorar la exactitud, precisión de un modelo de datos. 1. Imputación de valores perdidos 6. Operaciones en grupos (groupby) 2. Valores atípicos (handling outliers) 7. Separación de datos (feature split) 3. Agrupamiento en contenedores (binning) 8. Escalamiento (Scaling) 4. Transformación logarítmica 10. Reducción de dimensiones (FA, PCA, IDA) 9. Extracción de fecha (date) 5. Distribución de valores de una columna en múltiples columnas binarias (one-hot encoding) 06 10 HORAS APLICACIÓN WEB DE CIENCIA DE DATOS I 10 HORAS Desarrollarás un dashboard en la plataforma Streamlit para la visualización de datos interactivos requeridos por la organización para presentar KPIs o para toma de decisiones. 1. Fundamentos de UX/UI 4. Sidebar 2. Plataforma Streamlit 5. Estatutos slider, radio, selectbox 3. Manipulación de datos 6. Estatuto caching ÁREA DE CONCENTRACIÓN 3: MÁQUINAS INTELIGENTES 07 APRENDIZAJE NO-SUPERVISADO I 10 HORAS Desarrollarás modelos inteligentes no supervisado de datos utilizando scikitlearn de Python, seleccionando el número de agrupaciones adecuadas y analizando la efectividad del modelo utilizando medidas de calidad que cumplan lo mejor posible con los requerimientos de la tarea requerida. 1. Introducción 2. Medidas de calidad de los algoritmos de clusterización 3. Número de agrupaciones utilizando la gráfica K-Elbow. 4. Número de agrupaciones DATA SCIENCE & AI: DEL CONCEPTO A DESARROLLO DE APLICACIONES utilizando los valores de los coeficientes de Silhouette (gráfica Silhouette Plot) 5. Distancia relativa entre agrupaciones; importancia relativa de las agrupaciones 6. Índice Calinski-Harabasz 10 08 APRENDIZAJE SUPERVISADO I 10 HORAS Desarrollarás modelos inteligentes supervisado de datos utilizando scikit-learn de Python; seleccionar el modelo adecuado y analizar la exactitud, precisión del modelo que cumplan lo mejor posible con los requerimientos de la tarea requerida. 1. Introducción 2. Modelación de datos clásica: Árboles, Bosques, Gaussian NaiveBayes, regresión lógica, Support Vector Machine 09 3. Evaluación de modelos medida a utilizar: matriz de confusión, exactitud, precisión, F1, curva ROC VISUALIZACIÓN DE MÁQUINAS INTELIGENTES I 10 HORAS Utilizarás herramientas visuales de máquinas inteligentes para desarrollar modelos de datos más exactos y/o precisos, que cumplan con los requerimientos de la necesidad del problema a resolver. 1. Herramienta Yellow Brick 5. Decision boundaries 2. Hyperparameters optimization 6. ANN Visualiser 3. Data wrapper 7. Variational autoencoders (VAE) 4. Export_graphviz from sklearn.tree 10 PLATAFORMAS Y MÁQUINAS INTELIGENTES EN BIG DATA I 10 HORAS Desarrollarás modelos inteligentes supervisados de grandes volúmenes de datos utilizando PySpark de Python, seleccionarás el modelo adecuado y analizarás la exactitud, precisión del modelo, que cumplan lo mejor posible con los requerimientos de la tarea requerida. 1. Introducción 2. Estructura de datos en PySpark DATA SCIENCE & AI: DEL CONCEPTO A DESARROLLO DE APLICACIONES 3. Modelación inteligente de datos en PySpark 11 11 ANALÍTICA DE TEXTO I 10 HORAS Desarrollarás modelos inteligentes supervisado de datos de texto utilizando la plataforma máquinas inteligentes en Python, seleccionarás el modelo adecuado y analizarás la exactitud, precisión del modelo, que cumplan lo mejor posible con los requerimientos de la tarea requerida. 1. Introducción herramientas NLTK, Spacy, TextBlob, PyTorch-NLP, Textacy 5. Modelo inteligentes estadísticos, lingüísticos y profundos 2. Introducción: aplicaciones en detección de plagio y detección de autoría 7. Visualización del Corpus t-SNE: use stochastic neighbor embedding to project documents 6. Visualización de texto 3. Análisis de frecuencias, personas, eventos 8. Visualizar la dispersión de palabras clave en el Corpus. 4. Conceptos de transformadores 12 ANALÍTICA DE REDES SOCIALES I 9. Visualiza de documentos similares (UMAP) 10 HORAS Desarrollarás modelos de redes de datos utilizando la NetworkX en Python; analizarás la robustez de las redes, encontrarás las personas que más se comunican, así como los líderes de las conversaciones en una red social. 1. Introducción: aplicaciones 2. Definición de nodos, vértices, y atributos 3. Tipos de redes: direccional, bidireccional, pesada, bipartita 4. Representación y manipulación de datos utilizando NetworkX DATA SCIENCE & AI: DEL CONCEPTO A DESARROLLO DE APLICACIONES 5. Métricas: distancia, alcance (reachability) y redundancia para explorar lo robusto de redes a ataques intencionales o al quitar nodos o vértices 6. Centralidad (grado, “closeness”, and “betweenness”, “page rank”) 12 ¿POR QUÉ SOMOS EL MEJOR ALIADO PARA TU DESARROLLO PROFESIONAL? Mejor universidad privada de México,QS University Rankings 2020 Nuestros programas en línea y live están diseñados para potencializar tu experiencia de aprendizaje con el uso de herramientas digitales. En el top 3 de las mejores universidades de Latinoamérica QS University Rankings: Latin America 2020 Aprende de la mano de expertos con grado de maestría y doctorado con gran trayectoria académica y laboral. Universidad #1 en México en la opinión de los empleadores QS Graduate Employability Rankings 2020 Vives un aprendizaje siempre significativo y aplicable a los retos de tu entorno laboral. DATA SCIENCE & AI: DEL CONCEPTO A DESARROLLO DE APLICACIONES 13 ¡APRENDE MÁS SOBRE TU PROGRAMA! www.maestriasydiplomados.tec.mx HAZ CONTACTO 800 044 01 86 educacion.continua@itesm.mx