1 Informe de práctica: Encontrar patrones de mercado en adolescentes utilizando un algoritmo de clustering Daniel Restrepo Martinez (daniel.l_restrepo@uao.edu.co) Universidad Autónoma de Occidente Programa de especialización en inteligencia de negocio con énfasis en Big Data GESTIÓN DE RELACIONES CON CLIENTES Y DATA MARKETING Profesor: Jose Reyes Eslava Zavaleta 2 Informe de práctica: Encontrar patrones de mercado en adolescentes utilizando un algoritmo de clustering Con el propósito de aprender a utilizar herramientas de análisis de grandes cantidades de información, la práctica inicia planteando el caso contemporáneo de una empresa que quiere mejorar y llegar a personalizar los anuncios que muestra a sus usuarios a través de redes sociales, concretamente se analiza un grupo de 30.000 observaciones tomadas de las interacciones de estudiantes de secundaria de EE.UU. Los datos recolectados muestran 36 palabras elegidas como patrones de interés en los perfiles de la red social. El ejercicio se desarrolla en el software RStudio, de código abierto, especializado en el campo de ciencia de datos, investigación estadística y comunicación técnica de información. Esto permite cargar los datos recolectados para la práctica e iniciar con la preparación en el programa, primero limpiando las variables que puedan generar dificultades en el análisis, como registros faltantes e irrazonables, usando codificación ficticia y categorizando valores desconocidos dentro de estimaciones apropiadas. Teniendo los datos preparados, se inicia con la segmentación de marketing, de acuerdo a los intereses que se relacionen con los patrones expresados, para esto se utiliza el algoritmo Kmedias, que asocia las observaciones en un número determinado de grupos cuyos valores medios se acercan más entre sí. Posteriormente se normalizan las variables en una distribución z-score que permitirá finalmente generar los clústeres para segmentar los datos. A continuación, las capturas de pantalla del programa mostrando el procedimiento seguido para obtener la segmentación de datos: 3 Figura 1 Captura de pantalla mostrando la consola 4 Figura 2 Captura de pantalla mostrando la consola 5 Figura 3 Captura de pantalla mostrando la consola Figura 4 Captura de pantalla mostrando los clústeres obtenidos Se procede al análisis de la salida de datos en cinco clústeres, resaltando los valores que demuestran una correlación más fuerte con los intereses del grupo. 6 Tabla 1 Tabla relacionando los intereses con los clústeres 7 Tabla 2 Perfilación de clústeres con etiquetas 8 Bibliografía RStudio - Open source & professional software for data science teams https://www.rstudio.com/about/ The R Project for Statistical Computing https://www.r-project.org/about.html