Uploaded by DANIEL ALEJANDRO RESTREPO MARTINEZ

Informe de práctica Clustering - UAO ASD

advertisement
1
Informe de práctica: Encontrar patrones de mercado en adolescentes utilizando un
algoritmo de clustering
Daniel Restrepo Martinez (daniel.l_restrepo@uao.edu.co)
Universidad Autónoma de Occidente
Programa de especialización en inteligencia de negocio con énfasis en Big Data
GESTIÓN DE RELACIONES CON CLIENTES Y DATA MARKETING
Profesor: Jose Reyes Eslava Zavaleta
2
Informe de práctica: Encontrar patrones de mercado en adolescentes utilizando un
algoritmo de clustering
Con el propósito de aprender a utilizar herramientas de análisis de grandes cantidades de
información, la práctica inicia planteando el caso contemporáneo de una empresa que quiere
mejorar y llegar a personalizar los anuncios que muestra a sus usuarios a través de redes sociales,
concretamente se analiza un grupo de 30.000 observaciones tomadas de las interacciones de
estudiantes de secundaria de EE.UU. Los datos recolectados muestran 36 palabras elegidas como
patrones de interés en los perfiles de la red social.
El ejercicio se desarrolla en el software RStudio, de código abierto, especializado en el
campo de ciencia de datos, investigación estadística y comunicación técnica de información.
Esto permite cargar los datos recolectados para la práctica e iniciar con la preparación en el
programa, primero limpiando las variables que puedan generar dificultades en el análisis, como
registros faltantes e irrazonables, usando codificación ficticia y categorizando valores
desconocidos dentro de estimaciones apropiadas.
Teniendo los datos preparados, se inicia con la segmentación de marketing, de acuerdo a
los intereses que se relacionen con los patrones expresados, para esto se utiliza el algoritmo Kmedias, que asocia las observaciones en un número determinado de grupos cuyos valores medios
se acercan más entre sí. Posteriormente se normalizan las variables en una distribución z-score
que permitirá finalmente generar los clústeres para segmentar los datos.
A continuación, las capturas de pantalla del programa mostrando el procedimiento
seguido para obtener la segmentación de datos:
3
Figura 1
Captura de pantalla mostrando la consola
4
Figura 2
Captura de pantalla mostrando la consola
5
Figura 3
Captura de pantalla mostrando la consola
Figura 4
Captura de pantalla mostrando los clústeres obtenidos
Se procede al análisis de la salida de datos en cinco clústeres, resaltando los valores que
demuestran una correlación más fuerte con los intereses del grupo.
6
Tabla 1
Tabla relacionando los intereses con los clústeres
7
Tabla 2
Perfilación de clústeres con etiquetas
8
Bibliografía
RStudio - Open source & professional software for data science teams
https://www.rstudio.com/about/
The R Project for Statistical Computing
https://www.r-project.org/about.html
Download