CURSO: INTELIGENCIA DE NEGOCIOS Profesor: José Luis Martí Lara jmarti@inf.utfsm.cl Maestría ISC : Dirección Estratégica de TI - USAT Unidad 4 Minería de Datos Maestría ISC : Dirección Estratégica de TI - USAT Minería de Datos: Introducción Minería de Datos: conjunto de técnicas y herramientas destinadas a extraer conocimiento útil y comprensible, previamente desconocido, desde grandes cantidades de datos almacenados en distintos formatos. Características: • Trabajo (semi)automático sobre los datos • Generación de conocimiento descriptivo y predictivo • Contribuye a la toma de decisiones de una organización Maestría ISC : Dirección Estratégica de TI - USAT Minería de Datos: Introducción Minería de Datos: contexto. Maestría ISC : Dirección Estratégica de TI - USAT Minería de Datos: Tareas y Técnicas • Tarea: descriptiva, predictiva • Método: o técnica con la cual es posible resolver una tarea de minería de datos Maestría ISC : Dirección Estratégica de TI - USAT Minería de Datos: Tareas Minería de Datos: considera tareas de tipo… • Descriptiva: los datos de entrada se presentan sin etiquetar y sin orden alguno, y se busca describirlos y no predecir datos nuevo. • Predictiva: considera problemas en los que hay que predecir uno o más valores para un conjunto de ejemplos. Éstos van acompañados de una salida (clase, categoría, valor numérico) o un orden entre ellos. Maestría ISC : Dirección Estratégica de TI - USAT Minería de Datos: Tareas Minería de Datos Descriptiva Visualización Predictiva Correlaciones y Dependencias Detección de Anomalías Clasificación Regresión Estadística Pronósticos Técnica: Árboles de Decisión Asociación Segmentación (Agrupamiento) Técnica: Inducción de Reglas Patrones Secuenciales Técnica: Métodos Bayesianos Técnica: Métodos basados en Casos y Vecindad Transversales: • Métodos Difusos • Métodos Evolutivos Maestría ISC : Dirección Estratégica de TI - USAT Técnica: Máquinas de Soporte Vectorial Técnica: Redes Neuronales Artificiales Minería de Datos: Tareas Descriptivas Visualización: Maestría ISC : Dirección Estratégica de TI - USAT Minería de Datos: Tareas Descriptivas Coordenadas Paralelas Coordenadas Radiales Maestría ISC : Dirección Estratégica de TI - USAT Coordenadas Paralelas Circulares Coordenadas Radiales Expandidas Representación Icónica Coordenadas Paralelas S13 S11 S9 S7 Maestría ISC : Dirección Estratégica de TI - USAT Rsg S1 Strss Alcl. Prcd. Factores Obsd. S3 Tnsn. Clstrl. Tbco. S5 Casos Minería de Datos: Tareas Descriptivas Correlaciones y factorizaciones: se centran exclusivamente en los atributos numéricos. El objetivo es ver, dados los ejemplos del conjunto E = A1 x A2 x … x An, si dos o más atributos numéricos Ai y Aj están correlacionados linealmente o relacionados de algún otro modo. Maestría ISC : Dirección Estratégica de TI - USAT Minería de Datos: Tareas Descriptivas Detección de valores e instancias anómalas: útil comportamientos anómalos como fraudes, fallas, intrusos. 12 10 8 6 4 2 0 1 2 3 4 5 Maestría ISC : Dirección Estratégica de TI - USAT 6 7 8 9 10 11 12 para detectar Minería de Datos: Tareas Descriptivas …y detectar outliers. Outlier Maestría ISC : Dirección Estratégica de TI - USAT Minería de Datos: Tareas Descriptivas (Reglas de) Asociación: dados los ejemplos del conjunto E = A1 x A2 x … x An, una regla de asociación se define generalmente como: “SI A1=a and A2=b and … x Ak=h ENTONCES Ar=u and As=v and … x Az=w” donde todos los atributos son nominales. Maestría ISC : Dirección Estratégica de TI - USAT Minería de Datos: Tareas Descriptivas RUT Ingreso Familiar Ciudad Actividad 10.251.545-3 5.000.000 Concepción Ejecutivo 15.512.526-4 1.000.000 Valparaíso Abogado 12.512.526-4 3.000.000 Talca Ejecutivo 14.374.183-3 2.000.000 Valdivia Camarero 14.572.904-1 1.500.000 Santiago Animador Parque Temático Edad Hijos Sexo Casado 45 3 M Sí 25 0 M No 35 2 M Sí 30 0 M Sí 30 0 F No Asociaciones frecuentes: sexo Masculino y Casado Casado e (Hijos > 0) {60%, 3 casos} {40%, 2 casos} Dependencias: sexo Masculino Casado Casado sexo Masculino {75%, 3 casos} {100%, 3 casos} Casado (Hijos > 0) (Hijos > 0) Casado Maestría ISC : Dirección Estratégica de TI - USAT SOPORTE {66.6%, 2 casos} FRECUENCIA {100%, 2 casos} Minería de Datos: Tareas Descriptivas Segmentación (Agrupamiento, Clustering): el objetivo es obtener grupos o conjuntos entre los elementos en estudio, de tal manera que los asignados al mismo grupo sean similares. Maestría ISC : Dirección Estratégica de TI - USAT • GRUPO 1: Sin hijos y de alquiler. Poco sindicalizados. Muchas bajas. • GRUPO 2: Sin hijos y con coche. Muy sindicalizados. Pocas bajas. Normalmente de alquiler y mujeres. • GRUPO 3: Con hijos, casados y con coche. Propietarios. Poco sindicados. Hombres. Maestría ISC : Dirección Estratégica de TI - USAT Minería de Datos: Tareas Predictivas Minería de Datos Descriptiva Visualización Predictiva Correlaciones y Dependencias Detección de Anomalías Clasificación Regresión Estadística Pronósticos Técnica: Árboles de Decisión Asociación Segmentación (Agrupamiento) Técnica: Inducción de Reglas Patrones Secuenciales Técnica: Métodos Bayesianos Técnica: Métodos basados en Casos y Vecindad Transversales: • Métodos Difusos • Métodos Evolutivos Maestría ISC : Dirección Estratégica de TI - USAT Técnica: Máquinas de Soporte Vectorial Técnica: Redes Neuronales Artificiales Minería de Datos: Tareas Predictivas Clasificación: los ejemplos son del tipo δ = {<e,s>, e ε E, s ε S}, siendo S es el conjunto de salida, nominal. El objetivo es aprender una función λ: E S, llamada clasificador, que a cada valor de E se tiene un único valor para S. • Clasificación binaria: si S tiene sólo dos valores. • Clasificación suave: a la definición básica, se agrega una segunda función Θ: E R, que representa el grado de precisión o certeza de la predicción de λ. • Estimación de probabilidad de clasificación: se trata de aprender m funciones Θi: E R, donde m es el número de clases; es decir cada función retorna para cada ejemplo un valor pi (grado de certeza – probabilidad, para la clase). Maestría ISC : Dirección Estratégica de TI - USAT Minería de Datos: Tareas Predictivas Maestría ISC : Dirección Estratégica de TI - USAT Minería de Datos: Tareas Predictivas Regresión: el conjunto de evidencias son correspondencias entre dos conjuntos δ : E S, siendo éste el conjunto de valores de salida, de tipo numérico; el objetivo es aprender una función λ: E S que represente la correspondencia existente en los ejemplos. Maestría ISC : Dirección Estratégica de TI - USAT Minería de Datos: Tareas Predictivas Pronósticos (series de tiempo): el tiempo es la característica principal, y las dependencias sobre esta variable son tan fuertes que los datos obtenidos tienen que ser mantenidos en un orden temporal secuencial. Series De Tiempo 1. Series económicas: 2. Series Físicas: 3. Geofísica: 4. Series demográficas: 5. Series de marketing: Ejemplos - Precios de un artículo - Tasas de desempleo - Tasa de inflación - Índice de precios, etc. - Meteorología - Cantidad de agua caída - Temperatura máxima diaria - Velocidad del viento (energía eólica) - Energía solar, etc. - Series sismologías - Tasas de crecimiento de la población - Tasa de natalidad, mortalidad - Resultados de censos poblacionales - Series de demanda, gastos, ofertas 6. Series de - Análisis de señales telecomunicación: 7. Series de transporte: - Series de tráfico Maestría ISC : Dirección Estratégica de TI - USAT Minería de Datos: Tareas Ejercicio 2: discutir el tipo de tarea a considerar para las siguientes situaciones. 1. Análisis de compras de los clientes de una multitienda. 2. División de clientes por perfil demográfico. asociación clasificacion 3. Análisis de las variables relevantes a la hora de comprar. 4. División de clientes por nivel de consumo (alto, medio, bajo). 5. División de clientes por hábitos de consumo. Maestría ISC : Dirección Estratégica de TI - USAT Minería de Datos: Tareas y Métodos Técnicas Método Apriori Algoritmos Genéticos y Evolutivos Análisis Discriminante Multivariante Análisis Factorial y de Componentes principales Árboles de decisión: CART Árboles de decisión: ID3, C4.5 Árboles de decisión: otros Bayes Ingenuo (Naive) CobWeb, Two Step Kmeans Máquinas de Soporte Vectorial Redes de Kohonen Redes Neuronales Artificiales Reglas CN2 Regresión Lineal y Logarítmica Regresión Logística Vecinos más cercanos Correlaciones x Descriptivas Reglas de Asociación x x Predictivas Segmentación Clasificación Regresión x x x x x x x x x x x x x x x x x x x x x x x x Maestría ISC : Dirección Estratégica de TI - USAT x x x x x x x Minería de Datos: Metodologías para Proyectos Proceso de Descubrimiento de Conocimiento (KDD) Muy antigua y no es integrada Maestría ISC : Dirección Estratégica de TI - USAT Minería de Datos: Metodologías para Proyectos SEMMA Maestría ISC : Dirección Estratégica de TI - USAT No hay comprension de datos ni compresion del negocio Minería de Datos: Metodologías para Proyectos CRISP-DM Es mas completa La etapa de modelado es la aplicación Maestría ISC : Dirección Estratégica de TI - USAT Minería de Datos: Metodologías para Proyectos Tabla Comparativa Maestría ISC : Dirección Estratégica de TI - USAT Minería de Datos Descriptiva: Asociación Minería de Datos Descriptiva Visualización Predictiva Correlaciones y Dependencias Detección de Anomalías Clasificación Regresión Estadística Pronósticos Técnica: Árboles de Decisión Asociación Segmentación (Agrupamiento) Técnica: Inducción de Reglas Patrones Secuenciales Técnica: Métodos Bayesianos Técnica: Métodos basados en Casos y Vecindad Transversales: • Métodos Difusos • Métodos Evolutivos Maestría ISC : Dirección Estratégica de TI - USAT Técnica: Máquinas de Soporte Vectorial Técnica: Redes Neuronales Artificiales Minería de Datos Descriptiva: Asociación • Tarea descriptiva, no supervisada. • Posibilidades: Asociaciones de la siguiente forma: (X1 = a) (X4 = b) Dependencias de la forma if Antecedente then Consecuente: if (X1 = a, X3 = c, X5 = d) (X4 = b, X2 = a) Maestría ISC : Dirección Estratégica de TI - USAT Minería de Datos Descriptiva: Asociación Métricas: • Soporte: representa la utilidad de la regla, correspondiendo al número de casos (o porcentaje) en los que están presentes tanto el antecedente como el consecuente de una regla. • Confianza: refleja la certeza la regla, y corresponde al número de casos que habiendo cumplido el antecedente de la regla, cumplen también el consecuente (rc/ra). Maestría ISC : Dirección Estratégica de TI - USAT Minería de Datos Descriptiva: Asociación Los algoritmos de búsqueda de asociaciones y dependencias, tienden a descomponer el problema en dos fases: • Fase 1 – Búsqueda de Itemsets Frecuentes: se buscan conjuntos de ítemes (o atributos) con ‘soporte’ mayor/igual al soporte deseado; de momento no se busca separarlos en parte izquierda y parte derecha. • Fase 2 – Esclarecimiento de Dependencias (Reglas): se hacen particiones binarias y disjuntas de los itemsets y se calcula la confianza de cada uno. Se retienen aquellas reglas que tienen confianza mayor/igual a la confianza deseada. Algoritmo básico: Apriori. Maestría ISC : Dirección Estratégica de TI - USAT Minería de Datos Descriptiva: Asociación Ejemplo: datos de las compras de parte de 5 clientes (filas), respecto de 5 productos específicos (columnas). • Si un cliente compró, al menos, una unidad de cierto producto, la intersección se marca con una “x”. • En caso contrario, dicha intersección queda vacía. Maestría ISC : Dirección Estratégica de TI - USAT Minería de Datos Descriptiva: Asociación • Fase 1: búsqueda de itemsets frecuentes soporte mínimo: 0.4 (2 clientes) fuera producto 4 este valor esta basado en experiencia S1= { {P1}, {P2}, {P3}, {P4}, {P5}, } S1’ = { {P1}:3, {P2}:3, {P3}:3, {P5}:4 } S2= { {P1,P2}, {P1,P3}, {P1,P5}, {P2,P3}, {P2,P5}, {P3,P5} } S2’ = { {P1,P2}:2, {P1,P3}:2, {P1,P5}:2, {P2,P3}:2, {P2,P5}:3, {P3,P5}:2 } S3= { {P1,P2,P3}, {P1,P2,P5}, {P1,P3,P5}, {P2,P3,P5} } S3’ = {{P1,P2,P5}: 2, {P2,P3,P5}:2 } formando tuplas recorriendo la BD generando ternas S4= { {P1,P2,P3,P5} } S4’ = {} Sfinal = {{P1,P2}, {P1,P3}, {P1,P5}, {P2,P3}, {P2,P5}, {P3,P5}, {P2,P3,P5} } falto p1,p2,p5 Maestría ISC : Dirección Estratégica de TI - USAT Minería de Datos Descriptiva: Asociación definiremos la confianza • Fase 2: esclarecimiento de dependencias {P1}{P2} {P1}{P3} {P1}{P5} {P2}{P3} {P2}{P5} {P3}{P5} : 0.67 : 0.67 : 0.67 : 0.67 :1 : 0.67 {P2}{P1} {P3}{P1} {P5}{P1} {P3}{P2} : 0.67 : 0.67 : 0.5 : 0.67 {P5}{P2} : 0.75 {P5}{P3} : 0.5 {P2,P3}{P5} : 1 {P5}{P2, P3} : 0.5 {P2,P5}{P3} : 0.67 {P3}{P2, P5} : 0.67 {P3,P5}{P2} : 1 {P2}{P3, P5} : 0.67 Maestría ISC : Dirección Estratégica de TI - USAT Minería de Datos Descriptiva: Asociación • Resultado final: confianza mínima: 0.75 {P2} {P5} : 1 {P2,P3} {P5} : 1 {P3,P5} {P2} : 1 {P5} {P2} : 0.75 Maestría ISC : Dirección Estratégica de TI - USAT confianza mínima: 0.6 {P2} {P5} :1 {P2,P3} {P5} :1 {P3,P5} {P2} :1 {P5} {P2} : 0.75 {P1} {P2} : 0.67 {P2} {P1} : 0.67 {P1} {P3} : 0.67 {P3} {P1} : 0.67 {P1} {P5} : 0.67 {P2} {P3} : 0.67 {P3} {P2} : 0.67 {P2,P5} {P3 : 0.67 {P3} {P2,P5} : 0.67 {P2} {P3,5} : 0.67 {P3} {P5} : 0.67 Minería de Datos Descriptiva: Asociación Ejercicio: El encargado de un local necesita analizar las ventas que incluyan productos a consumir a la hora de onces. En particular, quiere conocer las preferencias de sus clientes al momento de adquirir los siguientes 6 productos: Pan, Jamón, Mantequilla, Mermelada, Queso, Paté. Para llevar a cabo esto, tiene los registros de venta de las últimas 750 compras realizadas. Maestría ISC : Dirección Estratégica de TI - USAT • ¿Es, efectivamente, el Pan el producto de mayor venta? • ¿Cuál producto es el que más tiende a comprarse junto con el Pan?. • ¿Qué nivel de preferencia tiene el producto de menor venta? ¿Tiene mucha diferencia con el segundo producto menos preferido? • ¿La diferencia entre las ventas del producto más y menos vendido, es muy grande? Porcentualmente hablando, ¿cuánto más se vende del producto más vendido, respecto del de menor venta?. Maestría ISC : Dirección Estratégica de TI - USAT • Existen combinaciones de productos que no incluyan al Pan, que tengan un número de compras mayor a otras que sí lo incluyen?. • ¿Qué tan frecuente es la compra conjunta de Queso y Jamón? ¿Hay otra que lo sea más?. • ¿Qué producto(s) son fuertemente determinados por la compra del Pan?. • ¿Es posible identificar algún(os) producto(s) que no tiene(n) influencia en la compra de ningún otro?. • ¿Cuál(es) producto(s) pareciera(n) tener mayor peso en las compras, en el sentido de determinar la adquisición de otro(s)?. • Si alguien decide llevar Mantequilla, ¿se puede determinar que también comprará Queso?. Usando CRISP-DM… Maestría ISC : Dirección Estratégica de TI - USAT 1. Comprensión del Negocio • Análisis de carritos de compra • Productos del mismo tipo (departamento, área) • Contexto? Maestría ISC : Dirección Estratégica de TI - USAT 2. Comprensión de los Datos: usando Orange Canvas Maestría ISC : Dirección Estratégica de TI - USAT 3. Preparación de los Datos donde 1 significa que el cliente compró una unidad del producto en cuestión, 0 en caso contrario. Maestría ISC : Dirección Estratégica de TI - USAT 4. Modelado: usando Orange Canvas 5. Evaluación: • Soporte correcto? • Confianza correcto? 6. Despliegue Maestría ISC : Dirección Estratégica de TI - USAT Responder las consultas anteriores Se deben buscar las mejores reglas y definir cual es el soporte y confianza Maestría ISC : Dirección Estratégica de TI - USAT