Uploaded by Alex Zepeda

4a Mineria de Datos - asociacion

advertisement
CURSO: INTELIGENCIA DE NEGOCIOS
Profesor: José Luis Martí Lara
jmarti@inf.utfsm.cl
Maestría ISC : Dirección Estratégica de TI - USAT
Unidad 4
Minería de Datos
Maestría ISC : Dirección Estratégica de TI - USAT
Minería de Datos: Introducción
Minería de Datos: conjunto de técnicas y herramientas destinadas a
extraer conocimiento útil y comprensible, previamente desconocido,
desde grandes cantidades de datos almacenados en distintos formatos.
Características:
• Trabajo (semi)automático sobre los datos
• Generación de conocimiento descriptivo
y predictivo
• Contribuye a la toma de decisiones de
una organización
Maestría ISC : Dirección Estratégica de TI - USAT
Minería de Datos: Introducción
Minería de Datos: contexto.
Maestría ISC : Dirección Estratégica de TI - USAT
Minería de Datos: Tareas y Técnicas
• Tarea: descriptiva, predictiva
• Método: o técnica con la cual es posible resolver una tarea de
minería de datos
Maestría ISC : Dirección Estratégica de TI - USAT
Minería de Datos: Tareas
Minería de Datos: considera tareas de tipo…
• Descriptiva: los datos de entrada se presentan sin etiquetar y sin
orden alguno, y se busca describirlos y no predecir datos nuevo.
• Predictiva: considera problemas en los que hay que predecir uno o
más valores para un conjunto de ejemplos. Éstos van acompañados de
una salida (clase, categoría, valor numérico) o un orden entre ellos.
Maestría ISC : Dirección Estratégica de TI - USAT
Minería de Datos: Tareas
Minería de Datos
Descriptiva
Visualización
Predictiva
Correlaciones y
Dependencias
Detección de
Anomalías
Clasificación
Regresión
Estadística
Pronósticos
Técnica: Árboles de Decisión
Asociación
Segmentación
(Agrupamiento)
Técnica: Inducción de Reglas
Patrones Secuenciales
Técnica: Métodos Bayesianos
Técnica: Métodos basados en Casos y Vecindad
Transversales:
• Métodos Difusos
• Métodos Evolutivos
Maestría ISC : Dirección Estratégica de TI - USAT
Técnica: Máquinas de Soporte Vectorial
Técnica: Redes Neuronales Artificiales
Minería de Datos: Tareas Descriptivas
Visualización:
Maestría ISC : Dirección Estratégica de TI - USAT
Minería de Datos: Tareas Descriptivas
Coordenadas
Paralelas
Coordenadas
Radiales
Maestría ISC : Dirección Estratégica de TI - USAT
Coordenadas
Paralelas
Circulares
Coordenadas
Radiales
Expandidas
Representación Icónica
Coordenadas Paralelas
S13
S11
S9
S7
Maestría ISC : Dirección Estratégica de TI - USAT
Rsg
S1
Strss
Alcl.
Prcd.
Factores
Obsd.
S3
Tnsn.
Clstrl.
Tbco.
S5
Casos
Minería de Datos: Tareas Descriptivas
Correlaciones y factorizaciones: se centran exclusivamente en los atributos
numéricos. El objetivo es ver, dados los ejemplos del conjunto E = A1 x A2 x … x
An, si dos o más atributos numéricos Ai y Aj están correlacionados linealmente o
relacionados de algún otro modo.
Maestría ISC : Dirección Estratégica de TI - USAT
Minería de Datos: Tareas Descriptivas
Detección de valores e instancias anómalas: útil
comportamientos anómalos como fraudes, fallas, intrusos.
12
10
8
6
4
2
0
1
2
3
4
5
Maestría ISC : Dirección Estratégica de TI - USAT
6
7
8
9
10
11
12
para
detectar
Minería de Datos: Tareas Descriptivas
…y detectar outliers.
Outlier
Maestría ISC : Dirección Estratégica de TI - USAT
Minería de Datos: Tareas Descriptivas
(Reglas de) Asociación: dados los ejemplos del conjunto E = A1 x A2 x … x An,
una regla de asociación se define generalmente como:
“SI A1=a and A2=b and … x Ak=h ENTONCES
Ar=u and As=v and … x Az=w”
donde todos los atributos son nominales.
Maestría ISC : Dirección Estratégica de TI - USAT
Minería de Datos: Tareas Descriptivas
RUT
Ingreso Familiar Ciudad
Actividad
10.251.545-3 5.000.000
Concepción
Ejecutivo
15.512.526-4 1.000.000
Valparaíso
Abogado
12.512.526-4 3.000.000
Talca
Ejecutivo
14.374.183-3 2.000.000
Valdivia
Camarero
14.572.904-1 1.500.000
Santiago Animador Parque Temático
Edad Hijos Sexo Casado
45
3
M
Sí
25
0
M
No
35
2
M
Sí
30
0
M
Sí
30
0
F
No
Asociaciones frecuentes:
sexo Masculino y Casado
Casado e (Hijos > 0)
{60%, 3 casos}
{40%, 2 casos}
Dependencias:
sexo Masculino  Casado
Casado  sexo Masculino
{75%, 3 casos}
{100%, 3 casos}
Casado  (Hijos > 0)
(Hijos > 0)  Casado
Maestría ISC : Dirección Estratégica de TI - USAT
SOPORTE
{66.6%, 2 casos} FRECUENCIA
{100%, 2 casos}
Minería de Datos: Tareas Descriptivas
Segmentación (Agrupamiento, Clustering): el objetivo es obtener grupos o
conjuntos entre los elementos en estudio, de tal manera que los asignados al
mismo grupo sean similares.
Maestría ISC : Dirección Estratégica de TI - USAT
• GRUPO 1: Sin hijos y de alquiler. Poco sindicalizados. Muchas bajas.
• GRUPO 2: Sin hijos y con coche. Muy sindicalizados. Pocas bajas. Normalmente
de alquiler y mujeres.
• GRUPO 3: Con hijos, casados y con coche. Propietarios. Poco sindicados.
Hombres.
Maestría ISC : Dirección Estratégica de TI - USAT
Minería de Datos: Tareas Predictivas
Minería de Datos
Descriptiva
Visualización
Predictiva
Correlaciones y
Dependencias
Detección de
Anomalías
Clasificación
Regresión
Estadística
Pronósticos
Técnica: Árboles de Decisión
Asociación
Segmentación
(Agrupamiento)
Técnica: Inducción de Reglas
Patrones Secuenciales
Técnica: Métodos Bayesianos
Técnica: Métodos basados en Casos y Vecindad
Transversales:
• Métodos Difusos
• Métodos Evolutivos
Maestría ISC : Dirección Estratégica de TI - USAT
Técnica: Máquinas de Soporte Vectorial
Técnica: Redes Neuronales Artificiales
Minería de Datos: Tareas Predictivas
Clasificación: los ejemplos son del tipo δ = {<e,s>, e ε E, s ε S}, siendo S es el
conjunto de salida, nominal. El objetivo es aprender una función λ: E  S,
llamada clasificador, que a cada valor de E se tiene un único valor para S.
• Clasificación binaria: si S tiene sólo dos valores.
• Clasificación suave: a la definición básica, se agrega una segunda función Θ:
E  R, que representa el grado de precisión o certeza de la predicción de λ.
• Estimación de probabilidad de clasificación: se trata de aprender m
funciones Θi: E  R, donde m es el número de clases; es decir cada función
retorna para cada ejemplo un valor pi (grado de certeza – probabilidad,
para la clase).
Maestría ISC : Dirección Estratégica de TI - USAT
Minería de Datos: Tareas Predictivas
Maestría ISC : Dirección Estratégica de TI - USAT
Minería de Datos: Tareas Predictivas
Regresión: el conjunto de evidencias son correspondencias entre dos
conjuntos δ : E  S, siendo éste el conjunto de valores de salida, de tipo
numérico; el objetivo es aprender una función λ: E  S que represente la
correspondencia existente en los ejemplos.
Maestría ISC : Dirección Estratégica de TI - USAT
Minería de Datos: Tareas Predictivas
Pronósticos (series de tiempo): el tiempo es la característica principal, y las
dependencias sobre esta variable son tan fuertes que los datos obtenidos
tienen que ser mantenidos en un orden temporal secuencial.
Series De Tiempo
1. Series económicas:
2. Series Físicas:
3. Geofísica:
4. Series demográficas:
5. Series de marketing:
Ejemplos
- Precios de un artículo
- Tasas de desempleo
- Tasa de inflación
- Índice de precios, etc.
- Meteorología
- Cantidad de agua caída
- Temperatura máxima diaria
- Velocidad del viento (energía
eólica)
- Energía solar, etc.
- Series sismologías
- Tasas de crecimiento de la
población
- Tasa de natalidad, mortalidad
- Resultados de censos
poblacionales
- Series de demanda, gastos,
ofertas
6. Series de
- Análisis de señales
telecomunicación:
7. Series de transporte:
- Series de tráfico
Maestría ISC : Dirección Estratégica de TI - USAT
Minería de Datos: Tareas
Ejercicio 2: discutir el tipo de tarea a considerar para las siguientes situaciones.
1. Análisis de compras de los clientes de una multitienda.
2. División de clientes por perfil demográfico.
asociación
clasificacion
3. Análisis de las variables relevantes a la hora de comprar.
4. División de clientes por nivel de consumo (alto, medio,
bajo).
5. División de clientes por hábitos de consumo.
Maestría ISC : Dirección Estratégica de TI - USAT
Minería de Datos: Tareas y Métodos
Técnicas
Método
Apriori
Algoritmos Genéticos y Evolutivos
Análisis Discriminante Multivariante
Análisis Factorial y de Componentes
principales
Árboles de decisión: CART
Árboles de decisión: ID3, C4.5
Árboles de decisión: otros
Bayes Ingenuo (Naive)
CobWeb, Two Step
Kmeans
Máquinas de Soporte Vectorial
Redes de Kohonen
Redes Neuronales Artificiales
Reglas CN2
Regresión Lineal y Logarítmica
Regresión Logística
Vecinos más cercanos
Correlaciones
x
Descriptivas
Reglas de
Asociación
x
x
Predictivas
Segmentación
Clasificación
Regresión
x
x
x
x
x
x
x
x
x
x
x
x
x
x
x
x
x
x
x
x
x
x
x
x
Maestría ISC : Dirección Estratégica de TI - USAT
x
x
x
x
x
x
x
Minería de Datos: Metodologías para Proyectos
Proceso de Descubrimiento de Conocimiento (KDD)
Muy antigua y no
es integrada
Maestría ISC : Dirección Estratégica de TI - USAT
Minería de Datos: Metodologías para Proyectos
SEMMA
Maestría ISC : Dirección Estratégica de TI - USAT
No hay comprension de datos ni
compresion del negocio
Minería de Datos: Metodologías para Proyectos
CRISP-DM
Es mas completa
La etapa de modelado es la aplicación
Maestría ISC : Dirección Estratégica de TI - USAT
Minería de Datos: Metodologías para Proyectos
Tabla
Comparativa
Maestría ISC : Dirección Estratégica de TI - USAT
Minería de Datos Descriptiva: Asociación
Minería de Datos
Descriptiva
Visualización
Predictiva
Correlaciones y
Dependencias
Detección de
Anomalías
Clasificación
Regresión
Estadística
Pronósticos
Técnica: Árboles de Decisión
Asociación
Segmentación
(Agrupamiento)
Técnica: Inducción de Reglas
Patrones Secuenciales
Técnica: Métodos Bayesianos
Técnica: Métodos basados en Casos y Vecindad
Transversales:
• Métodos Difusos
• Métodos Evolutivos
Maestría ISC : Dirección Estratégica de TI - USAT
Técnica: Máquinas de Soporte Vectorial
Técnica: Redes Neuronales Artificiales
Minería de Datos Descriptiva: Asociación
• Tarea descriptiva, no supervisada.
• Posibilidades:
 Asociaciones de la siguiente forma:
(X1 = a)  (X4 = b)
 Dependencias de la forma if Antecedente then
Consecuente:
if (X1 = a, X3 = c, X5 = d)  (X4 = b, X2 = a)
Maestría ISC : Dirección Estratégica de TI - USAT
Minería de Datos Descriptiva: Asociación
Métricas:
• Soporte: representa la utilidad de la regla, correspondiendo al
número de casos (o porcentaje) en los que están presentes tanto el
antecedente como el consecuente de una regla.
• Confianza: refleja la certeza la regla, y corresponde al número de
casos que habiendo cumplido el antecedente de la regla, cumplen
también el consecuente (rc/ra).
Maestría ISC : Dirección Estratégica de TI - USAT
Minería de Datos Descriptiva: Asociación
Los algoritmos de búsqueda de asociaciones y dependencias, tienden
a descomponer el problema en dos fases:
• Fase 1 – Búsqueda de Itemsets Frecuentes: se buscan conjuntos de
ítemes (o atributos) con ‘soporte’ mayor/igual al soporte deseado;
de momento no se busca separarlos en parte izquierda y parte
derecha.
• Fase 2 – Esclarecimiento de Dependencias (Reglas): se hacen particiones binarias y disjuntas de los itemsets y se calcula la confianza
de cada uno. Se retienen aquellas reglas que tienen confianza
mayor/igual a la confianza deseada.
Algoritmo básico: Apriori.
Maestría ISC : Dirección Estratégica de TI - USAT
Minería de Datos Descriptiva: Asociación
Ejemplo: datos de las compras de parte de 5 clientes (filas), respecto
de 5 productos específicos (columnas).
• Si un cliente compró, al menos, una unidad de cierto producto, la
intersección se marca con una “x”.
• En caso contrario, dicha intersección queda vacía.
Maestría ISC : Dirección Estratégica de TI - USAT
Minería de Datos Descriptiva: Asociación
• Fase 1: búsqueda de itemsets frecuentes
soporte mínimo: 0.4 (2 clientes)
fuera producto 4
este valor esta basado en
experiencia
S1= { {P1}, {P2}, {P3}, {P4}, {P5}, }
 S1’ = { {P1}:3, {P2}:3, {P3}:3, {P5}:4 }
S2= { {P1,P2}, {P1,P3}, {P1,P5}, {P2,P3}, {P2,P5}, {P3,P5} }
 S2’ = { {P1,P2}:2, {P1,P3}:2, {P1,P5}:2,
{P2,P3}:2, {P2,P5}:3, {P3,P5}:2 }
S3= { {P1,P2,P3}, {P1,P2,P5}, {P1,P3,P5}, {P2,P3,P5} }
 S3’ = {{P1,P2,P5}: 2, {P2,P3,P5}:2 }
formando tuplas recorriendo la BD
generando ternas
S4= { {P1,P2,P3,P5} }
 S4’ = {}
Sfinal = {{P1,P2}, {P1,P3}, {P1,P5}, {P2,P3}, {P2,P5}, {P3,P5}, {P2,P3,P5} }
falto p1,p2,p5
Maestría ISC : Dirección Estratégica de TI - USAT
Minería de Datos Descriptiva: Asociación
definiremos la confianza
• Fase 2: esclarecimiento de dependencias
{P1}{P2}
{P1}{P3}
{P1}{P5}
{P2}{P3}
{P2}{P5}
{P3}{P5}
: 0.67
: 0.67
: 0.67
: 0.67
:1
: 0.67
{P2}{P1}
{P3}{P1}
{P5}{P1}
{P3}{P2}
: 0.67
: 0.67
: 0.5
: 0.67
{P5}{P2} : 0.75
{P5}{P3} : 0.5
{P2,P3}{P5} : 1
{P5}{P2, P3} : 0.5
{P2,P5}{P3} : 0.67 {P3}{P2, P5} : 0.67
{P3,P5}{P2} : 1
{P2}{P3, P5} : 0.67
Maestría ISC : Dirección Estratégica de TI - USAT
Minería de Datos Descriptiva: Asociación
• Resultado final:
confianza mínima: 0.75
{P2}
 {P5} : 1
{P2,P3}  {P5} : 1
{P3,P5}  {P2} : 1
{P5}
 {P2} : 0.75
Maestría ISC : Dirección Estratégica de TI - USAT
confianza mínima: 0.6
{P2}
 {P5}
:1
{P2,P3}  {P5}
:1
{P3,P5}  {P2}
:1
{P5}
 {P2}
: 0.75
{P1}
 {P2}
: 0.67
{P2}
 {P1}
: 0.67
{P1}
 {P3}
: 0.67
{P3}
 {P1}
: 0.67
{P1}
 {P5}
: 0.67
{P2}
 {P3}
: 0.67
{P3}
 {P2}
: 0.67
{P2,P5}  {P3
: 0.67
{P3}
 {P2,P5} : 0.67
{P2}
 {P3,5} : 0.67
{P3}
 {P5}
: 0.67
Minería de Datos Descriptiva: Asociación
Ejercicio:
El encargado de un local necesita analizar las ventas que incluyan
productos a consumir a la hora de onces. En particular, quiere conocer las
preferencias de sus clientes al momento de adquirir los siguientes 6 productos:
Pan, Jamón, Mantequilla, Mermelada, Queso, Paté. Para llevar a cabo esto,
tiene los registros de venta de las últimas 750 compras realizadas.
Maestría ISC : Dirección Estratégica de TI - USAT
• ¿Es, efectivamente, el Pan el producto de mayor venta?
• ¿Cuál producto es el que más tiende a comprarse junto con el Pan?.
• ¿Qué nivel de preferencia tiene el producto de menor venta? ¿Tiene
mucha diferencia con el segundo producto menos preferido?
• ¿La diferencia entre las ventas del producto más y menos vendido, es muy
grande? Porcentualmente hablando, ¿cuánto más se vende del producto
más vendido, respecto del de menor venta?.
Maestría ISC : Dirección Estratégica de TI - USAT
• Existen combinaciones de productos que no incluyan al Pan, que tengan
un número de compras mayor a otras que sí lo incluyen?.
• ¿Qué tan frecuente es la compra conjunta de Queso y Jamón? ¿Hay otra
que lo sea más?.
• ¿Qué producto(s) son fuertemente determinados por la compra del Pan?.
• ¿Es posible identificar algún(os) producto(s) que no tiene(n) influencia en
la compra de ningún otro?.
• ¿Cuál(es) producto(s) pareciera(n) tener mayor peso en las compras, en el
sentido de determinar la adquisición de otro(s)?.
• Si alguien decide llevar Mantequilla, ¿se puede determinar que también
comprará Queso?.
Usando CRISP-DM…
Maestría ISC : Dirección Estratégica de TI - USAT
1. Comprensión del Negocio
• Análisis de carritos de compra
• Productos del mismo tipo (departamento, área)
• Contexto?
Maestría ISC : Dirección Estratégica de TI - USAT
2. Comprensión de los Datos: usando Orange Canvas
Maestría ISC : Dirección Estratégica de TI - USAT
3. Preparación de los Datos
donde 1 significa que el cliente compró una unidad del producto en
cuestión, 0 en caso contrario.
Maestría ISC : Dirección Estratégica de TI - USAT
4. Modelado: usando Orange Canvas
5. Evaluación:
• Soporte correcto?
• Confianza correcto?
6. Despliegue
Maestría ISC : Dirección Estratégica de TI - USAT
Responder las consultas anteriores
Se deben buscar las mejores reglas y definir cual es el soporte y confianza
Maestría ISC : Dirección Estratégica de TI - USAT
Download