Anda di halaman 1dari 61

Data Mining: Introducción

Sesión 1

Data Mining para Inteligencia de Mercados


Contenido
• Definiciones
• Técnicas Usadas y Aplicaciones
– Visualización
– Predicción
– Clasificación
– Agrupación
– Reglas de Asociación
– Detección de Desviaciones-Anomalias
• Software Comercial y Open-Source
Data Mining para Inteligencia de Mercados
¿Qué es Data Mining?
• Berry/Linoff: “Data Mining es la
exploración y análisis, por medios
automaticos o semi-automaticos, de
grandes cantidades de datos con el
propósito de descubrir patrones y reglas
interesantes”

Data Mining para Inteligencia de Mercados


¿Qué es Data Mining?
• Hand/Mannila/Smyth: “Data Mining es el
análisis de bases de datos
observacionales (a menudo inmensas)
con el objetivo de encontrar relaciones no
sospechadas y resumir los datos en
maneras novedosas que sean ambas:
entendibles y útiles para el dueño de los
datos”

Data Mining para Inteligencia de Mercados


¿Cuál es la alternativa?

5
Data Mining para Inteligencia de Mercados
Data Mining
• Una manera de entender lo que es Data
Mining es verlo como un proceso de
transformar datos (la pantalla azul) en
información sobre la que se pueda actuar
(actionable information)

Data Mining para Inteligencia de Mercados


Data Mining y Data
Warehouse
• Los Data Warehouses proveen
a la empresa de memoria

• Data Mining provee a la empresa


de inteligencia

Data Mining para Inteligencia de Mercados


¿Por qué es relevante hoy?
• Los datos estan siendo generados
• Los datos estan siendo guardados
• Las computadoras actuales nos permiten
este análisis
• La presión de la competencia es fuerte
• El software para hacerlo esta disponible
comercialmente y muchas veces
gratuitamente

Data Mining para Inteligencia de Mercados


Caracteristicas
• Bases de datos extremadamente grandes
• Descubrimiento de relaciones que no son
obvias
• Descubrimiento de relaciones que pueden
mejorar los procesos (actionable
information)
• No se puede hacer manualmente (son
muy grandes)

Data Mining para Inteligencia de Mercados


Una cuestión de tamaño
• Las bases de datos de las empresas
modernas son inmensas
• Ya no es raro, mas bien es común hablar
de bases de datos con más de un
1,000,000 de records u observaciones
• Bases de datos que contienen decenas o
centenas de atributos o variables
• Tamaños de archivos ya no se miden en
MB se miden en GB y en TB

Data Mining para Inteligencia de Mercados


Taxonomía de Bases de Datos
de Huber-Wegman
Descriptor Data set size in bytes Storage Mode
Tiny (Chiquitita) 10^2 Hoja de Papel
Small (Pequeña) 10^4 Unas cuantas hojas de
papel
Medium (Mediana) 10^6 Un diskette floppy
Large (Grande) 10^8 Un disco duro
Huge (Inmensa) 10^10 Varios discos duros
Massive (Masiva) 10^12 Disk farms/tape storage
silos
Supermassive 10^15 Centros de datos
(Supermasiva) (distributed data centers)

Data Mining para Inteligencia de Mercados


Aplicaciones Típicas de Data
Mining

Data Mining para Inteligencia de Mercados


Ventas-Mercadeo
• Los objetivos pueden ser:
• Proveer un mejor servicio al cliente (CRM)
• Mejorar las oportunidades de ventas
cruzadas (cross-selling) o aun mejor
upselling
• Aumentar las tasas de respuesta a una
campaña de mercadeo

Data Mining para Inteligencia de Mercados


Perfil de los Clientes
• A veces, Data Mining nos sirve para
conocer o proveer un perfil de quienes son
nuestros clientes
• Existen grupos bien definidos dentro de
nuestros clientes?
• Se comportan estos de manera semejante
dentro de un grupo...
• Y diferente entre distintos grupos?

Data Mining para Inteligencia de Mercados


Retención de Clientes
• Data Mining también puede ser utilizada para
entender mejor el proceso de rotación y
deserción de los clientes (telefonía celular,
tarjetas de crédito)
• ¿Cuáles son los determinantes más
importantes de la deserción de un cliente?
• ¿Podemos pronosticar cuándo esta
deserción ocurrirá?
• ¿Qué podemos hacer si podemos hacer ese
pronóstico?
Data Mining para Inteligencia de Mercados
Evaluación de Riesgo y Detección
de Fraude
• Data Mining ha sido utilizada
efectivamente en instituciones financieras
para evaluar el riesgo de que un cliente
haga default
• También para identificar comportamiento
inusual o inapropiado (fraude)

Data Mining para Inteligencia de Mercados


Técnicas Utilizadas
– Visualización
– Predicción
– Clasificación
– Agrupación
– Reglas de Asociación
– Detección de Desviaciones-Anomalias

Data Mining para Inteligencia de Mercados


Visualización
• Tipicamente el paso inicial en un proceso
de análisis es la exploración visual de los
datos
• (probablemente lo comencemos hoy)
• Data mining, para ser efectiva, no tiene
necesariamente que se complicada
• Graficos sencillos a veces revelan
estructuras interesantes en los datos

Data Mining para Inteligencia de Mercados


Distribucion de Edad y Sexo

800
Woman
Man

600
400
200
0

Age15-35 Age36-50 Age51-89

19
Data Mining para Inteligencia de Mercados
20
Data Mining para Inteligencia de Mercados
Ventas de VLINE
100

80

60

40

18
26
20
SALES

0
N= 9 9 8 8

I II III IV

QUARTER

Ventas en Miles de Dolares. Quarter=Trimestre. Sales=Ventas.

21
Data Mining para Inteligencia de Mercados
22
Data Mining para Inteligencia de Mercados
23
Data Mining para Inteligencia de Mercados
24
Data Mining para Inteligencia de Mercados
25
Data Mining para Inteligencia de Mercados
26
Data Mining para Inteligencia de Mercados
27
Data Mining para Inteligencia de Mercados
Un gráfico extraordinario
• 5 variables representadas en un scatter
plot
– Esperanza de Vida,
– Numero de Niños por Familia
– Población,
– Región Geográfica,
– Tiempo

28
Data Mining para Inteligencia de Mercados
29
Data Mining para Inteligencia de Mercados
Predicción
• Queremos pronosticar aquí el valor que
toma una variable que nos interesa
• La variable puede tomar cualquier valor en
un rango dado
• Piensen que estamos construyendo un
perfil de mi cliente
• Ejemplo: Cuanto me compra (monto en $)
al año basado en las características del
individuo
Data Mining para Inteligencia de Mercados
Regresión
• Una de las técnicas usadas para predecir
es regresión lineal
• Aquí lo que suponemos es que podemos
resumir la relación entre la variable que
queremos pronosticar y las variables que
usamos para pronosticarla con una
ecuación lineal
• Ej: Quiero pronosticar cuanto gasta una
persona al año en cerveza

Data Mining para Inteligencia de Mercados


¿De que depende cuanto gasto en
Cerveza?
• Aquí proveemos una lista de todas las
variables que creemos potencialmente
pueden afectar el consumo
• O proveemos una lista de variables con las
que contamos en nuestras bases de datos
• Esta lista de variables puede ser inmensa
• Todas las técnicas de Data Mining incluyen
métodos para seleccionar de este pool de
variables las mejores
Data Mining para Inteligencia de Mercados
Data Mining para Inteligencia de Mercados
• Cerveza = 439 – 181*mujer
+73*educ_secundaria –
6.47*educ_universidad – 48*educ_postgrado
+ 0.003*ingreso (miles de $) – 8.84 edad
• Lo útil de esta ecuación es que por un lado
resume la información en la base de datos
• Por otra, me permite pronosticar que
consumo tendrá una persona con
determinadas caracteristicas

Data Mining para Inteligencia de Mercados


Clasificación
• A diferencia de la técnica de predicción
aquí queremos pronosticar si un individuo
pertenece o no a un grupo determinado
• Ej: Podemos pronosticar si un cliente nos
causará problemas?
• Ej: Rotación, un cliente abandona mi
empresa y se va con la competencia
• Ej: Una transacción es fraudulenta o no

Data Mining para Inteligencia de Mercados


Clasificación
• Una técnica utilizada en clasificación, la
regresión logística, utiliza una estrategia
semejante a la de regresión
• Trata de conectar la probabilidad de “éxito”
con una ecuación lineal de todos las
variables predictoras
• Consideren un caso sencillo
• Estamos tratando de pronosticar si un cliente
nos comprará o no un producto (cualquiera
que este sea)
Data Mining para Inteligencia de Mercados
Clasificación
• Tenemos a nuestra disposición
información sobre algunas características
demográficas del individuo: sexo y edad
• Queremos convertir información sobre
estas dos variables en un score que este
relacionado con la probabilidad de que el
cliente compre un producto

Data Mining para Inteligencia de Mercados


Clasificación
• Score = -26.46+0.78 edad-0.55 mujer
• El score disminuye si la persona es una
mujer
• El score aumenta con la edad
• ¿Quienes son mis clientes?
• ¿Qué vendo?

Data Mining para Inteligencia de Mercados


Score => Probabilidad

Data Mining para Inteligencia de Mercados


Otros metodos de clasificacion
• Arboles de Clasificación
• Random Forest
• Neural Networks

Data Mining para Inteligencia de Mercados


Agrupación (clustering)
• En el caso de clasificación, comenzabamos
nuestro análisis con grupos predefinidos y
nuestra labor era desarrollar un modelo para
pronosticar como debe ser clasificada una
nueva observación
• En agrupación, no hay grupos pre-
clasificados
• Lo que buscamos es la formación de grupos
(clusters)
• Las observaciones que pertenecen a un
mismo grupo se parecen entre sí

Data Mining para Inteligencia de Mercados


Agrupación
• Las observaciones que pertenecen a
grupos diferentes son diferentes
• La esperanza obviamente es que clientes
similares se van a comportar de maneras
semejante

Data Mining para Inteligencia de Mercados


Agrupación
• Ejemplo: Dos Edad Salario
variables numericas: 20 40
25 50
edad y salario 24 45
• Cuantos grupos hay 23 50
40 80
aquí? 45 85
• Es necesario precisar 42 87
35 82
que quiere decir
70 30
“similar”

Data Mining para Inteligencia de Mercados


Representación Gráfica

Data Mining para Inteligencia de Mercados


• La aplicación más común de agrupación
es segmentación
• Otra aplicación, menos obvia, es la
detección de anomalias, de outliers

Data Mining para Inteligencia de Mercados


Reglas de Asociación
“If I have 3 million customers on the Web, I should have 3
million stores on the Web.”
“Si tengo 3 millones de clientes en la internet, debo tener 3
millones de tiendas.”
Jeff Bezos, CEO Amazon.com

46
Data Mining para Inteligencia de Mercados
Reglas de Asociación
• Schmueli: “Determinar qué va con qué.”
• Encontrar combinaciones de objetos que
ocurren frecuentemente en una base de
datos de transacciones
• Medir la fuerza o importancia de estas
combinaciones
• Explotar el descubrimiento de estas reglas
con el propósito de mejorar nuestro negocio
47
Data Mining para Inteligencia de Mercados
Data Mining para Inteligencia de Mercados
¿Qué son las reglas de
asociación?
• Las reglas de asociación son reglas del
tipo:
• SI el cliente compra leche ENTONCES
también comprará café
• Por eficiencia escribiremos esta regla de
la siguiente forma:
• Si leche => café.
• En general, SI condicion => resultado.
49
Data Mining para Inteligencia de Mercados
Aplicaciones
• ¿Cómo puede usarse esta información?
• Segmentar clientes basados en patrones
de compra
• Ubicación de productos en estantes
• Ventas Cruzadas (Cross-selling)
– Promociones, Sistemas de Recomendación
(Mercadeo personalizado)
• Up-selling
50
Data Mining para Inteligencia de Mercados
Aplicación más Famosa:
Cerveza y Diapers
• Walmart descubrió que
los viernes había una
relación
significativamente fuerte
entre las compras de
cerveza y de diapers.
• Explicación: Papá hace
las compras de diapers.
También de cerveza.

51
Data Mining para Inteligencia de Mercados
Aplicación más Famosa:
Cerveza y Diapers
• ¿Qué hizo Walmart?
• Puso en los estantes
muy cerca de los
diapers, cerveza
premium (up-selling)

52
Data Mining para Inteligencia de Mercados
Amazon.com

53
Data Mining para Inteligencia de Mercados
Amazon.com

54
Data Mining para Inteligencia de Mercados
Ejemplo: 5 transacciones

55
Data Mining para Inteligencia de Mercados
Reglas con Soporte >= 1

56
Data Mining para Inteligencia de Mercados
Reglas con Soporte >= 1

57
Data Mining para Inteligencia de Mercados
Reglas con Soporte >= 2

58
Data Mining para Inteligencia de Mercados
Software
• Data Mining ha explotado en términos de
aplicaciones debido a la aparición de
poderosos paquetes de software
• En teoria, todas estas técnicas que hemos
discutido han estado disponibles en
Estadistica por decadas
• El problema es el tamaño de las bases de
datos

Data Mining para Inteligencia de Mercados


Software Comerciales
• Clementine de SPSS
• Insightful Miner de Insightful
• DB Miner de IBM
• Enterprise Miner de SAS
• CART de Salford Systems
• Tableau Software (Visualizacion solamente)
• XLMiner
• PRO: Poderosos, Fáciles de Usar
• CON: Caros

Data Mining para Inteligencia de Mercados


Software Open Source
• Combinación R y Rattle
• Rapid Miner (Yale Miner)
• Rule Discovery System
• Knime
• PRO: Poderosos, Gratis
• CON: Algunos de ellos dificiles de usar

Data Mining para Inteligencia de Mercados