Anda di halaman 1dari 84

INTELIGENCIA DE NEGOCIO

2013 - 2014
Tema 1. Introduccin a la Inteligencia de Negocio
Tema 2 Retos en Inteligencia de Negocio Tema 2. Retos en Inteligencia de Negocio
Tema 3. Minera de Datos
Tema 4. Modelos de Prediccin: Clasificacin,
regresin y series temporales
T 5 P i d D t Tema 5. Preparacin de Datos
Tema 6. Modelos de Agrupamiento o Segmentacin
Tema 7. Modelos de Asociacin
Tema 8. Modelos Avanzados de Minera de Datos
1
Tema 9. Big Data
Bibliografa
J. Han, M. Kamber.
Data Mining. Concepts and Techniques
Morgan Kaufmann, 2006 (Second Edition)
http://www.cs.sfu.ca/~han/DM_Book.html
I.H. Witten, E. Frank.
Data Mining: Practical Machine Learning Tools and Techniques,
Second Edition,Morgan Kaufmann, 2005.
http://www.cs.waikato.ac.nz/~ml/weka/book.html
Pang-Ning Tan, Michael Steinbach, and Vipin Kumar
Introduction to Data Mining (First Edition)
Addison Wesley, (May 2, 2005)
http://www-users.cs.umn.edu/~kumar/dmbook/index.php http://www users.cs.umn.edu/~kumar/dmbook/index.php
Margaret H. Dunham
Data Mining: Introductory and Advanced Topics
Prentice Hall, 2003
http://lyle smu edu/~mhd/book
G. Shmueli, N.R. Patel, P.C. Bruce
Data mining for business intelligence
Wiley 2010 (2nd. edition)
http://lyle.smu.edu/~mhd/book
V. Cherkassky, F.M. Mulier
Learning from Data:
Concepts, Theory, and Methods, 2
nd
Edition
Wiley-IEE Prees, 2007
Objetivos
Entender el concepto de minera de datos
Conocer reas de aplicacin de la minera de datos
Conocer la relacin de la minera de datos con
otras disciplinas p
Conocer las distintas fases que componen este Conocer las distintas fases que componen este
proceso
Motivacin
El problema de la explosin de informacin:
existencia de herramientas para la recoleccin de informacin existencia de herramientas para la recoleccin de informacin
madurez de la tecnologa de bases de datos
bajo precio del hardware
gigantescas cantidades de datos almacenados en bases de datos,
data warehouses y otros tipos de almacenes de informacin
Somos ricos en datos pero pobres en conocimiento
El progreso y la innovacin ya no se ven obstaculizados
por la capacidad de recopilar datos, sino por la capacidad
de gestionar, analizar, sintetizar, visualizar, y descubrir el g , , , , y
conocimiento de los datos recopilados de manera oportuna
y en una forma escalable
Motivacin
Inteligencia de Negocio
TEMA 3. Minera de Datos
1. Qu es la Minera de Datos? 1. Qu es la Minera de Datos?
2. Tipos de Datos
3. reas de Aplicacin 3. reas de Aplicacin
4. Casos de Estudio
5 Etapas en el Proceso de KDD 5. Etapas en el Proceso de KDD
6. Tcnicas de Minera de Datos
7 Comentarios Finales
6
7. Comentarios Finales
Qu es la Minera de Datos?
La Minera de datos (MD) es el proceso
de extraccin de patrones de p
informacin (implcitos, no triviales,
desconocidos y potencialmente tiles) a
partir de grandes cantidades de datos
Tambin se conoce como:
Descubrimiento de conocimiento en bases de datos
(KDD),
extraccin del conocimiento,
anlisis inteligente de datos /patrones
7
anlisis inteligente de datos /patrones,

Qu es la Minera de Datos?
KDD = Knowledge Discovery from Databases
El KDD es el proceso completo de extraccin de El KDD es el proceso completo de extraccin de
conocimiento a partir de bases de datos
El trmino se acu en 1989 para enfatizar que el El trmino se acu en 1989 para enfatizar que el
conocimiento es el producto final de un proceso de
descubrimiento guiado por los datos g p
La Minera de Datos es slo una etapa en el proceso
de KDD
Informalmente se asocia Minera de Datos con KDD
Qu es la Minera de Datos?
Etapas en un proceso de KDD
Comprensin del Problema
y de los Datos
Preprocesamiento de Datos
Conocimiento
e Implantacin
y de los Datos
Datos Fuente
Datos Preprocesados
Modelos
Minera de Datos
Interpretacin y
Evaluacin
Problema de KDD
Minera de Datos
Informalmente se asocia Minera de Datos con KDD
Qu es la Minera de Datos?
Minera de datos NO es:
Procesamiento deductivo de consultas en bases de
datos datos
Un sistema experto
Anlisis estadstico Anlisis estadstico
Visualizacin de datos
Pequeos programas de aprendizaje Pequeos programas de aprendizaje
Qu es la Minera de Datos?
Muchas de las tcnicas utilizadas en MD ya se
conocan previamente, a qu se debe?
En los 90s convergen los siguientes factores:
1. Los datos se estn produciendo
2 d l d 2. Los datos se estn almacenando
3. La potencia computacional necesaria es abordable
4 Existe una gran presin competitiva a nivel empresarial 4. Existe una gran presin competitiva a nivel empresarial
5. Las herramientas software de MD estn disponibles
11
Qu es la Minera de Datos?
How can I analyze this data?
Knowledge
Qu es la Minera de Datos?
Nuevas necesidades de anlisis de
grandes volmenes de datos
Para qu se utiliza el conocimiento obtenido? Para qu se utiliza el conocimiento obtenido?
hacer predicciones sobre nuevos datos
explicar los datos existentes explicar los datos existentes
resumir una base de datos masiva para facilitar la toma
de decisiones
visualizar datos altamente dimensionales, extrayendo
estructura local simplificada,
Qu es la Minera de Datos?
14
Inteligencia de Negocio
TEMA 3. Minera de Datos
1. Qu es la Minera de Datos? 1. Qu es la Minera de Datos?
2. Tipos de Datos
3. reas de Aplicacin 3. reas de Aplicacin
4. Casos de Estudio
5 Relacin con Otras Disciplinas 5. Relacin con Otras Disciplinas
6. Etapas en el Proceso de KDD
7 Tcnicas de Minera de Datos
15
7. Tcnicas de Minera de Datos
8. Comentarios Finales
Tipos de datos
A qu tipos de datos puede aplicarse DM?
En principio, a cualquier tipo En principio, a cualquier tipo
Bases de datos relacionales
Bases de datos espaciales Bases de datos espaciales
Bases de datos temporales
Bases de datos documentales
Bases de datos m ltimedia Bases de datos multimedia
World Wide Web (Web mining)
El almacn de informacin ms grande y diverso de los
existentes existentes
Existe gran cantidad de datos de los que extraer
informacin til
Tipos de datos
Bases de datos relacionales
Coleccin de relaciones (tablas) Coleccin de relaciones (tablas)
Cada tabla consta de un conjunto de atributos (columnas) y
puede contener un gran nmero de tuplas (filas)
Son datos estructurados
Su integridad se expresa a travs de restricciones de
integridad
Muchas tcnicas de MD slo son capaces de trabajar con una
tabla
Mediante una consulta, se pueden combinar en una sola tabla la , p
informacin de varias tablas
Desde el p.d.v. de MD se distingue entre atributos numricos
y categricos o nominales y g
Tipos de datos
Bases de datos espaciales
Contienen informacin relacionada con el espacio fsico en Contienen informacin relacionada con el espacio fsico en
un sentido amplio
Incluyen datos geogrficos, imgenes mdicas, redes de
t t i f i d t fi transporte o informacin de trfico,
Objetivo DM: encontrar patrones entre los datos. P.e.:
caractersticas de las casas en zonas montaosas, etc. ,
Bases de datos temporales
Almacenan datos con atributos relacionados con el tiempo
Objetivo DM: encontrar las caractersticas de la evolucin
18
Tipos de datos
Bases de datos documentales (Text Mining)
Contienen descripciones para los objetos (documentos
no estructurados, semi-estructurados, estructurados)
Objetivo DM: obtener asociaciones entre los
contenidos, clasificar objetos textuales, , j ,
Bases de datos multimedia
l d d Almacenan imgenes, vdeo y audio
World Wide Web (Web Mining) World Wide Web (Web Mining)
El almacn de informacin ms grande y diverso de los
existentes
Existe gran cantidad de datos de los que extraer
informacin til
Inteligencia de Negocio
TEMA 3. Minera de Datos
1. Qu es la Minera de Datos? 1. Qu es la Minera de Datos?
2. Tipos de Datos
3. reas de Aplicacin 3. reas de Aplicacin
4. Casos de Estudio
5 Relacin con Otras Disciplinas 5. Relacin con Otras Disciplinas
6. Etapas en el Proceso de KDD
7 Tcnicas de Minera de Datos
20
7. Tcnicas de Minera de Datos
8. Comentarios Finales
reas de aplicacin
Aplicaciones empresariales / industriales
Toma de decisiones en banca, seguros, finanzas, Toma de decisiones en banca, seguros, finanzas,
marketing, control de calidad, retencin de
clientes, prediccin, polticas de accin
(sanidad etc ) (sanidad, etc.),
Aplicaciones en investigacin cientfica p g
Medicina, astronoma, geografa, gentica,
bioqumica, meteorologa, etc.
Text/web mining
Minera de datos en la web Minera de datos en la web
reas de aplicacin
Anlisis y gestin de mercados (I)
Fuentes: transacciones con tarjetas de crdito, tarjetas de
descuento, quejas de cliente, estilos de vida publicados,
comentarios en redes sociales
Identificacin de objetivos para marketing: encontrar grupos
(clusters) que identifiquen un modelo de cliente con (clusters) que identifiquen un modelo de cliente con
caractersticas comunes (intereses, nivel de ingresos, hbitos
de gasto, )
Determinar patrones de compra en el tiempo: Unificacin de
cuentas bancarias, compra de determinados productos
simultneamente simultneamente,
reas de aplicacin
Anlisis y gestin de mercados (II)
Anlisis de cestas de mercado: asociaciones / co-relaciones
entre ventas de producto, prediccin basada en asociacin de
informaciones, ,
Perfiles de cliente: Identificar qu tipo de clientes compra qu
productos (clustering y/o clasificacin) usar prediccin para productos (clustering y/o clasificacin), usar prediccin para
encontrar factores que atraigan nuevos clientes, retencin de
clientes,
Generar informacin resumida: informes multidimensionales,
informacin estadstica (tendencia central y variacin),
reas de aplicacin
Anlisis de riesgo en banca y seguros
Banca a ca
Detectar patrones de uso fraudulento en tarjetas
Estudio de concesin de crditos y/o tarjetas
D t i i d l t t j t Determinacin del gasto en tarjeta por grupos
Identificar reglas de comportamiento del mercado de valores a
partir de histricos
Seguros
Prediccin de clientes propensos a suscribir nuevas plizas
Identificar grupos/patrones de riesgo
Identificar tendencias de comportamiento fraudulento
Ambos: Identificacin de clientes leales identificacin de fuga Ambos: Identificacin de clientes leales, identificacin de fuga
de clientes
reas de aplicacin
Minera de datos en industria
Control de calidad
Deteccin precisa de productos defectuosos
l d d f Localizacin precoz de defectos
Identificacin de causas de fallos
Procesos industriales
Automatizar el control del proceso
Optimizacin del rendimiento de forma adaptativa
Implementar programas de mantenimiento predictivo Implementar programas de mantenimiento predictivo
reas de aplicacin
Medicina / diagnstico
Identificacin de terapias para diferentes enfermedades
Estudio de factores de riesgo en distintas patologas
Segmentacin de pacientes en grupos afines
Gestin hospitalaria y planificacin temporal de salas,
urgencias urgencias,
Recomendacin priorizada de frmacos para una misma
patologa
Estudios en gentica (ADN,)
Seleccin de embriones en reproduccin artificial
reas de aplicacin
Web mining / minera de datos web
La mayora de las herramientas actuales analizan los ficheros La mayora de las herramientas actuales analizan los ficheros
.log y generan estadsticas, pero ningn conocimiento acerca de
las caractersticas del cliente ni de su comportamiento
Mi d d t b iti d i Minera de datos web en un sitio de e-comercio, generara
anlisis del comportamiento y perfiles del visitante
Lo que interesa es responder preguntas del tipo: quin compra q p p g p q p
qu producto y en qu porcentaje?
Hay que capturar informacin en el servidor desde los .log,
cookies, formularios, y completar con informacin geogrfica, , , y p g g ,
etc.,
En funcin de esto y de su actividad, generar perfiles de cliente
y estudiar posibilidades de venta cruzada (cross-selling) y estudiar posibilidades de venta cruzada (cross selling)
Recuperacin de informacin (information retrieval)
Inteligencia de Negocio
TEMA 3. Minera de Datos
1. Qu es la Minera de Datos? 1. Qu es la Minera de Datos?
2. Tipos de Datos
3. reas de Aplicacin 3. reas de Aplicacin
4. Casos de Estudio
5 Relacin con Otras Disciplinas 5. Relacin con Otras Disciplinas
6. Etapas en el Proceso de KDD
7 Tcnicas de Minera de Datos
28
7. Tcnicas de Minera de Datos
8. Comentarios Finales
Casos de estudio
Procesamiento de prstamos
Estudio de imgenes
Pl ifi i d Planificacin de recursos
Diagnstico de fallos g
Marketing y ventas
Bioinformtica
Minera web Minera web
Casos de estudio
Procesamiento de prstamos (clasificacin)
Entrada: cuestionario de datos personales y financieros
Problema: se le concede el prstamo? Problema: se le concede el prstamo?
Muchas solicitudes
estudiadas por ordenador (estadsticos) estudiadas por ordenador (estadsticos)
90% se procesan directamente, pero el 10% estn en la duda
estudiar por un experto en prstamos p p p
De los prstamos concedidos en esta franja de duda, el 50%
no devuelven el dinero!
La solucin NO es denegar todos los prstamos de esta franja
Casos de estudio
Procesamiento de prstamos (clasificacin)
Datos: 1000 ejemplos de casos en la franja completa
20 atributos: edad antigedad en la direccin actual tarjetas 20 atributos: edad, antigedad en la direccin actual, tarjetas
de crdito, salario, posesiones, historial en el banco,
Enfoque: reglas Las reglas aprendidas clasifican Enfoque: reglas. Las reglas aprendidas clasifican
correctamente 2/3 de los casos en un conjunto de prueba
(test) distinto
Ventaja adicional: el conocimiento extrado (reglas) sirve al
agente para explicar su decisin
31
Casos de estudio
Estudio de imgenes (clasificacin)
Entrada: imgenes de satlite de aguas costeras
Problema: deteccin de mareas negras g
Una marea negra suele aparecer en la imagen como una
regin oscura de tamao y forma cambiante
Complejidad: situaciones parecidas pueden ser
provocadas por vientos y tormentas
El estudio de las imgenes es un proceso costoso tanto en
tiempo como en dinero (personal muy especializado) p (p y p )
Casos de estudio
Estudio de imgenes (clasificacin)
Dado el gran mercado, una empresa decide abordar el
problema mediante un producto software
Problema: trabajar con la imagen directamente es
inviable
Preprocesamiento: de los pixeles a docenas de atributos Preprocesamiento: de los pixeles a docenas de atributos
(extraccin de caractersticas)
Atributos: tamao de la mancha, geometra, intensidad,
Problemas encontrados en el desarrollo:
Escasez de ejemplos positivos datos no balanceados
Complicado de generalizar, muy dependiente de la zona Complicado de generalizar, muy dependiente de la zona
Casos de estudio
Planificacin de recursos (regresin/series
temporales) temporales)
Las compaas elctricas necesitan predicciones de demanda Las compaas elctricas necesitan predicciones de demanda
futura
La prediccin con exactitud de un intervalo de carga para cada p g p
hora ahorrar mucho dinero
Problema: se dispone de un modelo esttico de prediccin que
asume condiciones climticas normales, el objetivo es ajustar
la prediccin en funcin del clima
Modelo esttico: demanda usual en el ao, fechas
vacacionales,
Casos de estudio
Planificacin de recursos (regresin/series
temporales) temporales)
Prediccin basada en estudio de das ms similares Prediccin basada en estudio de das ms similares
Datos: La prediccin esttica, archivos histricos, datos
climticos
S b d d l 15 i Se genera una base de datos para los 15 aos anteriores con
atributos como temperatura, humedad, velocidad del viento,
nubosidad y la diferencia entre la prediccin de consumo
esttica y el consumo real
Se aade la diferencia media de los tres das ms similares a
la prediccin del modelo esttico la prediccin del modelo esttico
Se usa regresin lineal como modelo de prediccin
Casos de estudio
Diagnstico de fallos (clasificacin o deteccin de anomalas)
El diagnstico es el dominio por excelencia de los sistemas
expertos
Conjuntos de reglas elicitados a partir del experto son viables en
bl bl di / d problemas pequeos, pero no en problemas medianos/grandes
Problema: realizar diagnstico de fallos y mantenimiento
predictivo en dispositivos electromecnicos como motores y predictivo en dispositivos electromecnicos como motores y
generadores, en una planta qumica de unos 1000 dispositivos
Datos: se miden vibraciones en determinados puntos y se realiza p y
un anlisis de Fourier
Objetivo: determinar fallos y realizar mantenimiento predictivo
Actualmente: se usa un conjunto de reglas diseadas por el
experto
Casos de estudio
Diagnstico de fallos (clasificacin)
D t i t d di ti li d l Datos: provenientes de diagnsticos realizados por el
experto, 600 casos
Despus de depurar se descartan 300
Se incrementa la dimensin del problema (atributos) con
conceptos intermedios (razonamiento causal)
El conjunto de reglas resultante muestra una gran El conjunto de reglas resultante muestra una gran
exactitud, pero no le gusta al experto, porque no est en
lnea con su forma de actuar
Tras aadir conocimiento de background, el conjunto de Tras aadir conocimiento de background, el conjunto de
reglas es ms complicado pero le gusta al experto porque
est en consonancia con su mecnica
Las reglas se usan no porque sean buenas, si no porque
le gustan al experto
Casos de estudio
Marketing y ventas (asociaciones)
Empresa de supermercados con ms de 1000 tiendas Empresa de supermercados con ms de 1000 tiendas
Vende aproximadamente 20.000 artculos distintos
Los datos de las ventas se almacenan (lector de cdigo de ( g
barras + Pc)
Todas las transacciones + datos adicionales de cada
tienda se almacenan y actualizan diariamente en una tienda se almacenan y actualizan diariamente en una
sede central
Dispone de una tarjeta de cliente frecuente
Se generan informes diarios, semanales y mensuales,
mostrando para cada artculo y cada marca: ventas mostrando para cada artculo y cada marca: ventas,
inventario, ofertas, precios,
Casos de estudio
Si se realiza slo toma de decisin en funcin de los informes
(d ) l d d l
Marketing y ventas (asociaciones)
(datos), por ejemplo para dos productos, cerveza y paales
39
Qu informacin aporta?
Casos de estudio
Objetivo: determinar grupos de items que tienden a
Marketing y ventas (asociaciones)
ocurrir juntos en transacciones (=tickets de compra
pagados con o sin tarjeta)
Se utilizan tcnicas de asociacin que pueden descubrir Se utilizan tcnicas de asociacin, que pueden descubrir
informacin como:
Los clientes que compran cerveza tambin compran
patatas
Para eso no es necesario el uso de tcnicas de DM!
patatas
Los viernes por la tarde, con frecuencia, quienes compran
paales, compran tambin cerveza.
Para eso no es necesario el uso de tcnicas de DM!
Qu significa?
A qu se debe?
40
A qu se debe?
Acciones a realizar
Casos de estudio
Explicacin ms probable
Marketing y ventas (asociaciones)
Se acerca el fin de
semana
Se acerca el fin de semana
Hay un beb en casa luego
d d i f
Hay un beb en casa
No quedan paales
El padre/madre compra
nada de ir fuera
Hay que comprar paales
Quedarse en casa ver
partido/pelcula
El padre/madre compra
paales al salir del
trabajo
No pueden salir!
partido/pelcula
Comprar cervezas para el
partido/pelcula
No pueden salir!
Comprar cervezas para
el fin de semana (y un
partido/pelcula PPV)
Paales Cerveza
41
partido/pelcula PPV)
Casos de estudio
Acciones a eali a
Marketing y ventas (asociaciones)
Acciones a realizar:
Planificar disposiciones alternativas en el almacn
Limitar descuentos especiales a slo uno de los dos Limitar descuentos especiales a slo uno de los dos
productos que tienden a comprarse juntos
Poner los aperitivos que ms margen dejan entre los
paales y las cervezas paales y las cervezas
Poner productos de beb en oferta cerca de las cervezas
Ofrecer cupones descuento para el producto Ofrecer cupones descuento para el producto
complementario, cuando uno de los productos se venda
por separado
42
La profileracin de tarjetas de lealtad se debe al inters por
identificar el historial de ventas individual del cliente
Casos de estudio
Marketing y ventas (asociaciones)
Dnde se deberan colocar
los detergentes para
maximizar las ventas?
Se compra limpia cristales si Se compra limpia cristales si
se compra simultneamente
zumo de naranja y refrescos?
Cmo afecta la demografa
del entorno a lo que compran
los clientes? los clientes?
Casos de estudio
Compras a travs de internet (asociaciones)
Una persona compra un libro (producto) en Amazon.com
Tarea: Recomendar otros libros (productos) que esa
persona pueda comprar
Amazon hace clustering basndose en las compras de
libros: clientes que compran Advances in Knowledge
Discovery and Data Mining tambin compran Data Discovery and Data Mining , tambin compran Data
Mining: Practical Machine Learning Tools and Techniques
with Java Implementations
El programa de recomendacin es bastante xitoso
Casos de estudio
Genomic Microarrays (Clasificacin)
Dado un conjunto de datos de microarrays para un
nmero de ejemplos (pacientes) podemos nmero de ejemplos (pacientes), podemos
Diagnosticar de forma precisa la enfermedad? Diagnosticar de forma precisa la enfermedad?
Predecir resultados para un tratamiento dado? Predecir resultados para un tratamiento dado?
Recomendar el mejor tratamiento?
45
Recomendar el mejor tratamiento?
Casos de estudio
Genomic Microarrays (Clasificacin)
Problema ALL/AML:
38 casos de entrenamiento, 34 test, ~ 7,000 genes
2 Clases: Acute Lymphoblastic Leukemia (ALL) vs Acute
Myeloid Leukemia (AML) Myeloid Leukemia (AML)
Se utilizan datos de entrenamiento para construir un modelo
de diagnstico de diagnstico
Resultados en datos de test: 33/34 correctos, 1 error
46
Casos de estudio
Descubrimiento de secuencias en pginas web
Objetivo:
Determinar patrones secuenciales en los datos Determinar patrones secuenciales en los datos
Estos patrones son asociaciones en los datos pero Estos patrones son asociaciones en los datos pero
con una relacin en el tiempo
Ejemplo: Descubrimiento de secuencias en el
anlisis de un web log para determinar como anlisis de un web log para determinar como
acceden los usuarios a determinadas pginas
Inteligencia de Negocio
TEMA 3. Minera de Datos
1. Qu es la Minera de Datos? 1. Qu es la Minera de Datos?
2. Tipos de Datos
3. reas de Aplicacin 3. reas de Aplicacin
4. Casos de Estudio
5. Relacin con Otras Disciplinas 5. Relacin con Otras Disciplinas
6. Etapas en el Proceso de KDD
7 Tcnicas de Minera de Datos
48
7. Tcnicas de Minera de Datos
8. Comentarios Finales
Relacin con otras disciplinas
Etapas en un proceso de KDD
Comprensin del Problema
y de los Datos
Preprocesamiento de Datos
Conocimiento
e Implantacin
y de los Datos
Datos Fuente
Datos Preprocesados
Modelos
Minera de Datos
Interpretacin y
Evaluacin
Problema de KDD
Minera de Datos
Informalmente se asocia Minera de Datos con KDD
Relacin con otras disciplinas
Tecnologas de
Estadstica
Computacin
Bases de Datos
Co putac
paralela
Minera
de datos
Sistemas de toma
de decisiones
Aprendizaje
automatizado
de datos
de decisiones automatizado
Visualizacin
Otras disciplinas
50
Relacin con otras disciplinas
1. Minera de datos y Estadstica
La Estadstica ha proporcionado muchos de los conceptos,
l i i ili MD algoritmos y tcnicas que se utilizan en MD
Afirmacin tpica: Minera de datos es lo mismo que Afirmacin tpica: Minera de datos es lo mismo que
Estadstica
Aunque MD y anlisis estadstico estn claramente Aunque MD y anlisis estadstico estn claramente
relacionados, existen diferencias claras:
MD realiza un anlisis exploratorio, descubriendo nuevo
conocimiento Ej : ms del 60% de las personas que conocimiento. Ej.: ms del 60% de las personas que
compran queso fresco, adquieren algn tipo de mermelada
Anlisis estadstico realiza un anlisis corroborativo,
d b h l l i l h debemos sospechar las relaciones y lo que hacemos es
cuantificarlas
Relacin con otras disciplinas
2. Minera de datos y aprendizaje automtico
El aprendizaje automtico es el rea de la IA que se ocupa de ap e d aje au o co es e ea de a que se ocupa de
desarrollar algoritmos capaces de aprender.
Afirmacin tpica: Minera de datos es lo mismo que Afirmacin tpica: Minera de datos es lo mismo que
aprendizaje automtico
Es cierto que el ncleo de la MD como fase del KDD lo forman Es cierto que el ncleo de la MD como fase del KDD lo forman
las tcnicas de aprendizaje automtico
Sin embargo, cuando en general utilizamos MD para referirnos
a KDD es clara la diferencia a KDD, es clara la diferencia
Otra gran diferencia, es el tamao y formato de los datos
utilizados
Relacin con otras disciplinas
3. Minera de datos y BBDD
Afirmacin tpica: Qu tiene que ver la minera de datos Afirmacin tpica: Qu tiene que ver la minera de datos
con las BBDD?
Evidentemente mucho: el principal campo de aplicacin
de la MD son los Datawarehouses corporativos
Conocimiento a extraer de BBDD:
Conocimiento evidente: se obtiene de un sistema de Conocimiento evidente: se obtiene de un sistema de
BBDD operacional mediante consultas SQL (OLTP)
Conocimiento multidimensional: Consultas OLAP contra
un datawarehouse un datawarehouse
Conocimiento oculto: Tcnicas de MD contra el
Datawarehouse. Representa aproximadamente el 20% del
total pe o es el ms inte esante po se desconocido a total, pero es el ms interesante, por ser desconocido a
priori
Relacin con otras disciplinas
4. Minera de datos y visualizacin
La forma de presentar los datos ayuda a la compresin de los
mismos, tanto al tcnico de MD como a los clientes
Ejemplos: Ejemplos:
Visualizacin de datos estadsticos
54
Relacin con otras disciplinas
4. Minera de datos y visualizacin
Dispersin pxeles Dispersin, pxeles
Relacin con otras disciplinas
5. Computacin paralela y distribuida
Es muy importante el procesamiento paralelo Es muy importante el procesamiento paralelo,
distribuido para repartir (disminuir) el costo
computacional de las tareas ms complejas de MD
Incrementa la escalabilidad de los algoritmos de DM
6 Si t d t d d i i 6. Sistemas de toma de decisin
Son herramientas y sistemas informatizados que
asisten a los directivos en la resolucin de asisten a los directivos en la resolucin de
problemas y toma de decisiones
56
Inteligencia de Negocio
TEMA 3. Minera de Datos
1. Qu es la Minera de Datos? 1. Qu es la Minera de Datos?
2. Tipos de Datos
3. reas de Aplicacin 3. reas de Aplicacin
4. Casos de Estudio
5 Relacin con Otras Disciplinas 5. Relacin con Otras Disciplinas
6. Etapas en el Proceso de KDD
7 Tcnicas de Minera de Datos
57
7. Tcnicas de Minera de Datos
8. Comentarios Finales
Etapas en el proceso de KDD
58
Etapas en el proceso de KDD
1. Integracin y recopilacin: Comprensin del
dominio de aplicacin del problema identificacin dominio de aplicacin del problema, identificacin
de conocimiento a priori y creacin del
Datawarehouse
2. Seleccin de datos, limpieza, reduccin y
transformacin
3. Seleccin de la tcnica de MD y aplicacin de
algoritmos concretos de MD
4. Evaluacin, interpretacin y presentacin de los
resultados obtenidos
5 Dif i tili i d l i i t 5. Difusin y utilizacin del nuevo conocimiento
Etapas en el proceso de KDD
Integracin y recopilacin
Etapas en el proceso de KDD
La familiarizacin con el dominio del problema y la obtencin de
conocimiento a priori disminuye el espacio de soluciones posibles
ms eficiencia en el resto del proceso
En problemas de KDD se suele trabajar con datos de diferentes
departamentos de una entidad
es conveniente agrupar y unificar la informacin es conveniente agrupar y unificar la informacin
Unificacin de la informacin en un Datawarehouse a partir de:
Informacin interna: distintas BBDD diseadas para trabajo transaccional y
de otro tipo (hojas de clculo informes ) de otro tipo (hojas de clculo, informes,)
Estudios publicados (demografa, catlogos, pginas, )
Otras bases de datos (compradas, industrias/empresas afines,)
El resto del proceso de KDD ser ms cmodo si la fuente de datos El resto del proceso de KDD ser ms cmodo si la fuente de datos
est unificada, es accesible y dedicada (desconectada del trabajo
transaccional)
El DW i t KDD i i dibl A El DW es conveniente para KDD aunque no imprescindible. A veces se
trabaja directamente con la BD o con las BBDD en formatos
heterogneos
Etapas en el proceso de KDD
Seleccin, limpieza, reduccin y transformacin
Etapas en el proceso de KDD
La calidad del conocimiento descubierto no depende
slo del algoritmo de DM sino de la calidad de los g
datos minados
Objetivo general de esta fase: seleccionar el
conjunto de datos adecuado para el resto del
proceso de KDD proceso de KDD
Las tareas de esta etapa se agrupan en: as ta eas de esta etapa se ag upa e
Limpieza de datos (data cleaning)
Transformacin de los datos
R d i d l di i lid d Reduccin de la dimensionalidad
Etapas en el proceso de KDD
Limpieza de datos: data cleaning
Etapas en el proceso de KDD
Datos perdidos (missing values)
Pueden llevar a resultados poco precisos
Hay que analizar el motivo
Mal funcionamiento del dispositivo de recogida de datos
Cambios efectuados durante la recoleccin de datos
Datos que provienen de fuentes diversas
Soluciones: rellenarlos manualmente ignorarlos eliminar la Soluciones: rellenarlos manualmente, ignorarlos, eliminar la
fila/columna, usar un valor especial (p.e. unknow), inferirlos usando
tcnicas estadsticas,
Datos anmalos (outliers)
Valores que no se ajustan al comportamiento general de los datos
Pueden ser errneos o correctos pero diferentes a los dems
P i h id ifi l d f i d l bl Primero hay que identificarlos, y despus, en funcin del problema
se tratarn como valores perdidos o se sacar informacin de ellos
Inconsistencias: registros duplicados datos inconsistentes Inconsistencias: registros duplicados, datos inconsistentes,
Normalmente ya tratado en la elaboracin del DW
Etapas en el proceso de KDD
Transformacin de los datos
Etapas en el proceso de KDD
Construccin de atributos:
construir nuevos atributos aplicando alguna operacin a los p g p
atributos originales (agrupamiento, separacin, fecha
enteros, convertir en nmeros los valores categricos)
cuando los atributos no tienen mucho poder predictivo por s solos cuando los atributos no tienen mucho poder predictivo por s solos,
cuando los patrones dependen de variaciones lineales de las
variables globales
En ocasiones => almacenar meta-informacin sobre la
informacin realmente almacenada por cada campo
Discretizacin: Discretizacin:
Pasar atributos continuos (o discretos con muchos valores) a
casos discretos manejables o a categricos
Hay diversas tcnicas
Es imprescindible para muchos algoritmos de MD
Etapas en el proceso de KDD
Reduccin de la dimensionalidad
Etapas en el proceso de KDD
Reduccin de casos / filas:
Puede hacer ms eficiente el proceso de DM
Las tcnicas utilizadas van desde la compresin al
muestreo de los datos, pasando por la eleccin de
representantes (clustering) p ( g)
Seleccin de variables (feature selection):
Seleccionar el conjunto de atributos adecuado
para la tarea especfica a realizar
Se conoce tambin como proyeccin Se conoce tambin como proyeccin
Es uno de los pre-procesamientos ms importantes
Tcnicas utilizadas para esta tarea: estadsticas,
b d b d bi d t d basadas en bsqueda combinadas con mtodos
empricos,
Etapas en el proceso de KDD
Minera de datos
Etapas en el proceso de KDD
Objetivo: Producir nuevo conocimiento que pueda utilizar el usuario
Cmo?
Construyendo un modelo, basado en los datos recopilados, que sea una Construyendo un modelo, basado en los datos recopilados, que sea una
descripcin de los patrones y relaciones entre los datos con los que se puedan
hacer predicciones, entender mejor los datos o explicar situaciones pasadas
Decisiones a tomar:
Q i d i i b ? Qu tipo de conocimiento buscamos?
Predictivo
Descriptivo
Qu tcnica es la ms adecuada?
Clasificacin
Regresin
Agrupamiento (clustering)
Asociaciones,
Q ti d d l ? Qu tipo de modelo?
P.e. Clasificacin: reglas, AANNs, rboles de decisin, etc.
Es necesaria la incertidumbre en el modelo resultante? Certeza, probabilidad, lgica
difusa,
Qu algoritmo es el ms adecuado? P.e.: en clustering: duro, difuso, jerarquizado,
k-means, iterativo, EM,
Etapas en el proceso de KDD
Evaluacin, interpretacin y presentacin de resultados

Etapas en el proceso de KDD


La fase de MD puede producir varias hiptesis de modelos
Es necesario establecer qu modelos son los ms vlidos
Criterios: los patrones descubiertos deben ser
precisos,
comprensibles, e
interesantes (tiles, novedosos)
Tcnicas de evaluacin: Al menos se divide el conjunto de datos en dos Tcnicas de evaluacin: Al menos se divide el conjunto de datos en dos
(entrenamiento y test)
Entrenamiento: Para extraer el conocimiento
Test: Para probar la validez del conocimiento extrado
Alternativas: Alternativas:
Validacin simple
n-validacin cruzada
Bootstrapping,
Medidas de evaluacin de modelos: Dependen de la tarea: Medidas de evaluacin de modelos: Dependen de la tarea:
Clasificacin: precisin predictiva (%acierto)
Regresin: Error cuadrtico medio
Agrupamiento: Medidas de cohesin y separacin entre grupos
Reglas de asociacin: cobertura, confianza Reglas de asociacin: cobertura, confianza
La interpretacin de los mejores modelos (visualizacin, simplicidad,
posibilidad de integracin, ventajas colaterales,) ayuda a la seleccin
del modelo(s) final(es)
Etapas en el proceso de KDD
Difusin y utilizacin del nuevo conocimiento
Etapas en el proceso de KDD
Una vez construido y validado el modelo puede utilizarse:
para recomendar acciones
para aplicar el modelo a diferentes conjuntos de datos para aplicar el modelo a diferentes conjuntos de datos
En cualquier caso, es necesario:
Difusin: Elaboracin de informes para su distribucin Difusin: Elaboracin de informes para su distribucin
Utilizacin del nuevo conocimiento de forma independiente
Incorporacin a sistemas ya existentes
comprobar con el conocimiento ya utilizado para evitar inconsistencias y comprobar con el conocimiento ya utilizado para evitar inconsistencias y
posibles conflictos
La monitorizacin del sistema en accin dar lugar a nuevos casos que g q
realimentarn el ciclo del KDD
Las conclusiones iniciales pueden variar, invalidando el modelo
adquirido
67
adquirido
Etapas en el proceso de KDD
Tiempos estimados en el anlisis de un problema
mediante tcnicas de minera de datos
Inteligencia de Negocio
TEMA 3. Minera de Datos
1. Qu es la Minera de Datos? 1. Qu es la Minera de Datos?
2. Tipos de Datos
3. reas de Aplicacin 3. reas de Aplicacin
4. Casos de Estudio
5 Relacin con Otras Disciplinas 5. Relacin con Otras Disciplinas
6. Etapas en el Proceso de KDD
7 Tcnicas de Minera de Datos
69
7. Tcnicas de Minera de Datos
8. Comentarios Finales
Tcnicas de Minera de Datos.
Taxonoma de tcnicas de Minera de Datos
Objetivos KDD
Verificacin
Descubrimiento
Descripcin
Prediccin
SQL
OLAP
Anlisis Anlisis
estadstico
Visualizacin
Clasificacin Regresin
Visualizacin
Agrupamiento
Reglas de asociacin
Subgroup discovery
rboles de decisin
Reglas
rboles de
regresin
rboles de
Redes de creencia
AANNs
Mtodos bayesianos
IBL (ejemplos)
modelos
Reglas
AANNs
Tcnicas de Minera de Datos.
Tendencias y objetivos
d Tendencias en MD:
Comprobacin de hiptesis Comprobacin de hiptesis
MD supervisada
MD no supervisada
Objetivos en MD:
Prediccin
Descripcin p
Tcnicas de Minera de Datos.
Componentes
Un algoritmo de MD es un procedimiento bien definido
que toma datos como entrada y produce modelos o que toma datos como entrada y produce modelos o
patrones como salida
Un algoritmo de MD se puede especificar mediante la
definicin de cinco componentes: p
Tarea
Estructuracin del modelo/patrn /p
Funcin objetivo
Mtodo de bsqueda/optimizacin q / p
Tcnica de manejo de los datos
Tcnicas de Minera de Datos.
Visin sistemtica de los algoritmos de Minera de
Datos
Tarea: Identificar el tipo de problema a abordar con el
algoritmo de MD (clasificacin, visualizacin, clustering,)
Estructura: Describir el modelo a aprender, es decir, cul ser
el patrn o modelo que intentaremos descubrir para que p q p q
represente a los datos (rboles, reglas, ecuaciones,
grficos,)
Funcin objetivo: Criterio a optimizar durante el proceso de
MD. Medir la bondad de los modelos encontrados respecto a
los datos los datos
Puede estar basado nicamente en bondad de ajuste o por el
contrario puede intentar capturar generalizacin
Tcnicas de Minera de Datos.
Visin sistemtica de los algoritmos de Minera de
Datos
Mtodo de bsqueda/optimizacin. Es el tipo de mtodo que
se usar en el intento de que el patrn obtenido optimice la
f i bj ti ( t d h ti funcin objetivo (mtodos voraces, heursticos,
probabilsticos,).
Dependiendo de si la estructura es fija o no, ser aprendizaje
t t l t i estructural o paramtrico.
Tcnica de manejo de los datos. Tcnica a utilizar para el j p
almacenamiento, indexado y recuperacin de los datos.
La mayora de los mtodos de aprendizaje automatizado
obvian este paso porque asumen que el volumen de datos es obvian este paso porque asumen que el volumen de datos es
lo suficientemente pequeo para estar en memoria principal.
Con grandes volmenes de datos, este paso es muy
importante importante.
Tcnicas de Minera de Datos.
Visin sistemtica de los algoritmos de Minera de
Datos
ID3 RNs-
B k
A priori
Backprop.
Tarea Clasificacin Regresin/
clasificacin
Descubrimien
to de reglas
clasificacin
to de reglas
Estructura rbol de
decisin
Red Neuronal Reglas de
asociacin
Funcin
objetivo
Ganancia de
informacin
Error
cuadrtico
Soporte /
confianza
Mtodo de
bsqueda
Voraz Gradiente
descendiente
Primero-
mejor + poda
Manejo de
los datos
Lecturas
secuenciales
Inteligencia de Negocio
TEMA 3. Minera de Datos
1. Qu es la Minera de Datos? 1. Qu es la Minera de Datos?
2. Tipos de Datos
3. reas de Aplicacin 3. reas de Aplicacin
4. Casos de Estudio
5 Relacin con Otras Disciplinas 5. Relacin con Otras Disciplinas
6. Etapas en el Proceso de KDD
7 Tcnicas de Minera de Datos
76
7. Tcnicas de Minera de Datos
8. Comentarios Finales
Comentarios Finales
La Minera de Datos La Minera de Datos
es una forma de
aprender del pasado aprender del pasado
para tomar mejores
decisiones en el
futuro
Comentarios Finales
Minera de Datos: descubrimiento de patrones interesantes en
una base de datos (usualmente grande)
Un proceso de KDD incluye: limpieza de datos, integracin,
reduccin de datos transformacin minera de datos evaluacin reduccin de datos, transformacin, minera de datos, evaluacin,
y presentacin del conocimiento
La minera de datos puede utilizarse sobre una gran variedad de
fuentes de informacin (numrica, textos, )
Funcionalidades en Minera de Datos: caracterizacin, asociacin,
regresin characterization agrupamiento deteccin outlier regresin, characterization, agrupamiento, deteccin outlier,
tendencias, minera de textos, big data,
Comentarios Finales
Patrones/
M d l
Conocimiento
Prximos Estudios
Datos
para

Datos
Preprocesados
Modelos
Anlisis
Mi
Interpretacin
Evaluacin
Problema/
Datos
Brutos
Preprocesamiento
Minera
de Datos
Evaluacin
Seleccin
Comentarios Finales
Aprender de cosas que no
Hay que evitar los errores comunes
Aprender de cosas que no
son ciertas
Patrones que no representan
ninguna regla subyacente ninguna regla subyacente
Datos que no reflejan lo
relevante
Datos con un nivel de detalle Datos con un nivel de detalle
errneo
Aprender cosas ciertas Aprender cosas ciertas,
pero intiles
Aprender informacin ya
conocida
Hay que obtener
o o da
Aprender cosas que no se
pueden utilizar
Hay que obtener
conocimiento til
Comentarios Finales
Mine a de Datos en na conte to amplio Minera de Datos en una contexto amplio
(Business Analytics y Data Sciences)
Data Sciences
http://www.bzst.com/
Designing a Business Analytics program
http://www.bzst.com/
Business Analytics
Data
Visualization
Data Big
Business Analytics
Business
Data
Warehousing
Big
Data
Business
Analytics
Data
Mining
Statistical
Analysis
Contemporary
Analytics
Operations
Contemporary Analytics: text mining, network analytics, social analytics,
customer analytics, web analytics, risk analytics
Data mining: Data Preprocessing, Supervised learning, unsupervised learning,
forecasting
Statistical Analysis: Estimation and inference; and regression models
Operations: Simulation and optimization
Bibliografa g
J. Han, M. Kamber.
Data Mining. Concepts and Techniques
Morgan Kaufmann, 2006 (Second Edition) Morgan Kaufmann, 2006 (Second Edition)
http://www.cs.sfu.ca/~han/DM_Book.html
I.H. Witten, E. Frank.
Data Mining: Practical Machine Learning Tools and Techniques,
Second Edition Morgan Kaufmann 2005 Second Edition,Morgan Kaufmann, 2005.
http://www.cs.waikato.ac.nz/~ml/weka/book.html
Pang-Ning Tan, Michael Steinbach, and Vipin Kumar
Introduction to Data Mining (First Edition)
Addison Wesley, (May 2, 2005)
http://www-users.cs.umn.edu/~kumar/dmbook/index.php
Margaret H. Dunham
Data Mining: Introductory and Advanced Topics
G Shmueli N R Patel P C Bruce
Data Mining: Introductory and Advanced Topics
Prentice Hall, 2003
http://lyle.smu.edu/~mhd/book
G. Shmueli, N.R. Patel, P.C. Bruce
Data mining for business intelligence
Wiley 2010 (2nd. edition)
V. Cherkassky, F.M. Mulier y,
Learning from Data:
Concepts, Theory, and Methods, 2
nd
Edition
Wiley-IEE Prees, 2007
INTELIGENCIA DE NEGOCIO
2013 - 2014
Tema 1. Introduccin a la Inteligencia de Negocio
Tema 2 Retos en Inteligencia de Negocio Tema 2. Retos en Inteligencia de Negocio
Tema 3. Minera de Datos
Tema 4. Modelos de Prediccin: Clasificacin,
regresin y series temporales
T 5 P i d D t Tema 5. Preparacin de Datos
Tema 6. Modelos de Agrupamiento o Segmentacin
Tema 7. Modelos de Asociacin
Tema 8. Modelos Avanzados de Minera de Datos
84
Tema 9. Big Data

Anda mungkin juga menyukai