Anda di halaman 1dari 46

Minera de Datos

Vallejos, Sofia

Contenido
Introduccin:
Inteligencia de negocios (Business Intelligence). Descubrimiento de conocimiento en bases de datos (KDD). Perspectiva histrica. Un proyecto genrico. Fuentes de datos. Funciones de minera. Modelos tpicos de minera.

Minera de Datos:

Ejemplos:

Clustering. Asociacin. Red neuronal como modelo predictivo.

Conclusiones.

Vallejos, Sofia

Inteligencia de Negocios
Hace referencia a un conjunto de productos y servicios para acceder a los datos, analizarlos y convertirlos en informacin. Es un paraguas bajo el que se incluye un conjunto de conceptos y metodologas cuya misin consiste en mejorar el proceso de toma de decisiones en los negocios basndose en hechos y sistemas que trabajan con hechos.
Howard Dresner Gartner Group, 1989.

Vallejos, Sofia

Recursos y Herramientas
Fuentes de datos: warehouse, data marts, etc. Herramientas de administracin de datos. Herramientas de extraccin y consulta. Herramientas de modelizacin (Data Mining).

Inteligencia de Negocios

Vallejos, Sofia

Descubrimiento de Conocimiento en Bases de Datos


Es un proceso de extraccin no trivial para identificar patrones que sean vlidos, novedosos, potencialmente tiles y entendibles, a partir de los datos. Su objetivo principal: procesar automticamente grandes cantidades de datos para encontrar conocimiento til para un usuario y satisfacer sus metas.

Vallejos, Sofia

Descubrimiento de Conocimiento en Bases de Datos Jerarqua

Vallejos, Sofia

Descubrimiento de Conocimiento en Bases de Datos

Etapas de KDD Vallejos, Sofia

Qu es Minera de Datos
Es el proceso de exploracin y anlisis de manera automtica o semiautomtica de los datos para obtener patrones significativos y reglas de negocio. Es la aplicacin de las tcnicas de la Inteligencia Artificial. Consideraciones:
Los patrones deben ser significativos. Sin automatizacin es imposible mirar grandes cantidades de datos, pero se debe dar ms nfasis a las etapas de exploracin y anlisis, que al modo de exploracin. Data Mining es un proceso.

Vallejos, Sofia

Qu no es Minera de Datos
No es un producto que se compra enlatado sino una disciplina que debe ser dominada. No es una solucin instantnea a los problemas de negocio. No es un fin en s mismo, sino un proceso que ayuda a encontrar soluciones a problemas de negocio.

Vallejos, Sofia

Perspectiva histrica

Minera de Datos:

Vallejos, Sofia

Un proyecto genrico

Vallejos, Sofia

Integrantes del proyecto

Vallejos, Sofia

El analista de datos

Es el vnculo entre las reas de tecnologa informtica y las reas de negocio. Habilidades requeridas:
Manipulacin de datos (SQL). Conocimiento de tcnicas de minera y anlisis exploratorio. Habilidad de comunicacin (interpretacin) de los problemas de negocio.

Vallejos, Sofia

El analista de datos

Traduce los requerimientos de informacin en preguntas apropiadas para su anlisis con las herramientas de minera.

Vallejos, Sofia

Fuentes de Datos
Tipos de fuentes:
Transaccionales: ej. operaciones realizadas con una tarjeta de crdito. Relacionales: ej. estructura de productos que ofrece un banco. Demogrficos: ej. caractersticas del grupo familiar.

Origen de datos:

Bases de datos relacionales. DataWarehouses. Data Marts. Otros formatos: Excel, Access, encuestas, archivos planos.

Vallejos, Sofia

Calidad de los Datos


El xito de las actividades de Data Mining se relaciona directamente con la CALIDAD de los datos. Muchas veces resulta necesario pre-procesar los datos, antes de derivarlos al modelo de anlisis. El preproceso puede incluir transformaciones, reducciones o combinaciones de los datos. La semntica de los datos debe ayudar para seleccionar una conveniente representacin, dado que influye directamente sobre la calidad del modelo. Vallejos, Sofia

Funciones de minera
Utilizan tcnicas matemticas elaboradas para descubrir patrones ocultos en los datos. Ellas son:
Asociacin. Clasificacin neuronal. Clasificacin en rbol. Clustering demogrfico. Clustering neuronal. Patrones secuenciales. Secuencias semejantes. Prediccin neuronal. Prediccin - funcin base radial.

Vallejos, Sofia

Modelos tpicos de minera


Clustering. Clasificacin. Estimacin. Prediccin. Agrupamiento a partir de reglas de asociacin. Vallejos, Sofia

Modelos tpicos de minera:

Clustering
Agrupar a los clientes segn indicadores F (frecuencia), M (monto), etc en segmentos de comportamientos homogneos. Resultado: Clientes Buenos, Medios, Malos. El 78% de la facturacin se concentra en el cluster Buenos. Los clientes Buenos son casados, con hijos, trabajadores autnomos con ingreso superior a $3000 pesos. Vallejos, Sofia

Modelos tpicos de minera:

Clasificacin y Estimacin
Clasificar un nuevo cliente de acuerdo a su perfil sociodemogrfico como un cliente:
Bueno. Medio. Malo.

Estimar el consumo de un determinado rubro de artculos de un grupo de clientes en el prximo trimestre. Vallejos, Sofia

Modelos tpicos de minera:

Prediccin
Predecir el abandono de un cliente:
Para una compaa de telefona celular. Para una AFJP. Para una tarjeta de crdito.

Vallejos, Sofia

Modelos tpicos de minera:

Asociacin
Encontrar las reglas que determinan la interrelacin entre productos para clientes de un banco. Por ejemplo:
Cuando

un cliente se activa en Caja de Ahorros, el siguiente producto donde se activa es Prstamos Personales. Este patrn ocurre el 65 % de los casos.

Vallejos, Sofia

Eleccin del modelo


Principales objetivos del proceso de Data Mining:
Prediccin. Descripcin.

El mtodo a utilizar depende de los objetivos perseguidos por el anlisis pero tambin de la calidad y cantidad de los datos disponibles.

Vallejos, Sofia

Ejemplos con DB2 Intelligent Miner for Data

Es un software que comprende un conjunto de funciones estadsticas, de proceso, y de Mineria de Datos. Ofrece herramientas de visualizacin Vallejos, Sofia

Ejemplos con DB2 Intelligent Miner for Data


Clustering. Asociacin. Red neuronal como modelo predictivo.

Vallejos, Sofia

Clustering
Es la particin del conjunto de individuos en subconjuntos lo ms homogneos posibles. El objetivo es maximizar la similitud de individuos del cluster y maximizar las diferencias entre clusters. Se aplica para segmentacin de bases de datos, identificacin de tipos de clientes, etc.

Vallejos, Sofia

Con qu criterio se agrupan estos rostros?

Vallejos, Sofia

Aportes del software de minera


Determinar el nmero ptimo de clusters. Asignar a cada individuo a un nico cluster. Evaluar el impacto de las variables en la formacin del cluster. Comprender el perfil de cada cluster.

Vallejos, Sofia

Ejemplo de Clustering
La gerencia comercial de un banco necesita identificar al segmento ms valioso de clientes de una tarjeta de crdito para organizar sus gastos de promociones y campaas de marketing directo. Datos disponibles:
Frecuencia de uso de la tarjeta. Saldo promedio mensual en $. Posesin de tarjeta Gold. Monto promedio por cada transaccin. Cantidad de servicios por dbito automtico. Datos sociodemogrficos: sexo, edad, estado civil, ocupacin, hijos. Fuente de datos: transacciones del ltimo ao, tabla de clientes.

Vallejos, Sofia

Ejemplo de Clustering
Preparacin de los datos:
Definir la unidad de anlisis: cuenta o tarjeta?. Definir qu es una transaccin: cmo se consideran los ajustes?. Describir las variables a incluir en el modelo.

Tabla de datos:

Vallejos, Sofia

Ejemplo de Clustering
Medida de calidad del modelo:
Criterio de Condorcet: asume un valor entre 0 y 1.

Criterios de segmentacin:
Se toman como variables activas las que corresponden al comportamiento de consumo. Se toman como variables suplementarias los atributos sociodemogrficos.

Vallejos, Sofia

Solucin de 4 clusters

Vallejos, Sofia

Buenos clientes con tarjeta Gold

Vallejos, Sofia

Buenos clientes sin tarjeta Gold

Vallejos, Sofia

Asociacin
Anlisis de la canasta de mercado:
Objetivo: generar reglas del tipo: SI condicin ENTONCES resultado Ejemplo: SI producto A y producto C ENTONCES producto B

Cun buena es una regla?. Medidas que la califican:


Soporte. Confianza. Mejora.

Vallejos, Sofia

Ejemplo de Asociacin
El dueo de una pizzera vende 3 gustos de pizzas: pepperoni, queso y hongos, y quiere armar combos con las combinaciones ms convenientes. Parte de un conjunto de 2000 tickets con los correspondientes items (gusto de pizza) incluido en cada uno.

Vallejos, Sofia

Ejemplo de Asociacin
Clculo de las medidas de Asociacin:

Vallejos, Sofia

Red neuronal
La Inteligencia Artificial trabaja con modelos conexionistas. El modelo conexionista imita el sistema ms complejo conocido hasta el momento: el cerebro. El cerebro est formado por millones de clulas llamadas neuronas. Estas neuronas son unos procesadores de informacin muy sencillos con un canal de entrada de informacin (dendrita), un rgano de cmputo (soma) y un canal de salida de informacin (axn).

Vallejos, Sofia

La neurona artificial

Elementos:
Entradas. Pesos sinpticos. Reglas de propagacin. Funcin de activacin.

Vallejos, Sofia

Ejemplo de red neuronal


Valuacin de propiedades

Vallejos, Sofia

Ejemplo de red neuronal


Datos

Vallejos, Sofia

Vallejos, Sofia

Conclusiones Ventajas
La Minera de Datos es una herramienta eficaz para dar respuestas a preguntas complejas de Inteligencia de Negocios. Las herramientas disponibles permiten automatizar gran parte de la tarea de encontrar los patrones de comportamiento ocultos en los datos. Es una buena manera de convertir datos en informacin, y esta a su vez en conocimiento, para la correcta toma de decisiones. Vallejos, Sofia

Conclusiones
Desventajas
Que los productos a comercializar son significativamente costosos. Que se requiera de experiencia para utilizar herramientas de tecnologa. Que sea fcil de hallar patrones equvocos triviales o no interesantes. La Privacidad.

Vallejos, Sofia

Referencias
Building Data Mining Applications for CRM. A. Berson, S. Shmit, K. Thearling. Mc Graw Hill, 2000. Data Mining with Neuronal Networks. Joseph Bigus. Mc Graw Hill, 1996. Principles of Data Mining. D. Hand, H. Manilla, P. Smyth. The MIT Press. USA, 2000. U. Fayyad, G. Grinstein, A. Wierse. Data Mining and Knowledge Discovery. M. Kaufmann, Harcourt Intl., USA, 2001.

Vallejos, Sofia

Fin de la Presentacin

Muchas Gracias !!

Vallejos, Sofia

Anda mungkin juga menyukai