Anda di halaman 1dari 58

DATAMINIG

Mg. MARCO POLO SILVA


SEGOVIA
marcosilvasegovia@gmail.co
m

SKYCAT: CLASIFICACIN DE OBJETOS


DEL FIRMAMENTO

DESCUBRIENDO EL
CONOCIMIENTO EN BASES
DE DATOS
Data Warehouse

Almacn (Data warehousing)


Es una tecnologa de gestin y anlisis de datos

Bases de datos operacionales


ERP o software de planificacin de
recursos empresariales
CRM, o gestin de las relaciones con
los clientes
LOB, o lnea de productos
empresariales
Contribuye con elemento de juicio racionales
Que facilitan la toma de decisiones por quienes
dirigen una organizacin

ERP

LOB
CRM

CARACTERISTICAS
DB

Integrado

Temtico
Metadatos

No voltil

Variable en el tiempo

FUNCIONES

Integracin de datos
recolectados de diferentes
sistemas operacionales de la
organizacin y o fuentes
externas

Separacin de datos
segn su uso con
propsitos de anlisis y
toma de decisiones

VENTAJAS
Alto retorno de inversin

Ventajas competitivas derivadas de


su utilizacin

Mayor productividad de
los responsables de la
toma de decisiones

PROBLEMAS
Subestimacin de los recursos necesarios para la
carga de datos.

Privacidad de los datos.

Altos costes de mantenimiento.

Proyectos de larga duracin.


Complejidad de la integracin.

COMPONENTES
1.

Fuentes de Datos operacionales

2.

Repositorio de datos operacionales (ODS)

3.

Gestor de carga ( componente de


interfaz)

4.

Gestor del almacn de datos:

5.

Gestor de consultas ( componente de

BD *Estaciones de trabajo*Internet
Datos actuales e integrados que se utilizan para el
anlisis.
Operaciones asociadas con la extraccin y
carga de los datos en el almacn.
Anlisis de los datos para garantizar su
coherencia, transformacin y combinacin de
datos de origen, creacin de ndices y vistas.
Dirigir consultas hacia tablas apropiadas y
planificar su ejecucin.

servicio)
6.

Datos detallados

7.

Datos poco resumidos y muy resumidos

8.

Datos de archivo / copia de seguridad

9.

Metadatos

10.

Herramientas de acceso para usuarios finales

Consulta y generacin de informes


Desarrollo de aplicaciones
Procesamiento analtico en lnea (OLAP)
Minera de Datos

ARQUITECTURA

MERCADOS (DATA MARTS)

Un subconjunto de un almacn de
datos que soporta los requisitos de
un departamento rea de negocios
concreto.
Las principales caractersticas que
diferencian a los mercados de datos
de los almacenes de datos son:
un mercado de datos se centra
nicamente en los requisitos de los
usuarios asociados con un
departamento rea de negocio
concreto;
los mercados de datos no contienen
normalmente datos operacionales
detallados, a diferencia de lo que
sucede con los almacenes de datos;
como los mercados de datos
contienen menos informacin que
un almacn de datos, son ms
fciles de comprender y de utilizar.

ALMACENES DE DATOS (OLAP)

CUBOS MULTIDIMENSIONALES

MINERA DE DATOS
INTRODUCCIN

JUSTIFICACIN

Nuevas posibilidades: disponibilidad


de grandes cantidades de datos
(bancos, la web, tarjetas
fidelizacin, ...), potencia de cmputo
Nuevas necesidades: Es complicado
Analizar los datos de manera manual.
Necesidad de tcnicas automticas:
resmenes (BBDD), inferencias
(estadstica, aprendizaje automtico)

OBJETIVOS

Convertir datos en conocimiento para


tomar decisiones
Es importante la inteligibilidad del
conocimiento obtenido (los modelos
estadsticos no son siempre sencillos
de entender)
MD = BBDD + estadstica +
aprendizaje automtico

ACTIVIDADES

Prediccin:
Clasificacin
Regresin

Asociacin
Agrupacin (clustering)

MINERIA DE DATOS
EJEMPLOS

1. Crditos bancarios (clasificacin)

Un banco por Internet desea obtener


reglas para predecir qu personas de
las que solicitan un crdito no van a
devolverlo.
La entidad bancaria cuenta con una
gran base de datos correspondientes
a los crditos concedidos (o no) a
otros clientes con anterioridad.

Datos (instancias, patrones, )

Conocimiento obtenido

SI (cuentas_morosas > 0) ENTONCES


Devuelve_crdito = no
SI (cuentas_morosas = 0) Y ((salario
> 2500) O (aos > 10)) ENTONCES
devuelve_crdito = si

2. Determinar las ventas de


un producto (Regresin)

Una gran cadena de tiendas de


electrodomsticos desea optimizar el
funcionamiento de su almacn
manteniendo un stock de cada
producto suficiente para poder servir
rpidamente el material adquirido
por sus clientes.

Datos

Conocimiento obtenido

Modelo que prediga lo que se va a vender


cada mes a partir de lo que se vendi en
los meses anteriores (serie temporal)

3. Anlisis de la cesta de la
compra (Asociacin)

Un supermercado quiere obtener


informacin sobre el comportamiento
de compra de sus clientes.
Se piensa que de esta manera se
puede mejorar el servicio, colocando
ciertos productos juntos, etc.

Datos de las cestas

Conocimiento obtenido
Reglas Si At1=a y At2=b y ... Entonces Atn=c
Si paales=si, entonces leche=si (100%,
37%)
Las reglas tambin pueden ser:
Si At1=a y At2=b Entonces Atn=c, At4=D
(a,b) = (precisin, cobertura)
Precisin (confidence): veces que la regla
es correcta
Cobertura (support): frecuencia de
ocurrencia de la regla en los datos

Precisin (confidence)
Una regla puede ser muy precisa (100%), pero ocurrir muy
poco y ser poco relevante
Ejemplo:
Si huevos=si y aceite=si y paales=si entonces
salmn=si
Precisin: 1/1 = 100%
Pero slo ocurre para un cliente (el octavo): 1/8 = 12%
Sea la regla:
Si At1=a y At2=b Entonces Atn=c
Cobertura: nmero de datos que cumplen las dos
condiciones At1=a, At2=b, dividido por nmero total de
datos
Representa el porcentaje de veces que ocurre la regla, lo
til que es

4. Agrupacin de empleados
(clustering)

El departamento de RRHH de una


empresa desea categorizar a sus
empleados en distintos grupos con el
objetivo de entender mejor su
comportamiento y tratarlos de
manera adecuada

Datos

Conocimiento obtenido

Conocimiento obtenido

Grupo 1: sin hijos y con vivienda de


alquiler. Poco sindicados. Muchas bajas
Grupo 2: sin hijos y con coche. Muy
sindicados. Pocas bajas. Normalmente
son mujeres y viven en alquiler
Grupo 3: con hijos, casados y con
coche. Mayoritariamente hombres
propietarios. Poco sindicados.

Idea general de
agrupacin

Detectar agrupaciones naturales en los datos Agrupacin


(o clustering) = aprendizaje no supervisado: se parte de
una tabla, como en clasificacin, pero sin la clase
Y: Long.
media
frases

Ejemplo: clustering de
libros. 2 grupos:
* Palabras y frases
largas
(filosofa?)
* Palabras y frases
cortas
(novela?)

X: Longitud media de palabras

Representacin de clusters

Por sus centroides (ej: algoritmo k-medias)


La pertenencia a un cluster puede ser
probabilstica (ej: algoritmo EM)

Representacin de clusters

Jerrquica (ej: algoritmo cobweb)


Nota: las etiquetas filosofa, clsico, etc. aparecen slo a ttulo
indicativo. El sistema simplemente detectara distintos grupos a distintos
niveles

Datos
(tcnica de carcter
horizontal)

Financieras y banca
Obtencin de patrones de uso fraudulento de

tarjetas de crdito
Prediccin de morosidad (prstamos)

Anlisis de mercado:
Anlisis de cesta de la compra
Segmentacin de mercado

Seguros y salud privada: determinacin


de clientes potencialmente caros
Educacin: deteccin de abandonos

Aplicaciones II

Medicina: diagnstico de
enfermedades (ej: diagnstico de
dolor abdominal)
Ciencia:
Predecir si un compuesto qumico causa

cncer
Predecir si una persona puede tener
potencialmente una enfermedad a partir de
su DNA
Clasificacin de cuerpos celestes (SKYCAT)

Aplicaciones III

Deteccin de spam (SpamAssassin,


bayesiano)
Web: asociar libros que compran usuarios
en tiendas (amazon.com)
Web: clasificacin automtica de pginas
web para directorios
Reconocimiento de caracteres, de voz.
etc.
Prediccin de la demanda elctrica, de
gas, etc.

ACTIVIDADES PARA LA CLASE

Diseo una solucin de minera de


datos para las siguientes
aplicaciones:
Diagnostico de enfermedades cerebrales:
Epilepsia
Parkinson
Alzheimer
Modelo de comportamiento para robots
Robocup
Seguidor de Lneas
Sumo Robot

Fases en Minera de
Datos

Fases del proceso de extraccin


de
conocimiento

Integracin y recopilacin de datos


Seleccin, limpieza y transformacin ->
Datos
Aprendizaje Automtico -> Patrones
Evaluacin e interpretacin ->
Conocimiento
Difusin y uso -> Decisiones

Integracin y recopilacin

Almacenes de datos (data


warehousing): repositorio de
informacin obtenido de diversas
fuentes (heterogneas), almacenada
bajo un esquema unificado

Seleccin, limpieza,
transformacin

Datos:
Valores que no se ajustan al comportamiento general

(outliers): eliminar o dejar


Muestreo de datos

Atributos:
Eliminar atributos redundantes o irrelevantes
Reduccin/aumento dimensionalidad
Calcular nuevos atributos que sean ms relevantes

(area, poblacin -> densidad de poblacin, para


predecir cantidad de daos en terremotos)
Valores faltantes (missing values): rellenarlos
Discretizacin, numerizacin, normalizacin,

Datos (instancias, patrones, )

Seleccin, limpieza, transformacin

Objetivos:
Mejorar la eficiencia de la herramienta de

minera de datos
Mejorar la calidad (precisin) del conocimiento
obtenido

Posibilidades:
Hacerlo a mano
Utilizar herramientas de preproceso (ej:

seleccin de atributos)
Dejar que lo haga el algoritmo de minera de
datos (peor solucin)

TIPOS DE ALGORITMOS
PARA PREDICCIN
(CLASIFICACIN Y
REGRESIN)
Para Minera de Datos

Datos de entrada (ej: clasificacin)

Esquema general en prediccin

Idea general en prediccin

Utilizar un conjunto de datos disponibles, en forma de


tabla de atributos, para aprender un predictor
(clasificador o regresor), que sea capaz de predecir la
clase de datos NO VISTOS TODAVA. Hay
GENERALIZACIN a partir de los datos
El predictor puede tomar diversas formas, segn el
algoritmo (rbol de decisin, reglas, funcin, red de
neuronas, probabilidades, centroides, ..)
Pero en ltimo trmino, un predictor es una estructura
que toma una entrada (los distintos valores de los
atributos que representan al dato) y devuelve una
salida (la clase o cantidad predicha para ese dato)

WEKA

Tipos de atributos

Nominales (discretos, categricos):


cielo, viento
Numricos: temperatura, humedad
Hay atributos numricos que son
realmente nominales (ej: DNI)
Hay atributos nominales que son
realmente numricos (ej: edad con
valores nio, joven, adulto,
mayor).

Formato arff. Definicin de


atributos
% Comentarios precedidos de %
@relation tiempo
@attribute cielo {sol, nubes, lluvia}
@attribute temperatura numeric
@attribute humedad numeric
@attribute viento {si, no}
@attribute tenis {si, no}

Formato arff. Definicin de datos


@data
Sol, 85, 85, no, no
Sol, 80, 90, si, no
Nublado, 81, 86, no, si
Lluvia, 70, 96, no, si
...

Formato Arff

@relation tiempo

@attribute
@attribute
@attribute
@attribute
@attribute

cielo {soleado, nublado, lluvioso}


temperatura real
humedad real
viento {VERDADERO, FALSO}
tenis {si, no}

@data
soleado,85,85,FALSO,no
soleado,80,90,VERDADERO,no
nublado,83,86,FALSO,si
lluvioso,70,96,FALSO,si
lluvioso,68,80,FALSO,si
lluvioso65,70,VERDADERO,no
nublado,64,65,VERDADERO,si
soleado,72,95,FALSO,no
soleado,69,70,FALSO,si
lluvioso,75,80,FALSO,si
soleado,75,70,VERDADERO,si
nublado,72,90,VERDADERO,si
nublado,81,75,FALSO,si
lluvioso,71,91,VERDADERO,no

Algoritmos de clasificacin / regresin


(prediccin)

rboles de decisin y reglas. Para clasificacin


rboles de decisin: ID3, C4.5 (J48), ...
Reglas: PART, CN2, AQ, ...

Funciones:
Para regresin: linear regresson, neural networks
Para clasificacin: simple logistics, support vector machines (SMO)

rboles de regresin: LMT (M5), ...


Tcnicas perezosas. Para clasificacin y regresin
IB1, IBK, ...

Tcnicas Bayesianas. Para clasificacin:


Naive Bayes

Metatcnicas. Para clasificacin y regresin:


Boosting, Bagging, Stacking, Random Forests

Tipos de clasificadores (y
regresores)

En el fondo, la clasificacin consiste en encontrar


fronteras de separacin entre las clases)
Tipos:
Lineales: la frontera es una lnea (en dos dimensiones) o

un hiperplano (en N-dimensiones)


No lineales: cualquier otro tipo de frontera

Caso de que hablemos de regresores, el objetivo


en este caso es aprender una funcin y tambin
encontramos los tipos lineal y no lineal
rboles de decisin y reglas. Para clasificacin
rboles de decisin: ID3, C4.5 (J48), ...
Reglas: PART, CN2, AQ, ...

rboles de decisin (para


clasificacin)

http://archive.ics.uci.edu/
ml/datasets.html
http://archive.ics.uci.edu/ml/datasets.html

Anda mungkin juga menyukai