DESCUBRIENDO EL
CONOCIMIENTO EN BASES
DE DATOS
Data Warehouse
ERP
LOB
CRM
CARACTERISTICAS
DB
Integrado
Temtico
Metadatos
No voltil
Variable en el tiempo
FUNCIONES
Integracin de datos
recolectados de diferentes
sistemas operacionales de la
organizacin y o fuentes
externas
Separacin de datos
segn su uso con
propsitos de anlisis y
toma de decisiones
VENTAJAS
Alto retorno de inversin
Mayor productividad de
los responsables de la
toma de decisiones
PROBLEMAS
Subestimacin de los recursos necesarios para la
carga de datos.
COMPONENTES
1.
2.
3.
4.
5.
BD *Estaciones de trabajo*Internet
Datos actuales e integrados que se utilizan para el
anlisis.
Operaciones asociadas con la extraccin y
carga de los datos en el almacn.
Anlisis de los datos para garantizar su
coherencia, transformacin y combinacin de
datos de origen, creacin de ndices y vistas.
Dirigir consultas hacia tablas apropiadas y
planificar su ejecucin.
servicio)
6.
Datos detallados
7.
8.
9.
Metadatos
10.
ARQUITECTURA
Un subconjunto de un almacn de
datos que soporta los requisitos de
un departamento rea de negocios
concreto.
Las principales caractersticas que
diferencian a los mercados de datos
de los almacenes de datos son:
un mercado de datos se centra
nicamente en los requisitos de los
usuarios asociados con un
departamento rea de negocio
concreto;
los mercados de datos no contienen
normalmente datos operacionales
detallados, a diferencia de lo que
sucede con los almacenes de datos;
como los mercados de datos
contienen menos informacin que
un almacn de datos, son ms
fciles de comprender y de utilizar.
CUBOS MULTIDIMENSIONALES
MINERA DE DATOS
INTRODUCCIN
JUSTIFICACIN
OBJETIVOS
ACTIVIDADES
Prediccin:
Clasificacin
Regresin
Asociacin
Agrupacin (clustering)
MINERIA DE DATOS
EJEMPLOS
Conocimiento obtenido
Datos
Conocimiento obtenido
3. Anlisis de la cesta de la
compra (Asociacin)
Conocimiento obtenido
Reglas Si At1=a y At2=b y ... Entonces Atn=c
Si paales=si, entonces leche=si (100%,
37%)
Las reglas tambin pueden ser:
Si At1=a y At2=b Entonces Atn=c, At4=D
(a,b) = (precisin, cobertura)
Precisin (confidence): veces que la regla
es correcta
Cobertura (support): frecuencia de
ocurrencia de la regla en los datos
Precisin (confidence)
Una regla puede ser muy precisa (100%), pero ocurrir muy
poco y ser poco relevante
Ejemplo:
Si huevos=si y aceite=si y paales=si entonces
salmn=si
Precisin: 1/1 = 100%
Pero slo ocurre para un cliente (el octavo): 1/8 = 12%
Sea la regla:
Si At1=a y At2=b Entonces Atn=c
Cobertura: nmero de datos que cumplen las dos
condiciones At1=a, At2=b, dividido por nmero total de
datos
Representa el porcentaje de veces que ocurre la regla, lo
til que es
4. Agrupacin de empleados
(clustering)
Datos
Conocimiento obtenido
Conocimiento obtenido
Idea general de
agrupacin
Ejemplo: clustering de
libros. 2 grupos:
* Palabras y frases
largas
(filosofa?)
* Palabras y frases
cortas
(novela?)
Representacin de clusters
Representacin de clusters
Datos
(tcnica de carcter
horizontal)
Financieras y banca
Obtencin de patrones de uso fraudulento de
tarjetas de crdito
Prediccin de morosidad (prstamos)
Anlisis de mercado:
Anlisis de cesta de la compra
Segmentacin de mercado
Aplicaciones II
Medicina: diagnstico de
enfermedades (ej: diagnstico de
dolor abdominal)
Ciencia:
Predecir si un compuesto qumico causa
cncer
Predecir si una persona puede tener
potencialmente una enfermedad a partir de
su DNA
Clasificacin de cuerpos celestes (SKYCAT)
Aplicaciones III
Fases en Minera de
Datos
Integracin y recopilacin
Seleccin, limpieza,
transformacin
Datos:
Valores que no se ajustan al comportamiento general
Atributos:
Eliminar atributos redundantes o irrelevantes
Reduccin/aumento dimensionalidad
Calcular nuevos atributos que sean ms relevantes
Objetivos:
Mejorar la eficiencia de la herramienta de
minera de datos
Mejorar la calidad (precisin) del conocimiento
obtenido
Posibilidades:
Hacerlo a mano
Utilizar herramientas de preproceso (ej:
seleccin de atributos)
Dejar que lo haga el algoritmo de minera de
datos (peor solucin)
TIPOS DE ALGORITMOS
PARA PREDICCIN
(CLASIFICACIN Y
REGRESIN)
Para Minera de Datos
WEKA
Tipos de atributos
Formato Arff
@relation tiempo
@attribute
@attribute
@attribute
@attribute
@attribute
@data
soleado,85,85,FALSO,no
soleado,80,90,VERDADERO,no
nublado,83,86,FALSO,si
lluvioso,70,96,FALSO,si
lluvioso,68,80,FALSO,si
lluvioso65,70,VERDADERO,no
nublado,64,65,VERDADERO,si
soleado,72,95,FALSO,no
soleado,69,70,FALSO,si
lluvioso,75,80,FALSO,si
soleado,75,70,VERDADERO,si
nublado,72,90,VERDADERO,si
nublado,81,75,FALSO,si
lluvioso,71,91,VERDADERO,no
Funciones:
Para regresin: linear regresson, neural networks
Para clasificacin: simple logistics, support vector machines (SMO)
Tipos de clasificadores (y
regresores)
http://archive.ics.uci.edu/
ml/datasets.html
http://archive.ics.uci.edu/ml/datasets.html