Mineria

Fases y Tcnicas del KDD
Las distintas tcnicas de distintas disciplinas se utilizan en distintas fases:
3.2. El Proceso de KDD
Fases del KDD: Recogida de Datos

Las primeras fases del KDD determinan que las fases sucesivas
sean capaces de extraer conocimiento vlido y til a partir de la
informacin original.
Generalmente, la informacin que se quiere investigar sobre un
cierto dominio de la organizacin se encuentra:
El proceso subsiguiente de minera de datos:

Depende mucho de la fuente:
OLAP u OLTP.
Datawarehouse o copia con el esquema original.
ROLAP o MOLAP.
en bases de datos y otras fuentes muy diversas,

tanto internas como externas.
muchas de estas fuentes son las que se utilizan para el trabajo
transaccional.
El anlisis posterior ser mucho ms sencillo si la fuente es unificada,
accesible (interna) y desconectada del trabajo transaccional.
3
Depende tambin del tipo de usuario:

picapedreros (o granjeros): se dedican fundamentalmente
a realizar informes peridicos, ver la evolucin de
determinados parmetros, controlar valores anmalos, etc.
exploradores: encargados de encontrar nuevos patrones
4
significativos utilizando tcnicas de minera de datos.
Fases del KDD: Seleccin, Limpieza y
Transformacin de Datos
Recogida de Informacin Externa:

Aparte de informacin interna de la organizacin, los almacenes
de datos pueden recoger informacin externa:
Demografas (censo), pginas amarillas, psicografas (perfiles
por zonas), uso de Internet, informacin de otras organizaciones.
Limpieza (data cleansing) y criba (seleccin) de datos:

Se deben elmininar el mayor nmero posible de datos errneos o
inconsistentes (limpieza) e irrelevantes (criba).
Mtodos estadsticos casi exclusivamente.
histogramas (deteccin de datos anmalos).
seleccin de datos (muestreo, ya sea verticalmente,
eliminando atributos, u horizontalmente, eliminando tuplas).
redefinicin de atributos (agrupacin o separacin).
Datos compartidos en una industria o rea de negocio,

organizaciones y colegios profesionales, catlogos, etc.
Datos resumidos de reas geogrficas, distribucin de la
competencia, evolucin de la economa, informacin de
calendarios y climatolgicas, programaciones televisivasdeportivas, catstofres,..
Bases de datos externas compradas a otras compaas.
Acciones ante datos anmalos (outliers):
Acciones ante datos faltantes (missing values):
ignorar: algunos algoritmos son robustos a datos anmalos (p.ej. rboles)
ignorar: algunos algoritmos son robustos a datos faltantes (p.ej. rboles).
filtrar (eliminar o reemplazar) la columna: solucin extrema, pero a veces existe

otra columna dependiente con datos de mayor calidad. Preferible a eliminar la
columna es reemplazarla por una columna discreta diciendo si el valor era normal
u outlier (por encima o por debajo).
filtrar (eliminar o reemplazar) la columna: solucin extrema, pero a veces

existe otra columna dependiente con datos de mayor calidad. Preferible a
eliminar la columna es reemplazarla por una columna booleana diciendo si el
valor exista o no.
filtrar la fila: puede sesgar los datos, porque muchas veces las causas de un dato
errneo estn relacionadas con casos o tipos especiales.
filtrar la fila: claramente sesga los datos, porque muchas veces las causas de
un dato faltante estn relacionadas con casos o tipos especiales.
reemplazar el valor: por el valor nulo si el algoritmo lo trata bien o por

mximos o mnimos, dependiendo por donde es el outlier, o por medias. A veces
se puede predecir a partir de otros datos, utilizando cualquier tcnica de ML.
reemplazar el valor: por medias. A veces se puede predecir a partir de otros

datos, utilizando cualquier tcnica de ML.
discretizar: transformar un valor continuo en uno discreto (p.ej. muy alto, alto,
medio, bajo, muy bajo) hace que los outliers caigan en muy alto o muy bajo
sin mayores problemas.
7
segmentar: se segmentan las tuplas por los valores que tienen disponibles. Se
obtienen modelos diferentes para cada segmento y luego se combinan.
modificar la poltica de calidad de datos y esperar hasta que los datos faltantes
8
estn disponibles.
Razones sobre datos faltantes (missing values):

A veces es importante examinar las razones tras datos faltantes y
actuar en consecuencia:
algunos valores faltantes expresan caractersticas relevantes: p.ej. la
falta de telfono puede representar en muchos casos un deseo de que
no se moleste a la persona en cuestin, o un cambio de domicilio
reciente.
valores no existentes: muchos valores faltantes existen en la realidad,
pero otros no. P.ej. el cliente que se acaba de dar de alta no tiene
consumo medio de los ltimos 12 meses.
datos incompletos: si los datos vienen de fuentes diferentes, al
combinarlos se suele hacer la unin y no la interseccin de campos,
con lo que muchos datos faltantes representan que esas tuplas vienen
de una/s fuente/s diferente/s al resto.
9
Transformacin del Esquema:

Esquema Original:
Ventajas: Las R.I. se mantienen (no hay que reaprenderlas, no despistan)
Inconvenientes: Muchas tcnicas no se pueden utilizar.
Tabla Universal: Cualquier Esquema Relacional se puede

convertir (en una correspondencia 1 a 1) a una tabla universal.
Ventajas: Modelos de aprendizaje ms simples (proposicionales).
Desventajas: Muchsima Redundancia (tamaos ingentes). La
informacin del esquema se pierde. Muchas dependencias funcionales se
vuelven a re-descubrir!! Se debe aadir metainformacin.
Desnormalizado Tipo Estrella o Copo de Nieve (datamarts):

Ventajas: Se pueden buscar reglas sobre informacin sumarizada y si
resultan factibles se pueden comprobar con la informacin detallada.
Con operadores propios: Roll-up, Drill-down, Slicing and Dicing.
Desventajas: Orientadas a extraer un tipo de informacin (granjeros).
10
Intercambio de Dimensiones: (filas por columnas)

EJEMPLO:
Una tabla de cestas de la compra, donde cada atributo indica si
el producto se ha comprado o no.
Objetivo: Ver si dos productos se compran conjuntamente
(regla de asociacin).
Es muy costoso: hay que mirar al menos la raz cuadrada de
todas las relaciones (cestas).
Y puede haber millones en una semana...
Intercambio de Dimensiones: EJEMPLO

Si se intercambian filas por columnas tenemos:
Jabn
Huevos
Patatas Fritas
Champ
Jabn + Champ
Huevos + Patatas
Sin embargo...
B1
X
B2
B3
X
X
X
X
B4
B5
B6
...
X
X
X
Slo es necesario hace XOR entre dos filas para saber si hay
asociacin.
Productos slo hay unos 10.000.

11
12

Transformacin de los Campos:
Numerizacin / Etiquetado
Ventajas: Se reduce espacio. Ej: apellido entero. Se pueden

utilizar tcnicas ms simples.
Desventajas: Se necesita meta-informacin para distinguir los
datos inicialmente no numricos (la cantidad no es relevante) de
los inicialmente numricos (la cantidad es relevante: precios,
unidades, etc.)
A veces se puede sesgar el modelo (biasing).
Discretizacin:
Ventajas: Se reduce espacio. Ej. 0..10 (pequeo, mediano,

grande). Se pueden utilizar rboles de decisin y construir reglas
discretas.
Desventajas: Una mala discretizacin puede invalidar los
13
resultados.
Fases del KDD: La Minera de Datos

Patrones a descubrir:
Fases del KDD: La Minera de Datos

Caractersticas Especiales de los Datos:
Aparte del gran volumen, por qu las tcnicas de aprendizaje
automtico y estadstica no son directamente aplicables?
Los datos residen en el disco. No se pueden escanear
mltiples veces.
Algunas tcnicas de muestreo no son compatibles con
algoritmos no incrementales.
Muy alta dimensionalidad (muchos campos).
Evidencia POSITIVA.
DATOS IMPERFECTOS...
Aunque algunos se aplican casi directamente, el inters en la
investigacin en minera de datos est en su adaptacin.
14
Fases del KDD: Evaluacin y Validacin

La fase anterior produce una o ms hiptesis de modelos.
Una vez recogidos los datos de inters, un explorador puede decidir qu

tipo de patrn quiere descubrir.
Para seleccionar y validar estos modelos es necesario el uso de

criterios de evaluacin de hiptesis.
El tipo de conocimiento que se desea extraer va a marcar claramente la

tcnica de minera de datos a utilizar.
Por ejemplo:
Segn como sea la bsqueda del conocimiento se puede distinguir entre:

Directed data mining: se sabe claramente lo que se busca,
generalmente predecir unos ciertos datos o clases.
Undirected data mining: no se sabe lo que se busca, se trabaja con
los datos (hasta que confiesen!).
En el primer caso, algunos sistemas de minera de datos se encargan
generalmente de elegir el algoritmo ms idneo entre los disponibles
15
para un determinado tipo de patrn a buscar.
Fases del KDD: Interpretacin y Difusin
1 Fase: Comprobacin de la precisin del modelo en un

banco de ejemplos independiente del que se ha utilizado
para aprender el modelo. Se puede elegir el mejor modelo.
2 Fase: Se puede realizar una experiencia piloto con ese
modelo. Por ejemplo, si el modelo encontrado se quera
utilizar para predecir la respuesta de los clientes a un nuevo
producto, se puede enviar un mailing a un subconjunto de
clientes y evaluar la fiabilidad del modelo.
16
Fases del KDD: Actualizacin y Monitorizacin
El despliegue del modelo a veces a veces es trivial pero otras

veces requiere un proceso de implementacin o interpretacin:
Los procesos derivan en un mantenimiento:
El modelo puede requerir implementacin (p.ej. tiempo real

deteccin de tarjetas fraudulentas).
Actualizacin: Un modelo vlido puede dejar de serlo: cambio

de contexto (econmicos, competencia, fuentes de datos, etc.).
El modelo es descriptivo y requiere interpretacin (p.ej. una

caracterizacin de zonas geogrficas segn la distribucin de
los productos vendidos).
El modelo puede tener muchos usuarios y necesita difusin: el
modelo puede requerir ser expresado de una manera
comprensible para ser distribuido en la organizacin (p.ej. las
cervezas y los productos congelados se compran
frecuentemente en conjunto ponerlos en estantes distantes).
17
Monitorizacin: Consiste en ir revalidando el modelo con cierta

frecuencia sobre nuevos datos, con el objetivo de detectar si el
modelo requiere una actualizacin.
Producen realimentaciones en el proceso KDD.
18
Tipologa de Tcnicas de Minera de Datos

Las tcnicas de minera de datos crean modelos que son predictivos
y/o descriptivos.
Un modelo predictivo responde preguntas sobre datos futuros.
Cules sern las ventas el ao prximo?
Es esta transaccin fraudulenta?
Qu tipo de seguro es ms probable que contrate el cliente X?
Un modelo descriptivo proporciona informacin sobre las relaciones

entre los datos y sus caractersticas. Genera informacin del tipo:
Los clientes que compran paales suelen comprar cerveza.
El tabaco y el alcohol son los factores ms importantes en la enfermedad Y.
Los clientes sin televisin y con bicicleta tienen caractersticas muy
diferenciadas del resto.
19
Ejemplo de Modelo Predictivo:

Queremos saber si jugar o no jugar esta tarde al tenis.
Hemos recogido datos de experiencias anteriores:
Example
1
2
3
4
5
6
7
8
9
10
11
12
13
14

Ejemplo de Modelo Predictivo:
High
NO
Rain
Overcast
Wind?
YES
Normal
YES
Strong
NO
Weak
YES
Ahora podemos utilizar este modelo para predecir si esta tarde jugamos
o no al tenis. P.ej., la instancia:
(Outlook = sunny, Temperature = hot, Humidity = high, Wind = strong)
es NO.
21

Ejemplo de Modelo Descriptivo:
Wind
Weak
Strong
Weak
Weak
Weak
Strong
Strong
Weak
Weak
Weak
Strong
Strong
Weak
Strong
PlayTennis
No
No
Yes
Yes
Yes
No
Yes
No
Yes
Yes
Yes
Yes
Yes
No
20
cluster 2: 4 examples
Sueldo : 22500
Casado : No -> 1.0
Coche :
S -> 1.0
Hijos : 0
Alq/Prop : Alquiler -> 0.75
Prop -> 0.25
Sindic. :
S -> 1.0
Bajas/Ao : 2
Antigedad : 8
Sexo :
H -> 0.25
M -> 0.75
#Ej
1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
Sueldo
10000
20000
15000
30000
10000
40000
25000
20000
20000
30000
50000
8000
20000
10000
8000
Casado
S
No
S
S
S
No
No
No
S
S
No
S
No
No
No
Coche
No
S
S
S
S
S
No
S
S
S
No
S
No
S
S
Hijos
0
1
2
1
0
0
0
0
3
2
0
2
0
0
0
Alq/Prop
Alquiler
Alquiler
Prop
Alquiler
Prop
Alquiler
Alquiler
Prop
Prop
Prop
Alquiler
Prop
Alquiler
Alquiler
Alquiler
Sindic.
No
S
S
No
S
S
S
S
No
No
No
No
No
S
No
Bajas/Ao
7
3
5
15
1
3
0
2
7
1
2
3
27
0
3
Antigedad
15
3
10
7
6
16
8
6
5
20
12
1
5
7
2
Sexo
H
M
H
M
H
M
H
M
H
H
M
H
M
H
22
H

Tipos de conocimiento:
Pasamos estos ejemplos a un algoritmo de clustering K-meams.

Se crean tres clusters, con la siguiente descripcin:
Sueldo : 22600
Casado : No -> 0.8
S -> 0.2
Coche : No -> 0.8
S -> 0.2
Hijos : 0
Sindic. : No -> 0.8
S -> 0.2
Bajas/Ao : 8
Antigedad : 8
Sexo :
H -> 0.6
M -> 0.4
Humidity
High
High
High
High
Normal
Normal
Normal
High
Normal
Normal
Normal
High
Normal
High
Queremos categorizar nuestros empleados.

Tenemos estos datos de los empleados:
Outlook?
Humidity?
Temperature
Hot
Hot
Hot
Mild
Cool
Cool
Cool
Mild
Cool
Mild
Mild
Mild
Hot
Mild
Ejemplo de Modelo Descriptivo:
Pasamos estos ejemplos a un algoritmo de aprendizaje de rboles de

decisin, sealando el atributo PlayTennis como la clase (output).
El resultado del algoritmo es el siguiente modelo:
Sunny
Sky
Sunny
Sunny
Overcast
Rain
Rain
Rain
Overcast
Sunny
Sunny
Rain
Sunny
Overcast
Overcast
Rain
Sueldo : 18833
Casado : S -> 1.0
Coche : S -> 1.0
Hijos : 2
Prop -> 0.83
Sindic. :
No -> 0.67
S -> 0.33
Bajas/Ao : 5
Antigedad : 8
Sexo : H -> 0.83
M -> 0.17
GRUPO 1: Sin hijos y de alquiler. Poco sindicados. Muchas bajas.

GRUPO 2: Sin hijos y con coche. Muy sindicados. Pocas bajas. Normalmente de alquiler y mujeres.
GRUPO 3: Con hijos, casados y con coche. Propietarios. Poco sindicados. Hombres.
23
Asociaciones: Una asociacin entre dos atributos ocurre cuando la

frecuencia de que se den dos valores determinados de cada uno
conjuntamente es relativamente alta.
Ejemplo, en un supermercado se analiza si los paales y los potitos de
beb se compran conjuntamente.
Dependencias: Una dependencia funcional (aproximada o absoluta) es un
patrn en el que se establece que uno o ms atributos determinan el valor de
otro. Ojo! Existen muchas dependencias nada interesantes (causalidades
inversas).
Ejemplo: que un paciente haya sido ingresado en maternidad determina
su sexo.
La bsqueda de asociaciones y dependencias se conoce a veces como anlisis
exploratorio.
24

Tipos de conocimiento (cont.):
Tipos de conocimiento (cont.):
Clasificacin: Una clasificacin se puede ver como el esclarecimiento de

una dependencia, en la que el atributo dependiente puede tomar un valor
entre varias clases, ya conocidas.
Ejemplo: se sabe (por un estudio de dependencias) que los atributos
edad, nmero de miopas y astigmatismo han determinado los pacientes
para los que su operacin de ciruga ocular ha sido satisfactoria.
Tendencias/Regresin: El objetivo es predecir los valores de una variable

continua a partir de la evolucin sobre otra variable continua, generalmente
el tiempo.
Ejemplo, se intenta predecir el nmero de clientes o pacientes, los
ingresos, llamadas, ganancias, costes, etc. a partir de los resultados de
semanas, meses o aos anteriores.
Podemos intentar determinar las reglas exactas que clasifican un

caso como positivo o negativo a partir de esos atributos.
Agrupamiento / Segmentacin: El agrupamiento (o clustering) es la
deteccin de grupos de individuos. Se diferencia de la clasificacin en el
que no se conocen ni las clases ni su nmero (aprendizaje no supervisado),
con lo que el objetivo es determinar grupos o racimos (clusters)
diferenciados del resto.
25
Informacin del Esquema: (descubrir claves primarias alternativas, R.I.).

Reglas Generales: patrones no se ajustan a los tipos anteriores.
Recientemente los sistemas incorporan capacidad para establecer otros
26
patrones ms generales.
Taxonoma Tcnicas de Minera de Datos.

Data Mining
Verification Driven DM
SQL
SQL
SQL Generator
Generator
Source: http://www.crm-forum.com
and Jae Kyu Lee
Discovery
Discovery Driven
Driven DM
DM
Description
Query Tools
OLAP
OLAP
Sistemas
Visualization
Visualization
Prediction
Prediction
Classification
Clustering
Association
Sequential Association
Distillation
Distillation
Statistical
Statistical
Regression
Regression
Decision Tree
Tree
Rule Induction
Neural Network
Network
Elder Research,
www.dataminglab.com
27
Sistemas
28
Sistemas
Tipos de Sistemas:
Standalone: Los datos se deben exportar/convertir al
formato interno del sistema de data mining: Knowledge
Seeker IV (Angoss International Limited, Groupe Bull).
Producto
Knowledge Seeker
CART
Clementine
Data Surveyor
On-top: pueden funcionar sobre un sistema propietario

(Clementine sobre ODBC, microstrategy sobre Oracle).
GainSmarts
Embedded (propietarios): Oracle Discoverer, Oracle

Darwin, IBM...
Microstrategy
Intelligent Miner
Polyanalyst
Extensible (Tecnologa Plug-ins): proporcionan unas

herramientas mnimas de interfaz con los datos, estadsticas
y visualizacin, y los algoritmos de aprendizaje se pueden
ir aadiendo con plug-ins. (ej. KEPLER).
29
Darwin
Enterprise Miner
SGI MineSet
Wizsoft/Wizwhy
Compaa
Angoss
http://www.angoss.com/
Salford Systems
www.salford-systems.com
SPSS/Integral Solutions Limited (ISL)
www.spss.com
Data Distilleries
http://www.datadistilleries.com/
Urban Science
www.urbanscience.com
Tcnicas
Decision Trees, Statistics
Plataformas
Win NT
Decision Trees
UNIX/NT
Decision Trees, ANN, Statistics, Rule Induction,

Association Rules, K Means, Linear Regression.
Amplio Abanico.
UNIX/NT
ODBC
UNIX
ODBC
Especializado en grficos de ganancias en campaas

de clientes (slo Decision Trees, Linear Statistics y
Logistic Regression).
Decision Trees, Association Rules, ANN, RBF, Time
IBM
http://www.ibm.com/software/data/iminer Series, K Means, Linear Regression.
Microstrategy
Datawarehouse slo
www.microstrategy.com
Megaputer
Symbolic, Evolutionary
http://www.megaputer.com/html/polyanal
yst4.0.html
Oracle
Amplio Abanico (Decision Trees, ANN, Nearest
http://www.oracle.com/ip/analyze/wareho Neighbour)
use/datamining/index.html
SAS
Decision Trees, Association rules, ANN, regression,
http://www.sas.com/software/components clustering.
/miner.html
Silicon Graphics
association rules and classification models, used for
http://www.sgi.com/software/mineset/
prediction, scoring, segmentation, and profiling
http://www.wizsoft.com/
Interfaz
ODBC
UNIX/NT
UNIX (AIX)
IBM, DB2
Win NT
Oracle
Win NT
Oracle, ODBC
UNIX/NT
Oracle
UNIX (Sun),
NT, Mac
Oracle, ODBC
UNIX (Irix)
Oracle, Sybase,
Informix.
30
Sistemas
Sistemas
Ms software comercial DM:
EJEMPLO: Clementine (Integral Solutions Limited (ISL))

www.spss.com
http://www.kdcentral.com/Software/Data_Mining/
http://www.the-data-mine.com/bin/veiw/Software/WebIndex
Algunos Prototipos No Comerciales o Gratuitos:

Kepler: sistema de plug-ins del GMD
(http://ais.gmd.de/KD/kepler.html).
Rproject: herramienta gratuita de anlisis estadstico
(http://www.R-project.org/)
Libreras WEKA (http://www.cs.waikato.ac.nz/~ml/weka/) (Witten
& Frank 1999)
Herramienta que incluye:

fuentes de datos (ASCII, Oracle, Informix, Sybase e
Ingres).
interfaz visual.
distintas herramientas de minera de datos: redes
neuronales y reglas.
manipulacin de datos (pick & mix, combinacin y
separacin).
31
32
Sistemas
Sistemas
EJEMPLO: Clementine
EJEMPLO: Clementine. Ejemplo Prctico: Ensayo de Medicamentos
Ejemplo Prctico: Ensayo de Medicamentos

http://www.pcc.qub.ac.uk/tec/courses/datamining/ohp/dm-OHP-final_3.html
Un nmero de pacientes hospitalarios que sufren todos la misma

enfermedad se tratan con un abanico de medicamentos.
5 medicamentos diferentes estn disponibles y los pacientes han
respondido de manera diferente a los diferentes medicamentos.
Primer Paso: ACCEDIENDO LOS DATOS:

Se leen los datos. Por ejemplo de un fichero de texto con delimitadores.
Se nombran los campos:
age
sex
BP
Cholesterol
Na
K
drug
Problema:
qu medicamento es apropiado para un nuevo paciente?
33
edad
sexo
presin sangunea (High, Normal, Low)
colesterol (Normal, High)
concentracin de sodio en la sangre.
concentracin de potasio en la sangre.
medicamento al cual el paciente respondi
satisfactoriamente.
SE PUEDEN COMBINAR LOS DATOS:

P.ej. se puede aadir un nuevo atributo: Na/K
Sistemas
34
Sistemas
EJEMPLO: Clementine
EJEMPLO: Clementine
Segundo Paso: Familiarizacin con los Datos. Visualizamos los registros:
Permite seleccionar campos o filtrar los datos

Permite mostrar propiedades de los datos. Por ejemplo:
Qu proporcin de casos respondi a cada medicamento?
35
36
Sistemas
Sistemas
EJEMPLO: Clementine
EJEMPLO: Clementine
Permite encontrar relaciones. Por ejemplo:

La relacin entre sodio y potasio se muestra en un grfico de puntos.
Se puede observar a simple vista que los pacientes con alto cociente
Na/K responden mejor al medicamento Y.
Pero queremos una clasificacin para todos los medicamentos. Es decir,
nuestro problema original:
Cul es el mejor medicamento para cada paciente?
37
Se observa una dispersin aparentemente aleatoria (excepto para el medicamto
Y)
Tercer Paso: Construccin del Modelo

Tareas a realizar en Clementine:
Filtrar los campos no deseados.
Definir tipos para los campos.
Construir modelos (reglas y redes)
Sistemas
Sistemas
EJEMPLO: Clementine
EJEMPLO: Clementine
Se sigue este proceso en Clementine. Adems el sistema lo visualiza:
Permite examinar las reglas:
A partir de 2.000 ejemplos entrena la red y construye las reglas.
38
39
Las reglas extienden el mismo criterio que se haba descubierto

previamente: es decir, medicamento Y para los pacientes con alto cociente
40
Na/K. Pero adems aaden reglas para el resto.
Sistemas
Sistemas
EJEMPLO: SAS ENTERPRISE MINER (EM)
Herramienta completa. Incluye:
conexin a bases de datos (a travs de ODBC y SAS datasets).
muestreo e inclusin de variables derivadas.
particin de la evaluacin del modelo respecto a conjuntos de
entrenamiento, validacin y chequeo.
distintas herramientas de minera de datos: varios algoritmos y
tipos de rboles de decisin, redes neuronales, regresin y
clustering.
comparacin de modelos.
conversin de los modelos en cdigo SAS.
interfaz grfico.
Incluye herramientas para flujo de proceso: trata en el

proceso KDD como un proceso y las fases se pueden repetir,
41
modificar y grabar.
EJEMPLO:
SAS
ENTERPRISE
MINER (EM)
(flujo del
proceso KDD)
42
Sistemas
Sistemas
EJEMPLO:
Oracle: Herramientas Business Intelligence y Data Mining

http://www.oracle.com/ip/analyze/warehouse/bus_intell/index.html
Tienen una orientacin ms empresarial y de sistemas de informacin.

Herramientas de OLAP, Datawarehouse e Informes Avanzados:
SAS
ENTERPRISE
MINER (EM)
Seleccin
(assessment)
de modelos
Oracle Express Server.

Sales Analyzer and Financial Analyzer.
Oracle Express Objects and Oracle Express Analyzer.
Oracle Discoverer and Oracle Reports.
Herramientas propias de Minera de Datos:

Oracle Darwin.
http://www.oracle.com/ip/analyze/warehouse/datamining/index.html
43
Sistemas
44
Visualizacin
MS SQL SERVER: Analysis Services

Las tcnicas de visualizacin de datos se utilizan
fundamentalmente con dos objetivos:
OLAP Services de SQL Server 97 se ampli a partir de SQL

Server 2000 con caractersticas de DM en el llamado
Analysis Services.
aprovechar la gran capacidad humana de extraer

patrones a partir de imgenes.
Se fundamenta en el OLE DB for Data Mining: extensin

del protocolo de acceso a BB.DD. OLE DB.
Implementa una extensin del SQL que trabaja con DMM(
Data Mining Model) y permite:
1. Crear el modelo
2. Entrenar el modelo
3. Realizar predicciones
ayudar al usuario a comprender ms rpidamente

patrones descubiertos automticamente por un sistema
de KDD.
45
Visualizacin
46
Visualizacin
Estos dos objetivos marcan dos momentos diferentes del uso de la

visualizacin de los datos (no excluyentes):
visualizacin previa (tb. Visual Data Mining [Wong 1999]):
se utiliza para entender mejor los datos y sugerir posibles
patrones o qu tipo de herramienta de KDD utilizar.
visualizacin posterior al proceso de minera de datos: se
utiliza para mostrar los patrones y entenderlos mejor.
47
Tambin marcan dos tipos de usuarios diferentes de las tcnicas:

La visualizacin previa se utiliza frecuentemente por
picapedreros, para ver tendencias y resmenes de los datos,
y por exploradores, para ver filones que investigar.
La visualizacin posterior se utiliza frecuentemente para
validar y mostrar a los expertos los resultados del KDD.
las herramientas grficas requieren mayor experiencia para
seleccionar qu grfico nos interesa utilizar entre los cientos de
grficas que proporcionan los sistemas actuales.
48
Visualizacin
Visualizacin
Visualizacin Previa:
Ejemplo: segmentacin mediante funciones de densidad, generalmente

representadas tridimensionalmente.
Mayor problema: dimensionalidad > 3.
Los seres humanos ven claramente los segmentos (clusters) que aparecen con
distintos parmetros
Objetivo: conseguir proyectar las dimensiones

representacin en 2 ( 3 simuladas) dimensiones.
en
una
Solucin:
Uso de proyecciones geomtricas:
49
50
Visualizacin
Visualizacin
Visualizacin Previa: Proyecciones geomtricas:
Visualizacin Previa: Ejemplo:dimensionalidad...
tcnica de visualizacin de coordenadas paralelas [Inselberg & Dimsdale 1990].

Se mapea el espacio k-dimensional en dos dimensiones mediante el uso de k ejes
de ordenadas (escalados linealmente) por uno de abscisas. Cada punto en el
espacio k-dimensional se hace corresponder con una lnea poligonal (polgono
abierto), donde cada vrtice de la lnea poligonal intersecta los k ejes en el valor
para la dimensin.
Dados ciertos atributos de pacientes (tabaquismo, colesterol, tensin,

obesidad, alcoholismo, precedentes, estrs) y su riesgo (muy bajo,
bajo, medio, alto, muy alto) de enfermedades coronarias:
8,5
No
No
No
No
Med
Bajo
Med
No
No
No
No
Bajo
Bajo
Bajo
8,5
No
Med
Bajo
Med
No
No
No
Med
Bajo
No
No
No
Med
Med
11
No
No
No
No
Alto
60
Alto
Alto
13
No
No
M.A.
20
Serie1
Serie2
Serie3
Serie4
51
Visualizacin
Bajo
Bajo
No
No
No
No
M.B.
Bajo
Alto
12
M.A.
Alto
Med
11
No
No
No
Alto
Alto
Med
No
No
No
No
Med
Representacin por
coordenadas paralelas:
S13
S11
S9
S7
S5
Factores
S1
El mayor problema de estas representaciones (y de otras

52
muchas) es que no acomodan bien las variables discretas.
Visualizacin
Visualizacin Posterior:
Icnicas: Existen otro tipo de tcnicas que s permiten combinar

atributos continuos y discretos, mediante el uso de
transformaciones menos estndar y el uso de iconos.
Se utiliza para mostrar los patrones y entenderlos mejor.
Se utilizan rasgos compatibles y diferenciados para distintas

dimensiones, como son crculos, estrellas, puntos, etc., con
la ventaja de que se pueden combinar ms
convenientemente valores discretos y continuos.
Otros grficos de visualizacin posterior de patrones:
Otras aproximaciones ms sofisticadas se basan en estructuras

jerrquicas, como por ejemplo, los Cone Trees [Robertson et al.
1991].
53
Casos
S3
Rsg
Bajo
Alcl.
Bajo
Alto
Prcd.
Alto
No
Strss
No
No
Obsd.
No
Tbco.
Alto
40
No
Med
100
Med
80
tcnica radial (igual que la anterior pero

los ejes se ponen circularmente)
Alto
Bajo
Clstrl.
Cuando hay muchos datos se utiliza una tercera dimensin para los casos.
Rsg
Med
Tnsn.
Cuando hay pocos datos cada lnea se dibuja de un color.
Tbco. Clstrl Tnsn Obsd Alcl Prcd Strs
Un rbol de decisin es un ejemplo de visualizacin

posterior.
muestran una determinada segmentacin de los datos,
una asociacin, una determinada clasificacin.
utilizan para ello grficos de visualizacin previa en los
que adems se seala el patrn.
permiten evaluar grficamente la calidad del modelo.
54
Visualizacin
Visualizacin
EJEMPLO: se muestra una segmentacin lineal para el corte del

ejemplo anterior:
EJEMPLO:
se muestra el grado de asociacin

segn la lnea que conecta los
valores (continua gruesa, continua,
discontinua o inexistente):
55
56
Visualizacin
Visualizacin
Posterior:
EJEMPLO:
representacin de
ganancias acumulativas
de un rbol de decisin:
lift = arcsen No/Total
El rbol ptimo sera as:
A
max
57
10

Mineria

Diunggah oleh

Informasi Dokumen

Judul Asli

Hak Cipta

Format Tersedia

Bagikan dokumen Ini

Bagikan atau Tanam Dokumen

Opsi Berbagi

Apakah menurut Anda dokumen ini bermanfaat?

Apakah konten ini tidak pantas?

Hak Cipta:

Format Tersedia

Mineria

Diunggah oleh

Hak Cipta:

Format Tersedia

Fases y Tcnicas del KDD

Las distintas tcnicas de distintas disciplinas se utilizan en distintas fases:

3.2. El Proceso de KDD

Fases del KDD: Recogida de Datos

Fases del KDD: Recogida de Datos

El proceso subsiguiente de minera de datos:

en bases de datos y otras fuentes muy diversas,

Depende tambin del tipo de usuario:

Fases del KDD: Seleccin, Limpieza y

Fases del KDD: Recogida de Datos

Recogida de Informacin Externa:

Limpieza (data cleansing) y criba (seleccin) de datos:

Datos compartidos en una industria o rea de negocio,

Fases del KDD: Seleccin, Limpieza y

Fases del KDD: Seleccin, Limpieza y

Acciones ante datos anmalos (outliers):

Acciones ante datos faltantes (missing values):

ignorar: algunos algoritmos son robustos a datos anmalos (p.ej. rboles)

ignorar: algunos algoritmos son robustos a datos faltantes (p.ej. rboles).

filtrar (eliminar o reemplazar) la columna: solucin extrema, pero a veces existe

filtrar (eliminar o reemplazar) la columna: solucin extrema, pero a veces

reemplazar el valor: por el valor nulo si el algoritmo lo trata bien o por

reemplazar el valor: por medias. A veces se puede predecir a partir de otros

Fases del KDD: Seleccin, Limpieza y

Fases del KDD: Seleccin, Limpieza y

Razones sobre datos faltantes (missing values):

Transformacin del Esquema:

Tabla Universal: Cualquier Esquema Relacional se puede

Desnormalizado Tipo Estrella o Copo de Nieve (datamarts):

Fases del KDD: Seleccin, Limpieza y

Fases del KDD: Seleccin, Limpieza y

Intercambio de Dimensiones: (filas por columnas)

Intercambio de Dimensiones: EJEMPLO

Productos slo hay unos 10.000.

Fases del KDD: Seleccin, Limpieza y

Ventajas: Se reduce espacio. Ej: apellido entero. Se pueden

Ventajas: Se reduce espacio. Ej. 0..10 (pequeo, mediano,

Fases del KDD: La Minera de Datos

Fases del KDD: La Minera de Datos

Fases del KDD: Evaluacin y Validacin

Una vez recogidos los datos de inters, un explorador puede decidir qu

Para seleccionar y validar estos modelos es necesario el uso de

El tipo de conocimiento que se desea extraer va a marcar claramente la

Segn como sea la bsqueda del conocimiento se puede distinguir entre:

Fases del KDD: Interpretacin y Difusin

1 Fase: Comprobacin de la precisin del modelo en un

Fases del KDD: Actualizacin y Monitorizacin

El despliegue del modelo a veces a veces es trivial pero otras

Los procesos derivan en un mantenimiento:

El modelo puede requerir implementacin (p.ej. tiempo real

Actualizacin: Un modelo vlido puede dejar de serlo: cambio

El modelo es descriptivo y requiere interpretacin (p.ej. una

Monitorizacin: Consiste en ir revalidando el modelo con cierta

Tipologa de Tcnicas de Minera de Datos

Tipologa de Tcnicas de Minera de Datos

Un modelo descriptivo proporciona informacin sobre las relaciones

Ejemplo de Modelo Predictivo:

Tipologa de Tcnicas de Minera de Datos

Tipologa de Tcnicas de Minera de Datos

Tipologa de Tcnicas de Minera de Datos

Tipologa de Tcnicas de Minera de Datos

Pasamos estos ejemplos a un algoritmo de clustering K-meams.

Queremos categorizar nuestros empleados.