Anda di halaman 1dari 10

Fases y Tcnicas del KDD

Las distintas tcnicas de distintas disciplinas se utilizan en distintas fases:

3.2. El Proceso de KDD

Fases del KDD: Recogida de Datos

Fases del KDD: Recogida de Datos


Las primeras fases del KDD determinan que las fases sucesivas
sean capaces de extraer conocimiento vlido y til a partir de la
informacin original.
Generalmente, la informacin que se quiere investigar sobre un
cierto dominio de la organizacin se encuentra:

El proceso subsiguiente de minera de datos:


Depende mucho de la fuente:
OLAP u OLTP.
Datawarehouse o copia con el esquema original.
ROLAP o MOLAP.

en bases de datos y otras fuentes muy diversas,


tanto internas como externas.
muchas de estas fuentes son las que se utilizan para el trabajo
transaccional.
El anlisis posterior ser mucho ms sencillo si la fuente es unificada,
accesible (interna) y desconectada del trabajo transaccional.
3

Depende tambin del tipo de usuario:


picapedreros (o granjeros): se dedican fundamentalmente
a realizar informes peridicos, ver la evolucin de
determinados parmetros, controlar valores anmalos, etc.
exploradores: encargados de encontrar nuevos patrones
4
significativos utilizando tcnicas de minera de datos.

Fases del KDD: Seleccin, Limpieza y

Fases del KDD: Recogida de Datos

Transformacin de Datos

Recogida de Informacin Externa:


Aparte de informacin interna de la organizacin, los almacenes
de datos pueden recoger informacin externa:
Demografas (censo), pginas amarillas, psicografas (perfiles
por zonas), uso de Internet, informacin de otras organizaciones.

Limpieza (data cleansing) y criba (seleccin) de datos:


Se deben elmininar el mayor nmero posible de datos errneos o
inconsistentes (limpieza) e irrelevantes (criba).
Mtodos estadsticos casi exclusivamente.
histogramas (deteccin de datos anmalos).
seleccin de datos (muestreo, ya sea verticalmente,
eliminando atributos, u horizontalmente, eliminando tuplas).
redefinicin de atributos (agrupacin o separacin).

Datos compartidos en una industria o rea de negocio,


organizaciones y colegios profesionales, catlogos, etc.
Datos resumidos de reas geogrficas, distribucin de la
competencia, evolucin de la economa, informacin de
calendarios y climatolgicas, programaciones televisivasdeportivas, catstofres,..
Bases de datos externas compradas a otras compaas.

Fases del KDD: Seleccin, Limpieza y

Fases del KDD: Seleccin, Limpieza y

Transformacin de Datos

Transformacin de Datos

Acciones ante datos anmalos (outliers):

Acciones ante datos faltantes (missing values):

ignorar: algunos algoritmos son robustos a datos anmalos (p.ej. rboles)

ignorar: algunos algoritmos son robustos a datos faltantes (p.ej. rboles).

filtrar (eliminar o reemplazar) la columna: solucin extrema, pero a veces existe


otra columna dependiente con datos de mayor calidad. Preferible a eliminar la
columna es reemplazarla por una columna discreta diciendo si el valor era normal
u outlier (por encima o por debajo).

filtrar (eliminar o reemplazar) la columna: solucin extrema, pero a veces


existe otra columna dependiente con datos de mayor calidad. Preferible a
eliminar la columna es reemplazarla por una columna booleana diciendo si el
valor exista o no.

filtrar la fila: puede sesgar los datos, porque muchas veces las causas de un dato
errneo estn relacionadas con casos o tipos especiales.

filtrar la fila: claramente sesga los datos, porque muchas veces las causas de
un dato faltante estn relacionadas con casos o tipos especiales.

reemplazar el valor: por el valor nulo si el algoritmo lo trata bien o por


mximos o mnimos, dependiendo por donde es el outlier, o por medias. A veces
se puede predecir a partir de otros datos, utilizando cualquier tcnica de ML.

reemplazar el valor: por medias. A veces se puede predecir a partir de otros


datos, utilizando cualquier tcnica de ML.

discretizar: transformar un valor continuo en uno discreto (p.ej. muy alto, alto,
medio, bajo, muy bajo) hace que los outliers caigan en muy alto o muy bajo
sin mayores problemas.
7

segmentar: se segmentan las tuplas por los valores que tienen disponibles. Se
obtienen modelos diferentes para cada segmento y luego se combinan.
modificar la poltica de calidad de datos y esperar hasta que los datos faltantes
8
estn disponibles.

Fases del KDD: Seleccin, Limpieza y

Fases del KDD: Seleccin, Limpieza y

Transformacin de Datos

Transformacin de Datos

Razones sobre datos faltantes (missing values):


A veces es importante examinar las razones tras datos faltantes y
actuar en consecuencia:
algunos valores faltantes expresan caractersticas relevantes: p.ej. la
falta de telfono puede representar en muchos casos un deseo de que
no se moleste a la persona en cuestin, o un cambio de domicilio
reciente.
valores no existentes: muchos valores faltantes existen en la realidad,
pero otros no. P.ej. el cliente que se acaba de dar de alta no tiene
consumo medio de los ltimos 12 meses.
datos incompletos: si los datos vienen de fuentes diferentes, al
combinarlos se suele hacer la unin y no la interseccin de campos,
con lo que muchos datos faltantes representan que esas tuplas vienen
de una/s fuente/s diferente/s al resto.
9

Transformacin del Esquema:


Esquema Original:
Ventajas: Las R.I. se mantienen (no hay que reaprenderlas, no despistan)
Inconvenientes: Muchas tcnicas no se pueden utilizar.

Tabla Universal: Cualquier Esquema Relacional se puede


convertir (en una correspondencia 1 a 1) a una tabla universal.
Ventajas: Modelos de aprendizaje ms simples (proposicionales).
Desventajas: Muchsima Redundancia (tamaos ingentes). La
informacin del esquema se pierde. Muchas dependencias funcionales se
vuelven a re-descubrir!! Se debe aadir metainformacin.

Desnormalizado Tipo Estrella o Copo de Nieve (datamarts):


Ventajas: Se pueden buscar reglas sobre informacin sumarizada y si
resultan factibles se pueden comprobar con la informacin detallada.
Con operadores propios: Roll-up, Drill-down, Slicing and Dicing.
Desventajas: Orientadas a extraer un tipo de informacin (granjeros).

10

Fases del KDD: Seleccin, Limpieza y

Fases del KDD: Seleccin, Limpieza y

Transformacin de Datos

Transformacin de Datos

Intercambio de Dimensiones: (filas por columnas)


EJEMPLO:
Una tabla de cestas de la compra, donde cada atributo indica si
el producto se ha comprado o no.
Objetivo: Ver si dos productos se compran conjuntamente
(regla de asociacin).
Es muy costoso: hay que mirar al menos la raz cuadrada de
todas las relaciones (cestas).
Y puede haber millones en una semana...

Intercambio de Dimensiones: EJEMPLO


Si se intercambian filas por columnas tenemos:
Jabn
Huevos
Patatas Fritas
Champ
Jabn + Champ
Huevos + Patatas

Sin embargo...

B1
X

B2

B3
X

X
X
X

B4

B5

B6

...

X
X
X

Slo es necesario hace XOR entre dos filas para saber si hay
asociacin.

Productos slo hay unos 10.000.


11

12

Fases del KDD: Seleccin, Limpieza y


Transformacin de Datos
Transformacin de los Campos:
Numerizacin / Etiquetado

Ventajas: Se reduce espacio. Ej: apellido entero. Se pueden


utilizar tcnicas ms simples.
Desventajas: Se necesita meta-informacin para distinguir los
datos inicialmente no numricos (la cantidad no es relevante) de
los inicialmente numricos (la cantidad es relevante: precios,
unidades, etc.)
A veces se puede sesgar el modelo (biasing).

Discretizacin:

Ventajas: Se reduce espacio. Ej. 0..10 (pequeo, mediano,


grande). Se pueden utilizar rboles de decisin y construir reglas
discretas.
Desventajas: Una mala discretizacin puede invalidar los
13
resultados.

Fases del KDD: La Minera de Datos


Patrones a descubrir:

Fases del KDD: La Minera de Datos


Caractersticas Especiales de los Datos:
Aparte del gran volumen, por qu las tcnicas de aprendizaje
automtico y estadstica no son directamente aplicables?
Los datos residen en el disco. No se pueden escanear
mltiples veces.
Algunas tcnicas de muestreo no son compatibles con
algoritmos no incrementales.
Muy alta dimensionalidad (muchos campos).
Evidencia POSITIVA.
DATOS IMPERFECTOS...
Aunque algunos se aplican casi directamente, el inters en la
investigacin en minera de datos est en su adaptacin.

14

Fases del KDD: Evaluacin y Validacin


La fase anterior produce una o ms hiptesis de modelos.

Una vez recogidos los datos de inters, un explorador puede decidir qu


tipo de patrn quiere descubrir.

Para seleccionar y validar estos modelos es necesario el uso de


criterios de evaluacin de hiptesis.

El tipo de conocimiento que se desea extraer va a marcar claramente la


tcnica de minera de datos a utilizar.

Por ejemplo:

Segn como sea la bsqueda del conocimiento se puede distinguir entre:


Directed data mining: se sabe claramente lo que se busca,
generalmente predecir unos ciertos datos o clases.
Undirected data mining: no se sabe lo que se busca, se trabaja con
los datos (hasta que confiesen!).
En el primer caso, algunos sistemas de minera de datos se encargan
generalmente de elegir el algoritmo ms idneo entre los disponibles
15
para un determinado tipo de patrn a buscar.

Fases del KDD: Interpretacin y Difusin

1 Fase: Comprobacin de la precisin del modelo en un


banco de ejemplos independiente del que se ha utilizado
para aprender el modelo. Se puede elegir el mejor modelo.
2 Fase: Se puede realizar una experiencia piloto con ese
modelo. Por ejemplo, si el modelo encontrado se quera
utilizar para predecir la respuesta de los clientes a un nuevo
producto, se puede enviar un mailing a un subconjunto de
clientes y evaluar la fiabilidad del modelo.

16

Fases del KDD: Actualizacin y Monitorizacin

El despliegue del modelo a veces a veces es trivial pero otras


veces requiere un proceso de implementacin o interpretacin:

Los procesos derivan en un mantenimiento:

El modelo puede requerir implementacin (p.ej. tiempo real


deteccin de tarjetas fraudulentas).

Actualizacin: Un modelo vlido puede dejar de serlo: cambio


de contexto (econmicos, competencia, fuentes de datos, etc.).

El modelo es descriptivo y requiere interpretacin (p.ej. una


caracterizacin de zonas geogrficas segn la distribucin de
los productos vendidos).
El modelo puede tener muchos usuarios y necesita difusin: el
modelo puede requerir ser expresado de una manera
comprensible para ser distribuido en la organizacin (p.ej. las
cervezas y los productos congelados se compran
frecuentemente en conjunto ponerlos en estantes distantes).
17

Monitorizacin: Consiste en ir revalidando el modelo con cierta


frecuencia sobre nuevos datos, con el objetivo de detectar si el
modelo requiere una actualizacin.
Producen realimentaciones en el proceso KDD.
18

Tipologa de Tcnicas de Minera de Datos

Tipologa de Tcnicas de Minera de Datos


Las tcnicas de minera de datos crean modelos que son predictivos
y/o descriptivos.
Un modelo predictivo responde preguntas sobre datos futuros.
Cules sern las ventas el ao prximo?
Es esta transaccin fraudulenta?
Qu tipo de seguro es ms probable que contrate el cliente X?

Un modelo descriptivo proporciona informacin sobre las relaciones


entre los datos y sus caractersticas. Genera informacin del tipo:
Los clientes que compran paales suelen comprar cerveza.
El tabaco y el alcohol son los factores ms importantes en la enfermedad Y.
Los clientes sin televisin y con bicicleta tienen caractersticas muy
diferenciadas del resto.
19

Ejemplo de Modelo Predictivo:


Queremos saber si jugar o no jugar esta tarde al tenis.
Hemos recogido datos de experiencias anteriores:
Example
1
2
3
4
5
6
7
8
9
10
11
12
13
14

Tipologa de Tcnicas de Minera de Datos


Ejemplo de Modelo Predictivo:

High
NO

Rain

Overcast

Wind?

YES
Normal
YES

Strong
NO

Weak
YES

Ahora podemos utilizar este modelo para predecir si esta tarde jugamos
o no al tenis. P.ej., la instancia:
(Outlook = sunny, Temperature = hot, Humidity = high, Wind = strong)

es NO.

21

Tipologa de Tcnicas de Minera de Datos


Ejemplo de Modelo Descriptivo:

Wind
Weak
Strong
Weak
Weak
Weak
Strong
Strong
Weak
Weak
Weak
Strong
Strong
Weak
Strong

PlayTennis
No
No
Yes
Yes
Yes
No
Yes
No
Yes
Yes
Yes
Yes
Yes
No

20

Tipologa de Tcnicas de Minera de Datos

cluster 2: 4 examples
Sueldo : 22500
Casado : No -> 1.0
Coche :
S -> 1.0
Hijos : 0
Alq/Prop : Alquiler -> 0.75
Prop -> 0.25
Sindic. :
S -> 1.0
Bajas/Ao : 2
Antigedad : 8
Sexo :
H -> 0.25
M -> 0.75

#Ej
1
2
3
4
5
6
7
8
9
10
11
12
13
14
15

Sueldo
10000
20000
15000
30000
10000
40000
25000
20000
20000
30000
50000
8000
20000
10000
8000

Casado
S
No
S
S
S
No
No
No
S
S
No
S
No
No
No

Coche
No
S
S
S
S
S
No
S
S
S
No
S
No
S
S

Hijos
0
1
2
1
0
0
0
0
3
2
0
2
0
0
0

Alq/Prop
Alquiler
Alquiler
Prop
Alquiler
Prop
Alquiler
Alquiler
Prop
Prop
Prop
Alquiler
Prop
Alquiler
Alquiler
Alquiler

Sindic.
No
S
S
No
S
S
S
S
No
No
No
No
No
S
No

Bajas/Ao
7
3
5
15
1
3
0
2
7
1
2
3
27
0
3

Antigedad
15
3
10
7
6
16
8
6
5
20
12
1
5
7
2

Sexo
H
M
H
M
H
M
H
M
H
H
M
H
M
H
22
H

Tipologa de Tcnicas de Minera de Datos


Tipos de conocimiento:

Pasamos estos ejemplos a un algoritmo de clustering K-meams.


Se crean tres clusters, con la siguiente descripcin:
cluster 1: 5 examples
Sueldo : 22600
Casado : No -> 0.8
S -> 0.2
Coche : No -> 0.8
S -> 0.2
Hijos : 0
Alq/Prop : Alquiler -> 1.0
Sindic. : No -> 0.8
S -> 0.2
Bajas/Ao : 8
Antigedad : 8
Sexo :
H -> 0.6
M -> 0.4

Humidity
High
High
High
High
Normal
Normal
Normal
High
Normal
Normal
Normal
High
Normal
High

Queremos categorizar nuestros empleados.


Tenemos estos datos de los empleados:

Outlook?

Humidity?

Temperature
Hot
Hot
Hot
Mild
Cool
Cool
Cool
Mild
Cool
Mild
Mild
Mild
Hot
Mild

Ejemplo de Modelo Descriptivo:

Pasamos estos ejemplos a un algoritmo de aprendizaje de rboles de


decisin, sealando el atributo PlayTennis como la clase (output).
El resultado del algoritmo es el siguiente modelo:

Sunny

Sky
Sunny
Sunny
Overcast
Rain
Rain
Rain
Overcast
Sunny
Sunny
Rain
Sunny
Overcast
Overcast
Rain

cluster 3: 6 examples
Sueldo : 18833
Casado : S -> 1.0
Coche : S -> 1.0
Hijos : 2
Alq/Prop : Alquiler -> 0.17
Prop -> 0.83
Sindic. :
No -> 0.67
S -> 0.33
Bajas/Ao : 5
Antigedad : 8
Sexo : H -> 0.83
M -> 0.17

GRUPO 1: Sin hijos y de alquiler. Poco sindicados. Muchas bajas.


GRUPO 2: Sin hijos y con coche. Muy sindicados. Pocas bajas. Normalmente de alquiler y mujeres.
GRUPO 3: Con hijos, casados y con coche. Propietarios. Poco sindicados. Hombres.

23

Asociaciones: Una asociacin entre dos atributos ocurre cuando la


frecuencia de que se den dos valores determinados de cada uno
conjuntamente es relativamente alta.
Ejemplo, en un supermercado se analiza si los paales y los potitos de
beb se compran conjuntamente.
Dependencias: Una dependencia funcional (aproximada o absoluta) es un
patrn en el que se establece que uno o ms atributos determinan el valor de
otro. Ojo! Existen muchas dependencias nada interesantes (causalidades
inversas).
Ejemplo: que un paciente haya sido ingresado en maternidad determina
su sexo.
La bsqueda de asociaciones y dependencias se conoce a veces como anlisis
exploratorio.
24

Tipologa de Tcnicas de Minera de Datos

Tipologa de Tcnicas de Minera de Datos


Tipos de conocimiento (cont.):

Tipos de conocimiento (cont.):

Clasificacin: Una clasificacin se puede ver como el esclarecimiento de


una dependencia, en la que el atributo dependiente puede tomar un valor
entre varias clases, ya conocidas.
Ejemplo: se sabe (por un estudio de dependencias) que los atributos
edad, nmero de miopas y astigmatismo han determinado los pacientes
para los que su operacin de ciruga ocular ha sido satisfactoria.

Tendencias/Regresin: El objetivo es predecir los valores de una variable


continua a partir de la evolucin sobre otra variable continua, generalmente
el tiempo.
Ejemplo, se intenta predecir el nmero de clientes o pacientes, los
ingresos, llamadas, ganancias, costes, etc. a partir de los resultados de
semanas, meses o aos anteriores.

Podemos intentar determinar las reglas exactas que clasifican un


caso como positivo o negativo a partir de esos atributos.
Agrupamiento / Segmentacin: El agrupamiento (o clustering) es la
deteccin de grupos de individuos. Se diferencia de la clasificacin en el
que no se conocen ni las clases ni su nmero (aprendizaje no supervisado),
con lo que el objetivo es determinar grupos o racimos (clusters)
diferenciados del resto.
25

Informacin del Esquema: (descubrir claves primarias alternativas, R.I.).


Reglas Generales: patrones no se ajustan a los tipos anteriores.
Recientemente los sistemas incorporan capacidad para establecer otros
26
patrones ms generales.

Taxonoma Tcnicas de Minera de Datos.


Data Mining
Verification Driven DM
SQL

SQL
SQL Generator
Generator

Source: http://www.crm-forum.com
and Jae Kyu Lee

Discovery
Discovery Driven
Driven DM
DM
Description

Query Tools
OLAP
OLAP

Sistemas

Visualization
Visualization

Prediction
Prediction

Classification

Clustering
Association
Sequential Association
Distillation
Distillation

Statistical
Statistical
Regression
Regression

Decision Tree
Tree
Rule Induction
Neural Network
Network
Elder Research,
www.dataminglab.com

27

Sistemas

28

Sistemas

Tipos de Sistemas:
Standalone: Los datos se deben exportar/convertir al
formato interno del sistema de data mining: Knowledge
Seeker IV (Angoss International Limited, Groupe Bull).

Producto
Knowledge Seeker
CART
Clementine
Data Surveyor

On-top: pueden funcionar sobre un sistema propietario


(Clementine sobre ODBC, microstrategy sobre Oracle).

GainSmarts

Embedded (propietarios): Oracle Discoverer, Oracle


Darwin, IBM...

Microstrategy

Intelligent Miner

Polyanalyst

Extensible (Tecnologa Plug-ins): proporcionan unas


herramientas mnimas de interfaz con los datos, estadsticas
y visualizacin, y los algoritmos de aprendizaje se pueden
ir aadiendo con plug-ins. (ej. KEPLER).
29

Darwin
Enterprise Miner
SGI MineSet
Wizsoft/Wizwhy

Compaa
Angoss
http://www.angoss.com/
Salford Systems
www.salford-systems.com
SPSS/Integral Solutions Limited (ISL)
www.spss.com
Data Distilleries
http://www.datadistilleries.com/
Urban Science
www.urbanscience.com

Tcnicas
Decision Trees, Statistics

Plataformas
Win NT

Decision Trees

UNIX/NT

Decision Trees, ANN, Statistics, Rule Induction,


Association Rules, K Means, Linear Regression.
Amplio Abanico.

UNIX/NT

ODBC

UNIX

ODBC

Especializado en grficos de ganancias en campaas


de clientes (slo Decision Trees, Linear Statistics y
Logistic Regression).
Decision Trees, Association Rules, ANN, RBF, Time
IBM
http://www.ibm.com/software/data/iminer Series, K Means, Linear Regression.
Microstrategy
Datawarehouse slo
www.microstrategy.com
Megaputer
Symbolic, Evolutionary
http://www.megaputer.com/html/polyanal
yst4.0.html
Oracle
Amplio Abanico (Decision Trees, ANN, Nearest
http://www.oracle.com/ip/analyze/wareho Neighbour)
use/datamining/index.html
SAS
Decision Trees, Association rules, ANN, regression,
http://www.sas.com/software/components clustering.
/miner.html
Silicon Graphics
association rules and classification models, used for
http://www.sgi.com/software/mineset/
prediction, scoring, segmentation, and profiling
http://www.wizsoft.com/

Interfaz
ODBC

UNIX/NT
UNIX (AIX)

IBM, DB2

Win NT

Oracle

Win NT

Oracle, ODBC

UNIX/NT

Oracle

UNIX (Sun),
NT, Mac

Oracle, ODBC

UNIX (Irix)

Oracle, Sybase,
Informix.

30

Sistemas

Sistemas

Ms software comercial DM:

EJEMPLO: Clementine (Integral Solutions Limited (ISL))


www.spss.com

http://www.kdcentral.com/Software/Data_Mining/
http://www.the-data-mine.com/bin/veiw/Software/WebIndex

Algunos Prototipos No Comerciales o Gratuitos:


Kepler: sistema de plug-ins del GMD
(http://ais.gmd.de/KD/kepler.html).
Rproject: herramienta gratuita de anlisis estadstico
(http://www.R-project.org/)
Libreras WEKA (http://www.cs.waikato.ac.nz/~ml/weka/) (Witten
& Frank 1999)

Herramienta que incluye:


fuentes de datos (ASCII, Oracle, Informix, Sybase e
Ingres).
interfaz visual.
distintas herramientas de minera de datos: redes
neuronales y reglas.
manipulacin de datos (pick & mix, combinacin y
separacin).

31

32

Sistemas

Sistemas

EJEMPLO: Clementine

EJEMPLO: Clementine. Ejemplo Prctico: Ensayo de Medicamentos

Ejemplo Prctico: Ensayo de Medicamentos


http://www.pcc.qub.ac.uk/tec/courses/datamining/ohp/dm-OHP-final_3.html

Un nmero de pacientes hospitalarios que sufren todos la misma


enfermedad se tratan con un abanico de medicamentos.
5 medicamentos diferentes estn disponibles y los pacientes han
respondido de manera diferente a los diferentes medicamentos.

Primer Paso: ACCEDIENDO LOS DATOS:


Se leen los datos. Por ejemplo de un fichero de texto con delimitadores.
Se nombran los campos:
age
sex
BP
Cholesterol
Na
K
drug

Problema:
qu medicamento es apropiado para un nuevo paciente?

33

edad
sexo
presin sangunea (High, Normal, Low)
colesterol (Normal, High)
concentracin de sodio en la sangre.
concentracin de potasio en la sangre.
medicamento al cual el paciente respondi
satisfactoriamente.

SE PUEDEN COMBINAR LOS DATOS:


P.ej. se puede aadir un nuevo atributo: Na/K

Sistemas

34

Sistemas

EJEMPLO: Clementine

EJEMPLO: Clementine

Segundo Paso: Familiarizacin con los Datos. Visualizamos los registros:

Permite seleccionar campos o filtrar los datos


Permite mostrar propiedades de los datos. Por ejemplo:
Qu proporcin de casos respondi a cada medicamento?

35

36

Sistemas

Sistemas
EJEMPLO: Clementine

EJEMPLO: Clementine

Permite encontrar relaciones. Por ejemplo:


La relacin entre sodio y potasio se muestra en un grfico de puntos.

Se puede observar a simple vista que los pacientes con alto cociente
Na/K responden mejor al medicamento Y.
Pero queremos una clasificacin para todos los medicamentos. Es decir,
nuestro problema original:
Cul es el mejor medicamento para cada paciente?

37
Se observa una dispersin aparentemente aleatoria (excepto para el medicamto
Y)

Tercer Paso: Construccin del Modelo


Tareas a realizar en Clementine:
Filtrar los campos no deseados.
Definir tipos para los campos.
Construir modelos (reglas y redes)

Sistemas

Sistemas
EJEMPLO: Clementine

EJEMPLO: Clementine

Se sigue este proceso en Clementine. Adems el sistema lo visualiza:

Permite examinar las reglas:

A partir de 2.000 ejemplos entrena la red y construye las reglas.

38

39

Las reglas extienden el mismo criterio que se haba descubierto


previamente: es decir, medicamento Y para los pacientes con alto cociente
40
Na/K. Pero adems aaden reglas para el resto.

Sistemas

Sistemas
EJEMPLO: SAS ENTERPRISE MINER (EM)
Herramienta completa. Incluye:
conexin a bases de datos (a travs de ODBC y SAS datasets).
muestreo e inclusin de variables derivadas.
particin de la evaluacin del modelo respecto a conjuntos de
entrenamiento, validacin y chequeo.
distintas herramientas de minera de datos: varios algoritmos y
tipos de rboles de decisin, redes neuronales, regresin y
clustering.
comparacin de modelos.
conversin de los modelos en cdigo SAS.
interfaz grfico.

Incluye herramientas para flujo de proceso: trata en el


proceso KDD como un proceso y las fases se pueden repetir,
41
modificar y grabar.

EJEMPLO:

SAS
ENTERPRISE
MINER (EM)
(flujo del
proceso KDD)

42

Sistemas

Sistemas
EJEMPLO:

Oracle: Herramientas Business Intelligence y Data Mining


http://www.oracle.com/ip/analyze/warehouse/bus_intell/index.html

Tienen una orientacin ms empresarial y de sistemas de informacin.


Herramientas de OLAP, Datawarehouse e Informes Avanzados:
SAS
ENTERPRISE
MINER (EM)

Seleccin
(assessment)
de modelos

Oracle Express Server.


Sales Analyzer and Financial Analyzer.
Oracle Express Objects and Oracle Express Analyzer.
Oracle Discoverer and Oracle Reports.

Herramientas propias de Minera de Datos:


Oracle Darwin.
http://www.oracle.com/ip/analyze/warehouse/datamining/index.html
43

Sistemas

44

Visualizacin

MS SQL SERVER: Analysis Services


Las tcnicas de visualizacin de datos se utilizan
fundamentalmente con dos objetivos:

OLAP Services de SQL Server 97 se ampli a partir de SQL


Server 2000 con caractersticas de DM en el llamado
Analysis Services.

aprovechar la gran capacidad humana de extraer


patrones a partir de imgenes.

Se fundamenta en el OLE DB for Data Mining: extensin


del protocolo de acceso a BB.DD. OLE DB.
Implementa una extensin del SQL que trabaja con DMM(
Data Mining Model) y permite:
1. Crear el modelo
2. Entrenar el modelo
3. Realizar predicciones

ayudar al usuario a comprender ms rpidamente


patrones descubiertos automticamente por un sistema
de KDD.

45

Visualizacin

46

Visualizacin

Estos dos objetivos marcan dos momentos diferentes del uso de la


visualizacin de los datos (no excluyentes):
visualizacin previa (tb. Visual Data Mining [Wong 1999]):
se utiliza para entender mejor los datos y sugerir posibles
patrones o qu tipo de herramienta de KDD utilizar.
visualizacin posterior al proceso de minera de datos: se
utiliza para mostrar los patrones y entenderlos mejor.
47

Tambin marcan dos tipos de usuarios diferentes de las tcnicas:


La visualizacin previa se utiliza frecuentemente por
picapedreros, para ver tendencias y resmenes de los datos,
y por exploradores, para ver filones que investigar.
La visualizacin posterior se utiliza frecuentemente para
validar y mostrar a los expertos los resultados del KDD.
las herramientas grficas requieren mayor experiencia para
seleccionar qu grfico nos interesa utilizar entre los cientos de
grficas que proporcionan los sistemas actuales.

48

Visualizacin

Visualizacin
Visualizacin Previa:

Visualizacin Previa:

Ejemplo: segmentacin mediante funciones de densidad, generalmente


representadas tridimensionalmente.

Mayor problema: dimensionalidad > 3.

Los seres humanos ven claramente los segmentos (clusters) que aparecen con
distintos parmetros

Objetivo: conseguir proyectar las dimensiones


representacin en 2 ( 3 simuladas) dimensiones.

en

una

Solucin:
Uso de proyecciones geomtricas:

49

50

Visualizacin

Visualizacin
Visualizacin Previa: Proyecciones geomtricas:

Visualizacin Previa: Ejemplo:dimensionalidad...

tcnica de visualizacin de coordenadas paralelas [Inselberg & Dimsdale 1990].


Se mapea el espacio k-dimensional en dos dimensiones mediante el uso de k ejes
de ordenadas (escalados linealmente) por uno de abscisas. Cada punto en el
espacio k-dimensional se hace corresponder con una lnea poligonal (polgono
abierto), donde cada vrtice de la lnea poligonal intersecta los k ejes en el valor
para la dimensin.

Dados ciertos atributos de pacientes (tabaquismo, colesterol, tensin,


obesidad, alcoholismo, precedentes, estrs) y su riesgo (muy bajo,
bajo, medio, alto, muy alto) de enfermedades coronarias:

8,5

No

No

No

No

Med

Bajo

Med

No

No

No

No

Bajo

Bajo

Bajo

8,5

No

Med

Bajo

Med

No

No

No

Med

Bajo

No

No

No

Med

Med

11

No

No

No

No

Alto

60

Alto

Alto

13

No

No

M.A.

20

Serie1
Serie2

Serie3
Serie4

51

Visualizacin
Visualizacin Previa:

Bajo

Bajo

No

No

No

No

M.B.

Bajo

Alto

12

M.A.

Alto

Med

11

No

No

No

Alto

Alto

Med

No

No

No

No

Med

Representacin por
coordenadas paralelas:

S13
S11
S9
S7
S5

Factores

S1

El mayor problema de estas representaciones (y de otras


52
muchas) es que no acomodan bien las variables discretas.

Visualizacin
Visualizacin Posterior:

Icnicas: Existen otro tipo de tcnicas que s permiten combinar


atributos continuos y discretos, mediante el uso de
transformaciones menos estndar y el uso de iconos.

Se utiliza para mostrar los patrones y entenderlos mejor.

Se utilizan rasgos compatibles y diferenciados para distintas


dimensiones, como son crculos, estrellas, puntos, etc., con
la ventaja de que se pueden combinar ms
convenientemente valores discretos y continuos.

Otros grficos de visualizacin posterior de patrones:

Otras aproximaciones ms sofisticadas se basan en estructuras


jerrquicas, como por ejemplo, los Cone Trees [Robertson et al.
1991].
53

Casos

S3

Rsg

Bajo

Alcl.

Bajo

Alto

Prcd.

Alto

No

Strss

No

No

Obsd.

No

Tbco.

Alto

40

No

Med

100

Med

80

tcnica radial (igual que la anterior pero


los ejes se ponen circularmente)

Alto

Bajo

Clstrl.

Cuando hay muchos datos se utiliza una tercera dimensin para los casos.

Rsg

Med

Tnsn.

Cuando hay pocos datos cada lnea se dibuja de un color.

Tbco. Clstrl Tnsn Obsd Alcl Prcd Strs

Un rbol de decisin es un ejemplo de visualizacin


posterior.
muestran una determinada segmentacin de los datos,
una asociacin, una determinada clasificacin.
utilizan para ello grficos de visualizacin previa en los
que adems se seala el patrn.
permiten evaluar grficamente la calidad del modelo.
54

Visualizacin

Visualizacin

Visualizacin Posterior:

Visualizacin Posterior:

EJEMPLO: se muestra una segmentacin lineal para el corte del


ejemplo anterior:

EJEMPLO:

se muestra el grado de asociacin


segn la lnea que conecta los
valores (continua gruesa, continua,
discontinua o inexistente):

55

56

Visualizacin
Visualizacin
Posterior:
EJEMPLO:

representacin de
ganancias acumulativas
de un rbol de decisin:
lift = arcsen No/Total
El rbol ptimo sera as:
A
max

57

10

Anda mungkin juga menyukai