Transformacin de Datos
Transformacin de Datos
Transformacin de Datos
filtrar la fila: puede sesgar los datos, porque muchas veces las causas de un dato
errneo estn relacionadas con casos o tipos especiales.
filtrar la fila: claramente sesga los datos, porque muchas veces las causas de
un dato faltante estn relacionadas con casos o tipos especiales.
discretizar: transformar un valor continuo en uno discreto (p.ej. muy alto, alto,
medio, bajo, muy bajo) hace que los outliers caigan en muy alto o muy bajo
sin mayores problemas.
7
segmentar: se segmentan las tuplas por los valores que tienen disponibles. Se
obtienen modelos diferentes para cada segmento y luego se combinan.
modificar la poltica de calidad de datos y esperar hasta que los datos faltantes
8
estn disponibles.
Transformacin de Datos
Transformacin de Datos
10
Transformacin de Datos
Transformacin de Datos
Sin embargo...
B1
X
B2
B3
X
X
X
X
B4
B5
B6
...
X
X
X
Slo es necesario hace XOR entre dos filas para saber si hay
asociacin.
12
Discretizacin:
14
Por ejemplo:
16
High
NO
Rain
Overcast
Wind?
YES
Normal
YES
Strong
NO
Weak
YES
Ahora podemos utilizar este modelo para predecir si esta tarde jugamos
o no al tenis. P.ej., la instancia:
(Outlook = sunny, Temperature = hot, Humidity = high, Wind = strong)
es NO.
21
Wind
Weak
Strong
Weak
Weak
Weak
Strong
Strong
Weak
Weak
Weak
Strong
Strong
Weak
Strong
PlayTennis
No
No
Yes
Yes
Yes
No
Yes
No
Yes
Yes
Yes
Yes
Yes
No
20
cluster 2: 4 examples
Sueldo : 22500
Casado : No -> 1.0
Coche :
S -> 1.0
Hijos : 0
Alq/Prop : Alquiler -> 0.75
Prop -> 0.25
Sindic. :
S -> 1.0
Bajas/Ao : 2
Antigedad : 8
Sexo :
H -> 0.25
M -> 0.75
#Ej
1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
Sueldo
10000
20000
15000
30000
10000
40000
25000
20000
20000
30000
50000
8000
20000
10000
8000
Casado
S
No
S
S
S
No
No
No
S
S
No
S
No
No
No
Coche
No
S
S
S
S
S
No
S
S
S
No
S
No
S
S
Hijos
0
1
2
1
0
0
0
0
3
2
0
2
0
0
0
Alq/Prop
Alquiler
Alquiler
Prop
Alquiler
Prop
Alquiler
Alquiler
Prop
Prop
Prop
Alquiler
Prop
Alquiler
Alquiler
Alquiler
Sindic.
No
S
S
No
S
S
S
S
No
No
No
No
No
S
No
Bajas/Ao
7
3
5
15
1
3
0
2
7
1
2
3
27
0
3
Antigedad
15
3
10
7
6
16
8
6
5
20
12
1
5
7
2
Sexo
H
M
H
M
H
M
H
M
H
H
M
H
M
H
22
H
Humidity
High
High
High
High
Normal
Normal
Normal
High
Normal
Normal
Normal
High
Normal
High
Outlook?
Humidity?
Temperature
Hot
Hot
Hot
Mild
Cool
Cool
Cool
Mild
Cool
Mild
Mild
Mild
Hot
Mild
Sunny
Sky
Sunny
Sunny
Overcast
Rain
Rain
Rain
Overcast
Sunny
Sunny
Rain
Sunny
Overcast
Overcast
Rain
cluster 3: 6 examples
Sueldo : 18833
Casado : S -> 1.0
Coche : S -> 1.0
Hijos : 2
Alq/Prop : Alquiler -> 0.17
Prop -> 0.83
Sindic. :
No -> 0.67
S -> 0.33
Bajas/Ao : 5
Antigedad : 8
Sexo : H -> 0.83
M -> 0.17
23
SQL
SQL Generator
Generator
Source: http://www.crm-forum.com
and Jae Kyu Lee
Discovery
Discovery Driven
Driven DM
DM
Description
Query Tools
OLAP
OLAP
Sistemas
Visualization
Visualization
Prediction
Prediction
Classification
Clustering
Association
Sequential Association
Distillation
Distillation
Statistical
Statistical
Regression
Regression
Decision Tree
Tree
Rule Induction
Neural Network
Network
Elder Research,
www.dataminglab.com
27
Sistemas
28
Sistemas
Tipos de Sistemas:
Standalone: Los datos se deben exportar/convertir al
formato interno del sistema de data mining: Knowledge
Seeker IV (Angoss International Limited, Groupe Bull).
Producto
Knowledge Seeker
CART
Clementine
Data Surveyor
GainSmarts
Microstrategy
Intelligent Miner
Polyanalyst
Darwin
Enterprise Miner
SGI MineSet
Wizsoft/Wizwhy
Compaa
Angoss
http://www.angoss.com/
Salford Systems
www.salford-systems.com
SPSS/Integral Solutions Limited (ISL)
www.spss.com
Data Distilleries
http://www.datadistilleries.com/
Urban Science
www.urbanscience.com
Tcnicas
Decision Trees, Statistics
Plataformas
Win NT
Decision Trees
UNIX/NT
UNIX/NT
ODBC
UNIX
ODBC
Interfaz
ODBC
UNIX/NT
UNIX (AIX)
IBM, DB2
Win NT
Oracle
Win NT
Oracle, ODBC
UNIX/NT
Oracle
UNIX (Sun),
NT, Mac
Oracle, ODBC
UNIX (Irix)
Oracle, Sybase,
Informix.
30
Sistemas
Sistemas
http://www.kdcentral.com/Software/Data_Mining/
http://www.the-data-mine.com/bin/veiw/Software/WebIndex
31
32
Sistemas
Sistemas
EJEMPLO: Clementine
Problema:
qu medicamento es apropiado para un nuevo paciente?
33
edad
sexo
presin sangunea (High, Normal, Low)
colesterol (Normal, High)
concentracin de sodio en la sangre.
concentracin de potasio en la sangre.
medicamento al cual el paciente respondi
satisfactoriamente.
Sistemas
34
Sistemas
EJEMPLO: Clementine
EJEMPLO: Clementine
35
36
Sistemas
Sistemas
EJEMPLO: Clementine
EJEMPLO: Clementine
Se puede observar a simple vista que los pacientes con alto cociente
Na/K responden mejor al medicamento Y.
Pero queremos una clasificacin para todos los medicamentos. Es decir,
nuestro problema original:
Cul es el mejor medicamento para cada paciente?
37
Se observa una dispersin aparentemente aleatoria (excepto para el medicamto
Y)
Sistemas
Sistemas
EJEMPLO: Clementine
EJEMPLO: Clementine
38
39
Sistemas
Sistemas
EJEMPLO: SAS ENTERPRISE MINER (EM)
Herramienta completa. Incluye:
conexin a bases de datos (a travs de ODBC y SAS datasets).
muestreo e inclusin de variables derivadas.
particin de la evaluacin del modelo respecto a conjuntos de
entrenamiento, validacin y chequeo.
distintas herramientas de minera de datos: varios algoritmos y
tipos de rboles de decisin, redes neuronales, regresin y
clustering.
comparacin de modelos.
conversin de los modelos en cdigo SAS.
interfaz grfico.
EJEMPLO:
SAS
ENTERPRISE
MINER (EM)
(flujo del
proceso KDD)
42
Sistemas
Sistemas
EJEMPLO:
Seleccin
(assessment)
de modelos
Sistemas
44
Visualizacin
45
Visualizacin
46
Visualizacin
48
Visualizacin
Visualizacin
Visualizacin Previa:
Visualizacin Previa:
Los seres humanos ven claramente los segmentos (clusters) que aparecen con
distintos parmetros
en
una
Solucin:
Uso de proyecciones geomtricas:
49
50
Visualizacin
Visualizacin
Visualizacin Previa: Proyecciones geomtricas:
8,5
No
No
No
No
Med
Bajo
Med
No
No
No
No
Bajo
Bajo
Bajo
8,5
No
Med
Bajo
Med
No
No
No
Med
Bajo
No
No
No
Med
Med
11
No
No
No
No
Alto
60
Alto
Alto
13
No
No
M.A.
20
Serie1
Serie2
Serie3
Serie4
51
Visualizacin
Visualizacin Previa:
Bajo
Bajo
No
No
No
No
M.B.
Bajo
Alto
12
M.A.
Alto
Med
11
No
No
No
Alto
Alto
Med
No
No
No
No
Med
Representacin por
coordenadas paralelas:
S13
S11
S9
S7
S5
Factores
S1
Visualizacin
Visualizacin Posterior:
Casos
S3
Rsg
Bajo
Alcl.
Bajo
Alto
Prcd.
Alto
No
Strss
No
No
Obsd.
No
Tbco.
Alto
40
No
Med
100
Med
80
Alto
Bajo
Clstrl.
Cuando hay muchos datos se utiliza una tercera dimensin para los casos.
Rsg
Med
Tnsn.
Visualizacin
Visualizacin
Visualizacin Posterior:
Visualizacin Posterior:
EJEMPLO:
55
56
Visualizacin
Visualizacin
Posterior:
EJEMPLO:
representacin de
ganancias acumulativas
de un rbol de decisin:
lift = arcsen No/Total
El rbol ptimo sera as:
A
max
57
10