INTRODUCCIÓN
En esta clase introducimos la materia del Análisis de Datos, con una motivación general a estas
técnicas, dominios más relevantes de aplicación, áreas de conocimiento y panorámica de los
tipos de técnicas empleadas.
Visualización
Estadística
Negocio Browser
Data
Explotación
Warehouse
Herramientas
Cliente/Servidor
Datos
Aplicaciónes
externos
Datos de
Extracción/Filtro/Integración
C/S
Negocio
Explotación
Users
Data Mart 1
Web
Data Internet o
Explotación
Warehouse Intranet
Explotación
C/S
Users
Datos
externos
• cantidad de ventas
• unidades vendidas
• % desecho
• # productos en
almacén
• etc.
• sucursales
• zona
• clientes
• vendedores
•etc.
D.F. Morelos
BJ VC XO
Balbuena Moctezuma
Ventas
México
D.F. Morelos
BJ VC XO
Balbuena Moctezuma
Norte
Geografía
Este
Tiempo= Ene.
Sur
A B C
Ventas del
Producto
Obtenemos un cubo 2 x 2
Obtenemos un cubo2 x 3
Conocimiento
MINERÍA DE DATOS
TRANSFORMACIÓN Modelos
Datos objetivo
Datos
Planteamiento
oportunidad,
problema, ... Proceso de
Datos/ Análisis de
Resulados Datos. Modelos
Toma de
decisiones,
acciones
(más datos)
Introducción al Análisis de Datos
METODOLOGÍA
1. Formular el problema
2. Determinar la representación (atributos y clases)
– directamente
– hablando con expertos
– a partir de otras técnicas (filtros)
3. Identificar y recolectar datos de entrenamiento (bases de datos,
ficheros, …)
4. Preparar datos para análisis
5. Selección de modelo, construcción y entrenamiento
6. Evaluar lo aprendido
– validación cruzada, expertos
7. Integrar la base de conocimiento a la espera de nuevos datos
tras acciones
Técnica
Predicción
Predecir valores numéricos
(aprender funciones de interpolación)
valores predichos
No Supervisado
140000
150000 120000
100000
valor (euros)
100000 80000
60000
40000
50000
540
540
494
494
20000
448
448
402
402
0
356
0
356
310
10 20 30 40 50 60 70 80 90 100 110
10
30
50
70
90
310
superficie (m 2)
antigüedad (a)
Crédito No Sí
Edad
Joven 0.4 0.2 ... p(SI) = 0.63
Adulto 0.4 0.6
Mayor 0.2 0.2 p(NO) = 0.37
SI NO
Sí No
C=0.8*Salario-0.7 Edad<30?
Sí No
C=0.2*Salario + C=0.4*Salario +
0.9*Edad-0.3 0.2*Edad-0.6
Supervisado
Asociación
Relaciones entre
atributos (columnas)
Técnica
No Supervisado
Agrupamiento
relaciones entre
objetos (filas)
(c) (h)
(a),(b) (d)
• Limpieza
– Valores faltantes, outliers, inconsistencias
• Transformación
– Normalizar, proyectar, discretizar
• Reducción
– Representación reducida
y=x+1
• Selección/transformación de atributos
– Discretizar
– Quitar atributos redundantes
– Proyectar a espacios reducidos: PCA
– Misma amplitud:
• Cajas: W = (Max-min)/N.
• El más directo. Problemas de escala y con outliers
– Misma frecuencia:
• Cada caja el mismo numero de muestras
– Métodos supervisados
1 t u u 21 1 0 u11 u12
C X X UU t 11
n 12
u u 22 0 2 u 21 u 22
Anna Nikki
M M
persona1 persona2 hermana? persona1 persona2 abuelo?
Peter Peggy No Peter Peggy No
Peter Steven No Peter Steven No
Brian Pam Sí Anna Peter Sí
Introducción al Análisis de Datos
Desnormalización de relaciones
Proposicional
Si (ancho>=4) y (alto<3) =>tumbado
Si (alto>6) =>levantado
…
Relacional
Si (ancho>alto) =>tumbado
Si (ancho<alto) =>levantado