METODOLOGAS
Una Metodologa
Es un proceso preciso y formal.
PROCESO KDD
Knowledge Discovery in Databases
Proceso no trivial de identificar patrones
vlidos, novedosos, potencialmente tiles y,
en ltima instancia, comprensibles, a partir de
los datos (Fayyad 1996)
El Proceso KDD
Dos tipos de metas
Descubrir:
El proceso encuentra nuevos patrones.
Verificar:
El proceso verifica hiptesis de ciertos usuarios.
Desde dnde surgen estas hiptesis?
Clase 02: Metodologas de Anlisis de Datos
Qu encontraremos:
Distintos Fuentes de datos
Distintos formatos
Diferentes grados de agregacin
Etc.
La solucin ideal:
Integracin de mltiples bases de datos
... Generar un almacn de datos (data warehousing)
Fase 1: Consolidacin
La solucin ideal:
Integracin de mltiples bases de datos
... Generar un almacn de datos (data warehousing)
Nuestro Objetivo:
Mejorar la calidad de los datos.
Fase 2: Limpieza
Datos necesarios que no estn a disposicin
Estrategias para obtener datos
Eliminacin de Ruido
Missing values
Es posible que los mtodos que utilizaremos en
fases posteriores no traten bien los campos con
missing values.
Hay que detectarlos y tratarlos.
Posibles estrategias:
Ignorarlos
Eliminar variable
Filtrar registro
Reemplazar el valor
Etc.
Fase 3: Transformacin
Normalizacin de datos
Construccin de nuevas variables que faciliten el
proceso de minera de datos.
Reduccin de Dimensionalidad
Variables Correlacionadas
Es menos comn.
Fase 4: Minera de Datos
El objetivo:
Satisfacer las metas del proceso de KDD planteadas en
los primeros pasos, a travs de un mtodo particular
de Minera de Datos.
Monitorizacin:
Consiste en ir revalidando el modelo con cierta frecuencia sobre
nuevos datos, con el objetivo de detectar si el modelo requiere
una actualizacin.
Actualizacin/Regeneracin:
Un modelo vlido puede dejar de serlo: cambio de contexto
(econmicos, competencia, fuentes de datos, etc.).
SEMMA
SEMMA
Desarrollado por SAS Institute.
Muestreos:
Muestreo aleatorio simple.
Muestreo aleatorio con reposicin.
Objetivo:
Establecer un nivel de confianza para la muestra.
Muestreo Aleatorio Simple
Es un mtodo de seleccin de n unidades sacadas de N, de
tal manera que cada una de las muestras M(N,n) tiene la
misma probabilidad de ser escogida.
Sin reposicin
Ejemplo
Sacamos un nmero de una urna y no lo volvemos a poner en
ella
Muestreo con reposicin
Extraer la observacin Xi de la poblacin,
regresarla y extraer X2. Continuar el proceso
hasta tener una muestra de n observaciones de
la caracterstica medible X.
Las observaciones X1...Xn es un conjunto de
variables aleatorias independientes e
idnticamente distribuidas.
Ninguna observacin se ve afectada por otra.
Distribuye como la poblacin total.
Paso 2: Exploracin
Objetivo:
Simplificar el problema y optimizar
la eficiencia del modelo.
Cmo?
Uso de herramientas de
visualizacin y tcnicas de
estadsticas descriptivas.
Experiencia de negocio
Transformar variables para la modelizacin ptima
Paso 4: Modelacin
Las tcnicas ms utilizadas:
Anlisis discriminante
Mtodos de clustering
Anlisis de regresin
Redes neuronales
Lgica difusa
rboles de decisin
Reglas de asociacin
Paso 5: Validacin
Valora los resultados mediante el anlisis de bondad del
modelo.
Aspectos particulares:
Reglas de asociacin: cobertura (soporte)
Clustering: variabilidad intra y entre
Regresin: error cuadrtico medio
Clasificacin supervisada:
Porcentaje de bien clasificados
Matriz de confusin
Anlisis ROC.
Lift Charts
Evaluacin
Precisin
Porcentaje de casos bien clasificados.
Eficiencia
Tiempo necesario para construir/usar el modelo.
Robustez
Frente a ruido y valores nulos.
Interpretabilidad y Complejidad
Economa del pensamiento
En igualdad de condiciones la solucin ms sencilla es probablemente
la correcta.
Validacin Simple
Separar los datos disponibles en dos subconjuntos de
datos:
Entrenamiento (para generar un modelo)
Test (el resto de los datos)
Prediccin
CP CN
VP: FN:
CP Verdadero Falso
Valor Real
Positivo Negativo
FP: VN:
CN Falso Verdadero
Positivo Negativo
4.990/5.000 = 99,8%
Valor Real
CFP
Donde: CN
Eje y:
Tasa Verdaderos Positivos: TVP = VP/(VP+FN)
Eje x:
Tasa Falsos Positivos: TFP = FP/(FP+VN)
Curvas ROC
Curvas ROC (Receiver Operating Characteristics)
Curvas ROC
Desarrolladas para analizar seales con ruido:
Discriminar entre aciertos y falsas alarmas.
Luego se calcula:
TVP = VP/(VP+FN)
TFP = FP/(FP+VN)
Ejemplo: Curva ROC
Ejemplo P(+E) Clase
1 0.95 +
2 0.93 +
3 0.87 -
4 0.85 -
5 0.85 -
6 0.85 +
7 0.76 -
8 0.53 +
9 0.43 -
0.25 +
10
Clase + - + - - - + - + +
Probabilidad 0.25 0.43 0.53 0.76 0.85 0.85 0.85 0.87 0.93 0.95 1.00
VP 5 4 4 3 3 3 3 2 2 1 0
FP 5 5 4 4 3 2 1 1 0 0 0
VN 0 0 1 1 2 3 4 4 5 5 5
FN 0 1 1 2 2 2 2 3 3 4 5
TVP 1 0.8 0.8 0.6 0.6 0.6 0.6 0.4 0.4 0.2 0
dulo Business Anal ytics,1Jaim e Caiceo
1 20140.8 0.8 0.6 0.4 0.2 0.2 0 0 0
TFP
ceo@metricarts.co m
Clase 02: Metodologas de Anlisis de Datos
CRISP - DM
CRISP - DM
CRoss-Industry Standard Process for Data
Mining.
Metodologa para el proceso de Minera de
Datos
Valida el proceso, ayuda a planear y administrar
proyectos.
Desarrollado por algunas compaas: SPSS/ISL,
NCR, OHRA
Est enfocado en el negocio y al anlisis tcnico.
Visin General
Comprensin del Comprensin de
negocio los datos
Preparacin de
los datos
Explotacin Datos
Modelacin
Evaluacin