Clase 02

Clase 02: Metodologas de Anlisis de Datos
METODOLOGAS
Una Metodologa
Es un proceso preciso y formal.
Una metodologa incluye:

Actividades paso a paso para
cada fase.
Roles individuales para cada
actividad.
Productos y niveles de calidad
para cada actividad.
Herramientas y tcnicas que se
usarn para cada actividad.
Por qu se utilizan?
Las metodologas aseguran que un enfoque
consistente se aplicar a todos los proyectos.
Reducen el riesgo asociado a errores y atajos.
Producen consistencia en el desarrollo de proyectos.
PROCESO KDD
Knowledge Discovery in Databases
Proceso no trivial de identificar patrones
vlidos, novedosos, potencialmente tiles y,
en ltima instancia, comprensibles, a partir de
los datos (Fayyad 1996)
El Proceso KDD
Dos tipos de metas
Descubrir:
El proceso encuentra nuevos patrones.
Verificar:
El proceso verifica hiptesis de ciertos usuarios.
Desde dnde surgen estas hiptesis?
PROCESO KDD: FASES

Fase 1: Consolidacin
Decisiones estratgicas basadas en el anlisis y la planificacin:
El problema de los datos: La integridad de la informacin en una
empresa.
Qu encontraremos:
Distintos Fuentes de datos
Distintos formatos
Diferentes grados de agregacin
Etc.
La solucin ideal:
Integracin de mltiples bases de datos
... Generar un almacn de datos (data warehousing)
Fase 1: Consolidacin
La solucin ideal:
Integracin de mltiples bases de datos
... Generar un almacn de datos (data warehousing)
No es estrictamente necesario generar este tipo de estructuras...

pero por qu es aconsejable?
El trabajo a realizar: Recopilar los datos.

Fase 1: Seleccin de los datos
Es necesario esclarecer:
Los objetivos, caractersticas y prioridades.
Identificar las metas del proceso que se va a realizar
desde el punto de vista del cliente o usuario.
Seleccionar el conjunto de datos o las variables o

muestras sobre los cuales el proceso de
descubrimiento va a ser ejecutado.
Seleccin de muestras.
Fase 2: Limpieza
La calidad del conocimiento a descubrir
depende (adems de otros factores) de la
calidad de los datos analizados.
Nuestro Objetivo:
Mejorar la calidad de los datos.
Fase 2: Limpieza
Datos necesarios que no estn a disposicin
Estrategias para obtener datos
Presencia de datos faltantes (missing values)

Estrategias para tratamiento de datos faltantes.
Presencia de datos que no se ajustan al

comportamiento general de los datos (outliers)
Eliminacin de Ruido
Missing values
Es posible que los mtodos que utilizaremos en
fases posteriores no traten bien los campos con
missing values.
Hay que detectarlos y tratarlos.
Posibles estrategias:
Ignorarlos
Eliminar variable
Filtrar registro
Reemplazar el valor
Etc.
Fase 3: Transformacin
Normalizacin de datos
Construccin de nuevas variables que faciliten el
proceso de minera de datos.
Reduccin de Dimensionalidad
Variables Correlacionadas
Discretizacin de variables continuas

Discretizacin
Consiste en la conversin de un valor numrico
en un valor nominal ordenado que representa
un intervalo
En ciertas tcnicas de clasificacin es necesario
que todos los datos sean discretos.
Numerizacin
Es el proceso inverso a la discretizacin.
Pasar valores nominales a numricos.
Es menos comn.
Fase 4: Minera de Datos
El objetivo:
Satisfacer las metas del proceso de KDD planteadas en
los primeros pasos, a travs de un mtodo particular
de Minera de Datos.
Por tanto es crucial:

Seleccionar el algoritmo correcto a partir del problema que
tenemos que abordar y las metas esperadas.
Fase 5: Interpretacin
Para facilitar la interpretacin, es necesario:
Generar modelos precisos
Comprensibles
Interesantes (tiles y novedosos)
Este es el gran desafo.
Interpretacin de los patrones encontrados,

puede requerir visualizacin de estos patrones.
Un tema fundamental: La visualizacin.
Fase 6: Difusin y uso
Es necesario distribuir, comunicar a los posibles
usuarios, integrar lo descubierto al know-how
de la organizacin.
Medir la evolucin del modelo a lo largo del

tiempo (los patrones pueden cambiar)
Modelo debe cada cierto tiempo ser:

Reevaluado
Reentrenado
Reconstruido
Ms all del proceso
Luego de crear un modelo, hay que mantenerlo:
Monitorizacin:
Consiste en ir revalidando el modelo con cierta frecuencia sobre
nuevos datos, con el objetivo de detectar si el modelo requiere
una actualizacin.
Actualizacin/Regeneracin:
Un modelo vlido puede dejar de serlo: cambio de contexto
(econmicos, competencia, fuentes de datos, etc.).
Esto produce realimentaciones en el proceso KDD.

En resumen
Datos
Seleccin
Datos Filtrados
Pre-procesamiento
Datos Pre-procesados
Transformacin
Datos Formateados
Minera de Datos
Modelos
Interpretacin
Conocimiento
SEMMA
SEMMA
Desarrollado por SAS Institute.
Se define como el proceso de

seleccin, exploracin y modelado
de grandes cantidades de datos
para descubrir patrones de
negocio desconocidos.
El nombre de esta terminologa es

el acrnimo correspondiente a las
cinco fases bsicas del proceso.
Pasos
Acrnimo:
Sample, Explore, Modify, Model, Assess
Muestrea, Explora, Modifica, Modela, Evala
Paso 1: Muestreo
Extraer muestras desde la poblacin, para aplicar el
anlisis.
Seleccionar una muestra representativa del problema en

estudio.
Muestreos:
Muestreo aleatorio simple.
Muestreo aleatorio con reposicin.
Objetivo:
Establecer un nivel de confianza para la muestra.
Muestreo Aleatorio Simple
Es un mtodo de seleccin de n unidades sacadas de N, de
tal manera que cada una de las muestras M(N,n) tiene la
misma probabilidad de ser escogida.
En este caso cada unidad se extrae con igual probabilidad,

por etapas, y sin reposicin, hasta tener las n unidades de
la muestra.
En la prctica el muestreo es formado unidad por unidad:

Las unidades de la poblacin son numerados del 1 al N.
A continuacin son seleccionados n nmeros aleatorios entre 1
y N.
Muestreo con o sin reposicin
Con reposicin
Ejemplo
Sacamos un nmero de una urna y lo volvemos a poner en ella
Sin reposicin
Ejemplo
Sacamos un nmero de una urna y no lo volvemos a poner en
ella
Muestreo con reposicin
Extraer la observacin Xi de la poblacin,
regresarla y extraer X2. Continuar el proceso
hasta tener una muestra de n observaciones de
la caracterstica medible X.
Las observaciones X1...Xn es un conjunto de
variables aleatorias independientes e
idnticamente distribuidas.
Ninguna observacin se ve afectada por otra.
Distribuye como la poblacin total.
Paso 2: Exploracin
Objetivo:
Simplificar el problema y optimizar
la eficiencia del modelo.
Cmo?
Uso de herramientas de
visualizacin y tcnicas de
estadsticas descriptivas.
Determinar las variables

explicativas (entradas del
modelo).
Paso 2: Exploracin
Objetivo:
Conocer los datos
Tendencias principales
Rango de las variables clave
Frecuencia de los valores
Correlacin entre variables
Paso 3: Modificacin
Formatear los datos que sern utilizados por el
modelo.
Experiencia de negocio
Transformar variables para la modelizacin ptima
Paso 4: Modelacin
Las tcnicas ms utilizadas:
Anlisis discriminante
Mtodos de clustering
Anlisis de regresin
Redes neuronales
Lgica difusa
rboles de decisin
Reglas de asociacin
Paso 5: Validacin
Valora los resultados mediante el anlisis de bondad del
modelo.
Contrasta con otros mtodos estadsticos o con nuevas

muestras.
Paso 5: Validacin
Tcnicas de evaluacin generales:
Validacin simple, validacin cruzada
Aspectos particulares:
Reglas de asociacin: cobertura (soporte)
Clustering: variabilidad intra y entre
Regresin: error cuadrtico medio
Clasificacin supervisada:
Porcentaje de bien clasificados
Matriz de confusin
Anlisis ROC.
Lift Charts
Evaluacin
Precisin
Porcentaje de casos bien clasificados.
Eficiencia
Tiempo necesario para construir/usar el modelo.
Robustez
Frente a ruido y valores nulos.
Interpretabilidad y Complejidad
Economa del pensamiento
En igualdad de condiciones la solucin ms sencilla es probablemente
la correcta.
Validacin Simple
Separar los datos disponibles en dos subconjuntos de
datos:
Entrenamiento (para generar un modelo)
Test (el resto de los datos)
Sobre el set de datos de test se estima el error del modelo

obtenido con el set de entrenamiento.
k-fold Cross-Validation
Se divide aleatoriamente el conjunto de datos en k
subconjuntos de interseccin vaca (ms o menos del
mismo tamao).
Por lo general se usan 10 partes, 10 fold cross-validation.
En la iteracin i, se usa el subconjunto i como conjunto

de prueba y los k-i restantes como conjunto de
entrenamiento.
Como medida de evaluacin del mtodo de

clasificacin se toma la media aritmtica de las k
iteraciones realizadas.
Matriz de Confusin
Prediccin
CP CN
VP: FN:
CP Verdadero Falso
Valor Real
Positivo Negativo
FP: VN:
CN Falso Verdadero
Positivo Negativo
Precisin (accuracy) = (VP+VN)/(VP+VN+FP+FN)

Precisin
Limitaciones de la precisin:
Supongamos un problema con 2 posibilidades:

4.990 clientes que se mantienen leales.
10 clientes que fugan de la compaa.
Si el modelo nos indica que todos los clientes se

mantendrn en la compaa, su precisin es:
4.990/5.000 = 99,8%
Pero a pesar de esa precisin, el modelo tiene un

problema, ya que nunca detectaremos clientes fugadores.
Alternativa: Anlisis de Costos
Costo del error: Prediccin
CP CN
CFP * FP + CFN * FN
CP CFN
Valor Real
CFP
Donde: CN
FN: Falsos negativos

CFN: Costo falso negativo
FP: Falsos positivos
CFP: Costo falso positivo
Curvas ROC
Curvas ROC (Receiver Operating Characteristics)
Eje y:
Tasa Verdaderos Positivos: TVP = VP/(VP+FN)
Eje x:
Tasa Falsos Positivos: TFP = FP/(FP+VN)
Curvas ROC
Curvas ROC (Receiver Operating Characteristics)
Curvas ROC
Desarrolladas para analizar seales con ruido:
Discriminar entre aciertos y falsas alarmas.
Permiten comparar visualmente distintos

modelos de clasificacin.
El rea que queda bajo la curva es una medida

de la precisin del clasificador:
Ms cerca de la diagonal (rea = 0.5), menos preciso
ser el modelo.
Por tanto, un modelo perfecto tendr rea = 1.
Construccin Curva ROC
Se calcula la probabilidad de que un ejemplo E
pertenezca a la clase positiva.
P(+|E)
Se ordenan los ejemplos en orden decreciente a partir del

valor calculado para P(+|E)
Se aplica un umbral sobre los distintos valores de P(+|E),

donde se cuenta el nmero de VP, FP, VN y FN.
Luego se calcula:
TVP = VP/(VP+FN)
TFP = FP/(FP+VN)
Ejemplo: Curva ROC
Ejemplo P(+E) Clase
1 0.95 +
2 0.93 +
3 0.87 -
4 0.85 -
5 0.85 -
6 0.85 +
7 0.76 -
8 0.53 +
9 0.43 -
0.25 +
10
Clase + - + - - - + - + +
Probabilidad 0.25 0.43 0.53 0.76 0.85 0.85 0.85 0.87 0.93 0.95 1.00
VP 5 4 4 3 3 3 3 2 2 1 0
FP 5 5 4 4 3 2 1 1 0 0 0
VN 0 0 1 1 2 3 4 4 5 5 5
FN 0 1 1 2 2 2 2 3 3 4 5
TVP 1 0.8 0.8 0.6 0.6 0.6 0.6 0.4 0.4 0.2 0
dulo Business Anal ytics,1Jaim e Caiceo
1 20140.8 0.8 0.6 0.4 0.2 0.2 0 0 0
TFP
ceo@metricarts.co m
CRISP - DM
CRISP - DM
CRoss-Industry Standard Process for Data
Mining.
Metodologa para el proceso de Minera de
Datos
Valida el proceso, ayuda a planear y administrar
proyectos.
Desarrollado por algunas compaas: SPSS/ISL,
NCR, OHRA
Est enfocado en el negocio y al anlisis tcnico.
Visin General
Comprensin del Comprensin de
negocio los datos
Preparacin de
los datos
Explotacin Datos
Modelacin
Evaluacin

Clase 02

Diunggah oleh

Informasi Dokumen

Judul Asli

Hak Cipta

Format Tersedia

Bagikan dokumen Ini

Bagikan atau Tanam Dokumen

Opsi Berbagi

Apakah menurut Anda dokumen ini bermanfaat?

Apakah konten ini tidak pantas?

Hak Cipta:

Format Tersedia

Clase 02

Diunggah oleh

Hak Cipta:

Format Tersedia

Clase 02: Metodologas de Anlisis de Datos

Una metodologa incluye:

PROCESO KDD: FASES

No es estrictamente necesario generar este tipo de estructuras...

El trabajo a realizar: Recopilar los datos.

Seleccionar el conjunto de datos o las variables o

Presencia de datos faltantes (missing values)

Presencia de datos que no se ajustan al

Discretizacin de variables continuas

Pasar valores nominales a numricos.

Por tanto es crucial:

Este es el gran desafo.

Interpretacin de los patrones encontrados,

Medir la evolucin del modelo a lo largo del

Modelo debe cada cierto tiempo ser:

Esto produce realimentaciones en el proceso KDD.

Se define como el proceso de

El nombre de esta terminologa es

Seleccionar una muestra representativa del problema en

En este caso cada unidad se extrae con igual probabilidad,

En la prctica el muestreo es formado unidad por unidad:

Determinar las variables

Contrasta con otros mtodos estadsticos o con nuevas

Sobre el set de datos de test se estima el error del modelo

En la iteracin i, se usa el subconjunto i como conjunto

Como medida de evaluacin del mtodo de

Precisin (accuracy) = (VP+VN)/(VP+VN+FP+FN)

Supongamos un problema con 2 posibilidades:

Si el modelo nos indica que todos los clientes se

Pero a pesar de esa precisin, el modelo tiene un

FN: Falsos negativos

Permiten comparar visualmente distintos

El rea que queda bajo la curva es una medida

Se ordenan los ejemplos en orden decreciente a partir del

Se aplica un umbral sobre los distintos valores de P(+|E),

Anda mungkin juga menyukai