1. Introduccin 2. Trabajos relacionados 3. Enfoques 1. Muestreo basado en la agrupacin 2. Muestreo basado en la agrupacin y distancias entre muestras 4. Resultados 1. Generacin de conjuntos de datos sintticos 2. Criterios de evaluacin 3. Resultados experimentales sobre datos sintticos 4. Resultados experimentales sobre datos reales 5. Conclusiones
Clasificacin 1. Recoger muestras 2. Seleccin de muestras y atributos 3. Entrenar a un sistema de clases con la prediccin de las muestras de entrenamiento 4. Utilice el sistema de prediccin para pronosticar la clase de muestras de entrada.
Tcnicas de clasificacin Supone que las muestras de entrenamiento se distribuyen uniformemente En la vida real, se tienen clases desequilibradas
EJEMPLO: Anlisis prstamos fiduciarios de
Nivel Algortmico
Sensibles a los costes de aprendizaje: Supone que los costos de la clasificacin errnea son conocidos y establece un costo alto para la clasificacin errnea de una minora de la clase de muestra Reconocimiento basados en aprendizaje
Nivel de datos
Multi-classifier committee: La clase mayoritaria es dividida en subconjuntos respecto al nmero de elementos de la clase minoritaria. Se utilizan clasificadores para predecir una muestra y decidir la clase final (Voting) Re-sampling: Reduccin de la clase mayoritaria (Submuestreo) o incremento de la clase minoritaria (SobreMuestreo)
2. Trabajos relacionados
Selecciona un nmero adecuado de muestras de clase mayoritaria de cada grupo, considerando la relacin del nmero de muestras de clase mayoritaria con el nmero de muestras de clase minoritaria en la agrupacin.
N es el nmero de muestras en el conjunto de datos de clase desequilibrada es N, que incluye: Muestras de la clase mayoritaria (MA) Muestras de la clase minoritaria (MI). Para el mtodo de submuestreo SBC (sub-muestreo basados en la agrupacin), lo primero que se agrupan todas las muestras en el conjunto de datos en grupos K. Suponiendo que la relacin de SizeMA a SizeMI en la formacin de datos es m=1. El nmero de muestras seleccionadas de la clase mayoritaria en el grupo i-simo se calcula como:
Determinar la proporcin de SizeMA / SizeMI en el conjunto de datos de entrenamiento Agrupar todas las muestras en el conjunto de datos en clusters Determinar el nmero de muestras seleccionadas de MA en cada grupo con la expresin SSizeiMA Seleccionar aleatoriamente la muestra MA en cada grupo Mezclar las muestras seleccionadas de MA con todas las muestras de MI (conjunto de datos de entrenamiento)
9 3.1 Muestreo basado en la agrupacin
10
Se proponen 5 mtodos under-sampling basados en SBC Para un atributo continuo: Los valores necesitan ser normalizados Para un atributo categricos o discretos, la distancia entre dos valores de los atributos: Distance( X1, X2) = 1 Si X1<> X2 0 Si X1= X2
Suponiendo que hay N atributos en un conjunto de datos y VXi representa el valor de Ai atributo X de la muestra, de 1 i N. La distancia eucldea entre dos muestras X e Y se muestra en la expresin :
11
El nmero de muestras de MA se calcula con SSizeiMA, pero son seleccionados de diferentes maneras.
SBCNM-1
SBCNM--3
13
Se generan en un entorno visual, estableciendo nmero de muestras, el nmero de atributos y el nmero de grupos. Se introduce ruido en las muestras de tipo Muestras desordenadas Muestras excepcionales
Muestras desordenadas
Muestras excepcionales
14
Se busca evaluar: Tasa de precisin para la MI: Porcentaje de respuestas correctas clasificadas que se predicen en MI por el clasificador Tasa de recuperacin para MI: Porcentaje de respuestas clasificadas correctamente de todas las muestras de MI. Para un clasificador, si la tasa de precisin es alta, la tasa de recuperacin ser baja. F-medida: Combinacin de la tasa de recuperacin y precisin.
15
AT
Utiliza todas las muestras para capacitar a los clasificadores (no selecciona). Mtodo de muestreo comn, selecciona al azar las muestras de MA. Selecciona las muestras de MA, mientras que sus distancias medias a las muestras ms lejanas de MI son los ms pequeos
RT
NearMiss-2
En los experimentos siguientes, los clasificadores se construyen mediante el uso de una red neuronal artificial y el algoritmo k-means clustering se utiliza para los mtodos.
16
17
Para cada conjunto de datos sinttico generado: Muestras= 10,000 Atributos (numricos y categricos)= 5 j% = muestras excepcionales y k%= muestras desordenadas.
18
Para cada relacin especfica, se generan varios conjuntos de datos sintticos donde I es de 2 a 16.
19
El tiempo de ejecucin incluye el tiempo de la ejecucin del mtodo de sub-muestreo y el tiempo para la formacin de los clasificadores
20
21
Archivo de base de datos de UCI Datos de las encuestas de poblacin de 1994 y 1995 Se busca determinar el nivel de ingresos de cada persona representada por el expediente. 30,162 muestras, incluyendo 22,654 muestras de MA, donde el nivel de ingresos es menor a 50 mil dlares y 7.508 muestras de M, donde el nivel de ingresos son mayores o iguales a 50 mil dlares. Se uso el 80% de las muestras para capacitar a los clasificadores y el 20% para evaluar su rendimiento
22
23
24
Se propone un enfoque basado en los enfoques de toma de muestras, para resolver el problema de clase desequilibrada mediante el uso de la distribucin de la red neuronal de retropropagacin.
El enfoque SBC tiene los mejores resultados en la prediccin de las muestras de MI. Tiene menos tiempo para la seleccin de las muestras de entrenamiento que los otros enfoques
25
5. Conclusiones