AprenSupervClassesDesbal - An Castro Braga 2011

APRENDIZADO SUPERVISIONADO COM CONJUNTOS DE DADOS
DESBALANCEADOS
Cristiano Leite de Castro Antnio Pdua Braga

crislcastro@ufmg.br apbraga@ufmg.br

Universidade Federal de Minas Gerais
Departamento de Engenharia Eletrnica
Belo Horizonte, MG, Brasil
ABSTRACT A tendncia produzir modelos (ou regras) de classificao

que favorecem a classe com maior probabilidade de ocorrn-
Supervised Learning with Imbalanced Data Sets: An cia (majoritria), resultando em uma baixa taxa de reconhe-
Overview cimento para o grupo minoritrio. O objetivo desse artigo
Traditional learning algorithms induced by complex and fornecer uma investigao sobre esse problema, que tem
highly imbalanced training sets may have difficulty in dis- atrado o interesse de muitos pesquisadores nos ltimos anos.
tinguishing between examples of the groups. The tendency No escopo de tarefas de classificao binria, so apresenta-
is to create classification models that are biased toward the dos conceitos associados natureza do problema de classes
overrepresented (majority) class, resulting in a low rate of desbalanceadas e mtricas de avaliao, incluindo os funda-
recognition for the minority group. This paper provides a mentos da anlise ROC (Receiver Operating Characteristic);
survey of this problem which has attracted the interest of alm do estado da arte das solues propostas na literatura.
many researchers in recent years. In the scope of two-class Uma breve discusso a respeito de como os tpicos aborda-
classification tasks, concepts related to the nature of the im- dos no artigo podem ser estendidos para o aprendizado mul-
balanced class problem and evaluation metrics are presented, ticlasse tambm fornecida.
including the foundations of the ROC (Receiver Operating
Characteristic) analysis; plus a state of the art of the pro- PALAVRAS-CHAVE: classes desbalanceadas, aprendizado
posed solutions. At the end of the paper a brief discussion supervisionado, mtricas de avaliao, anlise ROC, mto-
on how the subject can be extended to multiclass learning is dos de reamostragem, abordagem sensvel ao custo.
provided.
KEYWORDS: imbalanced data sets, supervised learning,

1 INTRODUO
evaluation metrics, ROC analysis, resampling methods, cost-
Um aspecto fundamental em problemas de classificao
sensitive approach. a desigualdade na distribuio dos padres entre os grupos,
que surge principalmente em situaes onde informaes as-
RESUMO sociadas a determinadas classes so mais difceis de se ob-
ter. Pode-se observar esse comportamento, por exemplo, em
Algoritmos de aprendizado tradicionais induzidos por con- um estudo sobre uma doena rara em uma dada populao.
juntos de treinamento complexos e altamente desbalanceados A proporo de pessoas doentes encontradas muito menor
tm apresentado dificuldade em diferenciar entre os grupos. que a proporo de pessoas sadias. Em problemas dessa na-
Artigo submetido em 07/10/2010 (Id.: 01203)
tureza, em que os nmeros de exemplos entre as classes no
Revisado em 07/01/2011, 23/03/2011 conjunto de treinamento variam significativamente, algorit-
Aceito sob recomendao do Editor Associado Prof. Ivan Nunes Da Silva
Revista Controle & Automao/Vol.22 no.5/Setembro e Outubro 2011 441

mos de aprendizado tradicionais tm apresentado dificuldade peito de como os tpicos abordados na investigao podem
em distinguir entre os vrios grupos. Em geral, a tendncia ser estendidos para domnios multiclasse fornecida.
produzir modelos de classificao que favorecem as clas-
ses com maior probabilidade de ocorrncia, resultando em O restante do artigo encontra-se organizado da seguinte
baixas taxas de reconhecimento para os grupos minoritrios. forma. Na Seo 2, uma anlise de cunho formal sobre a na-
tureza do problema de classes desbalanceadas apresentada
O problema de classes desbalanceadas, como conhecido com base nas Teorias de Deciso Bayesiana (Berger, 1985;
em aprendizado de mquina e minerao de dados, surge Bather, 2000) e Aprendizado Estatstico (Vapnik, 1995; Vap-
principalmente porque os algoritmos tradicionais assumem nik, 1998). A discusso conduzida nessa seo fornece, atra-
diferentes erros como igualmente importantes, supondo que vs de fundamentos tericos, melhor compreenso dos as-
as distribuies so relativamente equilibradas (Monard and pectos associados origem do problema. At o momento,
Batista, 2002; He and Garcia, 2009). Embora essa estrat- esses aspectos no foram devidamente formalizados e, fre-
gia possa produzir modelos com elevadas taxas de acurcia quentemente, tm sido discutidos em carter experimen-
global, ela frequentemente tende a prejudicar a identificao tal. Na Seo 3, so descritas as medidas de desempe-
de exemplos pertencentes a grupos raros que, na maioria dos nho comumente usadas para avaliar classificadores no con-
casos, representam os grupos de interesse. texto de aprendizado com grupos desbalanceados. Alm
disso, so apresentados os principais fundamentos da an-
De fato, na maioria das aplicaes reais, detectar eventos lise ROC (Receiver Operating Characteristic). A Seo 4
anormais (ou interessantes) em uma populao contendo traz uma reviso crtica das abordagens propostas para so-
grande nmero de eventos comuns o principal objetivo. lucionar o problema. Seguindo padro adotado na litera-
Tais aplicaes, que comumente apresentam conjuntos de da- tura, essas abordagens foram divididas em duas grandes ca-
dos altamente complexos, tm sido reportadas em um grande tegorias: pr-processamento de dados e adaptaes em algo-
nmero de domnios, tais como diagnstico mdico (Sun ritmos de aprendizado. Dentro da segunda categoria, uma
et al., 2007; Braga et al., 2008; Natowicz et al., 2008; Silva maior ateno dedicada s solues baseadas em propostas
et al., 2009; Moturu et al., 2010), suporte deciso em uni- e/ou modificaes de funcionais risco otimizados por algorit-
dades de tratamento intensivo (Morik et al., 1999), detec- mos de aprendizado. Por ltimo, as discusses e concluses
o de fraudes/falhas (Fawcett and Provost, 1997; Carvalho so apresentadas na Seo 5.
et al., 2008; Gao et al., 2009), categorizao de texto (Li and
Shawe-Taylor, 2003; Manevitz and Yousef, 2007), reconhe-
cimento de assinaturas (Souza et al., 2010), monitoramento 2 PROBLEMA DE CLASSES DESBALAN-
de quebras de eixos automotivos (Hong et al., 2007), iden- CEADAS
tificao de alertas de coliso entre aeronaves (Everson and
Fieldsend, 2006b), entre outros. A maioria dos estudos sobre o problema de classes desbalan-
ceadas foca no desenvolvimento de solues. Uma quanti-
Aprendizado com dados desbalanceados tem atrado o in- dade menor tem investigado as suas causas e/ou tentado pro-
teresse de muitos pesquisadores nos ltimos anos. Esse por algum tipo de formalismo (Lawrence et al., 1998; Jap-
interesse aparece refletido, por exemplo, no grande n- kowicz and Stephen, 2002; Wu and Chang, 2003; Weiss and
mero de estudos publicados sobre o assunto, na realizao Provost, 2003; Prati et al., 2004b; Batista et al., 2004; Weiss,
de workshops nas conferncias AAAI (Association for the 2004; Khoshgoftaar et al., 2010). Nesses trabalhos, a meto-
Advancement of Artificial Intelligence) (Japkowicz, 2000a) dologia comumente adotada a caracterizao do problema
e ICML (International Conference on Machine Learning) a partir de observaes obtidas com resultados experimentais
(Chawla et al., 2003) e, em uma edio especial da revista atravs de algoritmos de aprendizado especficos.
ACM SIGKDD Explorations (Chawla et al., 2004).
Nessa seo, uma interpretao para a natureza do problema
O objetivo desse artigo prover uma investigao sobre o de classes desbalanceadas fornecida com base nos funda-
problema de classes desbalanceadas com foco na aborda- mentos das Teorias de Deciso Bayesiana e Aprendizado Es-
gem discriminativa do aprendizado supervisionado, onde re- tatstico. A argumentao desenvolvida explorando as pro-
gras de deciso (classificadores) so induzidas diretamente priedades da soluo (ou regra de deciso) tima que mini-
do conjunto de dados a partir da minimizao de um funci- miza a taxa de erro esperado, tambm conhecida como erro
onal risco (funo custo). No mbito dessa investigao, os de generalizao. Tal soluo pode ser estimada e analisada
conceitos relacionados ao problema assim como o estado da analiticamente em um cenrio controlado, onde todas as dis-
arte das solues propostas so descritos no contexto de tare- tribuies de probabilidade so conhecidas. A caracterizao
fas de classificao binria, ou seja, contendo somente duas da natureza do problema ento conduzida contrastando as
classes. Na parte final do artigo, uma breve discusso a res- caractersticas da soluo tima com regras de deciso esti-
madas por modelos discriminativos, baseados na minimiza-
442 Revista Controle & Automao/Vol.22 no.5/Setembro e Outubro 2011

P
o da taxa de erro global sobre um conjunto de treinamento onde p(x) = k p(x|y = k)P (y = k) a densidade (in-
desbalanceado. No decorrer da discusso, as principais con- condicional) da entrada x.
cluses e observaes publicadas em Lawrence et al. (1998),
Japkowicz and Stephen (2002), Wu and Chang (2003), Weiss Uma regra de deciso binria divide o espao de entrada em
and Provost (2003), Prati et al. (2004b), Batista et al. (2004), duas regies disjuntas, denotadas por R0 e R1 , uma para
Weiss (2004) e, Khoshgoftaar et al. (2010) so contextuali- cada classe, tal que todos os pontos em Rk sero assinala-
zadas e comentadas. dos classe Ck . Os limites entre as regies de deciso so
conhecidos como superfcies de deciso (ou separao).
Como resultado da anlise realizada, demonstrado que o
vis causado pelo grupo dominante uma consequncia di- Seja uma funo de perda que associa custos s possveis
reta da formulao padro comumente adotada na aborda- decises tomadas por uma regra de deciso. comumente
gem discriminativa e tambm, do nvel de incerteza (rudo) descrita atravs de uma matriz de custo, onde o elemento kj
associado aos dados. Alm disso, apontada a falta de repre- fornece o custo associado ao se classificar um exemplo x
sentatividade do grupo minoritrio como fator importante a classe Cj , sendo que x pertence classe Ck 1 .
ser considerado no aprendizado com classes desbalanceadas.
A melhor regra de deciso (tima) que pode ser obtida
Para a apresentao dos conceitos nas sees a seguir, con- aquela que minimiza o risco global, que corresponde ao va-
sidere as seguintes definies/notaes fornecidas no escopo lor esperado (mdio) da perda em relao s densidades de
de classificao binria: um exemplo de entrada, represen- probabilidade conjuntas p(x, y = k),
tado por um vetor de caractersticas x = (x1 , x2 , . . . , xn )
deve ser atribudo a uma (e somente uma) das 2 classes (ou
grupos) denotadas por C0 e C1 . A existncia das classes
Z
E[] = 01 p(x, y = 0) dx
conhecida a priori. Seja y = {0, 1} a varivel simblica que R1
denota a classe (rtulo) para um dado exemplo x, tal que Z
y = k indica que x pertence classe Ck . Sem perda de + 10 p(x, y = 1) dx . (2)
R0
generalidade, assume-se que C0 e C1 e seus rtulos associ-
ados, correspondem, respectivamente, s classes majoritria
(ou negativa) e minoritria (ou positiva). O objetivo da ta- onde p(x, y = k) = p(x|y = k)P (y = k). Seja Lj (x) o
refa de classificao portanto, construir um mapeamento risco condicional (ou custo esperado) de atribuir um exemplo
(ou regra de deciso) que descreve o relacionamento entre arbitrrio x classe Cj (Duda et al., 2000),
as variveis de entrada x e de sada y. Uma vez definida,
tal regra pode ser usada para decidir a classe para um dado
exemplo de entrada, i.e., estimar y a partir de x. Lj (x) = kj P (y = k|x) . (3)
2.1 Teoria de Deciso Bayesiana onde P (y = k|x) a probabilidade a posteriori de x per-

tencer classe k definida em (1). Baseado na definio do
A Teoria de Deciso Bayesiana fornece o modelo probabils- risco condicional, a regra de deciso tima que minimiza o
tico fundamental para os bem conhecidos procedimentos de risco global (2) aquela que atribui cada vetor de entrada x
classificao de padres (Berger, 1985; Bather, 2000). Com classe Cj para a qual Lj (x) mnimo, i.e.,
base nesse modelo, regras de deciso timas podem ser obti-
das quando as distribuies de probabilidade so conhecidas. (
(y=1|x)
C1 se P 01
P (y=0|x) > 10 ,
r (x) = (4)
Em um problema de classificao, sejam p(x|y = k) e C0 caso contrrio.
P (y = k) respectivamente, a densidade condicional e a
probabilidade de ocorrncia (a priori) para a classe Ck . A Usando o teorema de Bayes (1), a regra (4) pode ser rees-
partir dessas quantidades, a probabilidade (a posteriori) de crita em termos da razo entre as densidades condicionais
um exemplo x, previamente observado, pertencer classe p(x|y = k) para cada classe (razo de verossimilhana),
Ck pode ser calculada, usando o teorema de Bayes a seguir
(Duda et al., 2000), (
p(x|y=1) P (y=0)
C1 se p(x|y=0) > 01
10 P (y=1)
,
r (x) = (5)
C0 caso contrrio.
1 Particularmente nesse artigo, os custos das classificaes corretas so
p(x|y = k)P (y = k) considerados como zero, i.e., kk = 0 para toda classe Ck . No entanto,
P (y = k|x) = . (1) para um tratamento mais geral, veja Elkan (2001).
p(x)

De acordo com (5), x atribudo C1 (classe positiva) se a obtidos (i.i.d.) a partir das distribuies desconhecidas
razo de verossimilhana excede um limiar (threshold) inde- p(x, y = k), o problema de classificao encontrar a fun-
pendente de x, que baseado na interao das razes entre o tima f (ou regra de deciso) que minimiza a probabi-
custos e probabilidades a priori dos grupos. Essa interao lidade do erro global de classificao (6) sobre a classe de
possui importante papel na determinao das probabilidades funes f : Rn {0, 1} suportadas pela mquina (algo-
de erro para cada classe e tem sido muito explorada na obten- ritmo) de aprendizado.
o de solues para o problema de classes desbalanceadas.
Esses aspectos so discutidos mais adiante nas Sees 3 e 4, Note que a formulao apresentada assume consequncias
respectivamente. (custos) iguais para os diferentes erros de classificao (fun-
o de perda 0/1), visando assim a minimizao de um cri-
Note que quando as densidades conjuntas p(x, y = k) e os trio (funcional) que corresponde taxa de erro esperado.
custos kj so conhecidos, regras de deciso timas que mi- Embora a premissa de custos iguais seja mais fiel ao modelo
nimizam o funcional risco (2) podem ser diretamente ob- probabilstico adotado, ela tende, em um cenrio desbalance-
tidas. Funes discriminantes lineares e quadrticas, por ado, a produzir regras de deciso que favorecem a classe com
exemplo, podem ser derivadas analiticamente, considerando maior probabilidade de ocorrncia (majoritria). Essa carac-
que as verossimilhanas p(x|y = k) so distribuies nor- terstica pode no ser adequada para muitos problemas reais
mais multivariadas (Duda et al., 2000). Essa propriedade em que o objetivo detectar eventos raros a partir de uma
explorada na Seo 2.3, durante a caracterizao da natureza populao contendo grande quantidade de eventos comuns.
do problema. Particularmente, funes discriminantes line-
ares sero usadas para a obteno de superfcies de deciso A Seo 2.3 a seguir, fornece uma interpretao para o pro-
ideais em cenrios desbalanceados. blema de classes desbalanceadas. Desde que sua natureza
est diretamente associada formulao padro do problema
Na Seo 2.2 a seguir, a formulao padro para a tarefa de de aprendizado, a discusso conduzida com base nas pro-
classificao de padres apresentada com base na Teoria do priedades da soluo tima f que minimiza a taxa de erro
Aprendizado Estatstico (SLT) (Vapnik, 1995; Vapnik, 1998). esperado (6).
Nessa abordagem assumido por definio, que as densida-
des p(x, y = k) so desconhecidas. Assim, regras de deciso 2.3 Natureza do Problema
devem ser aprendidas usando somente um conjunto de dados
observados. A regra de deciso tima f pode ser obtida a partir das ex-
presses (4) ou (5), ao considerarmos custos iguais para os
2.2 Problema do Aprendizado erros de classificao (01 = 10 ). Tal regra, popularmente
conhecida como regra de Bayes (Duda et al., 2000), pode
Considerando o caso particular, em que 01 = 10 = 1 (fun- ser descrita em funo das verossimilhanas p(x|y = k), da
o de perda 0/1), o funcional risco global (2) se reduz seguinte forma,
probabilidade do erro global de classificao (ou taxa de erro
esperado) dado pela seguinte expresso (Duda et al., 2000), (
p(x|y=1) P (y=0)
1 se p(x|y=0) >P (y=1) ,
f (x) = (8)
0 caso contrrio.
P (Erro) = P (x R1 , y = 0) + P (x R0 , y = 1) Observe a partir de (8), que a deciso sobre a pertinncia

Z
de um exemplo arbitrrio classe positiva (minoritria)
= p(x, y = 0) dx
R1 diretamente influenciada pela razo entre as probabilidades
Z de ocorrncia das classes. Assim, para um problema com
+ p(x, y = 1) dx . (6) classes desbalanceadas, em que o limiar P P (y=0)
R0 (y=1) muito
maior que 1, a soluo tima f , buscada pelas mquinas
de aprendizado, naturalmente deve favorecer a classe majo-
onde P (x Rj , y = k) a probabilidade conjunta de x ser ritria. Para fins de ilustrao, considere a situao hipot-
atribudo classe Cj , sendo que sua verdadeira classe Ck . tica apresentada na Figura 1, onde as densidades condicio-
nais p(x|y = k) so representadas por distribuies gaussi-
Sob a formulao do aprendizado estatstico, dado um con- anas unidimensionais (conhecidas) possuindo sobreposio
junto finito de exemplos (conjunto de treinamento), e mesma varincia; x a superfcie de deciso estimada a
partir da regra f que divide o espao de entrada entre as
regies R0 e R1 . Note, atravs dessa figura, que se uma am-
{(xi , yi ) Rn {0, 1} | i = 1 . . . N } (7) biguidade surge na classificao de um exemplo de entrada

particular xi , devido aos valores similares observados para as analiticamente a partir das expresses de p(x|y = k) e das
densidades condicionais, i.e., p(x|y = 0) p(x|y = 1), f probabilidades P (y = k) (conhecidas) (Duda et al., 2000);
ir atribuir xi classe majoritria, desde que a razo entre as (ii) f (linha contnua) estimada por uma Support Vector Ma-
(y=0)
verossimilhanas no excede o limiar imposto por P P (y=1) .
chine (SVM) (Boser et al., 1992; Cortes and Vapnik, 1995)
Analisando a superfcie de deciso x no espao de entrada, com kernel linear atravs do conjunto de treinamento des-
um desvio em direo classe minoritria pode ser verifi- balanceado. Note que f f e, uma vez que o cenrio
cado. desbalanceado, ambas as superfcies encontram-se desvi-
adas em direo classe com menor nmero de exemplos.
f
Na Figura 3, f foi avaliada em relao ao conjunto de teste.
p(x|y = 0) p(x|y = 1) Foram observados 6 erros em relao classe minoritria e
apenas 1 erro em relao classe majoritria. Exemplo si-
milar ao apresentado, mostrado em Wu and Chang (2003)
com o objetivo de caracterizar o desvio da funo de deciso
f estimada por uma SVM com dados desbalanceados. Nesse
trabalho, no entanto, os autores consideram distribuies uni-
formes para as densidades condicionais p(x|y = k) e, assu-
mem a existncia de uma superfcie de separao ideal que
ento usada como referncia para avaliar o desvio apresen-
tado por f.
xi x x
R0 R1
f
4
f
Figura 1: Ilustrao do problema atravs de distribuies uni-
3
dimensionais conhecidas. Desde que as prioris so desba-
lanceadas, a soluo tima f favorece a classe majoritria. 2
Em situaes prticas, no entanto, no possvel encontrar 1

exatamente f . Assim, define-se f como uma estimativa
da soluo tima obtida a partir de um conjunto finito de x2 0
exemplos usando algum mtodo de aprendizado2 . Considere 1
ento, um cenrio desbalanceado, em que as propores de

2
exemplos para as classes no conjunto de treinamento refletem
as probabilidades de ocorrncia P (y = k). Desde que a re- 3
gra de deciso estimada f aproxima f , esperado devido ao

4
vis imposto pelo grupo dominante, que um nmero maior de
4 3 2 1 0 1 2 3 4
erros seja obtido para a classe minoritria. Essa caracterstica x1
ilustrada no exemplo a seguir, onde f estimada e avaliada,
respectivamente, a partir de conjuntos representativos de trei-
Figura 2: Superfcie de deciso f estimada usando o con-
namento e teste gerados (i.i.d.) de acordo com p(x, y = k).
junto de dados desbalanceado; f f e portanto, tambm
A Figura 2 apresenta dados sintticos (treinamento) obtidos
encontra-se desviada em direo ao grupo minoritrio.
a partir de duas distribuies gaussianas bidimensionais com
vetores de mdia 0 = (1, 1) e 1 = (1, 1), e matrizes importante ressaltar que o problema em questo no
de covarincia k (diagonais) cujos elementos na diagonal somente causado pelo desequilbrio entre as distribuies a
principal so iguais a 1.5. Os crculos pontilhados concntri- priori dos grupos. Outro fator determinante o nvel de
cos marcam as curvas de nvel para as distribuies. A razo incerteza (rudo) associado tarefa de classificao. Atra-
entre o nmero de exemplos da classe majoritria (crculos) vs de experimentos conduzidos com dados sintticos e re-
e minoritria (cruzes) 19 : 1. Duas superfcies de deci- ais, os trabalhos de Japkowicz and Stephen (2002) e, Prati
so podem ser observadas: (i) f (linha tracejada) estimada et al. (2004b) mostraram que para uma mesma razo de des-
2 Um princpio indutivo fornece uma prescrio geral para a obteno balanceamento, um aumento no nvel de sobreposio das
de f sobre a classe de funes f : Rn {0, 1} suportadas pela m- classes pode diminuir significativamente o nmero de clas-
quina de aprendizado (Cherkassky and Mulier, 2007). Princpios indutivos sificaes corretas para a classe minoritria. Em Japkowicz
comumente usados como, por exemplo, Minimizao Estrutural do Risco and Stephen (2002), os autores tambm sugeriram que do-
(Vapnik, 1995) e Regularizao (Girosi et al., 1995), estabelecem condies
mnios linearmente separveis so praticamente insensveis
que permitem a escolha de uma funo que constitui uma boa aproximao
para a soluo tima. Ambos so baseados em medidas de complexidade ao desbalanceamento. Em trabalho recente, Khoshgoftaar
para a classe de funes adotada. et al. (2010) realizaram uma extensa investigao emprica

reconhecimento de uma das classes quando os nveis de so-
4
f breposio e desbalanceamento so muito elevados. Eles de-
3 monstram essa caracterstica atravs de um experimento com
dados sintticos usando um classificador baseado em rede
2
MLP (Haykin, 1994).
1
Na discusso apresentada at agora, considerou-se que o
x2 0
grupo minoritrio representativo, i.e, que a quantidade (e
1 a disposio espacial) de exemplos suficiente para repre-
sentar as distribuies (alvo) p(x|y = 1) e P (y = 1) no con-
2
junto de treinamento. Com base nessa premissa, foi mostrado
3 que o problema de classes desbalanceadas surge como uma
propriedade inerente das solues baseadas na taxa de erro
4
global e, que a intensidade do vis causado pelo grupo domi-
4 3 2 1 0 1 2 3 4
x1 nante est mais associada complexidade dos dados (nvel
de sobreposio) do que a prpria desproporo apresentada
pelas classes. A partir dessas concluses, importante deixar
Figura 3: Avaliao de f sobre o conjunto de teste. claro que, para tarefas de classificao em que os grupos re-
presentam clusters bem definidos e separveis no espao de
entrada, a influncia do desbalanceamento deve ser mnima
sobre o impacto causado pela combinao rudo + desba-
e, em geral, no deve prejudicar o reconhecimento da classe
lanceamento no aprendizado de modelos baseados em redes
positiva. Para ilustrar essa idia, considere o toy problem
Multilayer Perceptron (MLP) e Radial Basis Function (RBF)
Duas Luas na Figura 4. Nesse exemplo, devido sepa-
(Haykin, 1994). Como resultado da investigao, foi repor-
rabilidade das distribuies p(x|y = k), a regra de deciso
tado que embora as redes MLP tenham se apresentado mais
tima3 f (linha tracejada) praticamente no sofre influn-
robustas presena de rudo + desbalanceamento do que
cia do desequilbrio entre as prioris P (y = k) (razo 5 : 1).
as redes RBF, a capacidade de discriminao de ambos os
modelos diminui em funo do aumento desses fatores. As As solues f1 (linha contnua) e f2 (linha pontilhada) foram
concluses obtidas nesses estudos se alinham com as proprie- estimadas, respectivamente, por uma SVM com kernel RBF
dades apresentadas por funes discriminantes lineares deri- e uma rede MLP treinada com algoritmo MOBJ (Teixeira
vadas de distribuies gaussianas multivariadas p(x|y = k). et al., 2000), usando o conjunto de treinamento formado pe-
Para esses discriminantes, o deslocamento causado pela dife- las classes negativa (crculos) e positiva (losangos preenchi-
rena entre as prioris diretamente proporcional razo en- dos). Note pela Figura 4, que apesar do grau de desbalancea-
tre as varincias e o quadrado da distncia entre os centrides mento (razo 5 : 1), no houve perda na capacidade de reco-
das classes (Gallinari et al., 1991; Duda et al., 2000). Assim, nhecimento da classe de interesse. Observe tambm, que as
se as varincias das classes so muito pequenas em relao regras de deciso f1 (linha contnua) e f2 (linha pontilhada)
s distncias entre seus centrides, as superfcies de deciso possuem forma similar f (linha tracejada), uma vez que
estimadas so relativamente independentes do desbalancea- a classe positiva, embora contenha poucos exemplos (losan-
mento. Isso explica porque, para determinadas aplicaes, gos preenchidos), ainda capaz de representar a distribuio
pequenas razes de desbalanceamento podem comprometer alvo (losangos). Concordando com a argumentao apresen-
mais a capacidade de reconhecimento da classe positiva do tada nesse exemplo, alguns estudos experimentais tm mos-
que as grandes. trado que, para determinados problemas reais, o aprendizado
da classe de interesse no sofre influncia do desbalancea-
Aplicaes reais apresentando razes de desbalanceamento mento das distribuies (Weiss and Provost, 2003; Batista
da ordem de 100 : 1, 1000 : 1 e at 10000 : 1 foram re- et al., 2004).
portadas, respectivamente, em He and Shen (2007), Kubat
et al. (1998) e Pearson et al. (2003). Em aplicaes dessa Para finalizar a discusso sobre o problema de classes des-
natureza, dependendo do nvel de sobreposio apresentado balanceadas, chamada a ateno para a possvel falta de
pelas classes, regras de deciso obtidas pela simples mini- representatividade da classe minoritria no conjunto de trei-
mizao da taxa de erro global, podem vir a perder sua ca- namento. Esse aspecto, conhecido como raridade absoluta
pacidade de discriminao, classificando todos os exemplos (Weiss, 2004; Weiss, 2005) surge principalmente devido
como pertencentes classe dominante. Nesses casos extre- dificuldade inerente na obteno de amostras pertencentes a
mos, toda a classe minoritria pode se tornar componente do 3 Nos exemplos ilustrados pelas Figuras 4 e 5, a regra de deciso tima f
erro irredutvel do classificador (Erro Bayes). Em Lawrence foi representada pela superfcie de deciso de margem mxima em relao
et al. (1998), os autores chamam a ateno para a falta de s distribuies alvo.

1.2 1.2
f
1 f1 f 1 f1
0.8 f2 0.8
0.6 0.6 f2
0.4 0.4
x2 0.2 x2 0.2
0 0
0.2 0.2
0.4 0.4
0.6 0.6
0.8 0.8
1 0.5 0 0.5 1 1.5 2 2.5 1 0.5 0 0.5 1 1.5 2 2.5
x1 x1
Figura 4: Separabilidade: distribuies separveis (sem Figura 5: Raridade absoluta: a falta de representatividade
rudo) asseguram que f e suas aproximaes, f1 e f2 , apre- das amostras positivas (losangos preenchidos) em relao
sentem boa capacidade de reconhecimento, independente distribuio real (losangos) produz regras de deciso, f1 e f2 ,
do desbalanceamento dos grupos. muito diferentes de f .
grupos raros. Nesses domnios, em que os exemplos positi- classificador f em relao a um dado grupo especfico (de in-
vos no so suficientes para representar as distribuies alvo, teresse). Considere, por exemplo, um conjunto de dados em
a qualidade da aproximao f em relao a soluo tima f que a classe minoritria representada por apenas 2% das ob-
pode ficar comprometida, independente dos fatores de des- servaes. Um classificador com acurcia de 98% pode ser
balanceamento e sobreposio do conjunto de dados. Essa diretamente obtido, por simplesmente classificar todo exem-
caracterstica ilustrada na Figura 5 atravs de um exemplo como pertencente classe majoritria. Apesar da elevada
plo simples, tambm baseado no toy problem Duas Luas. taxa de acurcia obtida, tal classificador torna-se intil se o
Nesse exemplo, amostras positivas (losangos preenchidos) objetivo principal a identificao de exemplos raros.
so muito raras e portanto, no so capazes de representar
de forma significativa a distribuio real (losangos). Como Muitos trabalhos tm chamado a ateno para os proble-
resultado, as regras de deciso f1 , SVM com kernel RBF mas causados pelo uso da acurcia em cenrios desbalan-
(linha contnua) e f2 , rede MLP-MOBJ (linha pontilhada), ceados (Bradley, 1997; Provost and Fawcett, 1997; Provost
estimadas a partir do conjunto de treinamento (razo 25 : 1), et al., 1998; Maloof, 2003; Cortes and Mohri, 2004; Sun
apresentam-se muito distantes de f (linha tracejada). Ob- et al., 2007). Nesse contexto, uma maneira mais eficaz de
serve ainda pela Figura 5, que devido ao conceito de rari- se avaliar um dado classificador f atravs da distino dos
dade absoluta, exemplos positivos isolados (indicados pelas erros (ou acertos) cometidos para cada classe. Isso pode ser
setas) foram considerados como rudo e ignorados na estima- obtido descrevendo o desempenho de f a partir de uma ma-
o de f1 e f2 . triz de confuso ou tabela de contingncia (vide Tabela 1)
(Fawcett, 2006). Cada elemento ek,j dessa matriz fornece
Na Seo 3, a seguir, so apresentadas as mtricas comu- o nmero de exemplos, cuja verdadeira classe era Ck e que
mente usadas para se avaliar o desempenho de classificadores foi atualmente classificado como Cj . Assim, os elementos
em aplicaes desbalanceadas. ao longo da diagonal principal representam as decises cor-
retas: nmero de verdadeiros negativos (T N ) e verdadeiros
3 MTRICAS DE AVALIAO PARA PRO- positivos (T P ); enquanto os elementos fora dessa diagonal
BLEMAS DESBALANCEADOS representam os erros cometidos: nmero de falsos positivos
(F P ) e falsos negativos (F N ).
Tradicionalmente, a mtrica usada na avaliao e seleo de
modelos de classificao a acurcia (ou taxa de erro) es-
timada em relao a um dado conjunto de teste. Essa me- Tabela 1: Matriz de Confuso para um classificador binrio.
todologia justificada pela formulao padro do problema predio (y = 0) predio (y = 1)
do aprendizado supervisionado que visa a minimizao da
probabilidade do erro global. Para problemas altamente des- real (y = 0) TN FP
balanceados, no entanto, a acurcia pode no fornecer infor- real (y = 1) FN TP
mao adequada sobre a capacidade de discriminao de um

A partir da Tabela 1, possvel extrair 4 mtricas importantes 2. G-mean: a mtrica G-mean foi proposta por Kubat et al.
que diretamente avaliam, de forma independente, o desempe- (1998) e corresponde mdia geomtrica entre as taxas
nho sobre as classes positiva e negativa, de verdadeiros positivos (T P r) e verdadeiros negativos
(T N r),
FP
Taxa de Falsos Positivos: F P r = (9)
TN + FP G-mean = TPr TNr . (16)
G-mean mede o desempenho equilibrado de um classifi-

FN cador em relao s taxas de acertos de ambas as classes
Taxa de Falsos Negativos: F N r = (10)
TP + FN (Sun et al., 2007).
TP 3.1 Anlise ROC

Taxa de Verdadeiros Positivos: T P r = (11)
TP + FN
Apesar das mtricas apresentadas na Seo 3 serem mais efi-
cientes na avaliao de classificadores em cenrios desbalan-
TN ceados, elas no permitem comparar seus desempenhos so-
Taxa de Verdadeiros Negativos: T N r = (12)
TN + FP bre uma faixa de valores de distribuies a priori ou custos
de erros de classificao. Essa limitao, no entanto, pode
Alm das taxas de erro/acerto para cada classe, outras m- ser superada atravs dos grficos (curvas) Receiver Opera-
tricas tm sido frequentemente adotadas com o objetivo de ting Characteristic (ROC) que foram originalmente desen-
fornecer avaliaes mais adequadas para aplicaes desba- volvidos na Teoria de Deteco de Sinais (Egan, 1975; Swets
lanceadas (Sun et al., 2007; He and Garcia, 2009). Em geral, et al., 2000) e, nos ltimos anos, tm sido usados pe-
esses critrios focam na deteco da classe minoritria ou las comunidades de Aprendizado de Mquina e Minerao
consideram com mesma relevncia a discriminao de am- de Dados para visualizao, avaliao e seleo de mode-
bas as classes. Entre as medidas mais usadas, encontram-se: los (Spackman, 1989; Fawcett, 2004; Fawcett, 2006; Prati
et al., 2008a).
1. F-measure: a mtrica F-measure considera somente
o desempenho para a classe positiva. Ela calcu- 3.1.1 Curvas ROC
lada a partir de duas importantes mtricas adotadas em
Recuperao de Informao: Recall e Precision (Tan As curvas ROC possuem propriedades que as tornam espe-
et al., 2005). Recall (R) equivalente taxa de ver- cialmente teis para domnios com classes desbalanceadas
dadeiros positivos (T P r) e denota a razo entre o n- e custos de erros desiguais. Para compreender seu signifi-
mero de exemplos positivos corretamente classificados cado terico, considere a seguinte regra de deciso expressa
e o nmero total de exemplos positivos originais, atravs da razo entre as densidades condicionais (razo de
verossimilhana),
TP
R = TPr = . (13)
TP + FN (
p(x|y=1)
C1 se p(x|y=0) > ,
Precision (P ), por sua vez, corresponde razo entre r (x) = (17)
C0 caso contrrio.
o nmero de exemplos positivos corretamente classifi-
cados e o nmero total de exemplos identificados como
positivos pelo classificador, Note que essa regra possui forma similar a (5) exceto que as
P (y=0)
razes entre os custos 10
01
e probabilidades a priori P (y=1)
TP esto implcitas no limiar de deciso (threshold). Assim,
P = . (14)
TP + FP variar o limiar implica em variar as razes entre os cus-
(y=0)
Baseado nessas definies, F-measure pode ser calcu- tos 01
10
e/ou probabilidades a priori P
P (y=1) (Cherkassky and
lada como, Mulier, 2007).
Supondo que as distribuies p(x|y = k) so conheci-

(1 + ) R P
F-measure = . (15) das (ou foram estimadas), um valor especfico para de-
2 R + P
termina as probabilidades de erro/acerto para cada classe:
onde usado para ajustar a importncia relativa entre P (x R0 |y = 1) (falsos negativos), P (x R1 |y = 1)
Recall e Precision. Tipicamente, = 1. (verdadeiros positivos), P (x R1 |y = 0) (falsos positivos)

e P (x R0 |y = 0) (verdadeiros negativos); veja Figura 6. 1
Tais probabilidades podem ser calculadas analiticamente por 0.9
T P r P (x R1 |y = 1)
0.8
Z 0.7 Curva ROC
P (x Rj |y = k) = p(x|y = k)dx , (18) 0.6
Rj
0.5
0.4
com j, k {0, 1}.
0.3
0.2

0.1
p(x|y = 0)
0
0 0.2 0.4 0.6 0.8 1
p(x|y = 1) F P r P (x R1 |y = 0)
Figura 7: Curva ROC descrevendo o trade-off entre as pro-

babilidades (ou taxas) de deteco e falsos alarmes.
o estimada f produz, para cada exemplo x, um score4 que

representa o grau de pertinncia do exemplo classe positiva.
Uma curva ROC pode ento ser obtida a partir da variao de
R0 x0 R1 x um limiar de deciso sobre toda a faixa de scores (ranking)
produzida. Cada valor de determina valores absolutos para
as taxas de deteco (verdadeiros positivos) e falsos alarmes
Figura 6: Limiar de deciso () determinando as probabilida- (falsos positivos). Sua variao sobre toda a faixa de sada de
des de acerto para a classe positiva (rea em cinza) e erro f gera uma curva que mostra graficamente o trade-off entre
para a classe negativa (rea em preto). a taxa de verdadeiros positivos (T P r) e a taxa de falsos po-
A capacidade de discriminao da regra (17) sobre toda a sitivos (F P r). Para um conjunto finito de dados, essas quan-
faixa de valores do limiar (0 ) dada pela curva tidades correspondem, respectivamente, s estimativas para
Receiver Operating Characteristic (ROC) (Cherkassky and as probabilidades P (x R1 |y = 1) e P (x R1 |y = 0)
Mulier, 2007). Como pode ser visto na Figura 7, uma curva (veja Figura 7). A curva ROC do classificador ideal possui
ROC reflete os erros de classificao em termos das probabi- o formato da funo de Heaviside (Heaviside step function)
lidades de deteco P (x R1 |y = 1) (eixo vertical) e falsos no domnio 0 F P r 1, indicando que f foi capaz de
alarmes P (x R1 |y = 0) (eixo horizontal) quando va- assinalar scores mais elevados para os exemplos positivos do
riado. Portanto, controla a frao de exemplos da classe que para os exemplos negativos. Isso caracteriza um ranking
C1 corretamente classificados versus a frao de exemplos perfeito. Um algoritmo eficiente para computar a curva ROC
da classe C0 incorretamente classificados. Esse relaciona- pode ser encontrado em Fawcett (2006).
mento tambm conhecido como trade-off sensibilidade-
Preferencialmente, um conjunto de teste deve ser usado para
especificidade (Lasko et al., 2005).
a obteno da curva ROC que fornece uma estimativa da ca-
pacidade discriminativa do classificador em termos das pro-
3.1.2 Estimando Curvas ROC a partir de Conjun- babilidades de erro (Cherkassky and Mulier, 2007). Uma vez
tos de Dados estimada, essa curva til para a escolha de um ponto de
operao segundo um critrio adotado (Provost and Faw-
Na prtica, as distribuies das classes so desconhecidas e
cett, 1998; Provost and Fawcett, 2001). Por exemplo, pode-
somente os dados de treinamento encontram-se disponveis.
se escolher um classificador (ponto de operao) que ga-
Dessa forma, na abordagem generativa do aprendizado, a ob-
ranta uma probabilidade muito pequena de erros do tipo falso
teno da curva ROC envolve a estimao das densidades
positivo (critrio de Neyman-Pearson) (Duda et al., 2000).
p(x|y = k) a partir desses dados e, posterior variao do
Cabe ressaltar entretanto, que a acurcia da curva ROC ob-
limiar na regra de deciso (17).
4 Para obteno da Curva ROC, os scores produzidos por um classificador
Nesse artigo, no entanto, a discusso est focada na abor-
no precisam representar estimativas exatas das probabilidades a posteriori
dagem discriminativa, onde regras de deciso so estimadas
(scores relativos). Em Zadrozny and Elkan (2001), no entanto, os autores
diretamente do conjunto de treinamento a partir da minimiza- mostram alguns mtodos para obter probabilidades a posteriori calibradas a
o de um funcional risco. Nesse caso, considere que a fun- partir de scores relativos.

tida (atravs do conjunto de teste) dependente da qualidade tre custos e probabilidades a priori. Assim, uma vez que as
da soluo estimada f usando os dados de treinamento. prioris frequentemente refletem as propores observadas no
conjunto de treinamento, um aumento no nmero de exem-
Diferentes classificadores podem ser comparados atravs de plos de uma das classes deve causar um aumento no custo
suas curvas ROC, contrastando seus desempenhos de de- de seus erros da classificao. Como visto na Seo 3.1, essa
teco T P r para vrios valores de ou, equivalentemente, mudana deve refletir nas probabilidades de erro obtidas para
F P r. Em alguns casos, as curvas ROC cruzam, indicando a regra de deciso estimada a partir do novo conjunto de trei-
que um classificador no fornece melhor desempenho para namento. Da mesma forma, a incorporao direta de diferen-
todos os valores de . A Area Under the ROC Curve (AUC) tes custos no funcional risco deve intensificar/aliviar o grau
(Hanley and Mcneil, 1982) fornece uma medida geral da ca- de influncia causado pelo desnvel das distribuies no con-
pacidade de discriminao do classificador que indepen- junto treinamento. Alguns trabalhos na literatura tm explo-
dente do valor selecionado para . Isso resulta em uma me- rado esse relacionamento para a obteno de modelos sens-
dida de desempenho que insensvel aos custos de classifi- veis ao custo a partir de mudanas nas distribuies das clas-
cao e probabilidades a priori. ses (Pazzani et al., 1994; Elkan, 2001; Zhou and Liu, 2006).
Na Seo 4.1 a seguir, uma breve reviso das solues pro-

4 ESTADO DA ARTE DAS SOLUES
postas no mbito da categoria pr-processamento de dados
A discusso conduzida na Seo 2, mostrou que a formu- apresentada. Em seguida, na Seo 4.2, feita uma reviso
lao padro comumente adotada na obteno de modelos das abordagens baseadas em adaptaes em algoritmos de
discriminativos pode prejudicar a identificao de exemplos aprendizado.
da classe minoritria (de interesse) quando os dados dispon-
veis apresentam nveis elevados de desbalanceamento e so- 4.1 Pr-Processamento de Dados
breposio. A obteno de solues que melhoram o nmero
de classificaes positivas corretas, compensando (ou alivi- Na abordagem de pr-processamento de dados, o objetivo
ando) o efeito causado pelo desequilbrio entre as distribui- balancear o conjunto de treinamento atravs de mecanis-
es portanto, um dos objetivos da pesquisa em aprendi- mos de reamostragem de dados no espao de entrada, que
zado com classes desbalanceadas. incluem sobreamostragem da classe minoritria, subamos-
tragem da classe majoritria ou a combinao de ambas as
De forma geral, as abordagens que tm sido propostas para tcnicas (Japkowicz, 2000b; Laurikkala, 2001; Estabrooks
tratar do problema podem ser enquadradas em duas grandes et al., 2004; Batista et al., 2005).
categorias de acordo com a estratgia adotada. Na primeira
categoria, denominada pr-processamento de dados, a idia A sobreamostragem baseada na replicao de exemplos
bsica modificar as distribuies das classes no conjunto preexistentes (sobreamostragem com substituio) ou na ge-
de treinamento atravs de mecanismos de reamostragem de rao de dados sintticos. No primeiro caso, a seleo de
dados no espao de entrada. A segunda categoria envolve exemplos a serem replicados pode ser aleatria (sobreamos-
adaptaes em mtodos de aprendizado existentes. Isso tragem aleatria) ou direcionada (sobreamostragem infor-
feito principalmente a partir de propostas e/ou modificaes mativa). Com relao gerao de dados sintticos, a tcnica
de funcionais risco (funo custo) otimizados. Uma prtica de interpolao comumente usada. Por exemplo, no conhe-
comum modificar a funo custo para permitir a incorpora- cido mtodo SMOTE (Synthetic Minority Oversampling Te-
o de diferentes custos de classificao. chnique), proposto em Chawla et al. (2002), para cada exem-
plo positivo xi , novos exemplos artificiais so criados entre
Uma relao direta entre os princpios bsicos das solues os segmentos de reta que ligam xi aos seus k vizinhos mais
que propem mudanas nas distribuies das classes e in- prximos.
corporao de custos de classificao pode ser estabelecida.
Para isso, considere novamente a regra de deciso (5) que A subamostragem envolve a eliminao de exemplos da
minimiza o risco global (2). De acordo com essa regra, um classe majoritria. Os exemplos a serem eliminados podem
novo exemplo x atribudo classe C1 (positiva) se, ser escolhidos aleatoriamente (subamostragem aleatria) ou
a partir de alguma informao a priori (subamostragem infor-
mativa). O algoritmo OSS (One-Sided Selection), proposto
p(x|y = 1) 01 P (y = 0)
> . (19) em Kubat and Matwin (1997), considerado um exemplo
p(x|y = 0) 10 P (y = 1) de subamostragem informativa. Aps selecionar um subcon-
junto representativo da classe majoritria e combin-lo com
onde 01 e 10 denotam, respectivamente, os custos dos er-
todos os exemplos da classe minoritria, o algoritmo OSS
ros para a classe negativa e positiva. Observe a partir de (19),
que o limiar de deciso baseado na interao das razes en-

usa tcnicas de limpeza (data cleaning) para obter clusters exemplos cuja classe original difere do rtulo do cluster ao
bem definidos para ambas as classes. qual pertencem.
Apesar das tcnicas de subamostragem e sobreamostragem As dificuldades observadas na aplicao dos mtodos de re-
possurem o mesmo propsito, elas introduzem diferentes amostragem existentes motivam melhorias e o surgimento
caractersticas ao novo conjunto de treinamento que podem de novas estratgias. Entre as abordagens mais recentes,
algumas vezes, dificultar o aprendizado (Drummond and destacam-se pelos resultados obtidos: (i) o mtodo BED
Holte, 2003; Mease et al., 2007; He and Garcia, 2009). Por (Boundary Elimination and Domination Algorithm) (Castro
exemplo, no caso de subamostragem aleatria, o principal et al., 2009) proposto para melhorar a capacidade de discri-
problema a perda de informao causada pela elimina- minao de SVMs. BED usa informao sobre a densidade
o de exemplos representativos da classe majoritria. Su- dos dados no espao de entrada para eliminar exemplos rui-
bamostragem informativa tenta solucionar esse problema por dosos e intensificar o nmero de exemplos positivos junto
eliminar uma frao menos representativa como, por exem- fronteira das classes; (ii) o algoritmo GSVM-RU (Granular
plo, exemplos redundantes, ruidosos e/ou prximos fron- Support Vector Machines - Repetitive Undersampling), pro-
teira de separao entre as classes (borderlines). Cabe res- posto em Tang and Zhang (2006) e Tang et al. (2009), que
saltar, entretanto, que a escolha de critrios adequados para usa as propriedades do aprendizado de SVMs como um me-
selecionar esses exemplos no uma tarefa fcil. Grande canismo para subamostragem. A estratgia produz inmeros
parte dos mtodos informativos usam o algoritmo KNN (K- grnulos de informao a partir de sucessivos treinamentos
Nearest Neighbour) para guiar o processo de subamostragem com uma SVM linear. A cada treinamento, um novo gr-
(Kubat and Matwin, 1997; Zhang and Mani, 2003; Batista nulo formado a partir dos vetores de suporte negativos e
et al., 2004). O algoritmo BalanceCascade, por sua vez, usa removido do conjunto de treinamento original. Aps a ob-
uma estratgia iterativa de gerao de um ensemble de clas- teno de mltiplos grnulos informativos, uma operao de
sificadores para a escolha dos exemplos a serem removidos agregao usada para selecionar conjuntos especficos de
(Liu et al., 2009). amostras, que so posteriormente combinadas para desen-
volver um classificador SVM final; (iii) um mtodo hbrido
Com relao a sobreamostragem, alguns problemas tm sido composto por modelos baseados em regras e algoritmos evo-
reportados. No contexto de rvores de deciso (Breiman lucionrios (Milar et al., 2010). A abordagem cria diferen-
et al., 1984), foi observado que o uso de sobreamostragem tes conjuntos balanceados que so ento usados na induo
com substituio no melhora de forma significativa o reco- de classificadores cuja sada um grupo de regras (tais como
nhecimento da classe minoritria (Chawla et al., 2002; Mease rvores de deciso). Cada conjunto balanceado contm todos
et al., 2007). Isso ocorre devido gerao de inmeras clu- os exemplos da classe minoritria e uma parcela de exemplos
sulas em um regra para mltiplas cpias do mesmo padro, da classe dominante obtida atravs de subamostragem alea-
tornando a regra muito especfica. Outro problema relacio- tria. Aps a obteno de todos os modelos, um algoritmo
nado sobreamostragem, o aumento da varincia (sobre- evolucionrio usado para fazer uma busca no espao de re-
posio) causado por tcnicas de gerao de dados sintticos gras, selecionando um subconjunto timo para construo do
que no consideram a vizinhana entre as classes, como o classificador final; (iv) um algoritmo gentico (AGB) pro-
caso do mtodo SMOTE (He and Garcia, 2009). Para supe- posto para guiar o processo de sobreamostragem da classe
rar essa limitao, adaptaes tm sido propostas para guiar minoritria (Beckmann and Lima, 2009; Beckmann, 2010).
o processo de interpolao adotado (Han et al., 2005; He AGB evolui buscando pelo melhor posicionamento de re-
et al., 2008). Alm disso, tcnicas de data cleaning, tais gies de sobreamostragem dentro dos limites mnimos e m-
como links de Tomek (Tomek, 1976) e ENN (Edited Nea- ximos definidos pelos exemplos positivos originais. Para que
rest Neighbor rule) (Wilson, 1972), tm sido sido aplica- as classes tornem-se balanceadas, essas regies so preenchi-
das para reduzir o nvel de rudo presente nos dados (Batista das proporcionalmente com exemplos sintticos. Ao final do
et al., 2004; Batista et al., 2005). No trabalho de Machado processo evolutivo, AGB fornece a soluo que detm a me-
and Ladeira (2007b), por exemplo, uma estratgia de limpeza lhor combinao de regies e exemplos sintticos de forma a
denominada C-Clear foi proposta com o objetivo de guiar o maximizar a AUC (Area Under the ROC Curve) do classifi-
mtodo SMOTE, diminuindo o grau de sobreposio entre cador.
as classes. Primeiramente, C-clear agrupa todos os exem-
plos de treinamento em clusters, os quais so rotulados como
positivos (ou negativos) de acordo a frequncia de exemplos 4.2 Adaptaes em Algoritmos de Apren-
minoritrios/majoritrios presentes. O SMOTE ento apli- dizado
cado somente aos clusters positivos. Por ltimo, caso seja
necessrio, os clusters so limpos atravs da eliminao de Solues propostas nessa abordagem so baseadas na adap-
tao de algoritmos de aprendizado existentes visando me-

lhorar, ao mesmo tempo, o nmero de classificaes posi- rar o reconhecimento da classe positiva, atravs de uma me-
tivas corretas e a acurcia geral do classificador. Devido todologia similar adotada na primeira classe de solues
diversidade das solues dessa categoria, o objetivo no foi (abordagem baseada em reconhecimento). Nessa metodo-
de realizar uma reviso exaustiva, mas de prover uma anlise logia, algoritmos no-supervisionados como, por exemplo,
de uma amostra representativa de trabalhos. Para facilitar o mapa auto-organizvel (SOM) (Kohonen et al., 2001) so
a apresentao, essa amostra foi dividida em trs grupos ou empregados para modelar, a partir dos dados de treinamento,
classes. Seguindo a discusso terica apresentada na carac- somente a distribuio (densidade) da classe majoritria e,
terizao do problema de classes desbalanceadas (Seo 2), em seguida, verificar para cada novo exemplo observado se o
uma nfase ser dada ao grupo de mtodos que modificam a mesmo (ou no) oriundo dessa distribuio. Caso no seja,
formulao padro do aprendizado que baseada na minimi- o exemplo considerado como uma novidade (outlier) e as-
zao da taxa de erro global. sinalado ao grupo minoritrio (Lee and Cho, 2006; Tamee
et al., 2008). Essa tcnica conhecida na literatura como de-
A primeira classe de solues, conhecida como abordagem teco de novidades e para maiores detalhes sobre sua imple-
baseada em reconhecimento, considera somente exemplos mentao, recomenda-se os trabalhos de Markou and Singh
positivos durante o processo de aprendizado com o objetivo (2003) e Hodge and Austin (2004).
de reconhecer (ou reconstruir) a classe de interesse (minori-
tria). As principais estratgias nessa linha incluem o auto- A segunda classe de solues baseada em extenses do al-
associator (Japkowicz, 2001; Manevitz and Yousef, 2007) goritmo de Boosting, cujo princpio bsico iterativamente
e one-class SVMs (Schlkopf et al., 2001; Raskutti and atualizar uma funo de distribuio para o conjunto de trei-
Kowalczyk, 2004; Manevitz and Yousef, 2002; Bergamini namento de forma que maior/menor ponderao seja dada
et al., 2009). O autoassociator (Japkowicz, 2001) consiste aos exemplos incorretamente/corretamente classificados. A
em uma topologia de rede MLP com a camada de sada con- maior parte dessas extenses realizada atravs da incor-
tendo o mesmo nmero de unidades da camada de entrada. porao de diferentes fatores (ou funes) de custo direta-
O objetivo do aprendizado reproduzir cada vetor de entrada mente na funo de distribuio, com o objetivo de distinguir
na sada da rede. Assim, para cada exemplo positivo no con- a importncia entre grupos e aumentar de forma mais sig-
junto de treinamento, o vetor que representa a sada desejada nificativa os pesos associados aos exemplos (erros/acertos)
o prprio vetor de entrada. Em Japkowicz (2001), o au- da classe minoritria. Essa estratgia, conhecida na litera-
toassociator foi comparado redes MLP discriminadoras, tura como Cost-Sensitive Boosting, permite o uso de amos-
i.e., treinadas a partir das 2 classes. Os resultados obtidos tras mais relevantes no treinamento das hipteses (weak-
mostraram que sob certas condies como, por exemplo, em learners), visando a obteno de uma regra de deciso fi-
domnios multimodais, a abordagem proposta foi superior nal que d mais importncia classe de interesse. Base-
tradicional. Schlkopf et al. (2001) propuseram um mtodo ados nessa metodologia, mtodos Cost-Sensitive Boosting
para adaptar o algoritmo de SVMs para o aprendizado de tm sido propostos, tais como AdaCost (Fan et al., 1999),
uma nica classe. Um estudo sistemtico que explora o uso CSB1 e CSB2 (Ting, 2000) e, AdaC1, AdaC2 e AdaC3 (Sun
de one-class SVMs em dados sintticos e reais foi realizado et al., 2007). Um estudo emprico envolvendo a aplicao
em Raskutti and Kowalczyk (2004). Os autores argumenta- desses mtodos a vrios problemas reais de diagnstico m-
ram que embora a abordagem tradicional (two-class SVMs) dico foi conduzido por Sun et al. (2007). Usando rvores de
tenha sido superior para conjuntos de dados comuns, o deciso como classificadores base, os autores investigaram
aprendizado a partir de uma nica classe (positiva) parti- os algoritmos com relao a suas diferentes estratgias de
cularmente robusto na presena de rudo, esparsividade (alta ponderao e mostraram que os mesmos foram efetivos em
dimensionalidade) do espao de caractersticas e elevada des- melhorar a identificao da classe positiva. Outra extenso
proporo entre as classes. Essas argumentaes so refor- do mtodo de Boosting foi apresentada em Rodrigues et al.
adas no trabalho de Bergamini et al. (2009), onde one-class (2009). No algoritmo B-Boost, proposto nesse trabalho, a
SVMs foi empregado para a combinao de diferentes sis- seleo de exemplos mais relevantes (a cada iterao) rea-
temas biomtricos. Nos trabalhos de Manevitz and Yousef lizada separadamente por classe. Essa pequena modificao
(2002; 2007), os autores exploram, respectivamente, o uso permite a obteno de conjuntos de treinamento balancea-
de one-class SVMs e autoassociator em tarefas de classificados contendo os exemplos mais difceis de cada classe. Tais
o de documentos, mostrando que ambas as tcnicas foram conjuntos so ento usados na induo das hipteses (weak-
efetivas. learners). A eficincia do B-Boost em problemas desbalan-
ceados foi comprovada atravs da execuo de experimentos
Antes de abordar a prxima classe de solues, impor- com 20 bases de dados do repositrio UCI (Asuncion and
tante ressaltar que embora o escopo dessa reviso esteja li- Newman, 2007).
mitado a mtodos de aprendizado supervisionado, mtodos
no-supervisionados tambm podem ser usados para melho-

Finalmente, a ltima classe de solues dessa categoria est
relacionada a propostas e/ou modificaes de funcionais 1 2
X X
risco (funo custo). Assumindo a premissa de custos iguais min(w,b,i ) kwk + C 1 i + C 0 i . (20)
2
para os erros de classificao, a maioria dos algoritmos de iT1 iT0
aprendizado existentes so projetados para minimizar o erro

s.a. yi (hw xi i + b) 1 i , i T .
global sobre o conjunto de treinamento. Modificaes nesse
critrio, com o objetivo de obter regras de deciso que me- i 0, i T .
lhoram o reconhecimento da classe minoritria, tm sido pro-
postas de diferentes formas. A estratgia que tem sido mais onde w e b correspondem aos parmetros do hiperplano
usada considerar a diviso do erro global entre as classes e (hw xi + b = 0) em algum espao de caractersticas F e
incorporar funes de penalidade (ou fatores custo) distintas as variveis de folga i so introduzidas para permitir erros
aos diferentes tipos de classificao. Essa tcnica comu- de classificao. A formulao dual equivalente dada por,
mente conhecida como Abordagem Sensvel ao Custo e segue
o princpio de minimizao do custo esperado (risco global)
da Teoria de Deciso Bayesiana, apresentada na Seo 2.1. N N
Outras solues, particularmente no contexto de mquinas de
X 1 X
max() i yi yj i j K(xi , xj ) . (21)
kernel (Muller et al., 2001), que envolvem modificaes no i=1
2 i,j=1
espao de caractersticas induzido, tais como deslocamento
do hiperplano ou aumento da resoluo espacial dos exem- s.a. 0 i C 1 , i T1 . (22)
plos positivos, influenciam diretamente o critrio de deciso 0
0 i C , i T0 . (23)
adotado. Alm disso, a diviso do erro global entre as clas- N
ses tem permitido uma formulao multiobjetivo para o pro-
X
i yi = 0 . (24)
blema do aprendizado. i=1
Nessa reviso, uma maior ateno dedicada s solues

dessa ltima classe e assim, uma descrio detalhada dos onde K (x, x0 ) representa a funo de kernel. Resolvendo
principais trabalhos propostos no mbito de mquinas de ker- o problema dual, os multiplicadores de lagrange i , cujos
nel e Redes Neurais Artificiais (RNAs) fornecida nas se- tamanhos so limitados por C 1 e C 0 , so estimados; o par-
es a seguir. Para facilitar o entendimento do leitor, so metro b pode ser obtido a partir de algum exemplo xi com i
apresentadas aqui as principais notaes usadas para des- no nulo (vetor de suporte). A classificao de um exemplo
crever os mtodos. Seja um conjunto de treinamento T = arbitrrio xj dada pela seguinte regra de deciso (mesma
N
{xi , yi }i=1 consistindo de N exemplos pertencentes a duas regra da SVM original),
classes, onde yi Y denota o rtulo para cada vetor de en-
trada xi Rn . A natureza do conjunto Y dependente da N
X
!
conveno adotada pelo algoritmo de aprendizado. SVMs e sgn yi i K(xi , xj ) + b . (25)
outras mquinas de kernel, por exemplo, frequentemente as- i=1
sumem Y = {1, 1} e, assim, yi torna-se uma simples vari-
vel simblica. Quando necessrio, a natureza de Y ser espe- A idia bsica do mtodo compensar o desbalanceamento
1
cificada durante a descrio do algoritmo. Considere tambm do conjunto de dados a partir do ajuste da razo C
C 0 . Segundo
que existem N1 exemplos da classe positiva ou minoritria, C
Veropoulos et al. (1999), se C
1
0 > 1, a estratgia permite au-
T1 e, N0 exemplos da classe negativa ou majoritria, T0 . Ve- mentar a influncia dos vetores de suporte da classe positiva,
tores de entrada arbitrrios pertencentes s classes positiva e desde que valores maiores de i so obtidos para os exem-
negativa so denotados, respectivamente, por x1 e x0 ; como plos positivos, conforme condies de KKT (karush-kuhn-
antes, 01 e 10 representam os custos referentes aos falsos tucker) dadas por (22) e (23). Isso faz com que a superfcie
positivos e falsos negativos, respectivamente. de deciso fique mais distante da classe minoritria e conse-
quentemente, o nmero de falsos negativos diminua.
4.2.1 SVMs com Custos Assimtricos
Com o objetivo de equilibrar os custos das classes positiva
No contexto de SVMs, Veropoulos et al. (1999) distinguiram e negativa, Morik et al. (1999) e Joachims (2002) propuse-
1
N0
os erros entre as classes positiva e negativa atravs da intro- ram que a razo CC 0 seja igual a N1 . Em Lin et al. (2002)
duo de diferentes parmetros de regularizao: C 1 e C 0 . foi adotada uma estratgia diferente para o ajuste de C 1 e C 0
Assumindo yi {1, 1}, os autores propem a seguinte mo- que alm de considerar custos desiguais (para falsos positi-
dificao na funo custo do problema primal de SVMs com vos e falsos negativos) tambm considera vis de amostra-
margens suaves (Cortes and Vapnik, 1995), gem. Segundo os autores, vis de amostragem ocorre quando

os exemplos no so amostrados de uma maneira completa-
mente aleatria, fazendo com que as propores de positivos N
e negativos no conjunto de treinamento no correspondam 1 2
X
min(w,b,i ) kwk + C i . (26)
s atuais propores na populao alvo. Assim, a seguinte 2 i=1
tcnica para o ajuste de C 1 e C 0 foi proposta,
s.a. yi (hw xi i + b) i , i T1 .
yi (hw xi i + b) 1 + i , i T0 .
i 0, i T .
onde > 1 corresponde razo entre a margem positiva e

C1 = 10 0 1 . negativa, ou seja, = 10 . O efeito obtido com o mtodo
o deslocamento paralelo do hiperplano obtido no espao de
C0 = 01 1 0 .
caractersticas de forma que a margem positiva fique vezes
maior que a margem negativa.
Os autores tambm mostraram que o mesmo efeito pode ser

obtido a partir da soluo do problema original proposto para
SVMs (Cortes and Vapnik, 1995), seguido de uma simples
onde 1 e 0 correspondem, respectivamente, s propores mudana no clculo do parmetro b (threshold) do hiper-
de exemplos positivos e negativos no conjunto de treina- plano de separao,
mento e 1 e 0 so essas propores (probabilidades a pri-
ori) na populao alvo, na qual a SVM deve ser aplicada. 1
[ w x1 + w x0 ] .

b= (27)
1+
Crticas eficincia das AC-SVM (SVMs com Custos Assi-
mtricos) foram feitas em Wu and Chang (2003). Baseados
nas condies de KKT, os autores argumentaram que a res- onde x1 e x0 correspondem, respectivamente, a vetores de
trio (24) impe equilbrio na influncia total dos vetores suporte arbitrrios da classe positiva e negativa.
de suporte de cada classe. Para que a restrio seja satis- Idia similar foi apresentada em Li and Shawe-Taylor (2003)
feita, um aumento nos valores de i para exemplos positi- porm, a incorporao do parmetro ocorre nas restries
vos tambm deve acarretar um aumento nos valores de i de desigualdade referentes aos exemplos da classe negativa.
para exemplos negativos. Apesar disso, a estratgia tem apre- Nesse trabalho, os autores mostraram a eficincia do mtodo
sentado bons resultados em aplicaes reais desbalanceadas. em problemas de categorizao de textos que, em geral, so
Em Akbani et al. (2004), os autores sugerem a combinao altamente desbalanceados.
de SMOTE + AC-SVM, obtendo bons resultados sobre ba-
ses de dados desbalanceadas do repositrio UCI (Asuncion
and Newman, 2007). Recentemente, uma estratgia de Bo- 4.2.3 Mudanas no Kernel
osting que sequencialmente usa AC-SVM como classifica-
Ainda no contexto de SVMs, Wu and Chang (2003; 2005) su-
dores base foi proposta em Wang and Japkowicz (2008). A
gerem duas abordagens para modificar o kernel empregado
cada iterao, um novo conjunto de dados com pesos modi-
C1 N0
considerando a distribuio dos dados como informao a
ficados aplicado a um AC-SVM com C 0 = N . Ao final
1 priori. O primeiro algoritmo, Adaptive Conformal Transfor-
do processo, as sadas dos classificadores componentes so mation (ACT) (Wu and Chang, 2003), modifica a funo de
ento combinadas, por um esquema de voto majoritrio pon- kernel K no espao de entrada I e, portanto, depende que os
derado, para produzir uma predio final. dados possuam uma representao vetorial de dimenso fixa.
O segundo, denominado Kernel Boundary Alignment (KBA)
4.2.2 SVMs com Margens Desiguais (Wu and Chang, 2004; Wu and Chang, 2005), modifica dire-
tamente a matriz de Kernel K no espao de caractersticas F,
Em Karakoulas and Shawe-Taylor (1999) foi proposta uma podendo lidar com dados de diferentes dimenses (sequn-
estratgia para diferenciar o tamanho das margens (positiva cias de DNA, vdeos de monitoramento, etc.).
e negativa) no treinamento de SVMs. Isso pode ser obtido a
partir da incorporao do parmetro nas restries de desi- A idia bsica em ambos os mtodos aumentar o valor da
gualdade referentes aos exemplos da classe positiva. A for- mtrica de Riemann para dados prximos fronteira de se-
mulao do problema primal de SVMs com margens suaves parao entre as classes. Segundo os autores, a mtrica de
dada por, Riemann associada funo de kernel K (x, x0 ), mede como

uma rea local ao redor de x em I aumentada em F a partir
do mapeamento imposto por (x). No algoritmo ACT, isso 1
obtido atravs de uma transformao conformal da funo (xb ) = (1 ) (x1 ) + (x0 ), 1 . (31)
2
de kernel K (x, x0 ),
O parmetro fornece indiretamente a localizao do hiper-

0 0 0 plano ideal em F. Seu valor timo obtido a partir da
K (x, x ) = D(x)D(x )K (x, x ) . (28)
minimizao de uma funo custo que mede a perda causada
onde D(x) uma funo positiva definida que deve ser esco- por falsos positivos e falsos negativos (vide Wu and Chang
lhida para que a nova mtrica de Riemann associada nova (2005) para detalhes). O prximo passo aumentar a m-
funo K (x, x0 ) possua valores maiores em regies prxi- trica de Riemann ao redor do hiperplano ideal. Para tanto,
mas fronteira de deciso entre as classes. Alm disso, para os autores sugerem D(x) como uma famlia de gaussianas,
obter uma superfcie de deciso mais distante da classe mino-
ritria, os autores propem que a mtrica de Riemann seja au-
mentada de forma mais intensa em regies prximas mar- 1 X
Nb
||(x) (xb )||

gem da classe positiva. Para isso, eles sugerem o uso de uma D(x) = exp . (32)
Nb b2
famlia de funes gaussianas para D(x), k=1
Nsv onde b2 representa a largura da gaussiana associada a um

X |x xk |
D(x) = exp . (29) dado s.v. interpolado (xb ) e, Nb corresponde ao nmero de
k2 s.v.s interpolados ao longo do hiperplano ideal. Para um
k=1
exemplo arbitrrio x, D(x) calculado como a mdia dessas
na qual Nsv representa o nmero total de vetores de suporte gaussianas. Desde que o mapeamento (x) desconhecido,
(s.v.s) e o parmetro de largura k2 , deve ser calculado para ||(x) (xb )|| pode ser obtido por,
cada s.v. segundo a distribuio espacial de sua vizinhana
no espao de caractersticas F. Para detalhes de como esse
clculo feito veja Wu and Chang (2003). Diferentes fatores
so ento multiplicados ao parmetro k2 , dependendo se k ||(x) (xb )|| = ||(x) (1 ) (x1 ) (x0 )||
corresponde a um s.v. positivo ou negativo, = kxx + (1 )2 kx1 x1 + 2 kx0 x0
2(1 ) kxx1 2 kxx0
k2 1 k2 + 2 (1 ) kx1 x0 .

se k um s.v. positivo,
(30)
k2 0 k2 se k um s.v. negativo
N0 N1 1 0
onde 1 = NSV 1 e 0 = NSV
0 com, NSV e NSV , represen- onde kxx0 extrado diretamente da matriz de kernel K.
SV SV
tando os nmeros de vetores de suporte das classes positiva Cada elemento de K ento modificado a partir da trans-
e negativa, respectivamente. Esse ajuste intensifica a resolu- formao conformal descrita a seguir,
o espacial em regies prximas aos s.v.s positivos. Aps
a obteno da funo transformada K (x, x0 ), um novo trei-
namento permite estimar uma regra de deciso com melhor kij = D(xi ) D(xj ) kij . (33)
capacidade discriminativa.
A nova matriz K obtida novamente usada pelo algoritmo de
No algoritmo KBA, os autores adotam a estratgia de aumen- treinamento original. Em Wu and Chang (2005), os autores
tar a resoluo espacial junto a um hiperplano de separao testaram a eficincia de seus mtodos em bases desbalancea-
considerado ideal. Eles partem da hiptese de que, quando das do repositrio UCI e obtiveram bons resultados.
o conjunto de dados desbalanceado, o hiperplano de mar-
gem mxima obtido pelas SVMs desviado em direo Outro algoritmo baseado em modificao do kernel foi pro-
classe minoritria. Assim, a superfcie de separao ideal posto em Kandola and Shawe-Taylor (2003). Os autores su-
deve ficar entre esse hiperplano (central) e o hiperplano re- geriram uma extenso do algoritmo Kernel Target Alignment
presentado pela margem da classe majoritria. A localizao (Cristianini et al., 2002), atribuindo targets de alinhamento
de um exemplo arbitrrio no hiperplano ideal obtida a de N10 para exemplos positivos e N11 para exemplos nega-
partir do seguinte procedimento de interpolao, que consi- tivos. Foi observado, no entanto, que o algoritmo no foi
dera um s.v. positivo (x1 ) e um s.v. negativo (x0 ) no eficiente para conjuntos de dados com elevado grau de des-
espao de caractersticas F, balanceamento.

4.2.4 Orthogonal Forward Selection

1 se u 0 e v = 1,
Hong et al. (2007) apresentaram um novo mtodo para a IdT (u, v) = (36)
0 caso contrrio.
construo de classificadores binrios baseados em kernels
que, segundo resultados empricos, tm mostrado bom de-
sempenho em aplicaes desbalanceadas. Para tanto, os au-
tores propuseram modificaes nos critrios de estimao de 1 se u 0 e v = 1,
IdF (u, v) = (37)
parmetros e seleo de modelos do algoritmo Orthogonal 0 caso contrrio.
Forward Selection (OFS) (Chen et al., 2006).
A cada passo do algoritmo OFS, o mtodo Regularized Segundo os autores, o critrio LOO-AUC no caro com-
Orthogonal Weighted Least Squares (ROWLS) usado para putacionalmente, desde que o mtodo ROWLS possui fr-
estimar os parmetros dos modelos candidatos atravs de mulas recursivas que algebricamente implementam LOO-
uma nova funo custo que distingue os erros obtidos para crossvalidation sem a necessidade de dividir o conjunto de
cada classe, treinamento.
X X 4.2.5 Redes Neurais Sensveis ao Custo

J = e2i + e2i . (34)
i T0 i T1 A estimao de parmetros de modelos neurais feed-forward
comumente obtida atravs da minimizao do funcional so-
onde o erro obtido na sada do classificador para um exemplo matrio dos erros quadrticos, que considera custos unifor-
arbitrrio xi dado por ei = yi fi , com yi {1, 1}. O mes para os diferentes erros de classificao. Essa estrat-
parmetro de custo > 1, que deve ser escolhido pelo usu- gia tem sido adotada pelos inmeros algoritmos de apren-
rio, usado para atribuir maior peso aos exemplos da classe dizado desenvolvidos para as topologias Multilayer Percep-
minoritria; tem o efeito de mover o hiperplano para longe tron (MLP) e Radial Basis Function (RBF) desde a intro-
da classe minoritria, garantindo que os modelos candidatos duo do algoritmo Backpropropagation padro (Rumelhart
sejam apropriados para aplicaes desbalanceadas. and McClelland, 1986). Como visto anteriormente, a pre-
missa de custos uniformes pode prejudicar o aprendizado
Para a seleo do melhor modelo entre os candidatos, os au- do grupo que possui menos exemplos no conjunto de treina-
tores propuseram o critrio Leave-One-Out Area Under the mento. Alm disso, estudos empricos mostraram que a ve-
ROC Curve (LOO-AUC). Segundo esse critrio, para um locidade de convergncia do algoritmo Backpropropagation
dado modelo candidato, os parmetros so estimados com fica comprometida se os grupos so muito desbalanceados
os N 1 exemplos do conjunto de treinamento, e o exemplo (Anand et al., 1993). Para aliviar esses problemas, mudanas
restante usado como validao, sendo a sada do classifica- na funo custo original tm sido propostas, principalmente a
(i)
dor para esse exemplo denotada por fi . A AUC ento partir da introduo de funes de penalidade associadas aos
calculada atravs das sadas de validao obtidas a partir do diferentes tipos de erro (Kukar and Kononenko, 1998; Alejo
LOO-crossvalidation, atravs da seguinte Equao, et al., 2006; Castro and Braga, 2009).
O trabalho de Kukar and Kononenko (1998) considera uma

() 1 + T P () F P () rede MLP com codificao 0 de c 1, onde c o nmero
AU C = . (35)
2 de unidades de sada (classes). Nessa codificao, dado um
vetor de entrada xi pertencente classe Tk , o rtulo yi asso-
(j)
onde, ciado um vetor cujo j-simo componente yi = jk , onde
jk o smbolo delta de kronecker definido como: jk = 1
se k = j e jk = 0 se k 6= j, para k, j = 0, . . . , c 1.
N Usando essa notao, os autores propuseram uma modifica-
1 X (i) o no funcional somatrio dos erros quadrticos atravs da
T P () = IdT (fi y i , yi ) .
N1 i=1 incorporao do fator (k, j), com k representando a classe
N desejada (correta) para o i-simo exemplo de treinamento e
() 1 X (i) j a classe atual,
FP = IdF (fi y i , yi ) .
N0 i=1
N c1
na quais as funes indicadoras IdT (u, v) e IdF (u, v) so 1 X X (j) (j)
2
J= [yi fi ] (k, j) . (38)
definidas por, 2 i=i j=0

(j) (j)
onde yi e fi correspondem, respectivamente, s sadas conjunta descrita pela soma ponderada dos erros quadrticos
desejada e obtida no j-simo neurnio de sada devido obtidos para as classes negativa e positiva, respectivamente,
apresentao do exemplo xi ; A definio do fator (k, j)
baseada nos custos kj associados aos erros de classificao
e, depende de dois aspectos: " #
1 1 X 2 1 X 2
J= (yi fi ) + (yi fi ) (41)
2 01 10
i T0 i T1
se o neurnio de sada j corresponde classe correta k
do i-simo exemplo de treinamento, ento a diferena
(j) (j) onde os fatores de custo 01 1 e 10 1, so usados para
yi fi pode ser interpretada como a probabilidade
de classificar o exemplo xi em qualquer uma das c 1 definir os pesos das contribuies dos erros de cada classe
classes incorretas. Essa probabilidade deve ser ponde- na composio de J. Note que quando 01 e 10 assumem
rada pelo custo esperado do erro para a classe k, descrito valores iguais a 1, a expresso (41) se reduz ao funcional
pela Equao (39) a seguir. somatrio dos erros quadrticos sobre todo o conjunto T .
para os demais neurnios j, que no correspondem Em Castro and Braga (2009) foi tambm conduzida uma an-
classe correta k do i-simo exemplo, a diferena lise detalhada sobre o papel dos parmetros 01 e 10 mos-
(j) (j) trando que a razo 01 /10 influencia diretamente a locali-
yi fi pode ser interpretada como a probabilidade
de classificar o exemplo xi na classe j dado xi pertence zao da superfcie de deciso estimada. Segundo os au-
k. Nesse caso, ela deve ser ponderada pelo custo kj . tores, regras de deciso com taxas de acerto aproximada-
mente equilibradas podem ser obtidas ajustando essa razo
de acordo com os nmeros de exemplos das classes, i.e.,
1 01 /10 = N0 /N1 .
P
1k j6=k j kj se k = j,
(k, j) = (39)
kj se k 6= j.

4.2.6 Abordagem Multiobjetivo
na qual k a probabilidade a priori da classe k. Com o objetivo de otimizar a curva ROC para classificadores
binrios baseados em redes MLP, alguns trabalhos na lite-
ratura (Kupinski and Anastasio, 1999; Sanchez et al., 2005;
Em Alejo et al. (2006), uma mudana na funo custo ori- Everson and Fieldsend, 2006a; Graening et al., 2006), for-
ginal foi proposta para redes RBF. Adotando a codificao 0 mularam o problema do aprendizado como um problema de
de c 1 na camada de sada, os autores consideram as con- otimizao multiobjetivo, da seguinte forma,
tribuies dos erros quadrticos obtidos para cada classe e
introduzem a funo de perda () para compensar o desba-
lanceamento, J0 ()
arg max (min) (42)
J1 ()
onde conjunto de parmetros (pesos) e as funes custo

c1 c1
1 X X X (j) (j)
2
J0 () e J1 () correspondem a mtricas extradas da ma-
J= (k) [yi fi ] . (40)
N triz confuso que medem o desempenho obtido pela rede
k=0 j=0 i Tk
para as classes T0 e T1 , respectivamente. Em Kupinski and
Anastasio (1999), os autores usaram J1 () = T P r() e
max(N )j
com (k) = Nk representando o custo associado ao J0 () = T N r(); em Sanchez et al. (2005) e Everson
se cometer erros para a classe k; max(Nj ) corresponde ao and Fieldsend (2006a) foram adotados J1 () = F N r() e
nmero de exemplos da maior classe. Segundo Alejo et al. J0 () = F P r(); e, no trabalho de Graening et al. (2006),
(2006), a funo () tem o efeito de equilibrar a magni- foram sugeridos J1 () = T P r() e J0 () = F P r().
tude (norma euclidiana) dos vetores gradiente obtidos para
cada classe, acelerando a convergncia e evitando que clas- Em todos os trabalhos, algoritmos evolucionrios multiobje-
ses muito pequenas sejam ignoradas no treinamento reali- tivo foram escolhidos para solucionar o problema (42). Ao
zado com o algoritmo Backpropropagation. final do processo de aprendizado, os algoritmos retornam
uma estimativa para o conjunto de solues no dominadas5
Limitando o escopo a problemas contendo somente 2 classes, denominado conjunto Pareto-timo. Todas as solues so
trabalho recente de Castro and Braga (2009) considera redes 5 Em um problema de otimizao multiobjetivo, uma soluo dita ser
MLP com uma nica unidade de sada, tal que yi {1, 1}. no dominada, se no existe nenhuma soluo com desempenho superior a
Nesse contexto, os autores propuseram uma funo custo ela em todos os objetivos.

equivalentes na ausncia de qualquer informao referente amento entre subclusters pertencentes uma mesma classe e
aos objetivos J0 () e J1 () e podem ser interpretadas como o problema de small disjuncts (Japkowicz, 2003; Jo and Jap-
pontos de operao de uma curva ROC tima. kowicz, 2004; Prati et al., 2004a; Machado, 2007; Machado
and Ladeira, 2007a). Com base nas informaes levantadas
Nos trabalhos supracitados no foi proposta nenhuma estra- at o momento, entende-se que solues promissoras para o
tgia de deciso para a escolha de uma soluo (ou ponto problema deveriam tratar ambos fatores: vis causado pela
de operao) no conjunto Pareto-timo. Os autores deixam diferena entre as probabilidades a priori das classes e a falta
a cargo do usurio escolher a soluo cujo desempenho seja de representatividade da distribuio minoritria.
mais apropriado para a tarefa de aprendizado em questo.
Outra questo importante est relacionada s solues pro-
Ainda dentro da abordagem multiobjetivo, um algoritmo de- postas para o problema. Abordagens de pr-processamento
nominado Pareto Front Elite (Ishida and Pozo, 2007) foi pro- de dados frequentemente so usadas para balancear o con-
posto para seleo de um subconjunto de regras de classi- junto de treinamento visando aumentar o nmero de exem-
ficao que otimiza a AUC (Area Under the ROC Curve). plos positivos corretos e diminuir a discrepncia entre as ta-
Pareto Front Elite funciona como uma estratgia de ps- xas de acertos das classes. Alguns trabalhos, no entanto, tm
processamento. A partir de um grande conjunto de regras argumentado que nem sempre a distribuio balanceada pro-
gerado por algum algoritmo de associao, o subconjunto duz os melhores resultados (Weiss and Provost, 2003; Esta-
timo selecionado atravs de testes de no dominncia ba- brooks et al., 2004; Prati et al., 2008b). Nesse contexto, surge
seados nos critrios T P r (sensibilidade) e T N r (especifici- uma questo importante: Dado um problema desbalanceado,
dade). qual a proporo (razo) ideal entre o nmero de exemplos
das classes no conjunto de treinamento para a maximizao
5 DISCUSSES E CONCLUSES do desempenho do classificador? Os trabalhos de Weiss and
Provost (2003) e Prati et al. (2008b) tentaram responder a
Esse trabalho teve como objetivo fornecer uma investigao essa pergunta analisando os desempenhos obtidos para di-
sobre o problema de classe desbalanceadas com foco na abor- ferentes razes de desbalanceamento em inmeras bases de
dagem discriminativa do aprendizado supervisionado. Fo- dados reais. Com base nos resultados obtidos, ambos os es-
ram descritos aspectos associados natureza do problema e tudos sugeriram que se a AUC selecionada como mtrica
mtricas de avaliao, incluindo os fundamentos da anlise de desempenho, a melhor distribuio fica prxima da balan-
ROC. O estado da arte das solues foi apresentado, com ceada. Por outro lado, Weiss and Provost (2003) observaram
nfase nas abordagens que modificam a formulao padro que se a acurcia escolhida, a melhor proporo tende a ser
adotada por algoritmos de aprendizado tradicionais. prxima da distribuio natural dos dados.
Uma importante concluso desse trabalho foi que, embora Problema correlato pode ser visto no escopo dos mtodos
avanos em aprendizado com dados desbalanceados tenham da abordagem Sensvel ao Custo que incorporam parmetros
sido obtidos, especialmente no mbito das solues propos- (ou funes) de custo (representados nesse estudo por 10 e
tas, algumas questes continuam em aberto ou no foram 01 ) formulao padro do problema de aprendizado. Em-
completamente resolvidas. Existe uma carncia por estu- bora na maioria desses mtodos, exista somente a recomen-
dos tericos (ou empricos), fundamentados nas Teorias do dao para que o custo associado ao grupo minoritrio (10 )
Aprendizado, que permitam um melhor entendimento das seja maior que o custo associado ao grupo dominante (01 ), o
causas e consequncias do problema. Tais estudos so essen- ajuste adequado (ideal) para a razo 10 /01 desconhecido
ciais para justificar e guiar o desenvolvimento de solues. e ainda considerado um problema em aberto.
A anlise descrita na Seo 2 foi desenvolvida para contri-
buir um pouco nesse sentido. Foi demonstrado, no contexto Com base em resultados reportados na literatura (Weiss and
de modelos discriminativos, que o vis imposto pelo grupo Provost, 2003; Tang et al., 2009; Castro and Braga, 2009),
dominante uma consequncia direta da minimizao de um especula-se que os ajustes adequados para as propores (ra-
critrio baseado no erro global, tendo como principal atenu- zes) entre as classes e custos, devem ser dependentes da
ante o nvel de incerteza (rudo) da tarefa de classificao. medida (ou critrio) de desempenho que se deseja maxi-
mizar/minimizar. Sob esse ponto de vista, procedimentos
Existem ainda outras caractersticas relacionadas ao pro- de otimizao poderiam ser incorporados aos algoritmos de
blema de classes desbalanceadas que tm sido observadas, aprendizado para efetuar uma busca dos valores dessas ra-
especialmente no contexto de classificadores baseados em zes (classes e custos) segundo a mtrica selecionada: acu-
rvores de deciso, e que necessitam de mais investigaes. rcia, G-mean, F-measure, AUC, etc. Alm disso, uma al-
Entre elas, destacam-se aspectos associados falta de repre- ternativa promissora nesse campo, propor novos algorit-
sentatividade do grupo minoritrio, tais como o desbalance- mos de aprendizado baseados em funcionais risco especficos

para otimizar diretamente a mtrica desejada, conforme apre-
sentado nos trabalhos de Joachims (2005), Herschtal et al. f
(2006) e, Castro and Braga (2008). p(x|y = 0) p(x|y = 1)
Ainda sobre a questo do ajuste dos parmetros, alguns m-

todos apresentados na Seo 4.2 tm proposto um ajuste para P (x R0 |y = 1) P (x R1 |y = 0)
a razo entre os custos de acordo com o inverso da razo
entre os nmeros de exemplos das classes, i.e., 10
01
= N N1 .
0
Analisando essa estratgia com base nos fundamentos teri-

cos apresentados na Seo 2, possvel especular sobre as
propriedades das solues buscadas por esses mtodos. Note
que a incorporao dos parmetros de custo formulao
original desses algoritmos, que baseada na probabilidade R0 x R1 x
do erro global de classificao (6), leva a um novo funcional
risco, dado pela seguinte expresso,
Figura 8: Soluo tima f equilibrando as probabilidades
de erro (reas em cinza e preto) quando as varincias das
Z distribuies so iguais.
R = 01 p(x|y = 0)P (y = 0) dx
R1
Z prtica. Assim, com o objetivo de complementar essa investi-
+10 p(x|y = 1)P (y = 1) dx . (43) gao, os pargrafos a seguir fornecem uma breve discusso
R0 a respeito de como os principais conceitos aqui apresentados
podem ser estendidos para o contexto de aprendizado multi-
Substituindo em (43) as probabilidades a priori P (y = k) classe.
pelas propores de exemplos Nk /N no conjunto de treina-
Enquanto que para o caso binrio, o objetivo da formula-
mento e, usando a sugesto proposta: 10 = N0 e 01 = N1 ;
o padro do problema do aprendizado a minimizao
possvel mostrar que a soluo tima f que minimiza o
da probabilidade do erro de classificao (conforme apresen-
novo funcional (43) aquela que atribui cada exemplo de
tado na Seo 2.2), para o caso geral de c classes, esse obje-
entrada x classe Ck para o qual a densidade condicional
tivo torna-se a maximizao da probabilidade de um exemplo
p(x|y = k) maior, i.e.,
ser corretamente classificado6 , dada pela seguinte expresso
( (Berger, 1985; Duda et al., 2000),
1 se p(x|y=1)
p(x|y=0) > 1, c
f (x) = (44) X
0 caso contrrio. P (Correto) = P (x Rk , y = k)
k=1
c
Observe a partir de (44), que a estratgia que ajusta 01
10
de X
N0
= P (x Rk |y = k)P (y = k)
acordo com N1 , busca uma soluo que desconsidera a in- k=1
fluncia das probabilidades a priori das classes, confiando Xc Z
somente na informao associada s caractersticas obser- = p(x|y = k)P (y = k)dx.(45)
vadas, i.e., nas verossimilhanas p(x|y = k). Nesse caso, k=1 Rk
se as matrizes de covarincia para as densidades condici-
onais p(x|y = k) forem iguais, a soluo tima corres-
Note que para maximizar a probabilidade de estar correto
ponde ao ponto de operao (na Curva ROC) que equili-
deve-se atribuir cada vetor x classe k que fornece o maior
bra as probabilidades de erro/acerto para cada classe, i.e.,
integrando em (45). Isso leva seguinte expresso para a
P (x R0 |y = 1) = P (x R1 |y = 0), conforme ilus-
regra de deciso tima (multiclasse) (Duda et al., 2000),
trado pela Figura 8. Esse ponto de operao conhecido na
literatura como break-even point (Duda et al., 2000), e se ca-
racteriza por produzir taxas iguais de verdadeiros positivos f (x) = argk max p(x|y = k)P (y = k), (46)
(sensibilidade) e de verdadeiros negativos (especificidade).
Finalmente, importante ressaltar que embora a investiga- com k = 1, . . . , c.

o realizada nesse trabalho tenha se concentrado em tarefas 6 A definio do funcional risco em termos das probabilidades de acerto
de classificao com somente duas classes (binrias), proble- das classes mais simples, uma vez que para o caso multiclasse existem
mas desbalanceados contendo c > 2 classes so comuns na mais formas de se errar do que de se acertar (Duda et al., 2000).

A expresso (46) define a soluo alvo das mquinas de Similarmente, extenses multiclasse das mtricas AUC e
aprendizado para o caso multiclasse. Uma anlise das propri- G-mean tm sido discutidas (Hand and Till, 2001; Ever-
edades dessa soluo em situaes controladas (com distri- son and Fieldsend, 2006b; Landgrebe and Duin, 2006; Sun
buies de probabilidade conhecidas) poderia ser conduzida et al., 2007). A formulao proposta em Hand and Till (2001)
para se prover um melhor entendimento das causas/efeitos para o clculo do VUS (Volume Under the ROC Surface)
do problema geral de classes desbalanceadas. Metodologia baseada na agregao dos valores de AUC estimados para
equivalente foi adotada na Seo 2.3 para o caso binrio. todos os pares de classes. Tal formulao eficiente para va-
Nessa anlise seria possvel demonstrar, por exemplo, que lores elevados de c. No trabalho de Everson and Fieldsend
a regra de deciso tima (multiclasse) favorece as classes (2006b), uma generalizao do coeficiente Gini, anlogo
com maior probabilidade de ocorrncia, quando o cenrio mtrica AUC, foi proposta para quantificar o desempenho
desbalanceado. Observe a partir de (46) que se uma am- multiclasse de um modelo em relao ao classificador ale-
biguidade surge na classificao de um exemplo particular atrio, i.e., que faz predies aleatrias para os exemplos.
x, devido aos valores similares observados para as densida- Alm disso, uma extenso simples da mtrica G-mean pode
des condicionais de todas as c classes, i.e., p(x|y = k) ser encontrada em Sun et al. (2007). Todos esses trabalhos
p(x|y = j) para todo j 6= k, a regra f dever atribuir x reforam a importncia de se possuir um mtrica global de
classe majoritria. avaliao que, ao contrrio da acurcia (ou taxa de erro), no
produza falso sentimento em cenrios desbalanceados.
Em relao s mtricas de avaliao descritas na Seo 3, al-
gumas delas podem ser estendidas para o caso geral de c clas- Por ltimo, ao se considerar as abordagens propostas para
ses. Nesse cenrio, o desempenho de um classificador pode solucionar o problema de classes desbalanceadas na Seo 4,
ser descrito por uma matriz de confuso c x c normalizada7 , entende-se que os mtodos de reamostragem da categoria de
com os c elementos da diagonal principal representando as pr-processamento de dados (Seo 4.1) poderiam ser mais
taxas de classificao corretas e, os c2 c elementos fora facilmente adaptados para domnios com c > 2 classes, uma
dessa diagonal, representando as taxas de erro. No mbito da vez que os mesmos atuam somente no espao de entrada (da-
anlise ROC multiclasse, essa matriz define um nico ponto dos) sendo, portanto, independentes da formulao do algo-
em um espao de dimenso c2 c, cujos eixos representam ritmo de aprendizado. Adicionalmente, alguns mtodos, tais
as taxas de erro entre as classes. Os elementos da diago- como sobreamostragem com substituio, SMOTE (Chawla
nal principal no precisam ser representados, uma vez que os et al., 2002), subamostragem aleatria e OSS (Kubat and
mesmos so equivalentes ao complementoPda soma das taxas Matwin, 1997) poderiam ser aplicados individualmente so-
c
de erro de cada linha, i.e., ek,k = 1 j=1 ek,j , k 6= j bre cada classe, para aumentar/diminuir a representatividade
(Fawcett, 2006). A gerao da superfcie ROC multidimen- (custos) dos grupos minoritrios/majoritrios no conjunto de
sional envolve a ponderao das sadas do classificador por treinamento. Essa estratgia foi adotada, por exemplo, no
todas as possveis combinaes de custos entre classes (th- trabalho de Zhou and Liu (2006).
resholds). Esse procedimento possui elevado custo computa-
cional (exponencial), podendo limitar o uso da anlise ROC Na categoria de adaptaes em algoritmos de aprendizado
quando o nmero de classes c muito grande (Landgrebe (Seo 4.2), a extenso das solues para problemas com
and Duin, 2008). Apesar dessa limitao, alguns traba- c > 2 classes depende da formulao original dos algoritmos
lhos tm investigado os aspectos associados ao projeto de de aprendizado sobre os quais essas solues foram constru-
grficos ROC para domnios multiclasse (Lane, 2000; Faw- das e por isso, no uma tarefa trivial. Algoritmos basea-
cett, 2006; Everson and Fieldsend, 2006b; Landgrebe and dos em kernel como as SVMs, por exemplo, foram original-
Duin, 2008). De acordo com Fawcett (2006), uma estrat- mente concebidos com base nos fundamentos da Teoria do
gia simples que poderia ser aplicada gerar c curvas ROC, Aprendizado Estatstico (Vapnik, 1995). Nessa teoria, limi-
sendo uma para cada classe. Nesse caso, a k-sima curva tes superiores para o erro de generalizao das mquinas de
mostra o desempenho de classificao, considerando a classe aprendizado so definidos com base na medida de comple-
k como a classe positiva e todas as demais classes como a xidade VC das funes estimadas (regras de deciso) e, no
classe negativa (abordagem one-against-all). No trabalho de tamanho do conjunto de dados. No caso da tarefa de classi-
Landgrebe and Duin (2008), um algoritmo eficiente foi pro- ficao de padres, esses limites so derivados no mbito de
posto para a gerao de aproximaes acuradas para superf- problemas com duas classes. Isso explica a natureza binria
cies ROC multidimensionais. das formulaes propostas para SVMs e outras mquinas de
kernel e tambm, a dificuldade associada extenso natural
desses algoritmos para problemas com c > 2 classes. No
caso de SVMs, por exemplo, as abordagens mais adotadas
7 Na matriz de confuso normalizada, os elementos de cada linha (veja
para aprendizado multiclassse so baseadas na combinao
Tabela 1 na Seo 3) so divididos pelo nmero total de exemplos da classe de mltiplas SVMs binrias (Bishop, 2006). Nessa linha,
que a linha representa.

uma alternativa para a extenso das solues fundamental- Batista, G. E., Prati, R. C. and Monard, M. C. (2005). Ba-
mente binrias apresentadas na Seo 4.2, a decomposio lancing strategies and class overlapping, Advances in
de um problema de classificao com c > 2 classes dentro de Intelligent Data Analysis VI, Vol. 3646 of Lecture No-
mltiplos problemas com duas classes. As abordagens mais tes in Computer Science, Springer Berlin / Heidelberg,
comuns para efetuar essa decomposio so one-against-all pp. 2435.
e one-against-one. Tais abordagens so independentes do al-
goritmo de aprendizado, sendo mais populares entre SVMs, Beckmann, M. (2010). Algoritmos genticos como estra-
Boosting e rvores de deciso. Para detalhes sobre o fun- tgia de pr-processamento em conjuntos de dados
cionamento desses mtodos, recomenda-se os trabalhos de desbalanceados, Masters thesis, Programa de Ps-
Vapnik (1998) e Bishop (2006). Graduao em Engenharia Civil - COPPE - UFRJ.
Diferentemente das SVMs, a formulao original apresen- Beckmann, M. and Lima, B. (2009). Algoritmos genticos
tada por modelos neurais feed-forward, tais como redes MLP como estratgia de pr-processamento para o aprendi-
e redes RBF, permite uma extenso natural para problemas zado de mquina em conjuntos de dados desbalancea-
com c > 2 classes. Um esquema comumente adotado para dos, Anais do XXX Congresso Ibero Americano de M-
realizar essa extenso, a codificao 1 de c, onde c o n- todos Computacionais em Engenharia, pp. 210223.
mero de unidades de sada do modelo (Bishop, 2006). Os tra-
balhos de Kukar and Kononenko (1998) e, Alejo et al. (2006) Bergamini, C., Oliveira, L. S., Koerich, A. L. and Sabou-
apresentados no contexto de redes reurais sensveis ao custo rin, R. (2009). Combining different biometric traits
(Seo 4.2.5) usam essa codificao e portanto, permitem di- with one-class classification, Signal Process. 89: 2117
retamente o aprendizado multiclasse. 2127.
Berger, J. (1985). Statistical Decision Theory and Bayesian

AGRADECIMENTOS Analysis, second edn, Springer.
O presente trabalho foi realizado com o apoio da Fundao
Bishop, C. M. (2006). Pattern Recognition and Machine Le-
de Amparo Pesquisa do Estado de Minas Gerais - FAPE-
arning (Information Science and Statistics), Springer.
MIG.
Boser, B. E., Guyon, I. M. and Vapnik, V. N. (1992). A
REFERNCIAS training algorithm for optimal margin classifiers, COLT
92: Proceedings of the fifth annual workshop on
Akbani, R., Kwek, S. and Japkowicz, N. (2004). Applying Computational learning theory, ACM, New York, NY,
support vector machines to imbalanced datasets, Proce- USA, pp. 144152.
edings of European Conference on Machine Learning,
pp. 3950. Bradley, A. P. (1997). The use of the area under the roc
curve in the evaluation of machine learning algorithms,
Alejo, R., Garca, V., Sotoca, J., Mollineda, R. A. and Sn-
Pattern Recognition 30(7): 11451159.
chez, J. (2006). Improving the performance of the
rbf neural networks trained with imbalanced samples, Braga, A. P., Horta, E. G., Natowicz, R., Rouzier, R., Incitti,
Proc. of Intell. Data Eng. Autom. Learn., Vol. 7 of Lec- R., Rodrigues, T. S., Costa, M. A., Pataro, C. D. M. and
ture Notes in Computer Science, Springer, pp. 720747. ela, A. (2008). Bayesian classifiers for predicting the
Anand, R., Mehrotra, K., Mohan, C. and Ranka, S. (1993). outcome of breast cancer preoperative chemotherapy.,
An improved algorithm for neural network classifica- ANNPR, Vol. 5064 of Lecture Notes in Computer Sci-
tion of imbalanced training sets, IEEE Transactions on ence, Springer, pp. 263266.
Neural Networks, 6(4):962-969 .
Breiman, L., Friedman, J., Stone, C. J. and Olshen, R. A.
Asuncion, A. and Newman, D. (2007). UCI machine lear- (1984). Classification and Regression Trees, Chapman
ning repository. & Hall/CRC.
Bather, J. (2000). Decision Theory: An Introduction to Dy-
Carvalho, A., Pozo, A., Vergilio, S. and Lenz, A. (2008).
namic Programming and Sequential Decisions, Wiley.
Predicting fault proneness of classes trough a multiob-
Batista, G. E. A. P. A., Prati, R. C. and Monard, M. C. (2004). jective particle swarm optimization algorithm, Procee-
A study of the behavior of several methods for balan- dings of the 2008 20th IEEE International Conference
cing machine learning training data, SIGKDD Explor. on Tools with Artificial Intelligence - Volume 02, IEEE
Newsl. 6(1): 2029. Computer Society, pp. 387394.

Castro, C. and Braga, A. (2008). Optimization of the area Egan, J. P. (1975). Signal Detection Theory and ROC Analy-
under the roc curve, Proceedings of the 10th Brazi- sis, Academic Press.
lian Symposium on Neural Networks (SBRN 08), IEEE
Elkan, C. (2001). The foundations of cost-sensitive learning,
Computer Society, Washington, DC, USA, pp. 141
Proceedings of the Seventeenth International Joint
146.
Conference on Artificial Intelligence, IJCAI, pp. 973
Castro, C. and Braga, A. (2009). Artificial neural networks 978.
learning in roc space, Proc. of the 1st International Estabrooks, A., Jo, T. and Japkowicz, N. (2004). A multiple
Conference on Neural Computation (ICNC09), INS- resampling method for learning from imbalanced data
TICC, pp. 219224. sets, Computational Intelligence 20(1): 1836.
Castro, C. L., Carvalho, M. A. and Braga, A. P. (2009). Everson, R. M. and Fieldsend, J. E. (2006a). Multi-class roc
An improved algorithm for svms classification of im- analysis from a multi-objective optimisation perspec-
balanced data sets, Engineering Applications of Neu- tive, Pattern Recogn. Lett. 27(8): 918927.
ral Networks, Vol. 43 of Communications in Computer
and Information Science, Springer Berlin Heidelberg, Everson, R. M. and Fieldsend, J. E. (2006b). Multi-objective
pp. 108118. optimisation for receiver operating characteristic analy-
sis, Multi-Objective Machine Learning, pp. 533556.
Chawla, N. V., Bowyer, K. W. and Kegelmeyer, P. W. (2002).
Smote: Synthetic minority over-sampling technique, Fan, W., Stolfo, S. J., Zhang, J. and Chan, P. K. (1999). Ada-
Journal of Artificial Intelligence Research 16: 321357. cost: misclassification cost-sensitive boosting, Proce-
edings of IEEE International Conference on Machine
Chawla, N. V., Japkowicz, N. and Kotcz, A. (2003). Proce- Learning, Morgan Kaufmann, pp. 97105.
edings of the ICML2003 Workshop on Learning from
Fawcett, T. (2004). Roc graphs: Notes and practical consi-
Imbalanced Data Sets, ICML.
derations for researchers, Technical report, HP Labora-
Chawla, N. V., Japkowicz, N. and Kotcz, A. (2004). Edi- tories, Palo Alto, USA.
torial: special issue on learning from imbalanced data
Fawcett, T. (2006). An introduction to roc analysis, Pattern
sets, SIGKDD Explor. Newsl. 6(1): 16.
Recogn. Lett. 27(8): 861874.
Chen, S., Wang, X., Hong, X. and Harris, C. (2006). Ker- Fawcett, T. and Provost, F. (1997). Adaptive fraud detection,
nel classifier construction using orthogonal forward se- Data Min. Knowl. Discov. 1(3): 291316.
lection and boosting with fisher ratio class separabi-
lity measure, IEEE Transactions on Neural Networks Gallinari, P., Thiria, S., Badran, F. and Fogelman-Soulie, F.
17(6): 16521656. (1991). On the relations between discriminant analy-
sis and multilayer perceptrons, Neural Netw. 4(3): 349
Cherkassky, V. and Mulier, F. (2007). Learning from data, 2 360.
edn, John Wiley and Sons.
Gao, Y., Wang, S. and Liu, Z. (2009). Automatic fault de-
Cortes, C. and Mohri, M. (2004). Auc optimization vs. er- tection and diagnosis for sensor based on kpca, Proce-
ror rate minimization, Advances in Neural Information edings of International Symposium on the Computati-
Processing Systems 16, MIT Press, Cambridge, MA. onal Intelligence and Design, IEEE Computer Society,
pp. 135138.
Cortes, C. and Vapnik, V. (1995). Support-vector networks,
Mach. Learn. 20(3): 273297. Girosi, F., Jones, M. and Poggio, T. (1995). Regularization
theory and neural networks architectures, Neural Com-
Cristianini, N., Kandola, J., Elisseeff, A. and Shawe-Taylor, put. 7(2): 219269.
J. (2002). On kernel-target alignment, Advances in
Neural Information Processing Systems 14, Vol. 14, Graening, L., Jin, Y. and Sendhoff, B. (2006). Generali-
pp. 367373. zation improvement in multi-objective learning, Inter-
national Joint Conference on Neural Networks, IEEE
Drummond, C. and Holte, R. (2003). C4.5, class imbalance, Press, pp. 98939900.
and cost sensitivity: Why under-sampling beats over-
sampling, Working Notes of the ICML Workshop Lear- Han, H., Wang, W.-Y. and Mao, B.-H. (2005). Borderline-
ning from Imbalanced Data Sets. smote: A new over-sampling method in imbalanced
data sets learning, Advances in Intelligent Computing,
Duda, R. O., Hart, P. E. and Stork, D. G. (2000). Pattern Vol. 3644 of Lecture Notes in Computer Science, Sprin-
Classification (2nd Edition), Wiley-Interscience. ger Berlin, Heidelberg, pp. 878887.

Hand, D. and Till, R. (2001). A simple generalisation of the Japkowicz, N. (2003). Class imbalances: Are we focusing on
area under the roc curve for multiple class classification the right issue?, Proceedings of the International Conf.
problems, Mach. Learn. 45: 171186. Machine Learning, Workshop on Learning from Imba-
lanced Data Sets II.
Hanley, J. A. and Mcneil, B. J. (1982). The meaning and
use of the area under a receiver operating characteristic Japkowicz, N. and Stephen, S. (2002). The class imba-
(roc) curve., Radiology 143(1): 2936. lance problem: A systematic study, Intell. Data Anal.
6(5): 429449.
Haykin, S. (1994). Neural Networks: A Comprehensive
Foundation, Macmillan, New York. Jo, T. and Japkowicz, N. (2004). Class imbalances versus
small disjuncts, SIGKDD Explor. Newsl. 6(1): 4049.
He, H., Bai, Y., Garcia, E. A. and Li, S. (2008). Adasyn:
Adaptive synthetic sampling approach for imbalanced Joachims, T. (2002). Learning to Classify Text Using Support
learning, Proceedings of the International Joint Con- Vector Machines: Methods, Theory and Algorithms,
ference on Neural Networks, IJCNN 2008, pp. 1322 Kluwer Academic Publishers, Norwell, MA, USA.
1328.
Joachims, T. (2005). A support vector method for multi-
He, H. and Garcia, E. A. (2009). Learning from imbalan- variate performance measures, ICML05: Proceedings
ced data, IEEE Transactions on Knowledge and Data of the 22nd international conference on Machine lear-
Engineering 21(9): 12631284. ning, ACM, New York, NY, USA, pp. 377384.
He, H. and Shen, X. (2007). A ranked subspace learning Kandola, J. and Shawe-Taylor, J. (2003). Refining kernels
method for gene expression data classification, Procee- for regression and uneven classification problems, Pro-
dings of the 2007 International Conference on Artificial ceedings of International Conference on Artificial In-
Intelligence, ICAI 2007, Volume I, June 25-28, 2007, telligence and Statistics, Springer-Verlag, Berlin Hei-
Las Vegas, Nevada, USA, pp. 358364. delberg.
Herschtal, A., Raskutti, B. and Campbell, P. K. (2006). Area Karakoulas, G. and Shawe-Taylor, J. (1999). Optimizing
under roc optimisation using a ramp approximation, classifiers for imbalanced training sets, Proceedings of
Proceedings of the Sixth SIAM International Confe- Conference on Advances in Neural Information Pro-
rence on Data Mining, pp. 111. cessing Systems II, MIT Press, Cambridge, MA, USA,
pp. 253259.
Hodge, V. and Austin, J. (2004). A survey of outlier detection
methodologies, Artif. Intell. Rev. 22(2): 85126. Khoshgoftaar, T. M., Hulse, J. V. and Napolitano, A.
(2010). Supervised neural network modeling: An em-
Hong, X., Chen, S. and Harris, C. (2007). A kernel-based pirical investigation into learning from imbalanced data
two-class classifier for imbalanced data sets, IEEE with labeling errors, IEEE Trans. on Neural Networks
Transactions on Neural Networks 18(1): 2841. 21(5): 813830.
Ishida, C. and Pozo, A. (2007). Optimization of the auc Kohonen, T., Schroeder, M. R. and Huang, T. S. (eds) (2001).
criterion for rule subset selection, Proceedings of the Self-Organizing Maps, 3rd edn, Springer-Verlag New
Seventh International Conference on Intelligent Sys- York, Inc., Secaucus, NJ, USA.
tems Design and Applications, IEEE Computer Society,
pp. 497502. Kubat, M., Holte, R. C. and Matwin, S. (1998). Machine
learning for the detection of oil spills in satellite radar
Japkowicz, N. (2000a). Proceedings of the AAAI2000 images., Machine Learning 30(2-3): 195215.
Workshop on Learning from Imbalanced Data Sets,
AAAI Tech Report WS-00-05. Kubat, M. and Matwin, S. (1997). Addressing the curse
of imbalanced training sets: one-sided selection, Proc.
Japkowicz, N. (2000b). Learning from imbalanced data sets: 14th International Conference on Machine Learning,
A comparison of various strategies, AAAI Conference Morgan Kaufmann, pp. 179186.
on Artificial Intelligence, AAAI Press, pp. 1015.
Kukar, M. and Kononenko, I. (1998). Cost-sensitive learning
Japkowicz, N. (2001). Supervised versus unsupervised with neural networks, Proceedings of the 13th Euro-
binary-learning by feedforward neural networks, Mach. pean Conference on Artificial Intelligence (ECAI-98),
Learn. 42(1-2): 97122. John Wiley and Sons, pp. 445449.

Kupinski, M. A. and Anastasio, M. A. (1999). Multiobjec- Machado, E. (2007). Um estudo de limpeza em base de
tive genetic optimization of diagnostic classifiers with dados desbalanceada e com sobreposio de classes,
implications for generating receiver operating characte- Masters thesis, Curso de Mestrado em Informtica -
risitic curves, IEEE Transactions on Medical Imaging Universidade de Brasilia.
18: 675685.
Machado, E. and Ladeira, M. (2007a). Dealing with rare ca-
Landgrebe, T. and Duin, R. (2006). A simplified extension of ses and avoiding overfitting: Combining cluster-based
the area under the roc to the multiclass domain, Procee- oversampling and smote, Proceeding of IX Argentine
dings of the Seventeenth Annual Symposium of the Pat- Symposium on Artificial Intelligence - ASAI, pp. 4755.
tern Recognition Association of South Africa, PRASA
Machado, E. and Ladeira, M. (2007b). Um estudo de limpeza
2006, pp. 241245.
em base de dados desbalanceada com sobreposio de
Landgrebe, T. and Duin, R. (2008). Efficient multiclass roc classes, VI Encontro Nacional de Inteligncia Artificial
approximation by decomposition via confusion matrix - Anais do XXVII Congresso da Sociedade Brasileira
perturbation analysis, IEEE Trans. Pattern Anal. Mach. de Computao, pp. 330340.
Intell. 30: 810822. Maloof, M. A. (2003). Learning when data sets are imba-
lanced and when costs are unequal and unknown, Pro-
Lane, T. (2000). Extensions of roc analysis to multi-class do-
ceedings of the International Conf. Machine Learning,
mains, Dietterich, T., Margineantu, D., Provost, F., Tur-
Workshop on Learning from Imbalanced Data Sets II.
ney, P. (Eds.), ICML-2000, Workshop on Cost-Sensitive
Learning. Manevitz, L. M. and Yousef, M. (2002). One-class svms for
document classification, J. Mach. Learn. Res. 2: 139
Lasko, T. A., Bhagwat, J. G., Zou, K. H. and Ohno-Machado, 154.
L. (2005). The use of receiver operating characteristic
curves in biomedical informatics, Journal of Biomedi- Manevitz, L. and Yousef, M. (2007). One-class document
cal Informatics 38(5): 404415. classification via neural networks, Neurocomput. 70(7-
9): 14661481.
Laurikkala, J. (2001). Improving identification of difficult
small classes by balancing class distribution, AIME 01: Markou, M. and Singh, S. (2003). Novelty detection: A re-
Proceedings of the 8th Conference on AI in Medicine in view - part 2: Neural network based approaches, Signal
Europe, Springer-Verlag, London, UK, pp. 6366. Processing 83: 24992521.
Lawrence, S., Burns, I., Back, A. D., Tsoi, A. C. and Gi- Mease, D., Wyner, A. J. and Buja, A. (2007). Boosted classi-
les, C. L. (1998). Neural network classification and fication trees and class probability/quantile estimation,
prior class probabilities, Neural Networks: Tricks of J. Mach. Learn. Res. 8: 409439.
the Trade, this book is an outgrowth of a 1996 NIPS
Milar, C., Batista, G. and Carvalho, A. (2010). A hybrid
workshop, Springer-Verlag, London, UK, pp. 299313. approach to learn with imbalanced classes using evolu-
tionary algorithms, Logic Journal of IGPL .
Lee, H. and Cho, S. (2006). The novelty detection approach
for different degrees of class imbalance, Neural Infor- Monard, M. and Batista, G. (2002). Learning with skewed
mation Processing, Vol. 4233 of Lecture Notes in Com- class distribution, Advances in Logic, Artificial Intelli-
puter Science, Springer Berlin / Heidelberg, pp. 2130. gence and Robotics, IOS Press, pp. 173180.
Li, Y. and Shawe-Taylor, J. (2003). The svm with uneven Morik, K., Brockhausen, P. and Joachims, T. (1999). Com-
margins and chinese document categorization, Procee- bining statistical learning with a knowledge-based ap-
dings of the 17th Pacific Asia Conference on Language, proach - a case study in intensive care monitoring, Pro-
Information and Computation, pp. 216227. ceedings of the Sixteenth International Conference on
Machine Learning, Morgan Kaufmann Publishers Inc.,
Lin, Y., Lee, Y. and Wahba, G. (2002). Support vector machi- San Francisco, CA, USA, pp. 268277.
nes for classification in nonstandard situations, Mach.
Learn. 46(1-3): 191202. Moturu, S. T., Johnson, W. G. and Liu, H. (2010). Predic-
tive risk modelling for forecasting high-cost patients: a
Liu, X.-Y., Wu, J. and Zhou, Z.-H. (2009). Exploratory un- real-world application using medicaid data, Internatio-
dersampling for class-imbalance learning, IEEE Trans. nal Journal of Biomedical Engineering and Technology
on Sys. Man Cyber. Part B 39(2): 539550. 2(1): 114132.

Muller, K. R., Mika, S., Ratsch, G., Tsuda, K. and Scholkopf, on Artificial intelligence/Innovative applications of ar-
B. (2001). An introduction to kernel-based learning al- tificial intelligence, American Association for Artificial
gorithms, IEEE Trans. on Neural Networks 12(2): 181 Intelligence, Menlo Park, CA, USA, pp. 706713.
201.
Provost, F. and Fawcett, T. (2001). Robust classification for
Natowicz, R., Incitti, R., Horta, E. G., Charles, B., Guinot, imprecise environments, Mach. Learn. 42(3): 203231.
P., Yan, K., Coutant, C., Andre, F., Pusztai, L. and Rou-
zier, R. (2008). Prediction of the outcome of preopera- Provost, F. J., Fawcett, T. and Kohavi, R. (1998). The case
tive chemotherapy in breast cancer by dna probes that against accuracy estimation for comparing induction al-
convey information on both complete and non complete gorithms, ICML98: Proceedings of the Fifteenth In-
responses, BMC Bioinformatics 9: 149166. ternational Conference on Machine Learning, Morgan
Kaufmann Publishers Inc., San Francisco, CA, USA,
Pazzani, M., Merz, C., Murphy, P., Ali, K., Hume, T. pp. 445453.
and Brunk, C. (1994). Reducing misclassification
costs, Proceedings of the 11th International Confe- Raskutti, B. and Kowalczyk, A. (2004). Extreme re-
rence on Machine Learning, ICML, Morgan Kaufmann, balancing for svms: a case study, SIGKDD Explor.
pp. 217225. Newsl. 6(1): 6069.
Pearson, P., Goney, G. and Shwaber, J. (2003). Imbalanced Rodrigues, J., Barros, F. and Prudencio, R. (2009). B-boost:
clustering for microarray time-series, Proc. 20th Inter- Uma extenso do mtodo de boosting para conjuntos
national Conference on Machine Learning (ICML03). de treinamento desbalanceados, VII Encontro Nacional
de Inteligncia Artificial - Anais do XXIX Congresso da
Prati, R., Batista, G. and Monard, M. (2004a). Learning Sociedade Brasileira de Computao, pp. 10391048.
with class skews and small disjuncts, Advances in Arti-
ficial Intelligence, SBIA 2004, Vol. 3171 of Lecture No- Rumelhart, D. E. and McClelland, J. L. (1986). Parallel dis-
tes in Computer Science, Springer Berlin, Heidelberg, tributed processing: Explorations in the microstructure
pp. 11191139. of cognition, Vol. 1: Foundations, MIT Press.
Prati, R., Batista, G. and Monard, M. (2008a). Evaluating Sanchez, M. S., Ortiz, M. C., Sarabia, L. A. and Lleti, R.
classifiers using roc curves, Latin America Transacti- (2005). On pareto-optimal fronts for deciding about
ons, IEEE (Revista IEEE America Latina) 6(2): 215 sensitivity and specificity in class-modelling problems,
222. Analytica Chimica Acta 544(1-2): 236 245.
Prati, R., Batista, G. and Monard, M. (2008b). A study Schlkopf, B., Platt, J. C., Shawe-Taylor, J. C., Smola, A. J.
with class imbalance and random sampling for a deci- and Williamson, R. C. (2001). Estimating the sup-
sion tree learning system, Artificial Intelligence in The- port of a high-dimensional distribution, Neural Com-
ory and Practice II, Vol. 276 of IFIP International Fe- put. 13(7): 14431471.
deration for Information Processing, Springer Boston,
pp. 131140. Silva, C., Silva, A., Netto, S., Paiva, A., Junior, G. and Nu-
nes, R. (2009). Lung nodules classification in ct images
Prati, R. C., Batista, G. E. A. P. A. and Monard, M. C. using simpsons index, geometrical measures and one-
(2004b). Class imbalances versus class overlapping: class svm, Machine Learning and Data Mining in Pat-
An analysis of a learning system behavior, MICAI tern Recognition, Vol. 5632 of Lecture Notes in Compu-
2004: Advances in Artificial Intelligence, Third Mexi- ter Science, Springer Berlin / Heidelberg, pp. 810822.
can International Conference on Artificial Intelligence,
Vol. 2972 of Lecture Notes in Computer Science, Sprin- Souza, M. R. P., Cavalcanti, G. D. C. and Tsang, I. R. (2010).
ger, pp. 312321. Off-line signature verification: An approach based on
combining distances and one-class classifiers, Proce-
Provost, F. and Fawcett, T. (1997). Analysis and visualization edings of the 22nd IEEE International Conference on
of classifier performance: Comparison under imprecise Tools with Artificial Intelligence, ICTAI 2010, Arras,
class and cost distributions, Proceedings of the Third France, IEEE Computer Society, pp. 711.
International Conference on Knowledge Discovery and
Data Mining, AAAI Press, pp. 4348. Spackman, K. A. (1989). Signal detection theory: valuable
tools for evaluating inductive learning, Proceedings of
Provost, F. and Fawcett, T. (1998). Robust classification sys- the sixth international workshop on Machine learning,
tems for imprecise environments, AAAI 98/IAAI 98: Morgan Kaufmann Publishers Inc., San Francisco, CA,
Proceedings of the fifteenth national/tenth conference USA, pp. 160163.

Sun, Y., Kamel, M. S., Wong, A. K. C. and Wang, Y. (2007). Weiss, G. M. (2004). Mining with rarity: a unifying fra-
Cost-sensitive boosting for classification of imbalanced mework, SIGKDD Explor. Newsl. 6(1): 719.
data, Pattern Recognition 40(12): 33583378.
Weiss, G. M. (2005). Mining with rare cases, The Data
Swets, J. A., Dawes, R. M. and Monahan, J. (2000). Mining and Knowledge Discovery Handbook: A Com-
Better decisions through science., Scientific American plete Guide for Practioners and Researchers, Springer,
283(4): 8287. pp. 765776.
Tamee, K., Rojanavasu, P., Udomthanapong, S. and Pinn- Weiss, G. M. and Provost, F. (2003). Learning when trai-
gern, O. (2008). Using self-organizing maps with learning data are costly: The effect of class distribution on
ning classifier system for intrusion detection, PRICAI tree induction, Journal of Artificial Intelligence Rese-
2008: Trends in Artificial Intelligence, Vol. 5351 of arch 19: 315354.
Lecture Notes in Computer Science, Springer Berlin /
Heidelberg, pp. 10711076. Wilson, D. (1972). Asymptotic properties of nearest neigh-
bor rules using edited data, IEEE Trans. Systems, Man,
Tan, P.-N., Steinbach, M. and Kumar, V. (2005). Introduc- and Cybernetics 2(3): 408421.
tion to Data Mining, (First Edition), Addison-Wesley
Longman Publishing Co., Inc., Boston, MA, USA. Wu, G. and Chang, E. Y. (2003). Adaptive feature-space con-
formal transformation for imbalanced-data learning,
Tang, Y. and Zhang, Y.-Q. (2006). Granular svm with repe- Proceedings of IEEE International Conference on Ma-
titive undersampling for highly imbalanced protein ho- chine Learning, pp. 816823.
mology prediction, Proceedings of International Con-
ference on Granular Computing, pp. 457460. Wu, G. and Chang, E. Y. (2004). Aligning boundary in kernel
space for learning imbalanced dataset, ICDM 04: Pro-
Tang, Y., Zhang, Y.-Q., Chawla, N. V. and Krasser, S. (2009). ceedings of the Fourth IEEE International Conference
Svms modeling for highly imbalanced classification, on Data Mining, IEEE Computer Society, Washington,
IEEE Transactions on Systems, Man, and Cybernetics, DC, USA, pp. 265272.
Part B: Cybernetics 39(1): 281288.
Wu, G. and Chang, E. Y. (2005). Kba: Kernel boun-
Teixeira, R., Braga, A., Takahashi, R. and Saldanha, R. dary alignment considering imbalanced data distribu-
(2000). Improving generalization of mlps with multi- tion, IEEE Transactions on Knowledge and Data Engi-
objective optimization, Neurocomputing 35(1-4): 189 neering 17(6): 786795.
194.
Zadrozny, B. and Elkan, C. (2001). Obtaining calibrated pro-
Ting, K. M. (2000). A comparative study of cost-sensitive bability estimates from decision trees and naive baye-
boosting algorithms, Proceedings of the 17th Internati- sian classifiers, ICML01: Proceedings of the Eighte-
onal Conference on Machine Learning, Morgan Kauf- enth International Conference on Machine Learning,
mann, pp. 983990. Morgan Kaufmann Publishers Inc., San Francisco, CA,
USA, pp. 609616.
Tomek, I. (1976). Two modifications of cnn, IEEE Trans.
Systems, Man, and Cybernetics 6(11): 769772. Zhang, J. and Mani, I. (2003). Knn approach to unbalanced
data distributions: A case study involving information
Vapnik, V. (1998). Statistical Learning Theory, Wiley- extraction, Proceedings of the ICML2003 workshop on
Interscience. learning from imbalanced datasets.
Vapnik, V. N. (1995). The nature of statistical learning the- Zhou, Z.-H. and Liu, X.-Y. (2006). Training cost-sensitive
ory, Springer-Verlag New York, Inc. neural networks with methods addressing the class im-
Veropoulos, K., Campbell, C. and Cristianini, N. (1999). balance problem, IEEE Transactions on Knowledge
Controlling the sensitivity of support vector machines, and Data Engineering 18(1): 6377.
Proceedings of the International Joint Conference on
Artificial Intelligence, pp. 5560.
Wang, B. X. and Japkowicz, N. (2008). Boosting support
vector machines for imbalanced data sets, Proceedings
of the 17th ISMIS 2008 - International Symposium on
Foundations of Intelligent Systems, Vol. 4994 of Lec-
ture Notes in Computer Science, Springer, pp. 3847.

AprenSupervClassesDesbal - An Castro Braga 2011

Diunggah oleh

Informasi Dokumen

Judul Asli

Hak Cipta

Format Tersedia

Bagikan dokumen Ini

Bagikan atau Tanam Dokumen

Opsi Berbagi

Apakah menurut Anda dokumen ini bermanfaat?

Apakah konten ini tidak pantas?

Hak Cipta:

Format Tersedia

AprenSupervClassesDesbal - An Castro Braga 2011

Diunggah oleh

Hak Cipta:

Format Tersedia

APRENDIZADO SUPERVISIONADO COM CONJUNTOS DE DADOS

Cristiano Leite de Castro Antnio Pdua Braga

ABSTRACT A tendncia produzir modelos (ou regras) de classificao

KEYWORDS: imbalanced data sets, supervised learning,

Revista Controle & Automao/Vol.22 no.5/Setembro e Outubro 2011 441

442 Revista Controle & Automao/Vol.22 no.5/Setembro e Outubro 2011

2.1 Teoria de Deciso Bayesiana onde P (y = k|x) a probabilidade a posteriori de x per-

Revista Controle & Automao/Vol.22 no.5/Setembro e Outubro 2011 443

P (Erro) = P (x R1 , y = 0) + P (x R0 , y = 1) Observe a partir de (8), que a deciso sobre a pertinncia

444 Revista Controle & Automao/Vol.22 no.5/Setembro e Outubro 2011

Em situaes prticas, no entanto, no possvel encontrar 1

exemplos usando algum mtodo de aprendizado2 . Considere 1

ento, um cenrio desbalanceado, em que as propores de

gra de deciso estimada f aproxima f , esperado devido ao

Revista Controle & Automao/Vol.22 no.5/Setembro e Outubro 2011 445

446 Revista Controle & Automao/Vol.22 no.5/Setembro e Outubro 2011

Revista Controle & Automao/Vol.22 no.5/Setembro e Outubro 2011 447

G-mean mede o desempenho equilibrado de um classifi-

TP 3.1 Anlise ROC

Supondo que as distribuies p(x|y = k) so conheci-

448 Revista Controle & Automao/Vol.22 no.5/Setembro e Outubro 2011

Tais probabilidades podem ser calculadas analiticamente por 0.9

Figura 7: Curva ROC descrevendo o trade-off entre as pro-

o estimada f produz, para cada exemplo x, um score4 que

Revista Controle & Automao/Vol.22 no.5/Setembro e Outubro 2011 449

Na Seo 4.1 a seguir, uma breve reviso das solues pro-

450 Revista Controle & Automao/Vol.22 no.5/Setembro e Outubro 2011

Revista Controle & Automao/Vol.22 no.5/Setembro e Outubro 2011 451

452 Revista Controle & Automao/Vol.22 no.5/Setembro e Outubro 2011

aprendizado existentes so projetados para minimizar o erro

Nessa reviso, uma maior ateno dedicada s solues

Revista Controle & Automao/Vol.22 no.5/Setembro e Outubro 2011 453

onde > 1 corresponde razo entre a margem positiva e

Os autores tambm mostraram que o mesmo efeito pode ser

454 Revista Controle & Automao/Vol.22 no.5/Setembro e Outubro 2011

O parmetro fornece indiretamente a localizao do hiper-

Nsv   onde b2 representa a largura da gaussiana associada a um

Revista Controle & Automao/Vol.22 no.5/Setembro e Outubro 2011 455

X X 4.2.5 Redes Neurais Sensveis ao Custo

O trabalho de Kukar and Kononenko (1998) considera uma

456 Revista Controle & Automao/Vol.22 no.5/Setembro e Outubro 2011

onde conjunto de parmetros (pesos) e as funes custo

Revista Controle & Automao/Vol.22 no.5/Setembro e Outubro 2011 457

458 Revista Controle & Automao/Vol.22 no.5/Setembro e Outubro 2011

Ainda sobre a questo do ajuste dos parmetros, alguns m-

Analisando essa estratgia com base nos fundamentos teri-

Finalmente, importante ressaltar que embora a investiga- com k = 1, . . . , c.

Revista Controle & Automao/Vol.22 no.5/Setembro e Outubro 2011 459

460 Revista Controle & Automao/Vol.22 no.5/Setembro e Outubro 2011

Berger, J. (1985). Statistical Decision Theory and Bayesian

Revista Controle & Automao/Vol.22 no.5/Setembro e Outubro 2011 461

462 Revista Controle & Automao/Vol.22 no.5/Setembro e Outubro 2011

Revista Controle & Automao/Vol.22 no.5/Setembro e Outubro 2011 463

464 Revista Controle & Automao/Vol.22 no.5/Setembro e Outubro 2011

Revista Controle & Automao/Vol.22 no.5/Setembro e Outubro 2011 465

466 Revista Controle & Automao/Vol.22 no.5/Setembro e Outubro 2011

Anda mungkin juga menyukai

Nsv onde b2 representa a largura da gaussiana associada a um