DESBALANCEADOS
Universidade Federal de Minas Gerais
Departamento de Engenharia Eletrnica
Belo Horizonte, MG, Brasil
0.6 0.6 f2
0.4 0.4
x2 0.2 x2 0.2
0 0
0.2 0.2
0.4 0.4
0.6 0.6
0.8 0.8
1 0.5 0 0.5 1 1.5 2 2.5 1 0.5 0 0.5 1 1.5 2 2.5
x1 x1
Figura 4: Separabilidade: distribuies separveis (sem Figura 5: Raridade absoluta: a falta de representatividade
rudo) asseguram que f e suas aproximaes, f1 e f2 , apre- das amostras positivas (losangos preenchidos) em relao
sentem boa capacidade de reconhecimento, independente distribuio real (losangos) produz regras de deciso, f1 e f2 ,
do desbalanceamento dos grupos. muito diferentes de f .
grupos raros. Nesses domnios, em que os exemplos positi- classificador f em relao a um dado grupo especfico (de in-
vos no so suficientes para representar as distribuies alvo, teresse). Considere, por exemplo, um conjunto de dados em
a qualidade da aproximao f em relao a soluo tima f que a classe minoritria representada por apenas 2% das ob-
pode ficar comprometida, independente dos fatores de des- servaes. Um classificador com acurcia de 98% pode ser
balanceamento e sobreposio do conjunto de dados. Essa diretamente obtido, por simplesmente classificar todo exem-
caracterstica ilustrada na Figura 5 atravs de um exem- plo como pertencente classe majoritria. Apesar da elevada
plo simples, tambm baseado no toy problem Duas Luas. taxa de acurcia obtida, tal classificador torna-se intil se o
Nesse exemplo, amostras positivas (losangos preenchidos) objetivo principal a identificao de exemplos raros.
so muito raras e portanto, no so capazes de representar
de forma significativa a distribuio real (losangos). Como Muitos trabalhos tm chamado a ateno para os proble-
resultado, as regras de deciso f1 , SVM com kernel RBF mas causados pelo uso da acurcia em cenrios desbalan-
(linha contnua) e f2 , rede MLP-MOBJ (linha pontilhada), ceados (Bradley, 1997; Provost and Fawcett, 1997; Provost
estimadas a partir do conjunto de treinamento (razo 25 : 1), et al., 1998; Maloof, 2003; Cortes and Mohri, 2004; Sun
apresentam-se muito distantes de f (linha tracejada). Ob- et al., 2007). Nesse contexto, uma maneira mais eficaz de
serve ainda pela Figura 5, que devido ao conceito de rari- se avaliar um dado classificador f atravs da distino dos
dade absoluta, exemplos positivos isolados (indicados pelas erros (ou acertos) cometidos para cada classe. Isso pode ser
setas) foram considerados como rudo e ignorados na estima- obtido descrevendo o desempenho de f a partir de uma ma-
o de f1 e f2 . triz de confuso ou tabela de contingncia (vide Tabela 1)
(Fawcett, 2006). Cada elemento ek,j dessa matriz fornece
Na Seo 3, a seguir, so apresentadas as mtricas comu- o nmero de exemplos, cuja verdadeira classe era Ck e que
mente usadas para se avaliar o desempenho de classificadores foi atualmente classificado como Cj . Assim, os elementos
em aplicaes desbalanceadas. ao longo da diagonal principal representam as decises cor-
retas: nmero de verdadeiros negativos (T N ) e verdadeiros
3 MTRICAS DE AVALIAO PARA PRO- positivos (T P ); enquanto os elementos fora dessa diagonal
BLEMAS DESBALANCEADOS representam os erros cometidos: nmero de falsos positivos
(F P ) e falsos negativos (F N ).
Tradicionalmente, a mtrica usada na avaliao e seleo de
modelos de classificao a acurcia (ou taxa de erro) es-
timada em relao a um dado conjunto de teste. Essa me- Tabela 1: Matriz de Confuso para um classificador binrio.
todologia justificada pela formulao padro do problema predio (y = 0) predio (y = 1)
do aprendizado supervisionado que visa a minimizao da
probabilidade do erro global. Para problemas altamente des- real (y = 0) TN FP
balanceados, no entanto, a acurcia pode no fornecer infor- real (y = 1) FN TP
mao adequada sobre a capacidade de discriminao de um
T P r P (x R1 |y = 1)
0.8
Z 0.7 Curva ROC
P (x Rj |y = k) = p(x|y = k)dx , (18) 0.6
Rj
0.5
0.4
com j, k {0, 1}.
0.3
0.2
0.1
p(x|y = 0)
0
0 0.2 0.4 0.6 0.8 1
p(x|y = 1) F P r P (x R1 |y = 0)
Apesar das tcnicas de subamostragem e sobreamostragem As dificuldades observadas na aplicao dos mtodos de re-
possurem o mesmo propsito, elas introduzem diferentes amostragem existentes motivam melhorias e o surgimento
caractersticas ao novo conjunto de treinamento que podem de novas estratgias. Entre as abordagens mais recentes,
algumas vezes, dificultar o aprendizado (Drummond and destacam-se pelos resultados obtidos: (i) o mtodo BED
Holte, 2003; Mease et al., 2007; He and Garcia, 2009). Por (Boundary Elimination and Domination Algorithm) (Castro
exemplo, no caso de subamostragem aleatria, o principal et al., 2009) proposto para melhorar a capacidade de discri-
problema a perda de informao causada pela elimina- minao de SVMs. BED usa informao sobre a densidade
o de exemplos representativos da classe majoritria. Su- dos dados no espao de entrada para eliminar exemplos rui-
bamostragem informativa tenta solucionar esse problema por dosos e intensificar o nmero de exemplos positivos junto
eliminar uma frao menos representativa como, por exem- fronteira das classes; (ii) o algoritmo GSVM-RU (Granular
plo, exemplos redundantes, ruidosos e/ou prximos fron- Support Vector Machines - Repetitive Undersampling), pro-
teira de separao entre as classes (borderlines). Cabe res- posto em Tang and Zhang (2006) e Tang et al. (2009), que
saltar, entretanto, que a escolha de critrios adequados para usa as propriedades do aprendizado de SVMs como um me-
selecionar esses exemplos no uma tarefa fcil. Grande canismo para subamostragem. A estratgia produz inmeros
parte dos mtodos informativos usam o algoritmo KNN (K- grnulos de informao a partir de sucessivos treinamentos
Nearest Neighbour) para guiar o processo de subamostragem com uma SVM linear. A cada treinamento, um novo gr-
(Kubat and Matwin, 1997; Zhang and Mani, 2003; Batista nulo formado a partir dos vetores de suporte negativos e
et al., 2004). O algoritmo BalanceCascade, por sua vez, usa removido do conjunto de treinamento original. Aps a ob-
uma estratgia iterativa de gerao de um ensemble de clas- teno de mltiplos grnulos informativos, uma operao de
sificadores para a escolha dos exemplos a serem removidos agregao usada para selecionar conjuntos especficos de
(Liu et al., 2009). amostras, que so posteriormente combinadas para desen-
volver um classificador SVM final; (iii) um mtodo hbrido
Com relao a sobreamostragem, alguns problemas tm sido composto por modelos baseados em regras e algoritmos evo-
reportados. No contexto de rvores de deciso (Breiman lucionrios (Milar et al., 2010). A abordagem cria diferen-
et al., 1984), foi observado que o uso de sobreamostragem tes conjuntos balanceados que so ento usados na induo
com substituio no melhora de forma significativa o reco- de classificadores cuja sada um grupo de regras (tais como
nhecimento da classe minoritria (Chawla et al., 2002; Mease rvores de deciso). Cada conjunto balanceado contm todos
et al., 2007). Isso ocorre devido gerao de inmeras clu- os exemplos da classe minoritria e uma parcela de exemplos
sulas em um regra para mltiplas cpias do mesmo padro, da classe dominante obtida atravs de subamostragem alea-
tornando a regra muito especfica. Outro problema relacio- tria. Aps a obteno de todos os modelos, um algoritmo
nado sobreamostragem, o aumento da varincia (sobre- evolucionrio usado para fazer uma busca no espao de re-
posio) causado por tcnicas de gerao de dados sintticos gras, selecionando um subconjunto timo para construo do
que no consideram a vizinhana entre as classes, como o classificador final; (iv) um algoritmo gentico (AGB) pro-
caso do mtodo SMOTE (He and Garcia, 2009). Para supe- posto para guiar o processo de sobreamostragem da classe
rar essa limitao, adaptaes tm sido propostas para guiar minoritria (Beckmann and Lima, 2009; Beckmann, 2010).
o processo de interpolao adotado (Han et al., 2005; He AGB evolui buscando pelo melhor posicionamento de re-
et al., 2008). Alm disso, tcnicas de data cleaning, tais gies de sobreamostragem dentro dos limites mnimos e m-
como links de Tomek (Tomek, 1976) e ENN (Edited Nea- ximos definidos pelos exemplos positivos originais. Para que
rest Neighbor rule) (Wilson, 1972), tm sido sido aplica- as classes tornem-se balanceadas, essas regies so preenchi-
das para reduzir o nvel de rudo presente nos dados (Batista das proporcionalmente com exemplos sintticos. Ao final do
et al., 2004; Batista et al., 2005). No trabalho de Machado processo evolutivo, AGB fornece a soluo que detm a me-
and Ladeira (2007b), por exemplo, uma estratgia de limpeza lhor combinao de regies e exemplos sintticos de forma a
denominada C-Clear foi proposta com o objetivo de guiar o maximizar a AUC (Area Under the ROC Curve) do classifi-
mtodo SMOTE, diminuindo o grau de sobreposio entre cador.
as classes. Primeiramente, C-clear agrupa todos os exem-
plos de treinamento em clusters, os quais so rotulados como
positivos (ou negativos) de acordo a frequncia de exemplos 4.2 Adaptaes em Algoritmos de Apren-
minoritrios/majoritrios presentes. O SMOTE ento apli- dizado
cado somente aos clusters positivos. Por ltimo, caso seja
necessrio, os clusters so limpos atravs da eliminao de Solues propostas nessa abordagem so baseadas na adap-
tao de algoritmos de aprendizado existentes visando me-
[ w x1 + w x0 ] .
b= (27)
1+
Crticas eficincia das AC-SVM (SVMs com Custos Assi-
mtricos) foram feitas em Wu and Chang (2003). Baseados
nas condies de KKT, os autores argumentaram que a res- onde x1 e x0 correspondem, respectivamente, a vetores de
trio (24) impe equilbrio na influncia total dos vetores suporte arbitrrios da classe positiva e negativa.
de suporte de cada classe. Para que a restrio seja satis- Idia similar foi apresentada em Li and Shawe-Taylor (2003)
feita, um aumento nos valores de i para exemplos positi- porm, a incorporao do parmetro ocorre nas restries
vos tambm deve acarretar um aumento nos valores de i de desigualdade referentes aos exemplos da classe negativa.
para exemplos negativos. Apesar disso, a estratgia tem apre- Nesse trabalho, os autores mostraram a eficincia do mtodo
sentado bons resultados em aplicaes reais desbalanceadas. em problemas de categorizao de textos que, em geral, so
Em Akbani et al. (2004), os autores sugerem a combinao altamente desbalanceados.
de SMOTE + AC-SVM, obtendo bons resultados sobre ba-
ses de dados desbalanceadas do repositrio UCI (Asuncion
and Newman, 2007). Recentemente, uma estratgia de Bo- 4.2.3 Mudanas no Kernel
osting que sequencialmente usa AC-SVM como classifica-
Ainda no contexto de SVMs, Wu and Chang (2003; 2005) su-
dores base foi proposta em Wang and Japkowicz (2008). A
gerem duas abordagens para modificar o kernel empregado
cada iterao, um novo conjunto de dados com pesos modi-
C1 N0
considerando a distribuio dos dados como informao a
ficados aplicado a um AC-SVM com C 0 = N . Ao final
1 priori. O primeiro algoritmo, Adaptive Conformal Transfor-
do processo, as sadas dos classificadores componentes so mation (ACT) (Wu and Chang, 2003), modifica a funo de
ento combinadas, por um esquema de voto majoritrio pon- kernel K no espao de entrada I e, portanto, depende que os
derado, para produzir uma predio final. dados possuam uma representao vetorial de dimenso fixa.
O segundo, denominado Kernel Boundary Alignment (KBA)
4.2.2 SVMs com Margens Desiguais (Wu and Chang, 2004; Wu and Chang, 2005), modifica dire-
tamente a matriz de Kernel K no espao de caractersticas F,
Em Karakoulas and Shawe-Taylor (1999) foi proposta uma podendo lidar com dados de diferentes dimenses (sequn-
estratgia para diferenciar o tamanho das margens (positiva cias de DNA, vdeos de monitoramento, etc.).
e negativa) no treinamento de SVMs. Isso pode ser obtido a
partir da incorporao do parmetro nas restries de desi- A idia bsica em ambos os mtodos aumentar o valor da
gualdade referentes aos exemplos da classe positiva. A for- mtrica de Riemann para dados prximos fronteira de se-
mulao do problema primal de SVMs com margens suaves parao entre as classes. Segundo os autores, a mtrica de
dada por, Riemann associada funo de kernel K (x, x0 ), mede como
N0 N1 1 0
onde 1 = NSV 1 e 0 = NSV
0 com, NSV e NSV , represen- onde kxx0 extrado diretamente da matriz de kernel K.
SV SV
tando os nmeros de vetores de suporte das classes positiva Cada elemento de K ento modificado a partir da trans-
e negativa, respectivamente. Esse ajuste intensifica a resolu- formao conformal descrita a seguir,
o espacial em regies prximas aos s.v.s positivos. Aps
a obteno da funo transformada K (x, x0 ), um novo trei-
namento permite estimar uma regra de deciso com melhor kij = D(xi ) D(xj ) kij . (33)
capacidade discriminativa.
A nova matriz K obtida novamente usada pelo algoritmo de
No algoritmo KBA, os autores adotam a estratgia de aumen- treinamento original. Em Wu and Chang (2005), os autores
tar a resoluo espacial junto a um hiperplano de separao testaram a eficincia de seus mtodos em bases desbalancea-
considerado ideal. Eles partem da hiptese de que, quando das do repositrio UCI e obtiveram bons resultados.
o conjunto de dados desbalanceado, o hiperplano de mar-
gem mxima obtido pelas SVMs desviado em direo Outro algoritmo baseado em modificao do kernel foi pro-
classe minoritria. Assim, a superfcie de separao ideal posto em Kandola and Shawe-Taylor (2003). Os autores su-
deve ficar entre esse hiperplano (central) e o hiperplano re- geriram uma extenso do algoritmo Kernel Target Alignment
presentado pela margem da classe majoritria. A localizao (Cristianini et al., 2002), atribuindo targets de alinhamento
de um exemplo arbitrrio no hiperplano ideal obtida a de N10 para exemplos positivos e N11 para exemplos nega-
partir do seguinte procedimento de interpolao, que consi- tivos. Foi observado, no entanto, que o algoritmo no foi
dera um s.v. positivo (x1 ) e um s.v. negativo (x0 ) no eficiente para conjuntos de dados com elevado grau de des-
espao de caractersticas F, balanceamento.
A cada passo do algoritmo OFS, o mtodo Regularized Segundo os autores, o critrio LOO-AUC no caro com-
Orthogonal Weighted Least Squares (ROWLS) usado para putacionalmente, desde que o mtodo ROWLS possui fr-
estimar os parmetros dos modelos candidatos atravs de mulas recursivas que algebricamente implementam LOO-
uma nova funo custo que distingue os erros obtidos para crossvalidation sem a necessidade de dividir o conjunto de
cada classe, treinamento.
N c1
na quais as funes indicadoras IdT (u, v) e IdF (u, v) so 1 X X (j) (j)
2
J= [yi fi ] (k, j) . (38)
definidas por, 2 i=i j=0
para os demais neurnios j, que no correspondem Em Castro and Braga (2009) foi tambm conduzida uma an-
classe correta k do i-simo exemplo, a diferena lise detalhada sobre o papel dos parmetros 01 e 10 mos-
(j) (j) trando que a razo 01 /10 influencia diretamente a locali-
yi fi pode ser interpretada como a probabilidade
de classificar o exemplo xi na classe j dado xi pertence zao da superfcie de deciso estimada. Segundo os au-
k. Nesse caso, ela deve ser ponderada pelo custo kj . tores, regras de deciso com taxas de acerto aproximada-
mente equilibradas podem ser obtidas ajustando essa razo
de acordo com os nmeros de exemplos das classes, i.e.,
1 01 /10 = N0 /N1 .
P
1k j6=k j kj se k = j,
(k, j) = (39)
kj se k 6= j.
4.2.6 Abordagem Multiobjetivo
na qual k a probabilidade a priori da classe k. Com o objetivo de otimizar a curva ROC para classificadores
binrios baseados em redes MLP, alguns trabalhos na lite-
ratura (Kupinski and Anastasio, 1999; Sanchez et al., 2005;
Em Alejo et al. (2006), uma mudana na funo custo ori- Everson and Fieldsend, 2006a; Graening et al., 2006), for-
ginal foi proposta para redes RBF. Adotando a codificao 0 mularam o problema do aprendizado como um problema de
de c 1 na camada de sada, os autores consideram as con- otimizao multiobjetivo, da seguinte forma,
tribuies dos erros quadrticos obtidos para cada classe e
introduzem a funo de perda () para compensar o desba-
lanceamento, J0 ()
arg max (min) (42)
J1 ()
Uma importante concluso desse trabalho foi que, embora Problema correlato pode ser visto no escopo dos mtodos
avanos em aprendizado com dados desbalanceados tenham da abordagem Sensvel ao Custo que incorporam parmetros
sido obtidos, especialmente no mbito das solues propos- (ou funes) de custo (representados nesse estudo por 10 e
tas, algumas questes continuam em aberto ou no foram 01 ) formulao padro do problema de aprendizado. Em-
completamente resolvidas. Existe uma carncia por estu- bora na maioria desses mtodos, exista somente a recomen-
dos tericos (ou empricos), fundamentados nas Teorias do dao para que o custo associado ao grupo minoritrio (10 )
Aprendizado, que permitam um melhor entendimento das seja maior que o custo associado ao grupo dominante (01 ), o
causas e consequncias do problema. Tais estudos so essen- ajuste adequado (ideal) para a razo 10 /01 desconhecido
ciais para justificar e guiar o desenvolvimento de solues. e ainda considerado um problema em aberto.
A anlise descrita na Seo 2 foi desenvolvida para contri-
buir um pouco nesse sentido. Foi demonstrado, no contexto Com base em resultados reportados na literatura (Weiss and
de modelos discriminativos, que o vis imposto pelo grupo Provost, 2003; Tang et al., 2009; Castro and Braga, 2009),
dominante uma consequncia direta da minimizao de um especula-se que os ajustes adequados para as propores (ra-
critrio baseado no erro global, tendo como principal atenu- zes) entre as classes e custos, devem ser dependentes da
ante o nvel de incerteza (rudo) da tarefa de classificao. medida (ou critrio) de desempenho que se deseja maxi-
mizar/minimizar. Sob esse ponto de vista, procedimentos
Existem ainda outras caractersticas relacionadas ao pro- de otimizao poderiam ser incorporados aos algoritmos de
blema de classes desbalanceadas que tm sido observadas, aprendizado para efetuar uma busca dos valores dessas ra-
especialmente no contexto de classificadores baseados em zes (classes e custos) segundo a mtrica selecionada: acu-
rvores de deciso, e que necessitam de mais investigaes. rcia, G-mean, F-measure, AUC, etc. Alm disso, uma al-
Entre elas, destacam-se aspectos associados falta de repre- ternativa promissora nesse campo, propor novos algorit-
sentatividade do grupo minoritrio, tais como o desbalance- mos de aprendizado baseados em funcionais risco especficos
Diferentemente das SVMs, a formulao original apresen- Beckmann, M. and Lima, B. (2009). Algoritmos genticos
tada por modelos neurais feed-forward, tais como redes MLP como estratgia de pr-processamento para o aprendi-
e redes RBF, permite uma extenso natural para problemas zado de mquina em conjuntos de dados desbalancea-
com c > 2 classes. Um esquema comumente adotado para dos, Anais do XXX Congresso Ibero Americano de M-
realizar essa extenso, a codificao 1 de c, onde c o n- todos Computacionais em Engenharia, pp. 210223.
mero de unidades de sada do modelo (Bishop, 2006). Os tra-
balhos de Kukar and Kononenko (1998) e, Alejo et al. (2006) Bergamini, C., Oliveira, L. S., Koerich, A. L. and Sabou-
apresentados no contexto de redes reurais sensveis ao custo rin, R. (2009). Combining different biometric traits
(Seo 4.2.5) usam essa codificao e portanto, permitem di- with one-class classification, Signal Process. 89: 2117
retamente o aprendizado multiclasse. 2127.
He, H. and Shen, X. (2007). A ranked subspace learning Kandola, J. and Shawe-Taylor, J. (2003). Refining kernels
method for gene expression data classification, Procee- for regression and uneven classification problems, Pro-
dings of the 2007 International Conference on Artificial ceedings of International Conference on Artificial In-
Intelligence, ICAI 2007, Volume I, June 25-28, 2007, telligence and Statistics, Springer-Verlag, Berlin Hei-
Las Vegas, Nevada, USA, pp. 358364. delberg.
Herschtal, A., Raskutti, B. and Campbell, P. K. (2006). Area Karakoulas, G. and Shawe-Taylor, J. (1999). Optimizing
under roc optimisation using a ramp approximation, classifiers for imbalanced training sets, Proceedings of
Proceedings of the Sixth SIAM International Confe- Conference on Advances in Neural Information Pro-
rence on Data Mining, pp. 111. cessing Systems II, MIT Press, Cambridge, MA, USA,
pp. 253259.
Hodge, V. and Austin, J. (2004). A survey of outlier detection
methodologies, Artif. Intell. Rev. 22(2): 85126. Khoshgoftaar, T. M., Hulse, J. V. and Napolitano, A.
(2010). Supervised neural network modeling: An em-
Hong, X., Chen, S. and Harris, C. (2007). A kernel-based pirical investigation into learning from imbalanced data
two-class classifier for imbalanced data sets, IEEE with labeling errors, IEEE Trans. on Neural Networks
Transactions on Neural Networks 18(1): 2841. 21(5): 813830.
Ishida, C. and Pozo, A. (2007). Optimization of the auc Kohonen, T., Schroeder, M. R. and Huang, T. S. (eds) (2001).
criterion for rule subset selection, Proceedings of the Self-Organizing Maps, 3rd edn, Springer-Verlag New
Seventh International Conference on Intelligent Sys- York, Inc., Secaucus, NJ, USA.
tems Design and Applications, IEEE Computer Society,
pp. 497502. Kubat, M., Holte, R. C. and Matwin, S. (1998). Machine
learning for the detection of oil spills in satellite radar
Japkowicz, N. (2000a). Proceedings of the AAAI2000 images., Machine Learning 30(2-3): 195215.
Workshop on Learning from Imbalanced Data Sets,
AAAI Tech Report WS-00-05. Kubat, M. and Matwin, S. (1997). Addressing the curse
of imbalanced training sets: one-sided selection, Proc.
Japkowicz, N. (2000b). Learning from imbalanced data sets: 14th International Conference on Machine Learning,
A comparison of various strategies, AAAI Conference Morgan Kaufmann, pp. 179186.
on Artificial Intelligence, AAAI Press, pp. 1015.
Kukar, M. and Kononenko, I. (1998). Cost-sensitive learning
Japkowicz, N. (2001). Supervised versus unsupervised with neural networks, Proceedings of the 13th Euro-
binary-learning by feedforward neural networks, Mach. pean Conference on Artificial Intelligence (ECAI-98),
Learn. 42(1-2): 97122. John Wiley and Sons, pp. 445449.
Lawrence, S., Burns, I., Back, A. D., Tsoi, A. C. and Gi- Mease, D., Wyner, A. J. and Buja, A. (2007). Boosted classi-
les, C. L. (1998). Neural network classification and fication trees and class probability/quantile estimation,
prior class probabilities, Neural Networks: Tricks of J. Mach. Learn. Res. 8: 409439.
the Trade, this book is an outgrowth of a 1996 NIPS
Milar, C., Batista, G. and Carvalho, A. (2010). A hybrid
workshop, Springer-Verlag, London, UK, pp. 299313. approach to learn with imbalanced classes using evolu-
tionary algorithms, Logic Journal of IGPL .
Lee, H. and Cho, S. (2006). The novelty detection approach
for different degrees of class imbalance, Neural Infor- Monard, M. and Batista, G. (2002). Learning with skewed
mation Processing, Vol. 4233 of Lecture Notes in Com- class distribution, Advances in Logic, Artificial Intelli-
puter Science, Springer Berlin / Heidelberg, pp. 2130. gence and Robotics, IOS Press, pp. 173180.
Li, Y. and Shawe-Taylor, J. (2003). The svm with uneven Morik, K., Brockhausen, P. and Joachims, T. (1999). Com-
margins and chinese document categorization, Procee- bining statistical learning with a knowledge-based ap-
dings of the 17th Pacific Asia Conference on Language, proach - a case study in intensive care monitoring, Pro-
Information and Computation, pp. 216227. ceedings of the Sixteenth International Conference on
Machine Learning, Morgan Kaufmann Publishers Inc.,
Lin, Y., Lee, Y. and Wahba, G. (2002). Support vector machi- San Francisco, CA, USA, pp. 268277.
nes for classification in nonstandard situations, Mach.
Learn. 46(1-3): 191202. Moturu, S. T., Johnson, W. G. and Liu, H. (2010). Predic-
tive risk modelling for forecasting high-cost patients: a
Liu, X.-Y., Wu, J. and Zhou, Z.-H. (2009). Exploratory un- real-world application using medicaid data, Internatio-
dersampling for class-imbalance learning, IEEE Trans. nal Journal of Biomedical Engineering and Technology
on Sys. Man Cyber. Part B 39(2): 539550. 2(1): 114132.
Pearson, P., Goney, G. and Shwaber, J. (2003). Imbalanced Rodrigues, J., Barros, F. and Prudencio, R. (2009). B-boost:
clustering for microarray time-series, Proc. 20th Inter- Uma extenso do mtodo de boosting para conjuntos
national Conference on Machine Learning (ICML03). de treinamento desbalanceados, VII Encontro Nacional
de Inteligncia Artificial - Anais do XXIX Congresso da
Prati, R., Batista, G. and Monard, M. (2004a). Learning Sociedade Brasileira de Computao, pp. 10391048.
with class skews and small disjuncts, Advances in Arti-
ficial Intelligence, SBIA 2004, Vol. 3171 of Lecture No- Rumelhart, D. E. and McClelland, J. L. (1986). Parallel dis-
tes in Computer Science, Springer Berlin, Heidelberg, tributed processing: Explorations in the microstructure
pp. 11191139. of cognition, Vol. 1: Foundations, MIT Press.
Prati, R., Batista, G. and Monard, M. (2008a). Evaluating Sanchez, M. S., Ortiz, M. C., Sarabia, L. A. and Lleti, R.
classifiers using roc curves, Latin America Transacti- (2005). On pareto-optimal fronts for deciding about
ons, IEEE (Revista IEEE America Latina) 6(2): 215 sensitivity and specificity in class-modelling problems,
222. Analytica Chimica Acta 544(1-2): 236 245.
Prati, R., Batista, G. and Monard, M. (2008b). A study Schlkopf, B., Platt, J. C., Shawe-Taylor, J. C., Smola, A. J.
with class imbalance and random sampling for a deci- and Williamson, R. C. (2001). Estimating the sup-
sion tree learning system, Artificial Intelligence in The- port of a high-dimensional distribution, Neural Com-
ory and Practice II, Vol. 276 of IFIP International Fe- put. 13(7): 14431471.
deration for Information Processing, Springer Boston,
pp. 131140. Silva, C., Silva, A., Netto, S., Paiva, A., Junior, G. and Nu-
nes, R. (2009). Lung nodules classification in ct images
Prati, R. C., Batista, G. E. A. P. A. and Monard, M. C. using simpsons index, geometrical measures and one-
(2004b). Class imbalances versus class overlapping: class svm, Machine Learning and Data Mining in Pat-
An analysis of a learning system behavior, MICAI tern Recognition, Vol. 5632 of Lecture Notes in Compu-
2004: Advances in Artificial Intelligence, Third Mexi- ter Science, Springer Berlin / Heidelberg, pp. 810822.
can International Conference on Artificial Intelligence,
Vol. 2972 of Lecture Notes in Computer Science, Sprin- Souza, M. R. P., Cavalcanti, G. D. C. and Tsang, I. R. (2010).
ger, pp. 312321. Off-line signature verification: An approach based on
combining distances and one-class classifiers, Proce-
Provost, F. and Fawcett, T. (1997). Analysis and visualization edings of the 22nd IEEE International Conference on
of classifier performance: Comparison under imprecise Tools with Artificial Intelligence, ICTAI 2010, Arras,
class and cost distributions, Proceedings of the Third France, IEEE Computer Society, pp. 711.
International Conference on Knowledge Discovery and
Data Mining, AAAI Press, pp. 4348. Spackman, K. A. (1989). Signal detection theory: valuable
tools for evaluating inductive learning, Proceedings of
Provost, F. and Fawcett, T. (1998). Robust classification sys- the sixth international workshop on Machine learning,
tems for imprecise environments, AAAI 98/IAAI 98: Morgan Kaufmann Publishers Inc., San Francisco, CA,
Proceedings of the fifteenth national/tenth conference USA, pp. 160163.