Abstract This paper presents an algorithm (AUC-MLP ) for Multi-Layer Perceptron (MLP) neural network
learning that directly optimizes AUC (Area Under the ROC Curve). The cost function for AUC-MLP is a
differentiable approximation of AUC original expression. The weight updating rule is based on the Gradient
Descent method. In experiments conducted on binary classification problems, our method was compared with
traditional learning algorithms for MLP topology: Levenberg-Marquadt and Resilient-Backpropagation. The
results achieved on real (from UCI repository) data sets point out that our approach was effective, especially for
data sets with higher imbalance degree.
Keywords Multi-Layer Perceptron, Area Under the ROC Curve, Classification, Imbalanced Data Sets.
Resumo Esse trabalho apresenta um algoritmo de aprendizado (AUC-MLP) para redes MLP (Multi-Layer
Perceptron) que diretamente otimiza a AUC (Area Abaixo da Curva ROC ). O algoritmo AUC-MLP e baseado
em uma funcao custo que corresponde a uma aproximacao diferenciavel da AUC. O metodo do Gradiente e usado
para a atualizacao dos pesos da rede. Nos experimentos conduzidos com problemas binarios de classificacao, nosso
metodo foi comparado com algoritmos comumente usados para o aprendizado de redes MLP: Levenberg-Marquadt
e Resilient-Backpropagation. Resultados obtidos com bases de dados reais (do repositorio UCI) mostram que
nossa abordagem foi efetiva, principalmente para problemas com nveis elevados de desbalanceamento entre as
classes.
Keywords Multi-Layer Perceptron, Area Abaixo da Curva ROC, Classificacao, Conjuntos Desbalanceados.
4445
XVIII Congresso Brasileiro de Automtica / 12 a 16-setembro-2010, Bonito-MS
dades a priori das classes, obtem vantagem em re- mento de redes MLP a partir da otimizacao da
lacao a taxa de Erro quando aplicada a problemas AUC e apresentada. Na Secao 4, sao descritos a
desbalanceados (Bradley, 1997). metodologia adotada na conducao dos experimen-
tos e os resultados obtidos. Finalmente, a Secao 5
traz as discussoes e as conclusoes.
1
0.9
N
0.5 {x(i), t(i)}i=1 consistindo de N exemplos per-
0.4 tencentes a duas classes, onde t(i) {+1, 1}
0.3
denota o rotulo (sada desejada) para cada ve-
0.2
tor x(i) Rn . Existem N1 exemplos da classe
0.1
minoritaria ou positiva, {x(p), p = 1, . . . , N1 }, e
N2 exemplos da classe majoritaria ou negativa,
0
0 0.2 0.4 0.6 0.8 1 {x(q), q = 1, . . . , N2 }.
FPrate
A AUC de um classificador f avaliado so-
bre o conjunto T , pode ser expressa como a
Figura 1: Exemplo de Curva ROC para um clas-
probabilidade P (f (X+ ) > f (X )), onde f (X+ )
sificador binario.
e f (X ) correspondem, respectivamente, as den-
sidades (pdfs) das sadas (scores) estimadas pelo
Em geral, a funcao custo otimizada pela maio-
classificador para os exemplos positivos e neg-
ria dos algoritmos de aprendizado e a taxa de
ativos. A expressao dessa probabilidade para
Erro e nao a AUC. Entretanto, como observado
o caso discreto e equivalente a Wilcoxon-Mann-
em (Cortes and Mohri, 2004), otimizar o Erro em
Whitney Statistic (Wilcoxon, 1945; Mann and
determinados casos, nao garante a maximizacao
Whitney, 1947) ilustrada pela Equacao 1, a seguir,
da AUC. Dessa forma, e necessario um algoritmo
que diretamente otimize a AUC. Alguns trabalhos
na literatura visam ao tratamento desse problema: N1 N2
!
1 X X
um metodo para otimizar a AUC localmente foi AU C(f ) = g(f (x(p)) f (x(q))) (1)
N1 N2 p=1 q=1
proposto no contexto de Arvores de Decisao (Ferri
et al., 2002). Outros algoritmos foram desen-
volvidos para maximizar aproximacoes globais da onde o funcional g(x) e definido por,
AUC (Herschtal and Raskutti, 2004) e (Herschtal
et al., 2006), mas, em geral eles nao tem obtido 0 se x < 0,
valores de AUC significativamente melhores que g(x) = 0.5 se x = 0, (2)
metodos desenvolvidos para minimizar o Erro. 1 se x > 0.
(Joachims, 2005) chama a atencao para a dificul-
dade computacional na otimizacao de medidas de A AUC pode ser vista como uma medida
desempenho nao lineares e multivariadas, como e baseada em comparacoes par a par entre classi-
o caso da AUC, e apresenta um metodo baseado ficacoes de ambas as classes. Com um ranking
em Vetores de Suporte para a otimizacao daquela perfeito, todas as observacoes da classe positiva
metrica. possuirao scores mais elevados que as da classe
Nesse trabalho, um novo algoritmo de apren- negativa e assim, AU C(f ) = 1.
dizado para redes MLP (Multi-Layer Perceptron)
(Haykin, 1994) que diretamente otimiza a AUC e 3 O Algoritmo AUC-MLP
descrito. Ele e baseado em uma funcao custo que
corresponde a uma aproximacao diferenciavel da 3.1 Rede MLP
AUC. Nos experimentos conduzidos com proble-
mas binarios de classificacao, nosso algoritmo foi Desde que o escopo de nossa abordagem e lim-
comparado a metodos tradicionais de aprendizado itado a problemas binarios de classificacao, con-
baseados na minimizacao da taxa de Erro. Os re- sidere uma rede Multi-Layer Perceptron (MLP)
sultados obtidos mostraram que nossa abordagem com n entradas, uma camada escondida com h
foi capaz de obter melhores curvas ROC, especial- unidades (neuronios) e uma camada de sada con-
mente para problemas com elevados nveis de des- tendo uma unica unidade, conforme ilustrado pela
balanceamento entre as classes. Figura 2.
O restante do artigo e apresentado da seguinte Dado o conjunto de dados T = {x(i), t(i)}N i=1 ,
forma: Na Secao 2 a metrica Area Abaixo da o valor de sada estimado pela k-esima unidade es-
Curva ROC (AUC ) e descrita formalmente. Em condida, devido a apresentacao do i-esimo exem-
seguida, na Secao 3, nossa proposta para o treina- plo de entrada, e dado por,
4446
XVIII Congresso Brasileiro de Automtica / 12 a 16-setembro-2010, Bonito-MS
6
n
X 5
yk (i) = f (uk (i)) = f xj (i)wkj (3)
4
j=0
3
= 1.2
onde wkj representa o peso entre a unidade escon- 2
4447
XVIII Congresso Brasileiro de Automtica / 12 a 16-setembro-2010, Bonito-MS
[
a solucao encontrada na otimizacao da AU C(w), 4 Experimentos e Resultados
produza z(p) s e z(q) < s , com s = 0.0.
O parametro c influencia somente a inclinacao Nessa Secao, experimentos foram conduzidos com
da funcao R(x). Em testes empricos, foi obser- 5 bases de dados desbalanceadas extradas do
vado que os melhores resultados foram obtidos Repositorio UCI (Asuncion and Newman, 2007).
para c = 2, c = 3 e, 1.2 1.5. Para valores el- A Tabela 1 mostra as caractersticas das bases se-
evados de c, problemas numericos no processo de lecionadas: numero de atributos (#atr.), numero
otimizacao foram notados para alguns conjuntos de exemplos positivos (N1 ), numero de exemp-
de dados. los negativos (N2 ) e razao de desbalanceamento
(N1 /(N1 + N2 )). O rotulo entre parenteses indica
3.3 Formulacao do Problema de Aprendizado a classe alvo, escolhida para representar a classe
positiva (minoritaria). Para bases com mais de
Formalmente, o seguinte problema de otimizacao duas classes, as demais classes foram unidas para
deve ser resolvido, representar a classe negativa (majoritaria).
[
wopt = arg min AU C(w) . (8)
Tabela 1: Caractersticas das 5 bases de da-
O objetivo do aprendizado e obter o vetor de dos usadas no experimento: numero de atribu-
pesos otimo, wopt , que minimiza a funcao custo tos (#atr.), numero de exemplos positivos (N1 ),
[
AU C(w) e consequentemente, maximiza a curva numero de exemplos negativos (N2 ) e razao de
ROC. desbalanceamento (N1 /(N1 + N2 )).
N1 XN2
[
AU C 1 X R (d(p, q)) O metodo AUC-MLP foi comparado com al-
= (9) goritmos comumente usados para o aprendizado
w N1 N2 p=1 q=1 w
de redes MLP: Levenberg-Marquadt (LM ) (Hagan
and Menhaj, 1994) e Resilient-Backpropagation
onde R(d(p,q)) corresponde ao escalar gradiente
w (RProp) (Riedmiller and Braun, 1993). Ambos
devido a apresentacao do par de exemplos x(p) e
sao baseados na minimizacao do funcional so-
x(q).
matorio dos erros quadraticos medios, dado pela
Equacao 5.
3.5 Atualizacao dos Pesos Para cada algoritmo, o numero de neuronios
A regra de aprendizado e baseada no metodo do na camada escondida (h) foi selecionado atraves
gradiente descendente (Luenberger, 1984). Os do procedimento Grid-Search apresentado em
pesos sao inicializados com valores aleatorios, (Van Gestel et al., 2004). Para o algoritmo AUC-
atraves da heurstica estabelecida em (Haykin, MLP, os parametros = 1.4 e c = 2 da funcao
1994), e atualizados na direcao oposta do vetor custo, foram mantidos contantes para todas as
gradiente, conforme as Equacoes 10 e 11 a seguir, bases. Os valores de (taxa de aprendizado) e
(termo de momentum) foram determinados em-
[
w(m) = AU C(w)(m) (10) piricamente. Os parametros otimos selecionados
pelos algoritmos LM, RProp e AUC-MLP, para
cada base de dados, encontram-se na Tabela 2.
w(m + 1) = w(m) + (1 ) w(m) Apos a selecao dos parametros, os algoritmos
foram avaliados atraves das seguintes metricas de
+ w(m 1) (11)
desempenho:
onde e uma constante positiva (taxa de apren- AUC, obtida atraves do algoritmo descrito
dizado) que indica o tamanho do termo de atu- por (Fawcett, 2006), que soma sucessivas
alizacao (w) aplicado a cada epoca (m) sobre areas de trapezios formados a partir dos pon-
o vetor de pesos (w). O termo de momentum, tos (FPrate, TPrate) gerados na construcao
0 1, e usado para acelerar a velocidade de da Curva ROC.
convergencia do metodo, especialmente em regioes
onde a funcao custo apresenta plateaus, e evitar Gmean = T P rate T N rate, definida por
que o mesmo alcance mnimos locais rasos. (Kubat and Matwin, 1997) como a media ge-
4448
XVIII Congresso Brasileiro de Automtica / 12 a 16-setembro-2010, Bonito-MS
TPrate
RProp
0.5
AUCMLP
0.4
0.3
ometrica entre as taxas corretas de classifi- 0.2
cacao para a classe positiva (sensibilidade) e
0.1
negativa (especificidade), respectivamente.
0
0 0.2 0.4 0.6 0.8 1
As Tabelas 3 e 4 mostram, respectivamente, FPrate
os valores de AUC e G-mean (em %) obtidos pe-
los algoritmos sobre as 5 bases de dados. Para Figura 4: Curvas ROC Medias estimadas para a
cada metrica, a media e o desvio padrao foram base Abalone contendo 4145 exemplos negativos e
calculados a partir de 10 execucoes com diferentes 32 positivos, i.e., (N1 /(N1 + N2 )) = 0.008.
subconjuntos estratificados de treinamento e vali-
dacao obtidos a partir da tecnica stratified 10-fold
cross-validation (Stone, 1974). Os melhores resul-
tados encontram-se em negrito. 5 Discussoes e Conclusoes
Como mostrado na Tabela 3, o algoritmo
AUC-MLP, por ter sido projetado para otimizar Esse trabalho apresentou um algoritmo de apren-
uma aproximacao da metrica AU C, obteve mel- dizado para redes MLP que diretamente otimiza
hores resultados em 4 das 5 bases de dados. Rprop a Area Abaixo da Curva ROC. Resultados obti-
obteve o segundo melhor desempenho, apresen- dos com bases de dados reais do repositorio UCI
tando resultados muito similares ao metodo AUC- mostraram que, em geral, o metodo proposto foi
MLP sobre bases menos desbalanceadas: Segmen- capaz de produzir melhores Curvas ROC, melho-
tation e Diabetes. E importante destacar, no en- rando assim, o ranking de classificacao.
tanto, a superioridade dos resultados obtidos por Cabe ressaltar, no entanto, que os resulta-
AUC-MLP em relacao as bases de dados mais des- dos similares obtidos pelos algoritmos sobre as
balanceadas: Yeast e Abalone. bases menos desbalanceadas (Segmentation e Di-
A Tabela 4 mostra os resultados obtidos com abetes) sugerem que, sob certas condicoes, mini-
a metrica G-mean. Essa metrica foi escolhida com mizar Erro tambem implica em otimizar a Curva
o objetivo de avaliar o desempenho de AUC-MLP ROC. Essa conclusao se alinha com as observacoes
sobre aplicacoes desbalanceadas. Valores elevados descritas em (Cortes and Mohri, 2004), onde os
de G-mean refletem taxas elevadas e equilibradas autores mostram que para conjuntos aproximada-
de sensibilidade e especificidade. Conforme obser- mente balanceados, minimizar Erro e equivalente
vado na Tabela 4, AUC-MLP obteve melhores re- a maximizar a AUC.
sultados que LM e Rprop em 4 das 5 bases de da- Por outro lado, (Cortes and Mohri, 2004)
dos, destacando-se novamente sobre as bases mais tambem demonstram que para bases com graus
desbalanceadas: Yeast e Abalone. elevados de desbalanceamento e sobreposicao
E importante notar que, devido ao elevado entre as classes, minimizar Erro nao garante
grau de desbalanceamento das bases Yeast (0.034) a maximizacao da AUC. Os resultados obti-
e Abalone (0.008), os algoritmos baseados na min- dos com os algoritmos Levenberg-Marquadt e
imizacao do erro (LM e Rprop) obtiveram valores Resilient-Backpropagation corroboram essa afir-
nulos para TPRate e, consequentemente, para G- macao. Uma possvel explicacao para o mau de-
mean. Ao contrario, AUC-MLP apresentou um sempenho obtido por esses metodos esta no fato
bom numero de classificacoes positivas corretas, de que o Erro nao leva em consideracao os difer-
melhorando o equilbrio entre a sensibilidade e a entes custos impostos pela diferenca entre as dis-
especificidade. tribuicoes a priori das classes.
Finalmente, curvas ROC medias foram es- Em geral, os metodos baseados em Erro ten-
timadas a partir dos subconjuntos de validacao dem a favorecer a classe majoritaria em detri-
para cada base de dados. Para ilustrar, a Figura mento da minoritaria que, na grande maioria das
4449
XVIII Congresso Brasileiro de Automtica / 12 a 16-setembro-2010, Bonito-MS
Tabela 3: Comparacao entre os valores de AUC (em %) obtidos pelos algoritmos LM, RProp e AUC-
MLP para as 5 bases de dados extradas do Repositorio UCI. Os melhores resultados encontram-se em
negrito.
Tabela 4: Comparacao entre os valores de G-mean (em %) obtidos pelos algoritmos LM, RProp e AUC-
MLP para as 5 bases de dados extradas do Repositorio UCI. Os melhores resultados encontram-se em
negrito.
vezes, apresenta os exemplos de interesse do prob- Bradley, A. P. (1997). The use of the area un-
lema em questao. Essa caracterstica e recorrente der the roc curve in the evaluation of ma-
em aplicacoes como Recuperacao de Informacao, chine learning algorithms, Pattern Recogni-
Diagnostico Medico e Deteccao de Falhas. Ao con- tion 30(7): 11451159.
trario, algoritmos baseados na otimizacao AUC,
como e o caso de AUC-MLP, herdam as pro- Cortes, C. and Mohri, M. (2004). Auc optimiza-
priedades dessa metrica que, por ser independente tion vs. error rate minimization, Advances in
do threshold de decisao e, consequentemente, das Neural Information Processing Systems 16,
prioris das classes, sao capazes de obter melhores MIT Press, Cambridge, MA.
superfcies de decisao, aumentando o numero de
Egan, J. P. (1975). Signal Detection Theory and
classificacoes positivas (minoritarias) corretas e
ROC Analysis, Academic Press.
melhorando o equilbrio entre a sensibilidade e a
especificidade. Fawcett, T. (2006). An introduction to roc anal-
Nossos esforcos futuros estao focados em ysis, Pattern Recogn. Lett. 27(8): 861874.
avaliar o uso de um metodo de otimizacao mais ro-
busto que o metodo do Gradiente e menos depende Ferri, C., Flach, P. A. and Hernandez-Orallo, J.
de parametros. O objetivo e acelerar a convergen- (2002). Learning decision trees using the
cia e efetuar uma busca de solucoes mais eficiente area under the roc curve, ICML 02: Pro-
no espaco de pesos. Alem disso, pretende-se in- ceedings of the Nineteenth International Con-
corporar estrategias de controle de complexidade ference on Machine Learning, Morgan Kauf-
e selecao de modelos diretamente a formulacao do mann Publishers Inc., San Francisco, CA,
algoritmo AUC-MLP. USA, pp. 139146.
Asuncion, A. and Newman, D. (2007). UCI ma- Haykin, S. (1994). Neural Networks: A Compre-
chine learning repository. hensive Foundation, Macmillan, New York.
4450
XVIII Congresso Brasileiro de Automtica / 12 a 16-setembro-2010, Bonito-MS
Herschtal, A. and Raskutti, B. (2004). Optimis- Yan, L., Dodier, R. H., Mozer, M. and Wolniewicz,
ing area under the roc curve using gradi- R. H. (2003). Optimizing classifier perfor-
ent descent, ICML 04: Proceedings of the mance via an approximation to the wilcoxon-
twenty-first international conference on Ma- mann-whitney statistic, ICML 03: Proceed-
chine learning, ACM, New York, NY, USA, ings of the twenty international conference on
p. 49. Machine learning, pp. 848855.
4451