Anda di halaman 1dari 173

UNIVERSIDADE FEDERAL DO ESPRITO SANTO

CENTRO TECNOLGICO
PROGRAMA DE PS-GRADUAO EM INFORMTICA

CARIBE ZAMPIROLLI DE SOUZA

MEDIDA DE CERTEZA NA CATEGORIZAO MULTI-RTULO DE


TEXTO E SUA UTILIZAO COMO ESTRATGIA DE PODA DO
RANKING DE CATEGORIAS

VITRIA
2010

CARIBE ZAMPIROLLI DE SOUZA

MEDIDA DE CERTEZA NA CATEGORIZAO MULTI-RTULO DE


TEXTO E SUA UTILIZAO COMO ESTRATGIA DE PODA DO
RANKING DE CATEGORIAS

Dissertao apresentada ao Programa de PsGraduao em Informtica do Centro


Tecnolgico da Universidade Federal do Esprito
Santo, como requisito parcial para obteno do
Grau de Mestre em Informtica.
Orientadora: Profa. Dra. Claudine Santos Badue
Gonalves

VITRIA
2010

BIBLIOTECA

CARIBE ZAMPIROLLI DE SOUZA

MEDIDA DE CERTEZA NA CATEGORIZAO MULTI-RTULO DE


TEXTO E SUA UTILIZAO COMO ESTRATGIA DE PODA DO
RANKING DE CATEGORIAS

Dissertao submetida ao programa de Ps-Graduao em Informtica do Centro Tecnolgico


da Universidade Federal do Esprito Santo, como requisito parcial para a obteno do Grau de
Mestre em Informtica.
Aprovada em 27 de agosto de 2010.

COMISSO EXAMINADORA

Profa. Dra. Claudine Santos Badue Gonalves - Orientador


Universidade Federal do Esprito Santo

Prof. Dr. Alberto Ferreira De Souza Co-orientador


Universidade Federal do Esprito Santo

Prof. Dr. Elias de Oliveira


Universidade Federal do Esprito Santo

Prof. Dr. Wagner Meira Jr.


Universidade Federal de Minas Gerais

EPGRAFE

A maior de todas as torres comea aqui no


solo. (Provrbio Chins)

DEDICATRIA

Dedico este trabalho aos meus pais Carlos e


Ftima que me guiaram pelos caminhos corretos
e que de muitas formas me incentivaram e
ajudaram

para

que

fosse

concretizao deste trabalho.

possvel

AGRADECIMENTOS
Agradeo primeiramente a Deus pelo sol que ilumina nossos dias ofertando-nos
claridade para guiarmos nossos passos; e por todas as oportunidades de crescimento e
amadurecimento.
Aos meus pais pela vida, pela segurana dos primeiros passos, pelo direcionamento
na vida, pelo abrao amigo e palavras de conforto.
minha orientadora Prof. Dr. Claudine Badue pelo suporte terico e confivel no
decorrer do projeto, paciente e dedicado fundamentais nas vrias etapas de desenvolvimento
deste trabalho.
equipe do SCAE de pesquisadores pelo apoio nos estudos, em especial ao Prof. Dr.
Alberto de Souza, Bruno Zanetti Melotti e Felipe Thomaz Pedroni.
Aos meus irmos pelo carinho e pelo apoio de sempre.
minha namorada pelo carinho, compreenso nas horas de ausncia e pelas horas no
celular para me tirar da frente do computador (hehehe).
Aos meus amigos Paulim e Vello pelo companheirismo e incentivo no decorrer desta
caminhada.

RESUMO
Dado um documento de entrada, um sistema de categorizao multi-rtulo de texto
tipicamente computa graus de crena para as categorias de um conjunto pr-definido, ordena
as categorias por grau de crena, e atribui ao documento as categorias com grau de crena
superior a um determinado limiar de poda. Idealmente, o grau de crena deveria informar a
probabilidade do documento de fato pertencer categoria. Infelizmente, ainda no existem
categorizadores que computam tais probabilidades e mapear graus de crena em
probabilidades um problema ainda pouco explorado na rea de RI.
Neste trabalho, propomos um mtodo baseado na regra de Bayes para mapear graus de
crena em medidas de certeza de categorizao multi-rtulo de texto. Propomos tambm uma
estratgia para determinar limiares de poda baseada na medida de certeza de categorizao bayesian cut (BCut) - e uma variante para BCut - position based bayesian CUT (PBCut).
Avaliamos experimentalmente o impacto dos mtodos propostos no desempenho de duas
tcnicas de categorizao multi-rtulo de texto, k-vizinhos mais prximos multi-rtulo (MLkNN) e rede neural sem peso do tipo VG-RAM com correlao de dados (VG-RAM WNNCOR), no contexto da categorizao de descries de atividades econmicas de empresas
brasileiras segundo a Classificao Nacional de Atividades Econmicas (CNAE).
Investigamos tambm o impacto no desempenho de categorizao multi-rtulo de texto de
trs mtodos de poda comumente usados na literatura de RI - RCut, PCut, e SCut e uma
variante de RCut - RTCut. Alm disso, propomos novas variantes para PCut e SCut PCut* e
SCut*, respectivamente para tratar problemas existentes nestas abordagens. Nossos
resultados experimentais mostram que, usando nosso mtodo de gerao de medidas de
certeza de categorizao, possvel prever o quo certo est o categorizador de que as
categorias por ele preditas so de fato pertinentes para um dado documento. Nossos resultados
mostram tambm que o uso de nossas estratgias de poda BCut e PBCut produz desempenho
de categorizao superior ao de todas as outras estratgias consideradas em termos de
preciso.

ABSTRACT
A multi-label text categorization system typically computes degrees of belief when it
comes to the categories of a pre-defined set, orders the categories by degree of belief, and
attributes to the document categories with a higher degree of belief to determined threshold
cut. It would be ideal if the degree of belief could inform the probability of the document be
part of this category. Unfortunately, there isnt a categorization system that computes such
probabilities and to map degrees of belief in probabilities is still a problem that isn`t well
explored in IR. In this paper we propose a method based on Bayes rules to map degrees of
belief in terms of multi-label text measures of categorization. There are other contributions in
this work such as an strategy to determine the limits of threshold cut based on bayesian cut
(BCut) and a variant for PBCut (position based bayesian CUT ).
As an experience, we evaluated the impact of the proposed methods when performing
the two techniques of the multi-label text categorization. The first technique is called knearest neighbor multi-label (ML-KNN) and the second technique is called VG-RAM
weightless Neural Networks. Theses evaluations were made in the context of the
categorization of economic activities description of Brazilian enterprises, according to the
Economic Activities Classification in Brazil (CNAE).
In this work we also investigated the impact in the performance of multi-label text
categorization of the three cut methods commonly used in the IR literature: RCut, PCut, SCut
and RTCut. Moreover, we propose a new variant for the so called PCut* and a new variant for
SCut*. Finally, this work shows that the cut approach proposed, BCut and PBCut, produces a
categorization performance superior to the other strategies presented in the literature of IR.

SUMRIO
LISTA DE FIGURAS .............................................................................................................. 13
LISTA DE TABELAS ............................................................................................................. 15
1
INTRODUO ................................................................................................................ 18
1.1
Motivaes ............................................................................................................. 20
1.2
Objetivos ................................................................................................................ 21
1.3
Contribuies ......................................................................................................... 22
1.4
Organizao da Dissertao ................................................................................... 22
2
CATEGORIZAO MULTI-RTULO DE TEXTO .................................................... 24
2.1
Categorizao Multi-Rtulo de Texto ................................................................... 24
2.2
Representao Vetorial de Documentos ................................................................ 25
2.3
Categorizador kNN................................................................................................. 28
2.3.1
Categorizador kNN Uni-Rtulo......................................................................... 28
2.3.2
Categorizador ML-kNN ..................................................................................... 29
2.4
Categorizador VG-RAM WNN ............................................................................. 32
2.4.1
VG-RAM WNN ................................................................................................ 33
2.4.2
VG-RAM WNN-COR ...................................................................................... 36
2.5
Aplicao de Categorizao Multi-Rtulo de Texto ............................................. 37
2.5.1
Categorizao de Atividades Econmicas ........................................................ 37
3
ESTRATGIAS DE PODA DE RANKING DE CATEGORIAS .................................... 41
3.1
Estratgia RCut ...................................................................................................... 41
3.2
Estratgia RTCut ................................................................................................... 42
3.3
Estratgia PCut ...................................................................................................... 44
3.4
Estratgia SCut ...................................................................................................... 46
3.5
Novas Variantes para as Estratgias PCut e SCut ................................................. 47
3.5.1
Estratgia PCut*................................................................................................ 47
3.5.2
Estratgia SCut*................................................................................................ 48
4
MEDIDA DE CERTEZA DE CATEGORIZAO........................................................ 50
4.1
Uso da Regra de Bayes para o Clculo da Medida de Certeza de Categorizao . 50
4.2
Uso da Medida de Certeza na Poda do Ranking de Categorias ............................. 52
4.2.1
Estratgia BCut ................................................................................................. 52
4.2.2
Estratgia PBCut ............................................................................................... 54
5
METODOLOGIA EXPERIMENTAL ............................................................................. 56
5.1
Bases de Dados ...................................................................................................... 56
5.2
Correo Ortogrfica Automtica.......................................................................... 60
5.3
Indexao das Bases de Dados .............................................................................. 61
5.4
Validao Cruzada ................................................................................................. 63
5.5
Calibrao dos Categorizadores ............................................................................ 64
5.6
Clculo dos Parmetros para a Medida de Certeza ............................................... 68
5.7
Validao da Medida de Certeza ........................................................................... 72
5.8
Calibrao das Estratgias de Poda ....................................................................... 72
5.8.1
Estratgia RCut ................................................................................................. 73
5.8.2
Estratgia RTCut ............................................................................................... 76
5.8.3
Estratgia PCut.................................................................................................. 79
5.8.4
Estratgia SCut.................................................................................................. 82
5.8.5
Estratgia BCut ................................................................................................. 82
5.8.6
Estratgia PBCut ............................................................................................... 85

12

RESULTADOS EXPERIMENTAIS ............................................................................... 90


6.1
Validao da Medida de Certeza ........................................................................... 90
6.2
Comparao entre as Estratgias de Poda ............................................................. 94
6.2.1
Exact Match ...................................................................................................... 94
6.2.2
Preciso (precision) Orientada Categoria ...................................................... 98
6.2.3
Revocao (recall) Orientada Categoria ...................................................... 104
6.2.4
F Orientada Categoria ............................................................................... 110
6.2.5
Preciso (precision) Orientada a Documento ................................................. 115
6.2.6
Revocao (recall) Orientada a Documento ................................................... 121
6.2.7
F Orientada a Documento ............................................................................ 126
6.2.8
Test-T Estatstico ............................................................................................. 131
7
DISCUSSO .................................................................................................................. 141
7.1
Trabalhos Correlatos ............................................................................................ 141
7.2
Anlise Crtica deste Trabalho............................................................................. 143
8
CONCLUSO E TRABALHOS FUTUROS ................................................................ 144
8.1
Sumrio ................................................................................................................ 144
8.2
Concluses ........................................................................................................... 145
8.3
Trabalhos Futuros ................................................................................................ 146
9
REFERNCIAS BIBLIOGRFICAS ........................................................................... 147
APNDICE A
PARMETROS OBTIDOS NO PROCEDIMENTO DE
CALIBRAO DE SCUT................................................................................................... 154
A.1
Parmetros obtidos no procedimento de calibrao de SCut para o
categorizador ML- k NN e para a base AT100 ........................................................ 154
A.2
Parmetros obtidos no procedimento de calibrao de SCut para o
categorizador ML- k NN e para a base EX100 ........................................................ 158
A.3
Parmetros obtidos no procedimento de calibrao de SCut para o
categorizador VG-RAM WNN-COR e para a base AT100..................................... 159
A.4
Parmetros obtidos no procedimento de calibrao de SCut para o
categorizador VG-RAM WNN-COR e para a base EX100..................................... 163
APNDICE B PROBABILIDADES p(x|y,k) DE VALIDAO VERSUS p(x|y,k) DE
TESTE
164

LISTA DE FIGURAS

Figura 2-1 - Representao grfica de trs documentos de acordo com o modelo vetorial. .... 26
Figura 2-2 - Pseudocdigo do algoritmo ML- k NN. ................................................................ 31
Figura 2-3 - Esquema de um neurnio artificial. ...................................................................... 32
Figura 2-4 Arquitetura para categorizao de texto da VG-RAM WNN [SCAE08]. ............. 35
Figura 2-5 Um exemplo da tabela CNAE para o nvel de Subclasse. ................................... 39
Figura 5-1 Distribuio do nmero de categorias por documento na base de dados VIX. ... 57
Figura 5-2 Distribuio do nmero de categorias por documento na base de dados BH. ..... 58
Figura 5-3 Distribuio do nmero de categorias por documento na base de dados EX100.
.................................................................................................................................................. 59
Figura 5-4 Distribuio do nmero de categorias por documento na base de dados AT100.
.................................................................................................................................................. 59
Figura 5-5 Fluxograma do pr-processamento realizado nas Bases corrigidas anterior
indexao. ................................................................................................................................. 62
Figura 5-6 Validao do ML- k NN segundo a mtrica ranking loss para EX100, (a), e
AT100, (b). ............................................................................................................................... 66
Figura 5-7 Validao do VG-RAM WNN-COR na base EX100. ........................................... 67
Figura 5-8 Validao do VG-RAM WNN-COR na base AT100. ........................................... 68
Figura 5-9 Calibrao de RCut para ML- k NN e para (a) AT100 e (b) EX100. ................. 74
Figura 5-10 Calibrao de RCut para VG-RAM WNN-COR para (a) AT100 e (b) EX100. . 75
Figura 5-11 - Calibrao de RTCut para ML- k NN para (a) AT100 e (b) EX100. ................. 77
Figura 5-12 - Calibrao de RTCut para VG-RAM WNN-COR para (a) AT100 e (b) EX100.
.................................................................................................................................................. 78
Figura 5-13 - Calibrao de PCut para ML- k NN e para (a) AT100 e (b) EX100. ................. 80
Figura 5-14 - Calibrao de PCut para VG-RAM WNN-COR e para (a) AT100 e (b) EX100.
.................................................................................................................................................. 81
Figura 5-15 - Calibrao de BCut para ML- k NN e para (a) AT100 e (b) EX100. ................ 83
Figura 5-16 - Calibrao de BCut para VG-RAM WNN-COR e para (a) AT100 e (b) EX100.
.................................................................................................................................................. 84
Figura 5-17 - Calibrao de PBCut para ML- k NN e para (a) AT100 e (b) EX100. ............... 86
Figura 5-18 - Calibrao de RCut para VG-RAM WNN-COR e para (a) AT100 e (b) EX100.
.................................................................................................................................................. 87
Figura 6-1 - Resultado da mtrica exact-match para as bases (a) AT100 e (b) EX100. Quanto
maior, melhor. .......................................................................................................................... 96
Figura 6-2 - Resultado da mtrica macro precision c para as bases (a) AT100 e (b) EX100.
Quanto maior, melhor. ............................................................................................................ 100
Figura 6-3 - Resultado da mtrica micro precision c para as bases (a) AT100 e (b) EX100.
Quanto maior, melhor. ............................................................................................................ 103
Figura 6-4 - Resultado da mtrica macro recall c para as bases (a) AT100 e (b) EX100.
Quanto maior, melhor. ............................................................................................................ 106
Figura 6-5 - Resultado da micro recall c para as bases (a) AT100 e (b) EX100. Quanto
maior, melhor. ........................................................................................................................ 108
c
Figura 6-6 - Resultado da mtrica macro F1 para as bases (a) AT100 e (b) EX100. Quanto
maior, melhor. ........................................................................................................................ 111

Figura 6-7 - Resultado da mtrica micro F1 para as bases (a) AT100 e (b) EX100. Quanto
maior, melhor. ........................................................................................................................ 113
Figura 6-8 - Resultado da mtrica macro precision d para as bases (a) AT100 e (b) EX100.
Quanto maior, melhor. ............................................................................................................ 117
Figura 6-9- Resultado da mtrica micro precision d para as bases (a) AT100 e (b) EX100.
Quanto maior, melhor. ............................................................................................................ 119
Figura 6-10 - Resultado da mtrica macro recall d para as bases (a) AT100 e (b) EX100.
Quanto maior, melhor. ............................................................................................................ 122
Figura 6-11 - Resultado da mtrica micro recall d para as bases (a) AT100 e (b) EX100.
Quanto maior, melhor. ............................................................................................................ 124
d
Figura 6-12 - Resultado da mtrica macro F1 para as bases (a) AT100 e (b) EX100.
Quanto maior, melhor. ............................................................................................................ 127
d
Figura 6-13 - Resultado da mtrica micro F1 para as bases (a) AT100 e (b) EX100. Quanto
maior, melhor. ........................................................................................................................ 129
c

LISTA DE TABELAS

Tabela 2-1 - Exemplo de tabela-verdade de um neurnio da VG-RAM WNN [SCAE08]........ 34


Tabela 2-2 - Exemplo de tabela-verdade de uma rede neural VG-RAM WNN-COR
[SCAE08]. ................................................................................................................................ 36
Tabela 2-3 Apresentao sumria da Tabela CNAE-Subclasses, Verso 1.1. ...................... 38
Tabela 3-1 Exemplo de poda de ranking de categorias utilizando RCut .............................. 42
Tabela 3-2 Exemplo de poda de ranking de categorias utilizando a estratgia RTCut. ........ 44
Tabela 3-3 Exemplo de poda de ranking de categorias utilizando a estratgia PCut ............ 45
Tabela 3-4 Exemplo de poda de ranking de categorias utilizando a estratgia PCut*. ......... 48
Tabela 4-1 Exemplo de poda de ranking de categorias utilizando a estratgia BCut. .......... 53
Tabela 4-2 Exemplo de poda de ranking de categorias utilizando a estratgia BCut*. ........ 55
Tabela 5-1 Validao para VG-RAM WNN-COR na EX100 para 32x32 neurnios. ............ 67
Tabela 5-2 Sumrio das escolhas dos parmetros dos categorizadores na validao para
EX100 e AT100. ....................................................................................................................... 68
Tabela 5-3 Sumrio dos valores escolhidos para o parmetro de RCut. ............................... 76
Tabela 5-4 Sumrio das escolhas dos parmetros da estratgia de poda RTCut................... 79
Tabela 5-5 Sumrio das escolhas dos parmetros da estratgia de poda PCut...................... 82
Tabela 5-6 Sumrio das escolhas dos parmetros da estratgia de poda BCut. .................... 85
Tabela 5-7 Parmetro obtidos na calibrao da estratgia de poda PBCut segundo ML- k NN
para AT100. .............................................................................................................................. 88
Tabela 5-8 - Parmetro obtidos na calibrao da estratgia de poda PBCut segundo VG-RAM
WNN-COR para AT100 e EX100. ............................................................................................ 88
Tabela 5-9 Sumrio das escolhas dos parmetros da estratgia de poda PCut...................... 89
Tabela 6-1 - Probabilidades p(x|y,k) de validao versus p(x|y,k) de teste para a posio k=1
do ranking em cada um dos 20 intervalos observados de f. ..................................................... 92
Tabela 6-2 - Probabilidades p(x|y,k) de validao versus p(x|y,k) de teste para a posio k=2
do ranking em cada um dos 20 intervalos observados de f. ..................................................... 92
Tabela 6-3 - Probabilidades p(x|y,k) de validao versus p(x|y,k) de teste para a posio k=3
do ranking em cada um dos 20 intervalos observados de f. ..................................................... 93
Tabela 6-4 - Probabilidades p(x|y,k) de validao versus p(x|y,k) de teste para a posio k=4
do ranking em cada um dos 20 intervalos observados de f. ..................................................... 93
Tabela 6-5 - Probabilidades p(x|y,k) de validao versus p(x|y,k) de teste para a posio k=5
do ranking em cada um dos 20 intervalos observados de f. ..................................................... 94
Tabela 6-6 Tabela de contingncia da categoria ci . ............................................................. 98
Tabela 6-7 Tabela de contingncia do documento d j . ....................................................... 115
Tabela 6-8 - Resultado do Test-t para o categorizador ML- k NN e para a base AT100.
Comparao com BCut. .......................................................................................................... 133
Tabela 6-9 - Resultado do Test-t para o categorizador ML- k NN e para a base AT100.
Comparao com PBCut. ....................................................................................................... 134
Tabela 6-10 - Resultado do Test-t para o categorizador ML- k NN e para a base EX100.
Comparao com BCut. .......................................................................................................... 135
Tabela 6-11 - Resultado do Test-t para o categorizador ML- k NN e para a base EX100.
Comparao com PBCut. ....................................................................................................... 136
Tabela 6-12 Resultado do Test-t para o categorizador VG-RAM WNN-COR e para a base
AT100. Comparao com BCut. ............................................................................................ 137

16

Tabela 6-13 - Resultado do Test-t para o categorizador VG-RAM WNN-COR e para a base
AT100. Comparao com PBCut. .......................................................................................... 138
Tabela 6-14 - Resultado do Test-t para o categorizador VG-RAM WNN-COR e para a base
EX100. Comparao com BCut ............................................................................................. 139
Tabela 6-15 - Resultado do Test-t para o categorizador VG-RAM WNN-COR e para a base
EX100. Comparao com PBCut. .......................................................................................... 140
Tabela 9-1 Parmetros obtidos no procedimento de calibrao de SCut para ML- k NN e para
a base AT100. ......................................................................................................................... 155
Tabela 9-2 - Parmetros obtidos no procedimento de calibrao de SCut para ML- k NN e para
a base AT100. ........................................................................................................................ 156
Tabela 9-3 - Parmetros obtidos no procedimento de calibrao de SCut para ML- k NN e para
a base AT100. ......................................................................................................................... 157
Tabela 9-4 - Parmetros obtidos no procedimento de calibrao de SCut para ML- k NN e para
a base AT100. ......................................................................................................................... 158
Tabela 9-5 - Parmetros obtidos no procedimento de calibrao de SCut para ML- k NN e para
a base EX100. ......................................................................................................................... 158
Tabela 9-6 - Parmetros obtidos no procedimento de calibrao de SCut para VG-RAM WNNCOR e para a base AT100. .................................................................................................... 160
Tabela 9-7 - Parmetros obtidos no procedimento de calibrao de SCut para VG-RAM WNNCOR e para a base AT100. .................................................................................................... 161
Tabela 9-8 - Parmetros obtidos no procedimento de calibrao de SCut para VG-RAM WNNCOR e para a base AT100. .................................................................................................... 162
Tabela 9-9 - Parmetros obtidos no procedimento de calibrao de SCut para VG-RAM WNNCOR e para a base AT100. .................................................................................................... 163
Tabela 9-10 - Parmetros obtidos no procedimento de calibrao de SCut para VG-RAM
WNN-COR e para a base EX100. .......................................................................................... 163
Tabela 9-11 Probabilidades p(x|y,k) de validao versus p(x|y,k) de teste para a posio k=1
do ranking em cada um dos 20 intervalos observados de f. ................................................... 165
Tabela 9-12 - Probabilidades p(x|y,k) de validao versus p(x|y,k) de teste para a posio k=2
do ranking em cada um dos 20 intervalos observados de f. ................................................... 166
Tabela 9-13 - Probabilidades p(x|y,k) de validao versus p(x|y,k) de teste para a posio k=3
do ranking em cada um dos 20 intervalos observados de f. ................................................... 166
Tabela 9-14 - Probabilidades p(x|y,k) de validao versus p(x|y,k) de teste para a posio k=4
do ranking em cada um dos 20 intervalos observados de f. ................................................... 167
Tabela 9-15 - Probabilidades p(x|y,k) de validao versus p(x|y,k) de teste para a posio k=5
do ranking em cada um dos 20 intervalos observados de f. ................................................... 167
Tabela 9-16 - Probabilidades p(x|y,k) de validao versus p(x|y,k) de teste para a posio k=1
do ranking em cada um dos 20 intervalos observados de f. ................................................... 169
Tabela 9-17 - Probabilidades p(x|y,k) de validao versus p(x|y,k) de teste para a posio k=2
do ranking em cada um dos 20 intervalos observados de f. ................................................... 169
Tabela 9-18 - Probabilidades p(x|y,k) de validao versus p(x|y,k) de teste para a posio k=3
do ranking em cada um dos 20 intervalos observados de f. ................................................... 170
Tabela 9-19 - Probabilidades p(x|y,k) de validao versus p(x|y,k) de teste para a posio k=4
do ranking em cada um dos 20 intervalos observados de f. ................................................... 170
Tabela 9-20 - Probabilidades p(x|y,k) de validao versus p(x|y,k) de teste para a posio k=5
do ranking em cada um dos 20 intervalos observados de f. ................................................... 171
Tabela 9-21 - Probabilidades p(x|y,k) de validao versus p(x|y,k) de teste para a posio k=1
do ranking em cada um dos 20 intervalos observados de f. ................................................... 172
Tabela 9-22 - Probabilidades p(x|y,k) de validao versus p(x|y,k) de teste para a posio k=2
do ranking em cada um dos 20 intervalos observados de f. ................................................... 173

17

Tabela 9-23 - Probabilidades p(x|y,k) de validao versus p(x|y,k) de teste para a posio k=3
do ranking em cada um dos 20 intervalos observados de f. ................................................... 173
Tabela 9-24 - Probabilidades p(x|y,k) de validao versus p(x|y,k) de teste para a posio k=4
do ranking em cada um dos 20 intervalos observados de f. ................................................... 174
Tabela 9-25 - Probabilidades p(x|y,k) de validao versus p(x|y,k) de teste para a posio k=5
do ranking em cada um dos 20 intervalos observados de f .................................................... 174

1 INTRODUO

Com o advento da comunicao, um grande volume de informao - crescente a taxas


exponenciais - trafega pela World Wide Web e pelas Intranets corporativas espalhadas em
todo o mundo. Apenas a quantidade de dados textuais disponveis na Web estimada ser da
ordem de bilhares de documentos de texto (http://www.worldwidewebsize.com/). Isto dispara
a necessidade de ferramentas eficientes para gerenciar, recuperar, e filtrar informao dessas
grandes bases de dados textuais.
Categorizao de texto, a atividade de rotular textos em linguagem natural com
categorias temticas a partir de um conjunto pr-definido [Sebastiani02], uma dessas
ferramentas importantes para a gesto de dados sob a forma de texto. Contudo, a
categorizao manual um processo demorado e custoso, o que limita sua aplicabilidade.
Conseqentemente, existe um grande interesse no meio acadmico e industrial em
desenvolver tcnicas para categorizao automtica de texto [Sebastiani02].
Categorizao automtica de texto ainda um problema computacionalmente muito
desafiador para as comunidades de Recuperao de Informao (RI), tanto no contexto
acadmico quanto no industrial. A maioria dos trabalhos sobre categorizao de texto na
literatura est focada nos problemas de categorizao de texto com um uni-rtulo (singlelabel), nos quais cada documento pode ter um nico rtulo (ou pertencer a uma nica
categoria) [Sebastiani02]. Entretanto, em problemas do mundo real, a categorizao multirtulo (multi-label), na qual os documentos podem receber mais de um rtulo,
freqentemente necessria [McCallum99, Schapire00, Clare01, Elisseeff02, Comit03,
Ueda03, Boutell04, Kazawa05, Zhang06, Zhang07].
Diversas tcnicas tm sido propostas para atacar o problema de categorizao multirtulo, tais como rvores de deciso (decision trees [Clare01, Comit03]), mquinas de
vetores de suporte (support vector machines - SVM [Elisseeff02, Boutell04, Kazawa05]),
redes neurais (neural networks [Romero04, Zhang06, DeSouza09a, DeSouza09b]), k-vizinhos
mais prximos (k-nearest neighbors ML-kNN [Zhang07]), boosting [Schapire99], e muitas
delas especificamente para categorizao multi-rtulo de texto [McCallum99, Schapire99,
Ueda03, Gao04, Romero04, Zhang06, Zhang07, DeSouza09a, DeSouza09b].
Dado um documento de entrada dj, um sistema de categorizao multi-rtulo de texto
tipicamente computa um valor real f(dj, ci) para cada categoria ci de um conjunto pr-definido.

19
INTRODUO
Este valor f(dj, ci) indica o grau de crena com que o sistema atribui a categoria ci ao
documento dj. O sistema ordena as categorias por grau crena, formando um ranking de
categorias para o documento de entrada. As categorias ci posicionadas no ranking acima de
um determinado limiar de poda i so ento atribudas ao documento de entrada dj, ou seja, ci
predita para dj se f(dj, ci) i.
Idealmente, o grau de crena f(dj, ci) computado por um categorizador deveria
informar qual a probabilidade do documento dj de fato pertencer categoria ci. Infelizmente,
ainda no existem categorizadores que computam tais probabilidades e mapear graus de
crena em probabilidades um problema ainda pouco explorado na rea de RI.
Neste trabalho, propomos um mtodo para mapear graus de crena em medidas de
certeza de categorizao multi-rtulo de texto. Nosso mtodo baseado na regra de Bayes,
que permite alterar as probabilidades a priori tendo em conta novas evidncias de forma a
obter as probabilidades a posteriori. Em nosso mtodo, as probabilidades a priori so
estimadas empiricamente, atravs de experimentos de calibrao, e a regra de Bayes
utilizada para produzir as probabilidades a posteriori de interesse, que denominamos medida
de certeza de categorizao. Ou seja, em nossa abordagem, dado um documento de entrada
dj, um categorizador computa f(dj, ci) para cada categoria ci e, usando resultados
experimentais prvios e a regra de Bayes, uma medida de certeza da categorizao de dj em ci
estimada.
Neste trabalho, propomos tambm uma estratgia para determinar limiares de poda
para o ranking de categorias baseada na medida de certeza de categorizao multi-rtulo de
texto descrita acima, a qual denominamos bayesian cut (BCut). Na estratgia de poda BCut,
um nico limiar de poda, , para todas as categorias ci escolhido de modo a maximizar o
desempenho de categorizao, i.e., sua habilidade de atribuir todas e apenas as categorias
pertinentes a um dado documento. Um nico limiar de poda pode produzir bom desempenho
para todas as categorias devido nossa metodologia de mapear graus de crena em medidas
de certeza de categorizao o limiar de poda, , est associado probabilidade da
categorizao estar correta, independente da categoria ci. Alm disso, propomos uma variante
para BCut que utiliza diferentes limiares de poda p para diferentes posies p do ranking, a
qual denominamos position based bayesian cut (PBCut). A estratgia de poda PBCut pode
produzir um desempenho superior ao de BCut, porque a medida de certeza de categorizao
em uma dada categoria diminui medida que a posio da categoria no ranking aumenta.
Avaliamos experimentalmente o impacto dos mtodos propostos no desempenho de
duas tcnicas de categorizao multi-rtulo de texto, k -vizinhos mais prximos multi-rtulo

20
INTRODUO
(multi-label k -nearest neighbors - ML- k NN) [Zhang07] e rede neural sem peso do tipo VGRAM com correlao de dados (data correlated virtual generalizing random access memory
weightless neural networks VG-RAM WNN-COR) [Aleksander98, Badue08, DeSouza08,

DeSouza09a, DeSouza09b], no contexto da categorizao de descries de atividades


econmicas de empresas brasileiras segundo a Classificao Nacional de Atividades
Econmicas (CNAE) [CNAE03]. Investigamos tambm o impacto no desempenho de
categorizao multi-rtulo de texto de trs mtodos de poda comumente usados na literatura
de RI [Yang01, Lee02, Fan07]: (i) RCut, baseada na posio das categorias no ranking; (ii)
PCut, baseada na popularidade das categorias no conjunto de treinamento; (iii) SCut, baseada
no grau de crena com que o sistema atribui as categorias aos documentos; e (iv) uma variante
de RCut - RTCut [Yang01]. Ademais, propomos novas variantes para PCut e SCut PCut* e
SCut*, respectivamente para tratar problemas existentes nestas abordagens. Em nossa
anlise experimental, utilizamos as mtricas mais relevantes de avaliao de desempenho de
categorizao multi-rtulo de texto empregadas pela comunidade de RI: exact match
[Kazawa05], precision [Sebastiani02, Manning08], recall [Sebastiani02, Manning08], e F1
[Sebastiani02, Manning08]. Nossos resultados experimentais mostram que, usando nosso
mtodo de gerao de medidas de certeza de categorizao, possvel prever o quo certo
est o categorizador de que as categorias por ele preditas so de fato pertinentes para um dado
documento. Nossos resultados mostram tambm que uso o de nossas estratgias de poda BCut
e PBCUT produz desempenho de categorizao superior ao de todas as outras estratgias de
poda consideradas em termos das mtricas precision e exact match.

1.1 Motivaes

Dado um documento de entrada dj, um sistema de categorizao multi-rtulo de texto


tipicamente computa um valor real f(dj, ci) para cada categoria ci de um conjunto pr-definido.
Este valor f(dj, ci) indica o grau de crena com que o sistema atribui a categoria ci ao
documento dj e, idealmente, deveria informar a probabilidade de dj de fato pertencer a ci.
Infelizmente, ainda no existem categorizadores que computam tais probabilidades e mapear
graus de crena em probabilidades um problema ainda pouco explorado na rea de RI.
Assim, a principal motivao para o desenvolvimento deste trabalho foi desenvolver um

21
INTRODUO
mtodo para mapear graus de crena em medidas de certeza de categorizao multi-rtulo de
texto, tal medida facilitaria a compreenso do operador do sistema.
O sistema de categorizao multi-rtulo de texto tipicamente ordena as categorias por
grau crena, formando um ranking de categorias para o documento de entrada. As categorias
ci posicionadas no ranking acima de um determinado limiar de poda i so ento atribudas ao
documento de entrada dj, ou seja, ci predita para dj se f(dj, ci) i. Estratgias para
determinar limiares de poda para o ranking de categorias um tpico de pesquisa pouco
explorado na rea de RI. Assim, outra motivao para o desenvolvimento deste trabalho foi
desenvolver uma estratgia de poda para o ranking de categorias baseada na medida de
certeza de categorizao multi-rtulo de texto.
A motivao para este trabalho surgiu durante o desenvolvimento do Sistema
Computacional de Codificao Automtica de Atividades Econmicas (SCAE). Tal sistema
se prope a categorizar automaticamente, segundo a CNAE, descries, na forma de texto
livre, de atividades econmicas de empresas brasileiras.
A CNAE lista todas as atividades econmicas legalmente reconhecidas no Brasil.
Correntemente, a CNAE contempla 1.301 atividades econmicas, cada uma possuindo um
cdigo especfico. Empresas podem ser categorizadas dentro de um ou mais cdigos; ou seja,
categorizar empresas segundo a CNAE um problema de categorizao multi-rtulo. Devido
grande quantidade de categorias, este um problema complexo e incomum na literatura.

1.2 Objetivos

Ainda no existem categorizadores que computam a probabilidade de um dado


documento de entrada dj de fato pertencer a uma categoria ci de um conjunto pr-definido. Por
esta razo, o principal objetivo deste trabalho foi (i) desenvolver um mtodo para mapear
graus de crena em medidas de certeza de categorizao multi-rtulo de texto. Foi tambm
objetivo deste trabalho (ii) desenvolver uma estratgia para determinar limiares de poda para
o ranking de categorias baseada na medida de certeza de categorizao multi-rtulo de texto,
(iii) e avaliar experimentalmente o impacto dos mtodos propostos no desempenho da
categorizao multi-rtulo de texto.

22
INTRODUO

1.3 Contribuies

As principais contribuies deste trabalho foram:

Elaborao de um mtodo para mapear graus de crena em medidas de certeza de


categorizao multi-rtulo de texto;

Elaborao de uma estratgia para determinar limiares de poda para o ranking de


categorias baseada na medida de certeza de categorizao multi-rtulo de texto;

Elaborao de novas variantes para estratgias comumente utilizadas na literatura


para tratar problemas existentes nestas abordagens;

Implementao dos mtodos para mapeamento dos graus de crena em medidas de


certeza de categorizao e determinao de limiares de poda para o ranking de
categorias baseada nas medidas de certeza de categorizao;

Avaliao experimental do impacto dos mtodos propostos no desempenho da


categorizao multi-rtulo de texto.

1.4 Organizao da Dissertao

Aps esta introduo, esta dissertao est organizada da seguinte forma:

O Captulo 2 discute a categorizao multi-rtulo de texto, apresentando (i)


uma definio de categorizao multi-rtulo de texto, (ii) a representao do
contedo do documento por um vetor de pesos de termos, (iii) os mtodos de
categorizao multi-rtulo de texto usados neste trabalho; e (iv) o problema de
categorizao multi-rtulo de atividades econmicas utilizado como estudo de
caso;

O Captulo 3 apresenta os trs mtodos de poda de ranking de categorias


comumente usados na literatura de RI e avaliados neste trabalho, alm de suas
variantes;

O Captulo 4 prope um mtodo para mapear graus de crena em medidas de


certeza de categorizao baseada na regra de Bayes e uma estratgia para
determinar limiares de poda para o ranking de categorias baseada na medida de
certeza de categorizao multi-rtulo de texto;

23
INTRODUO

O Captulo 5 descreve nossa metodologia experimental, apresentando (i) as


bases de dados usadas neste trabalho, (ii) o pr-processamento das bases de
dados, (iii) a validao cruzada empregada na avaliao do desempenho dos
categorizadores; (iv) a calibrao dos categorizadores, (v) os parmetros do
mtodo baseado na regra de Bayes para mapear graus de crena em medidas de
certeza de categorizao multi-rtulo de texto, (vi) o procedimento de
validao das medidas de certeza de categorizao multi-rtulo de texto, e (vii)
a calibrao das estratgias de poda do ranking de categorias;

O Captulo 6 descreve nossos resultados experimentais, apresentando (i) a


avaliao da medida de certeza de categorizao multi-rtulo de texto; e (ii) a
anlise do impacto das estratgias de poda no desempenho dos categorizadores
multi-rtulo de texto;

O Captulo 7 discute este trabalho de pesquisa, apresentando trabalhos


correlatos e uma anlise crtica desta dissertao;

Finalmente, o Captulo 8 apresenta nossas concluses e direes para trabalhos


futuros.

2 CATEGORIZAO MULTI-RTULO DE TEXTO

Neste captulo, apresentamos uma definio de categorizao multi-rtulo de texto e


descrevemos os mtodos de categorizao de texto k-vizinhos mais prximos multi-rtulo
(multi-label k-nearest neighbors - ML-kNN) [Zhang07] e rede neural sem peso do tipo VGRAM com correlao de dados (data correlated virtual generalizing random access memory
weightless neural networks VG-RAM WNN-COR) [Aleksander98, Badue08, DeSouza08,
DeSouza09a, DeSouza09b]. Apresentamos, tambm, o domnio do problema de descries de
atividades econmicas de empresas brasileiras segundo a Classificao Nacional de
Atividades Econmicas (CNAE) [CNAE03], e como essas descries de atividades so
representadas internamente, segundo o modelo vetorial [Salton75, Baeza99], nas tcnicas de
categorizao multi-rtulo de texto. O contedo deste captulo foi fundamentalmente extrado
de [Melotti09].

2.1 Categorizao Multi-Rtulo de Texto


Sejam D um domnio de documentos e C = {c1 ,K , c|c| } um conjunto de categorias
pr-definido. Na categorizao multi-rtulo de texto, os documentos de D podem ser
categorizados dentro de uma ou mais categorias de C .
Seja

= {d 1 , K , d || } D

um

corpus

inicial

de

documentos

previamente

categorizados manualmente por especialistas no domnio dentro de subconjuntos de C . Em


sistemas automticos para categorizao multi-rtulo, um subconjunto de , denominado
conjunto de treinamento (e calibrao), TV = {d1 ,K , d |TV | } , pode ser utilizado para treinar (e
calibrar) categorizadores implementados segundo tcnicas de aprendizado de mquina
[Sebastiani02] (neste trabalho empregamos somente categorizadores automticos baseados
em tcnicas de aprendizado de mquina). O conjunto de teste, Te = {d |TV |+1 , K, d || } = TV ,
por outro lado, consiste dos documentos no empregados no treinamento dos sistemas de
categorizao e somente submetidos a estes em fase de teste. Depois de ser treinado (e
calibrado) com TV , um sistema de categorizao pode ser utilizado para predizer o conjunto
de categorias de cada documento em Te .

CATEGORIZAO MULTI-RTULO DE TEXTO

25

Sistemas automticos para categorizao multi-rtulo tipicamente implementam uma


funo f : D C que retorna o grau de crena para cada par d j , ci D C , ou seja,
um nmero entre 0 e 1 que, a grosso modo, representa evidncia de que o documento de teste
d j deve ser categorizado dentro da categoria ci . A funo f (.,.) pode ser transformada em
uma funo ranqueadora r (.,.) , tal que, se f ( d j , ci ) > f (d j , c k ) , ento r (d j , ci ) < r (d j , ck ) , e
se f ( d j , ci ) < f (d j , c k ) , ento r (d j , ci ) > r ( d j , ck ) . Esta forma de usar o categorizador de
texto conhecida como categorizao orientada a documento (document-pivoted

categorization [Sebastiani02]), que consiste em, dado um documento d j , encontrar todas as


categorias ci C pertinentes a d j . Alternativamente, outra forma de usar o categorizador ,
dada uma categoria ci C , encontrar todos os documentos d j associados a ci, conhecida
como

categorizao

orientada

categoria

(category-pivoted

categorization

[Sebastiani02]). Neste trabalho, avaliamos categorizao orientada a documento (ver Sees


2.3.2 e 2.4.2).
Seja C j o conjunto de categorias pertinentes (categorias especificadas pelos
especialistas no domnio) ao documento de teste d j e C j o conjunto de categorias preditas
para d j por um categorizador automtico. Um bom categorizador automtico tender a
posicionar as categorias de C j em posies mais elevadas no ranking do que aquelas que no
pertencem a C j . As categorias ci cujo grau de crena superior ao limiar de poda i so

ento preditas para o documento de teste d j , isto , C j = ci | f (d j , ci ) i . Diferentes


limiares i so tipicamente escolhidos para diferentes categorias ci .

2.2 Representao Vetorial de Documentos

Os documentos, em seu formato original (texto livre), usualmente no podem ser


tratados diretamente por tcnicas de aprendizado de mquina empregadas na construo de
categorizadores automticos de texto. Na maioria das tcnicas de aprendizado de mquina,
cada documento do conjunto representado por um vetor de nmeros na representao
ponto-flutuante; esta forma de representao de documentos conhecida na literatura como
representao vetorial de documentos [Salton75, Baeza99]. Cada elemento deste vetor

CATEGORIZAO MULTI-RTULO DE TEXTO

26

quantifica a freqncia com que um termo, pertencente a um vocabulrio de termos


conhecidos pelo categorizador, aparece em TV (bag-of-words representation [Baeza99,
Sebastiani02]). Um termo simplesmente uma ou mais palavras cujo significado, ou
semntica, representativo para o documento [Baeza99, Sebastiani02].
Formalmente, no modelo vetorial de representao de documentos [Salton75,
Baeza99], os documentos so representados por vetores no espao n , onde n representa o
nmero de termos do vocabulrio de termos conhecidos pelo categorizador. Cada documento

d j do conjunto representado por um vetor de pesos d j = w1 j , w2 j ,K, w|T | j , onde T o

conjunto dos termos que ocorrem pelo menos uma vez nos documentos de TV e wkj

representa o peso do termo t k do documento d j ; a ordem dos termos em d j a mesma para


qualquer j [Sebastiani02].
A Figura 2-1 mostra um exemplo de um corpus formado pelo conjunto de documentos
= {d1 , d 2 , d 3 } , representados vetorialmente por meio de vetores tridimensionais, onde cada
dimenso est associada aos pesos dos termos do conjunto T = {t1 , t 2 , t 3 } nos documentos. O

documento d1 representado pelo vetor d1 = w11 , w21 , w31 , d 2 por d 2 = w12 , w22 , w32 e d 3

por d 3 = w13 , w23 , w33 .

Figura 2-1 - Representao grfica de trs documentos de acordo com o modelo vetorial.

CATEGORIZAO MULTI-RTULO DE TEXTO

27

Para determinar o peso wkj do termo t k no documento d j , diversas formulaes


podem ser utilizadas. Empregamos a funo de ponderao conhecida como tfidf (term
frequency, inverse document frequency), definida por [Sebastiani02]:

| TV |

tfidf (t k , d j ) =# (t k , d j ) * log
(2.1)
TV
t
#
(
)
k

onde # (t k , d j ) representa o nmero de vezes que o termo t k ocorre no documento d j ,


chamada de freqncia do termo (term frequency tf); # TV (t k ) denota o nmero de

| TV |
chamado
documentos do conjunto TV em que o termo t k ocorre; e o termo log
# TV (t k )
de freqncia inversa do documento (inverse document frequency idf).
A funo tfidf codifica a intuio de que (i) quanto mais freqente um termo em um
documento, maior a importncia semntica dele para o documento, e (ii) quanto mais
freqente um termo no conjunto de documentos TV , menor o poder de discriminao dele.
Esta formulao leva em considerao apenas a ocorrncia dos termos, no considerando a
ordem na qual eles aparecem nos documentos e o papel sinttico que eles possuem.
importante observar que os pesos dos termos so mutuamente independentes, isto , o peso
wkj calculado para o par (t k , d j ) no diz nada a respeito do peso wk +1 j calculado para o par

(t k +1 , d j ) [Baeza99].
Para que os pesos estejam no intervalo [0, 1] e para que os documentos sejam
representados por vetores de mesma magnitude, os pesos calculados por tfidf so
freqentemente normalizados pela funo de normalizao de co-seno, definida por
[Sebastiani02]:

wkj =

tfidf (t k , d j )
|T |

(tfidf (t
s =1

, d j )) 2

(2.2)

O procedimento de transformar os textos dos documentos em uma forma que possa ser
interpretada pelas tcnicas de categorizao de texto chamado de indexao (indexing). A
funo de indexao tfidf foi escolhida para ser utilizada neste trabalho por ser a mais
empregada na literatura [Sebastiani02], ou seja, as tcnicas de categorizao multi-rtulo

CATEGORIZAO MULTI-RTULO DE TEXTO

28

examinadas neste trabalho tm como entrada documentos (ou descries de atividades


econmicas) representados por vetores cujos pesos dos termos so calculados pela funo
tfidf. Estas tcnicas so apresentadas nas sees a seguir.

2.3 Categorizador kNN

A tcnica k -vizinhos mais prximos ( k -nearest neighbor k NN) baseada em


exemplos (instance-based [Mitchell97]), isto , nenhum modelo criado para extrair as
caractersticas de um documento e associ-las a um conjunto de categorias na base de
treinamento. Mtodos baseados em exemplo so, algumas vezes, referenciados como mtodos
de aprendizado preguiosos (lazy learning methods) porque eles somente processam a base
de treinamento ao receber uma nova requisio de categorizao para um novo documento
[Mitchell97].
O k NN tradicional utilizado na literatura em contextos uni-rtulo, mas o problema
em que estamos interessados multi-rtulo. Para empregar o categorizador k NN em
problemas multi-rtulo, ele precisa ser alterado. A seo 2.3.1 apresenta o k NN uni-rtulo e a
seo 2.3.2 o k-vizinhos mais prximos multi-rtulo (multi-label k-nearest neighbor MLkNN) proposto por Zhang e Zhou (2007).

2.3.1 Categorizador kNN Uni-Rtulo

O algoritmo k NN muito simples: dado um documento de teste d j , o sistema busca,


empregando uma mtrica de distncia, os k vizinhos (documentos) mais prximos a d j no
conjunto de treinamento, TV, e escolhe a categoria ci a ser atribuda a d j dentre as categorias
desses k vizinhos [Yang99]. Vrias mtricas de distncia podem ser utilizadas, mas a mais

freqente o co-seno do ngulo entre o vetor que representa d j , d j , e cada documento d m

de TV , d m [Sebastiani02]:

CATEGORIZAO MULTI-RTULO DE TEXTO

cos(d j , d t ) =

29

d j dm

(2.3)

| d j | | dm |

O valor do co-seno do ngulo entre o vetor de d j e o de cada vizinho d n usado


como o grau de crena do categorizador de que a categoria de d n deve ser atribuda a d j . A
partir deste grau de crena, duas estratgias podem ser utilizadas para predizer uma categoria
a d j : maioria dos votos (majority votes) e a soma dos co-senos (similaridades) (similarity

score summing) [Baoli03, Yavuz98, Yang99]. Na primeira, a categoria mais freqente, entre
as dos k vizinhos mais prximos, a escolhida. Na segunda, a categoria com a maior soma
dos co-senos, entre as dos k vizinhos mais prximos, a escolhida.

2.3.2

Categorizador ML-kNN
O Multi-Label k -Nearest Neighbor (ML- k NN) [Zhang07] um categorizador multi-

rtulo baseado no algoritmo k NN uni-rtulo. Dado um documento de teste d j , o ML- k NN


identifica os k documentos da base de treinamento mais similares a d j utilizando a mtrica
de distncia co-seno (Equao (2.3)). Posteriormente, o algoritmo identifica a freqncia de
cada categoria nestes k documentos. Utilizando esta informao, o ML- k NN prediz um
conjunto de categorias para d j utilizando o maximum a posteriori principle (MAP)
[Sparacino00].
Formalmente, dado o documento d m TV e o conjunto de categorias pertinentes de

d m , C m C , podemos definir: (i) o vetor de categorias de d m , y d m , de tamanho igual |C|,

onde y d m (ci ) recebe 1 se ci C m e zero caso contrrio; e (ii) o conjunto dos k vizinhos mais
prximos a d m no conjunto de treinamento TV , N (d m ) .
Durante a fase de treinamento, baseado no conjunto de categorias associadas aos
documentos dm pertencentes a N (d m ) , um vetor de contagem de associao (membership

counting vector [Zhang07]), C d m , de tamanho igual |C|, computado segundo a Equao

(2.4) para cada d m TV :

CATEGORIZAO MULTI-RTULO DE TEXTO

30

C d m (ci ) = aN ( d ) y a (ci )

(2.4)

O vetor C d m sumariza a vizinhana de d m em TV com respeito s categorias


associadas aos documentos em N (d m ) .
Na fase de teste, para cada documento d j em Te , o ML- k NN primeiramente
identifica os k vizinhos mais prximos d j , N (d j ) , no conjunto TV . Seja H 1ci um evento
no qual a categoria ci est associada a d j ; H 0ci um evento no qual a categoria ci no est
associada a d j ; e E nci (n {0,1, K , k}) um evento no qual existem exatamente n documentos

associados categoria ci . Baseado no vetor de contagem de associao de d j , C d j , o vetor

de categorias y d j pode ser determinado pelo MAP, conforme Equao (2.5):

y d j (ci ) = arg max b{0,1} P ( H bci | E ci

(2.5)

C d j ( ci )

Pela regra de Bayes, a Equao (2.5) pode ser reescrita conforme Equao (2.6):

y d j (ci ) = arg max b{0,1}

P( H bci ) P( Eci

C d j ( ci )

ci

P( E

| H bci )
(2.6)

C d j ( ci )

Eliminando o denominador P( Eci


C d j ( ci )

) , pois independente de P( H bci ) , temos a

equao final para a obteno do vetor de categorias preditas para d j :

y d j (ci ) = arg max b{0,1} P( H bci ) P ( Eci

C d j ( ci )

| H bci )

(2.7)

A Equao (2.7) mostra que, para determinar o vetor de categorias preditas y d j , toda a
informao sobre as probabilidades a priori, P( H bci ) , e a posteriori, P( E ci

C d j ( ci )

| H bci ) , so

CATEGORIZAO MULTI-RTULO DE TEXTO

31

necessrias. Na verdade, essas probabilidades podem ser estimadas a partir da freqncia das
categorias no conjunto de treinamento. A Figura 2-2 mostra o pseudocdigo do ML- k NN
[Zhang07].

Figura 2-2 - Pseudocdigo do algoritmo ML- k NN.

Os parmetros de entrada do algoritmo so TV , k , d j e s . O parmetro s controla a


suavizao da probabilidade a priori e, neste trabalho, optamos em utilizar o valor s = 1
(suavizao Laplaciana [Zhang07]). De acordo com a Figura 2-2, os passos (1) e (2) calculam
a probabilidade a priori, P ( H bci ) . Os passos de (3) a (13) estimam a probabilidade a

posteriori, P ( E ci
C d j ( ci )

| H bci ) , onde c[ j ] contabiliza o nmero de documentos entre os k

documentos similares no conjunto de treinamento que possuem a categoria

ci .

Correspondentemente, c'[ j ] contabiliza o nmero de documentos entre os k documentos


similares no conjunto de treinamento que no possuem a categoria ci . Finalmente, os passos

CATEGORIZAO MULTI-RTULO DE TEXTO

32

(14) a (18) so a predio do algoritmo, isto , a atribuio de um grau de crena para cada
categoria ci C referente ao documento de teste d j , f (., ci ) .

2.4 Categorizador VG-RAM WNN

Uma rede neural artificial um modelo de computao inspirado na forma como a


estrutura paralela e densamente conectada do crebro dos mamferos processa as informaes.
Mais formalmente, as redes neurais artificiais so sistemas paralelos distribudos compostos
por unidades de processamento simples, chamados de ns, que calculam determinadas
funes matemticas (normalmente no-lineares) [Haykin99]. Essas unidades so dispostas
em uma ou mais camadas e interligadas por um nmero de conexes, chamadas de sinapses.
Essencialmente, um neurnio artificial composto por um conjunto de sinapses, um
somador e uma funo de transferncia (ou funo de ativao) [Haykin99]. Conforme a
Figura 2-3, cada sinapse do neurnio k est associada aos pesos {wk1 , wk 2 ,K wkm } .
Especificamente, ao ser apresentada uma informao ao neurnio, {x1 , x 2 ,K xm } , cada
elemento da informao multiplicado pelo peso wkj da sinapse, e o resultado de cada
entrada somado, ou seja, realizada uma soma ponderada da informao de entrada pelo
Somador. O resultado da soma passa por uma Funo de ativao, (.) , que computa a sada
y k do neurnio em funo da sada do Somador.

Sada

Figura 2-3 - Esquema de um neurnio artificial.

CATEGORIZAO MULTI-RTULO DE TEXTO

Redes neurais sem peso (weightless neural networks - WNN), tambm conhecidas
como redes neurais baseadas em Random Access Memories (RAM), no armazenam
conhecimento em suas conexes, mas em memrias do tipo RAM dentro dos nodos da rede,
ou neurnios. Estes neurnios operam com valores de entrada binrios e usam RAM como
tabelas-verdade: as sinapses de cada neurnio coletam um vetor de bits da entrada da rede,
que usado como o endereo da RAM, e o valor armazenado neste endereo a sada do
neurnio. O treinamento pode ser feito em um nico passo e consiste basicamente em
armazenar a sada desejada no endereo associado com o vetor de entrada do neurnio.
Apesar da sua notvel simplicidade, as WNN so muito efetivas como ferramentas de
reconhecimento de padres, oferecendo treinamento e teste rpidos, e fcil implementao.
No entanto, se a entrada da rede for muito grande, o tamanho da memria dos neurnios da
WNN torna-se proibitivo, dado que tem de ser igual a 2n, onde n o tamanho da entrada.
As redes Virtual Generalizing RAM (VG-RAM) so redes neurais baseadas em RAM
que somente requerem capacidade de memria para armazenar os dados relacionados ao
conjunto de treinamento. Os neurnios VG-RAM armazenam os pares entrada-sada
observados durante o treinamento, em vez de apenas a sada. Na fase de teste, as memrias
dos neurnios VG-RAM so pesquisadas mediante a comparao entre a entrada apresentada
rede e todas as entradas nos pares entrada-sada aprendidos. A sada de cada neurnio VGRAM determinada pela sada do par cuja entrada a mais prxima da entrada apresentada
a funo de distncia adotada pelos neurnios VG-RAM a distncia de Hamming, isto , o
nmero de bits diferentes entre dois vetores de bits de tamanho igual. Se existir mais do que
um par na mesma distncia mnima da entrada apresentada, a sada do neurnio escolhida
aleatoriamente entre esses pares.

2.4.1 VG-RAM WNN

A Tabela 2-1 ilustra a tabela-verdade de um neurnio VG-RAM com trs sinapses ( X 1 ,

X 2 e X 3 ). Esta tabela-verdade contm trs pares entrada-sada que foram armazenados


durante a fase de treinamento ( par #1 , par #2 e par #3 ). Durante a fase de teste, quando
um vetor de entrada apresentado rede, o algoritmo de teste VG-RAM calcula a distncia
entre este vetor de entrada e cada entrada dos pares entrada-sada armazenados na tabelaverdade. No exemplo da Tabela 2-1, a distncia de Hamming entre o vetor de entrada (input)

33

CATEGORIZAO MULTI-RTULO DE TEXTO

34

e o par #1 dois, porque ambos os bits X 2 e X 3 no so semelhantes aos bits X 2 e X 3 do


vetor de entrada. A distncia do par #2 um, porque X 1 o nico bit diferente. A distncia
do par #3 trs. Portanto, para este vetor de entrada, o algoritmo avalia a sada do
neurnio, Y , como categoria 2 , pois o valor de sada armazenado no par #2 .
Tabela 2-1 - Exemplo de tabela-verdade de um neurnio da VG-RAM WNN [SCAE08].

Tabela-verdade

X1

X2

X3

par #1
par #2
par #3

categoria 1
categoria 2
categoria 3

vetor de entrada

categoria 2

Para categorizar documentos de texto usando uma VG-RAM WNN, um documento


representado por um vetor multidimensional V = {v1 , v 2 ,K, v|V | ) , onde cada elemento vi
corresponde a um peso associado a um termo especfico do vocabulrio de interesse. Uma
VG-RAM WNN de uma nica camada (Figura 2-4) utilizada, de forma que as sinapses
X = {x1 , x 2 ,K, x| X | } de seus neurnios so conectadas aleatoriamente entrada da rede
N = {n1 , n2 , K, n| N | ) , que tem o mesmo tamanho de um vetor que representa um documento,
isto , | N |=| V | . Note que | X |<| V | (nossos experimentos demonstraram que | X |<| V | prov
melhor desempenho). Cada sinapse xi de um neurnio forma uma clula Minchinton com a
prxima xi +1 ( x| X | forma uma clula Minchinton com x1 ) [Mitchell98]. O tipo de clula
Minchinton usada retorna 1 se a sinapse xi da clula conectada a um elemento de entrada
n j cujo valor maior do que aquele do elemento nk ao qual a sinapse xi +1 conectada (isto
, n j > nk ); caso contrrio, ela retorna zero.

CATEGORIZAO MULTI-RTULO DE TEXTO

f(., .)

f(., c1)

f(., c2)

35

f(., c3)

...

f(., c|C|)

neurons outputs O

o1

o|O|

...

>

>

synapses X

x1

x2

...
...
...

input N

n1

n2

n3

n4

n5

n6

document V

v1

v2

v3

v4

v5

v6

minchinton
cells

. .

>

x|X|

...
...
...

n7

...

n|N|

v7

...

v|V|

>

>

x1

x2

. .

>

x|X|

Figura 2-4 Arquitetura para categorizao de texto da VG-RAM WNN [SCAE08].

Durante a fase de treinamento, para cada documento no conjunto de treinamento, o


vetor correspondente V

conectado entrada N da VG-RAM WNN e as sadas

O = {o1 , o2 ,K, o|O| } dos neurnios a uma das categorias do documento. Todos os neurnios da
VG-RAM WNN so ento treinados para retornar como sada esta categoria com este vetor de
entrada. O treinamento para este vetor de entrada repetido para cada categoria associada ao
documento correspondente. Durante a fase de teste, para cada documento de teste, a entrada
conectada ao vetor correspondente e o nmero de neurnios retornado para cada categoria
contabilizado. A sada da rede computada dividindo-se a contagem de cada categoria pelo
nmero de neurnios da rede.
A sada da rede reorganizada como um vetor cujo tamanho igual ao nmero de
categorias existentes. O valor de cada elemento deste vetor varia entre 0 e 1 e representa a
porcentagem de neurnios que exibiram a categoria correspondente como sada (a soma dos
valores de todos os elementos deste vetor sempre 1 ). Desta forma, a sada da rede
reorganizada deste modo implementa a funo f (.,.) , que apresenta valores no domnio dos

nmeros reais e que mapeia a mltipla pertinncia de um documento frente a um dado


conjunto de categorias existentes. Finalmente, um valor limiar i para cada categoria ci pode
ser usado com a funo f (.,.) , a fim de definir o conjunto de categorias a serem atribudas a
um documento de teste d j : se f (d j , ci ) i , ento ci atribuda a d j .

CATEGORIZAO MULTI-RTULO DE TEXTO

36

2.4.2 VG-RAM WNN-COR


Enquanto numa VG-RAM WNN cada neurnio treinado para retornar como sada
uma nica categoria para cada vetor de entrada, numa VG-RAM WNN com Correlao de
Dados (VG-RAM WNN-COR [DeSouza08, DeSouza09b]) cada neurnio pode ser treinado
para retornar como sada um conjunto de categorias para cada vetor de entrada. A Tabela 2-2
ilustra a tabela-verdade de uma VG-RAM WNN-COR com trs sinapses X 1 , X 2 e X 3 e trs
pares entrada-sada armazenados durante a fase de treinamento ( par #1 , par #2 e

par #3 ). Semelhante VG-RAM WNN, quando um vetor de entrada apresentado rede na


fase de teste, o algoritmo de teste da VG-RAM WNN-COR computa a distncia entre este vetor
de entrada e cada entrada dos pares entrada-sada na tabela-verdade. No exemplo da Tabela
2-2, a distncia de Hamming entre o vetor de entrada (input) e os pares #1 , #2 , e #3 dois,
um e trs, respectivamente. Como o par #2 da tabela-verdade o mais prximo da entrada
da rede, a sada do neurnio da VG-RAM WNN-COR dada pelas categorias 1 e 3 , isto , o
valor de Y representa ambas as categorias, 1 e 3 .
Tabela 2-2 - Exemplo de tabela-verdade de uma rede neural VG-RAM WNN-COR [SCAE08].

Tabela-verdade

X1

X2

X3

par #1
par #2
par #3

categoria 1
categoria 1 ; categoria 3
categoria 1 ; categoria 2 ; categoria 3

vetor de entrada

categoria 1 ; categoria 3

Para categorizar documentos de texto usando uma VG-RAM WNN-COR, a mesma


configurao da VG-RAM WNN, ilustrada na Tabela 2-2, usada. Na fase de treinamento,
para cada documento no conjunto de treinamento, o vetor correspondente V conectado
entrada da VG-RAM WNN-COR, N , e as sadas dos seus neurnios, O , ao conjunto de
categorias atribudo ao documento. Cada neurnio da VG-RAM WNN-COR treinado para
retornar como sada este conjunto com este vetor de entrada. Durante a fase de teste, para
cada documento de teste, o vetor correspondente V conectado entrada da rede, N . A
funo f (.,.) computada ao dividir o nmero de votos para cada categoria pelo nmero total

de categorias retornadas pela rede. O nmero de votos para cada categoria obtido ao contar
suas ocorrncias em todos os conjuntos retornados pelos neurnios da rede.

CATEGORIZAO MULTI-RTULO DE TEXTO

A implementao de rede neural VG-RAM WNN-COR explora a correlao das


categorias associadas a cada documento para melhorar o desempenho da categorizao multirtulo de texto. Resultados experimentais apresentados em [DeSouza08, DeSouza09b]
mostram que a implementao VG-RAM WNN-COR tem um desempenho global superior ao
da VG-RAM WNN em termos das mtricas mais relevantes de avaliao de desempenho de
categorizao multi-rtulo de texto empregadas pela comunidade de RI. Por esta razo, neste
trabalho, utilizamos a implementao VG-RAM WNN-COR [DeSouza08, DeSouza09b] para
avaliar a estratgia de poda para o ranking de categorias baseada na medida de certeza de
categorizao multi-rtulo de texto.

2.5 Aplicao de Categorizao Multi-Rtulo de Texto

Devido ao aumento da disponibilidade do nmero de documentos de texto no formato


digital, e pela conseqente necessidade de organiz-los, a categorizao de texto tornou-se
uma das tcnicas chave para manipular e organizar dados no formato texto [Sebastiani02].
Hoje em dia, a categorizao de texto pode ser aplicada em diversos problemas, tais como:
organizao de documentos, filtragem de texto, gerao automatizada de metadados,
desambiguao do sentido da palavra, categorizao de pginas Web baseados em um
catlogo hierrquico, entre outras. No entanto, existem muitas outras importantes aplicaes
s quais pouca ateno tem sido dada. Um exemplo a categorizao de atividades
econmicas baseada na descrio das atividades econmicas realizadas por uma empresa
[Badue08, Ciarelli08, Ciarelli09, DeSouza07, DeSouza08, DeSouza09a, DeSouza09b,
Oliveira08a, Oliveira08b]. Neste trabalho, verificamos o impacto da nossa estratgia de poda
para o ranking de categorias, baseada na medida de certeza de categorizao multi-rtulo de
texto, utilizando bases de texto contendo descries de atividades econmicas de empresas
brasileiras.

2.5.1 Categorizao de Atividades Econmicas


A categorizao de companhias de acordo com as respectivas atividades exercidas
uma etapa importante do processo de obteno de informao para a realizao de anlises
estatsticas das atividades econmicas de uma cidade ou pas. Com as companhias

37

CATEGORIZAO MULTI-RTULO DE TEXTO

38

categorizadas, possvel realizar uma anlise estruturada de cada setor da economia,


auxiliando empresas e governos em suas decises.
Para facilitar e melhorar a qualidade de categorizao das empresas de acordo com as
atividades econmicas, o governo brasileiro est criando uma biblioteca digital centralizada
com as declaraes de propsitos de todas as empresas no pas. Esta biblioteca vai ajudar as
trs esferas de governo federal, os 27 Estados, e os mais de 5.000 municpios brasileiros
na tarefa de categorizar as empresas de acordo com a lei Brasileira vigente.
A categorizao oficial das atividades econmicas adotada pelos rgos da
administrao federal baseada na Classificao Nacional de Atividades Econmicas
(CNAE). A CNAE foi desenvolvida tendo como referncia a International Standard

Industrial Classification of All Economic Activities - ISIC, 3 reviso, das Naes Unidas. A
ISIC uma padronizao internacional definida pelas Naes Unidas para a disseminao das
estatsticas econmicas no mundo. A partir da elaborao da CNAE foi derivada outra
classificao, a CNAE-FISCAL, ou CNAE-Subclasses [CNAE03], que um detalhamento
das Classes da CNAE para uso nos cadastros da administrao pblica, em especial da
administrao tributria, nas trs esferas do governo. A Tabela 2-3 apresenta sumariamente a
CNAE-Subclasses Verso 1.1 .
Tabela 2-3 Apresentao sumria da Tabela CNAE-Subclasses, Verso 1.1.

Sees

Divises

Grupos Classes

Subclasses

25

91

B
C
D
E
F

1
4
23
2
1

1
7
104
4
6

2
14
286
7
16

11
42
395
8
43

19

72

223

H
I

1
5

2
14

7
29

16
76

11

27

65

24

38

80

L
M
N
O
P

1
1
1
4
1

3
4
3
11
1

10
10
9
26
1

10
17
35
69
1

Total

59

222

580

1.183

Denominao
Agricultura, pecuria, silvicultura e explorao
florestal
Pesca
Indstrias extrativas
Indstrias de transformao
Produo e distribuio de eletricidade, gs e gua
Construo
Comrcio; Reparao de veculos automotores,
objetos pessoais e domsticos
Alojamento e alimentao
Transporte, armazenagem e comunicaes
Intermediao financeira, seguros, previdncia
complementar e servios relacionados
Atividades imobilirias, aluguis e servios prestados
s empresas
Administrao pblica, defesa e seguridade social
Educao
Sade e servios sociais
Outros servios coletivos, sociais e pessoais
Servios domsticos
Organismos internacionais e outras instituies
extraterritoriais

CATEGORIZAO MULTI-RTULO DE TEXTO

A CNAE-Subclasses uma tabela hierrquica de descrio de atividades econmicas


com os respectivos cdigos associados. Conforme a Tabela 2-3 mostra, a CNAE-Subclasses
1.1 est organizada hierarquicamente em 5 nveis: Seo, Diviso, Grupo, Classe e
Subclasse, contendo 17 Sees, 59 Divises, 222 Grupos, 580 Classes e 1.183 Subclasses.

O campo Denominao representa a descrio textual do cdigo de Seo. Cada cdigo nos
nveis Diviso, Grupo, Classe e Subclasse tambm est associado a uma denominao
[CNAE03].
Os cdigos da CNAE-Subclasses so constitudos por 7 dgitos, sendo os 5 primeiros
dgitos referentes ao nvel de Classe e os dois ltimos referentes ao detalhamento de cada
Classe CNAE. Por exemplo, a Figura 2-5 apresenta o nvel de Subclasse da Seo A para o
cdigo 0111 - 2/01 com a denominao CULTIVO DE ARROZ. Como podemos perceber,
a Classe identificada pelo cdigo 0111 - 2 e pela denominao CULTIVO DE CEREAIS
PARA GRAOS.

Figura 2-5 Um exemplo da tabela CNAE para o nvel de Subclasse.

Os cdigos Subclasse tambm carregam a identificao dos nveis de Diviso e Grupo.


Por exemplo, para o cdigo 0111 - 2/01 (Figura 2-5), os dois primeiros dgitos, 01 ,
identificam o nvel de Diviso, com a denominao AGRICULTURA, PECUARIA E

39

CATEGORIZAO MULTI-RTULO DE TEXTO

SERVIOS RELACIONADOS, e os trs primeiros, 011 , o de Grupo, com a denominao


PRODUAO DE LAVOURAS TEMPORARIAS.
Alm da denominao do cdigo de um determinado nvel, existem notas explicativas
para agregar mais informao quele nvel. No caso do nvel de Subclasse, as notas
explicativas mostram o que a Subclasse compreende (Esta subclasse compreende:), o que
ela compreende tambm (Esta subclasse compreende tambm:), e o que ela no
compreende (Esta subclasse no compreende:).
Atualmente, em muitos rgos usurios, a determinao de quais cdigos devem ser
atribudos a cada empresa - a codificao em CNAE-Subclasses - feita manualmente por
codificadores humanos treinados para tal e apoiados por ferramentas computacionais de busca
em verses eletrnicas da tabela CNAE-Subclasses. O codificador (ou categorizador) humano
treinado deve associar/combinar a descrio da atividade da empresa com a informao na
tabela CNAE-Subclasses e com seu conhecimento, fruto de seus vrios anos de educao e
experincia profissional, para atribuir cdigos CNAE-Subclasse.
Conforme as caractersticas apresentadas anteriormente, o problema de categorizao
de atividades econmicas consiste em dada uma descrio textual do propsito de uma
empresa, categoriz-la em um ou mais dos 1.183 possveis cdigos (ou categorias) CNAESubclasse. O grande nmero de possveis categorias torna este problema complexo quando
comparado com outros apresentados na literatura [Sebastiani02]. Neste contexto, de grande
interesse uma ferramenta para produzir uma medida de certeza para as categorias preditas
para um dado documento de entrada. Dessa forma, o sistema de categorizao pode ser
acionado por um operador humano, no caso de ser obtida uma medida de certeza abaixo de
um determinado limiar pr-definido. Por essa razo, escolhemos este problema de
categorizao para este trabalho.

40

3 ESTRATGIAS

DE

PODA

DE

RANKING

DE

CATEGORIAS

Neste captulo, apresentamos trs mtodos de poda de ranking de categorias


comumente usados na literatura de RI [Yang01, Lee02, Fan07]: (i) RCut, baseada na posio
das categorias no ranking; (ii) PCut, baseada na popularidade das categorias no conjunto de
treinamento; (iii) SCut, baseada no grau de crena com que o sistema atribui as categorias aos
documentos; e (iv) uma variante de RCut - RTCut [Yang01]. Alm disso, propomos novas
variantes para PCut e SCut PCut* e SCut*, respectivamente para tratar problemas
existentes nestas abordagens.

3.1 Estratgia RCut

A estratgia de poda RCut [Yang01], baseada na posio das categorias no ranking


(ranking based), para cada documento de teste dj, ordena as categorias por grau de crena e
atribui as t categorias a partir do topo do ranking para dj. O valor do parmetro t (um nmero
inteiro entre 1 e C ) pode ser especificado pelo usurio ou automaticamente ajustado para
otimizar o desempenho global do categorizador em um conjunto de calibrao (o valor de t
automaticamente ajustado ao vari-lo at que o desempenho global do categorizador seja
otimizado para o conjunto de validao). RCut com t = 1 comumente usada pela
comunidade de aprendizado de mquina em problemas uni-rtulo, nos quais um documento
tem uma nica categoria [Joachims98].
A Tabela 3-1 apresenta um exemplo de poda de ranking de categorias utilizando a
estratgia RCut. Na Tabela 3-1, a coluna Posio indica a posio das categorias no ranking
retornado pelo categorizador VG-RAM WNN-COR para um dado documento de teste di; a
coluna Categorias preditas a di mostra os identificadores das categorias no ranking
retornado pelo categorizador para di; a coluna Graus de crena para di mostra os graus de
crena com que o categorizador atribuiu as categorias a di; e a coluna Categorias pertinentes
a di mostra a lista de categorias de fato pertinentes a di. As colunas 5, 6, e 7 so anlogas s
colunas 2, 3, e 4, porm, esto associadas ao documento de teste dj. Finalmente, a coluna

ESTRATGIAS DE PODA DE RANKING DE CATEGORIAS

42

Parmetro t mostra o valor do parmetro t otimizado para um conjunto de validao. No


exemplo da Tabela 3-1, as t=2 categorias a partir do topo do ranking so atribudas aos
documentos de teste.

Tabela 3-1 Exemplo de poda de ranking de categorias utilizando RCut


Posio

Categorias preditas
para di

Grau de
crena di

Categorias Categorias preditas


pertinentes di
para dj

Grau de
crena dj

Categorias
pertinentes dj

C9

0,109859

C3

C58

0,333576

C1

C8

0,100939

C7

C89

0,307021

C58

C7

0,089202

C9

C59

0,302292

C14

0,069484

C54

C78

0,003638

C10

0,053991

C90

0,003638

C54

0,045541

C20

0,003274

C11

0,039906

C76

0,002183

C67

0,039906

C56

0,001819

C13

0,025822

C63

0,001819

10

C12

0,022066

C18

0,001455

Parmetro t

t =2

Como pode ser observado na Tabela 3-1, a estratgia RCut no adequada para
problemas nos quais os diferentes documentos tm diferentes nmeros de categorias
pertinentes, uma vez que RCut atribui o mesmo nmero de categorias a todos os documentos
[Yang01].

3.2 Estratgia RTCut

RCut impe um compromisso duro entre as mtricas de avaliao de desempenho


revocao (recall) e preciso (precision), ao retornar ou um grande nmero de categorias ou
pequeno nmero de categorias. Para atenuar esse compromisso, Yang (2001) props a
estratgia de poda RTCut, que atribui graus de crena sintticos s categorias computados a
partir de suas posies no ranking e de seus graus de crena para um dado documento. Estes
graus de crena sintticos so computados por:

s (d j , ci ) = r (d j , ci ) +

f (d j , ci )

max c 'C {f (c' | d j )}+ 1

(3-1)

ESTRATGIAS DE PODA DE RANKING DE CATEGORIAS


onde dj o documento de teste, r (d j , c i ) a posio da categoria ci no ranking retornado para
dj, f (d j , c i ) o grau de crena original de que a categoria ci deve ser atribuda a dj, e
max c ' C { f (c' | d j )} retorna o grau de crena de valor mximo atribudo a uma determinada
categoria c C no ranking retornado para dj. Para cada documento de teste, a estratgia
RTCut ordena as categorias pelo grau de crena sinttico e atribui ao documento as categorias
com grau de crena sinttico superior a um determinado limiar . O valor do parmetro pode
ser especificado pelo usurio ou automaticamente ajustado para otimizar o desempenho
global do categorizador em um conjunto de calibrao.
A Tabela 3-2 apresenta um exemplo de poda de ranking de categorias utilizando a
estratgia RTCut. Na Tabela 3-2, a coluna Posio indica a posio das categorias no
ranking retornado pelo categorizador VG-RAM WNN-COR para um dado documento de teste
di; a coluna Categorias preditas a di mostra os identificadores das categorias no ranking

retornado pelo categorizador para di; a coluna Graus de crena originais mostra os graus de
crena com que o categorizador atribuiu as categorias a di; a coluna Categorias preditas a di
por RTCut mostra os identificadores das categorias no ranking retornado pela estratgia
RTCut; a coluna Graus de crena sintticos mostra os graus de crena sintticos atribudos
s categorias pela estratgia RTCut; a coluna Categorias pertinentes a di mostra a lista de
categorias de fato pertinentes a di; e, finalmente, a coluna Parmetro mostra o valor do
parmetro otimizado para um conjunto de validao. No exemplo da Tabela 3-2, as
categorias com grau de crena sinttico superior ao limiar = 2,4 so atribudas aos
documentos de teste.

43

ESTRATGIAS DE PODA DE RANKING DE CATEGORIAS

44

Tabela 3-2 Exemplo de poda de ranking de categorias utilizando a estratgia RTCut.


Ranking Original

Ranking Sinttico

Posio

Categorias preditas
para di

Grau de
crena di

Categorias preditas
para di

Grau de
crena di

Categorias
pertinentes

C9

0,109859

C9

1,09898465

C3

C8

0,100939

C8

2,09094759

C7

C7

0,089202

C7

3,08037237

C9

C14

0,069484

C14

4,06260615

C54

C10

0,053991

C10

5,04864672

C54

0,045541

C54

6,04103314

C11

0,039906

C11

7,03595592

C67

0,039906

C67

8,03595592

C13

0,025822

C13

9,02326602

10

C12

0,022066

C12

10,0198818

Parmetro

= 2,4

RTCut preserva a ordem das categorias no ranking, mas permite a distino entre
categorias com a mesma posio nos rankings atribudos a diferentes documentos. Ao podar o
ranking no grau de crena sinttico, ao invs da posio da categoria no ranking,
compromissos entre revocao e preciso de granularidade mais fina podem ser alcanados
[Yang01].

3.3 Estratgia PCut

A estratgia de poda PCut [Yang01], baseada na popularidade das categorias no


conjunto de treinamento (proportion-based), (i) recebe como entrada as categorizaes do
conjunto de teste que consiste, para cada d j , ci Te C , dos graus de crena f ( d j , ci ) de
que o documento de teste d j deve ser categorizado dentro da categoria ci . Dada uma
categoria ci, PCut (ii) ordena os documentos de teste por grau de crena f (., ci ) (gerando um
ranking de documentos para ci) e (iii) categoriza os k i = p(ci ) x C documentos do topo do
ranking dentro de ci, onde p(ci ) a probabilidade a priori (estimada utilizando um conjunto
de treinamento) de um documento arbitrrio pertencer a ci e x um parmetro cujo valor (um
nmero real) pode ser especificado pelo usurio ou automaticamente ajustado para otimizar o
desempenho global do categorizador em um conjunto de calibrao. PCut foi usada em
vrias avaliaes publicadas de categorizadores probabilsticos, tais como Naive Bayes,

ESTRATGIAS DE PODA DE RANKING DE CATEGORIAS

45

decision tree (DTree), kNN, e mtodos de regresso linear least squares fit (LLSF) [Lewis92,
Lewis94, Yang99].
A Tabela 3-3 apresenta um exemplo de poda de ranking de categorias utilizando a
estratgia PCut. Na Tabela 3-3, a coluna Documentos preditos para c1 mostra os
documentos de teste dj categorizados dentro da categoria c1 e seus respectivos graus de crena
f ( d j , c1 ) ; a coluna Limiar k1 mostra o valor do limiar de poda k1 (para a categoria c1)
otimizado para um conjunto de validao; a coluna Documentos preditos para c2 mostra os
documentos de teste dj categorizados dentro da categoria c2 e seus respectivos graus de crena
f (d j , c 2 ) ; a coluna Limiar k2 mostra o valor do limiar de poda k2 (para a categoria c2)
otimizado para um conjunto de validao; e assim por diante. No exemplo da Tabela 3-3, os k1
= 5 documentos do topo do ranking da categoria c1 so categorizados dentro de c1, os k2 = 7
documentos do topo do ranking de c2 so categorizados dentro de c2, e assim por diante.
Tabela 3-3 Exemplo de poda de ranking de categorias utilizando a estratgia PCut
Documentos preditos
Limiar k1
c1

Documentos preditos Limiar


c2
k2

...

Documentos
preditos cm

d3

0,22089

d9

0,29516

d2

0,29516

d2

0,09801

d6

0,18523

d7

0,13241

d4

0,04759

d3

0,15627

d4

0,13180

d7

0,02379

d10

0,14825

d1

0,10809

d9

0,01927

d8

0,13180

d8

0,029912

d1

0,016781

d4

0,08187

d10

0,023793

d5

0,014276

d2

0,05495

d9

0,022434

d10

0,012237

d7

0,024176

d5

0,018611

d8

0,011557

d5

0,019231

d6

0,014316

d6

0,008792

d10

0,018681

d3

0,012169

k1 = 5

k2 = 7

Limiar km

km = 3

A estratgia de poda PCut a nica que utiliza a distribuio de categorias observada


no conjunto de treinamento para ganhar um controle global das atribuies das categorias aos
documentos no conjunto de teste [Yang01]. Isto d a PCut poder adicional, mas sacrifica a
habilidade de categorizao online, porque os graus de crena dos documentos de teste devem
ser acumulados antes de PCut ser aplicada. Diferente do PCut, as categorizaes realizadas
por RCut para cada documento de teste so independentes entre si; isto torna RCut mais
adequado para categorizao online. Alm disso, PCut assume que a distribuio das

ESTRATGIAS DE PODA DE RANKING DE CATEGORIAS

categorias atravs dos documentos permanece constante esta uma boa suposio apenas
para certos domnios de documentos.

3.4 Estratgia SCut

A estratgia de poda SCut [Yang01], baseada no grau de crena com que o sistema
atribui as categorias aos documentos (score-based), ajusta automaticamente um limiar de
poda i para cada categoria ci , de forma a otimizar o desempenho do categorizador para ci
em um conjunto de calibrao. Diferente de RCut e PCut, nas quais um nico parmetro (t ou
x) usado para otimizar o desempenho global do categorizador na mdia, SCut otimiza o
desempenho local do categorizador para categorias individuais sem garantir um timo
global. SCut foi usada em avaliaes de muitos categorizadores, incluindo Ripper, first order
inductive learner (FOIL), Winnow, exponentiated gradient (EG), kNN, LLSF e Rocchio
[Cohen96, Lewis96, Yang99, Yang01].
Os limiares de poda em SCut so ajustados para otimizar o desempenho do sistema
para o conjunto de calibrao, enquanto os limiares de poda em PCut dependem apenas das
probabilidades das categorias no conjunto de treinamento [Yang01]. Por isso, SCut mais
suscentvel a overfit, fenmeno pelo qual um categorizador ajustado tambm s
caractersticas contingentes do conjunto treinamento ao invs de apenas as caractersticas
constitutivas das categorias [Sebastiani02].
A otimizao por categoria em SCut torna essa estratgia particularmente efetiva
quando o desempenho do sistema em categorias raras a funo alvo a ser otimizada. RCut e
PCut, por outro lado, com apenas um nico parmetro (t ou x) a ser ajustado, sero em geral
menos efetivas para otimizar o desempenho do sistema em categorias raras.
Diferente de PCut (e similar a RCut), as categorizaes realizadas por SCut para cada
documento de teste so independentes entre si: uma vez que os limiares por categoria so
otimizados (offline) para o conjunto de validao, as categorizaes para cada documento de
teste so independentes entre si. Isto torna SCut e Rcut mais adequados para categorizao
online do que PCut.

46

ESTRATGIAS DE PODA DE RANKING DE CATEGORIAS

3.5 Novas Variantes para as Estratgias PCut e SCut

Nesta seo, propomos modificaes para as estratgias de poda PCut e SCut PCut* e SCut*, respectivamente - para resolver dois problemas que no foram ainda tratados
pela literatura: (i) a inadequabilidade de PCut para sistemas de categorizao de texto online;
(ii) a observao, durante o processo de calibrao dos limiares de poda de SCut, de
intervalos de valores de limiares que produzem desempenho de categorizao constante para
algumas categorias.

3.5.1

Estratgia PCut*
Como visto na Seo 3.3, a estratgia PCut no adequada para sistemas de

categorizao de texto online. Entretanto, de acordo com resultados experimentais publicados


por Yang (2001), PCut lida melhor com categorias raras do que RCut e SCut e exibe um
compromisso mais suave entre revocao e preciso. Dadas estas vantagens, neste trabalho,
propomos uma variante da estratgia PCut para sistemas de categorizao de texto online, a
qual denominamos PCut*.
A estratgia de poda PCut* ajusta automaticamente um limiar de poda i para cada
categoria ci , de forma a otimizar o desempenho do categorizador para ci em um conjunto de
calibrao. Para isso, PCut* (i) recebe como entrada as categorizaes de um conjunto de
calibrao, Va, que consiste, para cada par d j , ci Va C , dos graus de crena f ( d j , ci ) de
que o documento de calibrao d j deve ser categorizado dentro da categoria ci e, dada uma
categoria ci, (ii) ordena os documentos por grau de crena f (., ci ) (gerando um ranking de
documentos para ci), e (iii) categoriza os k j = p(ci ) x C documentos do topo do ranking
dentro de ci, onde p(ci ) a probabilidade a priori de um documento de treinamento pertencer
a ci e x um parmetro cujo valor (um nmero inteiro) automaticamente ajustado para
otimizar o desempenho global do categorizador de um subconjunto do conjunto de
calibrao. O limiar de poda para a categoria ci, i , recebe o valor do grau de crena
f ( d j , ci ) de que o documento de calibrao dj na posio kj do ranking de documentos de ci
deve ser categorizado dentro de ci. Quando um documento de teste dj for submetido ao

47

ESTRATGIAS DE PODA DE RANKING DE CATEGORIAS

48

sistema de categorizao, as categorias ci cujo grau de crena superior ao limiar de poda i


so ento preditas para dj.
A Tabela 3-4 apresenta um exemplo de poda de ranking de categorias utilizando a
estratgia PCut*. Na Tabela 3-4, a coluna Documentos preditos para c1 mostra os
documentos de teste dj categorizados dentro da categoria c1 e seus respectivos graus de crena
f ( d j , c1 ) ; a coluna Limiar 1 mostra o valor do limiar de poda 1 (para a categoria c1)
otimizado para um conjunto de calibrao; a coluna Documentos preditos para c2 mostra os
documentos de teste dj categorizados dentro da categoria c2 e seus respectivos graus de crena
f (d j , c 2 ) ; a coluna Limiar 2 mostra o valor do limiar de poda 2 (para a categoria c2)
otimizado para um conjunto de calibrao; e assim por diante. No exemplo da Tabela 3-4, os
documentos do ranking da categoria c1 com grau de crena superior ao limiar 1 = 0,08 so
categorizados dentro de c1, os documentos do ranking de c2 com grau de crena superior ao
limiar 2 = 0,13 so categorizados dentro de c2, e assim por diante.
Tabela 3-4 Exemplo de poda de ranking de categorias utilizando a estratgia PCut*.
Documentos preditos
para c1

3.5.2

Limiar 1

Documentos preditos
para c2

Limiar 1

...

Documentos preditos
para cm

d3

0,220889

d9

0,29516

d2

0,29516

d2

0,098011

d6

0,185229

d7

0,132414

d4

0,047585

d3

0,156271

d4

0,131802

d7

0,023793

d10

0,148252

d1

0,10809

d9

0,019267

d8

0,131802

d8

0,029912

d1

0,016781

d4

0,081868

d10

0,023793

d5

0,014276

d2

0,054945

d9

0,022434

d10

0,012237

d7

0,024176

d5

0,018611

d8

0,011557

d5

0,019231

d6

0,014316

d6

0,008792

d10

0,018681

d3

0,012169

1 = 0,08

2 = 0,13

Limiar m

m =

Estratgia SCut*
A estratgia de poda SCut ajusta automaticamente um limiar de poda i para cada

categoria ci , de forma a otimizar o desempenho local do categorizador para ci em um


conjunto de calibrao. O valor de i automaticamente ajustado ao vari-lo at que o
desempenho do categorizador para a categoria ci seja otimizado para o conjunto de validao.

ESTRATGIAS DE PODA DE RANKING DE CATEGORIAS

Em nossos experimentos de calibrao, observamos que, para algumas categorias ci , o


desempenho do categorizador para ci permaneceu constante em um dado intervalo de valores
(nmeros reais) crescentes de i . Neste caso, testamos duas implementaes para a estratgia
SCut. Na primeira, SCut tradicional, o limiar de poda para a categoria ci recebe o valor
mnimo do intervalo de valores crescentes de i , para o qual o desempenho do categorizador
para ci permaneceu constante. Na segunda, o limiar de poda para a categoria ci recebe o valor
mnimo daquele intervalo. Dessa forma, os valores dos limiares calibrados por SCut* so
maiores do que aqueles calibrados por SCut. Consequentemente, SCut* mais efetiva do que
SCut para otimizar o desempenho do sistema em termos de preciso e menos efetiva em
termos de revocao.

49

4 MEDIDA DE CERTEZA DE CATEGORIZAO

Neste captulo, propomos um mtodo para mapear graus de crena em medidas de


certeza de categorizao multi-rtulo de texto e duas estratgias para determinar limiares de
poda para o ranking de categorias baseada na medida de certeza de categorizao.

4.1 Uso da Regra de Bayes para o Clculo da Medida de Certeza


de Categorizao

Seja F o conjunto dos intervalos no sobrepostos e adjacentes dos valores retornados


pela funo f(dj, ci), que retorna o grau de crena do categorizador de que o documento de
teste d j deve ser categorizado dentro da categoria ci (Seo 2.1). A probabilidade de um
categorizador automtico predizer corretamente uma categoria ci para o documento de teste dj,
considerando que ele predisse ci com grau de crena f(dj, ci) dentro de um intervalo y F e
posicionou ci na posio k = r(dj, ci) do ranking de categorias, pode ser enunciada como
p(x|y,k), onde:

a varivel aleatria x pode assumir dois valores: 1, se o categorizador predisse


uma categoria ci pertinente a dj; ou 0, se o categorizador predisse uma
categoria ci no pertinente a dj;

a varivel aleatria y pode assumir valores especficos y F , que representam


os intervalos no sobrepostos e adjacentes dos valores retornados pela funo
f;

a varivel aleatria k pode assumir |C| valores {1,2,.., C }, que representam a


posio de ci no ranking de categorias.

A probabilidade de interesse, p( x | y, k ) , a probabilidade do categorizador predizer


corretamente qualquer categoria ci, para qualquer documento de teste dj, dentre os casos em
que o categorizador predisse ci com grau de crena dentro de um intervalo y e posicionou ci na
posio k do ranking. Em outras palavras, p( x | y, k ) o percentual dos documentos de teste
categorizados corretamente dentre todos os documentos que foram categorizados com grau de

MEDIDA DE CERTEZA DE CATEGORIZAO

51

crena dentro de um intervalo y, ao considerar as categorias posicionadas na posio k do


ranking.
Desconsiderando por enquanto a varivel k, ento temos uma quantidade de interesse
desconhecida x (predio correta ou incorreta). A informao de que dispomos sobre x
observada probabilisticamente atravs de p(x). Entretanto, podemos agregar mais informao
a p(x) observando uma quantidade aleatria F (conjunto dos intervalos no sobrepostos e
adjacentes dos valores retornados pela funo f(dj, ci)) relacionada com x. A distribuio
amostral p(y| x) define esta relao (probabilidade de um intervalo y acontecer dado que a
predio esta correta para qualquer categoria ci). A idia de que aps observar F = y a
quantidade de informao sobre x aumenta intuitiva e o teorema de Bayes a regra de
atualizao utilizada para quantificar este aumento de informao.

p( x | y) =

p ( y | x) p ( x )
p( y )

(4-1)

Para um valor fixo de y, a funo p(y|x) fornece a verossimilhana de cada um dos


possveis valores de x, enquanto p(x) chamada distribuio a priori de x. Estas duas fontes
de informao, priori e verossimilhana, so combinadas levando distribuio a posteriori
de x, p(x|y).
Pela Regra de Bayes, a probabilidade de interesse ( p( x | y, k ) ) levando em
considerao a varivel k dada por:

p ( x | y, k ) =

p ( y | x, k ) p ( x | k )
p( y | k )

Podemos utilizar a regra de Bayes para computar

(4-2)

p( x | y, k ) . Atravs de

experimentos de validao, podemos obter amostras experimentais que permitem calcular os


valores aproximados dos termos da regra de Bayes dos quais p( x | y, k ) depende, i.e.:

p( y | x, k ) a probabilidade do categorizador predizer qualquer categoria ci,


para qualquer documento de teste dj, com grau de crena dentro de um
intervalo y, dentre os casos em que o categorizador predisse ci corretamente e
posicionou ci na posio k do ranking. Em outras palavras, p( y | x, k ) o
percentual dos documentos de teste categorizados com grau de crena dentro
de um intervalo y dentre todos os documentos que foram categorizados
corretamente, ao considerar as categorias posicionadas na posio k do
ranking;

MEDIDA DE CERTEZA DE CATEGORIZAO

p( x | k ) a probabilidade do categorizador predizer corretamente qualquer


categoria para qualquer documento de teste, dado que as categorias foram
posicionadas na posio k do ranking;

p( y | k ) a probabilidade do categorizador predizer qualquer categoria com


grau de crena dentro de um intervalo y, dado que as categorias foram
posicionadas na posio k do ranking.

As probabilidades p( x | y, k ) podem ser usadas para mapear graus de crena f(dj, ci) em
medidas de certeza de categorizao da seguinte forma. Se o categorizador predisse a
categoria ci para o documento dj com grau de crena f(dj, ci) dentro de um intervalo y, e
posicionou a categoria ci na posio r(dj, ci) do ranking, ento a medida de certeza para essa
predio pode ser expressa por p(x|y,k), onde y f(dj, ci) e k = r(dj, ci).

4.2 Uso da Medida de Certeza na Poda do Ranking de Categorias

Nesta seo, propomos uma estratgia para determinar limiares de poda para o ranking
de categorias baseada na medida de certeza de categorizao, a qual denominamos bayesian
cut (BCut). Propomos tambm uma variante para BCut que usa diferentes limiares de poda
para diferentes posies do ranking, a qual denominamos position based bayesian cut
(PBCut).

4.2.1

Estratgia BCut
A estratgia de poda bayes cut (BCut), baseada na medida de certeza de

categorizao descrita na Seo 4.1, para cada documento de teste dj, (i) ordena as categorias
por grau de crena f(dj, ci); (ii) mapeia o grau de crena f(dj, ci) das p categorias do topo do
ranking (as categorias no ranking em posies inferiores a p so desconsideradas) em uma
medida de certeza de categorizao p( x | y, k ) (Seo 4.1); e atribui a dj as categorias ci com
medida de certeza p( x | y, k ) superior a um determinado limiar . BCut parametrizada por p
e . O parmetro p denota o nmero de posies do ranking de categorias consideradas para
obter amostras experimentais que permitem calcular os valores aproximados dos termos da
regra de Bayes, p( y | x, k ) , p( x | k ) e p( y | k ) (Seo 4.1). Os termos da regra de Bayes

52

MEDIDA DE CERTEZA DE CATEGORIZAO

53

diminuem (tendendo a zero) com o aumento do nmero de posies do ranking de categorias


consideradas. O valor do parmetro (um nmero real entre 0 e 1) automaticamente
ajustado para otimizar o desempenho global do categorizador em um conjunto de
calibrao, considerando apenas as p categorias do topo do ranking retornado para os
documentos.
A Tabela 4-1 apresenta um exemplo de poda de ranking de categorias utilizando a
estratgia BCut. Na Tabela 4-1, a coluna Categorias preditas a di mostra os identificadores
das categorias no ranking retornado pelo categorizador para di; a coluna Graus de crena
mostra os graus de crena com que o categorizador atribuiu as categorias a di; a coluna
Categorias preditas a di por BCut mostra os identificadores das categorias no ranking
retornado pela estratgia BCut; a coluna Medidas de certeza mostra as medidas de certeza
de categorizao atribudos s categorias pela estratgia BCut; e, finalmente, a coluna
Parmetro mostra o valor do parmetro otimizado para um conjunto de validao. No
exemplo da Tabela 4-1, as categorias com medidas de certeza de categorizao superior ao
limiar = 0,59 so atribudas aos documentos de teste.

Tabela 4-1 Exemplo de poda de ranking de categorias utilizando a estratgia BCut.


Ranking Original

Ranking Probabilstico

Categorias
preditas a di

Graus de
Crena di

Categorias
preditas a dj

p(x|y)

d58

0,333576

d58

0,970967

d89

0,307021

d89

0,712908

d59

0,302292

d59

0,467745

d78

0,003638

d78

0,000000

d90

0,003638

d90

0,003205

d20

0,003274

d20

0,000000

d76

0,002183

d76

0,000000

d56

0,001819

d56

0,000000

d63

0,001819

d63

0,000000

Parmetro

= 0,59

A estratgia BCut mais efetiva, do que todas as outras estratgias de poda


consideradas, para otimizar o desempenho do sistema em termos de preciso. A razo que
BCut poda o ranking de categorias na medida de certeza de categorizao, ou seja, na
probabilidade da categorizao estar correta.

MEDIDA DE CERTEZA DE CATEGORIZAO

4.2.2

Estratgia PBCut
A estratgia de poda PBCut, uma variante de BCut, aplica diferentes limiares de poda

p para diferentes posies p do ranking, ou seja, para cada documento de teste dj, PBCut
atribui a dj a categoria ci na posio p do ranking somente se sua medida de certeza

p( x | y, k ) for superior a um determinado limiar p. PBCut parametrizada por p (similar ao


parmetro p de BCut descrito na Seo 4.2.1) e p. O valor do parmetro p (um nmero real
entre 0 e 1) automaticamente ajustado para otimizar o desempenho global do
categorizador em um conjunto de calibrao, considerando apenas as p categorias do topo do
ranking como resposta para os documentos. A calibrao dos diferentes limiares p
processada atravs de p iteraes. Na primeira iterao, o valor de 1 ajustado ao vari-lo at
que o desempenho global do categorizador seja otimizado para o conjunto de validao,
considerando apenas a primeira categoria do topo do ranking como resposta para os
documentos. Na segunda iterao, o valor de 1 fixado no valor timo encontrado atravs
da primeira iterao e o valor de 2 ento ajustado ao vari-lo at que o desempenho do
categorizador seja otimizado, considerando apenas as 2 primeiras categorias do topo do
ranking, e assim por diante.
A Tabela 4-2 apresenta um exemplo de poda de ranking de categorias utilizando a
estratgia PBCut. Na Tabela 4-2, a coluna Categorias preditas a di mostra os identificadores
das categorias no ranking retornado pelo categorizador para di; a coluna Graus de crena
mostra os graus de crena com que o categorizador atribuiu as categorias a di; a coluna
Categorias preditas a di por PBCut mostra os identificadores das categorias no ranking
retornado pela estratgia PBCut; a coluna Medidas de certeza mostra as medidas de certeza
de categorizao atribudos s categorias pela estratgia PBCut; e, finalmente, a coluna
Parmetros p mostra os valores dos parmetros p para cada posio p do ranking
otimizados para um conjunto de validao. No exemplo da Tabela 4-2, so atribudas ao
documento de teste as categorias na posio p = 1 do ranking com medidas de certeza de
categorizao superior ao limiar 1 = 0,79, p = 2 com medidas de certeza superior a 2 = 0,58,
e p = 3 com medidas de certeza superior a 3 = 0,44.

54

MEDIDA DE CERTEZA DE CATEGORIZAO

55

Tabela 4-2 Exemplo de poda de ranking de categorias utilizando a estratgia BCut*.


Ranking Original
Categorias
preditas a di

Graus de
Crena di

Ranking Probabilstico
Categorias
preditas a dj

p(x|y)

Parmetro i

d58

0,333576

d58

0,970967

1=0,79

d89

0,307021

d89

0,712908

2=0,58

d59

0,302292

d59

0,467745

3=0,44

d78

0,003638

d78

0,000000

4=-1,0

d90

0,003638

d90

0,003205

5=-1,0

d20

0,003274

d20

0,000000

6=-1,0

d76

0,002183

d76

0,000000

7=-1,0

d56

0,001819

d56

0,000000

8=-1,0

d63

0,001819

d63

0,000000

9=-1,0

A medida de certeza de categorizao em uma categoria diminui medida que a


posio da categoria no ranking aumenta. Por esta razo, ao escolher diferentes limiares de
poda para diferentes posies do ranking, a estratgia de poda PBCut pode produzir um
desempenho superior ao de BCut em termos de preciso.

5 METODOLOGIA EXPERIMENTAL

Neste captulo, descrevemos nossa metodologia experimental. Apresentamos as bases


de dados empregadas em nossa avaliao experimental, compostas por descries textuais de
atividades econmicas de empresas brasileiras, e a correo ortogrfica e a indexao dessas
bases de dados. Apresentamos tambm a abordagem de validao cruzada empregada na
avaliao do desempenho dos categorizadores e o ajuste (calibrao) dos parmetros dos
categorizadores. Alm disso, apresentamos o clculo dos parmetros do mtodo baseado na
regra de Bayes para mapear graus de crena em medidas de certeza de categorizao multirtulo de texto, o procedimento empregado para validar as medidas de certeza de
categorizao, e, finalmente, o ajuste (calibrao) dos parmetros das estratgias de poda do
ranking de categorias. O contedo das sees 5.1 a 5.5 foi fundamentalmente extrado de
[Melotti09].

5.1 Bases de Dados

O conjunto de dados empregado em nossa avaliao experimental composto de


descries textuais de atividades econmicas de empresas brasileiras. Todas essas descries
foram manualmente categorizadas em uma ou mais atividades econmicas por funcionrios
pblicos Brasileiros treinados nesta tarefa. A lei brasileira determina que todas as empresas
devem apresentar uma descrio textual das suas atividades econmicas para rgos do
governo para que elas sejam categorizadas de acordo com a tabela oficial de atividades
econmicas, Tabela CNAE-Subclasse [CNAE03]. Chamamos de documento a descrio
textual das atividades econmicas de uma empresa categorizadas em uma ou mais categorias
da tabela CNAE-Sublcasses.
Neste trabalho, contamos com descries de atividades econmicas de empresas das
cidades de Vitria Esprito Santo e Belo Horizonte Minas Gerais. A base de dados de
Vitria, chamada de VIX, possui 3.281 documentos referentes a empresas da localidade
categorizados em 764 diferentes categorias CNAE-Subclasse. O nmero mdio de categorias
por documento 4,3 (desvio padro de 5,6 ).

METODOLOGIA EXPERIMENTAL
57
A Figura 5-1 apresenta o histograma do nmero de documentos com um determinado
nmero de categorias. No grfico da Figura 5-1, o eixo horizontal representa o Nmero de
categorias por documento e o eixo vertical o Nmero de documentos. De 1 a 35 categorias
por documento, as barras do grfico indicam exatamente o nmero de documentos com o
respectivo nmero de categorias. De 36 categorias por documento em diante, s aparecem no
eixo horizontal do grfico os nmeros de categorias por documento para os quais h
documentos na base VIX.

Figura 5-1 Distribuio do nmero de categorias por documento na base de dados VIX.

O nmero de categorias por documento varia de 1 a 109 , sendo que mais de 800
documentos possuem apenas uma categoria e apenas um documento possui 109 categorias.
Como a Figura 5-1 mostra, a maior parte dos documentos da base VIX possui de 1 a 7
categorias por documento ( 87,53% ).

A base de dados de Belo Horizonte, chamada BH, possui 88.000 documentos


categorizados em 1.002 diferentes categorias CNAE-Subclasse. O nmero mdio categorias
por documento 2,0 (desvio padro de 1,7 ). A Figura 5-2 apresenta o histograma da base
BH.

METODOLOGIA EXPERIMENTAL
58

Figura 5-2 Distribuio do nmero de categorias por documento na base de dados BH.

Na base BH, o nmero de categorias por documento varia entre 1 e 27 , sendo que
quase 50000 documentos possuem apenas uma categoria e apenas um documento possui 27
categorias. Como a Figura 5-2 mostra, a maior parte dos documentos da base BH possui entre
1 e 3 categorias.
A partir das bases VIX e BH, geramos duas bases de dados que utilizamos para
treinar, validar, testar e avaliar o impacto dos tipos de ranking nos categorizadores. A
primeira base gerada, chamada de EX100 (EXatamente 100 ), possui exatamente 100
exemplares de documentos de cada categoria. Ela composta de 6.911 documentos
selecionados aleatoriamente da unio de VIX e BH; 105 categorias diferentes ocorrem na
base EX100, isto , existem exatamente 100 documentos na base categorizados dentro de
cada uma destas 105 categorias. O nmero mdio de categorias por documento 1,52 (desvio

padro de 0,79 ).
As caractersticas da EX100 permitem avaliar o impacto dos rankings Ordinal
Aleatrio, Denso, Padro e Modificado no desempenho dos categorizadores nos casos onde as
categorias esto aproximadamente uniformemente distribudas na base de treinamento. A
Figura 5-3 apresenta o histograma da base EX100. Conforme a figura mostra, o nmero de
categorias por documento varia de 1 a 6 , sendo que mais de 4.000 documentos possuem
apenas uma categoria e 9 documentos possuem 6 categorias. A maior parte dos documentos
desta base possui entre 1 e 2 categorias ( 89,22% ).

METODOLOGIA EXPERIMENTAL
59

Figura 5-3 Distribuio do nmero de categorias por documento na base de dados EX100.

Na segunda base gerada, chamada de AT100 (AT 100), cada categoria ocorre em at
100 diferentes documentos, isto , existem entre 1 e 100 exemplares de documentos de cada

categoria. Ela composta de 10.495 documentos selecionados aleatoriamente da unio de


VIX e BH; 692 categorias diferentes ocorrem na base AT100. O nmero mdio de categorias
por documentos 1,49 (desvio padro de 0,86 ). As caractersticas de AT100 permitem

avaliar o impacto de cada tipo de ranking no desempenho dos categorizadores nos casos onde
existem categorias raras.
A Figura 5-4 apresenta o histograma da base AT100. Conforme a figura mostra, o
nmero de categorias por documento varia de 1 a 12 , sendo que mais de 7.000 documentos
possuem apenas uma categoria e um documento possui 12 categorias. A maior parte dos
documentos desta base possui entre 1 e 2 categorias.

Figura 5-4 Distribuio do nmero de categorias por documento na base de dados AT100.

METODOLOGIA EXPERIMENTAL
60
Alm das bases EX100 e AT100, utilizamos a prpria tabela CNAE-Subclasse,
chamada de CNAE, para treinar os categorizadores. A tabela CNAE-Subclasse possui 1183
Subclasses. Cada uma destas Subclasses possui um pequeno texto com sua denominao (ver
Seo 2.5.1, pg. 37). Este texto foi utilizado, juntamente com o cdigo CNAE
correspondente, como documento de treinamento. Foram utilizados apenas os documentos
cujas categorias ocorrem nas bases EX100 ou AT100. Ento, temos duas bases CNAE: uma
para a base EX100, chamada CNAE_EX100, com 105 documentos (cdigos CNAESubclasse), e outra para a AT100, chamada CNAE_AT100, com 692 documentos. Estas
bases foram usadas porque, no caso de problema de categorizao em CNAE, esta informao
estar sempre disponvel e verificamos que utiliz-la melhora o desempenho dos
categorizadores.

5.2 Correo Ortogrfica Automtica

Antes da gerao das bases (EX100 e AT100) para os experimentos de 10 -fold cross-

validation, realizamos o procedimento de correo ortogrfica automtica das bases VIX, BH


e CNAE. Foi adotada a correo automtica ao invs da manual em funo do grande nmero
de documentos existentes nas bases.
A correo ortogrfica est relacionada a dois principais problemas: a deteco de
erro, que o processo de encontrar uma palavra errada; e a correo de erro, que o processo
de sugerir palavras corretas para substituir uma palavra errada encontrada [Martins04].
Atualmente, existem corretores ortogrficos para diversos idiomas. Dentre os existentes para
o Portugus escolhemos o GNU Aspell [Aspell08] por ter cdigo aberto e, assim, permitir a
customizao necessria para seu uso no SCAE [SCAE08].
A ferramenta Aspell faz uso de um dicionrio para propor uma lista de palavras
corretas para uma palavra errada. Basicamente, a ferramenta calcula a distncia entre a
palavra errada e cada uma das palavras existentes no dicionrio, sendo que a de menor
distncia colocada no topo da lista de sugestes, ou seja, a topo da lista a considerada
correta. O valor da distncia considerado pelo Aspell como uma pontuao (score).
Em testes preliminares de correo ortogrfica automtica, percebemos que em muitas
situaes a palavra correta estava na lista de sugestes do Aspell, mas no se encontrava no
topo. Visando melhorar o desempenho, utilizamos uma lista auxiliar de palavras com as

METODOLOGIA EXPERIMENTAL
61
respectivas freqncias [Crowell03]. Esta lista foi gerada a partir das palavras existentes nos
documentos da base VIX corrigida manualmente.
O novo score, que chamamos de rank, calculado a partir do score atribudo pelo
Aspell e a freqncia da palavra ( FP ) existente na lista auxiliar, conforme Equao (5.1).
Ento, para que o Aspell retorne uma palavra correta dada uma errada, o mesmo escolhe a de
menor rank.

rank =

score
1 + ln( FP )

(5.1)

Mais detalhes sobre o corretor ortogrfico automtico empregado em [SCAE08].

5.3 Indexao das Bases de Dados

O procedimento de indexao realizado aps o pr-processamento das bases


corrigidas, que envolve [Sebastiani02]: Anlise lxica; Remoo de stopwords (artigos,
preposies, etc.); e Reduo de dimensionalidade. A Figura 5-5 apresenta graficamente o
fluxograma do pr-processamento, que est tambm definido/implementado na ferramenta
SCAE.

METODOLOGIA EXPERIMENTAL
62

Figura 5-5 Fluxograma do pr-processamento realizado nas Bases corrigidas anterior indexao.

Na Anlise lxica, os textos dos documentos so convertidos em um conjunto de


palavras, que so candidatas a serem adotadas como termos dos documentos. Para isso, as
palavras do texto dos documentos so separadas pelos caracteres de espao e pontuao, ou
seja, esses caracteres so delimitadores das palavras dos documentos. Por exemplo, considere
o texto Cultivo de arroz,banana em 1995.. O resultado da anlise lxica so as palavras
cultivo, de, arroz, banana e em. Note que os caracteres de dgitos so removidos e
palavras maisculas so convertidas em minsculas.
Stopwords so palavras que no possuem informao relevante para a discriminao
dos documentos de interesse [Baeza99]. Possveis classes gramaticais de palavras candidatas
a stopwords so: artigo, conjuno, contrao, interjeio, preposio e pronome. A Remoo
de stopwords tem como objetivo remover palavras que no contribuem para a categorizao
dos documentos. Com isso, o nmero de palavras a serem consideradas reduzido. Em
nossos experimentos, removemos apenas preposio do conjunto TV (Seo 2.1, pg. 24).
Escolhemos remover apenas preposies porque, em testes preliminares, foi a opo em que
os categorizadores apresentaram os melhores desempenhos de categorizao.
Aps a Anlise lxica e a Remoo de stopwords, aplicamos o pr-processamento
Reduo de dimensionalidade (dimensionality reduction DR) com o objetivo de reduzir a

dimensionalidade (o nmero de termos) do espao vetorial de representao dos documentos.


Para isso, usamos a tcnica conhecida como lematizao (lemmatization) [Manning08], em

METODOLOGIA EXPERIMENTAL
63
que as palavras dos documentos so transformadas na sua forma cannica, ou lema, isto , o
singular de um substantivo ou o infinitivo de um verbo [Antiqueira05, Cherman07]. Para
implementar a lematizao, utilizamos o dicionrio do SCAE, que possui a forma cannica de
mais de 1.200.00 de palavras do Portugus [SCAE08].
As palavras cannicas do conjunto TV que sobrevivem Anlise lxica, Remoo de

stopwords, e Reduo de dimensionalidade so denominadas termos. Chamamos o conjunto


de termos presentes em TV, ou seja, o conjunto de palavras de interesse, de Lexicon. Com o

Lexicon, transformamos (ou seja, indexamos) cada documento d j de nossas bases em sua

forma vetorial, d j = w1 j , w2 j , K , w|T | j , conforme discutido na Seo 2.2. Chamamos de


Train and Test Vector (TTV) um documento na forma vetorial.

5.4 Validao Cruzada

Em problemas do mundo real, o conjunto de dados disponvel para avaliar o


desempenho das tcnicas de categorizao limitado. Mas, para obtermos uma estimativa
confivel do desempenho dos categorizadores desejamos trein-los e test-los com tantos
documentos quanto possvel. Existem muitas tcnicas para tratar desse problema, mas a mais
empregada na literatura, e que utilizamos neste trabalho, a tcnica n -fold cross-validation
[Picard84].
Em n -fold cross-validation, o conjunto de dados dividido em n parties
mutuamente exclusivas de tamanhos aproximadamente iguais chamadas de folds. n 1 folds
so usados para treinar, e o fold remanescente usado para testar os categorizadores. Esse
processo repetido n vezes, cada vez considerando um fold diferente para teste. O
desempenho reportado do categorizador multi-rtulo de texto segundo as mtricas de
avaliao de desempenho a mdia dos valores das mtricas obtidos em cada um dos n folds.
A repetio do processo de treinamento e teste permite atenuar a influncia de uma
amostra de treinamento e teste no representativa, tornando assim a avaliao de desempenho
menos tendenciosa e mais confivel. Em experimentos da literatura, o n escolhido
freqentemente igual a 10 , pois testes extensivos sobre numerosas bases, com diferentes
tcnicas de categorizao, tm mostrado que 10 um nmero apropriado de folds para se
obter uma estimativa confivel de desempenho [Witten05, pg. 150].

METODOLOGIA EXPERIMENTAL
64
Em nossos experimentos, os 6.911 documentos da base de dados EX100 foram
divididos em 10 folds, sendo 9 de 691 documentos e um de 692 , e os 10.495 documentos
da AT100 foram divididos tambm em 10 folds, sendo 9 de 1049 documentos e um de
1054 . Nos experimentos com a base EX100, os categorizadores empregados foram treinados
com 9 folds e com todos os documentos da CNAE_EX100, e testados com o dcimo fold;
enquanto que, nos experimentos com a base AT100, os categorizadores empregados foram
treinados com 9 folds e com todos os documentos da CNAE_AT100, e testados com o
dcimo fold.
O tamanho mdio do Lexicon para os experimentos com CNAE_EX100 e EX100

3609,8 termos (desvio padro de 21,17 por conta dos diferentes folds), enquanto que, com
CNAE_AT100 e AT100, 5377,6 termos (desvio padro de 19,45 ).

5.5 Calibrao dos Categorizadores

Os categorizadores apresentados no Captulo 2 possuem parmetros intrnsecos que


devem ser ajustados (calibrados) com o objetivo de conseguir o melhor desempenho para uma
determinada base de dados. Tipicamente, antes de realizar os experimentos de 10-fold cross-

validation, os parmetros dos categorizadores so calibrados com uma parte dos dados
separada especificamente para a calibrao, conhecida com dados de validao. Terminada a
calibrao dos categorizadores, os dados de validao so agregados aos dados de treinamento
[Sebastiani02, Witten05].
Para a calibrao de cada categorizador precisamos de dados para seu treinamento e
teste com o objetivo de ajuste de parmetros. O ajuste de parmetros feito segundo os
seguintes passos:
1. os parmetros do categorizador so ajustados para um conjunto de valores inicial
2. o categorizador treinado com uma parte dos dados de validao
3. o categorizador testado com o restante dos dados de validao
4. seu desempenho medido segundo mtrica especfica e anotado
5. os parmetros do categorizador so reajustados para um novo conjunto de valores
6. os passos de 2 a 5 so repetidos vrias vezes e os parmetros que produziram o
melhor desempenho so escolhidos

METODOLOGIA EXPERIMENTAL
65
Nos nossos experimentos de calibrao, escolhemos como conjunto de dados de
validao os documentos de treinamento de um dos folds das bases de dados empregadas
(EX100 ou AT100). Dividimos este conjunto de dados em 10 partes, onde as nove primeiras
so utilizadas no treinamento (passo 2, acima) e a dcima no teste (passo 3) dos
categorizadores; testamos com apenas uma das 10 partes por conta dos custos computacionais
envolvidos. A mtrica empregada nos experimentos de calibrao (passo 4) foi a ranking loss.
Nos experimentos de calibrao, todos os documentos da CNAE_EX100 e CNAE_AT100 so
utilizados durante a fase de treinamento.
O categorizador ML- k NN possui apenas um parmetro, isto , k (ver sees 2.3 e
2.3.2). O categorizador ML- k NN foi calibrado examinando seu desempenho para ambas as
bases com os seguintes valores de k: 2 , 4 , 6 , 8 , 10 , 12 , 14 , 18 , 20 , 22 , 24 , 26 , 28 , 30 ,

40 , 50 , 100 , 500 , 1000 e 5000 . A Figura 5-6 mostra os resultados obtidos no passo 4 do
procedimento de calibrao do ML- k NN para as bases de dados EX100 (Figura 5-6(a)) e
AT100 (Figura 5-6(b)). Nestas figuras, o eixo vertical representa o valor da mtrica ranking
loss para os diversos valores de k , e eixo horizontal os valores de k .

METODOLOGIA EXPERIMENTAL
66

(a)

(b)
Figura 5-6 Validao do ML- k NN segundo a mtrica ranking loss para EX100, (a), e AT100, (b).

Conforme a Figura 5-6(a) mostra, para a base de dados EX100, este categorizador
apresentou melhor desempenho segundo a mtrica escolhida para k = 100 (ponto mais claro
na Figura 5-6(a)). O mesmo ocorre com a base de dados AT100 (Figura 5-6(b)). Assim, o
valor k = 100 foi escolhido para todos os demais experimentos com o categorizador ML-

k NN.
O categorizador VG-RAM WNN-COR possui dois parmetros: nmero de neurnios
( | O | ) e nmero de sinapses ( | X | ). Para os dois categorizadores a calibrao foi realizada

com nmeros de neurnio igual a 32 , 64 , 128 , 256 , 512 e 1024 , e nmero de sinapses
igual 256 , 512 , 1024 e 2048 para as bases de dados EX100 e AT100.

METODOLOGIA EXPERIMENTAL
67
A Figura 5-7 e a Figura 5-8 apresentam os resultados do processo de validao do VGRAM WNN-COR para as bases EX100 e AT100, respectivamente.

Figura 5-7 Validao do VG-RAM WNN-COR na base EX100.

Conforme mostra a Figura 5-7, este categorizador apresentou melhor desempenho


segundo a mtrica escolhida para 1024 (32 x32) neurnios, mas, mais uma vez, no est
claro na figura qual o melhor nmero de sinapses. Como mostra a Tabela 5-1, o melhor
nmero de sinapses 512 . Assim, para a base de dados EX100, os valores | O |= 32 x32 e
| X |= 512 foram escolhidos para todos os demais experimentos com o categorizador VGRAM WNN-COR.
Tabela 5-1 Validao para VG-RAM WNN-COR na EX100 para 32x32 neurnios.

Sinapses

Ranking loss

256
512
1024
2048

0,024758
0,020754
0,021162
0,022277

De acordo com a Figura 5-8, o VG-RAM WNN-COR apresentou melhor desempenho


segundo a mtrica ranking loss para 1024 (32 x32) neurnios e 1024 sinapses. Assim, para a

METODOLOGIA EXPERIMENTAL
68
base de dados AT100, os valores | O |= 32 x32 e | X |= 1024 foram escolhidos para todos os
demais experimentos com o categorizador VG-RAM WNN-COR.

Figura 5-8 Validao do VG-RAM WNN-COR na base AT100.

A Tabela 5-2 sumariza os parmetros escolhidos para cada categorizador (primeira


coluna esquerda) para as bases de dados EX100 (coluna do meio) e AT100 (ltima coluna
direita).
Tabela 5-2 Sumrio das escolhas dos parmetros dos categorizadores na validao para EX100 e AT100.

Categorizador

ML- k NN
VG-RAM WNN-COR

Bases de dados
EX100
AT100

k = 100
| O |= 32 x32
| X |= 512

k = 100
| O |= 32 x32
| X |= 1024

5.6 Clculo dos Parmetros para a Medida de Certeza

Os parmetros (termos da regra de Bayes) do nosso mtodo para mapear graus de


crena em medidas de certeza de categorizao (Seo 4.1) so especficos de uma dada

METODOLOGIA EXPERIMENTAL
69
tcnica de categorizao e de uma dada base de documentos. Nos experimentos realizados
para obter os parmetros de nossa modelagem Bayesiana da certeza na categorizao,
empregamos os categorizadores ML-kNN e VG-RAM WNN-COR e os conjuntos de dados
EX100 e AT100 (Seo 5.1). Particionamos as bases EX100 e AT100 em 10 subconjuntos de
691 e 1049 documentos, respectivamente (o ltimo tem 692 e 1054, respectivamente). Para
estimar os termos da regra de Bayes (p(x|k), p(y|k) e p(y|x,k)), para cada uma das bases EX100
e AT100 e para cada um dos categorizadores ML-kNN e VG-RAM WNN-COR, realizamos
uma srie de 10 experimentos de calibrao. Nestes experimentos, usamos os primeiros 9 dos
10 subconjuntos mencionamos acima. Dividimos esses 9 subconjuntos novamente em 10
subconjuntos, e usamos os primeiros nove para treinamento e o ltimo para calibrao. Este
processo foi repetido 10 vezes com subconjuntos para treinamento e calibrao diferentes. Os
valores dos termos da regra de Bayes (p(x|k), p(y|k) e p(y|x,k)) foram calculados com base nos
resultados das categorizaes de todos documentos nesses 10 experimentos de calibrao.
Para avaliarmos os resultados dos categorizadores ML-kNN e VG-RAM WNN-COR,
utilizamos a mtrica one-error(k), que retorna 0 (zero), se a categoria na posio k do ranking
pertence ao conjunto de categorias pertinentes ao documento de teste, ou 1 (um), caso
contrrio. Para cada posio k do ranking, particionamos uniformemente os valores de grau
de crena f(dj, ci) (Seo 4.1) observados na calibrao em 20 intervalos. Dessa forma, para
cada posio k do ranking considerada, p(y|k) praticamente igual para os diferentes
intervalos y. vlido mencionar que os 20 intervalos so diferentes para cada posio k do
ranking considerada.

METODOLOGIA EXPERIMENTAL
70

Figura 5-9 - Pseudocdigo para calcular os parmetros da medida de certeza

METODOLOGIA EXPERIMENTAL
71
A Figura 5-9 mostra o pseudocdigo para calcular os parmetros da medida de certeza
Os parmetros de entrada do algoritmo so TV , Te, INTER, POS. O parmetro
INTER informa em quantos intervalos o conjunto F (veja na seo 4.1) ser particionado,
formando os intervalos y. O parmetro POS informa quantas posies do ranking de
categorias que ser avaliado, ou seja, at que posio do ranking ser computado os
parmetros para o clculo da medida de certeza do categorizador. De acordo com a Figura
5-9, o passo (1) define o nome do algoritmo, os passos (2) e (3) definem o valor dos
parmetros INTER e POS. Os passos de (4) a (11) definem uma funo chamada
obter_intervalo que computa em qual intervalo y F a predio do categorizador se encaixa.
Os passos (12) a (17) definem uma funo chamada verificar_classe_pertinente que verificar
se a predio correta retornando 1 e 0, caso contrrio. Os passos (19) a (34) so repetidos
10 vezes para cada conjunto de treinemento e teste. Desta forma, executamos um treinamento
com nove partes e com uma partio no utilizada no treinamento para calibrar, esse
procedimento repetido 10 vezes. Computamos as seguintes ocorrncias e acumulamos em
variveis os seguintes resultados:
1. Acumulamos em a_y_k: o nmero de predies com grau de crena que se
encaixam dentro do intervalo y

F, observadas na posio k do ranking de

cateogiras (para as 10 repeties).


2. Acumulamos em a_x_k: o nmero de predies corretas observadas na posio
k do ranking de categorias (para as 10 repeties).
3. Acumulamos em a_y_x_k: o nmero de predies com grau de crena que se
encaixam dentro do intervalo y

F do conjunto de predies corretas

observadas na posio k do ranking de categorias (para as 10 repeties).


Os passos (35) a (41) computam as seguintes probabilidades: p( y | k ) , p( x | k ) e

p( y | x, k ) (veja seo 4.1) utilizadas para calcular a medida de certeza do categorizador.


Como pode ser observado, para cada posio do ranking de categorias computamos uma
medida de certeza para a predio correspondente.
Os valores dos termos da regra de Bayes (p(x|k), p(y|k) e p(y|x,k)) obtidas atravs dos
experimentos de calibrao e o valor da medida de certeza so apresentados na Seo 6.1.

METODOLOGIA EXPERIMENTAL
72

5.7 Validao da Medida de Certeza

Nos experimentos realizados para validar nossa modelagem Bayesiana da certeza na


categorizao, particionamos as bases EX100 e AT100 em 10 subconjuntos de 691 e 1049
documentos, respectivamente (o ltimo tem 692 e 1054, respectivamente). Para cada uma das
bases EX100 e AT100, utilizamos os 9 primeiros subconjuntos para treinar o categorizador e
o ltimo subconjunto para test-lo. O objetivo deste experimento de teste avaliar se o valor
de p(x|y,k) calculado analiticamente (a partir dos termos da Regra de Bayes observados nos 10
experimentos de validao) uma boa estimativa para o valor de p(x|y,k) observado
empiricamente. Com esse experimento, verificamos que a nossa abordagem estima
corretamente o valor de p(x|y,k), ou seja, o valor de p(x|y,k) calculado analiticamente similar
ao valor de p(x|y,k) observado empiricamente.
A comparao entre os valores de p(x|y,k) calculados analiticamente (por meio da
regra de Bayes a partir das estimativas de p(x|k), p(y|k) e p(y|x,k) obtidas nos experimentos de
calibrao) com os valores de p(x|y,k) estimados empiricamente (a partir dos experimentos de
teste) so apresentados na Seo 6.1.

5.8 Calibrao das Estratgias de Poda

As estratgias de poda apresentadas no Captulo 3 possuem parmetros que devem ser


ajustados (calibrados) com o objetivo de conseguir o melhor desempenho para uma
determinada base de dados. Tipicamente, antes de realizar os experimentos de 10-fold crossvalidation, os parmetros das estratgias de poda so calibrados com uma parte dos dados
separada especificamente para a calibrao, a qual denominamos dados de calibrao Os
dados de calibrao so adicionados aos dados de treinamento nos experimentos de teste
[Sebastiani02, Witten05].
Nos nossos experimentos de calibrao das estratgias de poda, escolhemos como
conjunto de dados de validao os documentos de treinamento de um dos folds das bases de
dados empregadas (EX100 ou AT100). Dividimos este conjunto de dados em 10 partes, onde
as nove primeiras so utilizadas no treinamento e a dcima no teste (validao) dos
categorizadores; testamos com apenas uma das 10 partes por conta dos custos computacionais

METODOLOGIA EXPERIMENTAL
73
envolvidos. Nos experimentos de calibrao, todos os documentos da CNAE_EX100 e
CNAE_AT100 so utilizados durante a fase de treinamento. A mtrica empregada nos
experimentos de calibrao foi a macro F1 . Escolhemos esta mtrica porque as estratgias
c

de poda publicadas na literatura foram avaliadas em termos desta mtrica.


A seguir, apresentamos os resultados da calibrao dos parmetros das estratgias de
poda avaliadas neste trabalho.

5.8.1

Estratgia RCut
A estratgia de poda RCut possui apenas um parmetro, isto , t (Seo 3.1). RCut foi

calibrada examinando seu desempenho para ambas as bases com os seguintes valores de t = 1,
2, 3, 4, 5, 6, 7, 8, 9, 10, 11, 12, 13, 14, 15, 16, 17, 18, 19 e 20.
A Figura 5-10 mostra os resultados obtidos do procedimento de calibrao de RCut
para o categorizador ML- k NN e para as bases de dados AT100 (Figura 5-10(a)) e EX100
(Figura 5-10(b)). A Figura 5-11 mostra os resultados obtidos do procedimento de calibrao
de RCut para o categorizador VG-RAM WNN-COR e para as bases de dados AT100 (Figura
5-11(a)) e EX100 (Figura 5-11(b)). Nestas figuras, o eixo vertical representa o valor da
mtrica macro F1 para os diversos valores de t, e eixo horizontal os valores de t.
c

METODOLOGIA EXPERIMENTAL
74

(a)

(b)
Figura 5-10 Calibrao de RCut para ML- k NN e para (a) AT100 e (b) EX100.

METODOLOGIA EXPERIMENTAL
75

(a)

(b)
Figura 5-11 Calibrao de RCut para VG-RAM WNN-COR para (a) AT100 e (b) EX100.

Conforme a Figura 5-10(a) mostra, para o categorizador ML- k NN e para a base de


dados AT100, a estratgia RCut apresentou melhor desempenho com t = 4. Assim, o valor t =
4 foi escolhido para todos os demais experimentos com o categorizador ML- k NN e a base
AT100. J para a base EX100 (Figura 5-10(b)), RCut apresentou melhor desempenho com t =
2. Assim, o valor t = 2 foi escolhido para todos os demais experimentos com o categorizador
ML- k NN e a base EX100.

Conforme a Figura 5-11(a) mostra, para o categorizador VG-RAM WNN-COR e para a


base de dados AT100, a estratgia RCut apresentou melhor desempenho com t = 2. O mesmo
ocorre com a base EX100 (Figura 5-11(b)). Assim, o valor t = 2 foi escolhido para todos os
demais experimentos com o categorizador VG-RAM WNN-COR e as bases AT100 e EX100.

METODOLOGIA EXPERIMENTAL
76
A Tabela 5-3 sumariza os valores escolhidos para o parmetro de RCut para cada
categorizador (primeira coluna esquerda) e para as bases AT100 (coluna do meio) e EX100
(ltima coluna direita).

Tabela 5-3 Sumrio dos valores escolhidos para o parmetro de RCut.


Categorizador
Bases de dados
AT100
EX100
ML-k NN
=4
=2
VG-RAM WNN-COR
=2
=2

5.8.2

Estratgia RTCut

A estratgia de poda RTCut possui apenas um parmetro, isto , (ver Seo 3.2).
Aps transformar o ranking de categorias em um ranking sinttico aplicando a Equao
((3-1), a estratgia de poda RTCut foi calibrada examinando seu desempenho para as ambas
as bases com o valor de inicio = 0.0, variando em 0.01 at o valor limite 10.0.
A Figura 5-12 mostra os resultados obtidos do procedimento de calibrao de RTCut
para o categorizador ML- k NN e para as bases de dados AT100 (Figura 5-12 (a)) e EX100
(Figura 5-12 (b)). A Figura 5-13 mostra os resultados obtidos do procedimento de calibrao
de RTCut para o categorizador VG-RAM WNN-COR e para as bases de dados AT100 (Figura
5-13 (a)) e EX100 (Figura 5-13 (b)). Nestas figuras, o eixo vertical representa o valor da
mtrica macro F1 para os diversos valores de , e eixo horizontal os valores de .
c

METODOLOGIA EXPERIMENTAL
77

(a)

(b)
Figura 5-12 - Calibrao de RTCut para ML- k NN para (a) AT100 e (b) EX100.

METODOLOGIA EXPERIMENTAL
78

(a)

(b)
Figura 5-13 - Calibrao de RTCut para VG-RAM WNN-COR para (a) AT100 e (b) EX100.

Conforme a Figura 5-12(a) mostra, para o categorizador ML- k NN e para a base de


dados AT100, a estratgia RTCut apresentou melhor desempenho com = 4,28. Assim, o
valor t = 4,28 foi escolhido para todos os demais experimentos com o categorizador ML- k NN
e a base AT100. J para a base EX100 (Figura 5-12(b)), RTCut apresentou melhor
desempenho com = 2,33. Assim, o valor = 2,33 foi escolhido para todos os demais
experimentos com o categorizador ML- k NN e a base EX100.
Conforme a Figura 5-13(a) mostra, para o categorizador VG-RAM WNN-COR e para a
base de dados AT100, a estratgia RTCut apresentou melhor desempenho com = 2,61.
Assim, o valor = 2,61 foi escolhido para todos os demais experimentos com o categorizador

METODOLOGIA EXPERIMENTAL
79
VG-RAM WNN-COR e a base AT100. J para a base EX100 (Figura 5-13 (b)), RTCut
apresentou melhor desempenho com = 2,63. Assim, o valor = 2,63 foi escolhido para
todos os demais experimentos com o categorizador VG-RAM WNN-COR e a base EX100.
A Tabela 5-4 sumariza os valores escolhidos para o parmetro de RTCut para cada
categorizador (primeira coluna esquerda) e para as bases AT100 (coluna do meio) e EX100
(ltima coluna direita).

Tabela 5-4 Sumrio das escolhas dos parmetros da estratgia de poda RTCut.
Categorizador
Bases de dados
AT100
EX100
ML-k NN
= 4,28
= 2,33
VG-RAM WNN-COR
= 2,61
= 2,63

5.8.3

Estratgia PCut
A estratgia de poda PCut possui um parmetro de ajuste, a saber, x, (ver Seo 3.3).

PCut foi calibrada examinando seu desempenho para as ambas as bases com os seguintes
valores de x = 1, 2, 3, 4, 5, 6, 7, 8, 9 e 10.
A Figura 5-14 mostra os resultados obtidos do procedimento de calibrao de PCut
para o categorizador ML- k NN e para as bases de dados AT100 (Figura 5-14(a)) e EX100
(Figura 5-14(b)). A Figura 5-15 mostra os resultados obtidos do procedimento de calibrao
de PCut para o categorizador VG-RAM WNN-COR e para as bases de dados AT100 (Figura
5-15(a)) e EX100 (Figura 5-15(b)). Nestas figuras, o eixo vertical representa o valor da
mtrica macro F1 para os diversos valores de x, e eixo horizontal os valores de x.
c

METODOLOGIA EXPERIMENTAL
80

(a)

(b)
Figura 5-14 - Calibrao de PCut para ML- k NN e para (a) AT100 e (b) EX100.

METODOLOGIA EXPERIMENTAL
81

(a)

(b)
Figura 5-15 - Calibrao de PCut para VG-RAM WNN-COR e para (a) AT100 e (b) EX100.

Conforme a Figura 5-14(a) mostra, para o categorizador ML- k NN e para a base de


dados AT100, a estratgia PCut apresentou melhor desempenho com x = 4. Assim, o valor x
= 4 foi escolhido para todos os demais experimentos com o categorizador ML- k NN e a base

AT100. J para a base EX100 (Figura 5-14(b)), PCut apresentou melhor desempenho com x =
10. Assim, o valor x = 10 foi escolhido para todos os demais experimentos com o

categorizador ML- k NN e a base EX100.


Conforme a Figura 5-15(a) mostra, para o categorizador VG-RAM WNN-COR e para a
base de dados AT100, a estratgia PCut apresentou melhor desempenho com x = 4. Assim, o
valor x = 4 foi escolhido para todos os demais experimentos com o categorizador VG-RAM

METODOLOGIA EXPERIMENTAL
82
WNN-COR e a base AT100. J para a base EX100 (Figura 5-15(b)), PCut apresentou melhor
desempenho com x = 11. Assim, o valor x = 11 foi escolhido para todos os demais
experimentos com o categorizador VG-RAM WNN-COR e a base EX100.
A Tabela 5-5 sumariza os valores escolhidos para o parmetro de PCut para cada
categorizador (primeira coluna esquerda) e para as bases AT100 (coluna do meio) e EX100
(ltima coluna direita).

Tabela 5-5 Sumrio das escolhas dos parmetros da estratgia de poda PCut.
Categorizador
Bases de dados
AT100
EX100
ML-k NN
=4
= 10
VG-RAM WNN-COR
=4
= 11

5.8.4

Estratgia SCut
A estratgia de poda SCut possui um parmetro de ajuste para cada categoria cj, a

saber, j, (ver Seo 3.4). A estratgia de poda SCut foi calibrada examinando seu
desempenho para as ambas as bases com o valor de inicio j = 0.0, variando em 0.01 at o
valor limite 1.0. para cada categoria cj.
O APNDICE A apresenta os parmetros obtidos no procedimento de calibrao de
SCut para os categorizadores ML- k NN e VG-RAM WNN-COR e para as bases de dados
AT100 e EX100. A Tabela 9-1, Tabela 9-2, Tabela 9-3, Tabela 9-4 e Tabela 9-5 mostram os
resultados obtidos do procedimento de calibrao do SCut para o categorizador ML- k NN e
para as bases de dados EX100 e AT100. Tabela 9-6, Tabela 9-7, Tabela 9-8, Tabela 9-9 e
Tabela 9-10 mostram os resultados obtidos do procedimento de calibrao do SCut para o
categorizador VG-RAM WNN-COR e para as bases de dados EX100 e AT100.

5.8.5

Estratgia BCut
A estratgia de poda BCut possui apenas um parmetro, isto , (ver Seo 4.2.1).

Aps transformar o ranking original em um ranking probabilstico, a estratgia de poda BCut


foi calibrada examinando seu desempenho para ambas as bases com o valor de inicio = 0.0,
variando em 0.01 at o valor limite 1.00.

METODOLOGIA EXPERIMENTAL
83
A Figura 5-16 mostra os resultados obtidos do procedimento de calibrao de BCut
para o categorizador ML- k NN e para as bases de dados AT100 (Figura 5-16(a)) e EX100
(Figura 5-16(b)). A Figura 5-17 mostra os resultados obtidos do procedimento de calibrao
de BCut para o categorizador VG-RAM WNN-COR e para as bases de dados AT100 (Figura
5-17(a)) e EX100 (Figura 5-17(b)). Nestas figuras, o eixo vertical representa o valor da
mtrica macro F1 para os diversos valores de , e eixo horizontal os valores de .
c

(a)

(b)
Figura 5-16 - Calibrao de BCut para ML- k NN e para (a) AT100 e (b) EX100.

METODOLOGIA EXPERIMENTAL
84

(a)

(b)
Figura 5-17 - Calibrao de BCut para VG-RAM WNN-COR e para (a) AT100 e (b) EX100.

Conforme a Figura 5-16(a) mostra, para o categorizador ML- k NN e para a base de


dados AT100, a estratgia BCut apresentou melhor desempenho com = 0,03. Assim, o valor
= 0,03 foi escolhido para todos os demais experimentos com o categorizador ML- k NN e a
base AT100. J para a base EX100 (Figura 5-16(b)), BCut apresentou melhor desempenho
com = 0,22. Assim, o valor = 0,22 foi escolhido para todos os demais experimentos com o
categorizador ML- k NN e a base EX100.
Conforme a Figura 5-17(a) mostra, para o categorizador VG-RAM WNN-COR e para a
base de dados AT100, a estratgia BCut apresentou melhor desempenho com = 0,13. Assim,
o valor = 0,13 foi escolhido para todos os demais experimentos com o categorizador VGRAM WNN-COR e a base AT100. J para a base EX100 (Figura 5-17(b)), BCut apresentou

METODOLOGIA EXPERIMENTAL
85
melhor desempenho com = 0,36. Assim, o valor = 0,36 foi escolhido para todos os demais
experimentos com o categorizador VG-RAM WNN-COR e a base EX100.
A Tabela 5-6 sumariza os valores escolhidos para o parmetro de BCut para cada
categorizador (primeira coluna esquerda) e para as bases AT100 (coluna do meio) e EX100
(ltima coluna direita).

Tabela 5-6 Sumrio das escolhas dos parmetros da estratgia de poda BCut.
Catetegorizador
Bases de dados
AT100
EX100
ML-k NN
= 0,03
= 0,22
= 0,13
= 0,36
VG-RAM WNN-COR

5.8.6

Estratgia PBCut
A estratgia de poda PBCut possui um parmetro para cada posio do ranking

avaliada, isto , i (ver Seo 4.2.2). A estratgia de poda PBCut foi calibrada examinando seu
desempenho para as ambas bases com o valor de inicio i = 0.0, variando em 0.01 at o valor
limite 1.00 para cada posio do ranking.
A Figura 5-18 mostra os resultados obtidos do procedimento de calibrao de PBCut
para o categorizador ML- k NN e para as bases de dados AT100 (Figura 5-18(a)) e EX100
(Figura 5-18(b)). A Figura 5-19 mostra os resultados obtidos do procedimento de calibrao
de PBCut para o categorizador VG-RAM WNN-COR e para as bases de dados AT100 (Figura
5-19(a)) e EX100 (Figura 5-19(b)). Nestas figuras, o eixo vertical representa o valor da
mtrica macro F1 para os diversos valores de i, e eixo horizontal os valores de i.
c

METODOLOGIA EXPERIMENTAL
86

(a)

(b)
Figura 5-18 - Calibrao de PBCut para ML- k NN e para (a) AT100 e (b) EX100.

METODOLOGIA EXPERIMENTAL
87

(a)

(b)
Figura 5-19 - Calibrao de PBCut para VG-RAM WNN-COR e para (a) AT100 e (b) EX100.

Conforme a Figura 5-18(a) mostra, para o categorizador ML- k NN e para a base de


dados AT100, a estratgia PBCut apresentou melhor desempenho com i igual aos valores
mostrados na Tabela 5-7 (coluna AT100). Assim, os valores dos parmetros da Tabela 5-7
(coluna AT100) foram escolhidos para todos os demais experimentos com o categorizador
ML- k NN e a base AT100. J para a base EX100 (Figura 5-18(b)), PBCut apresentou melhor

desempenho com i igual aos valores mostrados na Tabela 5-7 (coluna EX100). Assim, os
valores dos parmetros da Tabela 5-7 (coluna EX100) foram escolhidos para todos os demais
experimentos com o categorizador ML- k NN e a base EX100.

METODOLOGIA EXPERIMENTAL
88
Tabela 5-7 Parmetro obtidos na calibrao da estratgia de poda PBCut segundo ML- k NN para
AT100 e EX100.

AT100
1 = 0,00
2 = 0,12
3 = 0,09
4 = 0,13
5 = 0,16
6 = -1,00

EX100
1
2
3
4
5
6

= 0,00
= 0,17
= 0,25
= 0,22
= 0,13
= 0,10

Conforme a Figura 5-19 (a) mostra, para o categorizador VG-RAM WNN-COR e para
a base de dados AT100, a estratgia PBCut apresentou melhor desempenho com i igual aos
valores mostrados na Tabela 5-8 (coluna AT100). Assim, os valores dos parmetros da Tabela
5-8 (coluna AT100) foram escolhidos para todos os demais experimentos com o categorizador
VG-RAM WNN-COR e a base AT100. J para a base EX100 (Figura 5-19 (b)), PBCut
apresentou melhor desempenho com i igual aos valores mostrados na Tabela 5-8(coluna
EX100). Assim, os valores dos parmetros da Tabela 5-8(coluna EX100) foram escolhidos
para todos os demais experimentos com o categorizador VG-RAM WNN-COR e a base
EX100.
Tabela 5-8 - Parmetro obtidos na calibrao da estratgia de poda PBCut segundo VG-RAM WNN-COR
para AT100 e EX100.

AT100

EX100

1 = 0,00
2 = 0,13
3 = 0,15
4 = 0,20
5 = 0,00
6 = -1,00

1 = 0,35
2 = 0,23
3 = 0,36
4 = 0,23
5 = -1,00
6 = -1,00

A Tabela 5-9 sumariza os parmetros escolhidos para a estratgia de poda PBCut sob
os categorizadores ML- k NN e VG-RAM WNN-COR para as bases de dados AT100 (coluna
do meio) e EX100 (ltima coluna direita).

METODOLOGIA EXPERIMENTAL
89
Tabela 5-9 Sumrio das escolhas dos parmetros da estratgia de poda PBCut.

Categorizador

ML- kNN

VG-RAM WNN-COR

Bases de dados
EX100
AT100
1 = 0,00
2 = 0,12
3 = 0,09
4 = 0,13
5 = 0,16
6 = -1,00
1 = 0,00
2 = 0,13
3 = 0,15
4 = 0,20

1
2
3
4
5
6
1
2
3
4

= 0,00
= 0,17
= 0,25
= 0,22
= 0,13
= 0,10
= 0,35
= 0,23
= 0,36
= 0,23

5 = 0,00

5 = -1,00

6 = -1,00

6 = -1,00

6 RESULTADOS EXPERIMENTAIS

Neste captulo, apresentamos nossos resultados experimentais. Avaliamos se o valor


da medida de certeza de categorizao, calculado analiticamente pelo nosso mtodo por meio
da regra de Bayes, uma boa estimativa para o valor da medida de certeza de categorizao
observada empiricamente. Analisamos tambm o impacto da nossa estratgia de poda de
ranking de categorias, BCut, e sua variante, PBCut, no desempenho das tcnicas de
categorizao multi-rtulo de texto, k -vizinhos mais prximos multi-rtulo (multi-label k nearest neighbors - ML- k NN) [Zhang07] e rede neural sem peso do tipo VG-RAM com
correlao de dados (data correlated virtual generalizing random access memory weightless
neural networks VG-RAM WNN-COR) [Aleksander98, Badue08, DeSouza08, DeSouza09a,

DeSouza09b], no contexto da categorizao de descries de atividades econmicas de


empresas brasileiras segundo a Classificao Nacional de Atividades Econmicas (CNAE)
[CNAE03]. Ademais, analisamos o impacto no desempenho do categorizadores ML- k NN e
VG-RAM WNN-COR de trs mtodos de poda comumente usados na literatura de RI [Yang01,

Lee02, Fan07]: (i) RCut, baseada na posio das categorias no ranking; (ii) PCut, baseada na
popularidade das categorias no conjunto de treinamento; (iii) SCut, baseada no grau de crena
com que o sistema atribui as categorias aos documentos; e (iv) suas variantes RTCut, proposta
por Yang (2001), e PCut* e SCut*, propostas neste trabalho. O desempenho dos
categorizadores foi medido em termos das mtricas de avaliao de desempenho de
categorizao multi-rtulo de texto: exact match [Kazawa05], precision [Sebastiani02,
Manning08], recall [Sebastiani02, Manning08], e F1 [Sebastiani02, Manning08].

6.1 Validao da Medida de Certeza

A comparao entre os valores de p(x|y,k) calculados analiticamente (por meio da


regra de Bayes a partir das estimativas de p(x|k), p(y|k) e p(y|x,k) obtidas nos experimentos de
calibrao) com os valores de p(x|y,k) estimados empiricamente so apresentados nesta seo
para o categorizador VG-RAM WNN-COR e a base de dados EX100. Os valores da medida de

RESULTADOS EXPERIMENTAIS
91
certeza para VG-RAM WNN-COR e a base de dados AT100 e ML- k NN e as bases AT100 e
EX100 so apresentados no APNDICE B.
A Tabela 6-1, Tabela 6-2, Tabela 6-3, Tabela 6-4 e Tabela 6-5 apresentam a
comparao entre os valores de p(x|y,k) calculados analiticamente (por meio da regra de
Bayes a partir das estimativas de p(x|k), p(y|k) e p(y|x,k) obtidas nos experimentos de

validao) com os valores de p(x|y,k) estimados empiricamente para o categorizador VG-RAM


WNN-COR e a base EX100 a partir dos experimentos de teste para k = 1, 2, 3, 4 e 5, i.e.,

primeira, segunda, ..., e quinta posio do ranking, respectivamente. Nessas tabelas, a coluna
Intervalo mostra cada um dos 20 intervalos de valores de f observados nos experimentos de
validao, a coluna Validao mostra os valores de p(x|y,k) calculados analiticamente por
meio da regra de Bayes com os resultados dos experimentos de validao, e a coluna Teste
mostra os valores de p(x|y,k) estimados empiricamente a partir dos experimentos de teste.
Como pode ser observado na Tabela 6-1, Tabela 6-2, Tabela 6-3, Tabela 6-4 e Tabela
6-5, os valores de p(x|y,k) calculados analiticamente por meio da regra de Bayes so muito
prximos aos valores de p(x|y,k) estimados empiricamente, o que demonstra que, usando
nossa metodologia, possvel prever no teste com o ltimo fold (no visto pelo VG-RAM
WNN-COR durante o treinamento) o quo certo est o VG-RAM WNN-COR quanto primeira

categoria no seu ranking de sada ser pertinente para um dado documento. importante
destacar que esta medida de certeza vai de 0% a 100% uma medida facilmente
compreensvel para um operador do SCAE humano.
O sistema SCAE usa a Tabela 6-1, Tabela 6-2, Tabela 6-3, Tabela 6-4 e Tabela 6-5
da seguinte forma. Se o VG-RAM WNN-COR predisse a categoria ci para o documento dj com
grau de crena f(dj, ci) dentro de um intervalo y (dentre os 20 intervalos observados na
validao), e posicionou a categoria ci na posio r(dj, ci) do ranking, ento a medida de
certeza para essa predio pode ser expressa por p(x|y,k), onde y f(dj, ci) e k = r(dj, ci).
A tabela Tabela 6-1, Tabela 6-2, Tabela 6-3, Tabela 6-4 e Tabela 6-5 mostram os
resultados do uso de nossa metodologia para valores de k iguais a 1, 2, 3, 4 e 5
respectivamente. Como pode ser visto nestas tabelas, tambm para estes valores de k
possvel prever no teste com o ltimo fold o quo certo est o VG-RAM WNN-COR quanto
categoria na posio k no seu ranking de sada ser pertinente para um dado documento. Note
que, quanto maior o k (quanto mais abaixo no ranking de sada do categorizador), menos
provvel que a categoria atribuda pelo categorizador seja pertinente ao documento (ver

RESULTADOS EXPERIMENTAIS
92
ltima linha das tabelas). Isso esperado, j que, para a base de dados empregada no
treinamento (EX100), incomum existirem mais que dois cdigos pertinentes a um dado
documento.
Tabela 6-1 - Probabilidades p(x|y,k) de validao versus p(x|y,k) de teste para a posio k=1 do ranking em
cada um dos 20 intervalos observados de f.
Ordem
Intervalo
1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20

Intervalo
( 0,000000 - 0,048906 )
( 0,048906 - 0,059188 )
( 0,059188 - 0,066578 )
( 0,066578 - 0,073284 )
( 0,073284 - 0,079183 )
( 0,079183 - 0,084823 )
( 0,084823 - 0,090226 )
( 0,090226 - 0,095975 )
( 0,095975 - 0,101643 )
( 0,101643 - 0,108434 )
( 0,108434 - 0,115315 )
( 0,115315 - 0,122085 )
( 0,122085 - 0,130695 )
( 0,130695 - 0,141219 )
( 0,141219 - 0,153803 )
( 0,153803 - 0,171683 )
( 0,171683 - 0,198192 )
( 0,198192 - 0,232168 )
( 0,232168 - 0,319712 )
( 0,319712 - 1,000000 )

Validao
p(x|y,k)
p(x|y,k)
p(x|y,k)
p(x|y,k)
p(x|y,k)
p(x|y,k)
p(x|y,k)
p(x|y,k)
p(x|y,k)
p(x|y,k)
p(x|y,k)
p(x|y,k)
p(x|y,k)
p(x|y,k)
p(x|y,k)
p(x|y,k)
p(x|y,k)
p(x|y,k)
p(x|y,k)
p(x|y,k)

0,346155
0,530551
0,581998
0,672018
0,742759
0,742759
0,723465
0,784559
0,819937
0,778138
0,816727
0,836006
0,791657
0,861300
0,874595
0,900326
0,887452
0,958194
0,967841
0,970967

Teste
p(x|y,k)
p(x|y,k)
p(x|y,k)
p(x|y,k)
p(x|y,k)
p(x|y,k)
p(x|y,k)
p(x|y,k)
p(x|y,k)
p(x|y,k)
p(x|y,k)
p(x|y,k)
p(x|y,k)
p(x|y,k)
p(x|y,k)
p(x|y,k)
p(x|y,k)
p(x|y,k)
p(x|y,k)
p(x|y,k)

0,291667
0,400000
0,625000
0,500000
0,434783
0,692308
0,578947
0,480000
0,814815
0,774194
0,838710
0,880952
0,750000
0,894737
0,837838
0,878049
0,882353
0,783784
0,943396
0,933333

Tabela 6-2 - Probabilidades p(x|y,k) de validao versus p(x|y,k) de teste para a posio k=2 do ranking em
cada um dos 20 intervalos observados de f.
Ordem
Intervalo
1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20

Intervalo
( 0,000000 - 0,022611 )
( 0,022611 - 0,027632 )
( 0,027632 - 0,032089 )
( 0,032089 - 0,036620 )
( 0,036620 - 0,040404 )
( 0,040404 - 0,044269 )
( 0,044269 - 0,047990 )
( 0,047990 - 0,052008 )
( 0,052008 - 0,055889 )
( 0,055889 - 0,060299 )
( 0,060299 - 0,064851 )
( 0,064851 - 0,069875 )
( 0,069875 - 0,074904 )
( 0,074904 - 0,081272 )
( 0,081272 - 0,087618 )
( 0,087618 - 0,095580 )
( 0,095580 - 0,105363 )
( 0,105363 - 0,120024 )
( 0,120024 - 0,152786 )
( 0,152786 - 1,000000 )

Validao
p(x|y,k)
p(x|y,k)
p(x|y,k)
p(x|y,k)
p(x|y,k)
p(x|y,k)
p(x|y,k)
p(x|y,k)
p(x|y,k)
p(x|y,k)
p(x|y,k)
p(x|y,k)
p(x|y,k)
p(x|y,k)
p(x|y,k)
p(x|y,k)
p(x|y,k)
p(x|y,k)
p(x|y,k)
p(x|y,k)

0,009616
0,019293
0,054660
0,090033
0,121794
0,145161
0,170420
0,225080
0,292606
0,270093
0,331186
0,385853
0,401926
0,472666
0,479100
0,572346
0,591639
0,601286
0,559486
0,712908

Teste
p(x|y,k)
p(x|y,k)
p(x|y,k)
p(x|y,k)
p(x|y,k)
p(x|y,k)
p(x|y,k)
p(x|y,k)
p(x|y,k)
p(x|y,k)
p(x|y,k)
p(x|y,k)
p(x|y,k)
p(x|y,k)
p(x|y,k)
p(x|y,k)
p(x|y,k)
p(x|y,k)
p(x|y,k)
p(x|y,k)

0,031250
0,050000
0,037037
0,031250
0,080000
0,115385
0,000000
0,250000
0,172414
0,250000
0,270270
0,400000
0,281250
0,420000
0,375000
0,500000
0,718750
0,589744
0,564103
0,750000

RESULTADOS EXPERIMENTAIS
93
Tabela 6-3 - Probabilidades p(x|y,k) de validao versus p(x|y,k) de teste para a posio k=3 do ranking em
cada um dos 20 intervalos observados de f.
Ordem
Intervalo
1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20

Intervalo
( 0,000000 - 0,017595 )
( 0,017595 - 0,020573 )
( 0,020573 - 0,023336 )
( 0,023336 - 0,025939 )
( 0,025939 - 0,028364 )
( 0,028364 - 0,030728 )
( 0,030728 - 0,033007 )
( 0,033007 - 0,035250 )
( 0,035250 - 0,037608 )
( 0,037608 - 0,040024 )
( 0,040024 - 0,042752 )
( 0,042752 - 0,045650 )
( 0,045650 - 0,048971 )
( 0,048971 - 0,052439 )
( 0,052439 - 0,057078 )
( 0,057078 - 0,061834 )
( 0,061834 - 0,068206 )
( 0,068206 - 0,077441 )
( 0,077441 - 0,092551 )
( 0,092551 - 1,000000 )

Validao
p(x|y,k)
p(x|y,k)
p(x|y,k)
p(x|y,k)
p(x|y,k)
p(x|y,k)
p(x|y,k)
p(x|y,k)
p(x|y,k)
p(x|y,k)
p(x|y,k)
p(x|y,k)
p(x|y,k)
p(x|y,k)
p(x|y,k)
p(x|y,k)
p(x|y,k)
p(x|y,k)
p(x|y,k)
p(x|y,k)

0,006411
0,009648
0,016076
0,016076
0,032155
0,045016
0,051448
0,045016
0,061092
0,083600
0,115756
0,131832
0,109324
0,183280
0,205788
0,205788
0,285254
0,351615
0,437299
0,467745

Teste
0,142857
0,038462
0,000000
0,035714
0,034483
0,035714
0,000000
0,045455
0,000000
0,038462
0,030303
0,000000
0,162162
0,111111
0,230769
0,189189
0,266667
0,156250
0,357143
0,562500

p(x|y,k)
p(x|y,k)
p(x|y,k)
p(x|y,k)
p(x|y,k)
p(x|y,k)
p(x|y,k)
p(x|y,k)
p(x|y,k)
p(x|y,k)
p(x|y,k)
p(x|y,k)
p(x|y,k)
p(x|y,k)
p(x|y,k)
p(x|y,k)
p(x|y,k)
p(x|y,k)
p(x|y,k)
p(x|y,k)

Tabela 6-4 - Probabilidades p(x|y,k) de validao versus p(x|y,k) de teste para a posio k=4 do ranking em
cada um dos 20 intervalos observados de f.
Ordem
Intervalo
1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20

Intervalo
( 0,000000 - 0,014855 )
( 0,014855 - 0,017219 )
( 0,017219 - 0,019100 )
( 0,019100 - 0,020833 )
( 0,020833 - 0,022457 )
( 0,022457 - 0,024081 )
( 0,024081 - 0,025773 )
( 0,025773 - 0,027458 )
( 0,027458 - 0,029207 )
( 0,029207 - 0,030888 )
( 0,030888 - 0,032725 )
( 0,032725 - 0,034578 )
( 0,034578 - 0,036846 )
( 0,036846 - 0,039273 )
( 0,039273 - 0,041846 )
( 0,041846 - 0,044872 )
( 0,044872 - 0,048928 )
( 0,048928 - 0,054723 )
( 0,054723 - 0,064407 )
( 0,064407 - 1,000000 )

Validao
p(x|y,k)
p(x|y,k)
p(x|y,k)
p(x|y,k)
p(x|y,k)
p(x|y,k)
p(x|y,k)
p(x|y,k)
p(x|y,k)
p(x|y,k)
p(x|y,k)
p(x|y,k)
p(x|y,k)
p(x|y,k)
p(x|y,k)
p(x|y,k)
p(x|y,k)
p(x|y,k)
p(x|y,k)
p(x|y,k)

0,000000
0,009647
0,003205
0,006411
0,012944
0,009616
0,012861
0,019355
0,028846
0,051447
0,061290
0,038585
0,048232
0,115015
0,087379
0,128204
0,125806
0,183279
0,227563
0,391589

Teste
p(x|y,k)
p(x|y,k)
p(x|y,k)
p(x|y,k)
p(x|y,k)
p(x|y,k)
p(x|y,k)
p(x|y,k)
p(x|y,k)
p(x|y,k)
p(x|y,k)
p(x|y,k)
p(x|y,k)
p(x|y,k)
p(x|y,k)
p(x|y,k)
p(x|y,k)
p(x|y,k)
p(x|y,k)
p(x|y,k)

0,000000
0,000000
0,000000
0,000000
0,000000
0,000000
0,041667
0,000000
0,037037
0,034483
0,085714
0,033333
0,064516
0,093750
0,062500
0,096774
0,131579
0,062500
0,210526
0,440000

RESULTADOS EXPERIMENTAIS
94
Tabela 6-5 - Probabilidades p(x|y,k) de validao versus p(x|y,k) de teste para a posio k=5 do ranking em
cada um dos 20 intervalos observados de f.
Ordem
Intervalo
1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20

Intervalo
( 0,000000 - 0,013276 )
( 0,013276 - 0,015484 )
( 0,015484 - 0,016903 )
( 0,016903 - 0,018129 )
( 0,018129 - 0,019425 )
( 0,019425 - 0,020612 )
( 0,020612 - 0,021800 )
( 0,021800 - 0,023065 )
( 0,023065 - 0,024476 )
( 0,024476 - 0,025764 )
( 0,025764 - 0,027174 )
( 0,027174 - 0,028626 )
( 0,028626 - 0,030175 )
( 0,030175 - 0,031882 )
( 0,031882 - 0,033888 )
( 0,033888 - 0,036267 )
( 0,036267 - 0,039041 )
( 0,039041 - 0,042965 )
( 0,042965 - 0,050193 )
( 0,050193 - 1,000000 )

Validao
p(x|y,k)
p(x|y,k)
p(x|y,k)
p(x|y,k)
p(x|y,k)
p(x|y,k)
p(x|y,k)
p(x|y,k)
p(x|y,k)
p(x|y,k)
p(x|y,k)
p(x|y,k)
p(x|y,k)
p(x|y,k)
p(x|y,k)
p(x|y,k)
p(x|y,k)
p(x|y,k)
p(x|y,k)
p(x|y,k)

0,003205
0,000000
0,012862
0,003216
0,006431
0,012862
0,016077
0,000000
0,009616
0,012862
0,038586
0,022581
0,028939
0,035370
0,051282
0,048388
0,067308
0,080646
0,122187
0,248390

Teste
p(x|y,k)
p(x|y,k)
p(x|y,k)
p(x|y,k)
p(x|y,k)
p(x|y,k)
p(x|y,k)
p(x|y,k)
p(x|y,k)
p(x|y,k)
p(x|y,k)
p(x|y,k)
p(x|y,k)
p(x|y,k)
p(x|y,k)
p(x|y,k)
p(x|y,k)
p(x|y,k)
p(x|y,k)
p(x|y,k)

0,027027
0,000000
0,000000
0,000000
0,000000
0,034483
0,000000
0,030303
0,000000
0,000000
0,035714
0,068966
0,034483
0,125000
0,045455
0,060606
0,142857
0,103448
0,075472
0,294118

6.2 Comparao entre as Estratgias de Poda

Nesta seo, apresentamos a formulao das mtricas de avaliao de desempenho


de categorizao multi-rtulo de texto empregadas neste trabalho: exact match [Kazawa05],
precision [Sebastiani02, Manning08], recall [Sebastiani02, Manning08] e F [Sebastiani02,
Manning08]. Estas mtricas avaliam o conjunto exato de categorias C j , predito para o
documento de teste d j .

6.2.1

Exact Match
A mtrica exact match ( exact match j ) avalia o quo freqente todas e somente

todas as categorias pertinentes esto presentes no conjunto de categorias preditas de d j . A


formulao original de Kazawa et al. [Kazawa05] apresentada na Equao ((6.3).

RESULTADOS EXPERIMENTAIS
95

1 se C |C j | = C
j
j
exact macth j =
0 caso contrrio

(6.3)

|C j |
Se o conjunto C j igual ao conjunto C j , exact macth j = 1 , caso contrrio,

exact macth j = 0 . O desempenho global obtido conforme Equao ((6.1). Quanto maior o
valor de exact match, melhor o desempenho do categorizador. O desempenho perfeito
quando exact match = 1 .
1 |Te |
exact match =
exact match j
| Te | j =1

(6.1)

A Figura 6-1 mostra de forma grfica o impacto do uso de estratgias de poda no


ranking de categorias avaliadas pela mtrica exact match segundo os categorizadores MLk NN e VG-RAM WNN-COR para as bases AT100 e EX100. No grfico apresentado na Figura
6-1, existem nove conjuntos de barras, um para cada categorizador empregado, onde a
amplitude de cada barra indica o valor de exact match (mdia dos 10 folds) para cada uma das
diversas estratgias de poda de ranking de categorias. Em cada conjunto de barras, da
esquerda para a direita, a primeira barra indica a poda Ideal1 do ranking, a segunda a
estratgia de poda RCut, a terceira a estratgia de poda RTCut, a quarta a estratgia de poda
SCut, a quinta a estratgia de poda SCut*, a sexta a estratgia de poda PCut, a stima a
estratgia de poda PCut*, a oitava a estratgia de poda BCut, a nona a estratgia de poda
PBCut (ver legenda nos grficos da figura).

A estratgia de poda de ranking Ideal retorna para um dado documento dj as |Cj| categorias do topo

do ranking, ou seja, a quantidade de categorias retornadas | C j| igual a quantidade de categorias


realmente pertinente |Cj|.

RESULTADOS EXPERIMENTAIS
96

(a)

(b)
Figura 6-1 - Resultado da mtrica exact-match para as bases (a) AT100 e (b) EX100. Quanto maior,
melhor.

Conforme as barras do grfico da Figura 6-1 mostram, o valor de exact match do


categorizador ML- k NN com a base AT100 (Figura 6-1(a)) impactado pelo uso de
estratgias de poda no ranking de categorias. O valor de exact match ao usar a estratgia de
poda de ranking BCut e PBCut so significativamente maiores do que os resultados obtidos
ao usar as estratgias RCut, RTCut, PCut, PCut* SCut e SCut*. O mesmo ocorre com o

RESULTADOS EXPERIMENTAIS
97
categorizador VG-RAM WNN-COR com a base de dados AT100 (Figura 6-1(a)). O valor de
exact match com a estratgia de poda SCut* significativamente maior do que com a
estratgia de poda SCut (tradicional) com o categorizador ML- k NN com a base AT100
(Figura 6-1(a)). O mesmo ocorre com o categorizador VG-RAM WNN-COR com a base de
dados AT100 (Figura 6-1(a)). O valor de exact match com a estratgia de poda PCut*
significativamente menor do que com a estratgia de poda PCut (tradicional) com o
categorizador ML- k NN com a base AT100 (Figura 6-1(a)). O mesmo ocorre com o
categorizador VG-RAM WNN-COR com a base de dados AT100 (Figura 6-1(a)).
Como apresentado na Figura 6-1, as barras do grfico mostram o valor de exact match
do categorizador ML- k NN com a base de dados EX100 (Figura 6-1(b)) impactado pelo uso
de estratgias de poda no ranking de categorias. O valor de exact match ao usar as estratgias
de poda de ranking BCut e PBCut so significativamente maiores do que os resultados
obtidos ao usar as estratgias RCut, RTCut, PCut, PCut* SCut e SCut*. O mesmo ocorre com
o categorizador VG-RAM WNN-COR com a base de dados EX100 (Figura 6-1(b)). O valor de
exact match com a estratgia de poda SCut* significativamente maior do que com a

estratgia de poda SCut (tradicional) com o categorizador ML- k NN com a base EX100
(Figura 6-1(b)). O valor de exact match com a estratgia de poda SCut* menor do que com a
estratgia de poda SCut (tradicional) com o categorizador VG-RAM WNN-COR com a base
EX100 (Figura 6-1(b)). O valor de exact match com a estratgia de poda PCut* menor que
com a estratgia de poda PCut (tradicional). O mesmo ocorre com o categorizador VG-RAM
WNN-COR com a base de dados EX100 (Figura 6-1(b)).

A anlise do desempenho dos resultados obtidos com os categorizadores ML- k NN e


VG-RAM WNN-COR para a mtrica exact match mostram que as estratgias de poda BCut e

PBCut melhoram o desempenho desses categorizadores para ambas bases, como visto na
Figura 6-1(a)(b). Isso acontece porque a estratgia BCut poda o ranking com base na
probabilidade da categorizao estar correta e a estratgia PBCut poda o ranking com base na
probabilidade da categorizao estar correta em cada posio do ranking, observando o
decremento da medida de certeza a medida que a posio da categoria no ranking aumenta.
Desta forma, as estratgias de poda BCut e PBCut so mais efetivas para otimizar o
desempenho do sistema em termos da exact match do que as estratgias RCut, RTCut, PCut,
PCut* SCut e SCut*, pois conseguem podar o ranking de maneira a retornar um conjunto de
categorias idnticos ao conjunto de categorias pertinente.

RESULTADOS EXPERIMENTAIS
98

6.2.2

Preciso (precision) Orientada Categoria


A mtrica preciso (precision) orientada categoria ( precisionic ) avalia a frao

de documentos de teste categorizados sob a categoria ci que so verdadeiramente associados


a ci . A formulao apresentada na Equao (6.2).

precisionic =

|C |
C j j C j

6.2)

|C |
| C j j |

A mtrica precision orientada categoria tambm pode ser computada utilizando a


tabela de contingncia da categoria ci (Tabela 6-6), de acordo com a Equao (6.3).
TPi
6.3)
TPi + FPi
onde FPi (falsos positivos para ci ) o nmero de documentos de teste que foram
precisionic =

incorretamente categorizados sob ci ; TN i (verdadeiros negativos para ci ) o nmero de


documentos de teste que foram corretamente no categorizados sob ci ; TPi (verdadeiros
positivos para ci ) o nmero de documentos de teste que foram corretamente categorizados
sob ci ; e FN i (falsos negativos para ci ) o nmero de documentos de teste que foram
incorretamente no categorizados sob ci .

Tabela 6-6 Tabela de contingncia da categoria

Categoria ci

ci .

Julgamentos do
especialista
S
SIM

N
NO

TP
Julgamentos do
categorizador

SIM

TPi

FPi
TN

NO

FN i

TN i

RESULTADOS EXPERIMENTAIS
99
O desempenho global de precision orientada categoria pode ser computado pelo
mtodo macroaveraging ( macro precision c ) e microaveraging ( micro precision c ),
Equao (6.4) e Equao (6.5), respectivamente [Sebatiani2002]. O mtodo macroaveraging
reporta o desempenho global sobre a soma dos resultados de precisionic (Equao (6.4)), e o
microaveraging sobre a soma das decises individuais em termos da tabela de contingncia,
TPi

(TPi + FPi )

(Equao (6.5)), para cada categoria ci .

macro precision

micro precision =
c

C
i =1

precisionic
6.4)

C
i =1

TPi

(TP + FP )
C

i =1

6.5)

Os mtodos macroaveraging e microaveraging podem dar resultados bastante


diferentes, especialmente se as generalidades das categorias so desiguais [Manning08;
Sebastiani02]. A habilidade de um categorizador de se comportar bem mediante categorias
com baixa generalidade evidenciada muito mais por macroaveraging e do que por
microaveraging. O mtodo macroaveraging d peso igual para cada categoria, enquanto
microaveraging d peso igual para cada deciso de categorizao [Manning08]. Desta forma,

categorias com alta generalidade dominam aquelas com baixa generalidade em


microaveraging.

Quanto maior o valor de macro precision c e micro precision c melhor o


desempenho do categorizador. O desempenho perfeito quando macro precision c = 1 e
micro precision c = 1 .

A Figura 6-2 mostra de forma grfica o impacto do uso de estratgias de poda no


ranking de categorias avaliadas pela mtrica macro precision c segundo os categorizadores
ML- k NN e VG-RAM WNN-COR para a base AT100 (Figura 6-2(a)) e EX100 (Figura 6-2(b))

respectivamente. Esta figura segue o mesmo formato da Figura 6-1.

RESULTADOS EXPERIMENTAIS
100

(a)

(b)
Figura 6-2 - Resultado da mtrica

macro precision c para as bases (a) AT100 e (b) EX100. Quanto


maior, melhor.

Conforme as barras do grfico da Figura 6-2 mostram, o valor de macro precision c


do categorizador ML- k NN com a base AT100 (Figura 6-2(a)) impactado pelo uso de
estratgias de poda no ranking de categorias. O valor da macro precision c ao usar a
estratgia de poda de ranking PCut significativamente maior do que os resultados obtidos ao

RESULTADOS EXPERIMENTAIS
101
usar as estratgias RCut, RTCut, PCut*, SCut, SCut*, BCut e PBCut. O resultados obtidos
com o categorizador VG-RAM WNN com a base de dados AT100 (Figura 6-2(a)) mostram um
equilbrio parcial entre as estratgias de poda RCut, RTCut, BCut e PBCut. O valor de
macro precision c com a estratgia de poda SCut* significativamente maior do que com a
estratgia de poda SCut (tradicional) com o categorizador ML- k NN com a base AT100
(Figura 6-2(a)). O mesmo ocorre com o categorizador VG-RAM WNN-COR com a base de
dados AT100 (Figura 6-2(a)). O valor de macro precision c com a estratgia de poda PCut*
significativamente menor do que com a estratgia de poda PCut (tradicional) com o
categorizador ML- k NN com a base AT100 (Figura 6-2(a)). O mesmo ocorre com o
categorizador VG-RAM WNN-COR com a base de dados AT100 (Figura 6-2(a)).
Como o apresentado na Figura 6-2, as barras do grfico mostram o valor de
macro precision c do categorizador ML- k NN com a base EX100 impactado pelo uso de

estratgias de poda no ranking de categorias. O valor de macro precision c ao usar as


estratgias de poda de ranking BCut e PBCut so significativamente maiores do que os
resultados obtidos ao usar as estratgias RCut, RTCut, PCut, PCut*, SCut e SCut*. O mesmo
ocorre com o categorizador VG-RAM WNN-COR com a base de dados EX100 (Figura 6-2(a)).
O valor de macro precision c com a estratgia de poda SCut* significativamente maior que
com a estratgia de poda SCut (tradicional) com o categorizador ML- k NN com a base EX100
(Figura 6-2 (b)). O mesmo ocorre com o categorizador VG-RAM WNN-COR com a base de
dados EX100 (Figura 6-2(b)). O valor de macro precision c com a estratgia de poda PCut*
menor do que com a estratgia de poda PCut (tradicional) com o categorizador ML- k NN
com a base AT100 (Figura 6-2(B)). O mesmo ocorre com o categorizador VG-RAM WNNCOR com a base de dados EX100 (Figura 6-2 (b)).

A anlise do desempenho dos resultados obtidos com os categorizadores ML- k NN e


VG-RAM WNN-COR para a mtrica macro precision c mostram que as estratgias de poda

BCut e PBCut melhoram o desempenho desses categorizadores para a base de dados EX100,
como visto na, Figura 6-2(b). Isso acontece porque a estratgia BCut poda o ranking com base
na probabilidade da categorizao estar correta e a estratgia PBCut poda o ranking com base
na probabilidade da categorizao estar correta em cada posio do ranking, observando o
decremento da medida de certeza a medida que a posio da categoria no ranking aumenta.
Desta forma, as estratgias de poda BCut e PBCut so mais efetivas para otimizar o

RESULTADOS EXPERIMENTAIS
102
desempenho do sistema em termos da mtrica macro precision c do que as estratgias RCut,
RTCut, PCut, PCut*, SCut e SCut* para estes categorizadores e para a base EX100.
A Figura 6-3 mostra de forma grfica o impacto do uso de estratgias de poda no
ranking de categorias avaliadas pela mtrica micro precision c segundo os categorizadores
ML- k NN e VG-RAM WNN-COR para a base AT100 (Figura 6-3(a)) e EX100 (Figura 6-3(b))
respectivamente. Esta figura segue o mesmo formato da Figura 6-1.

(a)

(b)

RESULTADOS EXPERIMENTAIS
103
Figura 6-3 - Resultado da mtrica

micro precision c para as bases (a) AT100 e (b) EX100. Quanto


maior, melhor.

Conforme as barras do grfico da Figura 6-3 mostram, o valor de micro precision c


do categorizador ML- k NN com a base AT100 impactado pelo uso de estratgias de poda no
ranking de categorias. Os valores de micro precision c ao usar a estratgia de poda de
ranking BCut e PBCut so maiores do que os resultados obtidos ao usar as estratgias RCut,

RTCut, PCut, PCut*, SCut e SCut*. O mesmo ocorre com o categorizador VG-RAM WNN
com a base de dados AT100 (Figura 6-3(a)). O valor de micro precision c com a estratgia
de poda SCut* significativamente maior do que com a estratgia de poda SCut (tradicional)
com o categorizador ML- k NN com a base AT100 (Figura 6-3(a)). O mesmo ocorre com o
categorizador VG-RAM WNN-COR com a base de dados AT100 (Figura 6-3(a)). O valor de
micro precision c com a estratgia de poda PCut* significativamente menor do que com a

estratgia de poda PCut (tradicional). O mesmo ocorre com o categorizador VG-RAM WNNCOR com a base de dados AT100 (Figura 6-3(a)).

Com apresentado na Figura 6-3, as barras do grfico mostram o valor de


micro precision c do categorizador ML- k NN com a base EX100 impactado pelo uso de

estratgias de poda no ranking de categorias. O valor de micro precision c ao usar as


estratgias de poda de ranking BCut e PBCut so significativamente maiores do que os
resultados obtidos ao usar as estratgias RCut, RTCut, PCut, PCut*, SCut e SCut*. O mesmo
ocorre com o categorizador VG-RAM WNN-COR com a base de dados EX100 (Figura 6-3(b)).
O valor de micro precision c com a estratgia de poda SCut* significativamente maior di
que com a estratgia de poda SCut (tradicional) com o categorizador ML- k NN com a base
EX100 (Figura 6-3(b)). O mesmo ocorre com o categorizador VG-RAM WNN-COR com a
base de dados EX100 (Figura 6-3(b)). O valor de micro precision c com a estratgia de
poda PCut* menor do que com a estratgia de poda PCut (tradicional). O mesmo ocorre
com o categorizador VG-RAM WNN-COR com a base de dados EX100 (Figura 6-3(b)).
A anlise do desempenho dos resultados obtidos com os categorizadores ML- k NN e
VG-RAM WNN-COR para a mtrica micro precision c mostram que as estratgias de poda

BCut e PBCut melhoram o desempenho desses categorizadores para ambas bases, como visto
na Figura 6-3(a)(b). Isso acontece porque a estratgia BCut poda o ranking com base na
probabilidade da categorizao estar correta e a estratgia PBCut poda o ranking com base na

RESULTADOS EXPERIMENTAIS
104
probabilidade da categorizao estar correta em cada posio do ranking, observando o
decremento da medida de certeza a medida que a posio da categoria no ranking aumenta.
Desta forma, as estratgias de poda BCut e PBCut so mais efetivas para otimizar o
desempenho do sistema em termos da mtrica micro precision c do que as estratgias RCut,
RTCut, PCut, PCut*, SCut e SCut*.

6.2.3

Revocao (recall) Orientada Categoria


A mtrica revocao (recall) orientada categoria ( recallic ) avalia a frao de

documentos de teste verdadeiramente associados com a categoria ci que so categorizados


sob ci . A formulao original apresentada na Equao (6.6).

recallic =

|C |
C j j C j

(6.6)

| Cj |

O valor de recallic tambm pode ser computado em termos da tabela de contingncia


da categoria ci , Tabela 6-6, conforme Equao (6.7).

recallic =

TPi
TPi + FN i

(6.7)

O desempenho global de recall orientada categoria calculado pelos mtodos


macro recall c e micro recall c , Equao (6.8) e Equao (6.9), respectivamente. Quanto

maior o valor de macro recall c e micro recall c , melhor o desempenho do categorizador.


O desempenho perfeito quando macro recall c = 1 e micro recall c = 1 .

macro recall

i =1

recallic
C

(6.8)

RESULTADOS EXPERIMENTAIS
105

micro recall =
c

i =1

TPi

i=1 (TPi + FN i )
C

(6.9)

A Figura 6-4 mostra de forma grfica o impacto do uso de estratgias de poda no


ranking de categorias avaliadas pela mtrica macro recall c segundo os categorizadores MLk NN e VG-RAM WNN-COR para a base AT100 (Figura 6-4(a)) e EX100 (Figura 6-4(b))

respectivamente. Esta figura segue o mesmo formato da Figura 6-1.

RESULTADOS EXPERIMENTAIS
106

(a)

(b)
Figura 6-4 - Resultado da mtrica

macro recall c para as bases (a) AT100 e (b) EX100. Quanto maior,
melhor.

Conforme as barras do grfico da Figura 6-4 mostram, o valor de macro recall c do


categorizador ML- k NN com a base AT100 impactado pelo uso de estratgias de poda no
ranking de categorias. O valor de macro recall c ao usar a estratgia de poda de ranking

SCut significativamente maior do que os resultados obtidos ao usar as estratgias RCut,


RTCut, PCut, PCut*, SCut*, BCut e PBCut. O mesmo ocorre com o categorizador VG-RAM

RESULTADOS EXPERIMENTAIS
107
WNN com a base de dados AT100 (Figura 6-4(a)). O valor de macro recall c com a
estratgia de poda SCut* significativamente menor do que com a estratgia de poda SCut
(tradicional) com o categorizador ML- k NN com a base AT100 (Figura 6-4(a)). O mesmo
ocorre com o categorizador VG-RAM WNN-COR com a base de dados AT100 (Figura 6-4(a)).
O valor de macro recall c com a estratgia de poda PCut* significativamente maior do que
com a estratgia de poda PCut (tradicional). O mesmo ocorre com o categorizador VG-RAM
WNN-COR com a base de dados AT100 (Figura 6-4(a)).

Com o apresentado na Figura 6-4, as barras do grfico mostram o valor de


macro recall c do categorizador ML- k NN com a base EX100 impactado pelo uso de

estratgias de poda no ranking de categorias. O valor de macro recall c ao usar a estratgia


de poda de ranking SCut significativamente maiores do que os resultados obtidos ao usar as
estratgias RCut, RTCut, PCut, PCut*, SCut*, BCut e PBCut. O valor de macro recall c
com a estratgia de poda SCut* significativamente menor do que com a estratgia de poda
SCut (tradicional) com o categorizador ML- k NN com a base EX100 (Figura 6-4(b)). O
mesmo ocorre com o categorizador VG-RAM WNN-COR com a base de dados EX100 (Figura
6-4(b)). O valor de macro recall c com a estratgia de poda PCut* maior mdo que com a
estratgia de poda PCut (tradicional). O mesmo ocorre com o categorizador VG-RAM WNNCOR com a base de dados EX100 (Figura 6-4(b)).

A anlise do desempenho dos resultados obtidos com os categorizadores ML- k NN e


VG-RAM WNN-COR para a mtrica macro recall c mostram que a estratgia de poda SCut

melhora o desempenho desses categorizadores para ambas bases, como visto na Figura 6-4
(a)(b). Isso acontece porque SCut otimiza o desempenho do categorizador por categoria,
tornando-a particularmente efetiva quando o desempenho do sistema em categorias raras a
funo alvo a ser otimizada. Desta forma, a estratgia de poda SCut mais efetiva para
otimizar o desempenho do sistema em termos da mtrica macro recall c do que as
estratgias RCut, RTCut, PCut, PCut*, SCut*, BCut e PBCut.
A Figura 6-5 mostra de forma grfica o impacto do uso de estratgias de poda no
ranking de categorias avaliadas pela mtrica micro recall c segundo os categorizadores MLk NN e VG-RAM WNN-COR para a base AT100 (Figura 6-5(a)) e EX100 (Figura 6-5(b))

respectivamente. Esta figura segue o mesmo formato da Figura 6-1.

RESULTADOS EXPERIMENTAIS
108

(a)

(b)
Figura 6-5 - Resultado da

micro recall para as bases (a) AT100 e (b) EX100. Quanto maior, melhor.
c

Conforme as barras do grfico da Figura 6-5 mostram, o valor de micro recall c do


categorizador ML- k NN com a base AT100 impactado pelo uso de estratgias de poda no
ranking de categorias. O valor de micro recall c ao usar a estratgia de poda de ranking

SCut significativamente maior do que os resultados obtidos ao usar as estratgias RCut,

RESULTADOS EXPERIMENTAIS
109
RTCut, PCut, PCut*, SCut*, BCut e PBCut. O mesmo ocorre com o categorizador VG-RAM
WNN-COR com a base de dados AT100 (Figura 6-5(a)). O valor de micro recall c com a
estratgia de poda SCut* significativamente menor do que com a estratgia de poda SCut
(tradicional) com o categorizador ML- k NN com a base AT100 (Figura 6-4(a)). O mesmo
ocorre com o categorizador VG-RAM WNN-COR com a base de dados AT100 (Figura 6-4(a)).
O valor de micro recall c com a estratgia de poda PCut* com o categorizador ML- k NN
com a base AT100 (Figura 6-4(a)) significativamente maior do que com a estratgia de poda
PCut (tradicional). O mesmo ocorre com o categorizador VG-RAM WNN-COR com a base de
dados AT100 (Figura 6-4(a)).
Com o apresentado na Figura 6-5, as barras do grfico mostram o valor de
micro recall c do categorizador ML- k NN com a base EX100 impactado pelo uso de

estratgias de poda no ranking de categorias. O valor de micro recall c ao usar a estratgia


de poda de ranking SCut significativamente maior do que os resultados obtidos ao usar as
estratgias RCut, RTCut, PCut, PCut*, SCut*, BCut e PBCut. O mesmo ocorre com o
categorizador VG-RAM WNN-COR com a base de dados EX100 (Figura 6-5(b)). O valor de
micro recall c com a estratgia de poda SCut* significativamente menor do que com a

estratgia de poda SCut (tradicional) com o categorizador ML- k NN e com a base EX100
(Figura 6-4(b)). O mesmo ocorre com o categorizador VG-RAM WNN-COR com a base de
dados EX100 (Figura 6-4(a)). O valor de micro recall c com a estratgia de poda PCut*
maior do que com a estratgia de poda PCut (tradicional) com o categorizador ML- k NN com
a base EX100 (Figura 6-4(b)). O mesmo ocorre com o categorizador VG-RAM WNN-COR
com a base de dados EX100 (Figura 6-4(b)).
A anlise do desempenho dos resultados obtidos com os categorizadores ML- k NN e
VG-RAM WNN-COR para a mtrica micro recall c mostram que a estratgia de poda SCut

melhora o desempenho desses categorizadores para ambas bases, como visto na, Figura 6-5
(a)(b). Desta forma, a estratgia de poda SCut mais efetiva para otimizar o desempenho do
sistema em termos da mtrica micro recall c do que as estratgias RCut, RTCut, PCut,
PCut*, SCut*, BCut e PBCut.

RESULTADOS EXPERIMENTAIS
110

6.2.4

F Orientada Categoria

A mtrica F orientada categoria ( F i ) avalia a mdia harmnica ponderada de


precisionic e recallic . A formulao original de Rijsbergen [Rijsbergen79] mostrada na

Equao (6.10).

F i =
c

( 2 + 1) * precisionic * recall ic
2 * precisionic + recallic

(6.10)

Na Equao (6.10), pode ser visto como o grau relativo de importncia atribudo
para precisionic e recallic [Sebastiani02]. Se = 0 , F i coincide com precisionic ; = + ,
c

F i coincide com recallic . Neste trabalho um valor de = 1 utilizado, atribuindo


c

importncia igual para precisionic e recallic . O desempenho global de F1 pode ser


computado tanto por macro F1 (Equao (6.11)) quanto micro F1
c

(Equao (6.12)).

Quanto maior o valor de macro F1 e micro F1 , melhor o desempenho do categorizador.


c

O desempenho perfeito quando macro F1 = 1 e micro F1 = 1 .


c

1 C c
macro F1 =
F1
| C | i =1 i

(6.11)

2 * micro precisionic * micro recallic


micro F1 =
micro precisionic + micro recallic

(6.12)

A Figura 6-6 mostra de forma grfica o impacto do uso de estratgias de poda no


ranking de categorias avaliadas pela mtrica macro F1 segundo os categorizadores MLc

k NN e VG-RAM WNN-COR para a base AT100 (Figura 6-6(a)) e EX100 (Figura 6-6(b))

respectivamente. Esta figura segue o mesmo formato da Figura 6-1.

RESULTADOS EXPERIMENTAIS
111

(a)

(b)
Figura 6-6 - Resultado da mtrica

macro F1 para as bases (a) AT100 e (b) EX100. Quanto maior,


c

melhor.

Conforme as barras do grfico da Figura 6-6 mostram, o valor de macro F1 do


c

categorizador ML- k NN com a base AT100 impactado pelo uso de estratgias de poda no
ranking de categorias. O valor de macro F1 do categorizador ML- k NN com a base AT100
c

ao usar a estratgia de poda PCut levemente maior do que os resultados obtidos ao usar as

RESULTADOS EXPERIMENTAIS
112
estratgias RCut, RTCut, PCut*, SCut, SCut*, BCut e PBCut. O categorizador VG-RAM
WNN-COR com a base de dados AT100 (Figura 6-6(a)) apresenta o valor de macro F1

equilibrado ao usar as estratgias de poda de ranking RCut, RTCut, SCut, SCut*, PCut,
PCut*, BCut e PBCut. O valor de macro F1 com a estratgia de poda SCut* maior do que
c

com a estratgia de poda SCut (tradicional) com o categorizador ML- k NN com a base AT100
(Figura 6-6(a)). O valor de macro F1 com a estratgia de poda SCut* menor do que com a
c

estratgia de poda SCut (tradicional) com o categorizador VG-RAM WNN-COR com a base de
dados AT100 (Figura 6-6(a)). O valor de macro F1 com a estratgia de poda PCut* menor
c

do que com a estratgia de poda PCut (tradicional). O mesmo ocorre com o categorizador VGRAM WNN-COR com a base de dados AT100 (Figura 6-6(a)).

Com o apresentado na Figura 6-6, as barras do grfico mostram o valor de


macro F1

do categorizador ML- k NN com a base EX100 impactado pelo uso de

estratgias de poda no ranking de categorias. O categorizador ML- k NN com a base de dados


EX100 (Figura 6-6(b)) apresenta o valor de macro F1 levemente equilibrado ao usar as
c

estratgias de poda de ranking RCut, RTCut, SCut, SCut*, PCut e PCut*. O mesmo ocorre
com o categorizador VG-RAM WNN-COR com a base de dados EX100 (Figura 6-6(b)) para as
estratgias de poda SCut, SCut*, PCut e PCut*, apesar da estratgia SCut ser parcialmente
melhor que as demais estratgias. O valor de macro F1 com a estratgia de poda SCut*
c

menor do que com a estratgia de poda SCut (tradicional) com o categorizador ML- k NN com
a base EX100 (Figura 6-6(b)). O mesmo ocorre com o categorizador VG-RAM WNN-COR
com a base de dados EX100 (Figura 6-6(b)). O valor de macro F1 com a estratgia de poda
c

PCut* parcialmente maior do que com a estratgia de poda PCut (tradicional). O mesmo
ocorre com o categorizador VG-RAM WNN-COR com a base de dados EX100 (Figura 6-6(b)).
A anlise do desempenho dos resultados obtidos com os categorizadores ML- k NN e
VG-RAM WNN-COR para a mtrica macro F1 mostra que no existe uma estratgia de
c

poda que apresente um desempenho mais efetiva para estes categorizadores e para as bases de
dados AT100 e EX100 de forma geral, como visto na, Figura 6-6(a)(b). Apesar disso, a
estratgia de poda SCut mostrasse mais regular ao ser avaliada sob a mtrica macro F1 do
c

que as estratgias RCut, RTCut, PCut, PCut*, SCut*, BCut e PBCut.


A Figura 6-7 mostra de forma grfica o impacto do uso de estratgias de poda no
ranking de categorias avaliadas pela mtrica micro F1 segundo os categorizadores MLc

RESULTADOS EXPERIMENTAIS
113
k NN e VG-RAM WNN-COR para a base AT100 (Figura 6-7(a)) e EX100 (Figura 6-7(b))

respectivamente. Esta figura segue o mesmo formato da Figura 6-1.

(a)

(b)
Figura 6-7 - Resultado da mtrica

micro F1 para as bases (a) AT100 e (b) EX100. Quanto maior,


c

melhor.

Conforme as barras do grfico da Figura 6-7 mostram, o valor de micro F1 do


c

categorizador ML- k NN com a base AT100 impactado pelo uso de estratgias de poda no

RESULTADOS EXPERIMENTAIS
114
ranking de categorias. O valor de micro F1 ao usar as estratgias de poda de ranking BCut
c

e PBCut so maiores do que os resultados obtidos ao usar as estratgias RCut, RTCut, PCut,
PCut*, SCut e SCut*. O mesmo ocorre com o categorizador VG-RAM WNN-COR com a base
de dados AT100 (Figura 6-7(a)). O valor de micro F1 com a estratgia de poda SCut*
c

maior do que com a estratgia de poda SCut (tradicional) com o categorizador ML- k NN com
a base AT100 (Figura 6-7(a)). O mesmo ocorre com o categorizador VG-RAM WNN-COR
com a base de dados AT100 (Figura 6-7(a)). O valor de micro F1 com a estratgia de poda
c

PCut* menor do que com a estratgia de poda PCut (tradicional) com o categorizador MLk NN com a base AT100 (Figura 6-7(a)). O mesmo ocorre com o categorizador VG-RAM
WNN-COR com a base de dados AT100 (Figura 6-7(a)).

Com o apresentado na Figura 6-7, as barras do grfico mostram o valor de micro F1

do categorizador ML- k NN com a base EX100 impactado pelo uso de estratgias de poda no
ranking de categorias. O categorizador ML- k NN com a base de dados EX100 (Figura 6-7(b))

apresenta o valor de micro F1 equilibrado ao usar as estratgias de poda de ranking RCut,


c

RTCut, SCut, SCut*, PCut e PCut*. O mesmo ocorre com o categorizador VG-RAM WNNCOR com a base de dados EX100 (Figura 6-7(b)). O valor de micro F1 com a estratgia de
c

poda SCut* parcialmente maior do que com a estratgia de poda SCut (tradicional) com o
categorizador ML- k NN com a base EX100 (Figura 6-7(b)). O valor de micro F1 com a
c

estratgia de poda SCut* menor que com a estratgia de poda SCut (tradicional) com o
categorizador VG-RAM WNN-COR com a base de dados EX100 (Figura 6-7 (b)). O valor de
micro F1 com a estratgia de poda PCut* maior do que com a estratgia de poda PCut
c

(tradicional) com o categorizador ML- k NN com a base EX100 (Figura 6-7(b)). O mesmo
ocorre com o categorizador VG-RAM WNN-COR com a base de dados EX100 (Figura 6-7(b)).
A anlise do desempenho dos resultados obtidos com os categorizadores ML- k NN e
VG-RAM WNN-COR para a mtrica micro F1 mostram que as estratgias de poda BCut e
c

PBCut melhoram o desempenho desses categorizadores para a base de dados AT100, como
visto na Figura 6-7(a). Desta forma, as estratgias de poda BCut e PBCut so mais efetivas
para otimizar o desempenho do sistema em termos da mtrica micro F1

do que as

estratgias RCut, RTCut, PCut, PCut*, SCut e SCut* para a base AT100. A anlise de
desempenho dos resultados obtidos para estes categorizados e para a base EX100 apresenta
equilbrio ao empregar as estratgias de poda.

RESULTADOS EXPERIMENTAIS
115

6.2.5

Preciso (precision) Orientada a Documento


A mtrica preciso (precision) orientada a documento ( precision dj ) avalia a frao

de categorias preditas que so pertinentes ao documento de teste d j . A formulao mostrada


na Equao (6.13).

precision dj =

|C |
C j j C j

(6.13)

| C j j |
|C |

O valor de precision dj tambm pode ser computado usando a tabela de contingncia


do documento d j (Tabela 6-7), conforme Equao (6.14).

precision dj =

TPj
TPj + FPj

(6.14)

onde FPj (falsos positivos para d j ) o nmero de categorias que foram incorretamente
preditas para d j , TN j (verdadeiros negativos para d j ) o nmero de categorias que foram
corretamente no preditas para d j ; TPj (verdadeiros positivos para d j ) o nmero de
categorias que foram corretamente preditas para d j ; e FN j (falsos negativos para d j ) o
nmero de categorias que foram incorretamente no preditas para d j .

Tabela 6-7 Tabela de contingncia do documento

Julgamentos do
especialista

Documento d j
Julgamentos do
categorizador

dj .

SIM

NO

SIM

TPj

FPj

NO

FN j

TN j

O desempenho global de precision orientada a documento calculado pelos mtodos


macro precision d

micro precision d ,

Equao

(6.15)

Equao

(6.16),

respectivamente. Quanto maior o valor de macro precision d e micro precision d , melhor

RESULTADOS EXPERIMENTAIS
116
o desempenho do categorizador. O desempenho perfeito quando macro precision d = 1 e
micro precision d = 1 .

macro precision

Te
j =1

precision dj

(6.15)

Te

TP
=
(TP + FP )
Te

micro precision

j =1

Te

j =1

(6.16)

A Figura 6-8 mostra de forma grfica o impacto do uso de estratgias de poda no


ranking de categorias avaliadas pela mtrica macro precision d segundo os categorizadores
ML- k NN e VG-RAM WNN-COR para a base AT100 (Figura 6-8(a)) e EX100 (Figura 6-8(b))

respectivamente. Esta figura segue o mesmo formato da Figura 6-1.

RESULTADOS EXPERIMENTAIS
117

(a)

(b)
Figura 6-8 - Resultado da mtrica

macro precision d para as bases (a) AT100 e (b) EX100. Quanto


maior, melhor.

Conforme as barras do grfico da Figura 6-8 mostram, o valor de macro precision d


do categorizador ML- k NN com a base AT100 impactado pelo uso de estratgias de poda no
ranking de categorias. O valor de macro precision d ao usar as estratgias de poda de
ranking BCut e PBCut so significativamente maiores do que os resultados obtidos ao usar as

RESULTADOS EXPERIMENTAIS
118
estratgias RCut, RTCut, PCut, PCut*, SCut e SCut*. O mesmo ocorre com o categorizador
VG-RAM

WNN

com

base

de

dados

AT100

(Figura

6-8(a)).

valor

de

macro precision d com a estratgia de poda SCut* maior do que com a estratgia de poda
SCut (tradicional) com o categorizador ML- k NN com a base AT100 (Figura 6-8(a)). O
mesmo ocorre com o categorizador VG-RAM WNN-COR com a base de dados AT100 (Figura
6-8(a)). O valor de macro precision d com a estratgia de poda PCut* menor do que com a
estratgia de poda PCut (tradicional). O mesmo ocorre com o categorizador VG-RAM WNNCOR com a base de dados AT100 (Figura 6-8(a)).

Como apresentado na Figura 6-8, as barras do grfico mostram o valor de


macro precision d do categorizador ML- k NN com a base EX100 impactado pelo uso de

estratgias de poda no ranking de categorias. O valor de macro precision d ao usar a


estratgia de poda de ranking BCut e PBCut so significativamente maiores do que os
resultados obtidos ao usar as estratgias RCut, RTCut, PCut, PCut*, SCut e SCut*. O mesmo
ocorre com o categorizador VG-RAM WNN-COR com a base de dados EX100 (Figura 6-8(b)).
O valor de macro precision d com a estratgia de poda SCut* maior do que com a
estratgia de poda SCut (tradicional) com o categorizador ML- k NN com a base EX100
(Figura 6-8(b)). O mesmo ocorre com o categorizador VG-RAM WNN-COR com a base de
dados EX100 (Figura 6-8(b)). O valor de macro precision d com a estratgia de poda PCut*
maior do que com a estratgia de poda PCut (tradicional). O mesmo ocorre com o
categorizador VG-RAM WNN-COR com a base de dados EX100 (Figura 6-8(b)).
A anlise do desempenho dos resultados obtidos com os categorizadores ML- k NN e
VG-RAM WNN-COR para a mtrica macro precision d mostram que as estratgias de poda

BCut e PBCut melhoram o desempenho desses categorizadores para ambas bases, como visto
na Figura 6-8(a)(b). Isso acontece porque a estratgia BCut poda o ranking com base na
probabilidade da categorizao estar correta e a estratgia PBCut poda o ranking com base na
probabilidade da categorizao estar correta em cada posio do ranking, observando o
decremento da medida de certeza a medida que a posio da categoria no ranking aumenta.
Desta forma, as estratgias de poda BCut e PBCut so mais efetivas para otimizar o
desempenho do sistema em termos da mtrica macro precision d do que as estratgias
RCut, RTCut, PCut, PCut*, SCut e SCut*.
A Figura 6-9 mostra de forma grfica o impacto do uso de estratgias de poda no
ranking de categorias avaliadas pela mtrica micro precision d segundo os categorizadores

RESULTADOS EXPERIMENTAIS
119
ML- k NN e VG-RAM WNN-COR para a base AT100 (Figura 6-9(a)) e EX100 (Figura 6-9(b))
respectivamente. Esta figura segue o mesmo formato da Figura 6-1.

(a)

(b)
Figura 6-9- Resultado da mtrica micro precision para as bases (a) AT100 e (b) EX100. Quanto
maior, melhor.
d

RESULTADOS EXPERIMENTAIS
120
Conforme as barras do grfico da Figura 6-9 mostram, o valor de micro precision d
do categorizador ML- k NN com a base AT100 impactado pelo uso de estratgias de poda no
ranking de categorias. O valor de micro precision d ao usar as estratgias de poda de
ranking BCut e PBCut so significativamente maiores do que os resultados obtidos ao usar as

estratgias RCut, RTCut, PCut, PCut*, SCut e SCut*. O mesmo ocorre com o categorizador
VG-RAM WNN-COR com a base de dados AT100 (Figura 6-9(a)). O valor de
macro precision d com a estratgia de poda SCut* maior do que com a estratgia de poda

SCut (tradicional) com o categorizador ML- k NN com a base AT100 (Figura 6-9(a)). O
mesmo ocorre com o categorizador VG-RAM WNN-COR com a base de dados AT100 (Figura
6-9(a)). O valor de macro precision d com a estratgia de poda PCut* menor do que com a
estratgia de poda PCut (tradicional). O mesmo ocorre com o categorizador VG-RAM WNNCOR com a base de dados AT100 (Figura 6-9(a)).

Como apresentado na Figura 6-9, as barras do grfico mostram o valor de


micro precision d do categorizador ML- k NN com a base EX100 impactado pelo uso de

estratgias de poda no ranking de categorias. O valor de micro precision d ao usar as


estratgias de poda de ranking BCut e PBCut so significativamente maiores do que os
resultados obtidos ao usar as estratgias RCut, RTCut, PCut, PCut*, SCut e SCut*. O mesmo
ocorre com o categorizador VG-RAM WNN-COR com a base de dados EX100 (Figura 6-9(b)).
O valor de micro precision d com a estratgia de poda SCut* maior do que com a
estratgia de poda SCut (tradicional) com o categorizador ML- k NN com a base EX100
(Figura 6-9 (b)). O mesmo ocorre com o categorizador VG-RAM WNN-COR com a base de
dados EX100 (Figura 6-9(b)). O valor de micro precision d com a estratgia de poda PCut*
menor do que com a estratgia de poda PCut (tradicional). O mesmo ocorre com o
categorizador VG-RAM WNN-COR com a base de dados EX100 (Figura 6-9(b)).
A anlise do desempenho dos resultados obtidos com os categorizadores ML- k NN e
VG-RAM WNN-COR para a mtrica micro precision d mostram que as estratgias de poda

BCut e PBCut melhoram o desempenho desses categorizadores para ambas bases, como visto
na Figura 6-9(a)(b). Isso acontece porque a estratgia BCut poda o ranking com base na
probabilidade da categorizao estar correta e a estratgia PBCut poda o ranking com base na
probabilidade da categorizao estar correta em cada posio do ranking, observando o
decremento da medida de certeza a medida que a posio da categoria no ranking aumenta.
Desta forma, as estratgias de poda BCut e PBCut so

mais efetivas para otimizar o

RESULTADOS EXPERIMENTAIS
121
desempenho do sistema em termos da mtrica micro precision d do que as estratgias RCut,
RTCut, PCut, PCut*, SCut e SCut*.

6.2.6

Revocao (recall) Orientada a Documento


A mtrica revocao (recall) orientada a documento ( recall dj ) avalia a frao de

categorias pertinentes que so preditas para o documento de teste d j . A formulao


apresentada na Equao (6.17).
|C |
C j j C j

recall =
d
j

(6.17)

| Cj |

O valor de recall dj pode tambm ser obtido em termos da tabela de contingncia do


documento d j (Tabela 6-7) conforme a Equao (6.18).

recall dj =

TPj

(6.18)

TPj + FN j

O desempenho global de recall orientado a documento calculado pelos mtodos


macro recall d e micro recall d , Equao (6.19) e Equao (6.20), respectivamente.

Quanto maior o valor de macro recall d e micro recall d , melhor o desempenho do


categorizador. O desempenho perfeito quando macro recall d = 1 e micro recall d = 1 .

macro recall

Te
j =1

recall dj

(6.19)

Te

TP
=
(TP + FN )
Te

micro recall

j =1

Te

j =1

(6.20)

RESULTADOS EXPERIMENTAIS
122
A Figura 6-10 mostra de forma grfica o impacto do uso de estratgias de poda no
ranking de categorias avaliadas pela mtrica macro recall d segundo os categorizadores
ML- k NN e VG-RAM WNN-COR para a base AT100 (Figura 6-10(a)) e EX100 (Figura

6-10(b)) respectivamente. Esta figura segue o mesmo formato da Figura 6-1.

(a)

(b)
Figura 6-10 - Resultado da mtrica macro recall para as bases (a) AT100 e (b) EX100. Quanto
maior, melhor.
d

RESULTADOS EXPERIMENTAIS
123
Conforme as barras do grfico da Figura 6-10 mostram, o valor de macro recall d do
categorizador ML- k NN com a base AT100 impactado pelo uso de estratgias de poda no
ranking de categorias. O valor de macro recall d ao usar as estratgias de poda de ranking

SCut significativamente maior do que os resultados obtidos ao usar as estratgias RCut,


RTCut, PCut, PCut*, SCut*, BCut e PBCut. O mesmo ocorre com o categorizador VG-RAM
WNN-COR com esta base, e com a base de dados AT100 (Figura 6-10). O valor de
macro recall d com a estratgia de poda SCut* menor do que com a estratgia de poda

SCut (tradicional) com o categorizador ML- k NN com a base AT100 (Figura 6-10 (a)). O
mesmo ocorre com o categorizador VG-RAM WNN-COR com a base de dados AT100 (Figura
6-10 (a)). O valor de macro recall d com a estratgia de poda PCut* maior do que com a
estratgia de poda PCut (tradicional). O mesmo ocorre com o categorizador VG-RAM WNNCOR com a base de dados AT100 (Figura 6-10(a)).

Como apresentado na Figura 6-10, as barras do grfico mostram o valor de


macro recall d do categorizador ML- k NN com a base EX100 impactado pelo uso de

estratgias de poda no ranking de categorias. O valor de macro recall d ao usar as


estratgias de poda de ranking SCut so significativamente maiores do que os resultados
obtidos ao usar as estratgias RCut, RTCut, PCut, PCut*, SCut*, BCut e PBCut. O valor de
macro recall d com a estratgia de poda SCut* menor que com a estratgia de poda SCut

(tradicional) com o categorizador ML- k NN com a base EX100 (Figura 6-10(b)). O mesmo
ocorre com o categorizador VG-RAM WNN-COR com a base de dados EX100 (Figura
6-10(b)). O valor de macro recall d com a estratgia de poda PCut* maior que com a
estratgia de poda PCut (tradicional) com o categorizador ML- k NN com a base EX100
(Figura 6-10(b)). O mesmo ocorre com o categorizador VG-RAM WNN-COR com a base de
dados EX100 (Figura 6-10(b)).
A anlise do desempenho dos resultados obtidos com os categorizadores ML- k NN e
VG-RAM WNN-COR para a mtrica macro recall d mostram que a estratgia de poda SCut

melhor o desempenho desses categorizadores para ambas bases, como visto na Figura
6-10(a)(b). Isso acontece porque SCut otimiza o desempenho do categorizador por categoria,
tornando-a particularmente efetiva quando o desempenho do sistema em categorias raras a
funo alvo a ser otimizada. Desta forma, a estratgia de poda SCut mais efetiva para
otimizar o desempenho do sistema em termos da mtrica macro recall d do que as
estratgias RCut, RTCut, PCut, PCut*, SCut*, BCut e PBCut.

RESULTADOS EXPERIMENTAIS
124
A Figura 6-11 mostra de forma grfica o impacto do uso de estratgias de poda no
d
ranking de categorias avaliadas pela mtrica micro recall segundo os categorizadores ML-

k NN e VG-RAM WNN-COR para a base AT100 (Figura 6-11(a)) e EX100 (Figura 6-11(b))

respectivamente. Esta figura segue o mesmo formato da Figura 6-1.

(a)

(b)
Figura 6-11 - Resultado da mtrica micro recall para as bases (a) AT100 e (b) EX100. Quanto
maior, melhor.
d

RESULTADOS EXPERIMENTAIS
125
Conforme as barras do grfico da Figura 6-11 mostram, o valor de micro recall d do
categorizador ML- k NN com a base AT100 impactado pelo uso de estratgias de poda no
ranking de categorias. O valor de micro recall d ao usar a estratgia de poda de ranking

SCut significativamente maior do que os resultados obtidos ao usar as estratgias RCut,


RTCut, PCut*, PCut, SCut*, BCut e PBCut. O mesmo ocorre com o categorizador VG-RAM
WNN-COR com esta base, e com a base de dados AT100 (Figura 6-11(a)). O valor de
micro recall d com a estratgia de poda SCut* segnificamente menor que com a estratgia

de poda SCut (tradicional) com o categorizador ML- k NN com a base AT100 (Figura
6-11(a)). O mesmo ocorre com o categorizador VG-RAM WNN-COR com a base de dados
AT100 (Figura 6-11(a)). O valor de micro recall d com a estratgia de poda PCut* maior
do que com a estratgia de poda PCut (tradicional) com o categorizador ML- k NN com a base
AT100 (Figura 6-11(a)). O mesmo ocorre com o categorizador VG-RAM WNN-COR com a
base de dados AT100 (Figura 6-11(a)).
Como apresentado na Figura 6-11, as barras do grfico mostram o valor de
micro recall d do categorizador ML- k NN com a base EX100 (Figura 6-11(b)) impactado

pelo uso de estratgias de poda no ranking de categorias. O valor de micro recall d ao usar a
estratgia de poda de ranking SCut significativamente maior do que os resultados obtidos ao
usar as estratgias RCut, RTCut, PCut, PCut*, SCut*, BCut e PBCut. O valor de
micro recall d com a estratgia de poda SCut* menor que com a estratgia de poda SCut

(tradicional) com o categorizador ML- k NN com a base EX100 (Figura 6-11(b)). O mesmo
ocorre com o categorizador VG-RAM WNN-COR com a base de dados EX100 (Figura
6-11(b)). O valor de micro recall d com a estratgia de poda PCut* maior do que com a
estratgia de poda PCut (tradicional). O mesmo ocorre com o categorizador VG-RAM WNNCOR com a base de dados EX100 (Figura 6-11(b)).

A anlise do desempenho dos resultados obtidos com os categorizadores ML- k NN e


VG-RAM WNN-COR para a mtrica micro recall d mostram que a estratgia de poda SCut

melhor o desempenho desses categorizadores para ambas bases, como visto na Figura 6-11
(a)(b). Desta forma, a estratgia de poda SCut mais efetiva para otimizar o desempenho do
sistema em termos da mtrica micro recall d do que as estratgias RCut, RTCut, PCut,
PCut*, SCut*, BCut e PBCut.

RESULTADOS EXPERIMENTAIS
126

6.2.7

F Orientada a Documento

A mtrica F orientada a documento ( F j ) avalia a mdia harmnica ponderada de

precision dj e recall dj . A formulao original de Rijsbergen [Rijsbergen79] mostrada na


Equao (6.21).

F j =
d

( 2 + 1) * precision dj * recall dj

(6.21)

2 * precision dj + recall dj

Como na mtrica F orientada categoria, = 1 utilizado, atribuindo importncia


d

igual para precision dj e recall dj . O desempenho global de F1 computado pelos mtodos

macro F1 (Equao (6.22)) e micro F1


d

(Equao (6.23)). Quanto maior o valor de

macro F1 e micro F1 , melhor o desempenho do categorizador. O desempenho perfeito


d

quando macro F1 = 1 e micro F1 = 1 .


d

1 |Te| d
macro F1 =
F1
| Te | j =1 j
d

micro F1 =
d

(6.22)

2 * micro precision dj * micro recall dj

micro precision dj + micro recall dj

(6.23)

A Figura 6-12 mostra de forma grfica o impacto do uso de estratgias de poda no

ranking de categorias avaliadas pela mtrica macro F1 segundo os categorizadores MLd

k NN e VG-RAM WNN-COR para a base AT100 (Figura 6-12(a)) e EX100 (Figura 6-12(b))

respectivamente. Esta figura segue o mesmo formato da Figura 6-1.

RESULTADOS EXPERIMENTAIS
127

(a)

(b)
Figura 6-12 - Resultado da mtrica

macro F1 para as bases (a) AT100 e (b) EX100. Quanto maior,


d

melhor.

Conforme as barras do grfico da Figura 6-12 mostram, o valor de macro F1 do


d

categorizador ML- k NN com a base AT100 impactado pelo uso de estratgias de poda no
ranking de categorias. O valor de macro F1 ao usar a estratgia de poda de ranking BCut e
d

PBCut so significativamente maiores do que os resultados obtidos ao usar as estratgias

RESULTADOS EXPERIMENTAIS
128
RCut, RTCut, PCut, PCut* SCut e SCut*. O mesmo ocorre com o categorizador VG-RAM
WNN-COR com a base de dados AT100 (Figura 6-12(a)). O valor de macro F1 com a
d

estratgia de poda SCut* significamente maior do que com a estratgia de poda SCut
(tradicional) com o categorizador ML- k NN com a base AT100 (Figura 6-12 (a)). O mesmo
ocorre com o categorizador VG-RAM WNN-COR com a base de dados AT100 (Figura
6-12(a)). O valor de macro F1 com a estratgia de poda PCut* menor do que com a
d

estratgia de poda PCut (tradicional) com o categorizador ML- k NN com a base AT100
(Figura 6-12 (a)). O mesmo ocorre com o categorizador VG-RAM WNN-COR com a base de
dados AT100 (Figura 6-12 (a)).
Como apresentado na Figura 6-12, as barras do grfico mostram o valor de
macro F1

do categorizador ML- k NN com a base EX100 impactado pelo uso de

estratgias de poda no ranking de categorias. O valor de macro F1 ao usar a estratgia de


d

poda PCut parcialmente maior do que os resultados obtidos ao usar as estratgias RCut,
RTCut, PCut*, SCut, SCut*, BCut e PBCut. J com o categorizador VG-RAM WNN-COR
com a base de dados EX100 (Figura 6-12(b)) o valor de macro F1 ao usar a estratgia de
d

poda SCut significamente maior do que os resultados obtidos ao usar as estratgias RCut,
RTCut, PCut, PCut*, SCut, BCut e PBCut. O valor de macro F1 com a estratgia de poda
d

SCut* menor do que com a estratgia de poda SCut (tradicional) com o categorizador MLk NN com a base EX100 (Figura 6-12(b)). O mesmo ocorre com o categorizador VG-RAM
WNN-COR com a base de dados EX100 (Figura 6-12(b)). O valor de macro F1

com a

estratgia de poda PCut* maior do que com a estratgia de poda PCut (tradicional) com o
categorizador ML- k NN com a base EX100 (Figura 6-12(b)). O mesmo ocorre com o
categorizador VG-RAM WNN-COR com a base de dados EX100 (Figura 6-12(b)).
A anlise do desempenho dos resultados obtidos com os categorizadores ML- k NN e
VG-RAM WNN-COR para a mtrica macro F1 mostram que as estratgias de poda BCut e
d

PBCut melhoram o desempenho desses categorizadores para a base de dados AT100, como
visto na Figura 6-12(a). O desempenho obtido com os categorizadores ML- k NN e VG-RAM
WNN-COR para a mtrica macro F1 e para a base EX100 mostra um equilbrio nos valores
d

das estratgias. Apesar disso, as estratgias de poda BCut e PBCut so mais efetivas para
otimizar o desempenho do sistema em termos da mtrica macro F1 do que as estratgias
d

RCut, RTCut, PCut, PCut*, SCut e SCut* para a base AT100.

RESULTADOS EXPERIMENTAIS
129
A Figura 6-13 mostra de forma grfica o impacto do uso de estratgias de poda no
ranking de categorias avaliadas pela mtrica micro F1 segundo os categorizadores MLd

k NN e VG-RAM WNN-COR para a base AT100 (Figura 6-13(a)) e EX100 (Figura 6-13(b))

respectivamente. Esta figura segue o mesmo formato da Figura 6-1.

(a)

(b)
Figura 6-13 - Resultado da mtrica micro F1 para as bases (a) AT100 e (b) EX100. Quanto maior,
melhor.
d

RESULTADOS EXPERIMENTAIS
130
Conforme as barras do grfico da Figura 6-13 mostram, o valor de micro F1 do
d

categorizador ML- k NN com a base AT100 impactado pelo uso de estratgias de poda no
ranking de categorias. O valor de micro F1 ao usar a estratgia de poda de ranking BCut e
d

PBCut so maiores do que os resultados obtidos ao usar as estratgias RCut, RTCut, PCut,
PCut*, SCut e SCut*. O mesmo ocorre com o categorizador VG-RAM WNN-COR com a base
de dados AT100 (Figura 6-13(a)). O valor de micro F1 com a estratgia de poda SCut*
d

segnificamente maior do que com a estratgia de poda SCut (tradicional) com o categorizador
ML- k NN com a base AT100 (Figura 6-13(a)). O mesmo ocorre com o categorizador VGRAM WNN-COR com a base de dados AT100 (Figura 6-13(a)). O valor de micro F1 com a
d

estratgia de poda PCut* menor do que com a estratgia de poda PCut (tradicional) com o
categorizador ML- k NN com a base AT100 (Figura 6-13(a)). O mesmo ocorre com o
categorizador VG-RAM WNN-COR com a base de dados AT100 (Figura 6-13(a)).
Como apresentado na Figura 6-13, as barras do grfico mostram o valor de
micro F1

do categorizador ML- k NN com a base EX100 impactado pelo uso de

estratgias de poda no ranking de categorias. O valor de micro F1 ao usar a estratgia de


d

poda de ranking mostram um equilbrio nos resultados das estratgias RCut, RTCut, PCut,
PCut*, SCut, SCut*, BCut e PBCut. O mesmo ocorre com o categorizador VG-RAM WNNCOR com a base de dados EX100 (Figura 6-13(b)). O valor de micro F1 com a estratgia
d

de poda SCut* parcialmente maior do que com a estratgia de poda SCut (tradicional) com
o categorizador ML- k NN com a base EX100 (Figura 6-13 (b)). O valor de micro F1 com a
d

estratgia de poda SCut* menor do que com a estratgia de poda SCut (tradicional) com o
categorizador VG-RAM WNN-COR com a base de dados EX100 (Figura 6-13(b)). O valor de
micro F1 com a estratgia de poda PCut* maior do que com a estratgia de poda PCut
d

(tradicional) com o categorizador ML- k NN com a base EX100 (Figura 6-13 (b)). O mesmo
ocorre com o categorizador VG-RAM WNN-COR com a base de dados EX100 (Figura
6-13(b)).
A anlise do desempenho dos resultados obtidos com os categorizadores ML- k NN e
VG-RAM WNN-COR para a mtrica micro F1 mostram que as estratgias de poda BCut e
d

PBCut melhoram o desempenho desses categorizadores para a base de dados AT100, como
visto na Figura 6-13(a). O desempenho obtido com os categorizadores ML- k NN e VG-RAM
WNN-COR para a mtrica micro F1 e para a base EX100 mostra um equilbrio nos valores
d

RESULTADOS EXPERIMENTAIS
131
das estratgias. Apesar disso, as estratgias de poda BCut e PBCut so mais efetivas para
otimizar o desempenho do sistema em termos da mtrica micro F1

para base de dados

AT100 do que as estratgias RCut, RTCut, PCut, PCut*, SCut e SCut*.


Note que o desempenho dos categorizadores pelo mtodo microaveraging d resultado
igual, independente de ser definida orientada categoria ou a documento. A expanso das
formulaes de micro precision c e micro precision d mostrada na Equao (6.24) e
Equao (6.25), respectivamente.

micro precision

TP
=
=
(TP + FP ) ( TP +

i =1

TPi

i =1

Te

j =1

Te

i =1

j =1

ij

ij
Te

FPij
j =1

TP =
TP
=
(TP + FP ) ( TP +
Te

micro precision d

i =1

j =1

Te

j =1

Te

j =1

i =1

Te

j =1

i =1

ij

(6.24)

(6.25)

ij
C

FPij
i =1

Observa-se pela Equao (6.24) e Equao (6.25), micro precision c igual a


micro precision d .

Analogamente,

micro recall c

micro F1

so

iguais

micro recall d e micro F1 , respectivamente.


d

6.2.8

Test-T Estatstico
Para apresentar uma viso mais clara do desempenho relativo das estratgias de poda

de ranking propostas neste trabalho com as estratgias encontradas na literatura, uma ordem
parcial definida para compararmos as estratgias de poda BCut e PBCut (propostas) com
as estratgias RCut, RTCut, SCut e PCut (encontradas na literatura) e tambm com as
variantes PCut* e SCut para cada mtrica de avaliao de desempenho, onde E1 E2
significa que o desempenho da estratgia de poda E1 significativamente melhor do que a
estratgia E2 para a mtrica especficada (teste t pareado ao nvel de 5% de significncia). Se
o desempenho no significativamente diferente, a ordem parcial E1 E2 utilizada.
A
Tabela 6-8 mostra um sumrio dos resultados obtidos da Seo 6.2.1 Seo 6.2.7
para o categorizador ML- k NN e para a base de dados AT100 utilizando a representao de

RESULTADOS EXPERIMENTAIS
132
ordem parcial. Este sumrio apresenta, a comparao (test-t pareado) entre a estratgia BCut e
as demais estratgias de poda apresentadas neste trabalho.

RESULTADOS EXPERIMENTAIS
133

Tabela 6-8 - Resultado do Test-t para o categorizador ML- k NN e para a base AT100. Comparao com BCut.
Mtricas

BCut x Ideal

BCut x RCut

BCut x RTCut

BCut x SCut

BCut x SCut*

BCut x PCut

BCut x PCut*

BCut x PBCut

exact match

BCut Ideal

BCut RCut

BCut RTCut

BCut SCut

BCut SCut*

BCut PCut

BCut PCut*

BCut PBCut

macro-precision-c

BCut Ideal

BCut RCut

BCut RTCut

BCut SCut

BCut SCut*

BCut PCut

BCut PCut*

BCut PBCut

micro-precision-c

BCut Ideal

BCut RCut

BCut RTCut

BCut SCut

BCut SCut*

BCut PCut

BCut PCut*

BCut PBCut

macro-recall-c

BCut Ideal

BCut RCut

BCut RTCut

BCut SCut

BCut SCut*

BCut PCut

BCut PCut*

BCut PBCut

micro-recall-c

BCut Ideal

BCut RCut

BCut RTCut

BCut SCut

BCut SCut*

BCut PCut

BCut PCut*

BCut PBCut

macro-f1-c

BCut Ideal

BCut RCut

BCut RTCut

BCut SCut

BCut SCut*

BCut PCut

BCut PCut*

BCut PBCut

micro-f1-c

BCut Ideal

BCut RCut

BCut RTCut

BCut SCut

BCut SCut*

BCut PCut

BCut PCut*

BCut PBCut

macro-precision-d

BCut Ideal

BCut RCut

BCut RTCut

BCut SCut

BCut SCut*

BCut PCut

BCut PCut*

BCut PBCut

micro-precision-d

BCut Ideal

BCut RCut

BCut RTCut

BCut SCut

BCut SCut*

BCut PCut

BCut PCut*

BCut PBCut

macro-recall-d

BCut Ideal

BCut RCut

BCut RTCut

BCut SCut

BCut SCut*

BCut PCut

BCut PCut*

BCut PBCut

micro-recall-d

BCut Ideal

BCut RCut

BCut RTCut

BCut SCut

BCut SCut*

BCut PCut

BCut PCut*

BCut PBCut

macro-f1-d

BCut Ideal

BCut RCut

BCut RTCut

BCut SCut

BCut SCut*

BCut PCut

BCut PCut*

BCut PBCut

micro-f1-d

BCut Ideal

BCut RCut

BCut RTCut

BCut SCut

BCut SCut*

BCut PCut

BCut PCut*

BCut PBCut

BCut(5) < Ideal(8)

BCut(8) > RCut(5)

BCut(8) > RTCut(5)

BCut(9) > SCut(4)

BCut(10) > SCut(3)

BCut(10) > PCut(3)

BCut(8) > PCut*(4)

BCut(6) < PBCut(7)

Ordem Geral

Como a Tabela 6-8 mostra, as estratgias de poda de ranking impactam a maioria das mtricas utilizadas para avaliar o desempenho do
categorizador ML- k NN para a base de dados AT100. De acordo com a Tabela 6-8, a ordem geral mostra que a estratgia de poda BCut mais
apropriada para esta base de dados, categorizador e mtricas.
A Tabela 6-9 mostra um sumrio dos resultados obtidos da Seo 6.2.1 Seo 6.2.7 para o categorizador ML- k NN e para a base de
dados AT100 utilizando a representao de ordem parcial. Este sumrio apresenta, a comparao (test-t pareado) entre a estratgia PBCut e as
demais estratgias de poda apresentadas neste trabalho.

RESULTADOS EXPERIMENTAIS
134

Tabela 6-9 - Resultado do Test-t para o categorizador ML- k NN e para a base AT100. Comparao com PBCut.
Mtricas

PBCut x RTCut

PBCut x SCut

PBCut x SCut*

PBCut RCut

PBCut RTCut

PBCut SCut

PBCut RCut

PBCut RTCut

PBCut SCut

PBCut Ideal

PBCut RCut

PBCut RTCut

PBCut x Ideal

PBCut x RCut

exact match

PBCut Ideal

macro-precision-c

PBCut Ideal

micro-precision-c

PBCut x PCut

PBCut x PCut*

PBCut x PBCut

PBCut SCut*

PBCut PCut

PBCut PCut*

PBCut BCut

PBCut SCut*

PBCut PCut

PBCut PCut*

PBCut BCut

PBCut SCut

PBCut SCut*

PBCut PCut

PBCut PCut*

PBCut BCut

macro-recall-c

PBCut Ideal

PBCut RCut

PBCut RTCut

PBCut SCut

PBCut SCut*

PBCut PCut

PBCut PCut*

PBCut BCut

micro-recall-c

PBCut Ideal

PBCut RCut

PBCut RTCut

PBCut SCut

PBCut SCut*

PBCut PCut

PBCut PCut*

PBCut BCut

macro-f1-c

PBCut Ideal

PBCut RCut

PBCut RTCut

PBCut SCut

PBCut SCut*

PBCut PCut

PBCut PCut*

PBCut BCut

micro-f1-c

PBCut Ideal

PBCut RCut

PBCut RTCut

PBCut SCut

PBCut SCut*

PBCut PCut

PBCut PCut*

PBCut BCut

macro-precision-d

PBCut Ideal

PBCut RCut

PBCut RTCut

PBCut SCut

PBCut SCut*

PBCut PCut

PBCut PCut*

PBCut BCut

micro-precision-d

PBCut Ideal

PBCut RCut

PBCut RTCut

PBCut SCut

PBCut SCut*

PBCut PCut

PBCut PCut*

PBCut BCut

macro-recall-d

PBCut Ideal

PBCut RCut

PBCut RTCut

PBCut SCut

PBCut SCut*

PBCut PCut

PBCut PCut*

PBCut BCut

micro-recall-d

PBCut Ideal

PBCut RCut

PBCut RTCut

PBCut SCut

PBCut SCut*

PBCut PCut

PBCut PCut*

PBCut BCut

macro-f1-d

PBCut Ideal

PBCut RCut

PBCut RTCut

PBCut SCut

PBCut SCut*

PBCut PCut

PBCut PCut*

PBCut BCut

micro-f1-d

PBCut Ideal

PBCut RCut

PBCut RTCut

PBCut SCut

PBCut SCut*

PBCut PCut

PBCut PCut*

PBCut BCut

PBCut(3) < Ideal(9)

PBCut(8) > RCut(5)

PBCut(8) > RTCut(5)

PBCut(9) > SCut(4)

PBCut(7) > SCut(5)

PBCut(7) > PCut(6)

PBCut(8) > PCut*(4)

PBCut(7) > BCut(6)

Ordem Geral

Como a Tabela 6-9 mostra, as estratgias de poda de ranking impactam a maioria das mtricas utilizadas para avaliar o desempenho do
categorizador ML- k NN para a base de dados AT100. De acordo com a Tabela 6-9, a ordem geral mostra que a estratgia de poda PBCut mais
apropriada para esta base de dados, categorizador e mtricas. Note que a estratgia de poda PBCut mais apropriada para estas caractersticas do
que a estratgia BCut.
A Tabela 6-10 mostra um sumrio dos resultados obtidos da Seo 6.2.1 Seo 6.2.7 para o categorizador ML- k NN e para a base de
dados EX100 utilizando a representao de ordem parcial. Este sumrio apresenta, a comparao entre a estratgia BCut e as demais estratgias
de poda apresentadas neste trabalho.

RESULTADOS EXPERIMENTAIS
135
Tabela 6-10 - Resultado do Test-t para o categorizador ML- k NN e para a base EX100. Comparao com BCut.
Mtricas

BCut x Ideal

BCut x RCut

BCut x RTCut

BCut x SCut

BCut x SCut*

BCut x PCut

BCut x PCut*

BCut x PBCut

exact match

BCut Ideal

BCut RCut

BCut RTCut

BCut SCut

BCut SCut*

BCut PCut

BCut PCut*

BCut PBCut

macro-precision-c

BCut Ideal

BCut RCut

BCut RTCut

BCut SCut

BCut SCut*

BCut PCut

BCut PCut*

BCut PBCut

micro-precision-c

BCut Ideal

BCut RCut

BCut RTCut

BCut SCut

BCut SCut*

BCut PCut

BCut PCut*

BCut PBCut

macro-recall-c

BCut Ideal

BCut RCut

BCut RTCut

BCut SCut

BCut SCut*

BCut PCut

BCut PCut*

BCut PBCut

micro-recall-c

BCut Ideal

BCut RCut

BCut RTCut

BCut SCut

BCut SCut*

BCut PCut

BCut PCut*

BCut PBCut

macro-f1-c

BCut Ideal

BCut RCut

BCut RTCut

BCut SCut

BCut SCut*

BCut PCut

BCut PCut*

BCut PBCut

micro-f1-c

BCut Ideal

BCut RCut

BCut RTCut

BCut SCut

BCut SCut*

BCut PCut

BCut PCut*

BCut PBCut

macro-precision-d

BCut Ideal

BCut RCut

BCut RTCut

BCut SCut

BCut SCut*

BCut PCut

BCut PCut*

BCut PBCut

micro-precision-d

BCut Ideal

BCut RCut

BCut RTCut

BCut SCut

BCut SCut*

BCut PCut

BCut PCut*

BCut PBCut

macro-recall-d

BCut Ideal

BCut RCut

BCut RTCut

BCut SCut

BCut SCut*

BCut PCut

BCut PCut*

BCut PBCut

micro-recall-d

BCut Ideal

BCut RCut

BCut RTCut

BCut SCut

BCut SCut*

BCut PCut

BCut PCut*

BCut PBCut

macro-f1-d

BCut Ideal

BCut RCut

BCut RTCut

BCut SCut

BCut SCut*

BCut PCut

BCut PCut*

BCut PBCut

micro-f1-d

BCut Ideal

BCut RCut

BCut RTCut

BCut SCut

BCut SCut*

BCut PCut

BCut PCut*

BCut PBCut

Ideal(10) > BCut(2)

BCut(6) < RCut(7)

BCut(6) < RTCut(7)

BCut(6) < SCut(7)

BCut(6) < SCut(7)

BCut(6) = PCut(6)

BCut(6) < PCut*(7)

BCut(3) < PBCut(10)

Ordem Geral

Como a Tabela 6-10 mostra, as estratgias de poda de ranking impactam a maioria das mtricas utilizadas para avaliar o desempenho do
categorizador ML- k NN para a base de dados EX100. De acordo com a Tabela 6-10, a ordem geral mostra que a estratgia de poda BCut no
mais apropriada para ser avaliada sob todas esssas estratgias.
A Tabela 6-11 mostra um sumrio dos resultados obtidos da Seo 6.2.1 Seo 6.2.7 para o categorizador ML- k NN e para a base de
dados EX100 utilizando a representao de ordem parcial. Este sumrio apresenta, a comparao entre a estratgia PBCut e as demais estratgias
de poda apresentadas neste trabalho.

RESULTADOS EXPERIMENTAIS
136

Tabela 6-11 - Resultado do Test-t para o categorizador ML- k NN e para a base EX100. Comparao com PBCut.
Mtricas

PBCut x Ideal

PBCut x RCut

PBCut x RTCut

PBCut x SCut

PBCut x SCut*

PBCut x PCut

PBCut x PCut*

PBCut x PBCut

exact match

PBCut Ideal

PBCut RCut

PBCut RTCut

PBCut SCut

PBCut SCut*

PBCut PCut

PBCut PCut*

PBCut BCut

macro-precision-c

PBCut Ideal

PBCut RCut

PBCut RTCut

PBCut SCut

PBCut SCut*

PBCut PCut

PBCut PCut*

PBCut BCut

micro-precision-c

PBCut Ideal

PBCut RCut

PBCut RTCut

PBCut SCut

PBCut SCut*

PBCut PCut

PBCut PCut*

PBCut BCut

macro-recall-c

PBCut Ideal

PBCut RCut

PBCut RTCut

PBCut SCut

PBCut SCut*

PBCut PCut

PBCut PCut*

PBCut BCut

micro-recall-c

PBCut Ideal

PBCut RCut

PBCut RTCut

PBCut SCut

PBCut SCut*

PBCut PCut

PBCut PCut*

PBCut BCut

macro-f1-c

PBCut Ideal

PBCut RCut

PBCut RTCut

PBCut SCut

PBCut SCut*

PBCut PCut

PBCut PCut*

PBCut BCut

micro-f1-c

PBCut Ideal

PBCut RCut

PBCut RTCut

PBCut SCut

PBCut SCut*

PBCut PCut

PBCut PCut*

PBCut BCut

macro-precision-d

PBCut Ideal

PBCut RCut

PBCut RTCut

PBCut SCut

PBCut SCut*

PBCut PCut

PBCut PCut*

PBCut BCut

micro-precision-d

PBCut Ideal

PBCut RCut

PBCut RTCut

PBCut SCut

PBCut SCut*

PBCut PCut

PBCut PCut*

PBCut BCut

macro-recall-d

PBCut Ideal

PBCut RCut

PBCut RTCut

PBCut SCut

PBCut SCut*

PBCut PCut

PBCut PCut*

PBCut BCut

micro-recall-d

PBCut Ideal

PBCut RCut

PBCut RTCut

PBCut SCut

PBCut SCut*

PBCut PCut

PBCut PCut*

PBCut BCut

macro-f1-d

PBCut Ideal

PBCut RCut

PBCut RTCut

PBCut SCut

PBCut SCut*

PBCut PCut

PBCut PCut*

PBCut BCut

micro-f1-d

PBCut Ideal

PBCut RCut

PBCut RTCut

PBCut SCut

PBCut SCut*

PBCut PCut

PBCut PCut*

PBCut BCut

PBCut(3) < Ideal(9)

PBCut(5) < RCut(8)

PBCut(5) < RTCut(8)

PBCut(5) < SCut(6)

PBCut(5) < SCut(6)

PBCut(6) > PCut(5)

PBCut(5) < PCut*(8)

BCut(3) < PBCut(10)

Ordem Geral

Como a Tabela 6-11 mostra, as estratgias de poda de ranking impactam a maioria das mtricas utilizadas para avaliar o desempenho do
categorizador ML- k NN para a base de dados EX100. De acordo com a Tabela 6-11, a ordem geral mostra que a estratgia de poda PBCut no
mais apropriada para ser avaliada sob todas esssas mtricas.
A Tabela 6-12 mostra um sumrio dos resultados obtidos da Seo 6.2.1 Seo 6.2.7 para o categorizador VG-RAM WNN-COR e para a
base de dados AT100 utilizando a representao de ordem parcial. Este sumrio apresenta, a comparao entre a estratgia BCut e as demais
estratgias de poda apresentadas neste trabalho.

RESULTADOS EXPERIMENTAIS
137

Tabela 6-12 Resultado do Test-t para o categorizador VG-RAM WNN-COR e para a base AT100. Comparao com BCut.
Mtricas
exact match

BCut x Ideal

BCut x RCut

BCut x RTCut

BCut x SCut

BCut x SCut*

BCut x PCut

BCut x PCut*

BCut x PBCut

BCut Ideal

BCut RCut

BCut RTCut

BCut SCut

BCut SCut*

BCut PCut

BCut PCut*

BCut PBCut

macro-precision-c

BCut Ideal

BCut RCut

BCut RTCut

BCut SCut

BCut SCut*

BCut PCut

BCut PCut*

BCut PBCut

micro-precision-c

BCut Ideal

BCut RCut

BCut RTCut

BCut SCut

BCut SCut*

BCut PCut

BCut PCut*

BCut PBCut

macro-recall-c

BCut Ideal

BCut RCut

BCut RTCut

BCut SCut

BCut SCut*

BCut PCut

BCut PCut*

BCut PBCut

micro-recall-c

BCut Ideal

BCut RCut

BCut RTCut

BCut SCut

BCut SCut*

BCut PCut

BCut PCut*

BCut PBCut

macro-f1-c

BCut Ideal

BCut RCut

BCut RTCut

BCut SCut

BCut SCut*

BCut PCut

BCut PCut*

BCut PBCut

micro-f1-c

BCut Ideal

BCut RCut

BCut RTCut

BCut SCut

BCut SCut*

BCut PCut

BCut PCut*

BCut PBCut

macro-precision-d

BCut Ideal

BCut RCut

BCut RTCut

BCut SCut

BCut SCut*

BCut PCut

BCut PCut*

BCut PBCut

micro-precision-d

BCut Ideal

BCut RCut

BCut RTCut

BCut SCut

BCut SCut*

BCut PCut

BCut PCut*

BCut PBCut

macro-recall-d

BCut Ideal

BCut RCut

BCut RTCut

BCut SCut

BCut SCut*

BCut PCut

BCut PCut*

BCut PBCut

micro-recall-d

BCut Ideal

BCut RCut

BCut RTCut

BCut SCut

BCut SCut*

BCut PCut

BCut PCut*

BCut PBCut

macro-f1-d

BCut Ideal

BCut RCut

BCut RTCut

BCut SCut

BCut SCut*

BCut PCut

BCut PCut*

BCut PBCut

micro-f1-d
Ordem Geral

BCut Ideal

BCut RCut

BCut RTCut

BCut SCut

BCut SCut*

BCut PCut

BCut PCut*

BCut PBCut

BCut(1) < Ideal(12)

BCut(8) > RCut(4)

BCut(8) > RTCut(4)

BCut(8) > SCut(4)

BCut(8) > SCut(5)

BCut(8) > PCut(4)

BCut(9) > PCut*(3)

BCut(4) < PBCut(6)

Como a Tabela 6-12 mostra, as estratgias de poda de ranking impactam a maioria das mtricas utilizadas para avaliar o desempenho do
categorizador VG-RAM WNN-COR para a base de dados AT100. De acordo com a Tabela 6-12, a ordem geral mostra que a estratgia de poda
BCut mais apropriada para esta base de dados, categorizador e mtricas.
A Tabela 6-13 mostra um sumrio dos resultados obtidos da Seo 6.2.1 Seo 6.2.7 para o categorizador VG-RAM WNN-COR e para
a base de dados AT100 utilizando a representao de ordem parcial. Este sumrio apresenta, a comparao entre a estratgia PBCut e as demais
estratgias de poda apresentadas neste trabalho.

RESULTADOS EXPERIMENTAIS
138

Tabela 6-13 - Resultado do Test-t para o categorizador VG-RAM WNN-COR e para a base AT100. Comparao com PBCut.
PBCut x Ideal

PBCut x RCut

PBCut x RTCut

PBCut x SCut

PBCut x SCut*

PBCut x PCut

PBCut x PCut*

PBCut x BCut

exact match

PBCut Ideal

PBCut RCut

PBCut RTCut

PBCut SCut

PBCut SCut*

PBCut PCut

PBCut PCut*

PBCut BCut

macro-precision-c

PBCut Ideal

PBCut RCut

PBCut RTCut

PBCut SCut

PBCut SCut*

PBCut PCut

PBCut PCut*

PBCut BCut

micro-precision-c

PBCut Ideal

PBCut RCut

PBCut RTCut

PBCut SCut

PBCut SCut*

PBCut PCut

PBCut PCut*

PBCut BCut

macro-recall-c

PBCut Ideal

PBCut RCut

PBCut RTCut

PBCut SCut

PBCut SCut*

PBCut PCut

PBCut PCut*

PBCut BCut

micro-recall-c

PBCut Ideal

PBCut RCut

PBCut RTCut

PBCut SCut

PBCut SCut*

PBCut PCut

PBCut PCut*

PBCut BCut

macro-f1-c

PBCut Ideal

PBCut RCut

PBCut RTCut

PBCut SCut

PBCut SCut*

PBCut PCut

PBCut PCut*

PBCut BCut

micro-f1-c

PBCut Ideal

PBCut RCut

PBCut RTCut

PBCut SCut

PBCut SCut*

PBCut PCut

PBCut PCut*

PBCut BCut

macro-precision-d

PBCut Ideal

PBCut RCut

PBCut RTCut

PBCut SCut

PBCut SCut*

PBCut PCut

PBCut PCut*

PBCut BCut

micro-precision-d

PBCut Ideal

PBCut RCut

PBCut RTCut

PBCut SCut

PBCut SCut*

PBCut PCut

PBCut PCut*

PBCut BCut

macro-recall-d

PBCut Ideal

PBCut RCut

PBCut RTCut

PBCut SCut

PBCut SCut*

PBCut PCut

PBCut PCut*

PBCut BCut

micro-recall-d

PBCut Ideal

PBCut RCut

PBCut RTCut

PBCut SCut

PBCut SCut*

PBCut PCut

PBCut PCut*

PBCut BCut

macro-f1-d

PBCut Ideal

PBCut RCut

PBCut RTCut

PBCut SCut

PBCut SCut*

PBCut PCut

PBCut PCut*

PBCut BCut

PBCut Ideal

PBCut RCut

Mtricas

micro-f1-d
Ordem Geral

PBCut(1) < Ideal(12) PBCut(8) > RCut(4)

PBCut RTCut

PBCut SCut

PBCut SCut*

PBCut PCut

PBCut PCut*

PBCut BCut

PBCut(8) > RTCut(4)

PBCut(8) > SCut(4)

PBCut(9) > SCut(4)

PBCut(9) > PCut(4)

PBCut(8) > PCut*(4)

PBCut(6) > BCut(4)

Como a Tabela 6-13 mostra, as estratgias de poda de ranking impactam a maioria das mtricas utilizadas para avaliar o desempenho do
categorizador VG-RAM WNN-COR para a base de dados AT100. De acordo com a Tabela 6-13, a ordem geral mostra que a estratgia de poda
PBCut mais apropriada para esta base de dados, categorizador e mtricas. Note que a estratgia de poda PBCut mais apropriada para estas
caractersticas do que a estratgia BCut.
A Tabela 6-14 mostra um sumrio dos resultados obtidos da Seo 6.2.1 Seo 6.2.7 para o categorizador VG-RAM WNN-COR e para
a base de dados EX100 utilizando a representao de ordem parcial. Este sumrio apresenta, a comparao entre a estratgia BCut e as demais
estratgias de poda apresentadas neste trabalho.

RESULTADOS EXPERIMENTAIS
139

Tabela 6-14 - Resultado do Test-t para o categorizador VG-RAM WNN-COR e para a base EX100. Comparao com BCut
BCut x Ideal

BCut x RCut

BCut x RTCut

BCut x SCut

BCut x SCut*

BCut x PCut

BCut x PCut*

BCut x PBCut

BCut Ideal

BCut RCut

BCut RTCut

BCut SCut

BCut SCut*

BCut PCut

BCut PCut*

BCut PBCut

macro-precision-c

BCut Ideal

BCut RCut

BCut RTCut

BCut SCut

BCut SCut*

BCut PCut

BCut PCut*

BCut PBCut

micro-precision-c

BCut Ideal

BCut RCut

BCut RTCut

BCut SCut

BCut SCut*

BCut PCut

BCut PCut*

BCut PBCut

macro-recall-c

BCut Ideal

BCut RCut

BCut RTCut

BCut SCut

BCut SCut*

BCut PCut

BCut PCut*

BCut PBCut

micro-recall-c

BCut Ideal

BCut RCut

BCut RTCut

BCut SCut

BCut SCut*

BCut PCut

BCut PCut*

BCut PBCut

macro-f1-c

BCut Ideal

BCut RCut

BCut RTCut

BCut SCut

BCut SCut*

BCut PCut

BCut PCut*

BCut PBCut

Mtricas
exact match

micro-f1-c

BCut Ideal

BCut RCut

BCut RTCut

BCut SCut

BCut SCut*

BCut PCut

BCut PCut*

BCut PBCut

macro-precision-d

BCut Ideal

BCut RCut

BCut RTCut

BCut SCut

BCut SCut*

BCut PCut

BCut PCut*

BCut PBCut

micro-precision-d

BCut Ideal

BCut RCut

BCut RTCut

BCut SCut

BCut SCut*

BCut PCut

BCut PCut*

BCut PBCut

macro-recall-d

BCut Ideal

BCut RCut

BCut RTCut

BCut SCut

BCut SCut*

BCut PCut

BCut PCut*

BCut PBCut

micro-recall-d

BCut Ideal

BCut RCut

BCut RTCut

BCut SCut

BCut SCut*

BCut PCut

BCut PCut*

BCut PBCut

macro-f1-d

BCut Ideal

BCut RCut

BCut RTCut

BCut SCut

BCut SCut*

BCut PCut

BCut PCut*

BCut PBCut

micro-f1-d
Ordem Geral

BCut Ideal

BCut RCut

BCut RTCut

BCut SCut

BCut SCut*

BCut PCut

BCut PCut*

BCut PBCut

BCut(2) < Ideal(10)

BCut(8) > RCut(5)

BCut(8) > RTCut(5)

BCut(6) < SCut(7)

BCut(8) > SCut(5)

BCut(8) > PCut(5)

BCut(6) > PCut*(5)

BCut(9) > PBCut(4)

Como a Tabela 6-14 mostra, as estratgias de poda de ranking impactam a maioria das mtricas utilizadas para avaliar o desempenho do
categorizador VG-RAM WNN-COR para a base de dados EX100. De acordo com a Tabela 6-14, a ordem geral mostra que a estratgia de poda
BCut mais apropriada para esta base de dados, categorizador e mtricas.
A Tabela 6-15 mostra um sumrio dos resultados obtidos da Seo 6.2.1 Seo 6.2.7 para o categorizador VG-RAM WNN-COR e para
a base de dados EX100 utilizando a representao de ordem parcial. Este sumrio apresenta, a comparao entre a estratgia PBCut e as demais
estratgias de poda apresentadas neste trabalho.

RESULTADOS EXPERIMENTAIS
140

Tabela 6-15 - Resultado do Test-t para o categorizador VG-RAM WNN-COR e para a base EX100. Comparao com PBCut.
Mtricas
exact match

PBCut x Ideal

PBCut x RCut

PBCut x RTCut

PBCut x SCut

PBCut x SCut*

PBCut x PCut

PBCut x PCut*

PBCut x PBCut

PBCut Ideal

PBCut RCut

PBCut RTCut

PBCut SCut

PBCut SCut*

PBCut PCut

PBCut PCut*

PBCut BCut

macro-precision-c

PBCut Ideal

PBCut RCut

PBCut RTCut

PBCut SCut

PBCut SCut*

PBCut PCut

PBCut PCut*

PBCut BCut

micro-precision-c

PBCut Ideal

PBCut RCut

PBCut RTCut

PBCut SCut

PBCut SCut*

PBCut PCut

PBCut PCut*

PBCut BCut

macro-recall-c

PBCut Ideal

PBCut RCut

PBCut RTCut

PBCut SCut

PBCut SCut*

PBCut PCut

PBCut PCut*

PBCut BCut

micro-recall-c

PBCut Ideal

PBCut RCut

PBCut RTCut

PBCut SCut

PBCut SCut*

PBCut PCut

PBCut PCut*

PBCut BCut

macro-f1-c

PBCut Ideal

PBCut RCut

PBCut RTCut

PBCut SCut

PBCut SCut*

PBCut PCut

PBCut PCut*

PBCut BCut

micro-f1-c

PBCut Ideal

PBCut RCut

PBCut RTCut

PBCut SCut

PBCut SCut*

PBCut PCut

PBCut PCut*

PBCut BCut

macro-precision-d

PBCut Ideal

PBCut RCut

PBCut RTCut

PBCut SCut

PBCut SCut*

PBCut PCut

PBCut PCut*

PBCut BCut

micro-precision-d

PBCut Ideal

PBCut RCut

PBCut RTCut

PBCut SCut

PBCut SCut*

PBCut PCut

PBCut PCut*

PBCut BCut

macro-recall-d

PBCut Ideal

PBCut RCut

PBCut RTCut

PBCut SCut

PBCut SCut*

PBCut PCut

PBCut PCut*

PBCut BCut

micro-recall-d

PBCut Ideal

PBCut RCut

PBCut RTCut

PBCut SCut

PBCut SCut*

PBCut PCut

PBCut PCut*

PBCut BCut

macro-f1-d

PBCut Ideal

PBCut RCut

PBCut RTCut

PBCut SCut

PBCut SCut*

PBCut PCut

PBCut PCut*

PBCut BCut

micro-f1-d
Ordem Geral

PBCut Ideal

PBCut RCut

PBCut RTCut

PBCut SCut

PBCut SCut*

PBCut PCut

PBCut PCut*

PBCut BCut

PBCut(3) < Ideal(10)

PBCut(5) < RCut(7)

PBCut(5) < RTCut(7)

PBCut(5) < SCut(8)

PBCut(5) < SCut(7)

PBCut(6) < PCut(7)

PBCut(5) < PCut*(7)

PBCut(4) < BCut(9)

Como a Tabela 6-15 mostra, as estratgias de poda de ranking impactam a maioria das mtricas utilizadas para avaliar o desempenho do
categorizador VG-RAM WNN-COR para a base de dados EX100. De acordo com a Tabela 6-15, a ordem geral mostra que a estratgia de poda
PBCut no mais apropriada para esta base de dados, categorizador e mtricas.
Os resultados obtidos com as mtricas que avaliam preciso mostram que, as estratgias de poda de ranking BCut e PBCut melhoram o
desempenho dos categorizadores para as bases AT100 e EX100. Alm disso, as estratgias de poda de ranking BCut e PBCut melhoram o
desempenho para a mtrica exact-match o desempenho dos categorizadores ML- k NN e VG-RAM WNN-COR para as bases AT100 e EX100.

7 DISCUSSO

Neste captulo, apresentamos os trabalhos correlatos ao estudo sobre estratgias de


poda de ranking na categorizao multi-rtulo de texto. Alm disso, apresentamos uma
anlise crtica sobre este trabalho.

7.1 Trabalhos Correlatos

O estudo sobre estratgias de poda de ranking tem sido pouco explorado na rea de
categorizao automtica de texto. Algoritmos de categorizao tem sido o principal foco de
pesquisa nessa rea enquanto que estratgias de poda de ranking so apenas mencionadas
como uma etapa sem importncia na categorizao de texto [Yang01].
Yang, em 2001[Yang01] apresentou um estudo sobre as estratgias de poda. Este
estudo mostra uma anlise do impacto de desempenho da estratgia de poda de ranking de um
categorizador em condies diversas. Yang usou o categorizador kNN, cinco colees de
documentos, trs estratgias de poda incluindo a estratgia baseada no ranking (RCut),
baseada em probabilidade (PCut) e baseada no grau de crena (SCut). Alm destas, Yang
props uma nova variante da estratgia RCut, denominada RTCut. Os resultatos
experimentais obtidos por Yang, mostram que a escolha de uma estratgia de poda pode
influenciar significamente no desempenho do categorizador kNN e que o resultado da melhor
estratgia poda pode variar de acordo com aplicao. Yang apresentou a estratgia SCut como
a melhor estratgia para ajuste fino, mas, com o risco de overfitting. A estratgia de poda
PCut mostrou um desempenho mais estvel devido ao uso de informaes sobre a distribuio
das categorizas no conjunto de treinamento, com a desvantagens de no ser capaz de tomar
decises online. RCut adequada para respostas online mas sua deciso de corte
independente da deciso do categorizador. RTCut elaborada para atenuar o compromisso
entre revocao e preciso, superar RCut.
Lee, em 2002 [Lee02], props a estratgia de poda de ranking de categorias RinScut
que usa o melhor das estratgias de poda SCut e RCut. A estratgia RinScut utiliza a
estratgia SCut para tratar o problema de categorizao multi-rtulo de texto em que um

DISCUSSO
142
documento pertence a vrias categorias. A estratgia de poda SCut encontra diferentes i
para cada categoria otimizando a performance local (por categoria) enquanto que o RCut
retorna a mesma quantidade de categorias para todos os documentos otimizando a
performance global. Lee definiu a estratgia Rank-in-score para usar a fora dessas duas
estratgias. O RinScut encontra dois pontos de corte para cada categoria (Stop e Sbotton) a partir
da estratgia SCut. Os graus de crena dos documentos que estiverem acima do Stop so
retorndos diretamente como resposta para cada categoria ci. Os graus de crena que estiverem
entre o Stop e Sbotton so considerados como zona de ambigidades. Para resolver a ambiguide
utilizado o estratgia de poda RCut para tomar a deciso final. Nos experimentos de Lee a
estratgia de poda RinScut apresenta melhor desempenho para micro e macro-averaged F1 do
que os valores encontrados pela estratgia de poda SCut.
Fan, em 2007 [Fan07], apresentou uma anlise sobre a estratgia de poda SCutFBR,
uma heurstica proposta por Yang, para o categorizador SVM (Support Vector Machines)
empregando as bases de dados RCV1-V2, Scene, Yeast, Ohsumed e Yahoo! Directories. Os
experimentos realizados por Fan foram otimizados segundo as mtricas de avaliao: macroaverage F-measure, micro-average F-measure e exact match ratio. Fan observou os seguintes
aspectos em seus experimentos: limiares de poda de ranking muito alto/baixo ocorrem quando
a base de dados est desiquilibrada. Fan tambm descobriu que a micro-average F-measure
menos sensvel para a otimizao do que outras mtricas, como por exemplo, a macroaverage. Alm disso, verificou que a otimizao circular para a estratgia de poda SCutFBR
deveria melhorar o desempenho da calibrao, os seus resultados mostram que houve uma
melhor apenas marginal, portanto, calibrar os limiares de corte para cada categoria sem
rotacionar suficiente na prtica.
Este trabalho prope um mtodo para mapear graus de crena em medidas de certeza
de categorizao multi-rtulo de texto um problema ainda pouco explorado na rea de RI e
propomos tambm duas estratgias de poda para o ranking de categorias baseada na medida
de certeza de categorizao multi-rtulo de texto, a qual denominamos bayes cut (BCut) e
position bayes cut (PBCut). Alm disso, avalimos o efeito da nossa estratgia de poda sobre
as mtricas mais populares de avaliao de desempenho de categorizao multi-rtulo de
texto empregadas pela comunidade de RI.

DISCUSSO
143

7.2 Anlise Crtica deste Trabalho

Uma das limitaes deste trabalho a falta de uma viso geral do desempenho das
estratgias de poda de ranking, ou seja, uma anlise do test-t para todas as possveis
combinaes de estratgias de poda. Outra possvel limitao o emprego de base de dados
dentro de um nico domnio de problemas de categorizao. Isso poderia ser resolvido pela
validao dos nossos experimentos com benchmarks utilizados nas principais literaturas sobre
categorizao de texto. Isso poderia ser resolvido pela validao dos nossos experimentos
com benchmarks utilizados nas principais literaturas sobre categorizao de texto.

8 CONCLUSO E TRABALHOS FUTUROS

Neste captulo apresentamos um sumrio do trabalho, nossas concluses e propostas


de trabalhos futuros.

8.1 Sumrio

Neste trabalho, propomos um mtodo para mapear graus de crena em medidas de


certeza de categorizao multi-rtulo de texto. Nosso mtodo baseado na regra de Bayes,
que permite alterar as probabilidades a priori tendo em conta novas evidncias de forma a
obter as probabilidades a posteriori. Propomos tambm, uma estratgia para determinar
limiares de poda para o ranking de categorias baseada na medida de certeza de categorizao
multi-rtulo de texto descrita acima, a qual denominamos bayesian cut (BCut). Na estratgia
de poda BCut, um nico limiar de poda, , para todas as categorias ci escolhido de modo a
maximizar o desempenho de categorizao, i.e., sua habilidade de atribuir todas e apenas as
categorias pertinentes a um dado documento. Alm desta estratgia, propomos uma variante
para BCut que utiliza diferentes limiares de poda p para diferentes posies p do ranking, a
qual denominamos position based bayesian cut (PBCut). A estratgia de poda PBCut pode
produzir um desempenho superior ao de BCut, porque a medida de certeza de categorizao
em uma dada categoria diminui medida que a posio da categoria no ranking aumenta.
Alm disso, investigamos o impacto no desempenho de categorizao multi-rtulo de
texto de trs mtodos de poda comumente usados na literatura de RI [Yang01, Lee02, Fan07]:
RCut, PCut, SCut e uma variante de RCut - RTCut [Yang01], tambm, propomos novas
variantes para PCut e SCut PCut* e SCut*, respectivamente para tratar problemas
existentes nestas abordagens. Em nossa anlise experimental, utilizamos os categorizadores
ML- k NN e VG-RAM WNN-COR segundo as mtricas de avaliao: exact match, precision,
recall e F1 . Os experimentos foram realizados com duas bases de dados, contendo

documentos textuais descrevendo atividades econmicas de empresas brasileiras, com


caractersticas diferenciadas em termos de freqncia de ocorrncia das categorias: AT100 e

CONCLUSO E TRABALHOS FUTUROS


145
EX100. A base de dados EX100 contm documentos categorizados dentro de 105 categorias,
onde cada categoria ocorre exatamente em 100 diferentes documentos; e a base de dados
AT100 contm documentos categorizados dentro de 692 categorias, onde cada categoria
ocorre em at 100 diferentes documentos.
Nossos resultados experimentais mostraram que, os valores das medidas de certeza
calculados analiticamente so prximos dos valores encontrados empiricamente, alm disso,
as estratgias de poda baseadas na medida de certeza afetam significativamente o desempenho
dos categorizadores.

8.2 Concluses

Os resultados experimentais apresentados no Captulo 6 - na Seo 6.1 mostram o


quo os valores das medidas de certeza (valores de p(x|y,k)) do categorizador calculados
analiticamente por meio da regra de Bayes so prximos (semelhantes) aos valores de p(x|y,k)
estimados empiricamente, demonstrando que possvel prever o quo certo est o
categorizador quanto uma categoria pertencente ao ranking de sada ser pertinente para um
dado documento em uma posio. Aps compararmos os resultados das medidas de certeza
para os categorizadores ML- k NN e VG-RAM WNN-COR para as bases de dados AT100 e
EX100 concluimos que nosso modelo de mapeamento de grau de crena em probabilidade
pode ser utilizado para tal definio, visto que, os resultados calculados anliticamente esto
muito prximos dos resultados obtidos empiricamente.
Os resultados experimentais apresentados no Captulo 6 na Seo 6.2 - mostram
que o desempenho de um categorizador segundo uma determinada mtrica
significativamente diferente (teste t pareado bicaudal com nvel de significncia 5% )
dependendo da estratgia de poda de ranking empregada. Os experimentos realizados com a
base de dados AT100 mostram que, o desempenho dos categorizadores ML- k NN e VG-RAM
WNN-COR ao empregar as estratgias de poda de ranking BCut e PBCut otimizado ao ser
avaliados por mtricas de preciso. Este comportamento repetido ao realizar experimentos
com a base de dados EX100.
Nas mtricas que avaliam preciso, as estratgias de poda BCut e PBCut so mais
apropriadas para este parmetro de avaliao, pois utilizam a medida de certeza de
categorizao que nada mais que a probabilidade da predio estar correta. As estratgias de

CONCLUSO E TRABALHOS FUTUROS


146
poda de ranking Scut e PCut * so mais apropriadas para serem empregas s mtricas que
avaliam a revocao da categorizao. Ento, este trabalho demostra que possvel mapear os
valores de graus de crenas em valores probabilsticos na categorizao automtica de texto e
que na definio de estratgias de poda, uma das informaes que devem ser consideradas o
tipo de avaliao que o sistema de categorizao ser submetido.

8.3 Trabalhos Futuros

Os resultados satisfatrios obtidos neste trabalho motivam continuar as pesquisas


sobre modelos para mapear graus de crena em medidas de certeza de categorizao multirtulo de texto e sobre estratgias para determinar limiares de poda de ranking de categorias
baseada na medida de certeza de categorizao.
Uma direo para trabalho futuro seria correlacionar a estratgia de poda de ranking
de categorias com as caractersticas das bases de dados empregadas, o que poderia levar a
uma abordagem mais genrica, mais independente da base de dados. Outra direo para
pesquisas futuras seria utilizar benchmarks de problemas de categorizao em domnios
diferentes daquele utilizado neste trabalho. Finalmente, outra direo para pesquisa seria
utilizar outras tcnicas de categorizao de texto multi-rtulo, o que permitiria verificar o
nvel de generalizao do nosso modelo de medida de certeza e das estratgias de poda de
ranking nele baseadas.

9 REFERNCIAS BIBLIOGRFICAS

[Aiolli08]

F. Aiolli, R. Cardin, F. Sebastiani, and A. Sperduti. Preferential Text


Classification:

Learning

Algorithms

and

Evaluation

Measures.

Information Retrieval Journal, pages 1386-4564, 2008.


[Aleksander98]

I. Aleksander. RAM-Based Neural Networks, chapter From WISARD


to MAGNUS: a Family of Weightless Virtual Neural Machines, pages
1830. World Scientific, 1998.

[Antiqueira05]

L. Antiqueira. Obteno e Associao de Termos na Construo de uma


Ontologia para a rea de Nanotecnologia. So Carlos: USP, 2005. 40 p.
Monografia de Graduao Instituto de Cincias Matemticas e de
Computao, USP, So Carlos, 2005.

[Aspell08]

ASPELL. GNU Aspell. Disponvel: http://aspell.net/ . ltimo acesso


em: 20 de Agosto de 2008.

[Badue08]

C. Badue, F. Pedroni, and A. F. De Souza. Multi-Label Text


Categorization

using

VG-RAM

Weightless

Neural

Networks.

Proceedings of the 10th Brazilian Symposium on Neural Networks


(SBRN'08), pp. 105-110, Salvador, Bahia, Brazil, October 2008.
[Baeza99]

R. Baeza-Yates, and B. Ribeiro-Neto. Modern Information Retrieval. 1.


ed. New York: Addison-Wesley, 1999.

[Baoli03]

L. Baoli, Y. Shiwen, and L. Qin. An Improved k-Nearest Neighbor


Algorithm for Text Categorization. In Proceedings of the 20th
International Conference on Computer Processing of Oriental
Languages, Shen Yang, China, pages 469-475, 2003.

[Boutell04]

M. R. Boutell, J. Luo, X. Shen, and C. M. Brown. Learning Multi-Label


Scene Classification. Pattern Recognition, 37(9): pages 17571771,
2004.

[Cherman07]

E. Cherman, H. de Lee, D. Honorato, C. Coy, J. Fagundes, J. Ges, F.


Wu.

Metodologia

de

Mapeamento

Colonoscpicos. XVI EAIC, 2007.

Automtico

de

Laudos

REFERNCIAS BIBLIOGRFICAS
148
[Ciarelli08]

P. M. Ciarelli. Rede Neural Probabilstca para a Classicao de


Atividades Econmicas. Vitria: UFES, 2008. 82 p. Dissertao
Programa de Ps-Graduao em Engenharia Eltrica, Universidade
Federal do Esprito Santo, Vitria, 2008.

[Ciarelli09]

P. M. Ciarelli, E. Oliveira, and C. Badue. Multi-Label Text


Categorization Using a Probabilistic Neural Network. International
Journal of Computer Information Systems and Industrial Management
Applications (IJCISIM), July 2009 (accepted for publication).

[Clare01]

A. Clare and R. D. King. Knowledge Discovery in Multi-Label


Phenotype Data. In Lecture Notes in Computer Science, volume 2168,
pages 4253, 2001.

[CNAE03]

CNAE. Classificao Nacional de Atividades Econmicas Fiscal


(CNAE-Fiscal) 1.1. Instituto Brasileiro de Geografia e Estatstica
(IBGE), Rio de Janeiro, RJ, 2003.

[Cohen96]

W. W. Cohen and Y. Singer. Context-sensitive Learning Methods for


Text Categorization. In SIGIR96: Proceedings of the 19th Annual
International ACM SIGIR Conference on Research and Development in
Information Retrievel, 1996. 307-315.

[Comit03]

F. D. Comit, R. Gilleron, and M. Tommasi. Learning multi-label


alternating decision tree from texts and data. In Lecture Notes in
Computer Science, volume 2734, pages 3549. Springer, 2003.

[Cooper68]

W.S Cooper. Expected search length: A Single Measure of Retrieval


Effectiveness Based on Weak Ordering Action of Retrieval Systems.
Journal of the American Society for Information Science, 19(1), pages
30 41, 1968.

[Crowell03]

J. Crowell, Q.T. Zeng, S.Kogan. A Technique to Improve the Spelling


Suggestion Rank in Medical Queries. AMIA 2003 Symposium
Proceedings, page 823, 2003.

[DeSouza07]

A. F. De Souza, F. Pedroni, E. Oliveira, P. M. Ciarelli, W. F. Henrique,


and L. Veronese. Automated Free Text Classification of Economic
Activities using VG-RAM Weightless Neural Networks. In 7th IEEE
International

Conference

on

Intelligent

Systems

Design

Applications, pages 782787. IEEE Computer Society, 2007.

and

REFERNCIAS BIBLIOGRFICAS
149
[DeSouza08]

A. F. De Souza, C. Badue, B. Z. Melotti, F. T. Pedroni, and F. L. L.


Almeida. Improving VG-RAM WNN Multi-Label Text Categorization
via Label Correlation. In 2nd Workshop on Intelligent Text
Categorization and Clustering (WITCC'08), 8th IEEE International
Conference on Intelligent Systems Design and Applications (ISDA'08),
volume 01, pages 437442. IEEE Computer Society, 2008.

[DeSouza09a]

A. F. De Souza, F. Pedroni, E. Oliveira, P. M. Ciarelli, W. F. Henrique,


L. Veronese, and C. Badue. Automated Multi-label Text Categorization
with VG-RAM Weightless Neural Networks. Neurocomputing, vol. 72,
no. 10-12, pp. 2209-2217, June 2009.

[DeSouza09b]

A. F. De Souza, B. Z. Melotti, and C. Badue. Multi-Label Text


Categorization with a Data Correlated VG-RAM Weightless Neural
Network. International Journal of Computer Information Systems and
Industrial Management Applications (IJCISIM), July 2009 (accepted for
publication).

[Dunlop97]

M. D Dunlop. Time Relevance and Interaction Modeling for


Information Retrieval, in Proc. ACM SIGIR, pages 206-213, 1997.

[Elisseeff02]

A. Elisseeff and J. Weston. A Kernel Method for Multi-Labelled


Classification. In Advances in Neural Information Processing Systems,
volume 14, pages 681687. MIT Press, 2002.

[Fagin03]

R. Fagin, R. Kumar, and D. Sivakumar. Comparing Top k Lists.


Proceedings of the fourteenth annual ACM-SIAM symposium on
Discrete algorithms, pages 2836, Philadelphia, USA, 2003.

[Fagin04]

R. Fagin, R. Kumar,

M. Mahdian, D. Sivakumar, and E. Vee.

Comparing and Aggregating Rankings with Ties. Proceedings of the


twenty-third

ACM

SIGMOD-SIGACT-SIGART

symposium

on

Principles of database systems, pages 47-58, France, 2004.


[Fagin06]

R. Fagin, R. Kumar, M. Mahdian, D. Sivakumar, & E. Vee. Comparing


partial rankings. SIAM Journal on Discrete Mathematics, 20(3), pages
628648, 2006.

[Fan07]

R.-E. Fan and C.-J. Lin. A Study on Threshold Selection for MultiLabel Classification. Technical Report, National Taiwan University,
2007.

REFERNCIAS BIBLIOGRFICAS
150
[Gao04]

S. Gao, W. Wu, C.-H. Lee, and T.-S. Chua. A MfoM Learning


Approach to Robust Multiclass Multi-Label Text Categorization. In
Proceedings of the 21st International Conference on Machine Learning,
pages 329336, 2004.

[Hair05]

J. F. Hair, R. E. Anderson, R. L. Tatham e W. C. Black. Anlise


Multivariada de Dados. Traduo por Adonai Schlup Sant'Ana e
Anselmo Chavese Neto. Quinta Edio. US, 2005.

[Hao07]

X. Hao, X. Tao, C. Zhang. Yunfa Hu, An Effective Method To Improve


kNN Text Classifier. Software Engineering, Artificial Intelligence,
Networking, and Parallel/Distributed Computing, 2007. SNPD 2007.
Eighth ACIS International Conference, vol.1, no., pages 379-384, July
30 2007-Aug. 1 2007.

[Haykin99]

S. Haykin. Redes Neurais Princpios e prticas. 2 Edio. So Paulo,


1999.

[Hull93]

D. Hull. Using Statistical Testing in the Evaluation of Retrieval


Experiments. Proceedings of the 16th annual international ACM SIGIR
conference on Research and development in information retrieval, pages
329-338, USA, 1993.

[Joachims98]

Joachims. Text Categorization with Support Vector Machines: Learning


with Many Relevant Features. Proceedings of the Tenth European
Conference on Machine Learning (ECML'98), Springer Verlag, pages
137-142, 1998.

[Kazawa05]

H. Kazawa, T. Izumitani, H. Taira, and E. Maeda. Maximal Margin


Labeling for Multi-Topic Text Categorization. In Advances in Neural
Information Processing Systems 17, pages 649656. MIT Press, 2005.

[Lee02]

K. H. Lee, J. Kay, and B. H. Kang. Lazy Linear Classifier and Rank-inScore Threshold in Similarity-Based Text Categorization. International
Conference on Machine Learning Workshop on Text Learning
TextML2002), Sydney, Australia, pages 36-43, July 8, 2002.

[Lewis92]

D. Lewis. An Evaluation of Phrasal and Clustered Representations on a


Text Categorization task. In 15th Ann Int ACM SIGIR Conference on
Research and Development in Information Retrieval (SIGIR92), pages
37 50, 1992.

REFERNCIAS BIBLIOGRFICAS
151
[Lewis94]

D. Lewis and M. Ringuette. Comparison of two Learning Algorithms


for Text Categorization. In Proceedings of the Third Annual
Symposium on Document Analysis and Information Retrieval
(SDAIR94), Nevada, Las Vegas, 1994. University of Nevada, Las
Vegas.

[Lewis96]

D.D. Lewis et al. Training Algorithms Linear Text Classifier. In Proc.


Of the 19 th annual international ACM SIGIR Conference on Research
and development in information retrieval SIGIR96), pages 298 306,
1996.

[Ludermir99]

T. B. Ludermir, A. C. P. L. F. Carvalho, A. P. Braga, and M. D. Souto.


Weightless Neural Models: A Review of Current and Past Works.
Neural Computing Surveys, 2: pages 4161, 1999.

[Manning08]

C. D. Manning, P. Raghavan, and H. Schtze. An Introduction to


Information Retrieval. Cambridge University Press, Cambridge,
England, 2008.

[Martins04]

D. Martins, and M. J Silva. Spelling Correction for Search Engine


Queries. In Book Series of Lecture Notes in Computer Science, Vol.
3230, pages 372-383, 2004.

[McCallum99]

A. McCallum. Multi-Label Text Classification with a Mixture Model


Trained by EM. In Working Notes of the AAAI99 Workshop on Text
Learning, pages 17, 1999.

[Melotti09]

Z. B. Melotti. Efeito do Ranking sobre Mtricas de Categorizao


Multi-Rtulo de texto. Vitria: UFES, Dissertao - Programa de PsGraduao em Informtica, Universidade Federal do Espirto Santos,
Vitria, 2009.

[Mitchell97]

T. M. Mitchell. Machine learning. McGraw Hill, New York, US, 1997.

[Mitchell98]

R. J. Mitchell, J. M. Bishop, S. K. Box, and J. F. Hawker. RAM-Based


Neural Networks, chapter Comparison of Some Methods for Processing
Grey Level Data in Weightless Networks, pages 6170. World
Scientific, 1998.

[Monard03]

M. C. Monard & J. A. Baranauskas. Conceitos sobre Aprendizado de


Mquina. In Sistemas Inteligentes Fundamentos e Aplicaes, S.O
Rezende, Editora Manole, pages 89-114, 2003.

REFERNCIAS BIBLIOGRFICAS
152
[Oliveira08a]

E. Oliveira, P. M. Ciarelli, A. F. De Souza, and C. Badue. Using a


Probabilistic Neural Network for a Large Multi-Label Problem.
Proceedings of the 10th Brazilian Symposium on Neural Networks
(SBRN'08), pp. 195-200, Salvador, Bahia, Brazil, October 2008.

[Oliveira08b]

E. Oliveira, P. M. Ciarelli, and C. Badue. A Comparison Between a


kNN based Aproach and a PNN Algorithm for a Multi-Label
Classification Problem. Proceedings of the 2nd Workshop on Intelligent
Text Categorization and Clustering of the 8th International Conference
on Inteligent System Design and Applications (ISDA'08), pp. 628-633,
Kaohsiung City, Taiwan, November 2008.

[Picard84]

R. R. Picard, and R. D. Cook. Cross-Validation of Regression Models.


Journal of the American Statistical Association, 79(387), pages 575
583, 1984.

[Rijsbergen79]

V. Rijsbergen, C. J. Information Retrieval (Second ed.). Butterworths,


London, UK, 1979. Available at http://www.dcs.gla.ac.uk/Keith.

[Romero04]

E. Romero, L. Mrquez, and X. Carreras. Margin Maximization with


Feed-Forward Neural Networks: A Comparative Study with SVM and
Adaboost. Neurocomputing, 57: pages 313344, 2004.

[Salton75]

G. Salton, A. Wong, and C. Yang. A vector space model for automatic


indexing. Communications of the ACM 18, 11, 613620. Also reprinted
in [Sparck Jones and Willett 1997], pages 273280, 1975.

[Sbc09]

Sociedade Brasileira de Computao, Grandes desafios da pesquisa em


computao no Brasil 2006-2016. ltimo acesso em 12/08/2009.

[SCAE08]

Sistema Computacional de Codificao Automtica de Atividades


Econmicas (SCAE), Projeto de Classificao Automtica em CNAESubclasses Relato de Cumprimento de Metas No. 4. Universidade
Federal do Esprito Santo, Vitria, 2008.

[Schapire99]

R. E. Schapire and Y. Singer. Improved Boosting Algorithms Using


Confidence-Rated Predictions. Machine Learning, 27(3): pages 297
336, 1999.

[Schapire00]

R. E. Schapire and Y. Singer. BoosTexter: A boosting-Based System for


Text Categorization. Machine Learning, 39(2/3): pages 135168, 2000.

[Sebastiani02]

F. Sebastiani. Machine learning in automated text categorization. ACM

REFERNCIAS BIBLIOGRFICAS
153
Computing Surveys, 34(1): pages 147, 2002.
[Sparacino00]

G. Sparacino, C. Tombolato, C. Cobelli. Maximum-Likelihood versus


Maximum a Posteriori Parameter Estimation of Physiological System
Models: the c-peptide impulse response case study. Biomedical
Engineering, IEEE Transactions on Volume 47, Issue 6, pages 801
811, June 2000.

[Student08]

Student. The Probable Error of a Mean. Biometrika on Volume 6, pages


1 25, 1908.

[Ueda03]

N. Ueda and K. Saito. Parametric Mixture Models for Multi-Label Text.


In Advances in Neural Information Processing Systems, volume 15,
pages 721728. MIT Press, 2003.

[Witten05]

Ian H. Witten & E. Frank. Data Mining Practical Machine Learning


Tools and Techniques. Second Edition. US, 2005.

[Yang99]

Y.

Yang.

An

Evaluation

of Statistical

Approaches

to

Text

Categorization. In Information Retrieval, Volume 1, pages 69-90,


Hingham, US, 1999.
[Yang01]

Y. Yang. A Study of Thresholding Strategies for Text Categorization. In


Proceedings of the 24th Annual International ACM SIGIR Conference
on Research and Development in Information Retrieval (SIGIR01),
pages 137145, New Orleans, Louisiana, United States, 2001.

[Yavuz98]

T. Yavuz and H. Altay Guvenir. Application of k-nearest Neighbor on


Feature Projections Classifier to Text Categorization. Proceedings of
ISCIS, 13th International Symposium on Computer and Information
Sciences, pages 135-142, 1998.

[Zhang06]

M.-L. Zhang, Z.-H. Zhou,. Multi-label Neural Networks with


Applications to Functional Genomics and Text Categorization. IEEE
Transactions on Knowledge and Data Engineering 18(10), pages 1338
1351, 2006.

[Zhang07]

M.-L. Zhang and Z.-H. Zhou. ML-KNN: A Lazy Learning Approach to


Multi-Label Learning. Pattern Recognition, 40(7): pages 20382048,
2007.

APNDICE A

PARMETROS

OBTIDOS

NO

PROCEDIMENTO DE CALIBRAO DE SCUT


A.1 Parmetros obtidos no procedimento de calibrao de SCut para o
categorizador ML- k NN e para a base AT100
O apndice A apresenta os parmetros obtidos no procedimento de calibrao de
SCut para os categorizadores ML- k NN e VG-RAM WNN-COR e para as bases de dados
AT100 e EX100. A Tabela 9-1, Tabela 9-2, Tabela 9-3, Tabela 9-4 e
Tabela 9-5 mostram os parmetros obtidos do procedimento de calibrao do SCut
aplicado ao categorizador ML- k NN para as bases de dados EX100 e AT100.

155
APNDICE A

1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20

0,0005
0,0003
0,0073
0,0003
0,0039
0,0286
0,0002
0,0010
0,0049
0,0317
0,0042
0,0012
0,0009
0,0034
0,0004
0,0001
0,0060
0,0013
0,0030
0,0118

21
22
23
24
25
26
27
28
29
30
31
32
33
34
35
36
37
38
39
40

Tabela 9-1 Parmetros obtidos no procedimento de calibrao de SCut para ML- k NN e para a base AT100.
0,0000 41 0,0013 61 0,0100 81 0,0010 101 0,0003 121 0,0059 141 0,0003 161 0,0280
0,0148 42 0,0010 62 0,0100 82 0,0010 102 0,0080 122 0,0012 142 0,0066 162 0,0290
0,0003 43 0,0056 63 0,0473 83 0,0010 103 0,0160 123 0,0005 143 0,0012 163 0,0000
0,0020 44 0,0190 64 0,0037 84 0,0001 104 0,0191 124 0,0016 144 0,0020 164 0,0040
0,0697 45 0,0010 65 0,0700 85 0,0235 105 0,0281 125 0,0002 145 0,0390 165 0,0022
0,0977 46 0,0010 66 0,0550 86 0,0031 106 0,0001 126 0,0005 146 0,0014 166 0,0015
0,0013 47 0,0012 67 0,0005 87 0,0320 107 0,0001 127 0,0003 147 0,0020 167 0,0002
0,0005 48 0,0170 68 0,0003 88 0,2710 108 0,0001 128 0,0006 148 0,0005 168 0,0043
0,0025 49 0,0006 69 0,0006 89 0,0480 109 0,0005 129 0,0013 149 0,0007 169 0,0023
0,0009 50 0,0009 70 0,0010 90 0,0193 110 0,0023 130 0,0009 150 0,0050 170 0,0081
0,0017 51 0,0001 71 0,0005 91 0,0180 111 0,0032 131 0,0127 151 0,0160 171 0,0006
0,0004 52 0,0011 72 0,0005 92 0,0034 112 0,0066 132 0,0001 152 0,0003 172 0,0151
0,0096 53 0,0252 73 0,0008 93 0,0120 113 0,0019 133 0,0011 153 0,0030 173 0,0128
0,0019 54 0,0080 74 0,0013 94 0,0320 114 0,0015 134 0,0003 154 0,0011 174 0,0070
0,0004 55 0,0286 75 0,0010 95 0,0380 115 0,0041 135 0,0013 155 0,0018 175 0,0900
0,0033 56 0,0004 76 0,0023 96 0,0026 116 0,0002 136 0,0006 156 0,0109 176 0,0014
0,0119 57 0,0095 77 0,0040 97 0,0004 117 0,0177 137 0,0048 157 0,0227 177 0,0004
0,0105 58 0,0235 78 0,0024 98 0,0076 118 0,2180 138 0,0070 158 0,0048 178 0,0320
0,0073 59 0,0015 79 0,0120 99 0,0050 119 0,0167 139 0,0141 159 0,0030 179 0,1270
0,0004 60 0,0021 80 0,0140 100 0,0001 120 0,2090 140 0,0016 160 0,0095 180 0,0235

181
182
183
184
185
186
187
188
189
190
191
192
193
194
195
196
197
198
199
200

0,0080
0,0010
0,1390
0,0320
0,0008
0,0005
0,0002
0,0023
0,0052
0,0027
0,0001
0,0532
0,0147
0,0007
0,0060
0,0050
0,0022
0,0001
0,0013
0,0012

156
APNDICE A

201
202
203
204
205
206
207
208
209
210
211
212
213
214
215
216
217
218
219
220

0,0094
0,0764
0,0164
0,0023
0,0060
0,0035
0,0330
0,0024
0,0348
0,0021
0,0094
0,0190
0,0109
0,0069
0,0013
0,0014
0,0012
0,0006
0,0001
0,0013

221
222
223
224
225
226
227
228
229
230
231
232
233
234
235
236
237
238
239
240

Tabela 9-2 - Parmetros obtidos no procedimento de calibrao de SCut para ML- k NN e para a base AT100.
0,1410 241 0,0512 261 0,0027 281 0,0030 301 0,0590 321 0,1360 341 0,0037 361 0,0010
0,0020 242 0,0200 262 0,0074 282 0,0530 302 0,0790 322 0,0023 342 0,0113 362 0,0030
0,0087 243 0,0004 263 0,0493 283 0,0060 303 0,0043 323 0,0589 343 0,0103 363 0,1306
0,0001 244 0,0040 264 0,0090 284 0,0440 304 0,0380 324 0,0230 344 0,0050 364 0,0060
0,0101 245 0,0012 265 0,0028 285 0,0172 305 0,0020 325 0,0023 345 0,0050 365 0,0024
0,0001 246 0,0163 266 0,0374 286 0,0026 306 0,0330 326 0,0720 346 0,0685 366 0,0014
0,0069 247 0,0121 267 0,0013 287 0,0017 307 0,0710 327 0,1070 347 0,0010 367 0,0050
0,0003 248 0,0009 268 0,0001 288 0,0020 308 0,0285 328 0,0020 348 0,0002 368 0,0320
0,0032 249 0,0017 269 0,0026 289 0,0271 309 0,0118 329 0,0160 349 0,0160 369 0,0057
0,0218 250 0,0362 270 0,0040 290 0,0082 310 0,0910 330 0,1110 350 0,0075 370 0,0158
0,0010 251 0,0003 271 0,0120 291 0,0060 311 0,0119 331 0,1690 351 0,0090 371 0,0020
0,0080 252 0,0002 272 0,0012 292 0,0510 312 0,0002 332 0,2120 352 0,0114 372 0,0005
0,0007 253 0,0024 273 0,0438 293 0,0024 313 0,1850 333 0,0410 353 0,2503 373 0,0443
0,0001 254 0,0022 274 0,0010 294 0,0030 314 0,1680 334 0,1500 354 0,0216 374 0,0022
0,0030 255 0,0026 275 0,0029 295 0,0005 315 0,1220 335 0,0094 355 0,0057 375 0,0177
0,0029 256 0,0005 276 0,0043 296 0,0052 316 0,0990 336 0,0010 356 0,0110 376 0,0029
0,0010 257 0,0006 277 0,0010 297 0,0025 317 0,2830 337 0,0150 357 0,0010 377 0,0445
0,0003 258 0,0167 278 0,0037 298 0,0140 318 0,0270 338 0,0003 358 0,0007 378 0,0003
0,0001 259 0,0012 279 0,0010 299 0,0190 319 0,3470 339 0,0014 359 0,0170 379 0,0004
0,0015 260 0,0013 280 0,0010 300 0,1590 320 0,0044 340 0,0297 360 0,0030 380 0,0025

381
382
383
384
385
386
387
388
389
390
391
392
393
394
395
396
397
398
399
400

0,0010
0,0023
0,0209
0,0280
0,0224
0,0345
0,0060
0,0005
0,1770
0,0280
0,0010
0,0002
0,0060
0,0018
0,0005
0,0048
0,0207
0,0230
0,0020
0,0560

157
APNDICE A

401
402
403
404
405
406
407
408
409
410
411
412
413
414
415
416
417
418
419
420

0,0010
0,0780
0,0320
0,1000
0,0020
0,0064
0,2370
0,0610
0,0630
0,2330
0,0600
0,0850
0,0600
0,1170
0,0920
0,1800
0,0860
0,1590
0,2330
0,0230

421
422
423
424
425
426
427
428
429
430
431
432
433
434
435
436
437
438
439
440

Tabela 9-3 - Parmetros obtidos no procedimento de calibrao de SCut para ML- k NN e para a base AT100.
0,1660 441 0,0570 461 0,0300 481 0,0037 501 0,0010 521 0,0002 541 0,0045 561 0,0046
0,1360 442 0,0070 462 0,0123 482 0,0450 502 0,0002 522 0,0031 542 0,0011 562 0,1680
0,1900 443 0,0626 463 0,0330 483 0,0430 503 0,0055 523 0,0386 543 0,0130 563 0,0280
0,2210 444 0,0980 464 0,0619 484 0,0459 504 0,0260 524 0,0360 544 0,3810 564 0,3220
0,0480 445 0,0370 465 0,0010 485 0,0077 505 0,1470 525 0,0020 545 0,0330 565 0,0035
0,0130 446 0,0420 466 0,0130 486 0,0030 506 0,0180 526 0,1570 546 0,0343 566 0,1130
0,0460 447 0,0131 467 0,0280 487 0,0620 507 0,0110 527 0,0067 547 0,0018 567 0,1020
0,1650 448 0,0140 468 0,0019 488 0,1300 508 0,0006 528 0,0140 548 0,2300 568 0,1020
0,1010 449 0,1180 469 0,1880 489 0,0007 509 0,0078 529 0,0790 549 0,1140 569 0,1320
0,2510 450 0,0820 470 0,1530 490 0,1690 510 0,0099 530 0,0740 550 0,1760 570 0,1320
0,0220 451 0,1560 471 0,0320 491 0,0550 511 0,0004 531 0,0040 551 0,2710 571 0,1050
0,0250 452 0,0010 472 0,0035 492 0,1330 512 0,0034 532 0,0060 552 0,2280 572 0,1970
0,0710 453 0,0002 473 0,0150 493 0,2150 513 0,0006 533 0,1360 553 0,3010 573 0,0000
0,1800 454 0,0640 474 0,0050 494 0,0620 514 0,0080 534 0,0010 554 0,3520 574 0,0233
0,0820 455 0,0080 475 0,0150 495 0,0004 515 0,0050 535 0,0028 555 0,0323 575 0,0060
0,0200 456 0,0410 476 0,0204 496 0,0018 516 0,0140 536 0,0911 556 0,0020 576 0,0850
0,0010 457 0,0030 477 0,0180 497 0,0010 517 0,0477 537 0,0100 557 0,0010 577 0,1480
0,0016 458 0,0008 478 0,0590 498 0,0055 518 0,1520 538 0,0037 558 0,2220 578 0,0040
0,0230 459 0,0000 479 0,0032 499 0,0034 519 0,0034 539 0,0015 559 0,0190 579 0,0650
0,0044 460 0,0043 480 0,0645 500 0,0010 520 0,0048 540 0,0097 560 0,0027 580 0,2520

581
582
583
584
585
586
587
588
589
590
591
592
593
594
595
596
597
598
599
600

0,0510
0,2587
0,1340
0,1620
0,0790
0,0680
0,0006
0,0048
0,1460
0,0096
0,0320
0,0007
0,0014
0,1400
0,0720
0,2140
0,0002
0,0096
0,0003
0,0720

158
APNDICE A
Tabela 9-4 - Parmetros obtidos no procedimento de calibrao de SCut para ML- k NN e para a base
AT100.
601 0,0180 621 0,1550 641 0,0299 661 0,1860 681 0,0080
602 0,1550 622 0,1600 642 0,0009 662 0,0035 682 0,0010
603 0,0130 623 0,0361 643 0,0380 663 0,0130 683 0,0004
604 0,0001 624 0,0480 644 0,0002 664 0,0039 684 0,1850
605 0,0005 625 0,0000 645 0,0091 665 0,0619 685 0,0830
606 0,0584 626 0,0004 646 0,0044 666 0,0361 686 0,0302
607 0,0012 627 0,0060 647 0,1680 667 0,0590 687 0,0060
608 0,0038 628 0,0010 648 0,0950 668 0,0030 688 0,0020
609 0,0019 629 0,1830 649 0,0200 669 0,0010 689 0,0060
610 0,0004 630 0,0330 650 0,1600 670 0,0020 690 0,0005
611 0,1900 631 0,0010 651 0,0541 671 0,0144 691 0,0407
612 0,0040 632 0,1900 652 0,0750 672 0,0057 692 0,0001
613 0,0100 633 0,0693 653 0,0030 673 0,0060
614 0,0030 634 0,0037 654 0,0450 674 0,2500
615 0,0422 635 0,0006 655 0,0088 675 0,0020
616 0,0010 636 0,0010 656 0,0050 676 0,0050
617 0,0013 637 0,0840 657 0,0070 677 0,0115
618 0,0800 638 0,0018 658 0,0010 678 0,0004
619 0,1040 639 0,0235 659 0,0170 679 0,0009
620 0,0010 640 0,0037 660 0,0140 680 0,0020

A.2 Parmetros obtidos no procedimento de calibrao de SCut para o


categorizador ML- k NN e para a base EX100
Tabela 9-5 - Parmetros obtidos no procedimento de calibrao de SCut para ML- k NN e para a base
EX100.
0,0870 21 0,0410 41
0,1570 61
0,1910
0,1870
0,0910
1
81
101
0,1390 22 0,1530 42
0,1060 62
0,3180
0,1750
0,1580
2
82
102
0,0940 23 0,1610 43
0,2370 63
0,0610
0,1880
0,4740
3
83
103
0,1320 24 0,1880 44
0,2590 64
0,0930
0,1340
0,1870
4
84
104
0,0960 25 0,2640 45
0,2440 65
0,2200
0,1120
0,1870
5
85
105
0,2550 26 0,1010 46
0,2330 66
0,1320
0,1390
6
86
0,0870 27 0,0940 47
0,0170 67
0,1010
0,1580
7
87
0,1140 28 0,1360 48
0,0800 68
0,2010
0,0980
8
88
0,1010 29 0,0840 49
0,0890 69
0,1060
0,1220
9
89
0,2320 30 0,1210 50
0,1350 70
0,1350
0,2390
10
90
0,0610 31 0,1140 51
0,0590 71
0,0460
0,1320
11
91
0,2600 32 0,1940 52
0,3230 72
0,0740
0,0360
12
92
0,1520
0,1880
0,1610
0,0970
0,1070
13
33
53
73
93
0,1490 34 0,4050 54
0,0630 74
0,3160
0,4390
14
94
0,0670 35 0,1140 55
0,2380 75
0,1660
0,1410
15
95
0,1930 36 0,1940 56
0,0960 76
0,0950
0,1190
16
96
0,2110 37 0,2510 57
0,0950 77
0,0530
0,1320
17
97
0,2080 38 0,1850 58
0,3190 78
0,0550
0,1670
18
98
0,1050 39 0,1060 59
0,3190 79
0,1310
0,2320
19
99
0,0720 40 0,0830 60
0,1010 80
0,0410 100
0,0860
20

159
APNDICE A

A.3 Parmetros obtidos no procedimento de calibrao de SCut para o


categorizador VG-RAM WNN-COR e para a base AT100
A Tabela 9-6, Tabela 9-7, Tabela 9-8, Tabela 9-9 e Tabela 9-10 mostram os
parmetros obtidos do procedimento de calibrao do SCut aplicado ao categorizador VGRAM WNN-COR para as bases de dados EX100 e AT100.

160
APNDICE A

1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20

0,0057
0,0078
0,0138
0,0056
0,0333
0,0084
0,0062
0,0110
0,0192
0,0284
0,0111
0,0056
0,0099
0,0284
0,0600
0,0043
0,0345
0,0134
0,0190
0,0375

Tabela 9-6 - Parmetros obtidos no procedimento de calibrao de SCut para VG-RAM WNN-COR e para a base AT100.
21 0,0016 41 0,0093 61 0,0460 81 0,0150 101 0,0050 121 0,0203 141 0,0261 161 0,0230
22 0,0219 42 0,0050 62 0,0210 82 0,0041 102 0,0080 122 0,0167 142 0,0117 162 0,0420
23 0,0126 43 0,0227 63 0,0223 83 0,0037 103 0,0210 123 0,0023 143 0,0071 163 0,0037
24 0,0067 44 0,0110 64 0,0134 84 0,0095 104 0,0369 124 0,0249 144 0,0070 164 0,0209
25 0,0350 45 0,0230 65 0,0370 85 0,0252 105 0,0430 125 0,0143 145 0,0390 165 0,0196
26 0,0266 46 0,0090 66 0,0414 86 0,0140 106 0,0101 126 0,0032 146 0,0074 166 0,0118
27 0,0073 47 0,0266 67 0,0268 87 0,1145 107 0,0256 127 0,0035 147 0,0130 167 0,0150
28 0,0085 48 0,0320 68 0,0068 88 0,0550 108 0,0043 128 0,0114 148 0,0568 168 0,0233
29 0,0123 49 0,0756 69 0,0152 89 0,0280 109 0,0048 129 0,0073 149 0,0090 169 0,0208
30 0,0130 50 0,0090 70 0,0155 90 0,0137 110 0,0153 130 0,0144 150 0,0154 170 0,0385
31 0,0129 51 0,0141 71 0,0072 91 0,0268 111 0,0185 131 0,1887 151 0,0130 171 0,0060
32 0,0077 52 0,0201 72 0,0161 92 0,0177 112 0,0228 132 0,0099 152 0,0134 172 0,0357
33 0,0348 53 0,0319 73 0,0143 93 0,0210 113 0,0069 133 0,0181 153 0,0080 173 0,0372
34 0,0712 54 0,0200 74 0,0055 94 0,0250 114 0,0114 134 0,0126 154 0,0120 174 0,0240
35 0,0020 55 0,0071 75 0,0140 95 0,0350 115 0,0358 135 0,0046 155 0,0074 175 0,0280
36 0,0172 56 0,0270 76 0,0072 96 0,0333 116 0,0063 136 0,0114 156 0,0272 176 0,0132
37 0,0461 57 0,0279 77 0,0080 97 0,0053 117 0,0349 137 0,0059 157 0,0499 177 0,0036
38 0,0574 58 0,0090 78 0,1210 98 0,0692 118 0,0870 138 0,0190 158 0,0074 178 0,0274
39 0,0032 59 0,0094 79 0,0310 99 0,0135 119 0,0233 139 0,0591 159 0,0275 179 0,0360
40 0,0070 60 0,0091 80 0,0260 100 0,0022 120 0,0440 140 0,0048 160 0,0357 180 0,0136

181
182
183
184
185
186
187
188
189
190
191
192
193
194
195
196
197
198
199
200

0,0390
0,0120
0,0431
0,0250
0,0027
0,0169
0,0069
0,0181
0,0238
0,0076
0,0080
0,0276
0,0080
0,0122
0,0060
0,0160
0,0152
0,0029
0,0032
0,0195

161
APNDICE A

201
202
203
204
205
206
207
208
209
210
211
212
213
214
215
216
217
218
219
220

0,0085
0,0220
0,0076
0,0188
0,0242
0,0118
0,0510
0,0080
0,0440
0,0157
0,0154
0,0340
0,0301
0,0165
0,0113
0,0119
0,0153
0,0202
0,0072
0,0081

Tabela 9-7 - Parmetros obtidos no procedimento de calibrao de SCut para VG-RAM WNN-COR e para a base AT100.
221 0,0470 241 0,0534 261 0,0171 281 0,0699 301 0,0720 321 0,0560 341 0,0334 361 0,0030
222 0,0080 242 0,1070 262 0,0271 282 0,0380 302 0,0765 322 0,0140 342 0,0359 362 0,0170
223 0,0084 243 0,0219 263 0,0219 283 0,1960 303 0,0218 323 0,0548 343 0,0339 363 0,0436
224 0,0033 244 0,0180 264 0,0470 284 0,0070 304 0,0260 324 0,0220 344 0,0120 364 0,0219
225 0,0090 245 0,0036 265 0,0330 285 0,1014 305 0,0230 325 0,0096 345 0,0160 365 0,0846
226 0,0030 246 0,0171 266 0,0065 286 0,0194 306 0,0340 326 0,0290 346 0,0437 366 0,0296
227 0,0106 247 0,0139 267 0,0120 287 0,0402 307 0,0340 327 0,0580 347 0,0320 367 0,0120
228 0,0016 248 0,0075 268 0,0037 288 0,0334 308 0,0228 328 0,0060 348 0,0218 368 0,0483
229 0,0075 249 0,0073 269 0,0109 289 0,0149 309 0,0240 329 0,0280 349 0,0530 369 0,0198
230 0,0150 250 0,1533 270 0,0620 290 0,0258 310 0,0350 330 0,0670 350 0,0421 370 0,0119
231 0,0030 251 0,0048 271 0,0270 291 0,0130 311 0,0128 331 0,0920 351 0,0140 371 0,0426
232 0,0200 252 0,0064 272 0,0115 292 0,0330 312 0,0099 332 0,1330 352 0,0020 372 0,0094
233 0,0294 253 0,0030 273 0,0601 293 0,0104 313 0,0410 333 0,0840 353 0,0589 373 0,0373
234 0,0029 254 0,0016 274 0,0171 294 0,0080 314 0,0690 334 0,0860 354 0,0195 374 0,0070
235 0,0187 255 0,0051 275 0,0191 295 0,0214 315 0,0520 335 0,0218 355 0,0084 375 0,0743
236 0,0111 256 0,0093 276 0,0212 296 0,0058 316 0,0690 336 0,0410 356 0,0192 376 0,0052
237 0,0120 257 0,0052 277 0,0040 297 0,0136 317 0,0610 337 0,0370 357 0,0120 377 0,0565
238 0,0077 258 0,0390 278 0,0146 298 0,0190 318 0,0400 338 0,0079 358 0,0115 378 0,0094
239 0,0040 259 0,0065 279 0,0250 299 0,0390 319 0,0680 339 0,0060 359 0,0180 379 0,0215
240 0,0094 260 0,0049 280 0,0250 300 0,0570 320 0,0128 340 0,0010 360 0,0110 380 0,0010

381
382
383
384
385
386
387
388
389
390
391
392
393
394
395
396
397
398
399
400

0,0010
0,0561
0,0663
0,0400
0,0249
0,0164
0,0200
0,0029
0,0680
0,0250
0,0410
0,0136
0,0230
0,0020
0,0080
0,0187
0,0181
0,0190
0,0230
0,0560

162
APNDICE A

401
402
403
404
405
406
407
408
409
410
411
412
413
414
415
416
417
418
419
420

0,0030
0,0470
0,0290
0,0640
0,0130
0,0091
0,1240
0,0580
0,0950
0,0630
0,0400
0,0570
0,0900
0,0360
0,0500
0,0950
0,0690
0,0610
0,0710
0,3890

Tabela 9-8 - Parmetros obtidos no procedimento de calibrao de SCut para VG-RAM WNN-COR e para a base AT100.
421 0,0850 441 0,0420 461 0,0370 481 0,0107 501 0,0250 521 0,0083 541 0,0226 561 0,0165
422 0,0410 442 0,0240 462 0,1023 482 0,0590 502 0,0167 522 0,0399 542 0,0306 562 0,0470
423 0,0690 443 0,0698 463 0,0130 483 0,0288 503 0,0360 523 0,0252 543 0,0400 563 0,0040
424 0,0840 444 0,0640 464 0,0502 484 0,0416 504 0,0330 524 0,0390 544 0,0940 564 0,1130
425 0,0400 445 0,0310 465 0,0200 485 0,0111 505 0,0950 525 0,0340 545 0,0450 565 0,0167
426 0,0170 446 0,0960 466 0,0070 486 0,0250 506 0,0540 526 0,1050 546 0,0266 566 0,0640
427 0,0570 447 0,0226 467 0,0640 487 0,0200 507 0,0620 527 0,0136 547 0,0057 567 0,0610
428 0,0570 448 0,0120 468 0,0208 488 0,0720 508 0,0267 528 0,0330 548 0,0590 568 0,0610
429 0,0640 449 0,1090 469 0,0890 489 0,0287 509 0,1492 529 0,0520 549 0,0520 569 0,0580
430 0,0730 450 0,0660 470 0,0730 490 0,1200 510 0,0341 530 0,1230 550 0,0810 570 0,0550
431 0,1030 451 0,0940 471 0,0760 491 0,1640 511 0,0124 531 0,0200 551 0,1000 571 0,0410
432 0,0490 452 0,0020 472 0,0193 492 0,0900 512 0,0120 532 0,0830 552 0,1180 572 0,0600
433 0,0560 453 0,0259 473 0,0490 493 0,0690 513 0,0080 533 0,0920 553 0,0550 573 0,0031
434 0,0730 454 0,0420 474 0,0900 494 0,0491 514 0,0540 534 0,0173 554 0,0320 574 0,0244
435 0,0330 455 0,0170 475 0,0230 495 0,0209 515 0,0040 535 0,0090 555 0,0301 575 0,0110
436 0,0330 456 0,0640 476 0,0512 496 0,0419 516 0,0470 536 0,1237 556 0,0085 576 0,0720
437 0,0030 457 0,0078 477 0,0520 497 0,0070 517 0,0267 537 0,0470 557 0,0100 577 0,1120
438 0,0086 458 0,0151 478 0,0790 498 0,0837 518 0,0360 538 0,0171 558 0,0570 578 0,0220
439 0,0470 459 0,0023 479 0,0155 499 0,0180 519 0,0079 539 0,0239 559 0,0300 579 0,0450
440 0,0050 460 0,0173 480 0,0096 500 0,0157 520 0,0381 540 0,2422 560 0,0113 580 0,0850

581
582
583
584
585
586
587
588
589
590
591
592
593
594
595
596
597
598
599
600

0,0540
0,1498
0,0730
0,0680
0,0660
0,0720
0,0173
0,0098
0,0430
0,0299
0,1170
0,0042
0,0133
0,0930
0,0610
0,0840
0,1200
0,0160
0,0059
0,0370

163
APNDICE A
Tabela 9-9 - Parmetros obtidos no procedimento de calibrao de SCut para VG-RAM WNN-COR e
para a base AT100.
601 0,0246 621 0,0930 641 0,0619 661 0,0780 681 0,1247
602 0,0610 622 0,1080 642 0,0209 662 0,0128 682 0,0020
603 0,0590 623 0,0240 643 0,0360 663 0,0100 683 0,0050
604 0,0270 624 0,0500 644 0,0249 664 0,0115 684 0,1570
605 0,0652 625 0,0023 645 0,0147 665 0,0586 685 0,0750
606 0,0740 626 0,0062 646 0,0131 666 0,0286 686 0,0103
607 0,0116 627 0,0440 647 0,0440 667 0,0230 687 0,0103
608 0,0190 628 0,0490 648 0,0440 668 0,0250 688 0,0200
609 0,0100 629 0,0930 649 0,0470 669 0,0170 689 0,0222
610 0,0255 630 0,0500 650 0,0730 670 0,0030 690 0,0113
611 0,1160 631 0,0100 651 0,1465 671 0,0195 691 0,0020
612 0,0290 632 0,0500 652 0,0300 672 0,0269 692 0,0035
613 0,0150 633 0,0429 653 0,0100 673 0,0150
614 0,0120 634 0,0123 654 0,0450 674 0,0630
615 0,0589 635 0,0084 655 0,0605 675 0,0200
616 0,0240 636 0,0030 656 0,0160 676 0,0090
617 0,0176 637 0,0730 657 0,0170 677 0,2038
618 0,1240 638 0,0274 658 0,0210 678 0,0079
619 0,0530 639 0,0264 659 0,0460 679 0,0228
620 0,0110 640 0,0132 660 0,0370 680 0,0130

A.4 Parmetros obtidos no procedimento de calibrao de SCut para o


categorizador VG-RAM WNN-COR e para a base EX100
Tabela 9-10 - Parmetros obtidos no procedimento de calibrao de SCut para VG-RAM WNN-COR e
para a base EX100.
0,0660 21 0,0390 41
0,0560 61
0,0740
0,0860 101
0,0590
1
81
0,0600
0,0500
0,0880
0,0660
0,0800
0,1070
2
22
42
62
82
102
0,0370 23 0,0460 43
0,0750 63
0,0770
0,0890 103
0,1010
3
83
0,0750 24 0,0690 44
0,0660 64
0,0620
0,0390 104
0,0550
4
84
0,0700 25 0,0710 45
0,0830 65
0,0780
0,0520 105
0,0770
5
85
0,0550 26 0,0760 46
0,0840 66
0,0690
0,0850
6
86
0,0860 27 0,0450 47
0,0210 67
0,0620
0,0790
7
87
0,0820 28 0,0720 48
0,0960 68
0,0400
0,0610
8
88
0,0750 29 0,0500 49
0,0470 69
0,0640
0,0730
9
89
0,0510 30 0,0540 50
0,0570 70
0,0720
0,0930
10
90
0,0490 31 0,0650 51
0,0630 71
0,0380
0,0930
11
91
0,0590 32 0,0710 52
0,1140 72
0,0720
0,0350
12
92
0,0670 33 0,0700 53
0,0590 73
0,0340
0,1120
13
93
0,0680 34 0,1500 54
0,0410 74
0,0580
0,0650
14
94
0,0790 35 0,0530 55
0,0770 75
0,0520
0,0550
15
95
0,0770 36 0,0520 56
0,0450 76
0,0620
0,0460
16
96
0,0760 37 0,0920 57
0,0610 77
0,0330
0,0710
17
97
0,0800 38 0,0700 58
0,0620 78
0,0570
0,0980
18
98
0,0830 39 0,0670 59
0,0630 79
0,0600
0,1020
19
99
0,0320 40 0,0520 60
0,0440 80
0,0320 100 0,0520
20

APNDICE B

PROBABILIDADES P(X|Y,K) DE

VALIDAO VERSUS P(X|Y,K) DE TESTE

A Tabela 9-11, Tabela 9-12, Tabela 9-13, Tabela 9-14 e Tabela 9-15 apresentam a
comparao entre os valores de p(x|y,k) calculados analiticamente (por meio da regra de
Bayes a partir das estimativas de p(x|k), p(y|k) e p(y|x,k) obtidas nos experimentos de
validao) com os valores de p(x|y,k) estimados empiricamente (a partir dos experimentos de
teste para k = { 1, 2, 3, 4 e 5 }, referentes as cincro primeiras posies do ranking) para o
categorizador ML- k NN empregando a base AT100. Nas tabelas citadas acima, a coluna
Intervalo mostra cada um dos 20 intervalos de valores de f observados nos experimentos de
validao, a coluna Validao mostra os valores de p(x|y,k) calculados analiticamente por
meio da regra de Bayes com os resultados dos experimentos de validao, e a coluna Teste
mostra os valores de p(x|y,k) estimados empiricamente a partir dos experimentos de teste.
Como pode ser observado na Tabela 9-11, Tabela 9-12, Tabela 9-13, Tabela 9-14 e
Tabela 9-15, os valores de p(x|y,k) calculados analiticamente por meio da regra de Bayes so
muito prximos aos valores de p(x|y,k) estimados empiricamente, o que demonstra que,
usando nossa metodologia, possvel prever no teste com o ltimo fold (no visto pelo MLk NN durante o treinamento) o quo certo est o ML- k NN quanto primeira categoria no

seu ranking de sada ser pertinente para um dado documento. importante destacar que esta
medida de certeza vai de 0% a 100% uma medida facilmente compreensvel para um
operador do SCAE humano.
O sistema SCAE usa as tabelas Tabela 9-11, Tabela 9-12, Tabela 9-13, Tabela 9-14 e
Tabela 9-15 da seguinte forma. Se o ML- k NN predisse a categoria ci para o documento dj
com grau de crena f(dj, ci) dentro de um intervalo y (dentre os 20 intervalos observados na
validao), e posicionou a categoria ci na posio r(dj, ci) do ranking, ento a medida de
certeza para essa predio pode ser expressa por p(x|y,k), onde y f(dj, ci) e k = r(dj, ci).
A Tabela 9-11, Tabela 9-12, Tabela 9-13, Tabela 9-14 e Tabela 9-15 mostram os
resultados do uso de nossa metodologia para valores de k iguais a 1, 2, 3, 4 e 5
respectivamente. Como pode ser visto nestas tabelas, tambm para estes valores de k
possvel prever no teste com o ltimo fold o quo certo est o ML- k NN quanto categoria na
posio k no seu ranking de sada ser pertinente para um dado documento. Note que, quanto

165
APNDICE B
maior o k (quanto mais abaixo no ranking de sada do categorizador), menos provvel que a
categoria atribuda pelo categorizador seja pertinente ao documento (ver ltima linha das
tabelas). Isso esperado, j que, para a base de dados empregada no treinamento (AT100),
incomum existirem mais que dois cdigos pertinentes a um dado documento.

Tabela 9-11 Probabilidades p(x|y,k) de validao versus p(x|y,k) de teste para a posio k=1 do ranking
em cada um dos 20 intervalos observados de f.
Ordem
Intervalo
1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20

Intervalo
( 0,000000 - 0,155871 )
( 0,155871 - 0,198844 )
( 0,198844 - 0,229916 )
( 0,229916 - 0,256375 )
( 0,256375 - 0,280119 )
( 0,280119 - 0,303212 )
( 0,303212 - 0,326125 )
( 0,326125 - 0,346033 )
( 0,346033 - 0,366272 )
( 0,366272 - 0,386598 )
( 0,386598 - 0,409530 )
( 0,409530 - 0,434036 )
( 0,434036 - 0,457209 )
( 0,457209 - 0,486895 )
( 0,486895 - 0,518835 )
( 0,518835 - 0,559086 )
( 0,559086 - 0,607647 )
( 0,607647 - 0,669649 )
( 0,669649 - 0,759295 )
( 0,759295 - 1,000000 )

Validao
p(x|y,k)
p(x|y,k)
p(x|y,k)
p(x|y,k)
p(x|y,k)
p(x|y,k)
p(x|y,k)
p(x|y,k)
p(x|y,k)
p(x|y,k)
p(x|y,k)
p(x|y,k)
p(x|y,k)
p(x|y,k)
p(x|y,k)
p(x|y,k)
p(x|y,k)
p(x|y,k)
p(x|y,k)
p(x|y,k)

0,122622
0,203393
0,317798
0,330508
0,341106
0,461866
0,466099
0,476698
0,489407
0,536022
0,546610
0,586870
0,593225
0,620766
0,678651
0,690031
0,707631
0,775432
0,832635
0,928713

Teste
p(x|y,k)
p(x|y,k)
p(x|y,k)
p(x|y,k)
p(x|y,k)
p(x|y,k)
p(x|y,k)
p(x|y,k)
p(x|y,k)
p(x|y,k)
p(x|y,k)
p(x|y,k)
p(x|y,k)
p(x|y,k)
p(x|y,k)
p(x|y,k)
p(x|y,k)
p(x|y,k)
p(x|y,k)
p(x|y,k)

0,204082
0,200000
0,363636
0,230769
0,431818
0,369565
0,538462
0,625000
0,533333
0,659091
0,468085
0,568627
0,627451
0,666667
0,649123
0,600000
0,711111
0,816327
0,914286
0,961538

166
APNDICE B
Tabela 9-12 - Probabilidades p(x|y,k) de validao versus p(x|y,k) de teste para a posio k=2 do ranking
em cada um dos 20 intervalos observados de f.
Ordem
Intervalo
1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20

Intervalo
( 0,000000 - 0,046800 )
( 0,046800 - 0,067131 )
( 0,067131 - 0,081792 )
( 0,081792 - 0,094919 )
( 0,094919 - 0,107926 )
( 0,107926 - 0,120012 )
( 0,120012 - 0,132169 )
( 0,132169 - 0,144638 )
( 0,144638 - 0,155147 )
( 0,155147 - 0,167371 )
( 0,167371 - 0,179440 )
( 0,179440 - 0,190638 )
( 0,190638 - 0,204448 )
( 0,204448 - 0,219379 )
( 0,219379 - 0,233891 )
( 0,233891 - 0,249914 )
( 0,249914 - 0,271343 )
( 0,271343 - 0,295373 )
( 0,295373 - 0,333566 )
( 0,333566 - 1,000000 )

Validao
p(x|y,k)
p(x|y,k)
p(x|y,k)
p(x|y,k)
p(x|y,k)
p(x|y,k)
p(x|y,k)
p(x|y,k)
p(x|y,k)
p(x|y,k)
p(x|y,k)
p(x|y,k)
p(x|y,k)
p(x|y,k)
p(x|y,k)
p(x|y,k)
p(x|y,k)
p(x|y,k)
p(x|y,k)
p(x|y,k)

0,029599
0,067797
0,069913
0,112287
0,112287
0,156781
0,133474
0,133474
0,220342
0,211867
0,241528
0,266952
0,300851
0,290255
0,292376
0,364411
0,404663
0,538137
0,591106
0,624732

Teste
p(x|y,k)
p(x|y,k)
p(x|y,k)
p(x|y,k)
p(x|y,k)
p(x|y,k)
p(x|y,k)
p(x|y,k)
p(x|y,k)
p(x|y,k)
p(x|y,k)
p(x|y,k)
p(x|y,k)
p(x|y,k)
p(x|y,k)
p(x|y,k)
p(x|y,k)
p(x|y,k)
p(x|y,k)
p(x|y,k)

0,020833
0,062500
0,122449
0,127660
0,043478
0,155556
0,058824
0,176471
0,191489
0,285714
0,266667
0,256410
0,259259
0,315789
0,347826
0,456522
0,574468
0,518519
0,604651
0,711864

Tabela 9-13 - Probabilidades p(x|y,k) de validao versus p(x|y,k) de teste para a posio k=3 do ranking
em cada um dos 20 intervalos observados de f.
Ordem
Intervalo
1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20

Intervalo
( 0,000000 - 0,021835 )
( 0,021835 - 0,031798 )
( 0,031798 - 0,040027 )
( 0,040027 - 0,047837 )
( 0,047837 - 0,054814 )
( 0,054814 - 0,060665 )
( 0,060665 - 0,066884 )
( 0,066884 - 0,073148 )
( 0,073148 - 0,079471 )
( 0,079471 - 0,086391 )
( 0,086391 - 0,093646 )
( 0,093646 - 0,100427 )
( 0,100427 - 0,108284 )
( 0,108284 - 0,116739 )
( 0,116739 - 0,125955 )
( 0,125955 - 0,136692 )
( 0,136692 - 0,148551 )
( 0,148551 - 0,165724 )
( 0,165724 - 0,190991 )
( 0,190991 - 1,000000 )

Validao
p(x|y,k)
p(x|y,k)
p(x|y,k)
p(x|y,k)
p(x|y,k)
p(x|y,k)
p(x|y,k)
p(x|y,k)
p(x|y,k)
p(x|y,k)
p(x|y,k)
p(x|y,k)
p(x|y,k)
p(x|y,k)
p(x|y,k)
p(x|y,k)
p(x|y,k)
p(x|y,k)
p(x|y,k)
p(x|y,k)

0,012685
0,029662
0,044493
0,055085
0,105932
0,063559
0,088985
0,105932
0,097459
0,095340
0,103813
0,135594
0,116528
0,175848
0,203391
0,199156
0,235172
0,292376
0,379239
0,410900

Teste
p(x|y,k)
p(x|y,k)
p(x|y,k)
p(x|y,k)
p(x|y,k)
p(x|y,k)
p(x|y,k)
p(x|y,k)
p(x|y,k)
p(x|y,k)
p(x|y,k)
p(x|y,k)
p(x|y,k)
p(x|y,k)
p(x|y,k)
p(x|y,k)
p(x|y,k)
p(x|y,k)
p(x|y,k)
p(x|y,k)

0,018182
0,023810
0,021739
0,040816
0,113636
0,092593
0,021739
0,057692
0,166667
0,029412
0,192982
0,090909
0,085714
0,145833
0,214286
0,255319
0,170732
0,195122
0,351852
0,379310

167
APNDICE B
Tabela 9-14 - Probabilidades p(x|y,k) de validao versus p(x|y,k) de teste para a posio k=4 do ranking
em cada um dos 20 intervalos observados de f.
Ordem
Intervalo
1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20

Intervalo
( 0,000000 - 0,012437 )
( 0,012437 - 0,017597 )
( 0,017597 - 0,022350 )
( 0,022350 - 0,026812 )
( 0,026812 - 0,031215 )
( 0,031215 - 0,035319 )
( 0,035319 - 0,039399 )
( 0,039399 - 0,043048 )
( 0,043048 - 0,047127 )
( 0,047127 - 0,051496 )
( 0,051496 - 0,055322 )
( 0,055322 - 0,060445 )
( 0,060445 - 0,065048 )
( 0,065048 - 0,070333 )
( 0,070333 - 0,076525 )
( 0,076525 - 0,083404 )
( 0,083404 - 0,091928 )
( 0,091928 - 0,103028 )
( 0,103028 - 0,119972 )
( 0,119972 - 1,000000 )

Validao
p(x|y,k)
p(x|y,k)
p(x|y,k)
p(x|y,k)
p(x|y,k)
p(x|y,k)
p(x|y,k)
p(x|y,k)
p(x|y,k)
p(x|y,k)
p(x|y,k)
p(x|y,k)
p(x|y,k)
p(x|y,k)
p(x|y,k)
p(x|y,k)
p(x|y,k)
p(x|y,k)
p(x|y,k)
p(x|y,k)

0,014800
0,014831
0,023304
0,019067
0,042373
0,038136
0,048729
0,067796
0,074153
0,078390
0,065678
0,091103
0,125001
0,114407
0,120763
0,148305
0,156780
0,148305
0,222458
0,257858

Teste
p(x|y,k)
p(x|y,k)
p(x|y,k)
p(x|y,k)
p(x|y,k)
p(x|y,k)
p(x|y,k)
p(x|y,k)
p(x|y,k)
p(x|y,k)
p(x|y,k)
p(x|y,k)
p(x|y,k)
p(x|y,k)
p(x|y,k)
p(x|y,k)
p(x|y,k)
p(x|y,k)
p(x|y,k)
p(x|y,k)

0,000000
0,037037
0,032787
0,025641
0,085106
0,000000
0,062500
0,075472
0,055556
0,134615
0,050000
0,068182
0,129630
0,111111
0,166667
0,236364
0,279070
0,045455
0,163265
0,354167

Tabela 9-15 - Probabilidades p(x|y,k) de validao versus p(x|y,k) de teste para a posio k=5 do ranking
em cada um dos 20 intervalos observados de f.
Ordem
Intervalo
1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20

Intervalo
( 0,000000 - 0,008109 )
( 0,008109 - 0,011586 )
( 0,011586 - 0,014541 )
( 0,014541 - 0,017468 )
( 0,017468 - 0,020293 )
( 0,020293 - 0,023035 )
( 0,023035 - 0,026077 )
( 0,026077 - 0,028816 )
( 0,028816 - 0,031337 )
( 0,031337 - 0,034265 )
( 0,034265 - 0,037388 )
( 0,037388 - 0,040463 )
( 0,040463 - 0,043415 )
( 0,043415 - 0,046828 )
( 0,046828 - 0,051191 )
( 0,051191 - 0,055682 )
( 0,055682 - 0,061202 )
( 0,061202 - 0,068732 )
( 0,068732 - 0,079801 )
( 0,079801 - 1,000000 )

Validao
p(x|y,k)
p(x|y,k)
p(x|y,k)
p(x|y,k)
p(x|y,k)
p(x|y,k)
p(x|y,k)
p(x|y,k)
p(x|y,k)
p(x|y,k)
p(x|y,k)
p(x|y,k)
p(x|y,k)
p(x|y,k)
p(x|y,k)
p(x|y,k)
p(x|y,k)
p(x|y,k)
p(x|y,k)
p(x|y,k)

0,012685
0,016950
0,014831
0,019027
0,021187
0,029724
0,029661
0,048729
0,044398
0,063695
0,050848
0,040255
0,067797
0,076271
0,052966
0,091101
0,067797
0,116525
0,154661
0,182388

Teste
p(x|y,k)
p(x|y,k)
p(x|y,k)
p(x|y,k)
p(x|y,k)
p(x|y,k)
p(x|y,k)
p(x|y,k)
p(x|y,k)
p(x|y,k)
p(x|y,k)
p(x|y,k)
p(x|y,k)
p(x|y,k)
p(x|y,k)
p(x|y,k)
p(x|y,k)
p(x|y,k)
p(x|y,k)
p(x|y,k)

0,000000
0,037736
0,000000
0,057143
0,000000
0,037037
0,000000
0,137255
0,078947
0,088889
0,019608
0,000000
0,020833
0,080000
0,063830
0,062500
0,076923
0,051282
0,145833
0,180000

A Tabela 9-16, Tabela 9-17, Tabela 9-18, Tabela 9-19 e Tabela 9-20 apresentam a
comparao entre os valores de p(x|y,k) calculados analiticamente (por meio da regra de
Bayes a partir das estimativas de p(x|k), p(y|k) e p(y|x,k) obtidas nos experimentos de
validao) com os valores de p(x|y,k) estimados empiricamente (a partir dos experimentos de
teste para k = { 1, 2, 3, 4 e 5 }, referentes as 4 primeiras posies do ranking) para o

168
APNDICE B
categorizador ML- k NN empregando a base EX100. Nas tabelas citadas acima, a coluna
Intervalo mostra cada um dos 20 intervalos de valores de f observados nos experimentos de
validao, a coluna Validao mostra os valores de p(x|y,k) calculados analiticamente por
meio da regra de Bayes com os resultados dos experimentos de validao, e a coluna Teste
mostra os valores de p(x|y,k) estimados empiricamente a partir dos experimentos de teste.
Como pode ser observado na Tabela 9-16, Tabela 9-17, Tabela 9-18, Tabela 9-19 e
Tabela 9-20, os valores de p(x|y,k) calculados analiticamente por meio da regra de Bayes so
muito prximos aos valores de p(x|y,k) estimados empiricamente, o que demonstra que,
usando nossa metodologia, possvel prever no teste com o ltimo fold (no visto pelo MLk NN durante o treinamento) o quo certo est o ML- k NN quanto primeira categoria no seu
ranking de sada ser pertinente para um dado documento. importante destacar que esta

medida de certeza vai de 0% a 100% uma medida facilmente compreensvel para um


operador do SCAE humano.
A Tabela 9-16, Tabela 9-17, Tabela 9-18, Tabela 9-19 e Tabela 9-20 mostram os
resultados do uso de nossa metodologia para valores de k iguais a 1, 2, 3, 4 e 5
respectivamente. Como pode ser visto nestas tabelas, tambm para estes valores de k
possvel prever no teste com o ltimo fold o quo certo est o ML- k NN quanto categoria na
posio k no seu ranking de sada ser pertinente para um dado documento. Note que, quanto
maior o k (quanto mais abaixo no ranking de sada do categorizador), menos provvel que a
categoria atribuda pelo categorizador seja pertinente ao documento (ver ltima linha das
tabelas). Isso esperado, j que, para a base de dados empregada no treinamento (EX100),
incomum existirem mais que dois cdigos pertinentes a um dado documento.

169
APNDICE B
Tabela 9-16 - Probabilidades p(x|y,k) de validao versus p(x|y,k) de teste para a posio k=1 do ranking
em cada um dos 20 intervalos observados de f.
Ordem
Intervalo
1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20

Intervalo
( 0,000000 - 0,213654 )
( 0,213654 - 0,253865 )
( 0,253865 - 0,283170 )
( 0,283170 - 0,307869 )
( 0,307869 - 0,328687 )
( 0,328687 - 0,347477 )
( 0,347477 - 0,366800 )
( 0,366800 - 0,385357 )
( 0,385357 - 0,405425 )
( 0,405425 - 0,424138 )
( 0,424138 - 0,443853 )
( 0,443853 - 0,467713 )
( 0,467713 - 0,492551 )
( 0,492551 - 0,521014 )
( 0,521014 - 0,551039 )
( 0,551039 - 0,592087 )
( 0,592087 - 0,638092 )
( 0,638092 - 0,695906 )
( 0,695906 - 0,780403 )
( 0,780403 - 1,000000 )

Validao
p(x|y,k)
p(x|y,k)
p(x|y,k)
p(x|y,k)
p(x|y,k)
p(x|y,k)
p(x|y,k)
p(x|y,k)
p(x|y,k)
p(x|y,k)
p(x|y,k)
p(x|y,k)
p(x|y,k)
p(x|y,k)
p(x|y,k)
p(x|y,k)
p(x|y,k)
p(x|y,k)
p(x|y,k)
p(x|y,k)

0,217953
0,398711
0,450167
0,565923
0,504824
0,614152
0,607723
0,668809
0,665594
0,649523
0,755622
0,736337
0,752408
0,752408
0,797422
0,848878
0,868164
0,929263
0,964634
0,990323

Teste
0,310345
0,270270
0,457143
0,451613
0,560000
0,600000
0,666667
0,769231
0,536585
0,681818
0,769231
0,676471
0,692308
0,620690
0,880000
0,756757
0,694444
0,964286
0,976744
1,000000

p(x|y,k)
p(x|y,k)
p(x|y,k)
p(x|y,k)
p(x|y,k)
p(x|y,k)
p(x|y,k)
p(x|y,k)
p(x|y,k)
p(x|y,k)
p(x|y,k)
p(x|y,k)
p(x|y,k)
p(x|y,k)
p(x|y,k)
p(x|y,k)
p(x|y,k)
p(x|y,k)
p(x|y,k)
p(x|y,k)

Tabela 9-17 - Probabilidades p(x|y,k) de validao versus p(x|y,k) de teste para a posio k=2 do ranking
em cada um dos 20 intervalos observados de f.
Ordem
Intervalo
1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20

Intervalo
( 0,000000 - 0,044119 )
( 0,044119 - 0,069430 )
( 0,069430 - 0,094407 )
( 0,094407 - 0,116874 )
( 0,116874 - 0,133240 )
( 0,133240 - 0,149573 )
( 0,149573 - 0,162703 )
( 0,162703 - 0,175137 )
( 0,175137 - 0,187067 )
( 0,187067 - 0,200746 )
( 0,200746 - 0,211643 )
( 0,211643 - 0,223880 )
( 0,223880 - 0,236515 )
( 0,236515 - 0,248824 )
( 0,248824 - 0,264757 )
( 0,264757 - 0,282097 )
( 0,282097 - 0,303480 )
( 0,303480 - 0,328872 )
( 0,328872 - 0,364351 )
( 0,364351 - 1,000000 )

Validao
p(x|y,k)
p(x|y,k)
p(x|y,k)
p(x|y,k)
p(x|y,k)
p(x|y,k)
p(x|y,k)
p(x|y,k)
p(x|y,k)
p(x|y,k)
p(x|y,k)
p(x|y,k)
p(x|y,k)
p(x|y,k)
p(x|y,k)
p(x|y,k)
p(x|y,k)
p(x|y,k)
p(x|y,k)
p(x|y,k)

0,006407
0,025725
0,057877
0,138262
0,163987
0,225081
0,247589
0,244371
0,305466
0,311901
0,327973
0,421220
0,382633
0,463025
0,456590
0,524113
0,559482
0,646302
0,627012
0,741938

Teste
p(x|y,k)
p(x|y,k)
p(x|y,k)
p(x|y,k)
p(x|y,k)
p(x|y,k)
p(x|y,k)
p(x|y,k)
p(x|y,k)
p(x|y,k)
p(x|y,k)
p(x|y,k)
p(x|y,k)
p(x|y,k)
p(x|y,k)
p(x|y,k)
p(x|y,k)
p(x|y,k)
p(x|y,k)
p(x|y,k)

0,025641
0,000000
0,062500
0,147059
0,076923
0,242424
0,333333
0,303030
0,290323
0,350000
0,419355
0,384615
0,375000
0,531250
0,454545
0,342857
0,466667
0,617647
0,750000
0,870968

170
APNDICE B
Tabela 9-18 - Probabilidades p(x|y,k) de validao versus p(x|y,k) de teste para a posio k=3 do ranking
em cada um dos 20 intervalos observados de f.
Ordem
Intervalo
1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20

Intervalo
( 0,000000 - 0,018310 )
( 0,018310 - 0,027769 )
( 0,027769 - 0,037083 )
( 0,037083 - 0,044837 )
( 0,044837 - 0,053478 )
( 0,053478 - 0,060969 )
( 0,060969 - 0,068917 )
( 0,068917 - 0,076836 )
( 0,076836 - 0,085796 )
( 0,085796 - 0,094922 )
( 0,094922 - 0,104509 )
( 0,104509 - 0,112968 )
( 0,112968 - 0,122218 )
( 0,122218 - 0,131435 )
( 0,131435 - 0,141726 )
( 0,141726 - 0,153663 )
( 0,153663 - 0,166652 )
( 0,166652 - 0,182104 )
( 0,182104 - 0,204839 )
( 0,204839 - 1,000000 )

Validao
p(x|y,k)
p(x|y,k)
p(x|y,k)
p(x|y,k)
p(x|y,k)
p(x|y,k)
p(x|y,k)
p(x|y,k)
p(x|y,k)
p(x|y,k)
p(x|y,k)
p(x|y,k)
p(x|y,k)
p(x|y,k)
p(x|y,k)
p(x|y,k)
p(x|y,k)
p(x|y,k)
p(x|y,k)
p(x|y,k)

0,009616
0,016077
0,025724
0,041801
0,057877
0,045017
0,080384
0,090031
0,106108
0,109325
0,189709
0,183279
0,192926
0,189709
0,244373
0,247587
0,276527
0,385852
0,372989
0,483871

Teste
p(x|y,k)
p(x|y,k)
p(x|y,k)
p(x|y,k)
p(x|y,k)
p(x|y,k)
p(x|y,k)
p(x|y,k)
p(x|y,k)
p(x|y,k)
p(x|y,k)
p(x|y,k)
p(x|y,k)
p(x|y,k)
p(x|y,k)
p(x|y,k)
p(x|y,k)
p(x|y,k)
p(x|y,k)
p(x|y,k)

0,000000
0,029412
0,000000
0,000000
0,033333
0,071429
0,103448
0,038462
0,093750
0,129032
0,175000
0,142857
0,322581
0,214286
0,290323
0,225000
0,333333
0,333333
0,290323
0,550000

Tabela 9-19 - Probabilidades p(x|y,k) de validao versus p(x|y,k) de teste para a posio k=4 do ranking
em cada um dos 20 intervalos observados de f.
Ordem
Intervalo
1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20

Intervalo
( 0,000000 - 0,010632 )
( 0,010632 - 0,015101 )
( 0,015101 - 0,020026 )
( 0,020026 - 0,024620 )
( 0,024620 - 0,028993 )
( 0,028993 - 0,033145 )
( 0,033145 - 0,037407 )
( 0,037407 - 0,041924 )
( 0,041924 - 0,046791 )
( 0,046791 - 0,051331 )
( 0,051331 - 0,056289 )
( 0,056289 - 0,062003 )
( 0,062003 - 0,067422 )
( 0,067422 - 0,074505 )
( 0,074505 - 0,082368 )
( 0,082368 - 0,090437 )
( 0,090437 - 0,099790 )
( 0,099790 - 0,111837 )
( 0,111837 - 0,128731 )
( 0,128731 - 1,000000 )

Validao
p(x|y,k)
p(x|y,k)
p(x|y,k)
p(x|y,k)
p(x|y,k)
p(x|y,k)
p(x|y,k)
p(x|y,k)
p(x|y,k)
p(x|y,k)
p(x|y,k)
p(x|y,k)
p(x|y,k)
p(x|y,k)
p(x|y,k)
p(x|y,k)
p(x|y,k)
p(x|y,k)
p(x|y,k)
p(x|y,k)

0,000000
0,012862
0,009647
0,019292
0,009647
0,028939
0,028939
0,045017
0,061093
0,054661
0,073955
0,093247
0,109325
0,106109
0,112540
0,102894
0,160772
0,199358
0,218650
0,370970

Teste
p(x|y,k)
p(x|y,k)
p(x|y,k)
p(x|y,k)
p(x|y,k)
p(x|y,k)
p(x|y,k)
p(x|y,k)
p(x|y,k)
p(x|y,k)
p(x|y,k)
p(x|y,k)
p(x|y,k)
p(x|y,k)
p(x|y,k)
p(x|y,k)
p(x|y,k)
p(x|y,k)
p(x|y,k)
p(x|y,k)

0,000000
0,025641
0,024390
0,031250
0,029412
0,000000
0,142857
0,088235
0,100000
0,000000
0,080000
0,121212
0,078947
0,178571
0,111111
0,151515
0,166667
0,300000
0,193548
0,419355

171
APNDICE B
Tabela 9-20 - Probabilidades p(x|y,k) de validao versus p(x|y,k) de teste para a posio k=5 do ranking
em cada um dos 20 intervalos observados de f.
Ordem
Intervalo
1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20

Intervalo
( 0,000000 - 0,006329 )
( 0,006329 - 0,009125 )
( 0,009125 - 0,011836 )
( 0,011836 - 0,014649 )
( 0,014649 - 0,017253 )
( 0,017253 - 0,020112 )
( 0,020112 - 0,022601 )
( 0,022601 - 0,025437 )
( 0,025437 - 0,028076 )
( 0,028076 - 0,031041 )
( 0,031041 - 0,034298 )
( 0,034298 - 0,037931 )
( 0,037931 - 0,041624 )
( 0,041624 - 0,046093 )
( 0,046093 - 0,050630 )
( 0,050630 - 0,056356 )
( 0,056356 - 0,062987 )
( 0,062987 - 0,072475 )
( 0,072475 - 0,086527 )
( 0,086527 - 1,000000 )

Validao
p(x|y,k)
p(x|y,k)
p(x|y,k)
p(x|y,k)
p(x|y,k)
p(x|y,k)
p(x|y,k)
p(x|y,k)
p(x|y,k)
p(x|y,k)
p(x|y,k)
p(x|y,k)
p(x|y,k)
p(x|y,k)
p(x|y,k)
p(x|y,k)
p(x|y,k)
p(x|y,k)
p(x|y,k)
p(x|y,k)

0,000000
0,000000
0,006431
0,012862
0,019293
0,019293
0,032154
0,028939
0,041800
0,028939
0,035370
0,054662
0,045016
0,070739
0,061093
0,048231
0,077170
0,109324
0,128618
0,222582

Teste
p(x|y,k)
p(x|y,k)
p(x|y,k)
p(x|y,k)
p(x|y,k)
p(x|y,k)
p(x|y,k)
p(x|y,k)
p(x|y,k)
p(x|y,k)
p(x|y,k)
p(x|y,k)
p(x|y,k)
p(x|y,k)
p(x|y,k)
p(x|y,k)
p(x|y,k)
p(x|y,k)
p(x|y,k)
p(x|y,k)

0,000000
0,000000
0,000000
0,000000
0,027027
0,000000
0,000000
0,000000
0,050000
0,071429
0,096774
0,125000
0,095238
0,032258
0,090909
0,068966
0,075000
0,170732
0,259259
0,289474

A Tabela 9-21, Tabela 9-22, Tabela 9-23, Tabela 9-24 e Tabela 9-25 apresentam a
comparao entre os valores de p(x|y,k) calculados analiticamente (por meio da regra de
Bayes a partir das estimativas de p(x|k), p(y|k) e p(y|x,k) obtidas nos experimentos de
validao) com os valores de p(x|y,k) estimados empiricamente (a partir dos experimentos de
teste para k = { 1, 2, 3, 4 e 5 }, referentes as 4 primeiras posies do ranking) para o
categorizador VG-RAM WNN-COR empregando a base AT100. Nas tabelas citadas acima, a
coluna Intervalo mostra cada um dos 20 intervalos de valores de f observados nos
experimentos de validao, a coluna Validao mostra os valores de p(x|y,k) calculados
analiticamente por meio da regra de Bayes com os resultados dos experimentos de validao,
e a coluna Teste mostra os valores de p(x|y,k) estimados empiricamente a partir dos
experimentos de teste.
Como pode ser observado na . Tabela 9-21, Tabela 9-22, Tabela 9-23, Tabela 9-24 e
Tabela 9-25, os valores de p(x|y,k) calculados analiticamente por meio da regra de Bayes so
muito prximos aos valores de p(x|y,k) estimados empiricamente, o que demonstra que,
usando nossa metodologia, possvel prever no teste com o ltimo fold (no visto pelo VGRAM WNN-COR durante o treinamento) o quo certo est o VG-RAM WNN-COR quanto
primeira categoria no seu ranking de sada ser pertinente para um dado documento.
importante destacar que esta medida de certeza vai de 0% a 100% uma medida facilmente
compreensvel para um operador do SCAE humano.

172
APNDICE B
A Tabela 9-21, Tabela 9-22, Tabela 9-23, Tabela 9-24 e Tabela 9-25 mostram os
resultados do uso de nossa metodologia para valores de k iguais a 1, 2, 3, 4 e 5
respectivamente. Como pode ser visto nestas tabelas, tambm para estes valores de k
possvel prever no teste com o ltimo fold o quo certo est o VG-RAM WNN-COR quanto
categoria na posio k no seu ranking de sada ser pertinente para um dado documento. Note
que, quanto maior o k (quanto mais abaixo no ranking de sada do categorizador), menos
provvel que a categoria atribuda pelo categorizador seja pertinente ao documento (ver
ltima linha das tabelas). Isso esperado, j que, para a base de dados empregada no
treinamento (AT100), incomum existirem mais que dois cdigos pertinentes a um dado
documento.
Tabela 9-21 - Probabilidades p(x|y,k) de validao versus p(x|y,k) de teste para a posio k=1 do ranking
em cada um dos 20 intervalos observados de f.
Ordem
Intervalo
1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20

Intervalo
( 0,000000 - 0,043683 )
( 0,043683 - 0,054221 )
( 0,054221 - 0,063678 )
( 0,063678 - 0,072280 )
( 0,072280 - 0,080387 )
( 0,080387 - 0,088538 )
( 0,088538 - 0,096833 )
( 0,096833 - 0,105029 )
( 0,105029 - 0,113738 )
( 0,113738 - 0,121858 )
( 0,121858 - 0,130501 )
( 0,130501 - 0,140014 )
( 0,140014 - 0,151198 )
( 0,151198 - 0,164800 )
( 0,164800 - 0,181700 )
( 0,181700 - 0,204285 )
( 0,204285 - 0,233108 )
( 0,233108 - 0,279846 )
( 0,279846 - 0,370054 )
( 0,370054 - 1,000000 )

Validao
p(x|y,k)
p(x|y,k)
p(x|y,k)
p(x|y,k)
p(x|y,k)
p(x|y,k)
p(x|y,k)
p(x|y,k)
p(x|y,k)
p(x|y,k)
p(x|y,k)
p(x|y,k)
p(x|y,k)
p(x|y,k)
p(x|y,k)
p(x|y,k)
p(x|y,k)
p(x|y,k)
p(x|y,k)
p(x|y,k)

0,162793
0,266383
0,348196
0,434325
0,463983
0,533896
0,574150
0,584747
0,677973
0,673734
0,760602
0,730931
0,716108
0,750005
0,855934
0,851695
0,877127
0,898308
0,911024
0,920323

Teste
p(x|y,k)
p(x|y,k)
p(x|y,k)
p(x|y,k)
p(x|y,k)
p(x|y,k)
p(x|y,k)
p(x|y,k)
p(x|y,k)
p(x|y,k)
p(x|y,k)
p(x|y,k)
p(x|y,k)
p(x|y,k)
p(x|y,k)
p(x|y,k)
p(x|y,k)
p(x|y,k)
p(x|y,k)
p(x|y,k)

0,156863
0,269231
0,454545
0,383333
0,550000
0,642857
0,607843
0,571429
0,705882
0,795918
0,764706
0,750000
0,654545
0,769231
0,843137
0,883721
1,000000
0,914894
0,880000
0,886364

173
APNDICE B
Tabela 9-22 - Probabilidades p(x|y,k) de validao versus p(x|y,k) de teste para a posio k=2 do ranking
em cada um dos 20 intervalos observados de f.
Ordem
Intervalo
1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20

Intervalo
( 0,000000 - 0,021463 )
( 0,021463 - 0,027431 )
( 0,027431 - 0,031852 )
( 0,031852 - 0,036090 )
( 0,036090 - 0,039831 )
( 0,039831 - 0,043366 )
( 0,043366 - 0,046864 )
( 0,046864 - 0,050741 )
( 0,050741 - 0,055118 )
( 0,055118 - 0,059809 )
( 0,059809 - 0,064968 )
( 0,064968 - 0,070270 )
( 0,070270 - 0,076008 )
( 0,076008 - 0,083098 )
( 0,083098 - 0,091246 )
( 0,091246 - 0,100592 )
( 0,100592 - 0,113269 )
( 0,113269 - 0,130818 )
( 0,130818 - 0,161165 )
( 0,161165 - 1,000000 )

Validao
p(x|y,k)
p(x|y,k)
p(x|y,k)
p(x|y,k)
p(x|y,k)
p(x|y,k)
p(x|y,k)
p(x|y,k)
p(x|y,k)
p(x|y,k)
p(x|y,k)
p(x|y,k)
p(x|y,k)
p(x|y,k)
p(x|y,k)
p(x|y,k)
p(x|y,k)
p(x|y,k)
p(x|y,k)
p(x|y,k)

0,016915
0,048730
0,080510
0,110170
0,114406
0,120763
0,152543
0,139829
0,188559
0,235169
0,237290
0,247883
0,315679
0,336866
0,368646
0,457629
0,510596
0,534884
0,596608
0,645696

Teste
p(x|y,k)
p(x|y,k)
p(x|y,k)
p(x|y,k)
p(x|y,k)
p(x|y,k)
p(x|y,k)
p(x|y,k)
p(x|y,k)
p(x|y,k)
p(x|y,k)
p(x|y,k)
p(x|y,k)
p(x|y,k)
p(x|y,k)
p(x|y,k)
p(x|y,k)
p(x|y,k)
p(x|y,k)
p(x|y,k)

0,000000
0,023810
0,088889
0,115385
0,062500
0,152174
0,220000
0,108696
0,275000
0,258621
0,320755
0,162162
0,357143
0,395349
0,470588
0,382979
0,560000
0,428571
0,673469
0,607843

Tabela 9-23 - Probabilidades p(x|y,k) de validao versus p(x|y,k) de teste para a posio k=3 do ranking
em cada um dos 20 intervalos observados de f.
Ordem
Intervalo
1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20

Intervalo
( 0,000000 - 0,015482 )
( 0,015482 - 0,019578 )
( 0,019578 - 0,022814 )
( 0,022814 - 0,025325 )
( 0,025325 - 0,027816 )
( 0,027816 - 0,029958 )
( 0,029958 - 0,032214 )
( 0,032214 - 0,034456 )
( 0,034456 - 0,036983 )
( 0,036983 - 0,039548 )
( 0,039548 - 0,042098 )
( 0,042098 - 0,045143 )
( 0,045143 - 0,048649 )
( 0,048649 - 0,052854 )
( 0,052854 - 0,057227 )
( 0,057227 - 0,062706 )
( 0,062706 - 0,069953 )
( 0,069953 - 0,080629 )
( 0,080629 - 0,098341 )
( 0,098341 - 1,000000 )

Validao
p(x|y,k)
p(x|y,k)
p(x|y,k)
p(x|y,k)
p(x|y,k)
p(x|y,k)
p(x|y,k)
p(x|y,k)
p(x|y,k)
p(x|y,k)
p(x|y,k)
p(x|y,k)
p(x|y,k)
p(x|y,k)
p(x|y,k)
p(x|y,k)
p(x|y,k)
p(x|y,k)
p(x|y,k)
p(x|y,k)

0,010571
0,021187
0,023207
0,033971
0,031647
0,044777
0,059322
0,069915
0,080509
0,073996
0,110404
0,110170
0,114408
0,127119
0,144069
0,180085
0,220340
0,302969
0,324154
0,488467

Teste
p(x|y,k)
p(x|y,k)
p(x|y,k)
p(x|y,k)
p(x|y,k)
p(x|y,k)
p(x|y,k)
p(x|y,k)
p(x|y,k)
p(x|y,k)
p(x|y,k)
p(x|y,k)
p(x|y,k)
p(x|y,k)
p(x|y,k)
p(x|y,k)
p(x|y,k)
p(x|y,k)
p(x|y,k)
p(x|y,k)

0,043478
0,000000
0,017857
0,000000
0,040000
0,038462
0,102041
0,045455
0,018519
0,044444
0,140000
0,159091
0,085106
0,187500
0,244444
0,200000
0,277778
0,294118
0,512821
0,527273

174
APNDICE B
Tabela 9-24 - Probabilidades p(x|y,k) de validao versus p(x|y,k) de teste para a posio k=4 do ranking
em cada um dos 20 intervalos observados de f.
Ordem
Intervalo
1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20

Intervalo
( 0,000000 - 0,012561 )
( 0,012561 - 0,015410 )
( 0,015410 - 0,017877 )
( 0,017877 - 0,019972 )
( 0,019972 - 0,021753 )
( 0,021753 - 0,023256 )
( 0,023256 - 0,024883 )
( 0,024883 - 0,026599 )
( 0,026599 - 0,028345 )
( 0,028345 - 0,030178 )
( 0,030178 - 0,032051 )
( 0,032051 - 0,034091 )
( 0,034091 - 0,036354 )
( 0,036354 - 0,038855 )
( 0,038855 - 0,041879 )
( 0,041879 - 0,045718 )
( 0,045718 - 0,050535 )
( 0,050535 - 0,057143 )
( 0,057143 - 0,069693 )
( 0,069693 - 1,000000 )

Validao
p(x|y,k)
p(x|y,k)
p(x|y,k)
p(x|y,k)
p(x|y,k)
p(x|y,k)
p(x|y,k)
p(x|y,k)
p(x|y,k)
p(x|y,k)
p(x|y,k)
p(x|y,k)
p(x|y,k)
p(x|y,k)
p(x|y,k)
p(x|y,k)
p(x|y,k)
p(x|y,k)
p(x|y,k)
p(x|y,k)

0,004229
0,006342
0,008493
0,027543
0,016949
0,033756
0,038217
0,040340
0,050847
0,046511
0,063695
0,044211
0,059701
0,076273
0,093221
0,086866
0,129238
0,156781
0,194918
0,314465

Teste
0,000000
0,021739
0,016393
0,017241
0,026316
0,057143
0,038462
0,020000
0,050847
0,052632
0,046512
0,068182
0,000000
0,065217
0,097561
0,069767
0,081967
0,090909
0,122449
0,302326

p(x|y,k)
p(x|y,k)
p(x|y,k)
p(x|y,k)
p(x|y,k)
p(x|y,k)
p(x|y,k)
p(x|y,k)
p(x|y,k)
p(x|y,k)
p(x|y,k)
p(x|y,k)
p(x|y,k)
p(x|y,k)
p(x|y,k)
p(x|y,k)
p(x|y,k)
p(x|y,k)
p(x|y,k)
p(x|y,k)

Tabela 9-25 - Probabilidades p(x|y,k) de validao versus p(x|y,k) de teste para a posio k=5 do ranking
em cada um dos 20 intervalos observados de f
Ordem
Intervalo

Intervalo

1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20

( 0,000000 - 0,010737 )
( 0,010737 - 0,013037 )
( 0,013037 - 0,014770 )
( 0,014770 - 0,016522 )
( 0,016522 - 0,017941 )
( 0,017941 - 0,019231 )
( 0,019231 - 0,020573 )
( 0,020573 - 0,021877 )
( 0,021877 - 0,023211 )
( 0,023211 - 0,024648 )
( 0,024648 - 0,025945 )
( 0,025945 - 0,027491 )
( 0,027491 - 0,029170 )
( 0,029170 - 0,031072 )
( 0,031072 - 0,033122 )
( 0,033122 - 0,035670 )
( 0,035670 - 0,038920 )
( 0,038920 - 0,043607 )
( 0,043607 - 0,051114 )
( 0,051114 - 1,000000 )

Validao
p(x|y,k)
p(x|y,k)
p(x|y,k)
p(x|y,k)
p(x|y,k)
p(x|y,k)
p(x|y,k)
p(x|y,k)
p(x|y,k)
p(x|y,k)
p(x|y,k)
p(x|y,k)
p(x|y,k)
p(x|y,k)
p(x|y,k)
p(x|y,k)
p(x|y,k)
p(x|y,k)
p(x|y,k)
p(x|y,k)

0,008457
0,002118
0,012712
0,004228
0,008493
0,029662
0,025370
0,021187
0,014862
0,033898
0,036017
0,050848
0,042373
0,042373
0,044398
0,048832
0,065679
0,091102
0,144069
0,213835

Teste
p(x|y,k)
p(x|y,k)
p(x|y,k)
p(x|y,k)
p(x|y,k)
p(x|y,k)
p(x|y,k)
p(x|y,k)
p(x|y,k)
p(x|y,k)
p(x|y,k)
p(x|y,k)
p(x|y,k)
p(x|y,k)
p(x|y,k)
p(x|y,k)
p(x|y,k)
p(x|y,k)
p(x|y,k)
p(x|y,k)

0,000000
0,000000
0,000000
0,000000
0,023256
0,020000
0,018868
0,000000
0,000000
0,000000
0,000000
0,071429
0,025641
0,022727
0,023810
0,044444
0,043478
0,063830
0,061224
0,127660

Anda mungkin juga menyukai