Anda di halaman 1dari 4

A rvore de deciso consiste de uma hierarquia de ns internos e externos que so conect

ados por ramos.

O n interno, tambm conhecido como n decisrio ou n intermedirio, a unidade de tomada d


deciso que avalia atravs de teste lgico qual ser o prximo n descendente ou filho.
Em contraste, um n externo (no tem n descendente), tambm conhecido como folha ou n te
rminal, est associado a um rtulo ou a um valor.
Em geral, o procedimento de uma rvore de deciso o seguinte, apresenta-se um conjun
to de dados ao n inicial (ou n raiz que tambm um n interno) da rvore dependendo do re
sultado do teste lgico usado pelo n, a rvore ramifica-se para um dos ns filhos e est
e procedimento repetido at que um n terminal alcanado.
A repetio deste procedimento caracteriza a recursividade da rvore de deciso.
No caso das rvores de deciso binria, cada n intermedirio divide-se exatamente em dois
ns descendentes, o n esquerdo e o n direito.
Quando os dados satisfazem o teste lgico do n intermedirio seguem para o n esquerdo
e quando no satisfazem seguem para o n direito.
Logo, uma deciso sempre interpretada como verdadeira ou falsa.
Deve ser mencionado que, restringimos a nossa descrio de diviso para rvores binrias,
pois estas sero empregadas nesta tese.

Contudo, na literatura h rvore de deciso com vrias divises e sua descrio pode ser enco
trada em Zighed.
uma representao grfica de uma rvore de deciso binria.
rvore de Deciso Binria.
Na figura anterior, os crculos representam os ns internos (intermedirios ou decisrio
s) os quadrados representam os ns folhas ou terminais as linhas representam os ra
mos que interligam dois ns e x1 e xrepresentam as variveis decisrias.
Chama-se de varivel decisria a varivel de entrada que levar a uma nova diviso da rvore
de deciso, em relao a um possvel valor.

A interpretao da representao grfica da rvore de deciso ilustrada anteriormente descr


da seguinte forma, Quando a condio satisfeita, os dados seguem para o n esquerdo (
SIM) e, caso contrrio, os dados seguem para o n direito (NO) O aprendizado de uma rv
ore de deciso supervisionado, ou seja, o mtodo aproxima funes-alvo de valor discreto
, na qual a funo aprendida representada por uma rvore de deciso.
As rvores treinadas podem ser representadas como um conjunto de regras "Se-Ento" p
ara melhoria da compreenso e interpretao.
As rvores de deciso so estudadas em vrios campos de pesquisa como cincias sociais, es
tatstica, engenharia e inteligncia artificial.

Atualmente, elas tm sido aplicadas, com sucesso, em um enorme campo de tarefas de


sde diagnstico de casos mdicos at avaliao de risco de crdito de requerentes de emprsti
o.
rvores de deciso usadas para problemas de classificao so chamadas de rvores de Classif
icao.

Em algumas referncias bibliogrficas, a rvore de classificao pode ser denominada, simp


lesmente, como rvore de deciso.
Nas rvores de classificao, cada n terminal ou folha contm um rtulo que indica a classe
predita para um determinado conjunto de dados.
Neste tipo de rvore pode existir dois ou mais ns terminais com a mesma classe.
Para ilustrar uma rvore de classificao, encontra-se na Figura a representao grfica des
te tipo de rvore para duas classes.
rvore de Classificao.
Na rvore de classificao ilustrada na figura anterior as classes formadas so Classe 1
, representada pelos ns e 5, e a Classe 2, representada pelo n 4.
As regras obtidas aps a rvore treinada so, Regra para Classe 1 Se (x1 >) ou Se (x1
= e x>) Regra para Classe Se (x1 = e x=) rvores de deciso usadas para problemas de
regresso so chamadas de rvores de Regresso.
Nas rvores de regresso, cada n terminal ou folha contm uma constante, geralmente, um
a mdia ou uma equao para o valor previsto de um determinado conjunto de dados.

Empregando a mesma representao grfica da rvore de classificao, temos para cada n termi
al um modelo linear.
Existem dois aspectos que merecem destaques em uma rvore de deciso, o crescimento
e a poda, que sero abordados na seo.
Por fim, um dos mais conhecidos e mais completos algoritmos de rvore de deciso o C
ART "Classification and Regression Tree" que foi proposto por Breiman.
Como este algoritmo ser empregado em uma das etapas da modelagem proposta nesta t
ese, conveniente realizar uma breve descrio do CART na seo 3.
As rvores de deciso so construdas usando um algoritmo de partio recursiva.
Este algoritmo constri uma rvore por divises recursivas binrias que comea no n raiz e
desce at os ns folhas.
Tm-se dois fatores principais no algoritmo de partio, a forma para selecionar uma d
iviso para cada n intermedirio (Crescimento) e uma regra para determinar quando um
n terminal.
O problema chave, no algoritmo de partio recursiva, a confiabilidade das estimativ
as do erro usado para selecionar as divises.
As escolhas da diviso em nveis maiores da rvore produzem, freqentemente, estatsticas
no-confiveis apesar da estimativa do "erro de resubstituio" (estimativa obtida com o
s dados de treinamento usado durante o crescimento da rvore) manter-se decrescend
o.
Com isto, a preciso das estimativas do erro fortemente dependente da qualidade da
amostra.
Como o algoritmo divide recursivamente o conjunto de dados de treinamento origin
al, as divises esto sendo avaliadas com amostras cada vez menores.
Isto significa que as estimativas de erro tm menos confiabilidade medida que cres
cemos a rvore.

Com intuito de minimizar este problema e evitar o superajustamento dos dados de


treinamento com rvores muito complexas, tem-se a estratgia conhecida como mtodo de
podagem.
H dois procedimentos alternativos para podagem da rvore de deciso, a ps-podagem e a
pr-podagem.
A ps-podagem o processo pelo qual uma rvore crescida ao tamanho mximo e ento mtodos
e evoluo confiveis so usados para selecionar a rvore podada de tamanho certo desde o
modelo inicial.
Este algoritmo considera a podagem como um processo de "dois-estgios".
No primeiro estgio, um conjunto de rvores podadas de Tmax (rvore de tamanho mximo) g
erado de acordo com algum critrio, enquanto no segundo estgio uma dessas rvores sel
ecionada como o modelo final.
Os mtodos de ps-podagem podem ser computacionalmente ineficientes, no sentido que
no usual achar domnios onde uma rvore extremamente grande (por exemplo, com milhare
s de ns) ps-podada em poucas centenas de ns isto parece um desperdcio computacional.
Uma alternativa de parada no procedimento de crescimento da rvore interromper o c
rescimento to logo a diviso seja considerada no-confivel.
Isto conhecido como a pr-podagem da rvore.
O mtodo de pr-podagem usa um procedimento "passo nico".
Este algoritmo corre atravs dos ns da rvore ou "de baixo para cima" ou "de cima par
a baixo", decidindo para cada n, se para podar de acordo com algum critrio de aval
iao.
Os mtodos de pr-podagem tambm apresentam um ponto negativo no seu algoritmo.
A pr-podagem corre o risco de selecionar uma rvore subtima ao interromper o crescim
ento da rvore.
Breiman descreveu duas alternativas para a seleo da rvore final baseada nas estimat
ivas dos erros obtidos.
Ou seleciona a rvore com menor erro estimado ou escolhe a menor rvore na seqncia, cu
jo erro estimado est dentro do intervalo, Errb + SE(Err, onde Errb o menor erro e
stimado e SE, Err o erro padro desta estimativa).
Mas tarde, este mtodo ser conhecido como a regra "SE".
Para maiores detalhes sobre essas alternativas consultar Breiman ou Zighed.

Destaca-se que para rvores de classificao a podagem em funo da complexidade do custo


mnimo (erro de resubstituio) e para rvores de regresso, a podagem em funo da complex
de do erro mnimo.
A metodologia do modelo CART tecnicamente conhecida como partio recursiva binria.
O processo binrio porque os ns pais so sempre divididos exatamente em dois ns filhos
e recursivamente porque o processo pode ser repetido tratando cada n filho como
um n pai.
As principais caractersticas do CART so, definir o conjunto de regras para dividir

cada n da rvore decidir quando a rvore est completa associar cada n terminal a uma c
lasse ou a um valor preditivo no caso da regresso.
Para dividir um n em dois ns filhos, o algoritmo sempre faz perguntas que tem apen
as um "sim" ou um "no" como resposta.
Por exemplo, as questes podem ser, a idade <=55? ou o crdito <=600? O prximo passo
ordenar cada regra de diviso com base no critrio de qualidade de diviso.

O critrio padro usado para classificao o ndice de Gini que tem por base o clculo da e
tropia, onde p a frequncia encontrada de cada classe j, e o processo de diviso da r
vore de regresso procura minimizar R(T), sendo t o identificador de cada n da rvore
e R(T) o valor esperado da soma dos erros quadrticos da regresso utilizando uma c
onstante como modelo preditivo (a mdia).
Como pode-se notar na equao 3, o CART no apresenta na rvore de regresso, um modelo li
near em seus ns terminais e sim uma mdia.
Uma vez encontrada a melhor diviso, repete-se o processo de procura para cada n fi
lho, continuamente at que a diviso seja impossvel ou interrompida.
No procedimento do CART, ao invs de determinar quando um n terminal ou no, continua
-se proporcionando o crescimento da rvore at que no seja mais possvel faz-lo, como po
r exemplo ao atingir um nmero mnimo de dados na amostra.
Depois que todos os ns terminais foram encontrados, definida a rvore como maximal,
ou seja, a rvore de tamanho mximo.
Aps encontrar a rvore maximal, comea-se a podar alguns ramos da mesma rvore de modo
a aumentar o poder de generalizao.
Algumas sub-rvores, obtidas atravs da poda de alguns ramos desta rvore, so examinada
s testando taxas de erros e a melhor delas escolhida.