Anda di halaman 1dari 29

Seleo de Atributos

Ricardo Prudncio

Introduo
A eficincia de uma soluo depende em muitos
casos do tamanho do problema
Dimenso de um problema de aprendizado
Nmero de atributos
Nmero de exemplos de treinamento

A dimenso de um problema de aprendizado


interfere em muitos casos na:
qualidade das respostas (preciso) dos algoritmos
e no custo do aprendizado

Preciso X Custo
Erro

Fronteira de eficincia
Erro mnimo

Dimenso dos dados (Custo)

Reduo de Dimensionalidade
Tarefas:
Reduo do nmero de atributos
Reduo do nmero de exemplos

Objetivos
Diminuir o custo do aprendizado
Aumentar a preciso do algoritmo
Gerar modelos compactos mais fceis de interpretar

Reduo de Atributos
Em geral, espera-se que todos os atributos
sejam relevantes porm nem sempre
possvel garantir isso
Alm disso, alguns atributos so redundantes
e assim poderiam ser eliminados
Objetivo:
Definir conjunto de atributos que sejam relevantes
e no-redundantes

Reduo de Atributos
Abordagens
Seleo X Extrao de Atributos

Seleo de atributos:
Escolha de um sub-conjunto de atributos relevantes
dentre os atributos disponveis
E.g., Filtros e Wrappers

Extrao de atributos:
Criao de novos atributos a partir da combinao
dos atributos existentes
E.g., PCA

Reduo de Exemplos
Conjuntos de treinamento tambm podem
apresentar exemplos irrelevantes e
redundantes
Abordagens:
Seleo de exemplos etiquetados
Seleo de exemplos no-etiquetados
Aprendizagem Ativa

Reduo de Dimensionalidade
Reduo de
Dimensionalidade

Reduo de
Atributos

Seleo de
Atributos
Aula de hoje

Extrao de
Atributos

Reduo de
Exemplos

Seleo de
Exemplos

Aprendizagem
Ativa

Seleo de Atributos
Filtros
Atributos so ordenados com base em mtricas de
relevncia e redundncia
Retorna os atributos mais bem orderados

Wrappers
O desempenho do algoritmo avaliado para
diferentes sub-conjuntos de atributos;
O melhor sub-conjunto encontrado retornado;

Seleo de Atributos
Filtros
Descartam atributos irrelevantes antes do processo de
aprendizado
I.e., independente do algoritmo

Caracteristicas gerais dos dados so levadas em


considerao para selecionar atributos
I.e. dados avaliados com estatsticas descritivas

Diferentes mtricas podem ser usadas para definir


relevncia de atributos
K atributos mais relevantes so retornados

Seleo de Atributos
Filtros
Exemplos de mtricas:
InfoGain, GainRatio, e outras mtricas
usadas para seleo de atributos em rvores
de deciso
Correlao entre o atributo avaliado e o
atributo classe

Seleo de Atributos
Filtros
Em geral, filtros de atributos so leves
computacionalmente
Porm apresenta dificuldades:
Nem sempre fcil definir quantos atributos
descartar;
Na prtica, isso definido por tentativa-e-erro

No leva em considerao o algoritmo sendo


utilizado;

Seleo de Atributos
Filtros (WEKA)

Seleo de Atributos
Filtros (WEKA)

Seleo de Atributos
Filtros (WEKA)

Seleo de Atributos
Wrappers
Wrappers realizam, de fato, uma busca no
espao de sub-conjuntos de atributos
Busca exaustiva no realizada na prtica

So vantajosos em relao aos filtros por


considerarem o algoritmo em questo

Seleo de Atributos
Wrappers
Forward-Selection
Busca se inicia a partir de sub-conjuntos com um
atributo
Atributos so adicionados progressivamente

Backward-Elimination
Inicia com o sub-conjunto de todos os atributos;
Atributos so removidos progressivamente

Wrappers Forward-Selection
erro = 15%
Temp., Outlook
Humit., Wind
erro = 18%
Temp., Outlook
Humit.

erro = 15%
Temp., Outlook
Wind.

erro = 14%

erro = 30%

Temp.,
Outlook

Temp.,
Humit.

erro = 20%
Temp.,
Wind.

erro = 30%

erro = 20%

erro = 50%

erro = 30%

Outlook

Temp.

Humit.

Wind.

Wrappers Backward-Elimination
erro = 15%
Temp., Outlook
Humit., Wind
erro = 18%
Temp., Outlook
Humit.

erro = 15%
Temp., Outlook
Wind.

erro = 17%
Temp., Humit
Wind.

erro = 20%
Outlook, Humit
Wind.

erro = 14%

erro = 20%

erro = 20%

Temp.,
Outlook

Temp.,
Wind.

Outlook,
Wind

erro = 30%

erro = 20%

Outlook

Temp.

Seleo de Atributos
Wrappers
Backward-Elimination
Em geral, produz melhores resultados em termos de
preciso;
Porm mais pesado computacionalmente

Forward-Selecion
Tende a produzir sub-conjuntos com menos atributos;
capaz de eliminar melhor atributos redundantes

Seleo de Atributos
Wrappers
Tanto Forward-Selection como BackwardElimination caem em mnimos locais
Ambos os algoritmos realizam greedy search

Diversos algoritmos de busca e otimizao


podem ser aplicados
E.g., Algoritmos Genticos

Seleo Atributos
Wrappers (WEKA)

Seleo Atributos
Wrappers (WEKA)

Seleo Atributos
Wrappers (WEKA)

Seleo Atributos
Wrappers (WEKA)

Seleo de Atributos
Busca em espao de atributos mais pesado
computacionalmente que as tcnicas de filtros
Porm, podemos minimizar esse problema:
Utilizando algoritmos de busca mais eficientes
(e.g., RankSearch);
Utilizando algoritmos mais leves para avaliao
dos sub-conjuntos;
Combinando com filtros (e.g., usar uma mtrica
de filtro como medida de avaliao)

Seleo de Atributos
RankSearch
Ordenar atributos com uma mtrica de filtro
E.g., InfoGain

Avaliar sub-conjuntos, inserindo gradualmente os


atributos na ordem gerada
erro = 15%

Ranking: Temp, Outlook, Wind, Humit.

erro = 14%
erro = 20%

Temp.

Temp., Outlook

erro = 15%

Temp., Outlook
Wind

Temp., Outlook
Wind, Humit.

Seleo de Atributos RankSearch


(WEKA)

Referncias
A. Blum, P. Langley, Selection of relevant
features and examples in machine learning,
Artificial Intelligence, 1997.
R. Kohavi, GH John, Wrappers for feature
subset selection, Artificial Intelligence, 1997.
I. Guyon, A. Elisseefi, L. Kaelbling, An
Introduction to variable and feature selection,
Journal of Machine Learning Research, 2003.

Anda mungkin juga menyukai