Feature Selection

Seleo de Atributos
Ricardo Prudncio
Introduo
A eficincia de uma soluo depende em muitos
casos do tamanho do problema
Dimenso de um problema de aprendizado
Nmero de atributos
Nmero de exemplos de treinamento
A dimenso de um problema de aprendizado

interfere em muitos casos na:
qualidade das respostas (preciso) dos algoritmos
e no custo do aprendizado
Preciso X Custo
Erro
Fronteira de eficincia
Erro mnimo
Dimenso dos dados (Custo)
Reduo de Dimensionalidade
Tarefas:
Reduo do nmero de atributos
Reduo do nmero de exemplos
Objetivos
Diminuir o custo do aprendizado
Aumentar a preciso do algoritmo
Gerar modelos compactos mais fceis de interpretar
Reduo de Atributos
Em geral, espera-se que todos os atributos
sejam relevantes porm nem sempre
possvel garantir isso
Alm disso, alguns atributos so redundantes
e assim poderiam ser eliminados
Objetivo:
Definir conjunto de atributos que sejam relevantes
e no-redundantes
Reduo de Atributos
Abordagens
Seleo X Extrao de Atributos
Seleo de atributos:
Escolha de um sub-conjunto de atributos relevantes
dentre os atributos disponveis
E.g., Filtros e Wrappers
Extrao de atributos:
Criao de novos atributos a partir da combinao
dos atributos existentes
E.g., PCA
Reduo de Exemplos
Conjuntos de treinamento tambm podem
apresentar exemplos irrelevantes e
redundantes
Abordagens:
Seleo de exemplos etiquetados
Seleo de exemplos no-etiquetados
Aprendizagem Ativa
Reduo de Dimensionalidade
Reduo de
Dimensionalidade
Reduo de
Atributos
Seleo de
Atributos
Aula de hoje
Extrao de
Atributos
Reduo de
Exemplos
Seleo de
Exemplos
Aprendizagem
Ativa
Seleo de Atributos
Filtros
Atributos so ordenados com base em mtricas de
relevncia e redundncia
Retorna os atributos mais bem orderados
Wrappers
O desempenho do algoritmo avaliado para
diferentes sub-conjuntos de atributos;
O melhor sub-conjunto encontrado retornado;
Seleo de Atributos
Filtros
Descartam atributos irrelevantes antes do processo de
aprendizado
I.e., independente do algoritmo
Caracteristicas gerais dos dados so levadas em

considerao para selecionar atributos
I.e. dados avaliados com estatsticas descritivas
Diferentes mtricas podem ser usadas para definir

relevncia de atributos
K atributos mais relevantes so retornados
Seleo de Atributos
Filtros
Exemplos de mtricas:
InfoGain, GainRatio, e outras mtricas
usadas para seleo de atributos em rvores
de deciso
Correlao entre o atributo avaliado e o
atributo classe
Seleo de Atributos
Filtros
Em geral, filtros de atributos so leves
computacionalmente
Porm apresenta dificuldades:
Nem sempre fcil definir quantos atributos
descartar;
Na prtica, isso definido por tentativa-e-erro
No leva em considerao o algoritmo sendo

utilizado;
Seleo de Atributos
Filtros (WEKA)
Seleo de Atributos
Filtros (WEKA)
Seleo de Atributos
Filtros (WEKA)
Seleo de Atributos
Wrappers
Wrappers realizam, de fato, uma busca no
espao de sub-conjuntos de atributos
Busca exaustiva no realizada na prtica
So vantajosos em relao aos filtros por

considerarem o algoritmo em questo
Seleo de Atributos
Wrappers
Forward-Selection
Busca se inicia a partir de sub-conjuntos com um
atributo
Atributos so adicionados progressivamente
Backward-Elimination
Inicia com o sub-conjunto de todos os atributos;
Atributos so removidos progressivamente
Wrappers Forward-Selection
erro = 15%
Temp., Outlook
Humit., Wind
erro = 18%
Temp., Outlook
Humit.
erro = 15%
Temp., Outlook
Wind.
erro = 14%
erro = 30%
Temp.,
Outlook
Temp.,
Humit.
erro = 20%
Temp.,
Wind.
erro = 30%
erro = 20%
erro = 50%
erro = 30%
Outlook
Temp.
Humit.
Wind.
Wrappers Backward-Elimination
erro = 15%
Temp., Outlook
Humit., Wind
erro = 18%
Temp., Outlook
Humit.
erro = 15%
Temp., Outlook
Wind.
erro = 17%
Temp., Humit
Wind.
erro = 20%
Outlook, Humit
Wind.
erro = 14%
erro = 20%
erro = 20%
Temp.,
Outlook
Temp.,
Wind.
Outlook,
Wind
erro = 30%
erro = 20%
Outlook
Temp.
Seleo de Atributos
Wrappers
Backward-Elimination
Em geral, produz melhores resultados em termos de
preciso;
Porm mais pesado computacionalmente
Forward-Selecion
Tende a produzir sub-conjuntos com menos atributos;
capaz de eliminar melhor atributos redundantes
Seleo de Atributos
Wrappers
Tanto Forward-Selection como BackwardElimination caem em mnimos locais
Ambos os algoritmos realizam greedy search
Diversos algoritmos de busca e otimizao

podem ser aplicados
E.g., Algoritmos Genticos
Seleo Atributos
Wrappers (WEKA)
Seleo Atributos
Wrappers (WEKA)
Seleo Atributos
Wrappers (WEKA)
Seleo Atributos
Wrappers (WEKA)
Seleo de Atributos
Busca em espao de atributos mais pesado
computacionalmente que as tcnicas de filtros
Porm, podemos minimizar esse problema:
Utilizando algoritmos de busca mais eficientes
(e.g., RankSearch);
Utilizando algoritmos mais leves para avaliao
dos sub-conjuntos;
Combinando com filtros (e.g., usar uma mtrica
de filtro como medida de avaliao)
Seleo de Atributos
RankSearch
Ordenar atributos com uma mtrica de filtro
E.g., InfoGain
Avaliar sub-conjuntos, inserindo gradualmente os

atributos na ordem gerada
erro = 15%
Ranking: Temp, Outlook, Wind, Humit.
erro = 14%
erro = 20%
Temp.
Temp., Outlook
erro = 15%
Temp., Outlook
Wind
Temp., Outlook
Wind, Humit.
Seleo de Atributos RankSearch

(WEKA)
Referncias
A. Blum, P. Langley, Selection of relevant
features and examples in machine learning,
Artificial Intelligence, 1997.
R. Kohavi, GH John, Wrappers for feature
subset selection, Artificial Intelligence, 1997.
I. Guyon, A. Elisseefi, L. Kaelbling, An
Introduction to variable and feature selection,
Journal of Machine Learning Research, 2003.

Feature Selection

Diunggah oleh

Informasi Dokumen

Hak Cipta

Format Tersedia

Bagikan dokumen Ini

Bagikan atau Tanam Dokumen

Opsi Berbagi

Apakah menurut Anda dokumen ini bermanfaat?

Apakah konten ini tidak pantas?

Hak Cipta:

Format Tersedia

Feature Selection

Diunggah oleh

Hak Cipta:

Format Tersedia

Seleo de Atributos

A dimenso de um problema de aprendizado

Dimenso dos dados (Custo)

Caracteristicas gerais dos dados so levadas em

Diferentes mtricas podem ser usadas para definir

No leva em considerao o algoritmo sendo

So vantajosos em relao aos filtros por

Diversos algoritmos de busca e otimizao

Avaliar sub-conjuntos, inserindo gradualmente os

Ranking: Temp, Outlook, Wind, Humit.

Seleo de Atributos RankSearch

Anda mungkin juga menyukai