Anda di halaman 1dari 34

Tecnlogo em Anlise e Desenvolvimento de Sistemas TADS

Disciplina
Reconhecimento de Padres
TADS- 2017/2

Prof: Luciano Vargas Gonalves


Sumrio

Reconhecimento de Padres

Aula 3 Aprendizado No Supervisionado


Aprendizagem Supervisionada

Algum (um professor) fornece a identificao (rtulos) de


cada objeto da base de dados.

Mtodos Paramtricos: Assumem que a distribuio dos


dados conhecida (distribuio normal por exemplo)

Mtodos No-Paramtricos: No consideram essa hiptese.


Redes neurais
Aprendizagem Supervisionada
Classificar um novo elemento
Classes e amostras definidas:
Mulher e Homem
Nova amostra
Aprendizagem Supervisionada
KNN - K Vizinhos Mais Prximos
O Padro classificado de acordo com a maioria dos
vizinhos.
Padres

Novo (Xd)
Centroide

Centroide
o vetor mdia de cada classe
Centroide

Centroide
o vetor mdia de cada classe
Aprendizagem No-Supervisionada
O que pode ser feito quando se tem um conjunto de
exemplos mas no se conhece as categorias
envolvidas?
Classes?
Aprendizagem No-Supervisionada

Como classificar esses pontos?


Aprendizagem No-Supervisionada
Primeiramente, coletar e rotular bases de dados
pode ser extremamente caro.
Ex: Gravar voz barato, mas rotular todo o material
gravado caro.

Segundo, muitas vezes no se tem conhecimento das


classes envolvidas.
Trabalho exploratrio nos dados
(ex. Data Mining.)
Aprendizagem No-Supervisionada
Pr-classificao:
Suponha que as categorias envolvidas so conhecidas,
mas a base no est rotulada.
Pode-se utilizar a aprendizagem no-supervisionada
para fazer uma pr-classificao, e ento treinar um
classificador de maneira supervisionada.
Aprendizagem No-Supervisionada
Clustering (Agrupamento)
a organizao dos objetos similares (em algum
aspecto) em grupos.
Sem Classificao Com Classificao

Quatro grupos (clusters)


Aprendizagem No-Supervisionada
Cluster
Uma coleo de objetos que so similares entre si, e
diferentes dos objetos pertencentes a outros clusters.
Ex. DC e outros cursos..
Isso requer uma medida de similaridade.
No exemplo anterior, a similaridade utilizada foi a
distncia.
Distance-based Clustering
Aprendizagem No-Supervisionada
k-Means Clustering
a tcnica mais simples de aprendizagem no
supervisionada.
Consiste em fixar k centroides (de maneira
aleatria), um para cada grupo (clusters).
Associar cada indivduo ao seu centroide mais
prximo.
Recalcular os centroides com base nos indivduos
classificados.
Aprendizagem No-Supervisionada
Algoritmo k-Means
Determinar os centroides
Atribuir a cada objeto do grupo o centroide mais
prximo.
Aps atribuir um centroide a cada objeto, recalcular os
centroides.
Repetir os passos 2 e 3 at que os centroides no
sejam modificados.
Aprendizagem No-Supervisionada

k-Means Um Exemplo

Sem Classificao
Aprendizagem No-Supervisionada

k-Means Um Exemplo

Sem Classificao
Aprendizagem No-Supervisionada

k-Means Um Exemplo

Classificados por proximidade aos centroides


Aprendizagem No-Supervisionada

k-Means Um Exemplo

Mudana dos centroides reclculo


Aprendizagem No-Supervisionada

k-Means Problemas

Insero aleatria baixa qualidade


Aprendizagem No-Supervisionada

k-Means Problemas

Grande movimentao dos centroides


Afeta a clusterizao
Aprendizagem No-Supervisionada

k-Means Inicializao
Quando se tm noo dos centroides, pode-se
melhorar a convergncia do algoritmo.

Execuo do algoritmo vrias vezes, permite reduzir


impacto da inicializao aleatria.
Aprendizagem No-Supervisionada
Problema determinar o nmero de centroides.
Aprendizagem No-Supervisionada
Avaliao das Amostras
Aprendizagem No-Supervisionada
Avaliao das Amostras
Aprendizagem No-Supervisionada
Avaliao das Amostras
Mahalanobis
Leva em considerao as variaes estatsticas dos pontos.
Por exemplo ser x e y so dois pontos da mesma
distribuio, com matriz de covarincia C, a distncia dada
pela equao 1

d =[( x y ) C1 ( x y ) ]
2

Se a matriz C for uma matriz identidade, essa distncia


igual a distncia Euclidiana.
Matrizes

Identidade
Em matemtica, matriz identidade uma matriz
diagonal, cujos elementos da diagonal so todos iguais
a 1.
Matrizes

Covarincia
A matriz de covarincia uma matriz quadrada que contm
as varincias e covarincias associadas a diversas
variveis. Os elementos diagonais da matriz contm os
desvios das variveis, e os elementos fora da diagonal
contm as covarincias entre todos os possveis pares de
variveis

Covariana Varincia
Aprendizagem No-Supervisionada
Suponha que dois exemplos (amostras) pertencem ao
mesmo cluster se a distncia Euclidiana entre eles for
menor que d.
obvio que a escolha de d importante.
Se d for muito grande, provavelmente teremos um
nico cluster.
Se d for muito pequeno, vrios clusters.
Aprendizagem No-Supervisionada
Nmero de cluster em funo da distncia d

D grande um cluster D pequeno muitos clusters


Aplicao

Marketing: Encontrar grupos de consumidores com


comportamento similares
Biologia: Classificar grupos de plantas e animais.
Bibliotecas: Organizao de livros.
Administrao: Organizao de cidades, classificando
casas de acordo com suas caractersticas.
WWW: Classificao de contedos.
Atividade Avaliada 2

Utilizando o mesmo conjunto de amostra da atividade


anterior:
Retirar as classificaes (Classes)
Definir o nmero de centroides (estimado)
Gerar centroides aleatrios
Clusterizar as amostras (agrupar)
Recalcular os centroides
Classificar amostras conhecidas com base nos centroides
Avaliar os resultados
Atividade Avaliada 2

Apresentao no 15/09
Valor: 3.0 pontos
Dvidas??

Anda mungkin juga menyukai