Anda di halaman 1dari 21

Aplicao do Algoritmo K-Means

para Agrupamento de Produtos em


Site de Busca de Comparao de
Preos
Andr Luis Meneses Silva
Agenda
Descrio do Problema
Abordagem
Algoritmos de Similaridade entre Strings
Resultados
Descrio do Problema
Sistemas para Busca e
Comparao de Preos
Buscap, BondFaro, Google
Shooping
Vantagens:
Facilita o trabalho de
pesquisa por parte do
consumidor.
Auxilia lojas menores na
venda de produtos.
Auxilia na divulgao das
lojas
Descrio do Problema
Itens redundantes classificados como itens diferentes
Descrio do Problema
Tentativa de
Agrupamento mal
sucedida
Descrio do Problema
Motivos:
Fontes de dados diversas
Ausncia de Padronizao
Erro na escrita de Produtos
Abreviaes
Objetivo
Tentar aplicar algoritmo de agrupamento e similaridade, com o intuito de
amenizar a presena de dados redundantes em sites de comparao de
preos.
Abordagem
Coleta de Produtos
(Wrapper)
Abordagem
Coleta de Produtos
(Wrapper)
Introduo de
Erros
(20%)
Abordagem
Coleta de Produtos
(Wrapper)
Aplicao de
Algoritmo de
Similaridade aos
pares de Strings
Introduo de
Erros
(20%)
Abordagem
Seleo dos
Melhores Casos
O(n
2
) para O(2n)
Coleta de Produtos
(Wrapper)
Aplicao de
Algoritmo de
Similaridade aos
pares de Strings
Introduo de
Erros
(20%)
Abordagem
Aplicao do K-
Means
Seleo dos
Melhores Casos
O(n
2
) para O(2n)
Coleta de Produtos
(Wrapper)
Aplicao de
Algoritmo de
Similaridade aos
pares de Strings
Introduo de
Erros
(20%)
Algoritmos de Similaridade
entre Strings
Foram utilizados os seguintes algoritmos:
Levenshtein
Jaro-Winkler
Mdia dos Algoritmos de Similaridades
Algoritmos de Similaridade
entre Strings
Distncia de Levenshtein
Nmero mnimo de operaes necessrias para transformar uma
palavra em outra.
("kitten", "sitting") = 3, pois:
kitten sitten (substituio de "s" por "k")
sitten sittin (substituio de "i" por "e")
sittin sitting (insero de "g" no final).
Distncia Jaro Winkler
Resultados
Carros
86,56%
83,09%
83,09%
Resultados
Vinhos
AVG
Levenshtein
Jaro-Winkler
85,36%
82,33%
81,82%
Resultados
Perfumes
AVG
Levenshtein
Jaro-Winkler
91%
86%
89%
Resultados
Smartphones
AVG
Levenshtein
Jaro-Winkler
50,51%
64,65 %
54,55%
Resultados
Automveis Smartphones Vinhos Perfumes
Levenshtein +
K-Means
83,09% 50,51% 85,36% 91%
Jaro-Winkler +
K-Means
83,09% 64,65% 82,33% 86%
AVG + K-
Means
86,56% 54,55% 81,82% 89%
Concluses
Resultados foram promissores na tentativa de agrupar produtos
Com exceo dos Smartphones.
Adoo de outras mtricas para comparao de similaridade entre strings.
Chapman Name, MongeElkan, etc.
Introduo de Anlise de Contexto
PMI (Pointwise Mutal Information)
Problemas:
Desempenho
Referncias
SimMetrics
Disponvel em: http://sourceforge.net/projects/simmetrics/
Weka 3
http://www.cs.waikato.ac.nz/ml/weka/downloading.html
Lin, D. and Wu, X. Phrase Clustering for Discriminative Learning.
Proceedings of the 47th Annual Meeting of the ACL and the 4th IJCNLP of
the AFNL (2009).