Anda di halaman 1dari 1

Vizinhos mais Próximos

Classificadores de vizinhos mais próximos são baseados em aprender por analogia,


ou seja, comparando uma tupla de teste com as tuplas de treino que são similares a ela. As
tuplas de treino são descritas por n atributos. Cada tupla representa um ponto em um
espaço de dimensão n.
Quando é dada uma tupla de classificação desconhecida, esse classificador procura
pelas k tuplas de treinamento que são mais próximas da tupla desconhecida. Essa
proximidade é definida em termos de uma métrica de distância, como a distância
Euclidiana:


n
dist(X1, X2) = ∑ (x1i − x2i)2
i=1

Normalmente, nós normalizamos os valores de cada atributo antes de usar a


distância Euclidiana. Normalização min-max pode ser usada para transformar um valor v
para um intervalo [0,1].
Para a classificação com k vizinhos mais próximos, a tupla desconhecida recebe a
classe mais comum entre os k vizinhos encontrados. Esse método também pode ser usado
para fazer predições numéricas, para retornar um valor real para uma data tupla
desconhecida. Neste caso, o classificador retorna para a tupla desconhecida o valor médio
dos k vizinhos.
Para atributos nominais, um método simples é comparar os valores dos atributos nas
duas tuplas, se o valor for igual então é computada uma distância de 0. Se forem diferentes,
a distância é considerada 1.
Quanto a valores faltantes, em geral, se um valor de um dado atributo está faltante
na tupla X1 ou na X2 assume-se a maior distância possível. |v - 0| || |1 - v|
Para determinar um bom valor para k devemos realizar experimentos, variando o
seu valor. Começando com k = 1, usamos um teste para estimar a taxa de erro do
classificador. Este processo pode ser repetido cada vez incrementando o valor de k. O valor
de k que apresentar a menor taxa de erro de ser selecionada.
O classificador de vizinhos mais próximos usa comparação baseada na distância
com pesos iguais para cada atributo. Assim pode ser que tenha acurácia ruim quando se
usa atributos com ruídos ou irrelevantes. O método foi modificado para incorporar atributos
com pesos. A escolha da métrica de distância pode ser crítica.