K-MEANS ............................................................................................................................................. 2
K-means ............................................................................................................................................... 2
Estado del arte .................................................................................................................................... 3
A). Segmentación conductual: .................................................................................................. 3
B). Categorización del inventario: ............................................................................................ 3
C). Clasificación de mediciones del sensor: ........................................................................... 3
D). Detectando bots o anomalías: ............................................................................................ 3
Descripción del algoritmo k-means..................................................................................................... 4
Variantes del algoritmo K-means ....................................................................................................... 4
Experimento ...................................................................................................................................... 6
Discusión ........................................................................................................................................... 7
Conclusión ......................................................................................................................................... 8
Bibliografía ......................................................................................................................................... 9
1
K-MEANS
K-means o K-medias es uno de los algoritmos más utilizados para realizar
agrupamiento, técnica implementada en Minería de Datos. La idea del k-medias es
colocar todos los objetos en un espacio determinado y dadas sus características
formar grupos de objetos con rasgos similares pero diferentes a los demás que
integran otros grupos.(Zhang, 2012)
¿Qué es K-means?
El nombre de K-means viene porque representa cada uno de los clusters por la
media (o media ponderada) de sus puntos, es decir, por su centroide. La
representación mediante centroides tiene la ventaja de que tiene un significado
gráfico y estadístico inmediato. Cada cluster por tanto es caracterizado por su centro
o centroide que se encuentra en el centro o el medio de los elementos que
componen el cluster. Kmeans es traducido como K-medias.
O un conjunto de objetos Dn = (x1, x2..., xn), para todo el i,xi reales y k,ν1, los
centros de los K cluster.
2
Estado del arte
Este es un algoritmo versátil que se puede usar para cualquier tipo de agrupación.
Algunos ejemplos de casos de uso son:
1. Segmentación conductual:
- Segmentar por historial de compras
- Segmentar por actividades en la aplicación, sitio web o plataforma
- Define personas basadas en intereses
- Crear perfiles basados en monitoreo de actividad
3
Descripción del algoritmo k-means
Paso 3. Calculo de centroides: Para cada uno de los clusters se vuelve a recalcular
los centroides.
a) El número de iteraciones.
Las variantes del k-means son ramificaciones que particionan un conjunto de datos
en clusters, a continuación describen cada una:
4
K-medoids: Fue introducido por Kaufman y Rousseeuw en 1987. Este algoritmo está
basado en un conjunto de datos localizados muy en el centro de cada clusters, los
puntos restantes del grupo son agrupados con el medoids más cercano.
CODIGO DE LA BANANA
end
5
%------calcular funcion j
%--------actualizar centroide
end
for i=1:k
uMul=repmat(u(i,:),car,1)
mul=conjunto'.*uMul
div=sum(u(i,:),2)
cen(i,:)=sum(mul,2)./div
end
%/figure
%--------actualizar centroide
subplot(1,2,2)
color=pos;
scatter(conjunto(:,1),conjunto(:,2),10,color,'fill')
subplot(1,2,1)
scatter(conjunto(:,1),conjunto(:,2),10,'blue','fill')
Experimento
Conjunto 1
k =2
En este ejercicio de bananas se tiene una serie de datos de donde se sacó cada
variable en este se puso una K de 2 en el cual nos dimos cuenta que no existe
toxicidad
Conjunto 2
k =5
En este ejercicio de bananas se tiene una serie de datos de donde se sacó cada
variable en este se puso una K de 5 en el cual nos dimos cuenta que si existe
toxicidad porque hay puntos los cuales no corresponden a su color y están alejados
6
Conjunto 3
k =10
En este ejercicio de bananas se tiene una serie de datos de donde se sacó cada
variable en este se puso una K de 10 en el cual nos dimos cuenta que si existe
toxicidad porque hay puntos los cuales no corresponden a su color y están alejados
y encimados .
Discusión
Los métodos de k-means, también llamados de segmentación de datos, tiene como
finalidad agrupar o segmentar una colección de objetos en subconjuntos o clusters,
de manera que dentro de cada grupo compartan características estrechamente
similares que con los que están en diferente grupo, como nos dimos cuenta en el
ejercicio anterior entre mas centroides existe más toxicidad. Ya que no se muestra
claramente el esparcimiento del conjunto.
7
Conclusión
Se usa preferentemente con variables continuas. Agrupa los casos en un
número de grupos, k, previamente fijado tomando como punto de
partida los elementos previamente asignados a dichos grupos. A partir de esta
configuración inicial se pueden usar distintos criterios para optimizar el
agrupamiento.
8
Bibliografía