Kmeans

CONTENIDO
K-MEANS ............................................................................................................................................. 2
K-means ............................................................................................................................................... 2
Estado del arte .................................................................................................................................... 3
A). Segmentación conductual: .................................................................................................. 3
B). Categorización del inventario: ............................................................................................ 3
C). Clasificación de mediciones del sensor: ........................................................................... 3
D). Detectando bots o anomalías: ............................................................................................ 3
Descripción del algoritmo k-means..................................................................................................... 4
Variantes del algoritmo K-means ....................................................................................................... 4
Experimento ...................................................................................................................................... 6
Discusión ........................................................................................................................................... 7
Conclusión ......................................................................................................................................... 8
Bibliografía ......................................................................................................................................... 9
1
K-MEANS
K-means o K-medias es uno de los algoritmos más utilizados para realizar
agrupamiento, técnica implementada en Minería de Datos. La idea del k-medias es
colocar todos los objetos en un espacio determinado y dadas sus características
formar grupos de objetos con rasgos similares pero diferentes a los demás que
integran otros grupos.(Zhang, 2012)
Sin embargo el algoritmo presenta algunos inconvenientes:
a) El agrupamiento final depende de los centroides iniciales.
b) La convergencia en el óptimo global no está garantizada, y para problemas

con muchos ejemplares, requiere de un gran número de iteraciones para
converger.
¿Qué es K-means?
El nombre de K-means viene porque representa cada uno de los clusters por la
media (o media ponderada) de sus puntos, es decir, por su centroide. La
representación mediante centroides tiene la ventaja de que tiene un significado
gráfico y estadístico inmediato. Cada cluster por tanto es caracterizado por su centro
o centroide que se encuentra en el centro o el medio de los elementos que
componen el cluster. Kmeans es traducido como K-medias.
O un conjunto de objetos Dn = (x1, x2..., xn), para todo el i,xi reales y k,ν1, los
centros de los K cluster.
Figura 1: ejemplo de k-Means
2
Estado del arte
El algoritmo de agrupamiento K -means se usa para encontrar grupos que no han

sido explícitamente etiquetados en los datos. Esto se puede usar para confirmar
supuestos comerciales sobre qué tipos de grupos existen o para identificar grupos
desconocidos en conjuntos de datos complejos. Una vez que se ha ejecutado el
algoritmo y se han definido los grupos, cualquier dato nuevo se puede asignar
fácilmente al grupo correcto.(Chen, n.d.)
Este es un algoritmo versátil que se puede usar para cualquier tipo de agrupación.
Algunos ejemplos de casos de uso son:
1. Segmentación conductual:
- Segmentar por historial de compras
- Segmentar por actividades en la aplicación, sitio web o plataforma
- Define personas basadas en intereses
- Crear perfiles basados en monitoreo de actividad
2. Categorización del inventario:

- Grupo de inventario por actividad de ventas
- Agrupar inventario mediante mediciones de fabricación
3. Clasificación de mediciones del sensor:

- Detecta tipos de actividad en sensores de movimiento
- Imágenes grupales
- Separar audio
- Identificar grupos en monitoreo de salud
4. Detectando bots o anomalías:

- Separar grupos de actividad válidos de bots
- Agrupe la actividad válida para limpiar la detección de valores atípicos
- Identificación eficiente de Bots por K-Means Clustering
3
Descripción del algoritmo k-means
Paso 1. Inicialización: Se definen un conjunto de objetos a los cuales se les aplica

el proceso de clustering que consiste en la división de los datos en grupos y un
centroide (centro geométrico del clusters) para cada uno. Los centroides iniciales se
pueden determinar aleatoriamente, mientras que en otros casos procesan los datos
y se determinan los centroides mediante cálculos.(Rodríguez, n.d.)
Paso 2. Clasificación: Para cada dato se calcula la distancia (euclidiana cuadrada)

con respecto a los centroides, se determina el centroide más cercano a cada uno
de los datos, y el objeto se anexa al clusters del centroide que fue seleccionado.
Paso 3. Calculo de centroides: Para cada uno de los clusters se vuelve a recalcular
los centroides.
Paso 4. Verificación de convergencia: En este paso se comprueba si una de las

condiciones del algoritmo se ha cumplido y que este debe parar, a esto se le llama
condición de convergencia o paro. A continuación se mencionan algunas de las
condiciones de convergencia:
a) El número de iteraciones.
b) Cuando los centroides obtenidos en dos iteraciones sucesivas no cambian su

valor.
c) Cuando la diferencia entre los centroides de dos iteraciones sucesivas no supera

cierto umbral.
d) Cuando no hay transferencia de objetos entre grupos en dos iteraciones

sucesivas.
Si algunas de las condiciones de convergencia no cumplen se repiten los pasos dos,
tres y cuatro del algoritmo.
Variantes del algoritmo K-means
Las variantes del k-means son ramificaciones que particionan un conjunto de datos
en clusters, a continuación describen cada una:
K –medianas: Este algoritmo funciona de forma similar al k-means y es también

sensible a la selección de centroides iniciales, continua sustituyendo el valor de
promedios por el vector de medianas del grupo de datos y utiliza una distancia
manhattan como una medida de disimilitud.
4
K-medoids: Fue introducido por Kaufman y Rousseeuw en 1987. Este algoritmo está
basado en un conjunto de datos localizados muy en el centro de cada clusters, los
puntos restantes del grupo son agrupados con el medoids más cercano.
Iterativamente este algoritmo realiza intercambios entre los datos representativos y

los que no lo son, hasta que minimice una diferencia entre lo k –medoids y los
vectores que forman los clustering[3]
CODIGO DE LA BANANA
clc, clear, close all

[nombre,ruta]=uigetfile('*','Abrir conjunto');%abrir conjunto
if nombre == 0
return
end
conjunto=load([ruta nombre])
%conjuntoR=conjunto(:,1:end-1)recorta las características

%......settings
%conjunto1=conjunto(1:10,:)%delimitamos el conjunto de datos
[obs,car]=size(conjunto)
k=5
iter=120
tolerancia=0.0001
continuar=true
jAnt=0
%......settings
%.....prelocar
U=zeros(k,obs)
%.....prelocar
index=randi(obs,1,k)
cen=conjunto(index,:)
while (continuar)
for i=1:k
cenRep=repmat(cen(i,:),obs,1)
dis=sqrt(sum((conjunto-cenRep).^2,2))
U(i,:)=dis
end
[valor,pos]=min(U)
repU=repmat(valor,k,1)
u=U==repU
%_____calcular funcion j
J=sum(sum(dis))
movimiento=abs(jAnt-J)
jAnt=J
if movimiento<tolerancia
continuar=false
end
5
%------calcular funcion j
%--------actualizar centroide
end
for i=1:k
uMul=repmat(u(i,:),car,1)
mul=conjunto'.*uMul
div=sum(u(i,:),2)
cen(i,:)=sum(mul,2)./div
end
%/figure
%--------actualizar centroide
subplot(1,2,2)
color=pos;
scatter(conjunto(:,1),conjunto(:,2),10,color,'fill')
subplot(1,2,1)
scatter(conjunto(:,1),conjunto(:,2),10,'blue','fill')
Experimento
Conjunto 1
k =2
En este ejercicio de bananas se tiene una serie de datos de donde se sacó cada
variable en este se puso una K de 2 en el cual nos dimos cuenta que no existe
toxicidad
Conjunto 2
k =5
variable en este se puso una K de 5 en el cual nos dimos cuenta que si existe
toxicidad porque hay puntos los cuales no corresponden a su color y están alejados
6
Conjunto 3
k =10
variable en este se puso una K de 10 en el cual nos dimos cuenta que si existe
toxicidad porque hay puntos los cuales no corresponden a su color y están alejados
y encimados .
Discusión
Los métodos de k-means, también llamados de segmentación de datos, tiene como
finalidad agrupar o segmentar una colección de objetos en subconjuntos o clusters,
de manera que dentro de cada grupo compartan características estrechamente
similares que con los que están en diferente grupo, como nos dimos cuenta en el
ejercicio anterior entre mas centroides existe más toxicidad. Ya que no se muestra
claramente el esparcimiento del conjunto.
7
Conclusión
Se usa preferentemente con variables continuas. Agrupa los casos en un
número de grupos, k, previamente fijado tomando como punto de
partida los elementos previamente asignados a dichos grupos. A partir de esta
configuración inicial se pueden usar distintos criterios para optimizar el
agrupamiento.
8
Bibliografía
Chen, K. (n.d.). K -means Clustering, 1–22.

Rodríguez, O. (n.d.). Método k-medias, 67. Retrieved from
http://www.oldemarrodriguez.com/yahoo_site_admin/assets/docs/Presentació
n_-_k-means.13775252.pdf
Zhang, Z. (2012). K-means Algorithm, 1–16.

Kmeans

Diunggah oleh

Informasi Dokumen

Judul Asli

Hak Cipta

Format Tersedia

Bagikan dokumen Ini

Bagikan atau Tanam Dokumen

Opsi Berbagi

Apakah menurut Anda dokumen ini bermanfaat?

Apakah konten ini tidak pantas?

Hak Cipta:

Format Tersedia

Kmeans

Diunggah oleh

Hak Cipta:

Format Tersedia

CONTENIDO

Sin embargo el algoritmo presenta algunos inconvenientes:

a) El agrupamiento final depende de los centroides iniciales.

b) La convergencia en el óptimo global no está garantizada, y para problemas

Figura 1: ejemplo de k-Means

El algoritmo de agrupamiento K -means se usa para encontrar grupos que no han

2. Categorización del inventario:

3. Clasificación de mediciones del sensor:

4. Detectando bots o anomalías:

Paso 1. Inicialización: Se definen un conjunto de objetos a los cuales se les aplica

Paso 2. Clasificación: Para cada dato se calcula la distancia (euclidiana cuadrada)

Paso 4. Verificación de convergencia: En este paso se comprueba si una de las

b) Cuando los centroides obtenidos en dos iteraciones sucesivas no cambian su

c) Cuando la diferencia entre los centroides de dos iteraciones sucesivas no supera

d) Cuando no hay transferencia de objetos entre grupos en dos iteraciones

Variantes del algoritmo K-means

K –medianas: Este algoritmo funciona de forma similar al k-means y es también

Iterativamente este algoritmo realiza intercambios entre los datos representativos y

clc, clear, close all

%conjuntoR=conjunto(:,1:end-1)recorta las características

Chen, K. (n.d.). K -means Clustering, 1–22.

Anda mungkin juga menyukai