CLARA cluster::clara
CLARANS qtcat::clarans
AGNES cluster::agnes
DIANA cluster::diana
OPTICS dbscan::optics
DENCLUE NO HAY EN R
Intrinsic Methods
silhouette coefficient cluster::silhouette
{clValid}
Biclustering {biclust}
1. Clusters. Introducción
Los métodos de agrupamiento (Clustering) se utilizan para identificar grupos de objetos similares
en conjuntos de datos multivariantes.
La forma de agrupación habitual está basada en las distancias relativas entre el conjunto de objetos,
de forma que se agrupen en cada cluster los objetos con menores distancias entre sí y más
distanciados del resto de los clusters.
Una cuestión básica a resolver es el número de clusters finales, que en principio puede ser
cualquiera, por lo que hay que poner en práctica procedimientos para estimar el número ideal de
clusters y, en consecuencia, evaluar la calidad del resultado de cada solución posible.
Hay diferentes métodos, que se exponen más adelante:
Métodos de partición no jerárquicos (Partitioning methods) (basado en centroides?)
Cluster jerárquico (Hierarchical clustering)
Cluster difuso (Fuzzy clustering)
Cluster basado en densidad (Density-based clustering)
Cluster basado en modelos (Model-based clustering)
En R se cuenta con un amplio conjunto de paquetes para estos métodos y la correspondiente
visualización de los resultados. Igualmente existen métodos avanzados para detectar pautas de
objetos que adoptan cualquier forma, en grandes conjuntos de datos que incluyen ruido y outliers.
En fin, también en R se cuenta con métodos que permiten concluir si en un dataset existe
realmente una estructura de clusters o simplemente la aplicación de cualquier método de
clustering acaba devolviendo un número determinado de agrupamientos.
4.2. K-means
Es un método que permite asignar a cada observación el cluster que se encuentra más próximo en
términos del centroide (media). En general, la distancia empleada es la euclídea.
Pasos:
1. Se toman al azar k clusters iniciales.
2. Para el conjunto de observaciones, se vuelve a calcular las distancias a los centroides de
los clusters y se reasignan a los que estén más próximos. Se vuelven a recalcular los
centroides de los k clusters después de las reasignaciones de los elementos.
3. Se repiten los dos pasos anteriores hasta que no se produzca ninguna reasignación, es
decir, hasta que los elementos se estabilicen en algún grupo.
Usualmente, se especifican k centroides iniciales y se procede al paso (2) y, en la práctica, se
observan la mayor parte de reasignaciones en las primeras iteraciones.
En nuestro caso, obtenemos los clusters, fijando de antemano un número de tres:
set.seed (123)
km.res <- kmeans (my_data, 3, nstart = 25)
# Visualizamos con la función “fviz_cluster” del paquete {factoextra}:
fviz_cluster (km.res, data = my_data,
ellipse.type = "convex",
palette = "jco",
ggtheme = theme_minimal())
4.4. CLARA