Anda di halaman 1dari 19

¿QUE ES EL ANALISIS DE CLUSTER?

El análisis de conglomerados es un grupo de técnicas multivariadas cuyo propósito principal es


agrupar objetos en función de las características que poseen. Se le ha denominado análisis Q,
construcción de tipología, análisis de clasificación y taxonomía numérica. Esta variedad de
nombres se debe al uso de métodos de agrupamiento en disciplinas tan diversas como la
psicología, biología, sociología, economía, ingeniería y negocios. Aunque los nombres difieren
entre disciplinas, todos los métodos tienen una dimensión común: clasificación según las
relaciones entre los objetos agrupados [1, 2, 4, 10, 22, 27]. Esta dimensión común representa la
esencia de todos los enfoques de agrupamiento: la clasificación de datos como Sugerido por
agrupaciones naturales de los propios datos. El análisis de conglomerados es comparable al
análisis de factores en su objetivo de evaluar la estructura. Sin embargo, el análisis de
conglomerados difiere del análisis de factores en que el análisis de conglomerados agrupa los
objetos, mientras que el análisis de factores se ocupa principalmente de agrupar variables.
Además, el análisis factorial hace que las agrupaciones se basen en patrones de variación
(correlación) en los datos, mientras que el análisis de conglomerados realiza agrupaciones en
función de la distancia (proximidad).

Análisis de cluster como técnica multivariable

El análisis de conglomerados clasifica los objetos (por ejemplo, los encuestados, los productos u
otras entidades), en un conjunto de características seleccionadas por el usuario. Los grupos
resultantes deben exhibir una alta homogeneidad interna (dentro del grupo) y una alta
heterogeneidad externa (entre el grupo). Por lo tanto, si la clasificación es exitosa, los objetos
dentro de los grupos estarán muy juntos cuando se representen de manera geométrica, y
diferentes grupos estará muy lejos. El concepto de la variable es nuevamente importante para
entender cómo el análisis de conglomerados produce resultados matemáticamente. La variable
clúster representa una representación matemática de la conjunto seleccionado de variables que
compara las similitudes de los objetos.

La variación en el análisis de conglomerados se determina de manera bastante diferente de otras


técnicas multivariadas. El análisis de conglomerados es la única técnica multivariable que no
estima la variable empíricamente, sino que utiliza la variable según lo especificado por el
investigador. El enfoque del análisis de conglomerados está en la comparación de objetos basados
en la variable, no en la estimación de la variable en sí. Esta distinción hace que la definición de la
variable del investigador sea un paso crítico en el análisis de conglomerados.

Desarrollo Conceptual con Análisis de Clusters

El análisis de conglomerados se ha utilizado en todos los entornos de investigación imaginables.


Desde la derivación de taxonomías en biología para agrupar a todos los organismos vivos hasta
clasificaciones psicológicas basadas en la personalidad y otros rasgos personales, a análisis de
segmentación de mercados, las aplicaciones de análisis de brillo se han centrado principalmente
en agrupar individuos. Sin embargo, el análisis de conglomerados puede clasificar objetos que no
sean personas individuales, incluida la estructura del mercado, los análisis de las similitudes y
diferencias entre los nuevos productos y las evaluaciones de desempeño de las empresas para
identificar agrupaciones basadas en las estrategias u orientaciones estratégicas de las empresas.

En muchos casos, sin embargo, la agrupación es en realidad un medio para un fin en términos de
un objetivo definido conceptualmente. Las funciones más comunes que puede desempeñar el
análisis de cluster en el desarrollo conceptual incluyen lo siguiente:

 Reducción de datos: un investigador puede enfrentarse a un gran número de


observaciones que carecen de significado a menos que se clasifiquen en grupos
manejables. El análisis de conglomerados puede realizar este procedimiento de reducción
de datos de manera objetiva al reducir la información de una población completa o
Muestra información sobre grupos específicos.

Por ejemplo, si podemos entender las actitudes de una población identificando los grupos
principales dentro de la población, entonces hemos reducido los datos de toda la población a los
perfiles de varios grupos. De esta manera, el investigador proporciona una descripción más
concisa y comprensible de las observaciones, con una pérdida mínima de información.

 Generación de hipótesis: el análisis de conglomerados también es útil cuando un


investigador desea desarrollar hipótesis con respecto a la naturaleza de los datos o para
examinar hipótesis previamente establecidas.

Por ejemplo, un investigador puede creer que las actitudes hacia el consumo de una dieta en
comparación con las bebidas gaseosas normales podrían utilizarse para separar a los
consumidores de bebidas no alcohólicas en segmentos o grupos lógicos.

El análisis de conglomerados puede clasificar a los consumidores de refrescos según su actitud con
respecto a la dieta en comparación con los refrescos normales, y los grupos resultantes, en su
caso, pueden perfilarse por similitudes y diferencias demográficas.

La gran cantidad de aplicaciones de análisis de conglomerados en casi todas las áreas de


investigación crea no solo una gran cantidad de conocimientos sobre su uso, sino también la
necesidad de una mejor comprensión de la técnica para minimizar su uso indebido.

Necesidad de apoyo conceptual en el análisis de conglomerados

Lo creas o no, el análisis de conglomerados puede ser criticado por funcionar demasiado bien en el
sentido de que los resultados estadísticos se producen incluso cuando no es evidente una base
lógica para los conglomerados. Así, el investigador debe tener un una base conceptual sólida para
abordar cuestiones como por qué los grupos existen en primer lugar y qué variables explican
lógicamente por qué los objetos terminan en los grupos que hacen. Incluso si el análisis de cluster
se está utilizando en El desarrollo conceptual como se acaba de mencionar, es esencial alguna
razón conceptual. Las siguientes son las críticas más comunes que deben abordarse mediante un
apoyo conceptual en lugar de empírico:
El análisis de Cluster es descriptivo, teórico y no intrusivo. El análisis de conglomerados no tiene
una base estadística sobre la cual extraer inferencias de una muestra a una población, y muchos
sostienen que es solo una técnica exploratoria. Nada garantiza soluciones únicas, debido a que la
membresía del grupo para cualquier número de soluciones depende de muchos elementos del
procedimiento, y se pueden obtener muchas soluciones diferentes variando uno o más elementos.

El análisis de clústeres siempre creará clústeres, independientemente de la existencia real de


cualquier estructura en los datos. Al usar el análisis de conglomerados, el investigador está
asumiendo alguna estructura entre los objetos. El investigador siempre debe recordar que solo
porque Los clusters que se pueden encontrar no validan su existencia. Solo con un fuerte soporte
conceptual y luego la validación son los grupos potencialmente significativos y relevantes.

• La solución de clúster no es generalizable porque depende totalmente de las variables


utilizadas como base para la medida de similitud. Esta crítica se puede hacer contra cualquier
técnica estadística, pero el análisis de conglomerados generalmente se considera más
dependiente de las medidas utilizadas para caracterizar los objetos que otras técnicas
multivariadas. Con la variable de grupo completamente especificada por el investigador, la adición
de variables espurias o la eliminación de variables relevantes puede tener un impacto sustancial
en la solución resultante. Como resultado, el investigador debe ser especialmente consciente de
las variables utilizadas en el análisis, asegurando que Tienen un fuerte apoyo conceptual.

Por lo tanto, en cualquier uso del análisis de conglomerados, el investigador debe tener especial
cuidado en asegurar que El soporte conceptual es anterior a la aplicación de la técnica. Solo con
este apoyo en su lugar, el investigador debe abordar cada una de las decisiones específicas
involucradas en la realización de un análisis de conglomerados.

¿CÓMO FUNCIONA EL ANÁLISIS DE CLÚSTER?

El análisis de conglomerados realiza una tarea innata para todos los individuos: reconocimiento de
patrones y agrupación. La capacidad humana para procesar incluso pequeñas diferencias en
innumerables características es un proceso cognitivo.

inherente a los seres humanos, que no es fácilmente compatible con todos nuestros avances
tecnológicos. Tomemos por ejemplo la tarea de analizar y agrupar rostros humanos. Incluso desde
el nacimiento, los individuos pueden rápidamente identifique pequeñas diferencias en las
expresiones faciales y agrupe diferentes caras en grupos homogéneos mientras considera cientos
de características faciales. Sin embargo, todavía luchamos con el reconocimiento facial.

Programas para realizar la misma tarea. El proceso de identificación de agrupaciones naturales


puede ser bastante complejo bastante rápido.

Para demostrar cómo funciona el análisis de conglomerados, examinamos un ejemplo simple que
ilustra algunos de los problemas clave: medir la similitud, formar conglomerados y decidir la
cantidad de conglomerados que mejor representan la estructura. También discutimos brevemente
el equilibrio de las consideraciones objetivas y subjetivas que debe abordar cualquier investigador.
PROCESO DE DECISION DE ANALISIS CLUSTER

El análisis de conglomerados, al igual que las otras técnicas multivariables analizadas


anteriormente, puede verse desde un enfoque de construcción de modelos de seis etapas
(consulte la Figura 3 para las etapas 1 a 3 y la Figura 6 para las etapas 4 a 6).
A partir de los objetivos de investigación que pueden ser exploratorios o confirmatorios, el diseño
de un análisis de conglomerados trata lo siguiente:

 Partición del conjunto de datos para formar agrupaciones y selección de una solución de
agrupación
 Interpretar los grupos para comprender las características de cada grupo y desarrollar un
nombre o etiqueta que defina adecuadamente su naturaleza.
 Validación de los resultados de la solución de clúster final (es decir, determinación de su
estabilidad y generalización), junto con la descripción de las características de cada clúster
para explicar cómo pueden diferir en dimensiones relevantes como la demografía

Las siguientes secciones detallan todos estos temas a través de las seis etapas de la construcción
del modelo.

Etapa 1: Objetivos del análisis de cluster

El objetivo principal del análisis de clústeres es dividir un conjunto de objetos en dos o más grupos
según la similitud de los objetos para un conjunto de características específicas (variable de
clúster). En cumplimiento de esto objetivo básico, el investigador debe abordar dos cuestiones
clave: las preguntas de investigación que se abordan en este análisis y las variables utilizadas para
caracterizar los objetos en el proceso de agrupamiento. Lo haremos Discuta cada tema en la
siguiente sección.

PREGUNTAS DE INVESTIGACIÓN EN EL ANÁLISIS DE GRUPO DE CLASES

Al formar grupos homogéneos, el análisis de grupos puede abordar cualquier combinación de tres
preguntas de investigación básicas

Descripción de la taxonomía. El uso más tradicional del análisis de conglomerados ha sido con
fines exploratorios y la formación de una taxonomía, una clasificación de objetos basada
empíricamente. Como se describió anteriormente, el análisis de clústeres se ha utilizado en una
amplia gama de aplicaciones para su capacidad de partición. El análisis de cluster también puede
generar hipótesis relacionadas con la estructura de los objetos. Finalmente, aunque se considera
principalmente como una técnica exploratoria, el análisis de conglomerados se puede utilizar con
fines de confirmación. En tales casos, una tipología propuesta (clasificación basada en la teoría)
puede compararse con la derivada del análisis de conglomerados.

Simplificación de datos. Al definir la estructura entre las observaciones, el análisis de


conglomerados también desarrolla una perspectiva simplificada al agrupar las observaciones para
un análisis más detallado. Mientras que el análisis factorial intenta proporcionar dimensiones o
estructura a las variables, el análisis de conglomerados realiza la misma tarea para las
observaciones. Por lo tanto, en lugar de ver todas las observaciones como únicas, pueden verse
como miembros de grupos y perfilarse por sus características generales.

Identificación de la relación. Con los grupos definidos y la estructura subyacente de los datos
representados en los grupos, el investigador tiene un medio para revelar las relaciones entre los
grupos Observaciones que típicamente no es posible con las observaciones individuales. Si se
utilizan análisis como el análisis discriminante para identificar empíricamente las relaciones, o los
grupos son examinada por métodos más cualitativos, la estructura simplificada del análisis de
conglomerados a menudo identifica relaciones o similitudes y diferencias no reveladas
anteriormente.

Selección de variables del cluter

Los objetivos del análisis de cluster no se pueden separar. a partir de la selección de variables
utilizadas para caracterizar los objetos agrupados. Ya sea que el objetivo sea exploratorio o
confirmatorio, el investigador restringe efectivamente los posibles resultados de la Variables
seleccionadas para su uso. Los grupos derivados reflejan la estructura inherente de los datos y se
definen solo por las variables. Por lo tanto, la selección de las variables que se incluirán en la
variable de grupo debe Se realizará con respecto a consideraciones teóricas y conceptuales, así
como prácticas.

Consideraciones conceptuales. Cualquier aplicación de análisis de conglomerados debe tener


algún fundamento sobre qué variables se seleccionan. Si la justificación se basa en una teoría
explícita, el pasado investigación, o suposición, el investigador debe darse cuenta de la
importancia de incluir solo aquellas variables que (1) caracterizan los objetos agrupados y (2) se
relacionan específicamente con los objetivos de El análisis de cluster. La técnica de análisis de
conglomerados no tiene medios para diferenciar las variables relevantes de las irrelevantes y
deriva los grupos de objetos más consistentes, aunque distintos, de todas las variables. Por lo
tanto, uno nunca debe incluir variables indiscriminadamente. En su lugar, elija cuidadosamente las
variables con el objetivo de investigación como criterio de selección.

Consideraciones prácticas. El análisis de conglomerados puede verse afectado dramáticamente


por la inclusión de solo una o dos variables inapropiadas o no diferenciadas [17]. Siempre se
recomienda al investigador que examine los resultados y elimine las variables que no son
distintivas (es decir, que no difieren significativamente) entre los grupos derivados. Este
procedimiento permite que las técnicas de cluster Defina al máximo los clústeres basándose solo
en aquellas variables que muestran diferencias entre los objetos
Etapa 2: Diseño de Investigación en Análisis de Clusters

Con los objetivos definidos y las variables seleccionadas, el investigador debe abordar cuatro
preguntas antes de iniciar el proceso de partición:

1. ¿Es adecuado el tamaño de la muestra?

2. ¿Se pueden detectar los valores atípicos y, de ser así, se deben eliminar?

3. ¿Cómo se debe medir la similitud de objetos?

4. ¿Deben estandarizarse los datos?

Se pueden usar muchos enfoques diferentes para responder estas preguntas. Sin embargo,
ninguno de ellos ha sido evaluado lo suficiente como para proporcionar una respuesta definitiva a
ninguna de estas preguntas, y desafortunadamente, muchos de los enfoques proporcionan
resultados diferentes para el mismo conjunto de datos. Por lo tanto, el análisis de conglomerados,
junto con el análisis factorial, es tanto un arte como una ciencia. Por esta razón, nuestra discusión
revisa estos cuestiones, proporcionando ejemplos de los enfoques más utilizados y una evaluación
de las limitaciones prácticas cuando sea posible los grupos incluyen 2.431 * 1015 particiones
posibles [2]. En cambio, según las decisiones del investigador, la técnica identifica un pequeño
subconjunto de posibles soluciones como "correctas". Desde este punto de vista, los problemas de
diseño de la investigación y la elección de las metodologías realizadas por el investigador quizás
tengan un mayor impacto que con cualquier otro método multivariado. técnica.

Tamaño de la muestra.

La cuestión del tamaño de la muestra en el análisis de conglomerados no se relaciona con ningún


problema de inferencia estadística (es decir, el poder estadístico). En cambio, el tamaño de la
muestra debe ser lo suficientemente grande como para proporcionar una representación
suficiente de pequeños grupos dentro de la población y representar la estructura subyacente. Este
problema de representación se vuelve crítico para detectar valores atípicos (ver la siguiente
sección), siendo la pregunta principal: Cuando se detecta un valor atípico, ¿es un representante de
un pequeño pero sustantivo ¿grupo? Los grupos pequeños aparecerán naturalmente como
pequeñas cantidades de observaciones, particularmente cuando el tamaño de la muestra es
pequeño. Por ejemplo, cuando una muestra contiene solo 100 observaciones o menos, los grupos

que en realidad constituyen el 10 por ciento de la población puede estar representada por solo
una o dos observaciones debido al proceso de muestreo. En tales casos, la distinción entre valores
atípicos y representantes de un grupo pequeño es mucho más difícil de hacer. Las muestras más
grandes aumentan la posibilidad de que los grupos pequeños estén representados por suficientes
casos para que su presencia sea más fácil de identificar

Como resultado, el investigador debe asegurarse de que el tamaño de la muestra sea lo


suficientemente grande como para representar adecuadamente a todos los grupos relevantes de
la población. Al determinar el tamaño de la muestra, el investigador debe Especifique los tamaños
de grupo necesarios para la relevancia de las preguntas de investigación que se formulan.
Obviamente, si los objetivos del análisis requieren la identificación de pequeños grupos dentro de
la población, el investigador debe esforzarse por obtener muestras de mayor tamaño. Sin
embargo, si el investigador solo está interesado en grupos más grandes (por ejemplo, segmentos
importantes para campañas promocionales), la distinción entre un valor atípico y un
representante de un grupo pequeño es menos importante y ambos pueden manejarse de manera
similar.

También se han desarrollado nuevos programas para aplicaciones que utilizan tamaños de
muestra grandes que se aproximan a 1.000 observaciones o más. SPSS incluye un programa de
clúster de dos pasos que tiene la capacidad de rápidamente determine un número apropiado de
grupos y luego clasifíquelos usando una rutina no jerárquica. Este procedimiento es relativamente
nuevo, pero puede resultar útil en aplicaciones con muestras grandes Donde los métodos
tradicionales de agrupamiento son ineficientes.

Detectando valores atípicos.

En su búsqueda de estructura, ya hemos discutido cómo el análisis de conglomerados es sensible a


la inclusión de variables irrelevantes. Pero el análisis de agrupamiento también es sensible a los
valores atípicos (objetos diferentes de todos los demás). Los valores atípicos pueden representar:

•Observaciones verdaderamente aberrantes que no son representativas de la población general.

• Observaciones representativas de segmentos pequeños o insignificantes dentro de la población.

• Un submuestreo de grupo (s) real (es) en la población que causa una representación deficiente
de grupo (s) en la muestra.

En el primer caso, los valores atípicos distorsionan la estructura real y hacen que los grupos
derivados no sean representativos de la estructura de la población real. En el segundo caso, el
valor atípico se elimina para que el Los grupos resultantes representan con mayor precisión los
segmentos relevantes en las poblaciones. Sin embargo, en el tercer caso, los valores atípicos
deben incluirse en las soluciones de clúster, incluso si están insuficientemente representados en la
muestra, porque representan grupos válidos y relevantes. Por esta razón, siempre es necesario un
examen preliminar de los valores atípicos.

Enfoques gráficos.

Una de las formas más sencillas de detectar datos atípicos en la pantalla es preparar un Diagrama
de perfil gráfico, que enumera las variables a lo largo del eje horizontal y los valores de las
variables a lo largo del eje vertical. Cada punto en el gráfico representa el valor de la variable
correspondiente, y la Los puntos están conectados para facilitar la interpretación visual. Los
perfiles de todos los objetos se trazan en el gráfico, una línea para cada objeto. Los valores atípicos
son aquellos encuestados que tienen perfiles muy diferentes de los encuestados más típicos. En la
Figura 4 se muestra un ejemplo de un diagrama de perfil gráfico.

Enfoques empíricos.

Aunque bastante simples, los procedimientos gráficos se vuelven engorrosos con un gran número
de objetos y aún más difíciles a medida que aumenta el número de variables. Además, la
detección de valores atípicos debe extenderse más allá de un enfoque univariado, porque los
valores atípicos también pueden ser definido en un sentido multivariado como tener perfiles
únicos a través de un conjunto completo de variables que los distinguen de todas las demás
observaciones. Como resultado, se necesita una medida empírica para Facilita las comparaciones
entre objetos. Para estos casos, se pueden aplicar procedimientos para identificar valores atípicos.
La combinación de enfoques bivariados y multivariados proporciona un conjunto integral de
herramientas para identificar valores atípicos desde muchas perspectivas.

Otro enfoque es identificar los valores atípicos a través de las medidas de similitud. Los ejemplos
más obvios de valores atípicos son observaciones únicas que son las más disímiles de las otras
observaciones. Antes del análisis, las similitudes de todas las observaciones se pueden comparar
con el centroide general del grupo (encuestado típico). Las observaciones aisladas que muestran
gran disimilitud pueden ser eliminadas.

Los patrones de agrupación también se pueden observar una vez que se ha ejecutado el programa
de agrupación. Sin embargo, a medida que aumenta la cantidad de objetos a agrupar, se necesitan
múltiples iteraciones para identificar valores atípicos. Además, Algunos de los enfoques de
agrupamiento son bastante sensibles a eliminar solo unos pocos casos [14]. Por lo tanto, se debe
hacer énfasis en identificar los valores atípicos antes de que comience el análisis.
Midiendo Similitud.

El concepto de similitud es fundamental para el análisis de conglomerados. La similitud entre


objetos es una medida empírica de correspondencia, o semejanza, entre objetos a agrupar.
Comparación de las dos técnicas de interdependencia (análisis factorial y análisis de
conglomerados) Demostrará cómo funciona la similitud para definir la estructura en ambas
instancias.

En nuestra discusión del análisis factorial, la matriz de correlación entre todos los pares de
variables se utilizó para agrupar las variables en factores. El coeficiente de correlación representó
la similitud de cada variable con otra variable cuando se observa en todas las observaciones. Así, el
análisis factorial agrupó variables que tenían altas correlaciones entre sí.

Un proceso comparable ocurre en el análisis de conglomerados. Aquí, la medida de similitud se


calcula para todos los pares de objetos, con la similitud basada en el perfil de cada observación a
través de las características especificadas por el investigador. De esta manera, cualquier objeto
puede compararse con cualquier otro objeto a través de la medida de similitud, al igual que
usamos correlaciones entre variables en el análisis factorial. El procedimiento de análisis de
conglomerados luego procede a agrupar objetos similares en grupos.

La similitud entre objetos se puede medir de varias maneras, pero tres métodos dominan las
aplicaciones del análisis de conglomerados: medidas correlacionales, medidas de distancia y
medidas de asociación. Tanto las medidas de correlación como de distancia requieren datos
métricos, mientras que las medidas de asociación son para datos no métricos.

Medidas de correlación.

La medida inter-objeto de similitud que probablemente viene a la mente. Primero está el


coeficiente de correlación entre un par de objetos medidos en varias variables. En efecto, en lugar
de correlacionar dos conjuntos de variables, invertimos la matriz de datos para que las columnas
representen Los objetos y las filas representan las variables. Por lo tanto, el coeficiente de
correlación entre las dos columnas de números es la correlación (o similitud) entre los perfiles de
los dos objetos. Las correlaciones altas indican similitud (la correspondencia de patrones a través
de las características) y las correlaciones bajas denotan una falta de ella. Este procedimiento
también se sigue en la aplicación del factor Q-type. análisis

El enfoque de correlación se ilustra utilizando el ejemplo de siete observaciones que se muestra


en la Figura 4. Una medida correlativa de similitud no se ve en el valor promedio observado, o en
la magnitud, sino en los patrones de movimiento vistos como uno traza los datos para cada caso
sobre las variables medidas; En otras palabras, la similitud en los perfiles para cada caso. En la
Tabla 3, que contiene las correlaciones entre estas siete observaciones, podemos ver dos grupos
distintos. Primero, los casos 1, 5 y 7 tienen patrones similares y correlaciones positivas altas
correspondientes. Del mismo modo, los casos 2, 4 y 6 también tienen correlaciones positivas altas
entre sí, pero correlaciones bajas o negativas con las otras observaciones. El caso 3 tiene
correlaciones bajas o negativas con todos los demás casos, por lo que tal vez forme un grupo por sí
mismo

Las correlaciones representan patrones a través de las variables en lugar de las magnitudes, que
son comparables a un análisis factorial de tipo Q. Las medidas correlacionales rara vez se usan
porque el énfasis en La mayoría de las aplicaciones de análisis de clústeres se basan en las
magnitudes de los objetos, no en los patrones de valores.

Medidas de distancia.

A pesar de que las medidas correlacionales tienen un atractivo intuitivo y son utilizadas en muchas
otras técnicas multivariadas, no son la medida de similitud más utilizada en el análisis de
conglomerados. En cambio, las medidas de similitud más utilizadas son la distancia. Estas medidas
de distancia representan similitud como la proximidad de las observaciones entre sí a través de las
variables en la variable de grupo. Las medidas de distancia son en realidad una medida de
disimilitud, con valores más grandes que denotan una menor similitud. La distancia se convierte en
una medida de similitud utilizando una relación inversa.

En nuestro ejemplo hipotético (ver Figura 2), se muestra una ilustración simple del uso de medidas
de distancia, en la que se definieron grupos de observaciones según la proximidad de las
observaciones a entre sí cuando las puntuaciones de cada observación en dos variables se
representaron gráficamente. Aunque la proximidad pueda parecer un concepto simple, existen
varias medidas de distancia disponibles, cada una con características específicas
La distancia euclidiana es la medida de distancia más comúnmente reconocida, muchas veces
denominada distancia en línea recta. Un ejemplo de cómo se obtiene la distancia euclidiana se
muestra geométricamente en la Figura 5. Suponga que dos puntos en dos dimensiones tienen
coordenadas (X1, Y1) y (X2, Y2), respectivamente. La distancia euclidiana entre los puntos es la
longitud de la hipotenusa de un triángulo rectángulo, calculada por la fórmula debajo de la figura.
Este concepto Se generaliza fácilmente a más de dos variables.

La distancia euclidiana al cuadrado (o absoluta) es la suma de las diferencias al cuadrado sin


tomar la raíz cuadrada. La distancia euclidiana al cuadrado tiene la ventaja de no tener que tomar
la raíz cuadrada, lo que acelera los cálculos de manera importante. Es la medida de distancia
recomendada para el centroide y los métodos de agrupamiento de Ward.

La distancia de la ciudad-bloque (Manhattan) no se basa en la distancia euclidiana. En su lugar,


utiliza la suma de las diferencias absolutas de las variables (es decir, los dos lados de un triángulo
rectángulo en lugar de la hipotenusa). Este procedimiento es el más sencillo de calcular, pero
puede llevar a una invalidez. agrupaciones si las variables de agrupación están altamente
correlacionadas [26].

Distancia de Mahalanobis (D2) es una medida de distancia generalizada que explica las
correlaciones entre las variables de manera que ponderan cada variable por igual. También se
basa en variables estandarizadas y se analizará con más detalle en la siguiente sección. Aunque es
deseable en muchas situaciones, no está disponible como una medida de proximidad en SAS o
SPSS.

Otras medidas de distancia (otras formas de diferencias o los poderes aplicados a las diferencias)
están disponibles en muchos programas de agrupación. Se alienta al investigador a explorar
soluciones de clúster alternativas obtenidas al usar diferentes medidas de distancia en un esfuerzo
por representar mejor los patrones de datos subyacentes. Aunque se dice que estas medidas de
distancia representan similitud, en un sentido muy real, representan mejor disimilitud, porque los
valores más altos generalmente significan relativamente menos similitud. Mayor distancia significa
que las observaciones son menos similares. Algunos paquetes de software realmente usan el
término disimilitud debido a este hecho.

Comparación con las medidas correlacionales.

La diferencia entre las medidas de correlación y de distancia se puede ilustrar mejor refiriéndose
nuevamente a la Figura 4. Las medidas de distancia se centran en la magnitud de los valores y
representan como similares los objetos que están cerca, incluso si tienen diferentes patrones en
las variables. En contraste, las medidas de correlación se centran en los patrones a través de las
variables y no consideran la magnitud de las diferencias entre los objetos. Veamos nuestras siete
observaciones para ver cómo difieren estos enfoques.

La Tabla 3 contiene los valores para las siete observaciones sobre las cinco variables (X1 a X5),
junto con las medidas de distancia y correlación de similitud. Soluciones de clúster utilizando
cualquiera La medida de similitud parece indicar tres grupos, pero la pertenencia a cada grupo es
bastante diferente

Con distancias más pequeñas que representan una mayor similitud, vemos que los casos 1 y 2
forman un grupo (distancia de 3.32), y los casos 4, 5, 6 y 7 (distancias que van desde 3.87 a 7.07)
conforman otro grupo. El carácter distintivo de estos dos grupos entre sí se muestra en que la
distancia más pequeña entre los dos grupos es 10.20. Estos dos grupos representan observaciones
con valores más altos versus más bajos. Un tercer grupo, que consiste solo en el caso 3, se
diferencia de los otros dos grupos porque tiene valores que son bajos y altos.

Usando la correlación como la medida de similitud, también emergen tres grupos. Primero, los
casos 1, 5 y 7 están todos altamente correlacionados (.891 a .963), al igual que los casos 2, 4 y 6
(.516 a .791). Además, las correlaciones entre grupos generalmente son cercanas a cero o incluso
negativas. Finalmente, el caso 3 es nuevamente distinto de los otros dos grupos y forma un grupo
de un solo miembro
Una medida correlacional se enfoca en patrones en lugar de la medida de distancia más tradicional
y requiere una interpretación diferente de los resultados por parte del investigador. Por eso, el
investigador no se enfocará en los centroides de grupo reales en las variables de agrupamiento,
como se hace cuando se usan medidas de distancia. La interpretación depende mucho más de los
patrones que se hacen evidentes en Los resultados.

¿Qué medida de distancia es mejor? Al intentar seleccionar una medida de distancia particular, el
investigador debe recordar las siguientes advertencias:

Diferentes medidas de distancia o un cambio en las escalas de las variables pueden llevar a
diferentes soluciones de grupo. Por lo tanto, es recomendable utilizar varias medidas y comparar
los resultados con patrones teóricos o conocidos.

Cuando las variables están correlacionadas (de manera positiva o negativa), es probable que la
medida de distancia de Mahalanobis sea la más adecuada porque ajusta las correlaciones y
pondera todas las variables por igual. Alternativamente, el investigador puede desear evitar el uso
de variables altamente redundantes como entrada para el análisis de conglomerados.

Medidas de asociación. Las medidas de asociación de similitud se utilizan para comparar objetos
cuyas características se miden solo en términos no métricos (medida nominal u ordinal). A modo
de ejemplo, los encuestados podrían responder sí o no en varias afirmaciones. Una medida de
asociación podría evaluar el grado de acuerdo o coincidencia entre cada par de encuestados. La
forma más simple de medir la asociación sería el porcentaje de veces en que se produjo el acuerdo
(ambos encuestados dijeron que sí a una pregunta o ambos dijeron que no) en el conjunto de
preguntas.

Se han desarrollado extensiones de este simple coeficiente de coincidencia para acomodar


variables nominales de múltiples categorías e incluso medidas ordinales. Sin embargo, muchos
programas de computadora ofrecen solo un soporte limitado para las medidas de asociación, y el
investigador se ve obligado a calcular primero las medidas de similitud y luego ingresar la matriz
de similitud en el programa de agrupación. Las revisiones de los diversos tipos de medidas de
asociación se pueden encontrar en varias fuentes [8, 13, 14, 27].

Selección de una medida de similitud. Aunque hay tres formas diferentes de medidas de similitud
disponibles, la forma más utilizada y preferida es la medida de distancia por varias razones.
Primero, la medida de la distancia representa mejor el concepto de proximidad, que es
fundamental para el análisis de conglomerados. Las medidas correlacionales, aunque tienen una
aplicación generalizada en otras técnicas, representan patrones en lugar de proximidad. En
segundo lugar, el análisis de conglomerados se asocia típicamente con características medidas por
variables métricas. En algunas aplicaciones, las características no métricas dominan, pero la
mayoría de las veces las características se representan mediante medidas métricas que hacen que
la distancia sea nuevamente la medida preferida. Por lo tanto, en cualquier situación, al
investigador se le proporcionan medidas de similitud que pueden representar la proximidad de los
objetos en un conjunto de variables métricas o no métricas.
NORMALIZACIÓN DE LOS DATOS Con la medida de similitud seleccionada, el investigador debe
abordar una pregunta más: ¿Se deben estandarizar los datos antes de calcular las similitudes? Al
responder a esta pregunta, el investigador debe considerar que la mayoría de los análisis de
conglomerados que usan medidas de distancia son bastante sensibles a diferentes escalas o
magnitudes entre las variables. En general, las variables con mayor dispersión (es decir,
desviaciones estándar más grandes) tienen más impacto en la similitud del valor final

Las variables de agrupación que no son todas de la misma escala deben estandarizarse siempre
que sea necesario para evitar los casos en que la influencia de una variable en la solución de
agrupación es mayor de lo que debería ser [3]. Ahora examinaremos varios enfoques de
estandarización disponibles para los investigadores.

Estandarizar las variables. La forma más común de estandarización es la conversión de cada


variable a puntajes estándar (también conocidos como puntajes Z) al restar la media y dividir por
La desviación estándar para cada variable. Esta opción se puede encontrar en todos los programas
de computadora y muchas veces incluso se incluye directamente en el procedimiento de análisis
de conglomerados. El proceso convierte cada puntaje de datos sin procesar en un valor
estandarizado con una media de 0 y una desviación estándar de 1 y, a su vez, elimina el sesgo
introducido por las diferencias en las escalas de varios atributos o variables utilizadas en el análisis

Hay dos beneficios principales de la estandarización. Primero, es mucho más fácil comparar las
variables porque están en la misma escala (una media de 0 y una desviación estándar de 1).

Los valores positivos están por encima de la media y los valores negativos están por debajo. La
magnitud representa el número de desviaciones estándar que el valor original es de la media.
Segundo, no hay diferencia en Los valores estandarizados cuando solo cambia la escala. Por
ejemplo, cuando estandarizamos una medida de la duración del tiempo, los valores
estandarizados son los mismos si se miden en minutos o segundos.

Por lo tanto, el uso de variables estandarizadas realmente elimina los efectos debido a las
diferencias de escala no solo entre las variables, sino también para la misma variable. La necesidad
de estandarización se minimiza cuando todas las variables se miden en la misma escala de
respuesta (por ejemplo, una serie de preguntas de actitud), pero se vuelve bastante importante
cuando se incluyen variables que utilizan escalas de medición bastante diferentes en la variable de
grupo. En ocasiones, incluso cuando la estandarización no es necesaria porque todas las variables
se miden en la misma escala, el investigador puede elegir centrar cada variable restando la media
global para esa variable de cada observación. El resultado es un conjunto de variables con una
media de cero pero que conservan su variabilidad única. Este paso simplemente facilita la
interpretación cuando las variables no tienen los mismos medios.

Usando una medida de distancia estandarizada. Una medida de la distancia euclidiana que
incorpora directamente un procedimiento de estandarización es la distancia de Mahalanobis (D2).
El enfoque de Mahalanobis no solo realiza un proceso de estandarización de los datos al escalar en
términos de las desviaciones estándar, sino que también suma la varianza-covarianza agrupada
dentro del grupo, que se ajusta a las correlaciones entre las variables Los conjuntos de variables
altamente correlacionados en el análisis de conglomerados pueden sobreponderar de manera
implícita un conjunto de variables en los procedimientos de agrupamiento (ver discusión sobre la
multicolinealidad en la etapa 3). En resumen, el procedimiento de distancia generalizada de
Mahalanobis calcula una medida de distancia entre objetos comparables a R2 en el análisis de
regresión. Aunque muchas situaciones son apropiadas para el uso de la distancia de Mahalanobis.
no todos los programas lo incluyen como una medida de similitud. En tales casos, el investigador
usualmente selecciona la distancia euclidiana al cuadrado.

Estandarización por observación. Hasta ahora hablamos de estandarizar solo variables. ¿Por qué
podríamos estandarizar los encuestados o los casos? Tomemos un ejemplo simple

Supongamos que recopilamos varias clasificaciones en una escala de 10 puntos de la importancia


de varios atributos utilizados en las decisiones de compra de un producto. Podríamos aplicar el
análisis de conglomerados y obtener conglomerados, pero una posibilidad distinta es que lo que
obtendríamos son conglomerados de personas que dijeron que todo era importante, algunos que
dijeron que todo tenía poca importancia y quizás algunos conglomerados intermedios. Lo que
estamos viendo son patrones de respuestas específicas de un individuo. Estos patrones pueden
reflejar una forma específica de responder a un conjunto de preguntas, como los que dicen sí
(responda favorablemente a todas las preguntas) o los que no responden (responda
desfavorablemente a todas las preguntas).

Estos patrones de afirmadores y negativistas representan lo que se denominan efectos de estilo


de respuesta. Si queremos identificar grupos según su estilo de respuesta e incluso controlar estos
patrones, la estandarización típica a través del cálculo de las puntuaciones Z no es apropiada. Lo
que se desea en la mayoría de los casos es la importancia relativa de una variable para otra para
cada individuo. En otra ¿Es el atributo 1 más importante que los otros atributos, y se pueden
encontrar grupos de encuestados con patrones similares de importancia? En este caso, la
estandarización por parte del encuestado estandarizaría cada pregunta no al promedio de la
muestra, sino al puntaje promedio de ese encuestado. Esta estandarización dentro del caso o
centrada en la fila puede ser bastante efectiva para eliminar los efectos de estilo de respuesta y es
especialmente adecuada para muchas formas de datos de actitud [25]. Debemos tener en cuenta
que esta El enfoque es similar a una medida correlacional al resaltar el patrón a través de las
variables, pero la proximidad de los casos todavía determina el valor de similitud.

¿Debes estandarizar? La estandarización proporciona un remedio a un problema fundamental en


las medidas de similitud, en particular las medidas a distancia, y muchos recomiendan su uso
generalizado [11, 13].

Sin embargo, el investigador no debe aplicar la estandarización sin tener en cuenta las
consecuencias de eliminar algunas relaciones naturales reflejadas en la escala de las variables,
mientras que otros han dicho que puede ser apropiado [1]. Algunos investigadores demuestran
que puede que ni siquiera tenga efectos perceptibles [7, 17]. Por lo tanto, ninguna razón nos dice
que usemos variables estandarizadas versus variables no estandarizadas.
La decisión de estandarizar debe basarse en cuestiones empíricas y conceptuales que reflejen
tanto los objetivos de investigación como las cualidades empíricas de los datos. Por ejemplo, un
investigador puede desear considere la estandarización si las variables de agrupación con
diferentes escalas o si el análisis preliminar muestra que las variables de agrupación muestran
grandes diferencias en las desviaciones estándar.

Etapa 3: Suposiciones en el análisis de conglomerados

El análisis de conglomerados no es una técnica de inferencia estadística en la que los parámetros


de una muestra se evalúan como representativos de una población. En cambio, el análisis de
conglomerados es un método para cuantificar las características estructurales de un conjunto de
observaciones. Como tal, tiene fuertes propiedades matemáticas pero no fundamentos
estadísticos. Los requisitos de normalidad, linealidad y homoscedasticidad que eran tan
importantes en otras técnicas realmente tienen poca relación con el análisis de conglomerados. El
investigador debe centrarse, sin embargo, en otros dos problemas críticos: representatividad de la
muestra y multicolinealidad. Entre las variables en el cluster variate.

REPRESENTATIVIDAD DE LA MUESTRA Rara vez el investigador tiene un censo de la población


para usar en el análisis de conglomerados. Por lo general, se obtiene una muestra de casos y los
grupos se derivan con la esperanza de que representen la estructura de la población. Por lo tanto,
el investigador debe estar seguro de que la muestra obtenida es verdaderamente representativa
de la población. Como se mencionó anteriormente, los valores atípicos pueden ser realmente solo
un submuestreo de grupos divergentes que, cuando se descartan, introducen sesgos en la
estimación de la estructura. El investigador debe darse cuenta de que el análisis de conglomerados
es tan bueno como la Representatividad de la muestra. Por lo tanto, se deben hacer todos los
esfuerzos para garantizar que la muestra sea representativa y los resultados sean generalizables
para la población de interés.

IMPACTO DE LA MULTICOLLINEARIDAD La multicolinealidad fue un problema en otras técnicas


multivariadas debido a la dificultad para discernir el verdadero impacto de las variables
multicolineales. En analisis de cluster el efecto es diferente porque la multicolinealidad es en
realidad una forma de ponderación implícita. Comencemos con un ejemplo que ilustra el efecto de
la multicolinealidad.

Supongamos que los encuestados se agrupan en 10 variables, todas las declaraciones de actitud
relativas a un servicio. Cuando se examina la multicolinealidad, vemos dos conjuntos de variables,
la primera compuesta por ocho afirmaciones y la segunda compuesta por las dos afirmaciones
restantes. Si nuestra intención es realmente agrupar a los encuestados en las dimensiones del
servicio (en este caso representado por los dos grupos de variables), el uso de las 10 variables
originales será bastante engañoso. Debido a que cada variable tiene el mismo peso en el análisis
de conglomerados, la primera dimensión tendrá cuatro veces más posibilidades (ocho elementos
en comparación con dos elementos) para afectar la medida de similitud. Como resultado, la
similitud se verá predominantemente afectada por la primera dimensión con ocho elementos en
lugar de la segunda dimensión con dos elementos.
La multicolinealidad actúa como un proceso de ponderación que no es aparente para el
observador pero que, sin embargo, afecta el análisis. Por esta razón, se alienta al investigador a
examinar las variables utilizadas en El análisis de conglomerados para la multicolinealidad
sustancial y, si se encuentra, reduce las variables a números iguales en cada conjunto o usa una
medida de distancia que toma en cuenta la multicolinealidad. Otra solución posible consiste en
factorizar las variables antes de la agrupación y seleccionar una variable de agrupación de cada
factor o utilizar las puntuaciones de los factores resultantes como variables de agrupación.
Recuerde que los componentes principales o los factores de rotación varimax no están
correlacionados. De esta manera, la investigación puede adoptar un enfoque proactivo para tratar
la multicolinealidad.

Una última cuestión es si usar los puntajes de los factores en el análisis de conglomerados. El
debate se centra en investigaciones que muestran que las variables que realmente discriminan
entre los grupos subyacentes no están bien.

Representado en la mayoría de las soluciones factoriales. Por lo tanto, cuando se utilizan las
puntuaciones de los factores, es muy posible que se obtenga una representación deficiente de la
estructura real de los datos [23]. El investigador debe lidiar con la multicolinealidad y la
discriminabilidad de las variables para llegar a la mejor representación de la estructura.

Etapa 4: Derivando agrupamientos y evaluando el ajuste general

Con las variables de agrupamiento seleccionadas y la matriz de similitud calculada, el proceso de


partición comienza (ver figura 6). El investigador debe:

• Seleccione el procedimiento de partición utilizado para formar grupos.

• Tomar la decisión sobre el número de grupos a formar.


Ambas decisiones tienen implicaciones sustanciales no solo en los resultados que se obtendrán
sino también en la interpretación que se puede derivar de los resultados [15]. Primero,
examinamos los procedimientos de partición disponibles y luego analizamos las opciones
disponibles para decidir una solución de clúster definiendo la cantidad de clústeres y membresía
para cada observación. Los procedimientos de partición funcionan sobre un principio simple.
Buscan maximizar la distancia entre grupos al tiempo que minimizan las diferencias de los
miembros del grupo (consulte la Figura 7).

Anda mungkin juga menyukai