El análisis de conglomerados clasifica los objetos (por ejemplo, los encuestados, los productos u
otras entidades), en un conjunto de características seleccionadas por el usuario. Los grupos
resultantes deben exhibir una alta homogeneidad interna (dentro del grupo) y una alta
heterogeneidad externa (entre el grupo). Por lo tanto, si la clasificación es exitosa, los objetos
dentro de los grupos estarán muy juntos cuando se representen de manera geométrica, y
diferentes grupos estará muy lejos. El concepto de la variable es nuevamente importante para
entender cómo el análisis de conglomerados produce resultados matemáticamente. La variable
clúster representa una representación matemática de la conjunto seleccionado de variables que
compara las similitudes de los objetos.
En muchos casos, sin embargo, la agrupación es en realidad un medio para un fin en términos de
un objetivo definido conceptualmente. Las funciones más comunes que puede desempeñar el
análisis de cluster en el desarrollo conceptual incluyen lo siguiente:
Por ejemplo, si podemos entender las actitudes de una población identificando los grupos
principales dentro de la población, entonces hemos reducido los datos de toda la población a los
perfiles de varios grupos. De esta manera, el investigador proporciona una descripción más
concisa y comprensible de las observaciones, con una pérdida mínima de información.
Por ejemplo, un investigador puede creer que las actitudes hacia el consumo de una dieta en
comparación con las bebidas gaseosas normales podrían utilizarse para separar a los
consumidores de bebidas no alcohólicas en segmentos o grupos lógicos.
El análisis de conglomerados puede clasificar a los consumidores de refrescos según su actitud con
respecto a la dieta en comparación con los refrescos normales, y los grupos resultantes, en su
caso, pueden perfilarse por similitudes y diferencias demográficas.
Lo creas o no, el análisis de conglomerados puede ser criticado por funcionar demasiado bien en el
sentido de que los resultados estadísticos se producen incluso cuando no es evidente una base
lógica para los conglomerados. Así, el investigador debe tener un una base conceptual sólida para
abordar cuestiones como por qué los grupos existen en primer lugar y qué variables explican
lógicamente por qué los objetos terminan en los grupos que hacen. Incluso si el análisis de cluster
se está utilizando en El desarrollo conceptual como se acaba de mencionar, es esencial alguna
razón conceptual. Las siguientes son las críticas más comunes que deben abordarse mediante un
apoyo conceptual en lugar de empírico:
El análisis de Cluster es descriptivo, teórico y no intrusivo. El análisis de conglomerados no tiene
una base estadística sobre la cual extraer inferencias de una muestra a una población, y muchos
sostienen que es solo una técnica exploratoria. Nada garantiza soluciones únicas, debido a que la
membresía del grupo para cualquier número de soluciones depende de muchos elementos del
procedimiento, y se pueden obtener muchas soluciones diferentes variando uno o más elementos.
Por lo tanto, en cualquier uso del análisis de conglomerados, el investigador debe tener especial
cuidado en asegurar que El soporte conceptual es anterior a la aplicación de la técnica. Solo con
este apoyo en su lugar, el investigador debe abordar cada una de las decisiones específicas
involucradas en la realización de un análisis de conglomerados.
El análisis de conglomerados realiza una tarea innata para todos los individuos: reconocimiento de
patrones y agrupación. La capacidad humana para procesar incluso pequeñas diferencias en
innumerables características es un proceso cognitivo.
inherente a los seres humanos, que no es fácilmente compatible con todos nuestros avances
tecnológicos. Tomemos por ejemplo la tarea de analizar y agrupar rostros humanos. Incluso desde
el nacimiento, los individuos pueden rápidamente identifique pequeñas diferencias en las
expresiones faciales y agrupe diferentes caras en grupos homogéneos mientras considera cientos
de características faciales. Sin embargo, todavía luchamos con el reconocimiento facial.
Para demostrar cómo funciona el análisis de conglomerados, examinamos un ejemplo simple que
ilustra algunos de los problemas clave: medir la similitud, formar conglomerados y decidir la
cantidad de conglomerados que mejor representan la estructura. También discutimos brevemente
el equilibrio de las consideraciones objetivas y subjetivas que debe abordar cualquier investigador.
PROCESO DE DECISION DE ANALISIS CLUSTER
Partición del conjunto de datos para formar agrupaciones y selección de una solución de
agrupación
Interpretar los grupos para comprender las características de cada grupo y desarrollar un
nombre o etiqueta que defina adecuadamente su naturaleza.
Validación de los resultados de la solución de clúster final (es decir, determinación de su
estabilidad y generalización), junto con la descripción de las características de cada clúster
para explicar cómo pueden diferir en dimensiones relevantes como la demografía
Las siguientes secciones detallan todos estos temas a través de las seis etapas de la construcción
del modelo.
El objetivo principal del análisis de clústeres es dividir un conjunto de objetos en dos o más grupos
según la similitud de los objetos para un conjunto de características específicas (variable de
clúster). En cumplimiento de esto objetivo básico, el investigador debe abordar dos cuestiones
clave: las preguntas de investigación que se abordan en este análisis y las variables utilizadas para
caracterizar los objetos en el proceso de agrupamiento. Lo haremos Discuta cada tema en la
siguiente sección.
Al formar grupos homogéneos, el análisis de grupos puede abordar cualquier combinación de tres
preguntas de investigación básicas
Descripción de la taxonomía. El uso más tradicional del análisis de conglomerados ha sido con
fines exploratorios y la formación de una taxonomía, una clasificación de objetos basada
empíricamente. Como se describió anteriormente, el análisis de clústeres se ha utilizado en una
amplia gama de aplicaciones para su capacidad de partición. El análisis de cluster también puede
generar hipótesis relacionadas con la estructura de los objetos. Finalmente, aunque se considera
principalmente como una técnica exploratoria, el análisis de conglomerados se puede utilizar con
fines de confirmación. En tales casos, una tipología propuesta (clasificación basada en la teoría)
puede compararse con la derivada del análisis de conglomerados.
Identificación de la relación. Con los grupos definidos y la estructura subyacente de los datos
representados en los grupos, el investigador tiene un medio para revelar las relaciones entre los
grupos Observaciones que típicamente no es posible con las observaciones individuales. Si se
utilizan análisis como el análisis discriminante para identificar empíricamente las relaciones, o los
grupos son examinada por métodos más cualitativos, la estructura simplificada del análisis de
conglomerados a menudo identifica relaciones o similitudes y diferencias no reveladas
anteriormente.
Los objetivos del análisis de cluster no se pueden separar. a partir de la selección de variables
utilizadas para caracterizar los objetos agrupados. Ya sea que el objetivo sea exploratorio o
confirmatorio, el investigador restringe efectivamente los posibles resultados de la Variables
seleccionadas para su uso. Los grupos derivados reflejan la estructura inherente de los datos y se
definen solo por las variables. Por lo tanto, la selección de las variables que se incluirán en la
variable de grupo debe Se realizará con respecto a consideraciones teóricas y conceptuales, así
como prácticas.
Con los objetivos definidos y las variables seleccionadas, el investigador debe abordar cuatro
preguntas antes de iniciar el proceso de partición:
2. ¿Se pueden detectar los valores atípicos y, de ser así, se deben eliminar?
Se pueden usar muchos enfoques diferentes para responder estas preguntas. Sin embargo,
ninguno de ellos ha sido evaluado lo suficiente como para proporcionar una respuesta definitiva a
ninguna de estas preguntas, y desafortunadamente, muchos de los enfoques proporcionan
resultados diferentes para el mismo conjunto de datos. Por lo tanto, el análisis de conglomerados,
junto con el análisis factorial, es tanto un arte como una ciencia. Por esta razón, nuestra discusión
revisa estos cuestiones, proporcionando ejemplos de los enfoques más utilizados y una evaluación
de las limitaciones prácticas cuando sea posible los grupos incluyen 2.431 * 1015 particiones
posibles [2]. En cambio, según las decisiones del investigador, la técnica identifica un pequeño
subconjunto de posibles soluciones como "correctas". Desde este punto de vista, los problemas de
diseño de la investigación y la elección de las metodologías realizadas por el investigador quizás
tengan un mayor impacto que con cualquier otro método multivariado. técnica.
Tamaño de la muestra.
que en realidad constituyen el 10 por ciento de la población puede estar representada por solo
una o dos observaciones debido al proceso de muestreo. En tales casos, la distinción entre valores
atípicos y representantes de un grupo pequeño es mucho más difícil de hacer. Las muestras más
grandes aumentan la posibilidad de que los grupos pequeños estén representados por suficientes
casos para que su presencia sea más fácil de identificar
También se han desarrollado nuevos programas para aplicaciones que utilizan tamaños de
muestra grandes que se aproximan a 1.000 observaciones o más. SPSS incluye un programa de
clúster de dos pasos que tiene la capacidad de rápidamente determine un número apropiado de
grupos y luego clasifíquelos usando una rutina no jerárquica. Este procedimiento es relativamente
nuevo, pero puede resultar útil en aplicaciones con muestras grandes Donde los métodos
tradicionales de agrupamiento son ineficientes.
• Un submuestreo de grupo (s) real (es) en la población que causa una representación deficiente
de grupo (s) en la muestra.
En el primer caso, los valores atípicos distorsionan la estructura real y hacen que los grupos
derivados no sean representativos de la estructura de la población real. En el segundo caso, el
valor atípico se elimina para que el Los grupos resultantes representan con mayor precisión los
segmentos relevantes en las poblaciones. Sin embargo, en el tercer caso, los valores atípicos
deben incluirse en las soluciones de clúster, incluso si están insuficientemente representados en la
muestra, porque representan grupos válidos y relevantes. Por esta razón, siempre es necesario un
examen preliminar de los valores atípicos.
Enfoques gráficos.
Una de las formas más sencillas de detectar datos atípicos en la pantalla es preparar un Diagrama
de perfil gráfico, que enumera las variables a lo largo del eje horizontal y los valores de las
variables a lo largo del eje vertical. Cada punto en el gráfico representa el valor de la variable
correspondiente, y la Los puntos están conectados para facilitar la interpretación visual. Los
perfiles de todos los objetos se trazan en el gráfico, una línea para cada objeto. Los valores atípicos
son aquellos encuestados que tienen perfiles muy diferentes de los encuestados más típicos. En la
Figura 4 se muestra un ejemplo de un diagrama de perfil gráfico.
Enfoques empíricos.
Aunque bastante simples, los procedimientos gráficos se vuelven engorrosos con un gran número
de objetos y aún más difíciles a medida que aumenta el número de variables. Además, la
detección de valores atípicos debe extenderse más allá de un enfoque univariado, porque los
valores atípicos también pueden ser definido en un sentido multivariado como tener perfiles
únicos a través de un conjunto completo de variables que los distinguen de todas las demás
observaciones. Como resultado, se necesita una medida empírica para Facilita las comparaciones
entre objetos. Para estos casos, se pueden aplicar procedimientos para identificar valores atípicos.
La combinación de enfoques bivariados y multivariados proporciona un conjunto integral de
herramientas para identificar valores atípicos desde muchas perspectivas.
Otro enfoque es identificar los valores atípicos a través de las medidas de similitud. Los ejemplos
más obvios de valores atípicos son observaciones únicas que son las más disímiles de las otras
observaciones. Antes del análisis, las similitudes de todas las observaciones se pueden comparar
con el centroide general del grupo (encuestado típico). Las observaciones aisladas que muestran
gran disimilitud pueden ser eliminadas.
Los patrones de agrupación también se pueden observar una vez que se ha ejecutado el programa
de agrupación. Sin embargo, a medida que aumenta la cantidad de objetos a agrupar, se necesitan
múltiples iteraciones para identificar valores atípicos. Además, Algunos de los enfoques de
agrupamiento son bastante sensibles a eliminar solo unos pocos casos [14]. Por lo tanto, se debe
hacer énfasis en identificar los valores atípicos antes de que comience el análisis.
Midiendo Similitud.
En nuestra discusión del análisis factorial, la matriz de correlación entre todos los pares de
variables se utilizó para agrupar las variables en factores. El coeficiente de correlación representó
la similitud de cada variable con otra variable cuando se observa en todas las observaciones. Así, el
análisis factorial agrupó variables que tenían altas correlaciones entre sí.
La similitud entre objetos se puede medir de varias maneras, pero tres métodos dominan las
aplicaciones del análisis de conglomerados: medidas correlacionales, medidas de distancia y
medidas de asociación. Tanto las medidas de correlación como de distancia requieren datos
métricos, mientras que las medidas de asociación son para datos no métricos.
Medidas de correlación.
Las correlaciones representan patrones a través de las variables en lugar de las magnitudes, que
son comparables a un análisis factorial de tipo Q. Las medidas correlacionales rara vez se usan
porque el énfasis en La mayoría de las aplicaciones de análisis de clústeres se basan en las
magnitudes de los objetos, no en los patrones de valores.
Medidas de distancia.
A pesar de que las medidas correlacionales tienen un atractivo intuitivo y son utilizadas en muchas
otras técnicas multivariadas, no son la medida de similitud más utilizada en el análisis de
conglomerados. En cambio, las medidas de similitud más utilizadas son la distancia. Estas medidas
de distancia representan similitud como la proximidad de las observaciones entre sí a través de las
variables en la variable de grupo. Las medidas de distancia son en realidad una medida de
disimilitud, con valores más grandes que denotan una menor similitud. La distancia se convierte en
una medida de similitud utilizando una relación inversa.
En nuestro ejemplo hipotético (ver Figura 2), se muestra una ilustración simple del uso de medidas
de distancia, en la que se definieron grupos de observaciones según la proximidad de las
observaciones a entre sí cuando las puntuaciones de cada observación en dos variables se
representaron gráficamente. Aunque la proximidad pueda parecer un concepto simple, existen
varias medidas de distancia disponibles, cada una con características específicas
La distancia euclidiana es la medida de distancia más comúnmente reconocida, muchas veces
denominada distancia en línea recta. Un ejemplo de cómo se obtiene la distancia euclidiana se
muestra geométricamente en la Figura 5. Suponga que dos puntos en dos dimensiones tienen
coordenadas (X1, Y1) y (X2, Y2), respectivamente. La distancia euclidiana entre los puntos es la
longitud de la hipotenusa de un triángulo rectángulo, calculada por la fórmula debajo de la figura.
Este concepto Se generaliza fácilmente a más de dos variables.
Distancia de Mahalanobis (D2) es una medida de distancia generalizada que explica las
correlaciones entre las variables de manera que ponderan cada variable por igual. También se
basa en variables estandarizadas y se analizará con más detalle en la siguiente sección. Aunque es
deseable en muchas situaciones, no está disponible como una medida de proximidad en SAS o
SPSS.
Otras medidas de distancia (otras formas de diferencias o los poderes aplicados a las diferencias)
están disponibles en muchos programas de agrupación. Se alienta al investigador a explorar
soluciones de clúster alternativas obtenidas al usar diferentes medidas de distancia en un esfuerzo
por representar mejor los patrones de datos subyacentes. Aunque se dice que estas medidas de
distancia representan similitud, en un sentido muy real, representan mejor disimilitud, porque los
valores más altos generalmente significan relativamente menos similitud. Mayor distancia significa
que las observaciones son menos similares. Algunos paquetes de software realmente usan el
término disimilitud debido a este hecho.
La diferencia entre las medidas de correlación y de distancia se puede ilustrar mejor refiriéndose
nuevamente a la Figura 4. Las medidas de distancia se centran en la magnitud de los valores y
representan como similares los objetos que están cerca, incluso si tienen diferentes patrones en
las variables. En contraste, las medidas de correlación se centran en los patrones a través de las
variables y no consideran la magnitud de las diferencias entre los objetos. Veamos nuestras siete
observaciones para ver cómo difieren estos enfoques.
La Tabla 3 contiene los valores para las siete observaciones sobre las cinco variables (X1 a X5),
junto con las medidas de distancia y correlación de similitud. Soluciones de clúster utilizando
cualquiera La medida de similitud parece indicar tres grupos, pero la pertenencia a cada grupo es
bastante diferente
Con distancias más pequeñas que representan una mayor similitud, vemos que los casos 1 y 2
forman un grupo (distancia de 3.32), y los casos 4, 5, 6 y 7 (distancias que van desde 3.87 a 7.07)
conforman otro grupo. El carácter distintivo de estos dos grupos entre sí se muestra en que la
distancia más pequeña entre los dos grupos es 10.20. Estos dos grupos representan observaciones
con valores más altos versus más bajos. Un tercer grupo, que consiste solo en el caso 3, se
diferencia de los otros dos grupos porque tiene valores que son bajos y altos.
Usando la correlación como la medida de similitud, también emergen tres grupos. Primero, los
casos 1, 5 y 7 están todos altamente correlacionados (.891 a .963), al igual que los casos 2, 4 y 6
(.516 a .791). Además, las correlaciones entre grupos generalmente son cercanas a cero o incluso
negativas. Finalmente, el caso 3 es nuevamente distinto de los otros dos grupos y forma un grupo
de un solo miembro
Una medida correlacional se enfoca en patrones en lugar de la medida de distancia más tradicional
y requiere una interpretación diferente de los resultados por parte del investigador. Por eso, el
investigador no se enfocará en los centroides de grupo reales en las variables de agrupamiento,
como se hace cuando se usan medidas de distancia. La interpretación depende mucho más de los
patrones que se hacen evidentes en Los resultados.
¿Qué medida de distancia es mejor? Al intentar seleccionar una medida de distancia particular, el
investigador debe recordar las siguientes advertencias:
Diferentes medidas de distancia o un cambio en las escalas de las variables pueden llevar a
diferentes soluciones de grupo. Por lo tanto, es recomendable utilizar varias medidas y comparar
los resultados con patrones teóricos o conocidos.
Cuando las variables están correlacionadas (de manera positiva o negativa), es probable que la
medida de distancia de Mahalanobis sea la más adecuada porque ajusta las correlaciones y
pondera todas las variables por igual. Alternativamente, el investigador puede desear evitar el uso
de variables altamente redundantes como entrada para el análisis de conglomerados.
Medidas de asociación. Las medidas de asociación de similitud se utilizan para comparar objetos
cuyas características se miden solo en términos no métricos (medida nominal u ordinal). A modo
de ejemplo, los encuestados podrían responder sí o no en varias afirmaciones. Una medida de
asociación podría evaluar el grado de acuerdo o coincidencia entre cada par de encuestados. La
forma más simple de medir la asociación sería el porcentaje de veces en que se produjo el acuerdo
(ambos encuestados dijeron que sí a una pregunta o ambos dijeron que no) en el conjunto de
preguntas.
Selección de una medida de similitud. Aunque hay tres formas diferentes de medidas de similitud
disponibles, la forma más utilizada y preferida es la medida de distancia por varias razones.
Primero, la medida de la distancia representa mejor el concepto de proximidad, que es
fundamental para el análisis de conglomerados. Las medidas correlacionales, aunque tienen una
aplicación generalizada en otras técnicas, representan patrones en lugar de proximidad. En
segundo lugar, el análisis de conglomerados se asocia típicamente con características medidas por
variables métricas. En algunas aplicaciones, las características no métricas dominan, pero la
mayoría de las veces las características se representan mediante medidas métricas que hacen que
la distancia sea nuevamente la medida preferida. Por lo tanto, en cualquier situación, al
investigador se le proporcionan medidas de similitud que pueden representar la proximidad de los
objetos en un conjunto de variables métricas o no métricas.
NORMALIZACIÓN DE LOS DATOS Con la medida de similitud seleccionada, el investigador debe
abordar una pregunta más: ¿Se deben estandarizar los datos antes de calcular las similitudes? Al
responder a esta pregunta, el investigador debe considerar que la mayoría de los análisis de
conglomerados que usan medidas de distancia son bastante sensibles a diferentes escalas o
magnitudes entre las variables. En general, las variables con mayor dispersión (es decir,
desviaciones estándar más grandes) tienen más impacto en la similitud del valor final
Las variables de agrupación que no son todas de la misma escala deben estandarizarse siempre
que sea necesario para evitar los casos en que la influencia de una variable en la solución de
agrupación es mayor de lo que debería ser [3]. Ahora examinaremos varios enfoques de
estandarización disponibles para los investigadores.
Hay dos beneficios principales de la estandarización. Primero, es mucho más fácil comparar las
variables porque están en la misma escala (una media de 0 y una desviación estándar de 1).
Los valores positivos están por encima de la media y los valores negativos están por debajo. La
magnitud representa el número de desviaciones estándar que el valor original es de la media.
Segundo, no hay diferencia en Los valores estandarizados cuando solo cambia la escala. Por
ejemplo, cuando estandarizamos una medida de la duración del tiempo, los valores
estandarizados son los mismos si se miden en minutos o segundos.
Por lo tanto, el uso de variables estandarizadas realmente elimina los efectos debido a las
diferencias de escala no solo entre las variables, sino también para la misma variable. La necesidad
de estandarización se minimiza cuando todas las variables se miden en la misma escala de
respuesta (por ejemplo, una serie de preguntas de actitud), pero se vuelve bastante importante
cuando se incluyen variables que utilizan escalas de medición bastante diferentes en la variable de
grupo. En ocasiones, incluso cuando la estandarización no es necesaria porque todas las variables
se miden en la misma escala, el investigador puede elegir centrar cada variable restando la media
global para esa variable de cada observación. El resultado es un conjunto de variables con una
media de cero pero que conservan su variabilidad única. Este paso simplemente facilita la
interpretación cuando las variables no tienen los mismos medios.
Usando una medida de distancia estandarizada. Una medida de la distancia euclidiana que
incorpora directamente un procedimiento de estandarización es la distancia de Mahalanobis (D2).
El enfoque de Mahalanobis no solo realiza un proceso de estandarización de los datos al escalar en
términos de las desviaciones estándar, sino que también suma la varianza-covarianza agrupada
dentro del grupo, que se ajusta a las correlaciones entre las variables Los conjuntos de variables
altamente correlacionados en el análisis de conglomerados pueden sobreponderar de manera
implícita un conjunto de variables en los procedimientos de agrupamiento (ver discusión sobre la
multicolinealidad en la etapa 3). En resumen, el procedimiento de distancia generalizada de
Mahalanobis calcula una medida de distancia entre objetos comparables a R2 en el análisis de
regresión. Aunque muchas situaciones son apropiadas para el uso de la distancia de Mahalanobis.
no todos los programas lo incluyen como una medida de similitud. En tales casos, el investigador
usualmente selecciona la distancia euclidiana al cuadrado.
Estandarización por observación. Hasta ahora hablamos de estandarizar solo variables. ¿Por qué
podríamos estandarizar los encuestados o los casos? Tomemos un ejemplo simple
Sin embargo, el investigador no debe aplicar la estandarización sin tener en cuenta las
consecuencias de eliminar algunas relaciones naturales reflejadas en la escala de las variables,
mientras que otros han dicho que puede ser apropiado [1]. Algunos investigadores demuestran
que puede que ni siquiera tenga efectos perceptibles [7, 17]. Por lo tanto, ninguna razón nos dice
que usemos variables estandarizadas versus variables no estandarizadas.
La decisión de estandarizar debe basarse en cuestiones empíricas y conceptuales que reflejen
tanto los objetivos de investigación como las cualidades empíricas de los datos. Por ejemplo, un
investigador puede desear considere la estandarización si las variables de agrupación con
diferentes escalas o si el análisis preliminar muestra que las variables de agrupación muestran
grandes diferencias en las desviaciones estándar.
Supongamos que los encuestados se agrupan en 10 variables, todas las declaraciones de actitud
relativas a un servicio. Cuando se examina la multicolinealidad, vemos dos conjuntos de variables,
la primera compuesta por ocho afirmaciones y la segunda compuesta por las dos afirmaciones
restantes. Si nuestra intención es realmente agrupar a los encuestados en las dimensiones del
servicio (en este caso representado por los dos grupos de variables), el uso de las 10 variables
originales será bastante engañoso. Debido a que cada variable tiene el mismo peso en el análisis
de conglomerados, la primera dimensión tendrá cuatro veces más posibilidades (ocho elementos
en comparación con dos elementos) para afectar la medida de similitud. Como resultado, la
similitud se verá predominantemente afectada por la primera dimensión con ocho elementos en
lugar de la segunda dimensión con dos elementos.
La multicolinealidad actúa como un proceso de ponderación que no es aparente para el
observador pero que, sin embargo, afecta el análisis. Por esta razón, se alienta al investigador a
examinar las variables utilizadas en El análisis de conglomerados para la multicolinealidad
sustancial y, si se encuentra, reduce las variables a números iguales en cada conjunto o usa una
medida de distancia que toma en cuenta la multicolinealidad. Otra solución posible consiste en
factorizar las variables antes de la agrupación y seleccionar una variable de agrupación de cada
factor o utilizar las puntuaciones de los factores resultantes como variables de agrupación.
Recuerde que los componentes principales o los factores de rotación varimax no están
correlacionados. De esta manera, la investigación puede adoptar un enfoque proactivo para tratar
la multicolinealidad.
Una última cuestión es si usar los puntajes de los factores en el análisis de conglomerados. El
debate se centra en investigaciones que muestran que las variables que realmente discriminan
entre los grupos subyacentes no están bien.
Representado en la mayoría de las soluciones factoriales. Por lo tanto, cuando se utilizan las
puntuaciones de los factores, es muy posible que se obtenga una representación deficiente de la
estructura real de los datos [23]. El investigador debe lidiar con la multicolinealidad y la
discriminabilidad de las variables para llegar a la mejor representación de la estructura.