El anlisis clster o anlisis de conglomerados es una tcnica multivariante de
interdependencia. Que nos permite agrupar casos o variables de un archivo de datos segn el grado de relacin o similitud entre ellos. Por tanto, los grupos se clasifican de la siguiente forma: Cada clster (grupo o conglomerado) sea lo ms homogneo posible entre s, en relacin a las variables observadas. Los grupos (clster o conglomerados) sean lo ms heterogneo posible entre ellos. Igualmente, en relacin a las variables observadas.
El anlisis de conglomerados es idntico al anlisis discriminante (que se tratar ms adelante, en otra entrada al blog), con la diferencia de que el anlisis discriminante efecta la clasificacin tomando como referencia un criterio o variable dependiente (estara dentro de las llamadas tcnicas de dependencia).
Los pasos lgicos que se efectan al realizar un anlisis de conglomerados son: I. Establecer un indicador que nos diga en qu medida cada par de observaciones se parecen entre s. A esta medida se le denomina distancia o similaridad. II. Crear grupos, de forma que cada grupo contenga aquellas observaciones que ms se parezcan entre s. III. El investigador debe describir los grupos que ha obtenido, y compararlos. Para ello es til ver qu valores promedio toman las variables utilizadas en cada uno de los grupos creados.
La nica informacin que se requiere en el anlisis de conglomerados es una medida cuantitativa con la que se pueda medir la asociacin o similitud entre los elementos.
Existen dos tipos de tcnicas para poder realizar el anlisis clster: Tcnicas jerrquicas: Intentan identificar grupos relativamente homogneos basndose en las variables seleccionadas. A travs de un algoritmo que comienza con cada caso en un conglomerado diferente y combina los conglomerados hasta que slo queda uno. Tcnicas de k-medias (no jerrquicas): Asignan los casos a un nmero de clster predefinido manualmente. Y agrupa los casos para obtener los grupos que hemos decidido de antemano.
A continuacin, un ejemplo bsico que servir para orientarnos mejor en este mbito: Un investigador tiene informacin sobre el presupuesto que un conjunto de empresas ha destinado a publicidad en el ltimo ao y de las ventas que han logrado en ese mismo ejercicio: Nombre Empresa Inversin en publicidad Ventas E1 16 10 E2 12 14 E3 10 22 E4 12 25 E5 45 10 E6 50 15 E7 45 25 E8 50 27
Estudie si estas empresas pueden agruparse en funcin de la rentabilidad en relacin a sus ventas y su inversin en publicidad. El siguiente grfico muestra la distribucin de las empresas en relacin a las dos variables:
Como se puede observar, resulta (de forma intuitiva) muy fcil agrupar las empresas en, exactamente cuatro grupos: Grupo E1-E2: Han realizado una inversin pequea y las ventas obtenidas han sido bajas. Grupo E3-E4: La inversin ha sido baja pero, en cambio, han obtenido una gran rentabilidad. Grupo E5-E6: A pesar de haber realizado una inversin grande, no les ha resultado beneficioso. Ya que las ventas han sido muy bajas. Grupo E7-E8: Con la elevada inversin en publicidad que han realizado han obtenido elevadas ventas.
Como se ha podido observar, resulta muy fcil agrupar el nmero de empresas en distintos grupos que sean homogneos en s y heterogneos entre ellos. Esto es debido a que el estudio se ha realizado en torno a dos variables (por tanto, de forma intuitiva resulta muy fcil) pero, Y si en lugar de 2 variables se usan 20, 30 o 50? En este caso ya no resultara tan intuitivo clasificar las empresas en grupos. En dichos casos se debera formalizar la expresin ms cerca y traducirla en alguna medida de proximidad (o similaridad) entre cada par de observaciones. En funcin del tipo de variables que se utilicen, las medidas adecuadas sern diferentes. A la hora de realizar un anlisis clster podemos hacerlo a travs del mtodo jerrquico o mediante el mtodo k- medias (o los dos) en funcin de lo que busquemos en concreto. Por ejemplo, si queremos saber el nmero de grupos determinado que pueden existir usaremos el mtodo jerrquico. Si queremos conocer diferencias de medias entre los grupos, utilizaremos el k-medias.
Para realizar el anlisis clster (jerrquico) en el SPSS se procede de la siguiente manera: Anlisis>Clasificar>Conglomerados jerrquicos
Una vez seleccionada la opcin, nos aparecer el cuadro de dilogo que se muestra en la siguiente imagen: En el apartado variables, debemos colocar las variables que deseamos utilizar para nuestro anlisis clster.
Si pulsamos el botn estadsticos nos aparece esta ventana: Historial de conglomeracin (por defecto): muestra una tabla que nos ofrece informacin de los casos que se unen en cada una de las etapas, la distancia a la que se encuentran cuando se unen. Matriz de distancias: nos muestra las distintas medidas de similaridad o distancia entre los distintos elementos. Conglomerado de pertenencia: se trata de una tabla donde se nos da informacin de todos los casos que han sido analizados indicando para cada uno de ellos el grupo al que han sido asignados en cada etapa del anlisis clster.
Si pulsamos en el botn grficos aparecen estas opciones: Dendograma: nos muestra un grfico que resulta ser una combinacin del diagrama de tmpanos y el historial de conglomeracin. Es un grfico en el que los grupos estn representados mediante lneas horizontales y las diferentes etapas de la unin de los casos. Facilita mucho la tarea de decidir la solucin de grupos resultantes. Tmpanos: en este apartado podemos seleccionar algunos de los aspectos relacionados con el diagrama que lleva su nombre. Orientacin: Nos permite decidir qu orientacin queremos que tenga el diagrama de tmpanos.
Si pulsamos en el botn mtodo del anlisis aparece la siguiente opcin: Mtodo de conglomeracin: los mtodos jerrquicos comienzan considerando que cada caso es un clster y los va agrupando sucesivamente hasta que todos los casos forman parte de un nico clster. El mtodo de conglomeracin nos permite decidir la forma en la que queremos que se vayan agrupando los distintos grupos que se van formando en cada etapa. Podemos seleccionar entre una larga lista de mtodos de conglomeracin: Vinculacin inter-grupos (mtodo de la media) Vinculacin intra-grupos (distancia media entre las distancias de los elementos del grupo unin) Vecino ms prximo (mnimo) Vecino ms lejano (mximo) Agrupacin de centroides (distancia entre centroides) Agrupacin de medianas (media de centroides) Mtodo Ward (minimiza la varianza intragrupo, slo puede aplicarse a variables cuantitativas)
Lo ms indicado es explorar con distintos grupos hasta encontrar la solucin que mejor nos satisfaga.
Si pulsamos en el botn mtodo del anlisis aparece la siguiente opcin: Medida: Este tipo de medidas son de dos tipos, de similaridad, que miden el grado de proximidad entre dos casos. O distancias, que miden la lejana entre dos casos. De todas ellas la ms conocida y utilizada es la distancia eucldea. Se pueden seleccionar distintas medidas en funcin de las variables que sean: Intervalo (variables de escala o intervalo), recuentos (incluye solamente dos medidas de disimilaridad para datos categricos) o binaria (para variables dicotmicas). Debemos tener en cuenta que muchas de estas medidas, como por ejemplo la distancia eucldea, son sensibles a la mtrica de las distintas variables utilizadas en el anlisis. Para poder resolver este problema se recomienda que se transformen las variables, para lo cual tenemos la opcin de transformar valores. Ahora vamos a proceder a realizar el anlisis clster. En el apartado variables vamos a colocar las variables que queremos analizar: consumo, cilindrada, potencia, peso total, aceleracin y nmero de cilindros (aunque est definida como ordinal, se puede tomar tambin como variable de escala).
A continuacin, para realizar el proceso clicamos en las siguientes opciones: En dendograma, dentro de la opcin grficos.
En la opcin mtodo de conglomeracin seleccionamos el mtodo Ward (es cuestin de gustos, hasta que veas que te proporcione un mejor resultado). En el apartado medidas dejamos la opcin predeterminada, que se denomina distancia eucldea al cuadrado. Y, por ltimo, en la opcin estandarizar dentro de transformar valores, seleccionamos la opcin puntuaciones Z.
Para obtener los resultados clicamos en aceptar:
Lo primero que nos aparece es una tabla como la siguiente:
Esta tabla es una tabla resumen donde se nos informa de los casos vlidos, los perdidos y los totales. El anlisis clster elimina aquellos casos que tengan al menos un valor perdido en alguna de las variables seleccionadas por el anlisis. Por lo tanto en este caso trabajaremos con 391 casos de los 400 totales. La siguiente tabla que nos aparece es la siguiente (est cortada debido a que es demasiado extensa): Esta tabla es el historial de conglomeracin. En ella se nos detalla la siguiente informacin. Columna de conglomerado que se combina nos da informacin de los casos que se han unido en cada una de las etapas. Por ejemplo, en la etapa 1 se han unido los casos 19 y 29 (a partir de ah este nuevo conglomerado se denominar 19, en la etapa 2 se funden el caso 125 y 167, y as sucesivamente. La columna coeficientes nos muestra un valor que es la distancia a la que se encuentran esos dos casos antes de la unin de los mismos. La columna etapa en la que el conglomerado aparece por primera vez nos informa de la etapa en la que se ha creado el conglomerado que se estn uniendo en cada momento. Por ejemplo cuando el valor es 0, nos dice que ese caso aparece por primera vez. Y si nos fijamos en el caso que pone 17, quiere decir que el caso 234 apareci en la etapa 17 del conglomerado. El diagrama de tmanos nos proporciona la misma informacin de una manera grfica (est cortado debido a que es demasiado extenso):
Podramos decir que el objetivo principal del anlisis clster jerrquico es poder tomar la decisin del nmero de conglomerados idneos como solucin. La determinacin del nmero idneo de conglomerados es posible deducirla de uno de los grficos que nos proporciona el anlisis en el SPSS. Pero no es una salida que se muestre por defecto, sino que hay que solicitrsela de manera expresa. Estamos hablando del DENDOGRAMA. La ventaja del dendograma es que estn representadas a la vez las etapas del proceso de fusin y las distancias existentes entre los elementos fundidos. El dendograma presenta el siguiente aspecto (imagen reducida para que se pueda apreciar completo):
Las uniones que se producen cerca del origen de la escala nos informa de que el conglomerado que se ha formado es muy homogneo, cuanto ms lejos del origen se produzcan las uniones entre conglomerados, ms heterogneos sern stos. As que el dendograma debe leerse de derecha a izquierda, y ver donde las lneas horizontales son ms largas. Cuando eso ocurra se debe realizar un corte transversal para ver el nmero de conglomerados de la solucin. Si nos fijamos en las lneas verticales que hemos dibujado (la naranja y la morada) podramos pensar en dos posibles soluciones (2 o 3 conglomerados). Aunque la ms acertada es la de crear 2. De todas formas podramos probar ambas soluciones y decidir desde un punto de vista terico cul de las dos tiene una mejor interpretacin. El anlisis de conglomerados jerrquico se utiliza bsicamente para esto, para saber el nmero de clster de la solucin. Un dato curioso que nos puede servir para obtener mayor informacin acerca de los clster que hemos obtenido consiste en realizar lo siguiente: En la ventanita principal del anlisis de conglomerados jerrquicos podemos clicar en guardar y, una vez aqu, seleccionar la opcin rango de soluciones y guardar el rango de nmeros de clster que hemos obtenido (que en este caso son slo dos).
Automticamente se nos habrn guardado dos variables con la informacin referente al clster de dos conglomerados y al clster de tres conglomerados. De estos conglomerados podremos obtener informacin realizndoles un anlisis bsico (Analizar>Estadstico descriptivo>Frecuencia), que nos dar esta salida en el SPSS:
El primer cuadro hace referencia a la divisin en tres grupos, el segundo nos muestra el de dos conglomerados. Esto puede servir, por ejemplo, para saber el nmero de muestras que hay en cada clster. Imagina que si un clster est formado por 5 muestras, y el otro por 350. No te es interesante realizar el anlisis sobre esta divisin ya que est muy desproporcionada (tambin hay que tener en cuenta los objetivos marketinianos, tal vez esas 5 muestras son de vital importancia para el estudio que se est realizando). Tras este pequeo inciso acerca de como recabar un poco ms de informacin, continuemos por donde bamos. Ahora que sabemos el nmero de clster (2 o 3 grupos) vamos a realizar el anlisis de conglomerados de k-medias con las mismas variables que hemos utilizado en el anlisis jerrquico. Para realizar el anlisis clster (k-medias) en el SPSS se procede de la siguiente manera: Anlisis>Clasificar>Conglomerados k-medias Podemos ver que nos pide que definamos el nmero de conglomerados que queremos tener. Gracias a la realizacin del anlisis clster jerrquico que hemos hecho previamente sabemos que el nmero de clster son 2 o 3. En este caso definiremos 2. Las variables que utilizaremos sern las mismas. 2
A continuacin en la opcin iterar es conveniente colocar una cifra elevada (por ejemplo, 100) y ms adelante se explicar el por qu.
Y, por ltimo, en la pestaa opciones seleccionamos la tabla ANOVA.
Para terminar le damos a aceptar y vemos los resultados que nos dar el SPSS
La primera salida que nos viene es el siguiente cuadro:
En esta tabla se nos muestran los valores que tienen cada una de las variables analizadas en los casos que han sido seleccionados como centros de los dos conglomerados que hemos solicitado. Una vez que se han elegido estos casos, el resto de los casos son asignados al conglomerado de cuyo centro se encuentran ms prximo y, as, comienza un proceso de asignacin de los distintos casos a cada uno de los conglomerados. Este proceso de asignacin viene reflejado en la siguiente tabla: El proceso iterativo del reparto de los casos a los distintos conglomerados se detiene por defecto cuando se alcanzan 10 iteraciones (nosotros lo cambiamos a 100 para tener ms margen de error por llamarlo de alguna manera) o cuando de una a otra ya no se produce ningn cambio en los centros de los conglomerados. Como podemos ver en nuestro ejemplo, la asignacin se paraliza en la iteracin 5.
La siguiente salida que nos muestra el SPSS se denomina centro de los conglomerados finales. Esta tabla es la que nos va a permitir interpretar los resultados obtenidos en nuestro anlisis. Observando esta tabla podemos ver lo siguiente: Si comparamos los dos conglomerados en cada una de las variables podemos observar lo siguiente: En el conglomerado 1 se agrupan los coches de bajo consumo, baja cilindrada, escasa potencia, bajo peso, de mayor aceleracin y menor nmero de cilindros. Mientras que en el conglomerado 2 observamos que se agrupan los vehculos de mayor consumo, cilindrada, potencia, peso y cilindros. Desde un punto de vista terico sera una clasificacin con lgica e interpretable.
A continuacin analizamos la siguiente salida que nos proporciona el SPSS, que es la tabla ANOVA, que su salida no viene preseleccionada pero nosotros le pedimos que nos la facilitase:
La tabla ANOVA nos indica qu variables contribuyen ms a la solucin de los conglomerados. As, las variables con valores de F grandes proporcionan mayor separacin entre los conglomerados. En nuestro caso sera la variable cilindrada, seguida del nmero de cilindros. La columna de Sig. nos muestra si se rechaza o se acepta la hiptesis nula en cada uno de los casos. La hiptesis nula nos dice que no hay diferencia de medias, mientras que la hiptesis alternativa nos dice que existe diferencia de medias. En todos estos casos se rechaza la hiptesis nula ya que el valor est por debajo del 0,05. Por tanto, hay diferencias de medias.
Por ltimo, el SPSS nos facilita la siguiente salida:
En este cuadro nos dice el nmero de casos que componen cada uno de los conglomerados o segmentos de la solucin. En nuestro ejemplo el conglomerado 1 est formado por 234 casos (coches) de los 391 totales. El conglomerado 2 est formado por 157.
Una vez realizado el anlisis clster e identificados los segmentos, el siguiente paso lgico es ver si dentro de cada uno de los grupos de la solucin, existen algunas pautas comunes. En nuestro caso podramos estudiar si existen diferencias entre los dos segmentos respecto al pas de origen de los vehculos y al ao de fabricacin de los mismos. Para ello debemos tener una nueva variable con valores 1 y 2, la cual nos indica a qu conglomerado pertenece cada uno de los casos. Para ello, cuando se realiza el anlisis clster, debemos marcar la opcin de guardar el conglomerado de pertenencia, tal y como se muestra en la imagen. Una vez realizado el anlisis si se ha marcado esta opcin, debemos tener en nuestra base de datos una nueva variable, que el SPSS por defecto denomina QCL_1. Esta variable tomar valores 1 y 2 (en nuestro caso, ya que hemos optado por la solucin de dos conglomerados). Una vez que tenemos esta variable procederemos a analizar el ao del modelo y el pas de procedencia en funcin de cada uno de los conglomerados de la solucin. Si se realiza en anlisis pertinente podremos ver como en el conglomerado 1 se incluyen coches de fabricacin ms antigua (de los aos 70) y en el 2 los ms modernos (de los aos 80). Tambin, en el conglomerado 2, solo hay coches de procedencia americana, mientras que en el 1 se incluyen coches de origen europeo, americano y japons. Si tenemos muchos valores perdidos (en este caso 15 son pocos) podemos reducir este nmero seleccionando excluir casos segn pareja dentro de la seccin de opciones