Anda di halaman 1dari 12

Tema 3: El anlisis clster

El anlisis clster o anlisis de conglomerados es una tcnica multivariante de


interdependencia. Que nos permite agrupar casos o variables de un archivo de datos segn el
grado de relacin o similitud entre ellos. Por tanto, los grupos se clasifican de la siguiente
forma:
Cada clster (grupo o conglomerado) sea lo ms homogneo posible entre s, en
relacin a las variables observadas.
Los grupos (clster o conglomerados) sean lo ms heterogneo posible entre ellos.
Igualmente, en relacin a las variables observadas.

El anlisis de conglomerados es idntico al anlisis discriminante (que se tratar ms adelante,
en otra entrada al blog), con la diferencia de que el anlisis discriminante efecta la
clasificacin tomando como referencia un criterio o variable dependiente (estara dentro de las
llamadas tcnicas de dependencia).

Los pasos lgicos que se efectan al realizar un anlisis de conglomerados son:
I. Establecer un indicador que nos diga en qu medida cada par de
observaciones se parecen entre s. A esta medida se le denomina distancia o
similaridad.
II. Crear grupos, de forma que cada grupo contenga aquellas observaciones que
ms se parezcan entre s.
III. El investigador debe describir los grupos que ha obtenido, y compararlos. Para
ello es til ver qu valores promedio toman las variables utilizadas en cada uno
de los grupos creados.

La nica informacin que se requiere en el anlisis de conglomerados es una medida
cuantitativa con la que se pueda medir la asociacin o similitud entre los elementos.

Existen dos tipos de tcnicas para poder realizar el anlisis clster:
Tcnicas jerrquicas: Intentan identificar grupos relativamente homogneos
basndose en las variables seleccionadas. A travs de un algoritmo que comienza con
cada caso en un conglomerado diferente y combina los conglomerados hasta que slo
queda uno.
Tcnicas de k-medias (no jerrquicas): Asignan los casos a un nmero de clster
predefinido manualmente. Y agrupa los casos para obtener los grupos que hemos
decidido de antemano.

A continuacin, un ejemplo bsico que servir para orientarnos mejor en este mbito:
Un investigador tiene informacin sobre el presupuesto que un conjunto de empresas ha
destinado a publicidad en el ltimo ao y de las ventas que han logrado en ese mismo
ejercicio:
Nombre Empresa Inversin en publicidad Ventas
E1 16 10
E2 12 14
E3 10 22
E4 12 25
E5 45 10
E6 50 15
E7 45 25
E8 50 27

Estudie si estas empresas pueden agruparse en funcin de la rentabilidad en relacin a sus
ventas y su inversin en publicidad.
El siguiente grfico muestra la distribucin de las empresas en relacin a las dos variables:

Como se puede observar, resulta (de forma intuitiva) muy fcil agrupar las empresas en,
exactamente cuatro grupos:
Grupo E1-E2: Han realizado una inversin pequea y las ventas obtenidas han sido bajas.
Grupo E3-E4: La inversin ha sido baja pero, en cambio, han obtenido una gran rentabilidad.
Grupo E5-E6: A pesar de
haber realizado una
inversin grande, no les ha
resultado beneficioso. Ya
que las ventas han sido muy
bajas.
Grupo E7-E8: Con la elevada
inversin en publicidad que
han realizado han obtenido
elevadas ventas.

Como se ha podido observar, resulta muy fcil agrupar el nmero de empresas en distintos
grupos que sean homogneos en s y heterogneos entre ellos. Esto es debido a que el estudio
se ha realizado en torno a dos variables (por tanto, de forma intuitiva resulta muy fcil) pero,
Y si en lugar de 2 variables se usan 20, 30 o 50? En este caso ya no resultara tan intuitivo
clasificar las empresas en grupos.
En dichos casos se debera formalizar la expresin ms cerca y traducirla en alguna medida
de proximidad (o similaridad) entre cada par de observaciones. En funcin del tipo de variables
que se utilicen, las medidas adecuadas sern diferentes.
A la hora de realizar un anlisis clster podemos hacerlo a travs del mtodo jerrquico o
mediante el mtodo k- medias (o los dos) en funcin de lo que busquemos en concreto. Por
ejemplo, si queremos saber el nmero de grupos determinado que pueden existir usaremos el
mtodo jerrquico. Si queremos conocer diferencias de medias entre los grupos, utilizaremos
el k-medias.

Para realizar el anlisis clster (jerrquico) en el SPSS se procede de la siguiente manera:
Anlisis>Clasificar>Conglomerados jerrquicos

Una vez seleccionada la opcin, nos aparecer el cuadro de dilogo que se muestra en la
siguiente imagen:
En el apartado variables, debemos
colocar las variables que deseamos
utilizar para nuestro anlisis clster.


Si pulsamos el botn estadsticos nos aparece esta ventana:
Historial de conglomeracin (por defecto): muestra
una tabla que nos ofrece informacin de los casos
que se unen en cada una de las etapas, la distancia a
la que se encuentran cuando se unen.
Matriz de distancias: nos muestra las distintas
medidas de similaridad o distancia entre los
distintos elementos.
Conglomerado de pertenencia: se trata de una tabla
donde se nos da informacin de todos los casos que
han sido analizados indicando para cada uno de ellos
el grupo al que han sido asignados en cada etapa del anlisis clster.

Si pulsamos en el botn grficos aparecen estas opciones:
Dendograma: nos muestra un grfico que resulta ser
una combinacin del diagrama de tmpanos y el
historial de conglomeracin. Es un grfico en el que
los grupos estn representados mediante lneas
horizontales y las diferentes etapas de la unin de
los casos. Facilita mucho la tarea de decidir la
solucin de grupos resultantes.
Tmpanos: en este apartado podemos seleccionar
algunos de los aspectos relacionados con el
diagrama que lleva su nombre.
Orientacin: Nos permite decidir qu orientacin
queremos que tenga el diagrama de tmpanos.

Si pulsamos en el botn mtodo del anlisis aparece la siguiente opcin:
Mtodo de conglomeracin: los mtodos
jerrquicos comienzan considerando que
cada caso es un clster y los va agrupando
sucesivamente hasta que todos los casos
forman parte de un nico clster. El mtodo
de conglomeracin nos permite decidir la
forma en la que queremos que se vayan
agrupando los distintos grupos que se van
formando en cada etapa.
Podemos seleccionar entre una larga lista de mtodos de conglomeracin:
Vinculacin inter-grupos (mtodo de la media)
Vinculacin intra-grupos (distancia media entre las distancias de los elementos del
grupo unin)
Vecino ms prximo (mnimo)
Vecino ms lejano (mximo)
Agrupacin de centroides (distancia entre
centroides)
Agrupacin de medianas (media de centroides)
Mtodo Ward (minimiza la varianza intragrupo, slo puede aplicarse a variables
cuantitativas)

Lo ms indicado es explorar con distintos grupos hasta encontrar la solucin que mejor nos
satisfaga.

Si pulsamos en el botn mtodo del anlisis aparece la siguiente opcin:
Medida: Este tipo de medidas son de dos tipos,
de similaridad, que miden el grado de
proximidad entre dos casos. O distancias, que
miden la lejana entre dos casos. De todas ellas
la ms conocida y utilizada es la distancia
eucldea.
Se pueden seleccionar distintas medidas en
funcin de las variables que sean: Intervalo
(variables de escala o intervalo), recuentos
(incluye solamente dos medidas de
disimilaridad para datos categricos) o binaria (para variables dicotmicas).
Debemos tener en cuenta que muchas de
estas medidas, como por ejemplo la
distancia eucldea, son sensibles a la
mtrica de las distintas variables utilizadas
en el anlisis. Para poder resolver este
problema se recomienda que se
transformen las variables, para lo cual
tenemos la opcin de transformar valores.
Ahora vamos a proceder a realizar el anlisis clster.
En el apartado variables vamos a
colocar las variables que queremos
analizar: consumo, cilindrada,
potencia, peso total, aceleracin y
nmero de cilindros (aunque est
definida como ordinal, se puede
tomar tambin como variable de
escala).


A continuacin, para realizar el proceso clicamos en las siguientes opciones:
En dendograma, dentro de la opcin grficos.




En la opcin mtodo de conglomeracin seleccionamos
el mtodo Ward (es cuestin de gustos, hasta que veas
que te proporcione un mejor resultado). En el apartado
medidas dejamos la opcin predeterminada, que se
denomina distancia eucldea al cuadrado. Y, por ltimo,
en la opcin estandarizar dentro de transformar
valores, seleccionamos la opcin puntuaciones Z.

Para obtener los resultados clicamos en aceptar:

Lo primero que nos aparece es una tabla como la siguiente:

Esta tabla es una tabla resumen donde se nos informa de los casos vlidos, los perdidos y los
totales. El anlisis clster elimina aquellos casos que tengan al menos un valor perdido en
alguna de las variables seleccionadas por el anlisis. Por lo tanto en este caso trabajaremos con
391 casos de los 400 totales.
La siguiente tabla que nos aparece es la siguiente (est cortada debido a que es demasiado
extensa):
Esta tabla es el historial de
conglomeracin. En ella se nos detalla
la siguiente informacin. Columna de
conglomerado que se combina nos
da informacin de los casos que se han
unido en cada una de las etapas. Por
ejemplo, en la etapa 1 se han unido
los casos 19 y 29 (a partir de ah este
nuevo conglomerado se denominar
19, en la etapa 2 se funden el caso 125
y 167, y as sucesivamente. La columna
coeficientes nos muestra un valor
que es la distancia a la que se
encuentran esos dos casos antes de la
unin de los mismos. La columna etapa en la que el conglomerado aparece por primera vez
nos informa de la etapa en la que se ha creado el conglomerado que se estn uniendo en cada
momento. Por ejemplo cuando el valor es 0, nos dice que ese caso aparece por primera vez. Y
si nos fijamos en el caso que pone 17, quiere decir que el caso 234 apareci en la etapa 17 del
conglomerado.
El diagrama de tmanos nos proporciona la misma informacin de una manera grfica (est
cortado debido a que es demasiado extenso):

Podramos decir que el objetivo principal del anlisis clster jerrquico es poder tomar la
decisin del nmero de conglomerados idneos como solucin. La determinacin del nmero
idneo de conglomerados es posible deducirla de uno de los grficos que nos proporciona el
anlisis en el SPSS. Pero no es una salida que se muestre por defecto, sino que hay que
solicitrsela de manera expresa. Estamos hablando del DENDOGRAMA. La ventaja del
dendograma es que estn representadas a la vez las etapas del proceso de fusin y las
distancias existentes entre los elementos fundidos.
El dendograma presenta el siguiente aspecto (imagen reducida para que se pueda apreciar
completo):


Las uniones que se producen cerca del origen de la escala nos informa de
que el conglomerado que se ha formado es muy homogneo, cuanto ms
lejos del origen se produzcan las uniones entre conglomerados, ms
heterogneos sern stos. As que el dendograma debe leerse de derecha
a izquierda, y ver donde las lneas horizontales son ms largas. Cuando eso
ocurra se debe realizar un corte transversal para ver el nmero de
conglomerados de la solucin.
Si nos fijamos en las lneas verticales que hemos dibujado (la naranja y la
morada) podramos pensar en dos posibles soluciones (2 o 3
conglomerados). Aunque la ms acertada es la de crear 2. De todas formas
podramos probar ambas soluciones y decidir desde un punto de vista
terico cul de las dos tiene una mejor interpretacin.
El anlisis de conglomerados jerrquico se utiliza bsicamente para esto,
para saber el nmero de clster de la solucin.
Un dato curioso que nos puede servir para obtener mayor informacin
acerca de los clster que hemos obtenido consiste en realizar lo siguiente:
En la ventanita principal del anlisis de conglomerados jerrquicos
podemos clicar en guardar y, una vez aqu, seleccionar la opcin rango
de soluciones y guardar el rango de nmeros de clster que hemos
obtenido (que en este caso son slo dos).


Automticamente se nos habrn guardado dos variables con la
informacin referente al clster de dos conglomerados y al clster de tres
conglomerados. De estos conglomerados podremos obtener informacin
realizndoles un anlisis bsico (Analizar>Estadstico
descriptivo>Frecuencia), que nos dar esta salida en el SPSS:

El primer cuadro hace referencia a la divisin en tres grupos, el segundo nos muestra el de dos
conglomerados. Esto puede servir, por ejemplo, para saber el nmero de muestras que hay en
cada clster. Imagina que si un clster est formado por 5 muestras, y el otro por 350. No te es
interesante realizar el anlisis sobre esta divisin ya que est muy desproporcionada (tambin
hay que tener en cuenta los objetivos marketinianos, tal vez esas 5 muestras son de vital
importancia para el estudio que se est realizando).
Tras este pequeo inciso acerca de como recabar un poco ms de informacin, continuemos
por donde bamos. Ahora que sabemos el nmero de clster (2 o 3 grupos) vamos a realizar el
anlisis de conglomerados de k-medias con las mismas variables que hemos utilizado en el
anlisis jerrquico.
Para realizar el anlisis clster (k-medias) en el SPSS se procede de la siguiente manera:
Anlisis>Clasificar>Conglomerados k-medias
Podemos ver que nos pide que
definamos el nmero de
conglomerados que queremos
tener. Gracias a la realizacin del
anlisis clster jerrquico que
hemos hecho previamente
sabemos que el nmero de clster
son 2 o 3. En este caso definiremos
2.
Las variables que utilizaremos sern
las mismas.
2


A continuacin en la opcin iterar es conveniente colocar una cifra elevada (por ejemplo,
100) y ms adelante se explicar el por qu.




Y, por ltimo, en la pestaa opciones seleccionamos la tabla ANOVA.



Para terminar le damos a aceptar y vemos los resultados
que nos dar el SPSS

La primera salida que nos viene es el siguiente cuadro:

En esta tabla se nos muestran los valores
que tienen cada una de las variables
analizadas en los casos que han sido
seleccionados como centros de los dos
conglomerados que hemos solicitado. Una
vez que se han elegido estos casos, el
resto de los casos son asignados al
conglomerado de cuyo centro se
encuentran ms prximo y, as, comienza
un proceso de asignacin de los distintos casos a cada uno de los conglomerados. Este proceso
de asignacin viene reflejado en la siguiente tabla:
El proceso iterativo del reparto de los casos a
los distintos conglomerados se detiene por
defecto cuando se alcanzan 10 iteraciones
(nosotros lo cambiamos a 100 para tener ms
margen de error por llamarlo de alguna
manera) o cuando de una a otra ya no se
produce ningn cambio en los centros de los conglomerados. Como podemos ver en nuestro
ejemplo, la asignacin se paraliza en la iteracin 5.

La siguiente salida que nos muestra el SPSS se denomina centro de los conglomerados
finales. Esta tabla es la que nos va a permitir interpretar los resultados obtenidos en nuestro
anlisis. Observando esta tabla podemos ver lo siguiente:
Si comparamos los dos conglomerados en
cada una de las variables podemos
observar lo siguiente: En el conglomerado
1 se agrupan los coches de bajo consumo,
baja cilindrada, escasa potencia, bajo
peso, de mayor aceleracin y menor
nmero de cilindros. Mientras que en el
conglomerado 2 observamos que se
agrupan los vehculos de mayor consumo,
cilindrada, potencia, peso y cilindros.
Desde un punto de vista terico sera una clasificacin con lgica e interpretable.

A continuacin analizamos la siguiente salida que nos proporciona el SPSS, que es la tabla
ANOVA, que su salida no viene preseleccionada pero nosotros le pedimos que nos la facilitase:

La tabla ANOVA nos indica qu variables contribuyen ms a la solucin de los conglomerados.
As, las variables con valores de F grandes proporcionan mayor separacin entre los
conglomerados. En nuestro caso sera la variable cilindrada, seguida del nmero de cilindros.
La columna de Sig. nos muestra si se rechaza o se acepta la hiptesis nula en cada uno de los
casos. La hiptesis nula nos dice que no hay diferencia de medias, mientras que la hiptesis
alternativa nos dice que existe diferencia de medias.
En todos estos casos se rechaza la hiptesis nula ya que el valor est por debajo del 0,05. Por
tanto, hay diferencias de medias.

Por ltimo, el SPSS nos facilita la siguiente salida:

En este cuadro nos dice el nmero de casos que componen cada uno de los conglomerados o
segmentos de la solucin. En nuestro ejemplo el conglomerado 1 est formado por 234 casos
(coches) de los 391 totales. El conglomerado 2 est formado por 157.

Una vez realizado el anlisis clster e identificados los segmentos, el siguiente paso lgico es
ver si dentro de cada uno de los grupos de la solucin, existen algunas pautas comunes. En
nuestro caso podramos estudiar si existen diferencias entre los dos segmentos respecto al
pas de origen de los vehculos y al ao de fabricacin de los mismos. Para ello debemos tener
una nueva variable con valores 1 y 2, la cual nos indica a qu conglomerado pertenece cada
uno de los casos. Para ello, cuando se realiza el anlisis clster, debemos marcar la opcin de
guardar el conglomerado de pertenencia, tal y como se muestra en la imagen. Una vez
realizado el anlisis si se ha marcado esta opcin, debemos tener en
nuestra base de datos una nueva variable, que el SPSS por defecto
denomina QCL_1. Esta variable tomar valores 1 y 2 (en nuestro caso,
ya que hemos optado por la solucin de dos conglomerados). Una vez
que tenemos esta variable procederemos a analizar el ao del modelo y el pas de procedencia
en funcin de cada uno de los conglomerados de la solucin.
Si se realiza en anlisis pertinente podremos ver como en el conglomerado 1 se incluyen
coches de fabricacin ms antigua (de los aos 70) y en el 2 los ms modernos (de los aos
80). Tambin, en el conglomerado 2, solo hay coches de procedencia americana, mientras que
en el 1 se incluyen coches de origen europeo, americano y japons.
Si tenemos muchos valores perdidos (en este caso 15 son
pocos) podemos reducir este nmero seleccionando
excluir casos segn pareja dentro de la seccin de
opciones

Anda mungkin juga menyukai