Anda di halaman 1dari 107

4.

REGRESIÓN

4.1. Conceptos básicos

Cuando se quiere investigar la relación entre al menos dos variables


cuantitativas, se realiza un estudio de regresión y correlación. En la regresión
una de las variables es la que se quiere predecir con la ayuda de las demás. A
esta variable se la denomina variable dependiente. En la correlación se
considera que ambas variables son independientes.

La primera vez que se acuño el término de regresión fue por Legendre en


1805, y por Gauss en 1809 con la utilización del método de los mínimos
cuadrados.

La ecuación general de la regresión lineal simple es:

y = a + bx

Que es la ecuación general de una recta. Para obtener esta fórmula lo único
que realizamos es partir de las fórmulas de la recta de regresión de Y sobre X,
que se han determinado mediante el método de los mínimos cuadrados.

σ xy
y= y+ ( x − x)
σy

Posteriormente se despejan los dos coeficientes, a y b, de tal manera que sus


valores quedan determinados como:

σ xy
a= y− x
σ y2
σ xy
b=
σ y2

En estas fórmulas Y es la variable dependiente y X es la variable


independiente.

Para cuantificar ese peor o mejor ajuste de la recta (bondad del ajuste) a los
datos se utiliza en general el denominado coeficiente de determinación R2 que
resume el grado de aproximación de la curva a los puntos. Es una medida
estandarizada, cuyo valor oscila entre 0 y 1 ambos incluidos. Un valor cercano
a uno (o uno), nos comunicará que existe un buen ajuste y por el contrario un

48
Master Universitario en Estadística Aplicada
valor cercano a cero (o cero) nos determina un muy mal ajuste y por lo tanto la
existencia de muchos errores entre los datos y la recta.

Este coeficiente informa también del grado de ganancia que se puede obtener
al predecir una variable basándonos en el conocimiento de las demás variables
implicadas en el modelo.

Otras formas de cuantificar la bondad del modelo son las siguientes:

• Media de los residuos


• Media de los residuos en valor absoluto
• Mediana de alguna de estas medias
• Funciones ponderadas de las medidas anteriores

La diferencia entre cada observación de la variable dependiente y el valor


determinado por la recta de regresión al sustituir en su expresión las varibles
independientes es lo que se denomina residual. El estudio de los residuales es
muy importante en los casos en los que haya que demostrar la normalidad
como se estudiará más adelante.

Residual

Recta de regresión

4.2. Ejemplo de regresión lineal simple

Para este ejemplo se utiliza la base de datos del programa SPSS denominada
employee_data.sav. En esta base de datos vienen reflejados los datos de
varios empleados.

49
Master Universitario en Estadística Aplicada
Las variables son las siguientes;

• Variable ID: representa el individuo de la muestra.

• Variable Sexo: genero del individuo. La variable esta codificada como


m/h (mujer/hombre)

• Variable nacimiento: incluye la fecha de nacimiento de cada sujeto del


estudio

• Variable nivel educativo (educ): oscila entre 0 y 8

• Categoría laboral: Indica la categoría laboral del sujeto. Viene codificado


como:
0-ausente
1-administrativo
2-seguridad
3-directivo

• Salario actual(salario): Variable que expresa el salario actual de cada


trabajador.

• Salario inicial (salini): Variable que expresa el salario inicial del trabajado
en la empresa.

• Meses desde contrato: tiempo en meses del trabajador en la empresa


desde que firmo el contrato.

• Experiencia previa ( Expprev):experiencia previa del trabajador en


meses

• Clasificación de minorías: Variable categórica con las siguientes


categorías:

0=no está clasificado como minoría


1= si está clasificado como en un grupo de minorías
9= no se sabe.

Se quiere determinar la influencia lineal del salario inicial (SI en adelante) en el


salario actual (SA en adelante). Por lo tanto se quiere obtener una recta de la
forma:

SA=aSI+b

Para determinar los dos coeficientes, y así identificar unívocamente la recta se


utiliza el programa SPSS. El procedimiento es el siguiente:

50
Master Universitario en Estadística Aplicada
1) Seleccionar la opción lineal, del menú regresión situado en el menú
analizar
2) Trasladar la variable salario actual al cuadro de dependiente y la de
salini al de independiente

3) Pulsar aceptar.

El resultado obtenido es el siguiente:

El valor de la R no es más que el coeficiente de correlación múltiple, que al


tener únicamente dos variables coincide con el valor absoluto del coeficiente de
correlación de Pearson.

El coeficiente de determinación R2 tiene un valor bastante alto, y se puede


concluir que un 77% de la variabilidad de la variable SA viene expresada por su
dependencia lineal con SI. La R cuadrado corregida no es más que el valor
51
Master Universitario en Estadística Aplicada
anterior, con una corrección por el número de datos independientes en la
muestra utilizada.

La tabla anterior, la del ANOVA, informa sobre la existencia de una relación


significativa entre las variables consideradas en el modelo. Además de dividir la
variabilidad total en la explicada por la regresión y la residual. Estos valores
son interesantes para comparar los distintos modelos que se pueden realizar.
El estadístico F toma el valor 1622,118 y se utiliza para contrastar las
siguientes hipótesis:

• H0=la pendiente de la recta de regresión vale cero


• H1=La pendiente de la recta de regresión es distinta de cero

Al ser un modelo de regresión simple la hipótesis anterior es similar a


plantearse que el valor de R es nulo.

Como el p-valor del test del estadístico F, es 0,000<0,05, podemos concluir


que si R no es nulo, se obtiene el porcentaje de la variabilidad explicada por el
modelo anterior.

Calculamos el porcentaje de variabilidad explicada y aquel que no se explica


en el modelo. La variable salario inicial explica efectivamente un 77,44% de la
variabilidad total.

Suma de cuadrados % variabilidad


Regresión 1,068x1011 77,44%
10
Residual 3,109x10 22,49%
11
Total 1,379 x10

52
Master Universitario en Estadística Aplicada
La última tabla muestra los coeficientes de la ecuación:
SA= 1,909 (SI)+ 1928,206

La interpretación de la ecuación anterior es la siguiente: a cada valor de SI le


corresponde un incremento en el salario de 1,909 veces más.

4.3. Regresión múltiple

4.3.1. Definición del modelo

A veces, en vez de dos variables (independiente y dependiente), se tendrán


más variables dependientes y el objetivo será predecir los valores de la variable
independiente con las variables dependientes. El modelo de regresión múltiple
no es por tanto más que una generalización a varias variables de un modelo de
regresión simple.

Supongamos que haya n variables independientes: x1, x2, xn.

Podemos construir la ecuación:

y = a + b x + b x + ... + b x
11 2 2 n n
Cada variable independiente Xi tiene asignado un coeficiente denominado
coeficiente de regresión bi. Este coeficiente se interpreta como el cambio de la
medida en la variable dependiente Y, por unidad de cambio en cada variable
independiente X1, X2 ó Xn. Para realizar una interpretación resulta
imprescindible conocer las unidades de cada variable. Además se está
suponiendo que las variables no tienen interacciones entre si, o lo que es lo
mismo que los términos de interacción son nulos.

Para poder modelizar los datos de esta forma, los datos deben satisfacer una
relación lineal. Si hay solo dos variables explicativas, entonces los datos deben
estar aproximadamente contenidos en un plano. Para tres o más variables
explicativas, la ecuación de regresión es un hiperplano y no hay posibilidad de
visualizar los datos gráficamente.

Además la recta de regresión, permite predecir el valor que tomará la variable


Y, sin más que sustituir los valores de las variables Xi en ella.

53
Master Universitario en Estadística Aplicada
Las principales ventajas de este método son las siguientes:

• Permite el análisis de varios factores o varias variables independientes


que influyen en el desenlace cuantitativo
• En estudios no experimentales, se puede controlar el sesgo producido
por las características que hacen a los grupos heterogéneos
• Al introducir más variables se reduce el porcentaje no explicado por la
regresión simple

Mientras que las principales desventajas de la regresión lineal múltiple son:

• Es difícil escoger el mejor modelo


• Interpretar el resultado, cuando hay muchas variables puede ser
complicado
• Se necesita un ordenador, para realizar los cálculos, especialmente
cuando hay más de 3 variables implicadas

4.3.2. Caso práctico

Supongamos que se realiza un examen en un determinado colegio y se sabe


que los resultados dependen de una serie de variables.

Las variables implicadas en el modelo son las que se describen a continuación:

• ESCS- índice económico socio cultural de la familia.


• INMIGRACIÓN- si es español o no.
• NOTA- puntuación del examen.

La forma en la que dependen es

NOTA = 50 + 0,7ESCS − 0,6INMIGR

Se intenta predecir la nota del examen, (que sería la variable dependiente Y) a


partir de dos variables independientes, ESCS e inmigración. Como las
variables son adimensionales, no hace falta indicar las unidades. Por supuesto
que existen otras variables que influirán en la nota del examen, pero estas no
se consideran.

La interpretación es que por un índice socio cultural de un punto más, la nota


del examen es 0,7 puntos más, independientemente de cuál sea el origen del
estudiante. La diferencia entre inmigrantes y no inmigrantes será de 0,6 menos
en los inmigrantes, a igualdad de ESCS.

Esto se explica sin más que sustituir en la ecuación por sus respectivos
valores. La variable INMIGRACION se codificó así: Toda persona será o

54
Master Universitario en Estadística Aplicada
inmigrante o nacional, y dependiendo de esos valores la variable inmigrante
tomará los siguientes valores:

• Inmigrantes: Todo inmigrante tomará el valor 1


• Nacionales: Toda persona del país (n este caso España), tomará el valor
0

En los inmigrantes, la ecuación será:

NOTA = 50 + (0,7xESCS) − ( 0,6x1) = 50,6 + (0,7xESCS)

En los nacionales, la ecuación será:

NOTA = 50 + (0,7xESCS) − ( 0,6x0) = 50 + (0,7xESCS)

Las dos ecuaciones anteriores son paralelas, ya que únicamente difieren en


una constante.

 Ejemplo2

Con los datos anteriormente descritos, de la base de datos employee_data.sav,


se quiere crear un modelo para predecir el salario actual en función del salario
inicial y de la experiencia previa.

Para llevarlo a cabo, se obtiene el cuadro de diálogo de regresión lineal


descrito anteriormente e introducimos en el cuadro de “variable dependiente” la
variable correspondiente al salario actual y en el cuadro de diálogo de variables
independientes, aquellas variables correspondientes al salario inicial (SI) y
experiencia previa (Exp). Se realiza el análisis y se obtiene el resultado
mostrado en la tabla siguiente.

La tabla que resume el modelo, muestra que si consideramos juntas las dos
variables correspondientes a salario inicial y experiencia previa se explica un
total de un 79% de la variabilidad total de la variable dependiente, salario
actual. Este modelo es mejor que el que se realizaba anteriormente
considerando únicamente como variable dependiente la variable salario inicial.

55
Master Universitario en Estadística Aplicada
La R2 anterior, expresaba un 0,775 frente al 0,793 que expresa el actual
modelo. Además el error típico de la estimación se ha reducido.

Con respecto a la tabla de los coeficientes, podemos observar la ecuación del


modelo que es:

SA=1,923 (SI)-22,445 (EXPprevia)+3850,718

El coeficiente de experiencia previa nos indica que si las demás variables se


mantienen constantes, a cada mes de experiencia previa le corresponde en
promedio una reducción de 22,445€ en el salario actual.

Estos coeficientes no son independientes entre sí, ya que se ajustan


considerando el resto de las variables implicadas en el modelo. Los
coeficientes de las variables ya no corresponden al coeficiente de correlación
entre las variables independientes y la variable dependiente, salario actual.

En este modelo puede extrañar el coeficiente negativo asociado al coeficiente


de la variable experiencia previa. La razón por la que esto sucede suele ser por
la existencia de una gran colinealidad entre las variables implicadas en el
modelo.

En la tabla anterior, se presentan también los coeficientes tipificados. Estos son


muy importantes ya que permiten comparar las variables entre ellas y
determinar según su valor cuáles son las más relevantes del modelo. En el
ejemplo la más importante es el salario inicial, pues adquiere un mayor valor
que la experiencia previa.

El estadístico T es el que se utiliza para realizar un contraste de hipótesis sobre


los coeficientes del modelo. La hipótesis nula de este test es que los
coeficientes son nulos. Al ser su p-valor menor que 0,05, se rechaza la
hipótesis nula y se afirma que los coeficientes son distintos de cero. Por lo
tanto, todas ellas contribuyen a explicar el salario actual de los trabajadores de
la empresa.

La tabla correspondiente el análisis de la ANOVA, muestra que el estadístico F


es significativo por lo que concluimos que el valor de R, obtenido en una tabla
anterior, no es nulo, o lo que es lo mismo la variable dependiente depende de
al menos de una de las predictoras. El plano definido por la ecuación de
regresión ofrece un buen ajuste al modelo.
56
Master Universitario en Estadística Aplicada
Se compara este modelo y el anterior:

Modelo1 Modelo2
Suma de cuadrados % variabilidad Suma de cuadrados % variabilidad
Regresión 1,068x1011 77,44% 1,094x1011 79,33%
Residual 3,109x1010 22,49% 2,848x1010 20,67%
11 11
Total 1,379 x10 1,379 x10

En definitiva, este modelo es mejor ya que el porcentaje de variabilidad que


expresa el modelo (79,33%) es mayor que la del anterior y por lo tanto la
variabilidad complementaria o residual es menor.

4.4. Variables especiales

Los modelos de regresión son un arma estadística muy potente ya que


permiten trabajar con variables de muchos tipos distintos y suavizar el efecto
de otras variables que puedan estar sesgando el resultado final. Se podrán
introducir variables cualitativas sin más que hacer una ligera modificación en
los datos, y además detectar propiedades importantes como son el efecto
interacción entre las variables y el efecto confusión.

4.4.1 Variables de confusión

A veces puede haber variables que indirectamente influyan en el resultado, en


el sentido de que sean variables que se asocien tanto con la variable
independiente como con el supuesto efecto o variable dependiente. Estas
variables son los denominados factores de confusión. En general, tanto la edad
como el sexo son variables que entrarán dentro de “las variables de confusión”
y por lo tanto será esencial incluirlas en el análisis.

57
Master Universitario en Estadística Aplicada
En el ejemplo citado el sexo será un valor que afecte al resultado final y a la
variable inmigrante, pues en el colegio estudiado había más inmigrantes
varones que inmigrantes mujeres:

Inmigrantes

NOTA

SEXO
(factor de confusión)

4.4.2. Variables cualitativas

Cuando se desea introducir como variable independiente una variable


cualitativa que tenga 3 o más categorías, se debe elegir primero cuál será la
categoría de referencia y después se ha de crear una nueva variable para cada
una de las demás categorías.

La forma en que se realiza es crear n-1 variables, siendo n el número de


categorías de la variable cualitativa. Estas n-1 variables serán variables
binarias, que valdrán 1 para una categoría determinada y 0 para el resto.
Cuando todas las variables sean nulas, entonces el valor de la variable original
será aquella categoría que no se ha representado por las n-1 variables. Estas
variables solo tienen sentido cuando se introducen conjuntamente.

 Ejemplo

Se ha realizado una encuesta a los trabajadores de una empresa para


determinar su estado civil. Los valores recogidos están en la columna Estado
Civil y corresponden a:

• S=Soltero/a
• C=Casado/a
• V= Viudo/a
• D=Divorciado/a

Las siguientes columnas corresponden a las variables binarias creadas para


expresar esta variable. Como existen 4 categorías, se han creado 3 categorías
(soltero, casado y viudo). Estas 3 variables toman el valor de uno siempre que
el individuo encuestado haya respondido lo mismo que la variable que refleja.

58
Master Universitario en Estadística Aplicada
Así por ejemplo, la variable soltero valdrá 1 para todos aquellos solteros y cero
para los demás.

Cuando las tres variables son cero en la misma fila, significa que el individuo ha
contestado que está divorciado, puesto que no está soltero, ni casado ni es
viudo.

Cuando se realiza un análisis, es imprescindible incluir las cuatro variables


conjuntamente. Si solo se introduce una de ellas se estaría considerando el
caso de tener ese estado civil u otro, así por ejemplo si solo consideramos
soltero, la variable representaría a todos los solteros frente a todos los demás.

E.Civil Soltero Casado Viudo


S 1 0 0
S 1 0 0
C 0 1 0
C 0 1 0
C 0 1 0
C 0 1 0
V 0 0 1
V 0 0 1
V 0 0 1
D 0 0 0
D 0 0 0
S 1 0 0
C 0 1 0

4.4.3. Interacción

En apartados anteriores se ha considerado que la interacción entre las


variables era nula. Existe interacción en la relación entre dos variables cuando
los valores de una tercera afectan a esa relación, magnificándola o
disminuyéndola, o más raramente ambas cosas, dependiendo del nivel de la
tercera variable. Es decir que la magnitud de la relación es diferente según los
niveles de esa tercera variable.

Así, por ejemplo, podríamos encontrar que la media de la nota obtenida en el


ejemplo aumenta con la edad, pero que ese aumento es mayor en el grupo de
los inmigrantes que en el de los nacionales.

La forma más simple de incorporar la presencia de interacción entre dos


variables en una ecuación de regresión consiste en incluir en ésta el producto
de ambas:

59
Master Universitario en Estadística Aplicada
Si se supone un modelo compuesto por tres variables:

y = a + b x + b x + b12 x1 x2
11 2 2
EL último término consiste en la interacción entre las variables x1,x2.

4.5. Supuestos o condiciones de aplicación

El procedimiento utilizado para llevar a cabo una regresión lineal simple es el


ajuste por mínimos cuadrados. El objetivo es encontrar la ecuación que mejor
se ajuste a los puntos observados y que componen la muestra. En una
regresión múltiple el procedimiento de estimación es semejante al utilizado en
la regresión lineal simple, se estima la superficie que mejor se ajusta a la nube
de puntos observados. El método se denomina ajuste por mínimos cuadrados.
Es un método que minimiza las distancias desde cada punto observado hasta
el plano. Los errores cometidos, serán aquellas distancias de los puntos
originales al punto de la recta obtenido al sustituir la variable independiente en
las rectas, y se denominan residuos.

Cuando se ajusta un modelo de regresión múltiple, el ordenador devuelve


coeficientes bi para cada una de las variables independientes xi que pueden
considerarse como variables predictores de la variable cuantitativa considerada
como respuesta (variable dependiente).

Por lo tanto, al igual que en la regresión lineal simple, el modelo se basa en


unos supuestos similares, que son los siguientes.

1) Las variables están relacionadas linealmente.

2) La distribución de la variable dependiente condicionada a cada posible


combinación de valores de las independientes es una distribución
normal multivariable.

3) Las variables son independientes unas de otras. Como consecuencia,


los residuos serán independientes entre sí y constituirán una variable
aleatoria.

4) Homogeneidad de las varianzas (homocedasticidad): las varianzas de la


variable “Y” condicionadas a los valores de “X” son homogéneas.

Para comprobar estos supuestos se deben guardar los residuales y valorar si


se adaptan a la normalidad. Si el tamaño muestral es grande, habitualmente
resultarán significativos los tests de normalidad de los residuales, pero esto

60
Master Universitario en Estadística Aplicada
tiene poca relevancia práctica. En esta situación un test de normalidad
significativo es sólo una consecuencia del tamaño muestral. Resulta entonces
más importante valorar la magnitud del apartamiento de la normalidad usando
métodos gráficos. Habitualmente, con tamaños muestrales grandes (n>500) la
regresión suele ser suficientemente robusta.

4.6. Análisis de los residuales

Los residuos son aquellas diferencias entre los valores observados y los
valores pronosticados. Son muy importantes en un análisis de la regresión. En
primer lugar notifican sobre el grado de exactitud en los pronósticos y además
permiten la identificación de errores atípicos.

Conviene comprobar en ellos las condiciones anteriormente expuestas es


decir:

• Homocedasticidad
• Independencia
• Normalidad
• Linealidad
• colinealidad

 Ejemplo

Se continúa con el ejemplo de los datos correspondientes a una empresa.

En primer lugar se obtienen los residuos que tienen una mayor magnitud. El
procedimiento es el siguiente:

Se pulsa la opción “Estadísticos..” en el cuadro de diálogo de regresión lineal y


se selecciona la opción diagnóstico por caso. Posteriormente se selecciona la
opción “Valores atípicos a mas de” y se incluye un cuatro en el cuadro de
diálogo. Así se obtiene un listado de aquellos residuos que se alejen de cero en
más de un número de desviaciones típicas.

61
Master Universitario en Estadística Aplicada
Se obtienen un total de cinco casos, el 18, 106, 205, 218 y 274.

Si los residuos están normalmente distribuidos, menos del 99,9% de ellos


deben estar en el rango [-3,3]. En este caso hay al menos cinco de ellos fuera
de ese rango, por lo que conviene repasar cada caso de los anteriores, pues
pueden ser valores anómalos.

Otra de las tablas importantes que se ha obtenido corresponde a los


estadísticos sobre los residuos.

62
Master Universitario en Estadística Aplicada
Esta tabla informa sobre los valores mínimos y máximos. Lo más importante de
ella es que la media de los residuos es nula, lo cual concuerda con la media de
la distribución normal tipificada.

 Independencia

Si las variables son independientes entre sí, los residuos han de serlo también.
La forma de evaluar si los residuos son independientes entre si es con el test
de Durbin-Watson. Este estadístico oscila entre 0 y 4, tomando el valor 2 en el
caso de que los residuos sean independientes. Los valores con correlación
menor que 2 indican correlación positiva y los valores mayores autocorrelacion
negativa.

Esta opción se elige en la opción “Estadísticos..” expresada anteriormente.


En el ejemplo el valor es 1,833 que es menor que 2 luego existe una
autocorrelación negativa, aunque al tener un valor próximo a 2 se asume que
efectivamente los residuos son independientes.

 Homocedasticidad

Para evaluar la homocedasticidad se procederá gráficamente como sigue:

1) Guardar los residuos como nuevas variables: Para guardar los residuos
se selecciona la opción guardar del cuadro de diálogo de la regresión lineal. En
el nuevo cuadro de diálogo se marca la opción “residuos tipificados” y
“pronósticos tipificados”.

63
Master Universitario en Estadística Aplicada
2) Se obtiene un diagrama de dispersión de los residuos tipificados. Se obtiene
un diagrama de las dos nuevas variables. Este es el resultado:

64
Master Universitario en Estadística Aplicada
3) Análisis del diagrama de dispersión: Afirmamos que aparentemente no
existe una diferencia de varianzas entre ambas variables, ya que en el gráfico
ambas parecen tener una dispersión similar.

Este gráfico es interesante también en el sentido de que si existiese un modelo


no lineal que se ajustase a los datos, podría observarse aquí (se habría
eliminado la componente lineal y por lo tanto solo se observaría la componente
no lineal).

 Normalidad

65
Master Universitario en Estadística Aplicada
En el cuadro de diálogo de gráficos, descrito anteriormente, se marcan las
siguientes opciones:

• Histograma
• Gráfico de probabilidad normal

Se pulsa aceptar y se obtienen dos gráficos nuevos

 El histograma

Se obtiene un histograma de los residuos tipificados con una curva normal


superpuesta. Se observa que la parte central de la distribución acumula más
casos que las colas al igual que ocurre con la distribución normal. También se
observa que es algo asimétrica, hay más valores en la cola positiva de la
distribución que en la cola negativa. Los parámetros característicos de la
distribución normal tampoco son los valores exactos que adquieren en la
distribución normal estándar.

El siguiente gráfico corresponde a un diagrama de probabilidad normal. Si los


residuos se distribuyesen según una distribución normal entonces estarían
alineados con la diagonal del gráfico.

Conviene la utilización de test estadísticos para comprobar la normalidad.

66
Master Universitario en Estadística Aplicada
 Linealidad

Una vez que se haya marcado la opción “generar todos los gráficos parciales”
en la opción gráficos del subcuadro de diálogo regresión lineal se generarán
tantos gráficos como variables independientes se hayan incluido en el análisis.

El gráfico de salario actual vs salario inicial es claramente lineal.

67
Master Universitario en Estadística Aplicada
Si se desea realizar un análisis más detallado al modelo convendría analizar
los outliers del gráfico anterior.

 Colinealidad

La colinealidad es una de las propiedades más importantes que se han de


estudiar. Su existencia puede interferir en la estimación correcta de los
coeficientes de las variables dependientes del modelo y la existencia de
colinealidad parcial entre las variables, incrementa el tamaño de los residuos
tipificados.

Al evaluar la existencia o no de la colinealidad, se debe delimitar el nivel de


correlación máxima permitida entre las variables. Para fijar este nivel se debe
evaluar lo siguiente:

1) Si el estadístico F es significativo pero no así los valores de correlación


entre las variables.

2) Los coeficientes de las variables independientes estandarizados de la


ecuación de regresión adquieren valores mayores de uno.

Existen otras formas de evaluar la colinealidad.

SPSS por ejemplo permite estudiar la colinealidad con otros estadísticos


distintos a los descritos. Para ello se selecciona la opción “diágnostico de

68
Master Universitario en Estadística Aplicada
colinealidad” en el menú Estadístico y se obtienen unas tablas similares a las
que siguen:

La primera de ellas es conocida, pues se parece mucho a una anteriormente


descrita, pero en este caso incluye dos nuevas columnas:

1) Tolerancia
2) FIV. Que representan los denominados factores de inflación de la
varianza

La tolerancia de una variable se obtiene restando a 1 el coeficiente de


determinación R2. Valores pequeños indican que esta variable puede ser
expresada por una combinación lineal del resto de variables, lo cual significa
colinealidad.

En el ejemplo la tolerancia de los correspondientes coeficientes de regresión no


es muy elevada luego se concluye que no existe colinealidad.

El FIV son los inversos de los niveles de tolerancia son los inversos de los
coeficientes de tolerancia. Cuanto mayor es la FIV, mayor es la varianza del
correspondiente coeficiente de regresión.

En la segunda tabla se observan los diagnósticos de colinealidad:

Al no existir muchos autovalores próximos entre sí, se relaciona con la no


existencia de colinealidad. La existencia de índices de condición menores de
30 e incluso menores de 15 indica también que en principio no existen
problemas de colinealidad.

Las últimas columnas de la tabla correspondientes a proporciones de varianza


recogen el porcentaje de la varianza de cada coeficiente de regresión parcial
expresada por cada dimensión o factor.

Lo ideal es que cada factor explique en mayor medida únicamente una de las
variables. Es decir que tenga valores altos para una variable y bajos para los
demás. Cuando esto no ocurre se recomienda revisar el modelo diseñado.

69
Master Universitario en Estadística Aplicada
La existencia de colinealidad en los datos puede evitarse imponiendo algunas
soluciones como las siguientes:

• Aumento del tamaño de la muestra


• Crear indicadores combinando varias variables
• Excusión de variables redundantes

4.7. Métodos de regresión lineal

Con respecto a la construcción del modelo existen distintos métodos que


vienen diferenciados por la forma en que se introducen e incluyen las variables
en el modelo.

Si se comienza con un modelo en el que se introducen todas las variables


juntas y a partir de ahí se van eliminando variables del modelo, porque así se
elimina la colinealidad, o se mejora la variabilidad expresada por el modelo,
entonces la técnica usada será la denominada regresión hacia atrás.

Lo contrario, la regresión hacia delante, consiste en no introducir ninguna


variable en el primer modelo e ir introduciendo una a una las variables que
más variabilidad explican del modelo. Es decir se selecciona en un primer paso
el mejor modelo compuesto por una única variable, entonces se fija esta
variable en el modelo y se estudian el modelo resultante al introducir cada una
de las demás variables.

El método de regresión más utilizado es el denominado "stepwise", traducida


habitualmente como regresión por pasos, es una versión modificada del
proceso de regresión hacia adelante en la que en cada nuevo paso, se
reconsidera además el mantener las que ya se había añadido previamente, es
decir que no sólo puede entrar una nueva variable en cada paso sino que
puede salir alguna de las que ya estaban en la ecuación. El proceso finaliza
cuando ninguna variable de las que no están en la ecuación cumple la

70
Master Universitario en Estadística Aplicada
condición para entrar y de las incorporadas a la ecuación ninguna cumple la
condición para salir.

4.8. Otros tipos de regresiones.

En este tema se ha expuesto principalmente el análisis de la regresión lineal


entre los distintos tipos de variables. Sin embargo no todas las dependencias
existentes entre las variables seguirán una forma lineal. Normalmente el
análisis de regresión consiste en un componente lineal y otro no lineal. Los
tipos más comunes de regresión no lineal son del tipo polinómico, y más
concretamente la cuadrada o la cúbica.

En algunas ocasiones para realizar la regresión también se puede necesitar un


cambio previo en los datos, como puede ser tomar logaritmos de los datos, o
simplemente una potencia. Es por esta causa por la que se recomienda hacer
un diagrama de dispersión como paso previo a la regresión.

Existen otros tipos de regresión muy importantes que vienen diferenciados de


los anteriormente expuestos en la naturaleza de la variable dependiente. Por
ejemplo, el modelo de regresión logística que se estudiará más adelante, se
caracteriza por el hecho de que la variable a predecir, la variable dependiente,
es de tipo dicotómico.

Otro tipo de regresión distinto a los anteriores se produce al introducir una


variable que corresponda al intervalo de tiempo transcurrido entre un
acontecimiento inicial y uno terminal. Entonces tendremos un tipo de datos
denominado de supervivencia como se estudiará más adelante, y se trabajara
con regresiones de Cox o regresiones de Kaplan Meier, según la situación y las
demás variables.

71
Master Universitario en Estadística Aplicada
Universidad Nacional de Educación a Distancia

5. ANALISIS POR COMPONENTES PRINCIPALES


5.1. Conceptos básicos

5.1.1. Introducción

Los datos que provienen de algunas disciplinas como la bioinformática,


meteorología o economía tienen en la mayoría de las ocasiones un gran
número de variables y por ello los métodos explicados anteriormente son poco
efectivos. La idea es encontrar un número de variables de menor dimensión sin
perder demasiada información, es decir, reducir la dimensión de los datos de
tal forma que el nuevo conjunto de datos, sea tan bueno como el anterior o por
lo menos permita una estimación con calidad de los datos originales.

Las técnicas de análisis multivariante que se pueden utilizar para conseguir


este objetivo son las denominadas técnicas de reducción de la dimensión. Los
métodos que se pueden englobar en este grupo son los que se denominan
análisis de los componentes principales o ACP y el análisis factorial.

El análisis de componentes principales (ACP), es una técnica estadística que


fué propuesta a principios del siglo pasado por Karl Pearson como parte del
análisis de factores. Sin embargo la complejidad de los cálculos retrasó su
desarrollo hasta la aparición de los ordenadores. Esta técnica ha sido
fundamentalmente utilizada en la segunda mitad del siglo XX. El relativamente
reciente florecimiento de los métodos basados en componentes principales
hace que sean consideradas por una gran cantidad de investigadores no
especialistas en estadística.

El análisis factorial proviene del campo de la sociología. A principios del siglo


XX Spearman postuló una teoría, en la que declaraba que todos los individuos
que realizaban un test tenían un factor en común que era el propio test y otro
que caracterizaba a todos los tests en general, planteando la opción de
demostrar esta teoría con la matriz de correlación de los test. El desarrollo de
esta teoría concluyó en el modelo teórico que hoy se conoce como análisis de
factores.

El objetivo principal, como ya se ha mencionado, del ACP y el análisis factorial


es la representación de las medidas numéricas de varias variables en un
espacio de menos dimensiones donde nuestros sentidos puedan percibir
relaciones que de otra manera permanecerían ocultas en dimensiones
superiores por la dificultad que supone analizar datos en dimensiones altas. La
pérdida de información se ve ampliamente compensada con la simplificación
realizada.

72
Master Universitario en Estadística Aplicada
Universidad Nacional de Educación a Distancia

5.1.2. Diferencias entre el ACP y el análisis factorial

Al analizar un gran conjunto de variables existen dos tipos de variabilidad, una


correspondiente a lo que explica cada variable por si sola y otra que se
identifica con lo que tienen en común todas las variables. Esto nos diferencia
entre los dos tipos de técnicas utilizadas para reducir la dimensión de un
conjunto de variables. El análisis factorial es la técnica que tiene en cuenta
tanto la varianza o variabilidad común de todas las variables juntas como la
variabilidad única de cada variable mientras que el análisis de los
componentes principales es aquel que únicamente tiene en cuenta la varianza
total del conjunto a estudiar.

Para conseguir estos objetivos el Análisis de Componentes Principales busca


hallar las mejores combinaciones lineales de las variables originales que
expliquen la mayor parte de la varianza total, mientras que el Análisis Factorial
pretende hallar un nuevo conjunto de variables, menor en número que las
variables originales, que exprese lo que es común a esas variables.

Con la utilización de cualquiera de estos métodos se obtendrán unas variables


nuevas que se denominan componentes principales o factores y son las
variables que se estudiarán para extraer conclusiones de los datos originales.

Una vez que se haya reducido el número de variables, el siguiente paso es el


análisis de los factores y su interpretación. Esto no es una tarea trivial, ya que
habrá que analizar tanto el signo como la matriz de correlaciones en
profundidad.

5.2. Análisis de los componentes principales

Todo lo expresado anteriormenter, aunque sugiere que el ACP es una técnica


descriptiva, no niega la posibilidad de que también pueda ser utilizado con fines
de inferencia. Por otra parte, las aplicaciones del ACP son numerosas y entre
ellas se pueden citar la clasificación de individuos, la comparación de
poblaciones, la estratificación multivariada, etc.

5.2.1. Reducción de la dimensión para datos bivariados

La relación entre dos variables puede ser estudiada mediante un diagrama de


dispersión, como ya se ha descrito anteriormente. Por lo tanto, en la mayoría
de las circunstancias no es necesario reducir la dimensión de los datos
bivariantes. Sin embargo, existen situaciones en las que puede resultar útil
trabajar con una variable en vez de con dos de ellas.

Reducir los datos de dos variables a una significa que cada observación es
representada por un dato en vez de doss. Este número puede ser simplemente
73
Master Universitario en Estadística Aplicada
Universidad Nacional de Educación a Distancia

una de las variables o una combinación de ambas (tomando una media, una
suma, una diferencia…)

Hay muchas maneras con las que se pueden combinar matemáticamente dos
variables X1 y X2 para crear una nueva variable Y. Una de estas maneras es
una combinación lineal.

Una variable Y es una combinación lineal de X1 y X2, si para dos


constantes α1 , α 2 se puede obtener una expresión de la forma siguiente:

yi = α1 xi1 + α 2 xi 2

 Ejemplo

Supóngase que X1 es la variable que representa el interés a corto plazo de un


país e X2 el interés a largo plazo.

Los datos para los distintos países son los siguientes:

País X1 X2
Canada 2,31 4,58
Estados Unidos 1,56 4,27
Australia 5,48 5,61
Japón 0,03 1,49
Nueva Zelanda 6,13 6,07
República Checa 2,36 4,75
Dinamarca 2,14 4,30
Noruega 2,01 4,37
Suecia 2,11 4,43
Reino Unido 4,57 4,87

Si se define Y = α1 X 1 + α 2 X 2
1
Con α1 = = α2
2

Entonces el valor de la nueva variable Y puede calcularse, sin más que ir


sustituyendo en la expresión anterior.

74
Master Universitario en Estadística Aplicada
Universidad Nacional de Educación a Distancia

La variable Y tomaría entonces los siguientes valores:

País X1 X2 Y
Canada 2,31 4,58 4,872
Estados Unidos 1,56 4,27 4,122
Australia 5,48 5,61 7,842
Japón 0,03 1,49 1,075
Nueva Zelanda 6,13 6,07 8,627
República Checa 2,36 4,75 5,028
Dinamarca 2,14 4,30 4,554
Noruega 2,01 4,37 4,511
Suecia 2,11 4,43 4,624
Reino Unido 4,57 4,87 6,675

Si se define la combinación lineal de Y como hasta ahora, el valor de la media


de Y viene claramente determinado por los valores de las constantes α1 y α 2
además de las medias de X1 y X2: X1 y X 2 respectivamente.

En la práctica para evitar esto, una combinación lineal de Y se define de la


siguiente manera:

Y = α1 ( X 1 − X 1 ) + α 2 ( X 2 − X 2 )

De esta forma se asegura que la media de Y es cero para cualquier valor de


α1 y α 2 y de X1 y X 2 .Las medias X1 y X 2 son simplemente la media de los
valores X1 y X2, y por lo tanto son constantes. Así, para cualquier valor de
α1 y α 2 la cantidad anterior, una vez sustituidas las variables es simplemente
una constante.

Sin embargo, si se multiplica α1 y α 2 por una constante c se produce una


situación similar e Y sigue siendo una constante. Existen por tanto infinitas
combinaciones lineales que proporcionen una valor para Y bajo las condiciones
anteriormente expuestas. Para elegir entre todas estas combinaciones lineales,
que son semejantes una en concreto y que será la definitiva se impone la
condición siguiente para así determinar los valores de los coeficientes α1 y α 2

1 = α1 + α 2
2 2

75
Master Universitario en Estadística Aplicada
Universidad Nacional de Educación a Distancia

Es decir, que la suma de los coeficientes al cuadrado sea uno.

Nótese que una combinación de coeficientes en la que no se cumple la


condición descrita más arriba puede sustituirse por una en la que si se cumpla
en todo caso, sin más que realizar las operaciones pertinentes. Así, el
problema de cómo elegir los coeficientes queda totalmente eliminado, y la tarea
de elegir “los mejores coeficientes” de las combinaciones lineales que resulten
de tener media 0, queda reducida a encontrar dos coeficientes que cumplan la
condición previamente descrita.

Una vez resuelto el primer problema, resta elegir de entre todas las
combinaciones lineales aquella que cumpla las propiedades que interese, pues
aún existen muchos posibles valores de α1 y α 2 .

¿Qué constituye una buena elección de α1 y α 2 ? Para responder a esta


pregunta, las aproximaciones resultantes deben compararse.

 Ejemplo

En el ejemplo anterior se presentaron los datos correspondientes a la variable


Y con respecto a los distintos países, tomando dos coeficientes determinados
¿Qué ocurre si estos coeficientes se cambian?

En primer lugar se han de estandarizar las variables para a continuación


sustituir en la expresión. La siguiente tabla muestra como varía la variable Y en
función de los distintos componentes.

1 1
PAIS X1 X2 α1 = , α2 = α1 = 0.6, α 2 = 0 − 0.8
2 2
Canada -0,56 0,11 0,321 -0,421
Estados Unidos -1,31 -0,20 -1,071 -0,623
Australia 2,61 1,14 2,649 0,657
Japón -2,84 -2,98 -4,118 0,683
Nueva Zelanda 3,26 1,6 3,43 0,679
República Checa -0,51 0,27 -0,165 -0,527
Dinamarca -0,73 -0,17 -0.639 -0,299
Noruega -0,86 -0,10 -0.682 -0,433
Suecia -0,76 -0,04 -0,569 -0,421
Reino Unido 1,7 0,40 1,482 0,703

76
Master Universitario en Estadística Aplicada
Universidad Nacional de Educación a Distancia

Si se analiza la tabla anterior, se observa que en el caso en que se tomen


1 1
como coeficientes α1 = , α2 = , Japón es el país con puntuación más baja,
2 2
al igual que sucedía con las variables X1 y X2 por separado. Sin embargo, en
el caso de los coeficientes sean α1 = 0.6, α 2 = 0 − 0.8 , Japón está bastante más
centrado.

Esto proporciona una idea de la importancia de cómo escoger los coeficientes,


pues una mala elección puede conllevar el cambio en la estructura de los
datos. En el ejemplo anterior la primera elección es buena porque mantiene la
naturaleza de los datos, no así la segunda.

Por lo tanto una elección para los valores de α1 y α 2 es buena si el patrón


dominante de los datos originales de las dos variables se tiene en el resultado
de la variable nueva. La herramienta que nos facilita esta tarea es la dispersión
de la variable Y. Cuanto más agrupados estén los datos de la variable Y, más
difícil será identificar algún patrón de comportamiento. La medida que se
tomará para evaluar esta característica es la varianza.

Desafortunadamente una forma de incrementar la dispersión de todos los datos


es multiplicar los coeficientes α1 y α 2 por una constante d>0. Así, de una
aproximación con poca varianza, se puede conseguir una mucho mas dispersa,
sin embargo esto haría que no se cumpliese nuestra condición previa:
1 = α1 + α 2 .
2 2

Así nuestro problema queda resuelto a toda aquella combinación que cumpla la
condición anterior y maximice la varianza explicada.

La manera más sencilla de calcular la varianza del componente principal Y, es


con la fórmula siguiente:

V (Y ) = α12V ( X 1 ) + α 22V ( X 2 ) + 2α1α 2Cov( X 1 , X 2 )

De esta forma, indiferentemente de los coeficientes elegidos basta con calcular


las varianzas de las dos variables X1 y X2 y una covarianza.

El método anteriormente descrito para encontrar la “mejor combinación lineal”


de Y para aproximar datos bivariados es lo que se denomina análisis de los
componentes principales. Los coeficientes α1 y α 2 serán los que se
denominen carga o puntuaciones de las variables.

En resumen, el primer y único componente de un conjunto de datos


mutivariantes debe ser aquella combinación lineal:

77
Master Universitario en Estadística Aplicada
Universidad Nacional de Educación a Distancia

Y = α1 ( X 1 − X 1 ) + α 2 ( X 2 − X 2 )

Con las siguientes condiciones:

1 = α1 + α 2
2 2
y maximice V(y)

5.2.2. Reducción de la dimensión para p variables

En esta sección se intenta extender los resultados obtenidos anteriormente a


datos de dimensiones mayores. Además, se muestra un método para medir la
calidad de una aproximación y también se expone lo esencial que supone
estandarizar las variables como fase previa a la extracción el componente
principal.

Si se amplía la definición anterior para el caso de p variables se tendría que el


componente Y se expresa como;

p
Y = α1 ( X 1 − X 1 ) + α 2 ( X 2 − X 2 ) + .... + α p ( X p − X p ) = ∑α
J =1
j (X j − X j )

Con las siguientes condiciones:

1 = α1 + α 2 + ... + α n
2 2 2
y maximice V(y)

Es decir, que la suma de los coeficientes al cuadrado sea 1 y se maximice la


varianza de Y. La forma análoga de calcular la varianza de Y sin recurrir al
cálculo de las observaciones de Y es la siguiente:

p
V (Y ) = ∑ α V (X
j =1
2
j j )+ ∑α α Cov( X
j ,k ,k > j
j k j , Xk )

En otras palabras V(Y) depende del valor en las variables originales y las
covarianzas entre estas variables originales.

Una vez conocida la matriz de covarianzas, para un conjunto de


coeficientes α1 , α 2 ,....α p , la varianza V(Y) puede ser calculada y los valores que
maximizan la varianza de V(Y) pueden entonces ser encontrados.

78
Master Universitario en Estadística Aplicada
Universidad Nacional de Educación a Distancia

5.2.3. Calidad de la aproximación

A pesar de las condiciones que se habían impuesto para definir Y, esto no


quiere decir que nuestra variable nueva se aproxime bien a nuestros datos. La
varianza de Y es una aproximación unidimensional que mide la variabilidad de
los datos que es capturada por Y. Esto necesita ser comparado con la
variabilidad total de los datos para hacerse una idea de la magnitud. Para medir
esta variabilidad se utilizará la denominada varianza total.

Para un conjunto de datos multivariantes de dimensión p la varianza total TV se


define como la suma de todas las varianzas.

p
TV = ∑ V (X
j =1
j ) = V ( X 1 ) + V ( X 2 ) + ... + V ( X p )

Nótese que las covarianzas no aparecen en las fórmula de la varianza total


(puede parecer extraño no tener en cuenta las covarianzas, pero hay razones
matemáticas para no incluirlas como se comprobará más adelante).

Para medir cuánta varianza total captura cada variable Y, se introduce el PVE
que no es más que el porcentaje total de varianza explicada. Se calcula
mediante la expresión siguiente:

V (Y )
PVE = x100%
TV

Este porcentaje será más alto, cuanto más se aproxime la variable Y a los
datos originales. El porcentaje de varianza explicada varía entre el 0% y 100%.
Cuando se explique un 0% de la varianza, la varianza de Y será cero. En este
caso extremo la variable Yi coincide con la media de Y para cada observación i,
y de esta forma Y no puede ser diferenciado de las observaciones.

Cuando el porcentaje explicado es del 100%, las diferencias relativas entre las
observaciones vienen representadas por las diferencias entre las yi. En este
caso el conjunto original de datos multivariantes no contiene más información
acerca de las diferencias entre las observaciones y la que está disponible a
partir de Y. Esto únicamente ocurre cuando las variables x1..xp están
perfectamente correladas, esto es, que la correlación entre xj y xk sea 1 o -1
para cada par de variables.

 Estandarización

Cuando el porcentaje de varianza explicada se aproxima a un 100%, la variable


nueva Y, representa en un principio una buena aproximación del conjunto de
79
Master Universitario en Estadística Aplicada
Universidad Nacional de Educación a Distancia

datos multivariantes. Sin embargo, el porcentaje de varianza explicada a veces


da una idea equivocada; el porcentaje puede estar cercano a 100%, aunque la
aproximación refleje pocas o quizás solo un mínimo conjunto del conjunto total
de variables.

Cuando una variable es estandarizada, se transforma de tal forma que su


media sea cero y la varianza de la variable sea uno. Así, si se parte de un
conjunto de variables estandarizadas, todas tendrán varianza uno, y además la
matriz de covarianzas será similar que la matriz de correlación de las variables
no estandarizadas.

 Aproximaciones en dimensiones mayores

Hasta ahora se ha buscado una aproximación unidimensional de un conjunto


de datos multivariante. El problema es que a veces este componente, no refleja
bien nuestros datos originales y se perderá mucha información. Por eso, a
veces resulta necesario e imprescindible apoyarnos en otro segundo
componente, e incluso calcular más de dos.

Se analiza en primer lugar como se pueden elaborar estos componentes, y


después se estudian una serie de técnicas para elegir cuantos componentes se
quieren incluir.

 Un segundo componente principal

En algunas ocasiones el primer componente explicará la mayoría de la


variabilidad de la varianza total, indicando que la mayoría de la variabilidad de
los datos había sido capturada. Sin embargo, esto no siempre es así; se
encontrarán casos en los que el primer componente apenas capturará un 54%
de la variabilidad de los datos. En estos casos se deberá incluir un segundo
componente o incluso más componentes. Estos componentes se obtendrán de
tal forma que capturen el mayor porcentaje de varianza restante. El tener más
componentes principales tiene algunas ventajas como la posibilidad de poder
hacer diagramas de dispersión, y así observar gráficamente el resultado.

Anteriormente se ha denominado al componente principal con la letra Y, y las


cargas o puntuaciones (coeficientes) de las variables con alfas. Se introduce el
subíndice i para distinguir entre todos los componentes principales. Así el
principal componente se denotará con Y1 y sus cargas como α1 . En el caso del
segundo componente principal este se representará como Y2 y sus cargas
como α 2 .

El segundo componente denotado por Y2 se define de una manera similar a Y1,


para datos no estandarizados x1…xp será de la forma siguiente:

80
Master Universitario en Estadística Aplicada
Universidad Nacional de Educación a Distancia

p
Y2 == ∑ α 2 j ( X j − X j )
J =1

Para los datos estandarizados la expresión anterior queda reducida a:


p
Y2 == ∑ α 2 j Z j
J =1

α ,...,
En ambos casos los coeficientes α
21 2p son constanes,
p
α 2 =1
tales que ∑ 2j
j=1

Para seleccionar cuales serán los coeficientes de las expresiones anteriores


se impone que este nuevo componente Y2, explique la variabilidad que no
captura la variable Y1. Una forma de conseguir esto, es intentar que la
combinación lineal Y1 e Y2 sean incorreladas. En otras palabras conseguir que
Corr(Y1,Y2) sea igual a cero.

Además Y2 debería capturar la variabilidad restante, es decir capturar el


máximo de la variabilidad que no captura Y1. Estas dos condiciones son las
que se impondrán para conseguir unas puntuaciones α 21 ,..., α 2 p que maximicen
la varianza sujeto a que su suma al cuadrado sea 1.

 Aproximaciones con más de dos combinaciones lineales

Limitar los datos a dos componentes puede conllevar la pérdida de mucha


información. Esta controversia queda resuelta con el aumento del número de
componentes incluidos en el modelo. Los nuevos componentes también
tendrán como objetivo principal capturar la mayor parte de la varianza restante
sin explicar, sin olvidarse de que deben ser incorrelados con los anteriores
componentes y sus coeficientes al cuadrado deben sumar 1.

Componente siguiente : Yk == ∑α
J =1
kj (X j − X j )

Y para los datos estandarizados: Y2 == ∑ α kj Z j


J =1
p

En ambos casos los coeficientes α k1 ,..., α kp son constantes tal que ∑α


j=1
2
kj =1

Tal y como se describió con el segundo componente principal, el componente


k-ésimo yk captura información de los datos originales, siendo incorrelado con
81
Master Universitario en Estadística Aplicada
Universidad Nacional de Educación a Distancia

los demás. Esto se realiza asegurándose de que la correlación con los


componentes anteriores es igual a 0.

Así los coeficientes del componente k están elegidos de tal forma que
maximizan la varianza sujetos a la condición de que suman 1 y de estar
incorrelados con los coeficientes de los componentes anteriores.

 Número máximo de componentes

El número máximo de componentes principales que se recomienda utilizar para


aproximar un conjunto de datos, es la dimensión del conjunto de datos original.
Por ejemplo, un conjunto bivariante de datos puede ser representado por un
máximo de dos componentes principales y uno de tres variables por tres
componentes principales.

Cuando el número de componentes principales es igual a la dimensión del


conjunto de datos (p), los componentes entonces representan todos los datos
originales, y por lo tanto el valor del PVE es un 100%.

Sin embargo esto no es un buen método, ya que uno de los objetivos


principales del método de análisis de las componentes principales es reducir el
número de variables a estudiar.

Existen muchas técnicas para decidir el número de componentes a estudiar.


Estas son las más relevantes:

• La aproximación pragmática
• Cortes numéricos
• Método gráfico
.

 La aproximación pragmática

A veces se conoce de antemano el número de componentes a utilizar. Este


método se basa en la cantidad de variabilidad capturada por los datos. Si el
porcentaje de varianza explicado (PVE) por el número de componentes que se
había fijado es alto, entonces se ha decidido correctamente el número final de
componentes principales.

82
Master Universitario en Estadística Aplicada
Universidad Nacional de Educación a Distancia

 Cortes numéricos

En lugar de fijar el número de componentes como un primer paso, lo que se


realiza es fijar un mínimo de porcentaje de acumulación de varianza total
explicada. Por ejemplo, podría fijarse que debe explicarse un total de al menos
un 90% de la variabilidad de los datos. Esto puede tener como consecuencia
que sea necesario la selección de un número elevado de componentes si cada
uno por separado no explica una gran cantidad de la variabilidad de los datos.

Una alternativa a este método consiste en imponer que cada componente deba
explicar al menos un mínimo de la variabilidad y desechar aquellos que no
llegan a este mínimo. Normalmente si se usa este método el mínimo a explicar
se fija en alguno de estos casos:

• El mínimo de las varianzas de las variables del estudio.


• El máximo de las varianzas de las variables del estudio.
• El valor de la semisuma del máximo y el mínimo.
• El valor de la media de todas las varianzas

Si los datos están estandarizados todos los métodos coinciden.

Este método se califica como el criterio de Kaiser, ya que fue él quien lo sugirió
por primera vez.

 Método gráfico

Existe una corriente teórica sobre el análisis de los datos multivariantes que
sostiene que la mejor estructura está en una dimensión baja, es decir con la
inclusión de pocas componentes en el resultado final. Las dimensiones “extras”
solo aportan ruido. Por lo tanto se asume que los componentes relevantes son
aquellos que contribuyen explicando una gran cantidad de varianza. Este
problema queda delimitado a encontrar el punto en el que las dimensiones
“extra” solo aportan ruido

No sé recomienda identificar este punto numéricamente, ya que este


procedimiento suele conducir a errores. La decisión final se toma apoyándose
en un gráfico, como se estudiará posteriormente.

5.3. Análisis factorial

5.3.1 Conceptos previos

El análisis factorial proporciona la estructura interna de un conjunto de


variables, creando una estructura más simple, con menos dimensiones y que
83
Master Universitario en Estadística Aplicada
Universidad Nacional de Educación a Distancia

proporcione la misma información que el conjunto original. Además simplifica


de tal modo el conjunto de variables que elimina aquellas que sean
redundantes y no aporten mucha información.

Para realizar un análisis factorial es imprescindible que se verifiquen una serie


de condiciones que se exponen a continuación:

1) La selección de variables debe formar un conjunto correlacionado.


2) Las variables deben estar en escala métrica.
3) Han de considerarse un mínimo de 100 casos.

5.3.2. Etapas de un análisis factorial

Las etapas de un análisis factorial son las siguientes:

1) Calcular la matriz de correlaciones entre todas las variables (conocida


habitualmente como matriz R).
2) Extracción de los factores necesarios para representar los datos.
Análisis de la matriz de cargas.
3) Rotación de los factores con objeto de facilitar la interpretación.
Representación gráfica.
4) Calcular las puntuaciones factoriales de cada individuo.

 Matriz de correlaciones

El primer paso en el Análisis Factorial es calcular la matriz de correlaciones


entre todas las variables que entran en el análisis. Una vez que se dispone de
esta matriz se examina para comprobar si cumple las condiciones para aplicar
esta técnica es decir que las variables estén altamente correlacionadas.
También se recomienda la presencia de datos heterogéneos, ya que si son
homogéneos no tiene ningún sentido estudiarlos, al contener poca información.

 Extracción factores

La extracción implica decidir el método que se utiliza. En este sentido, existen


tres principalmente:

1) Factorial por componentes principales


2) Factorial Común
3) Criterios de información

84
Master Universitario en Estadística Aplicada
Universidad Nacional de Educación a Distancia

El primero de ellos explora toda la varianza de cada una de las variables,


estudiando lo que es común a otras y lo que no. Esta es la mejor opción
cuando se busca una reducción de datos.

El método factorial común solo explora de cada variable la varianza común al


resto de las variables y se recomienda en conjuntos de datos en los que se
quiere reducir la dimensión.

El tercero método, engloba a su vez muchos otros métodos. Se trata de fijar un


criterio a priori y luego captar una cantidad razonable de información. Los
criterios más comunes son: por el valor autovalores, utilidad práctica…

 Rotacion factores

La matriz de cargas relaciona factores y variables para aproximarnos a su


significado. Existen dos tipos de rotaciones fundamentales para extraer los
resultados que son la rotación ortogonal y las rotaciones oblicuas.

 Puntuaciones de factores

Finalmente, se realiza un análisis de las puntuaciones de los factores y en


función de sus coeficientes se valora el peso que cada uno adquiere,
considerando más importantes aquellas variables con mayor puntuación en el
factor.

5.4. Caso práctico

En los años 1900 un investigador interesado en la teoría de las matemáticas,


estudió la habilidad de los varones en esta ciencia en un colegio público. Los
niños realizaron tres exámenes en tres ramas de las matemáticas distintas: uno
que se basaba en geometría, otro en aritmética y el último en álgebra.

Para puntuar los exámenes, el investigador se basó en el procedimiento


intelectual que cada alumno usó para responder las preguntas. Así se obtuvo
una calificación para 83 alumnos entre 13 y 18 años.

Los datos que se manejan en este estudio están compuestos por 5 variables.
La variable hombre identifica al sujeto del que se extraen los datos, la variable
edad, representa la edad de cada sujeto y finalmente, las calificaciones
correspondientes a las tres ramas matemáticas.

En primer lugar se obtiene la matriz de covarianzas y la matriz de correlaciones


para la habilidad matemática. Para la obtención de la matriz de correlaciones
con respecto a las tres calificaciones se procede de la siguiente forma:

85
Master Universitario en Estadística Aplicada
Universidad Nacional de Educación a Distancia

Se selecciona la opción bivariadas del menú correlaciones del menú analizar y


en el cuadro de diálogo correspondiente se introducen las variables edad,
geometría, aritmética y algebra.

Antes de Aceptar el cuadro de diálogo obtenido, se debe comprobar que las


siguientes opciones están seleccionadas:

• Coeficiente de Pearson,
• Test bilateral
• Correlaciones significativas

Se selecciona el coeficiente de Pearson, ya que todas las variables son


continuas. El test es bilateral, ya que no tenemos más información previa que
la expuesta más arriba. Finalmente se selecciona la opción de correlaciones
significativas, para que el programa marque aquellas cuyo resultado sea
significativo.

86
Master Universitario en Estadística Aplicada
Universidad Nacional de Educación a Distancia

El resultado obtenido es el siguiente:

Correlaciones

edad geometria aritmetica algebra

edad Correlación de Pearson 1 ,099 ,002 ,169

Sig. (bilateral) ,371 ,988 ,128

N 83 83 83 83
** **
geometria Correlación de Pearson ,099 1 ,540 ,548

Sig. (bilateral) ,371 ,000 ,000

N 83 83 83 83
** **
aritmetica Correlación de Pearson ,002 ,540 1 ,668

Sig. (bilateral) ,988 ,000 ,000

N 83 83 83 83
** **
algebra Correlación de Pearson ,169 ,548 ,668 1

Sig. (bilateral) ,128 ,000 ,000

N 83 83 83 83

**. La correlación es significativa al nivel 0,01 (bilateral).

La tabla muestra el coeficiente de Pearson para cada par de variables


seleccionadas. Además el programa SPSS realiza un test de hipótesis bilateral
de los coeficientes, considerando como hipótesis nula que el valor de la
correlación es cero, y distingue aquellos resultados significativos mediante dos
asteriscos. En la última fila de cada celda se encuentra el valor correspondiente
al número de datos con los que se han realizado estos cálculos.

En el ejemplo, el coeficiente de correlación entre geometría y álgebra esde


0,548 y el p-valor correspondiente al test previamente explicado, obtuvo un
valor de 0,000, es decir un p-valor menor de 0,0005. Este coeficiente
significativo es bastante alto y se puede afirmar que existe una tendencia
directa entre las dos variables (al aumentar una aumenta la otra). El programa
SPSS marca aquellas correlaciones en las que el p-valor es menor que 0,01. El
p-valor no se calcula en los casos en los que se realiza el coeficiente de
correlación entre una variable y ella misma.

A continuación se obtiene la matriz de covarianzas. EL procedimiento es el


siguiente:

87
Master Universitario en Estadística Aplicada
Universidad Nacional de Educación a Distancia

Se obtiene el cuadro de diálogo de Correlaciones bivariadas tal y como se


explicó anteriormente y se pulsa el botón de Opciones. A continuación se
selecciona la opción “productos cruzados diferenciales y covarianzas” en el
área reservada a estadísticos. Finalmente se pulsa continuar y se Acepta en el
cuadro de diálogo anterior.

La tabla obtenida contiene tanto los parámetros de la anterior tabla (coeficiente


de correlación, test del coeficiente y número de datos total de la muestra)
además de incluir en cada celda un dato nuevo que expresa la covarianza
entre las dos variables correspondientes.

Como el coeficiente de correlación y el de covarianza no coinciden, se afirma


que los datos no están estandarizados.

88
Master Universitario en Estadística Aplicada
Universidad Nacional de Educación a Distancia

Correlaciones

edad geometria aritmetica algebra

edad Correlación de Pearson 1 ,099 ,002 ,169

Sig. (bilateral) ,371 ,988 ,128

Suma de cuadrados y 119,400 248,487 4,041 394,616


productos cruzados

Covarianza 1,456 3,030 ,049 4,812

N 83 83 83 83
** **
geometria Correlación de Pearson ,099 1 ,540 ,548

Sig. (bilateral) ,371 ,000 ,000

Suma de cuadrados y 248,487 52282,916 27114,651 26839,060


productos cruzados

Covarianza 3,030 637,597 330,666 327,306

N 83 83 83 83
** **
aritmetica Correlación de Pearson ,002 ,540 1 ,668

Sig. (bilateral) ,988 ,000 ,000

Suma de cuadrados y 4,041 27114,651 48292,410 31468,964


productos cruzados

Covarianza ,049 330,666 588,932 383,768

N 83 83 83 83
** **
algebra Correlación de Pearson ,169 ,548 ,668 1

Sig. (bilateral) ,128 ,000 ,000

Suma de cuadrados y 394,616 26839,060 31468,964 45896,386


productos cruzados

Covarianza 4,812 327,306 383,768 559,712

N 83 83 83 83

**. La correlación es significativa al nivel 0,01 (bilateral).

En el ejemplo, la covarianza de geometría vs geometría es de 637,597.

El siguiente paso consistirá en extraer los componentes principales de estos


datos. Por defecto el programa estandariza las variables al realizar un Análisis
de componentes principales.
89
Master Universitario en Estadística Aplicada
Universidad Nacional de Educación a Distancia

Se realiza el Análisis de los componentes principales de la forma siguiente:

1) Seleccionar la opción Factor del menú de reducción de datos situado en el


menú de analizar.

Introducir las variables que quieren analizarse en la opción Variables del


cuadro de diálogo obtenido. En este caso se introducen las siguientes:

• Edad
• Aritmética
• Geometría
• Álgebra.

90
Master Universitario en Estadística Aplicada
Universidad Nacional de Educación a Distancia

Finalmente se pulsa Aceptar en el cuadro de diálogo.

Se obtienen un total de tres tablas, la primera de ellas, correspondiente a las


Comunalidades. En esta tabla se comprueba que efectivamente el Análisis de
los Componentes Principales se ha realizado sobre las variables
estandarizadas, ya que en la columna de Inicial se representan los valores de
la varianza inicial, que en este caso corresponden a uno.

La segunda columna corresponde a la cantidad de variabilidad explicada de


cada una de estas variables por le modelo que se expone a continuación.

Comunalidades

Inicial Extracción

edad 1,000 ,990

geometria 1,000 ,653

aritmetica 1,000 ,779

algebra 1,000 ,772

Método de extracción: Análisis de


Componentes principales.

La siguiente tabla está compuesta por dos partes fundamentales; una de


“Autovalores iniciales” y otra de “Sumas de las saturaciones al cuadrado de la
extracción”. Las cuatro filas existentes, representan los cuatro componentes
principales extraídos de los datos. En la primera columna se encuentra la
magnitud de la varianza del componente de la fila correspondiente. Por
ejemplo, la varianza del primer componente es 2,193 y la del segundo
componente es de 1,001.

Nótese que la suma de los valores de esta primera columna es cuatro tal y
como se esperaba, ya que se manejan un total de 4 variables que al estar
estandarizadas la sumas de sus varianzas es esa cantidad.

2,193+1,001+0,495+0,311=4,00

Las columbras restantes, exponen el porcentaje de la varianza explicada por


cada componente principal y la cantidad de varianza acumulada explicada
respectivamente. Este último valor corresponde a la suma del porcentaje de la
varianza explicada por el componente correspondiente y todos los anteriores.
Así en el caso del tercer componente el total de varianza acumulada explicada
correspondería a la suma de 54,827+25,019+12,379=92,224.

91
Master Universitario en Estadística Aplicada
Universidad Nacional de Educación a Distancia

Y si uno decidiera quedarse con los tres primeros componentes principales se


explicaría un 92,224% de toda la variabilidad de los datos.

La segunda parte de la tabla representa las “Sumas de las saturaciones al


cuadrado de la extracción”. Las entradas correspondientes a los dos primeros
componentes principales son las mismas que las que se encuentran en las
columnas correspondientes a “autovalores”, no así en el caso de los otros dos
componentes. La razón fundamental por la que esto es así es que según el
criterio utilizado (criterio de KAISER) no se han considerado relevantes las dos
últimas componentes.

Solo se han seleccionado, por tanto aquellos componentes con varianza mayor
que uno. El tercero por tanto queda desechado por tener una varianza de
0,495<1 y análogamente sucede con el último componente principal.

En este modelo, con las dos primeras componentes se explica un total del
79,845% de la variabilidad de los datos originales.

Varianza total explicada

Sumas de las saturaciones al cuadrado de la


Autovalores iniciales extracción

Compo % de la % de la
nente Total varianza % acumulado Total varianza % acumulado

1 2,193 54,827 54,827 2,193 54,827 54,827

2 1,001 25,019 79,845 1,001 25,019 79,845

3 ,495 12,379 92,224

4 ,311 7,776 100,000

Método de extracción: Análisis de Componentes principales.

En la última tabla se encuentran representadas las cargas o coeficientes


asociados a los dos componentes principales extraídos. La primera columna
determina las cargas asociadas al primer componente principal y la segunda
las correspondientes al segundo componente principal, como no se han
incluido más componentes principales, no hay más columnas.

SPSS es un programa que a diferencia de la mayoría, calcula las cargas de


una manera especial y además ordena las variables según su peso por ello ha
de tenerse cuidado con cómo se analizan.

92
Master Universitario en Estadística Aplicada
Universidad Nacional de Educación a Distancia

a
Matriz de componentes

Componente

1 2

edad ,192 ,976

geometria ,807 -,042

aritmetica ,857 -,212

algebra ,878 ,031

Método de extracción: Análisis de


componentes principales.

a. 2 componentes extraídos

La condición impuesta en los coeficientes del k componentes principales era:

∑α
j=1
2
kj =1

Sin embargo SPSS calcula los coeficientes de la forma siguiente. Impone que
la suma al cuadrado sea igual a la varianza en vez de igual a uno. Es decir

∑α
j=1
*2
kj = Y (Yk ) .

Si se quieren obtener los coeficientes tal y como se explicaron anteriormente


basta dividirlos con la raíz de la varianza de ese componente

α kj*
α kj =
V (Yk )

Entonces los coeficientes del primer componente principal vienen determinados


como sigue:

93
Master Universitario en Estadística Aplicada
Universidad Nacional de Educación a Distancia

 α* α12* α13* α14*   0,807 0,857 0,878 0,192 


(α11 , α12 , α13 , α14 ) =  11
, , , = , , , =
 V (Y ) V (Y ) V (Y )
 1 1 1 V (Y1 )   2,193 2,193 2,193 2,193 

= (0,545 , 0,579 , 0,593, 0,130)

Ya se ha analizado la extracción de los componentes principales.

Supóngase ahora que la calificación final de las tres áreas descritas


anteriormente proviene de otras que se midieron a priori. Por ejemplo el área
de geometría se compuso por cuatro competencias, la aritmética por tres y
finalmente el álgebra por dos. En la nueva base de datos se presentan todas
las variables anteriores y además las nuevas descritas y de las cuales se
obtuvieron las principales.

Se obtienen en primer lugar los componentes principales de las 9


competencias que forman las 3 áreas descritas y a continuación se obtiene la
gráfica de los componentes principales. Los pasos son los siguientes:

1) Obtener el cuadro de diálogo de análisis factorial


2) Pulsar reset para asegurarnos que el programa no toma como valores
iniciales los calculados en tareas anteriores
3) Introducir las variables A..I en el cuadro de dialogo en la zona de las
variables
4) Pulsar el botón de extracción y observar como se abre el cuadro de
diálogo de extracción
5) Seleccionar la opción de gráfico de sedimentación. No cambiar las
demás opciones

94
Master Universitario en Estadística Aplicada
Universidad Nacional de Educación a Distancia

6) aceptar ambos cuadros.

El gráfico de sedimentación es el siguiente. En el eje de la Y se observa la


palabra “autovalores”; este es un término que usa SPSS para describir la
varianza de un componente principal.

En el gráfico se observa que la varianza disminuye considerablemente entre el


componente uno y dos. Después, empieza a decaer de manera más suavizada.
En la segunda componente se observa que hay un codo. Esto nos determinará
que dos es el número de componentes principales a tener en cuenta.

Ya se estudio la interpretación de los principales componentes cuando los


datos se encuentran estandarizados. Se obtiene los coeficientes de los tres
primeros componentes. Para realizar esto se procede de la forma siguiente:

1) Se obtiene el cuadro de diálogo de Factor análisis.


2) Se incluyen las variables de A hasta I en el área de Variables
3) Se pulsa extracción y se obtiene un nuevo cuadro de diálogo.
4) Se deselecciona el gráfico de sedimentación que estará marcado por el
ejercicio anterior y en el área de extracción se cambia el valor a tres,
pues queremos extraer tres componentes principales y sino solo
obtendremos dos.

95
Master Universitario en Estadística Aplicada
Universidad Nacional de Educación a Distancia

Como la dimensión de los datos es nueve, se podían haber seleccionado hasta


9 componentes principales para extraer.

Si se seleccionan más de 9 SPSS no tiene en cuenta este número y aplica el


criterio de KAISER.

Finalmente se acepta el último cuadro de diálogo.

Se obtienen tres tablas:

• tabla de comunalidades
• tabla de la varianza total explicada
• tabla con la matriz de los componentes

En la primera de ellas, la tabla de las comunalidades, se obtienen las 9


variables con su varianza y la variabilidad explicada de cada una de ellas. En
la segunda tabla, la correspondiente a la varianza total explicada, se observa
como esta vez sí se han incluido tres componentes principales, y hay tres filas
rellenas en las columnas correspondientes a “Sumas de las saturaciones al
cuadrado de la extracción”.

Con este modelo se explica un total de un 82,764% de la variabilidad de los


datos. Finalmente la tercera tabla expone las cargas o coeficientes de los tres
componentes.

Estos son los siguientes:

96
Master Universitario en Estadística Aplicada
Universidad Nacional de Educación a Distancia

a
Matriz de componentes

Componente

1 2 3

A ,811 ,416 ,017

B ,514 ,694 -,005

C ,864 ,376 -,006

D ,728 ,271 ,191

E ,785 -,399 ,334

F ,778 -,358 ,332

G ,754 -,310 ,208

H ,806 -,247 -,489

I ,758 -,253 -,564

Método de extracción: Análisis de


componentes principales.

a. 3 componentes extraídos

Las cargas del tercer componente son pequeñas en valor absoluto para las
variables A, B, C y D que corresponden a la habilidad geométrica. Los
coeficientes de E, F y G correspondientes a la habilidad aritmética son
positivas, y aquellas correspondientes a la habilidad aritmética son negativas,
Por lo tanto se concluye que la tercera componente principal contrasta la
habilidad algebraica y la habilidad aritmética.

 Extracción de los componentes principales

A continuación se usa el programa SPSS para extraer los tres componentes


principales, que se guardarán y finalmente se representarán gráficamente.

Se obtiene el cuadro de diálogo de análisis Factorial como ya se ha descrito y


se pulsa la opción puntuaciones. Se obtiene como resultado un nuevo cuadro
de diálogo denominado “Factor Análisis: Puntuaciones factoriales” y se
selecciona la opción guardar como variables.

A continuación se activa la opción correspondiente a “método”. Debido a que


para el análisis de componentes principales resulta irrelevante que método se
aplique, no modificaremos nada, dejando las que el programa tiene
seleccionadas por defecto.
97
Master Universitario en Estadística Aplicada
Universidad Nacional de Educación a Distancia

Finalmente, se pulsa Continuar en este cuadro de diálogo y se Acepta el


cuadro de diálogo de Análisis Factorial.

Como resultados se obtienen las tres tablas anteriores ya conocidas. Sin


embargo si se observa la ventana de los datos se comprueba que se han
incluido tres nuevas variables. Estas tres variables corresponden a los tres
componentes principales y se han creado bajo los nombres:

-FAC1_1 correspondiente al primer componen principal.


-FAC2_2 correspondiente al segundo componente principal.
-FAC3_3 correspondinete al tercer componente principal.

Se recomienda en este paso cambiar los nombres de las variables a pc1, pc2 y
pc3 además de cambiar los decimales de cinco a dos para facilitar los cálculos
posteriores.

Finalmente se obtiene la matriz de dispersión para estas tres variables;PC1,


Pc2 y Pc3.

98
Master Universitario en Estadística Aplicada
Universidad Nacional de Educación a Distancia

Esta matriz explica casi el 83% de toda la varianza presente en los datos
originales de dimensión 9 .En estos nuevos gráficos es mucho más fácil
encontrar valores anómalos que en las diez variables originales de las que se
había partido.

Como los dos primeros componentes eran los que más variabilidad de los
datos explicaban, se recomienda fijarse especialmente en este diagrama de
dispersión, pues de los anteriores es el que más variabilidad explica de los
datos.

99
Master Universitario en Estadística Aplicada
Universidad Nacional de Educación a Distancia

100
Master Universitario en Estadística Aplicada
Universidad Nacional de Educación a Distancia

6. ANÁLISIS DE CLÚSTER O CONGLOMERADOS

6.1. Conceptos teóricos

Cuando se esté frente a la situación en que se tiene un conjunto de datos


multivariantes y se desee formar grupos en función del valor de una variable
en estos conjuntos, entonces se usará el análisis de conglomerados, o clusters
en inglés. Estos grupos se determinarán o bien debido a una característica que
los identifique o con un significado determinado. En la mayoría de estos casos,
esta técnica solo será un apoyo previo al tratamiento de los datos para lograr
una compresión mejor de ellos.

El análisis clúster tiene mucha importancia en algunas disciplinas como pueden


ser la psicología y otras ciencias sociales como la biología, la medicina, el
medio ambiente, la informática o el data mining. Pueden utilizarse para
aplicaciones como reconocimiento de formas, mapas temáticos (GIS),
segmentación de clientes, clasificación de documentos, etc. También tienen
aplicaciones muy interesantes en Data Mining como son la exploración de
datos para la segmentación y búsqueda de outliers o valores anómalos y puede
usarse en la etapa del preprocesamiento de los datos con el objetivo de la
reducción de los datos.

Esta técnica multivariante permite agrupar conjuntos de datos


multidimensionales logrando la máxima homogeneidad en cada grupo y las
mayores diferencias entre los grupos. A mayor similaridad entre los elementos
del clúster y mayor diferencia entre los elementos de conglomerados distintos,
mayor será la separación que se encontrará entre distintos conglomerados. En
muchas ocasiones los conglomerados no estarán bien definidos. El análisis de
conglomerados también permite agrupar variables, no solo objetos, y puede
realizarse tanto para variables cuantitativas como cualitativas.

Para lograr este objetivo, se usan principalmente algoritmos jerárquicos


acumulativos que no asumen ningún modelo estadístico para los datos, es
decir empiezan sin ninguna hipótesis y a posteriori van formando grupos de
conglomerados cada vez más grandes. Existen otros tipos de algoritmos para
conseguir la agrupación de los grupos, en los que se asume un modelo
definido para los datos.

En el caso de los modelos jerárquicos los datos se ordenan en niveles de tal


manera que los niveles superiores contienen a los niveles inferiores. La
jerarquía construida permite también la obtención de grupos.

El análisis conglomerado se representa mediante los dendogramas. Estos son


representaciones gráficas en forma de árbol que resumen el proceso de
agrupación en un análisis de conglomerados. Los objetos similares se conectan
mediante enlaces cuya posición en el diagrama está determinada por el nivel
102
Master Universitario en Estadística Aplicada
Universidad Nacional de Educación a Distancia

de similitud/disimilitud entre los objetos. Este tipo de gráficos favorece la


compresión del análisis.

Estos análisis suelen combinarse con otras técnicas que se estudian a


posteriori, que homogeneizan los datos, como etapa previa a la utilización de
esta técnica.

6.2. Distancia y similaridad

Existen muchas medidas definidas para medir las similitudes y diferencia entre
los conglomerados o grupos formados. Las más relevantes son las siguientes:

• Euclidea
• Manhattan
• Distancia de Power
• D2 de Mahalanobis

 Euclidea

La distancia Euclídea (para "t" variables) se define de la forma siguiente:

t
dij = ∑(X
k =1
ik − X jk ) 2

Esta distancia presenta dos inconvenientes:

1) Es una distancia sensible a las unidades de medida de las variables.


Aquellas variables con valores altos contribuirán en mayor medida que las
diferencias entre los valores de las variables con valores bajos. Como
consecuencia de ello, los cambios de escala determinarán, también, cambios
en la distancia entre los individuos. Una posible solución de este problema es la
tipificación previa de las variables, o la utilización de la distancia euclídea
normalizada.

2) El segundo inconveniente no se deriva directamente de la utilización de este


tipo de distancia, sino de la naturaleza de las variables. Si las variables
utilizadas están correlacionadas, estas variables nos darán una información, en
gran medida redundante. Parte de las diferencias entre los valores individuales
de algunas variables podrían explicarse por las diferencias en otras variables.
Como consecuencia de ello la distancia euclídea inflará la disimilaridad o
divergencia entre los individuos.

103
Master Universitario en Estadística Aplicada
Universidad Nacional de Educación a Distancia

 Distancia de Manhattan

La distancia de Manhattan (o función de la distancia absoluta, o City-Block)


viene expresada como:
t
d ij = ∑ X ik − X jk
k =1

Tiene como gran inconveniente que no es recomendable su uso cuando existe


una gran colinealidad en los datos. En SPSS esta medida aparece con el
nombre de Block.

 Distancia de Power

La distancia de Power en SPSS aparece como ”distancia Power”. Su variante


más clásica es la de Minkowski que ocurre cuando (s=r).
1
 t s
dij =  ∑ (X ik − X jk ) 
r

 k =1 

Y en particular la de Minkowski:
1
 t 
( )
r
d ij =  ∑ X ik − X jk 
r

 k =1 

 Distancia de Mahalanobis

Sean Xi y Xj matrices fila de dimensiones (1 x p) de observaciones para cada


sujeto y Σ la matriz de varianzas - covarianzas de las variables consideradas,
entonces se define la distancia D2 de Mahalanobis de la forma siguiente:

(
d ij = X i − X j )′ ∑ (X −1
i −Xj )
Esta distancia tiene dos ventajas con respecto a las demás:

1. Suaviza el problema de la diferencia de unidades en la medida en que cada


variable que se introduce en el cálculo de la distancia es corregida por su
variabilidad (función del tamaño).

2. Elimina la información que es redundante. Esta sería la distancia que mejor


funciona cuando se presenta un problema de elevada multicolinealidad.

104
Master Universitario en Estadística Aplicada
Universidad Nacional de Educación a Distancia

 Distancia de Correlación

Esta distancia se basa en la correlación existente entre individuos y por tanto


se trata de calcular el coeficiente de correlación entre los objetos. Cuando esta
es alta hay más parecido entre los sujetos y viceversa.

Los principales inconvenientes de esta distancia es que solo se puede calcular


en escalas métricas.

Existen muchas otras medidas de distancia o similitud cuando la variable es


cualitativa que se muestran en el ejemplo siguiente.

La distribución de la muestra es la siguiente:

VARIABLE
INDIVIDUO A B C D E
I 1 0 0 1 1
J 1 1 0 1 1
K 0 1 1 0 1

Además:

(a) si los individuos I y J tienen la variable,


(b) si el individuo I tiene la variable y J no,
(c) el individuo J tiene la variable e I no,
(d) los individuos I y J no tienen la variable y p = a + b + c + d

Entonces se definen las siguientes medidas:

• SEMEJANZA SIMPLE: (a+d) /p


• JACARD: a / (a+b+c)
• RUSSELL Y KAO: a/p

6.3. Procedimientos

Existen diversos algoritmos para componer los distintos conglomerados. El


algoritmo ideal tendrá las siguientes propiedades:

• Buenos resultados para distintos tipos de datos.


• Identificación de conglomerados con formas arbitrarias.
• Tolerancia frente al ruido y a los outliers.

105
Master Universitario en Estadística Aplicada
Universidad Nacional de Educación a Distancia

• Independencia con respecto al orden de presentación de los datos.


• Posibilidad de trabajar en espacios con muchas dimensiones diferentes
• Capacidad de incorporar restricciones especificadas por el usuario
• Facilidad de Interpretabilidad y de Usabilidad

Sin embargo, es muy complicado encontrar un algoritmo concreto que cumpla


las propiedades descritas previamente. Entre los tipos de algoritmos que
existen, estos son los más importantes:

• Algoritmos secuenciales
• Algoritmos jerárquicos
• Algoritmos de optimización de una función coste.
• Otros tipos de algoritmos

 Algoritmos secuenciales

En este tipo de algoritmo se define en primer lugar una medida de


dissimilaridad y un threshold (“umbral”) de disimilitud θ. Se considera que la
primera observación forma por si sola un clúster y luego se estudia una
segunda observación. Se calcula la distancia de similaridad de esta
observación con respecto al clúster inicial. Si excede a θ entonces se crea un
segundo clúster, de lo contrario pasa a formar parte del primer clúster.

A continuación se siguen considerando una por una las restantes


observaciones y en cada paso o se crea un nuevo clúster o se asigna la
observación a un clúster ya existente, dependiendo del valor de la distancia de
disimilaridad. En estos algoritmos no se requiere proporcionar el número de
conglomerados a formar pero estos sí que están afectados por el orden en que
entran las observaciones. El método es especialmente sensible al valor del
threshold θ.

El dendograma que describe el proceso es similar al siguiente:

p1 p2 p3 p4

106
Master Universitario en Estadística Aplicada
Universidad Nacional de Educación a Distancia

En el dendograma se observa que ambos “brazos” están a la misma altura, a


diferencia de lo que ocurrirá en el algoritmo jerárquico. Dependiendo de en qué
etapa detenga el proceso, obtendremos un número distinto final de
conglomerados. Para conocer cuántos conglomerados se tienen, el
dendograma suele representarse junto a una escala de tiempo o etapas del
procedimiento. Seleccionado en qué momento se está, se trazaría una recta
horizontal y en el momento ti y se observaría cuantos clusters hay en ese
momento.

 Algoritmos jerárquicos.

Se pueden definir dos tipos distintos según vaya aumentando o disminuyendo


el número de conglomerados. Son los siguientes:

• Algoritmos jerárquicos aglomerativos.


• Algoritmos jerárquicos divisivos.

A) Algoritmos jerárquicos aglomerativos:

Este tipo de algoritmos producen una sucesión de conglomerados de tal


manera que en cada paso el número de conglomerados va disminuyendo. Son
algoritmos del tipo “botton-up”. Inicialmente se empieza con conglomerados
que consisten de un solo elemento. Los conglomerados de un paso dado son
obtenidos al combinar dos conglomerados del paso anterior.

Los criterios más usados para unir los distintos conglomerados son los
siguientes:

• Método de las distancias mínimas (basado single link): Se busca la


mayor semejanza entre los elementos o grupos más cercanos.

• Método de las distancias máximas (basado en complete link):Sse calcula


la mínima distancia entre los elementos más alejados.

• Método de las distancias medias: Se calcula la media de las distancias


entre elementos

• Método de Ward: Los nuevos conglomerados se crean de tal manera de


que se minimice la suma de cuadrados total de las distancias dentro de
cada cluster.

Todos estos criterios usan una medida de disimilitud entre vectores. Los
algoritmos jerárquicos aglomerativos son los más usados para construir
conglomerados y están disponibles en la mayoría de los programas

107
Master Universitario en Estadística Aplicada
Universidad Nacional de Educación a Distancia

estadísticos. También son los más rápidos computacionalmente, ya que utilizan


menos espacio y memoria del ordenador.

El dendograma que describe estos procesos es similar al siguiente:

p1 p2 p3 p4

B) Algoritmos jerárquicos divisivos:

Este tipo de algoritmos también producen una sucesión de conglomerados pero


a diferencia de los aglomerativos donde el número iba decreciendo, aquí el
número de conglomerados crece en cada paso. Son algoritmos del tipo “top-
down”.

En estos algoritmos inicialmente se empieza con un solo conglomerado que


contiene a todas las observaciones y los conglomerados obtenidos en cada
iteración son la consecuencia de dividir en dos un conglomerado del paso
anterior. Este tipo de algoritmo suele tener una complejidad computacional
mayor que la anterior (tardan más y gastan más memoria).

Los principales algoritmos divisivos son los siguientes:

• Por cálculo iterativo de centros


• Monothetic
• IPolythetic

 Algoritmos basados en optimización de una función costo:

Estos algoritmos requieren la decisión previa del número de clústeres que se


desea obtener y además ha de haberse definido previamente una función
costo, donde a cada clúster se le asigna un costo que depende básicamente de
un representante del clúster y de una medida de disimilaridad que mide la
distancia entre los posibles elementos del clúster y su representante.

Existen muchas versiones de estos tipos de algoritmos. Mencionaremos


algunos de ellos.
108
Master Universitario en Estadística Aplicada
Universidad Nacional de Educación a Distancia

Algoritmos “hard” (duros).

Estos algoritmos consideran que una observación pertenece exclusivamente a


un clúster. Ejemplos de estos algoritmos es por ejemplo el algoritmo k-means,
conocido también con el nombre de C-Means o Isodata y que se estudiará más
adelante.

Algoritmos probabilisticos.

Este tipo de algoritmos siguen argumentos bayesianos de clasificación y una


observación es asignada a un conglomerado C, para la cual la probabilidad
posterior P(C/x) es máxima. Un ejemplo de estos algoritmos es el algoritmo de
mezclas.

Algoritmos difusos.

Se considera que una observación puede pertenece a un conglomerado, pero


solo con un porcentaje un ciento por ciento.

De todos estos tipo de algoritmos el más usado es el algoritmo k-means que


será explicado a continuación.

Algoritmo k-means (MacQueen, 1967).

El objetivo del algoritmo k-means es identificar grupos de casos relativamente


homogéneos basándose en las características seleccionadas y utilizando un
algoritmo que puede gestionar un gran número de casos. Podemos decir que
tiene una naturaleza particional, en el sentido que crea subparticiones de la
muestra con las que elabora los conglomerados. En un principio cada
conglomerado está enfocado a un punto al que se denomina centroide, y cada
punto se asignará al conglomerado con el centroide más cercano. El algoritmo
requiere que el usuario especifique previamente el número de conglomerados a
calcular y además permite especificar los centros iniciales de los
conglomerados si se conoce de antemano dicha información. Si no se conocen
los centroides lo más frecuente es tomar como punto inicial de los centroides
uno de los siguientes:

• Las primeras k observaciones.

109
Master Universitario en Estadística Aplicada
Universidad Nacional de Educación a Distancia

• Elegir aleatoriamente k observaciones.


• Tomar cualquier partición al azar en k conglomerados y calculando sus
centroides.

Los programas que usan este tipo de algoritmo en general permiten la elección
de uno de los dos métodos disponibles para clasificar los casos:

La actualización de los centros de los conglomerados de forma iterativa


La clasificación de los datos.

Asimismo, pueden guardar la pertenencia a los conglomerados, información de


la distancia y los centros de los conglomerados finales. La distancia que más
se utiliza cuando se usa este tipo de algoritmos es la euclidea, aunque se
permite la utilización de otras.

La siguiente expresión determina el error entre el centroide (mi) de cada


conglomerado y el punto en cuestión.
K
SSE = ∑ ∑ dist 2 (mi , x)
i =1 x∈Ci

El punto será asignado al conglomerado correspondiente al ci que proporcione


menos error. Por supuesto esta medida variará en función del número de
conglomerados de tal manera que cuanto más se introduzcan en el análisis, el
SSE global será más pequeño.

El algoritmo es el siguiente:

INPUT: Un conjunto de datos S y k número de clúster a formar;


OUTPUT: L una lista de los conglomerados en que caen las observaciones
de S

Paso 1. Seleccionar los centroides iniciales de los k conglomerados: c1,c2, ...,


ck.
Paso 2: Asignar cada observación x del conjunto de datos al clúster cuyo
centroide está más cerca a x.
Paso 3. Volver al paso 2 hasta que se consiga convergencia o hasta que se
cumpla un criterio de parada.
Paso 4. Recalcular los centroides de los nuevos conglomerados.

El algoritmo anterior se detiene o bien cuando se ha cumplido un criterio


previamente determinado, como puede ser por ejemplo un número máximo de
iteraciones. Otra de las razones por las que el algoritmo se detiene es porque
se consigue convergencia. La convergencia de alcanza cuando la solución
anterior y la nueva propuesta por el algoritmo difieren en una cantidad muy
pequeño.
110
Master Universitario en Estadística Aplicada
Universidad Nacional de Educación a Distancia

Algunas de las desventajas de utilizar este método es que puede dar


resultados erróneos en los siguientes casos:

• El tamaño de los clústeres no es el mismo


• Los conglomerados son de distinta densidad,
• Los conglomerados no tiene formas regulares
• Los datos presentan muchos outliers o valores anómalos

Un ejemplo de un caso en el que este algoritmo no produce un resultado


óptimo, es el siguiente:

A continuación se muestran los dos conglomerados antes de aplicar el


algoritmo de k-medias

Y este es el resultado después de ultilizar el algoritmo:

Tras aplicar el algoritmo se han obtenido dos nuevos conglomerados. Este


nuevo resultado no es óptimo, el resultado óptimo es el resultado del que se
ha partido antes de aplicar el algoritmo de las k-medias. Este es un ejemplo en
el que este algoritmo no proporciona el mejor resultado.

Una variante del algoritmo que permite arreglar los problemas mencionados
previamente es re-calcular el centroide de cada clúster, una vez que se le
111
Master Universitario en Estadística Aplicada
Universidad Nacional de Educación a Distancia

asignado un punto nuevo, en vez de recalcular el centroide al final. Este


algoritmo es más eficiente que el anterior, pero sin embargo es más costoso
computacionalmente tanto en memoria como en tiempo.

También se puede solicitar los estadísticos F de los análisis de varianza.


Aunque estos estadísticos son oportunistas (ya que el procedimiento trata de
formar grupos que de hecho difieran), el tamaño relativo de los estadísticos
proporciona información acerca de la contribución de cada variable a la
separación de los grupos.

4. Otros Métodos:

Otros métodos son los siguientes:

• Métodos “Branch and Bound.”


• Algoritmos Genéticos
• Simulated annealing (recocido simulado)
• Algoritmos de aprendizaje competitivo: SOM

6.4. Etapas

Las etapas de un análisis clúster son las siguientes:

1) Selección de la muestra de datos.


2) Selección y transformación de variables a utilizar.
3) Selección de concepto de distancia o similitud y medición de las mismas.
4) Selección y aplicación del criterio de agrupación .
5) Determinación de la estructura correcta (elección del número de grupos).
6) Validación de los resultados.

1) Selección de los datos

Durante la etapa de selección de los datos y por lo tanto de la muestra a utilizar


es muy importante adecuar al máximo la muestra al objetivo que se persigue y
además es recomendable una depuración previa de datos atípicos, ya que nos
interesan los grupos, no los datos como elementos individuales.

2) Selección y transformación de variables a utilizar

Estas técnicas son muy sensibles a la inclusión de variables. Por lo tanto es


recomendable no incluir en el análisis ninguna variable irrelevante, ya que esto
112
Master Universitario en Estadística Aplicada
Universidad Nacional de Educación a Distancia

modifica los resultados y además aumenta la probabilidad de obtener datos


atípicos.

En algunos casos se recomienda una previa transformación de los datos. La


trasformación de los datos afectará en mayor o menor medida a la definición de
distancia utilizada. Una solución, sobre todo de cara a interpretar el resultado
final de un análisis puede ser el de previamente estandarizar las variables, pero
no se recomienda realizarlo en el caso de que las diferencias de medidas
reflejen alguna cualidad de interés conceptual. En otras ocasiones, será
recomendable la utilización de técnicas de agrupación de variables como fase
previa, a realizar el análisis clúster.

3) Medidas

El tercer paso consiste en definir las medidas de similitud o distancia que se


utilizará. Pueden ser medidas de correlación o de distancia. Algunas de estas
medidas ya se han descrito en un punto anterior. El resultado final del
conglomerado depende radicalmente de la medida de asociación utilizada. Se
recomienda, en cada contexto, observar empíricamente esas diferencias. Y
comparar el resultado obtenido al menos al utilizar dos de ellas.

4) Selección y aplicación del criterio de agrupación

Aunque en la práctica se recomienda utilizar todos los algoritmos disponibles,


ya que cada uno puede aportar información, esto no siempre es posible. Por
eso se recomiendan técnicas exploratorias para evaluar cual es el mejor en el
conjunto de datos a tratar.

5) Número óptimo de grupos

No existe ninguna fórmula exacta para determinar el número de clústeres


óptimos en un conjunto de datos. Sin embargo es cierto que a medida que se
van formando grupos, estos serán menos homogéneos aunque si que
proporcionarán una mayor claridad a la estructura final.

El objetivo debe ser conseguir un punto de equilibrio tal que los grupos sean lo
suficiente homogéneos y la estructura no resulte excesivamente complicada.

La decisión final vendrá influida tanto por variables iníciales, como por el
significado de cada una las etapas del proceso de agrupación.

6) Validación de los resultados

113
Master Universitario en Estadística Aplicada
Universidad Nacional de Educación a Distancia

Para evaluar los distintos métodos se proponen una serie de técnicas de


validación de los conglomerados:

1. Determinación de la tendencia de los clústeres en un conjunto de datos;


distinguir si existe una estructura no aleatoria en los datos.
2. Comparar los resultados obtenidos mediante esta técnica con resultados
reales.
3. Evaluar cuanto de bien los resultados de un análisis clúster encajan en
los datos sin ninguna referencia ni información externa.

6.5. Caso práctico: algoritmo k-medias

Un operador de telecomunicaciones quiere segmentar su base de clientes


según el patrón de uso del servicio, de tal manera que pueda ofrecer a los
mejores clientes productos exclusivos.

Las variables estandarizadas que indican el uso del servicio están contenidas
en telco_extra.sav. Se usará el procedimiento del análisis conglomerado de K-
medias para encontrar subconjuntos de similares de clientes.

Para ejecutar el análisis conglomerado, se elige la opción conglomerado de k-


medias del menú clasificar, dentro del menú analizar.
El cuadro de la forma siguiente se rellena como sigue:

1) Seleccionar desde la variable Standardized log-long distance hasta


Standardized log-wireless y desde Standardized multiple lines hasta
Standardized electronic billing como variables a analizar.

2) Escribir 3 como el número de conglomerados.

3) Pulsar Iterar. A Continuación se obtendrá un nuevo cuadro de diálogo:

114
Master Universitario en Estadística Aplicada
Universidad Nacional de Educación a Distancia

Escribir 20 como número de iteraciones y pulsar continuar.

Como conviene analizar las medidas intragrupos y entregrupos se pulsa el


botón opciones en el cuadro de diálogo del análisis conglomerado de k-medias.
Y se seleccionan las siguientes opciones:

• La tabla ANOVA
• Información del conglomerado para cada caso
• Centros de conglomerados iniciales

Se decide también que realizar con los valores anómalos. Se selecciona la


opción excluir casos según pareja. Se eliminan entonces muchos casos como
es lógico puesto que hay muchos valores perdidos debido al hecho de la
mayoría de los clientes no subscriben todos los servicios.

Finalmente se pulsa continuar, y después Aceptar en el cuadro de diálogo del


análisis conglomerado de k-medias.
115
Master Universitario en Estadística Aplicada
Universidad Nacional de Educación a Distancia

Se obtiene como solución tres conglomerados, tal y como se ha indicado


previamente. Los centros iniciales de los conglomerados son los valores de las
variables de las k observaciones.

Centros iniciales de los conglomerados

Conglomerado
1 2 3
zlnlong 2,48 -1,70 ,12
zlntoll 2,34 -,20 -,39
zlnequi 1,34 -,65 ,59
zlncard 2,49 -,86 -1,28
zlnwire 1,14 -1,75 1,42
zmultlin 1,05 -,95 1,05
zvoice 1,51 1,51 1,51
zpager 1,68 1,68 1,68
zinterne 1,31 -,76 1,31
zcallid 1,04 1,04 -,96
zcallwai 1,03 -,97 1,03
zforward 1,01 1,01 -,99
zconfer 1,00 1,00 -1,00
zebill -,77 -,77 1,30

Los valores de la tabla representan la media de cada variable dentro de cada


conglomerado (inicial). Por defecto, el programa elige casos que sean distintos
y usa los valores de estos casos para definir los conglomerados iniciales. Si se
especifican los centros de los conglomerados, serían stos los valores que
aparecerían en la tabla.
116
Master Universitario en Estadística Aplicada
Universidad Nacional de Educación a Distancia

El historial de iteración muestra el progreso del proceso de conglomeración en


cada etapa y corresponde a la tabla que se muestra a continuación.

Historial de iteracionesa

Cambio en los centros de los


conglomerados
Iteración 1 2 3
1 3,298 3,590 3,491
2 1,016 ,427 ,931
3 ,577 ,320 ,420
4 ,240 ,180 ,195
5 ,119 ,125 ,108
6 ,093 ,083 ,027
7 ,069 ,094 ,032
8 ,059 ,051 ,018
9 ,035 ,085 ,063
10 ,025 ,359 ,333
11 ,068 ,439 ,287
12 ,079 ,368 ,177
13 ,125 ,139 ,078
14 ,077 ,096 ,020
15 ,041 ,047 ,015
16 ,014 ,027 ,000
17 ,019 ,038 ,000
18 ,000 ,000 ,000
a. Se ha logrado la convergencia debido a que los
centros de los conglomerados no presentan ningún
cambio o éste es pequeño. El cambio máximo de
coordenadas absolutas para cualquier centro es de
,000. La iteración actual es 18. La distancia mínima
entre los centros iniciales es de 6,611.

En cada iteración, como a los objetos se les reasigna a un conglomerado


diferente, los centros de los conglomerados cambian a medida que esto va
ocurriendo.

Cada valor en la tabla anterior indica la distancia entre el nuevo centro del
conglomerado y el centro del conglomerado en la etapa previa. Así, por
ejemplo, tras la reasignación de casos producida entre las iteraciones 1 y 2 en
el primer conglomerado, la distancia entre el centro de dicho conglomerado tras
la iteración 2 es igual a 1,016 con respecto a la iteración anterior, por lo tanto
ha habido un cambio importante entre los centros de los conglomerados. Como

117
Master Universitario en Estadística Aplicada
Universidad Nacional de Educación a Distancia

la reasignación ha habido un cambio relevante se continua el proceso de


reasignación. Cuando el cambio es suficientemente pequeño para todos los
conglomerados, el proceso finaliza (ya no se continua iterando), y se alcanza la
solución final.

En un problema de conglomeración complejo, puede excederse el número


máximo de iteraciones antes de alcanzar una solución final estable. Las
razones por la que esto ocurre son diversas.

Las más frecuentes son las siguientes:

• El número de conglomerados fijado para dividir el grupo sea erróneo,


• Las variables elegidas para dividir el grupo no sean las adecuadas,
• Haber partido de unos centros equivocados,
• Por la complejidad del problema es tan alta que no existe una solución
mejor

En nuestro caso, en las primeras iteraciones, los centros de los conglomerados


aumentan bastante. En la iteración decimocuarta, se han establecido al área
general de su ubicación final, y las últimas cuatro iteraciones son ajustes
secundarios.

Si el algoritmo finaliza debido a que se ha alcanzado el número máximo de


iteraciones, se debe considerar la opción de incrementar el número máximo de
iteraciones del algoritmo puesto que la solución obtenida puede ser inestable.

En el ejemplo, esto no se ha producido, puesto que, tal y como se muestra en


el pie de la tabla, se ha logrado la convergencia debido a que los centros de los
conglomerados no presentan ningún cambio, o éste es pequeño.

El cambio máximo de coordenadas absolutas para cualquier centro es de 0. La


iteración actual es la 18. La distancia mínima entre centros iniciales es de
6,611.

También se obtiene la siguiente tabla:

118
Master Universitario en Estadística Aplicada
Universidad Nacional de Educación a Distancia

Centros de los conglomerados finales

Conglomerado
1 2 3
zlnlong ,05 ,22 -,16
zlntoll ,24 ,12 -1,05
zlnequi ,81 -,19 -,69
zlncard ,17 ,02 -,17
zlnwire ,42 -,75 -1,00
zmultlin ,48 -,29 -,05
zvoice 1,26 -,24 -,44
zpager 1,43 -,38 -,44
zinterne ,81 -,59 -,02
zcallid ,82 ,71 -,81
zcallwai ,76 ,72 -,80
zforward ,78 ,69 -,79
zconfer ,74 ,67 -,75
zebill ,70 -,63 ,05

La tabla anterior muestra los valores finales de los centros de los


conglomerados. Los valores son las medias de cada variable en cada
conglomerado final. Los centros de los conglomerados finales reflejan los
atributos del caso prototipo para cada conglomerado.

Los clientes del conglomerado 1 tienden a ser grandes derrochadores que


compran muchos servicios (todos los coeficientes son positivos).

Los clientes del conglomerado 2 tienden a ser gastadores moderados que


compran los servicios de llamada.

Los clientes del conglomerado 3 gastan muy poco y no compran muchos


servicios.

Distancias entre los centros de los conglomerados finales

Conglomerado 1 2 3
1 3,500 4,863
2 3,500 3,396
3 4,863 3,396

Esta penúltima tabla muestra las distancias euclídeas entre los centros de los
conglomerados finales. Así se ve como los conglomerados más alejados entre
sí son el primero y el tercero y los más próximos son el segundo y el tercero.

Finalmente, se analiza la última tabla, la tabla ANOVA que indica qué variables
contribuyen más a la solución de los conglomerados. Es decir cuales pesan

119
Master Universitario en Estadística Aplicada
Universidad Nacional de Educación a Distancia

más a la hora de dar una solución. Aquellas variables cuyo valor de la F se


grande serán aquellas que proporcionaran una mayor separación entre los
conglomerados.

Si se observa la tabla, la variable que proporciona mayor separación entre los


conglomerados es zcallid, con un F = 802,474, mientras que la que menos es
zincard, con un F = 6,402.

Cuando una variable tiene un valor para el estadístico F muy pequeño o su p-


valor está muy alejado del valor significativo, conviene repetir el análisis cluster
pero sin considerar esta nueva variable y después comparar los resultados.

ANOVA

Conglomerado Error
Media Media
cuadrática gl cuadrática gl F Sig.
zlnlong 13,063 2 ,976 997 13,387 ,000
zlntoll 43,418 2 ,820 472 52,932 ,000
zlnequi 99,056 2 ,488 383 202,999 ,000
zlncard 6,301 2 ,984 675 6,402 ,002
zlnwire 52,879 2 ,646 293 81,873 ,000
zmultlin 38,032 2 ,926 997 41,084 ,000
zvoice 236,301 2 ,528 997 447,554 ,000
zpager 298,992 2 ,402 997 743,348 ,000
zinterne 123,447 2 ,754 997 163,642 ,000
zcallid 308,104 2 ,384 997 802,474 ,000
zcallwai 294,674 2 ,411 997 717,172 ,000
zforward 288,343 2 ,424 997 680,718 ,000
zconfer 262,397 2 ,476 997 551,678 ,000
zebill 112,782 2 ,776 997 145,381 ,000
Las pruebas F sólo se deben utilizar con una finalidad descriptiva puesto que los
conglomerados han sido elegidos para maximizar las diferencias entre los casos en
diferentes conglomerados. Los niveles críticos no son corregidos, por lo que no pueden
interpretarse como pruebas de la hipótesis de que los centros de los conglomerados son
iguales.

6.6. Ejemplo del Análisis Conglomerado Jerárquico

El Análisis Conglomerado Jerárquico es una herramienta exploratoria diseñada


para revelar las agrupaciones naturales (los conglomerados o conglomerados)
de un conjunto de datos. Es el procedimiento más útil cuando se desea agrupar
un número pequeño de objetos. Los objetos en el análisis conglomerado
jerárquico pueden ser casos o variables, dependiendo de si se desea clasificar
casos o examinar relaciones entre las variables.

120
Master Universitario en Estadística Aplicada
Universidad Nacional de Educación a Distancia

Un fabricante de automóviles de una marca conocida de automóviles desea


hacer un estudio del mercado para determinar la probable competencia para
sus vehículos. Quiere conocer si es posible agrupar los coches de acuerdo a
los datos disponibles.

La información para los distintos modelos de coches está contenida en el


fichero car_sales.sav. Contenida en el programa SPSS. Se usará el
procedimiento de Análisis Conglomerado Jerárquico para agrupar los
automóviles de mayores ventas de acuerdo a sus precios y propiedades
físicas.

En primer lugar se abre el fichero car_sales.sav que se encuentra en el


directorio del programa SPSS.

Como hay muchos datos, el primer paso consiste en reducir la dimensión


para que los datos no relevantes no modifiquen la solución. Los casos elegidos
para el análisis de conglomerados se seleccionan eligiendo la opción
seleccionar casos del menú datos:

Una vez abierto el cuadro de diálogo, como los datos más interesantes son
aquellos que representan a los automóviles que más se han vendido, se realiza
un filtrado de los datos, para así seleccionar únicamente estos casos. Para ello,

Seleccionar si se satisface la condición. Y pulsar en “Si…”


Teclear en el campo de texto, (type=0) & (sales>100).
Pulsar continuar y aceptar en el cuadro de diálogo de Seleccionar Casos.

121
Master Universitario en Estadística Aplicada
Universidad Nacional de Educación a Distancia

De esta forma de todos los datos originales se han seleccionado únicamente


los datos de aquellos automóviles de los que al menos haya habido 100000
unidades vendidas.

Una vez seleccionados los casos, se realiza el análisis conglomerado. Se


selecciona la opción conglomerados jerárquicos del menú clasificar situado
dentro del menú analizar. En la tabla de dialogo resultante se selecciona
desde la variable “Price in thousands” hasta la variable “Fuel efficiency” como
variables del análisis, y se Etiquetan los casos mediante la variable “Model”.

122
Master Universitario en Estadística Aplicada
Universidad Nacional de Educación a Distancia

El dendograma es un diagrama, que describe el proceso de creación de


conglomerado y en la mayoría de las ocasiones sirve de gran ayuda para
entender el proceso. Para obtenerlo, se pulsa la opción Gráficos… y se
selecciona Dendrograma.

También se selecciona “Ninguno” en el diagrama de Témpanos. Y se pulsa


Continuar.

123
Master Universitario en Estadística Aplicada
Universidad Nacional de Educación a Distancia

El siguiente paso es seleccionar el método que queremos utilizar para elaborar


los conglomerados o conglomerados. Los distintos métodos pueden elegirse
en el cuadro de diálogo que se obtiene al pulsar la opción Método… del cuadro
de diálogo del Análisis Conglomerado Jerárquico.

Se utilizará el método de conglomeración del Vecino más Próximo y además


se seleccionan las puntuaciones Z como el método de estandarización el grupo
de Transformar Valores.

Finalmente se pulsa en Continuar.

Y finalmente se acepta el cuadro de diálogo del análisis de conglomerado


jerárquico.

El dendograma es el resumen gráfico de la solución conglomerado y se


muestra en la página siguiente:

124
Master Universitario en Estadística Aplicada
Universidad Nacional de Educación a Distancia

******HIERARCHICAL CLUSTER ANALYSIS******

Dendrogram using Single Linkage

Rescaled Distance Conglomerado Combine

CASE 0 5 10 15 20 25

Label Num +---------+---------+---------+---------+---------+

Accord 8 

Camry 11  

Malibu 2  

Grand Am 9  

Impala 3  

Taurus 5   

Mustang 4  

Focus 6  

Civic 7   

Cavalier 1  

Corolla 10 

Los casos se enumeran a lo largo del eje vertical de la izquierda. El eje


horizontal muestra las distancias entre los conglomerados cuando son unidos.

El análisis del árbol de clasificación para determinar el número de


conglomerados es un proceso subjetivo. Generalmente, se comienza buscando
distancias entre los agrupamientos a lo largo del eje horizontal. Empezando

125
Master Universitario en Estadística Aplicada
Universidad Nacional de Educación a Distancia

desde la derecha, hay un hueco entre las distancias 20 y 25, que divide a los
automóviles en dos conglomerados. Existe otro hueco desde aproximadamente
10 a 15, que sugiere 6 conglomerados.

El Historial de conglomeración es un resumen numérico de la solución


conglomerado.

Historial de conglomeración

Etapa en la que el
conglomerado
Conglomerado que se aparece por primera
combina vez
Conglom Conglom Conglom Conglom Próxima
Etapa erado 1 erado 2 Coeficientes erado 1 erado 2 etapa
1 8 11 1,260 0 0 7
2 6 7 1,579 0 0 4
3 2 9 1,625 0 0 7
4 1 6 2,318 0 2 6
5 3 5 2,619 0 0 8
6 1 10 3,670 4 0 10
7 2 8 4,420 3 1 8
8 2 3 4,505 7 5 9
9 2 4 4,774 8 0 10
10 1 2 5,718 6 9 0

En la primera etapa, se combinan los casos 8 y 11 puesto que son los


conglomerados con la menor distancia entre ellos. El conglomerado creado por
su unión no vuelve a aparecer hasta la etapa 7, cuando se une al
conglomerado creado en la etapa 3. Después se fusionan el 6 y 7. El proceso
sigue un total de diez etapas.

Cuando hay muchos casos, la tabla puede ser muy larga y difícil de interpretar,
aún así puede ser más fácil revisar la columna de coeficientes y buscar los
cambios de magnitudes más grandes que revisar el dendograma. Una buena
solución del conglomerado es aquella que considera un salto repentino (hueco)
en el coeficiente de distancia.

El mayor salto en la columna de coeficientes se da entre las etapas 5 y 6,


indicando una solución de 6 conglomerados, y en las etapas 9 y 10, indicando
una solución de 2 conglomerados. Estas son las mismas que se habían
encontrado a partir de la revisión del dendograma.

El resultado obtenido es algo insatisfactorio como una solución, puesto que no


hay una clasificación fuerte (el término coeficiente no es muy grande).

126
Master Universitario en Estadística Aplicada
Universidad Nacional de Educación a Distancia

El método de conglomeración del vecino más lejano o vinculación completa


como método de agrupamiento, quizás proporcione una solución más
aceptable.

Para ejecutar el análisis conglomerado utilizando la vinculación completa,


retomamos el cuadro de diálogo del Análisis Conglomerado Jerárquico, y se
pulsa la opción Método….

Posteriormente seleccionar el método de conglomeración del vecino más lejano


y pulsar en Continuar y Aceptar el cuadro de diálogo del Análisis
Conglomerado Jerárquico.

En las primeras etapas, el historial para la solución del vecino más lejano es
similar a la de la solución del vecino más próximo. En las etapas finales, son
bastante diferentes puesto que la solución del vecino más lejano es un método
construye una clasificación fuerte compuesta únicamente por dos o tres
conglomerados.

127
Master Universitario en Estadística Aplicada
Universidad Nacional de Educación a Distancia

Historial de conglomeración

Etapa en la que el
conglomerado
Conglomerado que se aparece por primera
combina vez
Conglom Conglom Conglom Conglom Próxima
Etapa erado 1 erado 2 Coeficientes erado 1 erado 2 etapa
1 8 11 1,260 0 0 7
2 6 7 1,579 0 0 5
3 2 9 1,625 0 0 6
4 3 5 2,619 0 0 6
5 6 10 4,012 2 0 9
6 2 3 7,333 3 4 8
7 1 8 9,183 0 1 9
8 2 4 12,440 6 0 10
9 1 6 25,486 7 5 10
10 1 2 54,607 9 8 0

Computacionalmente este método es más rápido, ya que la convergencia suele


obtenerse antes. La rapidez ye ficacia de decisión de esta clasificación se
refleja en el dendograma.

Dendrograma
_

* * * * * * H I E R A R C H I C A L C L U S T E R A N A L Y S I S * * * * * *

Dendrogram using Complete Linkage

Rescaled Distance Conglomerado Combine

C A S E 0 5 10 15 20 25
Label Num +---------+---------+---------+---------+---------+

Accord 8 
Camry 11  
Cavalier 1 

Focus 6   
Civic 7   
Corolla 10  
Malibu 2  
Grand Am 9   
Impala 3 

Taurus 5  
Mustang 4 

128
Master Universitario en Estadística Aplicada
Universidad Nacional de Educación a Distancia

La división inicial del árbol forma dos conglomerados. La parte superior


contiene los coches más pequeños (Corolla, Civic, Focus Cavalier Camry y
Accord)y la parte de abajo contiene los coches más grandes (Mustang, Taurus,
Impala, Grand Am y Malibu).

El conglomerado de los coches más pequeños puede ser dividido aún más con
respecto a coches pequeños y económicos. El Civic y el Corolla son más
pequeños y más baratos que El Accord y el Camry respectivamente.

La solución de vinculación completa es satisfactoria puesto que sus


conglomerados son distintos, mientras que la solución de vinculación simple es
menos concluyente. Utilizando la solución de vinculación completa, se puede
determinar la competencia de los vehículos en la fase de diseño introduciendo
sus especificaciones como nuevos casos en el conjunto de datos y rehaciendo
el análisis.

129
Master Universitario en Estadística Aplicada
Universidad Nacional de Educación a Distancia

7. ANÁLISIS DISCRIMINANTE

7.1. Conceptos teóricos

A menudo existen situaciones en las que conviene agrupar los datos conforme
a unas determinadas características. Algunos ejemplos de esta situación son
por ejemplo, cuando se quiere recetar un fármaco y no se sabe si será eficaz
para el paciente, o si se desea conocer de antemano las características de un
moroso para limitar la clientela de un banco, o si se desea conocer el cliente
estándar al que deseamos vender un determinado producto. Todos estos
ejemplos, pueden resolver con técnicas de análisis discriminante.

El análisis discriminante, es por tanto una técnica multivariante en la que a


priori se tienen unos grupos ya separados y descritos mediante la variable
dependiente y una serie de variables cuantitativas (variables independientes)
medidas para cada elemento. Esta técnica tratará de encontrar relaciones entre
las variables independientes que permitan una mayor discriminación o
diferenciación entre los grupos. Esta técnica es de naturaleza exploratoria.

El objetivo principal es conseguir por tanto, una separación de los distintos


grupos a analizar además de conseguir unas reglas claras y discriminantes,
además de asignar un grupo a aquellos elementos que no se conozca con
seguridad en que grupo situarlos. Se definen por tanto medidas tanto para los
distintos grupos como para el conjunto total.

Los objetivos fundamentales del análisis discriminante son:

1) Analizar si existen diferencias entre los grupos en cuanto a su


comportamiento con respecto a las variables consideradas y averiguar
en qué sentido se dan dichas diferencias.

2) Elaborar procedimientos de clasificación de objetos de origen


desconocido, en uno de los grupos analizados.

Con base a estos dos objetivos, se divide el análisis discriminante como el


Análisis discriminante Descriptivo y el Análisis Discriminante Predictivo,
respectivamente.

A continuación se presenta un ejemplo de cada caso:

130
Master Universitario en Estadística Aplicada
Universidad Nacional de Educación a Distancia

DISCRIMINANTE DESCRIPTIVO (Un ejemplo):


Objetivo Se desea caracterizar el perfil de los compradores de un determinado automóvil.
Se diseña una muestra con 100 compradores y 100 no compradores y se toman
Diseño
datos de renta, edad y educación.
El análisis discriminante establecerá la importancia relativa de cada uno de estos
Resultado atributos en la decisión de compra permitiendo orientar mejor la política
promocional o de distribución del producto.

DISCRIMINANTE PREDICTIVO
Se desea caracterizar el perfil de un tumor en función de una serie de
Objetivo
características.
Se estudia el fichero histórico de los tumores en esa zona del cuerpo, y se
Diseño
observan marcadores y variables cuantitativas potencialmente explicativas.
Aplicando el modelo, el análisis permitirá anticipar el riesgo y perfil del tumor en
Resultado
nuevos pacientes.

Para realizar un análisis discriminante se deben tener en cuenta una serie de


restricciones o supuestos:

• Se tiene una variable categórica que determinará los grupos a estudiar y


las restantes variables son cuantitativas e independientes de la anterior.
Existen métodos para el caso de variables cualitativas, pero no se
tratarán.

• Es necesario que a priori existan al menos dos grupos, y que para cada
grupo existan dos o más casos. Los grupos deben ser mutuamente
excluyentes.

• El número de variables discriminantes debe ser menor que el número de


objetos, de hecho debe ser menos que (n-2), siendo n el número de
objetos considerado.

• Ninguna variable independiente (discriminante) puede ser combinación


lineal de otras variables discriminantes.

• El número máximo de funciones discriminantes es igual al mínimo entre


el número de variables y el número de grupos menos 1 (con q grupos, (q
− 1) funciones discriminantes).

• Las matrices de covarianzas dentro de cada grupo deben ser


aproximadamente iguales.

• Las variables continuas deben seguir una distribución normal


multivariante.

131
Master Universitario en Estadística Aplicada
Universidad Nacional de Educación a Distancia

Ha de tenerse especial cuidado también en el tamaño muestral, para evitar las


sobre estimaciones. Se recomienda que por cada variable cuantitativa a incluir
en el análisis, haya por lo menos 20 observaciones. Es decir, que si
incluyéramos tres variables como en el ejemplo del análisis discriminante
descriptivo, se recomienda un mínimo de 80 observaciones, ya que estaríamos
utilizando un total de cuatro variables, una que distingue los grupos y otras tres
cuantitativas.

Las matrices de dispersión pueden ser utilizadas para examinar cómo se


diferencian los grupos. Esto sólo será útil en los casos en los que el número de
variables sea pequeño; a medida que el número de variables aumenta el
número de subgráficos en la matriz de dispersión aumenta y el tamaño de cada
gráfico disminuye, siendo complicada su interpretación.

Una posibilidad es utilizar el análisis de componentes principales PCA para


encontrar un conjunto de datos más pequeño y que capture tanta información
como sea posible del conjunto original y después aplicar el método que a
continuación se explica.

7.2. Etapas de un análisis discriminante

Para llevar a cabo un análisis de este tipo se deben realizar los siguientes
pasos:

1) Plantear el problema a resolver.

2) Analizar si existen diferencias significativas entre los grupos.

3) Establecer el número y composición de las dimensiones de


discriminación entre los grupos analizados.

4) Evaluar los resultados obtenidos desde un punto de vista predictivo


analizando la significación estadística y práctica del procedimiento de
discriminación.

Las diferenciales principales de esta técnica frente a las otras es que a


diferencia del Análisis Cluster, se recomienda conocer los grupos previamente
y a qué grupo pertenecen ciertos individuos, de los que también se conoce sus
valores en las variables discriminantes.

Con respecto al análisis de regresión podemos afirmar que mientras en un


análisis de regresión la variable dependiente es métrica (cuantitativa) en esta
técnica es cualitativa categórica., la dependiente también En el ANOVA, la

132
Master Universitario en Estadística Aplicada
Universidad Nacional de Educación a Distancia

independiente es métrica y las dependientes no métricas (al contrario que en el


discriminante)

7.3. Modelo matemático

Como se ha mencionado previamente el objetivo principal es conseguir una


serie de funciones que dependan de nuestras variables cuantitativas y que
según el valor que tomen para un objeto determinado, permitan clasificar el
objeto en uno de los grupos que se estudian, si es que esto es posible. Estas
funciones serán las denominadas funciones discriminantes y se describen de la
siguiente manera:

Sean q grupos a los que se les asignan una serie de objetos y p variables
medidas sobre los objetos (x1, . . . , xp), se trata de obtener para cada objeto
una serie de puntuaciones que indican el grupo al que pertenecen (y1, . . . , ym),
de modo que las yi sean funciones lineales de las variables cuantitativas
(x1, . . . , xp).

Las yi o funciones discriminantes vienen descritas como sigue:

y1 = a11x1 + · · · + a1pxp + a10


·········
ym = am1x1 + · · · + ampxp + am0

Donde m = min(q−1, p), y las yi serán funciones tales que discriminen o


separen lo máximo posible a los q grupos y los coeficientes aij son las
denominadas cargas o ponderaciones de las variables originales.

Estas combinaciones lineales de las p variables deben maximizar la varianza


entre los grupos y minimizar la varianza dentro de los grupos. Además de ser
independientes entre si (ortogonales). Es decir se busca encontrar grupos lo
más homogéneos posibles y aumentar la diferencia entre los grupos.

Si las variables x1,.. , xp están tipificadas (z1,.. , zp), entonces las funciones yi
anteriores, para i = 1,. . m, se denominan funciones discriminantes canónicas y
vendrán representadas como, sigue

y1 = a11z1 + · · · + a1pzp + a10


·········
ym = am1z1 + · · · + ampzp + am0

Las funciones y1, . . . , ym se extraen de modo que:

133
Master Universitario en Estadística Aplicada
Universidad Nacional de Educación a Distancia

(i) y1 sea la combinación lineal de x1, . . . , xp que proporciona la mayor


discriminación posible entre los grupos.

(ii) y2 sea la combinación lineal de x1, . . . , xp que proporciona la mayor


discriminación posible entre los grupos, después de y1, tal que Corr(y1, y2) = 0.

En general, yi es la combinación lineal de x1, . . . , xp que proporciona la mayor


discriminación posible entre los grupos después de yi−1 y tal que Corr(yi, yj) = 0
para j = 1,.., (i−1).

 Extracción de las funciones discriminantes

Una vez definidas, las funciones discriminantes el siguiente paso es encontrar


un método para obtener este tipo de funciones. Existen diversos métodos, que
siendo el más utilizado el método de Fisher, que consiste en determinar los
coeficientes de la función discriminante de tal forma que se maximice el
cociente de la variabilidad entre grupos dividido entre la variabilidad intra
grupos.

La matriz que describe la variabilidad T de todo el conjunto, puede


descomponerse en términos de la matriz que expresa la variabilidad entre
grupos E, y la variabilidad intragrupos D . Es decir

T=E+D

Las matrices E Y D vienen representadas como:

g nj

D = ∑∑ ( X ij − X • j )( X ij − X • j )'
j =1 i =1
g
E = ∑ n j ⋅ ( X • j − X )( X • j − X )'
j =1

Entonces el cálculo de la varianza de Y se limita a aplicar la siguiente fórmula:

V(Y)=a´Ta=a´Ea+ a´Da

El problema se limita a maximizar la siguiente expresión:


Se impone también la condición de normalización a´Da = 1

134
Master Universitario en Estadística Aplicada
Universidad Nacional de Educación a Distancia

La solución viene dada por el vector propio u1 de T-1E asociado al mayor vector
propio de λ1 de esta matriz.

En general si se quieren calcular r funciones discriminantes con varianza 1 e


incorreladas entre si, estas serán las correspondientes a los r vectores propios
de los autovalores correspondientes.

Variabilidad entre grupos a´Ea


=
Variabilidad intra grupos a´Da

 Estadisticos

Los estadísticos que determinan la entrada de las variables en el modelo son


los siguientes:

• F de Snedecor
• λ de Wilks

 F de Snedecor

Se compara para cada variable las desviaciones de las medias de cada uno de
los grupos con respecto a la media total, entre las desviaciones a la media
dentro de cada grupo.

Variabilidad entre grupos a´Ea


=
Variabilidad intra grupos a´Da

Este cociente ya se ha visto que se distribuye según una F con (K-1) grados de
libertad en el numerador (suponiendo que hay k grupos) y (n-K) grados en el
denominador.Existen dos opciones en función del valor de La F descrita:

Si F es grande para cada variable, entonces las medias de cada grupo están
muy separadas entre sí y la variable discrimina bien.

Si F es pequeña, la variable discriminará poco, ya que habrá poca


homogeneidad en los grupos y éstos estarán muy próximos.

135
Master Universitario en Estadística Aplicada
Universidad Nacional de Educación a Distancia

 λ de Wilks

A este estadístico también se la denomina U-estadístico. Cuando se considera


a las variables de modo individual, la λ de Wilks es igual al cociente entre la
suma de cuadrados dentro de los grupos y la suma de cuadrados total (sin
distinguir grupos). Es decir, equivale a las desviaciones de la media dentro de
cada grupo, entre las desviaciones a la media total sin distinguir grupos.

Si su valor es pequeño,(próximo a 0), la variable discrimina mucho y la


variabilidad total se debe a las diferencias entre grupos, no a las diferencias
dentro de grupos.

Por el contrario si su valor es próximo a 1, los grupos estarán poco


diferenciados y por ello estas variables carecerán de poder discriminante.

Para estudiar que grupo es en el que más difiere, se compara para cada
variable las desviaciones de las medias de cada uno de los grupos a la media
total, entre las desviaciones a la media dentro de cada grupo.

Todos estos estadísticos son los que se principalmente se usarán como


criterio de entrada de las variables a considerar. Es decir, en general se
apoyarán en el valor que toman considerando cada variable, y se irán
incluyendo en el modelo según el valor que tengan. Así por ejemplo si se
considera la F como el criterio de entrada, la variable que se introducirá será
aquella que tenga más valor para la expresión de la F de Snedecor descrita
más arriba.

7.4. Caso práctico

Distinguir entre billetes falsos verdaderos puede ser relativamente difícil. Para
facilitar esta tarea se han contrastado unos datos que se sabe que provienen
de billetes verdaderos frente a unos que se sabe que son falsos. El conjunto de
datos correspondiente a los billetes verdaderos fue recolectado por el banco
Nacional de Suiza entre 1911 y 1956.

Para realizar el estudios e tomaron un total de 100 datos de los billetes falsos y
otros 100 datos de los billetes verdaderos. A cada billete se le tomaron las
siguientes medidas.

Las medidas son las siguientes:

X1: longitud del billete


X2: anchura del billete en la esquina izquierda.
136
Master Universitario en Estadística Aplicada
Universidad Nacional de Educación a Distancia

X3: anchura del billete en la esquina derecha.


X4: anchura del billete en la mitad del borde inferior.
X5: anchura del billete en la mitad del borde superior.
X6: longitud de la diagonal que transcurre desde el borde inferior izquierdo, al
superior derecho.

La variabilidad de cada una de estas medidas no era demasiado notable


debido a las dimensiones. Para hacer esta variabilidad más presente se tomo
como unidad de medida los milímetros (mm) y así se aumentaron las
diferencias.

En primer lugar se muestra la matriz de dispersión de las diferentes medidas


con el fin de realizar un análisis previo de los datos, y así decidir cuál puede ser
la mejor técnica.

Este diagrama revela que algunas medidas difieren sistemáticamente entre los
dos grupos de billetes. Por ejemplo, si observamos la variable diagonal, en
general se puede distinguir claramente los dos grupos. Los billetes originales
tienen una diagonal mayor que la que tienen los billetes falsos.

137
Master Universitario en Estadística Aplicada
Universidad Nacional de Educación a Distancia

De forma similar, observando la cuarta fila, aparentemente los billetes falsos


tienen una medida del grosor en la parte de abajo que los billetes falsos,
aunque esto está menos claro que el caso anterior.

Se usará el programa SPSS para obtener funciones discriminantes que


permitan separar estas dos clases de billetes, una vez conocidas las medidas
descritas anteriormente.

Para realizar esto, se selecciona la opción Discriminante del menos Clasificar,


en el menú de Analizar del SPSS

Analizar>Clasificar> Discriminante…

A continuación obtendremos un cuadro de diálogo que debe rellenarse de la


forma siguiente:

En la variable agrupación, se introduce la variable que distingue a los dos tipos


de billetes (tipo). El programa SPSS necesita que se defina el rango de esta
variable, por ello se insertará un 1 en el mínimo y un 2 en el máximo, pues la
variable se ha definido de esta forma (1 correspondiente a los billetes
originales y 2 para los billetes falsos).

En el campo reservado a la variable independiente; se introducirán las 6


variables correspondientes a las seis medidas descritas previamente.

El resto de las opciones se dejaran tal y como el programa las tiene


configuradas por defecto.

138
Master Universitario en Estadística Aplicada
Universidad Nacional de Educación a Distancia

A continuación se pulsa Aceptar y el resultado se observará en la ventana de


resultados.

En esta ventana, aparecerán 7 tablas. La mayoría de ellas son poco relevantes.


La primera de ellas, muestra el número de casos que se estudia. Esta tabla es
interesante cuando no queremos utilizar todos los datos, es decir si tuviéramos
varios grupos y solo quisiéramos estudiar algunos de ellos.

A continuación se muestra la tabla obtenida. Como se están considerando


todos los datos, la tabla muestra que la N tiene el valor de 200.

Resumen del procesamiento para el análisis de casos

Casos no ponderados N Porcentaje

Válidos 200 100,0

Excluidos Códigos de grupo para 0 ,0


perdidos o fuera de rango

Perdida al menos una 0 ,0


variable discriminante

Perdidos o fuera de rango 0 ,0


ambos, el código de grupo y
al menos una de las
variables discriminantes.

Total excluidos 0 ,0

Casos Totales 200 100,0

139
Master Universitario en Estadística Aplicada
Universidad Nacional de Educación a Distancia

En la siguiente tabla se obtiene el valor del estadístico lambda de Wilks, que


mide las desviaciones que se producen dentro de cada grupo respecto a las
desviaciones totales sin distinción de grupos.

El método seleccionado por defecto, introduce la variable que tenga este


parámetro mas pequeño (la que más discrimina).

Este estadístico contrasta la hipótesis nula H0 de que los centros de los grupos
son iguales. Si el p-valor asociado al estadístico es inferior a 0,05, rechazamos
la hipótesis nula, es decir la hipótesis de igualdad de que los grupos son
iguales.

Lambda de Wilks

Contraste de Lambda
las funciones de Wilks Chi-cuadrado gl Sig.

1 ,076 502,907 6 ,000

El valor de la lambda de Wilks es bastante bajo (0,076), lo cual indica que no


hay solapamiento entre los grupos.

El valor transformado de lambda (Chi-cuadrado) tiene asociado, con 6 grados


de libertad una significación de 0,000, menor que el valor de significación
considerado, por lo que podemos rechazar la hipótesis nula de que los grupos
comparados tienen promedios iguales en las variables discriminantes.

La tabla de coeficientes estandarizados de funciones discriminantes canónicas


es la más importante. En ella se representan los coeficientes estandarizados
de las funciones discriminantes; es decir se trata de la tabla que proporciona
las funciones discriminantes. Al estar estandarizados los coeficientes, las
funciones discriminantes canónicas son independientes de la métrica original
de los datos.

Esta tabla se muestra a continuación:

140
Master Universitario en Estadística Aplicada
Universidad Nacional de Educación a Distancia

Coeficientes
estandarizados de las
funciones discriminantes
canónicas

Función

long -,002

lancho -,262

rancho ,278

abajo 1,028

arriba ,757

diagonal -,787

Por lo tanto la función discriminante es la siguiente:

Y1=-0,002longitud-0,262lancho+0,278rancho+1,028abajo+0,757arriba-
0,787diagonal.

Analizando estos coeficientes puede concluirse que las variables con mayor
peso en la función discriminante son la que mide la anchura del borde inferior
del billete y la variable correspondiente a la longitud de la diagonal principal y la
que mide la anchura en la mitad superior, ya que son en valor absoluto las que
tienen un coeficiente mayor.

Otra tabla relevante es la que contiene los autovalores, pues cada función
discriminante viene asociada a un autovalor de la matriz T-1E.

La cantidad denominada “autovalor”, corresponde a la discriminación producida


por la primera función discriminante Y1. En el caso de tener más de dos grupo,
esta tabla es muy importante, ya que informa sobre la cantidad de varianza
explicada por cada función discriminante, y es en esta tabla en la que
decidiremos cuantas funciones discriminantes incluiremos, de forma análogo a
como se realizaba cuando se obtenían los componentes principales.

En el ejemplo, al tener únicamente dos grupos, solo existe una función


discriminante y esta expresa un 100% de la varianza total.

Autovalores

141
Master Universitario en Estadística Aplicada
Universidad Nacional de Educación a Distancia

Correlación
Función Autovalor % de varianza % acumulado canónica
a
1 12,184 100,0 100,0 ,961

a. Se han empleado las 1 primeras funciones discriminantes canónicas en


el análisis.

La cantidad que el SPSS denomina “autovalor”, corresponde al cociente entre


la variación debida a las diferencias entre grupos (medida mediante la suma
inter-grupos) y la variación que se da dentro de cada grupo combinada
(mediante la suma de cuadrados intra-grupos).

Este estadístico se diferencia de la F que se utiliza en el análisis de varianza


multivariante en que no intervienen los grados de libertad. Por lo tanto la
separación que se consigue con esta función discriminante es de 12,184.

La correlación canónica corresponde al valor de correlación entre la


combinación lineal de las variables independientes (la función discriminante) y
una combinación lineal de variables que recojan la pertenencia de los objetos
medidos en los grupos a estudiar. En este caso, al tener únicamente dos
grupos, es la correlación simple entre las puntuaciones discriminantes y la
pertenencia a uno u otro grupo. Su valor, al ser 0,961, es decir alto, indica
que las variables discriminantes, permiten diferenciar los grupos.

En otra de las tablas se obtiene la matriz de estructura en la que se presentan


las variables ordenadas por su grado de correlación con respecto a la función
discriminante.

En el caso de los billetes se observa que la mayor correlación se obtiene con la


variable que indica la longitud de la diagonal principal de los billetes.

142
Master Universitario en Estadística Aplicada
Universidad Nacional de Educación a Distancia

Matriz de estructura

Función

diagonal -,589

abajo ,348

encima ,216

rancho ,208

lancho ,163

long -,057
Correlaciones intra-grupo
combinadas entre las variables
discriminantes y las funciones
discriminantes canónicas
tipificadas
Variables ordenadas por el
tamaño de la correlación con la
función.

Si ahora tuviéramos un billete que no conocemos si es falso o verdadero, la


función discriminante anterior no nos sería útil, puesto que sus coeficientes
estaban estandarizados.

Interesa entonces, estudiar la función discriminante sin coeficientes


estandarizados. Para esto en la ventana del análisis discriminante se
selecciona la opción “Estadísticos..” y en el cuadro correspondiente la opción
No tipificados tal y como se muestra a continuación:

143
Master Universitario en Estadística Aplicada
Universidad Nacional de Educación a Distancia

El resultado es la tabla que se muestra a continuación:

Coeficientes de las
funciones canónicas
discriminantes

Función

long -,005

lancho -,832

rancho ,849

abajo 1,117

arriba 1,179

diagonal -1,557

(Constante) 194,649

Coeficientes no tipificados

La función discriminante es:

Y1=-0,005longitud-0,832lancho+0,849rancho+1,117abajo+1,179arriba-
1,557diagonal

144
Master Universitario en Estadística Aplicada
Universidad Nacional de Educación a Distancia

Como solo existen dos grupos, únicamente hay una función discriminante.
Cuando introducimos más grupos, lo normal es que haya más funciones
discriminantes. Los coeficientes se mostrarán en las tablas anteriores y en la
tabla de los autovalores, se observará una columna para cada función
discriminante.

El siguiente paso, consiste en guardar los coeficientes de las funciones


discriminantes y obtener histogramas correspondientes a los diferentes grupos,
para comprobar gráficamente el grado de separación entre las variables

Para guardar los resultado, se selecciona en el cuadro de diálogo del análisis


discriminante la opción guardar y en el nuevo cuadro de diálogo que se
obtendrá la opción puntuaciones discriminantes, tal y como se muestra a
continuación

Posteriormente se pulsa Aceptar y Continuar. Si se observa la ventana de las


variables, puede comprobarse que efectivamente existe una variable nueva
denominada Dis1_1correspondiente a la primera y única función discriminante.

A continuación se recomienda realizar los siguientes cambios para facilitar los


siguientes pasos y conseguir unas tablas mucho más claras y sencillas de
entender:

Cambiar el nombre de la variable


Cambiar el número de decimales de 5 a 2
Borrar las etiquetas

Para la obtención de los histogramas correspondientes a los dos grupos se


seleccionará la opción histograma de la Opción Cuadros de diálogo antiguos
en el menú gráfico.
145
Master Universitario en Estadística Aplicada
Universidad Nacional de Educación a Distancia

A continuación se introducirá Disc1, la variable obtenida anteriormente, en el


cuadro de variable y en el panel por área el tipo de los billetes y se pulsa
Aceptar.

El histograma resultante es el siguiente:

146
Master Universitario en Estadística Aplicada
Universidad Nacional de Educación a Distancia

Este gráfico está compuesto por dos histogramas. Ambos gráficos están
diseñados en la misma escala lo que permite realizar una comparación visual.

El análisis de la tabla correspondiente a los centroides de los grupos, informará


sobre la media de la función discriminante en cada tipo de billetes.

Nótese como en el caso de los billetes originales, todas las barras del
histograma a excepción de una están a la derecha del cero y en el caso de los
billetes falsos, todas obtienen valores positivos. Esto sugiere que la función
discriminante ha separado de forma efectiva los dos grupos.

Funciones en los
centroides de los grupos

Función

tipo 1

Originales -3,473

Falsos 3,473

Funciones discriminantes
canónicas no tipificadas
evaluadas en las medias de
los grupos

147
Master Universitario en Estadística Aplicada
Universidad Nacional de Educación a Distancia

El siguiente paso debe ser clasificar los billetes de forma que no se sepa con
seguridad si son verdaderos o falsos. Para este fin se precisa de una regla de
decisión que separará en función de las puntuaciones en la función
discriminante los dos grupos que se tratan billetes falsos y billetes verdaderos.

Conociendo las medias de la función disc1 para los dos tipos de billetes, se
puede tomar como punto de corte la semisuma de ambos, es decir

− 3,473 + 3,473
l1 = =0
2

Por lo tanto la regla de localización de los billetes verdaderos y falsos es la


siguiente:

Si d ≤ 0 → el billete se clasifica como verdadero


si d > 0 → el billete se clasifica como falso

A continuación se creará una nueva variable que se nombrará como


“localización”, y en la que estará indicado el grupo al que pertenece cada billete
analizado.

Para crear esta nueva variable se seleccionará la opción recodificar en distintas


variables del menú transformar e introduciendo las etiquetas correspondientes
a cada casos. Esta variable contiene los dos grupos: billetes verdaderos y
falsos.

Haciendo una tabla de frecuencias de la nueva variable se obtienen los


siguientes resultados:

Localización

Porcentaje
Frecuencia Porcentaje Porcentaje válido acumulado

Válidos Verdaderos 99 49,5 49,5 49,5

Falsos 101 50,5 50,5 100,0

Total 200 100,0 100,0

En la tabla se observa que obtenemos 99 billetes verdaderos y 101 falsos.

148
Master Universitario en Estadística Aplicada
Universidad Nacional de Educación a Distancia

Finalmente como última actividad, se analiza la tasa de billetes mal


clasificados.

Esto puede analizarse de forma muy sencilla, con una tabla de contingencia en
la que incluyamos la clasificación previa a todo el análisis y la clasificación
correspondiente a la última variable creada.

Se obtiene el cuadro de diálogo de tablas de contingencia. Esta opción está en


el menú de estadísticos descriptivos, del menú analizar. Se introduce en la
opción de fila la variable tipo, que identificaba el tipo original de los billetes y la
variable nueva “localización” se inserta en el cuadro correspondiente a
columna.

Finalmente en la opción casillas, se selecciona la opción de observados en


recuentos y fila en porcentajes tal y como se muestra a continuación.

149
Master Universitario en Estadística Aplicada
Universidad Nacional de Educación a Distancia

Se pulsa continuar y Aceptar. La tabla resultante es la siguiente:

Tabla de contingencia tipo * localización

localización

Verdadero Falso Total

tipo Verdaderos Recuento 99 1 100

% dentro de tipo 99,0% 1,0% 100,0%

Falsos Recuento 0 100 100

% dentro de tipo ,0% 100,0% 100,0%

Total Recuento 99 101 200

% dentro de tipo 49,5% 50,5% 100,0%

Las casillas reefrentes a recuento corresponden al número de billetes en cada


una de las categorías. De los 100 billetes verdaderos uno ha sido mal
clasificado y no era verdadero. Sin embargo los 100 billetes falsos eran
efectivamente falsos.

Existe por lo tanto un único billete mal clasificado.

150
Master Universitario en Estadística Aplicada
Universidad Nacional de Educación a Distancia

La tasa de los elementos mal clasificado se calcula como:

1+ 0
MC = x100 = 0,05%
200

151
Master Universitario en Estadística Aplicada
Universidad Nacional de Educación a Distancia

152
Master Universitario en Estadística Aplicada
Universidad Nacional de Educación a Distancia

ANEXO 1
Obtención de la recta de regresión de Y sobre X

Utilizando la técnica de mínimos cuadrados para el ajuste de una recta, es


decir, haciendo mínimo

Φ1 = ∑ ∑ ( y j - a - b xi ) nij
2

i j

Se obtiene el siguiente sistema de ecuaciones normales

∑y j
j n.j = aN + b ∑ xi ni.
i



 (*)

∑i ∑j xi y j nij = a ∑i xi ni. + b ∑i xi ni. 
2

Dividiendo ambas ecuaciones por N, expresamos este sistema en función de


los momentos respecto al origen:

a01 = a + b • a10 

 (1)
a11 = a • a10 + b • a 20 

Para resolverlo multipliquemos la primera de ecuación de (1) por -a10 y se


suman las dos ecuaciones:

- a10 • a01 = - a • a10 - b • a10


2



a11 = a • a10 + b • a 20 

- •
a11 a10 a01 = + b( 2
a 20 a10 )
-

Es decir

a11 - a10 • a01 m11 S xy


b= 2
= = 2
a 20 - a10 m20 S x

153
Master Universitario en Estadística Aplicada
Universidad Nacional de Educación a Distancia

Despejando a en la primera ecuación de (1) tenemos que:

S xy S xy
a = a 01 - a = y- 2 x
2 10
Sx Sx

Luego las estimaciones mínimo cuadráticas de los parámetros a y b son:

S xy
b= 2
Sx

S xy
a= y - 2
x
Sx

Por tanto la recta de regresión de Y sobre X, y = a + bx, en función de los


momentos quedará

S xy S xy
y= y - 2
x+ 2
x
S x Sx

que reordenando, es

S xy
y - y= 2
(x - x )
Sx

154
Master Universitario en Estadística Aplicada