Anda di halaman 1dari 219

TCNICAS DE AGRUPACIN Y

REDUCCIN DE LA
DIMENSIN
Juan Carlos Ruiz Molina
Departamento de Estadstica e I.O.
Universidad de Jan

ndice general
1. Representacin de Datos Multivariantes

1.1.

Introduccin . . . . . . . . . . . . . . . . . . . . . . . . . . . .

1.2.

Clasicacin de las Tcnicas Multivariantes

. . . . . . . . . .

1.2.1.

Tcnicas de dependencia . . . . . . . . . . . . . . . . .

1.2.2.

Tcnicas de interdependencia

1.2.3.

Otros criterios de clasicacin . . . . . . . . . . . . . .

1.3.

1.4.

1.5.

Estadsticos Multivariantes

. . . . . . . . . . . . . .

. . . . . . . . . . . . . . . . . . .

7
8

1.3.1.

Estadsticos para el vector completo de variables

. . .

1.3.2.

Ejemplo . . . . . . . . . . . . . . . . . . . . . . . . . .

13

1.3.3.

Estadsticos para subconjuntos de variables

. . . . . .

14

1.3.4.

Ejemplo . . . . . . . . . . . . . . . . . . . . . . . . . .

16

1.3.5.

Combinaciones lineales de variables . . . . . . . . . . .

17

1.3.6.

Ejemplo . . . . . . . . . . . . . . . . . . . . . . . . . .

21

1.3.7.

Medidas de la variabilidad total y de multicolinealidad

23

1.3.8.

Ejemplo . . . . . . . . . . . . . . . . . . . . . . . . . .

25

1.3.9.

Distancia entre vectores

. . . . . . . . . . . . . . . . .

26

1.3.10. Ejemplo . . . . . . . . . . . . . . . . . . . . . . . . . .

28

Valores Perdidos

29

. . . . . . . . . . . . . . . . . . . . . . . . .

1.4.1.

Diagnstico de la aleatoriedad . . . . . . . . . . . . . .

30

1.4.2.

Tratamiento . . . . . . . . . . . . . . . . . . . . . . . .

32

1.4.3.

Ejemplo . . . . . . . . . . . . . . . . . . . . . . . . . .

33

Observaciones atpicas

. . . . . . . . . . . . . . . . . . . . . .

35

1.5.1.

Deteccin de casos atpicos

. . . . . . . . . . . . . . .

36

1.5.2.

Ejemplo . . . . . . . . . . . . . . . . . . . . . . . . . .

38

2. Anlisis de Componentes Principales

42

2.1.

Introduccin . . . . . . . . . . . . . . . . . . . . . . . . . . . .

42

2.2.

Componentes principales a partir de la matriz de covarianzas

44

2.2.1.

48

Interpretacin geomtrica

. . . . . . . . . . . . . . . .

2.3.

2.4.

2.2.2.

Ejemplo . . . . . . . . . . . . . . . . . . . . . . . . . .

49

2.2.3.

Ejemplo . . . . . . . . . . . . . . . . . . . . . . . . . .

50

Componentes principales a partir de la matriz de correlaciones

52

2.3.1.

Ejemplo . . . . . . . . . . . . . . . . . . . . . . . . . .

54

2.3.2.

Ejemplo . . . . . . . . . . . . . . . . . . . . . . . . . .

54

Representacin grca de las componentes principales


2.4.1.

2.5.

. . . .

55

Ejemplo . . . . . . . . . . . . . . . . . . . . . . . . . .

60

Nmero de componentes principales a retener

. . . . . . . . .

61

2.5.1.

Ejemplo . . . . . . . . . . . . . . . . . . . . . . . . . .

63

2.5.2.

Ejemplo . . . . . . . . . . . . . . . . . . . . . . . . . .

64

2.6.

Informacin en las ltimas componentes principales . . . . . .

65

2.7.

Interpretacin de las componentes principales

. . . . . . . . .

65

2.7.1.

Ejemplo . . . . . . . . . . . . . . . . . . . . . . . . . .

68

2.7.2.

Ejemplo . . . . . . . . . . . . . . . . . . . . . . . . . .

69

2.7.3.

Ejemplo . . . . . . . . . . . . . . . . . . . . . . . . . .

69

2.7.4.

Ejemplo . . . . . . . . . . . . . . . . . . . . . . . . . .

70

3. Anlisis Factorial

74

3.1.

Introduccin . . . . . . . . . . . . . . . . . . . . . . . . . . . .

74

3.2.

Modelo factorial ortogonal . . . . . . . . . . . . . . . . . . . .

77

3.3.

3.4.

3.5.

3.2.1.

Formulacin e hiptesis

. . . . . . . . . . . . . . . . .

77

3.2.2.

Ejemplo . . . . . . . . . . . . . . . . . . . . . . . . . .

81

3.2.3.

No unicidad de las cargas factoriales

. . . . . . . . . .

82

3.2.4.

Ejemplo . . . . . . . . . . . . . . . . . . . . . . . . . .

83

Estimacin de las cargas y las comunalidades

. . . . . . . . .

84

3.3.1.

Mtodo de las componentes principales . . . . . . . . .

84

3.3.2.

Ejemplo . . . . . . . . . . . . . . . . . . . . . . . . . .

87

3.3.3.

Mtodo de los ejes principales . . . . . . . . . . . . . .

89

3.3.4.

Ejemplo . . . . . . . . . . . . . . . . . . . . . . . . . .

92

3.3.5.

Mtodo de mxima verosimilitud . . . . . . . . . . . .

93

3.3.6.

Otros mtodos de extraccin de factores . . . . . . . .

93

3.3.7.

Comparacin de mtodos

. . . . . . . . . . . . . . . .

94

3.3.8.

Ejemplo . . . . . . . . . . . . . . . . . . . . . . . . . .

95

Determinacin del nmero de factores

. . . . . . . . . . . . .

96

3.4.1.

Ejemplo . . . . . . . . . . . . . . . . . . . . . . . . . .

99

3.4.2.

Ejemplo . . . . . . . . . . . . . . . . . . . . . . . . . .

99

Rotacin . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .

99

3.5.1.

Rotacin ortogonal . . . . . . . . . . . . . . . . . . . . 100

3.5.2.

Ejemplo . . . . . . . . . . . . . . . . . . . . . . . . . . 101

3.5.3.

Ejemplo . . . . . . . . . . . . . . . . . . . . . . . . . . 103

3.5.4.

Rotacin oblicua

3.5.5.

Ejemplo . . . . . . . . . . . . . . . . . . . . . . . . . . 106

. . . . . . . . . . . . . . . . . . . . . 104

3.5.6.

Ejemplo . . . . . . . . . . . . . . . . . . . . . . . . . . 107

3.5.7.

Interpretacin . . . . . . . . . . . . . . . . . . . . . . . 108

3.6.

Puntuaciones factoriales

3.7.

Validez de modelo de anlisis factorial

3.6.1.

. . . . . . . . . . . . . . . . . . . . . 109

Ejemplo . . . . . . . . . . . . . . . . . . . . . . . . . . 111
. . . . . . . . . . . . . 111

3.7.1.

Tipos de variables

. . . . . . . . . . . . . . . . . . . . 113

3.7.2.

Tamao muestral . . . . . . . . . . . . . . . . . . . . . 114

3.7.3.

Contrastes en el modelo factorial

3.7.4.

Consistencia interna

3.7.5.

Ejemplo . . . . . . . . . . . . . . . . . . . . . . . . . . 118

3.7.6.

Ejemplo . . . . . . . . . . . . . . . . . . . . . . . . . . 119

. . . . . . . . . . . . 116

. . . . . . . . . . . . . . . . . . . 117

3.8.

Relacin entre el AF y el ACP

3.9.

Ejemplo . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 123

. . . . . . . . . . . . . . . . . 121

3.10. La cuestin del nmero de factores a retener: una visin moderna129


3.11. AF con

. . . . . . . . . . . . . . . . . . . . . . . . . . . . . 132

4. Anlisis de Correspondencias

135

4.1.

Introduccin . . . . . . . . . . . . . . . . . . . . . . . . . . . . 135

4.2.

Perles la y columna


4.2.1.

4.3.

4.4.

. . . . . . . . . . . . . . . . . . . . . . 136

Ejemplo . . . . . . . . . . . . . . . . . . . . . . . . . . 139

Contraste de independencia

. . . . . . . . . . . . . . . . . . . 141

4.3.1.

Ejemplo . . . . . . . . . . . . . . . . . . . . . . . . . . 142

4.3.2.

Ejemplo . . . . . . . . . . . . . . . . . . . . . . . . . . 142

Coordenadas para representar grcamente a los perles las


y a los perles columnas . . . . . . . . . . . . . . . . . . . . . 144
4.4.1.

4.5.

Normalizacin e interpretacin del ACO


4.5.1.

4.6.

4.7.

4.8.

Ejemplo . . . . . . . . . . . . . . . . . . . . . . . . . . 147
. . . . . . . . . . . . 148

Ejemplo . . . . . . . . . . . . . . . . . . . . . . . . . . 149

Masa, inercia, contribucin y calidad . . . . . . . . . . . . . . 149


4.6.1.

Ejemplo . . . . . . . . . . . . . . . . . . . . . . . . . . 153

4.6.2.

Ejemplo . . . . . . . . . . . . . . . . . . . . . . . . . . 155

Puntos suplementarios . . . . . . . . . . . . . . . . . . . . . . 158


4.7.1.

Ejemplo . . . . . . . . . . . . . . . . . . . . . . . . . . 159

4.7.2.

Ejemplo . . . . . . . . . . . . . . . . . . . . . . . . . . 163

Anlisis de Correspondencias Mltiple

. . . . . . . . . . . . . 165

4.8.1.

Ejemplo . . . . . . . . . . . . . . . . . . . . . . . . . . 168

4.8.2.

Ejemplo . . . . . . . . . . . . . . . . . . . . . . . . . . 169

5. Anlisis Cluster

174

5.1.

Medidas de similitud o disimilitud

5.2.

Agrupamiento jerrquico . . . . . . . . . . . . . . . . . . . . . 177

5.3.

. . . . . . . . . . . . . . . 176

5.2.1.

Encadenamiento simple o vecino ms prximo . . . . . 178

5.2.2.

Encadenamiento completo o vecino ms alejado . . . . 182

5.2.3.

Encadenamiento medio . . . . . . . . . . . . . . . . . . 184

5.2.4.

Centroide

5.2.5.

Mediana . . . . . . . . . . . . . . . . . . . . . . . . . . 186

5.2.6.

Mtodo de Ward

5.2.7.

Propiedades de los mtodos jerrquicos . . . . . . . . . 190

. . . . . . . . . . . . . . . . . . . . . . . . . 186
. . . . . . . . . . . . . . . . . . . . . 188

Mtodos no jerrquicos: mtodo de las


5.3.1.

k -medias

. . . . . . . . 195

Ejemplo . . . . . . . . . . . . . . . . . . . . . . . . . . 196

5.4.

Eleccin del nmero de clusters . . . . . . . . . . . . . . . . . 199

5.5.

Validacin de clusters

5.6.

Agrupamiento de variables . . . . . . . . . . . . . . . . . . . . 201

5.7.

Hiptesis del AC

5.8.

ACP y AC . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 204

. . . . . . . . . . . . . . . . . . . . . . 200

. . . . . . . . . . . . . . . . . . . . . . . . . 203

Captulo 1

Representacin de Datos
Multivariantes
1.1. Introduccin
El anlisis multivariante consiste en una coleccin de mtodos que pueden
ser utilizados cuando se dispone de diversas medidas sobre cada individuo

vacasos.

u objeto en una o ms muestras. No referiremos a las medidas como

riables

y a los individuos u objetos como

unidades1 , observaciones

En la prctica, los conjuntos de datos multivariantes son comunes, aunque


no siempre se analizan atendiendo a tal caracterstica. El uso exclusivo de
procedimientos univariantes con datos multivariantes ignora la

conjunta

informacin

que presentan y debe recurrirse a las tcnicas multivariantes para

descubrir la informacin que contienen. En concreto, estas tcnicas permiten


evaluar

relaciones simultneas

entre varias variables, lo que constituye un

objetivo primordial en la mayor parte de las investigaciones cientcas. Adems, la potencia de clculo que proporcionan los ordenadores actuales y el

software disponible hacen inexcusable el uso de los mtodos multivariantes.

Histricamente, la mayor parte de las aplicaciones de las tcnicas multivariantes han sido en las ciencias biolgicas y del comportamiento. Sin embargo, su inters se ha ampliado a otros numerosos campos de investigacin.
De hecho, son frecuentemente aplicadas en estudios de economa, empresa,
marketing, investigacin de mercados, nanzas, ingeniera, psicologa, etc.
Algunos ejemplos de problemas que presentan observaciones multivariantes
son los siguientes:

1 Unidades muestrales o experimentales.

i) Economa:

estudio de la relacin existente entre el tipo de inters de

las letras del Tesoro, la tasa de inacin anual calculada sobre el IPC
y el dcit como un porcentaje del PIB.

ii) Empresa: investigacin sobre ingresos, nivel educativo y experiencia de


los ejecutivos junto con el tamao de la empresa.

iii) Marketing:

anlisis conjunto de los gastos en publicidad, laborales, en

materias primas y las ventas del producto.

iv) Investigacin de mercados: determinacin del perl de los consumidores


en funcin de sus edad, sexo, estrato social, ingresos, etc.

v) Finanzas: decisin sobre la concesin de crditos a partir de los ingresos, ahorros, patrimonio, nivel de deudas contradas, estabilidad en el
empleo, etc.
De estos ejemplos se desprende que la escala de medida de las variables
intervinientes puede ser distinta. Por ejemplo, a un individuo se le puede describir en relacin a caractersticas tales como la edad, el nivel educativo, los
ingresos, el sexo, el coeciente de inteligencia, la puntuacin en una prueba
de actitud o la preferencia por una marca u otra. Este simple ejemplo pone
de maniesto que las variables pueden ser de dos tipos: 1) cuantitativas o
mtricas y 2) cualitativas o no mtricas. Dentro de esta clasicacin podemos a su vez subdividir de la siguiente forma. Las cuantitativas pueden ser
de: a) intervalo o b) razn; y las cualitativas pueden ser: c) nominales u d)
ordinales.
La escala nominal es la ms bsica, presenta valores que son categoras
exhaustivas y mutuamente excluyentes y no puede establecerse un orden en
ella (por ejemplo, el sexo o la preferencia por una marca). La siguiente es
la ordinal que, presentando las caractersticas anteriores, puede establecerse
un orden entre ellas (por ejemplo, el nivel educativo). La escala de intervalo
aade a las caractersticas anteriores el hecho de que las diferencias tienen
sentido aunque no tienen un cero absoluto, es decir, el punto cero de la escala
es arbitrario (por ejemplo, el coeciente de inteligencia o la puntuacin en
una prueba de actitud). As se puede armar que la distancia entre 100 y
120 en el coeciente de inteligencia es la misma que la existente entre 80
y 100. Lo que no podemos establecer es que un coeciente de 70 equivale
a la mitad de uno de 140. Por ltimo, la escala de razn posee las mismas
caractersticas que la escala de intervalo, con la diferencia que cuentan con un
cero absoluto; es decir, el valor cero representa la ausencia total de medida,
por lo que se puede realizar cualquier operacin aritmtica (suma, resta,

multiplicacin y divisin) y lgica (comparacin y ordenamiento). Este tipo


de escala permite el nivel ms alto de medicin. La edad, altura o el salario,

son algunos ejemplos de este tipo de escala de medida .


Las escalas de medida deben ser adecuadas para medir las caractersticas
objeto de estudio. El tipo de escala utilizado es fundamental en la eleccin
y aplicacin correcta del anlisis multivariante. En determinadas tcnicas es
necesario que las variables tengan similar escala de medida (por ejemplo, el
anlisis de perles). Sin embargo, la mayor parte de las tcnicas no precisan
esta condicin.
En general, las variables son medidas simultneamente sobre cada unidad muestral. Estas variables estn tpicamente correladas. Si no fuera as,
muchas de las tcnicas del anlisis multivariantes sera intiles. El reto es
desenmaraar la informacin comn que presentan las variables correladas
y descubrir su estructura subyacente. Por tanto, el objetivo de muchas tcnicas multivariantes es la simplicacin. A este propsito lo denominaremos
reducir la dimensin. Tales tcnicas son

exploratorias

en el sentido de que

esencialmente son utilizadas para generar hiptesis en lugar de contrastarlas.


Por otro lado, si nuestro objetivo es un test de hiptesis formal necesitaremos tcnicas que permitan contrastar informacin relativa a varias variables
preservando el nivel de signicacin y para cualquier estructura de intercorrelacin de las mismas. Estas tcnicas son denominadas

inferenciales.

Como hemos indicado, el anlisis multivariante se ocupa generalmente de


dos reas: exploratoria e inferencial. En el campo descriptivo, se obtiene a
menudo combinaciones lineales ptimas de variables. El criterio de optimalidad depende de la tcnica. Aunque las combinaciones lineales pueden parecer
demasiado simples para revelar la estructura subyacente, las utilizaremos por
dos motivos obvios: por ser tratables matemticamente y por funcionar bien
con frecuencia en la prctica. Esas combinaciones lineales pueden tambin
ser tiles como un complemento a los procedimientos inferenciales. En el rea
inferencial, los tests multivariantes proporcionan un control total para la tasa
de error experimental, es decir, independientemente del nmero de variables
involucradas en el contraste, el valor del nivel de signicacin permanece en
el nivel jado por el investigador.

2 Debido a la similitud existente entre las escalas de intervalo y de razn, SPSS las ha

reunido en un nuevo tipo de medida exclusivo del programa, al cual denomina Escala.
Las variables de escala son para SPSS todas aquellas variables cuyos valores representan
magnitudes, ya sea que cuenten con un cero absoluto o no.

1.2. Clasicacin de las Tcnicas Multivariantes


La importancia de una adecuada clasicacin de las tcnicas multivariantes no reside tanto en la necesidad tipolgica, sino en que es necesario
disponer de ella para una correcta eleccin de la tcnica para resolver el
problema planteado. Las siguientes preguntas ayudan en este propsito:
1. El estudio responde a un problema de dependencia entre variables o
de interdependencia de entre las mismas?.
2. Cmo estn medidas las variables implicadas, en escala mtrica o no
mtrica?.
3. Si estamos en un problema de dependencia, cuntas relaciones se plantean entre las variables dependientes e independientes?, cuntas variables dependientes existen?.

1.2.1. Tcnicas de dependencia


Las tcnicas de anlisis de dependencia investigan las relaciones existentes entre dos grupos de variables. Si por conocimiento previo se es capaz
de caracterizar a un grupo de variables como dependiente y al otro como

independiente , entonces el objetivo ser establecer si el conjunto de variables independientes afecta al conjunto de dependientes de forma individual o
simultnea. Por ejemplo, si en un grupo de individuos se miden sus ingresos,
nivel de estudios, edad y sexo, podemos plantearnos si los ingresos (variable dependiente) pueden explicarse a travs del resto de variables (variables
independientes). Estaramos ante un problema de dependencia y sera necesario ver cmo estn medidas las variables para elegir entre una tcnica u
otra.
Sin embargo, podemos encontrarnos ante un problema en el que sea imposible distinguir conceptualmente entre variables dependientes e independientes. Nos interesa simplemente saber cmo se relacionan las variables
del problema. Los mtodos estadsticos que abordan estas cuestiones seran
los denominados de interdependencia. Siguiendo con el ejemplo anterior, el
investigador puede querer saber si considerando todas las variables que caracterizan a los individuos puede encontrarse grupos de individuos que se

3 La caracterizacin de un conjunto de variables como independientes responde al hecho

de que la informacin que stas contiene es utilizada para explicar el comportamiento del
otro conjunto de variables, denominadas entonces variables dependientes. Se establece
por tanto una direccin en la explicacin del comportamiento de las variables, siendo las
variables independientes las que explican el comportamiento de las dependientes.
4

parezcan mucho entre s respecto a estas variables y que dieran de otros


grupos. Aqu no nos encontramos ante dos conjuntos de variables, sino que se
consideran todas juntas. La tcnica que se elija para resolver este problema
deber pertenecer al grupo de mtodos de interdependencia.
Las principales tcnicas de dependencia son las siguientes:

i) Regresin lineal mltiple:

pretende analizar la relacin existente en-

tre una variable dependiente mtrica y un conjunto de variables independientes mtricas o no mtricas. Por ejemplo, queremos analizar
la relacin existente entre el nivel de ingresos medido en euros y el
nivel educativo, sexo y edad. En este caso, las variables independientes (educacin, edad y sexo) pretenden explicar el comportamiento de
una nica variable dependiente mtrica (ingresos). Si existe ms de
una variable dependiente y todas son mtricas, entonces la tcnica se
denomina

regresin lineal mltiple multivariante.

ii) Anlisis discriminante y regresin logstica: tienen un propsito similar


a la regresin lineal mltiple pero ahora la variable dependiente es no
mtrica. Por ejemplo, si el nivel de ingresos est codicado en tres
niveles (subsistencia, medio y alto).

iii) Anlisis multivariante de la varianza (MANOVA):

trata de explicar

un conjunto de diversas variables mtricas a partir de un conjunto de


variables independientes no mtricas. Por ejemplo, si se desea explicar
el nivel de ingresos en euros y aos de permanencia en la empresa
(variables dependientes) en funcin del sexo, nivel educativo (ESO,
bachiller o universitario) y nivel de ingls hablado (bsico, intermedio
y alto).

iv) Anlisis de correlaciones cannicas:

a diferencia del anlisis de regre-

sin lineal mltiple multivariante, en donde un grupo de variables independientes (mtricas o no) explican a otro grupo de variables mtricas
y no al revs, ahora el tratamiento de ambos conjuntos de variables es
del mismo modo o de forma simtrica. Por ejemplo, supongamos que
el primer grupo de variables es de rendimiento escolar y el segundo de
uso del tiempo de ocio entre estudiantes. En este caso, no existe claramente un conjunto de variables que sea la causa del otro, es decir, no
es posible caracterizar a un grupo como de variables dependientes y a
otro como de independientes. En general, este tipo de anlisis se utiliza
cuando un conjunto de variables puede dividirse en dos grupos homogneos (por criterios econmicos, demogrcos, sociales, etc.) y se desea

estudiar la relacin entre ambos conjuntos de variables. En particular,


los dos grupos pueden corresponder a las mismas variables medidas en
dos momentos distintos en el tiempo, espacio, etc. Esta tcnica es muy
general y permite en ambos grupos tanto variables mtricas como no
mtricas.

v) Ecuaciones estructurales:

en todos los casos anteriores el investigador

busca evaluar la intensidad de una nica relacin entre dos conjuntos de


variables. La extensin a ms de una ecuacin es el objeto del conjunto
de tcnicas denominadas sistemas de ecuaciones estructurales, entre las

anlisis factorial conrmatorio


estructura de covarianza.

que se encuentran el

y los

modelos de

1.2.2. Tcnicas de interdependencia


Como se ha comentado anteriormente, existen situaciones de investigacin en las que es imposible separar las variables en dos grupos distintos y
lo que interesa es determinar cmo y por qu estn relacionadas entre ellas.
Las principales tcnicas de interdependencia son:

i) Anlisis de componentes principales: es una tcnica de reduccin de variables cuyo objetivo fundamental es construir combinaciones lineales
de las variables originales que expliquen la mayor parte de la informacin recogida en stas. Cada combinacin lineal se extrae de tal forma
que est incorrelada con las anteriores y, adems, contiene cada vez
menos informacin sobre las variables originales que las anteriores. Por
ejemplo, un analista contable puede extraer del balance muchos indicadores nancieros para medir la salud de su empresa. Puede emplearlos
todos o, por el contrario, obtener un nmero reducido de combinaciones lineales de ellos que aporten una informacin aproximada a la que
se obtendran con todos ellos. Es ms sencillo comparar empresas a
partir de dos indicadores que con muchos de ellos.

ii) Anlisis factorial:

es tambin una tcnica de reduccin de variables

pero, a diferencia de la anterior, el inters se centra en establecer qu


factores latentes (no observables) pueden estar causando la correlacin
entre las variables observadas. Puede considerarse como una tcnica
que pretende identicar grupos de variables de tal forma que la correlacin de las variables dentro de cada grupo sean superiores a las
correlaciones de las variables entre grupos diferentes.

iii) Anlisis de correspondencias: permite visualizar grcamente tablas de


contingencia. Por ejemplo, si deseamos investigar si existe relacin entre dos variables no mtricas, cada una de las cuales tiene 20 categoras.
Un ejemplo concreto sera analizar la relacin entre el tipo de ocupacin
y la universidad donde el sujeto se gradu. La tabla 2020 resultante
no resulta fcil de estudiar, sin embargo, el anlisis de correspondencias permitir mostrar un mapa, probablemente bidimensional, en el
que una universidad estar tanto ms cerca de un tipo de ocupacin
cuanto mayor sea la frecuencia de esa celda en la tabla de contingencia.

iv) Anlisis cluster:

a diferencia del anlisis factorial o de componente

principales cuyo objetivo es agrupar variables, esta tcnica pretende


agrupar observaciones. La agrupacin se realiza de tal forma que las
observaciones de cada grupo o conglomerado sean lo ms parecidas posible respecto a las caractersticas que miden las variables consideradas
y lo ms diferentes posibles en relacin a esas caractersticas de otras
observaciones que estn en otros grupos distintos.

v) Escalamiento multidimensional:

permite al investigador descubrir qu

criterios subyacentes utilizan los individuos para considerar que distintos objetos son parecidos o distintos entre s. Una de las principales
utilidades de este anlisis es la construccin de mapas, normalmente
bidimensionales, donde los objetos estn tanto ms cercanos cuanto
ms parecidos son para el conjunto de individuos entrevistados.

1.2.3. Otros criterios de clasicacin


Evidentemente el criterio utilizado atendiendo al nmero de grupos y
a la naturaleza de las variables para clasicar a las tcnicas multivariantes
es uno de los posibles. Otros criterios son tambin admisibles. Por ejemplo,
en funcin del objetivo de la tcnica. As, si los que se pretende es reducir
la dimensin del problema original, tal y como hacen el anlisis de componentes principales, el anlisis factorial, el anlisis de correspondencias o el

tcnica de reduccin de
la dimensin. Si lo que se pretende es agrupar observaciones, tal y como hace
el anlisis cluster u otros mtodos de agrupacin, estaremos ante una tcnica
de agrupacin. Por otro lado, si lo que pretendemos es estudiar la asociaescalamiento multidimensional, estaremos ante una

cin entre variables, tal y como hacen los mtodos de regresin, el anlisis
multivariante de la varianza o el anlisis de correlaciones cannicas, hablaremos de una

tcnica de asociacin.

Por ltimo, si el objetivo es describir

cmo se clasican las observaciones en grupos predeterminados, como hacen

tcnicas de
clasicacin. Esta divisin de las tcnicas por objetivos, aunque no de forma

el anlisis discriminante y la regresin logstica, estaremos ante

literal, es la que ha dado nombre a las asignaturas de contenidos de Anlisis


Multivariante que aparecen en el Grado de Estadstica y Empresa.

1.3. Estadsticos Multivariantes


Esta seccin tiene por objeto introducir los estimadores multivariantes
ms importantes. Para ello vamos a considerar diversos casos: el primero
recoge la situacin en la que nos interesa el vector de variables de forma
completa, el segundo est relacionado con la divisin del vector original en
dos subvectores y el tercero trata con combinaciones lineales de variables del
vector aleatorio. Posteriormente estudiaremos como sintetizar en un nico
valor la dispersin total que tienen los datos multivariantes y el problema
de la multicolinealidad que aparece cuando las variables del vector aleatorio
presentan una alta relacin lineal entre ellas.

1.3.1. Estadsticos para el vector completo de variables


Consideremos un vector aleatorio

y = (y1 , , yp )

y supongamos que

n individuos denotada por y1 , . . . , yn ,

se puede
yi = (yi1 , . . . , yip ) , i = 1, . . . , n. El vector media muestral y

hemos obtenido una muestra sobre


donde

calcular de la forma:

1
=
yi = (
y1 , . . . , yp )
y
n
n

(1.1)

i=1

yj = n1 ni=1 yij . Por tanto, yj es la media muestral de la variable yj .


Las n observaciones vectoriales y1 , . . . , yn pueden ser transpuestas a vectores las y recogidas en la matriz de datos Y como sigue:


y1
y11 y12 y1j y1p
y y21 y22 y2j y2p

2
.. ..
.
.
.
.
.
.
. .
.
.
.

(1.2)
Y=
y = yi1 yi2 yij yip

i
.. ..
.
.
.
.
.
.
. .
.
.
.

yn1 yn2 ynj ynp


yn

donde

donde las las representan a las unidades y las columnas a las variables.
Puesto que

n es usualmente mayor que p, los datos son tabulados ms conve-

nientemente introduciendo las observaciones como las en lugar de columnas.

i corresponde a las unidades y el segundo j a


dadas en (1.1) podemos
y
la matriz de datos Y de la forma siguiente:

Ntese que el primer subndice

las variables. Aparte de las dos formas de calcular


tambin obtenerla a partir de

=
y
donde

j = (1, 1, . . . , 1)

(1.3)

o tomando transpuestas:

=
y
La media de

1
jY
n
1
Yj
n

(1.4)

sobre todos los posibles valores en la poblacin es deno-

minada vector de medias poblacional o valor esperado de

y se dene:

yj .

Se verica que:

E(y1 )
1
E(y2 ) 2


= E(y) = . = .
.. ..
E(yp )
p
donde

es la media poblacional de la variable

E(
y1 )
1
E(

y2 ) 2
E(
y) = . = . =
.. ..
E(
yp )
p
y, por tanto,

es un estimador insesgado de

las covarianzas muestrales:

s11 s12
s21 s22

S= .
.
.
..
.
sp1 sp2
La diagonal principal de
de las

matriz de varianzas-covarianzas muestral S = (sjk )

La

es la matriz de

s1p
s2p

.
.
.
spp

est conformada por las varianzas muestrales

variables, para las cuales suele utilizarse la notacin

sjj = s2j ,

mien-

tras que las covarianzas muestrales aparecen fuera de esta diagonal principal.
A

tambin se le denomina matriz de covarianzas y matriz de dispersin.

Existen tres formas para obtener

S.

La primera de ellas es elemento a ele-

mento:

1
1
=
(yij yj )(yik yk ) =
n1
n1
n

sjk

i=1

( n

i=1

)
yij yik n
yj yk

La segunda forma utiliza vectores de observaciones:

1
1
)(yi y
) =
S=
(yi y
n1
n1
n

i=1

yi yi

n
yy

i=1

S directamente a partir de Y. Para ello hay

Por ltimo, se puede obtener

que tener en cuenta que de (1.2) se verica:

y1
n
y

yi yi = (y1 , y2 , . . . , yn ) . = Y Y
..
i=1
yn

y que:

1 1
1 1

jj = J = . .
.. ..
1 1

1
1

.
.
.
1

y as, teniendo en cuenta (1.3) y (1.4), se sigue que:

=
n
yy

1
1
Y jj Y = Y JY
n
n

En consecuencia, de la segunda forma, se tiene que:

[
( ) ]
(
)
1
1
1
1

S=
YYY
J Y =
Y I J Y
n1
n
n1
n

S ya que hace
Y. Sin embargo, la matriz I J/n es n n
y puede suponer un alto coste computacional si n es grande.
)
(
1
4
Por otra parte, la expresin Yc = I J Y es la forma centrada de la
n
(
)
(
)

1
Y
. Por multiplicacin directa, es fcil demostrar que I J
I n1 J =
n
(matriz
)
I n1 J y as podemos expresar:
(
)
1
1
S=
Y I J Y
n1
n
(
) (
)
1
1
1

=
Y I J
I J Y
n1
n
n
1
Y Yc
(1.5)
=
n1 c
Esta ltima expresin es una representacin conveniente de

uso directo de la matriz de datos

4 Veamos que Yc es la versin centrada de Y, es decir, sus datos tienen media 0. Para
10

La matriz de covarianzas poblacional es denida:

11 12
21 22

= E[(y )(y ) ] = .
.
.
..
.
p1 p2
en donde los elementos diagonales

1p
2p

.
.
.
pp

jj = j2 = E(yj j )2

son las varianzas

poblacionales de las variables yj y los elementos fuera de la diagonal principal


jk = E[(yj j )(yk k )] son las covarianzas poblacionales de yj e yk ,
j, k = 1, . . . , p. Se verica adems que:

= E(yy )
Dado que
gado de

E(sjk ) = jk ,

entonces

E(S) =

es un estimador inses-

El tercer estadstico multivariante que vamos a estudiar es la matriz de


correlaciones. La correlacin muestral entre las variables
como:

La

yj

yk

se dene

sjk
sjk
=
rjk =
sjj skk
sj sk

matriz de correlaciones muestral

es anloga a la matriz de covarian-

zas en la que se sustituyen las covarianzas muestrales por sus respectivas

ello tengamos en cuenta que:

(
)
1
1
1
I J Y = Y JY = Y jj Y = Y j
y
n
n
n


y11 y12 y1p
1
y21 y22 y2p 1


= .
y1 , . . . , yp )
. (
..
..
..
.
. ..

Yc =

yn1

y11
y21

= .
..

yn2

y12
y22

..
.

ynp

1

y1p
y1
y1
y2p

.. ..
. .

yn1 yn2 ynp

y11 y1 y12 y2
y21 y1 y22 y2

=
..
..

.
.
yn1 y1

yn2 y2

11

y2
y2

..
.

y1 y2

y1p yp
y2p yp

..

ynp yp

yp
yp

..
.
yp

correlaciones muestrales:

1 r12
r21 1

R= .
.
.
..
.
rp1 rp2

r1p
r2p

.
.
.
1

La matriz de correlaciones puede obtenerse a partir de la matriz de covarianzas, y vice versa. Para ver esto, denamos:

s1 0

0 s2
Ds = diag( s11 , s22 , . . . , spp ) = diag(s1 , s2 , . . . , sp ) = .
.
.
..
.
0 0

0
0

.
.
.
sp

entonces:

1
R = D1
s SDs

S = Ds RDs
Z a la matriz de datos estandarizada, entonces Z = (zij ),
zij = (yij yj )/sj . Adems, se verica que Z = Yc D1
y la matriz
s
covarianzas de Z es la matriz de correlaciones de Y . Para demostrar esta
Denotemos por

con
de

armacin, utilizamos la tercera forma de clculo de la matriz de covarianzas:

[
( ) ]
1
1

ZZZ
J Z
Sz =
n1
n
1
=
Z Z
n1
Yc Yc 1
= D1
D
s
n1 s
1
= D1
s SDs = R

(ya que

(Z

=
n
zz

1
Z JZ = 0)
n

= Yc D1
s )

(por (1.5))

La matriz de correlaciones poblacional se dene como:

1 12
21 1

P = .
.
.
..
.
p1 p2
donde

jk =
Finalmente, indicar que

1p
2p

.
.
.
1

jk
j k

es un estimador sesgado de

12

P .

1.3.2. Ejemplo
El chero

europa contiene datos referidos a los porcentajes de empleados

en diferentes sectores productivos de 26 pases europeos en 1979. De este


chero hemos extrado las 10 primeras observaciones correspondientes a las
3 primeras variables. Los datos aparecen en la tabla adjunta en donde:
1. Agr: porcentaje de empleados en agricultura (y1 )
2. Min: porcentaje de empleados en minera (y2 )
3. Man: porcentaje de empleados en industria (y3 )

Pas

Agr

Min

Man

Belgium

3.30

0.90

27.60

Denmark

France

W. Germany

Ireland

Italy

7
8
9

United Kingdom

10

9.20

0.10

21.80

10.80

0.80

27.50

6.70

1.30

35.80

23.20

1.00

20.70

15.90

0.60

27.60

Luxembourg

7.70

3.10

30.80

Netherlands

6.30

0.10

22.50

2.70

1.40

30.20

12.70

1.10

30.20

Austria

Para obtener el vector de medias calculamos las medias por variable:

= (
y
y1 , y2 , y3 ) = (9.85, 1.04, 27.47). La matriz de varianzas-covarianzas
muestrales es:

38.38 0.69 12.69


0.72
2.26
S = 0.69
12.69 2.26
22.01
donde, por ejemplo, la covarianza

10

s23

se ha calculado de la forma:

yi2 yi3 = 0.9 27.6 + 0.1 21.8 + + 1.4 30.2 + 1.1 30.2 = 306.05

i=1
y as:

s23

1
=
10 1

10

i=1

)
yi2 yi3 10
y2 y3

1
(306.05 10 1.04 27.47) = 2.26
9

13

Teniendo en cuenta que:

0
38.38 0
Ds = 0
0.72 0
0
0
22.01

entonces:

1
R = D1
s SDs

1
0.13 0.43
1
0.56
= 0.13
0.43 0.56
1

1.3.3. Estadsticos para subconjuntos de variables


En ocasiones el investigador est interesado en dos clases diferentes de
variables, ambas medidas sobre el mismo conjunto de unidades muestrales.
Por ejemplo, diversas variables que miden el comportamiento del consumidor
son observadas para un grupo de personas durante un periodo de tiempo y se
desea estudiar la relacin entre tales variables en funcin del sexo del consumidor. Denotemos a los dos subvectores

y = (y1 , , yp ) y x = (x1 , , xq ) .

As, cada observacin muestral puede ser dividida de la forma:

yi1

..

( ) .
yip
yi

=
xi1 ,
xi

..
.
xiq
Para la muestra de

i = 1, . . . , n

observaciones vectoriales, el vector de medias y la

matriz de covarianzas pueden expresarse:

y1

..

( ) .
yp

=
x

1

..
.
x
q
donde
que

Syy

es

p p, Syx

es

p q , Sxy

(
y

q p y Sxx es q q . Ntese que, dado


Sxy = Syx . Por ejemplo, para p = 2 y

es

es simtrica, ha de vericarse

S=

Syy Syx
Sxy Sxx

14

q=3

se tiene que:

(
S=

Syy
Sxy

De esta forma,

y1
( ) y2

y
=
1
x

x
x
2
x
3

s2y1

) sy2 y1
Syx

= sx1 y1
Sxx

sx2 y1
sx3 y1
Syy

sy1 y2
s2y2

sy1 x1
sy2 x1

sy1 x2
sy2 x2

sx1 y2
sx2 y2
sx3 y2

s2x1
sx2 x1
sx3 x1

sx1 x2
s2x2
sx3 x2

es la matriz de covarianzas de

sy1 x3
sy2 x3

sx1 x3

sx2 x3
s2x3
Sxx

la matriz de

5
covarianzas de x, mientras que Syx es la matriz de covarianzas entre
Adems, ya que

syk xl = sxl yk ,

se tiene que

Sxy = Syx .

x.

Los correspondientes parmetros poblacionales pueden ser divididos anlogamente:

( ) (
) ( )
y
y
E(y)
E
=
=
x
E(x)
x
( )
(
)
y
yy yx
cov
==
x
xy xx
xy = yx .

p p que
y1 , . . . , yp y fuera de sta
a las covarianzas entre yk e yj para j, k = 1, . . . , p, con j = k . Similarmente
xx es la matriz de covarianzas de x1 , . . . , xq y tiene dimensiones q q . Por
ltimo, yx es p q y contiene las covarianzas de cada yj con cada xk . La
6
matriz yx es denotada tambin por cov(y, x) .
Si y y x son independientes entonces yx = 0. Esto signica que cada
yj est incorrelada con cada xk por lo que yj xk = 0 para j = 1, . . . , p y
k = 1, . . . , q .

donde

La submatriz

yy

es una matriz de covarianzas

contiene en su diagonal principal a las varianzas de

La extensin a ms de dos subconjuntos de variables es inmediata. Si el

5 Tambin denominada matriz de covarianzas cruzada de y y de x.


6 Ntese la diferencia de notacin entre: cov(y, x) = E[(y )(x

y
x ) ] = yx y
( )
y
cov
= . La primera involucra a dos vectores y la segunda implica a un vector nico
x
de p + q variables.

15

vector de observaciones

es dividido de la forma siguiente:

y1
y2

y= .
..
yk
y1 tiene p1 variables, y2 tiene p2 variables, ..., yk tiene pk variables
p1 + p2 + + pk = p, entonces esta particin induce otras en el vector

donde
con

de medias y en la matriz de covarianzas muestrales dadas por:

1
y
y

2
= .
y
..
k
y

Por ejemplo, la submatriz


covarianzas de las variables en

S11 S12
S21 S22

S= .
.
.
..
.
Sk1 Sk2

S1k
S2k

.
.
.
Skk

S2k tiene dimensiones p2 pk


y2 con las variables en yk .

y contiene las

Los correspondientes parmetros poblacionales pueden subdividirse de


igual forma:

1

2
= .
..
k

11 12
21 22

= .
.
.
..
.
k1 k2

1k
2k

.
.
.
kk

1.3.4. Ejemplo
Supongamos ahora que consideramos 2 variables adicionales del chero

europa tratado en el ejemplo anterior y que ahora las dividimos en dos grupos
de acuerdo al sector productivo al que pertenecen: primario (y) y secundario
(x). En concreto, consideramos las 5 variables siguientes y con los datos que
aparecen en la tabla posterior:
1. Agr: % de empleados en agricultura (y1 )
2. Min: % de empleados en minera (y2 )
3. Man: % de empleados en industria (x1 )
4. PS: % de empleados en las industrias suministradoras de energa (x2 )
5. Con: % de empleados en la construccin (x3 )

16

Pas

Agr

Min

Man

PS

Con

Belgium

3.30

0.90

27.60

0.90

8.20

Denmark

9.20

0.10

21.80

0.60

8.30

France

W. Germany

10.80

0.80

27.50

0.90

8.90

6.70

1.30

35.80

0.90

7.30

Ireland

23.20

1.00

20.70

1.30

7.50

Italy

15.90

0.60

27.60

0.50

10.00

Luxembourg

7.70

3.10

30.80

0.80

9.20

Netherlands

6.30

0.10

22.50

1.00

9.90

United Kingdom

2.70

1.40

30.20

1.40

6.90

12.70

1.10

30.20

1.40

9.00

10

Austria

Entonces:

(
S=

Syy
Sxy

Ntese que

y1
9.85
( ) y2 1.04

y
= 27.47
=
x

x
x
2 0.97
x
3
8.52

0.09
0.93
38.38 0.69 12.69
) 0.69
0.72
2.26
0.03 0.13

Syx
=
12.69
2.26
22.01
0.09 1.06

Sxx

0.09
0.03
0.09
0.09 0.15
1.13
0.93 0.13 1.06 0.15
Syy

Sxx

son simtricas y que

Syx = Sxy .

1.3.5. Combinaciones lineales de variables


En temas subsiguientes ser de inters la consideracin de combinaciones lineales de las variables

y1 , . . . , yp .

Por ejemplo, dos de los problemas

que involucran a funciones lineales interesantes sern: encontrar la combinacin lineal que maximice alguna funcin y determinar combinaciones lineales
que permitan comparar variables (por ejemplo,

y1 y3 ).

En esta seccin es-

tudiaremos la media, varianza y covarianza de una combinacin lineal de


variables.
Denotemos a una combinacin lineal de los elementos de

z = a y =

j=1

17

a j yj

de la forma:

donde
lineal

a = (a1 , a2 , . . . , ap ) es un vector de constantes.


es aplicada a cada yi en la muestra se tiene:

zi = a yi =

aj yij ,

Si esta combinacin

i = 1, . . . , n

j=1
La media muestral de los

zi

zi

puede obtenerse promediando los

o como una combinacin lineal de

valores

:
y

1
1

zi = a
yi = a y
z =
n
n
n

i=1

i=1

Similarmente, la varianza muestral de los

zi

puede obtenerse a partir de

la denicin de varianza muestral o directamente a partir de


de covarianzas de

a y S (la matriz

y1 , . . . , yn ):
n
(zi z)2
s2z = i=1
n1
n
)2
(a yi a y
= i=1
n n 1
)(a yi a y
)
(a yi a y
= i=1
n1
n
(y y
)(yi y
) a
a
i
= i=1
[ n n 1
]
)(yi y
)

i=1 (yi y
=a
a
n1
= a Sa

Puesto que una varianza es siempre no negativa, se tiene que

a Sa 0,

para cada

a.

Por tanto,

(1.6)

s2z 0 y as

es al menos semidenida positiva. Si las

variables son continuas y no estn relacionadas linealmente, y si


(por lo que

es de rango completo), entonces

n1 > p

es denida positiva (con

probabilidad 1).
Denamos otra combinacin lineal de

w=by=

de la forma:

b j yj

j=1
entonces la covarianza muestral de

szw =

i=1 (zi

es:

z)(wi w)

= a Sb
n1
18

(1.7)

y la correlacin muestral entre

es:

szw
a Sb
rzw =
=
(a Sa)(b Sb)
s2z s2w
Cambiemos la notacin de los vectores

a y b por a1

a2

para facilitar el

desarrollo posterior a ms de dos de tales vectores. Sea:

A=
y denamos:

( )
a1
a2

( ) ( )
a1 y
z
z=
= 1
a2 y
z2
( )
a1
z=
y = Ay
a2

entonces:

Si evaluamos esta transformacin en la muestra se tiene

1, . . . , n,

( ) ( ) ( )

z
a1 y
a1
= 1 =
= A
z
=
y
y

z2
a2 y
a2

La matriz de covarianzas de

(
Sz =

zi = Ayi , i =

y la media puede obtenerse:

s2z1
sz2 z1

sz1 z2
sz22

)
=

puede calcularse de la forma:

(
) ( )
a1 Sa1 a1 Sa2
a1
=
S(a1 , a2 ) = ASA
a2 Sa1 a2 Sa2
a2

Estos dos ltimos resultados pueden extenderse sencillamente a ms de


dos combinaciones lineales. Supongamos que tenemos las siguientes
formaciones lineales:

z1 = a1 y =

a1j yj

j=1

z2 = a2 y =

a2j yj

j=1
.
.
.

zk = ak y =

j=1

19

akj yj

trans-

o matricialmente:

donde

es

kp

la muestra se


z1
a1 y
a1
z 2 a y a
2 2
z = . = . = . y = Ay
.. .. ..
zk
ak y
ak

k p). Si evaluamos esta transformacin


tiene zi = Ayi , i = 1, . . . , n, y la media puede obtenerse:

z1
a1 y
a1

z2 a y
2 a2
= A
= . = . = . y
z
y
.. .. ..

ak
zk
ak y
(tpicamente

La matriz de covarianzas de

a1 Sa1 a1 Sa2
a Sa1 a Sa2
2
2
Sz = .
.
.
..
.

ak Sa1 ak Sa2

en

puede obtenerse ahora de la forma:


a1 Sak
a1

a2 Sak a2

= .. S(a1 , a2 , . . . , ak ) = ASA
.
.

.
.

ak Sak
ak

De esta ltima expresin se deduce que:

tr(ASA ) =

ai Sai

i=1
Todava podemos considerar una combinacin lineal algo ms general de
la forma:

zi = Ayi + b
con

i = 1, . . . , n

un vector constante, entonces:

= A
z
y+b
Sz = ASA

(1.8)
(1.9)

A continuacin esquematizamos la versin poblacional de estos resultados. La media poblacional de

z = a y

es:

E(z) = E(a y) = a E(y) = a


y su varianza poblacional:

z2 = var(a y) = a a
20

w = b y otra
de z y w es:

Sea
cional

combinacin lineal de

es:

zw = corr(a y, b y) =
Ay

entonces la covarianza pobla-

cov(z, w) = zw = a b

y la correlacin poblacional entre

Si

y,

a b
(a a)(b b)

representa diversas combinaciones lineales, entonces su vector de

medias y matriz de covarianzas poblacionales son:

E(Ay) = AE(y) = A
cov(Ay) = AA
La transformacin ms general

(1.10)

z = Ay + b

tiene vector de medias y

matriz de covarianzas poblacionales:

E(Ay + b) = AE(y) + b = A + b
cov(Ay + b) = AA
Por ltimo, si las las de
cin lineal

Cy + d,

(1.11)

C representan los coecientes de otra combina-

entonces

cov(Ay + b, Cy + d) = AC

(1.12)

1.3.6. Ejemplo
Consideremos de nuevo las 5 variables del ejemplo anterior obtenidas
del chero

europa.

Cambiemos la notacin para hacerla compatible con la

utilizada en esta seccin:

y1 =

Agr,

y2 =

Min,

y3 =

Man,

y4 =

PS e

y5 =

Con. Denamos la siguiente combinacin lineal:

z = 3y1 + 2y2 y3 + y4 + 4y5 = (3, 2, 1, 1, 4)y = a y


z para cada una de las 10 observaciones obtenemos: z1 = 17.8,
z2 = 39.8, z3 = 43, z4 = 17, z5 = 82.2, z6 = 61.8, z7 = 36.1, z8 = 37.2,
z9 = 9.7 y z10 = 47.5. Entonces su media es z = 39.21 y varianza s2z =
475.3454. Alternativamente, podemos utilizar el vector de medias y la matriz
Si calculamos

de covarianzas muestrales ya calculadas en el ejemplo anterior:

9.85
1.04

=
y
27.47
0.97
8.52

38.38 0.69 12.69 0.09


0.93
0.69
0.72
2.26
0.03 0.13

22.01
0.09 1.06
S=

12.69 2.26
0.09
0.03
0.09
0.09 0.15
0.93
0.13 1.06 0.15 1.13

21

9.85
1.04

= (3, 2, 1, 1, 4)
z = a y
27.47 = 39.21
0.97
8.52

entonces:

s2z = a Sa


38.38 0.69 12.69 0.09
0.93
3
0.69
2
0.72
2.26
0.03
0.13



22.01
0.09 1.06
= (3, 2, 1, 1, 4)
12.69 2.26
1 = 475.3454
0.09
0.03
0.09
0.09 0.15 1
0.93
0.13 1.06 0.15 1.13
4
Denamos ahora una segunda combinacin lineal:

w = y1 y2 2y3 + 2y4 + 3y5 = (1, 1, 2, 2, 3)y = b y


entonces su media muestral es

w
= 18.63

s2w =
= a Sb = 276.447.

y su varianza muestral es

b Sb = 215.6534. La covarianza muestral de z

es

szw

De esta forma, podemos calcular el coeciente de correlacin muestral entre

w:
szw
276.447
= 0.863
rzw =
=
2
2
475.3454 215.6534
sz sw
Consideremos ahora tres funciones lineales dadas por:

z1 = 2y1 2y2 2y3 + y4 3y5


z2 = y1 + y2 + 2y3 2y4 y5
z3 = 3y1 3y2 y3 2y4 4y5
que puede ser expresada matricialmente,

z = Ay,

de la forma siguiente:



y1

z1
2 2 2 1 3
y2

2 2 1 y3
z = z2 = 1 1

z3
3 3 1 2 4 y4
y5

y as, la media muestral puede ser calculada como:

9.85

61.91
2 2 2 1 3
1.04
55.37
= A
2 2 1
z
y = 1 1
27.47 =

37.06
0.97
3 3 1 2 4
8.52
22

y la matriz de covarianzas muestral de

puede obtenerse:

355.21 49.04 390.12


Sz = ASA = 49.04 86.32 6.69
390.12 6.69 457.80
Por ltimo, calculamos la matriz de correlaciones:

1
Rz = D1
z Sz Dz

1
0.28 0.96
1
0.03
= 0.28
0.96 0.03
1

donde


355.21 0
0
18.84
0
0
= 0
9.29
0
Dz =
86.32 0
0
0
0
21.39
0
0
457.80

1.3.7. Medidas de la variabilidad total y de multicolinealidad


La matriz de covarianzas contiene las varianzas de las

variables y las

covarianzas entre todos los pares de variables y es, por tanto, una representacin polifactica de la variacin total de los datos. A veces es deseable
disponer de un valor numrico nico para la dispersin multivariante global.
Una de tales medidas es la

varianza muestral generalizada, denida como el

determinante de la matriz de covarianzas:

|S|.

La varianza muestral generalizada tiene una interpretacin geomtrica.


La extensin de una elipse a ms de dos dimensiones es denominada hiperelipsoide o elipsoide simplemente. Un elipsoide de dimensin
en

y que utiliza

ecuacin:

S1

p,

centrado

para estandarizar las distancias al centro, tiene por

) S1 (y y
) = a2
(y y

y contiene una proporcin de las observaciones

y1 , . . . , yn

en la muestra .

Este elipsoide tiene ejes proporcionales a las races cuadradas de los autovalores de
a

|S|1/2 .

S.

Se puede demostrar que el volumen del elipsoide es proporcional

Si el autovalor ms pequeo

es cero, entonces no hay ningn eje

en la direccin determinada por ese autovalor, y el elipsoide se encuentra


completamente en un subespacio de dimensin
sin

p.

p1

del espacio de dimen-

En consecuencia, el volumen en el espacio de dimensin

7 De hecho, si y Np (, ), entonces (y ) 1 (y ) 2 (p).


8 Alternativamente, ya que |S| = 1 2 . . . p , entonces si p = 0, |S| = 0.
23

es cero .

Un autovalor nulo indica redundancia en la forma de la relacin lineal entre


las variables. Como veremos en el tema siguiente, el vector propio correspondiente al autovalor nulo revela la forma de la dependencia lineal. Una
solucin al dilema cuando

p = 0

es eliminar una o ms variables.

Otra medida de la variabilidad total es la


como la traza de

S: tr(S) =

varianza muestral total, denida

j=1 sjj . Esta medida ignora completamente

la estructura de covarianza pero es til en tcnicas tales como el anlisis de


componentes principales con propsitos de comparacin.

|S| y tr(S) son reejo de una amplia dis , mientras que valores pequeos indican
y
. En el caso de |S|, sin embargo, un valor extreconcentracin alrededor de y
madamente pequeo de |S| (o equivalentemente de |R|) puede indicar tanto
En general, valores grandes de

persin de

y1 , . . . , yn

en relacin a

pequea variabilidad como la existencia de

multicolinealidad,

trmino que

indica una alta dependencia lineal en un conjunto de variables. La multicolinealidad puede ser un problema serio que puede afectar gravemente a la
utilidad de la tcnica multivariante que se est usando. Puede ser debida
a unas altas correlaciones por pares o a una alta correlacin mltiple entre
una variable y diversas de las otras variables. Por tanto, en muchas ocasiones
es deseable obtener una medida global de la cantidad de intercorrelacin en
un conjunto de variables
recogidas en

y1 , y2 , . . . , yp ,

es decir, representar la correlaciones

mediante un nico nmero. Muchas de estas medidas suelen

R.

estar basadas en los autovalores de

El cociente entre el mayor autovalor

y el menor es el denominado nmero de condicin (un valor superior a 30


indica le presencia de multicolinealidad severa). Otra medida son los factores
de inacin de la varianza denidos como:

F IVj = rjj ,
donde

rjj

j = 1, . . . , p

son los elementos diagonales de

R1

(valores por encima de 5

son indicio de problemas por causa de la multicolinealidad). Por ltimo, una


medida comprendida entre 0 y 1 que utiliza los autovalores de
inversos de los autovalores de

R)

R1

(los

fue propuesta por Heo:

q2 = 1 p

j=1 1/j

donde ahora utilizamos

para denotar a los autovalores de

R.

Por ltimo, una forma de visualizar mediante un grco la informacin


recogida en

se consigue mediante una matriz de diagramas de disper-

sin. Este grco muestra todos los pares de diagramas de dispersin que
se pueden formar con las variables

y1 , y2 , . . . , yp .

En cada diagrama, un pa-

trn lineal en la nube de puntos es indicio de una alta relacin entre el par

24

de variables implicado y se corresponder con un alto valor absoluto de la


correlacin en la posicin correspondiente de

R.

1.3.8. Ejemplo
Calculemos las medidas de la variabilidad total para los 10 primeras
observaciones de las 5 variables del ejemplo anterior obtenidas del chero

europa.

Se tiene que la varianza muestral generalizada es:



38.38 0.69 12.69 0.09
0.93

0.69
0.72
2.26
0.03 0.13


22.01
0.09 1.06 = 25.74
|S| = 12.69 2.26
0.09
0.03
0.09
0.09 0.15

0.93
0.13 1.06 0.15 1.13
y la varianza muestral total:

tr(S) =

sjj = 62.35

j=1
Para estudiar la multicolinealidad calculamos en primer lugar la matriz
de correlaciones:

R = Ds1 SD1
s

1.00 0.13 0.43 0.04


0.14
0.13 1.00
0.56
0.14 0.14

1.00
0.06 0.21
= 0.43 0.56

0.04
0.14
0.06
1.00 0.47
0.14 0.14 0.21 0.47 1.00

que no maniesta ninguna correlacin por pares excesivamente alta. En la


gura 1.1 se muestra la matriz de diagramas de dispersin para las 5 variables. Aunque el tamao muestral es pequeo para visualizar con claridad
la existencia de patrones lineales, es evidente que la mayor asociacin lineal la presentan las variables Min y Man, en correspondencia con el valor

r32 = 0.56. El resto de diagramas de dispersin no presentan un patrn lineal


muy pronunciado.
Por otra parte, los valores propios de

3 = 0.88, 4 = 0.48

5 = 0.34.

son:

1 = 1.96, 2 = 1.33,

Entonces, el nmero de condicin es:

1
1.96
=
= 5.79
5
0.34

25

0.0

1.0

2.0

3.0

0.6 0.8 1.0 1.2 1.4

3.0

10 15 20

Agr

35

0.0

1.0

2.0

Min

1.4

25

30

Man

9.0 10.0

0.6

1.0

PS

7.0

8.0

Con

10

15

20

25

30

35

7.0

8.0

9.0

10.0

Figura 1.1: Matriz de diagramas de dispersin.

cuyo valor es moderado. Calculamos los factores de inacin de la varianza

F IV1 = r11 = 1.28,


= 1.33 y F IV5 = r55 =

a traves de la inversa de la matriz de correlaciones:

r22

r33

r44

F IV2 =
= 1.53, F IV3 =
= 1.86, F IV4 =
1.36, valores que se mantienen por debajo de 5. Por ltimo, el ndice de Heo:
q2 = 1 5

j=1 1/j

=1

5
= 0.324
7.4

maniesta un valor alejado de 1. En consecuencia, para estos datos la multicolinealidad no es un problema.

1.3.9. Distancia entre vectores


En un contexto univariante, la distancia entre dos puntos es simplemente
la diferencia en valor absoluto entre sus valores. Para propsitos estadsticos,
esta diferencia puede no ser muy informativa. En realidad, no deseamos conocer cuntos centmetros estn de alejadas dos observaciones, pero s cuntas
desviaciones tpicas distan entre s. Por ejemplo, consideremos una variable

N (0, 1)

x que dista dos unidades respecto al origen.


Se verica que P [0 X 2] = 0.4772. Por otro lado, consideremos otra
variable Y
N (0, 4) y otra observacin y que tambin diste dos unidades
respecto al origen. Ahora se tiene que P [0 Y 2] = 0.3413, indicando que
y est ms cerca del origen que x. Es decir, la distancia eucldea es incapaz
y una observacin

de reejar la verdadera distancia entre las observaciones ya que no tiene en


cuenta las desviaciones tpicas (X

=1
26

Y = 2).

De hecho,

dista dos

desviaciones estndares respecto de su media mientras que

est a una des-

viacin tpica de su media. Por tanto, nos interesa las distancias estadsticas
o estandarizadas de la forma:

d2 =

(xi xj )2
= (xi xj )( 2 )1 (xi xj )
2

2 es la varianza poblacional. En nuestro ejemplo, el punto x tiene una


2
distancia estadstica al cuadrado de d = 4 mientras que a y le corresponde
2
d = 1, lo que mantiene la desigualdad en probabilidades indicando que Y
est ms cercana a cero que X .
donde

Para obtener una distancia til en un marco multivariante debemos considerar no slo las varianzas de las variables si no tambin sus covarianzas o correlaciones. La distancia eucldea al cuadrado entre dos vectores

(yi yj ) (yi yj )

no es til en ciertas situaciones ya que no tiene en cuen-

ta las varianzas y las covarianzas. Para obtener una distancia estadstica


apropiada estandarizamos mediante la matriz de covarianzas:

d2 = (yi yj ) S1 (yi yj )
Otros ejemplos son:

D2 = (
y ) S1 (
y )
2 = (
y ) 1 (
y )
2 = (1 2 ) 1 (1 2 )
Esas distancias cuadrticas entre dos vectores fueron propuestas por primera vez por Mahalanobis en 1936 y son denominadas

distancias de Maha-

lanobis. Cuando la matriz de covarianzas es la identidad entonces la distancia de Mahalanobis se reduce a la distancia eucldea. Si una variable tiene
una varianza mayor que otra, recibe menor peso relativo en la distancia de
Mahalanobis. Similarmente, dos variables altamente correladas no contribuyen tanto como dos variables que estn menos correladas. En esencia, por
tanto, el uso de la inversa de la matriz de covarianzas en la distancia de
Mahalanobis tiene dos efectos:

i)
ii)

estandarizar todas las variables para que tengan la misma varianza y


eliminar las correlaciones.

Para ver esto, consideremos

y expresemosla de la forma:

(
)1
= (
y ) (
y ) = (
y ) 1/2 1/2
(
y )
[(
] [(
]
)
)
1
1
= 1/2
(
y )
1/2
(
y ) = z z
2

27

donde

(
(
)1
)1
(
)1
1/2
z = 1/2
(
y ) = 1/2
y

y as, aplicando

(1.11), se tiene que:

(
)1
(
)1 ( 1/2 )1 ( 1 )( 1/2 )1
1

= I
cov(z) = 1/2
cov(
y) 1/2
=
n
n
Por tanto, las variables transformadas z1 , . . . , zp estn incorreladas y cada
una tiene varianza 1/n. Si se utiliza la matriz de covarianzas apropiada en
la distancia de Mahalanobis, las varianzas se reducen a 1. Por ejemplo, si

cov(
y) = /n fuera utilizada en lugar de entonces obtendramos cov(z) =
I.

1.3.10. Ejemplo
Calculemos la distancia de Mahalanobis entre las dos primeras observaciones del chero

europa

para las 5 primeras variables. Se tiene que:

y1 y2 = (3.3, 0.9, 27.6, 0.9, 8.2) (9.2, 0.1, 21.8, 0.6, 8.3)
= (5.9, 0.8, 5.8, 0.3, 0.1)
entonces:

d2 = (y1 y2 ) S1 (y1 y2 )

38.38 0.69 12.69 0.09


0.93
5.9
0.69

0.72
2.26
0.03 0.13

0.8

22.01
0.09 1.06 5.8
= (5.9, 0.8, 5.8, 0.3, 0.1) 12.69 2.26

0.09
0.03
0.09
0.09 0.15 0.3
0.93
0.13 1.06 0.15 1.13
0.1

= 3.19
Sin embargo, la distancia eucldea al cuadrado proporciona:

5.9
0.8

D = (y1 y2 ) (y1 y2 ) = (5.9, 0.8, 5.8, 0.3, 0.1)


5.8 = 69.19
0.3
0.1
Ntese que el valor de

5.9

5.8,

D2

se debe fundamentalmente a dos coordenadas:

que una vez elevadas al cuadrado son las que contribuyen esen-

cialmente al resultado nal de la distancia. Sin embargo, en

d2

estos valores

se ponderan de acuerdo al valor de su varianza de tal forma que su contribucin se ve disminuida si sta es grande y esto es precisamente lo que ocurre
dado que

s21 = 38.38

s23 = 22.01.
28

1.4. Valores Perdidos


En ocasiones disponemos de un vector de observaciones en el que todos
los casos no estn completos, es decir, algunos valores estn ausentes para
una o ms variables. Por ejemplo, no es infrecuente que los entrevistados en
una encuesta se nieguen a declarar su nivel de ingresos, o que el entrevistador
no recoja una respuesta en la casilla adecuada o, simplemente, que la tasa
de paro no est disponible todava para el semestre que se analiza.
La distribucin de los valores faltantes en un conjunto de datos es una
cuestin importante. Los valores ausentes aleatoriamente distribuidos a lo
largo de la matriz de datos son menos problemticos que un patrn de valores ausentes que dependen hasta cierto punto de los valores de las variables
faltantes. Para entender el efecto que puede tener un patrn de valores perdidos consideremos el siguiente ejemplo: un investigador desea conocer cul
es la actitud de los jvenes hacia el tabaco. Para ello les pide que expresen
su acuerdo o desacuerdo con un conjunto de armaciones, entre ellas fumar
perjudica la salud y deben aumentarse los impuestos sobre el tabaco (la
escala de respuesta es 1=estoy en total desacuerdo, 5=estoy en total acuerdo), adems de identicar su hbito como fumador o no. Supongamos que
los valores ausentes se producen en la variable relacionada con aumentar los
impuestos sobre el tabaco. Si estos valores perdidos son aleatorio entonces
la media muestral de esta variable no debiera diferir sustancialmente de la
media de la muestra completa. Sin embargo, si los valores ausentes siguen
un patrn, por ejemplo, los fumadores se niegan a contestar en mucha mayor
medida que los no fumadores, quizs porque pueden pensar que la opinin
vertida en la encuesta puede tener alguna inuencia en la administracin y
puede conllevar una nueva subida del precio, entonces tal media se eleva articialmente (mayor valor ms acuerdo) ya que ellos, que precisamente estarn
en ms desacuerdo con la medida son los que principalmente no responden.
Hay tres casos importantes en los que se pueden clasicar los valores
faltantes:

Missing Completely At Random o

1. Ausentes completamente aleatorios (

MCAR): si la distribucin de las ausencias no depende ni de la parte


observada ni de la parte faltante, es decir, el mecanismo que genera
los datos faltantes no depende de las variables de inters ni de ninguna
otra variable que haya sido observada en el conjunto de datos.

Missing At Random

2. Ausentes aleatorios (

o MAR): si la distribucin

de las ausencias depende de la parte observada pero no de la parte


faltante. El trmino MAR es algo confuso ya que da a entender que las

29

ausencias ocurren por motivos aleatorios y, sin embargo, MAR realmente signica que existe una relacin sistemtica entre una o ms
variables observadas y la probabilidad de los valores perdidos.

Missing Not At Random

3. Ausentes no aleatorios (

o MNAR): si la dis-

tribucin de las ausencias depende tanto de la parte observada como


de la faltante.
Como ilustracin consideremos las variables edad e ingresos. Entonces los
datos son MCAR si la probabilidad de ausencias es la misma para todos los
individuos, independientemente de su edad o ingresos. Si la probabilidad de
que los ingresos estn ausentes varan de acuerdo a la edad del encuestado
(por ejemplo, ms ausentes cuanto mayor es la edad) pero no vara de acuerdo
a los ingresos de los encuestados con la misma edad (por ejemplo, para una
edad dada la distribucin de las ausencias es aleatoria), entonces las ausencias
en la variable ingresos son MAR. Sin embargo, si la probabilidad de que los
ingresos estn disponibles varan de acuerdo a los ingresos de aquellos con
la misma edad (por ejemplo, ms ausencias para altos ingresos que para
bajos ingresos en determinadas valores de edad), entonces las ausencias de
la variable ingresos son MNAR. Naturalmente, MNAR es difcil de detectar.
En la prctica suele ser difcil detectar el mecanismo que genera los valores
faltantes exactamente ya que esto precisara el conocimiento de los valores
perdidos.

1.4.1. Diagnstico de la aleatoriedad


Aunque la tentacin es asumir que los valores perdidos se han generado
de manera completamente aleatoria, las graves consecuencias para la investigacin de que esto no sea as obligan a desarrollar estrategias para determinar
si los valores ausentes son MCAR. El primer procedimiento para establecer si
los valores perdidos guardan o no un patrn sistemtico se basa en la lgica
de la investigacin. Si el patrn es sistemtico, los casos con valores perdidos debern tener un comportamiento distinto respecto de otras variables
que en los casos sin valores perdidos. Por ejemplo, como son los fumadores
quienes no han querido contestar principalmente a la pregunta de si deben
aumentarse los impuestos, es probable que los casos con valores perdidos
(principalmente fumadores) estn ms en desacuerdo con que, por ejemplo,
no se permita fumar en lugares pblicos que los casos sin valores perdidos.
Es evidente que el investigador no puede tener esta hiptesis a priori, y
deber comprobar qu variables se comportan de manera distinta en los dos
grupos para deducir la existencia o no de un patrn. De no existir variable

30

cuya media sea distinta en los casos con y sin valores perdidos habr que
asumir la aleatoriedad de los mismos. Para ello es necesario crear una variable
cticia por cada variable que presente valores ausentes tal que tomar el
valor 1 si el caso tiene un valor perdido en esta variable o 0 si no lo tiene.
A continuacin se contrasta si la media de otras variables (por ejemplo,
permitir o no fumar en lugares pblicos) es igual o distinta en el grupo de
casos con valores perdidos en relacin al grupo que no los tiene mediante un
estadstico

t-Student

para muestras independientes. Si se concluye que las

medias no son signicativamente distintas en ambos grupos para la mayora


de variables, entonces podramos decir que los valores perdidos no siguen un
patrn dado. De la misma forma, la signicacin del contraste para diversas
variables indicara la existencia de un patrn sistemtico, es decir, que los
datos son MAR o MNAR.
El enfoque de los tests t-Student tiene diversos inconvenientes a tener en
cuenta: la generacin de todos los posibles contrastes puede ser engorroso a
menos que se disponga de una software adecuado que automatice el proceso
(el mdulo de datos perdidos de SPSS los genera), los test no tienen en
cuenta la posible correlacin entre las variables, los errores tipo I pueden
inarse notablemente y puede haber grupos con muy pocos datos faltante
(lo que hace decrecer la potencia de los tests y en ocasiones imposibilita la
realizacin del test).
Una alternativa multivariante a los test

es el test MCAR de Little

que simultneamente evala las diferencias de medias sobre cada variable.


A diferencia de los tests

t,

el test MCAR de Little produce un test global

de MCAR sobre el conjunto completo de datos. Este test est disponible


en el mdulo de datos perdidos de SPSS. Similarmente a los tests

t,

evala

las diferencias de medias sobre subgrupos de casos que comparten el mismo


patrn de valores perdidos. El estadstico del test tiene la forma:

2M CAR

nj 2j

j=1
donde

nj

es el nmero de casos en el patrn

de datos perdidos y

una distancia de Mahalanobis calculada sobre el patrn

j.

2j

es

Este estadstico

2 ( j pj p), con pj el nmero


p el nmero total de variables.

se distribuye aproximadamente segn una


de variables completas para el patrn

Este test tambin adolece de un nmero de problemas, entre otros: no


identica la variable especca que viola MCAR y tiene baja potencia, especialmente cuando el nmero de variables que violan MCAR es pequeo.

31

1.4.2. Tratamiento
listwise deletion) y

El tratamiento ms sencillo es la eliminacin de las (

realizar el anlisis con las restantes. Un nmero pequeo de las con entradas
faltantes en la matriz de datos

no constituye un problema serio ya que

podemos simplemente descartar cada una de estas las que tengan valores
perdidos. De hecho, si existe aproximadamente un nmero de casos perdidos
inferior al 5 % del total de observaciones y pueden ser considerados MCAR,
entonces el mtodo de eliminacin por las es relativamente seguro. Sin embargo, con este procedimiento, una pequea proporcin de datos ausentes
que estn ampliamente distribuidos conducira a una substancial prdida de
datos. Por ejemplo, en un conjunto grande de datos con
nicamente un

1.5 %

de los

550 85 = 46750

n = 550 y p = 85, si

medidas estuvieran ausentes,

podran dar lugar a que casi la mitad de las las de

estuvieran incom-

pletas. Aunque la eliminacin por las a menudo produce un decremento


importante del tamao muestral disponible, tiene importantes ventajas. En
concreto, si los datos son MCAR conduce a estimadores insesgados.

pairwise deletion). Este

Una segunda opcin es la eliminacin por pares (

mtodo busca pares de variables y usa una observacin nicamente si tiene


valores para ambas variables. Las frecuencias, medias y desviaciones estndares son calculadas separadamente para cada par. Los elementos de la matriz
de correlaciones (o covarianzas) se calculan para todos los datos disponibles.
As, por ejemplo, si un encuestado informa de sus ingresos y antigedad en la
empresa pero no de su edad, ste es incluido en la correlacin entre ingresos
y antigedad pero no en las correlaciones que impliquen a edad. El problema
con este enfoque es que puede dar lugar a matrices de correlaciones que no
son denidas positivas. Adems, los anlisis pueden hacerse con diferentes
conjuntos de datos, con diferentes tamaos muestrales y con diferentes errores estndares. Por tanto, no es un mtodo muy aconsejable. En cualquier
caso, la aplicacin de este mtodo est condicionada al supuesto de que los
valores perdidos son MCAR.
La alternativa a la eliminacin es la

imputacin, es decir, sustituir el valor

ausente por alguna estimacin de su valor. Vamos a discutir dos mtodos de


imputacin. Ambos mtodos asumen que los valores faltantes ocurren aleatoriamente, es decir, son MCAR. Si la ocurrencia o no de los valores faltantes
est relacionada con los valores de las variables, entonces las tcnicas pueden
no estimar adecuadamente a estos datos perdidos.
El primer mtodo es sencillo: utilizar la media de los datos disponibles en
la columna correspondiente como estimacin del dato ausente. Reemplazar
una observacin por su media reduce la varianza y el valor absoluto de la

32

covarianza. Por tanto, la matriz de covarianzas muestral


tir de la matriz de datos

calculada a par-

con medias imputadas por valores faltantes es

sesgada. Sin embargo, es denida positiva.


La segunda tcnica es un enfoque de regresin. La matriz de datos

es dividida en dos partes, una que contiene a todas las las con entradas
faltantes y la otra con todas las las que estn completas. Supongamos que

yij

es la nica entrada ausente en la la

i-sima de Y. Entonces, utilizando


yj es regresada sobre las otras

los datos en la submatriz con las completas,

variables para obtener un modelo ajustado del tipo:

yj = 0 + 1 y1 + + j1 yj1 + j+1 yj+1 + + p yp


Entonces las entradas disponibles en la la

i-sima

son introducidas como

variables independientes en la ecuacin de regresin para obtener el valor


predicho

yij .

El mtodo de regresin normalmente proporciona mejores resultados que


el mtodo de las medias. Sin embargo, si las otras variables no estn altamente correladas con la que se pretende predecir, la tcnica de regresin es
esencialmente equivalente a imputar medias. El mtodo de regresin subestima las varianzas y las covarianzas, aunque en menor grado que el mtodo
basado en las medias.
Existen otros procedimientos ms modernos de imputacin como el algoritmo EM o la imputacin mltiple (que aparecen en el mdulo de imputacin mltiple de SPSS). No obstante, su estudio est fuera del alcance de
este curso. Los mtodos de eliminacin por las o por pares y los mtodo de
imputacin por la media o por regresin funcionan bien (proporcionan estimadores insesgados y consistentes de las covarianzas y correlaciones) cuando
los datos son MCAR. Si los datos no son MCAR se debe utilizar otros procedimientos, como la estimacin EM.

1.4.3. Ejemplo
Un suministrador de telecomunicaciones desea conocer el uso que hacen
sus clientes de los servicios prestados. Para ello dispone de una base de datos
de clientes de la que extrae una muestra al azar de 1000 de ellos que se recoge
en el chero

europa.

Las variables estudiadas fueron las siguientes:

1. servicio: meses de servicio


2. edad: en aos
3. tiempo: aos viviendo en la direccin actual

33

4. ingresos: ingresos del hogar en miles


5. empleo: aos en la empresa actual
6. personas: nmero de personas en el hogar
7. marital: estado civil (soltero/casado)
8. educacion: (ESO,Bachillerato,Diplomado,Licenciado,Mster)
9. jubilado: (si/no)
10. sexo: (hombre/mujer)
Se sabe que la base de datos est incompleta y se desea conocer si los
valores perdidos lo son por motivos aleatorios o existe un patrn para ellos.
La tabla 1.1 nos muestra algunas estadsticas univariantes: el nmero
de valores presentes por variable y el de valores perdidos. La columna de
porcentaje de valores perdidos muestra el porcentaje de casos con valores
ausentes y suministra una buena medida de comparacin de valores perdidos
entre variables, siendo la variable ingresos la que presenta el mayor nmero
de observaciones faltantes (17.9 %), mientras que edad es la que menos tiene
(2.5 %). As mismo, ingresos es la que tiene un mayor nmero de valores
extremos (71 por encima del lmite superior).
N

Media

Desv. tp.

Perdidos

o de extremos

Bajos

Altos

servicio

968

35.56

21.26

32

3.2

edad

975

41.75

12.57

25

2.5

tiempo

850

11.47

9.96

150

15.0

ingresos

821

71.14

83.14

179

17.9

71

empleo

904

11.00

10.11

96

9.6

15

personas

966

2.32

1.43

34

3.4

33

marital

885

115

11.5

educacion

965

35

3.5

jubilado

916

84

8.4

sexo

958

42

4.2

Nmero de casos fuera del rango (Q1 1.5 IQR, Q3 + 1.5 IQR)

Cuadro 1.1: Estadsticas descriptivas univariantes. Las variables indicadoras


con menos del 5 % de los valores perdidos no se muestran.

34

La tabla 1.2 [pg. 40] contiene los contrastes

y permite identicar las

variables cuyo patrn de valores faltantes puede estar inuenciado por variables cuantitativas. Se observa que los encuestados ms mayores son menos
propensos a informar de sus niveles de ingresos. Cuando un valor de ingresos
est perdidos, la edad media es 49.73, comparada con 40.01 cuando el dato
de ingresos est presente. De hecho, la ausencia de ingresos parece afectar
a las medias de diversas variables cuantitativas (todos los contrastes

son

signicativos). Esto es indicativo de que los datos no son MCAR.


La tabla 1.3 [pg. 41] muestra la tabulacin cruzada de las variables
categricas frente a las indicadoras dando una informacin similar a la proporcionada por los contraste

t.

En este caso, las variables indicadoras son

utilizas para calcular frecuencias en cada categora de la variable indicadora.


Los valores pueden ayudar a determinar si existen diferencias en valores perdidos entre categoras. Como ilustracin, a continuacin incluimos slo la de
jubilado. Se observa que los jubilados son poco propensos a informar de sus
ingresos en comparacin con los no jubilados: slo un 46.3 % de los jubilados
han aportado el dato de sus ingresos, mientras que el porcentaje de ellos que
no estn jubilados y han proporcionado sus ingresos fue de 83.7 %.
Por ltimo, realizamos el test MCAR de Little:

0).

2M CAR = 179.83 (p

Todo lo anteriormente expuesto conrma que los datos no pueden ser

considerados MCAR y, por tanto, los procedimientos explicados para tratar


los valores perdidos no pueden ser aplicados.

1.5. Observaciones atpicas


Los

outliers o casos atpicos son aquellas observaciones para las que una

o varias variables toman valores extremos que las hace diferir del comportamiento del resto de la muestra y hacen sospechar que han sido generadas
por mecanismos distintos. La deteccin de los valores atpicos es importante
por las consecuencias que pueden tener sobre el anlisis:

i)

distorsionan los resultados al oscurecer el patrn de comportamiento


de los dems casos y obtenerse resultados que, sin ellos, seran completamente distintos, y

ii)

pueden afectar a gravemente a la propiedad de normalidad, una de las


condiciones de aplicabilidad de muchas de las tcnicas de las tcnicas
multivariantes (especialmente las inferenciales).

De forma genrica, las causas que generan la existencia de valores atpicos


en un chero de datos se dividen en dos grupos: los ocasionados por errores

35

de los datos y los ocasionados por la inevitable y necesaria variabilidad de


esos datos. Ms especcamente, las causas pueden ser:

i)

errores en la recogida de los datos o en su introduccin en las bases de


datos,

ii)

errores intencionados en la respuesta al cuestionario por parte del entrevistado,

iii)

errores en el muestreo, que se concretan en introducir en la muestra a


individuos pertenecientes a una poblacin distinta a la objetivo,

iv)

casos pertenecientes a la poblacin objetivo que se desea muestrear


pero que por la variabilidad inherente a las muestras dieren del resto
de observaciones.

Posteriormente estudiaremos procedimientos univariantes y multivariantes para detectar esos valores atpicos. Una vez identicados la cuestin que
se plantea es qu hacer con ellos. La respuesta depende del tipo de

outlier.

Si se est seguro de que corresponde a un error en la introduccin de los


datos, se puede intentar corregir o imputar. Otra alternativa es su eliminacin. En el caso de una observacin atpica legtima, que no es producto de
un error, entonces la decisin es ms difcil ya que existe controversia en la
literatura. Existen distintas recomendaciones, aunque todas ellas tienen sus
detractores. Hay autores que deenden su eliminacin para que las conclusiones sean correctas para la mayora de la poblacin y otros que deenden
que la eliminacin es el ltimo recurso y que se puede intentar suavizar su
inuencia transformando las variables, lo que puede no tener sentido ya que
las variables originales pueden tener una unidad de medida lgica que se
pierde con la transformacin. Una alternativa es la utilizacin de procedimientos robustos especialmente diseados para amortiguar la inuencia de
estas observaciones.

1.5.1. Deteccin de casos atpicos


La deteccin de casos atpicos puede realizarse desde una perspectiva univariante (analizando si para una variable dada algunos casos toman valores
anormales) o multivariante (el vector de datos diere notablemente del centroide o vector media muestral). Ha de tenerse en cuenta que un caso puede
no tomar valores atpicos en dos variables consideradas individualmente, pero s hacerlo si se consideran conjuntamente. Por ejemplo, un ejecutivo con
poca experiencia puede ser una unidad muestral lgica en una investigacin y

36

un sujeto con un alto salario tambin, pero un ejecutivo con baja experiencia
y alto salario ser, con casi toda seguridad, un caso atpico.
El procedimiento univariante ms extendido es considerar atpicos aquellos casos cuyo valor estandarizado supere un valor determinado. En general,
se suele considerar atpico aquel valor que diste de la media ms de tres
desviaciones tpicas:

|yij yj | 3sj

o, equivalentemente,

|zij | 3.

Si la

distribucin fuera normal esto implicara que menos del 0.25 % de los casos
puede estar fuera de ese intervalo. Algunos autores recomiendan utilizar 2.5
en lugar de 3 para muestras de tamao moderado (menos de 80 casos).
Un procedimiento recomendado para la deteccin univariante de

outliers

es el test de Grubbs. Este contraste est basado en la hiptesis de normalidad


y contrasta la hiptesis nula de no existencia de valores atpicos entre los
datos. El estadstico de Grubbs es:

G=

|yij yj |
sj

y rechazaremos la hiptesis nula si:

v
u
t2n2,/2n
n 1u
t

G>
n
n 2 + t2n2,/2n

Una alternativa muy til a los procedimientos numricos de deteccin

boxplot). Este grco representa una caja

univariantes es un grco de caja (

en la que la base inferior es el primer cuartil


y entre medias se muestra la mediana

Q2 .

Q1 ,

la superior el tercero

Q3

Desde la base inferior y desde la

Q1
IQR = Q3 Q1 es

superior se trazan sendas lneas, denominadas bigotes, con longitudes

1.5 IQR

Q3 + 1.5 IQR,

respectivamente, y donde

el rango intercuartlico. Las longitudes de los bigotes son acortados bajo dos
supuestos: si el valor mnimo en los datos es superior a

Q1 1.5IQR entonces

el bigote inferior toma como extremo este valor mnimo, o si el valor mximo
en los datos es inferior a

Q3 + 1.5 IQR

en cuyo caso el bigote superior es

acortado hasta este mximo. Sin embargo, si existen valores en los datos que
superen el extremo del bigote superior o sean inferiores al extremo del bigote
inferior estaremos ante valores que son atpicos u

outliers.

En concreto, un

outlier extremo es aquel caso que est ms all de Q1 3IQR o Q3 +3IQR


outliers son casos que estn

y son marcados con una equis; mientras que los


ms all de

Q1 1.5 IQR

Q3 + 1.5 IQR

pero no son extremos y son

marcados con un crculo.


En muchos procedimientos no es tan problemtico que un caso sea atpico respecto a una variable sino respecto al conjunto de las que se incorporan

37

al anlisis. Ello hace necesario buscar un mtodo que contemple simultneamente todas las variables para determinar si algn caso tienen un comportamiento anmalo. Un procedimiento bastante intuitivo consiste en calcular
la distancia de cada caso al centroide del conjunto de los datos. Cuanto ms
lejos est un caso de la media de las observaciones, ms probable es que
sea un

outlier. La distancia habitualmente empleada para detectar los casos

atpicos es la de Mahalanobis:

Di2 = (yi j
yi ) S1 (yi j
yi ),

j = 1, . . . , n

o en forma vectorial:

D2 = diag{Yc S1 Yc } = (D12 , . . . , Dn2 )


Bajo hiptesis de normalidad multivariante se verica que

Di

2 (p)

(sin elevar al cuadrado). Para declarar a una observacin como atpica desde un punto multivariante conviene ser bastante conservador y slo hacerlo
cuando la probabilidad

Di 2p,0.01 ,

con

2p,0.01

el cuantil que deja una pro-

babilidad en la cola superior de 0.01.

1.5.2. Ejemplo
Consideremos de nuevo el chero

europa

con las 26 observaciones y es-

tudiemos los casos atpicos de las 3 primeras variables: Agr, Min y Man. En
la gura 1.2 aparece a la izquierda una representacin grca de los datos
tipicados para las tres variables. Se observa que nicamente la variable Agr
posee una observacin, la 18, que tipicada supera el valor de 3. Sin embargo, si reducimos los lmites a 2.5 dado el tamao de la matriz de datos,
entonces tambin se declarara a la observacin 18 de Man como atpica. A
la derecha aparecen los tres grcos de caja. La variable Min no posee casos
ms extremos que los bigotes. La variable Agr posee dos (la ms extrema es
la 18 y la menos la 26) y la variable Man una tambin en la observacin 18.
Realizamos con el paquete

outliers

de R el test de Grubbs para Agr:

G = 3.0662 (p = 0.00825), declarando a la observacin y18,1 = 66.8


atpica. Para Man: G = 2.7266 (p = 0.0413) declarando a y18,3 = 7.9

como
como

atpico. Por ltimo, Min no posee valores atpicos. Observando, el chero de


datos se detecta que el caso 18 corresponde a Turqua que posee un porcentaje
de empleados en la agricultura muy alto y un porcentaje de empleados en
industria muy bajo en relacin al resto de pases europeos.
Desde una perspectiva multivariante, calculamos las distancias de Mahalanobis

Di , i = 1, . . . , 26,

y las representamos en la gura 1.3 junto con el

38

10

20

30

40

50

60

Agr
Man
Min

10

15

20

25

Agr

Min

Man

Figura 1.2: Izqda: Grco de valores tipicados. Dcha: Grcos de caja.

cuantil de una

23,0.01 .

Se puede observar que ninguna supera la lnea pun-

6
0

D_i

10

12

teada que representa el valor de este cuantil.

10

15

20

25

casos

Figura 1.3: Distancias de Mahalanobis y lnea discontinua con altura igual


al cuantil

23,0.01 .

39

tiempo

t
gl

ingresos

ingr.

emp.

pers.

3.5

1.4

1.0

192.5

313.6

191.1

199.5

819

832

850

693

766

824

no perdido

149

143

128

138

142

Media(pres.)

35.68

41.79

11.47

74.07

11.20

2.34

Media(perd.)

34.91

41.49

55.27

9.86

2.21

no perdido

5.0

8.3

3.9

5.9

3.6

249.5

222.8

191.1

203.3

315.2

793

801

693

821

741

792

175

174

157

163

174

Media(pres.)

33.93

40.01

10.67

71.14

9.91

2.39

Media(perd.)

42.97

49.73

14.97

15.93

2.02

1.0

.4

.7

.5

.3

110.5

110.2

97.6

114.9

110.9

877

881

766

741

904

874

91

94

84

80

92

Media(pres.)

35.34

41.69

11.37

71.49

11.00

2.31

Media(perd.)

37.70

42.27

12.32

67.91

2.37

.0

1.8

1.2

.8

.9

2.2

148.1

149.5

138.8

121.2

128.3

134.2

856

862

748

728

805

857

gl
no pres.
no perdido

t
gl
no pres.
no perdido

jubilado

tiem.

.3

202.2

no pres.

marital

edad

.4

no pres.

gl

empleo

serv.

112

113

102

93

99

109

Media(pres.)

35.56

42.00

11.61

70.38

11.10

2.28

Media(perd.)

35.57

39.85

10.43

77.07

10.17

2.61

.6

.4

.4

.3

.2

95.4

94.4

84.0

93.2

99.0

888

893

777

751

904

885

80

82

73

70

81

Media(pres.)

35.44

41.70

11.42

71.33

11.00

2.32

Media(perd.)

36.89

42.29

11.96

69.11

2.30

gl
no pres.
no perdido

Cuadro 1.2: Contrastes t. Las variables indicadoras con menos del 5 % de los
valores perdidos no se muestran.

40

Jubilado
Total
tiempo

ingresos

empleo

Presente

Recuento

Perdidos

850

744

33

73

Porcentaje

85.0

85.0

80.5

86.9

Perdidos

% perd. sistema

15.0

15.0

19.5

13.1

Presente

Recuento

821

732

19

70

Porcentaje

82.1

83.7

46.3

83.3

Perdidos

% perd. sistema

17.9

16.3

53.7

16.7

Presente

Recuento

904

864

40

90.4

98.7

97.6

.0
100.0

Porcentaje
marital

No

Perdidos

% perd. sistema

Presente

Recuento

Perdidos

9.6

1.3

2.4

885

777

38

70

Porcentaje

88.5

88.8

92.7

83.3

% perd. sistema

11.5

11.2

7.3

16.7

Cuadro 1.3: Tabulacin cruzada de la variable jubilado. Las variables indicadoras con menos del 5 % de los valores perdidos no se muestran.

41

Captulo 2

Anlisis de Componentes
Principales
2.1. Introduccin
El Anlisis de Componentes Principales (ACP) es la primera tcnica de
interdependencia que vamos a estudiar. Es decir, es una tcnica que utiliza
una nica muestra en la que los datos no se encuentran previamente clasicados en grupos y en la que las variables tampoco estn divididas en dos
subconjuntos (no existen variables dependientes e independientes). As mismo, es una tcnica de reduccin de la dimensin ya que trata de reducir el
nmero de variables en el anlisis mediante la construccin de nuevas variables obtenidas como combinaciones lineales de las variables originales y de
tal forma que expliquen la mayor parte de la informacin recogida en stas.
En otras palabras, las combinaciones lineales maximizan la varianza y estn
incorreladas entre s.
En concreto, la primera componente principal es la combinacin lineal
de las variables de mxima varianza, es decir, dene una nueva dimensin
en la que las observaciones estn separadas de forma mxima. La segunda
componente principal es la combinacin lineal con mxima varianza en una
direccin ortogonal a la primera componente principal. En general, la componentes principales denen nuevas dimensiones ortogonales entre s de forma
que cada una de ellas separan mximamente a las observaciones. La informacin que incorporan las componentes principales relativa a las variables
originales es decreciente, es decir, la primera es la que mayor informacin
contiene, a la que le sigue la segunda en orden de importancia por informacin contenida y as sucesivamente.

42

Esta tcnica tiene un gran inters. En ocasiones el investigador se enfrenta


a situaciones en las que, para analizar un fenmeno, dispone de informacin
de muchas variables que estn correladas entre s en mayor o menor grado.
Estas correlaciones son como un velo que impide evaluar adecuadamente el
papel que juega cada variable en el fenmeno estudiado. El ACP permite pasar a un nuevo conjunto de variables, las componentes principales, que gozan
de la ventaja de estar incorreladas entre s y que, adems, pueden ordenarse
de acuerdo con la informacin que llevan incorporada (medida a travs de
su varianza). El nuevo conjunto de variables que se obtiene por el mtodo
de componentes principales es igual en nmero al de variables originales.
Adems, la suma de sus varianzas es igual a la suma de las varianzas de las
variables originales. La diferencia entre ambos conjuntos de variables es que,
como hemos ya indicado, las componentes principales son incorreladas y estn ordenadas de acuerdo a su varianza. Si las variables originales estuviesen
muy correladas entre s, entonces la mayor parte de su variabilidad se puede
explicar con muy pocas componentes principales y la reduccin de dimensin
que consigue el ACP es muy efectiva. Por otro lado, cuando la correlacin es
baja la reduccin de dimensin no es tan efectiva ya que se necesitan muchas
componentes principales para explicar la mayor parte de la variabilidad.
El uso del ACP en aplicaciones puede ser de dos formas: como un n
en s misma ya que tiene una interpretacin interesante o como apoyo a
otras tcnicas estadsticas. Ejemplos de aplicacin en otras tcnicas son los
siguientes:

i) Regresin:

para reducir el nmero de variables independientes a un

nmero inferior de componentes principales si su nmero es muy grande


en relacin al nmero de observaciones o si las variables independientes
presentan altas correlaciones (el problema de multicolinealidad). En
estas situaciones los tests pueden ser inecientes o incluso imposibles y
la reduccin de dimensin que consigue el ACP proporcionar mejores
estimaciones de los coecientes de regresin y tests ms conables.

ii) MANOVA: para reducir el nmero de variables dependientes cuando su


nmero est cercano o supera a los grados de libertad del error. Cuando
esto ocurre los tests tienen baja potencia o no pueden realizarse. En
tales casos reemplazamos las variables dependientes por un nmero
ms pequeo de componente principales y realizamos los tests.

iii) Anlisis cluster: para estudiar la posible agrupacin natural de los casos
sobre un diagrama de dispersin construido sobre las dos primeras
componentes principales.

43

iv) Outliers:

para evaluar la posicin de los casos sobre un diagrama de

dispersin construido sobre las dos primeras componentes principales.

v) Otros procedimientos:

en cualquier otro mtodo multivariante en el

que un nmero elevado de variables o las altas correlaciones entre ellas


impida realizar con conanza el anlisis.

2.2. Componentes principales a partir de la matriz


de covarianzas
Consideremos una muestra de
aleatorio

y = (y1 , . . . , yp )

observaciones

y denotemos por

y1 , . . . , yn

de un vector

a su vector de medias y a

su matriz de covarianzas, respectivamente. En muchas ocasiones el estudio


directo de las relaciones de las variables contenidas en el vector
ticable dado que la dimensin

es imprac-

del espacio que las contiene es demasiando

grande. El ACP tiene por objeto la construccin de un vector aleatorio alternativo

i)

z = (z1 , . . . , zp )

las variables

zi

con las siguientes caractersticas:

son combinaciones lineales de

zi = ai1 y1 + ai2 y2 + + aip yp ,

ii)

las variables

iii) z1

zi

son incorreladas:

szi zj = 0,

y1 , , y p :
i = 1, . . . , p

para

i = j ,

es la combinacin lineal de mxima varianza.

z2

es la combinacin

lineal con mxima varianza en una direccin ortogonal a

z1 . z3

es la

combinacin lineal con mxima varianza en una direccin ortogonal


tanto a

z1

como a

z2 .

As, sucesivamente. En consecuencia:

s2z1 s2z2 s2zp

iv)

la variabilidad total de las observaciones es igual a la suma de las


varianzas de las componentes principales:

tr(S) =

j=1

s2j

s2zj

j=1

y1 , . . . , yp por un conjunto de variaz1 , . . . , zp , que contienen la misma informacin global que las anteriores,

De esta forma, estamos sustituyendo


bles

que no comparten informacin entre ellas y que pueden ser ordenadas en

44

cuanto a la cantidad de variabilidad o informacin que aportan. Para con-

p debemos elegir un
k < p de estas variables tal que contengan la mayor

seguir una reduccin efectiva de la dimensin original


subconjunto formado por

parte de la variabilidad muestral total. Evidentemente, dada la ordenacin


en varianza que presentan, este subconjunto ser de la forma:
cuestin de la eleccin de

z1 , . . . , zk .

La

ser tratada ms adelante.

Tal y como hemos indicado anteriormente, buscamos una combinacin li-

z = a y ,
2

(1.6) [pg. 18] sabemos que su varianza muestral es sz = a Sa.


puede ser planteado de la forma siguiente: calcular a tal que

neal con mxima varianza. Denotemos a esta combinacin lineal por


entonces por
El problema

a Sa

sea mxima. El problema as formulado no puede ser resuelto si no se

a alguna restriccin. Modicamos, por tanto, el planteamiento


a con a a = 1 que proporcione

de a Sa. Con esta restriccin maximizar a Sa es equivalente a

impone sobre

del problema de la siguiente forma: buscar


el mximo
maximizar:

a Sa
a a .

un valor de esta

no es posible ya que proporcionara:

= a Sa/a a =

Vamos a resolver heursticamente este problema. Sea


funcin:

a Sa
a a

Esta expresin puede ser escrita de la forma:

a Sa = a a
La solucin

0/0.

a = 0

a (Sa a) = 0

Otras soluciones se obtienen de:

(Sa a) = 0

(S I)a = 0

1 2 p y los autovectoa1 , . . . , ap de S. Por tanto, el mximo valor de es el autovalor


ms grande 1 . El vector propio normalizado a1 asociado a 1 proporciona

los coecientes en la combinacin lineal z1 = a1 y que tiene mxima varianza.

Adems, verica a1 a1 = 1.

A z1 = a1 y se le denomina primera componente principal y es la combiCuyas soluciones son los autovalores

res asociados

nacin lineal de las variables de mxima varianza. La segunda componente


principal es la combinacin lineal con mxima varianza en una direccin or-

z2 = a2 y, siendo
la i-sima compo-

togonal a la primera componente principal y viene dada por

a2

2 . En general,
zi = ai y con mxima varianza en una
componentes anteriores zj , j = 1, . . . , i 1,

el autovector normalizado asociado a

nente principal es la combinacin lineal


direccin ortogonal a todas las

45

siendo

ai

el autovector normalizado asociado a

i .

A los coecientes

denen las componentes principales se les denomina cargas o

ai

loadings.

que

De forma matricial, considerando la descomposicin espectral de la ma-

S = CDC ,

donde D = diag(1 , . . . , p ) con i los


S y C es la matriz ortogonal cuyas columnas son los autovec
tores ai normalizados (ai ai = 1) asociados, se denen el vector de componentes principales de S, z = (z1 , . . . , zp ) , como las variables transformadas:
z = C y.

triz de covarianzas:
autovalores de

Las componentes principales tienen las siguientes propiedades:

1 , . . . , p de S son las varianzas muestrales de las

principales zi = ai y, i = 1, . . . , p, es decir, teniendo en

1. Los autovalores
componentes

cuenta (1.6) [pg. 18] se verica que:

s2zi = ai (Sai ) = ai (i ai ) = i ai ai = i

(2.1)

2. Las componentes principales estn incorreladas. Consideremos dos com-

zi = ai y y zj = aj y, con i = j . Puesto que S es

simtrica entonces ai aj = 0 y aplicando (1.7) [pg. 18] se tiene que:


ponentes principales,

szi zj = ai (Saj ) = ai (j aj ) = j ai aj = 0
z1 = a1 y tiene la mayor varianza

ap y la ms pequea (p ). En general,

3. La primera componente principal


muestral (1 ) y la ltima
dado que

zp =
1 2 p y aplicando

(2.1) se tiene que:

s2z1 s2z2 s2zp


4. Las componentes principales contienen toda la variabilidad de las observaciones originales:

tr(S) =

s2j =

j=1

j =

j=1

s2zj

j=1

El hecho de que los autovalores sean las varianzas de las componentes


principales y que su suma represente a la variabilidad total, permite hablar
de la proporcin de varianza explicada por las primeras

% de varianza explicada

46

j
pj=1
j=1 j

componentes:

k
=

j=1 j

tr(S)

(yi1 , yi2 , . . . , yip ) que tie(zi1 , zi2 , . . . , zik ) que expli-

Por tanto, tratamos de representar los puntos


nen dimensin

con unas pocas componentes

quen una gran proporcin de la varianza total. Si unas pocas componentes tienen varianzas relativamente grandes, su peso en la variabilidad total

tr(S) =

j=1 j

2
j=1 szj ser desproporcionado y sus ponderaciones en

las combinaciones lineales que denen las componentes ser tambin despro-

s2z2 = 2 es mucho mayor que las siguientes


2
2
varianzas sz , . . . , sz , entonces en z1 = a11 y1 + a12 y2 + + a1p yp , el coep
3

porcionadas. Por ejemplo, si


ciente

a12

ser grande y los otros

a1j

pequeos.

En el caso de que las variables estn altamente correladas, la dimensin


esencial es mucho ms pequea que

ya que unos pocos de los primeros

autovalores sern grandes y el porcentaje de varianza explicada estar proximo a 1 para un valor pequeo de
las variables son todas pequeas,

k . Por otro lado, si las correlaciones entre


la dimensin esencial estar cercana a p

y los autovalores sern muy parecidos entre s. En esta ltima situacin, la


utilidad de las componentes principales es pequea y no se consigue una reduccin de la dimensin apreciable. En el caso extremo en que las variables
estuviesen incorreladas entonces las componentes principales coinciden con

las variables .
Las componentes principales no son invariantes ante cambios de escala
y, por tanto, las unidades de medida de las variables inuyen sobre ellas. Si
es posible, todas las variables deben estar medidas en las mismas unidades.
Si las variables tienen varianzas muy dispares, se pueden estandarizar antes
de extraer los valores y vectores propios. Esto es equivalente a determinar
las componentes principales de la matriz de correlaciones

y ser tratado

posteriormente. El que una variable tenga una varianza mucho mayor que el
resto de variables provoca que la nube de puntos sea alargada y aproximadamente paralela al eje correspondiente a la variable con varianza grande.
La primera componente principal representar en gran medida a esa variable
y las otras componentes principales tendrn varianzas despreciables. Estas
componentes principales que se han calculado en base a
otras

p1

no implican a las

variables y es preferible analizar la matriz de correlaciones

R.

1 Supongamos que las p variables estn incorreladas, entonces S = diag(s11 , . . . , spp ) y


la ecuacin caracterstica sera:
0 = |S I| =

(sii )

i=1

que tiene por soluciones i = sii , i = 1, . . . , p, y ai = (0, . . . , 0, 1, 0, . . . , 0). Por tanto, la


i-sima componente es zi = ai y = yi .

47

2.2.1. Interpretacin geomtrica


Para entender intuitivamente como se construyen las componentes principales vamos a visualizar geomtricamente el problema. Para ello, y aunque
el ACP puede ser aplicado a cualquier distribucin de
que la nube de puntos representada por
las variables

y1 , y 2 , . . . , yp

en

y1 , . . . , yn

y,

vamos a suponer

tiene forma elipsoidal. Si

estn correladas, entonces la nube de puntos

elipsoidal no est orientada en paralelo a ninguno de los ejes representados


por

y1 , y 2 , . . . , yp .

El objetivo es encontrar los ejes naturales del elipsoide

denido por la nube de puntos centrado en la media


trasladando el origen a

.
y

Esto se consigue

y rotando entonces los ejes. Las nuevas variables

denidas tras la rotacin para que los ejes se conviertan en los ejes naturales
del elipsoide estarn incorreladas y son las componentes principales
La traslacin del origen a

se consigue centrando los datos

A partir de ahora supondremos que los datos

yi

zi .
.
yi y

ya estn centrados para

economizar la notacin. Los ejes puede ser rotados multiplicando cada


por una matriz ortogonal

(A

= I)

A: zi = Ayi .

El hecho de que

yi

sea ortogonal

hace que la distancia al origen permanezca inalterada:

zi zi = (Ayi ) (Ayi ) = yi A Ayi = yi yi


Por tanto, una matriz ortogonal transforma

yi

a un punto

zi

que est

a la misma distancia desde el origen y tal que los ejes estn efectivamente
rotados.
Determinar los ejes del elipsoide es equivalente a encontrar la matriz
ortogonal

que rota los ejes para alinear con las extensiones naturales de

la nube de puntos para que las nuevas variables, las componente principales,

z1 , z2 , . . . , zp ,

en

z = Ay

matriz de covarianzas de

estn incorreladas. De esta forma, queremos que la

sea diagonal:

2
s z1
0

Sz = ASA = .
..
0

0
sz22

...
...

...

.
.
.

0
0

.
.
.
szp2
S. La desS = CDC , proporciona
de S se consigue as:

es decir, debemos considerar un procedimiento para diagonalizar


composicin espectral de la matriz de covarianzas,
una diagonalizacin apropiada. La diagonalizacin

D = C SC

48

y la matriz ortogonal

donde

ai

es el

i-simo

S es

a1
a
2
A = C = .
..
ap

que diagonaliza

autovector normalizado de

S.

2.2.2. Ejemplo
p = 2 vamos a utilizar
y2 = Man del chero europa con el total de 26
= (
que y
y1 , y2 ) = (19.130, 27.007) y la matriz de
(
)
241.69 73.11
S=
73.11 49.10

Para ilustrar el ACP cmo una rotacin cuando


las variables

y1 =

Agr e

observaciones. Se tiene
covarianzas es:

Los valores y vectores propios de

son:

1 = 266.30 a1 = (0.94, 0.32)


2 = 24.49 a2 = (0.32, 0.94)
El patrn simtrico de los autovectores es debido a su ortogonalidad:

a1 a2 = 0.

En la gura 2.1 a la izquierda aparece el diagrama de dispersin

de los datos originales y los nuevos ejes (en lneas discontinuas) que denen
las componentes principales. Ntese que ha producido una traslacin de los
ejes de forma que ahora es el centroide

= (19.130, 27.007)
y

el origen de

coordenadas y una rotacin que alinea a los nuevos ejes con las extensiones
naturales de la nube de puntos. Adems, el eje correspondiente a la primera
componente principal, en lnea discontinua azul, tiene la mayor variabilidad.
Finalmente, para calcular los valores de las componentes principales realizamos las siguientes operaciones:

zi1 = 0.94yi1 + 0.32yi2


zi2 = 0.32yi1 0.94yi2

scores)

a estos valores se les denomina puntuaciones (

de las componentes

principales. En la gura 2.1 a la derecha aparece el diagrama de dispersin


de las componentes principales, tambin denominado grco de puntuaciones
de componentes principales.

49

6
4

80

60
40

20

z2

40
20

Man

10 20 30 40 50 60

2 1

Agr

z1

Figura 2.1: Izqda.: Diagrama de dispersin de los datos originales y ejes


denidos por las componentes principales. Dcha.: Grco de puntuaciones
de componentes principales.

2.2.3. Ejemplo
Consideremos las 26 observaciones correspondientes a las 5 variables
(Agr, Min, Man, PS y Con) del chero

europa.

Calculemos su matriz de

covarianzas:

241.69 0.53 73.11 2.33 13.77


0.53
0.94
3.02
0.14
0.04

49.10
1.01
5.70
S = 73.11 3.02

2.33
0.14
1.01
0.14
0.03
13.77 0.04
5.70
0.03
2.70

50

y la varianza muestral total:

tr(S) =

sjj = 294.59

j=1
Obsrvese que el valor de la varianza total est dominado por dos cantidades

s11 = 241.69

s33 = 49.10,

es decir, las variables Agr y Man poseen

unas varianzas mucho mayores que el resto. Veamos qu efecto tiene este
hecho sobre el ACP.

S, el porcentaje que cada autovalor representa en rela100, y la varianza explicada acumulada en porcentaje

Los autovalores de

cin a la suma, 5

j=1

aparecen en la siguiente tabla:


varianza

varianza acumulada

explicada ( %)

explicada ( %)

267.16

90.69

90.69

24.92

8.46

99.15

1.86

0.63

99.78

0.54

0.18

99.97

0.08

0.02

100.00

La primera componente principal logra explicar un


bilidad total y la segunda un
el

99.15 %

8.46 %.

90.69 %

de la varia-

Las dos conjuntamente logran explicar

de la variabilidad total dada por

tr(S) =

j=1 j

= 294.59.

Los

vectores propios asociados a las dos primeras componentes principales son:

a1 = (0.946, 0.001, 0.318, 0.009, 0.056)


a2 = (0.319, 0.125, 0.938, 0.009, 0.042)
por lo que estas dos componentes son:

z1 = a1 y = 0.946y1 0.001y2 0.318y3 0.009y4 0.056y5


z2 = a2 y = 0.319y1 + 0.125y2 + 0.938y3 + 0.009y4 + 0.0426y5
Obsrvese que los coecientes ms grandes en

z1 y z2 , resaltados en negri-

ta, corresponden a las dos variables que tienen mayor varianza en la diagonal
de

S.

En otras palabras, las variables

y1

y3

tienen una notable inuencia

sobre las componentes llegando stas a casi reproducir exclusivamente la informacin recogida en

y1

y3 .

Este efecto se magnica cuanto mayor sea la

diferencia en varianzas de unas variables en relacin al resto. El mismo problema aparece en datos con diferentes unidades de medida (nuestros datos

51

no presentan esta caracterstica ya que estn expresados en porcentajes). En


ambas situaciones es preferible calcular las componentes principales sobre la
matriz de correlaciones

R.

2.3. Componentes principales a partir de la matriz


de correlaciones
En general, la extraccin de componentes a partir de

S en lugar de R est

ms cercana al espritu y objetivo del ACP, especialmente si las componentes


van a ser utilizadas en clculos adicionales. Sin embargo, en algunos casos las
componentes principales sern ms interpretables si se usa

R.

Por ejemplo,

si las varianzas dieren notablemente o si las unidades de medida no son


iguales entonces las componentes principales de

S estarn dominadas por las

variables con las varianzas ms grandes, contribuyendo el resto de variables


muy poco. En estos casos, se obtiene una representacin ms equilibrada
utilizando las componentes de

R.

Como ocurre con cualquier cambio de escala, la estandarizacin produci-

S a R producir un cambio en la forma


embargo, una vez transformadas para producir R,

da en las variables al transformar de


de la nube de puntos. Sin

cualquier otro cambio de escala sobre las variables no afectar a las componentes ya que los cambios de escala no tienen efecto sobre
componentes principales de

R.

Por tanto, las

son invariantes ante cambios de escala.

Para ilustrar cmo los valores y vectores propios cambian al pasar de


a

R,

consideremos el siguiente ejemplo sencillo en el que:

S=

(
)
1 4
4 25

(
R=

Los valores y vectores propios de

)
1 0.8
0.8 1

son:

1 = 25.65 a1 = (0.160, 0.987)


2 = 0.35 a2 = (0.987, 0.160)
El patrn simtrico de los vectores propios es debido a su ortogonalidad:

a1 a2

= 0. La gran varianza de y2

en

S es reejada en la primera componente

principal:

z1 = 0.160y1 + 0.987y2
z2 = 0.987y1 0.160y2

52

donde el peso de
la informacin de
esperar,

z1

y2
y2

es muy fuerte, por lo que

z1

reproduce esencialmente

y1 e y2 . Como era de
1 /(1 + 2 ) = 0.9865.
de R son:

y no muestra el efecto mutuo de

explica casi toda la variabilidad total:

Por otra parte, los valores y vectores propios

1 = 1.8 a1 = (0.707, 0.707)


2 = 0.2 a2 = (0.707, 0.707)
La primera componente principal de

z1 = 0.707

es:

y1 y1
y2 y2
+ 0.707
1
5
1 /(1 + 2 ) = 0.9,
= 0.8). Pero las variables

que explica una alta proporcin de la variabilidad total:

y1 e y2 estn altamente correladas (r12


(y1 y1 )/1 e (y2 y2 )/5 estn igualmente ponderadas, debido
igualdad de los elementos diagonales de R.

debido a que

estandarizadas
a la

Seguidamente enunciamos algunas caractersticas de las componentes


principales de

R:

1. El porcentaje de varianza total explicada por las componentes de


diere de las de

S.

2. Los coecientes de las componentes principales de


los asociados a las componentes de
3. Si expresamos las componentes de

son distintos de

S.
R

en trminos de las variables ori-

ginales no coincidirn generalmente con las de


4. Las componentes principales de

S.

son invariantes ante cambios de

escala.
5. Las componentes de una matriz

R no son exclusivas de esa matriz. Por

ejemplo, en el caso bivariante, los valores y vectores propios de:

(
)
1 r
R=
r 1

son:

1 = 1 + r a1 = (0.707, 0.707)
2 = 1 r a2 = (0.707, 0.707)

Las componentes principales son entonces:

y1 y1
y2 y2
+ 0.707
s1
s2
y2 y2
y1 y1
0.707
z2 = 0.707
s1
s2
z1 = 0.707

53

r. Por ejemplo, sirven igualmente para r = 0.01


r = 0.99. Para r = 0.01 la proporcin de varianza explicada
0.505, mientras que para r = 0.99 esta proporcin asciende a

que no dependen de
como para
por

z1

es

0.995. Por tanto, la armacin de que la primera componente de la ma-

90 % no es muy signicativo.
componentes de R dependen slo de las

triz de correlaciones explica, digamos, un


En general, para

p > 2,

las

ratios (valores relativos) de las correlaciones, no de sus valores reales y


componentes de una matriz

dada servirn para otras matrices

R.

2.3.1. Ejemplo
Consideremos de nuevo el ejemplo anterior en el que se analizaban las 26
observaciones correspondientes a las 5 variables (Agr, Min, Man, PS y Con)
del chero

europa.

Calculemos las componentes principales a partir de su

matriz de correlaciones. Los autovalores de

R,

valor representa en relacin a la suma, 5

j=1

el porcentaje que cada auto-

100,

y la varianza explicada

acumulada en porcentaje aparecen en la siguiente tabla:


varianza

varianza acumulada

explicada ( %)

explicada ( %)

2.434

48.6

48.6

1.306

26.1

74.8

0.711

14.2

89.0

0.398

7.9

97.0

0.148

2.9

100

La primera componente principal logra explicar un


lidad total y la segunda un
el

74.8 %

26.1 %.

48.6 %

de la variabi-

Las dos conjuntamente logran explicar

de la variabilidad total. Los vectores propios asociados a las dos

primeras componentes principales son:

a1 = (0.524, 0.269, 0.575, 0.394, 0.406)


a2 = (0.323, 0.685, 0.029, 0.426, 0.492)
que evidentemente ya no presentan el problema de exceso de ponderacin a
las variables con ms varianza.

2.3.2. Ejemplo
El chero

paises contiene 8 variables medidas sobre los 15 pases con las

economas ms poderosas en 2007. Las variables son:

54

1. GDP: PIB per capita en dlares


2. HIV/Aids: prevalencia del SIDA como un porcentaje de la poblacin
3. Life exp.: esperanza de vida en aos
4. Mil.: gastos militares como un porcentaje del PIB
5. Oil cons.: consumo de petrleo per capita en barriles por ao
6. Pop.: poblacin en millones
7. Tel.: nmero de lneas telefnicas jas por 1000 habitantes
8. Unempl.: porcentaje de desempleo
Los autovalores de

R,

la proporcin de varianza explicada de cada au-

tovalor y la proporcin de varianza explicada acumulada se muestran en la


siguiente tabla:
varianza

varianza acumulada

explicada ( %)

explicada ( %)

4.245

53.0

53.0

1.294

16.1

69.2

1.034

12.9

82.1

0.755

9.4

91.6

0.351

4.3

96.0

0.174

2.1

98.1

0.110

1.3

99.5

0.033

0.4

100

Las cargas que denen las cuatro primeras componentes aparecen en el


cuadro 2.1.

2.4. Representacin grca de las componentes principales


Los grcos de la gura 2.1 son una ilustracin de las componentes principales como una rotacin de ejes cuando

p = 2.

En el caso de que

p > 2,

se

puede representar grcamente las dos primeras componentes principales como una tcnica de reduccin de la dimensin. Simplemente se evalan las dos
primeras componentes

(z1 , z2 )

para cada observacin y se representan esos

55

z1

z2

z3

z4

GDP

0.456

0.063

-0.271

0.054

HIV.Aids

-0.193

-0.328

-0.694

-0.484

Life.exp.

0.440

0.014

0.187

0.144

Mil.

-0.196

0.567

-0.480

0.416

Oil.cons.

0.427

0.036

-0.320

-0.046

Pop.

-0.315

0.541

0.006

-0.079

Tel.

0.442

0.140

-0.200

0.112

Unempl.

-0.209

-0.501

-0.190

0.739

Cuadro 2.1: Cargas de las cuatro primeras componentes principales.

n puntos. El grco es equivalente a una proyeccin de la nube de puntos en


el espacio de dimensin p sobre un plano que muestra la mayor dispersin
posible de los puntos.
El grco de puntuaciones de componentes principales puede revelar caractersticas importantes de los datos. Uno de los objetivos es detectar violaciones de la hiptesis de normalidad, tal como

outliers o no linealidad. En

general, las primeras componentes principales son sensibles a observaciones


atpicas que inan las varianzas y distorsionan las covarianzas, y las ltimas
son sensibles a

outliers que introducen dimensiones articiales u ocultan sin-

gularidades.
Un perfeccionamiento del grco anterior se consigue con un

biplot en el

que, adems de representar las observaciones mediante el sistema de coordenadas determinado por las dos componentes principales, se muestran las
variables. De ah el prejo bi que se reere al hecho de representar conjuntamente tanto a observaciones como a variables. En el caso de

p = 2,

un

diagrama de dispersin representa ambas clases de informacin, un punto


por cada observacin y dos ejes representando a las variables. Podemos as
ver de un solo vistazo el emplazamiento de los puntos en relacin al resto de puntos y en relacin a las variables. Para conseguir la representacin
conjunta de ambas informaciones en el caso de

p > 2

podemos utilizar el

grco de las dos primeras componentes principales aadindole debidamente la informacin de las

variables para obtener el

biplot.

Las variables se

representan como vectores que partiendo desde el origen tiene como extremo
las coordenadas de las variables originales con respecto a las dos primeras
componentes. En la gura 2.2 aparece el

biplot

para los datos del ejemplo

2.3.2. Si de ste se eliminasen los vectores correspondientes a las variables


obtendramos el grco de puntuaciones de componentes principales.

56

3
Pop.

Mil.
2

0.4

0.6

China

Japan
Germany
France
Canada
Mexico Italy

Russia
Indonesia
Brazil
HIV.Aids

Tel.
GDP
Oil.cons.
Life.exp

Spain

Unempl.

0.4

0.2

India

0.2
0.0
0.4

0.2

Comp.2

USA
S Korea
UK

0.0

0.2

0.4

0.6

Comp.1

Figura 2.2:

El

Biplot para los datos del chero paises.

biplot posee las siguientes caractersticas:

1. Las distancias eucldeas entre los puntos del plano en el

biplot equivalen

aproximadamente a las distancias de Mahalanobis entre las observaciones originales.


Como ilustracin consideremos la gura 2.2. Diversas caractersticas
son detectadas: la observacin correspondiente a China es un

outliers

ya que aparece desplazada en relacin al resto y pueden formarse diversos grupos de pases cuya riqueza presenta caractersticas similares (los
pases occidentales desarrollados junto a Japn y la recientemente industrializada Corea del Sur se agrupan en la parte derecha del grco;
mientras que Brasil, Rusia e Indonesia aparecen ms hacia la izquierda
con Mjico estando en la frontera que separa a estos dos grupos y, por
ltimo, India, y especialmente China, posicionadas aparte del resto).
2. Los ngulos entre los vectores representan aproximadamente la corre-

lacin entre las variables .

2 Recurdese la relacin existente entre el coseno del ngulo que forman dos vectores y

el coeciente de correlacin. Sea el ngulo que forman dos vectores a y b. Entonces por
el teorema del coseno y teniendo en cuenta que el tercer lado del tringulo es c = b a
57

As un pequeo ngulo entre dos vectores indica que las dos variables
estn altamente correladas (siendo el ngulo de

representativo de

una correlacin igual a 1), dos variables cuyo vectores formen un ngulo
de

90

estn incorreladas y un ngulo mayor que

90

variables estn negativamente correladas (un ngulo de

indican que las

180 representa

una correlacin igual a -1).


En relacin a las variables de la gura 2.2, el ngulo tan pequeo que
forman los vectores correspondientes a GDP, Life.exp., Oil.cons. y Tel.
indican una alta relacin entre ellas, lo mismo ocurre con Mil. y Pop.
y con Unempl. y HIV.Aids. Por otra parte, las variables Mil. y Pop.
estn poco relacionadas con Unempl. y HIV.Aids.
3. Tanto la posicin de los vectores en relacin a los ejes como su magnitud
representan a los coecientes de las variables en las componentes (las
cargas).
Por ejemplo, en la gura 2.2 los vectores correspondientes a GDP,
Life.exp., Oil.cons. y Tel. tienen aproximadamente la misma longitud
y estn casi en la misma direccin del eje correspondiente a la primera
componente, indicando que estas variables son las ms ponderadas en
esa componente y siendo sus cargas muy similares (ver los valores en
negrita del cuadro 2.1). Menor importancia tienen el resto de variables
ya que sus proyecciones sobre el eje denido por

z1

son pequeas. Sin

embargo, las variables Mil. y Pop. (con signo positivo) y Unempl. y


HIV.Aids. (con signo negativo) tienen proyecciones sobre el eje denido
por

z2

cuyo valor aproximan a las cargas que estas variables tienen en

la segunda componente principal.


4. Los valores de las

variables en la observacin

yi

(corregida por las

medias) estn relacionados con las proyecciones perpendiculares de los


puntos

(z1i , z2i )

sobre los vectores que representan a las variables.

se verica que:
cos =

a a + b b (b a) (b a)
a b

=
2 (a a)(b b)
(a a)(b b)

Por otro lado, consideremos n observaciones (x1 , y1 ), (x2 , y2 ), . . . , (xn , yn ) y expresmoslas


en forma vectorial x = (x1 , x2 , . . . , xn ) e y = (y1 , y2 , . . . , yn ). Entonces el coseno del
ngulo que forman sus formas centradas es:
cos =

n
(xi x
)(yi y)
(
xx
j) (
y yj)
= rxy
= n i=1
n
2

)
)2
[(
xx
j) (
xx
j)][(
y yj) (
y yj)]
i=1 (xi x
i=1 (yi y

58

Pop.

Mil.

1400

1200

China

2
1000

0.0

4
800
4 0.2
600

USA

S Korea
UK

400
6
0.4

India
70
0
0

5
10000

300

200
75
10 400
20000
2

Mexico

200

IndonesiaRussia
100
Brazil

500
30000
15
80

France
0 Italy

Tel.
700
600

GDP
40000 Oil.cons.
Life.exp.
20

Japan
Germany
Canada

0.6

Spain
1
10
0.8
HIV.Aids
Unempl.

Figura 2.3: Proyecciones sobre los ejes de China. Grco realizado con el
paquete BiplotGui de R.

Cuanto ms alejada est esta proyeccin del origen del vector mayor es
el valor de la observacin de esa variable y cuanto ms cerca del origen
est ms parecido es a la media de esa variable. Por tanto, los vectores
estarn orientados hacia las observaciones que tengan mayores valores
de las variables correspondientes.
La gura 2.3 muestra las proyecciones de la observacin correspondiente a China sobre los ejes que representan a las variables. Se puede
comprobar que los valores de China son relativamente bajos en todas las variables excepto en las variables poblacin y gastos militares,
indicando, adems, la orientacin de los vectores que China posee precisamente los mayores gastos militares y poblacin. Indonesia, Rusia
y Brasil estn ms caracterizadas por la prevalencia del SIDA y el
deseempleo, magnitud que hace tambin posicionarse a Espaa por
debajo de los pases occidentales.
En denita, los

biplots

unen a las funcionalidades ya resaltadas que tie-

ne los grcos de puntuaciones de componentes principales para detectar

outliers

multivariantes, no linealidades y agrupaciones naturales en los da-

tos, otras nuevas como detectar multicolinealidad. Aunque es un grco muy

59

utilizado en el contexto del ACP, hay que decir que no es exclusivo de esta
tcnica y encuentra utilidad como herramienta en la inspeccin de datos en
el mbito de la modelizacin estadstica.

2.4.1. Ejemplo
Continuando con el ejemplo de la seccin 2.3.1, en la gura 2.4 aparece
una representacin grca de las dos primeras componentes principales. Como era de esperar, la mayor variabilidad se produce a lo largo del eje

z1 .

As

mismo, muestra un punto, correspondiente a Turqua, que puede considerarse


un

outliers.

Hun

Yug

Comp.2

Tur

Gre

Comp.1

Figura 2.4: Primeras dos componentes principales para las cinco variables.

60

2.5. Nmero de componentes principales a retener


En cada aplicacin concreta se debe decidir cuantas componentes principales debieran retenerse para resumir de forma efectiva los datos. Existe
diversas lneas de actuacin:

i) Varianza total: consiste en retener sucientes componentes para explicar un porcentaje de la varianza total, por ejemplo, un 80 %. El problema es seleccionar un lmite de porcentaje adecuado a partir del cual
se considere que las componentes retenidas explican sucientemente la variabilidad recogida en las variables originales. Si se selecciona
demasiado alto corremos el riesgo de incluir componentes que son especcas de la muestra o especcas de una variable. Una componente
es especca de la muestra si no es generalizable a la poblacin o a
otras muestras y es especca de una variable si est dominada por esa
variable y no representa un resumen del conjunto de variables. En general, para objetivos exploratorios es suciente con un 80 %, mientras
que si las componentes seleccionadas se van a utilizar en otro anlisis
es conveniente alcanzar un 90 %.

ii) Regla de Kaiser:

consiste en retener las componentes cuyos autovalo-

res son mayores que la media de los autovalores,

i=1 i /p. Para una

matriz de correlaciones esta media es 1. Este mtodo es muy ampliamente utilizado y es el que por defecto programan muchos paquetes
estadsticos. En los casos en los que los datos pueden ser sumarizados
con xito en un nmero relativamente pequeo de dimensiones, hay
frecuentemente un amplio espacio entre los dos autovalores que estn
a ambos lados de la media.

iii) Grco de sedimentacin: que representa a i frente a i y se asemeja al


perl de una montaa con una fuerte pendiente al principio para luego
reducir la inclinacin cerca de la base. En este grco debe buscarse una
ruptura natural entre los autovalores grandes y los pequeos, es decir,
observar cuando termina la fuerte inclinacin y comienza el declive
lento. Se deben retener los autovalores en la zona de la curva con fuerte
pendiente antes del primero que marca el comienzo de la zona de ligera
inclinacin. En ocasiones este grco no es muy concluyente ya que
puede haber ms de dos zonas con fuerte pendiente seguidas de otras
de lento declive o bien porque no es tan evidente el punto de cambio
entre ambas zonas.

61

iv) Test de signicacin: de las componentes con los autovalores ms grandes. Asume normalidad multivariante, lo que no es preciso para la estimacin de las componentes principales. Puede ser aconsejable, en primer lugar, realizar un test preliminar de completa independencia o esfericidad de las variables,

H0 : = diag(11 , 22 , . . . , pp ) o H0 : P = I,

utilizando el estadstico de Barlett:

(1
)
1
u = [n 1 (2p + 5)] ln |R|
2 p(p 1)
aprox.
6
2
y rechazaremos

H0

a un nivel de signicacin

si

(2.2)

u > 2, 1 p(p1) .

Si

este test indica que no podemos rechazar

H0 (las variables son indepen-

dientes) entonces las variables mismas son las componentes principales,


excepto por variaciones muestrales, y no es necesario extraerlas. Este
test es muy sensible al tamao muestral disponible en el sentido de que
con alta probabilidad ser signicativo para tamaos muestrales grandes aunque las correlaciones sean muy bajas. Por ello, algunos autores
no recomiendan su uso si hay ms de 5 observaciones por variable.
El test de Anderson contrasta la signicacin de las componentes ms

k au, pk+1 , pk+2 , . . . , p son pequeos e


= pk+2 = = p . Si H0k es cierta, los

grandes. Para ello, contrastamos la hiptesis de que los ltimos


tovalores poblacionales de
iguales,

H0k : pk+1

ltimos autovalores muestrales tendern a tener un patrn de leve

pendiente en el grco de sedimentacin. El estadstico de contraste


obtenido por mxima verosimilitud es:

)
(
2p + 11

k ln
u= n
6

ln i

i=pk+1

= p

i=pk+1 i /k . Rechazaremos H0
si u > 2, 1 (k1)(k+2) . Para aplicar este

con

aprox.

(1
)
(k 1)(k +2)
2

a un nivel de signicacin
procedimiento se empieza

con H02 : p1 = p . Si no es rechazada, contrastamos H03 : p2 =


p1 = p y continuamos contrastando de esta forma hasta que H0k
sea rechazada para algn k .
En la prctica, cuando las variables estn altamente correladas y los datos
pueden ser representados apropiadamente por un nmero pequeo de componentes principales, los tres primeros mtodos coincidirn en general sobre
el nmero de componentes a retener y los tests de signicacin indicarn
frecuentemente un nmero mayor de componentes a retener.

62

2.5.1. Ejemplo
Consideremos los datos completos del chero

europa.

En total se miden

9 variables sobre 26 pases relativas al porcentaje de empleados en distintos


sectores. Adems de las 5 variables (Agr, Min, Man, Con y PS) ya tratadas
en ejemplos anteriores, se incluyen estas otras: SI (industria de servicios),
Fin (nanzas), SPS (servicios sociales y personales) y TC (transporte y comunicaciones).
Los autovalores, la proporcin de variabilidad explicada por cada uno de
ellos y la proporcin acumulada de variabilidad explicada se muestran en la
siguiente tabla:
varianza

varianza acumulada

explicada ( %)

explicada ( %)

3.487

38.7

38.7

2.130

23.6

62.4

1.098

12.2

74.6

0.994

11.0

85.6

0.543

6.0

91.7

0.383

4.2

95.9

0.225

2.5

98.4

0.136

1.5

99.9

4.56e-05

100

De acuerdo al criterio de seleccionar autovalores hasta lograr explicar al


menos un 80 % de la variabilidad total el nmero de componentes a retener
seran 4. La regla de Kaiser crea algo ms de dudas ya que

4 = 0.994 1. No

obstante, podamos retener tambin esta ltima componente cuya capacidad


explicativa es similar a la que tiene

z3 .

A esta conclusin tambin se llega

con el grco de sedimentacin que aparece a la izquierda en la gura 2.5.


El test de Anderson para

k=2

e hiptesis nula

H02 : p1 = p

propor-

ciona el siguiente valor del estadstico:

(
)(
)
2 9 + 11
8 + 9
u = 26
2 ln
(ln 8 + ln 9 )
6
2
= 21.16 (2 (2.682) (11.984)) = 140.125
con un valor

p cercano a 0 para una 2 (2). El rechazo de H02 indica que debe-

mos retener todas las componentes principales, lo que evidentemente es una


conclusin no muy recomendable. En denitiva, y en base a los tres primeros
criterios, lo ms razonable es optar por una solucin de 4 dimensiones.

63

3.5
3.0

Variances

2.5
2.0
1.5

Variances

1.0
0.5

0.0
Comp.1

Comp.3

Comp.5

Comp.7

Comp.9

Comp.1

Comp.3

Comp.5

Comp.7

Figura 2.5: Grcos de sedimentacin: para los datos del chero


(izquierda) y para los datos del chero

paises

europa

del Ejemplo 2.3.2 (derecha).

2.5.2. Ejemplo
Para los datos del Ejemplo 2.3.2 [pg. 54] tanto el criterio de Kaiser
como el de la variabilidad total explicada indican que se deben retener 3
componentes. Sin embargo, el grco de sedimentacin que aparece a la
derecha en la gura 2.5 se inclina por una solucin de 4 dimensiones.
Los resultados del test de Anderson aparecen en la siguiente tabla (la
tercera columna es el

p-valor

del contraste):

3.51

0.1725

6.43

0.2660

13.03

0.1608

25.13

0.0332

34.49

0.0229

42.16

0.0316

72.77

0.0001

k = 2, 3, 4 no se rechaza H0k . El primer rechazo se


k = 5. En consecuencia, los 4 ltimos autovalores no son signi-

indicando que para


produce para

cativamente distintos entre s y la solucin de 4 dimensiones es la elegida.


Como conclusin, podramos decir que si el propsito del anlisis es exploratorio entonces la solucin de tres componentes es la apropiada, mientras que

64

si las componentes principales se van a utilizar en otra tcnica estadstica se


deben retener cuatro componentes.

2.6. Informacin en las ltimas componentes principales


Hasta el momento nos hemos centrado en el uso de las primeras componentes principales para sumarizar y simplicar los datos. Sin embargo,
las ltimas componentes pueden tener informacin importante en algunas
aplicaciones.
Puesto que los autovalores son las varianzas de las componentes principales, las ltimas componentes principales son las que menores varianzas
presentarn. Si la varianza de una componente es nula o est muy prxima
a cero, dicha componente representa una relacin lineal entre las variables
que es esencialmente constante, es decir, la relacin se mantiene para todos
los

yi

de la muestra. Por tanto, si el ltimo autovalor est prximo a cero

signica que la presencia de multicolinealidad puede suministrar nueva informacin al investigador. Como ilustracin, examinemos el

biplot

para los

datos del Ejemplo 2.5.1 que aparece en la gura 2.6 que evidencia una poderosa relacin lineal inversa entre las variables Agr y Con por un lado y entre
las variables Fin y Min por otro. Esto se conrma examinando el ltimo
autovalor

9 = 4.56e 05

que est muy prximo a 0. Por tanto,

s2z9 0

y la

componente:

Con 8.16
Fin 4.00
Agr 19.13
+ 0.082
+ 0.145
15.54
1.64
2.80
Min 1.25
PS 0.90
Man 27.00
+ 0.048
+ 0.019
+ 0.365
7.00
0.97
0.37
SI 12.95
SPS 20.02
TC 6.54
+ 0.238
+ 0.350
+ 0.072
0
4.57
6.82
1.39

z9 = 0.806

lo que determina una relacin lineal casi perfecta entre las variables.

2.7. Interpretacin de las componentes principales


Anteriormente indicamos que las componentes principales obtenidas de
no son compatibles con las obtenidas de

S. A diferencia de lo que ocurre con

otras tcnicas estadsticas que utilizan combinaciones lineales de variables


tales como regresin, anlisis discriminante, etc., los coecientes no pueden
ser convertidos a una forma estandarizada a partir de la cual interpretar la

65

4
Fin
Hol Din
Sue
Bel Fra
SPS Nor
Fin Ita EspPor
Sui
Irl
UK
Gre
Al.O
Con Aus
Lux
TC
URSS
PS
Bul Rum
Man
Pol

0.4

Che
HunMin

0.2

0.0

Tur
0

Yug

Agr

Al.E

SI

0.4

0.2

0.0

Comp.2

0.2

0.4

0.6

0.2

0.4

0.6

Comp.1

Figura 2.6:

Biplot para los datos del Ejemplo 2.5.1.

solucin. La razn de ello se encuentra en que no existe invariancia frente a


cambios de escala en las componentes principales obtenidas de
secuencia, debemos elegir entre las componentes de

o las de

S. En conS, teniendo

en cuenta que ambas tendrn diferentes interpretaciones. En el caso de diferentes unidades de medida o de que las variables tengan una varianzas muy
dispares debemos utilizar, como sabemos,

en lugar de

para mejorar la

interpretacin.
En ocasiones, para determinados patrones en los elementos de

o de

las componentes principales pueden ser anticipadas en cierta forma, lo que


ayuda en la interpretacin. Por ejemplo, si todas las correlaciones muestrales en

o todas las covarianzas en

son positivas entonces, aplicando el

Teorema de Perron-Frobenius, todos los elementos del primer vector propio

a1

son tambin positivos. Ya que el resto de vectores propios

ortogonales a

a1 ,

a2 , . . . , ap

son

todos han de tener entonces elementos positivos y negati-

vos. Cuando todos los elementos de

a1

son positivos, la primera componente

66

es una media ponderada de las variables y es a veces considerada como una


medida de tamao. As mismo, los coecientes positivos y negativos en el
resto de componentes hacen que stas sean consideradas como medidas de
forma. Este patrn es a menudo observado cuando las variables son medidas
del cuerpo humano, de un organismo, etc.
Una segunda tcnica sugerida para la interpretacin es la rotacin. La
componentes principales son inicialmente obtenidas rotando los ejes para
alinearlo con las extensiones naturales del sistema, consiguindose de este
modo que las nuevas variables sean incorreladas y reejen las direcciones de
mxima varianza. Si las componentes resultantes no tienen una interpretacin satisfactoria pueden ser rotadas de nuevo buscando dimensiones en las
que mucho de los coecientes de las combinaciones lineales estn cerca de
cero para simplicar la interpretacin. Sin embargo, las nuevas componentes
rotadas estarn correladas y no explicarn sucesivamente la mxima varianza posible. Por tanto, no son ya componentes principales en el sentido usual
y su uso rutinario es cuestionable. Para mejorar la interpretacin se puede
probar con el Anlisis Factorial, que estudiaremos en el tema siguiente, en
el que la rotacin no destruye ninguna propiedad.
El tercer mtodo que se utiliza en la interpretacin es el clculo de las
correlaciones entre las variables y las componentes principales. Aunque esta tcnica es ampliamente recomendada en la literatura; en realidad, no es
tan til en un contexto multivariante ya que nicamente suministra informacin univariante sobre cmo opera cada variable por s misma, ignorando

su interaccin con las otras variables .


En conclusin, ya que no se recomienda ni la rotacin ni las correlaciones
en la interpretacin de las componentes, debemos basarnos en los coecientes obtenidos como los vectores propios de

biplot

o de

S.

En este objetivo, el

puede ser de gran ayuda para la interpretacin de las dos primeras

componentes.

3 Denotemos a la correlacin entre yi y zj por ry z . Dada la incorrelacin de las comi j


ponentes principales se verica lo siguiente:
Ry2i |z1 ,...,zk = ry2i z1 + ry2i z2 + + ry2i zk

donde k es el nmero de componentes retenidas y Ry2i |z1 ,...,zk es la correlacin mltiple


al cuadrado de yi y z1 , . . . , zk . Por tanto, ry2i zj forma parte de Ry2i |z1 ,...,zk , lo que prueba
cmo yi se relaciona, por ella misma, con z1 , . . . , zk y no en presencia de las otras variables
yl . En consecuencia, las correlaciones no proporcionan informacin sobre la contribucin
conjunta de las variables (y1 , . . . , yp ) en una componente principal.

67

2.7.1. Ejemplo
Para los datos del Ejemplo 2.5.1 [pg. 63] hemos recogido en la tabla
que aparece a continuacin las cargas de las dos primeras componentes principales junto con las correlaciones entre las variables y estas dos primeras
componentes.

a2

ryi z2

Agr

0.524

a1

0.978

ryi z1

-0.054

-0.078

Con

-0.325

-0.607

-0.051

-0.075

Fin

-0.074

-0.139

0.454

0.662

Man

-0.347

-0.649

-0.355

-0.518

Min

0.001

0.002

-0.618

-0.902

PS

-0.256

-0.478

-0.261

-0.381

SI

-0.379

-0.708

0.350

0.511

SPS

-0.387

-0.723

0.222

0.323

TC

-0.367

-0.685

-0.203

-0.296

Con respecto a la primera componente, ambos criterios ordenan igual a


las variables en orden de importancia: Agr, SPS, SI, TC, Man, Con, PS, Fin
y Min. Lo mismo ocurre con respecto a la segunda componente en donde el
orden sera ahora: Min, Fin, Man, SI, PS, SPS, TC, Agr y Con. La coincidencia en el ordenamiento segn importancia de las variables se extiende a
la tercer y cuarta componentes principales. Sin embargo, esto no es cierto
en general. Existen casos en los que hay discrepancias entre los dos criterios
a la hora de ordenar las variables. El

biplot

de la gura 2.6 nos ayuda a

interpretar estas dos componentes. Los pases localizados a la derecha del


grco (valores positivos altos en

z1 )

son aqullos en los que predomina el

sector agrario, mientras que los situados a la izquierda tiene sectores dedicados a los servicios (SPS y SI) y a las telecomunicaciones ms importantes.
La segunda componente sita en la parte baja del grco a aquellos pases
con fuertes sectores minero y, en menor medida, industrial; mientras que los
localizados en la parte superior estn caracterizados por un sector nanciero
y unos servicios importantes. De esta forma, las agrupaciones de pases que
aparecen en el grco indican que Turqua y Yugoslavia forman un grupo
en donde el sector agrcola es capital, en los pases de la antigua Europa
comunista los sectores minero e industrial son los preponderantes, los pases del norte y centro de Europa destacan por sus sectores nancieros y de
servicios (ms cuanto ms al norte) y los pases de la Europa mediterrnea
e Irlanda destacan por la relativa importancia del sector agrcola unido al

68

sector servicios y nanciero.

2.7.2. Ejemplo
Para los datos del Ejemplo 2.3.2 [pg. 54] el orden de las variables en base
a las cargas de la primera componente principal coincide con la determinada
por las correlaciones entre las variables y esta componente: GDP, Tel, Life
exp, Oil cons, Pop, Unempl, Mil y HIV Aids. Lo mismo ocurre con la segunda
componente, siendo ahora el orden: Mil, Pop, Unempl, HIV Aids, Tel, GDP,
Oil cons y Life exp. Para la tercera componente tambin coinciden ambos
criterios en cuanto al orden de las variables. Nos apoyamos en el

biplot de la

gura 2.2 para la interpretacin de las dos primeras componentes principales.


La primera componente est dominada por las variables GDP, Tel, Life exp y
Oil cons y adems con coecientes positivos. Se podra decir que representa
un ndice de riqueza y de calidad de vida. Los pases con altos valores en
esta componente se sitan a la derecha del grco y corresponden a los ms
desarrollados. En la segunda componente predominan las variables Mil, Pop,
Unempl y HIV Aids, teniendo las dos primeras coecientes positivos y las
dos ltimas negativos. Pases situados en la parte alta del grco tienen
importantes poblaciones y gastos militares, mientras que los situados en la
parte baja tienen altas tasas de deseempleo y de enfermos de SIDA.

2.7.3. Ejemplo
El chero

empleados

contiene 7 variables medidas sobre los 474 emplea-

dos de una empresa. Las variables son:


1. educacion: nivel educativo (variables categrica codicada)
2. categlab: categora laboral (= administrativo, seguridad y ejecutivo)
3. salario: salario actual
4. salario inicial: salario al ingresar en la empresa
5. antiguedad: nmero de meses desde que fue contratado
6. exper previa: experiencia previa medida en nmero de meses
7. edad: en aos.
Vamos a intentar resumir, mediante un conjunto reducido de dimensiones,
las caractersticas laborales de los empleados de esta empresa. Para ello,

69

varianza

varianza acumulada

explicada ( %)

explicada ( %)

3.295

47.0

47.0

1.827

26.1

73.1

1.006

14.3

87.5

0.338

4.8

92.4

0.241

3.4

95.8

0.191

2.7

98.5

0.098

1.4

100

calculamos los autovalores de

R,

las proporciones de varianza explicada por

los autovalores y las proporciones de varianza explicada acumulada:


De acuerdo al criterio de Kaiser, de la varianza total explicada y del
grco de sedimentacin de la gura 2.7 se deben extraer 3 componentes.
Las cargas que denen las tres primeras componentes son:

-0.096

z1

z2
0.687

0.013

exp prev

-0.071

0.695

-0.053

salario

0.523

0.020

0.053

sal ini

0.508

0.128

-0.069

categlab

0.474

0.147

-0.046

educacion

0.479

-0.065

0.013

0.020

0.043

0.994

edad

antiguedad

z3

En la interpretacin de las componentes utilizamos tanto las cargas como

el

biplot

que aparece en la gura 2.7. Se puede decir que la primera compo-

nente representa una caracterstica que se puede denir como la

promocin

en la empresa y que estara determinada por las variables salario, salario


inicial, categora laboral y nivel educativo. La segunda componente se puede
denir como

veterana laboral

y est caracterizada por las variables edad y

experiencia previa. Por ltimo, la tercera componente es la

puesto.

antigedad en el

2.7.4. Ejemplo
Los datos del chero

futbol

fueron recolectados como parte de un es-

tudio preliminar de una posible conexin entre el diseo del casco de ftbol
americano y las lesiones del cuello del jugador. Seis medidas de la cabeza
fueron hechas sobre cada sujeto:

70

WDIM = anchura mxima de la cabeza


CIRCUM = circunferencia de la cabeza
FBEYE = medida de la frente a la nuca a la altura de los ojos
EYEHD = medida desde los ojos hasta la parte superior de la cabeza
EARHD = medida desde la oreja hasta la parte superior de la cabeza
JAW = anchura de la mandbula
Dado que las variables estn medidas en las mismas unidades y no hay
gran disparidad entre sus varianzas, el ACP se realizar sobre la matriz de
covarianzas. En la siguiente tabla se muestran los autovalores y las proporciones de varianza explicadas. El nmero de componentes a retener es 2.
varianza

varianza acumulada

explicada ( %)

explicada ( %)

5.333

62.0

62.0

1.990

23.1

85.2

0.494

5.7

91.0

0.412

4.8

95.8

0.214

2.4

98.3

0.143

1.6

100

El mismo signo de las cargas de la primera componente principal recogidas en la tabla presentada a continuacin puede interpretarse como una
medida del tamao de la cabeza, mientras que los signos alternados de las
cargas correspondientes a la segunda componente puede considerarse como
una medida de la forma de la cabeza de los jugadores que contrasta medidas
verticales EARHD y EYEHD con el resto que son medidas laterales.

z1

z2

circum

0.741

0.519

earhd

0.256

-0.266

eyehd

0.560

-0.726

fbeye

0.215

0.262

jaw

0.134

0.122

wdim

0.078

0.219

71

3.0
2.5
2.0
0.0

0.5

1.0

1.5

Variances

Comp.1

Comp.3

Comp.5

10

Comp.7

15

20

0.05

0.00

0.05

0.10

0.15

10
categlab
salario_inicial

salario

29

152
255
285
295
96
335
54 174
144 3 185
291
171 385
230
241 320372
453
147
137
205
340
349
45
191
134
378
229
273
341
410
136
305
362
303
111
302
437
443
22
222
268117
307
213
206
429
188
463
74
47
386
339
194
357
281
411
367
423
256 71
48
34 343
352
112
448
175
10
138270
182
108
297
257
160
24
347
139
189
128
198
154
127
46
425
173
473
196
350
4
25 210
82
1
461
368
373
167
166
32
209
126
381
331
288
290
143
325
466
190
379
365
181
322
192
452
217146 151 328
354
405
178
427
450 446
132
121
14
40
380
9
11 97 286
20
353
27 430
110
338
98
342
278
364
125
224
221
201
antiguedad
359
18
5
150
223
326
441
90440
159
53
211426
363
414
420 103
404
329
358
431
37
199
304
7
389
113
456
253384
87
50 383
311
172
330
240
55
94
60
162
434
382
101
318
388
6963129
232
49
284
197
123
387
35
207
100
19
462
130
42
133
64
300
107
283
106
465
6
200
68
254
348289
464
275
447
62
66
195
115
88
89
336
183
235
67
421
444
355
33
204
149
2
220
31
148
180
168
177
114
57
15
86
321
187 274
366
408 454
234
41
316
344
39
30
445
102
51
458
468
308
44
312
422
455
38
13
435
119
17
36
216
276
436
415
470
85
156
449406
277
109
70
155
104
59
23
231
43
292
118
120
202
271
203
80
212
28
272
419
233
432
296
282
52
228
428
219
371
413
184
438
145
170
131
186
218
6165
161
116
469
16
376
169
176
407
377
309
21
310
298
79
179
418
12
356
433
269
72
140
56
306
193
332
142
472
375
370
287
164
314
327
351
409
163
141
158
124
122
334
424
266
324
293
165
105
227
333
299
471
58
361
417
153
91
226
360
319
26
84
242
157
250
8
416
294
75
467
258
442
369
374
92
76
81
78
83
208
245
77
346
301
95
261
99
247
73
93
236
251
460
345
262
214
400
323
135
249
215
317
394
246
391
474
264
279
263
248
225
457
252
451
260
244
259
238
239
315
243
280
390
237
265
267
393
397
313
337
398
402
395
403
399
392
401
412
396
439
459

educacion
5

0.10
0.05

0.00

0.05

Comp.2

0.15

15

0.20

20

exper_previa
edad

0.20

Comp.1

Figura 2.7: Grco de sedimentacin (arriba) y


de empleo.
72

biplot (abajo) para los datos

3
0

Variances

.PC

Comp.2

Comp.4

Comp.5

10

Comp.6

15

90

25
37
64 53
54
6
42
58
fbeye
52
86 30
33
74
wdim
73
75
5636
4485
71
89
jaw
55
50
77 62
7919
69
76
78
3982
47
41
67
6372
3 40 43 80
3210
912
17 28
83
34
51
earhd
81
65
48
2120
66 88
54
87 68
287
49
1
1829
45
24
15
13
1122
0.2

0.1

0.0

10

46
31
70
84

0.1

circum
23
27
14

57
38
3559

26
5

61

15

60

16
10

0.1
0.0
0.2

0.1

Comp.2

0.2

0.3

10

Comp.3

Comp.1

eyehd

0.2

0.3

Comp.1

Figura 2.8: Grco de sedimentacin (arriba) y


de futbol.
73

biplot (abajo) para los datos

Captulo 3

Anlisis Factorial
3.1. Introduccin
El Anlisis Factorial (AF) es una tcnica estadstica multivariante cuyo
propsito principal es sacar a la luz la estructura subyacente en una matriz de
datos. Para ello analiza la estructura de las interrelaciones (matriz de correlaciones) entre un gran nmero de variables, no exigiendo ninguna distincin
entre variables dependientes e independientes, y calcula un conjunto de dimensiones latentes (no observables), conocidas como factores, que tratan de
explicar dichas interrelaciones. Es, por lo tanto, una tcnica de reduccin de
datos dado que si se cumplen sus hiptesis, la informacin contenida en la
matriz de datos puede expresarse, sin mucha distorsin, en un nmero menor
de dimensiones representadas por dichos factores.
El AF surgi de los estudios de Karl Pearson y Charles Spearman en
los aos treinta del siglo pasado para comprender las dimensiones de la inteligencia humana. En concreto, supongamos que se plantea la cuestin de
la medicin de la capacidad mental de un individuo para procesar informacin y resolver problemas, es decir, tratamos de medir la inteligencia de las
personas. Segn Gardner (1983), creador de la Teora de las inteligencias
mltiples, existen ocho tipos de inteligencia: lingstica (capacidad de usar
las palabras de manera adecuada), lgica-matemtica (capacidad de resolver problemas de lgica y matemticas), musical (capacidad relacionada con
las artes musicales), espacial (capacidad de distinguir aspectos como: color,
lnea, forma, gura, espacio, y sus relaciones en tres dimensiones), corporalcinestsica (capacidad de controlar y coordinar los movimientos del cuerpo
y expresar sentimientos con l), intrapersonal o emocional (est relacionada
con la autoestima, felicidad personal y social), interpersonal o social (ca-

74

pacidad para entender a las dems personas con empata) y naturalista (la
utilizamos al observar y estudiar la naturaleza para organizar y clasicar).
Estos ocho factores, que no son directamente observables, denen las
dimensiones distintas que tiene la inteligencia y la caracterizan. De hecho,
el conjunto de esos factores es lo que llamamos inteligencia y la cuestin es
cmo medirlos. Para ello, se puede realizar una batera de tests para cada
tipo de inteligencia y cuanticar las capacidades de los individuos en funcin
de los valores de estos tests. Esto puede ser til, por ejemplo, para descubrir
las posibles habilidades que tiene un alumno y orientar su futuro profesional
en base a ellas.
El AF analiza las correlaciones entre las variables observables y trata
de identicar un nmero reducido de factores subyacentes, formados por
grupos especcos de estas variables, que denen las dimensiones latentes
del problema. En el ejemplo de la inteligencia, las puntuaciones en los tests
constituyen las variables observables y los tipos de inteligencia los factores
subyacentes o dimensiones en los que se estructura el problema.
El ACP y el AF tienen en comn que son tcnicas para examinar la
interdependencia de variables y que buscan una estructura ms simple en un
conjunto de variables. Dieren en su objetivo, sus caractersticas y su grado
de formalizacin. Mientras que el objetivo del ACP es explicar la mayor parte
de la variabilidad total de un conjunto de variables con el menor nmero de
componentes posible, en el AF los factores son seleccionados para explicar
las covarianzas o las correlaciones entre variables. En ACP se calculan las
ponderaciones de las variables en cada componente, es decir, las componentes
principales se explican en funcin de las variables observables. Sin embargo,
en el AF las variables originales juegan el papel de variables dependientes
que se explican por factores comunes y nicos, que no son observables.

y1 , y2 , . . . , yp como combinaciones lineales de unas pocas variables f1 , f2 , . . . , fm (m < p) llamados factores.


En el AF representamos a las variables

Los factores son


a

y1 , y 2 , . . . , yp .

construcciones subyacentes o variables latentes que generan

Como las variables originales, los factores varan de un in-

dividuo a otro pero, a diferencia de las variables, los factores no pueden ser
medidos u observados. La existencia de esos factores puede ser, por tanto,
cuestionable. Si las variables originales

y1 , y 2 , . . . , yp

estn al menos modera-

damente correladas entonces la dimensin esencial del sistema es menor que

p. El objetivo del AF es reducir la redundancia entre las variables utilizando


un nmero menor de factores.
Supongamos que el patrn de correlaciones altas y bajas en una matriz
de correlaciones es tal que las variables en un subconjunto particular tienen
altas correlaciones entre ellas pero bajas con el resto de variables. Entonces

75

puede haber un nico factor subyacente que ha dado lugar a las variables
en ese subconjunto. Si el resto de variables pueden ser similarmente agrupadas en subconjuntos con patrones parecidos de correlaciones, entonces unos
pocos factores pueden representar esos grupos de variables. En este caso el
patrn de la matriz de correlaciones corresponde directamente a los factores. Por ejemplo, consideremos una matriz de correlaciones con la siguiente
estructura:

1
0.9 0.05 0.05 0.05
0.9
1
0.05 0.05 0.05

0.05 0.05
1
0.9 0.9

0.05 0.05 0.9


1
0.9
0.05 0.05 0.9 0.9
1

Entonces las variables

y3 , y4

y5

y1

y2

corresponden a un factor y las variables

corresponden a otro factor. Evidentemente este ejemplo es un

caso ilustrativo y poco habitual en la prctica. En general, sobre todo si


el nmero de variables a estudiar es grande, la matriz de correlaciones no
tendr un patrn tan simple y no sern evidentes los subgrupos de variables interrelacionadas. En estos casos el AF ser til e identicar a tales
subgrupos.
Algunos ejemplos de problemas que pueden resolverse con el AF son los
siguientes:
Supongamos que una empresa de venta ha realizado una investigacin
en la que ha identicado a 80 caractersticas diferentes de almacenes
minoristas a partir de la informacin suministrada por los consumidores como determinantes para elegir entre este tipo de almacenes. Se
desea conocer cmo los consumidores toman sus decisiones pero resulta
inviable evaluar 80 caractersticas separadas debido a la dicultad de
desarrollar planes de accin para tantas variables ya que son demasiado
especcas. En consecuencia se plantea la posibilidad de conocer si los
consumidores piensan en unas dimensiones evaluativas ms generales
en lugar de slo en variables especcas. Para identicar esas dimensiones subyacentes o factores, el minorista podra encargar una encuesta
en la que se le preguntase a los consumidores por cada una de esas 80
variables especcas. El AF se podra utilizar entonces para identicar tales dimensiones evaluativas. Cada grupo de variables especcas
altamente correladas entre s sern miembros de una de esas dimensiones ms generales. Las dimensiones se convierten en agrupaciones
de variables especcas que permiten a su vez interpretar y describir
tales dimensiones. Por ejemplo, el AF puede identicar a los factores

76

variedad de producto, calidad del producto, precios, personal de


almancn, servicio, etc. como las dimensiones evaluativas utilizadas
por los encuestados. Cada uno de esos factores est formado por un
grupo de variables especcas que son una faceta de la dimensin evaluativa ms general. A partir de estos resultados, el minorista puede
entonces utilizar los factores para denir amplias reas para planicar
sus estrategias de mejora.
Supongamos que estamos interesados en estudiar el desarrollo humano
en los pases del mundo y que disponemos de muchas variables econmicas, sociales y demogrcas, en general dependientes entre s, que
estn relacionadas con el desarrollo. Podemos preguntarnos si el desarrollo de un pas depende de un pequeo nmero de factores del tipo:
capacidad tecnolgica, servicios sociales, servicios sanitarios, indicadores de riqueza, etc. que constituyan las dimensiones subyacentes que
expliquen el comportamiento del desarrollo de estos pases.
El AF puede ser

exploratorio o conrmatorio. El AF exploratorio se caa priori el nmero de factores y es en la aplica-

racteriza porque no se conoce

cin emprica donde se determina este nmero. Por el contrario, en el AF de


tipo conrmatorio los factores estn especicados de antemano, utilizando
contrastes de hiptesis para su corroboracin. En este curso slo trataremos
el AF exploratorio ya que el conrmatorio se suele estudiar como un caso
particular de los Modelos de Ecuaciones Estructurales.

3.2. Modelo factorial ortogonal


3.2.1. Formulacin e hiptesis
El AF trata con una nica muestra de

observaciones

y1 , . . . , yn de un
y matriz de

(y1 , . . . , yp ) que tiene vector de media

y=
. El modelo de AF expresa cada variable como una combinacin
lineal de factores comunes subyacentes f1 , f2 , . . . , fm ms un trmino de error
vector aleatorio
covarianzas

que recoge la parte de la variable que es nica (no en comn con el resto de
variables). El modelo es es siguiente:

y1 1 = 11 f1 + 12 f2 + + 1m fm + 1
y2 2 = 21 f1 + 22 f2 + + 2m fm + 2
(3.1)

.
.
.

yp p = p1 f1 + p2 f2 + + pm fm + p
77

Idealmente,

debiera ser mucho ms pequeo que

p;

en caso contrario

no habremos conseguido una descripcin parsimoniosa de las variables como


una funcin de unos pocos factores subyacentes. Podemos considerar a los

fj en (3.1) como variables aleatorias que generan a las yi . A los coecientes


ij se les denomina cargas factoriales o saturaciones y actan como ponderaciones, mostrando como cada yi depende individualmente de los fj . Con las
hiptesis apropiadas, ij indica la importancia del factor j -simo fj sobre la
variables i-sima yi y puede utilizarse en la interpretacin de fj . Por ejemplo,
describimos o interpretamos f2 examinando sus coecientes 12 , 22 , . . . p2 .
Las cargas ms grandes relacionan f2 con las correspondientes variables yi .
A partir de estas variables se deduce un signicado o descripcin de f2 . Despus de estimar los ij y rotarlos, se espera que dividan a las variables en
grupos correspondientes a factores.
Aunque (3.1) recuerda a un modelo de regresin lineal existen diferencias
fundamentales entre ellos. Por ejemplo, los factores son no observables y,
adems, el modelo (3.1) representa nicamente a una observacin vectorial,
mientras que el modelo de regresin representa a todas las

observaciones.

Las hiptesis que se imponen al modelo son las siguientes:

H1) E(fj ) = 0, var(fj ) = 1 y cov(fj , fk ) = 0, j = k, j, k = 1, . . . , m.


H2) E(i ) = 0, var(i ) = i

cov(i , k ) = 0, i = k , i, k = 1, . . . , p.

H3) cov(i , fj ) = 0, i = 1, . . . , p y j = 1, . . . , m.
Las hiptesis para

fj

son similares excepto que se permite que cada

tenga diferente varianza ya que representa la parte residual de

yi

que no es

i como la varianza especca. La condicin de ortogonalidad del modelo proviene de cov(fj , fk ) = 0.

comn con el resto de variables. Denominamos a

Esas hiptesis son consecuencias naturales del modelo (3.1) y del objetivo

E(yi i ) = 0, se precisa que E(fj ) = 0, j = 1, . . . , m. La


cov(fj , fk ) = 0 es impuesta por motivos de parsimonia a la hora
de expresar las yi como funciones de tan pocos factores como sea posible.
Las hiptesis var(fj ) = 1, var(i ) = i , cov(fj , fk ) = 0 y cov(i , fj ) = 0
proporcionan una expresin simple para la varianza de yi :
del AF. Ya que

hiptesis

var(yi ) = 2i1 + 2i2 + + 2im + i

(3.2)

que tiene un papel importante en nuestros desarrollos. Ntese que la hiptesis

cov(i , k ) = 0 implica que los factores explican todas las correlaciones entre
las yi , es decir, todo lo que las yi tienen en comn. Por tanto, lo importante

78

en el AF es la modelizacin de las covarianzas y las correlaciones entre las

yi .
El modelo (3.1) puede ser expresado en forma matricial:

y = f +
con

(3.3)

y = (y1 , . . . , yp ) , = (1 , . . . , p ) , f = (f1 , . . . , fm ) , = (1 , , p )

11 12 . . . 1m
21 22 . . . 2m

= .
.
.
.
.
.
.
.
.
p1 p2 . . . pm

Las hiptesis tambin pueden ser expresadas matricialmente:

H1) E(f ) = 0 y cov(f ) = I


H2) E() = 0 y cov() = = diag(1 , 2 , . . . , p )
H3) cov(f , ) = 0
Tal y como hemos mencionado ya, lo importante en el AF es la modeliza-

yi . Deseamos expresar p(p1)/2 covarianzas


(y las p varianzas) de las variables y1 , . . . , yp en trminos de una estructura
simplicada que implica a las pm cargas ij y las p varianzas especcas i ,
es decir, deseamos expresar en trminos de y . Se tiene que:
cin de las covarianzas entre las

= cov(y)

por (1.11)

= cov(y )

por (3.3)

= cov(f + )

por

= cov(f ) + cov()

H3)

por (1.10)

= cov(f ) + cov()

por

H1) y H2)

= I +
= +
tiene unas pocas columnas, por ejemplo 2 o 3, entonces = +
representa una estructura simplicada para , en la que las covarianzas estn
modeladas por los ij ya que es diagonal.
Si

Un propiedad importante del modelo (3.1) es que las cargas representan


a las covarianzas entre las variables y los factores, es decir,

79

cov(yi , fj ) = ij .

Demostremos esto matricialmente:

cov(y, f ) = cov(y , f )

por (3.3)

= cov(f + , f )

H3)
por H1)

= cov(f , f ) + cov(, f )

por (1.12) y

= cov(f )
=

(3.4)

En (3.2) hemos dividido la varianza de

yi

en una componente debida a

comunalidad, y en una componente nica


debida a yi , llamada varianza especca:

los factores comunes, denominada

ii = var(yi ) = (2i1 + 2i2 + + 2im ) + i = h2i + i


en donde la comunalidad es

i .

h2i = 2i1 + 2i2 + + 2im

y la varianza especca

A la comunalidad tambin se le reere como varianza comn y a la

varianza especca como especicidad o varianza nica.


En el caso de que se utilicen variables estandarizadas entonces

te en correlaciones:

P = +

y las cargas se convier-

corr(yi , fj ) = ij . As mismo, la

descomposicin anterior

queda reemplazada por

queda:

1 = ii = corr(yi ) = h2i + i
y la comunalidad puede ahora interpretarse como la proporcin de varianza
de cada variable, una vez estandarizada, que puede ser explicada por los
factores. Toman valores entre 0 y 1, indicando los valores cercanos a 1 que
la varianza queda totalmente explicada por los factores seleccionados y los
valores cercanos a 0 que los factores no explican la variabilidad de la variable.
Tambin podemos expresar la correlacin entre cada par de variables como
funcin de los coecientes de los factores comunes:

ij = corr(yi , yj ) = i1 j1 + i2 j2 + + im jm =

ik jk

k=1
El modelo (3.3) y las hiptesis

H1), H2) y H3) nos han permitido descom-

poner la matriz de covarianzas de la forma:

= + ,

lo que constituye

pueden
de , pero

una parte esencial del modelo de AF. Los elementos diagonales de


ser sencillamente modelados ajustando los elementos diagonales

es una conguracin simplicada de los elementos fuera de la diagonal.

Por tanto, el aspecto crtico del modelo implica a las covarianzas y ste es el
mayor objetivo del AF.

80

Es raro que una matriz de covarianzas poblacional


exactamente como

= + ,

con

pueda ser expresada


con un nmero de

diagonal y

columnas (m) relativamente pequeo. En la prctica, muchas matrices de


covarianza muestrales no se aproximan satisfactoriamente por este patrn
ideal. Sin embargo, no relajamos las hiptesis ya que la estructura

es esencial para la estimacin de

Una ventaja del modelo de AF es que cuando no se ajusta a los datos,


la estimacin de

reeja claramente este fallo. En tales casos, hay dos

problemas en las estimaciones: no est claro cuntos factores debe haber


y qu son esos factores. En otros procedimientos estadsticos, la violacin
de las hiptesis puede no conducir a unas consecuencias tan obvias en las
estimaciones o en los tests. En el AF, las hiptesis se comprueban por los
mismos resultados del anlisis, mientras que en otros procedimientos se tiene
que comprobar stas mediante mtodos grcos o contrastes de hiptesis.

3.2.2. Ejemplo
Supongamos que a un conjunto de estudiantes se les somete a diversos
tests en varias materias con el n de medir sus aptitudes intelectuales. Como
consecuencia de dichas pruebas se obtienen una serie de puntuaciones estandarizadas en Matemticas (Mat), Fsica (Fis), Qumica (Qui), Ingls (Ing),
Historia (His) y Francs (Fra). Supongamos que el modelo factorial estimado
viene dado por las siguientes ecuaciones:


M at
0.8 0.2
1
F is 0.7 0.3
2


( )
Qui 0.6 0.3 f1
3


Ing 0.2 0.8 f2 + 4


His 0.15 0.82
5
F ra
0.25 0.85
6
vericando las hiptesis

H1), H2) y H3). Se tiene entonces que:

var(M at) =1 = var(0.8f1 + 0.2f2 + 1 )


=0.82 var(f1 ) + 0.22 var(f2 ) + var(1 ) + 2 0.8 0.2 cov(f1 , f2 )
+ 2 0.8 cov(f1 , 1 ) + 2 0.2 cov(f2 , 1 )
=0.68 + 1
Se sigue, por lo tanto, que la comunalidad del resultado en matemticas es

h21 = 0.68 y su especicidad es 1 = 0.32. Siguiendo el mismo procedimiento


81

= diag(0.32, 0.42, 0.55, 0.36, 0.3051, 0.215), h22 = 0.58, h23 =


= 0.64, h25 = 0.6949 y h26 = 0.785.

se llega a que:

0.45, h24

Adems, se tiene que:

cov(M at, F is) = cov(0.8f1 + 0.2f2 + 1 , 0.7f1 + 0.3f2 + 2 )


= 0.8 0.7 var(f1 ) + 0.2 0.3 var(f2 ) + (0.8 0.3 + 0.2 0.7) cov(f1 , f2 )
+ 0.7 cov(1 , f1 ) + 0.3 cov(1 , f2 ) + 0.8 cov(f1 , 2 )
+ 0.2 cov(f2 , 2 ) + cov(1 , 2 ) = 0.56 + 0.06 + 0 = 0.62
Razonando de esta manera la matriz de varianza, que al estar las puntuaciones estandarizadas coincide con la matriz de correlaciones, vendr dada
por:

1
0.62 0.54 0.32
0.284
0.37
0.62
1
0.51 0.38
0.351
0.43

0.54 0.51

1
0.36
0.336
0.405

=
0.32 0.38 0.36
1
0.686
0.73

0.284 0.351 0.336 0.686


1
0.7345
0.37 0.43 0.405 0.73 0.7345
1

Se observa, en particular, que las calicaciones en las asignaturas del


bloque de Ciencias (Mat, Fis y Qui) y las del bloque de Letras (Ing, His
y Fra) estn ms correlacionadas entre s que con las asignaturas del otro
bloque.

3.2.3. No unicidad de las cargas factoriales


Las cargas en el modelo (3.3) pueden ser multiplicadas por una matriz
ortogonal sin variar su capacidad para representar a la matriz de covarianzas

= +. Para comprobar esta armacin, sea T una matriz

(TT = I), entonces

de la forma
ortogonal

y = TT f + = f +
con

= T

f = T f .

Las nuevas cargas factoriales

tambin repro-

ducen a la matriz de covarianzas:

= + = TT + = T(T) + = +
f = T f satisfacen las hiptesis H1) y H3), es decir,
E(f ) = 0, cov(f ) = I y cov(f , ) = 0. Las comunalidades h2i = 2i1 +
2 no se ven afectadas tampoco por la transformacin = T.
2i2 + + im
Los nuevos factores

82

i a la la i-sima de
es i = i T y la

Esto se puede demostrar como sigue. Denotemos por

, entonces h2i

i i . Adems, la la

i-sima

de

comunalidad correspondiente es:

hi 2 = i i = i TT i = i i = h2i
h2i = 2i1 + 2i2 + + 2im = i i es la distancia desde el
origen al punto i = (i1 , i2 , . . . , im ) en el espacio de dimensin m de las


cargas factoriales. Puesto que la distancia i i es la misma que i i , la

transformacin provoca una rotacin de los i representada por i = T i .


Ntese que

Esta propiedad de rotacin de las cargas a un nuevo marco de referencia


sin afectar ninguna de las hiptesis o propiedades es muy til en la interpretacin de los factores como veremos ms adelante.

3.2.4. Ejemplo
Continuando con el ejemplo anterior, consideremos la matriz ortogonal
que representa un giro de
del reloj:

(
T=

1
2
1
2

45

en el plano en sentido contrario a las agujas

12

1
2

(
=

cos 45 sen 45
sen 45 cos 45

y que dene unos nuevos factores dados por:

( 1
( )

f1

2
f =
=Tf =

f2
12

1
2
1
2

)( ) ( 1
)
f1 + 1 f2
f1
2
2
=
f2
12 f1 + 12 f2

entonces las cargas factoriales son ahora:

M at = 0.71f1 + 0.42f2 + 1
F is = 0.71f1 0.28f2 + 2
Qui = 0.64f1 0.21f2 + 3
Ing = 0.71f1 + 0.42f2 + 4
His = 0.69f1 + 0.47f2 + 5
F ra = 0.78f1 + 0.42f2 + 6
vericando las hiptesis

H1), H2) y H3). Las comunalidades, especicidades

y matrices de correlacin permanecen idnticas.

83

3.3. Estimacin de las cargas y las comunalidades


La relacin fundamental

= +

est expresada en trminos de

parmetros poblacionales desconocidos. En la prctica dispondremos de una


muestra aleatoria

y1 , . . . , yn

y trataremos de encontrar matrices

que

aproximen tal relacin desde el punto de vista muestral, es decir, que veriquen:

con

S
=

la matriz de covarianzas muestral. La obtencin de tales matrices a

partir del conocimiento de


1.

(3.5)

Grados de libertad:

plantea dos cuestiones:

S es simtrica, el nmero de ecuaciones


p(p+1)/2 y que el nmero de parmetro
y p tiene
), entonces
es p(m + 1) (p m elementos tiene
exista solucin debe vericarse p(p + 1)/2 p(m + 1). El
dado que

que hay que resolver en (3.5) es


a estimar
para que

problema de grados de libertad puede aparecer en los mtodos que toman a la ecuacin (3.5) como base para la extraccin de factores. Sin
embargo, en los mtodos basados en el clculo de valores y vectores
propios no se requiere dicha condicin. A este ltimo tipo de procedimientos pertenecen los dos primeros mtodos que vamos a estudiar:
componentes principales y ejes principales.
2.

No unicidad de solucin: an cuando no se presente el problema anterior, hay que tener en cuenta que las soluciones para
que cualquier transformacin ortogonal de

no son nicas ya

es tambin una solucin.

A continuacin estudiaremos diversos mtodos de estimacin de las cargas factoriales y de las comunalidades, tambin denominados procedimientos
de extraccin de factores. Tpicamente y en un caso en el que se utilicen variables estandarizadas, un procedimiento de extraccin de factores comienza
con la matriz de correlaciones muestral

en la que se sustituyen los unos

de la diagonal por las comunalidades y termina con una matriz de cargas


factoriales

tal que al multiplicarla por su transpuesta reproduce a

R,

al

menos aproximadamente.

3.3.1. Mtodo de las componentes principales


El nombre que recibe es algo desafortunado ya que puede crear confusin
entre el AF y el ACP. En realidad, el mtodo de las componentes principales
no calcula ninguna de las componentes principales. Posteriormente veremos
cul es el origen de este nombre.

84

y factori

zamos S de la forma S = . Para conseguir tal factorizacin consideramos

la descomposicin espectral S = CDC , donde D = diag(1 , . . . , p ) con i


los autovalores de S y C es la matriz ortogonal cuyas columnas son los auto
vectores normalizados de S (denotados por ci y con ci ci = 1). Considerando

1/2 = diag( , . . . ,
la matriz raz cuadrada de D dada por D
p ) y que
1
1/2 D1/2 , podemos expresar:
verica D = D
En el mtodo de las componentes principales despreciamos

S = CDC = CD1/2 D1/2 C = (CD1/2 )(CD1/2 )


lo que tiene la forma de la factorizacin deseada. Sin embargo,

CD1/2 tiene
m < p. Por

de dimensiones p m con
p p y buscamos

tanto, denimos D = diag(1 , . . . , m ) con los m autovalores ms grandes


= (c1 , . . . , cm ) conformada con los vectores propios
1 > 2 > . . . > m y C
dimensiones

asociados. De esta forma, estimamos:

1 c1 , . . . , m cm )
(3.6)
son proporcionales a los vectores
En consecuencia, las columnas de
propios de S, por lo que las cargas del factor j -simo son proporcionales a
los coecientes en la componente principal j -sima y de ah el nombre del
mtodo. Los factores estn as relacionados con las primeras m componentes
=C
D
1/2 = (

principales y las interpretaciones debieran ser las mismas que para componentes principales. Pero tras la rotacin de las cargas la interpretacin de
los factores es normalmente distinta. El investigador preere usualmente los
factores rotados por razones que sern tratadas posteriormente.

es la suma de cuadrados de los

m 2

decir,
i i =
j=1 ij . Para completar

El i-simo elemento de la diagonal de


elementos de la i-sima la de
la aproximacin de

es

dada en (3.5) denimos:

i = sii

ij

(3.7)

j=1

= diag(1 , . . . , p ). Por tanto, en (3.5) las varianzas de

S son modeladas exactamente mientras que las covarianzas

con

la diagonal

de

fuera de la

diagonal lo son nicamente de forma aproximada (ste es precisamente el


objetivo del AF).
En este mtodo de estimacin la suma de cuadrados de la las y columnas
de

son iguales a las comunalidades y a los autovalores, respectivamente.

Teniendo en cuenta (3.7), la

i-sima
2 =
h
i

comunalidad es estimada mediante:

j=1
85

ij

(3.8)

. Por otro lado, la suma


i-sima la de

columna de es el j -simo autovalor de S:

que es la suma de cuadrados de la


de cuadrados de la

j -sima

2 =

ij

i=1

p
p

2
c2ij = j cj cj = j
( j cij ) = j
i=1

i=1

Por (3.7) y (3.8) la varianza de la

i-sima

variable es dividida en dos

partes, una debida a los factores y otra debida nicamente a las variables:

2 + i =
sii = h
i

2 + i

ij

(3.9)

j=1

2 a sii . En consecuencia, la contribucin


j -simo factor contribuye
ij
p
factor j a la varianza muestral total, tr(S) =
i=1 sii , es:

As el
del

Varianza debida al factor

j=

2 = j

ij

i=1
y la proporcin de varianza muestral total debida al factor

2
i=1 ij

tr(S)

es:

j
tr(S)

Si las variables no estn medidas en las mismas unidades, podemos estandarizar las variables y trabajar con la matriz de correlaciones

R.

De esta

forma, los autovalores y autovectores de esta matriz sustituyen a los de

S en

(3.6) para obtener la estimacin de las cargas factoriales. En la prctica se


utiliza

yora del

con mayor frecuencia que

software

y es la opcin por defecto en la ma-

estadstico. Dado que el objetivo primordial en el AF es

reproducir las covarianzas y las correlaciones en lugar de las varianzas, el uso


de

es ms apropiado en AF que en ACP. De hecho, en las aplicaciones

da a menudo mejores resultados que

S.

Si lo que se factoriza es

R,

entonces

la proporcin equivalente a la proporcin de varianza muestral total debida


al factor

es ahora:

2
i=1 ij

tr(R)
En este caso, a

se le denomina

j
p

matriz de correlaciones reproducida.

Podemos enjuiciar el ajuste del modelo de AF comparando los miembros


izquierdo y derecho de (3.5) mediante la matriz de error siguiente:

+ )

E = S (
86

que tiene valores diagonales nulos y distintos de cero fuera de la diagonal


principal. La siguiente desigualdad da una cota del tamao de los elementos
de

E:

2
2
e2ij m+1
+ m+2
+ + p2

ij
Por tanto, si los autovalores de

son pequeos, los errores en la matriz

tambin sern pequeos y el ajuste es bueno.

3.3.2. Ejemplo
Una empresa est desarrollando un estudio sobre la percepcin que tiene
sus directivos sobre sus subordinados. Para ello se le pidi a un directivo
que asignara cinco puntuaciones del 1 al 9 relacionadas con cinco cualidades
(a mayor valor mayor es la cualidad percibida) para cada una de los siete
trabajadores que tiene en su departamento. Las puntuaciones se recogen en
el chero

percepcion

y aparecen en la siguiente tabla:

amable

inteligente

feliz

simptico

correcto

t1

t2

t3

t4

t5

t6

t7

Vamos a ilustrar el mtodo de estimacin de componentes principales.


Calculamos en primer lugar la matriz de correlaciones:

R=

1.000
0.296 0.881 0.995 0.545
0.296
1.000 0.022 0.326 0.837

0.881 0.022
1.000 0.867 0.130

0.995
0.326 0.867 1.000 0.544
0.545 0.837
0.130 0.544 1.000

Las correlaciones en negrita indican dos grupos de variables:

{2, 5}.

{1, 3, 4}

Por tanto, se espera que las correlaciones entre las variables puedan

ser explicadas bastante bien por dos factores.


Los autovalores de

son: 3.263, 1.538, 0.168, 0.031 y 0. Por tanto,

es

singular, lo que es posible en una situacin en la que nicamente se disponen

87

de 7 observaciones sobre 5 variables con valores en una escala de un slo dgito. La multicolinealidad entre las variables inducida por el ltimo autovalor
podra ser determinada por medio del vector propio correspondiente. Los dos
primeros factores explican

1 +2
p

3.263+1.538
5

= 0.96 del total de la varianza

muestral. Por tanto extraemos dos factores. Los dos primeros autovectores

0.537
0.288

c1 =
0.434
0.537
0.390

son:

0.186
0.651

c2 =
0.473
0.169
0.538

Las cargas factoriales son obtenidas entonces de la forma:

=C
D
1/2

0.969 0.231
0.537 0.186
0.288 0.651 (
) 0.519 0.807

3.263
0

0.785 0.587
=
=

0.434 0.473

0
1.538
0.971 0.210
0.537 0.169
0.704 0.667
0.390 0.538

Las comunalidades se estiman a partir de (3.8) produciendo, por tanto,


los siguientes valores de las varianzas especcas:

2
h
1

h22
2
h
3
2
h
4
2
h
5

2 +
2
=
11
12
2

= 21 + 222
2 +
2
=
31
32
2
+
2
=
41
42
2 +
2
=
51

52

= (0.969)2 + (0.231)2 = 0.993


= (0.519)2 + (0.807)2 = 0.921
= (0.785)2 + (0.587)2 = 0.960
= (0.971)2 + (0.210)2 = 0.987
= (0.704)2 + (0.667)2 = 0.940

1
2
3
4
5

2
=1h
1

= 1 h22
2
=1h
3
2
=1h
4
2
=1h
5

= 0.007
= 0.079
= 0.040
= 0.013
= 0.060

La varianza explicada por cada factor es justamente el autovalor correspondiente: as el factor 1 explica 3.263 y el factor 2 explica 1.538, lo que
representa un 65.3 % y un 30.8 % de la variabilidad total, respectivamente.
Ntese que la suma de todas la comunalidades es

i=1

2 =
h
i

5
2

2 = 4.802 = 1 + 2

ij

i=1 j=1

Los dos factores explican un 96.1 % de la varianza total y, por tanto,


representan a las 5 variables muy bien. Para comprobar cmo de bien el

88

modelo de dos factores reproduce a la matriz de correlaciones examinamos:

0.969 0.231
0.519 0.807 (
)

0.971 0.704

+
= 0.785 0.587 0.969 0.519 0.785

0.971 0.210 0.231 0.807 0.587 0.210 0.667


0.704 0.667

0.007
0
0
0
0
0
0.079
0
0
0

0
0.04
0
0
+
0

0
0
0
0.013
0
0
0
0
0
0.06

1.000 0.317
0.896 0.990 0.528
0.317 1.000 0.066 0.335 0.904

=
0.896 0.066 1.000 0.885 0.161
0.990 0.335
0.885 1.000 0.543
0.528 0.904
0.161 0.543 1.000
que est muy prxima a

R.

Los elementos no diagonales de esta matriz

constituyen la matriz de correlaciones reproducida. Por ahora no vamos a


interpretar los factores y esperaremos hasta que sean rotados posteriormente.

3.3.3. Mtodo de los ejes principales


En el mtodo de las componentes principales se despreciaba

y se fac-

S o R. En el mtodo de los ejes principales, tambin denominado de


y factorizamos
los factores principales, utilizamos estimaciones iniciales de
o R
para obtener
S

torizaba

S
=

R
=
donde

p m y se calcula como
o R
.
S
viene dado
i-simo de S

tiene dimensiones

(3.6) utilizando los

autovalores y autovectores de
El elemento diagonal

2 = sii i .
h
i

por la comunalidad

De la misma forma, los elementos diagonales de

las comunalidades

2 = 1 i .
h
i

son

En consecuencia, estas matrices tienen la

89

siguiente forma:

2
h1 s12
s21 h
2
2

S= .
.
.
.
.
.

s1p
s2p

.
.
.

h2

sp1 sp2

2
h1 r12
r21 h
2
2

R= .
.
.
.
.
.

rp1 rp2

Una estimacin inicial popular para una comunalidad en


correlacin mltiple al cuadrado entre

yi

r1p
r2p

.
.
.

h2
p

es la

y el resto de variables:

2 = R2 = 1 1
h
i
i
rii
donde

rii

es el i-simo elemento diagonal de

una estimacin
R1 . Para S

de la comunalidad anloga es :

2 = sii 1 = sii R2
h
i
i
sii
donde

sii

maciones

es el

el valor absoluto o el
la de

S1 . Para utilizar ambas estiser no singulares. Si R es singular, podemos utilizar


cuadrado de la correlacin ms grande en la i-sima

i-simo
S deben

elemento diagonal de

como estimacin de la comunalidad.

Despus de obtener las estimaciones de las comunalidades, se calculan los

y utilizamos (3.6) para obtener


R
. Entonces las columnas y las las
factoriales

valores y vectores propios de


estimaciones de las cargas
de

pueden ser usadas para obtener nuevos autovalores y comunalidades,

es el
j -sima columna de

o R , y la suma de cuadrados de la i-sima


de yi . La proporcin de varianza explicada por

respectivamente. La suma de cuadrados de la

j -simo autovalor de
es la comunalidad
la de
el factor j es:
j

tr(S )

j
= p

i=1 i

tr(R )

j
= p

i=1 i

o R
. Las matrices S
o
j es el j -simo autovalor de S

R no son necesariamente semidenidas positivas y a menudo tendrn

donde

algn autovalor negativo pequeo. En tales casos, la proporcin de varianza acumulada superar a 1 para luego reducirse hasta 1 conforme se van

1 Se verica que Ri2 = 1

1
1
=1
.
rii
sii sii

90

aadiendo los autovalores negativos. Ntese que las cargas no puede ser obtenidas en (3.6) para autovalores negativos.
El mtodo de los ejes principales puede ser fcilmente iterado para mejorar las estimaciones de las comunalidades. Despus de obtener
o

de S

a travs de las estimaciones iniciales de las comunalidades, pode-

por medio de (3.8),

m 2
2
2

hi = j=1 ij . Estos valores de hi son sustituidos en la diagonal de S


de las que obtenemos un nuevo valor de
a travs de (3.6). Este
o R

mos obtener nuevas comunalidades de las cargas en

proceso contina hasta que las estimaciones de las comunalidades convergen


(para algunos conjuntos de datos el proceso puede no converger). Los autovalores y autovectores de la versin nal de

son utilizados

en (3.6) para obtener las cargas factoriales.


Un inconveniente del enfoque iterativo es que a veces conduce a estima-

2
h
i

ciones de las comunalidades

superiores a 1 (al factorizar

es conocido como caso de Heywood. Si

2 > 1
h
i

entonces

R). Tal resultado


i < 0, lo que es

claramente impropio ya que no se pueden tener varianzas especcas negativas. As, cuando una comunalidad es superior a 1 el proceso debe terminar,
indicando el programa que no se ha podido alcanzar una solucin. Algunos paquetes estadsticos tienen una opcin de continuar con las iteraciones
asignando a las comunalidades el valor 1 en todas las iteraciones posteriores.
La solucin resultante con

i = 0

es algo cuestionable ya que implica una

dependencia exacta de una variable sobre los factores, un resultado posible


pero poco probable.
El mtodo iterativo para

R se recoge en forma algortmica a continuacin:

1.- Calcular R
2.- Estimar las comunalidades:
{ 2
Ri
si R no singular
2i =
h
m
axj |rij |
si R singular
3.4.5.6.7.-

Obtener R

Determinar j y cj de R

Estimar = ( 1 c1 , . . .
, m cm )
2i = m
2
Estimar de nuevo h
j=1 ij
2i 1).
Repetir pasos 3, 4, 5 y 6 (si h

El mtodo de los ejes principales en su primera iteracin proporcionar


normalmente resultados muy prximos a los del mtodo de las componentes
principales cuando alguna de las siguientes condiciones sea cierta: 1) las
correlaciones son bastante grandes, dando lugar entonces a un valor pequeo
de

m,

o 2) el nmero de variables

es grande.

91

3.3.4. Ejemplo
Para ilustrar el mtodo del factor principal utilizamos los datos de la
percepcin que tiene el directivo sobre sus subordinados. Puesto que

es

singular utilizamos como estimaciones de las comunalidades las correlaciones


que en valor absoluto son las mayores en cada la de

2
h
2

2
0.837, h
3

que:

2
0.880, h
4

= 0.995

2
y h
5

= 0.837.

2 = 0.995,
R, es decir, h
1

De esta forma, tenemos

0.995 0.296
0.881 0.995 0.545
0.296 0.837 0.022 0.326 0.837

0.881
0.022
0.867
0.867
0.130
R=

0.995 0.326
0.867 0.995 0.544
0.545 0.837
0.130 0.544 0.837

Los autovalores de

son: 3.2018, 1.3945, 0.0296, -0.0002 y -0.0797,

cuya suma es 4.546. Los dos primeros autovectores son:

0.548
0.272

c1 =
0.431
0.549
0.373

0.178
0.656

c2 =
0.460
0.159
0.549

Las cargas factoriales son obtenidas entonces de la forma:

=C
D
1/2

0.981 0.210
0.548 0.178
0.272 0.656 (
) 0.487 0.774

3.2018
0

0.771 0.544
=
=

0.431 0.460

0
1.3945
0.982 0.188
0.549 0.159
0.667 0.648
0.373 0.549

que comparadas con las obtenidas por el mtodo de las componentes principales se observa la similitud entre ambas. Esto era de esperar dado el gran
tamao de las comunalidades iniciales. El paso 6 del mtodo proporciona las
nuevas comunalidades y varianzas especcas:

2
h
1
2
h
2
2
h
3
2
h
4
2
h
5

2 +
2
=
11
12
2 +
2
=
21
22
2 +
2
=
31
32
2 +
2
=
41
42
2 +
2
=
51
52

= (0.981)2 + (0.210)2 = 1.006


= (0.487)2 + (0.774)2 = 0.836
= (0.771)2 + (0.544)2 = 0.890
= (0.982)2 + (0.188)2 = 0.999
= (0.667)2 + (0.648)2 = 0.865

92

1
2
3
4
5

2
=1h
1
2
=1h
2
2
=1h
3
2
=1h
4
2
=1h
5

= 0.006
= 0.1638
= 0.1096
= 0.0003
= 0.1352

Dado que

2 > 1,
h
1

el mtodo debe terminar. Si interpretamos los re-

sultados con los autovalores obtenidos en la etapa 4 de la primera iteracin tenemos que, por ejemplo, el primer factor logra explicar un 70.4 %
(3.2018/4.546=0.704) de la variabilidad total. El resto se interpreta similarmente.

3.3.5. Mtodo de mxima verosimilitud


Si se supone que las observaciones
aleatoria de una

Np (, ),

entonces

y1 , . . . , yn constituyen una muestra


pueden ser estimadas por el m-

todo de mxima verosimilitud. Aplicando este mtodo, se puede demostrar


que la matrices

deben satisfacer lo siguiente:

= (I
+

1 )

S
= diag(S

con

una matriz diagonal. Esas ecuaciones deben ser resuelta itera-

tivamente y, en la prctica, el procedimiento puede no converger o puede dar


lugar a un caso de Heywood. Debe notarse que la proporcin de varianza
explicada por los factores no estar necesariamente en orden descendente
en este mtodo, a diferencia de lo que ocurre con los dos procedimientos
precedentes.
Una ventaja de este mtodo es que permite realizar un test de idoneidad
del modelo con

factores (ver mtodo 4 de la seccin 3.4 [pg. 96]).

3.3.6. Otros mtodos de extraccin de factores


Existen otros muchos mtodos de extraccin de factores entre los que
destacan:

i) Mnimos cuadrados no ponderados:

trata de minimizar la suma de las

diferencias al cuadrado entre los elementos de las matrices de correlacin

y los de la matriz de correlaciones reproducida

aunque

sin tener en cuenta los elementos de la diagonal principal. Busca por


tanto que las correlaciones muestrales directas entre las variables sean
parecidas a las reproducidas.

ii) Mnimos cuadrados generalizados (ponderados):

aplica el mismo cri-

terio que el anterior pero ponderando las correlaciones con la inversa


de la especicidad de las variables. De esta forma, las correlaciones
entre variables con elevada especicidad tendrn menos peso en los

93

resultados nales que las correlaciones entre variables con una baja especicidad. En otras palabras, las variables que no estn fuertemente
relacionadas con las restantes no son tan importantes en la solucin.
Permite contrastar si la matriz residual es una matriz nula mediante
un estadstico

iii) Imagen:

de bondad de ajuste.

la tcnica es denominada as dado que el anlisis distribuye

entre los factores la varianza de una variable observada que es reejada por las otras variables, en una forma similar a las correlaciones
mltiples al cuadrado. Es un compromiso entre el ACP y el mtodo de
los factores principales. Al igual que el ACP, proporciona una solucin
nica ya que hay valores jos en la diagonal de

R.

Como el mtodo

de factores principales, los valores de la diagonal son comunalidades


excluyendo la varianza nica y la del error.
Los valores de cada variables proporcionados por el mtodo se obtienen
mediante regresin mltiple actuando cada una de ellas como variable
dependiente. Se calcula una matriz de covarianzas a partir de esos valores predichos y las varianzas de esta matriz son las comunalidades para
la extraccin de factores. Hay que tener cuidado a la hora de interpretar los resultados de la tcnica de imagen ya que las cargas representan
covarianzas entre variables y factores en lugar de correlaciones.

iv) Alpha:

este mtodo procede de la investigacin psicomtrica en don-

de el inters est en descubrir qu factores comunes son encontrados


consistentemente cuando repetidas muestras de variables son tomadas
de una poblacin de variables potenciales. El coeciente alpha es una
medida de la abilidad (de lo generalizable) de un valor tomado en una
variedad de situaciones. En esta tcnica las comunalidades que maximizan el coeciente alpha para los factores son estimadas utilizando
procedimientos iterativos (a veces exceden el valor 1).

3.3.7. Comparacin de mtodos


Los distintos mtodos de estimacin de las cargas factoriales darn en
general distintas soluciones. Si los datos se distribuyen segn una normal,
el mtodo de mxima verosimilitud es muy apreciado. Si esta hiptesis es
severamente violada se recomienda el mtodo de ejes principales. Sin embargo, para muestras de poblaciones en los que el modelo bsico de AF (3.3)
[pg. 79] sea vlido, la mayor parte de los mtodos proporcionarn cargas
similares, al menos tras la rotacin. As si el investigador tiene datos para

94

los que el modelo de AF puede ajustarse exitosamente con grandes comunalidades, la eleccin de la tcnicas no es importante. Adems, si el nmero de
variables es grande los diferentes mtodos proporcionarn soluciones similares, independientemente de la idoneidad del ajuste.

3.3.8. Ejemplo
Consideremos los datos del chero

empleados

estudiados en el Ejemplo

2.7.3 [pg. 69]. Vamos a aplicar el mtodo de mxima verosimilitud para la


estimacin de las comunalidades y de la especicidades mediante SPSS. La
matriz de correlaciones es:

1.000 0.514 0.661 0.633


0.047 0.252 0.280
0.514 1.000 0.780 0.755
0.005
0.063
0.010

0.661 0.780 1.000

0.880
0.084
0.097
0.144

1.000 0.020 0.045 0.009


R = 0.633 0.755 0.880

0.047 0.005 0.084 0.020 1.000


0.003
0.051

0.252 0.063 0.097 0.045


0.003
1.000
0.802
0.280 0.010 0.144 0.009 0.051
0.802
1.000
Para que el AF sea fructfero deben aparecer grupos de variables con
correlaciones altas. Una matriz de correlaciones prxima a la identidad indica que el anlisis ser deciente. Aunque no existen muchas correlaciones
altas, s podemos indicar que la mayora son signicativas. Se observa dos
claros subgrupos formados por las variables

{y1 , y2 , y3 , y4 }

{y6 , y7 },

y que

la variable antigedad (y5 ) tiene una baja correlacin con el resto.


La siguiente tabla contiene las comunalidades iniciales, calculadas para
cada variable como la correlacin mltiple al cuadrado entre esa variable y las
restantes incluidas en el anlisis, y las comunalidades despus de la extraccin, que nos indican la proporcin de varianza de cada variable explicada por
los factores, es decir, la estimacin nal de las comunalidades son tambin
correlaciones mltiples al cuadrado, pero ahora entre cada variable actuando
como dependiente y los factores que actan como variables independientes.
Dado que la variable antigedad (y5 ) tiene una baja correlacin con el resto
de variables, su comunalidad inicial es baja, aunque mejora sustancialmente
al nalizar el mtodo. El programa avisa de que se han encontrado alguna
comunalidad mayor que 1 durante las iteraciones.
Los autovalores expresan la cantidad de varianza total que est explicada
por cada factor. El primer factor explica un 45.22 % de la varianza total, el
segundo factor explica el 26.52 % de la varianza, por tanto los dos primeros
factores explican el 71.73 % del total de varianza. El mtodo da 5 iteraciones

95

Inicial

Extraccin

N. educativo

.507

.526

Cat. laboral

.642

.673

Salar. actual

.842

.926

Salar. inicial

.818

.870

Antigedad

.069

.999

Experiencia

.658

.836

Edad

.656

.775

y entonces para. Ntese que los autovalores no aparecen en forma decreciente


(sumas de las saturaciones al cuadrado de la extraccin). Se han seleccionado
tres factores correspondientes a los autovalores mayores que 1 y el porcentaje
total de varianza explicada por los tres factores seleccionados es del 80.089 %.
Autovalores iniciales

Sumas saturac. cuadr. extraccin

Factor

Total

% var.

% acum.

Total

% var.

3.165

45.219

45.219

1.012

14.451

% acum.
14.451

1.856

26.519

71.737

2.932

41.892

56.343

1.008

14.399

86.136

1.662

23.746

80.089

.431

6.151

92.287

.247

3.525

95.811

.195

2.787

98.598

.098

1.402

100.000

La siguiente tabla muestra la matriz de estructura factorial o cargas factoriales. Los valores indican las correlaciones entre las variables originales
y cada uno de los factores. El primer factor tiene una correlacin muy alta
(0.999) nicamente con la variable Antigedad. El segundo factor est relacionado con las variables Nivel educativo (0.695), Categora laboral (0.806),
Salario actual (0.959) y Salario Inicial con (0.921). El tercer factor est relacionado con las variables Experiencia Previa (0.909) y Edad (0.866).
Posteriormente estudiaremos qu hacer en un modelo como ste en el que
un factor est determinado por una nica variable.

3.4. Determinacin del nmero de factores


En esta seccin describimos cuatro mtodos clsicos para decidir el nmero

de factores que se deben extraer. Los mtodos son similares a los

estudiados para determinar el nmero de componentes a retener en el ACP.

96

Factor
1

N. educativo

.048

.695

.200

Cat. laboral

.006

.806

.155

Salar. actual

.085

.959

.001

Salar. inicial

.019

.921

.150

Antigedad

.999

.001

.000

Experiencia

.003

.100

.909

Edad

.051

.153

.866

i) Varianza total:
total

tr(S)

elegir

tr(R);

para explicar un porcentaje de la varianza

por ejemplo, un 80 %. Este mtodo se aplica par-

ticularmente al mtodo de las componentes principales. En este caso,

j de S es:
2

y la correspondiente de R es
i=1 ij / tr(R). La conp m 2
tribucin de los m factores a tr(S) o a p es, por tanto,
j=1 ij ,
i=1

que es la suma cuadrtica de todos los elementos de . Para el mtodo de la componente principal sta es la suma de los primeros m
autovalores o la suma de las p comunalidades:
la proporcin de varianza muestral total debida al factor

2
i=1 ij / tr(S)

p
m

2 =

ij

i=1 j=1
Por tanto, seleccionaremos

2 =
h
i

i=1

j=1

m sucientemente grande para que la suma

de las comunalidades o la suma de los autovalores constituyan una


porcin relativamente grande de

tr(S)

o de

p.

Tambin puede ser extendido al mtodo de los ejes principales. Sin em-

o R
pueden tener autovalores negativos y, por tanto,
S
m
p
proporcin acumulada de autovalores
j=1 j /
j=1 j puede su-

bargo,
la

perar a 1 para luego ser inferior a este valor conforme los autovalores
negativos vayan aadindose. Por tanto, si slo queremos dar una iteracin, un porcentaje del 80 % ser alcanzado para un valor inferior al

que se precisara para

y una estrategia mejor sera elegir

como el primer valor para el que se supere por primera vez 1. Si se


desea dar ms de una iteracin,
mtodo

2
y
i hi

debe ser elegido antes de iterar el

es obtenido tras la iteracin como

i hi = tr(S ).

Para elegir antes de iterar se podra utilizar consideraciones


los autovalores de

o de

R,

a priori o

como en el mtodo de las componentes

principales.

97

ii) Regla de Kaiser: consiste en retener los factores


cuyos autovalores son
p
i=1 i /p para

mayores que la media de los autovalores,

R.

y 1 para

Este mtodo a menudo funciona bien en la prctica y es el que por

defecto programan muchos paquetes estadsticos.

iii) Grco de sedimentacin:

que representa a

frente a

i.

Si la curva

muestra una fuerte pendiente al principio seguida de una tendencia


aproximadamente lineal con mucha menos pendiente, elegir

m como el

nmero de autovalores en la zona de fuerte pendiente.

iv) Test de hiptesis:


estimar

asociado al mtodo de mxima verosimilitud para

La hiptesis nula a contrastar es

H0 : = + .

Bartlett recomend el siguiente estadstico de contraste:

)
)(
(

+ |

(1
)
|
2p + 4m + 11
ln
2 [(p m)2 p m]
n
aprox.
6
|S|
2
Si rechazamos

H0

+
es un mal ajuste para S y se debe

2
de m. La aproximacin para el estadstico

entonces

probar un valor superior

funciona bastante bien para pequeas muestras. No obstante, cuando

n es grande, el mtodo muestra ms factores signicativos que los otros


tres mtodos. Por tanto, se debe considerar el valor proporcionado por
este mtodo como una cota superior para

m.

En muchos conjuntos de datos la eleccin de

no ser obvia. Esta in-

determinacin ha llevado a muchos estadsticos a ser escpticos en cuanto a


la validez del AF. Un investigador puede empezar con uno de los mtodos
para un valor inicial de
o de

tr(R) = p

m,

inspeccionar el porcentaje resultante de

tr(S)

y entonces intentar una interpretacin una vez se hayan

rotado las cargas (la rotacin ser estudiada posteriormente). Si el porcentaje de varianza o la interpretacin no resultan satisfactorias, el investigador
puede probar otro valor de

en una bsqueda que tenga un compromiso

aceptable entre el el porcentaje de

tr(R)

y la interpretacin de los factores.

Desde luego, ste es un procedimiento subjetivo y para tales conjuntos de


datos el resultado puede ser discutible. Sin embargo, en aquellos conjuntos
de datos que se ajusten bien por un modelo de AF los tres primeros mtodos
generalmente coincidirn y el procedimiento global ser ms objetivo. Por
ltimo, indicar que estos tres primeros mtodos pertenecen al AF de tipo
exploratorio, mientras que el contraste de hiptesis es una tcnica del AF
conrmatorio.

98

3.4.1. Ejemplo
Para los datos de la percepcin que tiene el directivo sobre sus subordinados los tres primeros criterios coinciden en
disponible ya que

m = 2.

El criterio 4 no est

es singular y el test implica invertir el valor de

|R|.

3.4.2. Ejemplo
Determinemos el nmero de factores a considerar en el mtodo de mxima

empleados. Tanto los criterios


de la varianza total como la regla de Kaiser indican que m = 3 es una eleccin
verosimilitud aplicado a los datos del chero

adecuada, hecho conrmado por el grco de sedimentacin (no mostrado).


Sin embargo, el estadstico de Bartlett toma el valor 8.882 (p
por tanto, debemos rechazar

H0

= 0.031)

y,

por lo que el modelo de 3 factores no es un

buen ajuste para estos datos.

3.5. Rotacin
Tal y como se demostr en la seccin 3.2.3, las cargas factoriales (las las
de

) en el modelo poblacional (3.3) [pg. 79] son nicas salvo multiplicacin

por una matriz ortogonal que rota a las cargas. Las cargas rotadas preservan
las propiedades esenciales de las cargas originales, reproducen a la matriz
de covarianzas y satisfacen todas las hiptesis bsicas. La matriz de cargas
estimadas

puede ser as mismo rotada para obtener

es ortogonal. Ya que T T

= I,

= T
,

donde

las cargas rotadas proporcionan las mismas

estimaciones de la matriz de covarianzas:


+
= T
T
+
=

S
=
constituyen las coor
denadas de un punto en el espacio de cargas correspondiente a yi . La rotacin
de los p puntos proporciona sus coordenadas con respecto a nuevos ejes (facGeomtricamente, las cargas en la i-sima la de

tores) pero por otro lado deja su conguracin geomtrica intacta. Lo que
se pretende es encontrar un nuevo marco de referencia en el que los factores sean ms interpretables. Para lograr esto, el objetivo de la rotacin es
situar los ejes prximos a tantos puntos como sea posible. Si existen grupo
de puntos (correspondientes a agrupaciones de

yi )

buscamos mover los ejes

para que pasen a travs o cerca de los grupos. Esto asociara cada grupo de
variables con un factor o eje y hara la interpretacin ms objetiva. Los ejes
resultantes representan entonces a los factores naturales.

99

Si podemos conseguir una rotacin en la que cada variable est prxima a


un eje, entonces cada variable tendr una carga grande sobre el factor correspondiente a ese eje y pequeas cargas en el resto de factores. En este caso,

estructura
simple y la interpretacin se facilita notablemente. Slo hay que observar qu
no hay ambigedad. Esta situacin tan favorable es denominada

variables estn asociadas con cada factor, y el factor es denido y nombrado


correspondientemente.
Para identicar las agrupaciones naturales de variables, buscamos una rotacin a un patrn interpretable de las cargas, en el que las variables carguen
altamente slo en un factor. El nmero de factores en los que una variable
tiene cargas moderadas o altas es denominado

complejidad de la variable. En

la situacin ideal de una estructura simple todas las variables tendrn una
complejidad de 1. En este caso, las variables han sido claramente agrupadas
en grupos correspondiente a factores.
En denitiva, el proceso de rotacin busca una estructura simple: variables que saturen, a ser posible, en un nico factor, y factores que contengan
un nmero reducido de variables que saturen inequvoca y exclusivamente en
ellos. Con todo, las variables que compartan informacin con varios factores,
si existen, entorpecern el proceso de rotacin y en lugar de una nica saturacin elevada en un nico factor tendern a mostrar saturaciones moderadas
en varios factores.
Vamos a considerar dos tipos bsicos de rotaciones:
La rotacin

= T

ortogonal

es ortogonal ya que implica a una matriz

oblicua.

que es

ortogonal, provocando una rotacin rgida de los ejes ortogonales originales


que conserva esta propiedad. Una rotacin ortogonal conserva los ngulos
y las distancias, las comunalidades no cambian y la conguracin bsica
de los puntos permanece igual. nicamente cambian los ejes de referencia.
En una transformacin oblicua, los ejes ya no tienen porqu permanecer
perpendiculares y as son libres de pasar cerca de los grupos de puntos.

3.5.1. Rotacin ortogonal


Hemos indicado anteriormente que una rotacin ortogonal conserva a
las comunalidades. Esto es debido a que las las de

son rotadas y las

distancias al origen no cambian, lo que, por (3.8) [pg. 85], es precisamente la comunalidad. Sin embargo, la varianza explicada por cada factor

2
i=1 ij

= j cambiar en la medida que cambien las proporciones corresp 2


p 2
pondientes
i=1 ij / tr(S) = j / tr(S) o
i=1 ij / tr(R) = j /p. Las pro-

porciones debidas a los factores rotados no estarn necesariamente en orden


descendente.

100

En el caso de que haya nicamente dos factores (m

= 2)

podemos utili-

zar un enfoque grco para determinar la transformacin. Para ello se realiza


una inspeccin visual de un grco de cargas factoriales y se elige una transformacin apropiada para que los puntos del grco queden lo ms cercanos

son en este caso pares de

cargas (i1 , i2 ), i = 1, 2, . . . , p, correspondientes a y1 , y2 , . . . , yp . Tendremos


que elegir un ngulo a travs del cual los ejes puedan ser rotados para mo
,
verlos cerca de los grupos de puntos. Las nuevas cargas de puntos (
i1 i2 )
posible a los nuevos ejes. En concreto, las las de

pueden ser medidos directamente sobre el grco como coordenadas de los


ejes o calculada de

= T

utilizando

cos sen
sen cos

T=
donde el ngulo de rotacin

est medido en el sentido contrario al de las

agujas del reloj.

3.5.2. Ejemplo
En el Ejemplo 3.3.2 [pg. 87] la estimacin inicial de las cargas factoriales
para los datos de percepcin no suministraron una interpretacin consistente
con las dos agrupaciones de variables aparentes en el patrn de correlaciones
en

R.

Los cinco pares de cargas

i1 ,
i2 )
(

correspondientes a las cinco varia-

bles son representados en la gura 3.1 junto con una rotacin ortogonal de

35

que lleva a los ejes o factores ms cerca de los dos grupos de puntos

(variables) identicados ya en el Ejemplo 3.3.2. Con la rotacin, cada grupo


de variables se aproxima mucho ms a un factor.

obtenida en ese ejemplo y

(
) (
)
cos(35 ) sen(35 )
0.819 0.574
T=
=
sen(35 ) cos(35 )
0.574 0.819

Utilizando

obtenemos las cargas rotadas:

0.927
0.367
0.969 0.231
0.519 0.807 (
) 0.037 0.959

0.819 0.574

= T
= 0.785 0.587

0.574 0.819 = 0.980 0.031

0.916
0.971 0.210
0.385
0.194
0.950
0.704 0.667
La interpretacin de las cargas rotadas es clara: el primer factor est
asociado con las variables

y1 , y3

y4

(amable, feliz y simptico) y el segundo

101

1.0

f2*
2

f2

0.0

0.5

0.5

35

41

1.0

f1*

0.5

0.0

0.5

1.0

1.5

f1

Figura 3.1: Rotacin ortogonal de

factor con

y2

y5

35

de los ejes.

(inteligente y correcto). Estos mismos grupos de variables

fueron mostrados por la matriz de correlaciones y pueden verse en la gura


3.1. El primer factor puede ser descrito como representativo del carcter
cordial de una persona mientras que el segundo de su carcter racional.
Ntese que si se permitiese que el ngulo entre los ejes rotados fuera

f1 podra estar
ms cercano a los puntos correspondientes a las variables y1 e y4 y as reducir

sus coordenadas en f2 . Sin embargo, la interpretacin bsica no cambiara.


inferior a

90

(una rotacin oblicua), el eje que representa a

Rotacin varimax
El enfoque grco est generalmente limitado a

m = 2.

Para

m > 2

se han propuesto diversas tcnicas analticas entre las que destaca el mtodo

varimax,

cuyo objetivo es calcular las cargas rotadas que maximicen la

varianza de las cargas cuadrticas en cada columna de

Si las cargas en

una columna fueran casi iguales, entonces la varianza estara prxima a cero.

102

Conforme las cargas cuadrticas se aproximen a 0 y a 1 (en la factorizacin


de

R), la varianza se aproximar a un mximo. Por tanto, el mtodo varimax

trata de hacer las cargas grandes o pequeas para facilitar la interpretacin.


Para evitar que las variables con mayores comunalidades tengan ms peso
en la solucin nal, suele efectuarse la normalizacin de Kaiser consistente
en dividir cada carga factorial al cuadrado por la comunalidad de la variable
correspondiente.
El procedimiento varimax no puede garantizar que todas las variables
tengan grandes cargas en un nico factor. De hecho, ningn procedimiento
podra conseguir esto para cualquier conjunto posible de datos. La conguracin de los puntos en el espacio de cargas permanece ja y nicamente
rotamos los ejes para acercarlos al mayor nmero de puntos posibles. En
ocasiones, los puntos no estn bien agrupados y los ejes no pueden ser rotados para que estn cerca de todos ellos. Este problema se agrava al tener
que elegir

m.

Si se cambia

m,

las coordenadas

i1 ,
i2 , . . . ,
im )
(

cambian y

se altera la posicin relativa de los puntos.

Otros mtodos de rotacin ortogonal


La tcnica

quartimax

drticas en cada la de

trata de maximizar la varianza de las cargas cua-

. Este mtodo tiene mayor tendencia que el varimax

a asignar a las variables cargas grandes en ms de un factor. Tambin tiene el inconveniente de producir ocasionalmente un factor general en el que
todas o casi todas las variables presenten cargas grandes. En este caso, la
interpretacin tiende a ser similar a la de componentes principales.
El mtodo de rotacin

equamax

constituye un compromiso entre los dos

anteriores y trata de maximizar una media ponderada de los criterios varimax


y quartimax.

3.5.3. Ejemplo
Anteriormente habamos seleccionado grcamente una rotacin de

35

para conseguir unas cargas factoriales cuya interpretacin fuera ms sencilla


que la obtenida por el mtodo de las componentes principales para los datos
de percepcin. Seguidamente se muestran los autovalores tras la extraccin
por el mtodo de las componentes principales y tras la rotacin varimax
utilizando la normalizacin de Kaiser:
Obsrvese que, aunque los autovalores y las proporciones de varianzas
explicadas han cambiado, no lo ha hecho la proporcin total de varianza
explicada que logran los dos factores extrados y rotados. Las cargas rotadas

103

Sumas satur. cuadr. extraccin

Sumas satur. cuadr. rotacin

Factor

Total

% var.

Total

% var.

% acum.

3.263

65.265

65.265

2.811

56.220

56.220

1.538

30.766

96.031

1.991

39.812

96.031

% acum.

por el mtodo varimax utilizando la normalizacin de Kaiser son ahora:

0.969 0.231
0.951 0.298
0.519 0.807 (
) 0.033 0.959

0.859 0.512

= T =
0.785 0.587 0.512 0.859 = 0.975 0.103
0.971 0.210
0.941 0.317
0.704 0.667
0.263 0.933
que corresponde a un ngulo de rotacin de

= sen1 (0.512) = 30.8 .

Los resultados son muy similares a los conseguidos grcamente.

3.5.4. Rotacin oblicua


El trmino rotacin oblicua se reere a una transformacin en la que
los ejes no permanecen perpendiculares. Tcnicamente, el trmino rotacin
oblicua es una denominacin equivocada, ya que rotacin implica una transformacin ortogonal que conserva las distancias. Una caracterizacin ms
precisa sera transformacin oblicua, pero el trmino rotacin est ya muy
establecido en la literatura.

T, una transformacin oblicua

obtener f = Q f y, por tanto:

En lugar de una matriz ortogonal


una matriz no singular

para

utiliza

cov(f ) = Q IQ = Q Q = I
por lo que los nuevos factores estn correlados. Puesto que las distancias y
los ngulos no se conservan, las comunalidades para
de

son distintas de las

f.
Al permitir que los ejes no sean perpendiculares es ms sencillo que stos

pasen por los principales grupos de puntos en el espacio de cargas (supuesto


que tales grupos existan). Como ilustracin, en la gura 3.2 hemos representado las cargas rotadas por la tcnica varimax para dos factores por el
mtodo de las componentes principales. Aparecen as mismo unos ejes con
un ngulo entre ellos de

38

que estn ms prximos a los puntos y, por

tanto, las cargas resultantes en relacin a estos ltimos estarn ms prximas a 0 y a 1. Sin embargo, la interpretacin no cambia ya que los mismos

104

1.0

f2*
2

f2

0.6

0.8

0.4

f1*
4
3

0.0

0.2

38

0.0

0.2

0.4

0.6

0.8

1.0

f1

Figura 3.2: Ejes oblicuos.

puntos (variables) estaran asociados con los ejes oblicuos que con los eje
ortogonales.
Existen diversos mtodos analticos para conseguir rotaciones oblicuas.
El primero de ellos, el

oblimin directo, depende de un valor delta que permite

controlar el grado de oblicuidad (correlacin) de los factores de la solucin.


Cuanto ms negativo es el valor, menos oblicuas son las soluciones, mientras
que los valores positivos (con un lmite de 0.8) permite ms correlacin entre
los factores. SPSS asigna un valor por defecto de 0 y se denomina entonces

quartimin directo.

Un procedimiento ms rpido que el anterior y que puede utilizarse con


grandes conjuntos de datos es el

promax.

Al realizar una transformacin oblicua se obtiene dos tipos de matrices


para interpretar: la

matriz de patrones o de conguracin, cuyas las contie-

nen a las cargas que representan a las coordenadas de los puntos (variables)
en relacin a los ejes oblicuos y sirven como coecientes en el modelo que

105

relaciona a las variables con respecto a los factores, y la

matriz de estructura

que muestra las correlaciones entre cada variable y cada factor. De ellas, la
primera es usualmente la preferida para la interpretacin. En el caso de que
los ejes sean ortogonales ambas matrices coinciden.
Adems de estas dos matrices, es interesante analizar tambin la matriz
de correlaciones entre factores. Si las correlaciones entre los factores son muy
pequeas es ms robusto aplicar rotaciones ortogonales; por otro lado si dos
factores estn muy correlacionados puede ser seal de que estn midiendo
el mismo concepto y que, en consecuencia, haya que reducir el nmero de
factores. Hay que tener en cuenta que la eleccin de delta inuencia tanto a
la matriz de patrones como a la de estructura, as como a las correlaciones
entre los factores.
Llegados a este punto, nos planteamos una cuestin importante: qu tipo
de rotacin utilizar?. Uno de los usos de una rotacin oblicua es comprobar
la ortogonalidad de los factores. Tal condicin es impuesta por el modelo
sobre los factores originales y mantenida por una rotacin ortogonal. Si una
rotacin oblicua produce una matriz de correlaciones de los factores que es
casi diagonal, estaremos ms seguros de que los factores son realmente ortogonales. Por tanto, la mejor forma de decidirse entre una rotacin ortogonal
o una oblicua es realizar una oblicua con el nmero deseado de factores y
observar las correlaciones entre ellos. Si las correlaciones son pequeas (por
ejemplo, por debajo de 0.3), entonces una rotacin ortogonal es la adecuada.
No obstante, es bastante admitido que la rotacin ortogonal es ms simple
de comprender e interpretar y, por tanto, preferida a una rotacin oblicua.

3.5.5. Ejemplo
En la siguiente tabla se muestran las cargas factoriales sin rotar y las
rotadas por los mtodos varimax y oblimin directo para los dos factores
extrados por el mtodo de las componentes principales con los datos de
percepcin.
Cargas
sin rotar

varimax

oblimin

variable

f1

f2

f1

f2

amable

0.969

-0.231

0.951

0.298

inteligente

0.519

0.807

0.033

0.959

-.085

.977

feliz

0.785

-0.587

0.975

-0.103

1.012

-.240

simpatico

0.971

-0.210

0.941

0.317

.926

.195

correcto

0.704

0.667

0.263

0.933

.154

.919

106

f1

.939

f2

.174

Las diferencias entre las cargas rotadas ortogonalmente y las oblicuas son
mnimas. De hecho, la correlacin entre los factores es

corr(f1 , f2 ) = 0.251,

indicando que la rotacin ortogonal puede ser adecuada.

3.5.6. Ejemplo
El chero

cabeza

contiene datos de medidas de longitud y anchura de

la cabeza del primer y segundo hijo adultos en una muestra de 25 familias.


Supongamos que extraemos 2 factores por el mtodo de las componentes
principales y que son rotados por la tcnica varimax. Los resultados aparecen
en la gura 3.2 y en la siguiente tabla:
Cargas
sin rotar

varimax

f1

f2

f1

f2

long1

.879

.295

.423

anch1

.875

.331

.395

long2

.909

-.308

anch2

.912

-.294

variable

oblimin

f1

f2

.825

.032

.902

.848

-.026

.956

.866

.414

.968

-.010

.858

.426

.948

.013

As mismo, esta tabla presenta la matriz de conguracin de una rotacin


oblimin directa con delta igual a 0 que produce unos ejes oblicuos con un
ngulo de

38 , los mismos que los obtenidos con el enfoque grco. Las cargas

oblicuas dan una estructura simple ms clara que la obtenida por la rotacin
varimax, pero la interpretacin es esencialmente la misma si despreciamos
las saturaciones por debajo de 0.45 en la rotacin varimax.
De la gura 3.2 es evidente que un nico factor sera adecuado ya que el

45 . La eleccin m = 1 es tambin apoyada


anteriormente: los autovalores de R son 3.2,

ngulo entre los ejes es menor de


por los tres criterios estudiados

0.38, 0.27 y 0.16; el primero explica un 80 % de la variabilidad total y el


segundo un 9 % adicional. La gran correlacin entre los dos factores oblicuos
(0.79

= cos 38 )

constituye una evidencia adicional de que un nico factor

sera suciente. De hecho, el patrn de

indica la presencia de un nico

factor ya que las cuatro variables forman un nico grupo al estar altamente
correladas entre ellas:

1.00
0.73
R=
0.71
0.70

0.73
1.00
0.69
0.71

107

0.71
0.69
1.00
0.84

0.70
0.71

0.84
1.00

3.5.7. Interpretacin
Anteriormente hemos discutido la utilidad de la rotacin como una ayuda
en la interpretacin de los factores. El objetivo es conseguir una estructura
simple en la que cada variable tenga una alta carga en un nico factor y
con pequeas saturaciones en el resto de factores. Aunque en la prctica es
a menudo difcil conseguir este objetivo, las rotaciones usualmente producen
cargas que estn prximas a una estructura simple.
A continuacin sugerimos lneas generales para interpretar los factores
mediante el examen de la matriz de las cargas factoriales rotadas. Movindonos horizontalmente de izquierda a derecha a lo largo de las

cargas en

cada la, identicamos las cargas ms grandes en valor absoluto. Si la carga


ms grande es de tamao signicativo (una decisin subjetiva) debe ser entonces marcada. Esto se hace para cada una de las

variables. Puede haber

otras cargas signicativas en una la adems de la marcada. Si stas son


consideradas, la interpretacin es menos simple. Por otro lado, puede haber
variables con comunalidades tan pequeas que no aparecen cargas factoriales
signicativas en ningn factor. En este caso, se debe incrementar el nmero
de factores para comprobar si estas variables pueden estar asociadas con un
factor nuevo.
Para enjuiciar la signicacin de una saturacin

ij

obtenida de

se ha

propuesto por diversos autores un valor de corte de 0.3. En la mayor parte


de las aplicaciones un valor de 0.3 es demasiado pequeo y dar lugar a
variables con una complejidad mayor que 1. Un valor objetivo de 0.5 o 0.6
es normalmente ms til. El criterio de 0.3 est basado aproximadamente en
el valor crtico para que un coeciente de correlacin sea signicativo. Sin
embargo, la distribucin de las cargas muestrales no es la misma que la de un
coeciente de correlacin muestral proveniente de una distribucin normal
bivariante. Adems, el valor crtico debiera incrementarse debido a que se
debe contrastar conjuntamente la signicacin de
lado, si
Ya que

m es grande,
el
2 = m
2
h
i
j=1 ij

mp

ij .

valores

Por otro

valor crtico posiblemente necesite ser reducido algo.


est acotado por 1, un incremento en

reduce la

media de las cargas cuadrticas en una la.


Tras identicar cargas potencialmente signicativas, se debe intentar descubrir algn signicado en los factores e, idealmente, darles nombre. Esto se
puede conseguir si el grupo de variables que estn asociados con cada factor
tiene sentido para el investigador. Pero en muchas situaciones el agrupamiento no es tan lgico y una revisin puede ser intentada, tal como ajustar el
tamao de las cargas que se han estimado oportunas, cambiar

m, utilizar un

mtodo diferente de estimar las cargas o emplear otro tipo de rotacin.

108

3.6. Puntuaciones factoriales


En muchas aplicaciones se desea nicamente descubrir si un modelo de
anlisis factorial se ajusta a los datos e identicar los factores. En otras apli-

scores) factoriales,

caciones, sin embargo, se desea obtener las puntuaciones (

fi = (fi1 , fi2 , . . . , fim ) , i = 1, . . . , n,

que se denen como las estimaciones

de los valores de los factores subyacentes para cada observacin. Existen dos
potenciales usos de tales puntuaciones:
1. anlisis del comportamiento de las observaciones en trminos de factores. Nos permite detectar los casos atpicos, conocer dnde se ubican
ciertos grupos de la muestra, identicar en qu factores sobresalen unos
sujetos y en cules no, etc.
2. como estudio previo a otros anlisis. Los valores as obtenidos pueden
servir de entrada en otras tcnicas, tales como el MANOVA, Anlisis
Cluster, Regresin, etc.
Puesto que los factores no son observables, podemos estimarlo como funciones de las variables observadas

yi .

El enfoque ms popular para estimar

los factores se basa en regresin. Puesto que

E(fi ) = 0,

relacionamos los

factores con las variables por medio de un modelo de regresin centrado por
la media:

f1 = 11 (y1 y1 ) + 12 (y2 y2 ) + + 1p (yp yp ) + u1


f2 = 21 (y1 y1 ) + 22 (y2 y2 ) + + 2p (yp yp ) + u2
.
.
.

fm = m1 (y1 y1 ) + m2 (y2 y2 ) + + mp (yp yp ) + um

que puede ser escrito en forma matricial como:

) + u
f = B1 (y y
El objetivo es estimar
predecir

f.

B1

y utilizar las predicciones

(3.10)

f = B
(y y
)
1

para

El modelo (3.10) es cierto para cada observacin y, por tanto,

debemos expresarlo de forma que recoja este hecho:

) + ui ,
fi = B1 (yi y

i = 1, . . . , n

y tomando transpuestas:

) B1 + ui ,
fi = (yi y
109

i = 1, . . . , n

ecuaciones que, combinadas en un nico modelo, dan lugar a un modelo de


regresin lineal mltiple multivariante:


)
f1
(y1 y
u1

f (y2 y
u2

)
2


F=.=
B1 + .. = Yc B1 + U
.
.
.
.

.
.

fn
(yn y)
un
que proporciona el siguiente estimador de

1 = (Y Yc )1 Y F.
B1 : B
c
c

Sin

F no puede ser observada. A pesar de este inconveniente, podemos

B1 de la siguiente forma:

embargo,
evaluar

1 = (n 1)(Y Yc )1 Yc F = S1 Syf = S1

B
c
yy
n1
donde hemos tenido en cuenta (3.4) [pg. 80] para proponer a
mador de

cov(y, f ).

como esti-

De esta forma:

= Yc B
1 = Yc S1

F
Si se factoriza

en lugar de

S,

entonces esta expresin queda:

= Ys R1

F
donde

Ys

es la matriz observada de variables estandarizadas

(yij yj )/sj .

En general, las puntuaciones factoriales se obtienen de los factores rotados


en lugar de los factores originales. En este caso hay que sustituir
expresiones anteriores por

en las

La tcnica de regresin para estimar las puntuaciones factoriales hace uso


del mtodo de mnimos cuadrados ordinarios. Este enfoque es el que produce
puntuaciones con mayores correlaciones entre los factores y las puntuaciones. Las puntuaciones tienen media cero, desviaciones estndares iguales a
las correlaciones mltiples al cuadrado entre los factores y las variables y
son sesgadas. Adems, existe a menudo correlacin entre las puntuaciones
de distintos factores incluso si los factores son ortogonales. Existen otras
alternativas para la estimacin de las puntuaciones factoriales. El procedimiento de Barlett, que utiliza el mtodo de mnimos cuadrados generalizados,
proporciona puntuaciones que estn nicamente correladas con sus propios
factores y son insesgadas. Las puntuaciones correlan con los factores casi tan
bien como en el mtodo de regresin; tienen adems la misma media y desviacin estndar que las obtenidas por el enfoque de regresin. Sin embargo,

110

las puntuaciones siguen estando correladas entre s. Finalmente, el procedimiento de Anderson-Rubin es una modicacin del anterior que asegura la
ortogonalidad de las puntuaciones factoriales, tienen media 0 y desviacin estndar 1. Las puntuaciones factoriales correlan con sus propios factores casi
tan bien como las obtenidas en el mtodo de regresin y son algo sesgadas.
En consecuencia, nicamente la tcnica de Anderson-Rubin suministra
puntuaciones incorreladas, por lo que si el propsito del AF es su utilizacin
como paso previo en otra tcnica, como MANOVA o Regresin, estas ltimas puntuaciones son las que hay que utilizar. En otro caso, el enfoque de
regresin es probablemente el mejor.

3.6.1. Ejemplo
En la gura 3.3 se representan las puntuaciones factoriales calculadas
por la tcnica de regresin de los datos de percepcin para los dos factores
extrados por el mtodo de las componentes principales y rotados por el procedimiento varimax. Es evidente el carcter atpico de las observaciones 1
y 5. La primera presenta bajas puntuaciones tanto en el factor identicado
como carcter cordial como en el segundo, su carcter racional. La observacin 5 presenta la puntuacin ms alta en racionalidad y la ms baja en
cordialidad.

3.7. Validez de modelo de anlisis factorial


Para muchos estadsticos el AF es controvertido y no pertenece al grupo
de tcnicas multivariantes legtimas. Las razones para este recelo incluyen las
siguientes: la dicultad de elegir

m, los diversos mtodos de extraccin de fac-

tores, las muchas tcnicas de rotacin y la subjetividad en la interpretacin.


Algunos estadsticos tambin critican el AF debido a la indeterminacin (no
unicidad) de la matriz de cargas factoriales. Sin embargo, es la posibilidad
de rotar lo que proporciona al AF su utilidad.
La cuestin bsica es si los factores realmente existen. El modelo

+ ,

donde

es de rango

m,

no es adecuado para muchas matrices

m sea grande. Por tanto, el modelo no se ajustar


a los datos de tales poblaciones cuando tratamos de imponer un valor de m
bajo. Por otro lado, para una poblacin en la que est razonablemente

prxima a + para m pequeo, el procedimiento de muestreo que


conduce a S puede oscurecer este patrn. El investigador puede creer que
de covarianza a menos que

existen factores subyacentes pero tiene dicultades para recolectar datos que

111

0.0

0.5

2.0

1.5

1.0

f2

0.5

1.0

1
1.5

1.0

0.5

0.0

0.5

f1

Figura 3.3: Puntuaciones factoriales para los datos de percepcin.

los revelen. En muchos casos, el problema bsico es que

S o R contienen tanto

estructura como error y los mtodos de AF no pueden separar a ambos.


El siguiente escenario describe la problemtica de forma bastante clara.
Un investigador disea un cuestionario largo, en la que se deben dar respuestas en una escala de cinco puntos. Las personas que deben responder
al cuestionario, cuya actitud puede variar entre desinteresada y resentida,
marcan apresuradamente respuestas que en muchos casos no son ni siquiera
respuestas subjetivas a las cuestiones. Entonces el investigador analiza sus
resultados mediante un programa de AF. Estando en desacuerdo con los
resultados, recurre a la ayuda de un estadstico. ste intenta mejorar los resultados probando diferentes mtodos de extraccin, rotacin, cambiando

m,

etc. Pero todo es intil. El grco de sedimentacin presenta una pendiente


empinada slo al nal del mismo. No hay un valor claro de

m.

Se han de

extraer 10 o 12 factores para explicar, por ejemplo, un 60 % de la varianza y


la interpretacin de este gran nmero de factores es desesperada. Si existen

112

unas pocas dimensiones subyacentes, stas estn completamente oscurecidas


tanto por el error sistemtico como por el aleatorio en la completacin del
cuestionario. Un modelo de AF simplemente no se ajusta a tales conjuntos
de datos a menos que se utilice un valor de

grande, lo que proporciona

resultados intiles.
No es necesariamente la discretizacin de los datos lo que causa el problema, sino el ruido que contienen. Las variables consideradas no han sido
medidas con precisin. En algunos casos, las variables discretas proporcionan
resultados satisfactorios. Por otro lado, las variables continuas no tienen por
qu dar buenos resultados.
En los casos en los que encontramos algunos factores que suministran
un ajuste satisfactorio a los datos debemos todava dar una interpretacin
provisional hasta que se pueda establecer independientemente la existencia
de los factores. Si los mismos factores aparecen en repetidos muestreos de la
misma poblacin o en otras similares, entonces podremos tener conanza en
que la aplicacin del modelo ha descubierto algunos factores reales. Por tanto,
es una buena prctica repetir el experimento para contrastar la estabilidad
de los factores. Si el conjunto de datos es sucientemente grande, podra ser
dividido en mitades y aplicar el AF en cada una de ellas. Las dos soluciones
pueden ser comparadas entre s y con la solucin para el conjunto completo.

3.7.1. Tipos de variables


El tipo de variables y, por tanto, la matriz de correlaciones a considerar,
son cuestiones importantes a tener en cuenta a la hora de obtener una solucin able. El AF tradicional basado en la matriz de correlaciones de Pearson
produce resultados vlidos slo si los datos son continuos y tambin normales
multivariantes. No obstante, el AF tambin puede acomodar datos ordinales. Frecuentemente, la matriz de correlaciones que se calcula para realizar
el AF con datos ordinales es la de Pearson debido en parte a que casi todos
los paquetes estadsticos utilizan este tipo de correlaciones. Sin embargo, la
literatura sugiere que es incorrecto tratar datos ordinales como si fueran de
razn o escala. Aplicar los procedimientos tradicionales del AF a datos de
este tipo casi siempre producen resultados errneos ya que la correlacin de
Pearson sobre datos ordinales subestima la fortaleza de las relaciones.
El AF para datos ordinales debe realizarse sobre correlaciones

cas.

policri-

La correlacin policrica supone que en las variables ordinales subyace

una escala continua con distribucin normal bivariante. En el caso de que la


hiptesis de normalidad no sea apropiada entonces debe utilizarse la corre-

113

lacin de Spearman. Si las variables estn medidas en una escala de Likert

la utilizacin de la matriz de correlacin de Pearson est justicada en el


caso de 8 o ms niveles, mientras que la matriz

policrica es la adecuada pa-

ra un nmero menor de niveles. Por otra parte, no existe consenso sobre la


aplicacin del AF sobre variables nominales bicategricas. Algunos autores
indican que el AF no puede aplicarse a la correlacin tetracrica ya que no
equivale algebraicamente a la de Pearson. Sin embargo, s es posible hacerlo
sobre otros coecientes de correlacin para datos binarios como el coeciente

phi. Por ltimo, tambin es posible utilizar correlaciones poliseriales para

cuanticar las relaciones entre variables continuas y ordinales.

3.7.2. Tamao muestral


Existen diversas reglas para elegir el tamao muestral necesario dependiendo del autor considerado. Algunos autores arman que se debe disponer
de al menos 10 o 15 observaciones por variable, otros sostienen que al menos
se deben tener 50 observaciones en total, habiendo al menos 5 observaciones
por variable, otros sugieren al menos 300 observaciones. En la actualidad, reglas estrictas en relacin al tamao muestral han casi desaparecido. Diversos
estudios han revelado que el tamao muestral adecuado est particularmente
determinado por la naturaleza de los datos. Los aspectos ms importantes
en la determinacin de factores ables, adems de su aparicin en otros estudios independientes, son el tamao muestral, la magnitud absoluta de las
cargas factoriales y de las comunalidades. En general, una muestra pequea
puede proporcionar resultados ables si las comunalidades son altas, no hay
variables con cargas grandes en ms de un factor y cada factor tiene diversas variables que saturan en l. En la prctica esas condiciones son raras. A
continuacin enumeramos algunas situaciones en las que una muestra grande puede ayudar a determinar si la estructura del factor y las variables son
vlidas:
1. Las comunalidades son consideradas altas si son iguales o superiores a

0.8, pero esto es poco probable con datos reales . Lo ms normal es

2 La escala de Likert es comnmente utilizada en cuestionarios y es la escala de uso ms

amplio en encuestas para la investigacin, principalmente en ciencias sociales. Al responder


a una pregunta de un cuestionario elaborado con la tcnica de Likert se especica el nivel
de acuerdo o desacuerdo con una declaracin (elemento, tem o pregunta). Normalmente
hay 5 posibles respuestas o niveles de acuerdo o desacuerdo, aunque algunos evaluadores
preeren utilizar 7 o 9 niveles.
3 Valores de comunalidades iguales o por encima de 1 indican que existen problemas con
la solucin. El tamao muestral es demasiado pequeo, o las comunalidades iniciales tienen

114

obtener comunalidades moderadas de entre 0.4 y 0.7. Si una variable


tiene una comunalidad inferior a 0.4 puede ser por dos causas: a) no
est relacionada con otras variables, o b) sugiere que un factor adicional
debiera ser explorado. El investigador debe considerar la razn por la
que esa variable fue introducida en el anlisis y decidir si eliminarla.
2. El investigador debe decidir si una variable con complejidad superior a
1 debe ser eliminada del anlisis, lo que puede ser una buena eleccin
si hay diversas cargas grandes en cada factor. La existencia de varias
variables con complejidades superiores a 1 es motivo para dudar de la
existencia de una estructura factorial en nuestros datos.
3. Un factor con menos de tres variables es generalmente dbil e inesta-

ble . Son deseables 5 o ms variables con cargas de 0.5 o ms, lo que


es indicativo de un factor slido.
Con investigaciones adicionales y un conjunto de datos grande puede
ser posible una reduccin del nmero de variables y mantener unos factores
slidos. En general, debe tenerse en cuenta que el AF es un procedimiento
de muestras grandes. Si la muestra es demasiado pequea es improbable
obtener resultados generalizables y replicables. En otras palabras, un tamao
muestral grande es mejor.
En sumario, hay muchos conjuntos de datos para los que el AF no debiera
ser aplicado. Una indicacin de que

es inapropiada para la factorizacin

es que los mtodos para elegir el nmero adecuado de factores no son capaces de proporcionar de forma clara y objetiva un valor para

m.

Si el gr-

co de sedimentacin no tiene una pronunciada pendiente o los autovalores


no presentan un salto grande alrededor de 1, entonces

es probablemente

inapropiada para la factorizacin. Adems, las comunalidades estimadas tras


la factorizacin debieran ser bastante grandes.

valores errneos o el nmero de factores extrado es incorrecto: la adicin o eliminacin


de factores puede reducir la comunalidad a un valor por debajo de 1.
4 Si slo una variable tiene una alta carga sobre un factor entonces el factor est pobremente denido. Si dos variables cargan sobre un factor, entonces la abilidad del mismo
depende del patrn de correlaciones de esas dos variables entre ellas y con el resto de
variables. Si las dos variables estn altamente correladas entre entre ellas y relativamente
incorreladas con el resto, el factor puede ser able. El problema es que la interpretacin de
factores denidos por nicamente una o dos variables es arriesgada, incluso en el carcter
ms exploratorio del AF.

115

3.7.3. Contrastes en el modelo factorial


El AF asume determinadas hiptesis para su aplicacin que deben ser
comprobadas:

i) Linealidad: entre las variables, al menos aproximadamente. Se pueden


realizar diagramas de dispersin por pares de variables para comprobarla. Cuando el nmero de variables es grande se convierte en un
procedimiento poco prctico.

ii) Dependencia:

un requerimiento bsico del AF es que las variables no

sean independientes. Para comprobarlo podemos aplicar el contraste


de esfericidad de Barlett dado en (2.2) [pg. 62].

iii) Correlaciones anti-imagen: denidas como los opuestos (negativos) de


los coecientes de correlacin parcial. Un coeciente de correlacin parcial expresa el grado de relacin lineal existente entre dos variables tras
eliminar el efecto que sobre esta relacin tiene el resto de variables. Si
las variables incluidas en el anlisis comparten una gran cantidad de
informacin debido a la presencia de factores comunes, la correlacin
parcial entre cada par de variables debe ser reducida. Por el contrario, cuando dos variables comparten una gran cantidad de informacin
entre ellas, pero no la comparten con el resto de variables (ni, consecuentemente, con los factores comunes) la correlacin parcial entre
ellas ser elevada, siendo esto un mal sntoma en cuanto a la idoneidad
del modelo. Por tanto, en un modelo factorial adecuado los elementos
fuera de la diagonal de una matriz de correlaciones anti-imagen deben
ser pequeos.

iv) Adecuacin muestral: se ha sugerido que R1

debiera ser casi una ma-

triz diagonal para ajustar con xito el modelo de AF. Para enjuiciar
lo cerca que est

R1

de una matriz diagonal se utiliza la medida de

adecuacin muestral de Kaiser-Meyer-Olkin (KMO):

KM O =

2
i=j rij

2
i=j rij

2
i=j qij

donde rij son los elementos de R y qij son los elementos de Q =


DR1 D, con D = [(diag R1 )1/2 ]1 , es decir, las correlaciones parciales entre yi e yj eliminando el efecto del resto de variables. Conforme
R1 se aproxima a una matriz diagonal se tiene que KM O se aproxima a 1. Un valor por encima de 0.8 se considera satisfactorio y por

116

encima de 0.5 aceptable. Basada en la medida

KM O

se pueden cal-

cular tambin medidas de adecuacin muestral individuales para cada


variable. Esta medida para la variables

M SAj =
Un valor de

M SAj

2
i=j rij

2
i=j rij

j -sima

2 ,
i=j qij

se dene como:

j = 1, 2, . . . , p

prximo a 1 indicar que la variable

yj

es adecuada

para su tratamiento en el AF con el resto de variables. Sin embargo,


un valor bajo indica que las hiptesis hechas por el modelo factorial

yj . De esta forma, si el
KM O es bajo es posible localizar las variables responsables de

son poco compatibles para el caso de la variable


valor de

dicho valor y, si el AF resultara poco exitoso, dichas variables podran


ser eliminadas del anlisis siempre y cuando su importancia terica no
lo desaconsejara.

v) Correlacin observada y reproducida:

como ya hemos indicado ante-

riormente, si el modelo factorial es adecuado entonces las diferencias


entre los coecientes de correlacin observados y reproducidos deben
ser pequeas. Para medir la adecuacin a los datos del modelo factorial
estimado se calculan estas diferencias y si existe un porcentaje elevado
de diferencias superiores a una cantidad prejada (por ejemplo 0.05),
esto ser indicativo de que el modelo factorial estimado no se adeca
a los datos.

vi) Contrastes de bondad de ajuste:

en el caso de que el mtodo de ex-

traccin sea el de mxima verosimilitud o el de mnimos cuadrados


generalizados. En el primer caso se aplica el estadstico de Barlett estudiado en la seccin de la determinacin del nmero de factores.

3.7.4. Consistencia interna


La abilidad de un instrumento de medida se dene como su capacidad
para medir consistentemente el fenmeno para el que se ha diseado. Por
tanto, la abilidad est relacionada con la comprobacin de la consistencia
del instrumento de medida, es decir, con la determinacin de si el instrumento produce resultados similares al ser utilizado en circunstancias similares.
Cualquier instrumento de medida que no reeje ciertos atributos consistentemente no debe ser considerado una medida vlida de esos atributos.
Los mtodos para determinar la abilidad de un instrumento de medida
se dividen en dos categoras: procedimientos de consistencia externa y procedimientos de consistencia interna. En el contexto del AF slo nos interesa

117

esta ltima. La consistencia interna est relacionada con el grado con el que
las variables en un factor miden las caractersticas subyacentes que denen
ese factor. Las variables que miden el mismo fenmeno debieran lgicamente
aparecer juntas en un factor. Examinar la consistencia interna de los factores
permite determinar qu variables no son consistentes con el factor a la hora
de medir las caractersticas subyacentes. Un factor consistente internamente
incrementa la posibilidad de que sea able.
Una estimacin de la consistencia interna de la solucin se obtiene a partir de las correlaciones mltiples al cuadrado de las puntuaciones factoriales
predichas a partir de las observaciones de las variables. En una buena solucin, esta estimacin se encuentra entre 0 y 1. Cuanto mayor sea su valor,
ms estable sern los factores. Un valor alto de la correlacin mltiple (por
encima de 0.7) signica que las variables observadas explican una cantidad
substancial de la varianza de las puntuaciones factoriales. Un valor bajo se
interpreta como que los factores estn pobremente denidos por las variables observadas. Si una correlacin mltiple cuadrtica es negativa entonces
se han retenido demasiados factores; mientras que si est por encima de 1
se precisa una revaluacin de la solucin completa. SPSS proporciona estos
coecientes como los elementos diagonales de la matriz de covarianzas de las
puntuaciones factoriales estimadas por regresin.
Otro mtodo de estimacin de la consistencia interna es el coeciente
alpha de Cronbach. ste es un coeciente de correlacin que estima la media
de todos los coecientes de correlacin de las variables dentro de un factor.
Si alpha es alto (0.7 o superior), entonces sugiere que todas las variables son
ables y el factor es consistente internamente. Si alpha es bajo, entonces al
menos una de las variables que componen el factor es poco able y debe ser
identicada.

3.7.5. Ejemplo
En los datos de percepcin, dado que

R es

singular, no podemos realizar

el contraste de esfericidad de Barlett; tampoco las medidas de adecuacin


muestral ni los contrastes de bondad de ajuste. En el ejemplo 3.3.2 estimamos las cargas por el mtodo de componentes principales obteniendo altas
comunalidades y los autovalores de

son: 3.263, 1.538, 0.168, 0.031 y 0,

que presentan un fuerte salto entre el segundo y tercer autovalor. As mismo, aparece la matriz de correlaciones reproducidas que presenta un nico
residuo por encima de 0.05. Los resultados son satisfactorios si no tenemos
en cuenta el reducido tamao muestral, que a su vez puede ser la causa de
la singularidad de

R.
118

Por ltimo, el alpha de Cronbach para el factor 1 (feliz, amable y simptico) proporciona un valor de 0.965 y el del factor 2 (inteligente y correcto)
de 0.814 indicando una alta consistencia interna de los factores.

3.7.6. Ejemplo
En el ejemplo 3.3.8 [pg. 95] aplicamos el mtodo de mxima verosimilitud a los datos del chero

empleados.

En ese ejemplo se calcul

observamos que haba una variable, antigedad (y5 ), que tena bajas correlaciones con el resto, aunque su comunalidad mejoraba tras la aplicacin del
mtodo. La inversa es la siguiente:

R1

2.027 .051 .534 .788 .080


.298
.250
.051
2.793 1.677 .587
.122 .252 .091
.534 1.677
6.333 3.997 .601
.422
.433
.788 .587 3.997
5.490
.505 .520 .351
.080
.122 .601
.505 1.074
.045 .197
.298 .252
.422 .520
.045
2.920 2.201
.250 .091
.433 .351 .197 2.201
2.905

cuya estructura est alejada de una matriz diagonal. El estadstico

0.723

KM O =

presenta un valor aceptable. El estadstico de Barlett para la prueba

de esfericidad es

u = 2076.387 (p 0)

que rechaza la independencia de las

variables.
Seguidamente se muestra la matriz de correlaciones anti-imagen en cuya
diagonal aparecen los

0.026,

M SAj .

La variable antigedad presenta un

lo que puede ser la causa del valor moderado de

KM O.

M SA5 =

Las variables

experiencia y edad presentan medidas de adecuacin muestral aceptables


(0.537 y 0.548), aunque cerca del lmite. As mismo, fuera de la diagonal
aparecen algunas correlaciones parciales altas.

.921
.021
.149
.236
.054
.122
.103

.021 .149 .236 .054


.122
.103
.881 .399 .150
.071 .088 .032
.399
.722 .678 .230
.098
.101
.150 .678
.743
.208 .130 .088
.071 .230
.208 .095
.026 .111
.088
.098 .130
.026
.537 .756
.032
.101 .088 .111 .756
.548

A continuacin se presenta la matriz de correlaciones reproducidas que


se obtiene a partir de la solucin factorial calculada. En la diagonal podemos observar que se encuentran las comunalidades nales y por esta razn

119

cambiamos su notacin aadiendo

() .

Algunas de las comunalidades son

pequeas, aunque todas por encima de 0.5.

) =
(

0.526
0.530
0.671
0.609
0.047
0.251
0.277

0.530
0.671
0.609
0.047 0.251 0.277
0.673
0.773
0.765
0.005
0.060
0.012

0.773
0.926
0.881
0.084 0.097 0.143

0.765
0.881
0.870 0.020
0.044 0.011

0.005
0.084 0.020
0.999
0.003
0.051

0.060 0.097
0.044
0.003
0.836
0.802
0.012 0.143 0.011
0.051
0.802
0.770

Se incluye tambin la matriz residual formada por las diferencias entre


las correlaciones muestrales y las reproducidas. Si el anlisis es bueno los
residuos deben ser pequeos, como en el ejemplo que tenemos un 0 % de
valores residuales que en valor absoluto estn por encima de 0.05.

.016

.010

R =
.024
.000

.001
.004

.016 .010
.024
.000 .001
.007 .010 .000
.002
.007
.001
.000 .001
.010 .001
.000
.001
.000
.000 .000
.000
.002 .001
.001
.000
.002 .001
.003
.000 .001

.004
.002
.001
.003
.000
.001

El contraste de bondad de ajuste asociado al mtodo de mxima verosimilitud proporciona un valor del estadstico de 8.882 que para un
corresponde un

p = .031,

2 (3)

le

por lo que la solucin de 3 factores no es satis-

factoria. Debe recordarse que en el primer factor slo la variable antigedad


satura en l y que dicha variable no satura en ningn otro factor. Asumiendo
la losofa de encontrar factores comunes que agrupen variables que correlacionen entre s, este primer factor carece de sentido y tambin resulta intil
incluir la variable antigedad ya que no correlaciona con ninguna otra.
Si se extraen 2 o 4 factores los resultados tampoco resultan demasiado
convincentes. El test de bondad de ajuste sigue rechazando la hiptesis nula
para el caso de

m=2

y para el caso

m=4

el mtodo presenta problemas

de convergencia. En consecuencia, parece razonable eliminar la variable antigedad y repetir el anlisis. El estadstico de adecuacin muestral es ahora

KM O = .741

y, por tanto, crece un poco. La solucin obtenida en este caso

es de dos factores que logran explicar un 76.6 % de la variabilidad total. El


contraste de bondad de ajuste asociado al mtodo de mxima verosimilitud
proporciona un valor del estadstico de 7.197 que para un
de un

2 (4) le correspon-

p = .126, por lo que la solucin de dos factores es adecuada. Todos los


120

valores

M SAj

estn por encima de 0.5 y no aparece tampoco ningn residuo

por encima de 0.05. La solucin obtenida, tras una rotacin varimax es la


siguiente:
Factor
1

N. educativo

.675

-.266

Cat. laboral

.817

.076

Salar. actual

.955

-.093

Salar. inicial

.929

.059

Experiencia

-.011

.924

Edad

-.066

.867

El primer factor se puede identicar con la promocin personal y el segundo con la veterana laboral. Resultados similares se obtienen con otros
mtodos de extraccin y de rotacin. El grco 3.4 de las puntuaciones factoriales calculadas por el mtodo de regresin nos ayuda a analizar la distribucin de los empleados en relacin a estos dos factores. Se observa que
la mayor parte de los empleados han promocionado poco, incluso algunos
de ellos teniendo una amplia veterana laboral (como el empleado 295 y los
que aparecen en su entorno). Por otro lado, algunos empleados han tenido
una buena promocin personal, siendo el 29 el mximo exponente de esta
caracterstica, aunque no es de los ms veteranos de la empresa.
Por ltimo, los elementos diagonales de la matriz de covarianzas de las
puntuaciones factoriales estimadas por regresin tienen los siguientes valores:
0.954 (factor 1) y 0.902 (factor 2) evidenciando una alta consistencia interna
de ambos factores. Sin embargo, el alpha de Cronbach para el factor 1 es de
0.535 y de 0.303 para el segundo factor que indica justamente lo contrario.

3.8. Relacin entre el AF y el ACP


Tanto el AF como el ACP tienen el objetivo de reducir la dimensin.
Dado que los objetivos son similares, muchos autores discuten el ACP como
otro tipo de AF. Esto es confuso y, por ello, seguidamente vamos a enumerar
las caractersticas distintivas de ambos procedimientos.
Las diferencias entre el AF y el ACP son las siguientes (las dos primeras
ya fueron expuestas anteriormente):
1. en el AF las variables son expresadas como combinaciones lineales de
los factores, mientras que en el ACP son las componentes las que son

121

29

f2

295

f1

Figura 3.4: Puntuaciones factoriales para los datos de empleados.

expresadas como funciones lineales de las variables,


2. en el ACP el objetivo es explicar la varianza total

i sii en contraste

con el AF que trata de explicar las covarianzas. De hecho, la varianza


total puede descomponerse en tres tipos: la varianza comn entre variables, la varianza nica de cada variable y la varianza del error (la
debida a los errores en el proceso de muestreo, a los errores de medida,
etc.). El ACP no hace esa distincin entre los tipos de varianza, se
centra en la varianza total. En concreto, en el ACP se ponen slo unos
en la diagonal de la matriz de correlaciones, signicando que toda la
varianza trata de ser explicada, mientras que el AF slo trata de explicar la varianza compartida con otras variables y para ello se insertan
las comunalidades en la diagonal.
3. el ACP no requiere esencialmente ninguna hiptesis, mientras que el
AF impone diversas condiciones clave,

122

4. las componentes principales son nicas (supuesto que los autovalores


de

son distintos) a diferencia de los factores que estn sujetos a

rotaciones arbitrarias, y
5. los factores estimados cambian al cambiar el nmero de factores extrados, lo que no ocurre con las componentes principales.
La diferencia entre el ACP y el AF en trminos conceptuales es que
el ACP analiza varianzas y el AF analiza covarianzas. El ACP debe usarse
cuando se desea un resumen emprico de los datos, es decir, para explorar sin
conocimiento previo sobre el problema con objeto de conocer qu patrones
aparecen en sus datos. Tambin cuando se desea denir un nmero ms
pequeo de variables para utilizarlas en otro anlisis, aunque esto tambin lo
consigue a veces las puntuaciones factoriales. El AF es preferible si el estudio
est basado sobre supuestos factores subyacentes (por ejemplo, cuando existe
ya una teora previa acerca de la relacin entre las variables) y el objetivo
sea encontrar y describir estos factores. La posibilidad de rotar para mejorar
la interpretacin es una de las ventajas del AF sobre el ACP. No obstante,
en algunas ocasiones las componentes principales son interpretables, como
ocurre cuando las variables son magnitudes de un organismo y logramos
identicar a la componentes como una medida de tamao global y otra de
forma. En cualquier caso, cuando el mismo nmero de componentes o factores
es extrado los resultados obtenidos por ambos mtodos son muy similares,
en especial si el estudio incluye un nmero grande de variables (p

> 30)

las comunalidades son altas (>0.7).

3.9. Ejemplo
Hbat vende productos de papel en dos tipos de mercados: el de peridicos
y el de revistas. Los productos son vendidos en esos mercados tanto directamente a los clientes como indirectamente por medio de

brokers. A travs de

un estudio de segmentacin del mercado de 100 clientes de Hbat se obtuvo


informacin sobre distintas variables que aparecen en el chero

hbat.

Como

una parte de la encuesta, se les pregunt su percepcin sobre los siguientes


13 atributos de Hbat en una escala de 0-10 (0=pobre y 10=excelente):
1.

X6 :

calidad del producto

2.

X7 :

actividad de comercio electrnico

3.

X8 :

soporte tnico

123

4.

X9 :

5.

X10 :

campaas de publicidad

6.

X11 :

extensin de la lnea de producto para satisfacer las necesidades

resolucin de reclamaciones

de sus clientes
7.

X12 :

imagen del personal de ventas

8.

X13 :

precios competitivos

9.

X14 :

garanta del producto y servicio de reclamaciones

10.

X15 :

desarrollo de nuevos productos

11.

X16 :

eciencia en los pedidos y en la facturacin

12.

X17 :

exibilidad de precios

13.

X18 :

velocidad de entrega de los pedidos

El objetivo es conocer si podemos reducir las 13 variables que miden la


opinin de los clientes sobre Hbat en un nmero reducido de dimensiones
perceptivas.
En primer lugar se deben comprobar si se verican las condiciones para
la aplicacin del AF. Una posibilidad, aunque no necesaria, sera comprobar
condiciones de normalidad, linealidad y homocedasticidad, ya que desviaciones de estas hiptesis pueden disminuir las correlaciones entre las variables.
Tambin se pueden enjuiciar las condiciones de factorizacin de la matriz de
correlaciones. Para ello, examinamos la matriz de correlaciones:

1.0
.13
.09
.10
.05
.47
.15
.40
.08
.02
.10
.49
.02

.13
1.0
.00
.14
.43
.05
.79
.22
.05
.02
.15
.27
.19

.09
.00
1.0
.09
.06
.19
.01
.27
.79
.07
.08
.18
.02

.10
.14
.09
1.0
.19
.56
.23
.12
.14
.05
.75
.39
.86

.05
.43
.06
.19
1.0
.01
.54
.13
.01
.08
.18
.33
.27

.47
.05
.19
.56
.01
1.0
.06
.49
.27
.04
.42
.37
.60

.15
.79
.01
.23
.54
.06
1.0
.26
.10
.03
.19
.35
.27

.40
.22
.27
.12
.13
.49
.26
1.0
.24
.02
.11
.47
.07

.08
.05
.79
.14
.01
.27
.10
.24
1.0
.03
.19
.17
.10

.02
.02
.07
.05
.08
.04
.03
.02
.03
1.0
.06
.09
.10

.10
.15
.08
.75
.18
.42
.19
.11
.19
.06
1.0
.40
.75

.49
.27
.18
.39
.33
.37
.35
.47
.17
.09
.40
1.0
.49

.02
.19
.02
.86
.27
.60
.27
.07
.10
.10
.75
.49
1.0

Evidentemente no es tarea sencilla extraer de ella las agrupaciones de variables que podran constituir los factores; pero s se puede decir que existen
29 del total de 78 correlaciones que son signicativas al 1 %. Es destacable
que

X15

no tiene ninguna correlacin signicativa, lo que anticipa que esta

124

variable tendr dicultades a la hora de pertenecer a algn factor. As mismo,

X17

es la variable que ms correlaciones signicativas tiene con el resto

de variables (un total de 9), lo que implica que posiblemente pueda formar
parte de ms de un factor (complejidad mayor que 1). Ms adelante comprobaremos cules son los efectos que tiene la incorporacin de estas variables
al anlisis.
Podemos contrastar la signicacin global de la matriz de correlaciones
mediante el test de esfericidad de Bartlett cuyo estadstico tiene un valor de
948.9 (p

0).

Este test indica la presencia de correlaciones no nulas, pero

no el patrn de esas correlaciones.

KM O = 0.609 es aceptable. Las medidas de adeX15 , X17 y X11 (0.314, 0.442 y 0.448,
por debajo de 0.5. El hecho de que tenga el M SAj

El valor del estadstico

cuacin muestral para las variables


respectivamente) estn

ms pequeo y que no muestre correlacin signicativa con ninguna variable

X15 del anlisis. Esta eliminaKM O = 0.612, pero el comportamiento


individual de X17 y X11 en relacin a M SAj sigue siendo pobre (0.444 y
0.449, respectivamente). Dado que X17 era la variable con ms correlaciones

nos hace inclinarnos por la eliminacin de


cin incrementa algo el estadstico

signicativas y, por tanto, candidata a tener complejidad superior a 1, la


eliminamos tambin del anlisis.
La matriz de correlaciones de las 11 variables contiene 20 correlaciones signicativa de un total de 55, el test de esfericidad es signicativo y

KM O = 0.653.

Adems, ahora todos los

M SAj

son mayores que 0.5. Todo

ello nos indica que el conjunto reducido de variables puede ser apropiado
para el AF. En la primera parte de la tabla siguiente aparecen los autovalores y la varianza que explican. Para la extraccin de los factores aplicamos
el mtodo de componentes principales. De acuerdo al criterio de Kaiser 4
factores seran sucientes y en total explicaran el 79.59 % de la variabilidad
total. Este resultado tambin es conrmado por el grco de sedimentacin
(no mostrado). Posteriormente rotamos los factores por la tcnica varimax.

Factor
1
2
3
4
5
6
7
8
9
10
11

Total
3.427
2.551
1.691
1.087
.609
.552
.402
.247
.204
.133
.098

Autov. iniciales
% var. % acum.
31.154 31.154
23.190 54.344
15.373 69.717
9.878
79.595
5.540
85.135
5.017
90.152
3.650
93.802
2.245
96.047
1.850
97.898
1.208
99.105
.895
100.0

Sumas satur. cuadr. extraccin Sumas satur. cuadr. rotacin


Total % var. % acum.
Total % var. % acum.
3.427 31.154
31.154
2.893 26.298 26.298
2.551 23.190
54.344
2.234 20.305 46.603
1.691 15.373
69.717
1.855 16.868 63.471
1.087 9.878
79.595
1.774 16.124 79.595

125

Las comunalidades nos indican qu cantidad de variabilidad de la variable


implicada es explicada por los factores. Por ejemplo, el valor de la comunalidad de 0.576 para

X10

indica que tiene menos en comn con el resto de

variables de lo que por ejemplo tiene

X8

cuyo valor es 0.893. En cualquier

caso, todas ellas tienen valores por encima de 0.5 y, por tanto, se puede proceder a la rotacin de los factores. Las cargas rotadas por el mtodo varimax
aparecen tambin en la tabla siguiente, mostrando slo aqullas cuyo valor
absoluto sea superior a 0.4. Las comunalidades no cambian tras una rotacin
ortogonal; sin embargo, s se produce una redistribucin de la varianza por
lo que las cargas cambian y los porcentajes de varianza explicada (el total
explicado de 79.59 % no vara).
variable

X18
X9
X16
X12
X7
X10
X8
X14
X6
X13
X11

f1

descripcin

f2

f3

f4

2
h
i

Velocidad de entrega

.938

.914

Resolucin de reclamaciones

.926

.881

Pedidos y facturacin

.864

.766

Imagen equipo ventas

.900

.859

Actividades de e-comercio

.871

.777

Publicidad

.742

.576

Soporte tcnico

.939

.893

Garanta y reclamaciones

.931

.892

Calidad del producto

.876

.768

Precios competitivos

-.723

.641

.642

.787

Linea de productos

Ntese que la variable

X11

.591

satura tanto en el factor 1 como en el 4

(tiene complejidad 2). Dado que las cargas factoriales son altas y que las
comunalidades tienen valores aceptables se requiere una decisin sobre esta
variable. En primer lugar, hay que sealar que las cargas 0.591 en el factor
1 y 0.642 en el factor 4 que tiene

X11

son moderadamente grandes y casi

idnticas y, por tanto, no se puede ignorar ninguna en favor de otra. El


problema permanece probando con otras rotaciones ortogonales (quartimax
y equimax). Por ltimo, tampoco la reduccin de factores es una opcin
deseable ya que el cuarto factor, una vez rotado, explica un 16.12 %, una
cantidad sustancial de variabilidad. En consecuencia, la accin ms prudente
es eliminar

X11

del anlisis dejando slo 10 variables.

Para las 10 variables una solucin de 4 factores es tambin la apropiada


(explican un 80.57 % de la variabilidad). Las cargas rotadas por el mtodo
varimax y las comunalidades son las siguientes:
Los factores pueden entonces identicarse de la siguiente forma:

126

variable

X9
X18
X16
X12
X7
X10
X8
X14
X6
X13

descripcin

f1

f2

f3

f4

Resolucin de reclamaciones

.933

.890

Velocidad de entrega

.931

.894

Pedidos y facturacin

.886

2
h
i

.806

Imagen equipo ventas

.898

.860

Actividades de e-comercio

.868

.780

Publicidad

.743

.585

Soporte tcnico

.940

Garanta y reclamaciones

.933

.894
.891

Calidad del producto

.892

.798

Precios competitivos

-.730

.661

1. Factor 1: servicio al cliente posventa.


2. Factor 2: marketing
3. Factor 3: soporte tcnico
4. Factor 4: valor de producto
Debe notarse que las cargas rotadas asociadas a

X6

X13

tienen sig-

nos opuestos. Esto indica que, aunque la calidad del producto y los precios
competitivos varan conjuntamente, lo hacen en direcciones opuestas. Las
percepciones son ms positivas cuando la calidad del producto crece o los
precios decrecen. El equilibrio entre ambas es lo que lleva a denominar al
factor como valor de producto.
Con objeto de conocer si la rotacin ortogonal es la apropiada probamos a continuacin una rotacin oblicua: la oblimin directa. La matriz de
conguracin es la siguiente:
La evaluacin de esta rotacin la hacemos utilizando la matriz de correlaciones de los factores rotados:

1.000 .241 .118 .121


.241 1.000 .021 .190

.118
.021 1.000 .165
.121
.190 .165 1.000

Se observa que la mayor correlacin en valor absoluto es 0.241 entre los


factores 1 y 2. En consecuencia, los resultados obtenidos con la rotacin
varimax son los que mantendremos.
Una forma de validar la solucin obtenida es mediante divisin muestral.
Es decir, considerar dos submuestras de 50 observaciones y repetir para cada

127

variable

X9
X18
X16
X12
X7
X10
X8
X14
X6
X13

descripcin

f1

f2

f3

f4

Resolucin de reclamaciones

.943

.890

Velocidad de entrega

.942

.894

Pedidos y facturacin

.895

2
h
i

.806

Imagen equipo ventas

-.897

.860

Actividades de e-comercio

-.880

.780

Publicidad

-.756

.585

Soporte tcnico

.946

Garanta y reclamaciones

.936

.894
.891

Calidad del producto

.921

.798

Precios competitivos

-.702

.661

una de ellas las tcnicas aplicadas para comprobar si se mantiene la solucin


obtenida para cada una de ellas. El resultado, no mostrado, es muy similar
al conseguido para la muestra completa. Este resultado proporciona mayor
conanza sobre la solucin obtenida.
En cuanto a la consistencia interna de los factores, los valores del coeciente alpha de Cronbach es 0.9, 0.78, 0.8 y 0.57. nicamente el coeciente
asociado al factor 4 est por debajo del valor lmite de 0.7. Una primera razn
por la que puede tener un valor tan bajo es que el factor est compuesto por
nicamente 2 variables. Sera deseable que futuras investigaciones sugiriesen
nuevas variables para este factor y le proporcionasen una mayor abilidad.
Los resultados anteriores son similares a los que se obtienen por el mtodo
de los ejes principales. La principal diferencia se encuentra en que ahora se
estiman un nmero superior de comunalidades tras la extraccin con valores
por debajo de 0.5. Una vez eliminada

X11

por tener complejidad igual a 2

se obtienen los siguientes resultados aplicando la tcnica varimax:


variable

X18
X9
X16
X12
X7
X10
X8
X14
X6
X13

f1

descripcin

f2

f3

f4

2
h
i

Velocidad de entrega

.925

.885

Resolucin de reclamaciones

.912

.860

Pedidos y facturacin

.792

.660

Imagen equipo ventas

.974

.989

Actividades de e-comercio

.780

.633

Publicidad

.531

.317

Soporte tcnico

.891

.809

Garanta y reclamaciones

.880

.799

Calidad del producto

.647

.425

Precios competitivos

-.584

.441

128

En este caso tambin podemos calcular una estimacin de la consistencia interna de la solucin a partir de los elementos diagonales de la matriz
de covarianzas de las puntuaciones factoriales estimadas por regresin (las
correlaciones mltiples al cuadrado de las puntuaciones factoriales predichas
a partir de las observaciones de las variables). Los valores son 0.933, 0.976,
0.881 y 0.553. La interpretacin es similar a la dada anteriormente para el
alpha de Cronbach.

3.10. La cuestin del nmero de factores a retener:


una visin moderna
En la Seccin 3.4 hemos estudiado cuatro mtodos clsicos para determinar el nmero de factores. Estos mtodos son los que usualmente implementan el

sofware estadstico comercial, pero no son los ms recomendables.

Existen tres razones fundamentales por las que la decisin sobre el nmero
de factores a retener es esencial:
1. Esta decisin es ms importante que los mtodos de extraccin y rotacin ya que hay evidencia de una relativa robustez frente a diversas
combinaciones de mtodos de extraccin y de rotacin.
2. El AF debe equilibrar parsimonia con una representacin adecuada
de las correlaciones subyacentes, por lo que su utilidad depende de su
capacidad de diferenciar a los factores ms importantes de los triviales.
3. Tanto la extraccin de un nmero inferior de factores como la de un
nmero superior al correcto representan errores graves que pueden alterar signicativamente la solucin y la interpretacin subsecuente de
los resultados. Factores interesantes pueden ser excluidos si demasiado
pocos factores son extrados o, por contra, las cargas factoriales pueden
aparecer dbiles si variables que debieran cargar sobre un mismo factor
son separados articialmente en un nmero grande de factores.
En consecuencia, la determinacin del nmero correcto de factores a extraer es una etapa vital del AF. Algunas crticas respecto a los mtodos
anteriormente descritos son las siguientes:

i) Regla de Kaiser:

a pesar de su simplicidad y popularidad, existe con-

senso de que es un mtodo dudoso. Tres aspectos crticos pueden destacarse. Primero, el mtodo fue inicialmente propuesto para el ACP en
donde los autovalores son calculados sobre la matriz de correlaciones

129

que posee unos en la diagonal. Algunos autores argumentan que este


mtodo no es adecuado para AF ya que los autovalores son calculados sobre una matriz de correlaciones en la que los unos de la diagonal
principal han sido sustituidos por las comunalidades estimadas. Segundo, tiene poco sentido denir un factor con un autovalor de 1.01 como
importante y otro de 0.99 como menor tal y como sugiere una aplicacin automtica de la regla. Tercero, se ha demostrado que tiene cierta
tendencia a sobreestimar el nmero de factores.

ii) Grco de sedimentacin: aunque este procedimiento funciona bien con


factores fuertes, sufre de ambigedad y subjetividad cuando no existe
una ruptura o cambio claro en el declive de los autovalores. No obstante,
diversas simulaciones sugieren que este test puede ser ms preciso que
la regla de Kaiser.

iii) Test de hiptesis: puede sobreestimar el nmero de factores, sobre todo


con tamaos muestrales grandes.
Alternativamente, existen otros mtodos que producen resultados ms
satisfactorios que los anteriores y que son actualmente fuertemente recomendados. Destacables son los siguientes:

i) Criterio de estructura muy simple (VSS): trata de reejar la tendencia


de muchos usuarios del AF que interpretan los factores centrndose
en la cargas ms grandes recogidas en la matriz de patrones para cada
variable e ignorando las ms pequeas. El criterio VSS enjuicia el grado
en el que la matriz de correlaciones es reproducida por una matriz de
patrones simplicada, en la que nicamente las cargas ms grandes
para cada variable son retenidas y el resto de cargas son asignadas
a 0. VSS toma valores entre 0 y 1 y es una medida de bondad de
ajuste de la solucin factorial. Su valor es obtenido para soluciones que
implican desde un nico factor hasta un mximo nmero de factores
especicado por el usuario. La solucin que produce el mayor VSS
determina el nmero ptimo de factores interpretables. En un intento
de acomodar datos en los que las variables puedan tener complejidad
mayor que uno, el criterio es tambin implementado con matrices de
patrones simplicadas en las que las dos mayores cargas son retenidas y
asignando un 0 al resto (mximo VSS de complejidad 2). Sin embargo,
el procedimiento VSS slo funciona bien si las complejidades de algunas
de las variables son como mucho 2.

130

ii) Mtodo MAP de Velicer: implica un ACP seguido de un examen de una


serie de matrices de correlaciones parciales. En la etapa 0 la correlacin cuadrtica es la media de las correlaciones al cuadrado fuera de la
diagonal principal. En la etapa 1, se calcula las correlaciones parciales
entre las variables eliminando el efecto de la primera componente principal y se obtiene la media de estas correlaciones parciales al cuadrado
(las que estn fuera de la diagonal principal). En la etapa 2, se calculan
las correlaciones parciales entre las variables bloqueando el efecto de
las dos primeras componentes principales y se obtiene la media de estas
correlaciones al cuadrado (fuera de la diagonal). El procedimiento se
repite

k1

veces (k es el nmero de variables). El valor mnimo de la

media de las correlaciones parciales al cuadrado determina el nmero


de componentes a retener. Aunque el procedimiento est relacionado
metodolgicamente con el ACP, la tcnica MAP funciona bastante bien
en AF. El procedimiento MAP puede ser modicado para acomodar
variables ordinales. Para tales datos, la matriz de correlaciones que
debe utilizarse es la policrica.

iii) Anlisis paralelo de Horn (PA): es una adaptacin del criterio de Kaiser
que utiliza informacin de muestras aleatorias simuladas por el procedimiento de Monte Carlo. La idea del mtodo es que los factores de
datos reales con un estructura subyacente vlida debieran tener autovalores mayores que los derivados de datos aleatorios simulados con el
mismo tamao muestral y el mismo nmero de variables. El procedimiento simula 1000 conjuntos de datos generados aleatoriamente que
tienen el mismo nmero de observaciones y de variables que el conjunto
original de datos. Para cada uno de los conjuntos simulados se aplica el
AF y se calculan sus autovalores, resultando 1000 conjuntos de autovalores (cada conjunto tiene tantos autovalores como variables hay en
el conjunto original). A continuacin, se calcula los percentiles 95 para
el autovalor ms grande, para el segundo autovalor ms grande, etc.
Los autovalores del conjunto original de datos y los autovalores que
representan esos percentiles son representados grcamente. Slo deben retenerse aquellos factores cuyos autovalores sean superiores a los
autovalores de la muestra generada aleatoriamente. Otras variantes sugieren retener los factores cuyos autovalores sean superiores a la media
de los autovalores de la muestra generada aleatoriamente. El procedimiento puede calcular los autovalores sobre la matriz de correlaciones
mostrando por tanto el AF por el mtodo de componentes principales
o sobre la matriz de correlaciones reemplazando su diagonal por las

131

correlaciones mltiples al cuadrado mostrando el AF por el mtodo de


los ejes principales.
A pesar de que es un mtodo muy recomendado, su aplicacin no es
simple. Recientes investigaciones sugieren que el anlisis paralelo con
extraccin por componentes principales sobre la matriz de correlaciones
de Pearson y el criterio del autovalor medio se comporta muy bien
en una variedad de condiciones. En el caso de variables ordinales se
recomienda utilizar la matriz de correlaciones policrica junto con el
mtodo de componentes principales y el criterio de autovalor medio.

iv) Tcnica de comparacin de datos de Ruscio y Roche (CD):

constituye

una mejora del anlisis paralelo. En lugar de generar datos aleatorios se


analizan mltiple conjuntos de datos con estructuras factoriales conocidas para determinar cul reproduce mejor el perl de los autovalores
de los datos reales. La tcnica CD mejora a todas las anteriores a la
hora de determinar el nmero de factores correcto (aunque los estudios realizados se han llevado a cabo con no ms de 5 factores y no
se conoce, por tanto, su abilidad con ms factores). Ruscio cuestiona
la aplicabilidad de las correlaciones policricas dado que es necesario
normalidad multivariante subyacente y sugiere el uso de las correlaciones de Spearman en el procedimiento CD para acomodar variables
ordinales sin la necesidad de normalidad.
En resumen, y por orden de importancia, se sugiere la utilizacin de las
tcnica CD, PA y MAP en el propsito de la determinacin del nmero de
factores.

3.11. AF con R
En el package

psych

de

podemos encontrar distintas rdenes para im-

plementar las fases del AF:


1. Clculo de matrices de correlaciones

cor.data <- polychoric(Datos)$rho


correlaciones policricas para el chero

Datos

cor.data <- mixed.cor(Datos)


correlaciones de Pearson para las variables continuas, policricas para
las variables politmicas, tetracricas para las dicotmicas y biseriales
o poliseriales para variables mixtas.

132

2. Medidas de adecuacin muestral

KMO(Datos)
proporciona

KM O

M SAj

3. Determinacin del nmero de factores

a ) mtodo CD:
la funcin diseada por Ruscio (no perteneciente al package

psych)

tiene estructura:

EFA.Comp.Data(Data = Datos, F.Max = 8, Spearman = T)


donde F.Max es el nmero mximo de factores y Spearman = T
usa la matriz de correlaciones de Spearman (si se elige Spearman
= F utiliza la de Pearson).

b ) mtodos VSS y MAP:


VSS(Datos, n = 8, rotate = "varimax", fm = "minres")
VSS(cor.data, fm = "mle", n.obs = n, rotate = oblimin)
la primera versin utiliza el chero de datos, ja el nmero mximo de factores a extraer en 8, aplica una rotacin varimax y el
mtodo de mnimos cuadrados no ponderados (minres); mientras

5 (que pre-

que la segunda se basa en la matriz de correlaciones

cisa la indicacin del nmero de observaciones), en el mtodo de


mxima verosimilitud y la rotacin oblimin. Las opciones para
son:

minres, ml, uls, wls, gls, pa.

fm

c ) anlisis paralelo:
fa.parallel(Datos, fm = "pa")
fa.parallel(cor.data, n.obs = n, fm = "ml")
la primera versin utiliza el chero de datos y el mtodo de ejes
principales; mientras que la segunda se basa en la matriz de correlaciones (que precisa la indicacin del nmero de observaciones)
y en el mtodo de mxima verosimilitud.
4. Mtodos de extraccin de factores y rotaciones

pc <- principal(Datos, 2, rotate = "varimax")


AF por el mtodo CP, rotacin varimax y 2 factores a partir de los
datos

5 En el caso de datos ordinales es preferible computacionalmente calcular previamente

la matriz de correlaciones policrica.

133

pc <- principal(cor.data, 5, rotate = oblimin, n.obs = n)


AF por el mtodo CP, rotacin oblimin y 5 factores a partir de la
matriz de correlaciones

ml <- fa(Datos, 3, fm = "ml", rotate = oblimin)


AF por el mtodo mxima verosimilitud, rotacin oblimin y 3 factores

pa <- fa(cor.data, 5, fm = "pa", rotate = oblimin)


AF por mtodo ejes principales, rotacin oblimin y 5 factores

pan <- kaiser(fa(cor.data, 5, fm = "pa", rotate = "none"))


AF por el mtodo ejes principales, rotacin oblimin con normalizacin
de Kaiser y 5 factores
Las siguientes rdenes ayudan en la interpretacin de los resultados:

fa.sort(pa)
salida ordenando las cargas

fa.diagram(pc, cut=.3, digits=2)


grco de factores eliminando cargas por debajo de 0.3 y mostrando 2
decimales
5. Matriz residual

factor.residuals(cor.data, ml)
6. Puntuaciones factoriales

factor.scores(Datos, ml)
puntuaciones por el mtodo de regresin, ponderaciones y correlaciones
de las puntuaciones

factor.scores(cor.data, ml, method = Anderson)


puntuaciones por el mtodo de Anderson, ponderaciones y correlaciones de las puntuaciones
7. Consistencia interna

alpha(Datos)
alpha(cor.Data)

134

Captulo 4

Anlisis de Correspondencias
4.1. Introduccin
El anlisis de correspondencias (ACO) es una tcnica grca para representar la informacin de una tabla de contingencia de dos vas que contiene
las frecuencias de los items para una clasicacin cruzada de dos variables
categricas. En el ACO se construye un grco que muestra la interaccin
de las dos variables categricas junto con las relaciones de las las con cada
una de las otras y de las columnas con cada una de las otras. Comenzaremos estudiando el ACO para tablas de contingencia de dos vas ordinarias.
Posteriormente, trataremos el ACO mltiple para tablas de contingencia de
tres vas y de rdenes superiores.
Para contrastar la signicacin de la asociacin entre dos variables categricas en una tabla de contingencia se puede utilizar un test ji-cuadrado o
un modelos log-lineal, siendo ambos enfoques asintticos. El ACO est relacionado con el enfoque ji-cuadrado y, por tanto, haremos una revisin del
mismo. En el caso en que la tabla de contingencia tenga algunas celdas de
frecuencias pequeas o nulas entonces la aproximacin ji-cuadrado no es muy
satisfactoria. En este caso, algunas categoras pueden ser combinadas para
incrementar la frecuencia de celda. El ACO puede ser til en la identicacin
de categoras que son similares y, por tanto, que podemos desear combinar.
El grco resultante de esta tcnica representa un punto por cada la
y un punto por cada columna de la tabla de contingencia. Esos puntos son
proyecciones de las las y columnas de la tabla de contingencia sobre un
espacio Eucldeo bidimensional. El objetivo es conservar en la medida de
lo posible la relacin de las las (o columnas) con el resto en este espacio.
Si dos puntos correspondientes a las estn cercanos entre s entonces los

135

perles de las dos las (a travs de las columnas) son similares. As mismo,
dos puntos correspondientes a columnas que estn prximos entre s representan columnas con perles similares a lo largo de las las. Si un punto la
est cercano a un punto columna, esta combinacin de categoras de las dos
variables ocurre ms frecuentemente de lo que ocurrira por azar si las dos
variables fueran independientes.

4.2. Perles la y columna


Consideremos una tabla de contingencia con

las y

columnas:

Columnas
1

...

n12
n22

...

n11
n21

.
.
.

.
.
.

.
.
.

na1
n1

na2
n2

Filas

Total columnas

Las entradas

nij

...

...
...

b
n1b
n2b

Total las

.
.
.

.
.
.

nab
nb

na
n

n1
n2

son las frecuencias de cada celda (cada combinacin

de una la y una columna). Los totales marginales estn denidos de la

ni =
frecuencias nij

forma usual
Las

j=1 nij ,

nj =

i=1 nij y el total global

n=

ij

nij .

en una tabla de contingencia pueden ser convertidas a

frecuencias relativas

pij

n: pij = nij /n.

dividiendo por

La conversin de la

tabla de contingencia anterior a una con frecuencias relativas se muestra a


continuacin:
Columnas
1

...

p11
p21

p12
p22

...

2
.
.
.

.
.
.

.
.
.

pa1
p1

pa2
p2

Filas

Total columnas

...

...
...

b
p1b
p2b

Total las

.
.
.

.
.
.

pab
pb

pa

A la matriz de frecuencias relativas se le denomina

pondencias

y es denotada:

P = (pij ).

p1
p2

matriz de corres-

La columna de frecuencias relativas

136

marginales se puede obtener de la forma:


p1
p11 p12 . . .
p2 p21 p22 . . .

r= . = .
.
.
.. ..
.
pa
pa1 pa2 . . .


p1b
1
1
p2b

. . = Pj
. .
.
.
pab
1

y la la de frecuencias relativas marginales como:

p1b
p2b

. = jP
.
.
pab

p11 p12 . . .
p21 p22 . . .

c = (p1 , p2 , . . . , pb ) = (1, 1, . . . , 1) .
.
.
..
.
pa1 pa2 . . .
A los elementos de los vectores

columna.

son les denomina

masas la y

La tabla de frecuencias relativas puede ser expresada matricialmente de


la forma siguiente:

p11 p12 . . .

(
) p21 p22 . . .
.
P r
.
.
= ..
.

c 1

pa1 pa2 . . .
p1

p2

...

p1b p1
p2b p2

.
.
.
.
.
.

pab pa
pb

A continuacin convertimos cada la y columna de


dene el

en un perl. Se

i-simo perl la


i = 1, . . . , a, de la siguiente forma:
(
) (
)
pi1 pi2
pib
ni1 ni2
nib

ri =
,
,...,
=
,
,...,
pi pi
pi
ni ni
ni
ri ,

Los elementos de cada

ri

son frecuencias relativas y, por tanto, suman 1:

ri j =

nij
j=1

Denotando:

ni

ni
=1
ni

p1 0 . . .
0 p2 . . .

Dr = diag(r) = .
.
.
..
.
0
0 ...
137

0
0

.
.
.
pa

la matriz

de perles la puede ser expresada como:

p11
r1
p1
r p21
2 p2
R = D1
r P = .. = ..
. .
pa1
ra
pa

Similarmente se dene el
siguiente forma:

cj

(
=

cj

...
...

pa2
pa

...

.
.
.

.
.
.

j cj =

(
=

nij

Denotando:

nj

i=1

0
0

.
.
.
pb

de perles columna puede ser expresada como:

p11
p1
p21
p1

p12
p2
p22
p2

...
...

pa1
p1

pa2
p2

...

C = PD1
c = (c1 , c2 , . . . , cb ) =

de la

nj
=1
nj

p1 0 . . .
0 p2 . . .

Dc = diag(c) = .
.
.
..
.
0
0 ...

El vector

pab
pa

n1j n2j
naj
,
,...,
nj nj
nj

son frecuencias relativas y, por tanto, suman 1:

entonces la matriz

p1b
p1
p2b
p2

j -simo perl columna cj , j = 1, . . . , b,

p1j p2j
paj
,
,...,
pj pj
pj

Los elementos de cada

p12
p1
p22
p2

.
.
.

.
.
.

p1b
pb
p2b
pb
.
.
.

pab
pb

puede ser tambin expresado como una media ponderada de

perles columna:

r=

pj cj

j=1
y, de forma anloga, el vector

puede ser expresado como media ponderada

de perles la:

c =
Ntese que
vector

es

a1

j=1 pj

pi ri

i=1

= 1 o j r = c j = 1, donde el primer
b 1. Por tanto, los pj y pi sirven como

i=1 pi

y el segundo

ponderaciones adecuadas en las medias anteriores.

138

4.2.1. Ejemplo
En el chero

lineas

se recoge el nmero de productos defectuosos de

cada una de las cuatro lneas de produccin de una fbrica en funcin del
tipo de defecto (A, B y C). Los datos, una vez tabulados, aparecen en la
siguiente tabla de contingencia:
Defecto
Lnea

Total las

17

17

12

46

11

13

33

11

19

38

14

28

49

Total columnas

53

41

72

166

Interpretar esta tabla es una tarea relativamente fcil ya que este ejemplo
es de dimensiones reducidas. Una inspeccin visual indica que el defecto C es
el que predomina, siendo la lnea 4 la que ms produce este tipo de defectos.
Adems, las lneas 1 y 4 son las que producen ms defectos. Aunque el ACO
demuestra su utilidad en tablas cruzadas de mayor tamao, utilizamos este
ejemplo para mostrar el funcionamiento de la tcnica de una forma didctica.
El examen de los perles la y columna permite examinar la posicin relativa
de las las y columnas para establecer caractersticas distintivas.
En primer lugar, calculamos la matriz de correspondencias:
Defecto
Lnea

Total las

.102

.102

.072

.277

.066

.054

.078

.199

.066

.048

.114

.229

.082

.042

.169

.295

Total columnas

.319

.247

.434

Los totales marginales (masas) vienen dados por:

.277
.199

r=
.229
.295

c = (.319, .247, .434)

139

Las matrices de perles la y columna son:

.370 .261
.273 .394

.211 .500
.143 .571

.370

.333
R = D1
r P=
.290
.286

C = PD1
c

.321 .415 .167


.208 .220 .181

=
.208 .195 .264
.264 .171 .389

La suma de los elementos de cada la de la matriz de perles la y la


suma de los elementos de cada columna de la matriz de perles columna
es uno. Para una interpretacin ms clara se ha representado grcamente
los perles la y columna en la gura 4.1. En relacin a los perles la, se
observa claramente que los perles de las lneas 1 y 4 son los que ms se
alejan del perl medio

c ;

mientras que para los perles columna es evidente

que los perles B y C son los ms alejados del perl medio

Perfiles columna
1.0

1.0

Perfiles fila

lnea

defecto

0.8

0.8

r.

media
0.6
0.4
0.2
0.0

0.0

0.2

0.4

0.6

media

defecto

3
lnea

Figura 4.1: Grcos de perles la y columna.

140

4.3. Contraste de independencia


Hemos mencionado anteriormente que los datos de una tabla de contingencia pueden ser usados para contrastar la asociacin de dos variables
categricas. Si las dos variables son denotadas por

x e y , entonces la hiptesis

de independencia puede ser expresada en trminos de probabilidades como:

P (xi yj ) = P (xi )P (yj ),


donde

xi

yj

i = 1, . . . , a;

j = 1, . . . , b

corresponde a la la i-sima y a la columna

j -sima de la tabla

de contingencia. Estas probabilidades pueden ser estimadas mediante:

pij = pi pj ,

i = 1, . . . , a;

j = 1, . . . , b

El estadstico ji-cuadrado usual para contrastar la independencia de

viene dado por:

a
b

(pij pi pj )2
=n
pi pj
2

i=1 j=1

aprox.

(
)
2 (a 1)(b 1)

Este estadstico puede ser tambin escrito matricialmente de la forma:

2 =
2 =

i=1
b

npi (ri c) D1
c (ri c)

(4.1)

npj (cj r) D1
r (cj r)

(4.2)

j=1
En consecuencia, las siguientes tres armaciones de independencia son
equivalentes (por simplicidad, las expresamos en trminos muestrales en lugar de sus homlogos poblacionales):
1.

pij = pi pj

para todo

2. Todas las las

ri

de

3. Todas las columnas

i, j ,

es decir,

P = rc .

R son iguales (e iguales a su media ponderada c ).


cj

de

C son iguales (e iguales a su media ponderada

r).
Por tanto, si las variables

x e y fueran independientes, se esperara que las

las de la tabla de contingencia tengan perles similares, o equivalentemente,


las columnas tengan perles similares. Podemos comparar los perles la
entre s comparando cada perl la

ri

141

con la media ponderada

de los

perles la. Esta comparacin es precisamente lo que hace el estadstico

2 .

De hecho, el trmino

(ri c) D1
c (ri c)

que aparece en la expresin

ri

(4.1) es la distancia ji-cuadrado entre el perl de la

y el centroide

c.

Un

razonamiento similar es vlido para los perles columna.


El estadstico tiene otra expresin matricial interesante:

1

2 = n tr[D1
r (P rc )Dc (P rc ) ] = n

2i

(4.3)

i=1

1

21 , . . . , 2k son los autovalores no nulos de D1
r (Prc )Dc (Prc ) y
1

k = rg[Dr (Prc )Dc (Prc ) ] = rg(Prc ) que es k = mn{a1, b1}.

donde

4.3.1. Ejemplo
Para el ejemplo de los productos defectuosos en funcin de la lnea de
fabricacin se tiene que

2 = 11.722

con 6 grados de libertad y

p = 0.0685,

por lo que hay algo de evidencia de falta de independencia entre lnea y tipo
de defecto. A partir del grco 4.1 se puede armar que las causas del valor
del estadstico
a

son: la lejana de los perles de las lneas 1 y 4 en relacin

o, alternativamente, la lejana de los perles B y C con respecto a

r.

4.3.2. Ejemplo
En la siguiente tabla se muestran las frecuencias de las respuestas a la
armacin me siento orgulloso de los xitos internacionales de mi pas en el
deporte para cinco nacionalidades (chero

deporte):

UK

USA

Russia

Spain

France

Total

Compl. de acuerdo

230

400

1010

201

365

2206

De acuerdo

329

471

530

639

478

2447

Indiferente

177

237

141

208

305

1068

Desacuerdo

34

28

21

72

50

Compl. desacuerdo
Total

12

11

14

97

776

1148

1713

1134

1295

El test de independencia,

2 = 879.2675 (p 0),

205
140
6066

rechaza la independen-

cia entre pas y respuesta. Analicemos los perles la y columna mediante
el grco 4.2. Resulta evidente que los perles de las respuestas completamente de acuerdo y completamente en desacuerdo son los ms alejados
de la media. As mismo, los perles de Rusia y Espaa son tambin los ms
distantes del perl medio de las columnas. Ntese que la contribucin al

142

estadstico

de cada perl viene ponderada por la masa de la categora

correspondiente. Dado que las masas son:

r = (0.363, 0.403, 0.176, 0.033, 0.023)

c = (0.128, 0.189, 0.282, 0.187, 0.213)

resulta evidente que la ponderacin de completamente de acuerdo es ms


de 15 veces la de completamente en desacuerdo (0.363 en relacin a 0.023).
En consecuencia, el efecto sobre el estadstico debiera ser muy superior para
la primera categora que para la ltima. Ms adelante volveremos sobre este
aspecto.

Perfiles columna
1.0

1.0

Perfiles fila
opinin

pas

0.2

0.4

0.6

0.8

UK
US
Ru
Sp
Fr
media

0.0

0.0

0.2

0.4

0.6

0.8

ca
a
i
d
cd
media

UK

US

Ru

Sp

Fr

ca

pais

i
opinin

Figura 4.2: Grcos de perles la y columna.

143

cd

4.4. Coordenadas para representar grcamente a


los perles las y a los perles columnas
Nuestro objetivo es obtener las coordenadas de los puntos la y de los
puntos columna para conseguir la mejor representacin bidimensional de los
datos de una tabla de contingencia. Tales puntos vienen caracterizados por
sus perles

ri

cj ,

que centraremos para que el centroide sea el origen de

ri c
C rj ,

coordenadas. En concreto, consideramos las desviaciones de las las


y de las columnas

cj r

expresadas matricialmente:

1
respectivamente. Dado que Dr r

1
y Dc c

=j

= j,

jc y

se verica que:

1
1

R jc = D1
r P Dr rc = Dr (P rc )

C rj =

D1
c P

rc

D1
c

D1
c (P

(4.4)

rc )

(4.5)

Para obtener las coordenadas debemos factorizar la matriz

P rc .

Esta

matriz es no simtrica y, por tanto, nos basamos es su descomposicin en


valores singulares. En primer lugar, escalamos

P rc

de la forma:

Z = D1/2
(P rc )D1/2
r
c
pij pi pj

pi pj . La matriz
1}, el rango de P rc .

cuyos elementos son

k = mn{a 1, b
Factorizamos Z

zij =

es

ab

y tiene rango

utilizando su descomposicin en valores singulares:

Z = UV
U son los vectores propios normalizados de ZZ y tiene
dimensiones a k ; las columnas de V son los vectores propios normalizados

2
2
de Z Z y tiene dimensiones b k ; y = diag(1 , . . . , k ) con 1 , . . . , k los

valores propios no nulos de ZZ y de Z Z. Los vectores propios en U y V


2
2
son los correspondientes a 1 , . . . , k . A 1 , . . . , k se les denomina valores

singulares de Z y se verica que U U = V V = I. Por ltimo, indicar que a


2
2
1 , . . . , k se les conoce como inercias principales.

donde las columnas de

Ntese que:

ZZ = D1/2
(P rc )D1/2
D1/2
(P rc ) D1/2
r
c
c
r
1/2
= D1/2
(P rc )D1
r
c (P rc ) Dr

144

que tiene los mismos autovalores que :

1

D1/2
D1/2
(P rc )D1
r
r
c (P rc ) = Dr (P rc )Dc (P rc )
que es precisamente la matriz que aparece en la expresin del estadstico

dada en (4.3), de ah que hayamos denotado a los autovalores de la misma


forma.

P rc puede ser entonces obtenida teniendo en


1/2
1/2
Z = Dr (P rc )Dc
= UV y, por tanto, despejando:

La descomposicin de
cuenta que

1/2
P rc = D1/2
= AB =
r UV Dc

i ai bi

(4.6)

i=1
donde

1/2

1/2

A = Dr U, B = Dc V, ai

bi

son las columnas de

B,

respectivamente.

U U = V V = I, A y B en (4.6)
1
A D1
r A = B Dc B = I. Con este escalado a la
Ya que

son escaladas para que


factorizacin (4.6) se le

denomina descomposicin en valores singulares generalizados.

Prc son expresadas como combinaciones lineales de


B = (b1 , b2 , . . . , bk )).

Las coordenadas o coecientes de la i-sima la de P rc se encuentran en

la i-sima la de A. Similarmente, las coordenadas de Prc vienen dadas

por las columnas de B , ya que estas columnas suministran los coecientes


para las columnas de A = (a1 , a2 , . . . , ak ) en (4.6).
En (4.6) las las de

las las de B (o, equivalentemente, de las columnas de

Teniendo en cuenta (4.4) y (4.6) se verica que:

R jc = D1
r (P rc ) = Dr AB

C rj = D1
c (P rc ) = Dc AB
Por tanto, las coordenadas de las desviaciones de las las en
respecto a los ejes suministrados por

b1 , b2 , . . . , bk

R jc

con

son las columnas de:

1/2
X = D1
U
r A = Dr

(4.7)

Anlogamente, las coordenadas de las desviaciones de las columnas en

C rj

con respecto a los ejes suministrados por

a1 , a2 , . . . , ak

vienen dadas

por las columnas de:

1/2
Y = D1
V
c B = Dc

(4.8)

1 Si A y B son matrices cuadradas de las mismas dimensiones entonces los valores


propios de AB son los mismos que los de BA, aunque los vectores propios dieren usualmente. Este resultado tambin se mantiene si A es n p y B es p n, en cuyo caso
coinciden los autovalores no nulos.
145

A este procedimiento de obtencin de las coordenadas se le denomina


mtodo de normalizacin principal debido a que induce, como veremos ms
adelante, un tipo de escala en las coordenadas. As mismo, a las coordenadas

se les denomina

coordenadas principales

de las las y columnas,

respectivamente.
En consecuencia, para representar las coordenadas de las desviaciones de

ri c , i = 1, . . . , a, en dos dimensiones utilizamos las las de


primeras columnas de X:

x11 x12
x21 x22

X1 = .
.
.
..
.
xa1 xa2

los perles la


las dos

De igual forma, para representar las coordenadas de las desviaciones de


los perles columna

cj r, j = 1, . . . , b, en dos
Y:

y11 y12
y21 y22

Y1 = .
.
.
.
.
.
yb1 yb2

dimensiones utilizamos las

las de las dos primeras columnas de

2 ya

Ambas representaciones pueden superponerse sobre el mismo grco


que

en (4.6) comparten los mismos valores singulares

1 , . . . , k

en

.
Las distancias entre los puntos la y las distancias ente los puntos columnas son de inters. Por ejemplo, la distancia entre dos puntos la est
relacionada con la mtrica ji-cuadrado implcita en (4.1). La distancia jicuadrado entre dos perles la

ri

rj

viene dada por:

d2ij = (ri rj ) D1
c (ri rj )
Si dos puntos la (o dos puntos columna) estn prximos, las dos las
(o las dos columnas) podran ser combinadas en una nica categora si fuera
necesario para mejorar la aproximacin ji-cuadrado.
La distancia entre un punto la y un punto columna no es interpretable,
pero la proximidad de un punto la y de un punto columna indica que la
combinacin de categoras implicadas de las dos variables ocurre ms frecuentemente de lo que el azar dictara si ambas variables fueran independientes.

2 SPSS no permite hacerlo y el paquete ca de R s.


146

4.4.1. Ejemplo
Continuando con el ejemplo 4.3.1, en la gura 4.3 aparece el grco en
coordenadas principales. Se observa que los puntos la estn separados entre
s y lo mismo ocurre con los puntos columna. Este grco no permite evaluar
la asociacin entre lnea y defecto; sin embargo, la proximidad entre el defecto
A y la lnea 2, entre el defecto B y la lnea 1 y entre el C y la lnea 4
ponen de maniesto que esas combinaciones de categoras ocurren con mayor
frecuencia de lo que sera esperable bajo condiciones de independencia. Parte
de estas apreciaciones ya haban sido observadas en el grco de la gura

0.1

0.2

0.3

4.1.

3
A

0.3

0.2

0.1

0.0

B
1

0.3

0.2

0.1

0.0

0.1

0.2

0.3

Figura 4.3: Grco obtenido por el mtodo de normalizacin principal.

147

4.5. Normalizacin e interpretacin del ACO


Hemos visto que el mtodo de normalizacin principal determina cmo
debe interpretarse en trminos de distancias los resultados del ACO, es decir,
permite comparar la similitud de las categoras la entre s y la similitud
de las categoras columna entre s, pero no la relacin (asociacin) entre
las variables la y columna. La normalizacin es utilizada para distribuir
la inercia sobre las las y las columnas, no alterando distintos aspectos de
la solucin como la descomposicin en valores singulares o la inercia por
dimensin. El ACO tiene diversas formas de distribuir la inercia dando lugar
a los siguientes mtodos de normalizacin:

i) Principal. Las coordenadas principales (4.7) y (4.8) estn escaladas de


forma que:

X Dr X = Y Dc Y = 2

es decir, la suma de cuadrados ponderada de las coordenadas en la

l-

sima dimensin (su inercia en la direccin de esta dimensin) es igual


a la inercia principal

2l :

x2il pi =

i=1

2
yjl
pj = 2l ,

l = 1, . . . , k

(4.9)

j=1

En consecuencia, la inercia es distribuida dos veces en la solucin, una


sobre las las y otra sobre las columnas. Como hemos comentado anteriormente, este mtodo se utiliza para comparar las distancias entre los
puntos las y las distancias entre los puntos columna separadamente,
pero no para enjuiciar cmo se relacionan ambos entre s.

ii) Simtrica. Las coordenadas simtricas se calculan de la forma siguiente:


1/2
X = D1
r A

1/2 ,
Y = D1
c B

lo que implica que:

X Dr X = Y Dc Y =
Esta normalizacin distribuye la inercia por igual entre las las y las
columnas. En este caso, ni las distancias entre los puntos las ni las distancias entre los puntos columnas son aproximaciones de las distancias
ji-cuadrado. Este mtodo se utiliza si se est interesado principalmente
en evaluar las diferencias o similitudes entre las dos variables. Normalmente, este es el mtodo preferido para hacer un

148

biplot.

iii) Principal de la.

Las coordenadas la se calculan como en (4.7) y las

coordenadas columna son coordenadas estndares


esta forma:

X Dr X = 2

Y = D1
c B

y, de

Y Dc Y = I

Las distancias eucldeas entre los puntos la aproximan a las distancias
ji-cuadrado entre las las de la tabla de correspondencias. Este mtodo
maximiza la distancia entre las categoras la y, por tanto, es el que
debe utilizarse cuando deseamos analizar cmo las categoras de la
variable la dieren entre s.

iv) Principal de columna. Las coordenadas la son coordenadas estndares


X = D1
r A

y las coordenadas columna se calculan como en (4.8) y, de

esta forma:

X Dr X = I

Y Dc Y = 2

La interpretacin de las distancias es la misma que para las coordenadas principales la pero sustituyendo las las por columnas.

4.5.1. Ejemplo
Considerando el ejemplo 4.3.1, para evaluar grcamente la asociacin
entre lneas y defectos realizamos un

biplot o grco en coordenadas simtri-

cas que aparece en la gura 4.4. Resulta evidente la cercana existente entre
el defecto A y la lnea 2, entre el defecto B y la lnea 1 y entre el C y la lnea
4. Esas asociaciones ilustran la faltan de independencia entre lnea y defecto.

4.6. Masa, inercia, contribucin y calidad


El ACO sintetiza la informacin de partida en un nmero reducido de
dimensiones, es decir, el espacio original generado a partir de la representacin de la nube de puntos de las categoras de las variables es transformado
en un subespacio que al presentarse como una simplicacin de la nube de
puntos original nos permite identicar las similitudes entre las categoras.
Si las nuevas dimensiones sintetizan la informacin original, resulta obvio
suponer que stas estarn representadas por aquellas categoras que originalmente tuvieron ms protagonismo, es decir, ms frecuencias o ms masa.
A mayor masa (frecuencia), mayor ser la importancia relativa de las categoras correspondientes y ms inuirn en las direcciones de los ejes. Sin
embargo, existen casos de categoras con baja masa que tienen una inuencia

149

0.6
0.4
0.2

3
B

0.0

C
1

2
4

0.4

0.2

0.6

0.4

0.2

0.0

0.2

0.4

0.6

Figura 4.4: Grco obtenido por el mtodo de normalizacin simtrico.

desproporcionada. Con este ltimo tipo de puntos hay que tener un especial
cuidado y ms adelante volveremos a tratar sobre ellos.
Una vez representada la nube de puntos ponderados a partir de su masa
debemos valorar si stos se encuentran concentrados o dispersos puesto que
si las variables son muy dependientes, las distancias sern muy grandes (las
y columnas distintas); pero si son independientes, los puntos de la nube
aparecern muy agrupados (las y columnas parecidas). La inercia total es
el estadstico que en el ACO mide la dispersin de la nube de puntos. A la
media ponderada por
entre los perles la

pi

ri

de las distancias ji-cuadrado

y su media

se le denomina

(ri c) D1
c (ri c)

inercia total. Por (4.1),

puede ser expresada de la forma:

Inercia

2
=
pi (ri c) D1
2i
total =
c (ri c) =
n
a

i=1

i=1

(4.10)

donde la ltima expresin es consecuencia de (4.3). Cuanto mayor sea la

150

inercia total ms dependientes sern las variables y ms sentido tendr identicar qu o cules categoras (una vez identicados las dimensiones) son las
que participan con mayor protagonismo en esa dependencia.
La inercia total proporciona un medio para determinar lo apropiado de
la dimensin de la solucin de una forma parecida al ACP. La contribucin
de cada una de las dos primeras dimensiones (ejes) de nuestro grco a la
inercia total es

21 /

2
i=1 i y

22 /

2
i=1 i , y la contribucin conjunta es:

21 + 22
k
2
i=1 i
Si esta cantidad es grande, entonces los puntos en el plano de las dos
primeras dimensiones explican casi toda la variacin en los datos, incluyendo las asociaciones. Aunque la representacin bidimensional es la preferida
a la hora de realizar interpretaciones, el nmero adecuado de dimensiones
puede ser determinado de varias formas: considerar todas las dimensiones cuyos autovalores expliquen ms de la inercia media o examinar un diagrama
de sedimentacin para identicar el punto de estabilizacin en la secuencia
descendente.
La inercia total puede ser tambin descrita por medio de la columnas
utilizando (4.2):

Inercia total

2
=
pj (cj r) D1
2i
r (cj r) =
n
b

j=1

i=1

(4.11)

Las expresiones (4.10) y (4.11) descomponen la inercia total en las inercias debidas a las las y columnas, respectivamente. En concreto, la inercia
debida a la la

i-sima

y a la columna

j -sima,

respectivamente, son:

Ineri = pi (ri c) D1
c (ri c) = pi

x2is

s=1
k

Inerj = pj (cj r) D1
r (cj r) = pj

2
yjs

s=1
con

xis

yjs

las coordenadas principales en la dimensin

s-sima.

De esta forma:

Inercia total

a
k

pi x2is

i=1 s=1

151

b
k

j=1 s=1

2
pj yjs

Es usual expresar en porcentajes a

Ineri

Inerj

en relacin a la inercia

total. As en presencia de dependencia de las variables, podemos identicar


qu las o columnas participan en mayor medida a la inercia total y son
causantes de esa dependencia.
Teniendo en cuenta la descomposicin (4.9), la inercia a lo largo del eje

l-simo, 2l ,

consiste en las sumas ponderadas de distancias cuadrticas al

origen de los perles la (columna), donde los pesos son las masas de cada
punto la (columna). Por tanto, cada autovalor tambin representa la inercia
de las proyecciones de cada conjunto de puntos la (columna) sobre cada eje.
Si cada trmino en la sumatoria es expresada como un porcentaje relativo
a la inercia explicada por cada eje obtenemos las contribuciones de la la

i-sima

y de la columna

j -sima

Cilf =

a la inercia de la dimensin l-sima:

pi x2il
2l

c
Cjl
=

2
pj yjl

2l

Las contribuciones suman 1 sobre todas las categoras de una variable:

Clf

= Clc = 1.

Miden la importancia de cada una de las categoras de las

variables analizadas en la construccin de los ejes o dimensiones. Se interpretan como el porcentaje de varianza explicada por cada punto en relacin
al eje y se utilizan para interpretar el signicado de dichos ejes en base a los
valores ms altos de estas contribuciones.
A partir de (4.9) se tiene que un punto puede tener una alta contribucin
a la inercia de un eje de dos formas: por tener una gran masa y/o por tener
una distancia al centroide grande, incluso teniendo una masa relativamente
baja. Aquellos puntos de baja masa y alta contribucin tienden a ser atpicos, es decir, a estar distanciados del centroide. En consecuencia, se debe
prestar especial atencin a este tipo de puntos y analizar su inuencia sobre
la solucin. El efecto de tales observaciones atpicas es dominar la interpretacin de uno o ms de los ejes. De hecho, su presencia suele provocar que
el resto de puntos aparezcan muy agrupados en el grco y por tanto que
sean difciles de interpretar. Los potenciales

outliers

pueden ser detectados

buscando las o columnas que tengan tanto valores absolutos de coordenadas


principales grandes como altas contribuciones y bajas masas. Las coordenadas principales representan el nmero de desviaciones estndares que distan
las las (o columnas) del baricentro. Un punto de baja masa se considera
como atpico cuando al menos dista una desviacin estndar del baricentro
adems de contribuir signicativamente a la interpretacin de un polo de un
eje.
Las contribuciones relativas de las dimensiones a las inercias de la la

i-sima y de la columna j -sima, es decir, las correlaciones al cuadrado entre


152

el perl la i-simo y el perl columna

j -simo con la dimensin l-sima son,

respectivamente, las siguientes:

x2
Corilf = k il

2
s=1 xis

2
yjl
c
Corjl
= k

2
s=1 yjs

Miden la importancia de cada dimensin para explicar la posicin en el


grco de cada una de las categoras de las variables, representando la parte
de la distancia al origen de coordenadas explicada por dicha dimensin.
La calidad total de la solucin es la suma de las calidades sobre las
dimensiones extradas, es decir, la suma de las correlaciones cuadradas sobre
el nmero

de dimensiones consideradas en la solucin:

Calif

Corilf

Caljc

l=1

c
Corjl

l=1

As, la calidad total de la solucin crece si se incrementa el nmero de


dimensiones, llegando a valer 1 si el nmero de dimensiones considerado es

(la solucin es perfecta). Cuanto mayor es la calidad mejor son represen-

tadas las distancias ji-cuadrado con otras las o columnas por el nmero de
dimensiones extradas. Tambin es usual representarlas en porcentajes.

4.6.1. Ejemplo
2

La siguiente tabla muestra las inercias principales (i ), los estadsticos


2
ji-cuadrado (ni ) y el porcentaje de inercia explicado por cada dimensin

(i /

2j )

para los datos del ejemplo 4.3.1. Ntese que la mayor parte

de la variacin es debida a la primera dimensin y que las dos primeras


dimensiones explican toda la variacin ya que

rg(Z) = mn(a 1, b 1) =

mn(3, 2) = 2.
inercia

0.07037

11.6819

99.7

99.7

0.00024

0.0404

0.3

100.0

Total

0.07062

11.7223

100.0

dim

% acumulado

La siguiente tabla nos permite analizar ms detalladamente los resultados obtenidos mediante la interpretacin de la gura 4.3. En ella los datos
aparecen de forma compacta multiplicados por 1000. Est dividida en tres
partes: una global y una para cada dimensin. La seccin global de la tabla
muestra las masas de las categoras (las masas de todas las categoras de

153

una variable suman 1), la calidad total de la aproximacin para cada una
de las categoras (expresada como un nmero entre 0 que representa a una
calidad muy mala y 1 que es la calidad perfecta) y el porcentaje de la inercia
contenida en la categora (la inercias de las categoras de una variable suman 100 %). Para cada dimensin se muestran las coordenadas principales:
para la lnea 1 seran (-0.371,-0.003), para la lnea 2 (-0.083,-0.007), etc.;
las contribuciones de las categora a las dimensiones: la contribucin de la
lnea 1 a la primera dimensin sera 0.542 y a la segunda 0.010, etc.; y, por
ltimo, las correlaciones al cuadrado (su suma a los largo de las dimensiones
es la calidad de la aproximacin de la categora; por ejemplo, para la lnea
1: 1.000+0.000=1.000).
var.
la

global
masa

dimensin 1

dimensin 2

cal

iner

coord

corr

contr

coord

corr

contr
10

277

1000

540

-371

1000

542

-3

199

1000

20

-83

993

20

-7

39

229

1000

59

132

958

57

28

42

714

295

1000

381

302

cal

iner

coord

4
col.

masa

998
cor

381

-14

238

contr

coord

cor

contr

319

1000

57

-110

962

55

-22

38

626

247

1000

447

-357

998

448

17

305

434

1000

496

284

1000

498

69

Las masas se encuentran distribuidas equitativamente entre las categoras y no aparecen categoras de baja masa. Las inercias correspondientes a
las lneas 1 y 4 representan respectivamente un 54 % y un 38.1 % del total
(0.07037). En consecuencia, son los puntos la que ms se alejan del perl
medio y los que ms contribuyen a la dependencia (ver el grco de coordenadas principales de la gura 4.3). Similarmente, las inercias correspondientes
a los defectos B y C representan un 44.7 % y un 49.6 % de la inercia total;
teniendo perles muy distantes del perl columna medio. Dado que las dos
primeras dimensiones explican toda la variacin (rg(Z)

= 2), la calidad total

de la solucin en todas las categoras es 1 o del 100 %. Analizando como


se descompone esta calidad por categoras, se observa que todas ellas estn
fuertemente asociadas a la dimensin 1 ya que sus correlaciones cuadrticas
son muy altas (la ms baja es la de la lnea 3 con un valor de 0.958). Los
ejes pueden interpretarse por medio de la contribucin de cada categora a
la inercia explicada por cada dimensin. Las principales contribuciones de
los puntos la a la dimensin 1 las proporcionan las lneas 1 y 4 con valores
de 0.542 y 0.381, mientras que los puntos columna que ms contribuyen son

154

los defectos B y C (0.448 y 0.498, respectivamente). Este ejemplo no nos


permite dar una interpretacin clara al eje que dene la dimensin 1.

4.6.2. Ejemplo
El chero

cafe

contiene 4662 datos de la imagen percibida por los con-

sumidores de 6 marcas de helado de caf (A, B, C, D, E y F). En concreto,


para cada marca los consumidores sealaron qu atributos, de un total de
23, describan adecuadamente a las caractersticas de esa marca. Los atributos de imagen considerados fueron los siguientes: atractivo, bajo en grasa,
contenido en cafena, curativo, dulce, duro, engorda, para gente fea, fresco,
para hombres, impopular, para mujeres, para nios, nuevo, nutritivo, popular, sano, marca secundaria, sudaustraliano, marca superior o premium,
para clase trabajadora, tradicional y para yupis. La forma en que los datos
aparecen corresponde a los items y sus frecuencias.
Este es un ejemplo claro en el que las dimensiones de la tabla de contingencia no permiten un anlisis visual de la misma y, por tanto, debemos
recurrir al ACO para su estudio. En total existen

138

items determinados

por 23 categoras de la y 6 categoras de columna.


En la tabla siguiente aparece el resultado del test de independencia,

3746.968 (p 0),

2 =

que rechaza la independencia entre marca y atributos.

La inercia por dimensin muestra la descomposicin de la inercia total en


cada dimensin. Dos dimensiones explican casi el 83 % de la inercia total.
La adicin de una tercera dimensin slo incorpora un 8.6 % a la inercia
explicada. Por tanto, elegimos una representacin bidimensional.
dim

inercia

% acumulado

0.505807

62.9

62.9

0.158998

19.8

82.7

0.069361

8.6

91.3

0.054910

6.8

98.2

0.014649

1.8

100.0

Total

0.803725

3746.968

100.0

En la gura 4.5 aparecen los grcos en coordenadas principales y simtricas. Del primer tipo de grco se observa que los atributos de imagen:
duro, para hombre y para trabajadores se perciben como similares; as mismo ocurre con los atributos popular, curativo y alto contenido en cafena;
con los atributos dulzor, una calidad superior, para nios, alto contenido en
grasa, tradicional y Sud Australiano; con los atributos nuevo, sano, bajo en

155

1.0

1.0

duro
hombres

hombres

0.5

0.5

duro

trabajando

trabajando
curativo

curativo

secundario
nutritivo

0.0

popular

yupis

0.5

0.5

SudAustraliano
B
nios
superior
F
dulce

0.0

0.5

nuevo
D
secundario
nutritivo C

cafena
A
popular

yupis

tradicional nios
superior
F
dulce

0.5

1.0

sanobajo en grasa

atractivo
mujeres

fresco
feo
engorda
SudAustraliano
B

tradicional

0.5

impopular

sanobajo en grasa

atractivo
mujeres

fresco
feo
engorda

nuevo
D C

0.0

impopular
cafena
A

0.0

0.5

1.0

Figura 4.5: Grcos en coordenadas principales (izqda.) y simtricas (dcha.).

grasa, para mujeres, nutritivos, impopulares y secundario; y con los atributos


fresco y feo. La categora yupi queda algo aislada. En cuanto a las columnas,
las marcas C y D son percibidas como similares, lo mismo que B y F. Sin
embargo, A y E son distintas al resto y distintas entre ellas.
En cuanto al grco en coordenadas simtricas se puede armar lo siguiente. En la esquina superior izquierda aparece la marca E asociada a los
atributos duro, para hombre y para trabajadores. La marca A es la ms popular y tambin considerada como la que ms contenido en cafena tiene. El
dulzor, una calidad superior, para nios, alto contenido en grasa, tradicional
y Sud Australiano estn relacionadas con la marcas B y F. Las marcas C y D
son percibidas como nuevas, sanas, bajas en grasa, para mujeres, nutritivas,
impopulares y secundario.
Para analizar ms detalladamente la solucin estudiamos la tabla siguiente relativa a las marcas. En primer lugar, no se observa ninguna la con una
masa demasiado baja: stas se reparten por igual entre las categoras. Las
marcas ms alejadas del perl medio de marca son C, E y D (sus porcentaje
de inercias son los ms grandes y, por tanto, las que ms participan en la
dependencia de las variables). Excepto para la marca B con una calidad de
solucin algo baja (0.407), el resto de marcas estn bien representadas en
dos dimensiones. Las marcas que ms contribuyen a la dimensin 1 son C
y D (de forma directa ya que sus coordenadas son positivas) y A (de forma
inversa por tener su coordenadas negativa); y a la dimensin 2 E y F con
signos opuestos. Ntese las altas correlaciones cuadrticas entre las marcas
C, D y A con la dimensin 1. Esto indica que la posicin alejada con respecto

156

al origen de coordenadas de esos puntos columnas es debida fundamentalmente a la dimensin 1. Las correlaciones cuadrticas algo menores de E y
F con la dimensin 2 indican que su alejamiento del origen se debe a una
combinacin de ambas dimensiones, sobre todo para E.
var.
la

global

dimensin 1

dimensin 2

masa

cal

iner

coord

corr

contr

coord

corr

contr

217

748

158

-659

744

187

46

131

407

97

-284

135

21

-404

272

134

185

957

240

996

951

362

76

162

939

181

915

928

267

101

11

10

152

914

191

-651

420

127

706

494

477

153

718

133

-343

169

36

-618

550

369

En cuanto a los atributos de marca, las inercias mayores corresponden a


los atributos bajo en grasa, sano, hombre y duro. La calidad de los atributos
feo y Sudaustraliano es muy baja, indicando que para representar adecuadamente a estas categoras necesitamos una solucin de dimensin superior a
2. Para entender la diferencia entre contribucin y correlacin, consideremos
los atributos bajo en grasa y mujer. El primero tiene la contribucin ms
alta de todas las categoras a la dimensin 1 (0.175) y tambin posee una
alta correlacin cuadrtica con este eje (0.941). El atributo mujer tiene una
contribucin muy inferior (0.062) pero una correlacin cuadrtica muy alta
(0.965). La correlacin nos indica cunto se debe al eje la posicin del punto.
En ambos casos, segn se desprende del grco en coordenadas principales
de la gura 4.5, sus posiciones se deben fundamentalmente al eje de la dimensin 1 y en mayor medida al atributo mujer. Sin embargo, la categora
bajo en grasas tiene una contribucin muy fuerte al eje de esta dimensin
indicando su importancia en la denicin del mismo. Otras categoras con
fuerte contribucin son: sano y nuevo, todos con coordenadas positivas y este ltimo con una importancia menor. La segunda dimensin viene denida
por las categoras duro y hombre con coordenadas positivas y por dulce y
superior con coordenadas negativas.
La interpretacin de los ejes en relacin al atributo de marca es por
tanto la siguiente: valores altos en la dimensin 1 estn asociados a las caractersticas femenina, saludable y novedoso; mientras que el polo positivo
del eje correspondiente a la dimensin 2 esta relacionado con la dureza y la
masculinidad y el negativo por la dulzura y la calidad superior.

157

var.
la

global

dimensin 1

dimensin 2

masa

cal

iner

coord

corr

contr

coord

corr

contr

engorda

80

825

41

-514

652

42

-265

173

35

hombres

51

992

90

-852

512

73

825

480

219

SudAus

57

266

58

-303

114

10

-350

152

44

tradicio

40

715

54

-703

454

39

-532

260

71

superior

42

805

35

-444

296

16

-582

509

90

sano

53

973

100

1200

953

152

174

20

10

cafena

47

755

17

-452

702

19

124

53

nuevo

47

914

60

960

893

86

147

21

atract

41

918

24

657

911

35

-56

duro

39

964

87

-850

404

56

1002

560

246

popular

60

774

47

-697

771

58

-42

curativo

26

655

11

-389

446

266

209

11

bajo gra

52

962

117

1305

941

175

196

21

13

nios

24

559

21

-352

179

-513

380

41

trabajad

45

948

50

-785

693

55

477

255

64

dulce

38

580

60

-519

212

20

-683

368

112

impopul

24

670

12

489

585

11

186

85

feo

30

131

-109

131

fresco

36

410

-96

196

-100

214

yupis

34

637

15

380

392

10

-301

246

19

nutritiv

40

951

27

722

946

41

55

mujer

54

972

40

758

965

62

-63

secundar

40

600

28

579

593

27

63

4.7. Puntos suplementarios


Una de las caractersticas distintivas del ACO es la posibilidad de representar puntos la y/o columna que no se utilizaron como parte del anlisis original en el mismo sistema de coordenadas que los puntos regulares
o activos (los puntos utilizados para obtener la solucin). Estos elementos
suplementarios, tambin denominados pasivos, no contribuyen en la orientacin de los ejes; sin embargo, el ACO puede calcular sus coordenadas y
sus contribuciones relativas a los ejes. Se puede pensar en estos puntos como
elementos que tienen una posicin en el espacio original pero no masa.
Los puntos suplementarios son las y columnas adicionales de una tabla
de contingencia que tienen perles interpretables y que existen en el espacio
completo de perles la y columna. Estos puntos pueden ser proyectados

158

sobre el subespacio de dimensin reducida y sus posiciones relativas con respecto a los elementos activos puede ser determinada. De esta forma, un punto
suplementario puede ayudar en la interpretacin de la solucin. El clculo
de las coordenadas de un punto suplementario depende de la normalizacin
utilizada para hallar la solucin. Denotemos por

Rs

Cs

a las matrices

de frecuencias relativas para las las y columna suplementarias, respectivamente. Entonces en la normalizacin simtrica las coordenadas de las las
suplementarias son calculadas como

Rs Dc1 B1/2

y las de las columnas su-

1
1/2 ; mientras que en la normalizacin principal de
plementarias Cs Dr A
1
la las coordenadas de las las suplementarias son calculadas como Rs Dc B
1
y las de las columnas suplementarias Cs Dr A.
La consideracin de un punto como suplementario puede obedecer a diversos objetivos:
1. Para clasicar elementos cuya descripcin en trminos de perles es
incompleta. En este caso, los datos de los elementos son estimados y
entonces esos puntos son introducidos como puntos suplementarios en
el grco.
2. Para comparar matrices de datos similares en dos instantes temporales,
en diferentes regiones, para diversas caractersticas, etc.
3. Para determinar la inuencia de un

outlier

en la interpretacin de

los ejes. La realizacin del ACO sin estos puntos permite determinar
la interpretacin de los ejes sin la presencia de su inuencia. Si no
se produce un cambio en la interpretacin podemos concluir que el
punto no era tan atpico. Por ltimo, indicar que cuando un

outlier es

identicado en una la, hay usualmente columnas asociadas que son

outliers, y viceversa.

4.7.1. Ejemplo
El chero

smoke

contiene una tabla de 5 las describiendo las catego-

ras laborales de 193 trabajadores de una empresa (senior-manager, juniormanager, senior-empleado, junior-empleado, secretario) y 4 columnas representando sus hbitos de fumar (none, light, medium y heavy).
En primer lugar contrastamos la independencia mediante el test ji-cuadrado de Pearson:

2 = 16.4416 (p = 0.1718).

El resultado es no rechazar la

independencia entre hbito de fumar y categora laboral. Sin embargo, dado


que hay 7 frecuencias esperadas menores que 5 el resultado no es muy able.
Continuamos el anlisis ignorando el resultado del contraste. Dado que las

159

dos primeras dimensiones explican un 99.5 % de la inercia total concluimos


que una representacin bidimiensional es apropiada.
En la gura 4.6 aparece el grco en coordenadas principales. La dimensin horizontal distingue entre fumadores y no fumadores, mientras que la
vertical puede ser interpretada como de intensidad en el hbito de fumar.
En cuanto a la categora laboral, el eje horizontal distingue principalmente
entre el carcter junior y senior de los empleados y el vertical tiende a si-

biplot

tuar en el polo negativo a los managers. Por otra parte, a travs del

de esa gura, dado que SE y none estn prximos, podemos armar que
los empleados seniors tienden a no fumar (none). Similarmente, los junior
managers tienden a ser grandes fumadores (heavy) y los empleados junior
tienden a ser fumadores medios.

0.2

0.4

light

SC
JE

JE

medium

0.0

medium

SE
none

0.2

SE
none

0.2

SM

0.4

0.1

0.0

0.1

0.2

light
SC

heavy

SM

heavy

JM

0.8

0.3

0.6

JM

0.4

0.3

0.2

0.1

0.0

0.1

0.2

0.3

0.8

0.6

0.4

0.2

0.0

0.2

0.4

0.6

Figura 4.6: Grcos en coordenadas principales (izqda.) y simtricas (dcha.).


En la siguiente tabla los datos aparecen de forma compacta multiplicados por 1000. Aunque la categora SM presenta una baja masa (5.7 %) no
se maniesta problema alguno con ella dado que su contribucin a la inercia
es baja (3.1 %) y no aparece como atpica. Es evidente que la solucin de
dos dimensiones aproxima bastante bien las distancias ji-cuadrado ya que la
calidad para todas las categoras es alta. El porcentaje de inercia indica que
SE y JE principalmente, y en menor medida JM, son las categoras laborales
que ms participan en la inercia total; mientras que para el hbito de fumar
es none la que ms participa. Si nos centramos en la dimensin 1, las principales contribuciones son las de SE y JE con coordenadas de signo opuesto,
y para el hbito de fumar es none la modalidad de mayor contribucin con
signo negativo. Las correlaciones cuadrticas indican que esta dimensin ex-

160

plica sustancialmente las posiciones de SE, JE y SC por un lado, y por otro


las de none, medium y heavy. De la misma forma, para la dimensin 2, es
JM la categora de mayor contribucin entre las las y heavy y light entre las
columnas. La dimensin 2 explica notablemente la posicin de SM. Las posiciones en el grco de JM y de light son el resultado de un equilibrio entre las
dos dimensiones. Finalmente, indicar que las interpretaciones dadas a las dimensiones a travs del grco de normalizacin principal son completamente
congruentes con las obtenidas del anlisis de las contribuciones.
variable

global

la

masa

SM

57

cal

dimensin 1

dimensin 2

iner

coord

corr

contr

coord

corr

contr

893

31

-66

93

-194

800

214

JM

93

991

139

259

526

84

-243

465

551

SE

264

1000

450

-381

999

512

-11

JE

456

1000

308

233

942

331

58

58

152

SC

130

999

71

-201

865

70

79

133

81

cal

iner

coord

cor

contr

coord

cor

contr

columna

masa

none

316

1000

577

-393

994

654

-30

29

light

233

984

83

99

327

31

141

657

463

medium

321

983

148

196

982

166

heavy

130

995

192

294

684

150

-198

310

506

Supongamos que conocemos la distribucin nacional del hbito de fumar: 42 % de no fumadores, 29 % de fumadores ocasionales (light), 20 % de
fumadores medios y 9 % de grandes fumadores y que queremos considerar
esta informacin en nuestro anlisis para compararla con el comportamiento
en la empresa. Introducimos entonces en una la suplementaria la distribucin nacional del hbito de fumar:

Rs = (0.42, 0.29, 0.2, 0.09).

Por otro

lado, supongamos que disponemos de informacin adicional sobre cmo se


distribuyen los trabajadores por categoras laborales entre consumidores de
alcohol y no consumidores:
Alcohol
categora

no

SM

11

JM

17

SE

46

JE

10

78

SC

18

161

Esta informacin puede ser incluida en el anlisis como dos columnas


suplementarias:

Cs

(
=

)
0
0.043 0.217 0.434 0.304
0.064 0.111 0.258 0.458 0.105

A continuacin aparecen los resultados del anlisis. Para los puntos activos los resultados son los ya obtenidos anteriormente. Ntese que los puntos
suplementarios no tienen masa, ni inercia y tampoco contribuyen a la localizacin de las dimensiones.
variable

global
masa

SM

57

893

31

-66

JM

93

991

139

259

SE

264

1000

450

-381

JE

456

1000

308

233

SC

130

999

71

-201
-258

631

cal

iner

coord

nacional
columna

cal

dimensin 1

la

iner

761
masa

coord

corr

dimensin 2

contr

coord

corr

contr

93

-194

800

214

526

84

-243

465

551

999

512

-11

942

331

58

58

152

865

70

79

133

81

118

131

cor

contr

coord

cor

contr

none

316

1000

577

-393

994

654

-30

29

light

233

984

83

99

327

31

141

657

463

medium

321

983

148

196

982

166

heavy

130

995

192

294

684

150

-198

310

506

no alcohol

439

-115

40

362

398

s alcohol

838

43

202

-76

636

Las interpretaciones son similares a las dadas para los puntos activos. La
solucin bidimensional representa bastante bien a la la suplementaria ya que
tiene una calidad de 0.761, aunque inferior a la de los puntos la activos (esto
ocurre en la mayor parte de las aplicaciones ya que los puntos activos ejercen
inuencia sobre las dimensiones para mejorar su calidad, mientras que los
puntos suplementarios han de acomodarse a las dimensiones determinadas
por los puntos activos). Uno de los puntos columna (no alcohol) no est
tan bien representado ya que su calidad es 0.439 (no obstante un 43.9 % de
la distancia cuadrtica total de esos puntos al origen en el espacio denido
por el mximo nmero de dimensiones

es explicada por la solucin de dos

dimensiones).
Examinando el grco en coordenadas principales de la gura 4.7 se observa que los hbitos de fumar de los secretarios estn prximos a la media

162

0.2

0.3

nondrink

light

0.0

0.1

national
SC
JE
medium

SE
none

0.1

drink

0.2

SM

heavy
JM

0.4

0.3

0.2

0.1

0.0

0.1

0.2

0.3

Figura 4.7: Grco con puntos suplementarios en coordenadas principales.

nacional y que los consumidores de alcohol estn ms prximos a los fumadores que a los no fumadores, indicando un similar comportamiento entre los
consumidores de alcohol y los fumadores. Sin embargo, no se puede concluir
que la misma gente que fuma es la que bebe ya que no tenemos datos de tres
vas, es decir, no tenemos frecuencias para los items formados por categora
laboral, hbito de fumar y consumidor de alcohol (no disponemos de frecuencias, por ejemplo, para un senior manager, no fumador y no consumidor
de alcohol). De este problema ms general se ocupa el ACO mltiple.

4.7.2. Ejemplo
Consideremos de nuevo los datos del chero

deporte

del ejemplo 4.3.2.

Las dos primeras dimensiones explican el 95.6 % de la inercia total. En la


gura 4.8 se muestra a la izquierda el grco en coordenadas principales. La
dimensin horizontal reeja una clara subdivisin de las respuestas, con la
categora completamente de acuerdo a la izquierda y las otras cuatro cate-

163

goras a la derecha. Adems, las categoras mantienen el orden original a lo


largo del eje, aunque la distancia entre categoras es diferente: por ejemplo
desacuerdo y completamente en desacuerdo estn muy cercanas horizontalmente, mientras que completamente de acuerdo est relativamente
alejada de de acuerdo. La primera dimensin se podra interpretar como
el nivel de orgullo ante los xitos en deportes internacionales. La segunda
dimensin viene dominada por un punto la correspondiente a la categora
completamente en desacuerdo muy distante del resto.

0.2

Spain
Desacuerdo

0.4

Acuerdo
UK
USA

0.0

Russia
C.acuerdo

c.des+des

France

0.2

0.2

Indiferente

France

0.4

Indiferente

0.0

C.acuerdo
UK

Russia

0.6

USA

Acuerdo

1.0

0.8

0.2

Spain

0.4

C.desacuerdo

0.6

0.4

0.2

0.0

0.2

0.4

0.6

0.4

0.2

0.0

0.2

0.4

Figura 4.8: Grcos en coordenadas principales.

var.
la

global
masa

dimensin 1

cal

iner

coord

dimensin 2

corr

contr

coord

corr

contr

C.acuerdo

364

1000

436

-415

990

597

-41

10

18

Acuerdo

403

963

130

171

626

113

126

337

187

Indifer.

47

176

835

148

304

761

156

-95

74

Desacuer.

34

895

67

487

821

77

147

74

21

C.desac.

23

968

219

512

190

58

-1035

777

727

cal

iner

coord

cor

contr

coord

cor

contr

37

137

445

23

96

221

35

col.

masa

UK

128

666

USA

189

221

20

18

20

56

201

17

Russia

282

994

464

-486

993

638

10

Spain

187

953

246

358

673

229

231

280

293

France

213

996

233

232

339

110

-323

657

654

Ntese que la contribucin a la inercia de completamente de acuerdo

164

(43.6 %) es casi el doble que la de completamente en desacuerdo (21.9 %),


aunque la masa de la primera es unas 15 veces superior (36.4 %) que la de la
segunda (2.3 %), resultando que la primera est ms cercana al origen. Este
comportamiento es tpico de puntos que tienen una baja masa: tienden a
participar fuertemente en la inercia total y a situarse alejadamente del resto,
es decir, la baja masa de la categora completamente en desacuerdo provoca que sta sea un

outlier, lo que es conrmado por tener una coordenada

principal en la segunda dimensin muy grande (-1.035) y tambin una alta


contribucin en ese eje (72.7 %). En situaciones de este tipo se puede declarar a estos puntos de baja masa como suplementarios o combinarlos con
otra categora. Ilustramos esta segunda opcin y optamos por combinarla
con la categora en desacuerdo. En la gura 4.8 se muestra a la derecha el
grco resultante tras esta combinacin de categoras (los ejes han cambiado de sentido en esta nueva solucin). La masa de la categora combinada
sigue siendo baja (5.7 %) pero su participacin en la inercia total es ahora
del 17.6 %, ha moderado sus coordenadas principales (-0.49,0.31) y su contribucin en la segunda dimensin es del 37.5 %. En consecuencia, ha dejado
de ser un

outlier

aunque an persiste algunas de los problemas originales

(tiene una participacin superior en la inercia total a la de otras categoras


con mucha mayor masa como, por ejemplo, de acuerdo con masa=40.3 %
e iner=15 %).

4.8. Anlisis de Correspondencias Mltiple


El ACO de una tabla de contingencia de dos vas puede ser extendido a
tablas de tres o ms vas. Por medio del ACO mltiple (ACM) se obtiene un
grco bidimensional de la informacin contenida en esa tabla de contingencia de mltiples vas. El mtodo implica un ACO de una matriz indicadora
(compuesta por 1 y 0)
nmero de las de
de columnas de

que contiene una la por cada item. Por tanto, el

es el nmero total de items en la muestra. El nmero

G es el nmero total de categoras en todas las variables. En

cada la, un elemento es un 1 si el item pertenece a la categora correspondiente de la variable; en otro caso, el elemento es 0. Por tanto, el nmero de
1 en una la de

es el nmero de variables. Por ejemplo, en una tabla de

contingencia de 4 vas habra cuatro 1 en cada la de

G.

Como ilustracin vamos a considerar las siguientes cuatro variables: sexo


(hombre, mujer), edad (joven, media, anciano), estado civil (soltero, casado)
y raza (blanca, negra, asitica, otras) que han sido medidas sobre doce personas o items. La tabla de contingencia de cuatro vas aparece en el cuadro

165

4.1 y su matriz indicadora

aparecen en el cuadro 4.2.

Item

Sexo

Edad

Estado

Raza

hombre

joven

soltero

otras

hombre

anciano

soltero

asitica

mujer

media

casado

blanca

hombre

anciano

soltero

negra

mujer

media

casado

negra

mujer

media

soltero

otras

hombre

joven

casado

asitica

hombre

anciano

casado

blanca

hombre

media

soltero

blanca

10

mujer

joven

casado

negra

11

mujer

anciano

soltero

otras

12

hombre

joven

casado

blanca

Cuadro 4.1: Tabla de contingencia de 4 vas.


Un ACO sobre

matriz de Burt.

G es equivalente a un ACO sobre G G, que es denominada

Esta equivalencia se justica como sigue. En la descompo-

G = UV , la
misma matriz V sera

sicin en valores singulares

matriz

contiene los vectores

propios de G G. La
utilizada en la descomposicin

espectral de G G. Por tanto, las columnas de V son usadas en la representacin grca de las coordenadas para las columnas de

G G. Si

o las columnas de

G es n p, entonces G G es ms pequea en tamao que G.

La matriz de Burt G G tiene un bloque cuadrado en la diagonal para

cada variable y bloques rectangulares fuera de la diagonal para cada par


de variables. Cada bloque diagonal es una matriz diagonal que muestra las
frecuencias para las categoras en la variable correspondiente. Cada bloque
fuera de la diagonal es una tabla de contingencia de dos vas para el par de
variables correspondientes. En el cuadro 4.3 se muestra la matriz
la matriz

G G

para

en el cuadro 4.2.

Un ACO de

G G

slo proporciona coordenadas de las columnas. Se re-

presenta un punto por cada columna de

G (o de G G). Por tanto, cada punto

representa una categora (atributo) de una de las variables. Las distancias


entre puntos no tienen tanto signicado como en el ACO, pero los puntos
en el mismo cuadrante o cercanos entre s indica una asociacin. Si dos puntos cercanos representan atributos de la misma variable, los dos atributos
pueden ser combinados en un atributo nico.
Debido a que la matriz de Burt

G G

166

tiene slo tablas de contingencias

Sexo

Edad

Estado

Raza

Item

ho

mu

jo

me

an

so

ca

bl

ot

ne

as

10

11

12

Cuadro 4.2: Matriz indicadora

G.

de dos vas, la interacciones de tres vas o de rdenes superiores no son


representadas en el grco. Sin embargo, se analizan simultneamente las
diversas tablas de dos vas generadas.
Por ltimo, indicar que el ACM sobre la matriz de Burt tiene en cuenta
todas las tabulaciones cruzadas de dos vas del conjunto de variables, incluyendo las tablas cruzadas de cada variable con ella misma que aparecen en
la diagonal. La informacin importante en la matriz de Burt se encuentra
fuera de estos bloques de la diagonal. En el intento de mostrar esos dos fenmenos conjuntamente, el ACM tiende a no representar a ninguno de ellos
particularmente bien. El sntoma ms aparente de este problema es el hecho
de que la inercia total en el ACM es generalmente alta mientras que los porcentajes de inercia a lo largo de los ejes son invariablemente bajos. Esto da
la impresin de una pobre solucin, aunque la razn real se encuentra en la
incapacidad del mtodo para representar con precisin a los bloques de la
diagonal. La ventaja de la inclusin de los bloques diagonales en el anlisis
se encuentra en que es ms fcil de implementar.
Existen dos alternativas para solucionar este problema: el ajuste de inercias y el ACO conjunto. Dado que el primer enfoque es el preferido lo describimos brevemente a continuacin. La solucin del ACM puede ser ajustada
para optimizar el ajuste de las submatrices fuera de la diagonal de la matriz
de Burt. Los ajustes son hechos de la forma siguiente:
Inercia total ajustada

(
Q
Inercia
Q1
167

de

) pQ
G G
Q2

Sexo

Edad

Estado

Raza

Categora

ho

mu

jo

me

an

so

ca

bl

ot

ne

as

hombre

mujer

joven

media

anciano

soltero

casado

blanca

otras

negra

asitica

G G

para la matriz

Cuadro 4.3: Matriz de Burt

donde

representa el nmero de variables y

del cuadro 4.2.

el nmero total de categoras

en el anlisis. En cuanto a las inercias principales de la matriz de Burt el


ajuste es el siguiente:

(
aj
k

Q
Q1

)2

1
k
Q

)2
,

k = 1, 2, . . .

Los ajustes son realizados slo en las dimensiones para las cuales

k > 1/Q

y ninguna otra dimensin adicional es utilizada (por tanto, los porcentajes


de inercia no suma 100 %).

4.8.1. Ejemplo
En el chero

demografia

aparecen los datos del cuadro 4.2. El ACM so-

bre la matriz de Burt determina que una solucin bidimensional explica un


67 % de la inercia total (un 35.3 % la primera inercia principal y un 31.7 %
la segunda); mientras que el ACM ajustado indica que las dos dimensiones
explican un 66.9 % de la inercia total (un 37.6 % la primera inercia principal y un 29.4 % la segunda). En este ejemplo las diferencias entre ambas
metodologas no es evidente; en otros la disparidad es ms acusada. En el
grco 4.9 se representan las 11 columnas del cuadro 4.3 mediante un ACM
ajustado. Se observa una fuerte asociacin entre casado y blanco, as como
entre mujer y de edad media.
Analizamos ms detalladamente esta solucin. Las calidades para algunas categoras (como blanca) son bajas, indicando que no se encuentran bien

168

0.4

razaotras

estadosoltero

0.2

edadanciano

sexomujer

0.0

edadmedia

sexohombre

razanegro

0.2

razaasiatico

razablanco

edadjoven

estadocasado

0.4

0.2

0.0

0.2

0.4

0.6

Figura 4.9: ACM ajustado.

representadas en esta solucin de dos dimensiones. Los puntos mujer, otras,


casado y soltero son los que ms inercia explican. Las categoras que ms
inuyen en la primera dimensin son mujer, asitica, media y hombre (la
primera y la tercera con coordenadas negativas) y en la segunda son otras,
soltero y casado (la primera con coordenada positiva). Por tanto, la dimensin horizontal separa a hombres de mujeres y a asiticos de negros, mientras
que la vertical separa a otras razas de blancos, y a solteros de casados. Finalmente, la dimensin horizontal contribuye notablemente a la inercia de
los puntos asitica y media y la vertical a la de otras, casado y soltero.

4.8.2. Ejemplo
El chero

alemania93 contiene datos de una encuesta sobre las actitudes

hacia la ciencia realizada en 1993 en Alemania a 871 entrevistados. En ella


se les preguntaba por cuatro cuestiones:

169

var.
col.

global

dimensin 1

dimensin 2

masa

cal

iner

coord

corr

contr

coord

corr

contr

hombre

146

510

95

289

485

45

-66

26

mujer

104

510

132

-405

485

62

93

26

anciano

83

618

59

277

405

23

201

213

14

joven

83

421

59

139

101

-246

320

21

media

83

556

99

-416

550

53

45

casado

125

479

116

-114

52

-325

427

55

soltero

55

125

479

116

114

52

325

427

asiatica

42

707

85

605

679

56

-123

28

blanca

83

290

68

-55

14

-245

276

21

negra

62

459

38

-257

405

15

-94

54

otras

62

462

131

-73

503

452

65

A. Creemos demasiado a menudo en la ciencia y no lo suciente en los


sentimientos y nuestras creencias.
B. En general, la ciencia moderna es ms daina que beneciosa.
C. Cualquier cambio producido por los humanos en la naturaleza, independientemente de si es cientco o no, es probable que deje las cosas
peor.
D. La ciencia moderna resolver nuestros problemas medioambientales con
pocos cambios en nuestra forma de vida.
Cada cuestin tiene 5 posibles respuestas: completamente de acuerdo (1),
de acuerdo (2), indiferente (3), en desacuerdo (4) y en completo desacuerdo
(5).
Para relacionar los resultados del ACM resultante vamos a considerar
3 variables demogrcas suplementarias: sexo, edad codicada en 6 grupos
(16-24, 25-34, 35-44, 45-54, 55-64 y 65 o ms) y educacin codicada en 6
grupos (sin estudios, primaria, secundaria, bachiller, graduado universitario
y mster).
Este ejemplo s maniesta unas diferencias considerables entre el ACM
sobre la matriz de Burt y el ajustado. En concreto, mientras que dos dimensiones en el ACM sobre la matriz de Burt slo explican un 35 % de la inercia
total, en el ajustado se llega hasta el 79.1 %. Los resultados se muestran en
la tabla adjunta.
En la gura 4.10 se muestra el grco en coordenadas principales de los
puntos activos mediante el ACM ajustado. Se observa un patrn de com-

170

ACM sobre matriz de Burt


dim

inercia

ACM ajustado

% acumulado

inercia

0.209196

18.6

18.6

0.076455

44.9

% acumulado
44.9

0.185732

16.5

35.0

0.058220

34.2

79.1

0.103636

9.2

44.2

0.009197

5.4

84.5

0.093926

8.3

52.5

0.005670

3.3

87.8

0.075997

6.7

59.3

0.001172

0.7

88.5

0.063468

5.6

64.9

7e-06000

0.0

88.5

0.058835

5.2

70.1

0.055202

4.9

75.0

0.050836

4.5

79.5

10

0.048677

4.3

83.8

11

0.044032

3.9

87.7

12

0.038868

3.4

91.2

13

0.031642

2.8

94.0

14

0.028599

2.5

96.5

15

0.023354

2.1

98.6

16

0.015687

1.4

100.0

portamiento similar en los encuestados en relacin a las cuestiones A, B y


C. Pero las respuestas a la cuestin D no estn en absoluto en la lnea de
las otras 3. Las categoras D1 y D5 que representan estar completamente
de acuerdo y completamente en desacuerdo, respectivamente, estn bastante cercanas aunque son opuestas en la escala. Esto muestra claramente la
incompatibilidad de estas cuestiones con las otras.
En la gura 4.11 se muestran los grcos con los puntos activos y suplementarios conjuntamente a la izquierda y slo los puntos suplementarios
a la derecha. Se observa que los grupos de edad y de educacin tienen una
tendencia horizontal, con los encuestados ms jvenes a la derecha y los ms
mayores movindose hacia la izquierda. As mismo, los tres grupos de educacin ms alta se separan a la derecha junto al polo de completamente en
desacuerdo con las cuestiones, indicando que estn fuertemente a favor de las
ciencias. El punto correspondiente al sexo masculino se sita a la derecha y
el femenino a la izquierda. Ntese que esas variables suplementarias han sido
aadidas separadamente al grco y no en combinacin, es decir, el hecho
de que los hombres estn a la derecha no implica que son slo los hombres
de alta educacin los que son ms favorables hacia las ciencias. Para ver las
posiciones de las mujeres de alta educacin, por ejemplo, habra que haber
introducido codicaciones adicionales de las variables demogrcas. Esto se

171

0.4

A3
D3

0.2

B3
B2

C3

C2

A2

0.0

D4
D2

B4

0.2

A1

A4

C4

C1
D5

0.4

B1
D1

0.6

B5
A5

0.8

C5

0.8

0.6

0.4

0.2

0.0

0.2

0.4

0.6

Figura 4.10: ACM ajustado.

puede hacer, por ejemplo, codicando los seis grupos de educacin por hombres y por mujeres, dando lugar a 12 combinaciones de genero y educacin,
cada una de ellas representada como un punto suplementario.

172

0.4

A3
D3

0.2

C3

B2

0.0

B3

A2edu.2 edu.3
B4
D4
age.4
edu.1 age.5
age.6
D2sex.1
age.1
sex.2 age.3
age.2

C2

C4
edu.5
edu.4
edu.6 A4

0.2

A1
C1
D5

0.4

B1
D1

0.6

B5
A5

0.8

C5

0.6

0.4

0.2

0.0

0.2

0.4

0.6

edu.2
edu.1
age.6

0.05 0.00

0.05

0.10

0.8

edu.3
age.5

age.4
sex.1

age.3

age.1

sex.2

0.15

age.2

edu.4

edu.6

0.25

edu.5

0.2

0.1

0.0

0.1

0.2

173
Figura 4.11: Puntos activos y pasivos (arriba) y slo puntos pasivos (abajo)

Captulo 5

Anlisis Cluster
El AF o el ACP son tcnicas de reduccin de la dimensin en las que el
objetivo es la reduccin del nmero de variables (o columnas) en la matriz
de datos

Y.

En este captulo vamos a estudiar tcnicas que pretenden la

reduccin del nmero de las de

Y. Puesto que sus las representan unidades

de observacin, el objetivo es combinar los items en grupos homogneos en


funcin de las similitudes o similaridades entre ellos. A estos grupos se les
denomina

clusters

y a la tcnica

Anlisis Cluster

o de

Conglomerados (AC).

El objetivo del AC es la bsqueda de patrones en los datos que permitan agrupar las observaciones en grupos o

clusters

(el nmero ni los grupos

mismos son conocidos previamente al anlisis). Este agrupamiento debe ser


ptimo en el sentido de que las observaciones dentro de cada grupo sean
similares, pero los clusters deben ser distintos entre s. Lo deseable es encontrar los agrupamientos naturales en los datos, es decir, los grupos resultantes
deben tener sentido para el investigador.
Para agrupar las observaciones en

clusters,

muchas tcnicas parten de

las similitudes entre todos los pares de observaciones. En muchos casos las
similitudes estn basadas en alguna medida de distancia. Otros mtodos de

clusters o
clusters. En general, el

agrupacin utilizan una eleccin preliminar de los centros de los


una comparacin de la variabilidad dentro y entre los

AC se utiliza para agrupar las observaciones, aunque tambin se aplica para


agrupar las variables, en cuyo caso la similitud podra ser una correlacin.
El AC puede considerarse como una tcnica exploratoria, en el sentido de
que a veces se desea slo encontrar una agrupacin conveniente de los datos,
mientras que en otras ocasiones presenta un matiz conrmatorio, cuando se
supone que los objetos realmente pertenecen a un nmero no muy grande
de grupos de manera natural. Este segundo caso se denomina

174

clasicacin

mientras que la primera aplicacin se suele denominar

diseccin. Las tcnicas

del AC han sido extensamente aplicadas a datos en muchos campos, tales


como ingeniera, psiquiatra, medicina, sociologa, criminologa, antropologa,
arqueologa, geologa, investigacin de mercados, etc.
En nuestra exposicin nos vamos a centrar fundamentalmente en variables cuantitativas. La matriz de datos ser escrita de la forma:

y1
y
2
Y = . = (y(1) , y(2) , . . . , y(p) )
..
yn

donde

yi

es una la o vector observacin e

y(j)

es una columna (correspon-

diente a una variable). Generalmente, deseamos agrupar las

las

yi

clusters. Aunque tambin podemos desear agrupar las p columnas y(j) .

en

Dos enfoques comunes para agrupar observaciones vectoriales son el jerrquico y el particionamiento. El agrupamiento jerrquico comienza tpicamente con

n clusters,

uno por cada observacin, y termina con un

que contiene a las

cluster

cluster

nico

observaciones. En cada etapa, una observacin o un

de observaciones es absorbido por otro

cluster.

De este modo, una

vez que un individuo ha sido asignado a un grupo, ya no puede ser eliminado


de l en ninguna otra fase del proceso. Tambin es posible invertir el proceso,

cluster que contiene a las n observaciones y


n clusters con un item cada uno. El mtodo de particin divide
observaciones en g clusters comenzando por una particin inicial o por

es decir, comenzar con un nico


terminar con
las

centros de

clusters

y reasignando las observaciones de acuerdo a algn cri-

terio de optimalidad. En contraste con las tcnicas jerrquicas, los mtodos


de particin permiten que los objetos cambien de grupo durante el proceso
de formacin de

clusters.

Aunque la estructura de los

clusters

puede variar entre los diferentes

mtodos, todos ellos parten de la hiptesis de la existencia de agrupaciones


naturales, es decir, asumen que se verican las condiciones de aislamiento
externo y cohesin interna. El aislamiento externo implica que los puntos de
un

cluster estn separados de los puntos de otro cluster por un rea vaca de
cluster

espacio. La cohesin interna presupone que los puntos dentro de un


deben estar cercanos.

175

5.1. Medidas de similitud o disimilitud


Puesto que el AC trata de identicar las observaciones vectoriales que
son similares y agruparlas entonces en

clusters,

muchas tcnicas utilizan un

ndice de similitud o similaridad entre cada par de observaciones. Una medida conveniente de similaridad es la distancia entre dos observaciones. Debido
a que una distancia crece conforme dos unidades se alejan, entonces es realmente una medida de disimilitud o desemajanza.
Una funcin distancia comn es la distancia eucldea entre dos vectores

x = (x1 , . . . , xp )

y = (y1 , . . . , yp ) ,

d(x, y) =

denida como:

v
u
u p

(x y) (x y) = t (xj yj )2
j=1

Para ajustar las distintas varianzas y covarianzas entre las

p variables, se

puede utilizar la distancia estadstica:

d(x, y) =
donde

(x y) S1 (x y)

S es la matriz de covarianzas muestral. Su utilizacin no es, en general,

muy recomendable ya que la nica matriz de covarianzas disponible es la de


toda la muestra, que puede mostrar correlaciones muy distintas de las que
existen entre las variables dentro de los grupos.
Otra distancia posible es la de Minkowski:

1/r
p

d(x, y) =
|xj yj |r
j=1
Cuando

r = 2,

se obtiene la distancia eucldea. Para

proporciona la distancia

city block entre dos observaciones.

p = 2

r = 1

n observaciones vectoriales y1 , y2 , . . . , yn podemos calcular una


matriz n n, D = (dij ), de distancias o disimilitudes, donde dij = d(yi , yj ).
La matriz D es simtrica y con elementos diagonales nulos y usualmente se
2
construye con la distancia eucldea. A veces, tambin se considera D = (dij ).
Para las

Cuando se utiliza la distancia eucldea es importante tener en cuenta la


escala de medida, ya que un cambio en sta afecta a las distancias relativas
entre los items. Para evitar este problema cada variable podra ser estandarizada de forma usual restando su media y dividindo por su desviacin
estndar. Sin embargo, tal escalamiento estara basado ordinariamente en el
conjunto completo de datos, es decir, en todos los

176

n valores en cada columna

de

Y.

En este caso, las variables que mejor separan los clusters pueden ya

no ser divididas por desviaciones estndares que incluyan las variaciones entre

clusters. Si utilizamos variables estandarizadas, los clusters podran estar

menos bien separados. La cuestin del escalamiento no es, por tanto, tan
sencilla. Sin embargo, una estandarizacin de este tipo es recomendada por
muchos autores.
La distancia eucldea verica lo siguiente:

d2 (x, y) =

(xj yj )2 = (vx vy )2 + p(
x y)2 + 2vx vy (1 rxy )

j=1

vx2 = pj=1 (xj x


)2 , x
= pj=1 xj /p (similares expresiones son vlidas
vy2 e y) y el coeciente de correlacin:

donde
para

rxy =
Ntese que

vx

x
)(yj y)

p
)2 pj=1 (yj y)2
j=1 (xj x
j=1 (xj

son, respectivamente, la media y la variacin de las

variables dentro del vector observacin

observaciones. As mismo,

y y vy

entre las dos observaciones vectoriales


forma, cunto ms cercano est
estar

d2 (x, y)

x;

no sobre el conjunto de las

lo son para el vector

rxy

de

y y rxy

es la correlacin

y, no entre dos variables. De esta


1, vx de vy y x
de y ms prxima
e

de 0.

5.2. Agrupamiento jerrquico


Los mtodos jerrquicos, as como otros algoritmos de agrupamiento,
representan un intento de encontrar buenos

clusters

en los datos utilizan-

do una tcnica computacionalmente eciente. Generalmente, no es factible


examinar todas las posibilidades de agrupamiento en un conjunto de datos,
especialmente cuando es grande. El nmero de formas en que un conjunto

g clusters, denotado por N (n, g), puede ser


g n /g!, que es grande incluso para valores moderados de n
18
y g . Por ejemplo, N (25, 10) 2.8 10 . El nmero total de clusters en un
n
19
conjunto de n items es
g=1 N (n, g), que para n = 25, es mayor que 10 .

de

items puede ser dividido en

aproximado por

En consecuencia, tanto los mtodos jerrquicos como otros enfoques que estudiaremos permiten buscar una solucin razonable sin tener que evaluar
todas las posibles combinaciones.

177

El agrupamiento jerrquico implica un proceso secuencial. En cada etapa


del enfoque jerrquico

aglomerativo, una observacin o un cluster de observacluster. En este proceso, el nmero de clusters

ciones es combinado con otro

disminuye y los clusters se van haciendo ms grandes. Partimos de

cluster

(items individuales) y naliza con un nico

n clusters

que contiene el conjun-

to completo de datos. Un enfoque alternativo, denominado mtodo


comienza con un nico

cluster

que contiene a lo

divisivo,
clus-

items y divide un

ter en dos clusters en cada etapa. El resultado nal del enfoque divisivo es
n clusters de un item cada uno. En cualquiera de los dos tipos de mtodo
jerrquico se debe tomar una decisin respecto al nmero de clusters ptimo.
Los mtodos aglomerativos son ms utilizados que los divisivos y son
los que generalmente implementa el

software disponible. Por esta razn slo

estudiaremos el primer tipo de tcnicas.

clusters
cluster. El proceso es, por tanto, irre-

En cada etapa de un enfoque jerrquico aglomerativo, los dos


ms cercanos son unidos en un nuevo

versible en el sentido de que cualquiera dos items que son una vez agrupados
en un

cluster

no pueden ser separados posteriormente en el procedimiento;

cualquier error inicial no puede ser corregido. Un enfoque opcional es realizar


un prodecimiento jerrquico seguido de un procedimiento de particin en el
que los items puedan ser movidos de un

cluster a otro.

Puesto que un procedimiento aglomerativo combina los dos

clusters ms

prximos en cada etapa, debemos considerar la cuestin de medir la similitud


o disimilitud de dos

clusters. Diferentes aproximaciones para medir distancias

entre clusters pueden dar lugar a diferentes mtodos jerrquicos.

5.2.1. Encadenamiento simple o vecino ms prximo


En el mtodo de encadenamiento simple, la distancia entre los

B est
de B :
y

denida como la mnima distancia entre un punto de

D(A, B) = mn{d(yi , yj ),
donde
e

yj .

d(yi , yj )

para

yi

en

yj

en

clusters A

y un punto

B}

es la distancia eucldea u otra distancia entre los vectores

yi

Este enfoque tambin es denominado mtodo del vecino ms cercano.

En cada etapa de este mtodo, la distacia


par de

clusters,

D(A, B) es calculada para cada

y los dos clusters con menor distancia son combinados. El

nmero de clusters es, por tanto, reducido en uno. Una vez que dos clusters
han sido combinados, el procedimiento es repetido en la siguiente etapa: la
distancias entre todos los pares de clusters son calculadas de nuevo, y el par
con mnima distancia es unido en un nico

178

cluster.

Los resultados de un procedimiento de agrupamiento jerrquico puede


ser mostrado grcamente mediante un diagrama en rbol, tambin conocido como dendrograma, que muestra todas las etapas del procedimiento,
incluyendo las distancias en las que los

clusters

son unidos. De hecho, si

cortamos el dendrograma a un nivel de distancia dado, obtenemos una clasicacin del nmero de grupos existentes a ese nivel y los elementos que
los forman. El dendrograma es til cuando los puntos tienen claramente una
estructura jerrquica, pero puede ser engaoso cuado se interpreta mecnicamente, ya que dos puntos pueden parecer prximos cuando no lo estn, y
pueden aparecer alejados cuando estn prximos.
Un grco alternativo para resumir el proceso de fusin es el diagrama

icicle plot). En su versin vertical aparecen en las cabeceras de

de tmpanos (

las columnas los nmeros de los casos u observaciones individuales y en las


las el nmero de clusters formados en cada etapa (cada la representa una
etapa del proceso de fusin). Las etapas comienzan en la parte inferior del
diagrama y van progresando hacia arriba. Cada caso u observacin se representa mediante una barra negra y se separan entre s por espacios en blanco,
de modo que cuando dos observaciones se unen desaparece ese espacio en
blanco entre ellos, hasta llegar a la primera la en la que no queda ningn
espacio en blanco. Este diagrama es de gran utilidad para identicar los elementos que constituyen cada una de las soluciones del anlisis y cules han
sido las formaciones previa y posterior a cada solucin especca. Sin embargo, presenta el gran inconveniente de no informar de la distancia existente
entre los clusters combinados en cada etapa. Cuando se intenta clasicar una
muestra muy numerosa, el tamao del diagrama es excesivamente ancho, lo
que diculta enormemente una inspeccin cmoda del mismo. En esos casos,
existe la posibilidad de representar el diagrama en sentido horizontal.
Por ltimo, todo el proceso puede ser sintetizado en una tabla denominada historial de conglomeracin. Esta tabla muestra un resumen del proceso
de aglomeracin etapa por etapa e incluye los casos combinados en cada etapa del proceso y el coeciente de agrupamiento (la distancia eucldea entre
los dos clusters combinados).

Ejemplo
Con objeto de ilustrar el uso de la matriz de distancias en un agrupamiento de unin simple, vamos a utilizar las primeras seis observaciones del
chero

crimenes

que recoge las tasas de crmenes por 100.000 habitantes de

diversas ciudades norteamericanas.


La matriz de distancias

viene dada por:

179

Atlanta

536.6

516.4

590.2

Boston
Chicago

693.6

716.2

536.6

447.4

516.4

447.4

833.1

915.0

881.1

924.0

1073.4

971.5

Dallas

590.2

833.1

Denver

693.6

915.0

924.0

527.7

464.5

1073.4

527.7

Detroit

716.2

881.1

971.5

358.7

464.5

358.7

La distancia ms pequea es 358.7 entre Denver y Detroit y, por tanto, esas dos ciudades son unidas en la primera etapa para formar

{Denver,Detroit}.

C1 =

En la siguiente etapa, la matriz distancia es:

Atlanta

536.6

516.4

590.2

693.6

Boston

536.6

447.4

833.1

881.1

Chicago

516.4

447.4

924.0

971.5

Dallas

590.2

833.1

924.0

464.5

C1

693.6

881.1

971.5

464.5

La distancia ms pequea es 447.4 entre Boston y Chicago. Por tanto,

C2 = {Boston,Chicago}.

En la siguiente etapa, la matriz de distancia es:

Atlanta

516.4

590.2

693.6

C2

516.4

833.1

881.1

Dallas

590.2

833.1

464.5

C1

693.6

881.1

464.5

La distancia ms pequea es 464.5 entre Dallas y

{Dallas, C1 }.

La matriz de distancias para Atlanta,


Atlanta

C2
C3

C2

C1 , por lo que C3 =
y C3 viene dada por:

0 516.4 590.2
516.4
0 833.1
590.2 833.1
0
C4 = {Atlanta, C2 }. La
cluster viene dado por C5 =

La distancia ms pequea es 516.4, que dene


distancia entre

C3

C4

es 590,2. El ltimo

{C3 , C4 }.

Las etapas son mostradas en el dendrograma de la parte superior de la


gura 5.1. En ste se puede observar el orden en el que los clusters fueron
formados y las distancias relativas a las que se formaron.
El diagrama de tmpanos vertical aparece en la tabla 5.1. Inicialmente, se
parte de 6 clusters individuales (tantos como observaciones estudiadas). En la

180

Figura 5.1: Dendrograma para el encadenamiento simple de las primeras seis


observaciones (parte superior) y de todas las observaciones (parte inferior)
de los datos sobre crmenes.

181

primera etapa se combinan dos casos individuales, quedando 5 conglomerados


(4 individuales y 1 doble). Las observaciones combinadas en la primera etapa
son la 5 y la 6 (Denver y Detroit), lo que est representado con una marca que
une las conlumnas correspondientes a esas dos observaciones. La informacin
de la segunda etapa se encuentra en una la ms arriba, momento en el que
se combinan la observacin 2 y 3 (Boston y Chicago). En la tercera etapa se
combinan el

cluster

formado por 5 y 6 con la observacin 4 (C1 y Dallas).

En la cuarta etapa se fusionan Atlanta y

{Detroit,Denver,Dallas}

C2 .

C4 = {Boston,

Finalmente, se combinan

C3 =

Chicago,Atlanta}.

Nmero de

Caso

conglomerados

Det

Den

Dal

Chi

Bos

Atl

Cuadro 5.1: Diagrama de tmpanos vertical.


El historial de conglomeracin se presenta en la tabla 5.2. La columna

Etapa de 1a aparicin

recoge la etapa en la que se han formado los clusters

que estn siendo combinados en cada momento. El valor 0 indica que el

cluster correspondiente es un caso u observacin individual. Un valor mayor


que 0 indica el nmero de etapa en la que se form el cluster. Por ejemplo,
en la etapa 3 se fusionan las observaciones 4 y 5. Observando las columnas
correspondientes a la primera aparicin de estos elementos se encuentra un
0 y un 1, lo que signica que la observacin 5 ya apareci en la etapa 1 y es

cluster (5 y 6) y que el caso 4 es una observacin individual. La columna


Prxima etapa indica la etapa en la que el cluster recien formado volver a
un

combinarse con otros elementos. Por ejemplo, el conglomerado 5 y 6, que se


ha formado en la etapa 1, vuelve a combinarse con otras observaciones (en
concreto con la 4) en la etapa 3.
Por ltimo, y con objeto de ilustrar adicionalmente este mtodo, representamos en la parte inferior de la gura 5.1 el dendrograma para los datos
completos sobre crmenes.

5.2.2. Encadenamiento completo o vecino ms alejado


En el mtodo de encadenamiento completo, tambin denominado de vecino ms alejado, la distancia entre dos clusters

182

es denida como la

Clusters combinados

Etapa 1

a aparicin

cluster 1 cluster 2

Prxima

Etapa

cluster 1

cluster 2

Coeciente

358,7

447,4

464,5

516,4

590,2

etapa

Cuadro 5.2: Historial de aglomeracin.

distancia mxima entre un punto de

D(A, B) = max{d(yi , yj ),
donde
e

d(yi , yj )

y un punto de
para

yi

en

B:
yj

en

B}

es la distancia eucldea u otra distancia entre los vectores

yi

yj .
En cada etapa de este mtodo, la distacia

par de

D(A, B) es calculada para cada

clusters, y los dos clusters con menor distancia son combinados.

Ejemplo
Para ilustrar el agrupamiento por medio del encadenamiento completo,
vamos a considerar de nuevo la matriz de distancias para las primeras seis
observaciones de los datos del crimen en las ciudades norteamericanas. La
matriz de distancias inicial es exactamente la misma que en el mtodo de
encadenamiento simple. La distancia ms pequea es 358.7 entre Denver y
Detroit y, por tanto, esas dos ciudades son unidas en la primera etapa para
formar

C1 = {Denver,Detroit}.

Ntese que el primer

cluster

ser el mismo

indistintamente del mtodo jerrquico utilizado, ya que su obtencin est


basada en la misma matriz de distancia inicial. En la siguiente etapa, la
matriz distancia es calculada para Atlanta, Boston, Chicago, Dallas y
Atlanta

536.6

516.4

590.2

Boston

536.6

447.4

833.1

915.0

Chicago

516.4

447.4

924.0

1073.4

Dallas

590.2

833.1

924.0

527.7

C1

716.2

915.0

1073.4

527.7

C1 :

716.2

La principal diferencia de esta matriz con respecto a la obtenida en el


segundo paso con el mtodo de encadenamiento simple se encuentra en las
distancias entre

C1

y las otras ciudades. Todos los elementos de esta matriz

183

y de las sucesivas matrices de distancias estn contenidas en la matriz de


distancia original para las seis ciudades. La distancia ms pequea es 447.4

C2 = {Boston,Chicago}. En la siguiente
calculadas para Atlanta, Dallas, C1 y C2 :

entre Boston y Chicago. Por tanto,


etapa, las distancias son

Atlanta

536.6

590.2

716.2

C2

536.6

924.0

833.1

Dallas

590.2

924.0

527.7

C1

693.6

881.1

527.7

La distancia ms pequea es 527.7 entre Dallas y

{Dallas, C1 }.

La matriz de distancias para Atlanta,

Atlanta

C2
C3

C2

536.6

716.2

536.6

1073.4

590.2

1073.4

C1 , por lo que C3 =
y C3 viene dada por:

C4 = {Atlanta, C2 }. La
cluster viene dado por C5 =

La distancia ms pequea es 536.6, que dene


distancia entre

{C3 , C4 }.

C3

C4

es: 1073.4. El ltimo

Las etapas son mostradas en el dendrograma de la gura 5.2.

Con objeto de ilustrar adicionalmente este mtodo, representamos en la


parte inferior de la gura 5.2 el dendrograma para los datos completos sobre
crmenes.

5.2.3. Encadenamiento medio


En el mtodo de encadenamiento medio o de vinculacin intergrupos, la
distancia entre dos

clusters A

distancias entre los

nA

puntos

B es denida como la media


de A y los nB puntos de B :
y

de las

nA nB

nA
nB
1
d(yi , yj )
D(A, B) =
nA nB
i=1 j=1

donde la suma es sobre todos los


se unen los dos

yi

de

A y todos los yj

clusters con la menor distancia.

de

B . En cada etapa

Ejemplo
En la parte superior de la gura 5.3 se muestra el dendrograma resultante del mtodo de encadenamiento medio aplicado a los datos completos

184

Figura 5.2: Dendrograma para el encadenamiento completo de las seis primeras observaciones (parte superior) y de todas las observaciones (parte
inferior) de los datos sobre crmenes.

185

del crimen en la ciudad. La solucin es la misma que para el mtodo de


encadenamiento completo cuando se aplica a todos los datos del chero.

5.2.4. Centroide
A

En el mtodo del centroide, la distancia entre dos clusters

es

denida como la distancia eucldea entre los vectores medias o centroides de


los dos clusters:

B )
D(A, B) = d(
yA , y
donde

A
y

B
y

son los vectores medias de las observaciones de

y de

B,

respectivamente. En cada etapa se unen los dos clusters con la menor distancia entre centroides. Despus de combinar dos clusters
del nuevo

cluster cluster AB

B,

el centroide

viene dado por la media ponderada:

AB =
y

A + nB y
B
nA y
nA + nB

Ejemplo
En la parte inferior de la gura 5.3 se muestra el dendrograma resultante
del mtodo de agrupamiento del centroide aplicado a los datos completos del
crimen en la ciudad. Ntese que se producen varios cruces o superposiciones
en el dendrograma. Por ejemplo, en el primer paso, Atlanta y Tucson fueron
combinados a una distancia de 178.1. Entonces ese

cluster

se combina con

Hartford a una distancia menor que la anterior de 162.4. Posteriormente


discutiremos estos cruces o superposiciones.

5.2.5. Mediana
Si dos clusters
si

son combinados por el mtodo del centroide, y

contiene un nmero de items mucho mayor que

centroide

AB
y

puede estar mucho ms cercano a

A
y

B,

entonces el nuevo

que a

B .
y

Para evitar

la ponderacin del vector de medias de acuerdo al tamao de los


podemos utilizar la mediana (punto medio) de la lnea que une

clusters,
B

como

el punto para calcular nuevas distancias a otros clusters:

1
B )
mAB = (
yA + y
2
En cada etapa se unen los dos clusters con la menor distancia entre
medianas.

186

Figura 5.3: Dendrograma para el encadenamiento medio (parte superior) y


para el mtodo del centroide (parte inferior) de todas las observaciones de
los datos sobre crmenes.

187

mAB

Ntese que la mediana

no es la mediana ordinaria en sentido esta-

dstico. La terminologa proviene de la mediana de un tringulo, es decir, la


lnea desde un vrtice al punto medio del lado opuesto.

Ejemplo
En la parte superior de la gura 5.4 se muestra el dendrograma resultante
del mtodo de la mediana aplicado a los datos completos del crimen en la
ciudad. Ntese que se producen los mismos cruces o superposiciones que en
el ejemplo anterior.

5.2.6. Mtodo de Ward


El mtodo de Ward, tambin denominado mtodo de la suma de cuadrados incremental, utiliza las distancias cuadrticas dentro de y entre los

clusters. Si AB

es el

cluster obtenido combinando los clusters A y B , enton-

ces las sumas de distancias dentro de los clusters (de los items con respecto
a la media vectorial de los clusters) son:

SSEA =

nA

A ) (yi y
A)
(yi y

i=1

SSEB =
SSEAB =

nB

B ) (yi y
B )
(yi y

i=1
n
AB

AB ) (yi y
AB )
(yi y

i=1

donde:

AB =
y

A + nB y
B
nA y
nA + nB

Este mtodo combina los dos clusters


en

SSE

AyB

que minimizan el incremento

denido por:

IAB = SSEAB (SSEA + SSEB )


Se puede demostrar que:

IAB =

nA nB
B ) (
B )
(
yA y
yA y
nAB

188

Figura 5.4: Dendrograma para el mtodo de la mediana (parte superior) y


para el mtodo de Ward (parte inferior) de todas las observaciones de los
datos sobre crmenes.

189

SSE es equivalente a minimizar


yi y B consiste slo de yj ,
SSEA = SSEB = 0 y el incremento IAB se reduce a:
1
1
Iij = SSEAB = (yi yj ) (yi yj ) = d2 (yi , yj )
2
2

por lo que la minimizacin del incremento en

clusters.

la distancia entre
entonces

Si

consiste slo de

El mtodo de Ward est relacionado con el mtodo del centroide. En


concreto, se verica que:

IAB =

nA nB 2
nA nB
B ) (
B ) =
B )
(
yA y
yA y
d (
yA , y
nAB
nAB

En consecuencia, el tamao de los clusters tiene un impacto en el mtodo


de Ward pero no en el mtodo del centroide. Expresando:

nA nB
nA nB
1
=
=
nAB
nA + nB
1/nA + 1/nB
entonces cuando

nA

nB

crecen, se tiene que

nA nB /nAB

crece. As mismo,

si ahora escribimos:

nA nB
nA nB
nA
=
=
nAB
nA + nB
1 + nA /nB
se tiene que cuando

nB

crece con

nA

jo, entonces

nA nB /nAB

crece. Por

tanto, el mtodo de Ward, comparado con el del centroide, combina con


mayor probabilidad clusters ms pequeos o de igual tamao.

Ejemplo
En la parte inferior de la gura 5.4 se muestra el dendrograma resultante
del mtodo de Ward aplicado a los datos completos del crimen en la ciudad.

5.2.7. Propiedades de los mtodos jerrquicos


Monotona
Una

inversin

se produce cuando un item o un

cluster

se une a otro

cluster a una distancia que es menor que la distancia para la que se produjo
la anterior fusin de clusters. La inversin se representa en el dendrograma
mediante una superposicin o cruce.
Un mtodo jerrquico en el que las inversiones no se pueden producir se
dice montono, ya que la distancia en cada etapa es mayor que la distancia en
la etapa anterior. Una distancia o mtodo de agrupamiento que es montono
es denominado tambin ultramtrico. Todos los mtodos estudiados, excepto
el del centroide y el de la mediana, son montonos. Por esta razn, algunos
autores no recomiendan los mtodos del centroide y de la mediana.

190

Contraccin y dilatacin
Consideremos ahora las caractersticas de las distancias o proximidades
entre los puntos originales y su repercusin en cuanto a la forma de los

clusters. Un mtodo de agrupamiento que no altera las propiedades espaciales

se denomina espacio-conservador. Un mtodo que no es espacio-conservador


puede contraer o dilatar el espacio.
Un mtodo es espacio-contractor si los nuevos clusters que se han formado se mueven prximos a las observaciones individuales, por lo que un item
individual tiende a combinarse con un cluster existente en lugar de combinarse con otro item individual para formar un nuevo

cluster. Esta tendencia

tambin es denominada como encadenamiento.


Un mtodo es espacio-dilatador si los nuevos clusters que se han formado
se mueven lejos de las observaciones individuales, por lo que los items individuales tienden a formar nuevos

cluster

cluster

en lugar de combinarse con otros

existentes. En este caso, los clusters parecen ser ms distintos de lo

que realmente son.


Estas propiedades espaciales pueden describirse analticamente de la siguiente forma. Supongamos que las distancias entre tres

clusters satisfacen:

D(A, B) < D(A, C) < D(B, C)


Entonces un mtodo de agrupamiento es espacio-conservador si:

D(A, C) < D(AB, C) < D(B, C)


Un mtodo es espacio-contractor si
dilatador si

D(AB, C) D(B, C).

D(A, C) D(AB, C)

y espacio-

El mtodo de encadenamiento simple es muy espacio-contractor, con una


notable tendencia de encadenamiento. Por esta razn, este mtodo no es recomendado por algunos autores. Por otro lado, el mtodo de encadenamiento
completo es muy espacio-dilatador, con una tendencia a imponer articialmente lmites de

cluster.

Otros mtodos jerrquicos se encuentran entre los extremos representados por los mtodos de encadenamiento simple y completo. Los mtodos del
centroide y del encadenamiento medio son bastante espacio-conservadores,
mientras que el mtodo de Ward es espacio-contractor. Cuando un mtodo
produce inversiones para un conjunto de datos particular puede ser considerado como espacio-contractor. As, por ejemplo, el mtodo del centroide es
espacio-conservador a menos que tenga inversiones, en cuyo caso se convierte
en espacio-contractor.

191

Un pequeo grado de dilatacin puede ayudar a denir los lmites de

los

clusters, pero un exceso de dilatacin puede conducir a demasiados clus-

ters en las etapas iniciales. El mtodo de la mediana representa un buen


compromiso en este aspecto.

Ejemplo
Para ilustrar el encadenamiento en el mtodo de encadenamiento simple consideremos los datos representados en la gura 5.5. Hay dos clusters
distintos,

C , con
A o C.

pertenecen a

puntos intermedios etiquetados con la letra

que no

C1

C11

C20

C8
C12

C2

C10

C18
C16

C14
C4

C17

C6
C19

C9

C7
C13
C5
C21

C15

C3

B4

B3
B2
B1
A9

A17

A13
A12

A3
A16

A6

A11

A2

A14

A7

A8

A5
A1
A4

A15
A10

Figura 5.5: Dos clusters distintos con individuos intermedios.


En la parte superior de la gura 5.6 la solucin de dos clusters para el
agrupamiento mediante encadenamiento simple sita
y todos los otros puntos en otro

C1

C11

en un

cluster

cluster. La solucin de tres clusters tiene dos

192

clusters con los puntos etiquetados con


con

cluster

y un

con los etiquetados

B.

En la parte inferior de la gura 5.6 se muestra el dendrograma para


el agrupamiento mediante encadenamiento medio. Se comprueba que este
mtodo es ms robusto al encadenamiento: la solucin de dos clusters separa
los puntos etiquetados con

A y B, y
A, B y C .

de los etiquetados con

tres clusters separa completamente los tres grupos

la solucin de

Otras propiedades
El mtodo de encadenamiento simple ha sido criticado por muchos autores debido a su tendencia al encadenamiento y a su sensibilidad a errores en
distancias entre observaciones. Por otro lado, el enfoque de encadenamiento
simple es mejor que otros mtodos para identicar clusters que tienen formas
curvadas en lugar de formas esfricas o elpticas, y es algo robusto a

outliers

en los datos .
El mtodo de Ward y el del encadenamiento medio son tambin relativamente insensibles a los

outliers. Por ejemplo, en el mtodo del encadenamien-

to medio, los

tienden a permanecer aislados en las etapas iniciales

outliers

y a combinarse con otros

outliers

en lugar de unirse con clusters grandes o

con clusters menos compactos. Esto es debido a dos propiedades del mtodo
de encadenamiento medio: la distancia media entre dos grupos (distancia
eucldea cuadrtica) se incrementa conforme los puntos en los grupos estn
mas dispersos; y la distancia media se incrementa conforme el tamao de los
grupos se hace ms grande.

outliers. El mtodo de
outliers y tiende a producir

El mtodo del centroide es bastante robusto a


encadenamiento completo es algo sensible a los

clusters del mismo tamao y forma. El mtodo de Ward tiende a producir


clusters esfricos del mismo tamao.
Problema
Inversin

Espacio

Outliers

E. simple

no

muy contractor

algo robusto

E. completo

no

muy dilatador

algo robusto

E. medio

no

conservador

algo robusto

Centroide

conservador (contractor si inv.)

robusto

Mediana

dilatador (contractor si inv.)

sensible

Ward

no

contractor

algo robusto

Mtodo

1 Si existen

outliers

clusters simples.

en los datos, es deseable que el mtodo utilizado aisle a stos en

193

Figura 5.6: Agrupamiento mediante encadenamiento simple (parte superior)


y mediante encadenamiento medio (parte inferior).

194

Muchos estudios concluyen que los mtodos que globalmente mejor se


comportan son los de Ward y de encadenamiento medio. Sin embargo, parece
que hay una interaccin entre mtodo y el conjunto de datos utilizado; es
decir, algunos mtodos funcionan mejor con ciertos conjuntos de datos y otros
con otros conjuntos. Una buena estrategia es probar diversos mtodos. Si
los resultados concuerdan hasta cierto punto, habremos encontrado algunos
clusters naturales en los datos.

5.3. Mtodos no jerrquicos: mtodo de las k-medias


En esta seccin vamos a estudiar la tcnica no jerrquica ms utilizada:
la de particin. El mtodo de particin separa las observaciones en

clusters

sin utilizar procedimientos jerrquicos basados en una matriz de distancias o


similaridades entre todos los pares de puntos. Una estrategia atractiva sera
examinar todas las posibles formas de particin de

items en

clusters y

encontrar el agrupamiento ptimo de acuerdo a algn criterio. Como sabemos, el nmero de posibles particiones

para incluso valores de

N (n, g)

es prohibitivamente grande

moderados. Por tanto, buscamos tcnicas ms

simples.
Este mtodo, a diferencia de los jerrquicos, permite que los items sean
movidos de un

cluster

a otro. Adems, no suelen emplear la matriz de dis-

tancias, sino que comienzan con la matriz de datos originales,


mtodo se persiguen
notacin

k clusters,

para el nmero de

del mtodo de las

g -medias.

Y.

En este

aunque nosotros vamos a continuar con la

clusters,

por lo que podemos hablar tambin

Primero se eligen

items para que sirvan como

semillas. Estos sern posteriormente reemplazados por los centroides (vectores medias) de los
seleccionar

clusters.

Existen diversas formas de elegir las semillas:

items aleatoriamente (posiblemente separados por una distan-

cia mnima especicada), elegir los primeros

puntos del conjunto de datos

(de nuevo sujetos a un requisito de distancia mnima), seleccionar los


tos que estn mutuamente ms alejados, encontrar los
densidad o especicar

pun-

puntos de mxima

puntos regularmente espaciados en un patrn tipo

rejilla (no seran realmente datos).


Para esos mtodos de seleccin de semillas se debe especicar el nmero
de clusters

g.

Alternativamente, puede especicarse una distancia mnima

entre semillas y entonces todos los items que satisfacen este criterio son
elegidos como semillas.
Despus de que las semillas sean elegidas, cada punto restante en los
datos es asignado al

cluster

con semilla ms cercana en base a su distancia

195

cluster tenga
cluster es reemplazada por el centroide.

eucldea. Tan pronto como un


del

ms de un miembro, la semilla

clusters, cada item


es examinado para comprobar si est ms cercano al centroide de otro cluster
que al centroide de su propio cluster. Si es as, el item es movido al nuevo
cluster y los dos centroides de los clusters actualizados. Este proceso contina
Despus de que todos los items han sido asignados a

hasta que no se consigan mejoras adicionales.


El mtodo de las

k -medias

es algo sensible a la eleccin inicial de las

semillas. Puede ser recomendable aplicar de nuevo el procedimiento con otra


eleccin de semillas. Si diferentes elecciones iniciales de semillas producen
clusters nales marcadamente diferentes o si la convergencia es extremadamente lenta, puede no haber clusters naturales en los datos.
El mtodo de particin de las

k -medias puede ser tambin utilizado como

una posible mejora de las tcnicas jerrquicas. Primero se agrupan los items
utilizando un mtodo jerrquico y entonces utilizamos los centroides de esos
clusters como semillas para un enfoque de
puntos de un

cluster a otro.

k -medias que nos permite reasignar

5.3.1. Ejemplo
En el chero

proteinas

se recoge el consumo de protenas en 25 pases

europeos para nueve grupos de alimentos. Para ayudar a elegir el nmero de


clusters

g,

vamos a representar las primeras dos componentes principales en

la gura 5.7. Parece que puede haber al menos cinco

clusters.

Vamos a aplicar dos mtodos de seleccin de semillas con objeto de ilustrar la sensibilidad del agrupamiento mediante el algoritmo de

k -medias

con

respecto a la eleccin inicial de las mismas: el implementado en SPSS (las

observaciones que estn mutuamente ms alejadas) y el que utiliza R.

La aplicacin de ambos mtodos proporcion soluciones muy parecidas que


aparecen en la parte superior de la tabla 5.3.
La diferencia entre ambas soluciones se encuentra en la forma de asignar la antigua Alemania del Este (RDA), que el SPSS la asigna al
y el R al

cluster

cluster

2. Esta solucin no es muy satisfactoria dado que agrupa

pases distintos entre s. Si tenemos en cuenta las diferencias de magnitudes

carneroja, carneblanca, huevos, leche, pescado, cereales, hidratos, frutoseco recogidas en la diagonal de la matriz de
de las varianzas de las variables

196

Albania
Bulgaria
Rumania

Austria
P.Bajos

Yugoslavia

Hungria

Suiza
R.Checa

AlemaniaO.
Suecia
R.Unido

Rusia

Irlanda
Finlandia

Belgica

Dinamarca

AlemaniaE.

Polonia

NoruegaFrancia
Grecia

PC2

Italia

Espaa

Portugal

PC1

Figura 5.7: Primeras dos componentes principales para los datos de protenas.

covarianzas:

11.20
1.89
2.19
11.96
0.69
1.89
13.65
2.56
7.39
2.94

2.19
2.56
1.25
4.57
0.25

11.96
7.39
4.57
50.49
3.33
S=
0.69
2.94
0.25
3.33
11.58

18.36 16.78 8.74 46.22 19.58

0.74
1.89
0.83
2.58
2.25
2.32 4.66 1.24 8.76 0.99

18.36 0.74 2.32


16.78 1.89 4.66

8.74
0.83 1.24

46.22 2.58 8.76

19.58 2.25 0.99

120.45 9.56 14.19

9.56
2.67 1.54
14.19 1.54 3.94

podemos probar una segunda opcin consistente en la estandarizacin de las


variables. La solucin resultante aparece en la parte inferior de dicha tabla.
La solucin obtenida es ms congruente con una identicacin clara de los
pases que aparecen en cada grupo: el

cluster

1 corresponde a los antiguos

pases comunistas del centro de Europa, el 2 a los pases mediterrneos capitalistas, el 3 a los antiguos pases comunistas del sur que estn en o prximos

197

Solucin con variables sin estandarizar

cluster

pas

pas

cluster

pas

cluster

Che

RDA

Aus

Hun

Bul

Bel

Pol

Rum

Fra

Rus

Yug

Irl

Alb

Fin

PBaj

Gre

Din

Sui

Ita

Nor

RU

Por

Sue

RFA

Esp

2
Solucin con variables estandarizadas

pas

cluster

Che

Alb

Aus

Hun

Bul

Bel

5
5

pas

cluster

pas

cluster

Pol

Rum

Fra

Rus

Yug

Irl

RDA

Fin

PBaj

Gre

Din

Sui

Ita

Nor

RU

Por

Sue

RFA

Esp

Cuadro 5.3: Soluciones

cluster por el mtodo k-medias con distancia eucldea.

a los Balcanes, el 4 a los pases nrdicos y el 5 a los pases de Europa central


junto con los britnicos.
Para la interpretacin de la solucin nos podemos basar en los centroides
o en el
que el

biplot que aparece en la gura 5.8. A partir de este ltimo, se observa


cluster 3 (pases comunistas en los Balcanes) se caracteriza por una

alimentacin basada en los cereales, el 2 (pases mediterrneos capitalistas)


por un mayor consumo de frutas, verduras, frutos secos y pescado, el 4 (pases nrdicos) y el 5 (Europa central y britnicos) por un consumo superior
de leche, de carnes roja y blanca y de huevos; y, nalmente, el 1 (pases
comunistas del centro de Europa) cuyo comportamiento alimenticio est en
torno al valor del centroide, no distinguindose en especial por un tipo de
protenas especcas.

198

10

3
3

3
1

cer
0.0

1
2

0.2

fver

pesc

0.4

Comp.2

fsec

55
5
1
4blalec
45roj5 hue
5 4
1
1
4 5hidr
5

0.2

10

0.6

2
0.6

0.4

0.2

0.0

0.2

Comp.1

Figura 5.8:

Biplot obtenido mediante el algoritmo k-medias.

5.4. Eleccin del nmero de clusters


En el agrupamiento jerrquico podemos seleccionar

g clusters a partir del

dendrograma cortando las ramas en un nivel dado de la distancia utilizada


por uno de los ejes. Por ejemplo, si consideramos el dendrograma para los
datos del crimen en la ciudad construido a partir del mtodo de encadenamiento medio (ver gura 5.3) y lo cortamos a un nivel 700 se obtienen dos
clusters; mientras que si se corta en 535 se obtienen 3 clustes.
Deseamos determinar el valor de

que suministra el mejor ajuste a los

datos. Una posibilidad es buscar grandes cambios en las distancias en las que
los clusters son formados. Por ejemplo, en la gura 5.3 el mayor cambio en el
nivel ocurre si nos movemos desde dos clusters a un nico

cluster. El grco

5.9 de distancias de aglomeracin muestra de forma sencilla esta informacin.


El cambio en la distancia entre la solucin de dos clusters y la solucin de
tres clusters es de 82 unidades al cuadrado. La diferencia entre la solucin

199

de tres y la solucin de cuatro clusters es de 73 unidades al cuadrado y el


cambio entre la de cuatro y la de cinco clusters es slo de 26 unidades al
cuadrado. En este caso elegiramos dos

clusters.

Figura 5.9: Distancias de aglomeracin para los datos de crmenes en la


ciudad utilizando el encadenamiento medio.

5.5. Validacin de clusters


Un enfoque de validacin cruzada puede ser utilizado para comprobar
la validez o estabilidad de un resultado de agrupamiento. En concreto, los
datos han de dividirse aleatoriamente en dos subconjuntos,
zarse el anlisis

B,

y reali-

cluster separadamente sobre cada uno de ellos. Para que los

clusters obtenidos sean vlidos los resultados sobre ambos conjuntos deben
ser similares.
Otra posibilidad consta de las siguientes etapas:
1. Utilizar un mtodo de agrupamiento para dividir el subconjunto

g clusters.

2. Partir el subconjunto

en

clusters de dos formas:

200

en

a)

Asignar cada item de

al

cluster

de

del que est ms prxi-

mo utilizando, por ejemplo, la distancia a los centroides de los

clusters.
b)

Utilizar el mismo mtodo de agrupamiento sobre


zado sobre

que fue utili-

A.

3. Comparar los resultados

a) y b) de la etapa 2.

5.6. Agrupamiento de variables


En algunos casos puede ser de inters agrupar las
las

variables en lugar de

observaciones. Como medida de similitud entre cada par de variables

se suele utilizar la correlacin. Puesto que la mayor parte de los mtodos


de agrupamiento utilizan disimilitudes (tal como las distancias), precisamos
convertir la matriz de correlaciones

R = (rij )

a una matriz de disimilitudes.

rij por 1 |rij |


2
rij . Utilizando la matriz de disimilitudes resultante, podemos aplicar

Esto se puede hacer convenientemente reemplazando cada


o

un mtodo de agrupamiento, tal como una tcnica jerrquica, para agrupar


variables.
El agrupamiento de variables puede a veces ser hecho exitosamente con
el AF, el cual agrupa las variables correspondientes a cada factor. Como
tcnica de agrupacin de variables, el AC es similar al AF, aunque exige
menos hiptesis. Mientras que el AF exige supuestos como linealidad, variables cuantitativas, etc. y siempre estima de la misma manera la matriz de
distancias utilizando el coeciente de correlacin de Pearson, el AC es menos
restrictivo ya que no exige linealidad, puede acomodar variables categricas y
permite utilizar diferentes mtodos de estimacin de la matriz de distancias.

Ejemplo
Vamos a ilustrar el agrupamiento de variables utilizando los datos de

R=
D = (1

crmenes en la ciudad. Primero calculamos la matriz de correlaciones

(rij )
2 ).
rij

y entonces transformamos

a una matriz de disimilitudes

Las variables son entonces agrupadas utilizando tanto el mtodo de

encadenamiento medio como el Ward y los dendrogramas aparecen en la


gura 5.10.
A continuacin realizamos un AF de los datos y comparamos los grupos
de variables resultantes con los clusters obtenidos por los mtodos de encadenamiento medio y de Ward. Las cargas factoriales se estiman utilizando
el mtodo del factor principal con correlaciones mltiples al cuadrado como

201

Figura 5.10: Dendrograma para el agrupamiento de variables utilizando el


encadenamiento medio (parte superior) y el mtodo de Ward (parte inferior).

202

estimaciones iniciales de las comunalidades y las cargas son entonces rotadas


con una rotacin varimax. El patrn de los factores rotados aparece en la
tabla 5.4. Las cargas ms altas en cada la aparecen marcadas en negrita. El
primer factor tiene que ver con crmenes asociados con el hogar. El segundo
factor implica crmenes de naturaleza violenta. El tercero consiste en delitos
que pueden tipicarse como robos fuera del hogar. Ntese que las tres soluciones clusters encontradas por los mtodos de encadenamiento medio y de
Ward son idnticas al agrupamiento de variables obtenida mediante el AF.
Puesto que los tres mtodos coinciden, tenemos cierta conanza en la validez
de la solucin.
Variables

Factor 1

Factor 2

Factor 3

Asesinatos

-0.063

0.734

0.142

Violaciones

0.504

0.659

0.160

Atracos

0.133

0.355

0.726

Asaltos

0.298

0.740

0.398

Allanamientos

0.764

0.221

0.181

Hurtos

0.847

-0.014

0.244

Robo de coches

0.240

0.097

0.584

Cuadro 5.4: Cargas factoriales rotadas para los datos de crmenes en la ciudad.

5.7. Hiptesis del AC


El AC, como el AF, no es una tcnica de inferencia estadstica sino una
metodologa objetiva para cuanticar las caractersticas estructurales de un
conjunto de observaciones. Como tal, posee propiedades matemticas fuertes
pero no fundamentos estadsticos. Los requerimientos de normalidad, linealidad y homocedasticidad que son tan importantes en otras tcnicas multivariantes tienen poca relevancia en el AC. El investigador tiene que centrarse,
sin embargo, en dos aspectos crticos: representatividad de la muestra y multicolinealidad.
El efecto de la multicolinealidad sobre el AC es diferente del que tiene
sobre otras tcnicas. En el AC las variables multicolineales son implcitamente ponderadas ms fuertemente. Consideremos un ejemplo que ilustra su
efecto. Supongamos que los encuestados estn siendo agrupados de acuerdo
a diez variables que miden la actitud con respecto a un servicio. Cuando la
multicolinealidad es examinada, se observa que hay realmente dos conjuntos

203

de variables: el primero formado por ocho variables y el segundo por dos. Si


nuestro objetivo es agrupar a los encuestados respecto a las dimensiones del
producto (en este caso representadas por los dos grupos de variables), entonces el uso de las diez variables originales ser bastante engaoso. Debido a
que en el AC cada variable se pondera igualmente, la primera dimensin tendr cuatro veces ms de posibilidades de afectar a la medida de similaridad
de lo que tiene la segunda dimensin. Por tanto, la multicolinealidad acta
como un proceso de ponderacin no aparente para el observador pero que sin
embargo afecta al anlisis. Por esta razn, el investigador debe examinar las
variables utilizadas en el AC para detectar las posibles multicolinealidades
severas y, si estn presentes, reducir las variables o utilizar una distancia que
compense esta correlacin, tal como la distancia de Mahalanobis. Otra alternativa, que estudiamos con detalle en la siguiente seccin, es la utilizacin
previa de un ACP.

5.8. ACP y AC
En aplicaciones en las que el nmero de variables implicadas es muy
grande es, a veces, ventajoso realizar primero un ACP (o un AF) sobre la
matriz

antes del AC. Manteniendo nicamente una pequea parte de

las componentes principales podemos reducir sustancialmente el nmero de


variables utilizadas en el AC. Esta estrategia debe ser, sin embargo, llevada a
cabo con precaucin extrema debido a los efectos de ponderacin y escalado
que el ACP puede introducir. En general, las componentes principales son
generadas a partir de la matriz de correlaciones con objeto de asegurar que
determinadas variables no dominen la solucin por motivos de diferencias
de escala. Este procedimiento es consistente con la utilizacin de variables
estandarizadas en AC ya que en ambos casos la matriz de datos inicial

es

la misma.
Una segunda consideracin de extrema importancia en AC es la ponderacin efectiva dada a cada variable. Una matriz de datos

puede contener

unos pocos grupos de variables altamente correladas y, por tanto, slo representar unas pocas dimensiones subyacentes. En un AC cada variable estandarizada en

Y tiene normalmente la misma ponderacin. En consecuencia, si

algunas dimensiones estn sobrerrepresentadas por conjuntos de variables


altamente correladas, el AC resultante proporcionar mayores ponderaciones a esas dimensiones sobrerrepresentadas. De esta forma, puede ser til
un ACP preliminar de la matriz de correlacin para extraer las dimensiones
subyacentes antes de realizar el AC. Es necesario tambin tener en cuenta

204

que si slo las componentes ms importantes son retenidas para el AC se


pueden perder los efectos

outliers

asociados a las ltimas componentes, lo

que puede tener ventajas e inconvenientes.


Por ltimo, no se debe tipicar las puntuaciones de las componentes

principales antes de realizar el AC . No obstante, si se emplean medidas de


proximidad del tipo correlacin, entonces el escalado de las puntuaciones de
las componentes principales previas al AC no afecta a las proximidades.

Ejemplo
Consideremos el conjunto de 100 observaciones recogidas en el chero

hatco

referentes a la Ca. Hatco dedicada a los suministros industriales. Es-

tas observaciones provienen de la percepcin que tienen de esta Ca. 100


directivos de rmas que son clientes suyos. Los directivos encuestados dieron
valores a las siguiente siete variables identicadas en estudios previos como
las ms inuyentes en la eleccin de proveedores:

X1

= velocidad de distribucin del producto demandado.

X2

= nivel de precios.

X3

= exibilidad o capacidad en la negociacin de precios.

X4

= imagen del suministrador.

X5

= nivel global de servicio necesario para mantener una relacin satisfactoria entre suministrador y comprador.

X6

= imagen del personal de ventas.

X7

= calidad del producto.

2 Recurdese que podemos emplear un pequeo nmero de componentes principales

para obtener una aproximacin de la matriz de datos original. Si Z es la matriz n p


de puntuaciones no tipicadas de componentes principales, entonces Y = ZV en donde
V V = VV = I y V es la matriz de vectores propios de Y Y. Por tanto, YY =
ZVV Z = ZZ . Si Z = [Z1 , Z2 ] es una particin de Z, entonces YY = Z1 Z1 + Z2 Z2
y, por tanto, si Z1 proporciona una buena aproximacin de Y, entonces Z1 Z1 aproxima
bien a YY . Si embargo, si las puntuaciones de las componentes principales aparecen
tipicadas, entonces Y = Z V en donde Z = Z1/2 , V = 1/2 V y Z Z = . En este
caso, YY = Z V V Z , con lo que si empleamos Z Z para aproximar YY conlleva
en efecto un cambio de escala ya que Z Z = YV 1 VY . Medidas de proximidad
basadas en Z Z que tengan en cuenta la escala, como ocurre con la distancia eucldea,
proporcionarn resultados diferentes a los de las mismas medidas de proximidad basadas
en ZZ .

205

El objetivo del estudio es la formacin de segmentos o grupos de clientes con similar percepcin de Hatco. Una vez identicados, la Ca. puede
entonces disear estrategias aptas para cada grupo.
Puesto que las siete variables disponibles son mtricas, vamos a utilizar
como medida de similitud a la distancia eucldea al cuadrado. No utilizaremos
estandarizacin ya que las variables estn en la misma escala y adems sus
varianzas son muy similares:

1.74 0.55 0.93


0.08
0.61
0.08 1.01
0.55 1.43 0.81 0.37
0.46
0.17
0.89

0.93 0.81 1.92 0.18 0.07 0.04 0.98

0.37 0.18 1.28


0.25
0.69
0.36
S=
0.08

0.61
0.46
0.07
0.25
0.56
0.14 0.07

0.08
0.17 0.04 0.69
0.14
0.59
0.22
1.01 0.89 0.98 0.36 0.07 0.22
2.51

Un anlisis de multicolinealidad revela que sta no es un problema grave.


Seguiremos la estrategia de usar tanto mtodos jerrquicos como no jerrquicos. En primer lugar, vamos a aplicar el mtodo de Ward para minimizar
las diferencias dentro de los clusters y para evitar problemas de encadenamiento de las observaciones que aparecen en los mtodos de encadenamiento.
La tabla 5.11 muestra un resumen del proceso de conglomeracin etapa por
etapa e incluye los casos combinados en cada etapa del proceso y el coeciente de agrupamiento (la distancia eucldea al cuadrado entre los dos clusters
combinados). En cualquier caso, coecientes pequeos indican que clusters
bastante homogneos estn siendo combinados. La unin de dos clusters muy
diferentes da lugar a un coeciente grande.
En cuanto al nmero de clusters que debemos considerar, tengamos en
cuenta que los datos implican perles de los clientes de Hatco y nuestro
inters es identicar tipos o perles de esos clientes que pueden formar las
bases para diferentes estrategias de venta. Por tanto, un nmero manejable
de clusters estara en el rango de dos a cinco. Para ayudar en la eleccin
nos apoyamos en los coecientes de aglomeracin de la tabla 5.12 y en el
grco de distancias de aglomeracin de la gura 5.13. Dado que el mayor
incremento en la homogeneidad de los clusters se observa al pasar de dos a
un

cluster, entonces se selecciona la solucin de dos clusters. El dendrograma

aparece en la gura 5.14.


Tanto el dendrograma como el historial de conglomeracin suministran
tambin un medio de identicar

outliers. En el dendrograma un outlier sera

una rama larga que no se combin hasta muy tarde en el proceso de aglomeracin. En la tabla de aglomeracin 5.11 se muestran, a la izquierda de la

206

columna correspondiente al coeciente de aglomeracin, los clusters que son


combinados. En las columnas de la derecha aparecen las etapas en las que

cluster fue formado. Una observacin que nunca ha sido combinada en


un cluster tiene una etapa de 0. As, en las primeras 42 etapas se observa que
cada

se combinaron observaciones individuales. nicamente en la etapa 43 el AC


combina por primera vez un

cluster formado en otra etapa. Podemos utilizar

esta informacin tambin para identicar observaciones individuales que son

outliers).
Se observa que en la etapa 94 (la de 6 clusters) se combin un cluster formacombinadas muy tarde en el proceso de agrupamiento (potenciales

do en la etapa 2. Esto signica que si hubieramos seleccionado una solucin


de siete

clusters, uno de los cluster tendra nicamente dos observaciones. Se


cluster de un nico miembro que quedaba por

observa tambin que el ltimo

ser combinado ocurri en la etapa 79. Por tanto, si el anlisis es connado


a un nmero ms pequeo de clusters (por ejemplo, 10 o menos), entonces
slo hay un problema potencial (el

cluster de dos miembros) del que hay que

ocuparse. En este caso, la seleccin de dos clusters elimin la necesidad de


cualquier reespecicacin adicional del anlisis.
A continuacin utilizamos una tcnica no jerrquica de agrupamiento:

k -medias. Segn el mtodo anterior, el nmero de clusg = 2; hecho conrmado con un grco de las dos primeras

el algoritmo de las
ters debe ser

componentes principales (ver gura 5.15).


Distintas elecciones de semillas proporcionan los mismos resultados y todos ellos muy similares al del mtodo de Ward. En concreto, tanto R, como
Statgraphics (utiliza como semillas las dos primeras observaciones) y SPSS
(elige las

observaciones ms distantes entre s y utiliza los valores de esas

observaciones para denir los centros de los clusters iniciales) proporcionan


los mismos centroides de los grupos que aparecen en la tabla 5.16. La similaridad de los resultados por los distintos procedimientos conrman la bondad
del agrupamiento encontrado.
SPSS proporciona asimismo una tabla ANOVA que ayuda a identicar
las variables que son ms importantes en la solucin

cluster

obtenida (ver

tabla 5.17). El anlisis de la varianza se obtiene tomando los grupos denidos


por los clusters como factor y cada una de las variables incluidas en el anlisis
como variable dependiente. Se proporciona para cada variable la siguiente
informacin: la varianza atribuible a los
no es atribuible a los

clusters),

la razn

clusters, la varianza del error (la que


F

de estas varianzas (valores gran-

des de este estadstico indican qu variables son tiles para separar

clusters,

mientras que valores pequeos, cerca de 1, indican qu variables no son muy


tiles en la identicacin de los miembros de un cluster) y el valor

p asociado

con la hiptesis de no efecto de una variable particular. Esta tabla debe ser

207

interpretada con cuidado ya que el algoritmo de las

k -medias

est diseado

para minimizar la variabilidad dentro de los cluster y, por tanto, las observaciones no se han asignado aleatoriamente a los

clusters. En consecuencia, los

F slo deben ser utilizado con una nalidad descriptiva. Tamp-valores son estimadores ables de la probabilidad asociada con

estadsticos
poco los

la hiptesis de no efecto de una variable particular. La consecuencia ms


evidente es que

X5

los centroides de los

clusters.
cluster podemos analizar los valores nales de

no muestra diferencias entre los

Para interpretar la solucin

clusters obtenidos mediante el algoritmo de las k-medias

que aparecen en la tabla 5.16 (tambin se puede interpretar con los valores
obtenidos por el mtodo de Ward obtenindose conclusiones muy similares)
o apoyndonos en el
como

X6

biplot

de la gura 5.18. Resulta evidente que tanto

son poco determinantes en la denicin de los grupos. El

X5

cluster 1

centra su atencin en la exibilidad de precio (X3 ) y la velocidad de entrega


(X1 ), es decir, los miembros de este grupo se caracterizan por tener mayores
valores en estas variables. Por contra, el

cluster 2 se centra en factores como

la calidad del producto (X7 ), el nivel de precios (X2 ) y la imagen (X4 ).


Por ltimo, y con objeto de ilustrar la reduccin de variables previa a
un AC, realizamos un ACP de la matriz de correlacin y seleccionamos las
tres primeras componentes principales que representan a los autovalores que
exceden de 1 y que conjuntamente explican el 83.246 % de la variabilidad. La
aplicacin del mtodo de Ward con la distancia eucldea al cuadrado sobre
estas tres componentes proporcion una solucin de dos

cluster muy similar

a la obtenida previamente. Las diferencias se encuentran en las observaciones


11 y 100 que fueron clasicadas en distintos grupos.

208

Clusters combinados

Etapa 1

a aparicin

cluster 1

cluster 2

15

20

0,0

60

42

0,005

94

24

27

0,01

74

47

61

0,02

78

19

28

0,04

60

67

90

0,07

39

36

41

0,105

45

51

77

0,14

72

Coeciente

cluster 1 cluster 2

Prxima

Etapa

etapa

18

92

0,175

65

10

33

62

0,21

63

.
.
.

.
.
.

.
.
.

.
.
.

.
.
.

.
.
.

.
.
.

42

82

93

6,565

91

43

10

30

7,09667

36

50

.
.
.

.
.
.

.
.
.

.
.
.

.
.
.

.
.
.

.
.
.

79

57

111,625

75

91

80

14

118,53

67

59

81

81

49

126,007

80

38

86

.
.
.

.
.
.

.
.
.

.
.
.

.
.
.

.
.
.

.
.
.

90

13

16

258,731

71

78

95

91

82

281,428

79

42

97

92

18

305,027

84

76

95

93

11

333,081

88

87

96

94

364,898

86

98

95

13

398,082

92

90

98

96

446,283

89

93

97

97

522,981

96

91

99

98

614,954

95

94

99

99

994,752

98

97

Figura 5.11: Historial de aglomeracin mediante el mtodo de Ward de los


datos de la Ca. Hatco.

209

Nmero de

Coeciente de

clusters

aglomeracin

10

258,731

281,428

305,027

333,081

364,898

398,082

446,283

522,981

614,954

994,752

Figura 5.12: Seleccin del nmero de clusters mediante el mtodo de Ward


de los datos de la Ca. Hatco.

Figura 5.13: Distancias de aglomeracin mediante el mtodo de Ward de los


datos de la Ca. Hatco.

210

Figura 5.14: Dendrograma obtenido por el mtodo de Ward de los datos de


la Ca. Hatco.

211

Figura 5.15: Primeras dos componentes principales para los datos de la Ca.
Hatco.

cluster

X1

X2

X3

X4

X5

X6

X7

4,38

1,58

8,90

4,92

2,95

2,52

5,90

2,57

3,21

6,80

5,59

2,87

2,81

8,12

Figura 5.16: Centros nales de los clusters obtenidos mediante el algoritmo


de las

k -medias

para los datos de la Ca. Hatco.

Conglomerado

X1
X2
X3
X4
X5
X6
X7

Error

M. cuadrtica

gl

M. cuadrtica

gl

81,563

0,930

98

87,717

,000

66,457

0,766

98

86,753

,000

109,637

0,823

98

133,175

,000

11,302

1,178

98

9,596

,003

0,188

0,568

98

0,331

,566

2,123

0,579

98

3,670

,058

123,372

1,280

98

96,404

,000

Figura 5.17: Tabla ANOVA para la signicacin de las diferencias entre los
centroides de los datos de la Ca. Hatco.

212

0.2

10

1
22 2X4
1 1 1
X1
1
1
2 22 X6 X5
1
1
2
2
X2
2 2
1
11
1
2 2 2
1
2
1 1
X3
2
1
22
1 1
2 2
1 11 1
1
22 2 2 1
11 1
2
2
11 11 1
2 2 2
1 1 1
1
1
1
2
2 222 2
1 1
2
1
2
1 1
2
22
2
1
2 2
1
2
1
2
1
1

0.2

0.2

0.1

0.0

0.1

0
5
10

X7

2
2

0.1
0.0

2
2

0.1

Comp.2

10

10

0.2

Comp.1

Figura 5.18:

Biplot para la solucin cluster de los datos de la Ca. Hatco.

213