Anda di halaman 1dari 297

NUEVOS MTODOS

DE
ANLISIS MULTIVARIANTE
Carles M. Cuadras
21 de junio de 2012

2
Es propiedad del autor.
c C. M. Cuadras
CMC Editions
Manacor 30
08023 Barcelona, Spain

ndice general
1. DATOS MULTIVARIANTES
1.1. Introduccin . . . . . . . . . . . . . . . . . . . .
1.2. Matrices de datos . . . . . . . . . . . . . . . . .
1.3. La matriz de centrado . . . . . . . . . . . . . .
1.4. Medias, covarianzas y correlaciones . . . . . . .
1.5. Variables compuestas . . . . . . . . . . . . . . .
1.6. Transformaciones lineales . . . . . . . . . . . . .
1.7. Teorema de la dimensin . . . . . . . . . . . . .
1.8. Medidas globales de variabilidad y dependencia
1.9. Distancias . . . . . . . . . . . . . . . . . . . . .
1.10. Algunos aspectos del clculo matricial . . . . . .
1.10.1. Descomposicin singular . . . . . . . . .
1.10.2. Inversa generalizada . . . . . . . . . . .
1.10.3. Aproximacin matricial de rango inferior
1.10.4. Transformacin procrustes . . . . . . . .
1.11. Ejemplos . . . . . . . . . . . . . . . . . . . . . .
1.12. Complementos . . . . . . . . . . . . . . . . . . .
2. NORMALIDAD MULTIVARIANTE
2.1. Introduccin . . . . . . . . . . . . . .
2.2. Distribucin normal multivariante . .
2.2.1. Denicin . . . . . . . . . . .
2.2.2. Propiedades . . . . . . . . . .
2.2.3. Caso bivariante . . . . . . . .
2.3. Distribucin de Wishart . . . . . . .
2.4. Distribucin de Hotelling . . . . . . .
2.5. Distribucin de Wilks . . . . . . . . .
2.6. Relaciones entre Wilks, Hotelling y F
3

.
.
.
.
.
.
.
.
.

.
.
.
.
.
.
.
.
.

.
.
.
.
.
.
.
.
.

.
.
.
.
.
.
.
.
.

.
.
.
.
.
.
.
.
.

.
.
.
.
.
.
.
.
.

.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.

.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.

.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.

.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.

.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.

.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.

.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.

.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.

11
11
11
13
13
14
14
15
16
17
19
19
19
20
21
23
26

.
.
.
.
.
.
.
.
.

27
27
28
28
29
30
31
32
33
35

NDICE GENERAL
2.7. Distribucin multinomial . . . . . . . . . . . . . . . . . . . . . 36
2.8. Distribuciones con marginales dadas . . . . . . . . . . . . . . . 37
2.9. Complementos . . . . . . . . . . . . . . . . . . . . . . . . . . . 38

3. INFERENCIA MULTIVARIANTE
3.1. Conceptos bsicos . . . . . . . . . . . . . . .
3.2. Estimacin de medias y covarianzas . . . . .
3.3. Contraste de hiptesis multivariantes . . . .
3.3.1. Test sobre la media: una poblacin .
3.3.2. Test sobre la media: dos poblaciones
3.3.3. Comparacin de medias . . . . . . .
3.4. Teorema de Cochran . . . . . . . . . . . . .
3.5. Construccin de contrastes de hiptesis . . .
3.5.1. Razn de verosimilitud . . . . . . . .
3.5.2. Principio de unin-interseccin . . . .
3.6. Ejemplos . . . . . . . . . . . . . . . . . . . .
3.7. Anlisis de perles . . . . . . . . . . . . . .
3.8. Complementos . . . . . . . . . . . . . . . . .

.
.
.
.
.
.
.
.
.
.
.
.
.

.
.
.
.
.
.
.
.
.
.
.
.
.

.
.
.
.
.
.
.
.
.
.
.
.
.

.
.
.
.
.
.
.
.
.
.
.
.
.

.
.
.
.
.
.
.
.
.
.
.
.
.

.
.
.
.
.
.
.
.
.
.
.
.
.

.
.
.
.
.
.
.
.
.
.
.
.
.

.
.
.
.
.
.
.
.
.
.
.
.
.

.
.
.
.
.
.
.
.
.
.
.
.
.

41
41
42
43
43
44
44
45
48
48
50
52
57
59

4. ANLISIS DE CORRELACIN CANNICA


4.1. Introduccin . . . . . . . . . . . . . . . . . . . .
4.2. Correlacin mltiple . . . . . . . . . . . . . . .
4.3. Correlacin cannica . . . . . . . . . . . . . . .
4.4. Correlacin cannica y descomposicin singular
4.5. Signicacin de las correlaciones cannicas . . .
4.6. Contraste de hiptesis de independencia . . . .
4.6.1. Razn de verosimilitud . . . . . . . . . .
4.6.2. Principio de unin interseccin . . . . . .
4.7. Ejemplos . . . . . . . . . . . . . . . . . . . . . .
4.8. Complementos . . . . . . . . . . . . . . . . . . .

.
.
.
.
.
.
.
.
.
.

.
.
.
.
.
.
.
.
.
.

.
.
.
.
.
.
.
.
.
.

.
.
.
.
.
.
.
.
.
.

.
.
.
.
.
.
.
.
.
.

.
.
.
.
.
.
.
.
.
.

.
.
.
.
.
.
.
.
.
.

.
.
.
.
.
.
.
.
.
.

61
61
61
63
66
67
67
68
68
69
71

.
.
.
.
.
.

73
73
75
76
78
79
80

.
.
.
.
.
.
.
.
.
.
.
.
.

5. ANLISIS DE COMPONENTES PRINCIPALES


5.1. Denicin y obtencin de las componentes principales
5.2. Variabilidad explicada por las componentes . . . . . .
5.3. Representacin de una matriz de datos . . . . . . . .
5.4. Inferencia . . . . . . . . . . . . . . . . . . . . . . . .
5.4.1. Estimacin y distribucin asinttica . . . . . .
5.4.2. Contraste de hiptesis . . . . . . . . . . . . .

.
.
.
.
.
.

.
.
.
.
.
.

.
.
.
.
.
.

.
.
.
.
.
.

NDICE GENERAL
5.5. Nmero de componentes principales
5.5.1. Criterio del porcentaje . . .
5.5.2. Criterio de Kaiser . . . . . .
5.5.3. Test de esfericidad . . . . .
5.5.4. Criterio del bastn roto . . .
5.6. Biplot . . . . . . . . . . . . . . . .
5.7. Ejemplos . . . . . . . . . . . . . . .
5.8. Complementos . . . . . . . . . . . .

5
.
.
.
.
.
.
.
.

.
.
.
.
.
.
.
.

.
.
.
.
.
.
.
.

.
.
.
.
.
.
.
.

.
.
.
.
.
.
.
.

.
.
.
.
.
.
.
.

.
.
.
.
.
.
.
.

.
.
.
.
.
.
.
.

.
.
.
.
.
.
.
.

.
.
.
.
.
.
.
.

.
.
.
.
.
.
.
.

.
.
.
.
.
.
.
.

.
.
.
.
.
.
.
.

.
.
.
.
.
.
.
.

.
.
.
.
.
.
.
.

82
82
82
83
83
84
85
89

6. ANLISIS FACTORIAL
6.1. Introduccin . . . . . . . . . . . . . . . . . .
6.2. El modelo unifactorial . . . . . . . . . . . .
6.3. El modelo multifactorial . . . . . . . . . . .
6.3.1. El modelo . . . . . . . . . . . . . . .
6.3.2. La matriz factorial . . . . . . . . . .
6.3.3. Las comunalidades . . . . . . . . . .
6.3.4. Nmero mximo de factores comunes
6.3.5. El caso de Heywood . . . . . . . . .
6.3.6. Un ejemplo . . . . . . . . . . . . . .
6.4. Teoremas fundamentales . . . . . . . . . . .
6.5. Mtodo del factor principal . . . . . . . . .
6.6. Mtodo de la mxima verosimilitud . . . . .
6.6.1. Estimacin de la matriz factorial . .
6.6.2. Hiptesis sobre el nmero de factores
6.7. Rotaciones de factores . . . . . . . . . . . .
6.7.1. Rotaciones ortogonales . . . . . . . .
6.7.2. Factores oblicuos . . . . . . . . . . .
6.7.3. Rotacin oblicua . . . . . . . . . . .
6.7.4. Factores de segundo orden . . . . . .
6.8. Medicin de factores . . . . . . . . . . . . .
6.9. Anlisis factorial conrmatorio . . . . . . . .
6.10. Complementos . . . . . . . . . . . . . . . . .

.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.

.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.

.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.

.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.

.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.

.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.

.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.

.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.

.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.

.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.

93
93
94
96
96
97
97
98
99
99
101
103
104
104
105
106
106
107
108
110
111
112
114

.
.
.
.

117
. 117
. 118
. 120
. 121

7. ANLISIS CANNICO DE POBLACIONES


7.1. Introduccin . . . . . . . . . . . . . . . . . . . . . . .
7.2. Variables cannicas . . . . . . . . . . . . . . . . . . .
7.3. Distancia de Mahalanobis y transformacin cannica
7.4. Representacin cannica . . . . . . . . . . . . . . . .

.
.
.
.

.
.
.
.

.
.
.
.

NDICE GENERAL
7.5. Aspectos inferenciales . . . . . . . .
7.5.1. Comparacin de medias . .
7.5.2. Comparacin de covarianzas
7.5.3. Test de dimensionalidad . .
7.5.4. Regiones condenciales . . .
7.6. Complementos . . . . . . . . . . . .

.
.
.
.
.
.

.
.
.
.
.
.

.
.
.
.
.
.

.
.
.
.
.
.

.
.
.
.
.
.

.
.
.
.
.
.

.
.
.
.
.
.

.
.
.
.
.
.

.
.
.
.
.
.

.
.
.
.
.
.

.
.
.
.
.
.

.
.
.
.
.
.

.
.
.
.
.
.

.
.
.
.
.
.

.
.
.
.
.
.

123
123
123
124
125
129

8. ESCALADO MULTIDIMENSIONAL (MDS)


8.1. Introduccin . . . . . . . . . . . . . . . . . . . .
8.2. Cundo una distancia es eucldea? . . . . . . .
8.3. El anlisis de coordenadas principales . . . . . .
8.4. Similaridades . . . . . . . . . . . . . . . . . . .
8.5. Nociones de MDS no mtrico . . . . . . . . . .
8.6. Distancias estadsticas . . . . . . . . . . . . . .
8.6.1. Variables cuantitativas . . . . . . . . . .
8.6.2. Variables binarias . . . . . . . . . . . . .
8.6.3. Variables categricas . . . . . . . . . . .
8.6.4. Variables mixtas . . . . . . . . . . . . .
8.6.5. Otras distancias . . . . . . . . . . . . . .
8.7. Ejemplos . . . . . . . . . . . . . . . . . . . . . .
8.8. Complementos . . . . . . . . . . . . . . . . . . .

.
.
.
.
.
.
.
.
.
.
.
.
.

.
.
.
.
.
.
.
.
.
.
.
.
.

.
.
.
.
.
.
.
.
.
.
.
.
.

.
.
.
.
.
.
.
.
.
.
.
.
.

.
.
.
.
.
.
.
.
.
.
.
.
.

.
.
.
.
.
.
.
.
.
.
.
.
.

.
.
.
.
.
.
.
.
.
.
.
.
.

131
. 131
. 132
. 134
. 137
. 139
. 142
. 142
. 143
. 144
. 145
. 145
. 147
. 154

9. ANLISIS DE CORRESPONDENCIAS
9.1. Introduccin . . . . . . . . . . . . . . . . . .
9.2. Cuanticacin de las variables categricas .
9.3. Representacin de las y columnas . . . . .
9.4. Representacin conjunta de las y columnas
9.5. Soluciones simtrica y asimtrica . . . . . .
9.6. Variabilidad geomtrica (inercia) . . . . . .
9.7. Analisis de Correspondencias Mltiples . . .
9.8. Ejemplos . . . . . . . . . . . . . . . . . . . .
9.9. MDS ponderado . . . . . . . . . . . . . . . .
9.10. Complementos . . . . . . . . . . . . . . . . .

.
.
.
.
.
.
.
.
.
.

.
.
.
.
.
.
.
.
.
.

.
.
.
.
.
.
.
.
.
.

.
.
.
.
.
.
.
.
.
.

.
.
.
.
.
.
.
.
.
.

.
.
.
.
.
.
.
.
.
.

.
.
.
.
.
.
.
.
.
.

.
.
.
.
.
.
.
.
.
.

.
.
.
.
.
.
.
.
.
.

.
.
.
.
.
.
.
.
.
.

10. CLASIFICACIN
10.1. Introduccin . . . . . . . . . . . . . . . . . . . . . . . . . . .
10.2. Jerarqua indexada . . . . . . . . . . . . . . . . . . . . . . .
10.3. Geometra ultramtrica . . . . . . . . . . . . . . . . . . . . .

155
155
157
158
160
163
164
167
169
173
176

181
. 181
. 182
. 184

NDICE GENERAL

10.4. Algoritmo fundamental de clasicacin . . . . . . . .


10.5. Equivalencia entre jerarqua indexada y ultramtrica
10.6. Algoritmos de clasicacin jerrquica . . . . . . . . .
10.6.1. Mtodo del mnimo . . . . . . . . . . . . . . .
10.6.2. Mtodo del mximo . . . . . . . . . . . . . . .
10.7. Otras propiedades del mtodo del mnimo . . . . . .
10.8. Ejemplos . . . . . . . . . . . . . . . . . . . . . . . . .
10.9. Clasicacin no jerrquica . . . . . . . . . . . . . . .
10.10.Nmero de clusters . . . . . . . . . . . . . . . . . . .
10.11.Complementos . . . . . . . . . . . . . . . . . . . . .

.
.
.
.
.
.
.
.
.
.

.
.
.
.
.
.
.
.
.
.

11. ANLISIS DISCRIMINANTE


11.1. Introduccin . . . . . . . . . . . . . . . . . . . . . . . . .
11.2. Clasicacin en dos poblaciones . . . . . . . . . . . . . .
11.2.1. Discriminador lineal . . . . . . . . . . . . . . . .
11.2.2. Regla de la mxima verosimilitud . . . . . . . . .
11.2.3. Regla de Bayes . . . . . . . . . . . . . . . . . . .
11.3. Clasicacin en poblaciones normales . . . . . . . . . . .
11.3.1. Discriminador lineal . . . . . . . . . . . . . . . .
11.3.2. Regla de Bayes . . . . . . . . . . . . . . . . . . .
11.3.3. Probabilidad de clasicacin errnea . . . . . . .
11.3.4. Discriminador cuadrtico . . . . . . . . . . . . . .
11.3.5. Clasicacin cuando los parmetros son estimados
11.3.6. Un ejemplo . . . . . . . . . . . . . . . . . . . . .
11.4. Discriminacin en el caso de k poblaciones . . . . . . . .
11.4.1. Discriminadores lineales . . . . . . . . . . . . . .
11.4.2. Regla de la mxima verosimilitud . . . . . . . . .
11.4.3. Regla de Bayes . . . . . . . . . . . . . . . . . . .
11.4.4. Un ejemplo clsico . . . . . . . . . . . . . . . . .
12. DISCRIMINACIN LOGSTICA Y OTRAS
12.1. Anlisis discriminante logstico . . . . . . . . . .
12.1.1. Introduccin . . . . . . . . . . . . . . . .
12.1.2. Modelo de regresin logstica . . . . . . .
12.1.3. Estimacin de los parmetros . . . . . .
12.1.4. Distribucin asinttica y test de Wald .
12.1.5. Ajuste del modelo . . . . . . . . . . . . .
12.1.6. Curva ROC . . . . . . . . . . . . . . . .

.
.
.
.
.
.
.

.
.
.
.
.
.
.

.
.
.
.
.
.
.

.
.
.
.
.
.
.

.
.
.
.
.
.
.

.
.
.
.
.
.
.
.
.
.

.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.

.
.
.
.
.
.
.

.
.
.
.
.
.
.
.
.
.

.
.
.
.
.
.
.
.
.
.

188
188
189
191
192
194
196
200
201
201

.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.

205
. 205
. 206
. 206
. 207
. 207
. 208
. 208
. 209
. 209
. 209
. 210
. 210
. 213
. 213
. 214
. 215
. 215

.
.
.
.
.
.
.

217
. 217
. 217
. 218
. 219
. 220
. 221
. 222

NDICE GENERAL
12.1.7. Comparacin entre discriminador lineal
12.2. Anlisis discriminante basado en distancias . .
12.2.1. La funcin de proximidad . . . . . . .
12.2.2. La regla discriminante DB . . . . . . .
12.2.3. La regla DB comparada con otras . . .
12.2.4. La regla DB en el caso de muestras . .
12.3. Complementos . . . . . . . . . . . . . . . . . .

13. EL MODELO LINEAL


13.1. El modelo lineal . . . . . . . . .
13.2. Suposiciones bsicas del modelo
13.3. Estimacin de parmetros . . .
13.3.1. Parmetros de regresin
13.3.2. Varianza . . . . . . . . .
13.4. Algunos modelos lineales . . . .
13.4.1. Regresin mltiple . . .
13.4.2. Diseo de un factor . . .
13.4.3. Diseo de dos factores .
13.5. Hiptesis lineales . . . . . . . .
13.6. Inferencia en regresin mltiple
13.7. Complementos . . . . . . . . . .

y
.
.
.
.
.
.

logstico
. . . . .
. . . . .
. . . . .
. . . . .
. . . . .
. . . . .

.
.
.
.
.
.
.

.
.
.
.
.
.
.

.
.
.
.
.
.
.

224
227
227
228
229
230
232

.
.
.
.
.
.
.
.
.
.
.
.

.
.
.
.
.
.
.
.
.
.
.
.

.
.
.
.
.
.
.
.
.
.
.
.

.
.
.
.
.
.
.
.
.
.
.
.

.
.
.
.
.
.
.
.
.
.
.
.

.
.
.
.
.
.
.
.
.
.
.
.

.
.
.
.
.
.
.
.
.
.
.
.

.
.
.
.
.
.
.
.
.
.
.
.

.
.
.
.
.
.
.
.
.
.
.
.

.
.
.
.
.
.
.
.
.
.
.
.

235
. 235
. 236
. 237
. 237
. 238
. 239
. 239
. 240
. 240
. 241
. 244
. 245

14. ANLISIS DE LA VARIANZA (ANOVA)


14.1. Diseo de un factor . . . . . . . . . . . . . .
14.2. Diseo de dos factores . . . . . . . . . . . .
14.3. Diseo de dos factores con interaccin . . . .
14.4. Diseos multifactoriales . . . . . . . . . . . .
14.5. Modelos log-lineales . . . . . . . . . . . . . .
14.5.1. Ejemplo . . . . . . . . . . . . . . . .
14.6. Complementos . . . . . . . . . . . . . . . . .

.
.
.
.
.
.
.

.
.
.
.
.
.
.

.
.
.
.
.
.
.

.
.
.
.
.
.
.

.
.
.
.
.
.
.

.
.
.
.
.
.
.

.
.
.
.
.
.
.

.
.
.
.
.
.
.

.
.
.
.
.
.
.

.
.
.
.
.
.
.

.
.
.
.
.
.

259
. 259
. 260
. 263
. 265
. 266
. 267

.
.
.
.
.
.
.
.
.
.
.
.

.
.
.
.
.
.
.
.
.
.
.
.

.
.
.
.
.
.
.
.
.
.
.
.

.
.
.
.
.
.
.
.
.
.
.
.

.
.
.
.
.
.
.
.
.
.
.
.

.
.
.
.
.
.
.
.
.
.
.
.

15. ANLISIS DE LA VARIANZA (MANOVA)


15.1. Modelo . . . . . . . . . . . . . . . . . . . . . . .
15.2. Estimacin de parmetros . . . . . . . . . . . .
15.3. Contraste de hiptesis lineales . . . . . . . . . .
15.4. Manova de un factor . . . . . . . . . . . . . . .
15.5. Manova de dos factores . . . . . . . . . . . . . .
15.6. Manova de dos factores con interaccin . . . . .

.
.
.
.
.
.

.
.
.
.
.
.

.
.
.
.
.
.

.
.
.
.
.
.

.
.
.
.
.
.

.
.
.
.
.
.

247
247
249
251
253
254
257
258

NDICE GENERAL

15.7. Ejemplos . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 268


15.8. Otros criterios . . . . . . . . . . . . . . . . . . . . . . . . . . . 270
15.9. Complementos . . . . . . . . . . . . . . . . . . . . . . . . . . . 272
16. FUNCIONES ESTIMABLES MULTIVARIANTES
16.1. Funciones estimables . . . . . . . . . . . . . . . . . . .
16.2. Teorema de Gauss-Markov . . . . . . . . . . . . . . . .
16.3. Funciones estimables multivariantes . . . . . . . . . . .
16.4. Anlisis cannico de fpem . . . . . . . . . . . . . . . .
16.4.1. Distancia de Mahalanobis . . . . . . . . . . . .
16.4.2. Coordenadas cannicas . . . . . . . . . . . . . .
16.4.3. Regiones condenciales . . . . . . . . . . . . . .
16.5. Ejemplos . . . . . . . . . . . . . . . . . . . . . . . . . .
16.6. Complementos . . . . . . . . . . . . . . . . . . . . . . .

.
.
.
.
.
.
.
.
.

.
.
.
.
.
.
.
.
.

.
.
.
.
.
.
.
.
.

273
. 273
. 274
. 275
. 276
. 276
. 277
. 278
. 278
. 282

10

NDICE GENERAL
P ROLOGO

El Anlisis Multivariante es un conjunto de mtodos estadsticos y matemticos, destinados a describir e interpretar los datos que provienen de la observacin de varias variables estadsticas, estudiadas conjuntamente.
Este libro es una presentacin convencional de los principales modelos y
mtodos del Anlisis Multivariante, con referencias a algunas contribuciones
recientes.
La exposicin mantiene un cierto rigor matemtico, compensado con una
clara orientacin aplicada. Todos los mtodos se ilustran con ejemplos, que
justican su aplicabilidad. Para examinar algunos datos y ver ms ejemplos
consltese otras publicaciones relacionadas en la pgina web
www:ub:edu=stat=cuadras=cuad:html
Esta obra tiene como precedentes la monograa Mtodos de Anlisis Factorial(Pub. no. 7, Laboratorio de Clculo, Universidad de Barcelona, 1974),
y el libro Mtodos de Anlisis Multivariante(EUNIBAR, 1981; PPU, 1991;
EUB, 1996, Barcelona).
El autor se reserva el derecho de ampliar el texto e introducir mejoras.
La primera versin apareci en 2007. La segunda versin (2010) contiene
correcciones, ampliaciones y un ndice alfabtico. La tercera versin (2011)
contiene algunas correcciones y nuevas referencias bibliogrcas. La cuarta
versin (2012) incorpora ms secciones y ejemplos.

Cmo citar este libro:


C. M. Cuadras
Nuevos Mtodos de Anlisis Multivariante
CMC Editions
Barcelona, 2012

Captulo 1
DATOS MULTIVARIANTES
1.1.

Introduccin

El anlisis multivariante (AM) es la parte de la estadstica y del anlisis


de datos que estudia, analiza, representa e interpreta los datos que resultan
de observar ms de una variable estadstica sobre una muestra de individuos.
Las variables observables son homogneas y correlacionadas, sin que alguna
predomine sobre las dems. La informacin estadstica en AM es de carcter multidimensional, por lo tanto la geometra, el clculo matricial y las
distribuciones multivariantes juegan un papel fundamental.
La informacin multivariante es una matriz de datos, pero a menudo, en
AM la informacin de entrada consiste en matrices de distancias o similaridades, que miden el grado de discrepancia entre los individuos. Comenzaremos con las tcnicas que se basan en matrices de datos n p; siendo n el
nmero de individuos y p el de variables.

1.2.

Matrices de datos

Supongamos n individuos ! 1 ; : : : ; ! n y p variables X1 ; : : : ; Xp : Sea xij =


Xj (! i ) la observacin de la variable Xj sobre el individuo ! i : La matriz de
11

12

CAPTULO 1. DATOS MULTIVARIANTES

datos multivariantes es
0

x11
B ..
B .
B
X = B xi1
B .
@ ..
xn1

..
..

x1j
..
.

xij
..
.
xnj

1
x1p
.
..
. .. C
C
C
xip C :
.. C
..
.
. A
xnp

Las las de X se identican con los individuos y las columnas de X con las
variables. Indicaremos:
1. xi la la i-sima de X; que operaremos como un vector columna.
2. Xj la columna j-sima de X:
3. x = (x1 ; : : : ; xj ; : : : ; xp )0 el vector columna de las medias de las variables, siendo
n
1X
xj =
xij :
n i=1
4. La matriz simtrica p

siendo

p de covarianzas
0
s11 s12
B s21 s22
B
S = B ..
.. . .
@ .
.
.
sp1 sp2
1X
=
(xij
n i=1

muestrales
1
s1p
s2p C
C
.. C ;
. A
spp

sjj 0

xj )(xij 0

xj 0 )

la covarianza entre las variables j; j 0 : Naturalmente, x y S son medidas


multivariantes de tendencia central y dispersin, respectivamente.
5. La matriz simtrica p

p de correlaciones
0
1 r12
B r21 1
B
R = B ..
.. . .
@ .
.
.
rp1 rp2

muestrales
1
r1p
r2p C
C
.. C ;
. A
1

1.3. LA MATRIZ DE CENTRADO

13

siendo rjj 0 = cor(Xj ; Xj 0 ) el coeciente de correlacin (muestral) entre


las variables Xj ; Xj 0 : Este coeciente viene dado por
rjj 0 =

sjj 0
;
sj sj 0

donde sj ; sj 0 son las desviaciones tpicas.

1.3.

La matriz de centrado

Si 1 =(1; : : : ; 1)0 es el vector columna de unos de orden n 1, y J = 110


es la matriz n n de unos, ciertas caractersticas multivariantes se expresan
mejor a partir de la matriz de centrado H; denida como
H=I

1
J:
n

Propiedades:
1. Simtrica: H0 = H:
2. Idempotente: H2 = H:
3. Los valores propios de H son cero o uno: Hv = v implica
4. 1 es vector propio de valor propio cero: H1 = 0;
5. El rango es rang(H) =n

1.4.

= 0 1:

10 H = 00 :

1:

Medias, covarianzas y correlaciones

Sea X = (xij ) la matriz de datos. La matriz de datos centrados se obtiene restando a cada variable su media: X = (xij xj ). Esta matriz, as
como el vector de medias, las matrices de covarianzas y correlaciones, tienen
expresiones matriciales simples.
1. x0 = n1 10 X:
2. Matriz de datos centrados:
X= X

1x0 = HX:

14

CAPTULO 1. DATOS MULTIVARIANTES


3. Matriz de covarianzas:
0

S = n1 X X = n1 X0 HX:
4. Matriz de correlaciones:
R = D 1 SD 1 ;

S = DRD;

(1.1)

siendo D la matriz diagonal con las desviaciones tpicas de las variables.

1.5.

Variables compuestas

Algunos mtodos de AM consisten en obtener e interpretar combinaciones lineales adecuadas de las variables observables. Una variable compuesta Y es una combinacin lineal de las variables observables con coecientes
a = (a1 ; : : : ; ap )0
Y = a1 X1 +
+ ap Xp :
Si X =[X1 ; : : : ; Xp ] es la matriz de datos, tambin podemos escribir
Y = Xa:
Si Z = b1 X1 +

+ bp Xp = Xb es otra variable compuesta, se verica:

1. Y = x0 a; Z=x0 b:
2. var(Y ) = a0 Sa, var(Z) = b0 Sb:
3. cov(Y; Z) = a0 Sb:
Ciertas variables compuestas reciben diferentes nombres segn la tcnica multivariante: componentes principales, variables cannicas, funciones
discriminantes, etc. Uno de los objetivos del Anlisis Multivariante es encontrar variables compuestas adecuadas que expliquen aspectos relevantes de los
datos.

1.6.

Transformaciones lineales

Sea T una matriz p

q: Una transformacin lineal de la matriz de datos

es
Y = XT:
Las columnas Y1 ; : : : ; Yq de Y son las variables transformadas.

1.7. TEOREMA DE LA DIMENSIN

15

Propiedades:
1. y0 =x0 T; donde y es el vector (columna) de medias de Y:
2. SY = T0 ST; donde SY es la matriz de covarianzas de Y:
Demost.:
y0 = n1 10 Y = n1 10 XT = x0 T: SY = n1 Y0 HY = n1 T0 X0 HXT = T0 ST.

1.7.

Teorema de la dimensin

La matriz de covarianzas S es (semi)denida positiva, puesto que:


a0 Sa = n1 a0 X0 HXa = n1 a0 X0 HHXa = b0 b

0;

siendo b =n 1=2 HXa:


El rango r = rang(S) determina la dimensin del espacio vectorial generado por las variables observables, es decir, el nmero de variables linealmente
independientes es igual al rango de S:
Teorema 1.7.1 Si r = rang(S) p hay r variables linealmente independientes y las otras p r son combinacin lineal de estas r variables.
Demost.: Podemos ordenar las p variables de manera que la matriz de covarianzas Sr de X1 ; : : : ; Xr sea no singular
0
1
s11
s1r
B
C
Sr = @ ... . . . ... A :
sr1
srr
Sea Xj ; j > r: La la (sj1; : : : ; sjr ) ser combinacin lineal de las las de Sr :
Luego las covarianzas sj1 ; : : : ; sjr entre Xj y X1 ; : : : ; Xr verican:
sjj =

r
X
i=1

Entonces
var(Xj

Pr

i=1

ai sji ;

sji =

r
X

ai0 sii0 :

i0 =1

P
P
ai Xi ) = sjj + ri;i0 =1 ai ai0 sii0 2 ri=1 ai sji
P
P
P
P
= Pri=1 ai sji + Pri=1 ai ( ri0 =1 P
ai0 sii0 ) 2 ri=1 ai sji
= ri=1 ai sji + ri=1 ai sji 2 ri=1 ai sji
= 0:

16

CAPTULO 1. DATOS MULTIVARIANTES

Por lo tanto
Xj

r
X

ai Xi = c =) Xj = c +

i=1

r
X

ai Xi

i=1

donde c es una constante.

Corolario 1.7.2 Si todas las variables tienen varianza positiva (es decir,
ninguna se reduce a una constante) y r = rang(R)
p; hay r variables
linealmente independientes y las otras p r son combinacin lineal de estas
r variables.
Demost.: De (1.1) deducimos que r = rang(R) = rang(S):

1.8.

Medidas globales de variabilidad y dependencia

Una medida de la variabilidad global de las p variables debe ser funcin


de la matriz de covarianzas S: Sean 1 ; : : : ; p los valores propios de S: Las
siguientes medidas tienen especial inters en AM.
a) Varianza generalizada:
jSj =

p:

b) Variacin total:
tr(S) =

Una medida de dependencia global debe ser funcin de la matriz de correlaciones R: Un coeciente de dependencia es
2

=1

jRj;

que verica:
2

1. 0

1:

2.

= 0 si y slo si las p variables estn incorrelacionadas.

3.

= 1 si y slo si hay relaciones lineales entre las variables.

1.9. DISTANCIAS

17

Demost.:
1. Sean 1 ; : : : ; p los valores propios de R. Si g y a son las medias geomtrica y aritmtica de p nmeros positivos, se verica g a: Entonces, de
tr(R) =p
(jRj)1=p = (

1=p
p)

p )=p

=1

y por lo tanto 0 det(R) 1:


2. R = I (matriz identidad) si y slo si las p variables estn incorrelacionadas y entonces 1 jIj =0:
3. Si 2 = 1; es decir, jRj =0; entonces rang(R) <p y por lo tanto hay
relaciones lineales entre las variables (Teorema 1.7.1).

1.9.

Distancias

Algunos mtodos de AM estn basados en criterios geomtricos y en la


nocin de distancia entre individuos y entre poblaciones. Si
1
0
x01
C
B
X = @ ... A
x0n

es una matriz de datos, con matriz de covarianzas S; las tres deniciones ms


importantes de distancia entre las las x0i = (xi1 ; : : : ; xip ); x0j = (xj1 ; : : : ; xjp )
de X son:
1. Distancia Eucldea:

v
u p
uX
dE (i; j) = t (xih

xjh )2 :

(1.2)

xjh )2 =shh ;

(1.3)

h=1

2. Distancia de K. Pearson

v
u p
uX
dP (i; j) = t (xih
h=1

donde shh es la covarianza de la variable Xh :


3. Distancia de Mahalanobis:
dM (i; j) =

(xi

xj )0 S 1 (xi

xj ):

(1.4)

18

CAPTULO 1. DATOS MULTIVARIANTES

Observaciones
Un cambio de escala de una variable Xj es una transformacin Yj = Xj ;
donde es una constante. La distancia dM es muy adecuada en AM debido
a que verica:
a) dE supone implcitamente que las variables son incorrelacionadas y no es
invariante por cambios de escala.
b) dP tambin supone que las variables estn incorrelacionadas pero es invariante por cambios de escala.
c) dM tiene en cuenta las correlaciones entre las variables y es invariante por
transformaciones lineales no singulares de las variables, en particular
cambios de escala.
Las distancias dE y dP son casos particulares de dM cuando la matriz de
covarianzas es la identidad Ip y diag(S), respectivamente. En efecto:
dE (i; j)2 = (xi

xj )0 (xi

dP (i; j)2 = (xi

xj )0 [diag(S)] 1 (xi

xj );
xj ):

La distancia de Mahalanobis (al cuadrado) puede tener otras versiones:


1. Distancia de una observacin xi al vector de medias x de X :
(xi

x)0 S 1 (xi

x):

2. Distancia entre dos poblaciones representadas por dos matrices de datos


Xn1 p ; Yn2 p :
(x y)0 S 1 (x y);
donde x; y son los vectores de medias y
S = (n1 S1 + n2 S2 )=(n1 + n2 )
es la media ponderada de las correspondientes matrices de covarianzas.

1.10. ALGUNOS ASPECTOS DEL CLCULO MATRICIAL

19

1.10.

Algunos aspectos del clculo matricial

1.10.1.

Descomposicin singular

Sea A un matriz de orden m n con m n: Se llama descomposicin en


valores singulares de A a
A = UDs V0
donde U es matriz m n cuyas columnas son vectores ortonormales, Ds es
una matriz diagonal n n con los valores singulares
s1
y V es una matriz n

sr

sr+1 =

= sn = 0;

n ortogonal. Se verica:

1. El rango de A es el nmero r de valores singulares positivos.


2. U contiene los vectores propios (unitarios) de AA0 ; siendo U0 U = In :
3. V contiene los vectores propios (unitarios) de A0 A; siendo V0 V =
VV0 = In :
4. Si m = n y A es simtrica, entonces U = V y A = UDs U0 es la
descomposicin espectral de A: Los valores singulares son los valores
propios de A:

1.10.2.

Inversa generalizada

Si A es una matriz cuadrada de orden n n no singular, es decir, rang(A) =


n; existe la matriz inversa A 1 tal que
AA

= A 1 A = In :

Si el rango es rang(A) = r < n; o A no es matriz cuadrada, la inversa no


existe, pero existe la inversa generalizada o g-inversa A :
Sea A un matriz de orden m n con m n: Se llama inversa generalizada
de A o g-inversa, a una matriz A que verica:
AA A = A:
La g-inveresa no es nica, pero si A verica adems:
A AA = A ;

(AA )0 = AA

(A A)0 = A A;

20

CAPTULO 1. DATOS MULTIVARIANTES

entonces la g-inversa A es nica.


Sea rang(A) = r y A = UDs V0 la descomposicin singular de A; con
Ds = diag(s1 ; : : : ; sr ; 0; : : : ; 0):
Entonces
Ds = diag(s1 1 ; : : : ; sr 1 ; 0; : : : ; 0):
y la matriz m

n
A = VDs U0

es una g-inversa de A: En efecto,


AA A = UDs V0 VDs U0 UDs V0 = A:

1.10.3.

Aproximacin matricial de rango inferior

Sea A = (aij ) un matriz de orden m n con m n y rango r: Supongamos


que deseamos aproximar A por otra matriz A = (aij ); del mismo orden m n
pero de rango k < r; de modo que
tr[(A

A ) (A

A )] =

m X
n
X

(aij

aij )2 = mnimo.

i=1 j=1

Si A = UDs V0 es la descomposicin en valores singulares de A; entonces la


solucin es
A = UDs V0 ;
(1.5)
donde Ds es diagonal con los k primeros valores singulares de A; siendo los
restantes valores nulos:
Ds = diag(s1 ; : : : ; sk ; 0; : : : ; 0):
El mnimo es la suma de los cuadrados de los valores singulares eliminados,
es decir, tr[(Ds Ds )2 ]: Esta es la llamada aproximacin de Eckart -Young.
Por ejemplo, si
0
1
1 3 2
B 2 0 1 C
C
A=B
@ 4 5 6 A
3 2 1

1.10. ALGUNOS ASPECTOS DEL CLCULO MATRICIAL


entonces
0
0;35
B 0;16
A=B
@ 0;86
0;33

0;42
0;61
0;19
0;63

1
10
0;52 0
10;14
0
0
C
0;41 C @
0
2;295
0 A@
0;38 A
0
0
1;388
0;63

y la aproximacin de rango 2 es
0
0;945
B 2;015
A =B
@ 3;984
2;936
siendo (redondeando a
0
0;35
0;42
B 0;16
0;61
A =B
@ 0;86
0;19
0;33
0;63

2;480
0;397
5;320
1;386

21

0;50
0;86
0;06

0;59
0;40
0;70

1
2;534
0;587 C
C;
5;628 A
1;652

dos decimales)
1
10
0;52 0
10;14 0 0
C
0;41 C @
0
2;29 0 A @
0;38 A
0
0 0
0;63

0;50
0;86
0;06

0;59
0;40
0;70

1
0;62
0;31 A :
0;71

El valor mnimo es 1;3882 = 1;926, el cuadrado del valor singular eliminado.


En particular, si B es matriz simtrica semidenida positiva de rango r y
B = TD T0 es la descomposicin espectral (con los valores propios ordenados
de mayor a menor), entonces la mejor aproximacin de rango k < r es la
matriz
B = TD T0 ;
(1.6)
donde D contiene los k primeros valores propios de B:

1.10.4.

Transformacin procrustes

Sea A un matriz de orden m n con m n: Sea B otra matriz del mismo


orden y escala (misma media y varianza para las columnas). Supongamos que
queremos transformar A en AT;siendo T matriz n n ortogonal, de modo
que AT sea lo ms prxima posible a B, es decir tr[(AT B)0 (AT B)] =
mnimo. Si obtenemos la descomposicin en valores singulares
A0 B = UDs V0 ;
entonces la solucin es
T = UV0 :

1
0;62
0;31 A ;
0;71

(1.7)

22

CAPTULO 1. DATOS MULTIVARIANTES

Se conoce AT como la transformacin procrustes.


En el caso general, sean X; Y dos matrices n p; con n p; y vectores
(las) de medias x; y: Deseamos aproximar X a Y mediante contraccin,
traslacin y rotacin. Consideremos la transformacin
Y = bXT + 1c;
donde b es una constante escalar, T es matriz p p ortogonal, 1 es el vector
n 1 de unos y c es un vector (la) 1 p de constantes. Se trata de encontrar
b; T; c, de modo que Y sea lo ms prximo posible a Y en el sentido de
que tr[(Y Y )0 (Y Y )] =mnimo. Es decir, para cada par de columnas
xj ; yj se desea hallar el vector
yj = bT0 xj + cj 1
lo ms prximo posible a yj :
Si X;Y son las matrices centradas, obtenemos primero la descomposicin
singular
0
X Y = UDs V0 :
Indicando M1=2 = F 1=2 F0 ; siendo M = F F0 la descomposicin espectral
0
0
de la matriz simtrica M = X Y Y X; la solucin es
0

b = tr(X Y Y X)1=2 =tr(X X);

T = UV0 ;

c=y

bxT:

Una medida del grado de relacin lineal entre X e Y, llamada coeciente


procrustes, y que toma valores entre 0 y 1, es
0

2
PXY
= [tr(X Y Y X)1=2 ]2 =[tr(X X)tr(Y Y)]:

(1.8)

Este coeciente se puede expresar tambin en trminos de matrices de covarianzas, pero no es invariante por transformaciones lineales aplicadas por
separado a X y a Y.
Si p = 1 el anlisis procrustes equivale a la regresin lineal y = bx +
y bx; siendo b = sxy =s2x y PXY = sxy =(sx sy ) los coecientes de regresin y
correlacin ordinarios.

1.11. EJEMPLOS

23
N
72
60
56
41
32
30
39
42
37
33
32
63
54
47

E
66
53
57
29
32
35
39
43
40
29
30
45
46
51

S W
76 77
66 63
64 58
36 38
35 36
34 26
31 27
31 25
31 25
27 36
34 28
74 63
60 52
52 43

N
91
56
79
81
78
46
39
32
60
35
39
50
43
48

E
S W
79 100 75
68 47 50
65 70 61
80 68 58
55 67 60
38 37 38
35 34 37
30 30 32
50 67 54
37 48 39
36 39 31
34 37 40
37 39 50
54 57 43

Tabla 1.1: Depsitos de corcho (centigramos) de 28 alcornoques en las cuatro


direcciones cardinales.

1.11.

Ejemplos

Ejemplo 1.11.1
La Tabla 1.1 contiene los datos de n = 28 alcornoques y p = 4 variables,
que miden los depsitos de corcho (en centigramos) en cada uno de los cuatro
puntos cardinales: N, E, S, W.

Medias, covarianzas y correlaciones


Vector de medias: x0 =(50;536; 46;179; 49;679; 45;179):
Matriz de covarianzas y de correlaciones:
0

1
280 216 278 218
B
212 221 165 C
C;
S=B
@
337 250 A
218

1
1 0;885 0;905 0;883
B
1
0;826 0;769 C
C:
R=B
@
1
0;923 A
1
0

24

CAPTULO 1. DATOS MULTIVARIANTES

Figura 1.1: Distribucin de las variables N, E, S, W y relaciones entre cada


par de variables de la Tabla 1.1.
Variables compuestas
Las siguientes variables compuestas explican diferentes aspectos de la
variabilidad de los datos:
Contraste eje N-S con eje E-W: Y1 = N + S
Contraste N-S:
Y2 = N S
Contraste E-W:
Y3 = E W

Media
8.857
0.857
1.000

Varianza
124.1
61.27
99.5

Diremos que una variable compuesta est normalizada si la suma de


cuadrados de sus coecientes es 1. La normalizacin evita que la varianza
tome un valor arbitrario. La normalizacin de Y1 ; Y2 ; Y3 da:
Z1 =
Z2 =
Z3 =

(N + S pE W )=2
(N S)= p2
(E W )= 2

Media Varianza:
4.428
31.03
0.606
30.63
0.707
49.75

La normalizacin de las variables consigue que stas tengan varianzas ms


homogneas. La media de Z1 sugiere que la principal direccin de variabilidad
se pone de maniesto al comparar el eje N-S con el eje E-W.

1.11. EJEMPLOS

25

Visualizacin de datos
En los captulos siguientes veremos mtodos y tcnicas de visualizacin de
datos multivariantes. Como norma general es conveniente, antes de realizar
el anlisis, examinar y revisar los datos. La Figura 1.1 contiene un grco
que permite visualizar la distribucin de las 4 variables de la Tabla 1.1 y las
relaciones lineales, o regresin lineal, entre cada par de variables.
Ejemplo 1.11.2
Se consideran n = 25 familias y se miden las variables (vase la Tabla
1.2):
X1 = long. cabeza primer hijo, X2 = anchura cabeza primer hijo,
Y1 = long. cabeza segundo hijo, Y2 = anchura cabeza segundo hijo.
Efectuando un anlisis procrustes para estudiar el grado de coincidencia
de la matriz X (dos primeras columnas) con la matriz Y (tercera y cuarta
columna), se obtienen los vectores de medias
x = (187;4; 151;12);

y=(183;32; 149;36);

los valores b = 0;7166; c = (57;65; 31;17) y la matriz de rotacin


T=

0;9971 0;0761
0;0761 0;9971

Los primeros 4 valores de las matrices Y y la transformacin procrustes


Y = bXT + 1c; son:
Y1
179
201
185
188

Y2
145
152
149
149

Y1
185;6
188;8
178;9
180;0

2
El coeciente procrustes es PXY
= 0;5508:

Y2
152;3
148;2
146;8
150;4

26

CAPTULO 1. DATOS MULTIVARIANTES


X1
191
195
181
183
176
208
189
197
188
192
186
179
195

X2
155
149
148
153
144
157
150
159
152
150
161
147
153

Y1
179
201
185
188
171
192
190
189
197
187
179
183
174

Y2
145
152
149
149
142
152
149
152
159
151
158
147
150

X1
202
194
163
195
186
181
175
192
174
176
197
190

X2
160
154
137
155
153
145
140
154
143
139
167
153

Y1
190
188
161
183
173
182
165
185
178
176
200
187

Y2
159
151
130
158
148
146
137
152
147
143
158
150

Tabla 1.2: Longitud y anchura del primer y segundo hijo en 25 familias.

1.12.

Complementos

La descomposicin en valores singulares de una matriz es una idea sencilla pero muy til en Anlisis Multivariante. Generaliza los vectores y valores
propios de una matriz, permite calcular inversas generalizadas y es fundamental en Anlisis de Correlacin Cannica y en Anlisis de Correspondencias.
Vase Golub y Reinsch (1970).
La aproximacin de una matriz por otra de rango inferior se debe a Eckart
y Young (1936), y es la versin matricial de la reduccin de la dimensin,
uno de los objetivos tpicos del Anlisis Multivariante.
La transformacin procrustes fue estudiada independientemente por N.
Cli y P. H. Schonemann en 1966. Permite transformar una matriz en otra
y estudiar el grado de coincidencia entre dos matrices de datos, mediante
una generalizacin multivariante de la ecuacin de regresin. Vase Gower
(1971b), Mardia (1979) y Seber (1984).

Captulo 2
NORMALIDAD
MULTIVARIANTE
2.1.

Introduccin

Los datos en AM suelen provenir de una poblacin caracterizada por


una distribucin multivariante. Sea X =(X1 ; : : : ; Xp ) un vector aleatorio con
distribucin absolutamente continua y funcin de densidad f (x1 ; : : : ; xp ): Es
decir, f verica:
1) fR (x1 ; : : : ; xp ) 0; para todo (x1 ; : : : ; xp ) 2 Rp :
2) Rp f (x1 ; : : : ; xp )dx1
dxp = 1:
Conocida f (x1 ; : : : ; xp ) podemos encontrar la funcin de densidad de cada
variable marginal Xj mediante la integral
Z
fj (xj ) = f (x1 ; : : : ; xj ; : : : ; xp )dx1
dxj 1 dxj+1
dxp :
Como en el caso de una matriz de datos, es importante el vector de medias
= (E(X1 ); : : : ; E(Xp ))0 ;
donde E(Xj ) es la esperanza de la variable marginal Xj ; y la matriz de
covarianzas = ( ij ); siendo ij =cov(Xi ; Xj ); ii =var(Xi ): Teniendo en
cuenta que los elementos de la matriz (X )(X )0 ; de orden p p; son
(Xi
i )(Xj
j ) y que cov(Xi ; Xj ) = E(Xi
i )(Xj
j ); la matriz de
covarianzas = ( ij ) es
= E[(X

)(X
27

)0 ]:

28

CAPTULO 2. NORMALIDAD MULTIVARIANTE

En este captulo introducimos y estudiamos la distribucin normal multivariante y tres distribuciones relacionadas con las muestras multivariantes:
Wishart, Hotelling y Wilks.

2.2.

Distribucin normal multivariante

2.2.1.

Denicin

Sea X una variable aleatoria con distribucin N ( ;


y varianza 2 : La funcin de densidad de X es:
f (x; ;

1
)= p e
2

1
(x
2

)2 =

( 2 ) 1=2
p
e
2

); es decir, con media

1
(x
2

1
2 (x

(2.1)

Evidentemente se verica:
X=

+ Y

donde Y

(2.2)

N (0; 1);

donde el smbolo signica distribuido como.


Vamos a introducir la distribucin normal mutivariante Np ( ; ) como
una generalizacin de la normal univariante. Por una parte, (2.1) sugiere
denir la densidad de X = (X1 ; : : : ; Xp )0 Np ( ; ) segn:
j j 1=2
f (x; ; ) = p
e
( 2 )p

1
(x
2

)0

1 (x

(2.3)

siendo x = (x1 ; : : : ; xp )0 ; = ( 1 ; : : : ; p )0 y
= ( ij ) una matriz denida
positiva, que como veremos, es la matriz de covarianzas. Por otra parte,
(2.2) sugiere denir la distribucin X = (X1 ; : : : ; Xp )0 Np ( ; ) como una
combinacin lineal de p variables Y1 ; : : : ; Yp independientes con distribucin
N (0; 1)
X1 = 1 + a11 Y1 +
+ a1p Yp ;
..
..
(2.4)
.
.
Xp = p + ap1 Y1 +
+ app Yp ;
que podemos escribir como
X = +AY
siendo Y =(Y1 ; : : : ; Yp )0 y A = (aij ) una matriz p

(2.5)
p que verica AA0 = :

2.2. DISTRIBUCIN NORMAL MULTIVARIANTE

29

Proposicin 2.2.1 Las dos deniciones (2.3) y (2.4) son equivalentes.


Demost.: Segn la frmula del cambio de variable
fX (x1 ; : : : ; xp ) = fY (y1 (x); : : : ; yp (x))

@y
;
@x
@y
@x

siendo yi = yi (x1 ; : : : ; xp ), i = 1; : : : ; p, el cambio y J =


cambio. De (2.5) tenemos
y = A 1 (x

))

el jacobiano del

@y
= jA 1 j
@x

y como las p variables Yi son N (0; 1) independientes:


p
1 Pp
2
fX (x1 ; : : : ; xp ) = (1= 2 )p e 2 i=1 yi jA 1 j:
1

Pero

= (A 1 )0 (A 1 ) y por lo tanto

y0 y = (x

)0 (A 1 )0 (A 1 )(x

)0

) = (x

Substituyendo (2.7) en (2.6) y de jA 1 j2 = j j

2.2.2.

(2.6)

(x

):

(2.7)

obtenemos (2.3).

Propiedades

1. De (2.5) es inmediato que E(X) = y que la matriz de covarianzas es


E[(X

)(X

)0 ]=E(AYY0 A0 ) = AIp A0 = :

2. La distribucin de cada variable marginal Xi es normal univariante:


Xi

N ( i;

ii );

i = 1; : : : ; p:

Es consecuencia de la denicin (2.4).


3. Toda combinacin lineal de las variables X1 ; : : : ; Xp
Z = b0 + b1 X1 +

+ bp Xp

es tambin normal univariante. En efecto, de (2.4) resulta que Z es


combinacin lineal de N (0; 1) independientes.

30

CAPTULO 2. NORMALIDAD MULTIVARIANTE


4. Si =diag( 11 ; : : : ; pp ) es matriz diagonal, es decir, ij = 0; i 6= j; entonces las variables (X1 ; : : : ; Xp ) son estocsticamente independientes.
En efecto, la funcin de densidad conjunta resulta igual al producto de
las funciones de densidad marginales:
f (x1 ; : : : ; xp ; ; ) = f (x1 ;

1;

11 )

f (xp ;

p;

pp )

5. La distribucin de la forma cuadrtica


)0

U = (x

(x

es
con p grados de libertad. En efecto, de (2.5) U = Y0 Y =
Ppji-cuadrado
2
i=1 Yi es suma de los cuadrados de p variables N (0; 1) independientes.

2.2.3.

Caso bivariante

Cuando p = 2; la funcin de densidad de la normal bivariante se puede


expresar en funcin de las medias y varianzas 1 ; 21 ; 2 ; 22 y del coeciente
de correlacin =cor(X1 ; X2 ) :
f (x1 ; x2 ) =
exp [
siendo

1<

2 1
1 1
21

1p

2
2

1
(x1

2
1

1)

(x1

1)

(x2

2)

+ (x2

2
2

2)

g];

< +1: (Figura 2.1). Se verica:

1. Hay independencia estocstica si y slo si

= 0:

2. La distribucin de la variable marginal Xi es N ( i ;

2
i ); i

= 1; 2.

3. La funcin de densidad de X2 condicionada a X1 = x1 es


f (x2 jx1 ) =

1
p
2 (1
2

2)

exp[

[(x2

densidad de la distribucin normal N (

2+

( 2 = 1 )(x1
2
2)
2 2 (1

( 2 = 1 )(x1

1 );

2
1 )]

2
2 (1

];
2

)):

4. La regresin es de tipo lineal, es decir, las curvas de regresin de la


media
x2 = E(X2 jX1 = x1 );
x1 = E(X1 jX2 = x2 );
son las rectas de regresin.

2.3. DISTRIBUCIN DE WISHART

31

Figura 2.1: Funcin de densidad de una distribucin normal bivariante de


medias 1 y 1, desviaciones tpicas 2 y 2, coeciente de correlacin 0.8.

2.3.

Distribucin de Wishart

La distribucin de Wishart es la que sigue una matriz aleatoria simtrica


denida positiva, generaliza la distribucin ji-cuadrado y juega un papel importante en inferencia multivariante. Un ejemplo destacado lo constituye la
distribucin de la matriz de covarianzas S; calculada a partir de una matriz
de datos donde las las son observaciones normales multivariantes.
Denicin
Si las las de la matriz Zn p son independientes Np (0; ) entonces diremos
que la matriz Q = Z0 Z es Wishart Wp ( ; n); con parmetros y n grados
de libertad.
Textos avanzados prueban que cuando es denida positiva y n p; la
densidad de Q es
f (Q) =cjQj(n

p 1)

exp[

siendo
c

= 2np=2

p(p 1)=4

j jn=2

p
Q

i=1

1
tr(
2

Q)];

1
( (n + 1
2

i)):

32

CAPTULO 2. NORMALIDAD MULTIVARIANTE

Propiedades:
1. Si Q1 ; Q2 son independientes Wishart Wp ( ; m); Wp ( ; n); entonces la
suma Q1 + Q2 es tambin Wishart Wp ( ; m + n):
2. Si Q es Wishart Wp ( ; n); y separamos las variables en dos conjuntos
y consideramos las particiones correspondientes de las matrices y Q
=
entonces Q11 es Wp (

11

12

21

22

11 ; n)

Q=

y Q22 es Wp (

Q11 Q12
Q21 Q22

22 ; n):

3. Si Q es Wishart Wp ( ; n) y T es una matriz p q de constantes, entonces T0 QT es Wq (T0 T; n): En particular, si t es un vector, entonces
t0 Qt
t0 t

2.4.

es

2
n:

Distribucin de Hotelling

Indiquemos por Fnm la distribucin F de Fisher-Snedecor , con m y n grados de libertad en el numerador y denominador, respectivamente. El smbolo
signica distribuido como.
La distribucin de Hotelling es una generalizacin multivariante de la
distribucin t de Student.
Denicin
Si y es Np (0; I); Q es Wishart Wp (I; m) y adems y; Q son independientes,
entonces
T 2 = my0 Q 1 y
sigue la distribucin T 2 de Hotelling, que se indica por T 2 (p; m):
Propiedades:
1. Si x es Np ( ; ) independiente de M que es Wp ( ; m), entonces
T 2 = m(x

)0 M 1 (x

T 2 (p; m):

2.5. DISTRIBUCIN DE WILKS

33

2. T 2 est directamente relacionada con la distribucin F de Fisher-Snedecor


mp
T 2 (p; m)
Fp
:
m p + 1 m p+1
3. Si x; S son el vector de medias y la matriz de covarianzas de la matriz
Xn p con las independientes Np ( ; ); entonces
(n
y por lo tanto

)0 S 1 (x

1)(x
n

p
p

(x

T 2 (p; n

)0 S 1 (x

1);

Fnp p :

4. Si x; S1 ;y; S2 son el vector de medias y la matriz de covarianzas de


las matrices Xn1 p ; Yn2 p ; respectivamente, con las independientes
Np ( ; ); y consideramos la estimacin conjunta centrada (o insesgada)
de
b (n1 S1 + n2 S2 )=(n1 + n2 2);
S=
entonces

T2 =

y por lo tanto

n1 n2
b 1 (x
(x y)0 S
n1 + n2

n1 + n2 1 p 2
T
(n1 + n2 2)p

2.5.

y)

T 2 (p; n1 + n2

Fnp1 +n2

2)

1 p:

Distribucin de Wilks

La distribucin F con m y n grados de libertad surge considerando el


cociente
A=m
F =
;
B=n
donde A; B son ji-cuadrados estocsticamente independientes con m y n grados de libertad. Si consideramos la distribucin
A
=
;
A+B
la relacin entre y Fnm ; as como la inversa Fmn , es
m1
n
;
Fmn =
:
Fnm =
m1
n
La distribucin de Wilks generaliza esta relacin.

34

CAPTULO 2. NORMALIDAD MULTIVARIANTE

Denicin
Si las matrices A; B de orden p p son independientes Wishart Wp ( ; m);
Wp ( ; n), respectivamente, con m p; la distribucin del cociente de determinantes
jAj
=
jA + Bj
es, por denicin, la distribucin lambda de Wilks, que indicaremos por
(p; m; n):
Propiedades:
1. 0
1 y adems
no depende de
estudiarla suponiendo = I:

: Por lo tanto, podemos

2. Su distribucin es equivalente a la del producto de n variables beta


independientes:
n
Q
(p; m; n)
Ui ;
i=1

donde Ui es beta

B( 21 (m + i

p);

1
p):
2

(Obsrvese que debe ser m

p):

3. Los parmetros se pueden permutar manteniendo la misma distribucin. Concretamente: (p; m; n)


(n; m + n p; p):
4. Para valores 1 y 2 de p y n; la distribucin de
F, segn las frmulas:
1

m
n

Fmn

m p+1
p

Fmp

p
1p
p
1p

m 1
n
m p+1
p

(p = 1)
p+1

2n
F2(m
2p
F2(m

equivale a la distribucin

(n = 1)

1)

(p = 2)

p+1)

(n = 2)

(2.8)

5. En general, una transformacin de equivale, exacta o asintticamente,


a la distribucin F: Si (p; n q; q) es Wilks con n relativamente grande,
consideremos
1=s
ms 2 1
F =
(2.9)
1=s
pq
p
con m = n (p+q+1)=2, = (pq 2)=4; s = (p2 q 2 4)=(p2 + q 2 5):
Entonces F sigue asintticamente la distribucin F con pq y (ms 2 )
g. de lib. (Rao, 1973, p.556).

2.6. RELACIONES ENTRE WILKS, HOTELLING Y F

35

y 0.20
0.15
0.10
0.05
0.00
0.0

0.2

0.4

0.6

0.8

1.0

Figura 2.2: Un ejemplo de funcin de densidad lambda de Wilks.

2.6.

Relaciones entre Wilks, Hotelling y F

2
2
A. Probemos la relacin entre y F cuando p = 1: Sean A
n
m; B
independientes. Entonces = A=(A + B)
(1; m; n) y F = (n=m)A=B =
(n=m)F
Fnm : Tenemos que
= (A=B)=(A=B + 1) = F =(1 + F ); luego
F = =(1 ) ) (n=m) =(1 ) Fnm : Mas si F Fnm entonces 1=F Fmn :
Hemos demostrado que:

(1; m; n) m
(1; m; n) n

Fmn :

(2.10)

B. Recordemos que y es un vector columna y por lo tanto yy0 es una matriz


p p. Probemos la relacin entre las distribuciones T 2 y F: Tenemos T 2 =
my0 Q 1 y; donde Q es Wp (I;m); y yy0 es Wp (I;1): Se cumple
jQ + yy0 j = jQjj1+y0 Q

yj;

que implica
1+y0 Q

y = jQ + yy0 j=jQj = 1= ;

donde = jQj=jQ + yy0 j


(p; m; 1)
(1; m+1 p; p): Adems y0 Q 1 y =
p
1=
1 = (1
)= : De (2.10) tenemos que y0 Q 1 y(m + 1 p)=p Fm+1
p
y por lo tanto
mp
Fp
:
T 2 = my0 Q 1 y
m + 1 p m+1 p

36

CAPTULO 2. NORMALIDAD MULTIVARIANTE

2.7.

Distribucin multinomial

Supongamos que la poblacin es la reunin disjunta de k sucesos excluyentes A1 ; : : : ; Ak ;


= A1 +
+ Ak ;
con probabilidades positivas P (A1 ) = p1 ; : : : ; P (Ak ) = pk ; vericando
p1 +

+ pk = 1:

Consideremos n observaciones independientes y sea (f1 ; : : : ; fk ) el vector con


las frecuencias observadas de A1 ; : : : ; Ak ; siendo
f1 +

(2.11)

+ fk = n:

La distribucin multinomial es la distribucin de f = (f1 ; : : : ; fk ) con funcin


de densidad discreta
f (f1 ; : : : ; fk ) =

n!
f1 !

fk !

pf11

pfkk :

En el caso k = 2 tenemos la distribucin binomial.


Indiquemos p = (p1 ; : : : ; pk )0 :
1. El vector de medias de f es = np:
2. La matriz de covarianzas de f es C = n[diag(p)

pp0 ): Es decir:

cii = npi (1 pi );
cij = npi pj
si i 6= j:
Pue sto que C1 = 0; la matriz C es singular. La singularidad se debe a
que se verica (2.11). Ua g-inversa de C es (vase Seccin 1.10):
C =
Puesto que C(I

1
diag(p1 1 ; : : : ; pk 1 ):
n

110 ) = C, es fcil ver que otra g-inversa es


C =

1
diag(p1 1 ; : : : ; pk 1 )(I
n

110 ):

(2.12)

2.8. DISTRIBUCIONES CON MARGINALES DADAS

2.8.

37

Distribuciones con marginales dadas

Sea H(x; y) la funcin de distribucin bivariante de dos variables aleatorias (X; Y ): La funcin H es
H(x; y) = P (X

x; Y

y):

Consideremos las distribuciones marginales, es decir, las distribuciones univariantes de X y de Y :


F (x) = P (X
G(y) = P (Y

x) = H(x; 1);
y) = H(1; y):

Un procedimiento para la obtencin de modelos de distribuciones bivariantes


consiste en encontrar H a partir de F; G y posiblemente algn parmetro.
Si suponemos X; Y independientes, una primera distribucin es
H 0 (x; y) = F (x)G(y):
M. Frchet introdujo las distribuciones bivariantes
H (x; y) = maxfF (x) + G(y)
H + (x; y) = m nfF (x); G(y)g

1; 0g;

y demostr la desigualdad
H (x; y)

H(x; y)

H + (x; y):

Cuando la distribucin es H ; entonces se cumple la relacin funcional entre


X; Y
F (X) + G(Y ) = 1:
y la correlacin entre X; Y (si existe)
es mnima. Cuando la distribucin
es H + , entonces se cumple la relacin funcional entre X; Y
F (X) = G(Y )
y la correlacin entre X; Y (si existe) + es mxima. Previamente W. Hoeding haba probado la siguiente frmula para la covarianza
Z
cov(X; Y ) =
(H(x; y) F (x)G(y))dxdy
R2

38

CAPTULO 2. NORMALIDAD MULTIVARIANTE

y demostrado la desigualdad
+

donde
; y + son las correlaciones entre X; Y cuando la distribucin
bivariante es H ; H y H + ; respectivamente.
Posteriormente, diversos autores han propuesto distribuciones bivariantes
paramtricas a partir de las marginales F; G, que en algunos casos contienen a
H ; H 0 y H + : Escribiendo F; G; H para indicar F (x); G(y); H(x; y); algunas
familias son:
1. Farlie-Gumbel-Morgenstern:
H = F G[1 + (1

F )(1

G)];

1:

2. Clayton-Oakes:
H = [F

+G

1]

1=

< 1:

3. Ali-Mikhail-Haq:
H = F G=[1

(1

F )(1

G)]

1:

4. Cuadras-Aug:
H = (m nfF; Gg) (F G)1 ;

1:

5. Familia de correlacin:
H (x; y) = F (m nfx; yg) + (1
siendo J(y) = [G(y)
variante.

2.9.

F (y))=(1

)F (x)J(y);

1;

) una funcin de distribucin uni-

Complementos

La distribucin normal multivariante es, con diferencia, la ms utilizada


en anlisis multivariante. Textos como Anderson (1956), Rao (1973), Rencher
(1995, 1998), se basan, casi exclusivamente, en la suposicin de normalidad.

2.9. COMPLEMENTOS

39

Ms recientemente se han estudiado generalizaciones, como las distribuciones


elpticas, cuya densidad es de la forma
f (x) = j j

1=2

g((x

)0

(x

));

donde g es una funcin positiva creciente. Otras distribuciones importantes


son la multinomial y la Dirichlet.
Cuando se estudiaron muestras normales multivariantes, pronto se plante
la necesidad de encontrar la distribucin de la matriz de covarianzas, y de
algunos estadsticos apropiados para realizar contrastes de hiptesis multivariantes. As fue como J. Wishart, H. Hotelling y S. S. Wilks propusieron
las distribuciones que llevan sus nombres, en los aos 1928, 1931 y 1932,
respectivamente.
El estudio de las distribuciones con marginales dadas proporciona un
mtodo de construccin de distribuciones univariantes y multivariantes. Algunas referencias son: Hutchinson y Lai (1990), Joe (1997), Nelsen (2006),
Cuadras y Aug (1981), Cuadras (1992a, 2006, 2009). La frmula de Hoeding admite la siguiente generalizacin (Cuadras, 2002, 2010):
Z
(H(x; y) F (x)G(y))d (x)d (y):
cov( (X); (Y )) =
R2

Vase tambin Quesada-Molina (1992).

40

CAPTULO 2. NORMALIDAD MULTIVARIANTE

Captulo 3
INFERENCIA
MULTIVARIANTE
3.1.

Conceptos bsicos

Sea f (x; ) un modelo estadstico. La funcin scorese dene como


@
log f (x; ):
@
Una muestra multivariante est formada por las n las x01 ; : : : ; x0n independientes de una matriz de datos Xn p : La funcin de verosimilitud es
z(x; ) =

L(X; ) =

n
Y

f (xi ; ):

i=1

La funcin scorede la muestra es


n
X
@
z(X; ) =
log f (xi ; ):
@
i=1

La matriz de informacin de Fisher F ( ) es la matriz de covarianzas de


z(X; ): Cuando un modelo estadstico es regular se verica:
a) E(z(X; )) = 0:
b) F ( ) =E(z(X; )z(X; )0 ):
Un estimador t(X) de
es insesgado si E(t(X)) = : La desigualdad
de Cramr-Rao dice que si cov(t(X)) es la matriz de covarianzas de t(X),
entonces
cov(t(X)) F ( ) 1 ;
41

42

CAPTULO 3. INFERENCIA MULTIVARIANTE

en el sentido de que la diferencia cov(t(X)) F ( ) 1 es una matriz semidenida positiva.


Un estimador b del parmetro desconocido es mximo verosmil si maximiza la funcin L(X; ): En condiciones de regularidad, podemos obtener b
resolviendo la ecuacin
n
X
@
log f (xi ; ) = 0:
@
i=1

Entonces el estimador mximo verosmil bn obtenido a partir de una muestra


de tamao n satisface:
a) Es asintticamente normal con vector de medias y matriz de covarianzas (nF1 ( )) 1 ; donde F1 ( ) es la matriz de informacin de Fisher para
una sola observacin.
b) Si t(X) es estimador insesgado de tal que cov(t(X)) = (nF1 ( )) 1 ;
entonces bn = t(X):
c) bn converge en probabilidad a :

3.2.

Estimacin de medias y covarianzas

Si las n las x01 ; : : : ; x0n de Xn


de verosimilitud es
L(X; ; ) = det(2
Sea di = xi
Pn
i=1 (xi

n=2

son independientes Np ( ; ) la funcin

exp

1X
(xi
2 i=1
n

)0

(xi

x: Se verica
)0

(xi

) =

Pn

i=1

= tr[

di 0 1 di + n(x
)0 1 (x
)
P
n
1
0
)0 1 (x
i=1 di di ] + n(x

Por lo tanto el logaritmo de L se puede expresar como


n
n
n
log L(X; ; ) =
log det(2 )
tr( 1 S)
(x
2
2
2
Derivando matricialmente respecto de
@
@

log L
@

=n

log L =

n
2

(x
S

y de

)0

tenemos

) = 0;
(x

)(x

)0 ] = 0:

(x

):

):

3.3. CONTRASTE DE HIPTESIS MULTIVARIANTES


Las estimaciones mximo-verosmiles de ;
b = x;

43

son pues

b = S:

Sin embargo S no es estimador insesgado de : La estimacin centrada es


b = X0 HX=(n 1):
S
Si slo es desconocido, la matriz de informacin de Fisher es
F ( ) = E(n

)n

(x

)0 ) = n

(x

y como cov(x) = =n; tenemos que x alcanza la cota de Cramr-Rao.


Probaremos ms adelante que:
1. x es Np ( ; =n):
2. x y S son estocsticamente independientes.
3. nS sigue la distribucin de Wishart.

3.3.

Contraste de hiptesis multivariantes

Un primer mtodo para construir contrastes sobre los parmetros de una


poblacin normal, se basa en las propiedades anteriores, que dan lugar a
estadsticos con distribucin conocida (ji-cuadrado, F).

3.3.1.

Test sobre la media: una poblacin

Supongamos que las las de Xn p son independientes Np ( ; ): Sea 0


un vector de medias conocido. Queremos realizar un test sobre la hiptesis
H0 :
1. Si

es conocida, como x es Np ( ; =n); el estadstico de contraste es


n(x

0
0)

(x

0)

2
p:

2. Si es desconocida, como (n 1)(x )0 S 1 (x )


estadstico de contraste es
n p
(x 0 )0 S 1 (x 0 ) Fnp p :
p

T 2 (p; n

1); el
(3.1)

En ambos casos se rechaza H0 para valores grandes signicativos del estadstico.

44

CAPTULO 3. INFERENCIA MULTIVARIANTE

3.3.2.

Test sobre la media: dos poblaciones

Supongamos ahora que tenemos dos matrices de datos independientes


Xn1 p ; Yn2 p que provienen de distribuciones Np ( 1 ; ); Np ( 2 ; ): Queremos construir un test sobre la hiptesis
H0 :

2:

1. Si
es conocida, como (x y) es Np (
tadstico de contraste es
n1 n2
(x y)0
n1 + n2
2. Si

2 ; (1=n1

(x

2
p:

y)

es desconocida, el estadstico de contraste es


n1 + n2 1 p n1 n2
b 1 (x
(x y)0 S
(n1 + n2 2)p n1 + n2

b = (n1 S1 + n2 S2 )=(n1 + n2
siendo S
insesgada) de :

3.3.3.

+ 1=n2 ) ) el es-

y)

Fnp1 +n2

1 p:

2) la estimacin centrada (o

Comparacin de medias

Supongamos que las las de g matrices de datos son independientes, y


que provienen de la observacin de g poblaciones normales multivariantes:
matriz orden medias covarianzas distribucion
x1
S1
Np ( 1 ; )
X1
n1 p
X2
n2 p
x2
S2
Np ( 2 ; )
..
..
..
..
..
.
.
.
.
.
Xg
ng p
xg
Sg
Np ( g ; )

(3.2)

El vector de medias generales y la estimacin centrada (o insesgada) de


la matriz de covarianzas comn son
g

1X
x=
ni xi ;
n i=1
siendo Si = ni 1 X0i HXi ; n =

Pg

i=1

b =
S

ni :

1
n

g
X
i=1

n i Si ;

3.4. TEOREMA DE COCHRAN

45

Deseamos construir un test para decidir si podemos aceptar la hiptesis


de igualdad de medias
H0 :

g:

Introducimos las siguientes matrices , :


P
B = Pgi=1 P
ni (xi x)(xi x)0
(dispersion entre grupos)
g
W = Pi=1 Pni=1 (xi
xi )(xi
xi )0 (dispersion dentro grupos)
T = gi=1 ni=1 (xi
x)(xi
x)0 (dispersion total)

Se verica que W = (n

b y la relacin:
g)S

T = B + W:

Si la hiptesis nula es cierta, se verica adems


B

Wp ( ; g

1); W

Wp ( ; n

g); T

Wp ( ; n

1);

B; W son estocasticamente independientes:


Por lo tanto, si H0 es cierta
=

jWj
jW + Bj

(p; n

g; g

1):

Rechazaremos H0 si es un valor pequeo y signicativo, o si la transformacin a una F es grande y signicativa.

3.4.

Teorema de Cochran

Algunos resultados de la seccin anterior son una consecuencia del Teorema 3.4.2, conocido como teorema de Cochran.
Lema 3.4.1 Sea X(n p) una matriz de datos Np ( ; ) y u; v dos vectores
n 1 tales que u0 u = v0 v =1; u0 v =0:
1. Si

= 0 entonces y0 = u0 X es Np (0; ):

2. y0 = u0 X es independiente de z0 = v0 X:

46

CAPTULO 3. INFERENCIA MULTIVARIANTE

Demost.: Sean x01 ; : : :P


; x0n las las (independientes) de X: Si u = (u1 ; : : : ; un )0
entonces y0 = u0 X = ni=1 ui xi es normal multivariante con = 0 y matriz
de covarianzas
P
P
P
E(yy0 ) = E( ni=1 ui xi )( ni=1 ui xi )0 = E( ni;j=1 ui uj xi x0j )
P
P
= ni;j=1 ui uj E(xi x0j ) = ni=1 u2i E(xi x0i )
P
= ni=1 u2i = :

0
Anlogamente, si v = (v1 ; : : : ; vn )0 ; z0 = vP
X es tambin normal.
P
Las esperanzas de y; z son: E(y) = ( ni=1 ui ) ; E(z) = ( ni=1 vi ) : Las
covarianzas entre y y z son:
P
)(xj
)0 ]
E[(yPE(y))(z E(z))0 ]= ni=1 ui vj E[(xi
)(xj
)0 ] = u0 v = 0;
= ni=1 ui vi E[(xi

lo que prueba la independencia estocstica entre y y z:

Teorema 3.4.2 Sea X(n


una matriz simtrica.

p) una matriz de datos Np (0; ) y sea C(n

n)

1. X0 CX tiene la misma distribucin que una suma ponderada de matrices


Wp ( ; 1); donde los pesos son valores propios de C:
2. X0 CX es Wishart Wp ( ; r) si y slo si C es idempotente y rang(C) = r:
Demost.: Sea
C=

n
X

0
i ui ui

i=1

la descomposicin espectral de C, es decir, Cui =


X
0
X0 CX =
i yi yi

i ui :

Por el Lema 3.4.1 anterior, las las yi0 de la matriz


0
1 0
1
y10
u01 X
B
C B
C
Y = @ ... A = @ ... A ;
yn0

Entonces

u0n X

son tambin independientes Np (0; ) y cada yi yi0 es Wp ( ; 1):

3.4. TEOREMA DE COCHRAN


Si C2 = C entonces Cui =
y
0

X CX =

i ui
r
X

47
siendo
yi yi0

= 0 1: Por lo tanto r =tr(C)

Wp ( ; r):

i=1

El siguiente resultado se conoce como teorema de Craig, y junto con el


teorema de Cochran, permite construir contrastes sobre vectores de medias.
Teorema 3.4.3 Sea X(n p) una matriz de datos Np ( ; ) y sean C1 (n n);
C2 (n n) matrices simtricas. Entonces X0 C1 X es independiente de X0 C2 X
si C1 C2 = 0:
Demost.:

P
C1 =P ni=1
C2 = nj=1

0
i (1)ui ui ;
0
j (2)vj vj ;

P
X0 C1 X = P
X0 C2 X =

siendo yi0 = u0i X; z0j = vj0 X: Por otra parte


X
0
0
C1 C2 =
i (1) j (2)ui ui vj vj ;

C1 C2 = 0 ) i (1) j (2)u0i vj = 0;

0
i (1)yi yi ;
0
j (2)zj zj ;

8i; j:

Si suponemos i (1) j (2) 6= 0; entonces por el Lema 3.4.1 yi0 (1 p) = u0i X es


independiente de z0j (1 p) = vj0 X: As X0 C1 X es independiente de X0 C2 X:
Una primera consecuencia del teorema anterior es la independencia entre
vectores de medias y matrices de covarianzas muestrales. En el caso univariante p = 1 es el llamado teorema de Fisher.
Teorema 3.4.4 Sea X(n

p) una matriz de datos Np ( ; ): Entonces :

1. La media x es Np ( ; =n):
2. La matriz de covarianzas S = X0 HX=n verica nS

Wp ( ; n

1):

3. x y S son estocsticamente independientes.


Demost.: Consideremos C1 = n 1 110 : Tenemos rang(C1 ) = 1; X0 C1 X =
xx0 : Consideremos tambin C2 = H: Como C1 C2 = 0 deducimos que x es
independiente de S:
Por otra parte, como H2 = H; H1 = 0; rang(H) =n 1; H tiene el valor
propio 1 con multiplicidad n 1: As ui ; vector propio de valor
Pn propio 1;
0
0
0
es ortogonal a 1; resultando que yi = ui X verica E(yi ) = (
=1 ui ) =
(u0i 1) =0 = 0: Si uj es otro
vector
propio,
y
;
y
son
independientes
(Lema
i
j
Pn 1
0
0
3.4.1). Tenemos que nS = i=1 yi yi ; donde los yi yi son Wp ( ; 1) independientes.

48

CAPTULO 3. INFERENCIA MULTIVARIANTE

Teorema 3.4.5 Sean Xi ; matrices de datosPindependientes de orden ni


con distribucin Np ( i ; ); i = 1; : : : g; n = gi=1 ni : Si la hiptesis nula
H0 :

es cierta, entonces B; W son independientes con distribuciones Wishart:


B

Wp ( ; g

1);

Wp ( ; n

g):

Demost.: Escribimos las matrices de datos como una nica matriz


3
2
X1
6
7
X = 4 ... 5 :
Xg

Sean

11 = P
(1; : : : ; 1; 0; : : : ; 0); : : : ; 1g = (0; : : : 0; 1; : : : 1);
1 = gi=1 1i = (1; : : : ; 1; : : : ; 1; : : : ; 1);

donde 11 tiene n1 unos y el resto ceros, etc. Sean tambin


P
Ii = diag(1i ); I = gi=1 Ii ;
Hi = IP
ni 1 1i 10i
i
P
g
C1 = i=1 Hi ; C2 = gi=1 ni 1 1i 10i n 1 110 :
Entonces

C1 C2 = 0;
C22 = C2 ;
C21 = C1 ;
rang(C1 ) = n g;
rang(C2 ) = g 1;
W = X0 C1 X;
B = X0 C2 X:
El resultado es consecuencia de los Teoremas 3.4.2 y 3.4.3.

3.5.
3.5.1.

Construccin de contrastes de hiptesis


Razn de verosimilitud

Supongamos que la funcin de densidad de (X1 ; : : : ; Xp ) es f (x; ); donde


x 2Rp y 2 ; siendo
una regin paramtrica de dimensin geomtrica

3.5. CONSTRUCCIN DE CONTRASTES DE HIPTESIS

49

r: Sea 0
una subregin paramtrica de dimensin s, y planteamos el
test de hiptesis
H0 :

vs H1 :

0:

Sea x1 ; : : : ; xn una muestra de valores independientes de X , consideremos


la funcin de verosimilitud
L(x1 ; : : : ; xn ; ) =

n
Y

f (x; )

i=1

y sea b el estimador mximo verosmil de 2 : Consideremos anlogamente b0 , el estimador de mxima verosimilitud de 2 0 : Tenemos que b
maximiza L sin restricciones y b0 maximiza L cuando se impone la condicin
de que pertenezca a 0 : La razn de verosimilitud es el estadstico
R

L(x1 ; : : : ; xn ; b0 )
;
L(x1 ; : : : ; xn ; b)

que satisface 0
1: Aceptamos la hiptesis H0 si R es prxima a 1 y
R
aceptamos la alternativa H1 si R es signicativamente prximo a 0.
El test basado en R tiene muchas aplicaciones en AM, pero en la mayora
de los casos su distribucin es desconocida. Existe un importante resultado
(atribuido a Wilks), que dice que la distribucin de -2 veces el logaritmo de
s g.l. cuando el tamao de la muestra n es grande.
R es ji-cuadrado con r
Teorema 3.5.1 Bajo ciertas condiciones de regularidad, se verica:
2 log
donde s = dim(

0)

es asintticamente

2
r s;

< r = dim( ).

Entonces rechazamos la hiptesis H0 cuando


nicativo. Veamos dos ejemplos.

2 log

sea grande y sig-

Test de independencia
Si (X1 ; : : : ; Xp ) es N ( ; ); y queremos hacer un test sobre la independencia estocstica de las variables, entonces
0

= f( ; 0 )g; s = 2p;
= f( ; )g; r = p + p(p + 1)=2;

50

CAPTULO 3. INFERENCIA MULTIVARIANTE

donde 0 es diagonal. 0 contiene las p medias de las variables y las p


varianzas.
es cualquier matriz denida positiva. Se demuestra (Seccin
5.4.2) que
2 log R = n log jRj;
donde R es la matriz de correlaciones. El estadstico
camente ji-cuadrado con
q = p + p(p + 1)=2

2p = p(p

n log jRj es asintti-

1)=2 g.l.

Si las variables son independientes, tendremos que R


es probable que 2q = n log jRj no sea signicativo.

I;

n log jRj

0; y

Test de comparacin de medias


Consideremos el test de comparacin de medias planteado en la Seccin
3.3.3. Ahora
0

= f( ; )g;
= f( 1 ; : : : ;

s = p + p(p + 1)=2;
);
)g;
r
= gp + p(p + 1)=2;
g

donde es matriz denida positiva y (vector) es la media comn cuando


H0 es cierta. Hay gp + p(p + 1)=2 parmetros bajo H1 ; y p + p(p + 1)=2 bajo
H0 : Se demuestra la relacin
R

n=2

donde = jWj=jTj es la lambda de Wilks y n = n1 +


n log es asintticamente ji-cuadrado con r s = (g
hiptesis H0 es cierta.

3.5.2.

+ ng . Por lo tanto
1)p g.l. cuando la

Principio de unin-interseccin

Es un principio general que permite construir contrastes multivariantes a


partir de contrastes univariantes y se aplica a diversa situaciones. Como ejemplo, planteemos la hiptesis nula multivariante H0 : = 0 como un test univariante. Sea Xa = Xa una variable compuesta con media (a) = a: El test
univariante H0 (a) : (a) = 0 (a) contra la alternativa H1 (a) : (a) 6= 0 (a) se
resuelve mediante la t de Student
p
x(a)
0 (a)
tn 1
t(a) = n 1
s(a)

3.5. CONSTRUCCIN DE CONTRASTES DE HIPTESIS

51

donde x(a) = x0 a es la media muestral de Xa y s2 (a) = a0 Sa es la varianza.


Aceptaremos H0 : = 0 si aceptamos todas las hiptesis univariantes H0 (a),
y nos decidiremos por la alternativa H1 : 6= 0 si aceptamos una sola de las
alternativas H1 (a), es decir, formalmente (principio de unin-interseccin):
H0 = \H0 (a);

H1 = [H1 (a):

As rechazaremos H0 si la mxima t(a) resulta signicativa. Pues bien, la T 2


de Hotelling (Seccin 3.3.1) es precisamente el cuadrado de esta mxima t
de Student, la cual, al ser tomada sobre todas las combinaciones lineales, ya
no sigue la distribucin t de Student si p > 1.
Teorema 3.5.2 En el test sobre el vector de medias, la T 2 de Hotelling y la
t de Student estn relacionadas por
T 2 = maxt2 (a):
a

Demost.: (x

0)

es un vector columna y podemos escribir t2 (a) como


2

t (a) = (n
Sea A = (x
0 )(x
Av1 = 1 Sv1 entonces

0
0)

1)

a0 (x

0
0) a

0 )(x
a0 Sa

matriz de orden p

p y rango 1: Si v1 satisface

v0 Av
:
1
v v0 Sv
0
1
0 ) v1 = 1 Sv1 resulta que S (x
= max

De (x
0 )(x
y de la identidad
S 1 (x
vemos que

0 )(x
1

0
1
0 ) (S (x

0 ))

0
1
0 ) S (x

= (x

T 2 = maxt2 (a) = (n
a

= (x

0 ); v1

1)(x

0 )(x

0
1
0 ) S (x

= S 1 (x
0
1
0 ) S (x

0 ):

0 )(S

0
0 ) v1

(x

Por lo tanto
0 ):

1 v1

0 ))

52

CAPTULO 3. INFERENCIA MULTIVARIANTE


Amerohelea fascinata
n1 = 9
X1 X2
1;38 1;64
1;40 1;70
1;24 1;72
1;36 1;74
1;38 1;82
1;48 1;82
1;54 1;82
1;38 1;90
1;56 2;08

A. pseudofascinata
n2 = 6
X1 X2
1;14 1;78
1;20 1;86
1;18 1;96
1;30 1;96
1;26 2;00
1;28 2;00

Tabla 3.1: X1 = long. antena, X2 = long. ala (en mm), para dos muestras de
tamao n1 = 9 y n2 = 6;.

3.6.

Ejemplos

Ejemplo 3.6.1
Se desean comparar dos especies de moscas de agua: Amerohelea fascinata, Amerohelea pseudofascinata. En relacin a las variables X1 = long.
antena, X2 = long. ala (en mm), para dos muestras de tamaos n1 = 9 y
n2 = 6; se han obtenido las matrices de datos de la Tabla 3.1.

Vectores de medias (valores multiplicados por 100):


x= (141;33; 180;44);

y = (122;67; 192;67):

Matrices de covarianzas:
S1 =

98;00 80;83
80;83 167;78

S2 =

39;47 43;47
43;47 77;87

Estimacin centrada de la matriz de covarianzas comn:


b 1 (8S1 + 5S2 ) =
S=
13

75;49 66;46
66;46 133;81

3.6. EJEMPLOS

53

Distancia de Mahalanobis entre las dos muestras:


D2 = (x
Estadstico T 2 :
T2 =
Estadstico F :

b 1 (x
y)S

y)0 = 15;52:

6 9 2
D = 55;87
6+9

9+6 1 2 2
T = 25;78
2(9 + 6 2)

2
F12

Decisin: rechazamos la hiptesis de que las dos especies son iguales (Nivel
de signicacin=0;001):
Ejemplo 3.6.2
Comparacin de las especies virginica, versicolor, setosa de ores del
gnero Iris (datos de R. A. Fisher, Tabla 3.2), respecto a las variables que
miden longitud y anchura de spalos y ptalos:
X1 ; X2 = long:; anch:(sepalos); X3 ; X4 = long:; anch:(petalos):

Vectores de medias y tamaos muestrales:


I. setosa
I. versicolor
I. virginica

(5;006; 3;428; 1;462; 0;246) n1 = 50


(5;936; 2;770; 4;260; 1;326) n2 = 50
(6;588; 2;974; 5;550; 2;026) n3 = 50

Matriz dispersin entre grupos:


0
63;212
19;953 165;17 71;278
B
11;345
57;23
22;932
B =B
@
436;73 186;69
80;413

Matriz dispersin dentro grupos:


0
1
38;956 13;630 24;703 5;645
B
16;962 8;148 4;808 C
C
W =B
@
27;322 6;284 A
6;156

1
C
C
A

54

CAPTULO 3. INFERENCIA MULTIVARIANTE

X1
5.1
4.9
4.7
4.6
5.0
5.4
4.6
5.0
4.4
4.9
5.4
4.8
4.8
4.3
5.8
5.7
5.4
5.1
5.7
5.1
5.4
5.1
4.6
5.1
4.8
5.0
5.0
5.2
5.2
4.7
4.8
5.4
5.2
5.5
4.9
5.0
5.5
4.9
4.4
5.1
5.0
4.5
4.4
5.0
5.1
4.8
5.1
4.6
5.3
5.0

X2
3.5
3.0
3.2
3.1
3.6
3.9
3.4
3.4
2.9
3.1
3.7
3.4
3.0
3.0
4.0
4.4
3.9
3.5
3.8
3.8
3.4
3.7
3.6
3.3
3.4
3.0
3.4
3.5
3.4
3.2
3.1
3.4
4.1
4.2
3.1
3.2
3.5
3.6
3.0
3.4
3.5
2.3
3.2
3.5
3.8
3.0
3.8
3.2
3.7
3.3

X3
1.4
1.4
1.3
1.5
1.4
1.7
1.4
1.5
1.4
1.5
1.5
1.6
1.4
1.1
1.2
1.5
1.3
1.4
1.7
1.5
1.7
1.5
1.0
1.7
1.9
1.6
1.6
1.5
1.4
1.6
1.6
1.5
1.5
1.4
1.5
1.2
1.3
1.4
1.3
1.5
1.3
1.3
1.3
1.6
1.9
1.4
1.6
1.4
1.5
1.4

X4
0.2
0.2
0.2
0.2
0.2
0.4
0.3
0.2
0.2
0.1
0.2
0.2
0.1
0.1
0.2
0.4
0.4
0.3
0.3
0.3
0.2
0.4
0.2
0.5
0.2
0.2
0.4
0.2
0.2
0.2
0.2
0.4
0.1
0.2
0.2
0.2
0.2
0.1
0.2
0.2
0.3
0.3
0.2
0.6
0.4
0.3
0.2
0.2
0.2
0.2

X1
7.0
6.4
6.9
5.5
6.5
5.7
6.3
4.9
6.6
5.2
5.0
5.9
6.0
6.1
5.6
6.7
5.6
5.8
6.2
5.6
5.9
6.1
6.3
6.1
6.4
6.6
6.8
6.7
6.0
5.7
5.5
5.5
5.8
6.0
5.4
6.0
6.7
6.3
5.6
5.5
5.5
6.1
5.8
5.0
5.6
5.7
5.7
6.2
5.1
5.7

X2
3.2
3.2
3.1
2.3
2.8
2.8
3.3
2.4
2.9
2.7
2.0
3.0
2.2
2.9
2.9
3.1
3.0
2.7
2.2
2.5
3.2
2.8
2.5
2.8
2.9
3.0
2.8
3.0
2.9
2.6
2.4
2.4
2.7
2.7
3.0
3.4
3.1
2.3
3.0
2.5
2.6
3.0
2.6
2.3
2.7
3.0
2.9
2.9
2.5
2.8

X3
4.7
4.5
4.9
4.0
4.6
4.5
4.7
3.3
4.6
3.9
3.5
4.2
4.0
4.7
3.6
4.4
4.5
4.1
4.5
3.9
4.8
4.0
4.9
4.7
4.3
4.4
4.8
5.0
4.5
3.5
3.8
3.7
3.9
5.1
4.5
4.5
4.7
4.4
4.1
4.0
4.4
4.6
4.0
3.3
4.2
4.2
4.2
4.3
3.0
4.1

X4
1.4
1.5
1.5
1.3
1.5
1.3
1.6
1.0
1.3
1.4
1.0
1.5
1.0
1.4
1.3
1.4
1.5
1.0
1.5
1.1
1.8
1.3
1.5
1.2
1.3
1.4
1.4
1.7
1.5
1.0
1.1
1.0
1.2
1.6
1.5
1.6
1.5
1.3
1.3
1.3
1.2
1.4
1.2
1.0
1.3
1.2
1.3
1.3
1.1
1.3

X1
6.3
5.8
7.1
6.3
6.5
7.6
4.9
7.3
6.7
7.2
6.5
6.4
6.8
5.7
5.8
6.4
6.5
7.7
7.7
6.0
6.9
5.6
7.7
6.3
6.7
7.2
6.2
6.1
6.4
7.2
7.4
7.9
6.4
6.3
6.1
7.7
6.3
6.4
6.0
6.9
6.7
6.9
5.8
6.8
6.7
6.7
6.3
6.5
6.2
5.9

X2
3.3
2.7
3.0
2.9
3.0
3.0
2.5
2.9
2.5
3.6
3.2
2.7
3.0
2.5
2.8
3.2
3.0
3.8
2.6
2.2
3.2
2.8
2.8
2.7
3.3
3.2
2.8
3.0
2.8
3.0
2.8
3.8
2.8
2.8
2.6
3.0
3.4
3.1
3.0
3.1
3.1
3.1
2.7
3.2
3.3
3.0
2.5
3.0
3.4
3.0

X3
6.0
5.1
5.9
5.6
5.8
6.6
4.5
6.3
5.8
6.1
5.1
5.3
5.5
5.0
5.1
5.3
5.5
6.7
6.9
5.0
5.7
4.9
6.7
4.9
5.7
6.0
4.8
4.9
5.6
5.8
6.1
6.4
5.6
5.1
5.6
6.1
5.6
5.5
4.8
5.4
5.6
5.1
5.1
5.9
5.7
5.2
5.0
5.2
5.4
5.1

X4
2.5
1.9
2.1
1.8
2.2
2.1
1.7
1.8
1.8
2.5
2.0
1.9
2.1
2.0
2.4
2.3
1.8
2.2
2.3
1.5
2.3
2.0
2.0
1.8
2.1
1.8
1.8
1.8
2.1
1.6
1.9
2.0
2.2
1.5
1.4
2.3
2.4
1.8
1.8
2.1
2.4
2.3
1.9
2.3
2.5
2.3
1.9
2.0
2.3
1.8

Tabla 3.2: Longitud y anchura de spalos y ptalos de 3 especies del gnero


Iris: Setosa, Versicolor, Virginica.

3.6. EJEMPLOS

55

Lambda de Wilks:
=

jWj
= 0;02344
jW + Bj

(4; 147; 2)

Transformacin a una F aplicando (2.9):


! F = 198;95

8
F288

Decisin: las diferencias entre las tres especies son muy signicativas.
Ejemplo 3.6.3
Consideremos los siguientes datos (tamaos muestrales, medias, desviaciones tpicas, matrices de covarianzas) de p = 2 variables X (longitud del
fmur), Y (longitud del hmero), obtenidas sobre dos poblaciones (Angloindios, Indios) .
Medias
n1 = 27
n2 = 20
Diferencia
Desv. tpicas

X
460.4
444.3
16.1
23.7

Y
335.1
323.2
11.9
18.2

Matriz covarianzas
b = 561;7 374;2
S
374;2 331;24
Correlacin: r = 0;867

Suponiendo normalidad, los contrastes t de comparacin de medias para


cada variable por separado son:
Variable X
Variable Y

t = 2;302 (45 g.l.) (p = 0;0259);


t = 2;215 (45 g.l.) (p = 0;0318):

A un nivel de signicacin 0; 05 se concluye que hay diferencias signicativas


para cada variable por separado.
Utilicemos ahora las dos variables conjuntamente. La distancia de Mahab 1 d =0;4777; siendo d =(16; 1; 11;9):
lanobis entre las dos poblaciones es d0 S
La T 2 de Hotelling es
T2 =

27 20
0;4777 = 5;488
27 + 20

que convertida en una F da:


F =

27 + 20 1 2
5;488 = 2;685 (2 y 44 g.l.) (p = 0;079):
(27 + 20 2)2

56

CAPTULO 3. INFERENCIA MULTIVARIANTE

Esta F no es signicativa al nivel 0.05. Por lo tanto ambos contrastes univariantes resultan signicativos, pero el test bivariante no, contradiciendo
la creencia de que un test multivariante debera proporcionar mayor signicacin que un test univariante.
Interpretemos geomtricamente esta paradoja (conocida como paradoja
de Rao). Con nivel de signicacin 0,05, y aplicando el test T 2 de Hotelling,
aceptaremos la hiptesis nula bivariante si el vector diferencia d = (x y)0
pertenece a la elipse
n1 n2 0
d
n1 + n2

561; 7 374; 2
374; 2 331; 24

3;2;

donde 3.2 es el punto crtico para una F con 2 y 44 g. l. As pues no hay


signicacin si x; y verican la inecuacin
0; 04 036 9x2

0; 0912 1xy + 0; 06845 6y 2

3;2:

Anlogamente, en el test univariante y para la primera variable x, la


diferncia d = x1 x2 debe vericar
r
n1 n2 d
j
( )j 2;
n 1 + n 2 s1
siendo 2 el valor crtico para una t con 45 g. l. Procederamos de forma similar
para la segunda variable y. Obtenemos as las cuatro rectas
Variable x :

0; 143x =

2;

Variable y :

0; 1862y =

2:

En la Figura 3.1 podemos visualizar la paradoja. Los valores de la diferencia que estn a la derecha de la recta vertical rx son signicativos para
la variable x: Anlogamente los que estn por encima de la recta horizontal
ry lo son para la y: Por otra parte, todos los valores que estn fuera de la
elipse (regin F) son signicativos para las dos variables. Hay casos en que
x; y por separado no son signicativos, pero conjuntamente s. No obstante,
existe una pequea regin por encima de ry y a la derecha de rx que cae
dentro de la elipse. Para los datos del ejemplo, se obtiene el punto sealado
con el signo +, para el cual x e y son signicativas pero no (x; y): As x e y
son signicativas si el punto se encuentra en el cuadrante A. (Una simetra
con respecto al origen nos permitira considerar otras dos rectas y la regin
B).

3.7. ANLISIS DE PERFILES

57

Figura 3.1: Un test de comparacin de poblaciones bivariante puede resultar


menos signicativo que dos test univariantes con las variables marginales.

Pues bien, el test con x y el test con y por separado, son contrastes t
distintos del test T 2 empleado con (x; y); equivalente a una F. Tales contrastes no tienen por qu dar resultados compatibles. Las probabilidades de
las regiones de rechazo son distintas. Adems, la potencia del test con (x; y)
es superior, puesto que la probabilidad de la regin F es mayor que las probabilidades sumadas de las regiones A y B.
Para ms ejemplos de comparacin de medias, consltese Baillo y Gran
(2008).

3.7.

Anlisis de perles

Supongamos que las las de una matriz de datos X(n p) provienen de


una distribucin Np ( ; ): Estamos interesados en establecer una hiptesis
lineal sobre = ( 1 ; : : : ; p )0 : Por ejemplo, que las medias univariantes son
iguales:
H0 :

Esta hiptesis slo tiene sentido si las variables observables son comparables.

58

CAPTULO 3. INFERENCIA MULTIVARIANTE


Consideremos la matriz de orden (p
0

1
B 0
C=B
@
0

1
1

0
1

1)

p
1
0
0 C
C:
A
1

La hiptesis es equivalente a
H0 : C = 0:
Aceptar H0 es lo mismo que decir que las medias de las p 1 variables
X1 X2 ; X2 X3 ; : : : ; Xp 1 Xp son iguales a cero. Por lo tanto aplicaremos
el test de la T 2 de Hotelling a la matriz de datos Y = XC: Bajo la hiptesis
nula
b 0 ) 1 (Cx)
T 2 = (n 1)(Cx)0 (CSC0 ) 1 (Cx) = n(Cx)0 (CSC

T 2 (p 1; n 1);

b la matriz de covarianzas con correccin de sesgo. Aplicando (3.1)


siendo S
con p 1 variables
n

p+1
b 0 ) 1 (Cx)
(Cx)0 (CSC
p 1

Fnp

1
p+1

(3.3)

Rechazaremos la hiptesis nula si el valor F resulta signicativo.


Consideremos los datos del ejemplo 1.11.1. Queremos estudiar si las medias poblacionales de N, E, S, W son iguales. En este caso
0
1
1
1 0
0
1 0 A
C=@ 0 1
0 0
1
1
y la T 2 de Hotelling es :

b 0 ) 1 Cx = 20;74
T 2 = n(Cx)0 (CSC

Bajo la hiptesis nula, sigue una T 2 (3; 23): Convertida en una F se obtiene
F (3; 25) = [25=(27 3)]T 2 = 6;40: El valor crtico al nivel 0;05 es 2;99: Hay
diferencias signicativas a lo largo de las cuatro direcciones cardinales.

3.8. COMPLEMENTOS

3.8.

59

Complementos

C. Stein prob que la estimacin b = x de de la distribucin Np ( ; )


puede ser inadmisible si p 3; en el sentido de que no minimiza
p
X

(bi

2
i) ;

i=1

y propuso una mejora de aquel estimador. B. Efron y C. Morris explicaron


esta peculiaridad desde una perspectiva bayesiana. S. M. Stigler di una
interesante explicacin en trminos de regresin, justicando por qu p 3
(consultar Cuadras, 1991).
El principio de unin-interseccin es debido a S. N. Roy, pero no siempre
es aplicable. El test de mxima-verosimilitud es atribuido a S. Wilks y es
ms general. Es interesante notar que 2 log se puede interpretar como una
distancia de Mahalanobis. Otros contrastes semejantes fueron propuestos por
C. R. Rao y A. Wald. Vase Cuadras y Fortiana (1993b), Rao (1973).
En general, es necesario corregir los estadsticos de contraste multiplicando por una constante a n de conseguir contrastes insesgados (la potencia
del test ser siempre ms grande que el nivel de signicacin). Por ejemplo,
es necesario hacer la modicacin de G. E. P. Box sobre el test de Bartlett
para comparar matrices de covarianzas (Seccin 7.5.2).
Para datos de tipo mixto o no normales, se puede plantear la comparacin
de dos poblaciones utilizando distancias entre las observaciones, calculando
coordenadas principales mediante MDS, y a continuacin aplicando el modelo
de regresin multivariante. Vase Cuadras y Fortiana (2004), Cuadras (2008).

60

CAPTULO 3. INFERENCIA MULTIVARIANTE

Captulo 4
ANLISIS DE
CORRELACIN CANNICA
4.1.

Introduccin

En este captulo estudiamos la relacin multivariante entre vectores aleatorios. Introducimos y estudiamos las correlaciones cannicas, que son generalizaciones de las correlaciones simple y mltiple.
Tenemos tres posibilidades para relacionar dos variables:
La correlacin simple si X; Y son dos v.a.
La correlacin mltiple si Y es una v.a. y X = (X1 ; : : : ; Xp ) es un vector
aleatorio.
La correlacin cannica si X = (X1 ; : : : ; Xp ) e Y = (Y1 ; : : : ; Yq ) son dos
vectores aleatorios.

4.2.

Correlacin mltiple

Queremos relacionar una variable respuesta Y con p variables cuantitativas explicativas X1 ; : : : ; Xp ; que suponemos centradas. El modelo de regresin
mltiple consiste en encontrar la combinacin lineal
Yb =

1 X1

+
61

p Xp

62

CAPTULO 4. ANLISIS DE CORRELACIN CANNICA

que mejor se ajuste a la variable Y: Sea la matriz de covarianzas de X y


= ( 1 ; : : : ; p )0 el vector columna con las covarianzas j = cov(Y; Xj ); j =
1; : : : ; p: El criterio de ajuste es el de los mnimos cuadrados.
Teorema 4.2.1 Los coecientes b = (b1 ; : : : ; bp ) que minimizan la cantidad
E(Y Yb )2 verican la ecuacin
b=

Demost.:

(4.1)

( ) = E(Y Yb )2
= E(Y )2 + E(Yb )2
= var(Y ) + 0

Derivando vectorialmente respecto de


@
@

( )=2

2E(Y Yb )
2 0

e igualando a 0
2 = 0:

La variable prediccin es Yb = X b = b1 X1 +
Y = Yb + Ye ;

+ bp Xp : Si ponemos

entonces Ye es la variable residual.


La correlacin mltiple entre Y y X1 ; : : : ; Xp es, por denicin, la correlacin simple entre Y y la mejor prediccin Yb = X b : Se indica por
R = cor(Y; Yb ):

Se verica:
1. 0

1:

2. R = 1 si Y es combinacin lineal de X1 ; : : : ; Xp :
3. R = 0 si Y est incorrelacionada con cada una de las variables Xi :
Teorema 4.2.2 La variable prediccin Yb ; residual Ye y la correlacin mltiple R cumplen:
1. Yb e Ye son variables incorrelacionadas.

4.3. CORRELACIN CANNICA

63

2. var(Y ) =var(Yb )+var(Ye ):


3. R2 =var(Yb )=var(Y ):

b = : En efecto,

Demost.: 1) es consecuencia de

0
cov(Yb ; Ye ) = E(Yb Ye ) = E( b X0 (Y
0
b 0 b = 0:
=b

b 0 X))

2) es consecuencia inmediata de 1). Finalmente, de


cov(Y; Yb ) = cov(Y;

obtenemos

p b
i=1 i Xi )

R2 =

4.3.

p b
i=1 i i

0
0
= b = b b = var(Yb );

cov2 (Y; Yb )
var(Yb )
=
:
var(Y )
var(Y )var(Yb )

(4.2)

Correlacin cannica

Sean X = (X1 ; : : : ; Xp ); Y = (Y1 ; : : : ; Yq ) dos vectores aleatorios de dimensiones p y q: Planteemos el problema de encontrar dos variables compuestas
U = Xa = a1 X1 +

+ ap Xp ; V = Yb = b1 Y1 +

+ b p Yq ;

siendo a = (a1 ; : : : ; ap )0 ; b = (b1 ; : : : ; bp )0 tales que la correlacin entre ambas


cor(U; V )
sea mxima. Indiquemos por S11 ; S22 las matrices de covarianzas (muestrales)
de las variables X; Y; respectivamente, y sea S12 la matriz p q con las
covarianzas de las variables X con las variables Y: Es decir:
X
Y

X
S11
S21

Y
S12
S22

donde S21 = S012 :


Podemos suponer
var(U ) = a0 S11 a =1;

var(V ) = b0 S22 b =1:

64

CAPTULO 4. ANLISIS DE CORRELACIN CANNICA

As el problema se reduce a:
maximizar a0 S12 b restringido a a0 S11 a = b0 S22 b =1:
Los vectores de coecientes a; b que cumplen esta condicin son los primeros
vectores cannicos. La mxima correlacin entre U; V es la primera correlacin cannica r1 .
Teorema 4.3.1 Los primeros vectores cannicos satisfacen las ecuaciones
S12 S221 S21 a = S11 a;
S21 S111 S12 b = S22 b:

(4.3)

Demost.: Consideremos la funcin


(a; b) = a0 S12 b

(a0 S11 a 1)

(b0 S22 b 1);

donde ; son multiplicadores de Lagrange. Entonces de @ =@a =@ =@b = 0


obtenemos las dos ecuaciones
S12 b

S11 a = 0;

S21 a

(4.4)

S22 b = 0:

Multiplicando la primera por a0 y la segunda por b0 ; tenemos


a0 S12 b = a0 S11 a;

b0 S21 a = b0 S22 b;

que implican = : As pues, de la segunda ecuacin en (4.4), b = 1 S221 S21 a;


1
y substituyendo en la primera obtenemos
S12 S221 S21 a S11 a = 0: Pre1
scindiendo de
; pues es un factor multiplicativo arbitrario, y operando
anlogamente con la otra ecuacin, obtenemos (4.3).
Teorema 4.3.2 Los vectores cannicos normalizados por a0 S11 a = b0 S22 b =
1; estn relacionados por
a =
b =

1=2

S111 S12 b;
1=2
S221 S21 a;

y la primera correlacin cannica es r1 =


propio de S111 S12 S221 S21 :

1;

donde

es el primer valor

4.3. CORRELACIN CANNICA

65

Demost.: Tenemos de (4.4) que a = S111 S12 b; donde es una constante a


determinar. Partimos de que a0 S11 a =1 y para = 1=2 resulta que:
a0 S11 a =
=
=
=
=1

1=2 0

a S11 S111 S12 b


1=2 0
a S12 b
1=2
1=2 0
a S12 S221 S21 a
1
a0 S11 a

La correlacin es r1 = a0 S12 b y como 1 = 1=2 a0 S12 b deducimos que r12 = 1 :


De hecho, las ecuaciones en valores y vectores propios tienen otras soluciones. Concretamente hay m = m nfp; qg parejas de vectores cannicos
a1 ; b1 ; : : : ; am ; bm ; que proporcionan las variables y correlaciones cannicas
U1 = Xa1 ; V1 = Yb1 ; r1 = cor(U1 ; V1 );
U2 = Xa2 ; ; V2 = Yb2 ; r2 = cor(U2 ; V2 );
..
..
..
.
.
.
Um = Xam ; Vm = Ybm ; rm = cor(Um ; Vm ):
Teorema 4.3.3 Supongamos r1 > r2 >

> rm : Entonces:

1. Tanto las variables cannicas U1 ; : : : ; Um como las variables cannicas


V1 ; : : : ; Vm estn incorrelacionadas.
2. La primera correlacin cannica r1 = cor(U1 ; V1 ) es la mxima correlacin entre una combinacin lineal de X y una combinacin lineal
de Y:
3. La segunda correlacin cannica r2 = cor(U2 ; V2 ) es la mxima correlacin entre las combinaciones lineales de X incorrelacionadas con
U1 y las combinaciones lineales de Y incorrelacionadas con V1 :
4. cor(Ui ; Vj ) = 0 si i 6= j:
Demost.: Sea i 6= j: Expresando (4.3) para ak ;
por a0j y por a0i tenemos que
a0j S12 S221 S21 ai =
a0i S12 S221 S21 aj =

k;

k = i; j; y multiplicando

0
i aj S11 ai ;
0
j ai S11 aj :

66

CAPTULO 4. ANLISIS DE CORRELACIN CANNICA

0
0
Restando: ( i
j )ai S11 aj = 0 ) ai S11 aj = 0 ) cor(Ui ; Uj ) = 0:
Por otra parte, expresando (4.3) como

S111 S12 S221 S21 a =

S221 S21 S111 S12 bj =

i ai ;

j bj ;

y multiplicando por b0j S21 y por a0i S12 llegamos a


b0j S21 S111 S12 S221 S21 ai =
a0i S12 S221 S21 S111 S12 bj =
Restando: (

4.4.

0
j )ai S12 bj

0
i bj S21 ai ;
0
j ai S12 bj :

= 0 ) a0i S12 bj = 0 ) cor(Ui ; Vj ) = 0:

Correlacin cannica y descomposicin


singular

Podemos formular una expresin conjunta para los vectores cannicos


utilizando la descomposicin singular de una matriz. Supongamos p
q;
consideremos la matriz p q
1=2

1=2

Q = S11 S12 S22

y hallemos Q = U V0 ; la descomposicin singular de Q, donde U es una


matriz p q con columnas ortonormales, V es una matriz q q ortogonal, y
es una matriz diagonal con los valores singulares de Q. Es decir,
U0 U = Ip ; V0 V = V0 V = Iq ; =diag( 1 ; : : : ; p ):
Teorema 4.4.1 Los vectores cannicos y correlaciones cannicas son
1=2

ai = S11 ui ;

1=2

bi = S22 vi ;

ri =

i:

Demost.:
1=2

1=2

1=2

1=2

QQ0 = S11 S12 S22 S22 S21 S11

=U

U0

y por lo tanto
1=2

1=2

S11 S12 S221 S21 S11 ui =

2
i ui

1=2

Multiplicando por S11

1=2

S111 S12 S221 S21 (S11 ui ) =

1=2
2
i (S11 ui )

y comparando con resultados anteriores, queda probado el teorema.


Se puede probar que las correlaciones cannicas son invariantes por transformaciones lineales. En consecuencia pueden calcularse a partir de las matrices de correlaciones.

4.5. SIGNIFICACIN DE LAS CORRELACIONES CANNICAS

4.5.

67

Signicacin de las correlaciones cannicas

Hemos encontrado las variables y correlaciones cannicas a partir de las


matrices de covarianzas y correlaciones muestrales, es decir, a partir de muestras de tamao n: Naturalmente, todo lo que hemos dicho vale si sustituimos
S11 ; S12 ; S22 por las versiones poblacionales 11 ; 12 ; 22 : Sean
1

las m = m nfp; qg correlaciones cannicas obtenidas a partir de


soluciones de:
2
j 12 221 21
11 j = 0:

11 ;

12 ;

22 ,

Si queremos decidir cules son signicativas, supongamos normalidad multivariante, indiquemos 0 = 1 y planteemos el test
H0k :

>

k+1

que equivale a rang( 221


si H0k es cierta, entonces
Lk =

[n

21 )

= 0;

(k = 0; 1; : : : ; m);

= k: El test de Bartlett-Lawley demuestra que

k
m
X
Y
1
2
(p + q + 1) +
ri ] log[
(1
2
i=1
i=k+1

ri2 )

es asintticamente ji-cuadrado con (m k)(p k) g.l. Este test se aplica


secuencialmente: si Li es signicativo para i = 0; 1; : : : ; k 1; pero Lk no es
signicativo, entonces se acepta H0k :

4.6.

Contraste de hiptesis de independencia

Suponiendo normalidad, armar que X es independiente de Y consiste


en plantear
H0 : 12 = 0; H1 : 12 =
6 0:
Podemos resolver este test de hiptesis de dos maneras.

68

4.6.1.

CAPTULO 4. ANLISIS DE CORRELACIN CANNICA

Razn de verosimilitud

Si la hiptesis es cierta, entonces el test de razn de verosimilitud (Seccin


3.5.1) se reduce al estadstico
=

jSj
jRj
=
;
jS11 jjS22 j
jR11 jjR22 j

que sigue la distribucin lambda de Wilks (p; n 1 q; q); equivalente a


(q; n 1 p; q): Rechazaremos H0 si es pequea y signicativa (Mardia
et al. 1979, Rencher, 1998).
Es fcil probar que es funcin de las correlaciones cannicas
= jI

4.6.2.

S221 S21 S111 S12 j

m
Y
=
(1

ri2 ):

i=1

Principio de unin interseccin

Consideremos las variables U = a1 X1 +


La correlacin entre U; V es
(U; V ) = p

+ ap Xp ;V = b1 Y1 +

a0 12 b
p
a 11 a b0

22 b

+ b p Yq :

H0 equivale a (U; V ) = 0 para todo U; V: La correlacin muestral es


r(U; V ) = p

a0 S12 b
p
:
a0 S11 a b0 S22 b

Aplicando el principio de unin interseccin (Seccin 3.5.2), aceptaremos H0


si r(U; V ) no es signicativa para todo U; V; y aceptaremos H1 si r(U; V ) es
signicativa para algn par U; V: Este criterio nos lleva a estudiar la signicacin de
r1 = max r(U; V );
U;V

esto es, de la primera correlacin cannica. Por tanto, el test es:


H0 :

= 0;

H1 :

> 0:

Existen tablas especiales para decidir si r1 es signicativa (Morrison, 1976),


pero tambin se puede aplicar el estadstico L0 de Bartlett-Lawley.

4.7. EJEMPLOS

4.7.

69

Ejemplos

Datos biomtricos. Se consideran los datos de n = 25 familias para las


variables (vase la Tabla 1.2):
X1 = long. cabeza primer hijo, X2 = anchura cabeza primer hijo,
Y1 = long. cabeza segundo hijo, Y2 = anchura cabeza segundo hijo,
La matriz de correlaciones es:
0
1
0;8164 0;7006 0;7640
B 0;8164
1
0;6208 0;8210
R =B
@ 0;7006 0;6208
1
0;7683
0;7640 0;8210 0;7683
1
Entonces:

C
C:
A

R11 =

1
0;8164
0;8164
1

R12 =

0;7006 0;7640
0;6208 0;8210

R22 =

1
0;7683
0;7683
1

; R21 =

0;7006 0;6208
0;7640 0;8210

Las races de la ecuacin cuadrtica:


jR12 R221 R21
son:

= 0;7032,

R11 j = 0

= 0;1060; y por tanto las correlaciones cannicas son:


r1 = 0;838 6;

r2 = 0;3256:

Los vectores cannicos normalizados son:


a1 = (0;0462; 0;0806)0 ; a2 = (0;1657; 0;1568)0 ;
b1 = (0;0151; 0;1295)0 ; b2 = (0;1499; 0;1218)0 :
Las variables cannicas con varianza 1 son:
U1 = 0;0462X1 + 0;0806X2 ; V1 = 0;0151Y1 + 0;1295Y2 ; (r1 = 0;838 6);
U2 = 0;1657X1 0;1568X2 ; V2 = 0;1499Y1 0;1218Y2 ; (r2 = 0;3256):
La dependencia entre (X1 ; X2 ) y (Y1 ; Y2 ) viene dada principalmente por la
relacin entre (U1 ; V1 ) con correlacin 0;838 6; ms alta que cualquier correlacin entre una variable Xi y una variable Yj : Podemos interpretar las

70

CAPTULO 4. ANLISIS DE CORRELACIN CANNICA

primeras variables cannicas como un factor de tamaode la cabeza y las


segundas como un factor de forma. Habra entonces una notable relacin
en el tamao y una escasa relacin en la forma de la cabeza.
El test de independencia entre (X1 ; X2 ) y (Y1 ; Y2 ) da
=

jRj
= 0;2653
jR11 jjR22 j

(2; 22; 2)

que, segn (2.8), transformamos a una F obteniendo 9;88 con 4 y 42 g.l.


Rechazamos la hiptesis de independencia.
La prueba de signicacin de las correlaciones cannicas da:
H00 :
H01 :

0
1

=1> 1=
> 2 = 0;

= 0;

L0 = 28;52 (4 g.l.),
L1 = 2;41 (2 g.l.).

Podemos rechazar H00 y aceptar H01 : Solamente la primera correlacin cannica es signicativa.
Datos electorales. En un estudio sobre comportamiento electoral en
Catalunya, se consideran los resultados de unas elecciones celebradas en las
41 comarcas catalanas y para cada comarca se tabulan los valores de las
siguientes variables:
X1 = log(porcentaje de votos a CU), X2 = log(porcentaje de votos a PSC),
X3 = log(porcentaje de votos a PP), X4 = log(porcentaje de votos a ERC),
Y1 = log(cociente Juan/Joan),
Y2 = log(cociente Juana/Joana),
donde cociente Juan/Joan signica el resultado de dividir el nmero de
hombres que se llaman Juan por el nmero de hombres que se llaman Joan.
Valores positivos de las variables Y1 ; Y2 en una comarca indican predominio
de los nombres en castellano sobre los nombres en cataln.
La matriz de correlaciones es:
X1
X2
X3
X4
Y1
Y2

X1
1

X2
0;8520
1

X3
0;6536
0;5127
1

X4
0;5478
0;7101
;6265
1

Y1
0;6404
0;7555
0;5912
0;7528
1

Y2
0;5907
0;6393
0;5146
0;7448
0;8027
1

4.8. COMPLEMENTOS

71

Slo hay 2 correlaciones cannicas:


r1 = 0;8377; r2 = 0;4125:
Las variables cannicas son:
U1 =
V1 =
U2 =
V2 =

+0;083X1 0;372X2 0;1130X3 + 0;555X4 ;


(r1 = 0;8377);
+0;706Y1 + 0;339Y2 ;
+1;928X1 + 2;4031;546X2 + 1;127X3 + 1;546X4 ; (r2 = 0;4125):
+1;521Y1 1;642Y2 ;

Las primeras variables cannicas U1 ; V1 ; que podemos escribir convencionalmente como


U1 = +0;083CU 0;372PSC 0;1130PP + 0;555ERC,
V1 = +0;706(Juan/Joan) + 0;339(Juana/Joana),
nos indican que las regiones ms catalanas, en el sentido de que los nombres
castellanos Juan y Juana no predominan tanto sobre los catalanes Joan y
Joana, tienden a votar ms a CU y ERC, que son partidos nacionalistas. Las
regiones con predominio de voto al PSC o al PP, que son partidos centralistas, estn en general, ms castellanizadas. Las segundas variables cannicas
tienen una interpretacin ms dicil.

4.8.

Complementos

El anlisis de correlacin cannica (ACC) fue introducido por H. Hotelling


en 1935, que buscaba la relacin entre test mentales y medidas biomtricas,
a n de estudiar el nmero y la naturaleza de las relaciones entre mente y
cuerpo, que con un anlisis de todas las correlaciones sera difcil de interpretar. Es un mtodo de aplicacin limitada, pero de gran inters terico puesto
que diversos mtodos de AM se derivan del ACC.
Aplicaciones a la psicologa se pueden encontrar en Cooley y Lohnes
(1971), Cuadras y Snchez (1975). En ecologa se ha aplicado como un modelo para estudiar la relacin entre presencia de especies y variables ambientales
(Gittings, 1985).
La distribucin de las correlaciones cannicas es bastante complicada.
Solamente se conocen resultados asintticos (Muirhead, 1982).

72

CAPTULO 4. ANLISIS DE CORRELACIN CANNICA

En ciertas aplicaciones tiene inters considerar medidas globales de asociacin entre dos matrices de datos X; Y; de rdenes n p y n q respectivamente, observadas sobre el mismo conjunto de n individuos. Una medida
interesante resulta de considerar la razn de verosimilitud de Wilks y viene
dada por
s
Q
AW = 1
(1 ri2 );
i=1

siendo s = m n(p; q) el nmero de correlaciones cannicas. Otra medida,


propuesta por Escouer (1973), es la correlacin vectorial
q
q
s
Q
ri2 :
RV = tr(S12 S21 )= tr(S211 ) tr(S222 ) =
i=1

Tambin es una medida de asociacin global


s
X
2
PXY = (
ri )2 =s2 ;

(4.5)

i=1

que coincide con el coeciente procrustes (1.8) cuando las variables X estn
incorrelacionadas y tienen varianza 1 (y anlogamente las Y ). Vase Cramer
y Nicewander (1979) y Cuadras (2011). En Cuadras et al. (2012) se propone
una generalizacin a la comparacin (mediante distancias) de dos conjuntos de datos en general, con una aplicacin a la comparacin de imgenes
hiperespectrales.
Si f (x; y) es la densidad de dos v.a. X; Y , tiene inters en estadstica el
concepto de mxima correlacin (propuesto por H. Gabelein) que se dene
como
1 = sup cor( (X); (Y ));
;

donde (X); (Y ) son funciones con varianza nita. Entonces 1 = 0 si X; Y


son variables independientes. Podemos ver a 1 como la primera correlacin
cannica, 1 (X); 1 (Y ) como las primeras variables cannicas y denir las
sucesivas correlaciones cannicas. Sin embargo el clculo de 1 puede ser
complicado (Cuadras, 2002a). Lancaster (1969) estudia estas correlaciones y
demuestra que f (x; y) se puede desarrollar en serie a partir de las correlaciones y funciones cannicas. Diversos autores han estudiado la estimacin de
las primeras funciones cannicas, como una forma de predecir una variable en
funcin de la otra (Hastie y Tibshirani, 1990). Finalmente cabe destacar que
las correlaciones cannicas pueden constituir un conjunto contnuo (Cuadras,
2005).

Captulo 5
ANLISIS DE
COMPONENTES
PRINCIPALES
5.1.

Denicin y obtencin de las componentes


principales

Sea X =[X1 ; : : : ; Xp ] una matriz de datos multivariantes. Lo que sigue


tambin vale si X es un vector formado por p variables observables.
Las componentes principales son unas variables compuestas incorrelacionadas tales que unas pocas explican la mayor parte de la variabilidad
de X:
Denicin 5.1.1 Las componentes principales son las variables compuestas
Y1 = Xt1 ; Y2 = Xt2 ; : : : ; Yp = Xtp
tales que:
1. var(Y1 ) es mxima condicionado a t01 t1 = 1:
2. Entre todas las variables compuestas Y tales que cov(Y1 ; Y ) = 0; la
variable Y2 es tal que var(Y2 ) es mxima condicionado a t02 t2 = 1:
3. Y3 es una variable incorrelacionada con Y1 ; Y2 con varianza mxima.
Anlogamente denimos las dems componentes principales.
73

74

CAPTULO 5. ANLISIS DE COMPONENTES PRINCIPALES

Si T = [t1 ; t2 ; : : : ; tp ] es la matriz p p cuyas columnas son los vectores


que denen las componentes principales, entonces la transformacin lineal
X!Y
Y = XT
(5.1)
se llama transformacin por componentes principales.
Teorema 5.1.1 Sean t1 ; t2 ; : : : ; tp los p vectores propios normalizados de la
matriz de covarianzas S,
Sti =

i ti ;

t0i ti = 1;

i = 1; : : : ; p:

Entonces:
1. Las variables compuestas Yi = Xti ; i = 1; : : : ; p; son las componentes
principales.
2. Las varianzas son los valores propios de S
var(Yi ) =

i;

i = 1; : : : ; p:

3. Las componentes principales son variables incorrelacionadas:


cov(Yi ; Yj ) = 0;

i 6= j = 1; : : : ; p:

Demost.: Supongamos 1 >


> p > 0: Probemos que las variables Yi =
Xti ; i = 1; : : : ; p; son incorrelacionadas:
cov(Yi ; Yj ) = t0i Stj = t0i j tj =
cov(Yj ; Yi ) = t0j Sti = t0j j ti =
)( j
Adems:

0
i )ti tj

= 0; ) t0i tj = 0; ) cov(Yi ; Yj ) =

0
j ti tj ;
0
i tj ti ;
0
j ti tj

= 0; si i 6= j.

var(Yi ) = i t0i tj = i :
Pp
Pp
Sea ahora Y =
i=1 ai Xi =
i=1 i Yi una variable compuesta tal que
P
p
2
i=1 i = 1: Entonces
p
X
var(Y ) = var(
i=1

i Yi )

p
X
i=1

2
i var(Yi )

p
X
i=1

2
i i

p
X
(
i=1

2
i) 1

= var(Y1 );

5.2. VARIABILIDAD EXPLICADA POR LAS COMPONENTES

75

que prueba que Y1 tiene varianza mxima.


Consideremos ahora las variables Y incorrelacionadas con Y1 : Las podemos
expresar como:
Y =

p
X

bi Xi =

p
X

i Yi

condicionado a

2
i

= 1:

i=2

i=2

i=1

p
X

Entonces:
p
X
var(Y ) = var(
i=2

i Yi )

p
X

2
i var(Yi )

p
X

2
i i

i=2

i=2

p
X
(

2
i) 2

= var(Y2 );

i=2

y por lo tanto Y2 est incorrelacionada con Y1 y tiene varianza mxima. Si p


3; la demostracin de que Y3 ; : : : ; Yp son tambin componentes principales es
anloga.

5.2.

Variabilidad explicada por las componentes

La varianza de
Ppla componente principal Yi es var(Yi ) =
total es tr(S) = i=1 i : Por lo tanto:
1. Yi contribuye con la cantidad

y la variacin

a la variacin total tr(S):

2. Si q < p; Y1 ; : : : ; Yq contribuyen con la cantidad


total tr(S):

Pq

i=1

a la variacin

3. El porcentaje de variabilidad explicada por las m primeras componentes


principales es
+ m
1+
Pm = 100
:
(5.2)
+ p
1+
En las aplicaciones cabe esperar que las primeras componentes expliquen
un elevado porcentaje de la variabilidad total. Por ejemplo, si m = 2 < p; y
P2 = 90 %; las dos primeras componentes explican una gran parte de la variabilidad de las variables. Entonces podremos sustituir X1 ; X2 ; : : : ; Xp por las
componentes principales Y1 ; Y2 : En muchas aplicaciones, tales componentes
tienen interpretacin experimental.

76

CAPTULO 5. ANLISIS DE COMPONENTES PRINCIPALES

5.3.

Representacin de una matriz de datos

Sea X =[X1 ; : : : ; Xp ] una matriz n p de datos multivariantes. Queremos


representar, en un espacio de dimensin reducida m (por ejemplo, m = 2), las
las x01 ; x02 ; : : : ; x0n de X: Necesitamos introducir una distancia (ver Seccin
1.9).
Denicin 5.3.1 La distancia eucldea (al cuadrado) entre dos las de X
xi = (xi1 ; : : : ; xip );

xj = (xj1 ; : : : ; xjp );

es
2
ij

= (xi

xj ) (xi

xj ) =

p
X

(xih

xjh )2 :

h=1

La matriz

=(

ij )

es la matriz n

n de distancias entre las las.

Podemos representar las n las de X como n puntos en el espacio Rp


distanciados de acuerdo con la mtrica ij : Pero si p es grande, esta representacin no se puede visualizar. Necesitamos reducir la dimensin.
Denicin 5.3.2 La variabilidad geomtrica de la matriz de distancias
es la media de sus elementos al cuadrado
n
1 X
V (X) = 2
2n i;j=1

2
ij :

Si Y = XT es una transformacin lineal de X, donde T es una matriz p


de constantes,
2
ij (q)

= (yi

yj ) (yi

yj ) =

q
X

(yih

yjh )2

h=1

es la distancia eucldea entre dos las de Y: La variabilidad geomtrica en


dimensin q p es
n
1 X 2
V (Y)q = 2
(q):
2n i;j=1 ij

5.3. REPRESENTACIN DE UNA MATRIZ DE DATOS

77

Teorema 5.3.1 La variabilidad geomtrica de la distancia eucldea es la


traza de la matriz de covarianzas
V (X) =tr(S) =

p
X

h:

h=1

Demost.: Si x1 ; : : : ; xn es una muestra univariante con varianza s2 , entonces


n
1 X
(xi
2n2 i;j=1

xj )2 = s2 :

(5.3)

En efecto, si x es la media
1
n2

Pn

i;j=1 (xi

Pn
(xi x (xj x))2
Pi;j=1
P
n
(xi x)2 + n12 ni;j=1 (xj
i;j=1
P
+ n22 ni;j=1 (xi x)(xj x))2
= n1 ns2 + n1 ns2 + 0 = 2s2 :

xj )2 =
=

1
n2
1
n2

x)2

Aplicando (5.3) a cada columna de X y sumando obtenemos


V (X) =

p
X

sjj = tr(S):

j=1

Una buena representacin en dimensin reducida q (por ejemplo, q = 2)


ser aquella que tenga mxima variabilidad geomtrica , a n de que los
puntos estn lo ms separados posible.
Teorema 5.3.2 La transformacin lineal T que maximiza la variabilidad
geomtrica en dimensin q es la transformacin por componentes principales
(5.1), es decir, T = [t1 ; : : : ; tq ] contiene los q primeros vectores propios normalizados de S:
Demost.: Aplicando (5.3), la variabilidad geomtrica de Y = XT; donde T
es cualquiera, es
p
p
X
X
V (Y)q =
s2 (Yj ) =
t0j Stj ;
j=1

j=1

78

CAPTULO 5. ANLISIS DE COMPONENTES PRINCIPALES

siendo s2 (Yj ) = t0j Stj la varianza de la variable compuesta Yj : Alcanzamos la


mxima varianza cuando Yj es una componente principal: s2 (Yj )
j : As:
max V (Y)q =

p
X

j:

j=1

El porcentaje de variabilidad geomtrica explicada por Y es


Pq = 100

V (Y)q
= 100
V (X)p

+
1+
1

+
+

Supongamos ahora q = 2: Si aplicamos la transformacin (5.1), la matriz


de datos X se reduce a
0
1
y11 y12
.. C
B ..
. C
B .
B
C
Y = B yi1 yi2 C :
B .
.. C
@ ..
. A
yn1 yn2

Entonces, representando los puntos de coordenadas (yi1 ; yi2 ); i = 1; : : : ; n;


obtenemos una representacin ptima en dimensin 2 de las las de X:

5.4.

Inferencia

Hemos planteado el ACP sobre la matriz S; pero lo podemos tambin


plantear sobre la matriz de covarianzas poblacionales : Las componentes
principales obtenidas sobre S son, en realidad, estimaciones de las componentes principales sobre :
Sea X matriz de datos n p donde las las son independientes con distribucin Np ( ; ): Recordemos que:
1. x es Np ( ; =n):
2. U =nS es Wishart Wp ( ; n

1):

3. x y S son estocsticamente independientes.

5.4. INFERENCIA
Sea

=
=[

79

la diagonalizacin de

1; : : : ;

p ];

: Indiquemos

= [ 1; : : : ;

= diag( 1 ; : : : ;

p ];

p );

los vectores propios y valores propios de : Por otra parte, sea S = GLG0 la
diagonalizacin de S: Indiquemos:
G = [g1 ; : : : ; gp ];

L = diag(l1 ; : : : ; lp )

l = [l1 ; : : : ; lp ];

los vectores propios y valores propios de S: A partir de ahora supondremos


p:

5.4.1.

Estimacin y distribucin asinttica

Teorema 5.4.1 Se verica::


1. Si los valores propios son diferentes, los valores y vectores propios
obtenidos a partir de S son estimadores mximo-verosmiles de los
obtenidos a partir de
bi = li ;

b i = gi

; i = 1; : : : ; p:

2. Cuando k > 1 valores propios son iguales a


1

>

>

p k

el estimador mximo verosmil de


valores propios de S
b = (lp

k+1

p k+1

= ;

es la media de los correspondientes

+ lp )=k

Demost.: Los valores y vectores propios estn biunvocamente relacionados


con y por lo tanto 1) es consecuencia de la propiedad de invariancia de la
estimacin mximo verosmil. La demostracin de 2) se encuentra en Anderson (1959).
Teorema 5.4.2 Los vectores propios [g1 ; : : : ; gp ] y valores propios l = [l1 ; : : : ; lp ]
verican asintticamente:

80

CAPTULO 5. ANLISIS DE COMPONENTES PRINCIPALES


1. l es Np ( ; 2
li

=n): En particular:
es

N ( i ; 2 2i =n);

cov(li ; lj ) = 0;

i 6= j;

es decir, li ; lj son normales e independientes.


2. gi es Np ( i ; Vi =n) donde
Vi =

X
j6=i

2
j)

0
i

3. l es independiente de G:
Demost.: Anderson (1959), Mardia, Kent y Bibby (1979).
Como consecuencia de que li es N ( i ; 2 2i =n); obtenemos el intervalo de
conanza asinttico con coeciente de conanza 1
li
(1 + az

=2

)1=2

<

<

(1

li
az

1=2
=2 )

siendo a2 = 2=(n 1) y P (jZj > z =2 ) = =2; donde Z es N (0; 1):


Se obtiene otro intervalo de conanza como consecuencia de que log li es
N (log i ; 2=(n 1))
li e az =2 < i < li e+az =2 :

5.4.2.

Contraste de hiptesis

Determinados contrastes de hiptesis relativos a las componentes principales son casos particulares de un test sobre la estructura de la matriz
:
A. Supongamos que queremos decidir si la matriz es igual a una matriz
determinada 0 : Sea X un matriz n p con las independientes Np ( ; ):
El test es:
H0 : = 0 (
desconocida)
Si L es la verosimilitud de la muestra, el mximo de log L bajo Ho es
log L0 =

n
log j2
2

0j

n
tr(
2

1
0

S):

5.4. INFERENCIA

81

El mximo no restringido es
log L =

n
p:
2

n
log j2 Sj
2

El estadstico basado en la razn de verosimilitud


2 log

= 2(log L log L0 )
= ntra( 0 1 S) n log j
1

Si L1 ; : : : ; Lp son los valores propios de


y geomtrica
a = (L1 +

+ Lp )=p;

1
0

es
(5.4)

np:

Sj

S y a; g son las medias aritmtica


Lp )1=p ;

g = (L1

(5.5)

entonces, asintticamente
2 log

= np(a

log g

2
q;

1)

(5.6)

siendo q = p(p + 1)=2 par( 0 ) el nmero de parmetros libres de menos


el nmero de parmetros libres de 0 :
B. Test de independencia completa.
Si la hiptesis nula arma que las p variables son estocsticamente independientes, el test se formula como
H0 :

= diag(

11 ;

pp )

desconocida).

Bajo H0 la estimacin de d es Sd =diag(s11 ;


; spp ) y Sd 1 S = R es la matriz de correlaciones. De (5.4) y de log j2 Sd j log j2 Sj = log jRj; tra(R) =p;
obtenemos
2
2 log R = n log jRj
q
siendo q = p(p + 1)=2 p = p(p 1)=2: Si el estadstico n log jRj no es signicativo, entonces podemos aceptar que las variables son incorrelacionadas
y por lo tanto, como hay normalidad multivariante, independientes.
C. Test de igualdad de valores propios.
Es ste un test importante en ACP. La hiptesis nula es
H0 :

>

>

p k

p k+1

= :

Indicamos los valores propios de S y de S0 (estimacin de


S

(l1 ; : : : ; lk ; lk+1 ; : : : ; lp );

S0

si H0 es cierta)

(l1 ; : : : ; lk ; a0 ; : : : ; a0 );

82

CAPTULO 5. ANLISIS DE COMPONENTES PRINCIPALES

donde a0 = (lk+1 +

+ lp )=(p
S0 1 S

k) (Teorema 5.4.1). Entonces

(1; : : : ; 1; lk+1 =a0 ; : : : ; lp =a0 );

las medias (5.5) son a = 1 y g = (lk+1


2 log

= n(p

k) log(lk+1 +

+ lp )=(p

(k p)=p

lp )1=p a0
k)

n(

p
X

y aplicando (5.6)
log li )

2
q;

(5.7)

i=k+1

donde q = (p

5.5.

k)(p

k + 1)=2

1:

Nmero de componentes principales

En esta seccin presentamos algunos criterios para determinar el nmero


m < p de componentes principales.

5.5.1.

Criterio del porcentaje

El nmero m de componentes principales se toma de modo que Pm sea


prximo a un valor especicado por el usuario, por ejemplo el 80 %. Por otra
parte, si la representacin de P1 ; P2 ; : : : ; Pk ; : : : con respecto de k prcticamente se estabiliza a partir de un cierto m, entonces aumentar la dimensin
apenas aporta ms variabilidad explicada.

5.5.2.

Criterio de Kaiser

Obtener las componentes principales a partir de la matriz de correlaciones


R equivale a suponer que las variables observables tengan varianza 1. Por
lo tanto una componente principal con varianza inferior a 1 explica menos
variabilidad que una variable observable. El criterio, llamado de Kaiser, es
entonces:
Retenemos las m primeras componentes tales que m 1;
donde 1
p son los valores propios de R; que tambin son las
varianzas de las componentes. Estudios de Montecarlo prueban que es ms
correcto el punto de corte
= 0;7; que es ms pequeo que 1.
Este criterio se puede extender a la matriz de covarianzas. Por ejemplo,
m podra ser tal que m v; donde v =tra(S)=p es la media de las varianzas.
Tambin es aconsejable considerar el punto de corte 0;7 v:

5.5. NMERO DE COMPONENTES PRINCIPALES

lam

83

60
50
40
30
20
10
0
0

Figura 5.1: Ejemplo de representacin de los valores propios, que indicara 3


componentes principales.

5.5.3.

Test de esfericidad

Supongamos que la matriz de datos proviene de una poblacin normal


multivariante Np ( ; ): Si la hiptesis
(m)

H0

>

>

>

m+1

es cierta, no tiene sentido considerar ms de m componentes principales. En


efecto, no hay direcciones de mxima variabilidad a partir de m; es decir,
(m)
la distribucin de los datos es esfrica. El test para decidir sobre H0 est basado en el estadstico ji-cuadrado (5.7) y se aplica secuencialmente: Si
(0)
(0)
aceptamos H0 no hay direcciones principales, pero si rechazamos H0 ; en(1)
(1)
tonces repetimos el test con H0 : Si aceptamos H0 entonces m = 1; pero si
(1)
(2)
rechazamos H0 repetimos el test con H0 ; y as sucesivamente. Por ejem(0)
(1)
plo, si p = 4; tendramos que m = 2 si rechazamos H0 ; H0 y aceptamos
(2)
H0 : 1 > 2 > 3 = 4 :

5.5.4.

Criterio del bastn roto

La suma de los valores propios es Vt =tr(S); que es la variabilidad total.


Imaginemos un bastn de longitud Vt ; que rompemos en p trozos al azar
(asignando p 1 puntos uniformemente sobre el intervalo (0; Vt )) y que los

84

CAPTULO 5. ANLISIS DE COMPONENTES PRINCIPALES

trozos ordenados son los valores propios l1 > l2 >


a Vt = 100; entonces el valor esperado de lj es

> lp : Si normalizamos

p j

E(Lj ) = 100

1X 1
:
p i=1 j + i

Las m primeras componentes son signicativas si el porcentaje de varianza


explicada supera claramente el valor de E(L1 ) +
+ E(Lm ): Por ejemplo,
si p = 4; los valores son:
Porcentaje E(L1 ) E(L2 ) E(L3 ) E(L4 )
Esperado
52;08 27;08 14;58 6;25
Acumulado 52;08 79;16 93;74 100
Si V2 = 93;92 pero V3 = 97;15; entonces tomaremos slo dos componentes.

5.6.

Biplot

Un biplot es una representacin, en un mismo grco, de las las (individuos) y las columnas (variables) de una matriz de datos X(n p):
Suponiendo X matriz centrada, el biplot clsico se lleva a cabo mediante
la descomposicin singular
X = U V0 ;
donde U es una matriz p q con columnas ortonormales, V es una matriz q q ortogonal, y
es una matriz diagonal con los valores singulares
0
de X. Es decir, U U = Ip ; V0 V = V0 V = Iq ; =diag( 1 ; : : : ; p ): Entonces
XV = U es la transformacin en componentes principales, luego las coordenadas de las las estn contenidas en U : Las cordenadas de las columnas
son entonces las las de la matriz V: Ambos sistemas de coordenadas se
pueden representar sobre el mismo grco, como en la Figura 5.2.
Podemos plantear el biplot de una manera alternativa. La transformacin
por componentes principales Y = XT permite representar las las. Para representar tambin las columnas, podemos entender una variable Xj como el
conjunto de puntos de coordenadas
xj ( j ) = (0; : : : ;

j ; : : : ; 0)

mj

Mj ;

5.7. EJEMPLOS

85

donde j es un parmetro que vara entre el mnimo valor mj y el mximo


valor Mj de Xj: Entonces la representacin de Xj es simplemente el eje
xj ( )T:
Siguiendo este procedimiento, es fcil ver que mediante la transformacin Y = XT; la representacin de las variables se identica con el haz de
segmentos
( 1 t1 ; : : : ; p tp )
donde t1 ; : : : ; tp son las las de T: Vase Greenacre (2010) para una moderna
versin prctica de esta interesante tcnica.

5.7.

Ejemplos

Ejemplo 5.7.1
Sobre una muestra de n = 100 estudiantes mujeres de Bioestadstica, se
midieron las variables
X1 = peso, X2 =talla, X3 =ancho hombros, X4 = ancho caderas,
(peso em kgs y medidas en cms ), con los siguientes resultados:
1. Medias: x1 = 54;25; x2 = 161;73; x3 = 36;53; x4 = 30;1:
2. Matriz de covarianzas:
0

44;7
B 17;79
S =B
@ 5;99
9;19

17;79
26;15
4;52
4;44

5;99
4;52
3;33
1;34

1
9;19
4;44 C
C
1;34 A
4;56

3. Vectores y valores propios (columnas):

Val. prop.
Porc. acum.

t1
0; 8328
0; 5029
0; 1362
0; 1867
58;49
74;27

t2
0; 5095
0; 8552
0; 05 88
0; 0738
15;47
93;92

t3
;0; 1882
0; 0202
0; 1114
0; 9755
2;54
97;15

t4
0; 1063
;0; 1232
0; 9826
0; 0892
2;24
100

86

CAPTULO 5. ANLISIS DE COMPONENTES PRINCIPALES


4. Nmero de componentes:
a. Criterio de Kaiser: la media de las varianzas es v =tr(S)=p = 19;68:
Los dos primeros valores propios son 58.49 y 15.47, que son mayores que 0;7 v: Aceptamos m = 2:
b. Test de esfericidad.
m
0
1
2

g.l.
333.9 9
123.8 5
0.39 2

Rechazamos m = 0; m = 1 y aceptamos m = 2:
c. Test del bastn roto: Puesto que P2 = 93;92 supera claramente el
valor esperado 79;16 y que no ocurre lo mismo con P3 , aceptamos
m = 2:
5. Componentes principales:
Y1 = 0; 8328X1 + 0; 5029X2 + 0; 1362X3 + 0; 1867X4 ;
Y2 = 0; 5095X1

0; 8552X2

0; 05 88X3 + 0; 0738X4 :

6. Interpretacin: la primera componente es la variable con mxima varianza y tiene todos sus coecientes positivos. La interpretamos como
una componente de tamao. La segunda componente tiene coecientes
positivos en la primera y cuarta variable y negativos en las otras dos.
La interpretamos como una componente de forma. La primera componente ordena las estudiantes segn su tamao, de la ms pequea
a la ms grande, y la segunda segn la forma, el tipo pcnico en contraste con el tipo atltico. Las dimensiones de tamao y forma estn
incorrelacionadas.
Ejemplo 5.7.2
Mediante ACP podemos representar una matriz de datos en dimensin
reducida (Teorema 5.3.2), realizando los pasos que se ilustran con este ejemplo.
La Tabla 5.1 contiene los tiempos parciales en minutos que 12 corredores
tardan en recorrer 16 kilmetros. El corredor ms rpido es el 5, el ms lento
es el 12.

5.7. EJEMPLOS

87
corredor km 4 km 8 km 12 km16
1
10
10
13
12
2
12
12
14
15
3
11
10
14
13
4
9
9
11
11
5
8
8
9
8
6
8
9
10
9
7
10
10
8
9
8
11
12
10
9
9
14
13
11
11
10
12
12
12
10
11
13
13
11
11
12
14
15
14
13

Tabla 5.1: Tiempos parciales (en minutos) de 12 corredores.

1. Matrices de covarianzas y correlaciones:


0
1
0
4;364 4;091 2;091 2;273
1 0; 9483 0; 4953 0; 5268
B
C
B
4;265 1;871 1;917 C
1
0; 4484 0; 4494
S=B
R=B
@
@
4;083 3;765 A
1
0; 9022
4;265
1
2. Vectores y valores propios de S :

Val. prop.
%
Porc. acum.

t1
t2
t3
t4
.5275 .4538 -.2018 -.6893
.5000 .5176 .2093 .6621
.4769 -.5147 .6905 -.1760
.4943 -.5112 -.6624 .2357
12.26 4.098 .4273 .1910
72.22 24.13
2.52
1.15
72.22 96.35 98.85
100

3. Componentes principales primera y segunda:


Y1 = 0;527X1 + 0;500X2 + 0;477X3 + 0;494X4
Y2 = 0;453X1 + 0;517X2 0;514X3 0;511X4

var(Y1 ) = 12;26
var(Y2 ) = 4;098

1
C
C
A

88

CAPTULO 5. ANLISIS DE COMPONENTES PRINCIPALES

Figura 5.2: Representacin por anlisis de componentes principales y mediante biplot de los tiempos parciales de 12 corredores.

4. La transformacin por componentes principales es Y = XT; siendo X


la matriz de datos, T la matriz con los vectores propios de S, La matriz Y contiene los valores de las componentes principales sobre los 12
individuos (coordenadas principales), Figura 5.2.
5. Interpretacin:
a. La primera componente principal es casi proporcional a la suma de
los tiempos parciales. Por tanto, podemos interpretar Y1 como el
tiempo que tardan en hacer el recorrido. O incluso mejor, Y1
como la rapidez en efectuar la carrera.
b. La segunda componente principal tiene coecientes positivos en
X1 ; X2 y coecientes negativos en X3 ; X4 : Un corredor con valores
altos en Y2 signica que ha sido lento al principio y ms rpido
al nal de la carrera. Un corredor con valores bajos en Y2 signica que ha sido rpido al principio y ms lento al nal. Podemos
interpretar esta componente como la forma de correr.
c. La rapidez y la forma de correr, son independientes, en el sentido
de que la correlacin es cero.

5.8. COMPLEMENTOS

89

Para ms ejemplos con datos reales, consltese Aluja y Morineau (1999),


Baillo y Gran (2008), Greenacre (2010).

5.8.

Complementos

El Anlisis de Componentes Principales (ACP) fu iniciado por K. Pearson en 1901 y desarrollado por H. Hotelling en 1933. Es un mtodo referente
a una poblacin, pero W. Krzanowski y B. Flury han investigado las componentes principales comunes a varias poblaciones.
El ACP tiene muchas aplicaciones. Una aplicacin clsica es el estudio
de P. Jolicoeur y J. E. Mosimann sobre tamao y forma de animales (como
los caparazones de tortugas machos y hembras), en trminos de la primera,
segunda y siguientes componentes principales. La primera componente permite ordenar los animales de ms pequeos a ms grandes, y la segunda
permite estudiar su variabilidad en cuanto a la forma. Ntese que tamao
y formason conceptos independientesen sentido lineal.
EL ACP Comn (Common Principal Component Analysis) es el estudio de las componentes principales comunes en varios conjuntos de datos.
Supongamos que unas mismas variables tienen matrices de covarianzas 1 ; : : : ;
k en k poblaciones distintas y que las descomposiciones espectrales son
0
i = T i T ; i = 1; : : : ; k; es decir, los vectores propios (columnas de T) son
los mismos. Entonces las componentes principales son las mismas, aunque las
varianzas sean distintas. Por ejemplo, los caparazones de tortugas machos y
hembras, aunque de distinta magnitud, pueden tener la misma estructura de
tamao y forma. Vase Krzanowski (1988) y Flury (1997).
El AFM (Anlisis Factorial Mltiple) permite visualizar varios conjuntos
de datos observados con distintas variables, a n de encontrar una estructura
comn. El AFM se realiza en dos pasos. Primero se aplica un PCA a cada
matriz (centrada) de datos, que se normaliza dividiendo por la raz cuadrada
del primer valor propio. Las matrices transformadas se juntan en una sola, a
la que se aplica un PCA global. Vase Escouer y Pags (1990).
El biplot, tcnica introducida por Gabriel (1971), permite la representacin
en un mismo grco de las las y columnas de una matriz de datos X (Figura 5.2). Vase Gower y Hand (1996), Galindo-Villardn (1986), Crdenas y
Galindo-Villardn (2009), Greenacre (2010) y Gower et al. (2011).
El ACP puede servir para estudiar la capacidad de un crneo o de una
caparazn. Supongamos que la caparazn de una tortuga tiene longitud L,

90

CAPTULO 5. ANLISIS DE COMPONENTES PRINCIPALES

anchura A; y altura H: La capacidad sera C = L A H ; donde ; ;


parmetros. Aplicando logaritmos, obtenemos
log C =

son

log L + log A + log H = log(L A H );

que podemos interpretar como la primera componente principal Y1 de las


variables log L; log A; log H, y por tanto ; ; seran los coecientes de Y1 :
Por medio del ACP es posible efectuar una regresin mltiple de Y sobre
X1 ; : : : ; Xp , considerando las primeras componentes principales Y1 ; Y2 ; : : : como variables explicativas, y realizar regresin de Y sobre Y1 ; Y2 ; : : : ; evitando
as efectos de colinealidad. Sin embargo las ltimas componentes principales
tambin pueden inuir en Y: Tal anomala se presenta cuando se cumple la
desigualdad (llamada realce en regresin mltiple),
R2 > r12 +

+ rp2 ;

(5.8)

donde R es la correlacin mltiple de Y sobre X1 ; : : : ; Xp ; y ri la correlacin


simple de Y con Xi ; :i = 1; : : : ; p: Cuadras (1993) prueba que (5.8) equivale
a
p
X
rY2i (1
i ) > 0;
i=1

siendo i ; i = 1; : : : ; p; los valores propios de la matriz de correlaciones R


de las variables Xi y rYi las correlaciones simples entre Y y las componentes
Yi : Vemos pues que se verica (5.8) si Y est muy correlacionada con una
componente Yi tal que i < 1 (por ejemplo, la ltima componente principal).
Cuadras (1995) y Waller (2011) analizan las condiciones bajo las cuales la
desigualdad (5.8) es ms acusada.
La regresin ortogonal es una variante interesante. Supongamos que se
quieren relacionar las variables X1 ; : : : ; Xp (todas con media 0); en el sentido
de encontrar los coecientes 1 ; : : : ; p tales que 1 X1 +
+ p Xp = 0: Se
puede plantear el problema como var( 1 X1 +
+ p Xp ) =mnima, condi2
2
cionado a 1 + + p = 1: Es fcil ver que la solucin es la ltima componente
principal Yp .
Se pueden tambin denir las componentes principales de un proceso estocstico y de una variable aleatoria. Cuadras y Fortiana (1995), Cuadras y
Lahlou (2000), y Cuadras et al. (2006), han estudiado los desarrollos ortogonales del tipo
1
X
X=
bn X n ;
n=1

5.8. COMPLEMENTOS

91

donde Xn son componentes principales. Se han encontrado las componentes


y los desarrollos ortogonales para las variables con distribucin uniforme,
exponencial, logsticapy Pareto. Por ejemplo, en el caso de X uniforme en
(0; 1) se tiene Xn = ( 2=(n ))(1 cos n X):

92

CAPTULO 5. ANLISIS DE COMPONENTES PRINCIPALES

Captulo 6
ANLISIS FACTORIAL
6.1.

Introduccin

El Anlisis Factorial (AF) es un mtodo multivariante que pretende expresar p variables observables como una combinacin lineal de m variables
hipotticas o latentes, denominadas factores. Tiene una formulacin parecida
al Anlisis de Componentes Principales, pero el modelo que relaciona variables y factores es diferente en AF. Si la matriz de correlaciones existe, las
componentes principales tambin existen, mientras que el modelo factorial
podra ser aceptado o no mediante un test estadstico.
Ejemplos en los que la variabilidad de las variables observables se puede
resumir mediante unas variables latentes, que el AF identica como factores, son:
1. La teoria clsica de la inteligencia supona que los test de inteligencia estaban relacionados por un factor general, llamado factor g de
Spearman.
2. La estructura de la personalidad, tambin medida a partir de test y
escalas, est dominada por dos dimensiones: el factor neuroticismoestabilidad y el factor introversin-extroversin.
3. Las diferentes caractersticas polticas de ciertos pases estn inuidas
por dos dimensiones: izquierda-derecha y centralismo-nacionalismo.
El AF obtiene e interpreta los factores comunes a partir de la matriz de
93

94

CAPTULO 6. ANLISIS FACTORIAL

correlaciones entre las variables:


0
1 r12
B r21 1
B
R = B ..
..
@ .
.
rp1 rp2

6.2.

r1p
r2p
.
..
. ..
1

C
C
C:
A

El modelo unifactorial

Consideremos X1 ; : : : ; Xp variables observables sobre una misma poblacin.


El modelo ms simple de AF slo contempla un factor comn F; que recoge
la covariabilidad de todas las variables, y p factores nicos U1 ; : : : ; Up ; uno
para cada variable. El modelo factorial es
Xi = ai F + di Ui ;

i = 1; : : : ; p:

(6.1)

De acuerdo con este modelo, cada variable Xi depende del factor comnF
y de un factor nico Ui : El modelo supone que:
a) las variables y los factores estn estandarizados (media 0 y varianza
1).
b) Los p + 1 factores estn incorrelacionados.
De este modo F contiene la parte de la variabilidad comn a todas las
variables, y cada Xi est adems inuida por un factor nico Ui ; que aporta
la parte de la variabilidad que no podemos explicar a partir del factor comn.
El coeciente ai es la saturacin de la variable Xi en el factor F:
De (6.1) deducimos inmediatamente que
= 1;
a2i + d2i
cor(Xi ; F ) = ai ;
cor(Xi ; Xj ) = ai aj ;

i 6= j:

Por lo tanto la saturacin ai es el coeciente de correlacin entre Xi y el factor


comn. Por otra parte a2i ; cantidad que recibe el nombre de comunalidad,
indicada por h2i ; es la proporcin de variabilidad que se explica por F y la
correlacin entre Xi ; Xj slo depende de las saturaciones ai ; aj :
Una caracterizacin del modelo unifactorial es
rij 0
ai
rij
=
= ;
ri0 j
ri0 j 0
ai0

(6.2)

6.2. EL MODELO UNIFACTORIAL

95

es decir, los cocientes entre elementos de la misma columna no diagonal de


dos las de la matriz de correlaciones R es constante. Esto es equivalente a
decir que el determinante de todo menor de orden dos de R; que no contenga
elementos de la diagonal, es nulo:
rij rij 0
ri0 j ri0 j 0

= rij ri0 j 0

rij 0 ri0 j 0 = ai aj ai0 aj 0

ai aj 0 ai0 aj 0 = 0:

(6.3)

Estas son las llamadas relaciones tetrdicas , que necesariamente se deben


cumplir para que sea vlido el modelo unifactorial.
La matriz de correlaciones reducida R es la que resulta de substituir los
unos de la diagonal de R por las comunalidades h2i (vase (6.7)). Es inmediato
probar que R tiene rango 1, que todos los menores de orden dos se anulan y
que las comunalidades se obtienen a partir de las correlaciones. Por ejemplo,
la primera comunalidad es
r12 r14
r1p 1 r1p
r12 r13
=
=
=
:
(6.4)
h21 =
r23
r24
rpp 1
En las aplicaciones reales, tanto estas relaciones como las tetrdicas, slo
se verican aproximadamente. As, la estimacin de la primera comunalidad
podra consistir en tomar la media de los cocientes (6.4).
Por ejemplo, la siguiente matriz de correlaciones
C
C 1;00
F 0;83
I 0;78
M 0;70
D 0;66
M u 0;63

F
0;83
1;00
0;67
0;67
0;65
0;57

I
0;78
0;67
1;00
0;64
0;54
0;51

M
0;70
0;67
0;64
1;00
0;45
0;51

D
0;66
0;65
0;54
0;45
1;00
0;40

Mu
0;63
0;57
0;51
0;51
0;40
1;00

relaciona las calicaciones en C (clsicas), F (francs), I (ingls), M (matemticas), D (discriminacin de tonos) y Mu (msica) obtenidas por los alumnos
de una escuela. Esta matriz verica, aproximadamente, las relaciones (6.2).
Si consideramos la primera y la tercera la, tenemos que:
0;70
0;66
0;63
0;83
=
=
=
= 1;2 .
0;67
0;64
0;54
0;51
De acuerdo con el modelo unifactorial, estas calicaciones dependen esencialmente de un factor comn.

96

CAPTULO 6. ANLISIS FACTORIAL

6.3.
6.3.1.

El modelo multifactorial
El modelo

El modelo del anlisis factorial de m factores comunes considera que


las p variables observables X1 ; : : : ; Xp dependen de m variables latentes
F1 ; : : : ; Fm , llamadas factores comunes, y p factores nicos U1 ; : : : ; Up , de
acuerdo con el modelo lineal:
X1 = a11 F1 +
X2 = a21 F1 +

+ a1m Fm +d1 U1
+ a2m Fm
+d2 U2

Xp = ap1 F1 +

+ apm Fm

(6.5)
+dp Up :

Las hiptesis del modelo son:


1. Los factores comunes y los factores nicos estn incorrelacionados dos
a dos
cor(Fi ; Fj ) = 0; i 6= j = 1; : : : ; m;
cor(Ui ; Uj ) = 0;

i 6= j = 1; : : : ; p:

2. Los factores comunes estn incorrelacionados con los factores nicos


cor(Fi ; Uj ) = 0;

i = 1; : : : ; m; j = 1; : : : ; p:

3. Tanto los factores comunes como los factores nicos son variables reducidas (media 0 y varianza 1).
En el modelo factorial (6.5) se admite que las variables, en conjunto,
dependen de los factores comunes, salvo una parte de su variabilidad, slo
explicada por el correspondiente factor especco. Los factores comunes representan dimensiones independentes en el sentido lineal, y dado que tanto
los factores comunes como los nicos son variables convencionales, podemos
suponer que tienen media 0 y varianza 1.

6.3. EL MODELO MULTIFACTORIAL

6.3.2.

97

La matriz factorial

Los coecientes aij son las saturaciones entre cada variable Xi y el factor
Fj : La matriz p m que contiene estos coecientes es la matriz factorial
0
1
a11
a1m
B a21
a2m C
C:
A =B
@
A
ap1
apm
Si indicamos por X = (X1 ; : : : ; Xp )0 el vector columna de las variables,
y anlogamente F = (F1 ; : : : ; Fm )0 ; U =(U1 ; : : : ; Up )0 ; el modelo factorial en
expresin matricial es
X = AF + DU;
(6.6)
donde D =diag(d1 ; : : : ; dp ) es la matriz diagonal con las saturaciones entre
variables y factores nicos. El AF tiene como principal objetivo encontrar e
interpretar la matriz factorial A:

6.3.3.

Las comunalidades

De las condiciones del modelo del AF se verica


var(Xi ) = a2i1 +

+ a2im + d2i ;

y por lo tanto a2ij es la parte de la variabilidad de la variable Xi que es debida


al factor comn Fj ; mientras que d2i es la parte de la variabilidad explicada
exclusivamente por el factor nico Ui :
La cantidad
h2i = a2i1 +
+ a2im
(6.7)
se llama comunalidad de la variable Xi : La cantidad d2i es la unicidad. Luego,
para cada variable tenemos que:
variabilidad = comunalidad + unicidad.
La comunalidad es la parte de la variabilidad de las variables slo explicada
por los factores comunes.
Si supoemos que las variables observables son tambin reducidas, entonces
tenemos que
1 = h2i + d2i :
(6.8)

98

CAPTULO 6. ANLISIS FACTORIAL

La matriz de correlaciones reducida se obtiene a partir de R substituyendo


los unos de la diagonal por las comunalidades
1
0 2
h1 r12
r1p
B r21 h22
r2p C
C:
R =B
A
@
rp1 rp2
h2p

Evidentmente se verica

R = R + D2 :

6.3.4.

(6.9)

Nmero mximo de factores comunes

El nmero m de factores comunes est limitado por un valor mximo ma ,


que podemos determinar teniendo en cuenta que hay p(p 1)=2 correlaciones
diferentes y p m saturaciones. Pero si A es matriz factorial tambin lo es
AT; donde T es matriz ortogonal, por tanto introduciremos m(m 1)=2
restricciones y el nmero de parmetros libres de A ser p m m(m 1)=2:
El nmero de correlaciones menos el nmero de parmetros libres es
d = p(p

1)=2

(p m

m(m

1
1)=2) = [(p
2

m)2

m]:

(6.10)

Si igualamos d a 0 obtenemos una ecuacin de segundo grado que un vez


resuelta nos prueba que
m

1
ma = (2p + 1
2

8p + 1):

Un modelo factorial es sobredeterminado si m > ma ; pues hay ms saturaciones libres que correlaciones. Si m = ma el modelo es determinado y
podemos encontrar A algebraicamente a partir de R:
Desde un punto de vista estadstico, el caso ms interesante es m < ma ;
ya que entonces podemos plantear la estimacin estadstica de A; donde
d > 0 juega el papel de nmero de grados de libertad del modelo. El nmero
mximo m de factores comunes en funcin de p es:
p
m

2 3 4 5 6 7 8 9 10 20 30 40
0 1 1 2 3 3 4 5 6 14 22 31

Asignamos a m el valor entero por defecto cuando ma tiene parte fraccionaria.

6.3. EL MODELO MULTIFACTORIAL

6.3.5.

99

El caso de Heywood

Una limitacin del modelo factorial es que alguna comunalidad puede alcanzar (algebraicamente) un valor superior a 1, contradiciendo (6.8). Cuando esto ocurre, la solucin se ha de interpretar con precaucin. En algunos
mtodos, como el de la mxima verosimilitud, se resuelve este inconveniente
(primeramente observado por H.B. Heywood) imponiendo la condicin h2i
1 en la estimacin de las comunalidades.

6.3.6.

Un ejemplo

Las asignaturas clsicas de la enseanza media, se dividen, en lneas generales, en asignaturas de Ciencias y de Letras, las primeras con contenido ms
racional y emprico, las segundas con contenido ms humanstico y artstico.
Consideremos las siguientes 5 asignaturas:
Ciencias Naturales (CNa), Matemticas (Mat), Francs (Fra), Latn (Lat),
Literatura (Lit). Supongamos que estn inuidas por dos factores comunes o
variables latentes: Ciencias (C) y Letras (L). En otras palabras, suponemos
que C y L son dos variables no observables, que de manera latente inuyen
sobre las cinco asignaturas. Las calicaciones de n = 20 alumnos en las asignaturas y en los factores se encuentran en la Tabla 6.1.

Vamos a suponer que la matriz factorial es


C
CNa .8
Mat .9
Fra .1
Lla
.3
Lit
.2

L
.2
.1
.9
.8
.8

Las dos primeras asignaturas estn ms inuidas por el factor C, y las


tres ltimas por el factor L. Por ejemplo, Matemticas tiene una correlacin
de 0.9 con Ciencias y slo 0.1 con Letras.
La calicacin del primer alumno en CNa es 7, debida a 7 puntos en
Ciencias y 5 puntos en Letras. Segn el modelo factorial:
7 = 0;8

7 + 0;2

5 + 0;4

100

CAPTULO 6. ANLISIS FACTORIAL

Asignaturas

Factores

Alumno CNa Mat Fra Lat Lit

1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20

7
5
5
6
7
4
5
5
6
6
6
5
6
8
6
4
6
6
6
7

7
5
6
8
6
4
5
6
5
5
7
5
6
7
7
3
4
6
5
7

5
6
5
5
6
6
5
5
7
6
5
4
6
8
5
4
7
7
4
6

5
6
7
6
7
7
5
5
6
6
6
5
6
8
6
4
8
7
4
7

6
5
5
6
6
6
6
5
6
6
5
4
5
8
6
4
7
7
4
6

Ciencias Letras

7
5
6
7
6
4
5
6
5
5
7
6
6
7
6
3
5
6
5
7

5
6
5
5
6
6
6
5
6
6
5
4
6
8
5
4
7
7
4
6

Tabla 6.1: Calicaciones en 5 asignaturas y puntuaciones en 2 factores comunes de 20 alumnos.

CNa Mat Fra


Lat
Lit
CNa 1
0;656 0;497 0;420 0;584
Mat
1
0;099 0;230 0;317
Fra
1
0;813 0;841
Lat
1
0;766
Lit
1
Tabla 6.2: Matriz de correlaciones para las calicaciones en 5 asignaturas.

6.4. TEOREMAS FUNDAMENTALES

101

De los 7 puntos, 5.6 se explican por el factor comn C, 1 punto por el factor
comn L y 0.4 puntos por el factor nico. Este factor nico representa la
variabilidad propia de las CNa, independente de los conceptos C y L.
Las comunalidades son:
h21 = 0;68; h22 = 0;82; h23 = 0;82; h24 = 0;73; h25 = 0;68:
Los porcentajes de la variabilidad explicada por los factores comunes y las
comunalidades son:
Factor C Factor L Comunalidades
C. Naturales
64
4
68
Matemticas
81
1
82
Francs
1
81
82
Latn
9
64
73
Literatura
4
64
68

6.4.

Teoremas fundamentales

El primer teorema, conocido como teorema de Thurstone, permite relacionar la matriz factorial con la matriz de correlaciones, o ms exactamente,
con la matriz de correlaciones reducida. El segundo teorema permite determinar, tericamente, el nmero de factores comunes y los valores de las
comunalidades.
Teorema 6.4.1 Bajo las hiptesis del modelo factorial lineal se verica
P
i 6= j = 1; : : : ; p;
rij = m
k=1 aik ajk ;
Pm 2
1 = k=1 aik + d2i ;
i = 1; : : : ; p:
En notacin matricial

R = AA0 + D2 :

(6.11)

Demost.: Al ser las variables reducidas, R =E(XX0 ) y de (6.6)


R = E((AF + DU)(AF + DU)0 )
= AE(FF0 )A0 +DE(UU0 )D0 + 2AE(FU0 )D:
Por las condiciones de incorrelacin entre factores tenemos que E(FF0 ) = Im ;
E(UU0 ) = Ip ; E(FU0 ) = 0; lo que prueba (6.11).

102

CAPTULO 6. ANLISIS FACTORIAL

De (6.9) vemos inmediatamente que


R = AA0 :

(6.12)

Una solucin factorial viene dada por cualquier matriz A que cumpla la
relacin (6.12). As pues, si m > 1; existen innitas soluciones, pues si A es
solucin, tambin lo es AT, siendo T una matriz m m ortogonal. Por otro
lado, (6.11) o (6.12) tampoco resuelven completamente el problema, ya que
desconocemos las comunalidades. La obtencin de las comunalidades est
muy ligada al nmero de factores comunes.
Teorema 6.4.2 Se verica:
1. El modelo factorial existe si R es la suma de una matriz semidenida
positiva y una matriz diagonal con elementos no negativos.
2. El nmero m de factores comunes es el rango de la matriz R : Por
lo tanto m es el orden del ms grande menor de R que no contiene
elementos de la diagonal.
1 tales que R es
3. Les comunalidades son aquellos valores 0
h2i
matriz semi-denida positiva (tiene m valores propios positivos).
Demost.: Es una consecuencia de la relacin (6.12) entre R y A: El mayor
menor de R quiere decir la submatriz cuadrada con determinante no negativo,
que no contenga elementos de la diagonal.
Hemos visto que a partir de R podemos encontrar m, pero la solucin no
es nica. El principio de parsimonia en AF dice que entre varias soluciones
admisibles, escogeremos la que sea ms simple. El modelo factorial ser pues
aquel que implique un nmero mnimo m de factores comunes. Fijado m, las
comunalidades se pueden encontrar, algebraicamente, a partir de la matriz
de correlaciones R: En la prctica, las comunalidades se hallan aplicando
mtodos estadsticos.
Finalmente, podemos probar de manera anloga, que si el anlisis factorial lo planteamos a partir de la matriz de covarianzas ; sin suponer las
variables reducidas, aunque s los factores, entonces obtenemos la estructura
= AA0 + D2 :

(6.13)

6.5. MTODO DEL FACTOR PRINCIPAL

6.5.

103

Mtodo del factor principal

Es un mtodo de obtencin de la matriz factorial con la propiedad de que


los factores expliquen mxima varianza y sean incorrelacionados.
La variabilidad total de las variables, que suponemos reducidas, es p: La
variabilidad de la variable Xi explicada por el factor Fj es a2ij : La suma de
variabilidades explicadas por Fj es
+ a2pj :

Vj = a21j +

El primer factor principal F1 es tal que V1 es mximo. Consideremos pues


el problema de maximizar V1 con la restriccin R = AA0 : Utilizando el
mtodo de los multiplicadores de Lagrange debemos considerar la funcin
V1 +

p
X

q (r
jj 0

m
X

jj 0

j;j 0 =1

ajk aj 0 k );

k=1

donde qjj 0 = qj 0 j son los multiplicadores. Igualando las derivadas a cero se


obtiene que las saturaciones a1 = (a11 ; : : : ; ap1 )0 del primer factor principal
verican
R a1 = 1 a1 ;
es decir, a1 es el primer vector propio de R y 1 es el primer valor propio.
El valor mximo de V1 es precisamente 1 :
Si ahora restamos del modelo factorial el primer factor
Xi0 = Xi

ai1 F1 = ai2 F2 +

+ aim Fm + di Ui ;

el modelo resultante contiene m 1 factores. Aplicando de nuevo el criterio


del factor principal al modelo vemos que las saturaciones a2 = (a12 ; : : : ; ap2 )0
tales que la variabilidad explicada por el segundo factor
V2 = a212 +

+ a2p2 ;

sea mxima, corresponende al segundo vector propio de R con valor propio


2 ; que es precisamente el valor mximo de V2 :
En general, si R = U U0 es la descomposicin espectral de R ; la
solucin del factor principal es
A=U

1=2

104

CAPTULO 6. ANLISIS FACTORIAL

Fijado un valor compatible de m, un algoritmo iterativo de obtencin de


la matriz factorial y de las comunalidades es:
R = U U0
(1) (1)0
R1 = U(1)
m Um
m
(i) (i) (i)0
Ri = Um m Um ;
(i)
(i)
Ai = Um ( m )1=2
Paso i+1 Ri+1 =diag(Ai A0i ) + R
Paso 1
Paso 2
Paso i

(p valores y vectores propios)


(m primeros vectores propios)

I (volver al paso i)

La matriz Ai converge a la matriz factorial A: Como criterio de convergencia podemos considerar la estabilidad de las comunalidades. Pararemos si
pasando de i a i + 1 los valores de las comunalidades, es decir, los valores en
diag(Ai A0i ); prcticamente no varan. Esta refactorizacin podria fallar si se
presenta el caso de Heywood o R no satisface el modelo factorial (6.11).
Ejemplo: Volviendo al ejemplo de las asignaturas, la solucin por el
mtodo del factor principal encuentra dos factores que explican el 74.6 % de
la varianza:
F1
F2
C. Naturales .621 -.543
Matemticas .596 -.682
Francs .796 .432
Latn .828 .210
Literatura .771 .292
Valor propio 2.654 1.076
Porcentaje 53.08 21.52

6.6.
6.6.1.

Mtodo de la mxima verosimilitud


Estimacin de la matriz factorial

Podemos plantear la obtencin de la matriz factorial como un problema


de estimacin de la matriz de covarianzas ; con la restriccin que
se
descompone en la forma
= AA0 + V;
donde V = D2 es una matriz diagonal (vase (6.13)). Si suponemos que las
n observaciones de las p variables provienen de una distribucin normal con

6.6. MTODO DE LA MXIMA VEROSIMILITUD

105

= 0; el logaritmo de la funcin de verosimilitud es


log L(X; ; ) =

n
(log j2
2

tr(

S)):

Cambiando de signo y modicando algunas constantes, se trata de estimar


A y V de manera que
1

Fp (A; V) = log j j + tr(

S) log jSj p

(6.14)

sea mnimo, siendo S la matriz de covarianzas muestrales. Las derivadas


respecto de A y V son
@Fp
=2
@A

@Fp
= diag(
@V

S)
1

A;

S)

):

Por tanto, las ecuaciones a resolver para obtener estimaciones de A y V son


1

(
S) 1 A = 0; diag( 1 (
S) 1 ) = 0;
0
0
1
= AA + V;
A V A es diagonal.

(6.15)

La ltima condicin es slo una restriccin para concretar una solucin,


puesto que si A es solucin, tambin lo es AT, siendo T matriz ortogonal.
Debe tenerse en cuenta que se trata de encontrar el espacio de los factores comunes. La solucin nal ser, en la prctica, una rotacin de la solucin que
verique ciertos criterios de simplicidad. Las ecuaciones (6.15) no proporcionan una solucin explcita, pero es posible encontrar una solucin utilizando
un mtodo numrico iterativo.

6.6.2.

Hiptesis sobre el nmero de factores

Una ventaja del mtodo de la mxima verosimilitud es que permite formular un test de hiptesis sobre la estructura factorial de y el nmero m
de factores comunes.
Planteemos el test
H0 :

= AA0 + V vs H1 :

donde A es de rango m.

es denida positiva,

106

CAPTULO 6. ANLISIS FACTORIAL

bA
b 0 +V;
b siendo A
b yV
b las estimaciones, los mximos del logaritmo
Si b = A
de la razn de verosimilitud son (Seccin 5.4.2)
H0 :
H1 :

n
(log j b j + tr( b 1 S));
2
n
(log jSj + p):
2

Aplicando el Teorema 3.5.1 tenemos que el estadstico


Ck = n(log j b j

log jSj + tr( b

b V)
b
S) p) = nFp (A;

sigue asintticamente la distribucin ji-cuadrado con

1
1)=2) = ((p m)2 p m)
2
grados de libertad. Podemos observar que Ck es n veces el valor mnimo de
la funcin (6.14) y que k coincide con (6.10).
k = p(p

6.7.

1)=2

(p m + p

m(m

Rotaciones de factores

La obtencin de la matriz factorial, por aplicacin de los dos mtodos


que hemos expuesto, no es ms que el primer paso del AF. Normalmente
la matriz obtenida no dene unos factores interpretables. En el ejemplo de
las asignaturas, la solucin por el mtodo del factor principal es en principio
vlida, pero dene dos factores comunes F1 ; F2 que no son fcilmente identicables. Se hace necesario rotarestos dos factores hacia unos factores ms
fciles de interpretar.
Se han propuesto diferentes versiones sobre como transformar la matriz
factorial a n de obtener una estructura simple de los factores. Esencialmente
se trata de conseguir que unas saturaciones sean altas a costa de otras, que
sern bajas, para as destacar la inuencia de los factores comunes sobre las
variables observables.

6.7.1.

Rotaciones ortogonales

Dada una matriz factorial A; queremos encontrar una matriz ortogonal


T tal que la nueva matriz factorial B = AT dena unos factores que tengan
una estructura ms simple. Un criterio analtico considera la funcin
p
m
m X
X
X
G=
[
a2ij a2ik
k=1 k6=j=1 i=1

p
X
i=1

a2ij

p
X
i=1

a2ik ];

(6.16)

6.7. ROTACIONES DE FACTORES

107

donde es un parmetro tal que 0


1: Hay dos criterios especialmente
interesantes.
Quartimax : Si = 0 minimizar G equivale a maximizar la varianza de
los cuadrados de los p m coecientes de saturacin. Si cada saturacin a2ij se
divide por la comunalidad, es decir, se considera a2ij =h2i ; la rotacin se llama
quartimax normalizada.
Varimax : Si = 1 minimizar G equivale a maximizar la suma de las
varianzas de los cuadrados de los coecientes de saturacin de cada columna
de A: Anlogamente si consideramos a2ij =h2i ; la rotacin se llama varimax
normalizada.

6.7.2.

Factores oblicuos

Los factores comunes pueden estar tambin correlacionados, y entonces


se habla del modelo factorial oblicuo. Este modelo postula que las variables
observables dependen de unos factores correlacionados F10 ; : : : ; Fm0 y de p
factores nicos. As para cada variable Xi
Xi = pi1 F10 +

+ pim Fm0 + di Ui ;

i = 1; : : : ; p:

(6.17)

La solucin factorial oblicua consistir en hallar las siguientes matrices:


1. Matriz del modelo factorial oblicuo
P =(pij )
siendo pij la saturacin de la variable Xi en el factor Fj0 :
2. Matriz de correlaciones entre factores oblicuos
= ('ij ) siendo 'ij = cor(Fi0 ; Fj0 ):
3. Estructura factorial oblicua (estructura de referencia)
Q =(qij ) siendo qij = cor(Xi ; Fj0 ):
Si indicamos F0 = (F10 ; : : : ; Fm0 )0 y escribimos el modelo (6.17) en forma
matricial
X = PF0 + DU;

108

CAPTULO 6. ANLISIS FACTORIAL

fcilmente probamos la relacin entre las tres matrices P;

yQ

Q=P ;
y la versin del teorema de Thurstone para factores correlacionados
R = P P0 + D2 :
Si los factores son ortogonales, el modelo factorial coincide con la estructura
factorial y tenemos que
P = Q;

6.7.3.

= Im :

Rotacin oblicua

Ya se ha dicho que hallar una matriz factorial A constituye el primer paso


de la factorizacin. Queremos encontrar una matriz L tal que la nueva matriz
factorial P = AL dena unos factores oblicuos que tengan una estructura
ms simple. Un criterio analtico sobre la matriz de estructura factorial Q
considera la funcin
H=

p
m X X
X
2
[
qij2 qik
k=1 k6=j=1 i=1

p
X

qij2

i=1

p
X

2
qik
]

i=1

donde es un parmetro tal que 0


1: Hay tres criterios especialmente interesantes, que tienen una interpretacin parecida al caso ortogonal
y que tambin se pueden formular, ms adecuadamente, dividiendo por las
comunalidades.
Quartimin: Si = 0 hay mxima oblicuidad entre los factores comunes.
Bi-quartimin: Si = 1=2 el criterio es intermedio entre quartimin y covarimin.
Covarimin: Si = 1 hay mnima oblicuidad entre los factores comunes.
Conviene tener en cuenta que las rotaciones ortogonales y oblcuas intentan simplicar la estructura factorial A y la estructura de referencia Q;
respectivamente.
Un criterio directo de rotacin oblcua es el promax. Sea A la matriz factorial obtenida por el mtodo varimax. Queremos destacar unas saturaciones
sobre otras, por tanto denimos P = (pij ) tal que
pij = jak+1
ij j=aij ;

k > 1;

6.7. ROTACIONES DE FACTORES

109

siendo k un nmero entero.


Cada elemento de A queda elevado a una potencia k conservando el signo.
Seguidamente ajustamos P a AL en el sentido de los mnimos cuadrados
(vase (13.4)):
L = (A0 A) 1 A0 P :
Es necesario normalizar la matriz L de manera que los vectores columna de
T = (L0 ) 1 tengan mdulo unidad. Obtenemos entonces
P = AL;

= T0 T;

Q = AT:

El grado de oblicuidad de los factores comunes aumenta con k: Se suele tomar


k = 4:
Ejemplo: Continuando con el ejemplo de las 5 asignaturas, la estimacin
mximo verosmil y la matriz factorial rotada son:

CNa
Mat
Fra
Lat
Lit

Mxim
F1
.659
.999
.104
.234
.327

veros.
F2
.432
.005
.974
.809
.831

Varimax
C
L
.636 .464
.999 .046
.055 .978
.193 .820
.280 .847

Comun.
.62
.99
.96
.71
.79

El test de hiptesis de que hay m = 2 factores comunes da 21 = 1;22;


no signicativo. Podemos aceptar m = 2: La rotacin varimax pone de maniesto la existencia de dos factores C; L, que podemos interpretar como dimensiones latentes de Ciencias y Letras.
La rotacin oblicua promax con k = 4 da las matrices P; Q; :

CNa
Mat
Fra
Lla
Lit

Modelo
C
.570
1.04
-.150
.028
.114

factorial Estruct. factorial Correlaciones factores


L
C
L
.375
.706 .581
-.135
.992 .242
1 ;362
;362 1
1.024
.221 .970
.831
.330 .842
.844
.420 .885

La Figura 6.1 representa los factores ortogonales iniciales F1 y F2 , dibujados como vectores unitarios, y los factores oblicuos C y L. Las variables
tienen una longitud proporcional a la raz cuadrada de sus comunalidades.

110

CAPTULO 6. ANLISIS FACTORIAL

Figura 6.1: Proyeccin de las variables sobre los factors comunes ortogonals, y
factores rotados (rotacin promax), interpretados como factores de Ciencias
y Letras.

6.7.4.

Factores de segundo orden

Un vez hemos obtenido los factores oblicuos con matriz de correlaciones


; podemos suponer que estos m factores primarios dependen de m0 factores
secundarios de acuerdo con una matriz factorial B que verica
= BB0 + E2 ;
siendo E la matriz m m diagonal.
Si los factores secundarios son tambin oblicuos, el proceso de factorizacin puede continuar hasta llegar a un nico factor comn de orden superior.
Un ejemplo de aplicacin nos lo proporciona la teoria clsica de la estructura factorial de la inteligencia. Los test de aptitud dependen de un conjunto
elevado de factores primarios, que dependen de un conjunto de 7 factores
secundarios (verbal, numrico, espacial, razonamiento, memoria, percepcin,
psicomotores), que a su vez dependen de un factor general g(el factor g
de Spearman), que sintetiza el hecho de que todas las aptitudes mentales
estn correlacionadas.

6.8. MEDICIN DE FACTORES

6.8.

111

Medicin de factores

Sea x = (x1 ; : : : ; xp )0 los valores de las p variables observables obtenidos


sobre un individuo !. Nos planteamos ahora medir los factores, es decir,
encontrar los valores f = (f1 ; : : : ; fm )0 de los factores comunes sobre !. Se
verica
x = Af + Du;
(6.18)
siendo u = (u1 : : : ; up )0 los valores de las unicidades.
Si interpretamos (6.18) como un modelo lineal, donde x es el vector de
observaciones, A es la matriz de diseo, f es el vector de parmetros y e = Du
es el trmino de errror, el criterio de los mnimos cuadrados (vase (13.4))
nos da
f = (A0 A) 1 A0 x:
Un mtodo ms elaborado (propuesto por M. S. Bartlett) considera que
f es funcin lineal de x y que los valores de los factores nicos
u = D 1 (x

Af )

son trminos de error. Si queremos minimizar


u0 u = u21 +
expresando (6.18) como D

x=D

+ u2p ;

Af + u; es fcil ver que

f = (A0 D 2 A) 1 A0 D 2 x:
Una modicacin de este mtodo (propuesta por T. W. Anderson y H.
Rubin) consiste en aadir la condicin de que los factores comunes estimados
estn incorrelacionados. La solucin que resulta es
f = B 1 A0 D 2 x;
siendo B2 = A0 D 2 RD 2 A:
Ejemplo: Continuando con el ejemplo de las 5 asignaturas, las calicaciones en las asignatures de los 4 primeros alumnos (Tabla 6.1) y las puntuaciones (Anderson-Rubin) en los factores C y L; obtenidos con la rotacin
varimax, son:
C
L
Alumno CNa Mat Fra Lat Lit
1
7
7
5
5
6
1.06 -.559
2
5
5
6
6
5 -.568 .242
3
5
6
5
7
5
.259 -.505
4
6
8
5
6
6
1.85 -.614

112

CAPTULO 6. ANLISIS FACTORIAL

Teniendo en cuenta que los factores comunes son variables estandarizadas,


el primer alumno tiene una nota relativamente alta en Ciencias y una nota
algo por debajo de la media en Letras.

6.9.

Anlisis factorial conrmatorio

Los mtodos del factor principal y de la mxima verosimilitud son exploratorios, en el sentido de que exploran las dimensiones latentes de las
variables. El AF tambin se puede plantear en sentido conrmatorio, estableciendo una estructura factorial de acuerdo con el problema objeto de
estudio, y seguidamente aceptando o rechazando esta estructura mediante
un test de hiptesis. Por ejemplo, podemos considerar que la matriz factorial
en el ejemplo de las 5 asignaturas es

CNa
Mat
Fra
Lla
Lit

C L
1 0
1 0
0 1
0 1
0 1

interpretando que las dos primeras slo dependen del factor Ciencias y las
otras tres del factor Letras. Entonces podemos realizar una transformacin
de la matriz factorial inicial para ajustarnos a la matriz anterior.
Si la solucin inicial es A; postulamos una estructura B y deseamos encontrar T ortogonal tal que AT se aproxime a B en el sentido de los mnimos
cuadrados
tr[(B AT)0 (B AT)] = mnimo,
entonces la solucin es T = UV0 ; siendo A0 B = UDs V0 la descomposicin
singular de A0 B: Es decir AT es la transformacin procrustes de A: Vase (
1.7).
Si T no es ortogonal y por lo tanto se admite una estructura oblicua,
entonces T se obtiene siguiendo un procedimiento parecido a la rotacin
promax
T = (A0 A) 1 A0 B;
pero normalizando a mdulo 1 los vectores columna de T:

6.9. ANLISIS FACTORIAL CONFIRMATORIO

113

Ms generalmente, en AF conrmatorio se especica el nmero de factores


comunes, el tipo ortogonal u oblicuo de la solucin, y los valores libres o jos
de las saturaciones.
Ejemplo: Un AF conrmatorio sobre 9 test (estudiado por K. Joreskog)
obtiene siete soluciones conrmatorias. De los 9 test considerados, los test
1,2,3 miden relaciones espaciales, los test 4,5,6 inteligencia verbal y los test
7,8,9 velocidad de percepcin. La matriz de correlaciones es:
1
2
3
4
5
6
7
8
9
1 1 .318 .468 .335 .304 .326 .116 .314 .489
2
1
.230 .234 .157 .195 .057 .145 .139
1
.327 .335 .325 .099 .160 .327
3
4
1
.722 .714 .203 .095 .309
1
.685 .246 .181 .345
5
1
.170 .113 .280
6
7
1
.585 .408
8
1
.512
9
1
Slo comentaremos tres soluciones. La primera solucin es oblicua no
restringida, y se puede aceptar, puesto que la ji-cuadrado del ajuste no es
signicativa.

.71
.54
.67
.00
-.03
.01
.00
.42
.56

P
.00 .00
-.03 -.08
.04 -.09
.87 .00
.81 .13
.82 -.01
.00 .78
-.30 .73
-.06 .41

Comun.
.50
.26
.46
1
.76
.54 1
.70
.24 .28 1
.68
.61
.68
.54

2
12

= 9;77
p = 0;64

La segunda solucin es oblicua restringida. Se impone la condicin de que


los tres primeros test correlacionen slo con el primer factor, los tres siguientes
slo con el segundo y los tres ltimos slo con el tercero. No obstante, el valor
ji-cuadrado es signicativo y esta solucin no debera aceptarse.

114

CAPTULO 6. ANLISIS FACTORIAL

.68
.52
.69
.00
.00
.00
.00
.00
.00

P
.00
.00
.00
.87
.83
.83
.00
.00
.00

.00
.00
.00
.00
.00
.00
.66
.80
.70

Comun.
.46
.27
.48
1
.77
.54 1
.69
.52 .34 1
.69
.43
.63
.49

2
24

= 51;19
p = 0;001

La tercera solucin es ortogonal no restringida, con un factor general y


tres factores especcos, en el sentido que el primero no correlaciona con la
variable 4, el segundo no correlaciona con las variables 1 y 7 y el tercero
no correlaciona con 1,2 y 4. El valor ji-cuadrado indica que esta solucin es
aceptable.

.38
.24
.38
.87
.83
.83
.24
.15
.36

6.10.

.58
.41
.53
.00
.01
.01
.02
.43
.59

P
.00 .00
.35 .00
.30 -.03
.03 .00
-.13 .06
.04 -.02
.00 .95
-.13 .57
-.22 .34

1
.00
.00
.00

Comun.
.48
.37
.52
1
.75
.00
1
.72
.00 .00 1
.68
.95
.56
.64

2
6

= 2;75
p = 0;84

Complementos

Constituyen dos precedentes del Anlisis Factorial el concepto de factor latente de F. Galton y de eje principal de K. Pearson. El primer trabajo,
publicado en 1904, por Ch. Spearman (Spearman, 1904) desarrolla una teora
de la inteligencia alrededor de un factor comn, el factor g. Esta teora,

6.10. COMPLEMENTOS

115

que ordenaba la inteligencia de los individuos a lo largo de una sola dimensin, fue defendida por C. Burt, con consecuencias sociolgicas importantes,
pues proporcion una base cientca para nanciar las escuelas privadas en
detrimento de otras.
El Anlisis Factorial moderno se inicia con la obra Multiple Factor
Analysis de L.L. Thurstone, que postulaba ms de un factor comn, introduca la estructura simple y las rotaciones de factores. A partir de Thurstone
la medida de la inteligencia era ms democrtica, ya que posea varias
dimensiones latentes, quedando sin sentido una ordenacin clasista de los
individuos, pues si en una dimensin sera posible ordenarlos, en varias dimensiones es imposible. Hubo una polmica similar sobre la personalidad. La
teoria psicoanaltica defenda una continuidad entre la personalidad neurtica
y la psictica, mientras que el AF revela que neurosis y psicosis son dimensiones independientes.
Los modelos y mtodos de Spearman, Burt, Thurstone y otros (Holzinger,
Harman y Horst), son ya historia. Los mtodos actuales para obtener la
matriz factorial son: factor principal, anlisis factorial cannico (C.R. Rao),
mtodo Alfa (H.F. Kaiser, J. Carey) y el mtodo de la mxima verosimilitud
(D.N. Lawley, K.G. Joreskog). Vase Joreskog (1967).
El mtodo varimax de rotacin ortogonal de Kaiser es uno de los ms
recomendados. J.B. Carroll introdujo la rotacin oblicua quartimin y A.E.
Hendrickson y P.O. White la promax. Anderson y Rubin (1956) publicaron
un excelente trabajo sobre AF, tratando todo los aspectos algebraicos y estadsticos del tema. Vase Harman (1976), Torrens-Ibern (1972).
El estudio de las dimensiones latentes es un tema presente en la ciencia
y siempre ha despertado inters. C. R. Rao demostr que si conocemos la
distribucin de k combinaciones lineales de p variables independientes, siendo
k(k 1)=2 < p
k(k + 1)=2; entonces la distribucin de cada una de las
p variables queda determinada (salvo la media o parmetro de localizacin).
Por ejemplo, si tenemos p = 210 variables independientes bastara conocer
la distribucin de k = 20 combinaciones lineales adecuadas para determinar
la distribucin de las 210 variables. Este resultado proporciona una cierta
justicacin terica acerca del hecho que la informacin multivariante posee
una dimensionalidad latente mucho ms pequea.
La etapa inicial del AF (hasta 1966), era exploratoria, como una herramienta para explorar la dimensionalidad latente de las variables. Ms tarde,
el anlisis factorial se ha entendido en sentido conrmatorio (Joreskog, Lawley, Maxwell, Mulaik), estableciendo una estructura factorial de acuerdo con

116

CAPTULO 6. ANLISIS FACTORIAL

el problema, y seguidamente aceptando o rechazando esta estructura mediante un test de hiptesis (Joreskog, 1969, 1970). Consltese Cuadras (1981).
Se han llevado a cabo muchas aplicaciones del AF. Citaremos tres, las
dos primeras sobre AF exploratorio y la tercera sobre AF conrmatorio.
Rummel (1963) estudia 22 medidas de los conictos de 77 naciones y encuentra tres dimensiones latentes, que identica como: agitacin, revolucin
y subversin, y ordena las naciones segn las puntuaciones en los factores
comunes.
Snchez-Turet y Cuadras (1972) adaptan el cuestionario E.P.I. de personalidad (Eysenck Personality Inventory) y sobre un test de 69 tems (algunos
tems detectan mentiras) encuentran tres factores: Introversin-Extroversin,
Estabilidad-Inestabilidad, Escala de mentiras.
Joreskog (1969) explica un ejemplo de AF conrmatorio sobre 9 test,
previamente estudiado por Anderson y Rubin. Vase la Seccin 6.9.
Finalmente, el Anlisis de Estructuras Covariantes es una generalizacin
del AF, que unica este mtodo con otras tcnicas multivariantes (MANOVA,
anlisis de componentes de la varianza, anlisis de caminos, modelos simplex
y circumplexos, etc.). Se supone que la estructura general para la matriz de
covarianzas es
= B(P P0 + D2 )B0 + 2 :
Otra generalizacin es el llamado modelo LISREL (Linear Structural Relationship), que permite relacionar un grupo de variables dependientes Y
con un grupo de variables independientes X; que dependen de unas variables latentes a travs de un modelo de medida. Las variables latentes estn
relacionadas por un modelo de ecuaciones estructurales. LISREL (Joreskog
y Sorbom, 1999) es muy exible y tiene muchas aplicaciones (sociologa, psicologa, economa). Vase Satorra (1989), Batista y Coenders (2000).

Captulo 7
ANLISIS CANNICO DE
POBLACIONES
7.1.

Introduccin

Con el Anlisis de Componentes Principales podemos representar los individuos de una poblacin, es decir, representar una nica matriz de datos. Pero
si tenemos varias matrices de datos, como resultado de observar las variables
sobre varias poblaciones, y lo que queremos es representar las poblaciones,
entonces la tcnica adecuada es el Anlisis Cannico de Poblaciones (CANP).
Supongamos que de la observacin de p variables cuantitativas X1 ; : : : ; Xp
sobre g poblaciones obtenemos g matrices de datos
0
1
X1
n1 p
B X2 C n2 p
B
C
X = B .. C
..
@ . A
.
Xg
ng p

donde Xi es la matriz ni p de la poblacin i: Sean x01 ;x02 ; : : : ;x0g los vectores


(la)
Pg de las medias de cada poblacin. X es de orden n p, siendo n =
i=1 ni : Indiquemos
0 0
1
x1 x0
B x0 x0 C
B 2
C
X= B ..
C
@ .
A
0
0
xg x
117

118

CAPTULO 7. ANLISIS CANNICO DE POBLACIONES

la matriz g p con las medias de las g poblaciones. Tenemos dos maneras de


cuanticar matricialmente la dispersin entre las poblaciones:
La matriz de dispersin no ponderada entre grupos
0

A =X X =

g
X

(xi

x)(xi

x)0 :

i=1

La matriz de dispersin ponderada entre grupos


B=

g
X

ni (xi

x)(xi

x)0 :

i=1

La matriz A es proporcional a una matriz de covarianzas tomando como


datos slo las medias de las poblaciones. La matriz B participa, juntamente
con W (matriz de dispersin dentro de grupos) en el test de comparacin
de medias de g poblaciones. Aqu trabajaremos con la matriz A, si bien los
resultados seran parecidos si utilizramos la matriz B: Tambin haremos uso
de la matriz de covarianzas (vase (3.2)):
S=

1
n

g
X

n i Si :

i=1

Entonces A =X X juega el papel de matriz de covarianzas entrelas poblaciones, S juega el papel de matriz de covarianzas dentrode las poblaciones.

7.2.

Variables cannicas
0

Denicin 7.2.1 Sean V = [v1 ; : : : ; vp ] los vectores propios de A =X X respecto de S con valores propios 1 >
> p , es decir,
Avi =

i Si vi ;

normalizados segn
vi0 Si vi = 1:
Los vectores v1 ; : : : ; vp son los vectores cannicos y las variables cannicas
son las variables compuestas
Yi = Xvi :

7.2. VARIABLES CANNICAS

119

Si vi = (v1i ; : : : ; vpi )0 y X = [X1 ; : : : ; Xp ]; la variable cannica Yi es la


variable compuesta
Yi = Xvi = v1i X1 +
que tiene S-varianza 1 y A varianza
varA (Yi ) = vi0 Avi =

i;

i;

+ vpi Xp

es decir:

varS (Yi ) = vi0 Si vi = 1:

Trabajaremos con p variables cannicas, pero de hecho el nmero efectivo es


k = m nfp; g 1g; ver Seccin 7.5.3.
Teorema 7.2.1 Las variables cannicas verican:
1. Son incorrelacionadas dos a dos respecto a A y tambin respecto a S
covA (Yi ; Yj ) = covS (Yi ; Yj ) = 0 si

i 6= j:

2. Las A-varianzas son respectivamente mximas:


varA (Y1 ) =

>

> varA (Yp ) =

p;

en el sentido de que Y1 es la variable con mxima varianza entre grupos,


condicionada a varianza 1 dentro grupos, Y2 es la variable con mxima
varianza entre grupos, condicionada a estar incorrelacionada con Y1 y
tener varianza 1 dentro grupos, etc.
Demost.: Supongamos 1 >
> p > 0: Probemos que las variables Yi =
Xti ; i = 1; : : : ; p; estn incorrelacionadas:
covA (Yi ; Yj ) = t0i Atj = t0i S j tj =
covA (Yj ; Yi ) = t0j Ati = t0j S j ti =

0
j ti Stj ;
0
i tj Sti ;

0
0
) ( j
i )ti Stj = 0 ) ti Stj = 0 ) covA (Yi ; Yj ) =
covA (Yi ; Yj ) = 0; si i 6= j. Adems, de t0i Stj = 1:

0
j ti Stj

varA (Yi ) = i t0i Stj = i :


Pp
Pp
Sea ahora
Y
=
a
X
=
i
i
i=1
P
P i=1 i Yi una variable compuesta tal que
varS (Y ) = pi=1 2i varS (Yi ) = pi=1 2i = 1: Entonces:
p
X
varA (Y ) = varA (
i=1

i Yi )

p
X
i=1

2
i varA (Yi )

p
X
i=1

2
i i

p
X
(
i=1

2
i) 1

= varA (Y1 );

120

CAPTULO 7. ANLISIS CANNICO DE POBLACIONES

que prueba que Y1 tiene mxima varianza entre grupos.


Consideremos a continuacin las variables Y incorrelacionadas con Y1 ;
que podemos expresar como:
Y =

p
X

i Yi

condicionado a

p
X

2
i

= 1:

i=2

i=2

Entonces:
p
X
varA (Y ) = varA (

i Yi ) =

p
X

2
i varA (Yi )

p
X

2
i i

p
X
(

2
i) 2

= varA (Y2 );

i=2

i=2

i=2

i=2

y por lo tanto Y2 est incorrelacionada con Y1 y tiene varianza mxima. La


demostracin para Y3 ; : : : ; Yp es anloga.

7.3.

Distancia de Mahalanobis y transformacin cannica

La distancia de Mahalanobis entre dos poblaciones es una medida natural


de la diferencia entre las medias de las poblaciones, pero teniendo en cuenta
las covarianzas. En la Seccin 1.9 hemos introducido la distancia entre los
individuos de una misma poblacin. Ahora denimos la distancia entre dos
poblaciones cuando hay ms de dos poblaciones.
Denicin 7.3.1 Consideremos muestras multivariantes de g poblaciones
con vectores de medias x1 ;x2 ; : : : ;xg y matriz de covarianzas (comn) S: La
distancia (al cuadrado) de Mahalanobis entre las poblaciones i; j es
M 2 (i; j) = (xi

xj )0 S 1 (xi

xj ):

Si X es la matriz centrada con los vectores de medias y V = [v1 ; : : : ; vp ]


0
es la matriz con los vectores cannicos (vectores propios de A =X X respecto
de S); la transformacin cannica es
Y =XV:
La matriz Y de orden g
poblaciones.

p contiene las coordenadas cannicas de las g

7.4. REPRESENTACIN CANNICA

121

Teorema 7.3.1 La distancia de Mahalanobis entre cada par de poblaciones


i; j coincide con la distancia Eucldea entre las las i; j de la matriz de coordenadas cannicas Y. Si yi = xi V entonces
d2E (i; j) = (yi

yj )0 (yi

xj )0 S 1 (xi

yj ) = (xi

xj ):

(7.1)

Demost.: Basta probar que los productos escalares coinciden


0

yi yj0 = xi S 1 x0j () XS 1 X = YY0 :

(7.2)
0

Sea =diag( 1 ; : : : ; p ) la matriz diagonal con los valores propios de A =X X


respecto de S: Entonces
AV = SV

con

V0 SV = Ip ;

y la transformacin cannica es Y =XV:


0
0
AV = SV es X XV = SV , luego S 1 X XV = V y premultiplicando
0
por X tenemos XS 1 X XV = XV ; es decir,
0

XS 1 X Y = Y :
0

Con lo cual Y contiene los vectores propios de XS 1 X ; luego cumple la


descomposicin espectral
0

XS 1 X = Y Y0
suponiendo Y ortogonal. Tomando Y
0
obenemos nalmente XS 1 X = YY0 :

7.4.

1=2

que indicamos tambin por Y;

Representacin cannica

La representacin de las g poblaciones mediante las las de X con la


mtrica de Mahalanobis es bastante complicada: la dimensin puede ser
grande y los ejes son oblicuos. En cambio, la representacin mediante las
coordenadas cannicas Y con la mtrica Eucldea se realiza a lo largo de
ejes ortogonales. Si adems, tomamos las q primeras coordenadas cannicas
(usualmente q = 2), la representacin es totalmente factible y es ptima en
dimensin reducida, en el sentido de que maximiza la variabilidad geomtrica
.

122

CAPTULO 7. ANLISIS CANNICO DE POBLACIONES

Teorema 7.4.1 La variabilidad geomtrica de las distancias de Mahalanobis


entre las poblaciones es proporcional a la suma de los valores propios:
g
p
1 X
1X
2
M (i; j) =
VM (X) = 2
2g i;j=1
g i=1

Si Y =XV; donde V, de orden p


cannica en dimensin q y
2
ij (q)

= (yi

yj )(yi

(7.3)

i:

q es la matriz de la transformacin

yj ) =

q
X

yjh )2

(yih

h=1

es la distancia Eucldea (al cuadrado) entre dos las de Y; la variabilidad


geomtrica en dimensin q p es
g
1 X
V (Y)q = 2
2g i;j=1

2
ij (q)

1X
=
g i=1

i;

y esta cantidad es mxima entre todas las transformaciones lineales en dimensin q:


Demost.: De (5.3) y (7.1)
g
g
p
1 XX
1 X
2
M
(i;
j)
=
(yih yjh )2 = s21 +
+ s2p
2g 2 i;j=1
2g 2 i;j=1 h=1
P
donde s2j = ( gi=1 yij2 )=g representa la varianza ordinaria de la columna Yj
de Y: Esta suma de varianzas es
1
1
1
1
0
tra( Y0 Y) = tra(V0 X XV) = tra(V0 AV) = tra( )
g
g
g
g

VM (X) =

lo que prueba (7.3).


e
Sea ahora Y=XT
otra transformacin de X tal que T0 ST = I. Indicando
e es t0 At1
T = [t1 ; : : : ; tp ],:la A-varianza de la primera columna Ye1 de Y
1
0
v10 Av1 = 1 : Es decir, la varianza ordinaria s2 (Ye1 ) = g 1 Ye10 Ye1 = g 1 t01 X Xt1
es mxima para Y1 = Xv1 ; primera columna de Y: Anlogamente se denuestra para las dems columnas (segunda, tercera, etc., coordenadas cannicas).
Tenemos pues:
e =
V (Y)
q

q
X

1X
s (Yek ) =
varA (Yek )
g
k=1
k=1
2

1X
V (Y)q =
g k=1

k:

7.5. ASPECTOS INFERENCIALES

123

El porcentaje de variabilidad geomtrica explicada por las q primeras


coordenadas cannicas es
Pq = 100

7.5.

V (Y)q
= 100
VM (X)

+
1+

+
+

Aspectos inferenciales

Supongamos ahora que las matrices de datos X1 ; : : : ; Xg provienen de


g poblaciones normales Np ( 1 ; 1 ); : : : ; Np ( g ; g ): Para poder aplicar correctamente un anlisis cannico de poblaciones conviene que los vectores de
medias sean diferentes y que las matrices de covarianzas sean iguales.

7.5.1.

Comparacin de medias

El test
H0 :

(7.4)

ha sido estudiado en la Seccin 3.3.3 y se decide calculando el estadstico


= jWj=jB + Wj con distribucin lambda de Wilks. Si aceptamos H0 las
medias de las poblaciones son tericamente iguales y el anlisis cannico,
tcnica destinada a representar las medias de las poblaciones a lo largo de
ejes cannicos, no tiene razn de ser. Por lo tanto, conviene rechazar H0 :

7.5.2.

Comparacin de covarianzas

El test
H00 :

se resuelve mediante el test de razn de verosimilitud


R

jS1 jn1 =2

jSjn=2

jSg jng =2

donde Si es la matriz de covarianzas de las datos de la poblacin i; estimacin


mximo verosmil de i y
S = (n1 S1 +

+ ng Sg )=n = W=n

124

CAPTULO 7. ANLISIS CANNICO DE POBLACIONES

es la estimacin mximo verosmil de ; matriz de covarianzas comn bajo


H00 : Rechazaremos H00 si el estadstico
2 log

= n log jSj

(n1 log jS1 j +

+ ng log jSg j)

2
q

es signicativo, donde q = gp(p + 1)=2 p(p + 1)=2 = (g 1)p(p + 1)=2 son los
grados de libertad de la ji-cuadrado. Si rechazamos H00 , entonces resulta que
no disponemos de unos ejes comunes para representar todas las poblaciones
(la orientacin de los ejes viene determinada por la matriz de covarianzas),
y el anlisis cannico es tericamente incorrecto. Conviene pues aceptar H00 :
Este es el llamado test de Bartlett.
Debido a que el test anterior puede ser sesgado, conviene aplicar la correccin de Box,
c (n

g) log jSj

b i = (ni =(ni
donde S

b g j)
1) log jS

+ (ng

1))Si ; y la constante c es
2p2 + 3p
(
6(p + 1)(g

c = [1

7.5.3.

b1j +
1) log jS

((n1

g
1 X 1
)(
1) k=1 ng 1

1
n

)]:

Test de dimensionalidad
0

Como el rango de A = X X no puede superar ni la dimensin p ni g


es obvio que el nmero efectivo de valores propios es
k = m nfp; g

1;

1g:

Si los vectores de medias poblacionales estn en un espacio Rm de dimensin m < k; entonces el espacio cannico tiene dimensin m y por lo tanto
debemos aceptar la hiptesis
(m)

H0
donde 1 >
>
de A) respecto de

>

>

>

m+1

k;

son los valores propios de MM (la versin poblacional


: Si
l1 >
> lk

son los valores propios de B respecto de W (ver Seccin 3.3.3), es decir,


soluciones de
jB lWj = 0;

7.5. ASPECTOS INFERENCIALES


(m)

entonces un test para decidir H0


bm = [n

125

est basado en el estadstico

k
X
1
(p + g)]
log(1 + li )
2
i=m+1

2
q;

donde q = (p m)(g m 1): Este test asinttico, propuesto por Bartlett, se


aplica secuencialmente: si b0 es signicativo, estudiaremos b1 ; si b1 es tambin
signicativo, estudiaremos b2 , etc. Si b0 ; : : : ; bm 1 son signicativos pero bm
(0)
no, aceptaremos que la dimensin es m: Obsrvese que aceptar H0 equivale a
la hiptesis nula de igualdad de vectores de medias (que entonces coincidiran
en un punto), es decir, equivale a aceptar (7.4).
Otros autores utilizan este test independientemente para cada dimensin.
As, el test H0 : j = 0 est basado en el estadstico
cj = [n
donde r = p + g
signicativo.

7.5.4.

1
(p + g)] log(1 + lj )
2

2
r;

2j son los grados de liberdad. Rechazaremos H0 si cj es

Regiones condenciales

Sean y0i = x0i V;i = 1; : : : ; g las proyecciones cannicas de los vectores de


medias muestrales de las poblaciones. Podemos entender yi como una estimacin de i = i V; la proyeccin cannica del vector de medias poblacional
i : Queremos encontrar regiones condenciales para i ; i = 1; : : : ; g:
Teorema 7.5.1 Sea 1
el coeciente de conanza, F tal que P (F >
F ) = ; donde F sigue la distribucin F con p y (n g p + 1) g:l: y
consideremos:
(n g)p
R2 = F
:
(n g p + 1)
Entonces las proyecciones cannicas i de los vectores de medias poblacionales pertenecen a regiones condenciales que son hiperesferas (esferas
en dimensin 3, crculos en dimensin 2) de centros y radios
p
(yi ; R = ni );
donde ni es el tamao muestral de la poblacin i:

126

CAPTULO 7. ANLISIS CANNICO DE POBLACIONES

Demost.: xi
i es Np (0; =ni ) independiente de W que sigue la distribucin
Wp ( ; n g): Por lo tanto
0
1
(n g)ni (xi
i ) W (xi
1
0
= ni (xi
i )S (xi
i)

i)

T 2 (p; n

g);

y como la distribucin de Hotelling equivale a una F , tenemos que


(xi

0
1
i ) S (xi

i)

(n
ni (n

g)p
Fnp
g p + 1)

g p+1 :

As pues
R2
]=1
;
ni
que dene una regin condencial hiperelptica para i con coeciente de
conanza 1
: Pero la transformacin cannica y0i = x0i V convierte (xi
0
0
1
i ) S (xi
i ) en (yi
i ) (yi
i ) y por lo tanto
P [(xi

P [(yi

0
1
i ) S (xi

0
i ) (yi

i)

i)

R2
]=1
ni

Esta transformacin convierte adems hiperelipses en hiperesferas (elipses


en crculos si la dimensin es 2), ya que las variables cannicas son incorrelacionadas, lo que tambin es vlido si reducimos la dimensin (tomamos las
m primeras coordenadas cannicas).
Por ejemplo, si elegimos 1
= 0;95 y una representacin en dimensin
reducida 2, cada poblacin vendr representada por un crculo de centro yi
p
y radio R0;05 = ni ; de manera que el vector de medias proyectado pertenece
al crculo con coeciente de conanza 0.95. La separacin entre los centros
indicar diferencias, mientras que si dos crculos se solapan, ser indicio de
que las dos poblaciones son posiblemente iguales.
Ejemplo 7.5.1
Se tienen medidas de 5 variables biomtricas sobre colepteros del gnero
Timarcha de 5 especies encontradas en 8 localidades:
1. T. sinustocollis (Campellas, Pirineos) n1 = 40:
2. T. sinustocollis (Planollas, Pirineos) n2 = 40:
3. T. indet (vall de Llauset, Pirineos, Osca) n3 = 20:
4. T. monserratensis (Collformic, Barcelona) n4 = 40:

7.5. ASPECTOS INFERENCIALES

127

Figura 7.1: Proyecin cannica de cuatro poblaciones.

5.
6.
7.
8.

T.
T.
T.
T.

monserratensis (Collfsuspina, Barcelona) n5 = 40:


catalaunensis (La Garriga, Barcelona) n6 = 40:
balearica (Mahn, Baleares) n7 = 15
pimeliodes (Palermo, Sicilia) n8 = 40

Las medidas (en mm.) son:


X1 = long. prognoto, X2 =diam. mximo prognoto, X3 = base prognoto,
X4 = long. litros, X5 = diam. mximo litros.
Se quiere estudiar si existen diferencias entre las 8 especies y representarlas mediante la distancia de Mahalanobis. Los resultados del anlisis cannico
son:
Matriz de covarianzas comn:
0
1
3;277 3;249 2;867 5;551 4;281
B
7;174 6;282 9;210 7;380 C
B
C
C
6;210
8;282
6;685
S=B
B
C
@
20;30 13;34 A
13;27
Test de Bartlett para homogeneidad de la matriz de covarianzas. Jicuadrado = 229.284, con 105 g.l. Signicativo al 5 %.
Matriz de dispersin entre grupos:

128

CAPTULO 7. ANLISIS CANNICO DE POBLACIONES


0

6268 11386 8039


B
21249 15370
B
11528
B=B
B
@

22924
42795
31009
86629

Matriz de dispersin dentro de grupos:


0
874;8 867;5 765;4 1482
B
1915 1677 2458;99
B
1658
2211
W=B
B
@
5419

17419
32502
23475
65626
49890

1142
1970
1784
3562
3541

1
C
C
C
C
A
1
C
C
C
C
A

W4 (7; )

W5 (267; )

Matriz de dispersin total:


0
7143 12253 8804 24407 18562
B
23164 17047 45254 34472
B
B
13186 33220 25260
T=B
@
92049 69189
53432
Test de comparacin de medias:
= jWj = jB + Wj = 0;0102

(5; 267; 7) ! F = 62;5

1
C
C
C
C
A
(35 y 1108 g.l.)

Existen diferencias muy signicativas.


Transformacin cannica, valores propios y porcentaje acumulado:
v1
v2
-.0292 .2896
.5553 .7040
-.6428 -.9326
.1259 -.1326
.1125 .0059
158.64 24.53
% 85.03 98.18
De acuerdo con la Fig. 7.2, las poblaciones 1 y 2 pertenecen claramente
a la misma especie, as como la 4 y 5. Las poblaciones 3 y 6 son especies
prximas, mientras que las 7 y 8 se diferencian mucho de las otras especies.

7.6. COMPLEMENTOS

129

Figura 7.2: Representacin cannica de 8 especies de colepteros.

7.6.

Complementos

El Anlisis Cannico de Poblaciones (CANP) fue planteado por M.S.


Bartlett en trminos de correlacin cannica entre las poblaciones y las variables observables. C. R. Rao lo relacion con la distancia de Mahalanobis
y lo estudi como una tcnica para representar poblaciones. Su difusin es
debida a Seal (1964).
Existen diferentes criterios para obtener la regin condencial para las
medias de las poblaciones. Aqu hemos seguido un criterio propuesto por
Cuadras (1974). Una formulacin que no supone normalidad es debido a
Krzanowski y Radley (1989). A menudo los datos no cumplen la condicin
de igualdad de las matrices de covarianzas, aunque el CANP es vlido si las
matrices muestrales son relativamente semejantes.
En el CANP, y ms adelante en el Anlisis Discriminante, interviene la
descomposicin T = B + W; es decir:
g
ni
X
X
i=1 h=1

(xih x)(xih x) =

g
X
i=1

ni (xi x)(xi x) +

g
ni
X
X

(xih xi )(xih xi )0 :

i=1 h=1

Si los datos provienen de g poblaciones con densidades fi (x), medias y


matrices de covarianzas ( i ; i ) y probabilidades pi ; i = 1; : : : ; g; es decir, con
densidad
f (x) =p1 f1 (x) +
+pg fg (x);

130

CAPTULO 7. ANLISIS CANNICO DE POBLACIONES

entonces el vector de medias correspondiente a f es


=p1

1+

+pg

g;

y la matriz de covarianzas es
=

g
X

pi (

)(

i=1

Esta descomposicin de
versin multivariante de

)0 +

g
X

pi

i:

i=1

es la versin poblacional de T = B + W; y la

var(Y ) = E[var[Y jX]] + var[E[Y jX]];


donde Y jX representa la distribucin de una variable Y dada X: Vase Flury
(1997). Para una versin ms general de particin de la variabilidad en presencia de mixturas, vase Cuadras y Cuadras (2011).
Se llama falacia ecolgica a las conclusiones equivocadas (sobre todo
correlacionando dos variables) que resultan de agregar indebidamente varias
poblaciones. Los resultados para las poblaciones agregadas (por ejemplo,
varios paises), son distintos a los resultados para cada poblacin por separado (individuos de un mismo pas). Dadas dos poblacionesNp ( 1 ; ) y
Np ( 2 ; ); ;Cuadras y Fortiana (2001) prueban que se produce la falacia
ecolgica si la direccin principal de los datos es distinta de la direccin
del segmento que une 1 y 2 : Se verica entonces :
(

0
2)

2)

>(

0
2 ) [diag(

)] 1 (

2 );

es decir, si la distancia de Mahalanobis es mayor que la distancia de Pearson


. La desigualdad anterior reeja la inuencia de las componentes principales
de menor varianza y es parecida a la desigualdad (5.8).

Captulo 8
ESCALADO
MULTIDIMENSIONAL
(MDS)
8.1.

Introduccin

Representar un conjunto nito cuando disponemos de una distancia entre


los elementos del conjunto, consiste en encontrar unos puntos en un espacio de
dimensin reducida, cuyas distancias eucldeas se aproximen lo mejor posible
a las distancias originales.
Sea = f! 1 ; ! 2 ; : : : ; ! n g un conjunto nito con n elementos diferentes,
que abreviadamente indicaremos
= f1; 2; :::; ng:
Sea

ij

= (i; j) una distancia o disimilaridad entre los elementos i; j de

:
Se habla de distancia (mtrica) cuando se cumplen las tres condiciones:
1. (i; i) = 0

para todo i:

2. (i; j) = (j; i)
3. (i; j)

para todo i; j:

(i; k) + (j; k)

para todo i; j; k (desigualdad triangular):

Si slo se cumplen las dos primeras condiciones, diremos que (i; j) es


una disimilaridad.
131

132

CAPTULO 8. ESCALADO MULTIDIMENSIONAL (MDS)

Consideremos entonces la matriz de distancias (o disimilaridades)


0
1
11

B 21
B
= B ..
@ .

12

1n

22

2n

..
.

n1

..

C
C
.. C
. A

n2

ij

ji

= (i; j)

ii

= 0:

nn

Denicin 8.1.1 Diremos que


= ( ij ) es una matriz de distancias Eucldeas si existen n puntos x1 ; : : : ; xn 2 Rp ; siendo
x0i = (xi1 ; : : : ; xip );

i = 1; : : : ; n;

tales que
2
ij

p
X

(xi

xj )2 = (xi

xj )0 (xi

xj )

(8.1)

=1

Indicaremos las coordenadas de los puntos x1 ; : : : ; xn ; que representan los


elementos 1; : : : ; n de ; en forma de matriz
0
1
x11 x12
x1p
B x21 x22
x2n C
B
C
X = B ..
..
.. C :
.
.
@ .
.
.
. A
xn1 xn2
xnp

El objetivo del escalado multidimensional es encontrar la X ms adecuada a


partir de la matriz de distancias .

8.2.

Cundo una distancia es eucldea?

Sea (2) = ( 2ij ) la matriz de cuadrados de las distancias. Si la distancia


es eucldea entonces de (8.1)
2
ij

= x0i xi + x0j xj

La matriz de productos internos asociada a


G = XX0 :

2x0i xj :
es

8.2. CUNDO UNA DISTANCIA ES EUCLDEA?


Los elementos de G = (gij ) son gij = x0i xj : Relacionando
vemos que
(2)
= 1g0 + g10 2G;

133
(2)

=(

2
ij )

con G
(8.2)

donde g =(g11 ; : : : ; gnn )0 contiene los elementos de la diagonal de G: Sea H la


matriz de centrado (Captulo 1) y consideremos las matrices A = 12 (2) =
1 2
( ) y B = HAH:
2 ij
Teorema 8.2.1 La matriz de distancias
= ( ij ) es eucldea si y slo si
B 0; es decir, los valores propios de B son no negativos.
Demost.: La relacin entre B = (bij ) y A = (aij ) es
bij = aij

ai:

a:j + a:: ;

donde ai: es la media de la columna i de A, a:j es la media de la la j y a::


es la media de los n2 elementos de A: Entonces
bii =

ai:

a:i + a:: ;

bjj =

aj:

a:j + a:: ;

y por lo tanto
2
ij

= bii + bjj

2bij = aii + ajj

(8.3)

2aij :

es eucldea. Entonces G = XX0 . De (8.2) resulta que

Supongamos que

A=

(1g0 + g10 )=2 + G:

Multiplicando ambos lados de A por H, dado que H1 = 0 y 10 H = 00 ; tenemos que


0
B = HAH = HGH = HXX0 H = X X
0;
lo que prueba que B es semidenida positiva.
Supongamos ahora que B 0: Entonces B = YY0 para alguna matriz Y
de orden n p; es decir, bij = yi0 yj , donde yi0 es la la i- sima de Y: Aplicando
(8.3) tenemos
2
ij

= yi0 yi + yj0 yj

que demuestra que

2yi0 yj = (yi

yj )0 (yi

es matriz de distancias eucldeas.

yj );

134

8.3.

CAPTULO 8. ESCALADO MULTIDIMENSIONAL (MDS)

El anlisis de coordenadas principales

Hemos visto que si B 0, cualquier matriz Y tal que B = YY0 proporciona unas coordenadas cartesianas compatibles con la matriz de distancias
: Sea
B = U U0
la descomposicin espectral de B, donde U es una matriz n p de vectores
propios ortonormales de B y es matriz diagonal que contiene los valores
propios ordenados
(8.4)
1
p > p+1 = 0
Obsrvese que B1 = 0; y por lo tanto p+1 = 0 es tambin valor propio de
B de vector propio el vector 1 de unos: Entonces es evidente que la matriz
n p
X = U 1=2
(8.5)
tambin verica B = XX0 .
Denicin 8.3.1 La solucin por coordenadas principales es la matriz de coordenadas (8.5), tal que sus columnas X1 ; : : : ; Xp ; que interpretaremos como
variables, son vectores propios de B de valores propios (8.4). Las coordenadas
del elemento i 2 son
x0i = (xi1 ; : : : ; xip );
donde xi es la la i-sima de X: Reciben el nombre de coordenadas principales
y cumplen (8.1).
La solucin por coordenadas principales goza de importantes propiedades.
En las aplicaciones prcticas, se toman las q < p primeras coordenadas principales a n de representar : Por ejemplo, si q = 2, las dos primeras coordenadas de X proporcionan una representacin a lo largo de los ejes X1 y
X2 :
X1 X2
1 x11 x12
2 x21 x22
..
..
..
.
.
.
n xn1
Propiedades:

xn2

8.3. EL ANLISIS DE COORDENADAS PRINCIPALES

135

1. Las variables Xk (columnas de X) tienen media 0:


X1 =

= Xp = 0

Prueba: 1 es vector propio de B ortogonal a cada Xk ; por lo tanto


X k = n1 (10 Xk ) = 0:
2. Las varianzas son proporcionales a los valores propios
s2k =

1
n

k;

Prueba: la varianza es n1 Xk0 Xk =

k = 1; : : : ; p
1
n

k:

3. Las variables son incorrelacionadas


cor(Xk ; Xk0 ) = 0;

k 6= k 0 = 1; : : : ; p:

Prueba: como las medias son nulas, la covarianza es


cov(Xk ; Xk0 ) =

1 0
X Xk0 = 0;
n k

pues los vectores propios de B son ortogonales.


4. Las variables Xk son componentes principales de cualquier matriz de
datos Z tal que las distancias eucldeas entre sus las concuerden con
:
Prueba: Supongamos Z matriz de datos centrada. Tenemos que
B = XX0 = ZZ0
La matriz de covarianzas de Z es
1
S = Z0 Z = TDT0 ;
n
donde D es diagonal y T es la matriz ortogonal de la transformacin
en componentes principales. Entonces:
Z0 Z
= nTDT0 ;
ZZ0 Z = nZTDT;0
BZT = ZTnD;

136

CAPTULO 8. ESCALADO MULTIDIMENSIONAL (MDS)


y por lo tanto ZT es matriz de vectores propios de B con valores
propios los elementos diagonales de nD; lo que implica X = ZT: En
consecuencia la matriz de coordenadas principales X coincide con la
transformacin por componentes principales de Z:

5. La variabilidad geomtrica de

es

n
1 X
V (X) = 2
2n i;j=1

2
ij

1X
=
n k=1

(8.6)

k:

6. La variabilidad geomtrica en dimensin q es mxima cuando tomamos


las q primeras coordenadas principales. Es decir,
n
1 X
V (X)q = 2
2n i;j=1

2
ij (q)

q
n
1 XX
= 2
(xik
2n i;j=1 k=1

1X
xjk ) =
n k=1
2

es mximo.
Prueba: Sea x1 ; :::; xn una muestra con media x = 0 y varianza s2 . Se
verica
P
P
Pn
P
1
xj )2 = 2n1 2 ( ni;j=1 x2i + ni;j=1 x2j 2 ni;j=1 xi xj )
i;j=1 (xi
2n2
P
P
P
P
= 2n1 2 (n ni=1 x2i + n nj=1 x2j 2 ni=1 xi nij=1 xj )
= s2 ;
por lo tanto
V (X) =

p
X

s2k :

k=1

Hemos demostrado que para cualquier matriz X tal que B = XX0 , la


suma de las varianzas de las colummnas de X es igual a la variabilidad
geomtrica. Si en particular tenemos las coordenadas principales, esta
suma de varianzas es la suma de los valores propios dividida por n, y
como entonces las columnas son componentes principales, sus varianzas
son respectivamente mximas.
El porcentaje de variabilidad explicada por los q primeros ejes principales
es la proporcin de variabilidad geomtrica
Pq
V (X)q
k
Pq = 100
= 100 Ppk=1
V (X)
k=1 k

8.4. SIMILARIDADES

137

La representacin es ptima, pues al ser B = XX0 ; si tomamos las q


primeras coordenadas principales Xq , entonces estamos aproximando B por
B = Xq X0q ; en el sentido que tr(B B ) =mnimo. Vase (1.6).
Ejemplo 8.3.1
Consideremos

= f1; 2; 3; 4; 5g y la matriz de distancias (al cuadrado):


1 2
3
4
5
1 0 226 104 34 101
2
0 26 104 29
0 26
9
3
0 41
4
5
0

Los valores propios de B son 1 = 130; 2 = 10; 3 = 4 = 5 = 0: Por


lo tanto es matriz de distancias eucldeas y se puede representar en un
espacio de dimensin 2. Las coordenadas principales son las columnas X1 ; X2
de:
X1 X2 1
1
-8 -1 1
7
0 1
2
3
2
1 1
4
-3
2 1
5
2 -2 1
130 10 0
x
0
0 1
2
s
26
2 0

8.4.

Similaridades

En ciertas aplicaciones, especialmente en Biologa y Psicologa, en lugar


de una distancia, lo que se mide es el grado de similaridad entre cada par de
individuos.
Una similaridad s sobre un conjunto nito es una aplicacin de
en R tal que:
s(i; i) s(i; j) = s(j; i) 0:

138

CAPTULO 8. ESCALADO MULTIDIMENSIONAL (MDS)

La matriz de similaridades entre los elementos de es


0
1
s11 s12 ::: s1n
B s21 s22 ::: s2n C
B
C
S = B ..
.. . .
.. C
@ .
. . A
.
sn1 sn2 ::: snn

donde sij = s(i; j):


Supongamos que tenemos p variables binarias X1 ; X2 ; :::Xp ; donde cada
Xi toma los valores 0 1. Para cada par de individuos (i; j) consideremos la
tabla
j
1 0
i 1 a b
0 c d
donde a; b; c; d las frecuencias de (1,1), (1,0), (0,1) y (0,0), respectivamente,
con p = a + b + c + d. Un coeciente de similaridad debera ser funcin de
a; b; c; d: Son conocidos los coecientes de similaridad:
sij

a+d
p

(Sokal-Michener)

(8.7)
a
sij =
(Jaccard)
a+b+c
que verican: sii = 1 sij = sji 0.
Podemos transformar una similaridad en distancia aplicando la frmula
d2ij = sii + sjj
Entonces la matriz A =

2sij :

(8.8)

(d2ij )=2 es

1
(Sf + S0f 2S);
2
donde Sf tiene todas sus las iguales, y como HSf = S0f H = 0; resulta que
A=

B = HAH = HSH:
Por lo tanto:
1. Si S es matriz (semi)denida positiva, la distancia dij es eucldea.
2. rang(HSH) = rang(S)

1:

3. Las coordenadas principales se obtienen diagonalizando HSH:

8.5. NOCIONES DE MDS NO MTRICO

8.5.

139

Nociones de MDS no mtrico

Supongamos que la matriz de distancias


es no eucldea. Entonces la
matriz B (Teorema 8.2.1) tiene valores propios negativos:
p

>0>

p0 :

p+1

El fundamento del MDS no mtrico es transformar las distancias ij para


convertirlas en eucldeas, pero conservando las relaciones de proximidad entre
los elementos del conjunto :
Denicin 8.5.1 La preordenacin asociada a la matriz de distancias
la ordenacin de las m = n(n 1)=2 distancias:
i1 j1

(8.9)

im jm :

i2 j2

La preordenacin es, de hecho, una propiedad asociada a


podemos escribir
(i1 ; j1 )

(i2 ; j2 )

(ik ; jk ) 2

(im ; jm );

es

; es decir,
;

donde
(i; j)

(i0 ; j 0 ) si

ij

i0 j 0 :

Se trata de representar en un espacio que conserve la preordenacin. Por


ejemplo, si consideramos las tres matrices de distancias sobre {A,B,C,D}:
A B C
A 0 1 2
B
0 1
C
0
D

D A B
3 0 1
2
0
1
0

C
1
1
0

D A B
1 0 1
1
0
0
0

C
1
1
0

D
1
1
1
0

las preordenaciones se pueden representar en 1, 2 3 dimensiones (Fig. 8.1),


respectivamente.
Si transformamos la distancia ij en bij = '( ij ), donde ' es una funcin
positiva creciente, es evidente que bij tiene la misma preordenacin (8.9), y
por lo tanto, individuos prximos (alejados) segn ij estarn tambin prximos (alejados) con respecto a b ij : Si adems b ij es eucldea, tendremos la

140

CAPTULO 8. ESCALADO MULTIDIMENSIONAL (MDS)

Figura 8.1: Representacin de 4 objetos conservando las preordenaciones relacionadas a tres matrices de distancias.
posibilidad de representar ; aplicando, por ejemplo, un anlisis de coordenadas principales sobre la distancia transformada, pero conservando (aproximadamente) la preordenacin. En general, la funcin ' no es lineal, y se
obtiene por regresin montona. Hay dos casos especialmente simples.
Denicin 8.5.2 La transformacin q-aditiva de
b2 =
ij

2
ij

ij

se dene como

2a si i 6= j
si i = j

donde a < 0 es una constante. La transformacin aditiva se dene como


bij =

+ c si i 6= j
0
si i = j
ij

donde c > 0 es una constante.


Es evidente que las dos transformaciones aditiva y q-aditiva conservan
la preordenacin de la distancia. Probemos ahora que la primera puede dar
lugar a una distancia eucldea.
Teorema 8.5.1 Sea una matriz de distancias no eucldeas y sea p0 < 0 el
menor valor propio de B: Entonces la transformacin q-aditiva proporciona
una distancia eucldea para todo a tal que a
p0 :
Demost.: Sea b = (bij ) la matriz de distancias transformadas. Las matrices
b B
b (ver Teorema 8.2.1) verican
A; B y A;
b A a(I
A=

b = B aH:
J); B

8.5. NOCIONES DE MDS NO MTRICO

141

Sea v vector propio de B de valor propio 6= 0: Entonces Hv = v y por lo


tanto
b = (B aH)v = (
Bv
a)v:
b tiene los mismos vectores propios que B, pero los valores propios son
As B
1

a>0>

p+1

p0

a;

b
que son no negativos si a
p0 ; en cuyo caso B es semidenida positiva.
La mejor transformacin q-aditiva es la que menos distorsiona la distancia
original. De acuerdo con este criterio, el mejor valor para la constante es
a = p0 :
Las transformaciones aditiva y no lineal son ms complicadas y las dejamos para otro dia. De hecho, los programas de MDS operan con transformaciones no lineales, siguiendo criterios de minimizacin de una funcin
que mide la discrepancia entre la distancia original y la transformada. Por
ejemplo, el mtodo de Kruskal consiste en:
1. Fijar una dimensin Eucldea p:
2. Transformar la distancia ij en la disparidad bij = '( ij ); donde
' es una funcin montona creciente. Las disparidades conservan la
preordenacin de las distancias.
3. Ajustar una distancia eucldea dij a las disparidades bij de manera que
minimice
X
(dij bij )2 :
i<j

4. Asociar a las distancias dij una conguracin eucldea p-dimensional, y


representar los n objetos a partir de las coordenadas de la conguracin.

Para saber si la representacin obtenida reeja bien las distancias entre


los objetos, se calcula la cantidad
v
uP
bij )2
u
i<j (dij
P
;
(8.10)
S=t
2
i<j dij

denominada stress, que verica 0


S
1; pero se expresa en forma de
porcentaje. La representacin es considerada buena si S no supera el 5 %.

142

CAPTULO 8. ESCALADO MULTIDIMENSIONAL (MDS)

Tambin es conveniente obtener el diagrama de Sheppard, que consiste en


representar los n(n 1)=2 puntos ( ij ; dij ): Si los puntos dibujan una curva
creciente, la representacin es buena, porque entonces se puede decir que
conserva bien la preordenacin (Fig. 8.4).

8.6.

Distancias estadsticas

En esta seccin discutiremos algunos modelos de distancias estadsticas.

8.6.1.

Variables cuantitativas

Siendo x = (x1 ; x2 ; : : : ; xp ); y = (y1 ; y2 ; : : : ; yp ) dos puntos de Rp : La distancia de Minkowsky se dene como


p
X
dq (x; y) = (
jxi
i=1

yi jq )1=q ;

Casos particulares de la distancia dq son:


1. Distancia ciudad:
d1 (x; y) =

p
X
i=1

2. Distancia Eucldea:

jxi

v
u p
uX
d2 (x; y) = t (xi

yi j

yi )2

i=1

3. Distancia dominante:
d1 (x; y) = max fjxi
1 i p

yi jg

Tienen tambin inters en las aplicaciones, la distancia normalizada por


el rango Ri de la variable i
p

1 X jxi yi j
;
dG (x; y) =
p i=1
Ri

8.6. DISTANCIAS ESTADSTICAS

143

y, cuando los valores de las variables son positivos, la mtrica de Canberra


p

1 X jxi yi j
dC (x; y) =
:
p i=1 xi + yi
dG y dC son invariantes por cambios de escala.
Supongamos ahora dos poblaciones 1 ; 2 con vectores de medias 1 ; 2
y matrices de covarianzas 1 ; 2 : Cuando 1 = 2 = ; la distancia de
Mahalanobis entre poblaciones es
M 2(

1;

2)

=(

0
2)

2)

Esta distancia, ya introducida previamente, es invariante por cambios de escala y tiene en cuenta la correlacin entre las variables. Adems, si Mp ; Mq ; Mp+q
indican las distancias basada en p; q; p + q variables, respectivamente, se verica:
a) Mp Mp+q :
2
= Mp2 +Mq2 si los dos grupos de p y q variables son independientes.
b) Mp+q
No es fcil dar una denicin de distancia cuando 1 6= 2 : Una denicin
de compromiso es
(

8.6.2.

0 1
2) [ (

2 )]

2 ):

Variables binarias

Cuando todas las variables son binarias (toman solamente los valores 0
y 1), entonces conviene denir un coeciente de similaridad (Seccin 8.4) y
aplicar (8.8) para obtener una distancia. Existen muchas maneras de denir
una similaridad sij en funcin del peso que se quiera dar a los a; b; c; d: Por
ejemplo:
sij =

a
a + 2(b + c)

(Sokal-Sneath)

2a
sij =
(Dice)
(a + b)(a + c)

(8.11)

Las similaridades denidas en (8.7) y (8.11) proporcionan distancias eucldeas.

144

CAPTULO 8. ESCALADO MULTIDIMENSIONAL (MDS)

8.6.3.

Variables categricas

Supongamos que las observaciones pueden ser clasicadas en k categoras


excluyentes A1 ; : : : ; Ak , con probabilidades p = (p1 ; : : : ; pk ); donde
Pk
h=1 ph = 1: Podemos denir distancias entre individuos y entre poblaciones.
1. Entre individuos. Si dos individuos i; j tienen las categoras Ah ; Ah0 ;
respectivamente, una distancia (al cuadrado) entre i; j es:
d(i; j)2 =

0
si h = h0 ;
1
1
ph + ph0 si h 6= h0 :

Teniendo en cuenta la g-inversa Cp =diag(p1 1 ; : : : ; pk 1 ) de la matriz de


covarianzas, es fcil ver que d(i; j)2 es una distancia tipo Mahalanobis.
Si hay varios conjuntos de variables categricas, con un total de K
categoras o estados, una similaridad es =K (matching coe cient),
donde es el nmero de coincidencias.
2. Entre poblaciones. Si tenemos dos poblaciones representadas por p =
(p1 ; : : : ; pk ); q = (q1 ; : : : ; qk ); dos distancias entre poblaciones son
Pk

qi )2 =(pi + qi );
P p
db (p; q) = arc cos( ki=1 pi qi ):

da (p; q) = 2

i=1 (pi

La primera es la distancia de Bhattachariyya, y se justica considerando p


y q como los vectores de medias entre dos poblaciones multinomiales con n =
1 (Seccin 2.7). Las g-inversas (Seccin 1.10) de las matrices de covarianzas
son
Cp = diag(p1 1 ; : : : ; pk 1 );

Cq = diag(q1 1 ; : : : ; qk 1 ):

Aplicando la distancia de Mahalanobis tomando el promedio de ambas ginversas se obtiene da (p; q):
p
p
La distancia db (p; q) se justica situando los puntos ( p1 ; : : : ; pj ) y
p
p
( q1 ; : : : ; qk ) sobre una hiperesfera de radio unidad y hallando la distancia
geodsica. Vase la distancia de Rao.

8.6. DISTANCIAS ESTADSTICAS

8.6.4.

145

Variables mixtas

En las aplicaciones a menudo los datos provienen de las observaciones


de p1 variables cuantitativas, p2 variables dicotmicas (dos estados: presente,
ausente) y p3 variables categricas o cualitativas (ms de dos estados). Un
coeciente de similaridad (propuesto por Gower, 1971) es
Pp1
(1 jxih xjh j=Rh ) + a +
;
(8.12)
sij = h=1
p1 + (p2 d) + p3
donde Rh es el rango de la variable cuantitativa Xh ; a y d son el nmero
de dobles presencias y dobles ausencias de las variables dicotmicas, y es
el nmero de coincidencias entre las variables categricas. Si solamente hay
variables dicotmicas o variables categricas, sij reduce la similaridad normalizada por el rango, al coeciente de Jaccard o al matching coe cient,
respectivamente:
P1
jxh yh j=Rh si p2 = p3 = 0;
1 p11 ph=1
a=(a + b + c)
=p3

si p1 = p3 = 0;

si p1 = p2 = 0:

Este coeciente verica 0 sij 1; y aplicando (8.8) se obtiene una distancia


eucldea que adems admite la posibilidad de datos faltantes.

8.6.5.

Otras distancias

Existen muchos procedimientos para denir distancias, en funcin de los


datos y el problema experimental. Veamos dos.
Modelo de Thurstone
Supongamos que queremos ordenar n estmulos ! 1 ; : : : ; ! n (por ejemplo,
n productos comerciales)
! i1
! in
segn una escala de preferencias i1
in ; donde los i son parmetros.
Sea pij la proporcin de individuos de la poblacin que preeren ! j sobre ! i :
Un modelo es
Z j i
1
2
pij = p
e t =2 dt:
2
1

146

CAPTULO 8. ESCALADO MULTIDIMENSIONAL (MDS)

Si ms de la mitad de los individuos preeren ! j sobre ! i ; entonces


As:
a) pij < 0;5 implica

>

j;

b) pij = 0;5 implica

j;

c) pij > 0;5 implica

<

j:

<

j:

La estimacin de los parmetros a partir de las proporciones pij es complicada. Alternativamente, teniendo en cuenta que pij + pji = 1 podemos
denir la distancia entre estmulos
d(! i ; ! j ) = jpij

0;5j

y aplicar un MDS sobre la matriz (d(! i ; ! j )): La representacin de los estmulos a lo largo de la primera dimensin nos proporciona una solucin a la
ordenacin de los estmulos.
Distancia de Rao
Sea S = ff (x; ); 2 g un modelo estadstico y z( ) = @@ log f (x; )
un vector columna. La matriz de informacin de Fisher F ( ) es la matriz
de covarianzas de los z 0 s. Siendo a ; b dos valores de los parmetros. Una
distancia tipo Mahalanobis sera el valor esperado de
(z( a )

z( b ))0 F ( ) 1 (z( a )

z( b )):

Pero z depende de x y vara entre a ; b : Consideremos entonces a F ( )


como un tensor mtrico sobre la variedad diferenciable S : La distancia de
Rao entre a ; b es la distancia geodsica entre los puntos correspondientes de
S : La distancia de Rao es invariante por transformaciones de las variables y
de los parmetros, generaliza la distancia de Mahalanobis y tiene aplicaciones
en estadstica matemtica. Veamos tres ejemplos.
1. Distribucin de Poisson: f (x; ) = e x x =x!; x = 0; 1; 2; : : : : La distancia entre dos valores a ; b es:
p
p
( a ; b ) = 2j
a
b j:

8.7. EJEMPLOS

147

2. Distribucin multinomial. La distancia entre p = (p1 ; : : : ; pk ) y q =


(q1 ; : : : ; qk ) es:
k
X
p
pi qi ):
(p; q) = arc cos(
i=1

3. Distribucin normal. Si
vectores de medias es:
2

1;

es ja, la distancia (al cuadrado) entre dos

2)

=(

0
2)

2 ):

Finalmente, para un valor jo de ; podemos denir la distancia entre dos


observaciones x1 ; x2 que dan zi ( ) = @@ log f (xi ; ); i = 1; 2; como
(z1 ( )

8.7.

z2 ( ))0 F ( ) 1 (z1 ( )

z2 ( )):

Ejemplos

Ejemplo 8.7.1
Un arquelogo encontr 5 herramientas cortantes A,B,C,D,E y una vez
examinadas, comprob que estaban hechas de piedra, bronce y hierro, conforme a la siguiente matriz de incidencias:
Piedra Bronce Hierro
A
0
1
0
B
1
1
0
C
0
1
1
D
0
0
1
E
1
0
0
Utilizando la similaridad de Jaccard
dades:
A B
A 1 1/2
B
1
C
D
E

(8.7), obtenemos la matriz de similariC


1/2
1/3
1

D
0
0
1/2
1

E
0
1/2
0
0
1

148

CAPTULO 8. ESCALADO MULTIDIMENSIONAL (MDS)

Figura 8.2: Representacin por anlisis de coordenadas principales de 5 herramientas prehistricas. Se aprecia una ordenacin temporal.

Los resultados del anlisis de coordenadas principales son:


A
.0000 .6841 -.3446
.4822 .1787 .2968
B
C
-.4822 .1787 .2968
D
-.6691 -.5207 -.1245
.6691 -.5207 -.1245
E
valor propio 1.360 1.074 .3258
porc. acum. 44.36 79.39 90.01
La representacin (Fig. 8.2) explica el 80 % de la variabilidad geomtrica.
Las herramientas quedan ordenadas segn su antigedad: E es la ms antigua
(slo contiene piedra) y D la ms moderna (slo contiene hierro).
Ejemplo 8.7.2
Una distancia gentica es una medida que cuantica las proximidades
entre dos poblaciones a partir de las proporciones gnicas. Por ejemplo, si
existen k ordenaciones cromosmicas que se presentan en las proporciones
(p1 ; : : : ; pk ); (q1 ; : : : ; qk ): Si hay r cromosomas, una distancia adecuada es
1 X
jpi
2r i=1
k

qi j:

8.7. EJEMPLOS

DROBA
DALKE
GRONI
FONTA
VIENA
ZURIC
HUELV
BARCE
FORNI
FORES
ETNA
FRUSK
THESS
SILIF
TRABZ
CHALU
ORANG
AGADI
LASME

149

Dro Dal Gro Fon Vie Zur HueBar For For Etn Fru The Sil Tra ChaOra AgaLas
0
.307 0
.152.276 0
.271.225.150 0
.260.370.187.195 0
.235.300.112.120.128 0
.782.657.695.580.540.623 0
.615.465.529.412.469.445.259 0
.780.657.693.607.606.609.373.309 0
.879.790.801.764.760.761.396.490.452 0
.941.846.873.813.818.817.414.524.451.177 0
.560.505.470.442.342.391.577.460.501.681.696 0
.668.545.592.514.434.500.502.392.363.590.630.315 0
.763.643.680.584.581.610.414.357.413.646.667.544.340 0
.751.619.675.582.519.587.418.342.399.587.648.439.269.286 0
.709.489.636.548.531.549.595.489.514.635.649.444.408.574.438 0
.947.867.864.782.837.795.573.574.568.519.535.782.733.696.698.760 0
.927.834.844.803.789.792.428.498.485.329.303.666.661.642.631.710.321 0
.931.699.846.749.802.792.404.485.429.380.253.659.566.604.551.460.615.430 0

Tabla 8.1: Distancias genticas respecto a las ordenaciones cromosmicas


entre 19 poblaciones de D. Suboscura.
Esta distancia gentica fue propuesta por A. Prevosti. La Tabla 8.1 contiene la s distancias entre n = 19 poblaciones de Drosophila Suboscura que
provienen de Droback, Dalkeith, Groningen, Fontaineblau, Viena, Zurich,
Huelva, Barcelona, Fornia, Foresta, Etna, Fruska-Gora, Thessaloniki, Silifke,
Trabzon, Chalus, Orangerie, Agadir y Las Mercedes. Aplicando un MDS
no mtrico, se obtiene la representacin de las 19 poblaciones (Fig. 8.3), con
un stress de 2.84, que indica que la representacin es buena. La Fig. 8.4
representa las distancias versus las disparidades, indicando una buena preordenacin.

150

CAPTULO 8. ESCALADO MULTIDIMENSIONAL (MDS)

Figura 8.3: Representacin MDS de 19 poblaciones de D. Subobscura respecto


a las distancias genticas entre ordenaciones cromosmicas.

Figura 8.4: Representacin de las distancias genticas vs las disparidades.

8.7. EJEMPLOS

B a jo
C o rto
D im inu to
M e nu d o
Pequeno
E n o rm e
In m e n so
Vo lu m in o so
A lto
D e lg a d o
E le va d o
F in o
L a rg o
A n ch o
A n g o sto
E stre ch o
G ra n d e
G ru e so
P ro fu n d o
H ueco
D e n so
P e sa d o
L ig e ro

151

B a j C o r D im M e n P e q E n o In m Vo u A lt D e g E le F in L a r A n c A n g E st G ra G ru P ro H u e D e n P e s L ig
0 2 .3 0 2 .3 2 2 .3 2 1 .5 2 3 .5 0 3 .4 3 3 .3 8 3 .7 1 3 .3 3 3 .5 7 3 .3 1 3 .3 1 3 .1 7 2 .8 7 3 .1 4 3 .3 8 2 .8 8 3 .0 7 3 .4 1 3 .4 3 3 .3 5 3 .2 7
6 0 0 1 .9 4 2 .0 6 1 .4 6 3 .5 4 3 .6 4 3 .4 6 3 .5 3 2 .9 8 3 .5 1 2 .8 7 3 .5 1 3 .2 4 2 .8 5 2 .6 2 3 .4 6 3 .2 3 3 .3 7 3 .2 4 3 .1 4 3 .2 5 2 .9 3
7 4 7 0 0 1 .1 0 0 .9 3 3 .6 7 3 .7 2 3 .5 4 3 .6 0 2 .3 8 3 .4 8 1 .8 6 3 .4 4 3 .4 1 2 .4 4 2 .1 3 3 .5 6 3 .5 3 3 .5 0 3 .3 4 3 .2 3 3 .5 6 2 .3 4
2 9 7 6 4 2 0 1 .0 1 3 .7 3 3 .5 6 3 .5 8 3 .3 7 1 .8 3 3 .4 2 1 .7 1 3 .2 4 3 .4 0 2 .8 0 2 .2 6 3 .5 0 3 .3 4 3 .4 7 3 .3 6 3 .3 0 3 .2 4 1 .8 5
7 0 6 2 1 6 3 9 0 3 .7 4 3 .7 2 3 .5 6 3 .6 1 2 .7 1 3 .3 7 2 .2 3 3 .4 4 3 .2 6 2 .2 0 2 .0 8 3 .7 2 3 .3 4 3 .4 1 3 .3 6 3 .2 0 3 .4 0 2 .2 5
9 0 9 0 8 7 8 9 8 7 0 0 .3 7 0 .9 7 1 .9 1 3 .4 3 1 .9 6 3 .4 7 1 .9 2 2 .4 7 3 .4 3 3 .4 1 0 .9 0 2 .7 2 2 .6 4 3 .4 3 2 .9 4 2 .3 1 3 .4 3
9 0 9 0 8 8 9 0 8 8 2 2 0 1 .6 0 2 .0 2 3 .4 3 2 .1 0 3 .4 0 2 .2 8 2 .1 8 3 .5 6 3 .4 6 1 .1 4 2 .7 0 2 .4 1 3 .2 5 3 .0 5 2 .6 5 3 .4 8
8 9 8 9 8 9 8 7 8 9 6 6 6 3 0 2 .7 2 3 .6 1 2 .4 5 3 .6 0 2 .9 4 2 .3 5 3 .4 8 3 .5 2 1 .3 0 1 .8 2 3 .0 2 3 .4 2 2 .5 5 2 .2 7 3 .4 7
8 0 8 4 8 8 8 9 8 7 8 5 8 3 8 7 0 3 .0 4 0 .8 2 3 .1 5 2 .6 3 3 .2 3 3 .3 6 3 .2 1 1 .8 3 3 .1 8 2 .9 6 3 .4 8 3 .2 2 2 .9 8 3 .4 1
8 3 8 0 8 0 6 4 8 0 9 0 9 0 8 9 8 3 0 2 .9 7 1 .1 5 2 .7 6 3 .4 8 1 .6 2 1 .3 8 3 .3 2 3 .6 3 3 .3 2 3 .3 8 3 .3 6 3 .5 1 2 .4 7
8 4 8 7 8 8 8 9 8 8 8 4 8 4 8 6 1 7 8 5 0 3 .1 2 2 .6 0 3 .2 0 3 .3 6 3 .2 5 2 .0 0 3 .2 7 3 .1 3 3 .4 6 3 .3 4 3 .2 4 3 .2 7
8 4 8 1 7 4 5 3 7 5 9 0 9 0 8 9 8 3 2 1 8 6 0 2 .8 3 3 .4 0 1 .9 6 2 .0 1 3 .3 5 3 .6 2 3 .4 1 3 .3 8 3 .2 6 3 .4 5 2 .0 2
8 4 8 0 8 9 8 9 8 8 8 7 8 5 8 5 7 4 7 9 7 5 8 7 0 3 .2 4 3 .0 4 3 .0 8 2 .4 6 3 .3 7 2 .8 0 3 .4 2 3 .2 8 3 .3 2 3 .4 1
8 5 8 3 8 9 8 9 8 8 8 6 8 4 7 6 8 2 8 3 8 4 8 7 7 3 0 3 .4 8 3 .5 3 1 .0 3 2 .7 6 2 .8 2 3 .2 7 2 .9 7 3 .1 8 3 .3 2
8 2 7 4 7 7 7 8 7 9 9 0 8 9 8 8 8 5 5 3 8 6 5 8 8 2 8 4 0 0 .6 8 3 .3 3 3 .5 5 3 .3 7 3 .3 4 3 .2 1 3 .3 8 2 .9 1
8 1 7 4 8 2 8 1 8 4 8 9 9 0 8 9 8 5 5 4 8 5 6 3 8 1 8 3 2 3 0 1 .9 5 1 .9 4 3 .2 6 3 .4 4 2 .8 0 2 .3 5 3 .3 1
8 7 8 8 8 4 8 6 8 2 3 7 4 9 6 2 7 7 8 7 7 8 8 8 8 3 8 0 8 9 8 9 0 2 .8 5 2 .8 1 3 .4 6 3 .1 1 3 .1 0 3 .4 0
8 7 8 6 8 9 8 6 8 7 8 1 8 6 6 4 8 5 8 2 8 6 8 6 8 4 6 3 8 7 8 6 7 2 0 3 .2 3 3 .3 6 2 .4 4 2 .3 5 3 .4 7
8 2 8 6 8 9 8 8 8 9 8 6 8 6 8 3 8 7 8 8 8 6 8 9 8 7 8 5 8 5 8 6 8 7 8 5 0 2 .5 7 2 .7 7 3 .2 3 3 .4 3
8 2 8 3 8 8 8 9 8 8 9 0 9 0 8 8 8 7 8 5 8 4 8 7 8 5 8 6 8 4 8 4 8 8 8 7 6 6 0 3 .3 3 3 .4 1 2 .8 4
89 89 89 87 89 87 86 77 88 87 89 88 87 82 89 88 85
7 2 7 9 8 7 0 3 .3 5 3 .4 8
9 0 9 0 9 0 8 9 9 0 8 8 8 8 7 5 8 7 8 9 8 9 8 9 8 8 8 4 9 0 9 0 8 5 5 8 8 9 9 0 5 6 0 3 .5 1
86 87 83 69 83 90 90 90 89 72 89 71 90 90 83 80 90 89 90 87 84 81 0

Tabla 8.2: Distancias entre 23 adjetivos del idioma castellano.


Ejemplo 8.7.3
La Tabla 8.2 proporciona las distancias entre 23 adjetivos del castellano:
Bajo, Corto, Diminuto, Menudo, Pequeo, Enorme, Inmenso, Voluminoso, Alto, Delgado, Elevado, Fino, Largo, Ancho, Angosto, Estrecho, Grande,
Grueso, Profundo, Hueco, Denso, Pesado, Ligero.
Las distancias se obtienen de dos maneras:
a) Cada distancia dij es la media sobre 90 individuos que puntuaron la
disimilaridad entre cada par de adjetivos i; j; desde 0 (muy parecido) hasta
4 (totalmente diferente). Se indica en la mitad superior derecha de la tabla.
b) Los 90 individuos agrupaban los adjetivos en grupos. Cada similaridad
sij es el nmero de veces que los adjetivos i; j estaban en el mismo grupo y
la distancia es 90 sij : Se indica en la mitad inferior izquierda de la tabla.
Aplicamos MDS no mtrico sobre la matriz de distancias (mitad superior)
con el n de encontrar las dimensiones semnticas que ordenen los adjetivos.
Los pasos del mtodo son:
a) La distancia original ij se ajusta a una disparidad dbij por regresin
montona.
b) Fijada una dimensin, se aproxima dbij a una distancia Eucldea dij :
c) Se calcula la medida de stress(8.10).

152

CAPTULO 8. ESCALADO MULTIDIMENSIONAL (MDS)

d) Se representan las n(n 1)=2 distancias dij vs las dbij ; para visualizar
las relaciones de monotona.
La conguracin en 2 dimensiones (Figura 8.5) es la mejor aproximacin
en dimensin 2 a las distancias originales, (transformadas monotnicamente)
en el sentido de que minimiza el stress. En este caso el stresses del 19 %.
En cuanto a la interpretacin, se aprecian diversos gradientes de valoracin de los adjetivos:
1. Diminuto !Enorme

2. Bajo-Corto !Alto-Largo
3. Delgado !Grueso
4. Ligero !Pesado.

5. Hueco (constituye un adjetivo diferenciado).


La representacin en el estudio original (Manzno y Costermans, 1976)
considera 6 dimensiones, que se representan separadamente, con un stress
del 5 %, pero la interpretacin no es diferente. Para esta representacin se
obtiene el grco de la Figura 8.5. Como indica la Figura 8.6, la preordenacin
de las distancias queda bastante bien preservada.
Para otros ejemplos, consltese Baillo y Gran (2008).

8.7. EJEMPLOS

153

Figura 8.5: Representacin MDS de 23 adjetivos teniendo en cuenta sus diferencias semnticas.

Figura 8.6: Relacin entre las distancias originales y las disparidades, indicando que se conserva bien la preordenacin de las distancias.

154

8.8.

CAPTULO 8. ESCALADO MULTIDIMENSIONAL (MDS)

Complementos

En un plano terico, el MDS comienza con el teorema de I. J. Schoenberg


acerca de la posibilidad de construir las coordenadas de un conjunto de puntos
dadas sus distancias. A nivel aplicado, es de destacar a W. S. Torgerson, que
en 1957 aplica el MDS a la psicologa, y Gower (1966), que prueba su relacin
con el Anlisis de Componentes Principales y el Cannico de Poblaciones,
abriendo un fructfero campo de aplicacin en la biologa.
El MDS no mtrico es debido a R. N. Shepard, que en 1962 introdujo el
concepto de preordenacin, y J. B. Kruskal, que en 1964 propuso algoritmos
efectivos que permitan encontrar soluciones. La transformacin q-aditiva fue
estudiada por J. C. Lingoes y K. V. Mardia. Diversos autores estudiaron la
transformacin aditiva, hasta que Cailliez (1983) encontr la solucin denitiva. Vase Cox y Cox (1994).
Existen diferentes modelos para tratar el problema de la representacin
cuando actan diferentes matrices de distancias. Un modelo, propuesto por
J. D. Carroll, es el INDSCAL. Un modelo reciente, propuesto por Cuadras y
Fortiana (1998) y Cuadras (1998), es el related metric scaling.
De la misma manera que se hace regresin sobre componentes principales, se puede hacer tambin regresin de una variable dependiente Y sobre
las dimensiones principales obtenidas aplicando MDS sobre una matriz de
distancias entre las observaciones. Este modelo de regresin basado en distancias permite plantear la regresin con variables mixtas. Consultar Cuadras
y Arenas (1990), Cuadras et al. (1996).
Una versin del MDS, denominada continuous scaling, permite encontrar las coordenadas principales de una variable aleatoria. Consultar Cuadras
y Fortiana (1993a,1995), Cuadras y Lahlou (2000).
P. C. Mahalanobis y C. R. Rao propusieron sus distancias en 1936 y 1945,
respectivamente. Posteriormente Amari, Atkinson, Burbea, Dawid, Mitchell,
Oller y otros estudiaron la distancia de Rao. Consultar Oller (1987), Oller y
Cuadras (1985), Cuadras (1988).

Captulo 9
ANLISIS DE
CORRESPONDENCIAS
9.1.

Introduccin

El Anlisis de Correspondencias (AC) es una tcnica multivariante que


permite representar las categoras de las las y columnas de una tabla de
contingencia.
Supongamos que tenemos dos variables categricas A y B con I y J categoras respectivamente, y que han sido observadas
cruzando las I categoras
P
A con las J categoras B, obteniendo n = ij fij observaciones, donde fij
es el nmero de veces en que aparece la interseccn Ai \Bj ; dando lugar a la
tabla de contingencia I J :

A1
A2
..
.
AI

B1
f11
f21

B2
f12
f22

BJ
f1J
f2J
..

fI1
f1

fI2
f2

.
fIJ
fJ

f1
f2
..
.

(9.1)

fI
n

P
P
donde fi = j fij es la frecuencia marginal de Ai ; f j = i fij es la frecuencia marginal de Bj : Debemos tener en cuenta que, en realidad, la tabla
155

156

CAPTULO 9. ANLISIS DE CORRESPONDENCIAS

(9.1) resume la matriz de datos inicial, que tpicamente es de la forma:


1
..
.

A1
1
..
.

A2
0
..
.

i
..
.

0
..
.

0
..
.

...

AI
0
..
.

B1
1
..
.

B2
0
..
.

...

BJ
0
..
.

..

1
..
.

0
..
.

1
..
.

..

0
..
.

en la que damos el valor 1 cuando se presenta una caracterstica y 0 cuando


no se presenta. As, el individuo \1" presentara las caractersticas A1 y B1 ;
el individuo \i" presentara las caractersticas AI y B2 ; y el individuo \n" las
caractersticas AI y BJ : La matriz de datos n (I + J) es pues
Z = [X; Y]:
A partir de ahora utilizaremos el nombre de variables las y variables
columnas a las variables A y B, respectivamente.
Indiquemos por N = (fij ) la matriz I J con las frecuencias de la tabla
de contingencia. La matriz
1
P = N;
n
es la matriz de correspondencias. Indiquemos por r el vector I 1 con los
totales marginales de las las de P, y por c el vector J 1 con los totales
marginales de las columnas de P :
r = P1;

c = P0 1:

Tenemos entonces que


r=

1 0
1 X;
n

c=

1 0
1 Y;
n

son los vectores de medias de las matrices de datos X; Y: Indiquemos adems


Dr = diag(r);

Dc = diag(c);

las matrices diagonales que contienen los valores marginales de las y columnas de P. Se verica
X0 X = nDr ;

Y0 Y = nDc ;

X0 Y = nP = N:

9.2. CUANTIFICACIN DE LAS VARIABLES CATEGRICAS

157

Por lo tanto, las matrices de covarianzas entre las, entre columnas y entre
las y columnas, son
S11 = Dr

rr0 ;

S22 = Dc

cc0 ;

S12 = P

rc0 :

Puesto que la suma de las variables es igual a 1, las matrices S11 y S22 son
singulares.

9.2.

Cuanticacin de las variables categricas

El problema de las variables categricas, para que puedan ser manejadas


en trminos de AM clsico, es que no son cuantitativas. La cuanticacin 0
1 anterior es convencional. Asignemos pues a las categoras A1 ; : : : ;AI de
la variable la, los valores numricos a1 ; : : : ; aI ; y a las categoras B1 ; : : : ;BJ
de la variable columna, los valores numricos b1 ; : : : ; bJ ; es decir, indiquemos
los vectores
a = (a1 ; : : : ; aI )0 ; b = (b1 ; : : : ; bJ )0 ;
y consideremos las variables compuestas
U = Xa;

V = Yb:

Si en un individuo k se observan las categoras Ai ;Bj ; entonces los valores de


U; V sobre k son
Uk = ai ; Vk = bj :
Deseamos encontrar a; b tales que las correlaciones entre U y V sean
mximas. Claramente, estamos ante un problema de correlacin cannica,
salvo que ahora las matrices S11 y S22 son singulares. Una g-inversa (Seccin
1.10) de S11 es la matriz S11 = Dr 1 que verica
S11 S11 S11 = S11 :
En efecto,
(Dr rr0 )Dr 1 (Dr rr0 ) = (Dr
= Dr
= Dr
= Dr

rr0 )(I 1r0 )


Dr 1r0 rr0 +rr0 1r0
rr0 rr0 +rr0
rr0 :

158

CAPTULO 9. ANLISIS DE CORRESPONDENCIAS

Anlogamente S22 = Dc 1 : Aplicando la teora de la correlacin cannica


(Seccin 4.3), podemos considerar la descomposicin singular
Dr 1=2 (P

rc0 )Dc 1=2 = UD V0 ;

(9.2)

donde D es la matriz diagonal con los valores singulares en orden decreciente. Si u1 ; v1 son los primeros vectores cannicos, tendremos entonces
1=2

a = S11 u1 ;

1=2

b = S22 v1 ;

r=

1;

es decir, el primer valor singular es la mxima correlacin entre las variables


U y V: Pero pueden haber ms vectores y correlaciones cannicas, y por lo
tanto la solucin general es
ai = Dr 1=2 ui ;

bi = Dc 1=2 vi ;

ri =

i;

i = 1; : : : ; m nfI; Jg:

En notacin matricial, los vectores que cuantican las categoras de las las
y de las columnas de N, son las columnas de las matrices
A0 = Dr 1=2 U;

B0 = Dc 1=2 V:

Tambin obtenemos correlaciones mximas considerando las matrices


A = Dr 1=2 UD ;

B = Dc 1=2 VD ;

(9.3)

pues el producto por una constante (en este caso un valor singular), no altera
las correlaciones.

9.3.

Representacin de las y columnas

Los perles de las las son


(

pi1 pi2
; ;
ri ri

piJ
);
ri

es decir, las probabilidades condicionadasP (B1 =Ai ); : : : ; P (BJ =Ai ): La matriz de perles de las las es
Q = Dr 1 P:

9.3. REPRESENTACIN DE FILAS Y COLUMNAS

159

Denicin 9.3.1 La distancia ji-cuadrado entre las las i; i0 de N es


2
ii0

J
X
(pij =ri
j=1

pi0 j =ri0 )2
cj

La matriz de productos escalares asociada a esta distancia es


G = QDc 1 Q0 ;
y la relacin entre

(2)

=(

2
ii0 )

y G es

(2)

= g10 + 1g0

2G;

siendo g el vector columna con los I elementos diagonales de G:


La solucin MDS ponderada de las las de N (Seccin 9.9) se obtiene
calculando la diagonalizacin
D1=2
r (I

1r0 )G(I

r10 )Dr1=2 = UD2 U0 ;

y seguidamente obteniendo las coordenadas principales


A = Dr 1=2 UD :

(9.4)

Las distancias eucldeas entre las las de A coinciden con la distancia jicuadrado.
Relacionemos ahora estas coordenadas con las cuanticaciones anteriores.
De (9.2) tenemos
Dr 1=2 (P

rc0 )Dc 1 (P0 cr0 )Dr 1=2 = UD2 U0 ;

y de
Dr1=2 (Dr 1 P

1c0 )Dc 1 (P0 Dr 1 c10 )Dr1=2 = D1=2


r (Q

1r0 Q)Dc 1 (Q0 Q0 r10 )Dr1=2 ;

deducimos que
D1=2
r (I

1r0 )QDc 1 Q0 (I

r10 )Dr1=2 = UD2 U0 :

Esta ltima expresin demuestra que las matrices A obtenidas en (9.3) y


(9.4) son la misma.

160

CAPTULO 9. ANLISIS DE CORRESPONDENCIAS

Ntese que la distancia ji-cuadrado 2ii0 es una distancia tipo Mahalanobis,


pues si interpretamos las I las de Q = Dr 1 P (perles de las las), como
vectores de observaciones de dimensin J que provienen de una multinomial
con vector de probabilidades c; la matriz de covarianzas es Dc cc0 y una
g-inversa es Dc 1 ;vase (2.12). Centrando los perles tenemos Q=(I 1r0 )Q,
0
siendo entonces QDc 1 Q la matriz de productos internos en el espacio de
0
Mahalanobis, que convertimos en un espacio eucldeo mediante QDc 1 Q =
AA0 . Comprese con (7.2).
Anlogamente podemos denir la distancia ji-cuadrado entre columnas
2
jj 0

I
X
(pij =cj
i=1

pij 0 =cj 0 )2
ri

y probar que las distancias eucldeas entre las las de la matriz B obtenidas
en (9.3), coinciden con esta distancia ji-cuadrado. Es decir, si centramos los
0
1
perles de las columnas C= (I 1c0 )Dc P0 ; entonces CDr 1 C = BB0 :
As pues, considerando las dos primeras coordenadas principales:
Filas
(a11 ; a12 )
(a21 ; a22 )
..
.

B1
B2
..
.

Columnas
(b11 ; b12 )
(b21 ; b22 )
..
.

AI (aI1 ; aI2 )

BJ

(bJ1 ; bJ2 )

A1
A2
..
.

obtenemos una representacin de las las y columnas de la matriz de frecuencias N: Esta representacin es ptima en el sentido de que aproximamos
una matriz por otra de rango inferior, vase (1.5).

9.4.

Representacin conjunta de las y columnas

Las coordenadas A y las coordenadas B, que representan las las y las


1=2
y postmulcolumnas, estn relacionadas. Premultiplicando (9.2) por Dr
tiplicando por V obtenemos
Dr 1 (P

rc0 )Dc 1=2 V = Dr 1=2 U;

9.4. REPRESENTACIN CONJUNTA DE FILAS Y COLUMNAS

161

luego
Dr 1 (P

rc0 )BD 1 = A:

Anlogamente se prueba que


Dc 1 (P0 cr0 )AD 1 = B:
Si ahora tenemos en cuenta que r0 Dr 1 = 10 ; premultiplicando por r0
10 (P

rc0 )BD 1 = r0 A:

Como adems 10 P = c0 ; 10 r = 1; vemos fcilmente que


(c0 c0 )BD 1 = r0 A = 0:
Anlogamente, c0 B = 0; es decir, las medias ponderadas de las coordenadas
principales son cero. En consecuencia
A = Dr 1 PBD 1 ;

B = Dc 1 P0 AD 1 :

(9.5)

Conviene notar que Dr 1 P son los perles de las las, y Dc 1 P0 son los perles
de las columnas. As pues tenemos que, salvo el factor dilatador D 1 ; (pues
los elementos diagonales de D son menores que 1), se verica:
1. Las coordenadas de las las son las medias, ponderadas por los perles
de las las, de las coordenadas de las columnas.
2. Las coordenadas de las columnas son las medias, ponderadas por los
perles de las columnas, de las coordenadas de las las.
Por ejemplo, la primera coordenada principal de las las verica:
ai1 =

(b11

pi1
pi2
+ b21
+
ri
ri

+ bJ1

piJ
);
ri

i = 1; : : : ; I;

y la primera coordenada principal de las columnas verica


bj1 =

1
1

(a11

p1j
p2j
+ a21
+
cj
cj

+ aI1

pIj
);
cj

j = 1; : : : ; J:

La Tabla 9.1 contiene unos datos articiales, que clasican 400 clientes
segn la edad (joven, mediana, mayor) y los productos que compran en un
supermercado.

162

CAPTULO 9. ANLISIS DE CORRESPONDENCIAS

Producto
A
B
C
D
E
Total

Edad
Joven Mediana Mayor Total
70
0
0
70
45
45
0
90
30
30
30
90
0
80
20
100
35
5
10
50
180
160
60
400

Tabla 9.1: Clasicacin de 400 clientes segn edades y productos adquiridos


en un supermercado.

Tenemos:
0
1
0;175
0
0
B 0;1125 0;1125
0 C
B
C
C
P=B
B 0;075 0;075 0;075 C ;
@
0
0;2
0;05 A
0;0875 0;0125 0;025

B
B
r=B
B
@

0;175
0;225
0;225
0;250
0;125

C
C
C;
C
A

1
0;45
c = @ 0;40 A :
0;15

La matriz de perles de las las es:


0

B
B
Q=B
B
@

1;00
0;50
0;33
0
0;70

1
0
0
0;50 0 C
C
0;33 0;33 C
C
0;80 0;20 A
0;10 0;20

Las coordenadas principales son:


2

6
6
A=6
6
4

Filas
1;0990
0;0551
0;1834
0;9231
0;5384

0;1199
0;4213
0;4815
0;1208
0;3012

2
7
7
7 B=4
7
5

Columnas
0;7525
0;6770
0;4522

3
0;0397
0;2393 5
0;7571

9.5. SOLUCIONES SIMTRICA Y ASIMTRICA

163

Figura 9.1: Representacin asimtrica (izquierda) y simtrica (derecha) de


las las (productos) y columnas (edades) de la Tabla 9.1.

Los valores singulares son:


1 = 0;6847; 2 = 0;3311: La primera coordenada principal de las las A1 ; : : : ;A5 verica:
1;0990
0;0551
0;1834
0;9231
0;5384

= 0; 6847
= 0; 6847
= 0; 6847
= 0; 6847
= 0; 6847

(0; 7525 1 + 0 + 0)
(0; 7525 0; 5 0; 677 0; 5 + 0)
1
(0; 7525 0; 33 0; 677 0; 33 0; 4522 0; 33)
1
(0 0; 677 0; 8 0; 4522 0; 2)
1
(0; 7525 0; 7 0; 677 0; 1 0; 4522 0; 2)
1

Las coordenadas de las marcas A,B,C,D,E son medias de las coordenadas de


las tres edades, ponderadas por la incidencia del producto en la edad.

9.5.

Soluciones simtrica y asimtrica

La representacin de las y columnas utilizando las coordenadas principales A; B es la solucin simtrica. La representacin conjunta es posible
gracias a las frmulas (9.5). La representacin utilizando las matrices
A = Dr 1=2 UD ;

B0 = Dc 1=2 V;

164

CAPTULO 9. ANLISIS DE CORRESPONDENCIAS

Color ojos
CLARO
AZUL
CASTAO
OSCURO
Total

Color
cabellos
Rubio Rojo Castao Oscuro Negro Total
688
116
584
188
4
1,580
326
38
241
110
3
718
343
84
909
412
26
1,774
98
48
403
681
81
1,311
1,455 286
2,137
1,391
114
5,383

Tabla 9.2: Clasicacin de 5383 individuos segn el color de los ojos y del
cabello.
es decir, coordenadas principales para las las y coordenadas estndar para
las columnas, es la llamada solucin asimtrica. Esta solucin verica
P

rc0 = Dr AB00 Dc ;

y por lo tanto A; B0 reproducen mejor la dependencia entre las y columnas.


La Tabla 9.2 relaciona los colores de los cabellos y de los ojos de 5,383
individuos.

Las coordenadas principales son:


Filas
2

6
A=6
4

0;4400
0;3996
0;0361
0;7002

0;0872
6
6
0;1647 7
7 B=6
6
5
0;2437
4
0;1345

Columnas
0;5437
0;1722
0;2324
0;0477
0;0402
0;2079
0;5891
0;1070
1;0784
0;2743

3
7
7
7
7
5

Los valores singulares son:


1 = 0;449; 2 = 0;1727; 3 = 0;0292: De
acuerdo con (9.6), la variabilidad explicada por las dos primeras dimensiones
principales es P2 = 86;8 %: La Figura 9.2 proporciona las representaciones
simtrica y asimtrica.

9.6.

Variabilidad geomtrica (inercia)

Vamos a probar que


2

=n

K
X
k=1

2
k;

9.6. VARIABILIDAD GEOMTRICA (INERCIA)

165

Figura 9.2: Representacin asimtrica (izquierda) y simtrica (derecha) de


los datos de los colores de ojos y cabellos.

siendo K = m nfI; Jg y
2

=n

I X
J
X
(fij
i=1 j=1

fi f j =n)2
fi f j

el estadstico ji-cuadrado con (I 1)(J 1) g.l. que permite decidir si hay


independencia entre las y columnas de N: Es decir, la ji-cuadrado es n veces
la suma de los valores propios del AC.
El coeciente 2 de Pearson se dene como
2

I X
J
X
(pij
i=1 j=1

2
ri cj )2
= :
ri c j
n

Es fcil probar que tambin podemos expresar


2

J
I X
X
p2ij
rc
i=1 j=1 i j

1:

La variabilidad geomtrica ponderada de la distancia ji-cuadrado entre


las es
I
I
1 XX 2
V =
ri 0 ri0 :
2 i=1 i0 =1 ii

166

CAPTULO 9. ANLISIS DE CORRESPONDENCIAS

Proposicin 9.6.1 V =

Prueba:
2
ii0

J
X
(pij =ri

pi0 j =ri0 )2
cj

j=1

J
X
pij
=
(
ri c j
j=1

pi0 j 2
) cj
ri0 cj

Por lo tanto
1 XXX
pij
V =
ri (
2 i=1 i0 =1 j=1 ri cj
I

pi0 j 2
) cj ri0
ri0 cj

Si desarrollamos por un lado


PI

i=1

PI

i0 =1

PJ

y por otro lado, dado que


PI

i=1

PI

i0 =1

p2

ij
j=1 ri r 2 c2 cj ri0 =

PJ

i j

=
PI

i=1

pij = cj ;

Prueba: Sea

k=1

i=1

PJ

PJ

p2ij
j=1 ri cj ri0

p2ij
j=1 ri cj ;

2)=2; siendo

i=1
PI
i=1

2
k:

W = Dr 1=2 (P

i0 =1

PI

=
=

PK

i=1

PI

PI

PI

pij pi0 j
j=1 ri ri c2j ri0 cj ri0

es decir, vemos que V = ( +


Proposicin 9.6.2

PI

PJ pij pi0 j
i0 =1
j=1
cj
PJ pij cj
j=1 cj = 1;
P

p2ij
i;j ri cj :

rc0 )Dc 1=2 = UD V0 :

Entonces
2

= tr(WW0 ) = tr(UD2 U0 ) = tr(D2 ):

Proposicin 9.6.3 La variabilidad geomtrica utilizando slo las primeras


m coordenadas principales es
V (m) =

m
X
k=1

2
k:

9.7. ANALISIS DE CORRESPONDENCIAS MLTIPLES

167

Prueba: Supongamos m = K: Podemos escribir la matriz de distancias entre


las como
(2)
= a10 +1a0 2AA0 ;
siendo a el vector columna que contiene los elementos de la diagonal de AA0 :
Entonces
1
V = r0
2

(2)

2r0 AA0 r = r0 a:

r = r0 a10 r + r0 1a0 r

Pero
0 1=2
2 0
2
r0 a = tr(D1=2
r AA Dr ) = tr(UD U ) = tr(D ):

Lo hemos probado para m = K; pero fcilmente vemos que la frmula tambin vale para m < K:
As pues, en la representacin por AC de las las y columnas de N en
dimensin m; el porcentaje de variabilidad geomtrica o inercia viene dado
por
P
Pm = 100

9.7.

m
k=1
PK
k=1

2
k
:
2
k

(9.6)

Analisis de Correspondencias Mltiples

El AC combina y representa dos variables categricas. Pero se puede adaptar para estudiar ms de dos variables. Presentemos primero el procedimiento
para dos variables, que despus generalizaremos.
Escribimos la matriz n (I + J) de datos binarios como una matriz
n (J1 + J2 )
Z = [Z1 ; Z2 ]:
Entonces tenemos que
Bu = Z0 Z =

Z01 Z1 Z01 Z2
Z02 Z1 Z02 Z2

=n

Dr P
P0 Dc

La matriz de frecuencias, donde F y C contienen las marginales de las y


columnas,
F N
Bu =
N0 C
es la llamada matriz de Burt. A continuacin podemos realizar tres anlisis
de correspondencias diferentes sobre las siguientes matrices:

168

CAPTULO 9. ANLISIS DE CORRESPONDENCIAS


a) N:

b) [Z1 ; Z2 ]:

c) Bu :

El anlisis a) lo hemos visto en las secciones anteriores. El resultado es


una representacin de las y columnas de N:
El anlisis b) es sobre [Z1 ; Z2 ]; considerada una matriz binaria con n
las y J1 + J2 columnas. AC nos dara una representacin de las J1 + J2
columnas, que es la interesante, y tambin de los n individuos, pero esta
segunda representacin es innecesaria.
El anlisis c) es sobre Bu que es la matriz simtrica de orden (J1 + J2 )
(J1 + J2 ): Tendremos una representacin idntica por columnas y por las.
En los tres casos vemos que podemos representar las las y columnas de
N: Es posible demostrar que los tres anlisis son equivalentes en el sentido de
que proporcionan la misma representacin, variando slo los valores propios.
Todo esto se describe en el cuadro que sigue.
Tabla

Dimensin

N = Z01 Z2
Z = [Z1 ; Z2 ]
Bu = Z0 Z

J1
n

J2

(J1 + J2 )

(J1 + J2 )

(J1 + J2 )

Coordenadas
A (las)
B (columnas)
A
B
A
B

Valor propio

p
1+
2
p

( 1+2 )2

Consideremos a continuacin Q variables categricas con J1 ; : : : ; JQ estados, respectivamente, sobre n individuos. Sea J = J1 +
+ JQ : La tabla de
datos, de orden n J es la super-matriz de indicadores
Z = [Z1 ; : : : ; Zj ; : : : ; Zq ];
donde Zj es n Jj y contiene los datos binarios de la variable j: La tabla de
contingencia que tabula la combinacin de las variables i; j es Nij = Z0i Zj :
La matriz de Burt, de orden J J es
2
3
Z01 Z1 Z01 Z2
Z01 ZQ
6 Z0 Z1 Z0 Z2
Z02 ZQ 7
2
6 2
7
Bu = Z0 Z = 6 ..
7;
..
..
...
4 .
5
.
.
0
0
0
ZQ Z1 ZQ Z2
ZQ ZQ
donde las matrices Z0j Zj son diagonales.

9.8. EJEMPLOS

169

El Anlisis de Correspondencias Mltiples intenta representar los J =


J1 + +JQ estados de las Q variables categricas. Como en el caso Q = 2; lo
podemos llevar a cabo aplicando un AC simple sobre las matrices siguientes:
a) Z:

b) Bu :

En el caso a) representamos las J columnas e ignoramos las n las (individuos). En el caso b) tenemos una tabla de frecuencias J J simtrica
y podemos representar las las (=columnas) aplicando AC simple. Los dos
procedimientos son equivalentes, salvo que se cumple la relacin
B
k

=(

Z 2
k)

entre los valores propios B


k obtenidos a partir de la matriz de Burt y los
que surgen del anlisis sobre Z: Las inercias correspondientes son:
2

(Bu ) =
(Z)

B
k

Z
k

1 X
[
Q2 i6=j
J
Q

(Nij ) + (J

Z
k

Q)];

1;

siendo 2 (Nij ) la inercia para la tabla Nij ; vase Seccin 9.6: As pues podemos
constatar que AC puede servir tambin para representar ms de dos variables
categricas.

9.8.

Ejemplos

Ejemplo 9.8.1
La Tabla 9.3 contiene las frecuencias con la clasicacin cruzada de 1257
individuos segun Edad (E), Sexo (S), intencin de Voto (V) y Clase social
(C). Tenemos Q = 4; J = 12; J1 = 4; J2 = 2; J3 = 3; J4 = 2: Los datos
iniciales (matriz Z; solo mostramos 5 individuos) son de la forma:

170

CAPTULO 9. ANLISIS DE CORRESPONDENCIAS

Edad
>73 51-73 41-50
0
1
0
0
1
0
0
0
0
1
0
0
0
1
0
..
..
..
.
.
.

Votacin
26-40 <26 Izq Der
0
0
1
0
0
0
0
1
0
1
1
0
0
0
0
1
0
0
1
0
..
..
..
..
.
.
.
.

Clase
Alt Med Obr
0
1
0
1
0
0
0
0
1
1
0
0
0
1
0
..
..
..
.
.
.

Sexo
H M
1 0
0 1
1 0
0 1
1 0
.. ..
. .

La Tabla 9.3 tambin contiene la tabla de Burt. Obsrvese que es simtrica. El


AC simple sobre esta tabla nos permite representar las 4 variables categricas
sobre el mismo grco, vase la Figura 9.3.

Figura 9.3: Representacin por anlisis de correspondencias mltiples de los


datos de la Tabla 9.3.

9.8. EJEMPLOS

171

Edad

>73
51-73
41-50
26-40
<26
>73
51-73
41-50
26-40
<26
>73
51-73
41-50
26-40
<26
2
6
6
6
6
6
6
6
6
6
6
6
6
6
6
6
6
6
6
4

81
0
0
0
0
56
25
14
23
44
39
42

0
347
0
0
0
194
153
70
75
202
166
181

0
0
343
0
0
169
174
65
72
206
174
169

Hombres
Derecha Izquierda
Clase
4
0
27
8
27
4
17
12
7
6
Clase
8
4
21
13
27
12
14
15
9
9
Clase
8
15
35
62
29
75
32
66
14
34

Mujeres
Derecha Izquierda
alta
10
0
26
9
25
9
28
9
7
3
media
9
2
33
8
29
4
17
13
13
7
obrera
17
4
52
53
32
70
36
67
18
33

0
0
0
326
0
144
182
66
59
201
156
170

14
70
65
66
23
178
60
238
0
0
112
126

0
0
0
0
160
68
92
23
38
99
79
81

56
194
169
144
68
631
0
178
180
273
279
352

25
153
174
182
92
0
626
60
87
479
335
291

23
75
72
59
38
180
87
0
267
0
132
135

44
202
206
201
99
273
479
0
0
752
370
382

39
166
174
156
79
279
335
112
132
370
614
0

42
181
169
170
81
352
291
126
135
382
0
643

3
7
7
7
7
7
7
7
7
7
7
7
7
7
7
7
7
7
7
5

Tabla 9.3: Tabla de frecuencias combinando 1257 individuos segn edad, sexo,
clase social y voto (arriba) y correspondiente tabla de Burt (abajo).

172

CAPTULO 9. ANLISIS DE CORRESPONDENCIAS

Figura 9.4: Representacin por anlisis de correspondencias mltiples de los


datos de supervivencia del "Titanic".

Ejemplo 9.8.2
La Tabla 14.1 (Captulo 14), contiene las frecuencias de supervivencia
(S, NO), clasicadas por gnero (G), supervivencia (S), edad (E) y clase (C,
primera 1, segunda 2, tercera 3 y tripulacin T), del hundimiento del vapor
Titanic. Ahora Q = 4; J = 10; J1 = 2; J2 = 2; J3 = 2; J4 = 4: La Figura 9.4
representa esta combinacin de datos categricos. Los hombres adultos, la
tripulacin y la tercera clase estn ms cerca de NO, mientras que mujeres,
nios y primera clase estn ms cerca de S. Vase tambin el Ejemplo 14.5.1.

9.9. MDS PONDERADO

9.9.

173

MDS ponderado

En esta seccin introducimos una variante del Anlisis de Coordenadas


Principales.
Denicin 9.9.1 Sea g = ( ij ) una matriz de distancias g
(w1 ; : : : ; wg )0 un vector de pesos tal que
0

w1=

g
X

wi = 1;

wi

g; w =

0;

i=1

y consideremos la matriz diagonal Dw =diag(w): La solucin MDS ponderada


de g es la matriz
X = Dw 1=2 U ;
siendo

1 (2)
2 0
U;
(9.7)
)(Ig w10 )D1=2
w = U
2 g
una descomposicin espectral, donde 2 = diag( 21 ; : : : ; 2p ) contiene los val(2)
ores propios y g = ( 2ij ):
0
D1=2
w (Ig 1w )(

Denicin 9.9.2 La variabilidad geomtrica ponderada de


g
1X
V =
wi
2 i;j=1

2
ij wj

1
= w0
2

es

(2)
g w:

Las coordenadas principales son las las de X: Escribiendo


X = [X1 ; X2 ; : : : ; Xp ];
podemos interpretar las columnas de X como variables. Observemos que se
verica
1 (2)
(Ig 1w0 )(
)(Ig w10 ) = XX0 :
(9.8)
2 g
Propiedades:
1. Las variables Xk (columnas de X) tienen medias ponderadas iguales a
cero:
X k = w0 Xk = 0:
Prueba:
w0 (Ig 1w0 ) = w0 w0 = 0 ) w0 XX0 w = 0 ) w0 X = 0:

174

CAPTULO 9. ANLISIS DE CORRESPONDENCIAS

2. Las varianzas ponderadas de las variables Xk son iguales a los valores


propios:
s2k = 2k ; k = 1; : : : ; p:
P
Prueba: si la media de x1 ; : : : ; xg es 0; la varianza ponderada es wi x2i ;
es decir,
0
2
1=2
0
s2k = D1=2
w Xk Xk Dw = (Uk k )( k Uk ) = k ;
donde

2
k

es el valor propio de vector propio Uk :

3. Las variables (columnas de X) estn incorrelacionadas


k 6= k 0 = 1; : : : ; p:

cor(Xk ; Xk0 ) = 0;

Prueba: puesto que las medias son nulas la covarianza ponderada es


2 0
k Uk Uk 0

0
1=2
cov(Xk ; Xk0 ) = D1=2
w Xk Xk0 Dw =

= 0;

ya que los vectores propios son ortogonales.


4. La variabilidad geomtrica ponderada de
V =

p
X

es

2
k:

k=1

Prueba: Expresemos la matriz de distancias al cuadrado como


(2)
g

siendo d un vector g
parte
1 0
w
2
Por otra parte

= 1d0 +d10

2XX0 ;

1 con los elementos diagonales de XX0 : Por una


(2)
g w

= w0 1d0 w

w0 XX0 w = d0 w:

1=2
1=2
d0 w =tr(Dw
XX0 Dw
) =tr(U

U0 ) =tr(

):

5. Si tomamos las q primeras coordenadas principales de X; la variabilidad


geomtrica ponderada es:
V (q)=

q
X
k=1

2
k:

9.9. MDS PONDERADO

175

Estudiemos ahora la relacin entre el Anlisis de Coordenadas Principales


ordinario (Captulo 8) y el ponderado. Supongamos que podemos expresar
el vector de pesos como
1
w = (n1 ; n2 ; : : : ; ng );
n

n=

g
X

ni ;

i=1

donde ni son enteros positivos y el peso wi es igual (o muy prximo 1 ) a ni =n:


Indiquemos por M la matriz n g que contiene ni las (0; : : : ; 1; : : : ; 0): Por
ejemplo, si g = 3 y n1 = 2; n2 = 3; n3 = 1; entonces
0

B
B
B
M=B
B
B
@

1
1
0
0
0
0

0
0
1
1
1
0

0
0
0
0
0
1

C
C
C
C:
C
C
A

Si ahora suponemos que en vez de g objetos tenemos n objetos, pero


el primer objeto est repetido n1 veces, el segundo objeto n2 veces, etc.,
entonces la matriz de distancias es
n

=M

gM

y el anlisis no ponderado sobre la matriz


(In

1 0
1
11 )(
n
2

e la matriz n
siendo U
es

(2)
n )(In

(9.9)

es

1 0
e 0 = YY0 ;
e 2U
11 ) = UD
n

(9.10)

p de los vectores propios. La solucin no ponderada


e :
Y = UD

Teorema 9.9.1 La solucin no ponderada Y sobre n coincide con la solucin ponderada X sobre g ; en el sentido de que obtenemos Y repitiendo
n1 ; : : : ; ng veces las las de X:
1

Tomando n sucientemente grande, podemos aproximarlo tanto como queramos.

176

CAPTULO 9. ANLISIS DE CORRESPONDENCIAS

Prueba: De (9.9) podemos expresar la solucin no ponderada (9.10) como


(In

1 0
1
11 )M(
n
2

(2)
0
g )M (In

1 0
11 ) = YY0 :
n

Se verica

1 0
11 )M = M(Ig
n
Por lo tanto, de (9.8) tenemos
(In

1g w0 ):

1 (2)
w10 )M0 = MXX0 M0 ;
g )(Ig
2
que demuestra que Y = MX: En otras palabras, las coordenadas principales
no ponderadas Y son el resultado de repetir n1 ; : : : ; ng veces las coordenadas
X: La relacin entre los valores singulares es
M(Ig

1w0 )(

ek = g

k;

k = 1: : : : ; p:

Por ejemplo, si g = 3 y n1 = 2; n2 = 3; n3 = 1; obtenemos


0
1
x11 x12
B x11 x12 C
0
1
B
C
x11 x12
B x21 x22 C
B
C:
@
A
x21 x22
X=
; Y=B
C
x
x
21
22
B
C
x31 x32
@ x21 x22 A
x31 x32

9.10.

Complementos

El Anlisis de Correspondencias (AC) tiene una larga historia que se inicia


en 1935 (H.O. Hirschfeld, R.A. Fisher, L. Guttman). Ha sido extensamente
estudiado por Benzcri (1973) y Greenacre (1984).
Utilizando coordenadas estndar A0 = (a0ik ); B0 = (b0jk ); podemos expresar la matriz de correspondencias P = (pij ) como
P = rc0 + Dr A0 D B00 Dc :
Indicando r = (p1 ; : : : ; pI )0 ; c = (p 1 ; : : : ; p J )0 los vectores marginales de las
y columnas de P, la expresin escalar es
pij = pi

p j (1 +

K
X
k=1

0 0
k aik bjk ):

9.10. COMPLEMENTOS

177

P
Si el trmino entre parntesis = K
k=1
para que log(1 + )
; entonces

0 0
k aik bjk ;

log pij = log pi + log p j +

K
X

es sucientemente pequeo

0 0
k aik bjk ;

k=1

que se adapta a un modelo log-lineal (Seccin 11.5), donde cuanticara


el trmino de interaccin. El AC sera pues una manera de visualizar los
trminos de interaccin (van der Heijden y de Leeuw, 1985).
CA verica el principio de equivalencia distribucional: si dos perles de
columnas son idnticos, es decir,
pij 0
pij
=
;
cj
cj 0

i = 1; : : : ; I;

entonces las columnas j; j 0 de N pueden juntarse y ser reemplazadas por su


suma. En efecto, cuando se cumple este principio
pij 0
pij + pij 0
pij
=
=
:
cj
cj 0
cj + cj 0
Luego
[(

pi0 j 2
pij 0
pi0 j 0 2
pij + pij 0
pi0 j + pi0 j 0 2
pij
) (
)] cj +[(
) (
)] cj 0 = [(
) (
)] (cj +cj 0 );
ri c j
ri0 cj
ri c j 0
ri0 cj 0
ri (cj + cj 0 )
ri0 (cj + cj 0 )

y la distancia ji-cuadrado queda inalterada si juntamos las columnas j y j 0 :


Una variante del AC propuesta por Rao (1995), se basa en la distancia
de Hellinger
J
q
q
2
X
e2 0 =
pij =ri
pi0 j =ri0 ;
ii
j=1

entre dos las de N; que tiene la ventaja de no depender de los perles de


las columnas. Sin embargo los resultados pueden ser muy similares (Cuadras
et al, 2004), y el mtodo basado en esta distancia resulta ms apropiado
cuando las las se ajustan a poblaciones multinomiales distintas. Vase una
aplicacin en Cuadras et al. (2012).
Una forma alternativa de presentar el AC es el reciprocal averaging
(RA). Supongamos que queremos encontrar las coordenadas (a1 ; : : : ; aI ) de

178

CAPTULO 9. ANLISIS DE CORRESPONDENCIAS

las las como medias ponderadas de las coordenadas de las columnas y recprocamente, las coordenadas (b1 ; : : : ; bJ ) de las columnas como medias ponderadas de las coordenadas de las las:
J
X

pij
ai =
bj ;
ri
j=1

bj =

I
X

ai

i=1

pij
:
cj

Pero estas relaciones no se pueden vericar simultneamente (por razones


geomtricas obvias), as que hemos de introducir un factor multiplicativo
> 1 y escribir
ai =

J
X

pij
bj ;
ri
j=1

bj =

I
X
i=1

ai

pij
:
cj

(9.11)

El objetivo del RA es encontrar las coordenadas vericando (9.11) tal que


sea mnimo. Entonces es posible probar que = (1= )2 es un valor propio.
Esto mismo lo podemos plantear para la segunda y siguientes coordenadas
y probar la equivalencia entre RA y AC. Los clculos del RA se efectan
iterativamente, y es til (especialmente en ecologa), cuando la matriz de
frecuencias N tiene dimensin grande y contiene muchos ceros (Hill, 1973).
Por otra parte se conoce a (9.11) como la mejor representacin
baricntrica
sobre un eje (Lebart et al., 1977).
Una extensin interesante del AC es el Canonical Correspondence Analysis (Ter Braak, 1986), que tiene en cuenta, para la representacin, que
los ejes sean combinacin lineal de variables externas. Tiene aplicaciones
en ecologa, dado que permite relacionar las comunidades biolgicas con las
variables ambientales. Vase Graelman (2001).
El anlisis de correspondencias mltiples (ACM) presupone slo interacciones de segundo orden, por lo que podra ser un modelo inadecuado
para expresar las de orden superior. Se pueden tambin representar tablas
de contingencia mltiples mediante mosaicos, que permiten visualizar interacciones de orden superior. La Figura 9.5 contiene la representacin en
mosaicode los datos del Titanic, Tabla 14.1. Vase el anlisis log-lineal
del ejemplo 14.5.1. Consltese Friendly (1994, 1999).
El ACM de tablas concatenadas es una aplicacin del ACM, similar al
AFM (vase Seccin 5.8), que permite visualizar la estructura comn de
diversas tablas de datos. Supongamos K tablas con J = J1 + + JQ estados
de las Q variables categricas, para cada una de las tablas. Obtenemos los

9.10. COMPLEMENTOS

179

Figura 9.5: Representacin en mosaico de los datos de supervivencia del


Titanic, Tabla 14.1. El "mosaico"puede revelar interacciones de orden superior.
totales marginales de los J estados para cada tabla y formamos la matriz de
frecuencias K J: El AC simple sobre esta matriz permite visualizar los J
estados conjuntamente con las K tablas . Vase Greenacre (2008).
Una extensin continua del AC considera una densidad bivariante h(x; y)
con densidades marginales f (x); g(y); y la descomposicin singular
f (x)

1=2

h(x; y)g(y)

1=2

1
X

k uk (x)vk (y);

(9.12)

k=1

donde f k ; k 1g son correlaciones cannicas y fuk ; k 1g; fvk ; k 1g son


sistemas de funciones ortonormales (Lancaster, 1969). Hay una interesante
semejanza entre (9.12) y el AC, pues muchas propiedades se conservan. Vase
una comparacin sistemtica en Cuadras et al. (2000) y Cuadras (2002b). El
AC ha sido tambin comparado con otros mtodos de representacin de tablas
de contingencia (Cuadras et al., 2006), propiciando una versin paramtrica
que los engloba a todos (Cuadras y Cuadras, 2006, 2011). Para una amplia visin del Anlisis de Correspondencias y sus variantes, vase Greenacre
(2008).

180

CAPTULO 9. ANLISIS DE CORRESPONDENCIAS

Captulo 10
CLASIFICACIN
10.1.

Introduccin

Clasicar los elementos de un conjunto nito consiste en realizar una particin del conjunto en subconjuntos homogneos, siguiendo un determinado
criterio de clasicacin. Cada elemento pertenece a un nico subconjunto,
que a menudo tiene un nombre que lo caracteriza. As clasicamos:
Las personas en hombres y mujeres.
Los trabajadores en actividades profesionales: servicios, industria, agricultura.
Los animales en especies, gneros, familias y rdenes.
Los libros de una biblioteca en arte, literatura, ciencia, informtica y
viajes.
Sea = f! 1 ; ! 2 ; : : : ; ! n g un conjunto nito con n elementos diferentes,
que abreviadamente indicaremos
= f1; 2; :::; ng:
Clasicar es tambin denir una relacin de equivalencia R sobre . Esta
relacin dene una particin sobre en m clases de equivalencia:
= c1 + c2 +

+ cm ;

donde + signica reunin disjunta. A la particin la llamaremos clustering y


a las clases de equivalencia clusters (conglomerados).
181

182

CAPTULO 10. CLASIFICACIN

10.2.

Jerarqua indexada

Las clasicaciones pueden ser jerrquicas o no jerrquicas . Una clasicacin jerrquica es una sucesin de clusterings tal que cada clustering se
obtiene agrupando clusters. Por ejemplo, si n = 5, una clasicacin jerrquica
es:
= f1g + f2g + f3g + f4g + f5g
= f1; 2g + f3; 4g + f5g
= f1; 2g + f3; 4; 5g
=
Denicin 10.2.1 Una jerarqua indexada (C; ) sobre est formada por
una coleccin de clusters C }( ) y un ndice tal que:
Axioma de la interseccin: Si c; c0 2 C entonces c \ c0 2 fc; c0 ; ;g:
Axioma de la reunin: Si c 2 C entonces c = [fc0 j c0 2 C; c0
La reunin de todos los clusters es el conjunto total:

cg:

= [fc j c 2 Cg:

El ndice es una aplicacin de C sobre el conjunto de nmeros reales positivos tal que:
(i) = 0; 8i 2 ;

(c)

(c0 ) si c

c0 :

Diremos que una jerarqua es total si:


8i 2 ;

fig 2 C:

2 C:
Comentarios:
1. El primer axioma signica que si tenemos dos clusters, uno est incluido
en el otro o ambos son disjuntos, es decir, c c0 ; c0 c; c \ c0 = ;:
Se trata de evitar que un elemento de
pertenezca a dos clusters
excluyentes a la vez, ya que entonces estara mal clasicado.
2. El segundo axioma signica que cada cluster es reunin de los clusters
que contiene. Es decir, reuniendo clusters obtenemos clusters ms amplios. Por ejemplo, en el reino animal, un gnero es reunin de especies,
una familia es reunin de gneros, etc.

10.2. JERARQUA INDEXADA

183

3. El ndice mide el grado de heterogeneidad de cada cluster. Cuanto


ms grande es el cluster ms heterogneo es.
Teorema 10.2.1 Para todo x 0 la relacin binaria Rx sobre los elementos
de
iRx j si i; j 2 c; siendo
(c) x;
(10.1)
es de equivalencia.

Demost.: La relacin Rx es:


Reexiva: iRx i ya que i 2 fig, siendo (fig) = 0 x:
Simtrica: Evidente.
Transitiva: Sea cij el mnimo cluster que contiene i; j, y anlogamente cjk :
Entonces :
iRx j ) i; j 2 cij;
) cij \ cjk 6= ; )

(cij )

x;

a) cij
b) cjk

jRx k ) j; k 2 cjk;

(cjk )

x;

cjk ) i; k 2 cjk;
) iRx k:
cij ) i; k 2 cij;

La relacin (10.1) dene, para cada x 0, una particin de


de equivalencia. La particin se llama clustering al nivel x:

en clases

Ejemplo 10.2.1
Consideremos n = 5 partidos polticos: CU (Conveniencia y Unin), PP
(Partido Pragmtico), PSC (Partido Social Cataln), IC (Iniciativa Catalana) y ER (Entente Republicana). Un ejemplo (hipottico) de jerarqua
indexada sobre ={CU,PP,PSC,IC,ER} es:
C ={CU0 ,PP0 ,PSC0 ,IC0 ,ERC0 ,{CU, PP}1 ,{PSC, IC}1;5 ,{PSC, IC, ERC}2 ,
donde el ndice est indicado como un subndice: (CU)=0, (CU,PP)=1,
etc. Tenemos entonces las siguientes particiones o clusterings:
=
=
=
=

3 },

Nombre del clustering


fCUg + fPPg + fPSCg + fICg + fERg 0
(partidos)
fCU; PPg + fPSC; ICg + fER}
1;5 (derecha, izquierda, centro)
fCU; PPg + fPSC; IC; ER}
2
(coaliciones)
3
(parlamento)

La representacin de esta clasicacin se encuentra en la Figura 10.1, que


justicamos en la seccin siguiente.

184

CAPTULO 10. CLASIFICACIN

10.3.

Geometra ultramtrica

Para presentar una clasicacin utilizamos llaves. Por ejemplo, la clasicacin divisiva de Nacin, Comunidades Autnomas y Provincias (slo vamos
a considerar 8) es:
Nacin

Autonomas Provincias
8
< Huesca
Teruel
:
8 Zaragoza
Barcelona
>
>
<
Gerona
Catalu~
na
Lerida
>
>
:
Tarragona
Madrid
Madrid

8
>
>
>
>
Aragon
>
>
>
>
>
>
<

Espa~
na

>
>
>
>
>
>
>
>
>
>
:

Una generalizacin de las llaves es el rbol ultramtrico. Como veremos


ms adelante, una jerarqua indexada puede ser visualizada mediante un
grco sencillo e intuitivo, llamado dendograma.
Denicin 10.3.1 Un espacio ultramtrico ( ; u) es una estructura formada por un conjunto nito y una funcin distancia u sobre
vericando,
para todo i; j; k de :
No negatividad: u(i; j)

u(i; i) = 0:

Simetra: u(i; j) = u(j; i):


Propiedad ultramtrica:
u(i; j)
La matriz U = (u(i; j))
0
u11 u12
B u21 u22
B
U = B ..
..
..
@ .
.
.
un1 un2

supfu(i; k); u(j; k)g:

de orden n
1
u1n
u2n C
C
.. C
. A
unn

uij = uji = u(i; j);

es la matriz de distancias ultramtricas .

uii = 0:

10.3. GEOMETRA ULTRAMTRICA

185

Proposicin 10.3.1 Una distancia ultramtrica verica la desigualdad triangular y por lo tanto es mtrica.
Demost.:
u(i; j)

supfu(i; k); u(j; k)g

u(i; k) + u(j; k):

Denicin 10.3.2 Un tringulo fi; j; kg formado por tres elementos de


es ultramtrico si es issceles y su base es el lado ms pequeo. Es decir, si
u(i; j) es la base, entonces
u(i; j)

u(i; k) = u(j; k):

Teorema 10.3.2 En un espacio ultramtrico todo tringulo es ultramtrico.


Demost.: Sea fi; j; kg un tringulo. Sea u(i; j) es el lado ms pequeo, entonces:
u(i; k)
u(j; k)

supfu(i; j); u(j; k)g = u(j; k)


=) u(i; k) = u(j; k):
supfu(i; j); u(i; k)g = u(i; k)

Denicin 10.3.3 Un rbol ultramtrico (tambin llamado dendograma) es


un grafo conexo, sin ciclos con un punto llamado raz y n puntos extremos
equidistantes de la raiz.
Una propiedad importante es que todo espacio ultramtrico ( ; u) se
puede dibujarmediante un dendograma, como muestra la Figura 10.2.
Teorema 10.3.3 Sea ( ; u) un espacio ultramtrico. Entonces podemos representarlo mediante un rbol ultramtrico con extremos los elementos de :
Demost.: Supongamos el rbol en posicin vertical. Sea u(i; j) la distancia
entre los extremos i; j medida como la mitad de la mnima longitud de las
aristas verticales que unen i con j, es decir, la distancia vertical hasta el
nudo que liga i con j: Consideremos un tringulo fi; j; kg y supongamos
que fi; jg es el lado ms pequeo. Entonces k se relaciona con i; j en un
nudo 0 por encima de : As u(k; i) = u(k; j) = u(i; j) + ; donde
0
0
es la distancia vertical entre y : Esto demuestra que fi; j; kg es un arbol
ultramtrico.
Hay una versin del Teorema 10.2.1 para distancias ultramtricas.

186

CAPTULO 10. CLASIFICACIN

Figura 10.1: Representacin en rbol ultramtrico (dendograma) de cinco


partidos polticos.
Teorema 10.3.4 Sea ( ; u) un espacio mtrico. Si u es distancia ultramtrica, entonces la relacin binaria Rx sobre los elementos de
iRx j

si

u(i; j)

x;

(10.2)

es de equivalencia para todo x 0. Recprocamente, si la relacin (10.2) es


de equivalencia para todo x 0, entonces u es distancia ultramtrica.
Demost.: Supongamos que u es ultramtrica. Entonces la relacin Rx es:
Reexiva: u(i; i) = 0 x:
Simtrica: u(i; j) = u(j; i) x:
Transitiva: Sea fi; j; kg un tringulo ultramtrico con base fi; jg: entonces
tenemos
u(i; j) u(j; k) = u(i; k) x;
que nos demuestra la transitividad.
Supongamos ahora que Rx es de equivalencia y que el tringulo fi; j; kg
verica:
u(i; j) u(j; k) u(i; k):
Sea x = u(j; k): Entonces u(i; j) x; u(j; k) x ) u(i; k) x = u(j; k)
por la transitividad de Rx : Esto demuestra que u(j; k) = u(i; k) y por lo
tanto el tringulo fi; j; kg es ultramtrico.
La Figura 10.1 contiene el dendograma correspondiente a la jerarqua
indexada del ejemplo 10.2.1.

10.3. GEOMETRA ULTRAMTRICA

187

Otra propiedad importante es que juntando elementos prximos de


seguimos manteniendo la propiedad ultramtrica, y esto vale para cualquier
clustering.
Teorema 10.3.5 Supongamos que sobre los m clusters del clustering
= c1 + c2 +

+ cm

hay denida una distancia ultramtrica u: Sean ci ; cj los dos clusters ms


prximos: u(ci ; cj ) = mnimo: Entonces uniendo ci con cj , se puede denir
una distancia ultramtrica u0 sobre los m 1 clusters del clustering
= c1 +

+ ci [ cj +

+ cm :

Demost.: Si k 6= i; j; por la propiedad ultramtrica tenemos que u(ck ; ci ) =


u(ck ; cj ): Denimos:
u0 (ck ; ci [ cj ) = u(ck ; ci ) = u(ck ; cj ); k 6= i; j;
u0 (ca ; cb )
= u(ca ; cb );
a; b 6= i; j:

(10.3)

Consideremos el tringulo fca ; cb ; ci [ cj g: Entonces:


u0 (ca ; cb )

= u(ca ; cb )
supfu(ca ; ci ); u(cb ; ci )g = supfu0 (ca ; ci [ cj ); u0 (cb ; ci [ cj )g;
u0 (ca ; ci [ cj ) = u(ca ; ci )
supfu(ca ; cb ); u(cb ; ci )g = supfu0 (ca ; cb ); u0 (cb ; ci [ cj )g:

Finalmente, la propiedad ultramtrica es invariante por transformaciones


montonas.
Proposicin 10.3.6 Si u es distancia ultramtrica y u0 = '(u) es una transformacin de u donde ' es una funcin positiva montona (creciente o decreciente), entonces u0 es tambin distancia ultramtrica.
Demost.: Si fi; j; kg es un tringulo ultramtrico con base fi; jg y ' es montona, tendremos que
u(i; j)

u(i; k) = u(j; k) ) u0 (i; j)

u0 (i; k) = u0 (j; k):

188

CAPTULO 10. CLASIFICACIN

10.4.

Algoritmo fundamental de clasicacin

A partir de un espacio ultramtrico podemos construir una jerarquia indexada. Nos lo permite el siguiente
Algoritmo fundamental de clasicacin
Sea ( ; u) un espacio ultramtrico. El fundamento de este algoritmo consiste en el hecho de que, en virtud del Teorema 10.3.5, juntando elementos o
clusters ms prximos, conservamos la propiedad ultramtrica.
1. Comencemos con la particin:
= f1g +

+ fng:

2. Sean i; j los dos elementos ms prximos: u(i; j) = mnimo. Los unimos


fig [ fjg = fi; jg
y denimos la nueva distancia ultramtrica u0
u0 (k; fi; jg) = u(i; k) = u(j; k);

k 6= i; j;

(ver Teorema 10.3.5).


3. Consideremos la nueva particin:
= f1g +

+ fi; jg +

+ fng

y repitamos el paso 2 hasta llegar a : En este proceso, cada vez que


unimos ci con cj tal que u(ci ; cj ) = mnimo, denimos el ndice
(ci [ cj ) = u(ci ; cj ):

(10.4)

El resultado de este proceso es una jerarqua indexada (C; ).

10.5.

Equivalencia entre jerarqua indexada y


ultramtrica

Una jerarqua indexada es una estructura conjuntista. Un espacio ultramtrico es una estructura geomtrica. Ambas estructuras son equivalentes.

10.6. ALGORITMOS DE CLASIFICACIN JERRQUICA

189

Teorema 10.5.1 Sea (C; ) una jerarqua indexada total sobre un conjunto
: Entonces podemos denir una distancia ultramtrica u sobre : Recprocamente, todo espacio ultramtrico ( ; u) dene una jerarqua indexada (C; ).
Demost.: A partir de (C; ) denimos la siguiente distancia
u(i; j) = (cij );
donde cij es el mnimo cluster (respecto a la relacin de inclusin) que contiene i; j. Sea fi; j; kg un tringulo y sean tambin cik ; cjk los mnimos clusters
que contienen fi; kg; fj; kg respectivamente. Tenemos que
cik \ cjk 6= ;
y por tanto (axioma de la interseccin) hay dos posibilidades:
a) cik
b) cjk

cjk ) i; j; k 2 cjk ) cij


cik ) i; j; k 2 cik ) cij

cjk ) u(i; j) = (cij )


cik ) u(i; j) = (cij )

u(j; k) = (cjk )
u(i; k) = (cik )

As pues: u(i; j) supfu(i; k); u(j; k)g:


La posibilidad de construir una jerarqua indexada a partir de una distancia ultramtrica es una consecuencia del algoritmo fundamental de clasicacin. El ndice de la jerarqua viene dado por (10.4).
Comentarios:
1. Obsrvese la analoga entre el Teorema 10.3.5 y el algoritmo fundamental de clasicacin.
2. Obsrvese adems que (10.3) permite denir de manera inequvoca una
distancia entre un cluster y la unin de los dos clusters ms prximos.
Esta propiedad es la que otorga importancia a la distancia ultramtrica.

10.6.

Algoritmos de clasicacin jerrquica

Supongamos que, en relacin a unas variables observables, hemos obtenido


una matriz de distancias = ( (i; j)) de orden n n entre los elementos de
un conjunto :
0
1
11

B 21
B
= B ..
@ .

n1

12

1n

22

2n

..
.

n2

...

C
C
.. C
. A

nn

ij

ji

= (i; j);

ii

= 0:

190

CAPTULO 10. CLASIFICACIN

Si la distancia es ultramtrica, entonces no hay ningn problema para


llevar a cabo una clasicacin construyendo una jerarqua indexada. Basta
con aplicar el algoritmo fundamental de clasicacin (Seccin 10.4). Pero
en general no cumple la propiedad ultramtrica y por lo tanto hemos de
modicar adecuadamente este algoritmo.
Algoritmo de clasicacin
Sea ( ; ) un espacio mtrico. El algoritmo de clasicacin se basa en el
Teorema 10.3.5, en el sentido de que juntaremos los elementos o clusters ms
prximos, y procuraremos obtener tringulos ultramtricos.
1. Comencemos con la particin:
= f1g +

+ fng:

2. Sean i; j los dos elementos ms prximos: (i; j) = mnimo. Los unimos


fig [ fjg = fi; jg
y denimos la distancia de un elemento k al cluster fi; jg
0

(k; fi; jg) = f ( (i; k); (j; k));

k 6= i; j;

(10.5)

donde f es una funcin adecuada.


3. Consideremos la nueva particin:
= f1g +

+ fi; jg +

+ fng;

y repitamos el paso 2 hasta llegar a : En este proceso, cada vez que


unimos ci con cj tal que (ci ; cj ) = mnimo, denimos el ndice
(ci [ cj ) = 0 (ci ; cj ):

(10.6)

La funcin f en (10.5) se dene adecuadamente a n de que se cumpla la


propiedad ultramtrica. El resultado de este proceso es una jerarqua indexada (C; ).

10.6. ALGORITMOS DE CLASIFICACIN JERRQUICA

10.6.1.

191

Mtodo del mnimo

Los diferentes mtodos de clasicacin jerrquica dependen de la eleccin


de f en (10.5). Una primera eleccin conveniente de f consiste simplemente
en tomar el valor ms pequeo de los dos lados fi; kg; fj; kg del tringulo
fi; j; kg con base fi; jg, es decir:
0

(k; fi; jg) = m nf (i; k); (j; k)g;

k 6= i; j:

(10.7)

En otras palabras, hacemos que el tringulo


(i; jg

(i; k) = a

(j; k);

se transforme en ultramtrico
0

(i; jg

(i; k) = 0 (j; k) = a:

Ejemplo. Sea
una matriz de distancias sobre
= f1; 2; 3; 4; 5g: El
mtodo del mnimo proporciona una jerarqua indexada (C; ) asociada a
una matriz ultramtrica U :
1 2 3 4 5
1 0 1 3 4 7
2
0 4 4 8
=
3
0 2 8
4
0 7
5
0
(1; 2; 3; 4)
(1; 2; 3; 4)
0
5

(1; 2)
3
!
4
5

(1; 2) 3 4
0
3 4
0 2
0

5
(1; 2) (3; 4)
7
(1; 2)
0
3
8 !
(3; 4)
0
7
5
0

5
7
!
7
0

5
7 ! C = ff1g0 ; : : : ; f5g0 ; f1; 2g1 ; f3; 4g2 ; f1; 2; 3; 4g3 ;
0
1 2 3 4 5
1 0 1 3 3 7
2
0 3 3 7
(C; ) ! U =
3
0 2 7
4
0 7
5
0

El mtodo del mnimo produce una distancia ultramtrica u que goza de


la siguiente propiedad.

7g

192

CAPTULO 10. CLASIFICACIN

Teorema 10.6.1 Sea


U = fu j u es ultrametrica; u(i; j)

(i; j)g

el conjunto de distancias ultramtricas ms pequeas que : Entonces la distancia ultramtrica u resultante de aplicar el mtodo del mnimo es el elemento mximo de U
u(i; j)

u(i; j);

u 2 U;

8i; j 2 :

Demost.: Sean fi; jg los elementos ms prximos. Entonces u(i; j) = (i; j):
La columna k (6= i; j) tendr trminos repetidos iguales a una distancia 0
construida tomando un mnimo. Si u
es otra distancia ultramtrica,
entonces: a) si es estrictamente ms pequea es evidente que u > u. b) si
u(k 0 ; k 00 ) es ms grande que u(k 0 ; k 00 ) pero es igual a alguna , entonces la
columna k tendr elementos repetidos, y al menos uno ser superior a 0 :
Contradiccin.
El razonamiento es parecido si consideramos un cluster c y un elemento
k2
= c: Comprese con U en el ejemplo anterior. Vase tambin el Teorema
10.7.3.
A la vista de este resultado, podemos decir que u es la mejor aproximacin
a por defecto.

10.6.2.

Mtodo del mximo

Una segunda eleccin razonable de f consiste en tomar el valor ms grande


de los dos lados fi; kg; fj; kg del tringulo fi; j; kg con base fi; jg, es decir:
0

(k; fi; jg) = maxf (i; k); (j; k)g;

k 6= i; j:

(10.8)

En otras palabras, hacemos que el tringulo


(i; jg

(i; k)

(j; k) = b;

se convierta en ultramtrico
0

(i; jg

(i; k) = 0 (j; k) = b:

El mtodo del mximo produce una distancia ultramtrica u que goza de


la siguiente propiedad.

10.6. ALGORITMOS DE CLASIFICACIN JERRQUICA

193

Teorema 10.6.2 Sea


U = fu j u es ultrametrica; u(i; j)

(i; j)g

el conjunto de distancias ultramtricas ms grandes que : Entonces la distancia ultramtrica u resultante de aplicar el mtodo del mximo es un elemento
minimal de U
u(i; j) u(i; j); u 2 U; 8i; j 2 :
As u es la mejor aproximacin a

por exceso.

Comentarios:
1. Las distancias u; u; y

verican:
u(i; j)

Hay igualdad u =

(i; j)

= u si y slo si

u(i; j):
es ultramtrica.

2. u es elemento mximo y es nico. El mtodo del mnimo slo tiene una


solucin.
3. u es elemento minimal y no es nico. El mtodo del mximo puede
tener varias soluciones.
4. Si todos los elementos fuera de la diagonal de la matriz de distancias
son diferentes, entonces la solucin obtenida aplicando el mtodo del
mximo es nica y por tanto u es elemento mnimo .
Finalmente, una notable propiedad de los mtodos del mnimo (tambin
conocido como single linkage) y del mximo (complete linkage) es que conservan la ordenacin de la distancia ; en el sentido de la Proposicin 10.3.6.
Teorema 10.6.3 Los mtodos del mnimo y del mximo son invariantes por
transformaciones montonas de la distancia :
0

= '( ) ) u0 = '(u)

donde u; u0 son las ultramtricas asociadas a ;


tona positiva.

y ' es una funcin mon-

Demost.: En el proceso de encontrar la ultramtrica slo intervienen los rangos de los valores de ; que son los mismos que los rangos de los valores de
0
:

194

CAPTULO 10. CLASIFICACIN

10.7.

Otras propiedades del mtodo del mnimo

Una propiedad de la distancia ultramtrica dice que todo elemento de


una bola es tambin centro de la propia bola.
Proposicin 10.7.1 Sea B(i0 ; r) una bola cerrada de centro i0 y radio r :
B(i0 ; r) = fi 2 j u(i0 ; i)

rg:

Entonces
8i 2 B(i0 ; r) verif ica

B(i; r) = B(i0 ; r):

La demostracin es inmediata. Tambin se verica:


Proposicin 10.7.2 Sea fi1 ; : : : ; im g: Se cumple la desigualdad
u(i1 ; im )

supfu(i ; i

+1 )j

= 1; : : : ; m

1g:

Demost.: Por recurrencia sobre m. Para m = 2 es la desigualdad ultramtrica.


Supongamos cierto para m 1. Tenemos:
u(i1 ; im )

Sea ahora

supfu(i1 ; im 1 ); u(im 1 ; im )g
supfsupfu(i ; i +1 )j = 1; : : : ; m 2g; u(im 1 ; im )g
supfu(i ; i +1 )j = 1; : : : ; m 1g:
= f1; 2; : : : ; ng y

una distancia sobre

Denicin 10.7.1 Una cadena [i; j]m es el conjunto fi = i1 ; i2 ; : : : ; j = im g:


Denicin 10.7.2 Indiquemos
sup[i; j]m = sup

(i ; i

+1 )

el mximo salto de la cadena [i; j]m : Denimos la distancia sobre


u(i; j) = nf sup[i; j]m
m

Teorema 10.7.3 Se verica:

10.7. OTRAS PROPIEDADES DEL MTODO DEL MNIMO


1. u es una ultramtrica tal que u

195

2. Si u es otra ultramtrica tal que u

entonces u

u:

3. u es la ultramtrica que se obtiene por el mtodo del mnimo.


Demost.: [i; j]2 = fi; jg es una cadena que une i; j y por lo tanto
u(i; j)

sup[i; j]2

Sea [i; j; k] una cadena que une i; j pero que contiene k: El conjunto de
las cadenas [i; j; k] est contenido en el conjunto de las cadenas [i; j]. Por lo
tanto:
nf sup[i; j]m
nf0 sup[i; k; j]m0
(10.9)
m

Por otra parte, dadas las cadenas [i; j]; [j; k] podemos construir
[i; k; j] = [i; j] [ [j; k]
de modo que
sup[i; k; j] = supfsup[i; j]; sup[j; k]g
Teniendo en cuenta (10.9) deducimos que
u(i; j)
Sea ahora u

supfu(i; k); u(j; k)g

. Aplicando la Proposicin 10.7.2


u(i; j)

sup u(i ; i
1

+1 )

sup[i; j]m

Por lo tanto
u(i; j)

nf sup[i; j]m = u(i; j):


m

Conviene comparar este resultado con el Teorema 10.6.1.

196

CAPTULO 10. CLASIFICACIN

Figura 10.2: Representacin mediante un dendograma que agrupa 11 profesores segn los artculos publicados conjuntamente.

10.8.

Ejemplos

Profesores. Un grupo de n = 11 profesores de probabilidades y estadstica


de la Universidad de Barcelona han publicado, entre 1994 y 2000, unos 150
artculos internacionales, algunos en colaboracin. Con la nalidad de agrupar los profesores segn los artculos que publicaron juntos, consideramos el
coeciente de similaridad
s(i; j) = nmero de artculos que i; j han publicado juntos:
Denimos entonces la disimilaridad
d(i; j) = 1

s(i; j)= m nfs(i; i); s(j; j)g:

Calculando d(i; j) para cada par de profesores, obtenemos la siguiente


matriz de distancias:

10.8. EJEMPLOS
Are
Arenas
0
Corcuera 1
Cuadras 0.50
Fortiana 0.83
Marquez 1
Nualart
1
Oliva
1
Oller
1
Rovira
1
Sanz
1
Sarra
1

197
Cor

Cua For

Mar Nua Oli Oll Rov

0
1
1
1
1
1
0.75
1
1
1

0
0.06
1
1
0.33
1
1
1
1

0
1
1
1
1
0.33
0.75

0
1
1
0.33
1
1
1
1

0
1
1
1
0.93
1

0
1
1
1
1

0
1
1
1

San

Sar

0
0.11 0
1
0.25 0

Aplicando un anlisis cluster, mtodo del mnimo (single linkage), a esta


matriz de disimilaridades, obtenemos el dendograma de la Figura 10.2. Este
grco pone de maniesto que hay tres grupos principales con 4, 2 y 5 profesores, que trabajan en anlisis multivariante (AM), estadstica matemtica
(EM) y anlisis estocstico (AE), respectivamente.
Idiomas. Los idiomas tienen semejanzas y diferencias entre sus palabras.
Midiendo objetivamente sus diferencias en relacin a las letras que describen
los nmeros 1 a 10, se pretende agrupar jerrquicamente 14 idiomas europeos:
Alemn, Ingls, Vasco, Cataln, Castellano, Dans, Filands, Francs,
Gallego, Holands, Hngaro, Italiano, Noruego y Polaco.
La disimilaridad entre cada par de idiomas se calcula sumando el nmero
de letras que cambian (por supresin, duplicacin, aadido, etc.) al escribir
cada uno de los nmeros 1, 2, ..., 10.
Por ejemplo, entre Ingls y Noruego hay 27 diferencias (sumando las que
hay para cada uno de los nmeros del 1 al 10), y entre Espaol (Castellano)
e Italiano slo hay 17.
Vase Oliva et al. (1993) para ms detalles.

198

CAPTULO 10. CLASIFICACIN

Figura 10.3: Representacin mediante un dendograma (mtodo del mnimo)


de 14 idiomas europeos. Las disimilaridades iniciales se obtiene a partir de
las diferencias al escribir los nmeros del 1 al 10.

La matriz de disimilaridades es:

Alemn
Ingls
Vasco
Cataln
Castellano
Dans
Filands
Francs
Gallego
Holands
Hngaro
Italiano
Noruego
Polaco

Ale
0
29
45
34
32
30
58
33
32
19
42
37
29
45

Ing Vas Cat Cas Dan Fil Fra Gal Hol Hun Ita Nor Pol
0
44
28
29
26
55
32
27
25
38
35
27
44

0
45
46
43
59
46
44
43
45
46
43
53

0
17
27
57
13
13
43
40
22
29
44

0
31
55
24
7
32
42
17
32
36

0
59
33
26
29
36
32
3
44

0
59
55
56
56
60
58
56

0
23
33
38
24
33
45

0
33
40
15
27
38

0
37
36
28
42

0
45
36
52

0
33 0
42 44

10.8. EJEMPLOS

199

Sobre esta matriz de disimilaridades se lleva a cabo un anlisis cluster


jerrquico, mtodo del mnimo (single linkage). El resultado es el dendograma
de la Figura 10.3. Claramente se aprecia que los idiomas de origen latino se
agrupan, manteniendo una cierta similaridad con las lenguas anglosajonas,
que tambin se agrupan. El Polaco y el Hngaro, aunque son dos idiomas
bastante distintos, forman un cluster. El Vasco y el Filands se mantienen
separados de las otras lenguas.
Adjetivos. Continuando con el ejemplo 8.7.3, aplicamos ahora un anlisis
cluster sobre la matriz de distancias de la Tabla 8.2 (mitad inferior derecha)
por el mtodo del mximo (complete linkage), vase Figura 10.4. Los resultados con el mtodo del mnimo son bastante parecidos, indicando que hay
una buena estructura jerrquica. Se percibe una divisin principal, que agrupa los adjetivos de peso y extensin espacial, siguiendo la dicotomia gran
cantidadvs pequea cantidad.

Figura 10.4: Representacin mediante un dendograma de 23 adjetivos por el


mtodo del mximo.

200

10.9.

CAPTULO 10. CLASIFICACIN

Clasicacin no jerrquica

Una clasicacin no jerrquica de n objetos en relacin a una matriz de


datos cuantitativos X, consiste en obtener g grupos homogneos y excluyentes
(clusters). Si tenemos g clusters, estamos en la misma situacin contemplada
en el Cap. 7, y podemos considerar la descomposicin de la variabilidad total
T=B+W
Una particin en g clusters que hace mxima B o mnima W; en relacin
a algn criterio, dar una solucin al problema, puesto que tendremos una
mxima dispersin entre clusters. Algunos criterios, justicados por el anlisis
multivariante de la varianza, son:
a) Minimizar tr(W)
b) Minimizar jWj:
c) Minimizar

= jWj=jTj:

d) Maximizar tr(W 1 B):

Pero la cantidad de maneras diferentes de agrupar n objetos en g clusters


es del orden de g n =g!; nmero muy grande incluso para valores moderados de
n y g: Por ejemplo, necesitaramos formar ms de 1023 clusters si n = 50; g =
3: Por tanto, es necesario seguir algn algoritmo de agrupacin.
El mtodo de las medias mviles consiste en:
1. Comenzar con g puntos del espacio Rp y asignar los objetos a g clusters de acuerdo con la proximidad (distancia eucldea) a los g puntos
iniciales.
2. Calcular los centroides de los g clusters obtenidos y reasignar los objetos
segn su proximidad al centroide de cada cluster.
3. Repetir el paso anterior, calculando cada vez la cantidad jWj (o el
criterio de optimizacin escogido). Parar cuando jWj ya no disminuye.

Es posible probar que la suma de cuadrados de las distancias eucldeas


de los puntos de cada cluster al centroide
g
n
X
X
d2 (xki ; xk )
k=1 i=1

disminuye a cada paso.

10.10. NMERO DE CLUSTERS

10.10.

201

Nmero de clusters

Diversos autores (Calinski, Harabasz, Hartigan, Krzanowski, Lai) han


propuesto mtodos para estimar el nmero de clusters (conglomerados) de
una clasicacin. Es ste un tema abordado desde muchas perspectivas (vase
Gordon, 1999).
Normalmente el usuario determina el nmero k de clusters. Un primer
criterio consiste en tomar el valor k tal que maximice la cantidad
cl1 (k) =

tr(B(k)) tr(W(k))
=
;
g 1
n g

donde B(k); W(k) indican las matrices entre-grupos y dentro-grupos para k


grupos. Otro criterio considera
dif(k) = (k

1)2=p W(k

1)

k 2=p W(k)

y elige k tal que maximiza


cl2 (k) = dif (k)=dif (k + 1):
Pero cl1 i cl2 no estan denidos para k = 1: Un tercer criterio propone el
estadstico
W(k)
H(k) = (
1)=(n k 1);
W(k + 1)
empieza con k = 1 y aumenta k si H(k) crece signicativamente de acuerdo
con una aproximacin a la distribucin F.
Tibshirani et al. (2001) proponen un mtodo que contempla tambin el
caso k = 1: Partiendo del resultado de cualquier clasicacin, jerrquica
o no, comparan el cambio de W(k) respecto al cambio esperado para una
distribucin apropiada de referencia
E(log jW(k)j)

10.11.

log jW(k)j:

Complementos

La historia de la clasicacin comienza con la sistemtica de Carl von Linn, que permita clasicar animales y plantas segn gnero y especie. La clasicacin moderna (denominada taxonoma numrica) se inicia en 1957 con

202

CAPTULO 10. CLASIFICACIN

la necesidad de proponer criterios objetivos de clasicacin (Sokal, Sneath,


Michener). Posteriormente, diversos autores relacionaron las clasicaciones
jerrquicas con los espacios ultramtricos (Benzecri, Jardine, Sibson, Johnson), dado que la propiedad ultramtrica ya era conocida en otros campos
de la matemtica. Hartigan (1967) y Johnson (1967) son dos referencias importantes para representar matrices de similaridades (o disimilaridades) mediante dendogramas y relacionarlos con las clasicaciones jerrquicas. Vase
Gordon (1999).
Una crtica que se ha hecho al anlisis cluster es el excesivo repertorio
de distancias y mtodos de clasicacin. Incluso se han realizado clasicaciones de las propias maneras de clasicar, y clasicaciones jerrquicas de las
distancias. Tambin se ha argumentado (Flury, 1997) que el planteamiento
correcto del anlisis cluster consiste en encontrar mixturas
f (x) =p1 f1 (x) +

+pg fg (x);

donde cada densidad fi representara un cluster y f la densidad de los datos


que hemos observado. Pero si una distancia mide razonablemente las diferencias entre los objetos, entonces se pueden obtener clasicaciones objetivas
aplicando anlisis cluster jerrquico. Por ejemplo, en el ao 1999 se realiz la
clasicacin jerrquica del reino vegetal a partir de distancias entre secuencias de DNA, obteniendo una concordancia de un 60 % con la clasicacin
tradicional basada en la similitud morfolgica de las plantas.
J. C. Gower conjetur en 1971 que toda distancia ultramtrica era eucldea con dimensin n 1; un resultado que sera probado por Holman
(1972). Interes entonces estudiar la relacin entre representaciones en rbol y en coordenadas (Bock, Crithcley, Heiser, Kruskal). Critchley y Heiser
(1988) probaron que, a pesar del resultado de Holman, es posible representar
un espacio ultramtrico con una sola dimensin utilizando una mtrica adecuada. Un estudio de los vectores propios y las dimensiones principales de
una matriz de distancias ultramtricas es debido a Cuadras y Oller (1987).
Vase tambin Cuadras y Carmona (1983) y Cuadras et al. (1996).
N. Jardine y R. Simpson propusieron el mtodo de clasicacin denominado exible, que consiste en denir la distancia de un cluster a la unin de
dos clusters en funcin de unos parmetros, por ejemplo, inicialmente
0

(k; fi; jg) =

(i; k) +

(j; k) +

(i; j) + j (i; k)

(j; k)j;

y anlogamente en los siguientes pasos. Dando valores a los parmetros se

10.11. COMPLEMENTOS

203

obtienen los mtodos siguientes (se incluye denominacin estndar):


Criterio de agrupacin
i
j
Mnimo (single linkage)
1/2
1/2
Mximo (complete linkage)
1/2
1/2
Media (weighted average link)
1/2
1/2
UPGMA (group average link) ni =(ni + nj ) nj =(ni + nj )

0
0
0
0

1=2
+1=2
0
0

UPGMA (Unweighted pair group method using arithmetic averages) es un


mtodo recomendable porque proporciona una clasicacin que se ajusta bien
a la distancia inicial en el sentido de los mnimos cuadrados.
G.H. Ball, D.J. Hall, E. Diday y otros propusieron algoritmos ecientes
de agrupacin no jerrquica. Consltese Everitt (1993).

204

CAPTULO 10. CLASIFICACIN

Captulo 11
ANLISIS DISCRIMINANTE
11.1.

Introduccin

Sean 1 ; 2 dos poblaciones, X1 ; :::;Xp variables observables, x = (x1 ; :::; xp )


las observaciones de las variables sobre un individuo !. Se trata de asignar !
a una de las dos poblaciones. Este problema aparece en muchas situaciones:
decidir si se puede conceder un crdito; determinar si un tumor es benigno o
maligno; identicar la especie a que pertenece una planta, etc.
Una regla discriminante es un criterio que permite asignar ! conocido
(x1 ; :::; xp ), y que a menudo es planteado mediante una funcin discriminante
D (x1 ; :::; xp ). Entonces la regla de clasicacin es
Si D (x1 ; :::; xp ) 0 asignamos ! a
en caso contrario asignamos ! a

1;
2:

Esta regla divide Rp en dos regiones


R1 = fxjD(x) > 0g;

R2 = fxjD(x) < 0g:

En la decisin de identicar !, nos equivocaremos si asignamos ! a una


poblacin a la que no pertenece. La probabilidad de clasicacin errnea
(pce)es
pce = P (R2 =

1 )P (

1)

205

+ P (R1 =

2 )P (

2 ):

(11.1)

206

CAPTULO 11. ANLISIS DISCRIMINANTE

11.2.

Clasicacin en dos poblaciones

11.2.1.

Discriminador lineal

Sean 1 ; 2 los vectores de medias de las variables en 1 ; 2 ; respectivamente, y supongamos que la matriz de covarianzas es comn. Las distancias
de Mahalanobis de las observaciones x =(x1 ; : : : ; xp )0 de un individuo ! a las
poblaciones son
M 2 (x; i ) = (x

0
i)

(x

i );

i = 1; 2:

Un primer criterio de clasicacin consiste en asignar ! a la poblacin ms


prxima:
Si M 2 (x; 1 ) < M 2 (x; 2 ) asignamos ! a 1 ;
(11.2)
en caso contrario asignamos ! a 2 :
Expresando esta regla como una funcin discriminante, tenemos:
M 2 (x; 2 )

M 2 (x; 1 ) = x0 1 x+ 2
x0 1 x
0
= ( 2
1)

2x0 1 2
0
1
1
1 + 2x
1
( 2 + 1 ) + 2x0
2
1

2)

Denimos la funcin discriminante


L (x) = x

1
(
2

1+

2)

2) :

Tenemos que
M 2 (x; 2 )

M 2 (x; 1 ) = 2L(x) L((

2 ) =2)

y la regla (11.2) es
Si L(x) >0 asignamos ! a
en caso contrario asignamos ! a

1;
2:

La funcin lineal (11.3) es el discriminador lineal de Fisher.

(11.3)

11.2. CLASIFICACIN EN DOS POBLACIONES

11.2.2.

207

Regla de la mxima verosimilitud

Supongamos que f1 (x) ; f2 (x) son las densidades de x en 1 ; 2 : Una regla


de clasicacin consiste en asignar ! a la poblacin donde la verosimilitud
de las observaciones x es ms grande:
Si f1 (x) >f2 (x) asignamos ! a
en caso contrario asignamos ! a

1;
2:

La funcin discriminante es
V (x) = log f1 (x)

11.2.3.

log f2 (x) :

Regla de Bayes

En ciertas situaciones, se conocen las probabilidades a priori de que !


pertenezca a cada una de las poblaciones
q1 = P (

1) ;

q2 = P (

2) ;

q1 + q2 = 1:

Una vez que se dispone de las observaciones x =(x1 ; : : : ; xp ); las probabilidades a posteriori de que ! pertenezca a las poblaciones (teorema de Bayes)
son
qi fi (x)
; i = 1; 2:
P ( i =x) =
q1 f1 (x) + q2 f2 (x)
La regla de clasicacin de Bayes es
Si P (

>P ( 2 =x) asignamos ! a


en caso contrario asignamos ! a
1 =x)

1;
2:

El discriminador de Bayes es
B (x) = log f1 (x)

log f2 (x) + log (q1 =q2 ) :

Cuando q1 = q2 = 1=2; entonces B (x) = V (x) : Este discriminador es ptimo


.
Teorema 11.2.1 La regla de Bayes minimiza la probabilidad de clasicacin
errnea.

208

CAPTULO 11. ANLISIS DISCRIMINANTE

Demost.: Supongamos que se dispone de otra regla que clasica a 1 si x 2R1 ;


y a 2 si x 2R2 ; donde R1 ; R2 son regiones complementarias del espacio
muestral. Indicando dx =dx1
dxp : La probabilidad de clasicacin errnea
es
R
R
pce = q1 R f1 (x)dx+q2 R f2 (x)dx
2
1
R
R
R
= R (q1 f1 (x) q2 f 2 (x))dx+q2 ( R2 f2 (x)dx+ R f2 (x)dx)
1
R 2
= R (q1 f1 (x) q2 f 2 (x))dx+q2 :
2

Esta ltima integral es mnima si R2 incluye todas las x tal que q1 f1 (x) q2 f 2 (x) <0
y excluye toda las x tal que q1 f1 (x) q2 f 2 (x) >0: Por tanto pce es mnima
si R2 = R2 ; donde R2 = fxjB(x) <0g:

11.3.

Clasicacin en poblaciones normales

Supongamos ahora que la distribucin de X1 ; :::;Xp en


y en 2 es Np ( 2 ; 2 ), es decir,
fi (x) = (2 )

11.3.1.

1 1=2

p=2
i

expf

1
(x
2

0
i)

1
i

es Np ( 1 ;

(x

i )g:

2)

1)

Discriminador lineal

Si suponemos

6=

2;

V (x) = 21 (x
= L(x)

0
1)

= ; entonces

(x

1)

+ 21 (x

0
2)

(x

y por tanto los discriminadores mximo verosmil y lineal, el segundo basado


en el criterio de la mnima distancia, coinciden.
Sea la distancia de Mahalanobis entre las dos poblaciones
=(

0
2)

2 ):

Si suponemos que x proviene de Np ( 2 ; ); de x 1 = x 2 + 2


1 ; y de
0
0
1
2
E(x 2 )(x 2 ) = ; (x 2 )
(x 2 )
p , tenemos que la esperanza
de U = (x 1 )0 1 (x 1 ) es
E(U ) =E[(x

0
2)

(x

2)

+ 2(x

0
2)

1 )]

=p+ ;

11.3. CLASIFICACIN EN POBLACIONES NORMALES


0
2)

y la varianza de V = (x
var(V ) = E((

0
1)

(x

2)

(x

209

es la misma que la de L(x) y es

2 )(x

0
2)

1 ))

= :

Entonces encontramos fcilmente la distribucin de la funcin discriminante


L(x) :
L(x) es N (+ 21 ; ) si x proviene de Np ( 1 ; );
(11.4)
L(x) es N ( 21 ; ) si x proviene de Np ( 2 ; ):

11.3.2.

Regla de Bayes

Si suponemos 1 6= 2 ;
priori q1 = P ( 1 ) ; q2 = P (

= 2 = ; y conocemos las probabilidades a


2 ) ; entonces es fcil ver que

B(x) =L(x)+ log(q1 =q2 );


y la funcin discriminante de Bayes es el discriminador lineal ms la constante
log(q1 =q2 ):

11.3.3.

Probabilidad de clasicacin errnea

La probabilidad de asignar x a
P (L(x) <0j

1)

cuando proviene de Np ( 1 ; ) es

= P ((L(x)

p
1p
1
)= ) = (
);
2
2

donde (z) es la funcin de distribucin N (0; 1): La probabilidad de clasicacin errnea es


1p
):
pce = q1 P (L(x) <0j 1 ) + q2 P (L(x) >0j 2 ) = (
2
Por tanto pce es una funcin decreciente de la distancia de Mahalanobis
entre las dos poblaciones.

11.3.4.

Discriminador cuadrtico

Supongamos 1 6= 2 ; 1 6= 2 : Entonces el criterio de la mxima verosimilitud proporciona el discriminador


Q (x) = 21 x0
+ 21 02

1
2
1
2

1
2

0
1

x + x0 1 1 1
1
1
1 + 2 log j
1

1
2
2j

1
2

log j

1j

210

CAPTULO 11. ANLISIS DISCRIMINANTE

Q(x) es el discriminador cuadrtico. Anlogamente podemos obtener el discriminador cuadrtico de Bayes


B(x) =Q(x) + log(q1 =q2 ):

11.3.5.

Clasicacin cuando los parmetros son estimados

En las aplicaciones prcticas, 1 ; 2 ; 1 ; 2 son desconocidos y se debern


estimar a partir de muestras de tamaos n1 ; n2 de las dos poblaciones sustituyendo 1 ; 2 por los vectores de medias x1 ; x2 ; y 1 ; 2 por las matrices de
covarianzas S1 ; S2 : Si utilizamos el estimador lineal, entonces la estimacin
de ser
S =(n1 S1 + n2 S2 )=(n1 + n2 )
y la versin muestral del discriminador lineal es
b (x) = [x 1 (x1 + x2 )]0 S
L
2

(x1

x2 ) :

b (x) es bastante complicada, pero la distribucin


La distribucin muestral de L
asinttica es normal:
b
L(x)
es N (+ 12 ; ) si x proviene de Np ( 1 ; );

donde

b
L(x)
es N (

= (x1

11.3.6.

x2 )0 S

1
2

(x1

; 12 ) si x proviene de Np ( 2 ; );
x2 ) :

Un ejemplo

Ejemplo 11.3.1
Mytilicola intestinalis es un coppodo parsito del mejilln, que en estado
larval presenta diferentes estadios de crecimiento. El primer estadio (Nauplis)
y el segundo estadio (Metanauplius) son difciles de distinguir.
Sobre una muestra de n1 = 76 y n2 = 91 coppodos que se pudieron identicar al microscopio como del primero y segundo estadio respectivamente,
se midieron las variables
l = longitud, a = anchura,

11.3. CLASIFICACIN EN POBLACIONES NORMALES

211

y se obtuvieron las siguientes medias y matrices de covarianzas:


Estadio-1
( 219;5 138;1 )
409;9
1;316
1;316 306;2

x1 =
S1 =

x2 =
S2 =

Estadio-2
( 241;6 147;8 )
210;9 57;97
57;97 152;8

Discriminador lineal
La estimacin de la matriz de covarianzas comn es:
S = (n1 S1 + n2 S2 )=(n1 + n2 ) =

301;4 31;02
31;02 222;6

El discriminador lineal es:


1
2

L(long; anch) = ((long; anch)


=

0;069long

(461;1; 285;9)

301;4 31;02
31;02 222;6

22;1
9;7

0;034anch + 20; 94

La tabla de clasicaciones es:


Estadio asignado
1
2
Estadio 1
61
15
original 2
21
70
Discriminador de Bayes
Una larva, desde que eclosiona est 4 horas en el estadio 1 y 8 horas
en el estadio 2. Al cabo de 12 horas, la larva pasa a un estadio fcilmente
identicable. Por tanto, una larva tiene, a priori, una probabilidad 4=12 = 1=3
de pertenecer al estadio 1 y una probabilidad 8=12 = 2=3 de pertenecer al
estadio 2. As q1 = 1=3; q2 = 2=3; y el discriminador de Bayes es
B(long; anch) = V (long; anch) + log(1=2) =

0;069long

0;034anch + 20;24

212

CAPTULO 11. ANLISIS DISCRIMINANTE

Figura 11.1: Discriminadores lineal y cuadrtico en la clasicacin de coppodos en Estadios 1 y 2. La lnea recta es el conjunto de puntos tales que L = 0:
La parbola es el conjunto de puntos tales que Q = 0:

Probabilidad de clasicacin errnea


Una estimacin de la distancia de Mahalanobis es
22;1

9;7

301;4 31;02
31;02 222;6

22;1
9;7

= 1;872:

La probabilidad de asignar una larva al estadio 1 cuando corresponde al


estadio 2 o al estadio 2 cuando corresponde al estadio 1 es
pce = (

1p
1;872) = ( 0;684) = 0;247:
2

11.4. DISCRIMINACIN EN EL CASO DE K POBLACIONES

213

Discriminador cuadrtico
El test de homogeneidad de covarianzas nos da:
2

= [1

13 1
1
( +
18 75 90

1
)](1835;4
165

882;5

926; 32) = 26;22

con 3 g.l. Las diferencias entre las matrices de covarianzas son signicativas. Por tanto, el discriminador cuadrtico puede resultar ms apropiado.
Efectuando clculos se obtiene:
Q(long; anch) = 0;0014long2 + 0;002anch2 0;002long
0;445long 0;141anch + 72;36

anch

Con el clasicador cuadrtico se han clasicado bien 2 individuos ms (Fig.


11.1):
Estadio asignado
1
2
Estadio 1
59
17
original 2
17
74

11.4.

Discriminacin en el caso de k poblaciones

Supongamos ahora que el individuo ! puede provenir de k poblaciones


3: Es necesario establecer una regla que permita
1 ; 2 ; : : : ; k ; donde k
asignar ! a una de las k poblaciones sobre la base de las observaciones x =
(x1 ; x2 ; : : : ; xp )0 de p variables.

11.4.1.

Discriminadores lineales

Supongamos que la media de las variables en i es i ; y que la matriz de


covarianzas es comn. Si consideramos las distancias de Mahalanobis de !
a las poblaciones
M 2 (x; i ) = (x

0
i)

(x

i );

i = 1;

; k;

un criterio de clasicacin consiste en asignar ! a la poblacin ms prxima:


Si M 2 (x; i ) = m nfM 2 (x; 1 );

; M 2 (x;

k )g;

asignamos ! a

i:

(11.5)

214

CAPTULO 11. ANLISIS DISCRIMINANTE

Introduciendo las funciones discriminantes lineales


Lij (x) =

1
2

es fcil probar que (11.5) equivale a


Si Lij (x) > 0 para todo j 6= i;

asignamos ! a

i:

Adems las funciones Lij (x) verican:


1. Lij (x) = 21 [M 2 (x; j )
2. Lij (x) =

M 2 (x; i )]:

Lji (x) :

3. Lrs (x) = Lis (x)

Lir (x) :

Es decir, slo necesitamos conocer k

11.4.2.

1 funciones discriminantes.

Regla de la mxima verosimilitud

Sea fi (x) la funcin de densidad de x en la poblacin i : Podemos obtener


una regla de clasicacin asignando ! a la poblacin donde la verosimilitud
es ms grande:
Si fi (x) = maxff1 (x); : : : ; fk (x)g;

asignamos ! a

i:

Este criterio es ms general que el geomtrico y est asociado a las funciones


discriminantes
Vij (x) = log fi (x) log fj (x):
En el caso de normalidad multivariante y matriz de covarianzas comn, se
verica Vij (x) = Lij (x); y los discriminadores mximo verosmiles coinciden
con los lineales. Pero si las matrices de covarianzas son diferentes 1 ; : : : ; k ;
entonces este criterio dar lugar a los discriminadores cuadrticos
1

Qij (x) = 21 x0
+ 21

0
j

1
j

1
2

0
i

x + x0
1
i

1
i

+ 21 log j

1
1

j
jj

1
2

log j i j :

11.4. DISCRIMINACIN EN EL CASO DE K POBLACIONES

11.4.3.

215

Regla de Bayes

Si adems de las funciones de densidad fi (x); se conocen las probabilidades a priori


q1 = P ( 1 ) ; : : : ; q k = P ( k ) ;
la regla de Bayes que asigna ! a la poblacin tal que la probabilidad a
posteriori es mxima
Si qi fi (x) = maxfq1 f1 (x); : : : ; qk fk (x)g;

asignamos ! a

i;

est asociada a las funciones discriminantes


Bij (x) = log fi (x)

log fj (x) + log(qi =qj ):

Finalmente, si P (j=i) es la probabilidad de asignar ! a


es de i ; la probabilidad de clasicacin errnea es
pce =

k
X
i=1

cuando en realidad

k
X
P (j=i));
qi (
j6=i

y se demuestra que la regla de Bayes minimiza esta pce.

11.4.4.

Un ejemplo clsico

Continuando con el ejemplo 3.6.2, queremos clasicar a una de las 3 especies una or cuyas medidas son:
x1 =6.8 x2 =2.8 x3 =4.8 x4 =1.4
La matriz de covarianzas comn es
0
0;2650 0;0927 0;1675 0;0384
B
0;1154 0;05524 0;0327
S=B
@
0;18519 0;0426
0;0418

1
C
C
A

Las distancies de Mahalanobis (al cuadrado) entre las 3 poblaciones son:


Setosa
Versicolor
Virginica

Setosa Versicolor Virginica


0
89.864
179.38
0
17.201
0

216

CAPTULO 11. ANLISIS DISCRIMINANTE

Los discriminadores lineales son:


L12 (x) = 12 [M 2 (x; x2 ) M 2 (x; x1 )] ;
L13 (x) = 12 [M 2 (x; x3 ) M 2 (x; x1 )] ;
L23 (x) = L13 (x) L12 (x); L21 (x) = L12 (x);
L31 (x) = L13 (x); L32 (x) = L23 (x):
La regla de decisin consiste en asignar el individuo x a la poblacin i si
Lij (x) > 0 8j 6= i:
Se obtiene:

Individuo
L12
L13
L21
L23
L31
L32
Poblacin
x
-51.107 -44.759 51.107 6.3484 44.759 -6.3484
2
Por lo tanto clasicamos la or a la especie I. Versicolor.
Para estimar la probabilidad de clasicacin errnea pce podemos omitir
una vez cada individuo, clasicarlo a partir de los dems y observar si sale
bien clasicado (mtodo leaving-one-out). El resultado de este proceso da:

Poblacin 1
original
2
3

Poblacin asignada
1
2
3
50
0
0
0
48
2
0
1
49

Slo hay 3 individuos mal clasicados y la pce estimada es 3=150 = 0;02:

Captulo 12
DISCRIMINACIN
LOGSTICA Y OTRAS
12.1.

Anlisis discriminante logstico

12.1.1.

Introduccin

El modelo de regresin logstica permite estimar la probabilidad de un


suceso que depende de los valores de ciertas covariables.
Supongamos que un suceso (o evento) de inters A puede presentarse o
no en cada uno de los individuos de una cierta poblacin. Consideremos una
variable binaria y que toma los valores:
y = 1 si A se presenta, y = 0 si A no se presenta.
Si la probabilidad de A no depende de otras variables, indicando P (A) = p;
la verosimilitud de una nica observacin y es
L = py (1

p)1 y ;

pues L = p si y = 1; L = 1 p si y = 0:
Si realizamos n pruebas independientes y observamos y1 ; : : : ; yn , la verosimilitud es
n
Y
L=
pyi (1 p)1 yi = pk (1 p)n k
i=1

217

218

CAPTULO 12. DISCRIMINACIN LOGSTICA Y OTRAS

P
siendo k =
yi la frecuencia absoluta de A en las n pruebas. Para estimar
p resolvemos la ecuacin de verosimilitud
@
ln L = 0
@p
cuya solucin es pb = k=n; la frecuencia relativa del suceso A: La distribucin
asinttica de pb es normal N (p; p(1 p)=n):
Muy distinta es la estimacin cuando esta probabilidad depende de otras
variables. La probabilidad de A debe entonces modelarse adecuadamente.

12.1.2.

Modelo de regresin logstica

Supongamos ahora que la probabilidad p depende de los valores de ciertas


variables X1 ; : : : ; Xp : Es decir, si x = (x1 ; : : : ; xp )0 son las observaciones de
un cierto individuo ! sobre las variables, entonces la probabilidad de acontecer A dado x es p(y = 1jx): Indicaremos esta probabilidad por p(x): La
probabilidad contraria de que A no suceda dado x ser p(y = 0jx) = 1 p(x):
Es fcil darse cuenta que pretender que p(x) sea una funcin lineal de x no
puede funcionar correctamente, pues p(x) est comprendido entre 0 y 1:
Por diversas razones, es muy conveniente suponer un modelo lineal para
la llamada transformacin logstica de la probabilidad
ln[

p(x)
]=
1 p(x)

1 x1

p xp

x;

(12.1)

siendo = ( 1 ;
; p )0 parmetros de regresin: El modelo (12.1) equivale a
suponer las siguientes probabilidades para A y su contrario, ambas en funcin
de x
0
e 0+ x
1
p(x) =
1 p(x) =
0 ;
0 :
+
x
0
1+e
1 + e 0+ x
Hagamos ahora una breve comparacin con el modelo lineal. El mdelo de
regresin lineal (vase Captulo 13) es
y=

1 x1

p xp

+ e;

donde se supone que y es una variable respuesta cuantitativa y que e es un


error con media 0 y varianza 2 : Usando la misma terminologa, podemos
entender el modelo logstico en el sentido de que
y = p(x) + e;

12.1. ANLISIS DISCRIMINANTE LOGSTICO

219

donde ahora y slo toma los valores 0 1: Si y = 1 entonces e = 1 p(x) con


probabilidad p(x): Si y = 0 entonces e = p(x) con probabilidad 1 p(x):
De este modo, dado x; el error e tiene media 0 y varianza p(x)(1 p(x)):
Dado un individuo !; la regla de discriminacin logstica (suponiendo
los parmteros conocidos o estimados) simplemente decide que ! posee la
caracterstica A si p(x) > 0;5; y no la posee si p(x) 0;5 Introduciendo la
funcin discrimnante
p(x)
)
Lg (x) = ln(
1 p(x)
la regla de decisin logstica es
Si Lg (x) > 0 entonces y = 1; si Lg (x)

12.1.3.

0 entonces y = 0:

Estimacin de los parmetros

La verosimilitud de una observacin y es L = p(x)y (1


obtencin de n observaciones independientes

p(x))1 y : La

(yi ; xi ) = (yi ; xi1 ; : : : ; xip )


se puede tabular matricialmente como
0
0
1
1 x11 x12
y1
B 1 x21 x22
B y2 C
B
B
C
y = B .. C ; X = B .. ..
..
@ . .
@ . A
.
yn
1 xn1 xn2

..

x1p
x2p
..
.

xnp

Ntese que, para poder tener en cuenta el trmino constante


la primera columna de X contiene unos.
La verosimilitud de n observaciones independientes es
L=

n
Y

p(xi )yi (1

p(xi ))1

yi

i=1

Tomando logaritmos
ln L =

n
X
i=1

yi ln p(xi )(1

p(x))1

yi

C
C
C:
A
0

en el modelo,

220

CAPTULO 12. DISCRIMINACIN LOGSTICA Y OTRAS

A n de hallar los estimadores mximo verosmiles de los parmetros


beremos resolver las ecuaciones
@
ln L = 0;
@ j
Se tiene ln p(xi ) =
@
@

@
@

j = 0; 1; : : : ; p:

ln(1 + e

1 xi

0 + 1 xi

ln p(xi ) = 1
ln p(xi ) = xij

de-

e 0 + xi
0
1+e 0 + xi
0
e 0+ x
xij 1+e 0 + 0 xi

), luego
=1

p(xi )

= xij (1

p(xi ))

Anlogamente derivaramos ln(1 p(xi )) = ln(1 + e 0 + 1 xi ): Se obtienen


entonces las ecuaciones de verosimilitud para estimar los parmetros ;
Pn
(yi p(xi )) = 0;
Pi=1
(12.2)
n
p(xi )) = 0; j = 1; : : : ; p:
i=1 xij (yi
Utilizando el vector y; la matriz X y el vector de probabilidades (X) =
(p(x1 ) : : : ; p(xn ))0 ; estas ecuaciones se pueden escribir como
X0 (X) = X0 y;
siendo comparables con las ecuaciones normales (Captulo 13) X0 X = X0 Y;
para estimar los parmetros del modelo lineal y = X +e; salvo que ahora
el modelo X es (X); que depende de . Sin embargo las ecuaciones (12.2)
no se pueden resolver explcitamente, debindose recurrir a procedimientos
numricos iterativos. Vase Pea (2002).

12.1.4.

Distribucin asinttica y test de Wald

Indiquemos por b = (b0 ; b1 ; : : : ; bp )0 la estimacin de los parmetros.


Aplicando la teora asinttica de los estimadores mximo verosmiles, la matriz de informaciin de Fisher es I = X0 VX; siendo
2
3
p(x1 )(1 p(x1 ))
0
5
V=4
0
p(xn )(1 p(xn ))
La distribucin asinttica de b es entonces normal multivariante Np+1 ( ;
I 1 )::En particular, la distribucin asinttica del parmetro bi es normal

12.1. ANLISIS DISCRIMINANTE LOGSTICO

221

N ( i ;var(bi )); donde var(bi ) es el correspondiente elemento diagonal de la


matriz inversa I 1 :
El llamado test de Wald para la signicacin de i utiliza el estadstico
q
b
z = i = var(bi )

con distribucin asinttica N (0; 1); o bien z 2 con distribucin ji-cuadrado


con 1 g. l.
: Si se desea estudiar la signicacin de todos los parmetros de regresin,
el test de Wald calcula
0
w = b I b;

con distribucin asinttica ji-cuadrado con p + 1 g. l. bajo la hiptesis nula


= 0:

12.1.5.

Ajuste del modelo

En regresin logstica se obtiene el ajuste del modelo calculando la verosimilitud L del modelo (estimando los parmetros por mxima verosimilitud) y
utilizando el llamado estadstico de desviacin:
D=

2 ln L(modelo de regresin).

Se puede interpretar D como menos dos veces la razn de verosimilitudes del


modelo ajustado y el modelo saturado
D=

2 ln

L(modelo de regresin)
L(modelo saturado)

El modelo saturado es el que posee tantos parmetros como observaciones.


En nuestro caso
n
Y
L(modelo saturado) =
yi yi (1 yi )1 yi ) = 1:
i=1

Supongamos ahora que deseamos estudiar la signicacin de una o varias


covariables. En particular, la signicacin de un coeciente de regresin: H0 :
i = 0: Utilizando la desviacin D calcularemos
G = D (modelo sin las variables) D(modelo con las variables)
L(modelo sin las variables)
:
=
2 ln
L(modelo con las variables)

222

CAPTULO 12. DISCRIMINACIN LOGSTICA Y OTRAS

Si queremos estudiar la signicacin de k variables, entonces la distribucin


asinttica de G es ji-cuadrado con k g. l. . En particular k = 1 si slo
estudiamos la signicacin de una variable.

12.1.6.

Curva ROC

Supongamos que la poblacin consiste en individuos que poseen un tumor,


el cual puede ser maligno (suceso A), o benigno (contrario de A): La regla
de discriminacin logstica
Si p(x) > 0;5 decidimos que y = 1
puede resultar insuciente en este caso, pues bastantes individuos podran
ser clasicados como tumor benigno siendo maligno.
Se llama sensibilidad a la curva
Se(t) = P (p(x) > tjy = 1);

1:

Variando t; la curva Se va dando la proporcin de individuos a los que se


detecta tumor maligno. Para t = 0 todos los individuos resultaran malignos,
y para t = 1 todos resultaran benignos.
Se llama especicidad a la curva
Es(t) = P (p(x) < tjy = 0);

1:

Variando t; la curva Es va dando la proporcin de individuos a los que se


detecta tumor benigno. Para t = 0 todos los individuos resultaran benignos,
y para t = 1 todos resultaran malignos. Es un problema importante en
diagnosis mdica determinar el valor de corte t tal que detecte el mayor
nmero de tumores malignos, sin cometer demasiados errores (decidir que es
maligno cuando en realidad es benigno).
La curva ROC (Receiving Operating Characteristic) resume las dos curvas
de sensibilidad y especicidad. Es la curva que resulta de representar los
puntos
(1 Es(t); Se(t)) 0 t 1;
es decir, 1-Especicidad en el eje OX, y la Sensibilidad en el eje OY. La curva
ROC est por encima de la diagonal, y cuanto ms se aparta de la diagonal,
mejor es la discriminacin.

12.1. ANLISIS DISCRIMINANTE LOGSTICO

223

En el caso de que la curva coincida con la diagonal, se tiene que


Se(t) = P (p(x) > tjy = 1) = 1

Es(t) = P (p(x) > tjy = 0):

Entonces no es posible distinguir entre las dos poblaciones. En otras palabras, la funcin discriminant logstica Lg (x) = ln[p(x)=(1 p(x))] tiene
exactamente la misma distribucin tanto si y = 1 como si y = 0:
El rea bajo la curva ROC es siempre mayor o igual que 0;5: Un valor
a partir de 0;8 se considera como que la discriminacin es buena. Un valor
a partir de 0;9 se considerara como muy bueno. La discriminacin sera
perfecta si el rea vale 1. Vase Hosmer y Lemeshow (2000).
Ejemplo 12.1.1
En un estudio epidemiolgico sobre n = 189 mujeres que han tenido un
beb, se intent estudiar las causas (edad, peso antes embarazo, fumar, etc.)
que provocan el nacimiento de un beb prematuro. Se considera que un beb
es prematuro si su peso est por debajo de los 2500 gramos. Visitando la
pgina web
http://www.umass.edu/statdata/statdata/
(!Data sets, Regression-Logistic) se puede bajar el chero Low Birthweight. Consideramos LOW como variable dependiente (0 si peso mayor
2500gr, 1 si menor que 2500gr) y las variables predictoras AGE (edad), LWT
(peso de la madre), RACE (1=blanco, 2=negro, 3=otros), SMOKE (0=no
fuma, 1=fuma).
Las estimaciones de los parmetros 0 ; 1 ; : : :, sus desviaciones tpicas y el
estadstico de Wald se dan en el siguiente cuadro. La variable race (categrica
con 3 estados), se desglosa en 2 variables binarias.
Variable
Age
Weight
Race
Race_1
Race_2
Smoke
Visits
Constant
D = 2log-veros

-0.022
-0,012
-0.94
0.29
1.05
-0.008
-0.79
214.57

ST( ). Wald g.l.


0.035
0.41 1
0.006
3.76 1
7.79 2
0.41
5.07 1
0.52
0.30 1
0.38
7.64 1
0,16
0.002 1
0.15
25.3 1

p
0.622
0.052
0.020
0.024
0.583
0.006
0.963
0.000

224

CAPTULO 12. DISCRIMINACIN LOGSTICA Y OTRAS

Con el modelo considerando el trmino constante y 5 variables (age,


weight, race, smoke, visits) obtenemos D = 2 ln(modelo) = 214;575: Considerando el trmino constante y 3 variables (weight, race, smoke) obtenemos D = 2 ln(modelo) = 215;05: La diferencia entre las dos desviaciones
215;05 214;575 = 0;475 es ji-cuadrado con 3 g. l., no signicativo. Luego
no hay ventaja en incluir las variables Edad y Nmero de visitas.
La regla estndar de decisin en regresin logstica es:
Si p(x) > 0; 5 el beb tiene el peso bajo, en caso contrario es normal.
El valor de corte 0; 5 se puede alterar para mejorar la Sensibilidad (detectar
un beb con peso bajo) o la Especicidad (detectar un beb con peso normal).
En la siguiente tabla vemos que si disminuye el punto de corte, detectamos
ms bebs de bajo peso, pero menos de peso normal.
Corte
0,1
0,3
0,5
0,7
0,9

% Normales pred.
9,2
50,0
93,8
100
100

% Peso bajo pred.


100
76,3
15,3
1,7
0

La curva ROC es el grco conjunto de la Sensibilidad (eje vertical) y 1Especicidad (eje horizontal), variando la probabilidad de corte. La diagonal
indicara empate (no se distingue entre beb de bajo peso y beb normal).
El rea bajo la curva ROC es 0; 5 en el peor de los casos (que la curva ROC
coincida con la diagonal). En este ejemplo (Figura 11.2) el rea vale 0; 684;
indicando que el modelo posee una capacidad de prediccin moderada.

12.1.7.

Comparacin entre discriminador lineal y logstico

En el modelo logstico conocemos la probabilidad p(x) de y = 1 dados los


valores x
0
e 0+ x
p(x) =
0
1 + e 0+ x
Bajo normalidad Np ( 1 ; ); Np ( 0 ; ) con probabilidades a priori q1 =
q0 = 1=2; y utilizando el discriminador lineal, la probabilidad de y = 1 (es

12.1. ANLISIS DISCRIMINANTE LOGSTICO

225

Figura 12.1: Curva ROC que representa las curvas de Sensibilidad y 1Especicidad para los datos de bebs con bajo peso.

decir, de la poblacin Np ( 1 ; )) dado x es


f1 (x)
P (y = 1jx) =
=
f1 (x) + f0 (x)
e

e
1
(x
2

1)

1
(x
2
1 (x

1)
1)
1

1 (x

+e

Multiplicando numerador y denominador por e 2 (x


1
0
1
0
en cuenta que 21 (x
(x
1)
1 ) + 2 (x
0)
donde
0
1
1
L (x) = x
( 0 + 1)
( 0
2

1)

1
(x
2

0)

1 (x

(x

0)

0)

Puesto que

L(x) =
0

1
(
2

1)

e L(x)
:
1 + e L(x)

x siendo

0
0)

0) ;

0)

y teniendo
L(x);
0) =

es el discriminador lineal, vemos que


P (y = 1jx) =

1 (x

0) ;

226

CAPTULO 12. DISCRIMINACIN LOGSTICA Y OTRAS

conseguimos obtener el modelo logstico a partir del discriminador lineal. Sin


embargo, el modelo normal es ms eciente. En realidad el modelo logstico
sirve para la clase de distribuciones pertenecientes a la familia exponencial,
que incluye la normal. Al ser el logstico un modelo ms amplio y robusto,
pierde en eciencia.
Efron (1975) calcul analticamente la eciencia relativa (cociente entre
las probabilidades de clasicacin errnea) del modelo logstico respecto
al
p
siendo
lineal normal. La eciencia relativa asinttica es una funcin de
la distancia de Mahalanobis entre las dos poblaciones:
=(

0
0)

0 ):

Para q1 = q0 = 1=2 (el caso ms favorable para el discriminante logstico),


la eciencia es la misma (vale 1), para valores muy pequeos de ; y decrece
hasta 0.343 para = 16 (la probabilidad de error en el caso logstico es tres
veces mayor que en el normal si es grande). Los valores son:
p
0
0.5
1
1.5
2
2.5
3
3.5
4
Eciencia 1.000 1.000 .995 .968 .899 .786 .641 .486 .343
Continuando con el ejemplo 11.3.1, el discriminador lineal (suponiendo
normalidad e igualdad de matrices de covarianzas) es:
L(long,anch) = 0;069long 0;034anch + 20;94
p
p
En este ejemplo
= 1;872 = 1;368: La eciencia del discrimnador logstico con respecto al lineal normal es del orden de 0.98.
Aplicando el modelo logstico, se obtiene
Variable
Amplitud
Anchura
Constante
D = 2log-verosim

ST( ).
0,069 0,012
0,031 0,013
-20,23 3,277
167,12

Wald
31,21
5,859
38,15

g. l. p valor
1
0,000
1
0,015
1
0,000

Las probabilidades de que un coppodo con longitud l y anchura a pertenezca


al estadio 1 y al estadio 2 son, respectivamente:
e 20;23+0;069l+0;031a
1+e
1 + e 20;23+0;069l+0;031a
Por ejemplo, si l = 248; a = 160; entonces las probabilidades son 0;136 y
0;863; y el coppodo sera asignado al estadio 2. Los resultados prcticamente
coinciden con el discriminador lineal (Figura 12.2).
1

;
20;23+0;069l+0;031a

12.2. ANLISIS DISCRIMINANTE BASADO EN DISTANCIAS

227

Figura 12.2: Curvas ROC para el discriminador lineal y el logstico (izquierda). Ambas curvas son indistinguibles (derecha), indicando la misma eciencia para discriminar entre los dos estadios. El rea bajo la curva ROC es
0,838.

12.2.

Anlisis discriminante basado en distancias

Los mtodos que hemos descrito funcionan bien con variables cuantitativas o cuando se conoce la densidad. Pero a menudo las variables son binarias,
categricas o mixtas. Aceptando y aplicando el principio de que siempre es
posible denir una distancia entre observaciones, es posible dar una versin
del anlisis discriminante utilizando solamente distancias.

12.2.1.

La funcin de proximidad

Sea
una poblacin, X un vector aleatorio con valores en E
Rp y
densidad f (x1 ; :::; xp ) : Sea una funcin de distancia entre las observaciones
de X: Denimos la variabilidad geomtrica como la cantidad
1
V (X) =
2

(x; y) f (x)f (y)dxdy

228

CAPTULO 12. DISCRIMINACIN LOGSTICA Y OTRAS

V (X) es el valor esperado de las distancias (al cuadrado) entre observaciones


independientes de X:
Sea ! un individuo de , y x = (x1 ; :::; xp )0 las observaciones de X sobre
!. Denimos la funcin de proximidad de ! a en relacin con X como la
funcin
Z
2
2
2
(x; t)f (t)dt V (X) :
(12.3)
(x) = E
(x; X)
V (X) =
E

(x) es la media de las distancias de x; que es ja, a t; que vara aleatoriamente, menos la variabilidad geomtrica.
Teorema 12.2.1 Supongamos que existe una representacin de (E; ) en un
espacio L (Eucldeo o de Hilbert)
(E; ) ! L
con un producto escalar < :; : > y una norma kzk2 =< z; z >, tal que
2

donde

(x; y) = k (x)

(y)k2 ;

(x) ; (y) 2 L son las imgenes de x; y: Se verica:

V (X) = E(k (X)k2 )


2

(x) = k (x)

kE( (X))k2 :

E( (X))k2 :

En consecuencia, podemos armar que la variabilidad geomtrica es una


varianza generalizada, y que la funcin de proximidad mide la distancia de
un individuo a la poblacin.

12.2.2.

La regla discriminante DB

Sean 1 ; 2 dos poblaciones, una funcin distancia. es formalmente la


misma en cada poblacin, pero puede tener diferentes versiones 1 ; 2 , cuando estemos en 1 ; 2 , respectivamente. Por ejemplo, si las poblaciones son
normales Np ( i ; i ) ; i = 1; 2; y consideramos las distancias de Mahalanobis
2
i (x; y)

= (x

y)0

1
i

(x

y) ;

i = 1; 2;

lo nico que cambia es la matriz . Debe quedar claro que depende del
vector aleatorio X, que en general tendr diferente distribucin en 1 y 2 .

12.2. ANLISIS DISCRIMINANTE BASADO EN DISTANCIAS

229

Seguidamente, mediante (12.3), encontraremos las funciones de proximidad 21 ; 22 , correspondientes a 1 ; 2 . Sea ! un individuo que queremos
clasicar, con valores x = X (!).
La regla de clasicacin basada en distancias (DB, distance-based) es:
2
Si 21 (x)
2 (x) asignamos ! a
en caso contrario asignamos ! a

1;
2:

Teniendo en cuenta el Teorema 12.2.1, se cumple


2
i

(x) = k (x)

E i ( (X))k2 ;

i = 1; 2;

y por tanto la regla DB asigna ! a la poblacin ms prxima. La regla DB


solamente depende de las distancias entre individuos.

12.2.3.

La regla DB comparada con otras

Los discriminadores lineal y cuadrtico son casos particulares de la regla


DB.
1. Si las poblaciones son Np ( 1 ; 1 ) ; Np ( 2 ; 2 ) y 2 es la distancia de
1
Mahalanobis entre observaciones 2 (x; y) = (x y)0
(x y) ; entonces las funciones de proximidad son
2
i

0
i)

(x) = (x

(x

i)

y el discriminador lineal es
L (x) =

1
2

2
2

(x)

2. Si las poblaciones son Np ( 1 ; 1 ) ; Np (


Mahalanobis ms una constante
2
i

(x; y) = (x
=0

y)0

1
i

2
1

2;

(x) :
2)

y) + log j i j =2

(x

entonces el discriminador cuadrtico es


Q (x) =

1
2

2
i

2
2

(x)

2
1

(x) :

es la distancia de
x 6= y;
x = y;

230

CAPTULO 12. DISCRIMINACIN LOGSTICA Y OTRAS

3. Si es la distancia eucldea ordinaria entre observaciones, la regla DB


equivale a utilizar el discriminador
1
(
2

E (x) = [x

0
2 )]

(12.4)

2) ;

conocido como discriminador Eucldeo. E (x) es til en determinadas


circunstancias, por ejemplo, cuando la cantidad de variables es grande
en relacin al nmero de individuos, pues tiene la ventaja sobre L(x)
de que no necesita calcular la inversa de :

12.2.4.

La regla DB en el caso de muestras

En las aplicaciones prcticas, no se dispone de las densidades f1 (x); f2 (x);


sino de dos muestras de tamaos n1 ; n2 de las variables X = (X1 ; :::; Xp ) en
las poblaciones 1 ; 2 . Sea 1 = ( ij (1)) la matriz n1 n1 de distancias
entre las muestras de la primera poblacin, y 2 = ( ij (2)) la matriz n2 n2
de distancias entre las muestras de la segunda poblacin. Indicamos (las
representaciones Eucldeas de las muestras) por
x1 ; x2 ; :::; xn1
y1 ; y2 ; :::; yn2

muestra de
muestra de

1;

(12.5)

2;

es decir, ij (1) = E (xi ; xj ); ij (2) = E (yi ; yj ):


Las estimaciones de las variabilidades geomtricas son:
n1
1 X
b
V1 = 2
2n1 i;j=1

2
ij

(1) ;

n2
1 X
b
V2 = 2
2n2 i;j=1

2
ij (2):

Sea ! un individuo, i (1); i = 1; : : : ; n1 ; las distancias a los n1 individuos


de 1 y i (2); i = 1; : : : ; n2 ; las distancias a los n2 individuos de 2 : Si x son
las coordenadas (convencionales) de ! cuando suponemos que es de 1 ; y
anlogamente y; las estimaciones de las funciones de proximidad son
n1
X
b2 (x) = 1
1
n1 i=1

2
i (1)

Vb1 ;

La regla DB en el caso de muestras es

n2
X
b2 (y) = 1
2
n2 i=1

2
2
Si b1 (x) b2 (y) asignamos ! a
en caso contrario asignamos ! a

2
i (2)

1;
2:

Vb2 :

12.2. ANLISIS DISCRIMINANTE BASADO EN DISTANCIAS

231

Esta regla solamente depende de distancias entre observaciones y es preciso


insistir en que el conocimiento de x; y, no es necesario. La regla DB clasica
! a la poblacin ms prxima:
Teorema 12.2.2 Supongamos que podemos representar ! y las dos muestras
en dos espacios eucldeos (posiblemente diferentes)
x; x1 ; x2 ; :::; xn1 2 Rp ;

y; y1 ; y2 ; :::; yn2 2 Rq ;

respectivamente. Entonces se cumple


b2 (y) = d2 (y;y) ;
2
E

b2 (x) = d2 (x;x) ;
1
E

donde x; y son los centroides de las representaciones Eucldeas de las muestras.


Demost.: Consideremos x; x1 ; x2 ; :::; xn ; x= (
1
n

Por otro
1
2n2

Restando

Ejemplo 12.2.1

n
P

d2 (xi ; x) =

i=1

n
P

d2 (xi ; xj ) =

i;j=1

1
n
1
n

n
P

i=1
n
P
i=1

1
2n2

Pn

i=1

xi )=n: Por un lado

x)0 (xi

(xi

x)

x0i xi + x0 x 2x0 x:

n
P

(xi

i;j=1
n
P
1
x0i xi
n
i=1

xj )0 (xi

xj )

x0 x:

b2 (x) = x0 x+x0 x 2x0 x =d2 (x;x) :


E

Krzanowski (1975) ilustra el llamado location modelpara llevar a cabo


anlisis discriminante con variables mixtas (cuantitativas, binarias, categricas). Los datos describen un grupo de 137 mujeres, 76 con tumor benigno
y 59 con tumor maligno, con respecto a 7 variables cuantitativas, 2 binarias
y 2 categricas (con tres estados cada una). Vase Krzanowski (1980) para
una descripcin de los datos.

232

CAPTULO 12. DISCRIMINACIN LOGSTICA Y OTRAS

Tomando los 137 casos, se calcula el nmero de individuos mal clasicados utilizando el discriminador lineal LDF (11.2), el discriminador eucldeo
(12.4), el location model LM (que consiste en ajustar un discriminador
lineal para cada combinacin de las variables categricas) y el discriminador
basado en distancias DB, utilizando la similaridad de Gower (8.12) para variables mixtas y transformndola en distancia mediante (8.8). Los resultados
estn contenidos en la siguiente tabla. Con el mtodo DB se clasican equivocadamente slo 39 mujeres.
Tumor Benigno Maligno Total
Casos
78
59
137
LDF
31
27
58
EDF
29
37
56
LM
21
24
45
DB
18
21
39
Para otros ejemplos con datos categricos o mixtos, vase Cuadras (1992b).

12.3.

Complementos

El Anlisis Discriminante se inicia en 1936 con el trabajo de R.A. Fisher


sobre clasicacin de ores del gnero Iris. A. Wald y T.W. Anderson estudiaron las propiedades del discriminador lineal. L. Cavalli y C.A.B. Smith
introdujeron el discriminador cuadrtico.
J. A. Anderson, en diversos trabajos, estudi el modelo de discriminacin
logstico. Si denimos
y(!; x) = P (

1 =x)

= q1 f1 (x)=(q1 f1 (x) + q2 f2 (x));

la regla de clasicacin es
! es de

si y(!; x) > 1=2; de

en caso contrario.

Entonces el modelo logstico (modelo logit) supone


y(!; x) =

1
1+e +

= F(

x),

donde F (z) = 1=(1+e z ) es la llamada funcin de distribucin logstica. Este


modelo se estudia en este mismo captulo. Se pueden obtener otros modelos

12.3. COMPLEMENTOS

233

cambiando F: Por ejemplo, si escogemos la funcin de distribucin normal


estndar, entonces obtenemos el llamado modelo probit.
Albert y Anderson (1984) probaron que en el modelo logstico, los estimadores mximo verosmiles de los parmetros no existen si hay completa
separacin de las muestras de las dos poblaciones. Adems, si las muestras estn muy diferenciadas, las estimaciones de los parmetros no funcionan. Por
ejemplo, en el caso de los datos de ores del gnero Iris, vase Tabla 3.2),
las estimaciones resultan demasiado grandes y no son correctas. Longford
(1994) estudi la funcin de verosimilitud en el modelo de regresin logstica
con coecientes de regresin aleatorios.
Existen otros mtodos de anlisis discriminante, algunos no-paramtricos,
otros para variables mixtas, como el mtodo del ncleo, del vecino mas prximo, el basado en el location modelde Krzanowski (1975), etc. Consltese
McLachlan (1992).
Los mtodos de anlisis discriminante basados en distancias pueden abordar todo tipo de datos y han sido estudiados por Cuadras (1989, 1992b,
2008), Cuadras et al. (1997). Permiten mejorar la ordenacin y formacin de
clusters, vase Anderson y Willis (2003) y De Cceres et al. (2006).
Dadas dos poblaciones Np ( 1 ; ) y Np ( 2 ; ); el problema de la tipicalidad consiste en decidir si una observacin x proviene de la mixtura
Np ( 1 + (1
) 2 ; ); 0
1; o de una tercera poblacin Np ( 3 ; ):
Por ejemplo, en una prospeccin arqueolgica puede interesar averiguar si
un crneo pertenece a un mismo grupo humano (en el que hay hombres y
mujeres), o bien a otro grupo disinto. Este problema ha sido estudiado por
Rao (1973) y Bar-Hen y Daudin (1997) para datos normales. Para datos en
general se puede abordar tambin mediante distancias, vase Cuadras y Fortiana (2000). El caso de varias poblaciones ha sido estudiado por Bar-Hen
(2001) y Irigoien y Arenas (2008). En Jauregui et al. (2011) se lleva a cabo
una interesante aplicacin a la robtica.

234

CAPTULO 12. DISCRIMINACIN LOGSTICA Y OTRAS

Captulo 13
EL MODELO LINEAL
13.1.

El modelo lineal

Supongamos que una variable observable Y depende de varias variables


explicativas (caso de la regresin mltiple), o que ha sido observada en diferentes situaciones experimentales (caso del anlisis de la varianza). Entonces
tendremos n observaciones de Y , que en muchas situaciones aplicadas, se
ajustan a un modelo lineal
yi = xi1

+ xi2

+ xim

que en notacin matricial es


0
1 0
y1
x11 x12
B y2 C B x21 x22
B
C B
B .. C = B ..
..
@ . A @ .
.
yn
xn1 xn2

..

+ ei ;

x1m
x2m
..
.

xnm

10

1. El vector de observaciones:
y = (y1 ; y2 ; : : : ; yn )0 :
2. El vector de parmetros:
1;

235

CB
C B
CB 2 C B
C B .. C + B
A@ . A @

Los elementos que intervienen en el modelo lineal son:

=(

2; : : : ;

(13.1)

i = 1; : : : ; n;

0
m) :

e1
e2
..
.
en

C
C
C:
A

236

CAPTULO 13. EL MODELO LINEAL

3. La matriz de diseo:

1
x1m
x2m C
C
C:
A
xnm

x11 x12
B x21 x22
B
X =B
...
@
xn1 xn2

4. El vector de desviaciones aleatorias:

e = (e1 ; e2 ; : : : ; en )0
La notacin matricial compacta del modelo es:
y = X + e:
Solamente y y X son conocidas. En los modelos de regresin, X contiene
las observaciones de m variables explicativas. En los modelos de anlisis de
la varianza, X contiene los valores 0; 1 1; segn el tipo de diseo experimental que siguen los datos.

13.2.

Suposiciones bsicas del modelo

Supongamos que las desviaciones aleatorias o errores ei del modelo lineal


se asimilan a n variables aleatorias con media 0, incorrelacionadas y con
varianza comn 2 ; es decir, satisfacen:
1. E(ei ) = 0;

i = 1; : : : ; n:

2. E(ei ej ) = 0;
3. var(ei ) =

i 6= j = 1; : : : ; n:
i = 1; : : : ; n:

Estas condiciones equivalen a decir que el vector de medias y la matriz


de covarianzas del vector e = (e1 ; e2 ; : : : ; en )0 son:
E(e) = 0;

In :

Si podemos suponer que los errores son normales y estocsticamente independientes, entonces estamos ante un modelo lineal normal
y

Nn (X ; 2 In ):

El valor r = rang(X) es el rango del diseo. Se verica r


r = m se dice que es un modelo de rango mximo.

m y cuando

13.3. ESTIMACIN DE PARMETROS

237

13.3.

Estimacin de parmetros

13.3.1.

Parmetros de regresin

La estimacin de los parmetros


= ( 1 ; : : : ; m )0 en funcin de las
observaciones y = (y1 ; : : : ; yn )0 ; se plantea mediante el criterio de los mnimos
cuadrados (LS, least squares). Se desea encontrar b = (b1 ; : : : ; bm )0 tal que
e0 e = (y

X )0 (y

X )=

n
X

(yi

xi1

:::

xim

2
m)

(13.2)

i=1

sea mnimo.

Teorema 13.3.1 Toda estimacin LS de

es solucin de las ecuaciones

X0 X = X0 y

(13.3)

denominadas ecuaciones normales del modelo.


Demost.:
e0 e =(y

X )0 (y

X ) = y0 y 2 0 X0 y+2 X0 X :

Derivando vectorialmente respecto de


@ 0
ee=
@

e igualando a cero

2X0 y+2X0 X = 0

obtenemos (13.3).
Distinguiremos dos casos segn el rango del diseo.
a) r = m: Entonces la estimacin de es nica:
b = (X0 X) 1 X0 y:

(13.4)

b) r < m: Cuando el diseo no es de rango mximo una solucin es


b = (X0 X) X0 y;

donde (X0 X) es una inversa generalizada de X0 X:


La suma de cuadrados residual de la estimacin de
R02 = (y
siendo

X b )0 (y
ybi = xi1 b1 +

Xb) =

n
X

(yi

i=1

+ xim bm :

es
ybi )2 ;

238

13.3.2.

CAPTULO 13. EL MODELO LINEAL

Varianza

La varianza comn de los trminos de error, 2 =var(ei ); es el otro


parmetro que debemos estimar en funcin de las observaciones y = (y1 ; : : : ; yn )0
y de X: En esta estimacin interviene de manera destacada la suma de
cuadrados residual.
Lema 13.3.2 Sea Cr (X) el subespacio de Rn de dimensin r generado por
las columnas de X: Entonces E(y) = X 2Cr (X) y b
e= y X b es ortogonal
a Cr (X):
Demost.: Por las ecuaciones normales

X b ) = X0 y

X0b
e= X0 (y

X0 X b = 0:

Teorema 13.3.3 Sea y = X + e el modelo lineal donde e satisface las suposiciones bsicas del modelo (Seccin 13.2). Entonces el estadstico
b2 = R02 =(n

r);

siendo R02 la suma de cuadrados residual y r = rang(X) el rango del modelo,


es un estimador insesgado de 2 :
Demost.: Sea T = [t1 ; : : : ; tr ; tr+1 ; : : : ; tn ] una matriz ortogonal tal que sus
columnas formen una base ortonormal de Rn ; de manera que las r primeras
generen el subespacio Cr (X) y por tanto las otras n r sean ortogonales a
Cr (X): Denimos z = T0 y: Entonces z =(z1 ; : : : ; zn )0 verica
E(zi ) = t0i X

= i si i r;
= 0 si i > r;

pues ti es ortogonal a Cr (X) si i > r: Consideremos b


e= y X b : Entonces
0 b
0
Tb
e= z T X ; donde las r primeras componentes de T0b
e son cero (por el
lema anterior) y las n r componentes de T0 X b son tambin cero. Por tanto
T0 b
e es
T0 b
e = (0; : : : ; 0; zr+1 ; : : : ; zn )0
y en consecuencia

R02

=b
eb
e=b
e TT b
e=

n
X

i=r+1

zi2 :

13.4. ALGUNOS MODELOS LINEALES


La matriz de covarianzas de y es
tambin 2 In : As

239

In ; y por ser T ortogonal, la de z es


2

E(zi2 ) = var(zi ) =

E(zi ) = 0;

i > r;

y por tanto
E(Ro2 ) =

n
X

E(zi2 ) = (n

r) 2 :

i=r+1

Bajo el modelo lineal normal, la estimacin de


es estocsticamente
independiente de la estimacin de 2 , que sigue la distribucin ji-cuadrado.
Teorema 13.3.4 Sea y Nn (X ; 2 In ) el modelo lineal normal de rango
mximo m = rang(X): Se verica:
1. La estimacin LS de es tambin la estimacin mximo verosmil de
: Esta estimacin es adems insesgada y de varianza mnima.
2. b Nm ( ; 2 (X0 X) 1 ):

3. U = ( b

)0 X0 X( b

)=

2
m:

4. b es estocsticamente independiente de R02 :


5. R02 =

2
n

2
n m:

En general, si r =rang(X) m; se cumple que R02 =


r : Vase el Teorema 13.5.1.

13.4.

Algunos modelos lineales

13.4.1.

Regresin mltiple

sigue la distribucin

El modelo de regresin mltiple de una variable respuesta Y sobre m


variables explicativas X1 ; : : : ; Xm es
yi =

+ xi1

+ xim

+ ei ;

i = 1; : : : ; n;

(13.5)

240

CAPTULO 13. EL MODELO LINEAL

donde yi es la i-sima observacin de Y; y xi1 ; : : : ; xim son las i-simas observaciones de las variables explicativas. La matriz de diseo es
0
1
1 x11
x1m
B 1 x21
x2m C
B
C
X = B .. ..
.. C :
.
.
@ . .
.
. A
1 xn1
xnm

13.4.2.

Diseo de un factor

Supongamos que una variable observable Y ha sido observada en k condiciones experimentales diferentes, y que disponemos de ni rplicas (observaciones independentes de Y ) yi1 ; : : : ; yini bajo la condicin experimental i: El
modelo es
yih = + i + eih ; i = 1; : : : ;k; h = 1; : : : ;ni ;
(13.6)
donde es la media general y i es el efecto aditivo de la condicin i: Las
desviaciones aleatorias eih se suponen normales independientes. En el modelo
(13.6), se supone la restriccin lineal
1

= 0;

y por tanto cabe considerar solamente los parmetros ; 1 ; : : : ; k 1 : Por


ejemplo, si k = 3; n1 = n2 = 2; n3 = 3; las matrices de diseo inicial X (de
e (de rango mximo), son:
rango r = 3 < m = 4) y restringida X
0

B
B
B
B
X= B
B
B
B
@

13.4.3.

1
1
1
1
1
1
1

1
1
0
0
0
0
0

0
0
1
1
0
0
0

0
0
0
0
1
1
1

31

C
C
C
C
C;
C
C
C
A

B
B
B
B
e
X= B
B
B
B
@

1
1
1
1
1
1
1

1
1
0
0
1
1
1

0
0
1
1
1
1
1

21

C
C
C
C
C:
C
C
C
A

Diseo de dos factores

Supongamos que las n = a b observaciones de una variable observable


Y se obtienen combinando dos factores con a y b niveles, respectivamente,

13.5. HIPTESIS LINEALES

241

denominados factor la y columna (por ejemplo, produccin de trigo obtenida


en 9 = 3 3 parcelas, 3 ncas y 3 fertilizantes en cada nca). El modelo es
yij =

(13.7)

+ eij ;

donde es la media general, i es el efecto aditivo del nivel i del factor la, j
es el efecto aditivo del nivel j del factor columna. Las desviaciones aleatorias
eij se suponen normales independientes. En el modelo (13.6) se suponen las
restricciones lineales
a
b
X
X
(13.8)
i =
j = 0:
i=1

j=1

Por ejemplo, si a = b = 3 las matrices de diseo de (13.7) y teniendo en


cuenta (13.8), son:
0

B
B
B
B
B
B
X= B
B
B
B
B
B
@

13.5.

1
1
1
1
1
1
1
1
1

1
0
0
1
0
0
1
0
0

0
1
0
0
1
0
0
1
0

0
0
1
0
0
1
0
0
1

1
1
1
0
0
0
0
0
0

0
0
0
1
1
1
0
0
0

31

0
0
0
0
0
0
1
1
1

B
B
B
B
B
B
e = B
X
B
B
B
B
B
@

C
C
C
C
C
C
C;
C
C
C
C
C
A

1
1
1
1
1
1
1
1
1

1
0
1
1
0
1
1
0
1

0
1
1
0
1
1
0
1
1

1
1
1
0
0
0
1
1
1

0
0
0
1
1
1
1
1
1

C
C
C
C
C
C
C:
C
C
C
C
C
A

Hiptesis lineales

Consideremos el modelo lineal normal y = X + e: Una hiptesis lineal


es una restriccin lineal sobre los parmetros del modelo.
Denicin 13.5.1 Una hiptesis lineal de rango t sobre los parmetros
una restriccin lineal
hi1
Indicando la matriz t

+ him

= 0;

i = 1; : : : ; t:

m; con t < m las linealmente independientes,


0
1
h11
h1m
B
.. C
H = @ ... . . .
. A
ht1
htm

es

242

CAPTULO 13. EL MODELO LINEAL

la notacin matricial de una hiptesis lineal es


H0 : H = 0:

(13.9)

Denicin 13.5.2 Una hiptesis lineal es demostrable si las las de H son


combinacin lineal de las las de X: Dicho de otra manera, si existe una
matriz A de orden t n tal que
H = AX:
Observaciones:
a) Suponemos que la matriz H es de rango t:
b) Solamente podremos construir un test (el test F) para decidir si podemos
aceptar o no una hiptesis lineal si esta hiptesis es demostrable.
c) Es evidente que si el modelo es de rango mximo, r = rang(X) = m;
cualquier hiptesis lineal es demostrable.
Cuando una hiptesis (13.9) es cierta, los parmetros se convierten en
e As el modelo lineal, bajo H0 ; es
y la matriz de diseo X en X:
e + e:
y =X

(13.10)

Para obtener (13.10), consideramos los subespacios F (H);F (X) generados


por las las de H y X: Entonces F (H) F (X) Rm : Sea C una matriz m
(r t) tal que F (C0 ) F (X) y HC = 0: En otras palabras, las columnas de
C pertenecen a F (X) y son ortogonales a F (H): Si denimos los parmetros
= ( 1 ; : : : ; r t )0 tales que
=C ;
entonces H = HC = 0 y el modelo y = X + e; bajo la restriccin H = 0;
se transforma en (13.10), siendo

La estimacin LS de

es

e = XC:
X

b = (X
e 0 X)
e 1 Xy
e

y la suma de cuadrados residual es

e b)0 (y X
e b):
R12 = (y X

13.5. HIPTESIS LINEALES

243

Tambin se puede probar que la estimacin LS de los parmetros ; bajo


la restriccin (13.9), es
b H = b (X0 X) H0 (H(X0 X) H0 ) 1 H b

y la suma de cuadrados del modelo lineal es


R12 = (y

X b H )0 (y

XbH )

El siguiente teorema es conocido como Teorema Fundamental del Anlisis


de la Varianza.
Teorema 13.5.1 Sea y Nn (X ; 2 In ) el modelo lineal normal y H0 : H = 0
una hiptesis lineal demostrable de rango t: Consideremos los estadsticos
R02 = (y
Se verica:
1. R02 =

X b )0 (y

X b );

X b H )0 (y

R12 = (y

X b H ):

2
n r:

2. Si H0 es cierta

R12
2

siendo r0 = r

2
n r0 ;

R02

R12
2

2
t;

t:

3. Si H0 es cierta, los estadsticos (R12


independientes.

R02 ) y R02 son estocsticamente

Demost.: Observemos primero que bajo el modelo lineal normal, y1 ; : : : ; yn


son normales independientes, y z1 ; : : : ; zn (vase Teorema 13.3.3) son tambin
normales independientes.
1. Cada zi es N (0; 2 ) para i > r: Luego R02 =
dos de variables N (0; 1) independientes.

es suma de (n r) cuadra-

2. Si la hiptesis lineal es cierta, la matriz de diseo X se transforma en


e XC; es decir, las columnas de XC son combinacin lineal de las
X=
columnas de X: Podemos encontrar una matriz ortogonal
T = [t1 ; : : : ; tr0 ; tr0 +1 ; : : : ; tr ; tr+1 ; : : : ; tn ]

244

CAPTULO 13. EL MODELO LINEAL


tal que
Cr0 (XC) = [t1 ; : : : ; tr0 ]

Cr (X) = [t1 ; : : : ; tr ]:

Siguiendo los mismos argumentos del Teorema 13.3.3, tenemos que


R12

n
X

zi2

i=r 0 +1

y R12 =

sigue la distribucin
R12

2
n r0 :

Por otro lado


r
X

R02 =

zi2

i=r 0 +1

y (R12

R02 )=

2
t;

sigue la distribucin

donde t = r

r0 :

3. Las sumas de cuadrados que intervienen en R02 y en R12


trminos en comn, por tanto son independientes.

R02 no tienen

Consecuencia inmediata y muy importante de este resultado es que, si H0


es cierta, entonces el estadstico
F =

(R12 R02 )=t


R02 =(n r)

2
2

(R12

R02 ) n
R02

r
t

Fnt r :

(13.11)

Es decir, el cociente F sigue la distribucin F con t y n r grados de libertad


y no depende de la varianza (desconocida) del modelo.

13.6.

Inferencia en regresin mltiple

Consideremos el modelo de regresin mltiple (13.5). El rango del modelo


es rang(X) = m + 1: La hiptesis ms interesante en las aplicaciones es
H0 :

= 0;

que equivale a decir que la variable respuesta Y no depende de las variables


explicativas X1 ; : : : ; Xm : La matriz de la hiptesis lineal es
0
1
0 1 0
0
B 0 0 1
0 C
B
C
H = B .. .. .. . . .. C ; rang(H) = m:
@ . . .
. . A
0 0 0
1

13.7. COMPLEMENTOS

245

Si H0 es cierta, solamente interviene el parmetro 0 ; evidentemente b0H = y


(media muestral) y las sumas de cuadrados residuales son
R02

n
X

(yi

i=1

R12

ybi ) ;

n
X

(yi

y)2 ;

i=1

donde b0 ; b1 ; : : : ; bm son los estimadores LS bajo el modelo no restringido y


ybi = b0 + xi1 b1 +
+ xim bm : Aplicando (13.11), bajo H0 tenemos que
F =

(R12

R02 ) n

m
m

R02

Fnm m 1 :

El test F se suele expresar en trminos de la correlacin mltiple. Se demuestra que


n
n
X
X
2
2
2
R0 =
(yi ybi ) = (1 R )
(yi y)2 ;
i=1

i=1

donde R es el coeciente de correlacin mltiple muestral entre Y y X1 ; : : : ; Xm


(Teorema 4.2.2). Por tanto, si H0 es cierta, es decir, si la correlacin mltiple
poblacional es cero, entonces
F =

R2 n
1 R2

m
m

Fnm m 1 :

Rechazaremos H0 si F es signicativa.

13.7.

Complementos

Hemos visto los aspectos fundamentales del modelo lineal. Un estudio


ms completo incluira:
a) anlisis grco de los residuos, b) efectos de la colinealidad, c) mnimos cuadrados ponderados, d) errores correlacionados, e) seleccin de las
variables, etc. Vase Sche (1959), Pea (1989), Chatterjee y Price (1991),
Carmona (2005).
Para tratar variables explicativas mixtas, podemos denir un modelo lineal considerando las dimensiones principales obtenidas aplicando anlisis de
coordenadas principales sobre una matriz de distancias entre las observaciones. Consultar Cuadras y Arenas (1990), Cuadras et al. (1996).

246

CAPTULO 13. EL MODELO LINEAL

Captulo 14
ANLISIS DE LA VARIANZA
(ANOVA)
El anlisis de la varianza comprende un conjunto de tcnicas estadsticas
que permiten analizar cmo operan diversos factores, estudiados simultneamente en un diseo factorial, sobre una variable respuesta.

14.1.

Diseo de un factor

Supongamos que las observaciones de una variable Y solamente dependen


de un factor con k niveles:

Si escribimos

yih =
donde

Nivel 1 y11 y12


Nivel 2 y21 y22

y1n1
y2n2

Nivel k yk1 yk2

yknk

+
i

i;

en el modelo (13.6) tenemos

+ eih ;

i = 1; : : : ;k; h = 1; : : : ;ni ;

es la media de la variable en el nivel i. Indiquemos:


Media nivel i :
yi
y
Media general:
No. total de observaciones: n
247

P
= (1=ni )P hP
yih
= (1=n) i h yih
= n1 +
+ nk

248

CAPTULO 14. ANLISIS DE LA VARIANZA (ANOVA)

Indiquemos tambin:
P
2
= Pi n
Pi (yi y) 2
= Pi Ph (yih yi )
= i h (yih y)2

Suma de cuadrados entre grupos:


QE
Suma de cuadrados dentro de grupos: QD
Suma de cuadrados total:
QT
Se verica la relacin fundamental:
QT = QE + QD :
Las estimaciones LS de las medias

b i = yi ;

son
i = 1; : : : ; k;

y la suma de cuadrados residual es R02 = QD :


La hiptesis nula de principal inters es la que establece que no existen
diferencias entre los niveles de los factores:
H0 :

k:

Se trata de una hiptesis demostrable de rango k 1. Bajo H0 solamente


existe una media y su estimacin es b = y: Entonces la suma de cuadrados
residual es R12 = QT y adems se verica
R12

R02 = QE :

Por tanto, como una consecuencia del Teorema 13.5.1, tenemos que:
1. QD =(n

k) es un estimador centrado de

2. Si H0 es cierta, QE =(k

y QD =

2
n k:

1) es tambin estimador centrado de

QT
2

QE

2
n 1;

2
k 1:

3. Si H0 es cierta, los estadsticos QE y QD son estocsticamente independientes.


Consecuencia inmediata es que, si H0 es cierta, entonces el estadstico
F =

QE =(k
QD =(n

1)
k)

Fnk k1 :

(14.1)

14.2. DISEO DE DOS FACTORES

14.2.

249

Diseo de dos factores

Supongamos que las observaciones de una variable Y dependen de dos factores A, B, denominados factores la y columna, con a y b niveles A1 ; : : : ;Aa
y B1 ; : : : ;Bb ; y que disponemos de una observacin para cada combinacin
de los niveles de los factores:
A1
A2
..
.
Aa

B1
y11
y21
..
.

B2
y12
y22
..
.

ya1
y1

ya2
y2

..

Bb
y1b
y2b
..
.

y1
y2
..
.

yab
yb

ya
y

siendo
1X
yij ;
b j=1
b

yi =

1X
yij ;
a i=1
a

yj =

1 XX
yij ;
ab i=1 j=1
a

y =y=

las medias por las, por columnas y general. Supongamos que los datos se
ajustan al modelo (13.7) con las restricciones (13.8), donde es la media
general, i es el efecto del nivel Ai del factor la, j es el efecto del nivel Bj
del factor columna. El rango del diseo y los g.l. del residuo son
r = 1 + (a

1) + (b

1) = a + b

1; n

r = ab

(a + b

1) = (a

Las estimaciones de los parmetros son


b = y;

y;

bi

bj = (yij

y la expresin de la desviacin aleatoria es


ebij = yij

bj = y j

b i = yi

yi

y;

y j + y):

La suma de cuadrados residual del modelo es


R02 =

a X
b
X
i=1 j=1

(yij

yi

y j + y)2 :

1)(b

1):

250

CAPTULO 14. ANLISIS DE LA VARIANZA (ANOVA)

Tambin consideramos las siguientes cantidades, donde SC signica suma


de cuadrados:
P
SC entre las:
QA = b Pi (yi y)2
SC entre columnas: QB = a j (y j y)2
P
SC residual:
QR = i;j (yij yi y j + y)2
P
SC total:
QT = i;j (yij y)2
Se verica la siguiente identidad:

QT = QA + QB + QR :
En el modelo de dos factores, las hiptesis de inters son:
H0A :
H0B :

1
1

=
=

=
=

a
b

= 0 (no hay efecto la)


= 0 (no hay efecto columna)

Ambas hiptesis son demostrables. Supongamos H0B cierta. Entonces el modelo se transforma en yij = + i + eij ; es decir, acta solamente un factor,
y por tanto
a X
b
X
2
R1 =
(yij yi )2 :
i=1 j=1

Ahora bien, desarrollando (yij


que

yi )2 = ((y j

y)+(yij

yi

y j +y))2 resulta

R12 = QB + QR :
Anlogamente, si H0F es cierta, obtendramos R12 = QA + QR : Por el Teorema
13.5.1 se verica:
1. QR =(a 1)(b 1) es un estimador centrado de

y QR =

2
(a 1)(b 1) :

2. Si H0A es cierta, QA =(a 1) es tambin estimador centrado de 2 ,


2
QA = 2
(a 1) y los estadsticos QA y QR son estocsticamente independientes.
3. Si H0B es cierta, QB =(b 1) es tambin estimador centrado de 2 ;
2
QB = 2
(b 1) y los estadsticos QB y QR son estocsticamente independientes.

14.3. DISEO DE DOS FACTORES CON INTERACCIN

251

Por lo tanto tenemos que para decidir H0A utilizaremos el estadstico


FA =

QA (a 1)(b 1)
QR
(a 1)

a
F(a

1
1)(b 1) ;

b
F(a

1
1)(b 1) :

y para decidir H0B utilizaremos


FB =

14.3.

QB (a 1)(b 1)
QR
(b 1)

Diseo de dos factores con interaccin

Supongamos que las observaciones de una variable Y dependen de dos factores A, B, denominados factores la y columna, con a y b niveles A1 ; : : : :Aa
y B1 ; : : : ;Bb ; y que disponemos de c observaciones (rplicas) para cada combinacin de los niveles de los factores:
A1
A2
..
.
Aa

B1
y111 ; : : : ; y11c
y211 ; : : : ; y21c
..
.

B2
y121 ; : : : ; y12c
y221 ; : : : ; y22c
..
.

ya11 ; : : : ; ya1c
y1

ya22 ; : : : ; ya2c
y2

..

Bb
y1b1 ; : : : ; y1bc
y2b1 ; : : : ; y2bc
..
.

y1
y2
..
.

yab1 ; : : : ; yabc
yb

ya
y

siendo
b;c
1 X
yi =
yijh ;
bc j;h=1

yj

a;b;c
1 X
y=y =
yij :
abc i;j;h=1

1X
=
yijh ;
c h=1
c

yij

a;c
1 X
=
yijh ;
ac i;h=1

El modelo lineal del diseo de dos factores con interaccin es


yijh =

ij

+ eijh ;

i = 1; : : : ; a; j = 1; : : : ; b; h = 1; : : : ; c;
siendo la media general, i el efecto del nivel Ai del factor la, j el efecto
del nivel Bj del factor columna, ij la interaccin entre los niveles Ai ;Bj . El

252

CAPTULO 14. ANLISIS DE LA VARIANZA (ANOVA)

parmetro ij mide la desviacin del modelo aditivo E(yijh ) = + i + j y


solamente es posible estimar si hay c > 1 rplicas. Se suponen las restricciones
a
X

i=1

b
X

j=1

a
X

ij

i=1

b
X

ij

= 0:

j=1

As el nmero de parmetros independientes del modelo es


1 + (a

1) + (b

1) + (a

1)(b

1) = ab

y los g. l. del residuo son abc ab = ab(c 1):


Las estimaciones de los parmetros son
b = y;

b i = yi

b = yj
j

y;

bij = yij

yi

bij = (yij

y):

y;

y la expresin de la desviacin aleatoria es


ebijh = yijh

bi

bj

y j + y;

La suma de cuadrados residual del modelo es


R02

a;b;c
X

(yijh

yi )2 :

i;j;h=1

Tambin debemos considerar las siguientes cantidades, donde SC signica


suma de cuadrados:
P
y)2
SC entre las:
QA
= bc Pi (yi
SC entre columnas:
QB
= ac j (y j y)2
P
SC de la interaccin: QAB = c i;j (yij yi
y j + y)2
P
SC residual:
QR
= i;jh (yijh yi )2
P
SC total:
QT
= i;j (yijh y)2

Se verica la siguiente identidad

QT = QA + QB + QAB + QR :
Las hiptesis de inters son:
H0A :
H0B :
H0AB :

=
1 =
11 =
1

=
=
=

= 0 (no hay efecto la)


b = 0 (no hay efecto columna)
ab = 0 (no hay interaccin)
a

14.4. DISEOS MULTIFACTORIALES

253

Como en los casos anteriores, podemos ver que la aceptacin o el rechazo de


cada hiptesis se decide mediante el test F:
QA ab(c 1)
QR a 1
QB ab(c 1)
=
QR b 1
QAB ab(c 1)
=
QR (a 1)(b 1)

FA

FB
FAB

14.4.

a 1
Fab(c

1)

b 1
Fab(c

1)

(a 1)(b 1)
1)

Fab(c

Diseos multifactoriales

Los diseos de dos factores se generalizan a un nmero mayor de factores.


Cada factor representa una causa de variabilidad que acta sobre la variable
observable. Si por ejemplo, hay 3 factores A, B, C, las observaciones son yijkh ;
donde i indica el nivel i-simo de A, j indica el nivel j-simo de B, k indica
el nivel k-simo de C, y h indica la rplica h para la combinacin ijk de los
tres factores, que pueden interactuar. Un modelo tpico es
yijkh =

A
i

B
j

C
k

AB
ij

AC
ik

BC
jk

ABC
ijk

+ eijkh ;

siendo:
C
B
A
i ; j ; k
AB
AC
BC
ij ; ik ; jk
ABC
ijk

eijkh

=
=
=
=
=

media general,
efectos principales de A,B,C,
interacciones entre A y B, A y C, B y C,
interaccin entre A,B y C,
desviacin aleatoria N (0; 2 ):

Son hiptesis de inters: H0A : A


i = 0 (el efecto principal de A no es signicativo), H0AB : AB
=
0
(la
interaccin
entre A y B no es signicativa), etc.
i
Los contrastes para aceptar o no estas hiptesis se obtienen descomponiendo
la variabilidad total en sumas de cuadrados
X
(yikjh y)2 = A + B + C + AB + AC + BC + ABC + R;
i;j;k;h

donde R es el residuo. Si los factores tienen a; b; c niveles, respectivamente, y


hay d rplicas para cada combinacin de los niveles, entonces A tiene (a 1)

254

CAPTULO 14. ANLISIS DE LA VARIANZA (ANOVA)

g.l., AB tiene (a
D; el residuo es

1) g.l. Si interpretamos las rplicas como un factor

1)(b

R = D + AD + BD + CD + ABD + ACD + BCD + ABCD


con
q = (d

1) + (a

1)(d

1) +

+ (a

1)(b

1)(c

1)(d

1) = abc(d

1)

g.l. Entonces calcularemos los cocientes F


F =

A=(a 1)
;
R=q

F =

AB=(a

1)(b
R=q

1)

que sirven para aceptar o rechazar H0A y H0AB , respectivamente.


En determinadas situaciones experimentales puede suceder que algunos
factoros no interacten. Entonces las sumas de cuadrados correspondientes
se suman al residuo. Por ejemplo, si C no interacta con A,B, el modelo es
yijkh =

A
i

B
j

C
k

AB
ij

+ eijkh

y la descomposicin de la suma de cuadrados es


X
(yikjh y)2 = A + B + C + AB + R0 ;
i;j;k;h

donde R0 = AC + BC + ABC + R es el nuevo residuo con g.l.


q 0 = (a

1)(c

1) + (b

1)(c

1) + (a

1)(b

1)(c

1) + q:

Los cocientes F para las hiptesis anteriores son ahora


F =

14.5.

A=(a 1)
;
R0 =q 0

F =

AB=(a 1)(b
R0 =q 0

1)

Modelos log-lineales

Supongamos que tenemos dos variables categricas A,B con P


a; b categoras
respectivamente, y hemos observado las ab categorias n =
ij fij veces,

14.5. MODELOS LOG-LINEALES

255

donde fij es el nmero de veces que se observ la interseccin Ai \Bj ; es


decir, tenemos la tabla de contingencia a b :
A1
A2
..
.

B1
f11
f21
..
.

B2
f12
f22
..
.

..

Bb
f1b
f2b
..
.

f1
f2
..
.

Aa

fa1 fa2
fab fa
f1 f2
fb n
P
P
donde fi =
j fij ; f j =
i fij son las frecuencias marginales de Ai ;Bj
respectivamente. Indiquemos las probabilidades
pij = P (Ai \ Bj );

pi = P (Ai );

p j = P (Bj ):

Existe independencia estocstica entre Ai y Bj si pij = pi p j ; es decir, si


ln pij = ln pi + ln p j :
Si introducimos las frecuencias tericas
Fij = npij ;

Fi = npi ;

F j = np j ;

la condicin de independencia es
ln Fij = ln Fi + ln F j

ln n;

que podemos escribir como


ln Fij =
siendo
A
i
B
j

A
i

B
j ;

(14.2)

P P
= ( ai=1 bj=1 ln Fij )=ab;
P
= ( bj=1 ln Fij )=b
;
Pa
= ( i=1 ln Fij )=a
:

El modelo (14.2) es un ejemplo de modelo log-lineal.


En general no se puede aceptar la independencia estocstica. Por tanto,
hemos de aadir un trmino AB
ij a (14.2) y escribir
ln Fij =

A
i

B
j

AB
ij ;

256

CAPTULO 14. ANLISIS DE LA VARIANZA (ANOVA)

B
A
= ln Fij
donde AB
j es la desviacin del modelo lineal. La
i
ij
similitud con el modelo ANOVA de dos factores es bastante clara.
En las aplicaciones no conocemos las frecuencias esperadas Fij ; sino las
frecuencias observadas fij : Entonces la estimacin de los parmetros es muy
semejante al modelo ANOVA, pero los contrastes de hiptesis se resuelven
mediante ji-cuadrados.
La hiptesis de inters es la independencia entre A y B
AB
ij

H0 :

= 0;

que equivale a decir que los datos se ajustan al modelo (14.2). Sean
Fbij = nfi

fj

las estimaciones mximo-verosmiles de las frecuencias esperadas. El test jicuadrado clsico consiste en calcular
X
(fij Fbij )2 =Fbij
i;j

y el test de la razn de verosimilitud se basa en


X
2
fij log(fij =Fbij );
i;j

que tambin sigue la distribucin ji-cuadrado con (a 1)(b 1) g. l.


El tratamiento de 3 variables categricas A, B, C es semejante. Partiendo
de una tabla de contingencia a b c; puede interesarnos saber si:
a) A, B, C son mtuamente independientes, en cuyo caso el modelo es
ln Fijk =

A
i

B
j

C
k;

b) Hay dependencia entre A y B, entre A y C, entre B y C


ln Fijk =

A
i

B
j

C
k

AB
ij

AC
ik

BC
jk ;

c) Hay adems dependencia entre A, B, C


ln Fijk =

A
i

B
j

C
k

AB
ij

AC
ik

BC
jk

ABC
ijk ;

d) A es independiente de B, C, que son dependientes, siendo el modelo


ln Fijk =

A
i

B
j

C
k

BC
jk :

En cada caso, el test ji-cuadrado o el de razn de verosimilitud nos permiten


decidir si los datos se ajustan al modelo. Conviene observar que obtendramos
2
= 0 en el modelo c), ya que los datos se ajustan perfectamente al modelo.

14.5. MODELOS LOG-LINEALES

257

Clase
Gnero
Edad Supervivencia 1
2
3
T
Hombre Adulto
NO
118 154 387 670
Mujer
4
13
89
3
Hombre Nio
0
0
35
0
Mujer
0
0
17
0
Hombre Adulto
S
57
14
75 192
Mujer
140
80
76 20
Hombre Nio
5
11
13
0
Mujer
1
13
14
0
Tabla 14.1: Tabla de frecuencias combinando gnero, edad, supervivencia y
clase, de los datos del "Titanic".

14.5.1.

Ejemplo

Ejemplo 14.5.1
Analicemos los datos de supervivencia del "Titanic"(vase el Ejemplo
9.8.2), Tabla 14.1.
Indicamos por la parte del modelo que contiene los efectos principales
y las interacciones de orden inferior a la mxima propuesta. Por ejemplo, en
el caso del modelo [GESC], tendramos
=

G
i

E
j

S
k

C
l

GE
ij

GS
ik

GC
il

ES
jk

EC
jl

SC
kl

Entonces los modelos analizados son:


Modelo para ln Fijkl
E
S
C
+ G
i + j + k + l
+ GE
+ SC
ij +
kl
ESC
+ GES
+
+
ijk
jkl
S
+ GEC
+
ijl
k
GES
+ GEC
+ GSC
ijl
ikl + ijk
+ GESC
ijkl
ESC
+ GEC
+ GSC
ijl
ijk + jkl

2
Smbolo
g.l.
p
[G][E][S][C]
1216.4 25 0.000
[GE][GS][GC][ES][EC][SC] 112.33 13 0.000
[GES][GEC][GSC][ESC]
5.3
3 0.151
[GEC][S]
659.3 15 0.000
[GEC][GSC][GES]
32.3
6 0.000
[GESC]
0
[GEC][GSC][ESC]
9.2
4 0.056

258

CAPTULO 14. ANLISIS DE LA VARIANZA (ANOVA)

El modelo [G][E][S][C] debe rechazarse, pues 2 es muy signicativo. El


modelo [GE][GS][GC][ES][EC][SC] con slo las interacciones de segundo orden se ajusta mejor pero tambin debe rechazarse. El modelo con todas las
interacciones de tercer orden [GES][GEC][GSC][ESC] puede aceptarse, indicando que todas las variables interaccionan. El modelo [GEC][S], signicara
suponer (caso de aceptarse) que el combinado de gnero, edad y clase es independiente de la supervivencia, pero tambin debe rechazarse. El modelo
[GESC] es el modelo de dependencia completa, que incluye todas las interacciones, se ajusta perfectament a las frecuencias observadas, pero carece de
inters (hay tantos parmetros como datos).
Un modelo razonable que podra aceptarse es el [GEC][GSC][ESC], 2 =
9;2 con 4 g. l. Se concluye que debemos aceptar que la supervivencia dependa
del gnero, edad y clase. El salvamento de los pasajeros se produjo en los
trminos siguientes: mujeres y nios primero (segn la clase) y despus
hombres de primera clase.

14.6.

Complementos

El Anlisis de la Varianza fue introducido por R. A. Fisher en 1938, para


resolver problemas de diseo experimental en agricultura. Hemos visto que
es una aplicacin del modelo lineal. Existen muchos diseos diferentes, cuyo
estudio dejamos para otro momento.
Los primeros estudios y aplicaciones consideraban factores de efectos jos. En 1947, C. Eisenhart consider que algunos efectos podan ser aleatorios. Ciertamente, los efectos que actan sobre los modelos pueden ser jos,
aleatorios o mixtos, y cuando hay interacciones el clculo de los cocientes F
es diferente. Vase Cuadras (2000), Huitson (1966), Pea (1989).
En ANOVA de un factor hemos supuesto datos independientes e igualdad
de varianzas, es decir,
= 2 I: Pero S. Wilks prob que el test F, vase
(14.1), sigue siendo vlido si las variables son equicorrelacionadas, es decir,
si
0
1
1
B
C
1
C
2B
= B .. .. . . .. C :
@ . .
. . A
1
En el caso general de una
cualquiera, debe aplicarse Anlisis de Perles,
dando lugar tambin a un test F, vase (3.3).

Captulo 15
ANLISIS DE LA VARIANZA
(MANOVA)
15.1.

Modelo

El anlisis multivariante de la varianza (MANOVA) es una generalizacin


a p > 1 variables del anlisis de la varianza (ANOVA).
Supongamos que tenemos n observaciones independientes de p variables
observables Y1 ; : : : ; Yp ; obtenidas en diversas condiciones experimentales, como en el caso univariante. La matriz de datos es
0

B
B
Y =B
@

y11 y12
y21 y22
..
..
.
.
yn1 yn2

..

y1p
y2p
..
.

ynp

C
C
y1 ;e
y2 ; : : : ;e
yp ];
C = [e
A

ej = (y1j ; y2j ; : : : ; ynj )0 son las n observaciones (independientes) de


donde y
ej =
la variable Yj ; que suponemos siguen un modelo lineal univariante y
X j + ej :
El modelo lineal multivariante es

Y = XB + E
259

(15.1)

260

CAPTULO 15. ANLISIS DE LA VARIANZA (MANOVA)

siendo X la matriz de diseo


0
B
B
X =B
@

x11 x12
x21 x22
..
..
.
.
xn1 xn2

..

C
C
C;
A

xnm

B la matriz de parmetros de regresin


0
B
B
B =B
@

x1m
x2m
..
.

11

12

1p

21

22

2p

..
.

..
.

m1

m2

...

..
.

mp

y E la matriz de desviaciones aleatorias


0
e11 e12
e1p
B e21 e22
e2p
B
E = B ..
.. . .
.
@ .
. ..
.
en1 en2
enp

C
C
C;
A

C
C
C:
A

Las matrices Y y X son conocidas. Suponemos que las las de E son independientes Np (0; ):

15.2.

Estimacin de parmetros

En el modelo MANOVA debemos estimar los m p parmetros de regresin contenidos en B; as como la matriz de covarianzas :
En el modelo univariante y = X + e; la estimacin LS b = (X0 X) X0 y
0
minimiza b
e0 b
e= (y X b ) (y X b ): En el caso multivariante, el estimador
b tal que minimiza la traza
LS de B es B
0

b 0 E)
b = tr[(Y
tr(E

b (Y
XB)

b 0E
b = (Y
R0 = E

b (Y
XB)

b
XB)];

b = Y XB:
b
siendo E
La matriz de residuos es la matriz R0 = (R0 (i; j)) de orden p
0

b
XB);

ej =
donde R0 (j; j) es la suma de cuadrados residual del modelo univariante y
X j + ej :

15.2. ESTIMACIN DE PARMETROS

261

Teorema 15.2.1 Consideremos el modelo de regresin multivariante Y =


XB + E; siendo
2
3
2
3
y10
e01
6
7
6
7
Y = 4 ... 5 ; E = 4 ... 5 ;
yn0
e0n
con las condiciones:

1. E(Y) = XB, es decir, E(E) = 0:


2. cov(yi ) = cov(ei ) = ; donde yi0 son las de Y; y e0i son las de E:
3. cov(yi ; yj ) =cov(ei ; ej ) = 0 para i 6= j:
Entonces:
Las estimaciones LS de los parmetros de regresin B verican las
ecuaciones normales
b = X0 Y;
X0 XB
(15.2)
y vienen dados por

b = (X0 X) 1 X0 Y;
B

cuando el diseo es de rango mximo r = rang(X) =m; y por


b = (X0 X) X0 Y
B

b minimiza la traza tr(E


b 0 E)
b as como el
cuando r < m: El estimador B
b 0 E):
b Adems B
b es un estimador insesgado de B:
determinante det(E

Demost.: Sea B0 otro estimador de B: Entonces:


(Y

XB0 )0 (Y

b + XB
b XB0 )0 (Y XB
b + XB
b XB0 )
XB0 ) = (Y XB
0
b XB0 ) (XB
b XB0 )+
= R0 + (XB
0
b (XB
b XB0 )+(XB
b XB0 )0 (Y XB)
b
(Y XB)
0
b XB0 ) (XB
b XB0 );
= R0 + (XB

b 0 (XB
b XB0 ) =(Y XB)
b 0 X(B
b B0 ) = 0 por vericar B
b
pues (Y XB)
0
las ecuaciones normales (15.2). Luego (Y XB0 ) (Y XB0 ) = R0 + M;
siendo M una matriz p p denida positiva. Entonces la traza y el determinante de (Y XB0 )0 (Y XB0 ) alcanzan el valor mnimo cuando M = 0,
b Por otra parte
es decir, para B0 = B:
b = (X0 X) 1 X0 E(Y) =(X0 X) 1 (X0 X)B = B:
E(B)

262

CAPTULO 15. ANLISIS DE LA VARIANZA (MANOVA)

Teorema 15.2.2 Bajo las mismas condiciones del teorema anterior, con r =
rang(X); podemos expresar la matriz de residuos como
R0 = Y0 [I

X(X0 X) X0 ]Y:

Una estimacin centrada de la matriz de covarianzas


b = R0 =(n

Demost.:
(Y

b (Y
XB)

b = Y0 Y
XB)
= Y0 Y
= Y0 Y
= Y0 [I

es

r):

b 0 X0 XB
b
b B
b 0 X0 Y + B
Y0 XB
0
0
b
b 0X Y = B
b 0 X0 XB)
b
Y XB
(por B
0
0
0
Y X(X X) X Y
X(X0 X) X0 ]Y:

Sea ahora T = [t1 ; : : : ; tr ; tr+1 ; : : : ; tn ] una matriz ortogonal tal que sus
columnas formen una base ortonormal de Rn ; de manera que las r primeras
generen el mismo subespacio Cr (X) generado por las columnas de X: Por lo
tanto las otras n r columas sern ortogonales a Cr (X): Es decir
t0i X =
t0i X = 0

si i r;
si i > r;

donde indica un valor posiblemente no nulo.


Sea Z = T0 Y:Entonces
E(Z) = T0 XB =

r primeras las
r ltimas las

b Y XB:
b De X0 (Y XB)
b = 0; ver ecuaciones
Consideremos el residuo E=
b es ortogonal a X en el sentido que
normales (15.2), deducimos que E
donde Zn

b=
T0 E

es matriz (n

b = T0 Y
T0 E

0
Zn

r)

r primeras las
n r ltimas las

p: Pero

b =Z
T0 XB

0
Zn

;
r

15.3. CONTRASTE DE HIPTESIS LINEALES


es decir, las ltimas n
TT0 = I;

263

b coinciden. Entonces, como


r las de Z y de T0 E

b =E
b 0 TT0 E
b=
b 0E
R0 = E

0 Z0n

0
Zn

= Z0n r Zn r :

Indiquemos Z0n r = [z1 ; : : : ; zn r ] donde z01 ; : : : ; z0n r son las las (independientes) de Zn r : Entonces cada zi es un vector de media cero y matriz
+ zn r z0n r :
de covarianzas : Luego E(zi z0i ) = y Z0n r Zn r = z1 z01 +
Por lo tanto
E(R0 ) = E(z1 z01 +

+ zn r z0n r ) = (n

r) :

Teorema 15.2.3 Sea Y = XB + E el modelo lineal normal multivariante


donde las las de E son Np (0; ) independientes. Sea R0 la matriz de residuos. Se verica entonces que la distribucin de R0 es Wishart Wp ( ; n r):
Demost.: Hemos visto en el teorema anterior que E(Zn r ) = 0: As las n
r las de Zn r son todas Np (0; ) independientes. Luego R0 = Z0n r Zn r
cumple las condiciones de una matriz p p que sigue la distribucin de
Wishart.

15.3.

Contraste de hiptesis lineales

Una hiptesis lineal demostrable de rango t y matriz H es


H0 : HB = 0
donde cada la de H es combinacin lineal de las las de X:
Como en el caso univariante (Seccin 13.5), si H0 es cierta, el modelo se
transforma en
e +E;
Y =X
la estimacin de los parmetros B restringidos a H0 viene dada por
bH = B
b (X0 X) H0 (H(X0 X) H0 ) 1 HB
b
B

y la matriz residual es

R1 = (Y

b H )0 (Y
XB

b H ):
XB

264

CAPTULO 15. ANLISIS DE LA VARIANZA (MANOVA)

Teorema 15.3.1 Sea Y = XB + E el modelo lineal multivariante, donde


las las de E son Np (0; ) independientes, R0 la matriz de residuos, H0 :
HB = 0 una hiptesis lineal demostrable y R1 la matriz de residuos bajo H0 .
Se verica:
1. R0

Wp ( ; n

r):

2. Si H0 es cierta, las matrices R0 y R1


Wishart
R1 Wp ( ; n r0 ); R1
siendo t = rang(H); r0 = r

R0 siguen la distribucin de
R0

Wp ( ; t);

t:

3. Si H0 es cierta, las matrices R0 y R1


pendientes.

R0 son estocsticamente inde-

Demost.: Si la hiptesis H0 es cierta, el subespacio generado por las las de


H est contenido en el generado por las las de X: Podemos construir una
base ortogonal de Rm
[u1 ; : : : ; ut ; ut+1 ; : : : ; ur ; ur+1 ; : : : ; um ]
tal que [u1 ; : : : ; ut ] generen H; y [u1 ; : : : ; ut ; ut+1 ; : : : ; ur ] generen X:
Consideremos la matriz C de orden m (r t) generada por [ut+1 ; : : : ; ur ]:
e +E;
Entonces HC = 0 y el modelo Y = XB + E se convierte en Y =X
e
siendo X = XC; y C = B; pues HB = HC = 0: As la matriz de diseo
e = XC; donde las columnas de XC son combinacin
X se transforma en X
lineal de las columnas de X:
Podemos construir una matriz ortogonal
T = [t1 ; : : : ; tr0 ; tr0 +1 ; : : : ; tr ; tr+1 ; : : : ; tn ]
tal que las r0 = r t primeras columnas generen XC y las r primeras generen
X
Cr0 (XC) = [t1 ; : : : ; tr0 ] Cr (X) = [t1 ; : : : ; tr ]:
Siguiendo los mismos argumentos del teorema 15.2.2, tenemos que
b=
T0 E

0
Zn

r0

15.4. MANOVA DE UN FACTOR


donde las n

r0 las de Zn

r0

265

son Np (0; ) independientes. Por tanto

e b )0 (Y X
e b ) = Z0
R1 = (Y X
n

r0 Zn r0

r0 ): Por otro lado podemos escribir


2
3
0
e b) = 0
5;
T0 (Y X
= 4 Zt
Zn r0
Zn r

es Wishart Wp ( ; n

donde las t = r r0 las de Zt son independientes de las n


Entonces R1 = Z0t Zt + Z0n r Zn r ; es decir,
R1

r las de Zn r :

R0 = Z0t Zt ;

donde R1 R0 es Wishart Wp ( ; n r0 ) e independiente de R0 :


La consecuencia ms importante de este teorema es que, si H0 es cierta,
entonces R0 y R1 R0 son Wishart independientes y
=

j(R1

jR0 j
jR0 j
=
R0 ) + R0 j
jR1 j

(p; n

r; t):

As 0
1 sigue la distribucin de Wilks. Aceptaremos H0 si
signicativo y rechazaremos H0 si es pequeo y signicativo.

no es

Tabla general MANOVA


g. l.
matriz Wishart lambda de Wilks
Desviacin hiptesis
t
R1 R0
= jR0 j=jR1 j
n r
R0
Residuo
Criterio decisin: Si

15.4.

<

se rechaza H0 ; donde P ( (p; n

r; t) <

)= :

Manova de un factor

El modelo del diseo de un nico factor o causa de variabilidad es


yih =

+ eih ;

i = 1; : : : ;k; h = 1; : : : ;ni ;

donde es un vector de medias general, i es el efecto del nivel i del factor, yih es la observacin multivariante h en la situacin (o poblacin) i;

266

CAPTULO 15. ANLISIS DE LA VARIANZA (MANOVA)

correspondiendo a la misma situacin experimental del anlisis cannico de


poblaciones (Captulo 7), con n = n1 +
+ nk . Por tanto
W = R0 ;

B = R1

R0 ;

T = R1 = B + W;

son las matrices de dispersin dentro grupos, entre grupos y total,


respectivamente (Seccin 3.3.3).

g.
Entre grupos
k
Dentro grupos n
Total
n

15.5.

MANOVA de un factor
l.
matriz Wishart lambda de Wilks
1
B
= jWj=jTj
k
W
(p; n k; k
1
T

1)

Manova de dos factores

Si suponemos que las n = a b observaciones multivariantes dependen


de dos factores la y columna, con a y b niveles respectivamente, el modelo
es
yij = + i + j + eij ; i = 1; : : : ; a; j = 1; : : : ; b;
donde es la media general, i es el efecto aditivo del nivel i del factor la, j
es el efecto aditivo del nivel j del factor columna. Como generalizacin del caso univariante, intervienen las matrices A = (auv ); B =(buv ); T = (tuv ); R0 =
(ruv ) con elementos
P
auv = b Pi (yi u y u )(yi v y v )
buv = a j (y ju y u )(y jv y v )
P
ruv = ij (yiju yi u y ju + y u )(yijv yi v y jv + y v )
P
tuv = ij (yiju y u )(yijv y v );
u; v = 1; : : : ; p;

siendo, para cada variable Yu ; y u la media general, y ju la media jando el


nivel j del factor columna, etc. Se verica
T = A + B + R0 :
Indicando q = (a

1)(b

1); obtenemos la tabla

15.6. MANOVA DE DOS FACTORES CON INTERACCIN


MANOVA de dos factores
matriz
lambda
g. l. Wishart
de Wilks
Filas
a 1
A
jAj=jTj
(p; q; a
Columnas b 1
B
jBj=jTj
(p; q; b
q
R0
Residuo
Total
ab 1
T

15.6.

267

1)
1)

Manova de dos factores con interaccin

En el diseo de dos factores con interaccin suponemos que las n = a b c


observaciones multivariantes dependen de dos factores la y columna, con a
y b niveles respectivamente, y que hay c observaciones (rplicas) para cada
una de las a b combinaciones de los niveles. El modelo lineal es
yijh =

ij

+ eijh ;

i = 1; : : : ; a; j = 1; : : : ; b; h = 1; : : : ; c;

donde es la media general, i es el efecto aditivo del nivel i del factor la,
j es el efecto aditivo del nivel j del factor columna,
ij es la interaccin,
parmetro que mide la desviacin de la aditividad del efecto de los factores,
e yijh = (yijh1 ; : : : ; yijhp )0 es la rplica multivariante h de las variables observables. Tambin, como en el caso univariante, intervienen las matrices
A = (auv ); B = (buv ); AB = (cuv ); R0 = (ruv ); T = (tuv ); donde
auv
buv
cuv
ruv
tuv

P
= bc Pi (yi u y u )(yi v y v )
= ac j (y j u y u )(y j v y v )
P
= c i;j (yij u yi u y j v + y u )(yij v yi v y j v + y v )
P
= i;jh (yijhu yi u )(yijhv yi v )
P
= i;j (yiju y u )(yiju y u );
u; v = 1; : : : ; p;

que verican

T = A + B + AB + R0 :
(AB no es un producto matricial). Obtenemos la tabla:

268

CAPTULO 15. ANLISIS DE LA VARIANZA (MANOVA)


MANOVA de dos factores con interaccin
matriz
lambda
g. l.
Wishart
de Wilks
Filas
a 1
A
jAj=jTj
(p; r; a 1)
Columnas
b 1
B
jBj=jTj
(p; r; b 1)
AB
jABj=jTj
(p; r; q)
Interaccin (a 1)(b 1) = q
Residuo
ab(c 1) = r
R0
Total
abc 1
T

15.7.

Ejemplos

Ejemplo 15.7.1 Ratas experimentales.

En un experimento para inhibir un tumor, se quiere investigar el efecto


del sexo (S) y de la temperatura ambiental (T). Se consideran las variables:
Y1 =peso inicial, Y2 =peso nal, Y3 =peso del tumor.

Machos
Temp
Y 1 Y 2 Y3
4
18.15 16.51 0.24
18.68 19.50 0.32
19.54 19.84 0.20
20 21.27 23.30 0.33
19.57 22.30 0.45
20.15 18.95 0.35
34 20.74 16.69 0.31
20.02 19.26 0.41
17.20 15.90 0.28

Los resultados MANOVA son:

Hembras
Y 1 Y 2 Y3
19.15 19.49 0.16
18.35 19.81 0.17
20.58 19.44 0.22
18.87 22.00 0.25
20.66 21.08 0.20
21.56 20.34 0.20
20.22 19.00 0.18
18.38 17.92 0.30
20.85 19.90 0.17

15.7. EJEMPLOS

269

Figura 15.1: Representacin cannica de los datos de las ratas hembras


(izquierda) y machos (derecha).

g. l.
T

T S

Residuo

12

Total

17

F
g.l.
0 matriz dispersin 1 lambda
4;81 9;66 ;284
@
32;5 ;376 A .261
3.18 6,20
;019
0
1
;642 1;27
;19
@
2;51
;38 A .337
6.55 3,10
;006
0
1
;275 ;816 ;038
@
32;5 ;088 A .772
0.46 6,20
;006
1
0
19;3 7;01
;19
@
26;7 ;208 A
;039
0
1
25;0 18;7
;06
@
32;5 ;284 A
;125

Son signicativos los efectos S y T, pero la interaccin no es signicativa.


Una representacin cannica de los 3 2 = 6 grupos (Figura 15.1) ayuda
a visualizar las diferencias. Podemos ver que la pequea diferencia entre las
representaciones de las tres temperaturas de los machos y de las hembras,
indican una cierta interaccin, aunque no signicativa.

270

CAPTULO 15. ANLISIS DE LA VARIANZA (MANOVA)

Ejemplo 15.7.2 Colepteros.


Continuando con el ejemplo 7.5.1, vamos a estudiar 8 especies (factor E)
de colepteros del gnero Timarcha, pero teniendo en cuenta el sexo, machos
y hembras (factor S), en relacin a 5 variables biomtricas.
Las matrices de dispersin entre especies, entre sexos, debidas a la interaccin, residual
y los estadsticos y F son:
0
1
14303 24628 17137 48484 36308
B
43734 31396 85980 64521 C
B
C
= ;0068
B
23610 61519 46405 C
E=B
C F35;2353 = 152;8
@
169920 126980 A
95395
0
1
675;94 1613;0 1644;5 4520;0 3270;6
B
3849;3 3924;4 10786: 7804;9 C
B
C
= ;1944
C
4001;0
10997:
7957;2
S=B
B
C F5;559 = 463;2
@
30225: 21871: A
15825:
0
1
96;470 81;532 63;559 92;035 20;554
B
97;205 85;554 157;28 102;31 C
B
C
= ;7692
B
86;405 127;66 108;25 C
E S=B
C F35;2353 = 4;329
@
428;97 236;53 A
282;30
0
1
1546;7 1487;8 1346;4 2452;6 1924;0
B
3498;5 3078;4 4206;6 3415;6 C
B
C
3082;9 3888;2 3159;4 C
R0 =B
B
C
@
9178;6 6038;0 A
5950;3

15.8.

Otros criterios

Sean 1
p los valores propios de R0 respecto de R1 ; es decir,
las raices de la ecuacin det(R0
R1 ) = 0: Podemos expresar el criterio de
Wilks como
jR0 j
= 1
=
p:
jR1 j
Este criterio es especialmente interesante, teniendo en cuenta que si
razn de verosimilitud en el test de hiptesis, entonces = n=2 :

es la

15.8. OTROS CRITERIOS

271

Es fcil ver que 0


1: Se llaman correlaciones cannicas generali
2
izadas (al cuadrado) a ri = 1
i ; i = 1; : : : ; p: Entonces el criterio de Wilks
en trminos de correlaciones es
p
Y
(1 ri2 ):
=
i=1

Se demuestra que cualquier estadstico que sea invariante por cambios de


origen y de escala de los datos, debe ser necesariamente funcin de los valores
propios 1
p (Anderson, 1958). As, otros estadsticos propuestos
son:
1. Traza de Hotelling:
1

tr[R0 (R1 R0 )] =

p
X
1

i=1

2. Traza de Pillai:
p
X
tr[R1 1 (R1 R0 )] =
(1

i=1

i) =

i=1

3. Raz mayor de Roy:

=1

p
X

ri2
1

p
X

ri2

ri2 :

i=1

= r12 :

Este ltimo estadstico est basado en el principio de unin interseccin


(vase Seccin 3.5.2) y se obtiene maximizando la F de Fisher-Snedecor para
todas las combinaciones lineales de las variables:
n r
a0 (R1 R0 )a n r
= 01
;
max F (a) = max
0
a
a
a R0 a
t
t
siendo 01 el primer valor propio de (R1 R0 ) respecto de R0 . Se cumple la
relacin 01 = (1
p )= p y se toma como estadstico de contraste
=

0
1

1+

0
1

=1

= r12 :

En el ejemplo 15.7.2, para contrastar las diferencias entre localidades,


obtenemos los siguientes valores de los estadsticos de Wilks, Hotelling, Pillai
y Roy, y sus transformaciones a una F:
Wilks
Hotelling
Pillai
Roy

0.007
28.02
2.090
24.90

F
152.8
446.2
57.78
2002

g.l.
35
35
35
7

g.l.
2354
2787
2815
563

272

CAPTULO 15. ANLISIS DE LA VARIANZA (MANOVA)

Figura 15.2: Representacin HE plot (combinada con la representacin


cannica) de los datos de las ores Iris, con los elipsoides de concentracin
de las matrices H = R1 R0 (lnea gruesa) y E = R0 (lnea discontnua).

15.9.

Complementos

El Anlisis Multivariante de la Varianza es muy similar al Anlisis de


la Varianza, salvo que interviene ms de una variable cuantitativa observable. Esta extensin multivariante se inicia en 1930 con los trabajos de H.
Hotelling, J. Wishart y S. S. Wilks. Posteriormente S. N. Roy propuso un
planteamiento basado en el principio de unin-interseccin.
Los cuatro criterios que hemos visto son equivalentes para p = 1; y diferentes para p > 1: No est claro cual es el mejor criterio, depende de la
hiptesis alternativa. Por ejemplo, en el diseo de un factor, si los vectores
de medias estn prcticamente alineados, entonces el criterio de Roy es el
ms potente. Vase Rencher (1998).
Tales criterios miden el tamao de H = R1 R0 respecto de E = R0 ; matrices que se pueden visualizar mediante elipsoides de concentracin. Friendly
(2007) propone representar ambos elipsoides en el llamado HE plot (Figura
15.2).
Se puede plantear un anlisis tipo ANOVA para datos categricos, dando
lugar al mtodo llamado CATANOVA (Light y Margolin, 1971). Para datos
mixtos o no normales, se puede plantear MANOVA utilizando distancias
entre las observaciones, calculando coordenadas principales mediante MDS, y
a continuacin aplicando el modelo de regresin multivariante. Vase Cuadras
(2008), Cuadras y Cuadras (2011).

Captulo 16
FUNCIONES ESTIMABLES
MULTIVARIANTES
16.1.

Funciones estimables

En el modelo lineal univariante y = X + e, adems de la estimacin de


los parmetros de regresin ; tiene tambin inters la estimacin de ciertas
combinaciones lineales de los parmetros :
Denicin 16.1.1 Una funcin paramtrica
los parmetros = ( 1 ; : : : ; m )0
= p1

+ pm

es una combinacin lineal de


= p0 ;

donde p = (p1 ; : : : ; pm )0 : Una funcin paramtrica


una combinacin lineal b de y = (y1 ; : : : ; yn )0
b = a1 y1 +

es estimable si existe

+ an yn = a0 y;

donde a = (a1 ; : : : ; an )0 , tal que

E( b ) = :

La caracterizacin de que una funcin paramtrica


a continuacin.

es estimable se da

Proposicin 16.1.1 Una funcin paramtrica


= p0 es estimable si y
0
slo si el vector la p es combinacin lineal de las las de la matriz de
diseo X:
273

274

CAPTULO 16. FUNCIONES ESTIMABLES MULTIVARIANTES

Demost.: E( b ) = E(a0 y) = a0 E(y) = a0 X = p0 , que vale para todo : Por


lo tanto a0 X = p0 ; es decir, p0 es combinacin lineal de las las de X:

16.2.

Teorema de Gauss-Markov

La estimacin ptima de una funcin paramtrica estimable = p0 se


obtiene sustituyendo por la estimacin LS b : Esto es el famoso teorema
de Gauss-Markov.
Teorema 16.2.1 Sea
rica:

= p0

1. Si b es estimador LS de

una funcin paramtrica estimable. Se ve-

, entonces b = p0 b es nico.

2. b = p0 b es estimador lineal insesgado de y, dentro de los estimadores


lineales insesgados de , tiene varianza mnima.

Demost.: Existe un estimador insesgado b = a0 y de = p0 : Sea Cr (X) el


subespacio generado por las columnas de X: Entonces a =e
a+b; donde e
a2
Cr (X) y b es ortogonal a Cr (X): Consideremos al estimador e
a0 y: Tenemos
E( b ) = E(a0 y) =E(e
a0 y + b0 y) =E(e
a0 y) + b0 X =E(e
a0 y) = ;

puesto que b0 X = 0: Luego e


a0 y es estimador centrado. Si a01 y es otro estimador centrado con a1 2 Cr (X); entonces E(e
a0 y) E(a0 y) = (e
a0 a0 )X = 0
)e
a = a1 ; es decir, e
a0 y es nico.
Por otro lado, b
e= y X b es ortogonal a Cr (X) y e
a0 e = e
a0 y e
a0 X b = 0
0
a0 y = p0 b es nico y centrado.
)e
a0 y = e
a0 X b = p b : As b = e
Finalmente, indicando
kak2 = a21 +

+ a2n ;

tenemos que
var(a0 y) = kak2

= (ke
ak2 + kbk2 )

ke
ak2

= var(e
a0 y);

que prueba que b = p0 b tiene varianza mnima.


Un criterio para saber si p0 es funcin paramtrica estimable es
p0 (X0 X) X0 X = p0 :

16.3. FUNCIONES ESTIMABLES MULTIVARIANTES

16.3.

275

Funciones estimables multivariantes

En el modelo lineal multivariante (15.1), tambin tiene inters la estimacin de ciertas combinaciones lineales de los parmetros B: Indiquemos
por y1 ; : : : ; yn los vectores la de Y; y 1 ; : : : ; m los vectores la de B; es
decir:
2
3
2
3
y1
1
6
7
6
7
Y = 4 ... 5 ; B = 4 ... 5 :
yn

Denicin 16.3.1 Una funcin paramtrica multivariante


nacin lineal de las las de B,
0

= p1

+ pm

es una combi-

= p0 B;

donde p = (p1 ; : : : ; pm )0 : Una funcin paramtrica multivariante


0
timable (fpem) si existe una combinacin lineal b de las las de Y
b 0 = a1 y1 +

es es-

+ an yn = a0 Y;

donde a = (a1 ; : : : ; an )0 , tal que

E( b ) =

La caracterizacin de que una funcin paramtrica


guiente:

es fpem es la si-

Proposicin 16.3.1 Una funcin paramtrica 0 = p0 B es estimable si y


slo si el vector la p0 es combinacin lineal de las las de la matriz de diseo
X:
La demostracin es similar al caso univariante. La estimacin ptima de
una fpem 0 = p0 B viene dada por
b 0 = p0 B:
b

b
Slo hay que sustituir B por sus estimaciones LS B:
Teorema 16.3.2 Sea
estimable. Se verica:

= (

1; : : : ;

p)

= p0 B una funcin paramtrica

276

CAPTULO 16. FUNCIONES ESTIMABLES MULTIVARIANTES

b es estimador LS de B, entonces b 0 = ( b 1 ; : : : ; b p ) = p0 B
b es nico.
1. Si B

2. Cada b j es estimador lineal insesgado de


entre los estimadores lineales insesgados de

y de varianza mnima

j:

Observemos que este teorema vale sin necesidad de una hiptesis de normalidad. El estimador LS de es
b 0 = p0 B
b = p0 (X0 X) X0 Y =g1 y1 +

+ gn yn

donde y1 ; : : : ; yn son las las de la matriz de datos Y: El vector g = (g1 ; : : : ; gn )0


es nico, y podemos denir la dispersin de b ; que es mnima, como la cantidad
2
= g12 +
+ gn2 :
(16.1)
La versin del Teorema 15.3.1 para fpem es:
b es la estiTeorema 16.3.3 En el modelo MANOVA normal, si b = p0 B
macin LS de ; entonces:

1. La distribucin de b es la de una combinacin lineal de variables normales independientes.

2. La distribucin de R0 es Wp ( ; n

r):

3. b y R0 son estocsticamente independientes.

16.4.

Anlisis cannico de fpem

Supongamos que 01 = p01 B; : : : ; 0s = p0s B es un sistema de s fpem.


Podemos plantear la representacin cannica del sistema como una generalizacin del anlisis cannico de poblaciones.

16.4.1.

Distancia de Mahalanobis

Sean b 1 ; : : : ; b s las estimaciones LS de los fpem, b = R0 =(n r) la


estimacin de la matriz de covarianzas. Podemos denir la distancia de Mahalanobis (estimada) entre las funciones i ; j como
M (i; j)2 = ( b i

b j )0 b

(bi

b ):
j

16.4. ANLISIS CANNICO DE FPEM

277

0
0
Sea ij = kgi gj k : Si b i = gi0 Y es independiente de b j = gj0 Y y se verica
la hiptesis H0 : i = j ; entonces ij1 ( b i b j ) es Np (0; ) y (n r) b es
Wp ( ; n r); por lo tanto ij1 M (i; j) es Hotelling T 2 (p; n r) y

r
(n

p+1
r)p

1
ij

Fnp

M (i; j)2

r p+1 :

Anlogamente vemos que la distribucin de


n
es tambin Fnp

16.4.2.

r
(n

r p+1 ;

p+1 1 b
2 ( i
r)p
2

donde

0b 1 b
( i
i)

i)

es la dispersin mnima (16.1).

Coordenadas cannicas

Si b i = ( b i1 ; : : : ; b ip )0 ; i = 1; : : : ; s; consideremos las medias


1Xb
;
=
s i=1 ij
s

y la matriz

B
U =@

b 11
b

s1

..
.

j = 1; : : : ; s;

..

b 1p

..
.

sp

C
A:

Sea V = [v1 ; : : : ; vp ] la matriz de vectores propios de U0 U respecto de b ; con


la normalizacin vj0 b vj = 1; es decir,
U0 UV = b VD ;

V0 b V = I;

donde D =diag( 1 ; : : : ; p ) es la matriz diagonal con los valores propios. Las


coordenadas cannicas de b 1 ; : : : ; b s son las las w10 ; : : : ; ws0 de la matriz
W = UV:

La distancia eucldea entre las las coincide con la distancia de Mahalanobis


entre las fpem
(wi

wj )0 (wi

wj ) = ( b i

b )0 b
j

(bi

b ):
j

278

CAPTULO 16. FUNCIONES ESTIMABLES MULTIVARIANTES

De manera anloga podemos denir la variabilidad geomtrica de las fpem,


probando que es
p
s
1 X
1X
2
V = 2
M (i; j) =
i;
2s i;j=1
s i=1

y que es mxima en dimensin reducida q: El porcentaje de variabilidad


explicada por las q primeras coordenadas cannicas es
Pq = 100

16.4.3.

V (Y)q
= 100
V

+
1+
1

+
+

Regiones condenciales

0
Sean wi0 = b i V; i = 1; : : : ; s; las proyecciones cannicas de las estimaciones de las fpem. Podemos entender wi0 como una estimacin de i 0 = 0i V;
la proyeccin cannica de i : Podemos tambin encontrar regiones condenciales para las i ; i = 1; : : : ; g:
Sea 1
el coeciente de conanza, F tal que P (F > F ) = ; donde
F sigue la distribucin F con p y (n g p + 1) g.l., y consideremos:

R2 = F

(n
(n r

r)p
:
p + 1)

Luego las proyecciones cannicas i de las fpem pertenecen a regiones condenciales que son hiperesferas (esferas en dimensin 3, crculos en dimensin
2) de centros y radios
(wi ; i R )
donde

16.5.

es la dispersin mnima (16.1) de la estimacin LS de

i:

Ejemplos

Ejemplo 1. Se quiere hacer una comparacin de dos frmacos ansiolticos


(Diazepan y Clobazan) con un placebo, que indicaremos D, C, P. Las variables observables son efectos secundarios en la conduccin de automviles:
Y1 =tiempo de reaccin (segundos) a la puesta en rojo de un semforo,
Y2 =distancia mnima (cm.) entre dos puntos que el conductor necesitaba
para poder pasar por el medio. Los datos sobre 8 individuos (media de varias
pruebas) eran:

16.5. EJEMPLOS

279
Placebo
Y1
Y2
.548 177.8
.619 184.4
.641 247.2
.628 163.4
.846 173.6
.517 167.2
.876 174.0
.602 158.6

Individuo
1
2
3
4
5
6
7
8

Clobazan
Y1
Y2
.519 203.0
.776 164.8
.678 215.8
.595 153.6
.858 171.6
.493 166.0
.741 170.2
.719 157.2

Diazepan
Y1
Y2
.637 194.8
.818 175.2
.701 205.8
.687 152.2
.855 189.2
.618 181.0
.849 189.0
.731 184.6

Los datos se ajustan a un diseo de dos factores sin interaccin:


yij =

i+

j +eij :

Interesa estudiar si hay diferencias signicativas entre los frmacos, y si las


hay, representarlos y compararlos. Es decir, queremos hacer un test sobre la
hiptesis H0 : 1 = 2 = 3 y representar las funciones estimables
1

1;

2;

3:

La tabla MANOVA es:


g. l.
Frmacos

Individuos

Residuo

14

matriz dispersin lambda


F
g.l.
;0275 1;97
.482
2.86 4,26
309
;258
1;23
.025
9.84 14,26
8474
;037
1;96
2221

Las diferencias entre frmacos y entre individuos son signicativas


Las estimaciones LS son:
b 1 = (;659; 180;8)0 ;

b 2 = (;672; 175;3)0 ; b 3 = (;737; 184;0)0 ;


p
con dispersin (16.1): 1 = 2 = 3 = 1=8 = 0;354: Los dos valores propios
de U0 U respecto de b son 1;684 y 0;108 y explican el 100 % de la variabilidad
geomtrica en dimensin 2. Las coordenadas y los radios de la representacin

280

CAPTULO 16. FUNCIONES ESTIMABLES MULTIVARIANTES

Figura 16.1: Representacin canonica de tres frmacos en un diseo de dos


factores.

cannica (izquierda) y las correlaciones entre variables observables Y1 ; Y2 ; Y3


y cannicas W1 ; W2 (derecha) son:
Frmaco
Y1
Y2 radio
Placebo
19.73 8.91 0.86
Clobazan 19.75 8.44 0.86
Diazepan 21.32 8.68 0.86

Y1
Y2

W1
W2
.869 -.494
.296 .955

La representacin cannica indica que no hay diferencias entre P y C. En


cambio D se diferencia signicativamente de P. Puesto que las variables miden
efectos secundarios, resulta que C no los tiene, pero D s (Fig. 16.1).
Ejemplo 2. Continuando con el ejemplo 15.7.1, vamos a realizar la representacin cannica de los tres niveles de la temperatura. Los valores propios
de U0 U respecto de b son 2.529, 1.375, que explican el 100 % de la variabilidad geomtrica (Fig. 16.2). Las coordenadas y los radios de la representacin
cannica (izquierda) y las correlaciones entre variables observables Y1 ; Y2 ; Y3
y cannicas W1 ; W2 (derecha) son:
temp W1
W2 radio
4
-.539 -.871 1.29
20
1.29 .091 1.29
34
-.753 .779 1.29

Y1
Y2
Y3

W1
W2
.395 .278
.961 -.276
.405 .653

16.5. EJEMPLOS

281

Figura 16.2: Representacin cannica de los efectos principales de las temperaturas.

Ejemplo 3. Continuando con el ejemplo 15.7.2, podemos hacer la representacin cannica de las ocho especies, eliminando el efecto del sexo y de
la interaccin. Los dos primeros valores propios de U0 U respecto de b son
201.67 y 28.054, que explican el 98.2 % de la variabilidad geomtrica (inercia), vase la Fig. 16.3. Las coordenadas y los radios de la representacin
cannica (izquierda) y las correlaciones entre variables observables y cannicas (derecha) son:
Especie
1
2
3
4
5
6
7
8

W1
-4.567
-3.760
-1.944
-2.613
-2.299
-1.705
6.828
10.06

W2
-1.164
-.5129
-1.031
1.536
1.731
.6381
-3.671
2.475

radio
.342
.342
.418
.342
.342
.342
.503
.342

Y1
Y2
Y3
Y4
Y5

W1
.600
.661
.453
.804
.748

W2
.115
.450
.698
.522
.522

Esta representacin permite visualizar las diferencias entre las especies, sin
la inuencia del dimorsmo sexual y de la interaccin especie sexo.

282

CAPTULO 16. FUNCIONES ESTIMABLES MULTIVARIANTES

Figura 16.3: Representacin canonica de 8 especies de colepteros, eliminando


el efecto del dimorsmo sexual y de la interaccin.

16.6.

Complementos

El teorema de Gauss-Markov se puede generalizar de diversas maneras al


caso multivariante. Ver Mardia et al. (1979), Rencher (1998).
La representacin de funciones paramtricas estimables multivariantes fue
propuesta por Cuadras (1974). Ver Cuadras et al. (1996) y otras generalizaciones en Lejeune y Calinski (2000), Arenas y Cuadras (2004).

Bibliografa
[1] Albert, A. and J. A. Anderson (1984) On the existence of maximum
likelihood estimates in logistic regression models. Biometrika, 71, 1-19.
[2] Aluja, T., Morineau, A. (1999) Aprender de los datos: el anlisis de
componentes principales, una aproximacin desde el data mining. EUB,
Barcelona.
[3] Anderson, T. W. (1958) An Introduction to Multivariate Analysis. Wiley, N. York.
[4] Anderson, M. J. and T.J. Willis (2003) Canonical analysis of principal coordinates: a useful method of constrained ordination for ecology.
Ecology, 84, 511-525.
[5] Anderson, T. W. and H. Rubin (1956) Statistical inference in factor
analysis. Proc. of the Third Berkeley Symposium on Math. Stat. and
Prob., 5, 111-150.
[6] Arenas, C. and C. M. Cuadras (2004) Comparing two methods for
joint representation of multivariate data. Comm. Stat. Comp. Simul.,
33, 415-430.
[7] Baillo, A. and A. Gran (2008) 100 Problemas Resueltos de Estadstica
Multivariante. Delta, Madrid.
[8] Bar-Hen, A. and J.-J. Daudin (1997) A test of a special case of typicality in linear discriminant analysis. Biometrics, 53, 39-48.
[9] Bar-Hen, A. (2001) Preliminary tests in linear discriminat analysis.
Statistica, 4, 585593.
283

284

BIBLIOGRAFA

[10] Batista, J.M. and G. Coenders (2000) Modelos de Ecuaciones Estructurales. La Muralla, Madrid.
[11] Benzecri, J. P. (1976) LAnalyse des Donnes. I. La Taxinomie. II.
LAnalyse des Correspondances. Dunod, Paris.
[12] Cailliez, F. (1983) The analytical solution of the additive constant problem. Psychometrika, 48, 305-308.
[13] Crdenas C. and M. P. Galindo Villardn. (2001) Biplot con informacin externa basado en modelos bilineales generalizados. Universidad
Central de Venezuela, Caracas.
[14] Carmona, F. (2005) Modelos Lineales. Pub. Univ. de Barcelona,
Barcelona.
[15] Cooley, W. W. and P. R. Lohnes (1971) Multivariate Data Analysis.
Wiley, N. York.
[16] Cox, T. F. and M. A. A. Cox (1964) Multidimensional Scaling. Chapman and Hall, London.
[17] Cramer, E. M. and W. A. Nicewander (1979) Some symmetric, invariant measures of multivariate association. Psychometrika, 44, 43-54.
[18] Critchley, F. and W. Heiser (1988) Hierarchical trees can be scaled
perfectly in one dimension. J. of Classication, 5, 5-20.
[19] Cuadras, C. M. (1974) Anlisis discriminante de funciones paramtricas
estimables. Trab. Esta. Inv. Oper., 25, 3-31.
[20] Cuadras, C. M. (1981) Mtodos de Anlisis Multivariante. Eunibar,
Barcelona. 3a Ed. EUB, Barcelona, 1996.
[21] Cuadras, C. M. (1988) Distancias estadsticas (con discusin) . Estadstica Espaola, 30, 295-378.
[22] Cuadras, C. M. (1989) Distance analysis in discrimination and classication using both continuous and categorical variables. In: Y. Dodge
(Ed.), Statistical Data Analysis and Inference, pp. 459473. Elsevier
Science Publishers B. V. (NorthHolland), Amsterdam.

BIBLIOGRAFA

285

[23] Cuadras, C. M. (1991) Ejemplos y aplicaciones inslitas en regresin y


correlacin. Qestii, 15, 367-382.
[24] Cuadras, C. M. (1992a) Probability distributions with given multivariate marginals and given dependence structure. J. Multivariate Analysis, 42, 51-66.
[25] Cuadras, C. M (1992b) Some examples of distance based discrimination. Biometrical Letters, 29, 3-20.
[26] Cuadras, C. M. (1993) Interpreting an inequality in multiple regression.
The American Statistician, 47, 256-258.
[27] Cuadras, C. M. (1995) Increasing the correlations with the response
variable may not increase the coe cient of determination: a PCA interpretation. In: E.Tiit, T. Kollo and H. Niemi (Eds), New Trends in
Probability and Statistics. Vol 3. Multivariate Statistics and Matrices
in Statistics, pp.75-83, VSP/TEV, The Netherlands.
[28] Cuadras, C. M. (1998) Multidimensional dependencies in ordination
and classication. In: K. Fernndez and E. Morinneau (Eds.), Analyses Multidimensionnelles des Donnes, pp.15-26, CISIA-Ceresta, Saint
Mand (France).
[29] Cuadras, C. M. (2000) Problemas de Probabilidades y Estadstica. Vol.
2. EUB, Barcelona.
[30] Cuadras, C. M. (2002a) On the covariance between functions. J. of
Multivariate Analysis, 81, 19-27.
[31] Cuadras, C. M. (2002b) Correspondence analysis and diagonal expansions in terms of distribution functions. J. of Statistical Planning and
Inference, 103, 137-150.
[32] Cuadras, C. M. (2005) Continuous canonical correlation analysis. Research Letters in Information and Mathematical Sciences, 8, 97-103.
[33] Cuadras, C. M. (2006) The importance of being the upper bound in
the bivariate family. SORT, 30, 55-84.

286

BIBLIOGRAFA

[34] Cuadras, C. M. (2008) Distance-based multisample tests for multivariate data. In: Arnold, B. C., Balakrishnan, N., Sarabia, J. M., Mnguez,
R. (Eds.), Advances in Mathematical and Statistical Modeling, pp. 6171. Birkhauser, Boston.
[35] Cuadras, C. M. (2009) Constructing copula functions with weighted
geometric means. J. of Statistical Planning and Inference, 139, 37663772.
[36] Cuadras, C. M. (2010) On the covariance between functions (correction). J. of Multivariate Analysis, 101, 1317-1318.
[37] Cuadras, C. M. (2011) Distance-based approach in multivariate association. In: S. Ingrassia, R. Rocci, M. Vichi, (Eds.), New Perspectives in
Statistical Modeling and Data Analysis, pp. 535-542., Springer, Berlin.
[38] Cuadras, C. M. and C. Arenas (1990) A distance based regression
model for prediction with mixed data. Comm. Stat.-Theor. Meth., 19,
2261-2279.
[39] Cuadras, C. M., Atkinson, R. A. and J. Fortiana (1997) Probability densities from distances and discriminant analysis. Statistics and
Probability Letters, 33, 405-411.
[40] Cuadras, C. M. and J. Aug (1981) A continuous general multivariate
distribution and its properties. Commun. Stat.-Theor. Meth, A10, 339353.
[41] Cuadras, C. M., Arenas, C. and J. Fortiana (1996) Some computational
aspects of a distance-based model for prediction. Comm. Stat.-Simul.
Comp., 25, 593-609.
[42] Cuadras, C. M. and F. Carmona (1983) Euclidean dimensionality of
ultrametric distances. Qestiio, 7, 353-358.
[43] Cuadras. C. M. and D. Cuadras (2006) A parametric approach to correspondence analysis. Linear Algebra and its Applications, 417, 64-74.
[44] Cuadras, C. M. and D. Cuadras (2011) Partitioning the geometric variability in multivariate analysis and contingency tables. In: B. Fichet,
D. Piccolo, R. Verde, M. Vichi, (Eds.), Classication and Multivariate
Analysis for Complex Data Structures, pp. 237-244. Springer, Berlin.

BIBLIOGRAFA

287

[45] Cuadras, C. M, Cuadras, D. and Y. Lahlou (2006) Principal directions


of the general Pareto distribution with applications. J. of Statistical
Planning and Inference, 136, 2572-2583.
[46] Cuadras, C. M. and J. Fortiana (1993a) Continuous metric scaling and
prediction. In: C.M. Cuadras and C.R. Rao (Eds.), Multivariate Analysis, Future Directions 2, pp. 4766. Elsevier Science Publishers B. V.
(NorthHolland), Amsterdam.
[47] Cuadras, C. M. and J. Fortiana (1993b) Aplicacin de las distancias
en estadstica. Qestii, 17, 39-74.
[48] Cuadras, C. M. and J. Fortiana (1994) Ascertaining the underlying
distribution of a data set. In: R. Gutierrez and M.J. Valderrama (Eds.),
Selected Topics on Stochastic Modelling, pp. 223-230. World-Scientic,
Singapore.
[49] Cuadras, C. M. and J. Fortiana (1995) A continuous metric scaling
solution for a random variable. J. of Multivariate Analysis, 52, 114.
[50] Cuadras, C. M. and J. Fortiana (1996) Weighted continuous metric
scaling. In: Gupta, A. K. and V. L. Girko (Eds.), Multidimensional
Statistical Analysis and Theory of Random Matrices, pp. 2740. VSP,
Zeist, The Netherlands.
[51] Cuadras, C. M. and J. Fortiana (1998) Visualizing categorical data with
related metric scaling. In: J. Blasius and M. Greenacre, (Eds.), Visualization of Categorical Data, pp. 365-376. Academic Press, N. York.
[52] Cuadras, C. M. and J. Fortiana (2000) The Importance of Geometry in Multivariate Analysis and some Applications. In: C.R. Rao and
G. Szekely, (Eds.), Statistics for the 21st Century, pp. 93-108. Marcel
Dekker, N. York.
[53] Cuadras, C. M. and J. Fortiana (2004) Distance-based multivariate
two sample tests. In: M. S. Nikulin, N. Balakrishnan, M. Mesbah, N.
Limnios (Eds.), Parametric and Semiparametric Models with Applications to Reliability, Survival Analysis, and Quality of Life, pp. 273-290.
Birkhauser, Boston.

288

BIBLIOGRAFA

[54] Cuadras, C. M., Fortiana, J. and M. Greenacre (2000) Continuous extensions of matrix formulations in correspondence analysis, with applications to the FGM family of distributions. In: R. D. H. Heijmans,
D. S. G. Pollock and A. Satorra, (Eds.), Innovations in Multivariate
Statistical Analysis, pp. 101-116. Kluwer Ac. Publ., Dordrecht.
[55] Cuadras, C. M., Cuadras, D. and M. Greenacre (2006) Comparison
of dierent methods for representing categorical data. Comm. Stat.Simul. and Comp., 35 (2), 447-459.
[56] Cuadras, C. M., Fortiana, J. and F. Oliva (1996) Representation of statistical structures, classication and prediction using multidimensional
scaling. In: W. Gaul, D. Pfeifer (Eds.), From Data to Knowledge, pp.
20-31. Springer, Berlin.
[57] Cuadras, C. M., Fortiana, J. and F. Oliva (1997) The proximity of an
individual to a population with applications in discriminant analysis.
J. of Classication, 14, 117-136.
[58] Cuadras, C. M. and Y. Lahlou (2000) Some orthogonal expansions for
the logistic distribution. Comm. Stat.-Theor. Meth., 29, 2643-2663.
[59] Cuadras, C. M. and J. M. Oller (1987) Eigenanalysis and metric multidimensional scaling on hierarchical structures. Qestii, 11, 37-57.
[60] Cuadras, C. M. and M. Snchez-Turet (1975) Aplicaciones del anlisis
multivariante cannico en la investigacin psicolgica. Rev. Psicol. Gen.
Aplic., 30, 371-382.
[61] Cuadras, C. M., Valero, S., Cuadras, D., Salembier, P. and J. Chanussot (2012) Distance-based measures of association with applications in
relating hyperspectral images. Comm. Stat., Theor.- Meth., 41, 2342
2355.
[62] Chatterjee, S. and B. Price (1991) Regression Analysis by Example.
Wiley, N. York.
[63] De Cceres, M., Oliva, F. and X. Font (2006) On relational possibilistic
clustering. Pattern Recognition, 39, 2010-2024.

BIBLIOGRAFA

289

[64] Eckart, C. and G. Young (1936) The approximation of one matrix for
another of lower rank. Psychometrika, 1, 211-218.
[65] Efron, B. (1975) The ecency of logistic regression compared to normal
discriminant analysis. J. of the American Statistical Association, 70,
892-898.
[66] Escoer, B. and J. Pags (1990) Analyses Factorielles Simples et Multiples. Dunod, Paris.
[67] Escouer, Y. (1973) Le traitement des variables vectorielles. Biometrics, 29, 751-760.
[68] Everitt, B.S. (1993) Cluster Analysis. Edward Arnold, London.
[69] Flury, B. (1997) A First Course in Multivariate Statistics. Springer, N.
York.
[70] Fortiana, J. and C. M. Cuadras (1997) A family of matrices, the discretized Brownian Bridge and distance-based regression. Linear Algebra
and its Applications, 264, 173-188.
[71] Friendly, M. (1994) Mosaic displays for multi-way contingency tables.
J. of the American Statistical Association, 89, 190200.
[72] Friendly, M. (1999) Extending mosaic displays: Marginal, conditional,
and partial views of categorical data. J. of Computational and Graphical Statistics, 8, 373395.
[73] Friendly, M. (2007) HE plots for multivariate linear models. J. of Computational and Graphical Statistics, 16, 421-444.
[74] Gabriel, K. R. (1971) The biplot graphic display of matrices with application to principal component analysis. Biometrika, 58, 453-467.
[75] Galindo Villardon, M. P. (1986) Una alternativa de representacin simultnea: HJ-Biplot. Qestii, 10, 13-23.
[76] Gittings, R. (1985) Canonical Analysis. A Review with Applications in
Ecology. Springer-Verlag, Berlin.

290

BIBLIOGRAFA

[77] Golub, G. H. and C. Reinsch (1970) Singular value decomposition and


least squares solutions. Numerische Mathematik, 14 (5), 403420.
[78] Gordon, A. D. (1999) Classication. Chapman and Hall, London.
[79] Gower, J. C. (1966) Some distance properties of latent roots and vector
methods in multivariate analysis. Biometrika, 53, 315-328.
[80] Gower, J. C. (1971a) A general coe cient of similarity and some of
its properties. Biometrics, 27, 857-871.
[81] Gower, J. C. (1971b) Statistical methods of comparing dierent multivariate analyses of the same data. In: F.R. Hodson, D.G. Kendall,
P. Tautu (Eds.), Mathematics in the Archaeological and Historical Sciences, pp. 138-149. Edinburgh University Press, Edinburgh.
[82] Gower, J. C. and D. J. Hand (1996) Biplots. Chapman and Hall, London.
[83] Gower, J. C., Lubbe, S. and le Roux, N. (2011) Understanding Biplots.
Wiley, N. York.
[84] Graelman, J. (2001) Quality statistics in canonical correspondence
analysis. Environmetrics, 12, 485-97.
[85] Greenacre, M. J. (1984) Theory and Applications of Correspondence
Analysis. Academic Press, London.
[86] Greenacre, M. J. (2008) La Prctica del Anlisis de Correspondencias.
Fundacin BBVA - Rubes Ed., Barcelona.
[87] Greenacre, M. J. (2010) Biplots in Practice. Fundacin BBVA - Rubes
Ed., Barcelona.
[88] Harman, H. H. (1976) Modern Factor Analysis. The Univ. Chicago
Press, Chicago, 3a ed.
[89] Hartigan, J. A. (1967) Representation of similarity matrices by trees.
J. of the American Statistical Association, 62, 1140-1158.
[90] Hastie, T. and R. J. Tibshirani (1990) Generalized Additive Models.
Chapman and Hall, London.

BIBLIOGRAFA

291

[91] Hill, M. O. (1973) Reciprocal averaging: an eigenvector method of ordination. J. of Ecology, 61, 237-249.
[92] Holman, E. W. (1972) The relation between Hierarchical and Euclidean
models for psychological distances. Psychometrika, 37, 417-423.
[93] Hosmer, D. W. and S. Lemeshow (2000) Applied Logistic Regression,
2nd Edition. Wiley, N. York.
[94] Huitson, A. (1966) The Analysis of Variance. Charles Gri n, London.
[95] Hutchinson, T. P. and C. D. Lai (1991) The Engineering Statisticians
Guide to Continuous Bivariate Distributions. Rumsby Scientic Pub.,
Adelaide.
[96] Irigoien, I. and C. Arenas (2008) INCA: New statistic for estimating the
number of clusters and identifying atypical units. Statistics in Medicine,
27, 2948-2973.
[97] Jauregui, E., Irigoien, I., Sierra, B., Lazkano, E. and C. Arenas (2011)
Loop-closing: A typicality approach. Robotics and Autonomous Systems 59, 218-227.
[98] Joe, H. (1997) Multivariate Models and Dependence Concepts. Chapman and Hall, London.
[99] Johnson, S. C. (1967) Hierarchical clustering schemes. Psychometrika,
32, 241-254.
[100] Joreskog, K. (1967) Some contributions to maximum likelihood factor
analysis. Psychometrika, 32, 443-482.
[101] Joreskog, K. (1969) A general approach to conrmatory maximum likelihood factor analysis. Psychometrika, 34, 183-202.
[102] Joreskog, K. (1970) A general method for analysis of covarianvce structures. Biometrika, 57, 239-251.
[103] Joreskog, K, Sorbom, D. (1999) LISREL 8: A Guide to the Program
and Applications. Scientic Software International, Inc., Chicago.

292

BIBLIOGRAFA

[104] Krzanowski, W. J. (1975) Discrimination and classication using both


binary and continuous variables. J. of the American Statistical Association, 70, 782-790.
[105] Krzanowski, W. J. (1980) Mixtures of continuous and categorical variables in discriminant analysis. Biometrics, 36, 493-499.
[106] Krzanowski, W. J. (1988) Principles of Multivariate Analysis: A users
perspective. Oxford Clarendon Press, Oxford.
[107] Krzanowski, W. J. and D. Radley (1989) Nonparametric condence and
tolerance regions in canonical variate analysis. Biometrics, 45, 11631173.
[108] Lancaster, H. O. (1969) The Chi-Squared Distribution. J. Wiley, N.
York.
[109] Lawley, D. N. and A. E. Maxwell. (1971) Factor Analysis as a Statistical
Method. Butterworth, London.
[110] Lebart, L., Morineau, A. and N. Tabard (1977) Techniques de la Description Statistique. Dunod, Paris.
[111] Leujene, M. and T. Calinski (2000) Canonical analysis applied to multivariate analysis of variance. J. of Multivariate Analysis, 72, 100-119.
[112] Light, R. J. and B. H. Margolin (1971) An analysis of variance for
categorical data. J. of the American Statistical Association, 66, 534544.
[113] Longford, N. T. (1994) Logistic regression with random coe cients.
Computational Statistics and Data Analysis, 17, 1-15.
[114] Manzano, M. and J. Costermans (1976) Dos mtodos para el estudio
psicolgico del lxico: su aplicacin a algunos adjetivos de la lengua
espaola. Revista Latinoamericana de Psicologa, 8, 171-191.
[115] Mardia, K. V., Kent, J. T. and J. M. Bibby (1979) Multivariate Analysis. Academic Press, London
[116] McLachlan, G. J. (1992) Discriminant Analysis and Statistical Pattern
Recognition. Wiley, N. York.

BIBLIOGRAFA

293

[117] Muirhead, R. J. (1982) Aspects of Multivariate Statistical Theory. Wiley, N. York.


[118] Nelsen, R. B. (2006) An Introduction to Copulas. Springer, N. York,
Second Edition.
[119] Oliva, F., Bolance, C. and L. Diaz (1993) Aplicaci de lanlisi multivariante a un estudi sobre les llenges europees. Qestii, 17, 139-161.
[120] Oller, J. M. (1987) Information metric for extreme values and logistic
distributions. Sankhya, 49 A, 17-23.
[121] Oller, J. M. and C. M. Cuadras (1985) Raos distance for negative
multinomial distributions. Sankhya, 47 A, 75-83.
[122] Pea, D. (1989) Estadstica Modelos y Mtodos 2. Modelos Lineales y
Series Temporales. Alianza Universidad Textos, 2a Ed., Madrid.
[123] Pea, D. (2002) Anlisis de Datos Multivariantes. McGraw Hill Interamericana, Madrid.
[124] Quesada-Molina, J. J. (1992) A generalization of an identity of Hoeding and some applications. J of the Italian Stat. Society, 3, 405-411.
[125] Rao, C. R. (1952) Advanced Statistical Methods in Biometric Research.
Wiley, N. York.
[126] Rao, C. R. (1973) Linear Statistical Inference and their Applications.
Wiley, N. York.
[127] Rao, C. R. (1995) A review of canonical coordinates and an alternative
to correspondence analysis using Hellinger distance. Qestii, 19, 2363.
[128] Rencher, A. C. (1995) Methods of Multivariate Analysis. Wiley, N.
York.
[129] Rencher, A. C. (1998) Multivariate Statistical Inference and Applications. Wiley, N. York,.
[130] Rummel, R. J. (1963) The dimensions of conict behavior within and
between nations. General Systems Yearbook, 8, 1-50.

294

BIBLIOGRAFA

[131] Snchez-Turet, M. and C. M. Cuadras (1972) Adaptacin espaola del


cuestionario E.P.I. de Eysenck. Anuario de Psicologa, 6, 31-59.
[132] Satorra, A. (1989) Alternative test criteria in covariance structure
analysis: A unied approach. Psychometrika, 54, 131-151.
[133] Sche, H. (1959) The Analysis of Variance. Wiley, N. York.
[134] Seal, H. L. (1964) Multivariate Statistical Analysis for Biologists.
Methuen and Co. Ltd., London.
[135] Seber, G. A. F. (1977) Linear Regression Analysis. Wiley, N. York.
[136] Seber, G. A. F. (1984) Multivariate Observations. Wiley, N. York.
[137] Spearman, Ch. (1904) General intelligence objetively determined and
measured. American J. of Psychology, 15, 201-293.
[138] Tibshirani, R., Walther, G. and T. Hastie (2001) Estimating the number of clusters in a data set via the gap statistic. J. R. Stat. Soc. B,
63, 411-423.
[139] Torrens-Ibern, J. (1972) Modles et Mthodes de lAnalyse Factorielle.
Dunod, Paris.
[140] van der Heijden, P. G. M. and J. de Leuw (1985) Correspondence analysis used complementary to loglinear analysis. Psychometrika, 50, 429447.
[141] Waller, N. G. (2011) The geometry of enhancement in multiple regression. Psychometrika, 76, 634-649.

ndice alfabtico
Anlisis factorial
mltiple, 89
simple, 93
aproximacin
a la distribucin F , 34
aproximacin
de Eckart-Young, 20
biplot, 84, 89
coeciente
de Pearson, 165
procrustes, 22, 72
componentes principales
comunes, 89
denicin, 73
distribucin, 79
comunalidad, 94, 97
coordenadas
cannicas, 121, 277
principales, 134, 159
correccin de Box, 124
correlacin
cannica, 65
cannica generalizada, 271
mltiple, 62
simple, 13
vectorial, 72
correspondencias
mltiples, 167
simples, 160

curva
especicidad, 222
ROC, 222
sensibilidad, 222
dendograma, 185
descomposicin
espectral, 19
singular, 19
desigualdad
de Cramr-Rao, 41
triangular, 131, 185
ultramtrica, 184
discriminador
Bayes, 209
cuadrtico, 210
distancia, 17
ciudad, 142
de Bhattachariyya, 144
de Mahalanobis, 17, 120, 130, 160,
209, 276
de Pearson, 17, 130
de Prevosti, 149
de Rao, 146
dominante, 142
Eucldea, 17, 76, 142
ji-cuadrado, 159
distribucin
F de Fisher-Snedecor, 32, 33
de Hotelling, 32, 51
295

296

NDICE ALFABTICO
de Wilks, 33, 265
de Wishart, 31
elptica, 39
multinomial, 36
normal bivariante, 30
normal multivariante, 28

de dispersin entre grupos, 45, 266


de distancias Eucldeas, 132
de informacin de Fisher, 42
medicin de factores
de Anderson-Rubin, 111
de Bartlett, 111
por mnimos cuadrados, 111
ecuaciones
medidas de variabilidad
de verosimilitud, 105
variacin total, 16, 75
normales, 237, 260
varianza generalizada, 16
espacio ultramtrico, 184
mtodo
de las medias mviles, 200
factor
del factor principal, 103
nico, 94, 96
del mnimo, 191
comn, 94, 96
del mximo, 192
en diseos factoriales, 247, 249,
exible, 202
251
modelo
falacia ecolgica, 130
de regresin logstica, 218
funcin
de regresin mltiple, 239
de verosimilitud, 41, 42, 49, 105
lineal, 235
estimable multivariante, 275
log-lineal, 255
estimable univariante, 273
logstico, 218
score, 41
multifactorial, 96
HE plot, 272
Thurstone, 145
Heywood, caso de, 99, 104
unifactorial, 94
hiptesis lineal, 241, 263
mosaicos, 178
interaccin, 251
nmero
inversa generalizada, 19, 36, 144, 157
de clusters (conglomerados), 201
de componentes principales, 82
jerarqua indexada, 182
de correlaciones cannicas, 67
matriz
de factores comunes, 105
centrada, 13
de variables cannicas, 124
de Burt, 167, 169
paradoja
de correlaciones, 14, 94
de Rao, 55
de covarianzas, 14
de Stein, 59
de dispersin dentro grupos, 45,
preordenacin, 139
266

NDICE ALFABTICO

297

principio
de Fisher, 47
de equivalencia distribucional, 177
de Gauss-Markov, 274
de parsimonia, 102
de la dimensin, 15
de unin-interseccin, 51, 59, 68,
de Thurstone , 101
272
de Wilks, 49
probabilidad de clasicacin errnea, test
205, 207, 209
comparacin de dos medias, 44
comparacin de medias, 50
razn de verosimilitud, 49
de Bartlett, 59, 124
realce en regresin mltiple, 90
de Bartlett-Lawley, 67
regla
de esfericidad, 83
basada en distancias, 229
de razn de verosimilitud, 49
de Bayes, 207, 215
de Wald, 221
discriminacin logstica, 219
independencia, 49, 67, 81
discriminante, 205
sobre la covarianza, 80
mxima verosimilitud, 207, 214
sobre la media, 43
relaciones tetrdicas, 95
tipicalidad, 233
rotacin
transformacin
biquartimin, 108
cannica, 120
covarimin, 108
componentes principales, 74, 77
oblicua, 108
lineal, 14
ortogonal, 106
procrustes, 22, 112
promax, 108
quartimax, 107
unicidad, 97
quartimin, 108
valores singulares, 19, 66, 84, 158
varimax, 107
variabilidad geomtrica (inercia), 76,
similaridad, coeciente de
77, 121, 136, 165
denicin, 137
variable
Dice, 143
cannica, 65
Gower, 145, 232
compuesta, 14, 74
Jaccard, 138
Sokal y Michener, 138
Sokal-Sneath, 143
tablas concatenadas, 179
teorema
de Cochran, 45
de Craig, 47

Anda mungkin juga menyukai