Anda di halaman 1dari 515

ANLISIS DE DATOS MULTIVARIANTES

Daniel Pea
23 de enero de 2002
2
ndice General
0.1 Prefacio . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 10
1 INTRODUCCIN 13
1.1 EL ANLISIS DE DATOS MULTIVARIANTES . . . . . . . . . . . . . . . 13
1.2 ESTRUCTURA DEL LIBRO . . . . . . . . . . . . . . . . . . . . . . . . . . 15
1.3 PROGRAMAS DE ORDENADOR . . . . . . . . . . . . . . . . . . . . . . . 18
1.4 UN POCO DE HISTORIA . . . . . . . . . . . . . . . . . . . . . . . . . . . . 18
1.5 LECTURAS COMPLEMENTARIAS . . . . . . . . . . . . . . . . . . . . . . 21
2 LGEBRA MATRICIAL 23
2.1 INTRODUCCIN . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 23
2.2 VECTORES . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 24
2.2.1 Deniciones bsicas . . . . . . . . . . . . . . . . . . . . . . . . . . . . 25
2.2.2 Dependencia Lineal . . . . . . . . . . . . . . . . . . . . . . . . . . . . 29
2.3 MATRICES . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 31
2.3.1 Deniciones bsicas . . . . . . . . . . . . . . . . . . . . . . . . . . . . 32
2.3.2 Productos entre matrices . . . . . . . . . . . . . . . . . . . . . . . . . 33
2.3.3 Rango de una matriz . . . . . . . . . . . . . . . . . . . . . . . . . . . 35
2.3.4 Matrices Cuadradas . . . . . . . . . . . . . . . . . . . . . . . . . . . . 36
2.3.5 Matrices Particionadas . . . . . . . . . . . . . . . . . . . . . . . . . . 45
2.4 VECTORES Y VALORES PROPIOS . . . . . . . . . . . . . . . . . . . . . . 46
2.4.1 Denicin . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 47
2.4.2 Valores y vectores propios de matrices simtricas . . . . . . . . . . . 49
2.4.3 Diagonalizacin de Matrices Simtricas . . . . . . . . . . . . . . . . . 52
2.4.4 Raiz cuadrada de una matriz semidenida positiva . . . . . . . . . . 54
2.4.5 Descomposicin en valores singulares . . . . . . . . . . . . . . . . . . 56
2.4.6 (*)Diagonalizacin de Matrices generales . . . . . . . . . . . . . . . . 56
2.4.7 (*)Inversas Generalizadas . . . . . . . . . . . . . . . . . . . . . . . . 57
2.5 (*)PROYECCIN ORTOGONAL . . . . . . . . . . . . . . . . . . . . . . . 58
2.5.1 Matrices Idempotentes . . . . . . . . . . . . . . . . . . . . . . . . . . 58
2.5.2 Proyeccin Ortogonal . . . . . . . . . . . . . . . . . . . . . . . . . . . 59
2.6 (*)DERIVADAS MATRICIALES . . . . . . . . . . . . . . . . . . . . . . . . 64
3
4 NDICE GENERAL
3 DESCRIPCIN DE DATOS MULTIVARIANTES 67
3.1 INTRODUCCIN . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 67
3.2 DATOS MULTIVARIANTES . . . . . . . . . . . . . . . . . . . . . . . . . . 67
3.2.1 Tipos de variables . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 67
3.2.2 La matriz de datos . . . . . . . . . . . . . . . . . . . . . . . . . . . . 68
3.2.3 Anlisis univariante . . . . . . . . . . . . . . . . . . . . . . . . . . . . 70
3.3 MEDIDAS DE CENTRALIZACIN: EL VECTOR DE MEDIAS . . . . . . 72
3.4 LA MATRIZ DE VARIANZAS Y COVARIANZAS . . . . . . . . . . . . . . 74
3.4.1 Clculo a partir de la matriz de datos centrados . . . . . . . . . . . . 75
3.4.2 Propiedades . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 79
3.4.3 Variables redundantes: El caso con Matriz S singular . . . . . . . . . 80
3.5 MEDIDAS GLOBALES DE VARIABILIDAD . . . . . . . . . . . . . . . . . 83
3.5.1 La variabilidad total y la varianza promedio . . . . . . . . . . . . . . 83
3.5.2 La Varianza Generalizada . . . . . . . . . . . . . . . . . . . . . . . . 83
3.5.3 La variabilidad promedio . . . . . . . . . . . . . . . . . . . . . . . . 85
3.6 VARIABILIDAD Y DISTANCIAS . . . . . . . . . . . . . . . . . . . . . . . 86
3.6.1 El concepto de distancia . . . . . . . . . . . . . . . . . . . . . . . . . 86
3.6.2 La Distancia de Mahalanobis . . . . . . . . . . . . . . . . . . . . . . 88
3.6.3 La distancia promedio . . . . . . . . . . . . . . . . . . . . . . . . . . 89
3.7 MEDIDAS DE DEPENDENCIA LINEAL . . . . . . . . . . . . . . . . . . . 91
3.7.1 Dependencia por pares: La matriz de correlacin . . . . . . . . . . . 91
3.7.2 Dependencia de cada variable y el resto: Regresin Mltiple . . . . . 92
3.7.3 Dependencia directa entre pares: Correlaciones parciales . . . . . . . 95
3.7.4 El coeciente de Dependencia . . . . . . . . . . . . . . . . . . . . . . 96
3.8 La matriz de precisin . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 98
3.9 COEFICIENTES DE ASIMETRA Y KURTOSIS . . . . . . . . . . . . . . . 99
4 ANALISIS GRAFICO Y DATOS ATIPICOS 107
4.1 INTRODUCCIN . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 107
4.2 REPRESENTACIONES GRFICAS . . . . . . . . . . . . . . . . . . . . . . 107
4.2.1 Histogramas y diagramas de dispersin . . . . . . . . . . . . . . . . . 107
4.2.2 Representacin mediante guras . . . . . . . . . . . . . . . . . . . . . 111
4.2.3 (*)Representacin de Proyecciones . . . . . . . . . . . . . . . . . . . 112
4.3 TRANSFORMACIONES LINEALES . . . . . . . . . . . . . . . . . . . . . . 114
4.3.1 Consecuencias . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 114
4.3.2 Estandarizacin univariante . . . . . . . . . . . . . . . . . . . . . . . 115
4.3.3 (*)Estandarizacin multivariante . . . . . . . . . . . . . . . . . . . . 115
4.4 TRANSFORMACIONES NO LINEALES . . . . . . . . . . . . . . . . . . . 117
4.4.1 Simplicidad en las distribuciones . . . . . . . . . . . . . . . . . . . . 117
4.4.2 Simplicidad en las relaciones . . . . . . . . . . . . . . . . . . . . . . . 119
4.5 DATOS ATPICOS . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 120
4.5.1 Denicin . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 120
4.5.2 Los efectos de los atpicos . . . . . . . . . . . . . . . . . . . . . . . . 121
4.5.3 (*)Identicacin de grupos de atpicos . . . . . . . . . . . . . . . . . 122
NDICE GENERAL 5
4.6 Lecturas complementarias . . . . . . . . . . . . . . . . . . . . . . . . . . . . 125
5 COMPONENTES PRINCIPALES 137
5.1 INTRODUCCIN . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 137
5.2 PLANTEAMIENTO DEL PROBLEMA . . . . . . . . . . . . . . . . . . . . 138
5.3 CALCULO DE LOS COMPONENTES . . . . . . . . . . . . . . . . . . . . . 141
5.3.1 Clculo del primer componente . . . . . . . . . . . . . . . . . . . . . 141
5.3.2 Clculo del segundo componente . . . . . . . . . . . . . . . . . . . . . 144
5.3.3 Generalizacin . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 145
5.4 PROPIEDADES DE LOS COMPONENTES . . . . . . . . . . . . . . . . . . 149
5.5 ANLISIS NORMADO O CON CORRELACIONES . . . . . . . . . . . . . 151
5.6 INTERPRETACIN DE LOS COMPONENTES . . . . . . . . . . . . . . . 155
5.6.1 Seleccin del nmero de componentes . . . . . . . . . . . . . . . . . . 158
5.6.2 Representacin grca . . . . . . . . . . . . . . . . . . . . . . . . . . 159
5.6.3 Datos atpicos . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 162
5.6.4 Distribucin de los componentes . . . . . . . . . . . . . . . . . . . . . 163
5.7 Generalizaciones . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 171
5.8 Lecturas complementarias . . . . . . . . . . . . . . . . . . . . . . . . . . . . 171
6 ESCALADO MULTIDIMENSIONAL 179
6.1 INTRODUCCIN . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 179
6.2 ESCALADOS MTRICOS: COORDENADAS PRINCIPALES . . . . . . . 180
6.2.1 Construccin de variables a partir de las distancias . . . . . . . . . . 180
6.3 Matrices compatibles con mtricas eucldeas . . . . . . . . . . . . . . . . . . 183
6.3.1 Construccin de las Coordenadas Principales . . . . . . . . . . . . . . 186
6.4 RELACIN ENTRE COORDENADAS Y COMPONENTES PRINCIPALES 189
6.5 BIPLOTS . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 190
6.6 ESCALADO NO MTRICO . . . . . . . . . . . . . . . . . . . . . . . . . . . 193
6.7 Lecturas complementarias . . . . . . . . . . . . . . . . . . . . . . . . . . . . 198
7 ANLISIS DE CORRESPONDENCIAS 201
7.1 INTRODUCCIN . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 201
7.2 BSQUEDA DE LA MEJOR PROYECCIN . . . . . . . . . . . . . . . . . 202
7.2.1 Proyeccin de las Filas . . . . . . . . . . . . . . . . . . . . . . . . . . 203
7.2.2 Proyeccin de las columnas . . . . . . . . . . . . . . . . . . . . . . . 210
7.2.3 Anlisis Conjunto . . . . . . . . . . . . . . . . . . . . . . . . . . . . 211
7.3 LA DISTANCIA JI-CUADRADO . . . . . . . . . . . . . . . . . . . . . . . . 214
7.4 ASIGNACIN DE PUNTUACIONES . . . . . . . . . . . . . . . . . . . . . 220
7.5 Lecturas complementarias . . . . . . . . . . . . . . . . . . . . . . . . . . . . 225
8 ANLISIS DE CONGLOMERADOS 227
8.1 FUNDAMENTOS . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 227
8.2 MTODOS CLSICOS DE PARTICIN . . . . . . . . . . . . . . . . . . . 228
8.2.1 Fundamentos del algoritmo de k-medias . . . . . . . . . . . . . . . . 228
8.2.2 Implementacin del algoritmo . . . . . . . . . . . . . . . . . . . . . . 228
6 NDICE GENERAL
8.2.3 Nmero de grupos . . . . . . . . . . . . . . . . . . . . . . . . . . . . 230
8.3 MTODOS JERRQUICOS . . . . . . . . . . . . . . . . . . . . . . . . . . 240
8.3.1 Distancias y Similaridades . . . . . . . . . . . . . . . . . . . . . . . . 240
8.3.2 Algoritmos Jerrquicos . . . . . . . . . . . . . . . . . . . . . . . . . . 244
8.3.3 Mtodos Aglomerativos . . . . . . . . . . . . . . . . . . . . . . . . . . 244
8.4 CONGLOMERADOS POR VARIABLES . . . . . . . . . . . . . . . . . . . 252
8.4.1 Medidas de distancia y similitud entre variables . . . . . . . . . . . . 252
8.5 Lecturas complementarias . . . . . . . . . . . . . . . . . . . . . . . . . . . . 253
9 DISTRIBUCIONES MULTIVARIANTES 257
9.1 CONCEPTOS BSICOS. . . . . . . . . . . . . . . . . . . . . . . . . . . . . 257
9.1.1 Variables aleatorias vectoriales. . . . . . . . . . . . . . . . . . . . . . 257
9.1.2 Distribucin conjunta . . . . . . . . . . . . . . . . . . . . . . . . . . . 258
9.1.3 Distribuciones marginales y condicionadas . . . . . . . . . . . . . . . 259
9.1.4 Independencia . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 262
9.1.5 La maldicin de la dimensin . . . . . . . . . . . . . . . . . . . . . . 262
9.2 PROPIEDADES DE VARIABLES VECTORIALES . . . . . . . . . . . . . . 263
9.2.1 Vector de medias . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 263
9.2.2 Esperanza de una funcin . . . . . . . . . . . . . . . . . . . . . . . . 264
9.2.3 Matriz de varianzas y covarianzas . . . . . . . . . . . . . . . . . . . . 264
9.2.4 Transformaciones de vectores aleatorios. . . . . . . . . . . . . . . . . 265
9.2.5 Esperanzas de transformaciones lineales . . . . . . . . . . . . . . . . . 266
9.3 Dependencia entre variables aleatorias . . . . . . . . . . . . . . . . . . . . . 267
9.3.1 Esperanzas condicionadas . . . . . . . . . . . . . . . . . . . . . . . . 267
9.3.2 Varianzas condicionadas . . . . . . . . . . . . . . . . . . . . . . . . . 268
9.3.3 Matriz de correlacin . . . . . . . . . . . . . . . . . . . . . . . . . . . 269
9.3.4 Correlaciones Mltiples . . . . . . . . . . . . . . . . . . . . . . . . . . 270
9.3.5 Correlaciones Parciales . . . . . . . . . . . . . . . . . . . . . . . . . . 270
9.4 LA DISTRIBUCIN MULTINOMIAL . . . . . . . . . . . . . . . . . . . . . 271
9.5 LA DISTRIBUCIN DE DIRICHLET . . . . . . . . . . . . . . . . . . . . . 273
9.6 LA NORMAL k-DIMENSIONAL . . . . . . . . . . . . . . . . . . . . . . . . 274
9.6.1 Distribuciones condicionadas . . . . . . . . . . . . . . . . . . . . . . . 277
9.7 DISTRIBUCIONES ELPTICAS . . . . . . . . . . . . . . . . . . . . . . . . 281
9.7.1 Distribuciones esfricas . . . . . . . . . . . . . . . . . . . . . . . . . . 281
9.7.2 Distribuciones elpticas . . . . . . . . . . . . . . . . . . . . . . . . . 282
9.8 (*)LA DISTRIBUCIN DE WISHART . . . . . . . . . . . . . . . . . . . . . 283
9.8.1 Concepto . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 283
9.8.2 Propiedades de la distribucin . . . . . . . . . . . . . . . . . . . . . . 285
9.9 LA T
2
DE HOTELLING . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 286
9.10 DISTRIBUCIONES MEZCLADAS . . . . . . . . . . . . . . . . . . . . . . . 288
9.11 Lecturas complementarias . . . . . . . . . . . . . . . . . . . . . . . . . . . . 290
NDICE GENERAL 7
10 INFERENCIA CON DATOS MULTIVARIANTES 295
10.1 INTRODUCCIN . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 295
10.2 Fundamentos de la Estimacin Mximo Verosimil . . . . . . . . . . . . . . . 295
10.3 Estimacin de los parmetros de variables normales p-dimensionales. . . . . 297
10.4 El mtodo de la razn de verosimilitudes . . . . . . . . . . . . . . . . . . . . 299
10.5 Contraste sobre la media de una poblacin normal . . . . . . . . . . . . . . . 301
10.6 Contrastes sobre la matriz de varianzas de una poblacin normal . . . . . . . 303
10.6.1 Contraste de un valor particular . . . . . . . . . . . . . . . . . . . . . 304
10.6.2 Contraste de independencia . . . . . . . . . . . . . . . . . . . . . . . 305
10.6.3 Contraste de esfericidad . . . . . . . . . . . . . . . . . . . . . . . . . 305
10.6.4 (*)Contraste de esfericidad parcial . . . . . . . . . . . . . . . . . . . . 306
10.6.5 Ajustes en la distribucin . . . . . . . . . . . . . . . . . . . . . . . . 307
10.7 Contraste de igualdad de varias medias: el Anlisis de la Varianza Multivariante307
10.8 Contrastes de datos atpicos . . . . . . . . . . . . . . . . . . . . . . . . . . . 312
10.9 Contrastes de Normalidad . . . . . . . . . . . . . . . . . . . . . . . . . . . . 313
10.9.1 Transformaciones . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 314
10.10Lecturas recomendadas . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 316
11 METODOS DE INFERENCIA AVANZADA MULTIVARIANTE 321
11.1 INTRODUCCIN . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 321
11.2 ESTIMACIN MV CON DATOS FALTANTES . . . . . . . . . . . . . . . . 322
11.2.1 Estimacin MV con el algoritmo EM . . . . . . . . . . . . . . . . . . 323
11.2.2 Estimacin MV de mezclas . . . . . . . . . . . . . . . . . . . . . . . . 325
11.2.3 Estimacin de poblaciones normales con datos ausentes . . . . . . . . 331
11.3 ESTIMACIN ROBUSTA . . . . . . . . . . . . . . . . . . . . . . . . . . . . 334
11.4 ESTIMACIN BAYESIANA . . . . . . . . . . . . . . . . . . . . . . . . . . 337
11.4.1 Concepto . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 337
11.4.2 Distribuciones a priori . . . . . . . . . . . . . . . . . . . . . . . . . . 339
11.4.3 Clculo de la Posterior . . . . . . . . . . . . . . . . . . . . . . . . . . 340
11.4.4 Estimacin Bayesiana de referencia en el modelo normal . . . . . . . 341
11.4.5 Estimacin con informacin a priori . . . . . . . . . . . . . . . . . . . 342
11.5 CONTRASTES BAYESIANOS . . . . . . . . . . . . . . . . . . . . . . . . . 344
11.5.1 Conceptos bsicos . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 344
11.5.2 Comparacin entre los contraste bayesianos y los clsicos . . . . . . . 346
11.6 Seleccin de Modelos . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 346
11.6.1 El Criterio de Akaike . . . . . . . . . . . . . . . . . . . . . . . . . . . 346
11.6.2 El criterio BIC . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 348
11.6.3 Relacin entre el BIC y EL AIC . . . . . . . . . . . . . . . . . . . . . 350
11.7 Lecturas complementarias . . . . . . . . . . . . . . . . . . . . . . . . . . . . 350
12 ANLISIS FACTORIAL 355
12.1 INTRODUCCIN . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 355
12.2 EL MODELO FACTORIAL . . . . . . . . . . . . . . . . . . . . . . . . . . . 356
12.2.1 Hiptesis bsicas . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 356
8 NDICE GENERAL
12.2.2 Propiedades . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 357
12.2.3 Unicidad del modelo . . . . . . . . . . . . . . . . . . . . . . . . . . . 358
12.2.4 Normalizacin del modelo factorial . . . . . . . . . . . . . . . . . . . 360
12.2.5 Nmero mximo de factores . . . . . . . . . . . . . . . . . . . . . . . 361
12.3 EL MTODO DEL FACTOR PRINCIPAL . . . . . . . . . . . . . . . . . . 362
12.3.1 Estimacin de las comunalidades . . . . . . . . . . . . . . . . . . . . 363
12.3.2 Generalizaciones . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 368
12.4 ESTIMACIN MXIMO VEROSMIL . . . . . . . . . . . . . . . . . . . . . 370
12.4.1 Estimacin MV de los parmetros . . . . . . . . . . . . . . . . . . . . 370
12.4.2 Otros mtodos de estimacin . . . . . . . . . . . . . . . . . . . . . . . 372
12.5 DETERMINACIN DEL NMERO DE FACTORES . . . . . . . . . . . . 374
12.5.1 Contraste de verosimilitud . . . . . . . . . . . . . . . . . . . . . . . . 374
12.5.2 Criterios de seleccin . . . . . . . . . . . . . . . . . . . . . . . . . . . 377
12.6 ROTACIN DE LOS FACTORES . . . . . . . . . . . . . . . . . . . . . . . 379
12.7 ESTIMACIN DE LOS FACTORES . . . . . . . . . . . . . . . . . . . . . . 381
12.7.1 Los factores como parmetros . . . . . . . . . . . . . . . . . . . . . . 381
12.7.2 Los factores como variables aleatorias . . . . . . . . . . . . . . . . . . 382
12.8 DIAGNOSIS DEL MODELO . . . . . . . . . . . . . . . . . . . . . . . . . . 383
12.9 Anlisis Factorial Conrmatorio . . . . . . . . . . . . . . . . . . . . . . . . . 386
12.10Relacin con componentes principales . . . . . . . . . . . . . . . . . . . . . . 388
12.11Lecturas recomendadas . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 389
13 ANLISIS DISCRIMINANTE 397
13.1 INTRODUCCIN . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 397
13.2 CLASIFICACIN ENTRE DOS POBLACIONES . . . . . . . . . . . . . . . 398
13.2.1 Planteamiento del Problema . . . . . . . . . . . . . . . . . . . . . . . 398
13.2.2 Poblaciones Normales: Funcin lineal discriminante . . . . . . . . . . 401
13.2.3 Interpretacin Geomtrica . . . . . . . . . . . . . . . . . . . . . . . . 402
13.2.4 Clculo de Probabilidades de error . . . . . . . . . . . . . . . . . . . 405
13.2.5 Probabilidades a posteriori . . . . . . . . . . . . . . . . . . . . . . . . 406
13.3 GENERALIZACIN PARA VARIAS POBLACIONES NORMALES . . . . 407
13.3.1 Planteamiento General . . . . . . . . . . . . . . . . . . . . . . . . . . 407
13.3.2 Procedimiento operativo . . . . . . . . . . . . . . . . . . . . . . . . . 409
13.4 POBLACIONES DESCONOCIDAS. CASO GENERAL . . . . . . . . . . . 412
13.4.1 Regla estimada de clasicacin . . . . . . . . . . . . . . . . . . . . . 412
13.4.2 Clculo de Probabilidades de error . . . . . . . . . . . . . . . . . . . 414
13.5 VARIABLES CANNICAS DISCRIMINANTES . . . . . . . . . . . . . . . 415
13.5.1 El caso de dos grupos . . . . . . . . . . . . . . . . . . . . . . . . . . . 415
13.5.2 Varios Grupos . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 417
13.5.3 Variables cannicas discriminantes . . . . . . . . . . . . . . . . . . . 420
13.6 DISCRIMINACIN CUADRTICA. DISCRIMINACIN DEPOBLACIONES
NO NORMALES . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 424
13.7 DISCRIMINACIN BAYESIANA . . . . . . . . . . . . . . . . . . . . . . . 427
13.8 Lecturas complementarias . . . . . . . . . . . . . . . . . . . . . . . . . . . . 428
NDICE GENERAL 9
14 DISCRIMINACIN LOGSTICA Y OTROS MTODOS DE CLASIFI-
CACIN 433
14.1 INTRODUCCIN . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 433
14.2 EL MODELO LOGIT . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 434
14.2.1 Modelos con respuesta cualitativa . . . . . . . . . . . . . . . . . . . . 434
14.2.2 El modelo logit con datos normales . . . . . . . . . . . . . . . . . . . 436
14.2.3 Interpretacin del Modelo Logstico . . . . . . . . . . . . . . . . . . . 437
14.3 LA ESTIMACIN DEL MODELO LOGIT . . . . . . . . . . . . . . . . . . 438
14.3.1 Estimacin MV . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 438
14.3.2 Contrastes . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 442
14.3.3 Diagnosis . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 445
14.4 EL MODELO MULTILOGIT . . . . . . . . . . . . . . . . . . . . . . . . . . 445
14.5 OTROS MTODOS DE CLASIFICACIN . . . . . . . . . . . . . . . . . . 446
14.5.1 rboles de Clasicacin . . . . . . . . . . . . . . . . . . . . . . . . . 446
14.5.2 Redes Neuronales . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 449
14.5.3 Mtodos no Paramtricos . . . . . . . . . . . . . . . . . . . . . . . . 452
14.5.4 Otros Mtodos . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 454
14.6 Lecturas complementarias . . . . . . . . . . . . . . . . . . . . . . . . . . . . 455
15 CLASIFICACIN MEDIANTE MEZCLAS DE DISTRIBUCIONES 457
15.1 FUNDAMENTOS . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 457
15.2 EL METODO de K-MEDIAS para mezclas . . . . . . . . . . . . . . . . . . 458
15.2.1 Nmero de grupos . . . . . . . . . . . . . . . . . . . . . . . . . . . . 460
15.3 ESTIMACIN DE MEZCLAS DE NORMALES . . . . . . . . . . . . . . . 464
15.3.1 Las ecuaciones de mxima verosimilitud para la mezcla . . . . . . . . 464
15.3.2 Resolucin mediante el algoritmo EM . . . . . . . . . . . . . . . . . . 466
15.3.3 Aplicacin al anlisis de conglomerados . . . . . . . . . . . . . . . . . 468
15.4 MTODOS BAYESIANOS . . . . . . . . . . . . . . . . . . . . . . . . . . . 470
15.4.1 Estimacin Bayesiana de Mezclas de Normales . . . . . . . . . . . . . 470
15.5 MTODOS DE PROYECCIN . . . . . . . . . . . . . . . . . . . . . . . . . 472
15.6 Lecturas complementarias . . . . . . . . . . . . . . . . . . . . . . . . . . . . 475
16 CORRELACIN CANNICA 477
16.1 INTRODUCCIN . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 477
16.2 Construccin de las variables cannicas . . . . . . . . . . . . . . . . . . . . . 478
16.2.1 La primera variable cannica . . . . . . . . . . . . . . . . . . . . . . . 478
16.3 Las r variables cannicas . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 481
16.3.1 Propiedades de las variables y correlaciones cannicas . . . . . . . . . 482
16.4 ANLISIS MUESTRAL . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 483
16.5 INTERPRETACIN GEOMTRICA . . . . . . . . . . . . . . . . . . . . . 487
16.6 CONTRASTES . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 488
16.7 EXTENSIONES A MS DE DOS GRUPOS . . . . . . . . . . . . . . . . . . 490
16.8 RELACIN CON OTRAS TCNICAS ESTUDIADAS . . . . . . . . . . . . 491
16.9 ANLISIS CANNICO ASIMTRICO . . . . . . . . . . . . . . . . . . . . 492
10 NDICE GENERAL
16.9.1 Coecientes de redundancia . . . . . . . . . . . . . . . . . . . . . . . 493
16.9.2 Anlisis cannico asimtrico . . . . . . . . . . . . . . . . . . . . . . . 494
16.10Lecturas complementarias . . . . . . . . . . . . . . . . . . . . . . . . . . . . 495
A Datos 505
0.1 Prefacio
El crecimiento de los ordenadores y la facilidad de adquirir y procesar grandes bancos de
datos en todas las ciencias ha estimulado el desarrollo y utilizacin del anlisis estadstico
multivariante en muchas disciplinas. En las Ciencias Econmicas y empresariales los mtodos
estadsticos multivariantes se utilizan para cuanticar el desarrollo de un pas, determinar
las dimensiones existentes entre ingresos y gastos familiares, comprender el comportamiento
de los consumidores y medir la calidad de productos y servicios. En Ingeniera para disear
mquinas inteligentes que reconozcan formas o caracteres, para construir clasicadores que
aprendan interactivamente con el entorno y para establecer sistemas de control de procesos.
En Ciencias de la computacin para desarrollar sistemas de inteligencia articial. En Medi-
cina para construir procedimientos automticos de ayuda al diagnstico. En Psicologa para
interpretar los resultados de pruebas de aptitudes. En Sociologa y Ciencia Poltica para el
anlisis de encuestas de actitudes y opiniones sociales y polticas.
Este libro presenta las tcnicas actuales ms utilizadas del Anlisis multivariante. Su
contenido se ha seleccionado para que pueda ser til a distintos tipos de audiencias, pero esta
especialmente orientado como texto en un curso orientado a las aplicaciones pero donde se
desee proporcionar al estudiante los fundamentos de las herramientas presentadas de manera
que se facilite su utilizacin inteligente conociendo sus posibilidades y limitaciones. Para
conseguir este objetivo, el libro incluye numerosos ejemplos de aplicacin de la tcnicas, pero
tambin presenta con cierto detalle los fundamentos estadsticos de las tcnicas expuestas.
En la exposicin se ha procurado prescindir de los detalles tcnicos que tienen ms inters
para especialistas, y este material se ha presentado en los apndices y en los ejercicios al
nal de cada captulo. Por otro lado, se recomienda que los estudiantes realizen un proyecto
donde apliquen los mtodos estudiados a sus propios datos, para que adquieran la experiencia
prctica que les permitir utilizarlos despus con xito en su trabajo profesional.
Este libro ha tenido una largo perodo de gestacin. Mi inters por el Anlisis Multivari-
ante se lo debo a Rafael Romero, Catedrtico en la Universidad Politcnica de Valencia y
excelente profesor, de quien aprend, a nales de los aos 70, la potencia de estos mtodos
como herramientas de investigacin emprica y su inmenso campo de aplicacin. La primera
versin de este libro tena la mitad del tamao actual y se redact por primera vez a nales
de los aos 80 para un curso de Doctorado en la Universidad Politcnica de Madrid. Desde
entonces, cada ao el manuscrito ha ido sufrido revisiones y ampliaciones, fruto de su uso
como notas de clase en varias universidades, y especialmente en la Universidad Carlos III de
Madrid. Estoy agradecido a mis estudiantes del curso de doctorado sobre anlisis multivari-
ante que han sugerido muchas mejoras y detectado errores y erratas de versiones anteriores.
En esa labor estoy especialmente en deuda con Ana Justel, Juan Antonio Gil, Juan Carlos
0.1. PREFACIO 11
Ibaez, Mnica Benito, Pilar Barrios, Pedro Galeano y Rebeca Albacete, por sus numerosas
sugerencias y cuidadosa lectura de versiones anteriores de estos captulos. He tenido tambin
la fortuna de contar con excelentes comentarios de mis colegas Carlos Cuadras, Javier Girn,
Jorge Martinez, Alberto Muoz, Rosario Romera, Juan Romo, Santiago Velilla, George Tiao,
Victor Yohai y Rubn Zamar, que me han ayudado a mejorar el texto en muchos aspectos.
El libro incorpora resultados recientes, fruto de investigaciones conjuntas con Javier Prieto
y Julio Rodriguez, con los que ha sido un placer trabajar y de los que ha aprendido mu-
cho. Adems, Julio Rodriguez, me ha ayudado en la preparacin de muchos de los ejemplos
y ha ledo y comentado sucesivas versiones del manuscrito encontrando siempre formas de
mejorarlo.
12 NDICE GENERAL
Captulo 1
INTRODUCCIN
1.1 EL ANLISIS DE DATOS MULTIVARIANTES
Describir cualquier situacin real, por ejemplo, las caractersticas fsicas de una persona, la
situacin poltica en un pas, las propiedades de una imagen, el rendimiento de un proceso, la
calidad de una obra de arte o las motivaciones del comprador de un producto, requiere tener
en cuenta simultneamente varias variables. Para describir las caractersticas fsicas de una
persona podemos utilizar variables como su estatura, su peso, la longitud de sus brazos y de
sus piernas, etc. Para describir la situacin poltica de un pas, variables como la existencia
o no de un rgimen democrtico, el grado de participacin poltica de los ciudadanos, el
nmero de partidos y sus aliados, etc. El anlisis de datos multivariantes tienen por objeto
el estudio estadstico de varias variables medidas en elementos de una poblacin. Pretende
los siguientes objetivos.
1. Resumir el conjunto de variables en una pocas nuevas variables, construidas como
transformaciones de las originales, con la mnima prdida de informacin.
2. Encontrar grupos en los datos si existen.
3. Clasicar nuevas observaciones en grupos denidos.
4. Relacionar dos conjuntos de variables.
Vamos a explicar estos objetivos. El lector habr encontrado que la descripcin de una
realidad compleja donde existen muchas variables se simplica mediante la construccon de
uno o varios ndices o indicadores que la resumen. Por ejemplo, el crecimiento de los precios
en una economa se resume en un ndice de precios, la calidad de una universidad o de un
departamento se resume en unos pocos indicadores y las dimensiones del cuerpo humano se
resumen en la ropa de confeccin en unas pocas variables indicadoras del conjunto. Disponer
de estas indicadores tiene varias ventajas: (1) si son pocas podemos representarlas grca-
mente y comparar distintos conjuntos de datos o instantes en el tiempo; (2) simplican el
anlisis al permitir trabajar con un nmero menor de variables; (3) si las variables indicado-
ras pueden interpretarse, podemos mejorar nuestro conocimiento de la realidad estudiada.
El anlisis multivariante de datos proporciona mtodos objetivos para conocer cuntas vari-
ables indicadoras, que a veces se denomina factores, son necesarias para describir una realidad
compleja y determinar su estructura.
El segundo objetivo es identicar grupos si existen. Si observamos un conjunto de vari-
13
14 CAPTULO 1. INTRODUCCIN
ables en empresas, esperamos los datos indiquen una divisin de las empresas en grupos
en funcin de su rentabilidad, su ecacia comercial o su estructura productiva. En muchas
situaciones los grupos son desconocidos a priori y queremos disponer de un procedimien-
to objetivo para obtener los grupos existentes y clasicar las observaciones. Por ejemplo,
deseamos construir una tipologa de clientes, de votantes o de procesos productivos.
Un tercer objetivo relacionado con el anterior aparece cuando los grupos estn bien
denidos a priori y queremos clasicar nuevas observaciones. Por ejemplo, queremos clasicar
a clientes que solicitan crditos como ables o no, personas como enfermas o no, o disear
una mquina que clasique monedas o billetes en clases prejadas.
Para alcanzar estos tres objetivos una herramienta importante es entender la estructura
de dependencia entre las variables, ya que las relaciones entre las variables son las que
permiten resumirlas en variables indicadoras, encontrar grupos no aparentes por las variables
individuales o clasicar en casos complejos. Un problema distinto es relacionar dos conjuntos
de variables. Por ejemplo, podemos disponer de un conjunto de variables de capacidad
intelectual y otros de resultados profesionales y queremos relacionar ambos conjuntos de
variables. En particular, los dos grupos de variables pueden corresponder a las mismas
variables medidas en dos momentos distintos en el tiempo o en el espacio y queremos ver la
relacin entre ambos conjuntos.
Las tcnicas de anlisis multivariante tienen aplicaciones en todos los campos cientcos
y comenzaron desarrollndose para resolver problemas de clasicacin en Biologa, se ex-
tendieron para encontrar variables indicadoras y factores en Psicometra, Marketing y las
Ciencias sociales y han alcanzado una gran aplicacin en Ingeniera y Ciencias de la com-
putacin como herramientas para resumir la informacin y disear sistemas de clasicacin
automtica y de reconocimiento de patrones. Algunos ejemplos indicativos de sus aplica-
ciones en distintas disciplinas, muchos de los cuales sern objeto de anlisis detallado en este
libro, son:
Administracin de Empresas: Construir tipologas de clientes.
Agricultura: Clasicar terrenos de cultivo por fotos areas.
Arqueologa: Clasicar restos arqueolgicos.
Biometra: Identicar los factores que determinan la forma de un organismo vivo.
Ciencias de la Computacin: Disear algoritmos de clasicacin automtica.
Ciencias de la Educacin: Investigar la efectividad del aprendizaje a distancia.
Ciencias del medio ambiente: Investigar las dimensiones de la contaminacin ambiental.
Documentacin: Clasicar revistas por sus artculos y construir indicadores bibliomtri-
cos.
Economa: Identicar las dimensiones del desarrollo econmico.
Geologa: Clasicar sedimentos.
Historia: Determinar la importancia relativa de los factores que caracterizan los periodos
prerevolucionarios.
Ingeniera: Transmitir ptimamente seales por canales digitales.
Lingstica: Encontrar patrones de asociacin de palabras.
Medicina: Identicar tumores mediante imgenes digitales.
Psicologa: Determinar los factores que componen la inteligencia humana
Sociologa y Ciencia Poltica: Consstruir tipologas de los votantes de un partido.
1.2. ESTRUCTURA DEL LIBRO 15
Algunas de esas aplicaciones han tenido una repercusin importante en la evolucin del
anlisis mutivariante, como veremos en la seccin 1.4.
1.2 ESTRUCTURA DEL LIBRO
Los datos de partida para un anlisis multivariante estn habitualmente en una tabla de dos
o mas dimensiones y para trabajar con ellos es muy conveniente considerar la tabla como
una o varias matrices. El captulo 2 presenta los fundamentos matemticos de lgebra lineal
que son necesarios para trabajar con matrices y entender sus propiedades. Este captulo
est diseado de forma instrumental para proporcionar los conceptos bsicos y las tcnicas
necesarias para los anlisis estadsticos presentados en los captulos posteriores.
El anlisis multivariante pude plantearse a dos niveles. En el primero, el objetivo es
utilizar slo los datos disponibles y extraer la informacin que contienen. Los mtodos
encaminados a este objetivo se conocen como mtodos de exploracin de datos, y se
presentan en la primera parte del libro que cubre los captulos 3 al 8. A un nivel ms
avanzado, se pretende obtener conclusiones sobre la poblacin que ha generado los datos, lo
que requiere la construccin de un modelo que explique su generacin y permita prever lo
datos futuros. En este segundo nivel hemos generado conocimiento sobre el problema que va
ms all del anlisis particular de los datos disponibles. Los mtodos encaminados a este
objetivo se conocen como mtodos de inferencia, y se presentan en la segunda parte del
libro, captulos 9 al 16 .
El primer paso en la descripcin de datos multivariantes es describir cada variable y
comprender la estructura de dependencia que existe entre ellas. Este anlisis se presenta
en el captulo 3. Siempre que sea posible conviene utilizar tcnicas grcas para resumir y
representar la informacin contenida en los datos, y analizar la forma de medir las variables
para obtener una representacin lo ms simple posible. Estos problemas se estudian en el
captulo 4. Estos dos captulos extienden al caso multivariante la descripcin habitual de
datos estadsticos estudiada en los textos bsicos de Estadstica.
El problema de resumir o condensar la informacin de un conjunto de variables se abor-
da, desde el punto de vista descriptivo, construyendo una nuevas variables indicadoras que
sinteticen la informacin contenida en las variables originales. Existen distintos mtodos ex-
ploratorios para conseguir este objetivo. Con variables continuas, el mtodo ms utilizado se
conoce como componentes principales, y se estudia en el captulo 5. Los componentes prin-
cipales nos indican las dimensiones necesarias para representar adecuadamente los datos.
Con ellos podemos hacer grcos de los datos en pocas dimensiones, con mnima prdida de
informacin, para entender su estructura subyacente.
El anlisis de componentes principales puede generalizarse en dos direcciones: la primera
cuando los datos disponibles no corresponden a variables sino a similitudes o semejanzas entre
elementos. Interesa entonces investigar cuantas dimensiones tienen estas similitudes, este es
el objetivo de las escalas multidimensionales, que se estudian en el captulo 6. La segunda
generalizacin de componentes principales es para datos cualitativos, que se presentan en una
tabla de contingencia, y esto conduce al anlisis de correspondencias, que se presenta en el
captulo 7. Esta tcnica permite adems cuanticar de forma objetiva atributos cualitativos.
16 CAPTULO 1. INTRODUCCIN
El problema descriptivo de investigar si los elementos de nuestra muestra forman un grupo
homogneo o no, y, en caso de que existan varios grupos de datos identicar que elementos
pertenecen a cada uno, se aborda con las herramientas de mtodos de agrupamiento (cluster
methods en ingls). Por ejemplo, supongamos que tenemos una encuesta de los gastos en
los hogares espaoles. Podemos encontrar que, de manera natural, la estructura de gastos
es distinta en los hogares unipersonales que en los que conviven adultos con nios pequeos,
y la relacin entre distintas variables del gasto puede ser distinta en ambos. Conviene,
en estos casos, dividir la muestra en grupos de observaciones homogneas y estudiarlos
separadamente. En otros casos el anlisis de la homogeneidad de los datos tiene por objeto
construir tipologas: de consumidores, de artistas por su utilizacin del color, de productos,
o del tipo de consultas en una pgina web. Estos mtodos se estudian en el captulo 8.
Las tcnicas descriptivas para resumir, condensar y clasicar datos y relacionar variables
se conocen a veces como tcnicas de exploracin de datos multivariantes, y se han pop-
ularizado en los ltimos aos en ingeniera y ciencias de la computacin con el nombre de
minera de datos, nombre que indica la capacidad de estas tcnicas para extraer informa-
cin a partir de la matera prima datos. Los captulos 3 al 8 forman pues un curso bsico de
minera de datos. Sin embargo estas herramientas no permiten directamente obtener con-
clusiones generales respecto al proceso o sistema que genera los datos. Para ello necesitamos
los mtodos presentados en la segunda parte del libro, que comprende los captulos, 9 al
16, y all se aborda el objetivo ms ambicioso de crear conocimiento respecto al problema
mediante un modelo estadstico.
La construccin de un modelo estadstico requiere el concepto de probabilidad y las her-
ramientas bsicas para la construccin de modelos para varias variables se exponen en el
captulo 9. La construccin del modelo requiere estimar los parmetros del modelo a partir
de los datos disponibles, y contrastar hiptesis respecto a su estructura. Los fundamentos
de la inferencia multivariante se estudian en el captulo 10. Algunos problemas de esti-
macin multivariante pueden formularse como estimacin con valores ausentes, y un mtodo
eciente para llevar a cabo esta estimacin, el algoritmo EM, se presenta en el captulo
11. Este captulo aborda tambin la estimacin (1) permitiendo la posibilidad de que una
pequea fraccin de los datos incluyan errores de medida o datos heterogeneos; (2) incorpo-
rando adems informacin a priori respecto a los parmetros. En el primer caso tenemos la
estimacin robusta y en el segundo la Bayesiana (que, como la clsica, puede adems hac-
erse robusta). Este captulo considera adems el problema de seleccionar el mejor modelo
explicativo entre varios posibles.
Los modelos para generar conocimiento mediante una reduccin del nmero de variables
se conocen como modelos de anlisis factorial, y pueden verse como una generalizacin de
los componentes principales. Si podemos reemplazar un conjunto amplio de variables por
unos pocos factores o variables latentes, no observables, que permiten prever las variables
originales hemos aumentado nuestro conocimiento del problema. En primer lugar, descubri-
mos el mecanismo generador de los datos, en segundo podemos realizar predicciones respecto
a datos no observados pero generados por el mismo sistema. Este es el objeto del anlisis
factorial que se presenta en el captulo 12.
El problema de la homogeneidad se aborda desde el punto de vista inferencial segn dos
puntos de vista principales. El primero es el problema de clasicacin o discriminacin:
1.2. ESTRUCTURA DEL LIBRO 17
Objetivos Enfoque descriptivo (informacin) Enfoque inferencial (conocimiento
Resumir los datos Descripcin de datos (Cap. 3 y 4) Constr. de modelos (Cap 9, 10 y1
Obtener indicadores Componentes principales (Cap. 5) Anlisis Factorial (Cap. 12)
Escalas multid. (Cap.6)
Anlisis de Correspon.(Cap. 7)
Clasicar Anlisis de Conglomerados (Cap. 8) A. Discriminante (Cap.13 y 14)
Construir grupos Anlisis de Conglomerados (Cap. 8) Clas. con mezclas (Cap 15)
Relacionar Conj. variab. Regres. mul.(Cap 3) y Mult. (Cap 16) Correlacin cannica (Cap. 16)
Tabla 1.1: Clasicacin de los mtodos multivariantes estudiados en este libro
conocemos que los datos pueden provenir de una de dos (o ms) poblaciones conocidas y se
desea clasicar un nuevo dato en una de las poblaciones consideradas. Por ejemplo, se desea
clasicar declaraciones de impuestos como correctas o fraudulentas, personas como enfermos
o sanos, empresas como solventes o no, billetes por su valor en una maquina automtica,
cartas escritas a mano por su cdigo postal en un mquina clasicadora, preguntas a un
contestador telefnico por su contenido. Este es el objetivo de los mtodos de anlisis
discriminante presentados en los captulos 13 y 14.
El segundo punto de vista es investigar si los datos disponibles han sido generados por
una sola o varias poblaciones desconocidas. Los mtodos para clasicar las observaciones se
conocen como mtodos de clasicacin mediante mezclas, y se estudian en el captulo 15.
Estos mtodos generalizan los mtodos de agrupamiento estudiados desde el punto de vista
descriptivo.
El problema inferencial multivariante de relacionar variables aparece cuando estas se
separan en dos conjuntos, y tiene varias variantes:
(1) Anlisis de la varianza multivariante: el primero incluye variables cualitativas y
el segundo variables continuas, y queremos ver el efecto de las cualitativas sobre las del
segundo grupo. Por ejemplo, observamos en distintas clases de una universidad, denidas
por variables cualitativas como titulacin, curso etc, varias variables que miden los resultados
de las encuestas de evaluacin docente y se desea investigar como los resultados varan en
las distintos clases. Este tema se estudia en el captulo 10 como una aplicacin directa de
los contrastes estadsticos multivariantes
(2) Regresin multivariante: el primer conjunto incluye variables continuas o discretas y
queremos utilizarlas para explicar las variables continuas del segundo grupo. Por ejemplo,
queremos relacionar un conjunto de variables de inversin con un grupo de variables resultado
en distintas empresas. Estos mtodos se presentan brevemente en el captulo 16.
(3) Correlacin cannica: queremos encontrar indicadores del primer grupo que explique
lo ms posible a los indicadores de las variables del segundo grupo. El nmero de relaciones
independientes entre los indicadores nos informa respecto a la dimensin de la relacin. Por
ejemplo, queremos buscar indicadores de la inversin en empresas, medida por un conjunto
de variables, que explicen indicadores de resultado, construidos tambin como resumen de un
conjunto de variables de resultados econmicos. Estos mtodos se desarrollan en el captulo
16.
La tabla1.1 resume la clasicacin de mtodos multivariantes estudiados en el libro.
18 CAPTULO 1. INTRODUCCIN
omo
1.3 PROGRAMAS DE ORDENADOR
Es impensable aplicar el anlisis multivariante sin utilizar el ordenador y recomendamos
al lector que reproduzca los ejemplos y realice los ejercicios del libro con cualquiera de los
programas estadsticos disponibles. En el libro se han utilizado, por orden de dicultad,los
siguientes:
(1) STATGRAPHICS que permite aplicar las herramientas bsicas contenidas en el libro,
teniendo buenas capacidades grcas fciles de usar.
(2) MINITAB es un programa ms completo, tambin de fcil manejo. Es ms completo
que el anterior y ms comodo para la manipulacin de datos y la lectura de cheros en
distintos formatos.
(3) SPSS es un programa ms avanzado y con mejores capacidades para el manejo de
datos. Est dirigido a investigadores sociales que desean analizar grandes encuestas con
variables de distintos tipos y permite mucha exibilidad en la entrada de los datos y en su
manipulacin, as como en la presentacin de los resultados. Adems este programa tiene
algoritmos de clculo bastante ables y muy contrastados con distintas aplicaciones.
(4) S-PLUS est dirigido a un usuario con buena formacin estadstica, e incluye muchas
rutinas que el lector puede combinar para hacer anlisis de datos ms a su medida. Puede
programarse tambin fcilmente para implantar nuevos desarrollos, y contiene los mtodos
ms modernos que todava no se han implantado en SPSS. El programa R es similar a
S-PLUS y tiene la ventaja de ser de distribucin gratuita.
(5) MATLAB y GAUSS son programas con excelentes capacidades para la manipulacin
matricial, por lo que son muy recomendables para los lectores que quieran escribir sus propios
programas y probar anlisis nuevos, no incluidos en los paquetes tradicionales. Tienen la
ventaja de la exibilidad y el inconveniente de que son menos automticos para anlisis
tradicionales.
Adems de estos programas existen otros muchos paquetes estadsticos, como SAS,
BMDP, STATA, etc, que estan tambin bien adaptados para aplicar las tcnicas multi-
variantes descritas en este libro, pero sobre los que el autor tiene menos experiencia directa.
1.4 UN POCO DE HISTORIA
El primer mtodo para medir la relacin estadstica entre dos variables es debido a Francis
Galton (1822-1911), que introduce el concepto de recta de regresin y la idea de correlacin
entre variables en su libro Natural Inheritance, publicado en 1889 cuando Galton tena 67
aos. Estos descubrimientos surgen en sus investigaciones sobre la transmisin de los rasgos
hereditarios, motivadas por su inters en contrastar empricamente la teora de la evolucin
de las especies, propuesta por su primo Charles Darwin en 1859. El concepto de correlacin
es aplicado en las ciencias sociales por Francis Edgeworth (1845-1926), que estudia la normal
multivariante y la matriz de correlacin. Karl Pearson (1857-1936), un distinguido estadstico
britnico creador del famoso contraste ji-cuadrado que lleva su nombre, obtuvo el estimador
1.4. UN POCO DE HISTORIA 19
del coeciente de correlacin en muestras, y se enfrent al problema de determinar si dos
grupos de personas, de los que se conocen su medidas fsicas, pertenen a la misma raza.
Este problema intrig a Harold Hotelling (1885-1973), un joven matemtico y economista
americano, que, atrado por la Estadstica, entonces una joven disciplina emergente, viaja en
1929 a la estacin de investigacin agrcola de Rothamsted en el Reino Unido para trabajar
con el ya clebre cientco y gura destacada de la estadstica, R. A. Fisher (1890-1962).
Hotelling se interes por el problema de comparar tratamientos agrcolas en funcin de
varias variables, y descubri las semejanzas entre este problema y el planteado por Pearson.
Debemos a Hotelling (1931) el contraste que lleva su nombre, que permite comparar si dos
muestras multivariantes vienen de la misma poblacin. A su regreso a la Universidad de
Columbia en Nueva York, Truman Kelley, profesor de pedadoga en Harvard, plante a
Hotelling el problema de encontrar los factores capaces de explicar los resultados obtenidos
por un grupo de personas en test de inteligencia. Hotelling (1933) invent los componentes
principales, que son indicadores capaces de resumir de forma ptima un conjunto amplio
de variables y que dan lugar posteriormente al anlisis factorial. El problema de obtener el
mejor indicador resumen de un conjunto de variables haba sido abordado y resuelto desde
otro punto de vista por Karl Pearson en 1921, en su trabajo para encontrar el plano de mejor
ajuste a un conjunto de observaciones astronmicas. Posteriormente, Hotelling generaliza
la idea de componentes principales introduciendo el anlisis de correlaciones cannicas, que
permiten resumir simultaneamente dos conjuntos de variables.
El problema de encontrar factores que expliquen los datos fu planteado por primera vez
por Charles Spearman (1863-1945), que observ que los nios que obtenan buenas puntua-
ciones en un test de habilidad mental tambin las obtenan en otros, lo que le llev a postular
queeran debidas a un factor general de inteligencia, el factor g (Spearman, 1904). L. Thur-
stone (1887-1955) estudi el modelo con varios factores y escribi uno de los primeros textos
de anlisis factorial (Thurstone, 1947). El anlisis factorial fu considerado hasta los aos 60
como una tcnica psicomtrica con poca base estadstica, hasta que los trabajos de Lawley y
Maxwell (1971) establecieron formalmente la estimacin y el contraste del modelo factorial
bajo la hiptesis de normalidad. Desde entonces, las aplicaciones del modelo factorial se
han extendido a todas las ciencias sociales. La generalizacin del modelo factorial cuando
tenemos dos conjuntos de variables y unas explican la evolucin de las otras es el modelo
LISREL, que ha sido ampliamente estudiado por Joreskov (1973), entre otros.
La primera solucin al problema de la clasicacin es debida a Fisher en 1933. Fisher
inventa un mtodo general, basado en el anlisis de la varianza, para resolver un problema
de discriminacin de crneos en antropologa. El problema era clasicar un crneo encon-
trado en una excavacin arqueolgica como perteneciente a un homnido o no. La idea de
Fisher es encontrar una variable indicadora, combinacin lineal de las variables originales de
las medidas del crneo, que consiga mxima separacin entre las dos poblaciones en consid-
eracin. En 1937 Fisher visita la India invitado por P. C. Mahalanobis (19***), que haba
inventado la medida de distancia que lleva su nombre, para investigar las diferentes razas
en la India. Fisher percibe enseguida la relacin entre la medida de Mahalanobis y sus
resultados en anlisis discriminante y ambos consiguen unicar estas ideas y relacionarlas
con los resultados de Hotelling sobre el contraste de medias de poblaciones multivariantes.
Unos aos despus, un estudiante de Mahalanobis, C. R. Rao, va a extender el anlisis de
20 CAPTULO 1. INTRODUCCIN
Fisher para clasicar un elemento en ms de dos poblaciones.
Las ideas anteriores se obtienen para variables cuantitativas, pero se aplican poco de-
spus a variables cualitativas o atributos. Karl Pearson haba introducido el estadstico que
lleva su nombre para contrastar la independencia en una tabla de contingencia y Fisher, en
1940, aplica sus ideas de anlisis discriminante a estas tablas. Paralelamente, Guttman, en
psicometra, presenta un procedimiento para asignar valores numricos (construir escalas) a
variables cualitativas que est muy relacionado con el mtodo de Fisher. Como ste lti-
mo trabaja en Biometra, mientras Guttman lo hace en psicometra, la conexin entre sus
ideas ha tardado ms de dos dcadas en establecerse. En Ecologa, Hill (1973) introduce
un mtodo para cuanticar variables cualitativas que esta muy relacionado con los enfoques
anteriores. En los aos 60 en Francia un grupos de estadsticos y lingistas estudian tablas
de asociacin entre textos literarios y J. P. Benzecri inventa el anlisis de corresponden-
cias con un enfoque geomtrico que generaliza, y establece en un marco comn, muchos
de los resultados anteriores. Benzecri visita la Universidad de Princeton y los laboratorios
Bell donde Carroll y Shepard estn desarrollando los mtodos de escalado multidimensional
para analizar datos cualitativos, que haban sido iniciados en el campo de la psicometra
por Torgeson (1958). A su vuelta a Francia, Benzecri funda en 1965 el Departamento de
Estadstica de la Universidad de Pars y publica en 1972 sus mtodos de anlisis de datos
cualitativos mediante anlisis de correspondencias.
La aparicin del ordenador transforma radicalmente los mtodos de anlisis multivari-
ante que experimentan un gran crecimiento desde los aos 70. En el campo descriptivo los
ordenadores hacen posible la aplicacin de mtodos de clasicacin de observaciones (anli-
sis de conglomerados o anlisis cluster) que se basan cada vez ms en un uso extensivo del
ordenador. MacQueen (1967) introduce el algoritmo de de k-medias. El primer ajuste de
una distribucin mezclada fue realizado por el mtodo de los momentos por K. Pearson y el
primer algortimo de estimacin multivariante es debido a Wolfe (1970). Por otro lado, en el
campo de la inferencia, el ordenador permite la estimacin de modelos sosticados de mezclas
de distribuciones para clasicacin, tanto desde el punto de vista clsico, mediante nuevos
algoritmos de estimacin de variables ausentes, como el algoritmo EM, debido a Dempster,
Laird y Rubin (1977), como desde el punto de vista Bayesiano, con los mtodos modernos
de simulacin de cadenas de Markov, o mtodos MC
2
( Markov Chain Monte Carlo).
En los ltimos aos los mtodos multivariantes estn sufriendo una transformacin en dos
direcciones: en primer lugar, las grandes masas de datos disponibles en algunas aplicaciones
estn conduciendo al desarrollo de mtodos de aproximacin local, que no requieren hipte-
sis generales sobre el conjunto de observaciones. Este enfoque permite construir indicadores
no lineales, que resumen la informacin por tramos en lugar de intentar una aproximacin
general. En el anlisis de grupos, este enfoque local esta obteniendo tmbin ventajas apre-
ciables. La segunda direccin prescinde de las hiptesis sobre las distribuciones de los datos
y cuantica la incertidumbre mediente mtodos de computacin intensiva. Es esperable que
las crecientes posibilidades de clculo proporcionadas por los ordenadores actuales amplie el
campo de aplicacin de estos mtodos a problemas ms complejos y generales.
1.5. LECTURAS COMPLEMENTARIAS 21
1.5 LECTURAS COMPLEMENTARIAS
Existe una excelente coleccin de textos de anlisis multivariante en lengua inglesa. Entre
ellos destacaremos Flury (1997), Johnson and Wichern (1998), Mardia, Kent y Bibby (1979),
Gnandesikan (1997) y Seber (1984). Estos libros combinan la presentacin de resultados
tericos y ejemplos y cubren un material similar al aqu expuesto. Textos ms aplicados son
Dillon y Goldstein (1984), Flury y Riedwyl (1988) y Hair et al (1995). En espaol, Cuadras
(1991), es un excelente texto. Otras referencias de inters son Escudero (1977), Lebart et
al (1985) y Batista y Martinez (1989). Hand et al (2000) es una buena referencia para la
relacin entre minera de datos y estadstica.
El libro de Krzanowski y Marriot (1994, 1995) contiene numerosas referencias histricas
del desarrollo de estos mtodos. Otros textos ms especcos que comentan sobre los or-
genes histricos de una tcnica y presentan abundantes regerencias son Jackson (1991) para
componentes principales, Gower and Hand (1996), para los escalogramas multidimension-
ales, Greenacre (1984) para el anlisis de correspondencias, Hand (1997) para los mtodos de
clasicacin, Harman (1980) y Bartholomew (1995) para el anlisis factorial, Bollen (1989)
para el modelo LISREL, McLachlan y Basford (1988) para los mtodos de clasicacin me-
diante mezclas y Schafer (1997) para el algoritmo EM y los nuevos mtodos MC
2
de clculo
intensivo. Efron y Tibshirani (1993) presentan interesantes ejemplos de las posibilidades del
bootstrap para el anlisis multivariante.
22 CAPTULO 1. INTRODUCCIN
Captulo 2
LGEBRA MATRICIAL
2.1 INTRODUCCIN
La informacin de partida en el anlisis multivariante es una tabla de datos correspondiente a
distintas variables medidas en los elementos de un conjunto. La manipulacin de estos datos
se simplica mucho utilizando el concepto de matriz y su propiedades, que se presentan en
este captulo. La descripcin de datos parte de las posiciones de las observaciones como
puntos en el espacio y las ideas que aqu se presentan pueden ayudar al lector a desarrollar
la intuicin geomtrica, de gran ayuda para visualizar y comprender la estructura de los
procedimientos del anlisis multivariante. Por esta razn, recomendamos al lector dedicar
el tiempo necesario para comprender los conceptos bsicos presentados en este captulo.
Su estudio puede abordarse con dos objetivos distintos. Para los lectores interesados en
las aplicaciones y sin formacin previa en lgebra lineal, recomendamos concentrarse en las
secciones 2.1, 2.2 y 2.3 y la introduccin a la seccin 2.4. Para los lectores que hayan seguido
ya un curso de lgebra, este captulo puede servir de repaso de los conceptos bsicos y de
profundizacin en el uso de valores y vectores propios y proyecciones ortogonales, que forman
la base de muchas de las tcnicas estudiadas en este libro.
El concepto principal de este captulo es el concepto de vector. Un conjunto de n datos
numricos de una variable puede representarse geomtricamente asociando cada valor de la
variable a una dimensin del espacio n dimensional, obteniendo un punto en ese espacio,
y tambin el vector que une el origen con dicho punto. Esta analoga entre variables y
vectores es til, porque los mtodos de descripcin estadstica de una variable tienen una
correspondencia clara con las operaciones bsicas que realizamos con vectores.
Cuando en lugar de medir una variable en n elementos observamos en cada elemento los
valores de p variables, los datos pueden disponerse en una tabla rectangular con p columnas
y n las, de manera que cada columna tenga los valores de una variable y cada la los
valores de las p variables en cada elemento. Si consideramos cada columna como un vector
n dimensional, este conjunto de p vectores se denomina matriz. As como la descripcin
univariante se asocia a operar con el vector de datos, la descripcin de datos multivariantes
se asocia geomtricamente a operar con la matriz de datos. En particular, el estudio de la
variabilidad y la dependencia lineal entre las p variables conduce al concepto de matrices
cuadradas, que son aquellas que contienen el mismo nmero de las que de columnas. Las
23
24 CAPTULO 2. LGEBRA MATRICIAL
matrices cuadradas son tiles para representar, por ejemplo, las varianzas y covarianzas
o correlaciones entre las p variables, y sobre ellas se denen ciertas funciones escalares,
como el determinante y la traza, que veremos tienen una clara interpretacin estadstica:
el determinante es una medida de la dependencia lineal y la traza de la variabilidad, del
conjunto de las variables. Adems, las matrices cuadradas tienen ciertas propiedades bsicas,
asociadas al tamao y la direccin de los vectores que la forman. El tamao de una matriz
est relacionada con sus valores propios, y las direcciones con los vectores propios.
La estimacin de parmetros mediante una muestra en modelos lineales puede verse
geomtricamente como la proyeccin ortogonal del vector (o vectores) que representa la
muestra sobre un subespacio. Por esta razn se presentan con detalle algunos resultados
de proyecciones ortogonales que no suelen incluirse en textos introductorios de lgebra lin-
eal. Finalmente, este captulo incluye algunos resultados bsicos de clculo diferencial con
vectores y matrices.
Para favorecer el aprendizaje del material de este captulo al estudiante que se enfrenta
a l por primera vez hemos incluido ejercicios despus de cada seccin, y recomendamos
al lector que intente resolverlos. Las secciones marcadas con un asterstico son algo ms
avanzadas y pueden saltarse en una primera lectura sin prdida de continuidad. El lector
puede encontrar una explicacin ms detallada de los conceptos aqu expuestos en cualquier
texto de lgebra matricial. Un libro claro en espaol es Arves, Alvarez y Marcelln (1999),
y en ingls Hadi (1996) presenta una introduccin muy sencilla y fcil de seguir con pocos
conocimientos bsicos. Searle (1982) y Basilevsky (1983) estn especialmente orientados a
las aplicaciones estadsticas. Noble y Daniel (1977) es una buena introduccin de carcter
general.
2.2 VECTORES
Geomtricamente un dato numrico puede representarse como un punto en un espacio de
dimensin uno. Si elegimos una recta con origen y direccin (positiva o negativa) denidos,
podemos asociar a cada punto de la recta la magnitud del segmento que une el origen con
el punto. Un conjunto de n datos numricos puede representarse como n puntos sobre una
recta pero tambin, y esta representacin es muy til, como un punto en el espacio de n
dimensiones. En dicho espacio podemos tambin asociar al conjunto de datos el vector que
une el origen de coordenadas con dicho punto. La longitud de un vector se denomina norma.
Existe una correspondencia entre las propiedades del conjunto de datos y las propiedades
del vector asociado. La media de los datos es proporcional a la proyeccin del vector de datos
sobre la direccin del vector constante (que se dene como el que tiene todas las coordenadas
iguales). La desviacin tpica es la distancia promedio entre el vector de datos y el vector
constante. La dependencia lineal entre dos variables se mide por la covarianza. El concepto
anlogo vectorial es el de producto escalar, que es la herramienta principal para estudiar la
posicin en el espacio de dos vectores. Con variables estandarizadas la covarianza se reduce
al coeciente de correlacin, que es equivalente al producto escalar de dos vectores de norma
unitaria.
Cuando consideramos varios vectores, por ejemplo p variables medidas sobre n elementos
de una poblacin, el concepto principal es la nocin de dependencia lineal. La dependencia
2.2. VECTORES 25
lineal establece cuantas variables realmente distintas tenemos. Por ejemplo, si en un conjunto
de variables una de ellas representa salarios en euros y otra los mismos salarios pero medidos
en miles de euros, aunque ambas variables no sean idnticas (la primera es siempre mil
veces mas grande que la segunda), es claro que ambas miden la misma caracterstica y
contienen la misma informacin: las dos variables son linealmente dependientes, ya que
conocida una podemos determinar el valor de la otra. Generalizando esta idea, diremos que
p variables son linealmente dependientes si podemos obtener los valores de una cualquiera
de ellas mediante una combinacin lineal del resto. Por ejemplo, las tres variables, nmero
de hombres, nmero de mujeres y nmero de personas (que es la suma de las anteriores),
son linealmente dependientes, ya que podemos calcular el valor de cualquiera conocidos los
valores de las otras dos.
2.2.1 Deniciones bsicas
Un conjunto de n nmeros reales x puede representarse como un punto en el espacio de n
dimensiones, <
n
. Deniremos el vector x como el segmento orientado que une el origen de
coordenadas con el punto x. La direccin es importante, porque no es lo mismo el vector x
que el x. Con esta correspondencia, a cada punto del espacio en <
n
le asociamos un vector.
Por ejemplo, en la gura 2.1 se representa dos vectores en el plano (<
2
): el vector x =

3
2

, y
el vector y =

1
0

. En adelante, representaremos un vector mediante x, para diferenciarlo del


escalar x, y llamaremos <
n
al espacio de todos los vectores de n coordenadas o componentes.
En particular, un conjunto de nmeros con todos los valores iguales se representar por un
vector constante, que es aquel con todas sus coordenadas iguales. Un vector constante
es de la forma c1, donde c es cualquier constante y 1 el vector con todas sus coordenadas
iguales a la unidad.
En Estadstica podemos asociar a los valores de una variable en n elementos un vector
en <
n
, cuyo componente isimo es el valor de la variable en el elemento i. Por ejemplo, si
medimos las edades de tres personas en una clase y obtenemos los valores 20, 19 y 21 aos,
esta muestra se representa por el vector tridimensional
x =
_
_
20
19
21
_
_
La suma (o diferencia) de dos vectores x, y, ambos en <
n
, se dene como un nuevo
vector con componentes iguales a la suma (diferencia ) de los componentes de los sumandos:
x +y =
_

_
x
1
.
.
.
x
n
_

_
+
_

_
y
1
.
.
.
y
n
_

_
=
_

_
x
1
+y
1
.
.
.
x
n
+y
n
_

_
.
Es inmediato comprobar que la suma de vectores es asociativa (x + (y +z) = (x +y) +z)
y conmutativa (x +y = y +x).
La suma de dos vectores corresponde a la idea intuitiva de trasladar un vector al extremo
del otro y construir la lnea que va desde el origen del primero al extremo del segundo. Por
ejemplo, la suma de los vectores x =

3
2

e y =

1
0

,en la gura 2.1, es el vector z =

2
2

.
26 CAPTULO 2. LGEBRA MATRICIAL
y
3
2
x
z = x + y
2
- 1
Figura 2.1. Suma de dos vectores
La operacin suma (resta) de dos vectores da lugar a otro vector y estadsticamente
corresponde a generar una nueva variable como suma (resta) de otras dos anteriores. Por
ejemplo, si x representa el nmero de trabajadores varones en un conjunto de empresas e y
el nmero de trabajadoras, la variable x +y representa el nmero total de trabajadores y la
variable x y la diferencia entre hombres y mujeres en cada empresa.
El producto de una constante por un vector, es un nuevo vector cuyos componentes
son los del vector inicial multiplicados por la constante.
z = kx =
_

_
kx
1
.
.
.
kx
n
_

_
.
Multiplicar por una constante equivale a un cambio en las unidades de medicin. Por
ejemplo, si en lugar de medir el nmero de trabajadores en unidades (variable x) lo hacemos
en centenas (variable z) entonces la variable z es igual a x/100.
Llamaremos vector transpuesto x
0
, de otro x, a un vector con los mismos componentes,
pero escritos ahora en la:
x
0
= (x
1
, ..., x
n
).
Al transponer un vector columna se obtiene un vector la. Generalmente los vectores la
se utilizan para describir los valores de p variables distintas en un mismo elemento de una
poblacin.
El producto escalar o interno de dos vectores x, y, ambos en <
n
, que escribiremos
x
0
y o y
0
x, es el escalar obtenido al sumar los productos de sus componentes.
x
0
y = y
0
x =
n
X
i=1
x
i
y
i
.
Se llamar norma o longitud de un vector x, a la raz cuadrada del producto escalar
x
0
x. Se escribe kxk:
kxk =

x
0
x =
q
x
2
1
+. . . +x
2
n
.
2.2. VECTORES 27
La norma es la longitud del segmento que une el origen con el punto x. Por ejemplo, la
norma del vector x en la gura 2.1 es
kxk =

3
2
+ 2
2
=

13
que corresponde a la longitud de la hipotenusa en el tringulo rectngulo formado por el
vector y sus proyecciones sobre los ejes.
El producto escalar de dos vectores puede calcularse tambin como el producto de las
normas de los vectores por el coseno del ngulo que forman. Para ilustrar este concepto
consideremos la gura 2.1 donde se representan los vectores x =

a
0

y y =

a
c

. Observemos
que el producto escalar es x
0
y =a
2
y que este mismo resultado se obtiene multiplicando la
norma de ambos vectores, kxk = a y kyk =

a
2
+c
2
por el coseno del ngulo que forma,
dado por a/

a
2
+c
2
. Observemos que el producto escalar puede tambin expresarse como el
producto de la norma de un vector por la proyeccin del otro sobre l. Si uno de los vectores
tiene norma uno, el producto escalar es directamente la proyeccin sobre l del otro vector.
Generalizando esta idea, se dene el ngulo entre dos vectores x, y por la relacin:
cos =
x
0
y
kxk kyk
.
Si dos variables tiene media cero, el coseno del ngulo que forman dos vectores es su coe-
ciente de correlacin. Como cos 1, se demuestra en general que:
|x
0
y| kxk kyk .
que se conoce como la desigualdad de Schwarz.
Dos vectores son ortogonales, o perpendiculares, si y slo si su producto escalar es cero.
Por la denicin de ngulo
x
0
y = kxk kyk cos ,
siendo el ngulo que forman los vectores. Si = 90

el coseno es cero y tambin lo ser el


producto escalar.
28 CAPTULO 2. LGEBRA MATRICIAL

a
x
y
c
Figura 2.1: Coseno del ngulo entre dos vectores
El producto escalar tiene una clara interpretacin estadstica. Para describir una variable
tomamos su media. Para describir un vector podemos tomar su proyeccin sobre el vector
constante. El vector constante de modulo unitario en dimensin n es
1

n
1, y la proyeccin
de x sobre este vector
1

n
1
0
x =
P
x
i
/

n = x

n. El vector constante resultante de esta


proyeccin es
1

n
1(x

n) =x1. Por tanto, la media es el escalar que dene el vector obtenido


al proyectar el vector de datos sobre la direccin constante. Tambin puede interpretarse
como la norma estandarizada del vector obtenido al proyectar los datos en la direccin del
vector constante, donde para estandarizar la norma de un vector dividiremos siempre por

n, siendo n la dimensin del espacio.


La variabilidad de los datos se mide por la desviacin tpica, que es la distancia entre el
vector de datos y el vector constante. La proyeccin del vector de datos sobre la direccin
del vector constante produce el vector x1, y la norma del vector diferencia, xx1, mide la
distancia entre el vector de datos y el vector constante. Tomando la norma estandarizada,
dividiendo por la raz de la dimensin del espacio
1

n
kxx1k =
r
P
(x
i
x)
2
n
La medida de dependencia lineal entre dos variables, x, y, es la covarianza. La covarianza
es el producto escalar estandarizado de los dos vectores medidos en desviaciones a la media,
o tomando sus diferencias respecto al vector constante. Si promediamos el producto escalar
de estos vectores
1
n
(xx1)
0
(yy1) =
P
(x
i
x)(y
i
y)
n
se obtiene directamente la covarianza. Para variables con media cero, el producto escalar
promedio de los dos vectores que representan sus valores normalizado es directamente la
2.2. VECTORES 29
covarianza. Para variables estandarizadas, de media cero y desviacin tpica unidad, la
covarianza es el coeciente de correlacin. Para vectores de norma unitaria, el producto
escalar es el coseno del ngulo que forman, que es la interpretacin geomtrica del coeciente
de correlacin. La implicacin estadstica de ortogonalidad es incorrelacin. Si dos variables
son ortogonales, es decir los vectores que las caracterizan forman un ngulo de 90 grados,
llamando r al coeciente de correlacin como r = cos = 0, las variables estn incorreladas.
2.2.2 Dependencia Lineal
Un conjunto de vectores x
1
, ..., x
p
es linealmente dependiente si existen escalares c
1
, ..., c
p
,
no todos nulos, tales que:
c
1
x
1
+... +c
p
x
p
= 0
donde 0 representa el vector nulo que tiene todos los componentes iguales a cero. En par-
ticular el vector de ceros, 0, es siempre linealmente dependiente de cualquier otro vector x
no nulo. En efecto, aplicando la denicin siempre podemos escribir para cualquier escalar
c no nulo
0x+c0 = 0
Intuitivamente, si los vectores son linealmente dependientes podemos expresar alguno de
ellos como combinacin lineal de los dems. Por ejemplo, supuesto c
1
6= 0 y llamando
a
i
= c
i
/c
1
, tenemos
x
1
= a
2
x
2
+. . . +a
p
x
p
.
Si un conjunto de vectores no es linealmente dependiente diremos que los vectores son lin-
ealmente independientes. En el espacio <
p
el nmero mximo de vectores linealmente
independientes es p. En efecto, si tenemos un conjunto de p + h vectores donde existen, al
menos, p linealmente independientes (x
i
, i = 1, ..., p) podemos expresar cualquier otro vector
del conjunto, x
p+1
, como
x
p+1
=
p
X
i=1
a
i
x
i
,
y resolviendo este sistema de p ecuaciones y p incgnitas obtendremos los coecientes a
i
.
Por tanto, el mximo nmero de vectores linealmente independientes es p.
En Estadstica un conjunto de vectores linealmente independientes corresponde a un
conjunto de variables que no estn relacionadas linealmente de forma exacta. Por ejemplo,
si dos variables miden la misma magnitud pero en unidades distintas sern linealmente
dependientes. Tambin sern linealmente dependientes si el conjunto de variables incluye
una que se ha generado como una combinacin lineal de las otras (por ejemplo, tenemos p
variables que representan los precios en euros de p productos en n pases de Europa (n > p) y
se incluye tambin como variable p+1 el precio ponderado de estos productos en los mismos
pases).
30 CAPTULO 2. LGEBRA MATRICIAL
Dado un conjunto de p vectores linealmente independientes (x
1
, ..., x
p
), en <
n
(p n),
llamaremos espacio generado por este conjunto de vectores al espacio que contiene todos
los vectores z, en <
n
, que pueden expresarse como combinacin lineal de stos. El conjunto
(x
1
, ..., x
p
) se llama base generadora del espacio, o simplemente base del espacio. Si z
pertenece a este espacio:
z = c
1
x
1
+... +c
p
x
p
.
Es fcil comprobar que z estar en un espacio de dimensin p: en efecto, podemos tomar
las primeras p coordenadas de z y obtener los coecientes c
1
, ..., c
p
del sistema de p ecuaciones
y p incgnitas resultante. Las n p coordenadas siguientes de z quedan determinadas, al
estarlo los c
i
, por lo que, obviamente, z slo tiene p componentes independientes, estando,
por lo tanto, en un espacio de dimensin p. El espacio generado por un conjunto de variables
incluye a todas las variables que pueden generarse como ndices o combinaciones lineales de
las originales.
La dimensin de un espacio E
p
se dene como el nmero de vectores linealmente inde-
pendientes que lo generan.
Diremos que un vector x es ortogonal a un subespacio E
p
si x es ortogonal a todo
vector de E
p
, es decir, si y pertenece al subespacio E
p
, que escribiremos y E
p
, entonces:
y
0
x = 0.
Llamaremos complemento ortogonal de un subespacio E
p
, de dimensin p, y lo deno-
taremos por C(E
p
), al espacio que contiene todos los vectores ortogonales a E
p
. Entonces,
si x E
p
, y C(E
p
) se verica x
0
y = 0. La dimensin de C(E
p
) ser n p. En particular el
complemento ortogonal del espacio generado por un vector que contiene todos los vectores
ortogonales a l se denomina espacio nulo del vector.
Ejercicios 2.2
2.2.1 Dados los tres vectores
a =

1
2

, b =

2
1

, c =

2
1

a) Representarlos en el plano <


2
.
b) Calcular los vectores suma y diferencia de a y b, ab.
c) Calcular la norma de los tres vectores.
d) Calcular los productos escalares,ab , bc, ac. Qu podemos deducir de estos produc-
tos?
e) Calcular la proyeccin del vector a sobre el b.
f) Justicar si los tres vectores son linealmente independientes. Si no lo son, expresar
uno cualquiera como combinacin lineal de los otros dos.
2.2.2 En <
3
se denomina base cannica a la formada por los vectores a = (1, 0, 0)
0
, b = (0, 1, 0)
0
,
y c = (0, 0, 1). Se pide
a) Expresar el vector d = (1, 1, 2)
0
, como suma de los vectores de la base cannica.
b) Calcular la proyeccin del vector d sobre cada uno de los vectores de la base cannica.
c) Calcular el coseno del ngulo entre el vector d y los vectores de la base cannica.
d) Indicar la dimensin del espacio generado por el vector d y obtener una base del
complemento ortogonal a ese espacio.
2.3. MATRICES 31
2.2.3 Dados los vectores en <
3
, a = (1, 0, 2)
0
, b = (1, 1, 2)
0
, c = (2, 1, 6)
0
.
a) Calcular los vectores b, a +c, y b +c
b) Calcular la norma de los vectores, 4a y -2c.
c) Calcular el producto escalar, ab y bc.
d) Calcular la proyeccin del vector a sobre el b.
2.2.4 Calcular la dimensin del espacio generado por los tres vectores del ejercicio anterior
a) Pertenece el vector d = (2, 0, 8)
0
al espacio generado por estos tres vectores? Si
es as expresarlo como suma de una base del espacio.
b) Indicar la dimensin del espacio complemento ortogonal al generado por estos tres
vectores.
c) Encontrar una base del complemento ortogonal.
d) Calcular el coseno de ngulo entre los vectores d y a.
2.2.5 Dados los tres vectores a = (1, 0, 0, 0, 1)
0
, b = (1, 1, 0, 0, 0)
0
, y c = (0, 0, 0, 1, 1), en
<
5
.
a) Indicar la dimensin del espacio generado por estos vectores y obtener un nuevo vector
miembro de ese espacio.
b) Calcular la dimensin del espacio complemento ortogonal al generado por esos vectores.
c) Calcular una base del espacio complemento ortogonal.
d) Demostrar que los vectores a +b, a +c, y b +c tambin son linealmente independi-
entes.
2.2.6 Considerar las 9 variables que denen los productos alimenticios en los datos
EUROALI del apndice de datos como 9 vectores en un espacio de dimensin 25. Se pide:
a) Calcular el vector proyeccin de cada vector sobre el vector de constantes.
b) Calcular la distancia entre cada vector y el vector de constantes.
c) Calcular el producto escalar de los vectores correspondientes a las variables CR y CB.
d)Calcular el coseno del ngulo que forman los vectores CR y CB.
2.2.7 Considerar cada pas de los datos EUROALI del apndice de datos como un vectores
en un espacio de dimensin 9. Se pide:
a) Indicar si estos vectores son linealmente independientes
b) Justicar que el nmero mximo de vectores linealmente independientes es ocho.
c) Calcular e interpretar el producto escalar entre Austria y Blgica.
d) Determinar el ngulo que forman Austria y Blgica.
e) Calcular la distancia de cada pas al vector de constantes. Interpretar el resultado.
2.3 MATRICES
Para trabajar conjuntamente con p variables o vectores denimos el concepto de matriz.
Una matriz es un conjunto de nmeros dispuestos en las y columnas y puede verse como un
conjunto de vectores columna o un conjunto de vectores la. Diremos que una matriz tiene
dimensiones np si tiene n las y p columnas. Si en una matriz intercambiamos las las por
las columnas, se obtiene una nueva matriz que se denomina la traspuesta de la primera. En
particular, un vector columna de orden n es una matriz de dimensiones n 1(su traspuesta
es un vector la), y un escalar es una matriz de dimensiones 1 1 (e igual a su traspuesta).
32 CAPTULO 2. LGEBRA MATRICIAL
La generalizacin del concepto de producto escalar entre dos vectores es el producto
matricial, que se dene como una nueva matriz que contiene todos los productos escalares
entre los vectores la de la primera matriz y los vectores columna de la segunda. Para que
este producto sea posible la primera matriz tiene que tener tantas columnas como las la
segunda. Por la propia denicin de deduce que este producto no es conmutativo. Dire-
mos que premultiplicamos la matriz A por la B cuando realizamos el producto BA y que
postmultiplicamos la A por la B si realizamos el producto AB. Un producto matricial que
puede siempre aplicarse entre dos matrices cualesquiera es el producto de Kronecker.
Una propiedad bsica de una matriz es el rango, que indica el nmero mximo de vectores
la o columna linealmente independientes que la forman. En una matriz de n las y p
columnas (n > p), sus p columnas pueden ser vectores linealmente independientes en <
n
,
pero sus n las no, ya los vectores la pertenecen a <
p
donde slo pueden existir p < n
vectores la linealmente independientes. El rango mximo de la matriz es p y cuando esto
ocurre decimos que la matriz tienen rango completo. El rango de una matriz es igual al de
su traspuesta.
Las matrices cuadradas son aquellas que tienen el mismo nmero de las que de columnas.
Las matrices cuadradas tienen ciertas propiedades similares a los escalares. Podemos denir
la matriz inversa, y existen distintas formas de obtener una medida escalar de una matriz
cuadrada. La primera es la traza, la segunda el determinante y la tercera construir una
forma cuadrtica a partir de la matriz. Veremos en el captulo siguiente que todas estas
propiedades tienen una interpretacin estadstica en el anlisis de datos multivariantes.
2.3.1 Deniciones bsicas
Llamaremos matriz, A, de dimensiones (n p) a un conjunto de n p nmeros reales,
ordenados en n las y p columnas. Por ejemplo, si medimos p variables en n individuos de
una poblacin podemos representar cada variable por un vector columna de dimensin n y
el conjunto de datos muestrales ser una matriz n p. En particular, cada vector columna
es pues una matriz (n 1). Una matriz (np), puede verse como un conjunto de p vectores
columna en <
n
, o como un conjunto de n vectores la en <
p
. Llamaremos matriz traspuesta
A
0
a la matriz obtenida a partir de A intercambiando las por columnas. Si A es n p, A
0
ser p n. Se verica:
(A
0
)
0
= A.
La suma de dos matrices se dene slo cuando ambas tienen las mismas dimensiones.
Cada elemento de la matriz suma se obtiene sumando los elementos correspondientes de los
sumandos
A+B = C
_
_
a
11
. . . a
1p
... ...
a
n1
. . . a
np
_
_
+
_
_
b
11
. . . b
1p
... ...
b
n1
. . . b
np
_
_
=
_
_
c
11
. . . c
1p
... ...
c
n1
. . . c
np
_
_
con c
ij
= a
ij
+b
ij
. Se verica:
(a) A+B = B+A
2.3. MATRICES 33
(b) (A+B)
0
= A
0
+B
0
.
Sumar dos matrices equivale en trminos estadsticos a sumar los valores de las variables
correspondientes a las columnas de las matrices. Por ejemplo, si la matriz A representa el
nmero de incidencias leves de p clases distintas en una empresa en n semanas y la B el
nmero de incidencias graves en las mismas semanas, la suma representa el nmero total de
incidencias.
2.3.2 Productos entre matrices
Vamos a estudiar dos tipos de productos entre matrices. El primero y ms importante es
el producto matricial, lo representaremos por AB y slo es posible cuando el nmero
de columnas de A es igual al nmero de las de B. Entonces, si A(n p) y B(p h), el
producto es una matriz C(n h) con trminos:
c
ij
=
p
X
m=1
a
im
b
mj
Es decir, el trmino c
ij
representa el producto escalar del vector a
0
i
, denido por la i-sima
la de A, por el vector b
j
, de la j-sima columna de B. Si escribimos:
A =
_

_
a
0
1
.
.
.
a
0
n
_

_
B = [b
1
...b
h
]
donde todos los vectores tienen dimensiones p, el producto matricial de estas dos matrices
es:
AB = C =
_

_
a
0
1
b
1
. . . a
0
1
b
h
.
.
.
.
.
.
a
0
n
b
1
. . . a
0
n
b
h
_

_
(nh)
.
Observemos que el producto de dos matrices no es en general conmutativo, ya que si AB
existe (el nmero de columnas de A es igual al nmero de las de B), el producto BA puede
no existir. Adems, cuando existe, el producto AB es, en general, distinto de BA.
En particular, el producto de una matriz (n p) por un vector (p 1), Ax, ser un
nuevo vector de dimensin (n 1) cuyos componentes se obtienen por el producto escalar
de las las de A por el vector x. Si
y = Ax,
la matriz A transforma un vector x en <
p
en otro vector y en <
n
. Como veremos ms
adelante, los movimientos y deformaciones de vectores en el espacio son el resultado de
multiplicar el vector por una matriz.
Denimos la matriz identidad de dimensin n, I
n
, como la matriz de dimensiones nn
que tiene unos en las posiciones ii y ceros fuera de ella. En general la dimensin est clara
34 CAPTULO 2. LGEBRA MATRICIAL
por el contexto y utilizaremos la letra I para representar la matriz identidad de cualquier
dimensin:
I =
_

_
1 . . . 0
.
.
. 1
.
.
.
0 . . . 1
_

_
.
El producto matricial tiene, entre otras, las propiedades siguientes, donde suponemos que
las matrices tienen las dimensiones adecuadas para que los productos estn denidos:
(a) A(B+C) = AB+AC
(b) (AB)
0
= B
0
A
(c) AI = IA = A
(*)Producto de Kronecker
El producto de Kronecker nos resuelve el problema de construir matrices grandes cuyos
elementos son matrices dadas ms pequeas y se dene para matrices cualesquiera. Dadas
dos matrices A
kn
y B
pq
, su producto de Kronecker, que representaremos con el smbolo ,
se efecta multiplicando cada elemento de la primera por todos los elementos de la segunda,
de manera que la matriz resultante tiene un nmero de las igual al producto de las las,
kp, y un nmero de columnas igual al producto de las columnas, nq. Este producto existe
siempre sean cual sean las dimensiones de las matrices, y se representa por :
AB =
_

_
a
11
B a
12
B . . . a
1n
B
a
21
B a
22
B . . . a
2n
B
.
.
.
.
.
.
.
.
.
a
k1
B a
k2
B . . . a
kn
B
_

_
.
donde la matriz producto es de orden kp nq. Por ejemplo,

1
2

1 0 3

=

1 0 3
2 0 6

Las propiedades siguientes son resultado directo de la denicin:


(a) si c es un escalar c A = Ac = cA.
(b) si x e y son vectores:
x y
0
= y
0
x
(c) (AB)
0
= A
0
B
0
(d) (AB)(CD) = ACBD, supuesto que los productos AC y BD existen.
2.3. MATRICES 35
En estadstica el producto de Kronecker se utiliza para construir matrices cuyos elementos
son a su vez matrices, con frecuencia repetidas. Por ejemplo, si queremos construir una matriz
que tenga como elementos diagonales la matriz A, denimos el producto
I
3
A =
_
_
A 0 0
0 A 0
0 0 A
_
_
donde si I
3
es la matriz identidad y 0 es una matriz de ceros, ambas de dimensines 33.
2.3.3 Rango de una matriz
Una propiedad bsica de una matriz es el rango, que indica el nmero mximo de vectores
la o columna linealmente independientes que contiene la matriz. En una matriz de n
p , suponiendo n > p, el mximo nmero de vectores linealmente independientes es p. En
efecto, si consideramos los vectores formados por las p columnas, tenemos p vectores en <
n
,
que pueden ser linealmente independientes. Sin embargo, si consideramos los n vectores la,
estos son vectores de <
p
, y el mximo nmero de vectores independientes en este espacio es
p. Por tanto, el rango mximo de la matriz es p, y cuando esto ocurre decimos que la matriz
es de rango completo. Por la denicin es inmediato que el rango de una matriz y de su
transpuesta es el mismo.
En general, si llamamos rg(A) al rango de la matriz A se verica:
1. rg(A
np
) min(n, p). El rango es igual o menor que el menor de n y p.
2. Si rg(A
np
) = n < p o rg(A
np
) = p < n, se dice que A es de rango completo.
3. rg(A+B) rg(A) +rg(B).
4. rg(AB) mnimo(rg(A), rg(B))
5. rg(A
0
A) = rg(AA
0
) = rg(A).
Las dos primeras propiedades resultan de la denicin. Es fcil comprobar que el rango
de la suma no puede ser mayor que la suma de rangos. Por ejemplo en la suma

1 2 0
0 1 0

1 0 0
0 0 0

=

0 2 0
0 1 0

,
la primera matriz tiene rango dos, (los dos vectores columna no nulos son linealmente inde-
pendientes), la segunda rango uno (solo un vector es linealmente independiente) y la suma
tiene rango uno.
Si multiplicamos dos matrices, el rango de la matriz resultante no puede exceder a la de
menor rango. Por ejemplo, en el producto

1 1 1
2 1 0

_
_
1 1
1 0
0 1
_
_
=

0 0
3 2

36 CAPTULO 2. LGEBRA MATRICIAL


cada una de las matrices que se multiplican tiene rango dos, pero el producto tiene solo
rango uno. Finalmente, si multiplicamos una matriz por su transpuesta el producto tiene
el mismo rango que la matriz original. En Estadstica el rango de una matriz de datos nos
indica la dimensin real necesaria para representar el conjunto de datos, o el nmero real de
variables distintas de que disponemos. Analizar el rango de una matriz de datos es la clave
para reducir el nmero de variables sin prdida de informacin.
2.3.4 Matrices Cuadradas
Una matriz es cuadrada si n = p. Dentro de las matrices cuadradas se llaman simtricas
a las que tienen cada la igual a la correspondiente columna, es decir a
ij
= a
ji
. Una matriz
simtrica es, por tanto, idntica a su traspuesta, y diremos que A es simtrica si
A
0
= A.
Una clase de matrices cuadradas y simtricas muy importante son las matrices diago-
nales, que tienen nicamente trminos no nulos en la diagonal principal. Un caso particular
importante de matriz diagonal es la matriz identidad o unidad, I, ya estudiada.
En particular, los productos AA
0
y A
0
A conducen a matrices simtricas. Las matrices
cuadradas aparecen de manera natural cuando consideramos estos productos en matrices de
datos. Si A es (n p) y representa los valores de p variables de media cero en n individuos
de una poblacin, la matriz cuadrada de orden p, A
0
A/n, va a contener, como veremos en
el captulo siguiente, las varianzas y covarianzas entre las variables. Otra matriz cuadrada
y simtrica de amplio uso en estadstica es la matriz de correlacin, que contiene unos en la
diagonal y fuera de ella los coecientes de correlacin entre las variables.
Sobre las matrices cuadradas podemos denir dos medidas escalares que resumen su
tamao global : el determinante y la traza. Ambas son medidas relativas, ya que se modican
si multiplicamos los elementos de la matriz por constantes, como veremos a continuacin.
Determinante de una matriz
Dada una matriz A cuadrada y diagonal con trminos a
ii
se denomina determinante de la
matriz, y lo representaremos por |A|, al escalar resultante de multiplicar todos los trminos
diagonales de la matriz. Supongamos inicialmente una matriz de orden dos como
A =

2 0
0 4

si consideramos las columnas de esta matriz como vectores, cada vector est situado en uno
de los ejes coordenados. La gura 2.2 ilustra esta situacin. El determinante de esta matriz
es 24=8, igual al rea del rectngulo determinado por ambos vectores.
2.3. MATRICES 37
4
2
Figura 2.2: El determinante como rea encerrada por los vectores columna de la matriz
Generalizando esta idea, dada una matriz A cuadrada de orden n con trminos a
ij
, se
denomina determinante de la matriz, y lo representaremos por |A|, al escalar obtenido
mediante la suma de todos los productos de n elementos de la matriz, a
1i
1
a
2i
2
, ..., a
nin
, que
podemos formar de manera que en cada producto aparezca una vez un elemento de cada
la y uno de cada columna. Cada trmino tiene adems un signo, que depende del nmero
de cambios entre dos subndices consecutivos, que es necesario para poner los subndices
i
1
, . . . , i
n
de ese trmino en el orden natural 1, 2, . . . , n. Escribiremos :
|A| =
X
(1)
r
a
1i
1
a
2i
2
, ..., a
nin
donde el sumatorio est extendido a las n! permutaciones de los segundos ndices. Los ndices
i
1
, . . . i
n
son una permutacin de los nmeros 1, 2, . . . , n y r es el nmero de cambios entre
dos subndices necesario para ponerlos en el orden 1, 2, . . . , n.
Por ejemplo, en la matriz 2 2 el nmero de permutaciones de los nmeros 1 y 2 es dos
((1,2) y (2,1)). La primera permutacin est en el orden natural luego el nmero de cambios
es r = 0 y el trmino a
11
a
22
ser positivo. La segunda requiere permutar el uno y el dos, con
lo que r = 1 y el trmino a
12
a
21
ser negativo. El determinante ser:
|A| = a
11
a
22
a
12
a
21
.
y, como demostraremos ms adelante, puede interpretarse de nuevo como el rea del paralel-
ogramo determinado por los vectores columna. La situacin se ilustra en la gura ??. Esta
interpretacin sugiere que si una columna es proporcional a la otra, los dos vectores estarn
en la misma direccin y el rea encerrada por ambos, que es el determinante de la matriz,
ser cero. La comprobacin de esta propiedad es inmediata: si la primera columna es (a, b)0
y la segunda(a, b)0 el determinante ser ab ba = 0.
38 CAPTULO 2. LGEBRA MATRICIAL
En una matriz 33 el determinante tiene 3! = 6 trminos que se obtiene de las 6 posibles
permutaciones:
1 2 3
1 3 2
2 1 3
2 3 1
3 1 2
3 2 1
la primera permutacin va en el orden natural, luego r = 0. Las dos siguientes podemos
ponerlos en orden natural con un solo cambio entre ndices consecutivos, luego r = 1. Las
dos siguientes requieren dos cambios (por ejemplo, en la cuarta primero pasamos a 2,1,3 y
luego a 1,2,3). Finalmente, en la ltima son necesarios 3 cambios, con lo que tendr signo
menos. En consecuencia:
|A| = a
11
a
22
a
33
a
11
a
23
a
32
a
12
a
21
a
33
+ a
12
a
23
a
31
+
+a
13
a
21
a
32
a
13
a
22
a
31
,
y puede demostrarse que ahora el determinante es el volumen del paraleppedo generado por
las columnas de la matriz.
Para matrices mayores de 3, la interpretacin del determinante como hipervolumen es
la misma, pero su clculo es tedioso. Para obtenerlo utilizaremos el concepto de menor.
Llamaremos menor del elemento a
ij
de una matriz cuadrada de orden n, m
ij
, al determinante
de la matriz de orden n 1 que resulta al eliminar de la matriz original A la la i y la
columna j. Se denomina adjunto del elemento a
ij
al escalar (1)
i+j
m
ij
. Se demuestra que
el determinante de una matriz puede calcularse multiplicando cada elemento de una la por
sus adjuntos. Entonces:
|A| =
n
X
j=1
a
ij
(1)
i+j
m
ij
para cualquier la i. Por ejemplo, en una matriz 3 3, desarrollando por los elementos de
la primera la
|A| = a
11
(a
22
a
33
a
23
a
32
) a
12
(a
21
a
33
a
23
a
31
) +a
13
(a
21
a
32
a
22
a
31
) ,
que coincide con el resultado anterior. Aplicando sucesivamente esta idea es posible calcular
el determinante de matrices grandes.
El determinante se calcula muy fcilmente cuando una matriz es diagonal, ya que en-
tonces, como hemos visto, el determinante es el producto de los trminos diagonales de la
matriz. El mismo resultado se obtiene si la matriz es triangular, que es aquella que tiene
todos los elementos por encima o por debajo de la diagonal principal nulos. Por ejemplo,
una matriz diagonal de orden tres es
_
_
1 0 0
2 3 0
1 4 2
_
_
2.3. MATRICES 39
Para calcular el determinante desarrollamos por la primera la, con lo que obtenemos el
producto del primer trmino diagonal, 1, por su adjunto, que es otra matriz triangular
ahora de orden dos. Desarrollando de nuevo este matriz por su primera la tenemos el
producto del segundo trmino diagonal, 3, por un escalar, 2. Aplicando esta misma idea
a matrices de cualquier tamao comprobamos que el determinante es el producto de los
trminos diagonales.
Los determinantes tienen las propiedades siguientes:
(a) |A| =
n
|A|
(b) |A
0
| = |A|
(c) Si A y B son matrices cuadradas, |AB| = |A| |B| .
(d) Si permutamos dos las o dos columnas entre s, el determinante cambia slo su signo.
(e) Si una la (o columna) de una matriz es una combinacin lineal de las restantes las
(o columnas), lo que supone que su rango es menor que n, la matriz es singular y el
determinante de la matriz es cero.

v1
v2
v1sen

El determinante como area del paralelogramo formado por los dos vectores
La gura ?? ilustra la interpretacin del determinante como area del paralelogramo
denido por los dos vectores. Este area es el producto de la base, kv
2
k , por la altura,
kv
1
ksen. Consideremos el determinante de la matriz
|A| = |C
0
C| =

v
0
1
v
0
2

[v
1
v
2
]

v
0
1
v
1
v
0
1
v
2
v
0
2
v
1
v
0
2
v
2

entonces:
|A| = |C|
2
= kv
2
k
2
kv
1
k
2
(sen)
2
40 CAPTULO 2. LGEBRA MATRICIAL
y el determinante de la matriz formada por los dos vectores es kv
1
k kv
2
ksen, el rea del
paralelogramo que forman. Observemos se obtiene el mismo resultado cuando los vectores
v
1
y v
2
son vectores de R
n
, ya que la matriz C
0
C ser cuadrada, y su determinante es
el cuadrado del rea encerrada por los vectores. Si interpretamos los vectores v
1
y v
2
como variables, veremos en el captulo 3 que el producto C
0
C es su matriz de varianzas
y covarianzas, y su determinante, que es el rea que forman, es una medida global de la
independencia entre las variables, como veremos en la seccin 3.5. Por ejemplo, en el caso
general de p variables, si una variable es combinacin lineal de las dems, las variables son
linealmente dependientes, la columna correspondiente a esa variable en la matriz de varianzas
y covarianzas ser tambin combinacin lineal de las dems columnas y el determinante de la
matriz de covarianzas ser nulo. Por otro lado, si las variables estan incorreladas su matriz
de covarianzas es diagonal y el determinante ser, en trminos relativos, mximo. Por tanto
podemos concluir que cuanto mayor sea el determinante mayor es la independencia entre los
vectores.
Traza de una matriz
Se denomina diagonal principal de una matriz cuadrada C de orden n con elementos c
ij
al
conjunto de elementos c
ii
, i = 1, ..., n. La traza de una matriz cuadrada es la suma de los
elementos de la diagonal principal de la matriz, escribiremos:
tr(C) =
n
X
i=1
c
ii
La traza es un operador lineal. En efecto, de la denicin se obtiene:
(a) tr(A+B) = tr(A) +tr(B).
(b) tr(A) = tr(A), donde es un escalar.
(c) Se demuestra que: tr(ABC) = tr(BCA) = tr(CAB), en el supuesto de que todos los
productos estn denidos.
(d) Si la matriz C es simtrica, tr(C
2
) = tr(CC) =
P
n
i=1
P
n
j=1
c
2
ij
.
La traza es una medida global de tamao de la matriz que se obtiene sumando sus
elementos diagonales. Por ejemplo, la traza de una matriz de varianzas y covarianzas es
la suma de todas las varianzas de las variables. Al sumar los elementos diagonales es una
medida global de variabilidad, pero, a diferencia del determinante, no tiene en cuenta las
relaciones entre las variables.
Rango de una matriz cuadrada
El rango mximo de una matriz cuadrada de orden n es n. Cuando el rango es menor que n
una la o columna es combinacin lineal de las dems y decimos que la matriz es singular.
Por otro lado, se comprueba que
2.3. MATRICES 41
1. Para matrices cuadradas del mismo orden, A, B y C, donde B y C son no singulares,
rg(CAB) = rg(A).
2. Si A y B son cuadradas de orden n y AB = 0, entonces rg(A) +rg(B) n.
Formas cuadrticas
Si transformamos un vector x mediante una transformacin lineal, y = Bx, la norma al
cuadrado del nuevo vector ser
y
0
y = x
0
B
0
Bx = x
0
Ax
donde A = B
0
B es una matriz cuadrada y simtrica. En funcin del vector original la forma
resultante se denomina forma cuadrtica. Llamaremos forma cuadrtica a una expresin
escalar del tipo:
x
0
Ax
donde x es un vector, x
0
su transpuesto, y A una matriz cuadrada y simtrica. La forma
cuadrtica es siempre un escalar. Su expresin general es:
n
X
i=1
a
ii
x
2
i
+ 2
n
X
i=1
n
X
j=i+1
a
ij
x
i
x
j
.
Diremos que una matriz A es semidenida positiva si cualquier forma cuadrtica
formada a partir de ella es un nmero no negativo, para cualquier vector x 6= 0. Si la forma
cuadrtica es siempre un numero positivo diremos que la matriz A es denida positiva. Se
demuestra que las formas escalares, como el determinante y la traza, que pueden obtenerse a
partir de matrices semidenidas positivas son nmeros no negativos. Una matriz semidenida
positiva tiene pues propiedades similares a los nmeros no negativos y una matriz denida
positiva a los nmeros positivos.
Matriz Inversa
Dada una matriz A cuadrada nn, no singular, denimos su inversa, A
1
, como una matriz
n n tal que:
AA
1
= A
1
A = I
donde I es la matriz identidad, que tiene unos en la diagonal y ceros fuera de ella. Es decir,
escribiendo A con vector la a
0
i
, la matriz A
1
tendr vectores columna b
i
tales que:
_

_
a
0
1
.
.
.
a
0
n
_

b
1
. . . b
n

=
_

_
a
0
1
b
1
. . . a
0
1
b
n
.
.
.
.
.
.
a
0
n
b
1
. . . a
0
n
b
n
_

_
=
_

_
1 0 . . . 0
0 1 . . . 0
.
.
.
.
.
.
.
.
.
0 . . . . . . 1
_

_
.
42 CAPTULO 2. LGEBRA MATRICIAL
En consecuencia la matriz A
1
debe tener por columnas vectores b tales que: (1) b
i
es
ortogonal a a
j
,es decir el producto escalar b
0
i
a
j
es cero j 6= i; (2) el producto escalar de los
vectores b
0
i
a
i
= a
0
i
b
i
es uno.
Observemos que el clculo de la matriz inversa resuelve el problema de calcular vectores
ortogonales a uno dado (o variables incorreladas con una dada). Por ejemplo, el espacio
ortogonal al vector a
1
puede calcularse construyendo una matriz que tenga a este vector
como primera la y calculando la inversa de la matriz. Si llamamos b
2
, ...b
n
a los vectores
columna de la matriz inversa, estos vectores forman el espacio nulo del vector a
1
. Como
ilustracin, dada la matriz
A =

2 1
0 4

,
es fcil comprobar que la inversa es
A
1
=

.5 .125
0 .25

y el primer (segundo) vector columna de la inversa dene el espacio ortogonal al segundo


(primer) vector la de la matriz original.
La necesidad de calcular la inversa de una matriz aparece de manera natural al resolver
sistemas de ecuaciones lineales
Ax = b
donde A es una matriz conocida cuadrada de orden n, b un vector de constantes y x un
vector de n incgnitas. Para que este sistema tenga solucin nica las n ecuaciones deben
de ser distintas, lo que supone que no existe una la de A que sea combinacin lineal de las
dems. Entonces A es no singular y la solucin se obtiene mediante:
x = A
1
b.
El clculo de la matriz inversa de una matriz dada es engorroso y debe realizarse mediante
un ordenador si la dimensin de A es alta. Se demuestra que la inversa de una matriz puede
calcularse por las tres operaciones siguientes:
1. Se sustituye cada elemento por su adjunto.
2. Se transpone la matriz resultante. Se obtiene una matriz que llamaremos adjunta de
la matriz A.
3. Se divide cada trmino de la matriz adjunta por el determinante de la matriz original.
Como ejemplo, calcularemos la inversa de la matriz
A =
_
_
1 1 0
1 2 1
0 0 3
_
_
2.3. MATRICES 43
comenzaremos sustituyendo cada elemento por su adjunto. Por ejemplo, para el elemento
(1, 1) su adjunto es (1)
2
[2 3 1 0] = 6. Para el (1, 2), (1
3
) [1 3 1 0] = 3, etc.
As obtenemos la matriz
_
_
6 3 0
3 3 0
1 1 3
_
_
,
y al transponerla resulta la matriz adjunta :
Adj (A) =
_
_
6 3 1
3 3 1
0 0 3
_
_
.
Si dividimos ahora por el determinante de la matriz A
|A| = 6 + 3 = 9,
se obtiene la expresin de la inversa
A
1
=
_
_
2
3

1
3

1
9
1
3
1
3

1
9
0 0
1
3
_
_
y podemos comprobar que A A
1
= I.
La inversa de una matriz A tiene las propiedades siguientes:
1. (AB)
1
= B
1
A
1
para matrices cuadradas no singulares.
2. (A
0
)
1
= (A
1
)
0
3. |A
1
| = |A|
1
4. si A es simtrica tambin lo es A
1
.
La matriz inversa de una matriz de varianzas y covarianzas tiene una interesante inter-
pretacin en Estadstica, como veremos en el siguiente captulo. La matriz inversa recoge la
informacin de la dependencia conjunta de todas las variables de manera ms completa que
la matriz de varianzas y covarianzas.
Inversas de sumas de matrices
Es muy til poder calcular la inversa de una suma de matrices en funcin de las inversas
de los sumandos. La forma general es la siguiente: supongamos que las matrices A y C
son matrices cuadradas no singulares de orden n y p respectivamente, y B y D son matrices
rectangulares (n p) y (p n), se comprueba por multiplicacin directa que
(A +BCD)
1
= A
1
A
1
B(DA
1
B+C
1
)
1
DA
1
. (2.1)
44 CAPTULO 2. LGEBRA MATRICIAL
Si tomamos en esta expresin C =1 y las matrices B y D son vectores, que llamaremos
b y d
0
, se obtiene que
(A +bd
0
)
1
= A
1
A
1
b(d
0
A
1
b+1)
1
d
0
A
1
Cuando A y C tienen el mismo orden, se comprueba que la expresin de la inversa puede
escribirse como:
(A +C)
1
= C
1
(A
1
+C
1
)
1
A
1
. (2.2)
Veremos que estas frmulas son muy tiles para estudiar el cambio de la matriz de
varianzas y covarianzas, y otros estadsticos relevantes, al eliminar observaciones o variables.
Matrices ortogonales
Llamaremos matriz ortogonal, C, a una matriz cuadrada, que representa un giro en el espacio.
Para caracterizar estas matrices, supongamos que dado un vector x le aplicamos una matriz
no singular C y obtenemos un nuevo vector y = Cx. Si esta operacin es un giro, la norma
de y debe ser idntica a la de x, lo que implica la condicin :
y
0
y = x
0
C
0
Cx = x
0
x,
es decir, deber vericarse que :
C
0
C = I.
De la denicin y = Cx deducimos que x = C
1
y. Por otro lado, multiplicando por C
0
tenemos que C
0
y = C
0
Cx = x. De estas dos condiciones concluimos que la matriz inversa
debe ser igual a su traspuesta. Esta es la condicin de ortogonalidad:
C
0
= C
1
.
Una matriz ortogonal debe tener las (o columnas) que son vectores ortogonales entre s
y de longitud unidad, ya que:
_

_
c
0
1
.
.
.
c
0
n
_

_
[c
1
. . . c
n
] =
_

_
c
0
1
c
1
. . . c
0
1
c
n
.
.
.
.
.
.
c
0
n
c
1
. . . c
0
n
c
n
_

_
=
_

_
1 . . . 0
.
.
.
.
.
.
0 . . . 1
_

_
adems: |C| = |C
0
| =1, donde |C| es el determinante de C.
Por ejemplo, en <
2
, la matriz
C =

cos sen
sen cos

es ortogonal, ya que CC
0
= I.
Los vectores de una matriz ortogonal de orden n forman una base ortonormal de <
n
ya que son ortogonales y de norma uno.
2.3. MATRICES 45
2.3.5 Matrices Particionadas
Una matriz puede subdividirse en elementos que sean a su vez matrices y a los que se aplican
las reglas anteriores. Esta operacin es importante cuando queremos dividir las variables en
bloques distintos. Por ejemplo, la matriz
A =
_
_
2 3 4
5 6 1
0 2 3
_
_
,
puede escribirse tambin como una matriz 2 2 particionada:
A =

A
11
A
12
A
21
A
22

, (2.3)
donde:
A
11
=

2
5

, A
12
=

3 4
6 1

, A
21
= 0, A
22
= [2 3] .
Podemos obtener la inversa y el determinante de una matriz particionada en otra 2 2
de manera que los trminos diagonales A
11
y A
22
sean matrices cuadradas no singulares. La
inversa de la matriz A dada por (2.3) se calcula mediante:
A
1
=

B
1
B
1
A
12
A
1
22
A
1
22
A
21
B
1
A
1
22
+A
1
22
A
21
B
1
A
12
A
1
22

donde
B = (A
11
A
12
A
1
22
A
21
)
como puede comprobarse por multiplicacin directa.
El determinante se obtiene mediante:
|A| = |A
22
||A
11
A
12
A
1
22
A
21
| = |A
11
||A
22
A
21
A
1
11
A
12
| = |A
22
| |B|
Observemos que si la matriz es diagonal por bloques y A
12
= 0, A
21
= 0, entonces A
1
se obtiene simplemente como

A
1
n
0
0 A
1
22

y |A| = |A
11
| |A
12
| .
Ejercicios 2.3
2.3.1 Calcular el determinante de la matriz formada por los tres vectores del ejercicio 2.2.2,
a = (1, 0, 2)
0
, b = (1, 1, 2)
0
, c = (2, 1, 6)
0
.Qu conclusiones podemos extraer de este resultado
respecto a la independencia lineal de estos vectores?
2.3.2 Dada la matriz rectangular A =
_
_
1 1
0 1
2 2
_
_
, calcular la matriz A
0
Ay su determinante
y traza. Hacer lo mismo para la matriz AA
0
.
46 CAPTULO 2. LGEBRA MATRICIAL
2.3.3 Calcular la inversa de la matriz A
0
A del ejercicio anterior. Dibujar en el plano los
vectores que forman esta matriz y su inversa y comentar sobre el resultado obtenido.
2.3.4 Demostrar que la matriz

2/2

2/2

2/2

2/2

es ortogonal. Aplicarla al vector



1
1

y
dibujar el resultado. Qu giro produce esta matriz?
2.3.5 Se miden tres dimensiones fsicas en un grupo de 10 personas y estos datos se
disponen en una matriz rectangular A, de dimensiones (10 3), justicar las siguientes
armaciones:
a) El rango mximo de esta matriz es 3.
b) La operacin A
0
1
10
, donde 1
10
es un vector (101) con todas sus componentes iguales
a uno proporciona un vector (3 1) cuyos componentes son la suma de los valores de cada
variable.
c) La operacin
1
10
A
0
1
10
, proporciona un vector cuyos componentes son las medias de las
variables.
d) La operacin 1
10
(
1
10
A
0
1
10
)
0
=
1
10
1
10
1
0
10
A, proporciona una matriz rectangular de di-
mensiones (10 3), cuyas columnas contienen la media de cada variable.
e) La matriz
e
A= A
1
10
1
10
1
0
10
Aproporciona una matriz rectangular de dimensiones (10
3), cuyas columnas contienen las desviaciones de cada variable con respecto a su media.
f) La matriz
e
A
0
e
A proporciona una matriz cuadrada de dimensiones (3 3), cuyos tr-
minos diagonales son las sumas de las desviaciones a la media de cada variable al cuadrado.
2.3.6 Con la matriz de datos de EUROALI del apndice de datos calcular las varianzas y
covarianzas de las variables y colocarlas en una matriz cuadrada y simtrica de orden nueve,
donde en la diagonal estn las varianzas y fuera de la diagonal las covarianzas. Calcular
la traza y el determinante y pensar en su interpretacin. Repetirlo para las variables
estandarizadas. Qu anlisis le parece ms informativo?
2.3.7 Calcule una base del espacio ortogonal al vector a
0
1
=(1 0 0 0 -1) de la forma
siguiente: (1) construya una matriz arbitraria cuadrada de dimension 5 que tenga como
primera la el vector a
0
1
; (2) calcule la inversa de la matriz y tome el espacio generado por
las columnas 2 a la 5. Justique el resultado obtenido.
2.3.8 Demuestre por multiplicacin directa la frmula (2.2). (Nota, utilice que (A
1
+C
1
)
1
A
1
puede escribirse como (I +AC
1
)
1
).
2.3.9 Demuestre por multiplicacin directa que (I +C)
1
= I (I +C
1
)
1
.
2.3.10 Demuestre por multiplicacin directa la frmula (2.1). (Nota, al sacar factor comn
utilice que (DA
1
B+C
1
)
1
puede escribirse como C(I +DA
1
BC)
1
.
2.4 VECTORES Y VALORES PROPIOS
Dada una matriz cuadrada hay determinadas propiedades que esperamos sean invariantes
ante ciertas transformaciones lineales que preservan la informacin existente en la matriz.
Por ejemplo, si transponemos la matriz las propiedades bsicas de los vectores que la forman
no varan, y hemos visto que ni la traza ni el determinante se modican. Si giramos los
vectores que la forman, es decir multiplicamos la matriz por una ortogonal, no se alteran ni
sus magnitudes ni sus posiciones relativas, por lo que esperamos que las propiedades bsicas
2.4. VECTORES Y VALORES PROPIOS 47
de la matriz se mantengan. Por ejemplo, si en lugar de trabajar con los ingresos y los costes
decidimos trabajar con los benecios, construidos como ingresos-costes, y el volumen de
actividad, denido como ingresos ms costes, hemos aplicado una transformacin ortogonal.
Aunque la matriz cuadrada que representa las varianzas y covarianzas de las nuevas variables
sea distinta de la original, la esencia del problema es la misma, y esperamos que la matriz
de las nuevas variables tenga caractersticas idnticas a las de las variables originales. Para
precisar esta idea aparece el concepto de valores y vectores propios de una matriz cuadrada.
Los valores propios son las medidas bsicas de tamao de una matriz, que no se ven
alteradas si hacemos un cambio de coordenadas que equivale a una rotacin de los ejes. Se
demuestra que las medidas globales de tamao de la matriz, como la traza o el determinante,
son slo funcin de los valores propios y, en consecuencia, sern tambin invariantes ante las
transformaciones que preservan los valores propios.
Los vectores propios representan las direcciones caractersticas de la matriz y no son
invariantes. Al aplicar una matriz cuadrada de orden n a un vector de dimensin n este
se transforma en direccin y magnitud. Sin embargo, para cada matriz cuadrada existen
ciertos vectores que al transformarlos por la matriz slo se modica su longitud (norma) y
no su posicin en el espacio. Estos vectores se denominan vectores propios de la matriz.
2.4.1 Denicin
Llamaremos vectores propios de una matriz cuadrada de orden n a aquellos vectores cuya
direccin no se modica al transformarlos mediante la matriz. Por tanto u es un vector
propio de la matriz A si verica que :
Au = u. (2.4)
donde es un escalar, que se denomina valor propio de la matriz. En esta relacin suponemos
u 6= 0, ya que si no es trivialmente cierta. Si u es un vector propio de A y multiplicamos
(2.4) por cualquier a 6= 0, resulta que au ser tambin un vector propio de A. Para evitar
esta indeterminacin suponemos que los vectores propios estn normalizados de manera que
kuk = 1. Sin embargo, el signo queda indeterminado: si u es un vector propio tambin lo es
u.
Para calcular el vector propio podemos escribir la ecuacin anterior como:
(AI)u = 0,
y este es un sistema homogneo de ecuaciones que tendr solucin no nula si y solo si la matriz
del sistema, (AI), es singular. En efecto, si esta matriz fuese invertible multiplicando por
la inversa tendramos que la nica solucin es u = 0. Por tanto, este sistema tiene solucin
no nula si se verica que
|AI| = 0.
Esta ecuacin se denomina la ecuacin caracterstica de la matriz. Es una ecuacin
polinmica en de orden n y sus n races se denominan valores propios de la matriz. Es
48 CAPTULO 2. LGEBRA MATRICIAL
inmediato de la denicin que si una matriz es diagonal los valores propios son los elementos
de la diagonal principal. En efecto, tendremos:
|AI| =

_
a
1
. . . 0
.
.
. a
2
.
.
.
0 ... a
n
_

_
. . . 0
.
.
.
.
.
.
0 . . .
_

_
a
1
. . . 0
.
.
. a
2

.
.
.
0 . . . a
n

|AI| = (a
1
)...(a
n
),
y las soluciones de esta ecuacin polinmica son a
1
, ..., a
n
.
Aunque una matriz de orden n tiene siempre n valores propios, estos pueden aparecer
repetidos. En general, una matriz tiene h n valores propios distintos. Si un valor propio
aparece repetido r veces se dice que tiene multiplicidad r. Por ejemplo, la matriz diagonal:
A =
_

_
2 0 0 0
0 3 0 0
0 0 0 0
0 0 0 0
_

_
tiene como valores propios 2, 3 y 0, este ltimo valor con multiplicidad dos (aparece dos
veces).
A cada valor propio distinto de una matriz cuadrada podemos asociarle un nico vector
propio que satisface (2.4). En efecto, dado podemos resolver el sistema y obtener u. Como
la matriz del sistema es singular, existen innitas soluciones, ya que si u es una solucin
tambin lo es au, lo que resolvemos tomando el vector de norma uno. Si un valor propio
es mltiple, es decir, la matriz no tiene n valores propios distintos, los vectores propios
asociados a valores propios con multiplicidad mayor de uno no estn denidos en general de
manera nica. Para ilustrar esta idea, consideremos la matriz
A =
_
_
1 0 0
0 1 0
0 0 2
_
_
que tiene el valor propio 1 con multiplicidad 2. Los vectores u
1
= (1, 0, 0)
0
y u
2
= (0, 1, 0)
0
son vectores propios asociados al valor 1, pero tambin lo es u
3
= u
1
+ (1 ) u
2
, para
cualquier valor de . Los vectores propios estn en un espacio igual a la multiplicidad del
valor propio, 2, y cualquier vector normalizado de este espacio de dimensin 2 es un vector
propio de A.
Cuando la matriz tiene n valores propios distintos, a cada valor propio le podemos
asociar un vector propio bien denido y se demuestra que el conjunto de los n vectores
propios es linealmente independiente.
Los valores propios de una matriz tienen las propiedades siguientes:
1. Si es un valor propio de A,
r
es un valor propio de A
r
. En particular , si A
1
existe,

1
es un valor propio de A
1
.
2.4. VECTORES Y VALORES PROPIOS 49
2. Los valores propios de una matriz y su transpuesta son los mismos.
3. La suma de los valores propios de A es igual a la traza.
tr(A) =
X

i
.
4. El producto de los valores propios de A es igual al determinante
|A| =
Y

i
.
5. Las matrices A y P
1
AP tiene los mismos valores propios.
6. Las matrices A y AI tienen los mismos vectores propios y si es un valor propio
de A, 1 es un valor propio de AI y la
7. Las matrices cuadradas ABC, BCA y CAB, donde las matrices A, B, y C son gen-
erales con la condicin de que los productos existan, tienen los mismos valores propios
no nulos.
8. Si A es triangular los valores propios son los elementos diagonales.
9. Si A y B son cuadradas de rdenes n y p los np vectores propios de su producto de
Kronecker, A B, son el producto de Kronecker de los vectores propios de A y B.
La propiedad 1 se demuestra fcilmente ya que si Au = u, multiplicando esta ecuacin
por A
1
, resulta u =A
1
u, es decir A
1
u =
1
u. Para comprobar la segunda escribiendo
Au = u y A
0
v = v y multiplicando la primera por v
0
y la segunda por u
0
se tiene
v
0
Au = v
0
u y u
0
A
0
v = u
0
v y como el primer miembro de ambas es el mismo (un escalar
es igual a su transpuesto) el segundo lo ser y =. Las propiedades 3 y 4 son consecuencia
de las propiedades de diagonalizacin de matrices que comentamos a continuacin. La 5
se comprueba fcilmente ya que si Au =u, multiplicando ambos miembros por P
1
por
la derecha y P por la izquierda, se obtiene que P
1
APu = u y las matrices tienen los
mismos valores propios. Los vectores propios de la matriz P
1
AP son P
1
u, siendo u un
vector propio de la matriz A. La propiedad 6 es consecuencia de que si Au = u, entonces
Au +Iu = u +u, es decir, (A+I)u = (1 + )u. Por otro lado si |AI| = 0, entonces
tambin |A+I I I| = |A+I (1 +)I| = 0. La 9 resulta de la denicin de producto
de Kronecker.
2.4.2 Valores y vectores propios de matrices simtricas
En este libro vamos a obtener vectores y valores propios principalmente de matrices simtri-
cas. En estas matrices:
(1) los valores propios son siempre reales;
(2) los vectores propios son ortogonales.
Para comprobar esta segunda propiedad observemos que si Au
i
=
i
u
i
y Au
j
=
j
u
j
son dos valores y vectores propios distintos, multiplicando la primera ecuacin por u
0
j
y la
50 CAPTULO 2. LGEBRA MATRICIAL
segunda por u
0
j
los primeros miembros son iguales y los segundos como
i
6=
j
slo sern
iguales si u
0
j
u
i
= 0.
Para interpretar el signicado de los valores y vectores propios de estas matrices consid-
eremos matrices simtricas de orden 2 cuyos vectores pueden dibujarse en un plano. Por
ejemplo la matriz simtrica
A
1
=

a b
b a

es fcil comprobar que sus valores propios se obtienen de (a )


2
= b
2
y que sus vectores
propios estn en las direcciones (1,1) y (1,-1), y normalizados a norma uno son los vectores
(0.7071, 0.7071) y ( 0.7071,- 0.7071) . Por ejemplo, si a = 3 y b = 1, de manera que la
matriz est formada por los dos vectores columna (3, 1)0 y (1, 3)
0
, los valores propios son (4
y 2). Supongamos que construimos una elipse con centro en el origen y que pase por los
extremos de los dos vectores que forman la matriz, como indica la gura 2.3. Entonces los
valores propios representan la distancia del extremo de cada eje de la elipse al origen. Por
ejemplo el valor 4 indica que el eje principal de la elipse mide 4 unidades desde el origen,
o 8 en total. Analogamente, el valor 2 indica la longitud del otro semieje de la elipse. Los
vectores propios asociados a estos valores propios representan las direcciones de los ejes: el
asociado al mayor valor propio es un vector unitario en la direccin de la diagonal principal
y el segundo es perpendicular a el, como indica la gura 2.3. Si modicamos los valores
de a y b los vectores propios no se modican pero s los valores propios. Si aumentamos a
manteniendo jo b alejamos los extremos de los vectores y la elipse tiene cada vez los ejes ms
similares. Por ejemplo, la matriz formada por los vectores columna (100, 1)0 y (1, 100)
0
tiene
valores propios (101 y 99) y los mismos vectores propios. Por el contrario si aumentamos
b manteniendo jo a acercamos los extremos de los vectores y apuntamos ms la elipse, lo
que aumentar la diferencia entre sus ejes. Por ejemplo, la matriz formada por los vectores
columna (1.2, 1)0 y (1, 1.2)
0
tiene valores propios (2.2, 0,2) y los mismos vectores propios.
2.4. VECTORES Y VALORES PROPIOS 51
3 1
3
1
Figura 2.3: Representacin de los valores y vectores propios de una matriz simtrica A
1
En la matriz anterior al ser los elementos diagonales idnticos la orientacin de la elipse
era segn las bisectrices de los ejes. Esto no ocurrir si los elementos diagonales son distintos.
Por ejemplo, la matriz
A
2
=

4 1
1 2

se encuentre representada en la gura 2.4. Ahora el eje mayor de la elipse esta mucho ms
cerca del vector de mdulo mayor y puede comprobarse que los vectores propios son (0.9239
0.3827) y (-0.3827 0.9239), y los valores propios (4.41, 1.59).
Generalizando este ejemplo, los valores propios de una matriz simtrica representan las
magnitudes de los ejes del elipsoide con centro el origen y determinado por los extremos de
los vectores. Los vectores propios indican las direcciones de estos ejes principales.
52 CAPTULO 2. LGEBRA MATRICIAL
4 1
2
Figura 2.4: Representacin de los valores y vectores propios de una matriz simtrica A
2
2.4.3 Diagonalizacin de Matrices Simtricas
Una propiedad muy importante de las matrices simtricas es que pueden convertirse en
una matriz diagonal mediante una transformacin ortogonal. Sea A una matriz cuadrada y
simtrica de orden n. Hemos visto que esta matriz tiene valores propios reales y vectores pro-
pios ortogonales. Entonces los vectores propios, u
1
, . . . , u
n
, son linealmente independientes
y forman una base en <
n
. Podemos escribir
A[u
1
, . . . , u
n
] = [
1
u
1
, . . . ,
n
u
n
] .
donde
1
, . . .
n
son los valores propios que son nmeros reales y que pueden no ser todos
distintos. En particular, algunos de estos valores propios pueden ser nulos. Esta ecuacin
puede escribirse, llamando D a la matriz diagonal con trminos
i
, como
AU = UD
donde la matriz U es ortogonal. Multiplicando por U
0
= U
1
, tenemos que
U
0
AU = D (2.5)
y hemos transformado la matriz original en una matriz diagonal, D, mediante una matriz U
ortogonal. La ecuacin (2.5) tiene una interesante interpretacion geomtrica. Observemos
que U
0
A es una rotacin de los vectores que forman la matriz, y esta ecuacin nos dice que
estos vectores rotados son iguales a DU
0
, que es el resultado de multiplicar por los trminos
de D a una base de vectores ortonormales. En otros trminos, como A = UDU
0
vemos como
se genera siempre una matriz simtrica: se parte de una base ortonormal de vectores, U
0
,se
modica la norma de cada vector de esta base, multiplicandolo por una matriz diagonal,
y luego se rotan de nuevo los vectores as obtenidos. Diagonalizar una matriz simtrica
2.4. VECTORES Y VALORES PROPIOS 53
consiste en recuperar esta operacin y los valores propios representan las constantes por las
que se han multiplicado los vectores ortonormales iniciales y los vectores propios indican el
giro realizado.
Si tomamos determinantes en (2.5):
|U
0
||A||U| = |D|,
y como |U| = |U
0
| = 1, el determinante de A ser el producto de sus races caractersticas.
Por lo tanto, si una de las races caractersticas es nula, el determinante ser 0 y la matriz
singular.
Por otro lado, como en (2.5) las matrices U
0
y U son no singulares, el rango de A ser
igual al de D, que al ser diagonal ser igual al nmero de trminos diagonales no nulos, que
son los valores propios de A. Por tanto: El rango de una matriz simtrica es igual al nmero
de races caractersticas distintas de cero.
Al diagonalizar una matriz simtrica obtenemos su rango, observando el nmero de ele-
mentos no nulos en la diagonal principal de la matriz transformada D.
Descomposicin espectral
Es interesante poder descomponer una matriz cuadrada simtrica en sus fuentes de variacin
intrnsecas, es decir en las direcciones de los vectores propios con coecientes que dependen
de los valores propios. Esto es lo que consigue la descomposin espectral. Premultiplicando
(2.5) por U y postmultiplicando por U
0
se obtiene
A = UDU
0
que, como hemos comentado en la seccin anterior indica cmo se genera una matriz simtrica
a partir de una base ortonormal. Esta descomposicin puede escribirse:
A =[u
1,... ,
u
n
]
_

_

1
u
0
1
.
.
.

n
u
0
n
_

_
de donde resulta:
A =
n
X
i=1

i
u
i
u
0
i
(2.6)
que descompone la matriz A como suma de n matrices de rango uno u
i
u
0
i
con coecientes

i
.
Si la matriz A tiene rango r la descomposicin espectral (2.6) indica que puede expresarse
como suma de r matrices de rango unidad. La importancia de esta descomposicin es
que si algunos valores propios son muy pequeos, podemos reconstruir aproximadamente A
utilizando los restantes valores y valores propios.
Observemos que la descomposicin espectral de A
1
es
A
1
=
n
X
i=1

1
i
u
i
u
0
i
ya que A
1
tiene los mismos vectores propios que A y valores propios
1
i
.
54 CAPTULO 2. LGEBRA MATRICIAL
2.4.4 Raiz cuadrada de una matriz semidenida positiva
Una matriz cuadrada, simtrica y semidenida positiva puede siempre descomponerse como
producto de una matriz por su transpuesta:
A = HH
0
,
en efecto, por la descomposicin espectral de una matriz simtrica
A =

UD
1/2

D
1/2
U
0

y tomando H = UD
1/2
se obtiene la descomposicin. A la matriz H se la denomina una
raiz cuadrada de la matriz A. La raz cuadrada de una matriz no es nica, ya que si
A = HH
0
tambin A = H

H
0
donde H

= HC para cualquier matriz ortogonal C. Una


forma de denir la raz de manera nica es exigir que la matriz H sea simtrica, con lo que
A = HH. Esto puede hacerse tomando
H = UD
1/2
U
0
Otra forma de hacer la descomposicin de manera nica es la descomposicin de Cholesky
que estudiamos a continuacin.
Descomposicin de Cholesky (*)
Puede demostrarse que la raz cuadrada de una matriz cuadrada, simtrica y denida posi-
tiva puede obtenerse de manera que H = T sea triangular (T
0
ser tambin triangular) con
trminos diagonales positivos. Entonces la descomposicin es nica y se denomina descom-
posicin de Cholesky. Tenemos
A = TT
0
Demostraremos la existencia de esta matriz por induccin, que tiene la ventaja de propor-
cionar adems un mtodo para su clculo. Si la matriz es un escalar a trivialmente T =

a.
Supongamos que hemos encontrado esta descomposicin para dimensin p y veamos como
obtenerla para dimensin p + 1. Sea
A
p
= T
p
T
0
p
(2.7)
y vamos a obtener la descomposicin para
A
p+1
=

A
p
a
12
a
0
12
a
22

donde a
12
es un vector p 1 y a
22
un escalar. Vamos a demostrar que esta matriz puede
escribirse como T
p+1
T
0
p+1
donde, tomando T
p+1
como triangular inferior:
T
p+1
=

T
p
0
t t
p+1

.
2.4. VECTORES Y VALORES PROPIOS 55
Entonces, la condicin A
p+1
= T
p+1
T
0
p+1
equivale a las condiciones:
a
12
= T
p
t,
y
a
22
= t
0
t+t
2
p+1
,
conjuntamente con (2.7). Como T
p
es no singular, podemos obtener
t = T
1
p
a
12
y utilizando (2.7) podemos escribir
t
p+1
=
q
a
22
a
0
12
A
1
p
a
12
,
que debe ser positivo si la matriz es denida positiva. Esta descomposicin se utiliza mucho
en anlisis numrico ya que puede calcularse iterativamente con el mtodo propuesto. Por
ejemplo, supongamos que A es una matriz de la forma
A =

s
2
1
s
12
s
12
s
2
2

con las varianzas y covarianzas de dos variables. Entonces A


p
= a
1
= s
2
1
, T
p
= s
1
; t =s
12
/s
1
T =

s
1
0
s
12
/s
1
p
s
2
2
s
2
12
/s
2
1

y contiene en la diagonal las desviaciones tpicas de la primera variable y de la regresin de


la segunda dada la primera. Esta propiedad es general.
La descomposicin de Cholesky proporciona un mtodo eciente de calcular el determi-
nante de una matriz ya que si A = TT
0
entonces |A| = |T| |T
0
| =
P
t
2
ii
, siendo t
ii
los
elementos diagonales de T o T
0
.
Diagonalizacin de dos matrices simtricas (*)
Supongamos que A y B son dos matrices simtricas de la misma dimensin y A es adems
denida positiva. Entonces la matriz H = A
1/2
C, donde C contiene los vectores propios
de la matriz simtrica A
1/2
BA
1/2
verica
H
0
AH = I
y
H
0
BH = D
donde la matriz D es diagonal.
Para comprobar esta propiedad observemos que como la matriz A
1/2
BA
1/2
es simtrica
la matriz C es ortogonal. Por tanto
H
0
AH = C
0
A
1/2
AA
1/2
C = I
y
H
0
BH = C
0
A
1/2
BA
1/2
C = D
donde la matriz D diagonal contiene los valores propios de la matriz A
1/2
BA
1/2
.
56 CAPTULO 2. LGEBRA MATRICIAL
2.4.5 Descomposicin en valores singulares
Para matrices rectangulares generales puede conseguirse una descomposicin similar a la
descomposicin espectral de una matriz simtrica. Como en el caso de matrices cuadradas
y simtricas, toda matriz rectangular A de dimensiones (n p) y de rango r puede ex-
presarse como producto de tres matrices, dos con vectores ortogonales y una diagonal. La
descomposicin es
A = U
1
D
1/2
V
0
1
donde U
1
es (n r), Des (r r) y V
0
1
es (r p). La matriz diagonal D
1/2
contiene las races
cuadradas de los valores propios no nulos de las matrices AA
0
o A
0
A, que son positivos.
Estos trminos diagonales de D se denominan los valores singulares de la matriz A. La
matriz U
1
contiene en columnas los vectores propios unidos a valores propios no nulos de
AA
0
y V
1
contiene en columnas los vectores propios unidos a valores propios no nulos de
A
0
A. Las columnas de U
1
son ortogonales entre s y tambin lo sern las de V
1
. Los
elementos diagonales de D
1/2
se denominan los valores singulares de la matriz A.
2.4.6 (*)Diagonalizacin de Matrices generales
Sea A una matriz cuadrada de orden n. Esta matriz es diagonalizable si, y slo si, sus
vectores propios son linealmente independientes. En efecto, supongamos que los vectores
propios, u
1
, . . . , u
n
, son linealmente independientes y forman una base en <
n
. Podemos
escribir
A[u
1
, . . . , u
n
] = [
1
u
1
, . . . ,
n
u
n
] .
donde
1
, . . .
n
son los valores propios que pueden no ser distintos. En particular, algunos
de estos valores propios pueden ser nulos. Esta ecuacin puede escribirse, llamando D a la
matriz diagonal con trminos
i
, como
AU = UD
Como la matriz U es no singular si los vectores propios son linealmente independientes,
multiplicando por la inversa se obtiene
U
1
AU = D
y hemos diagonalizado la matriz A. Podemos tambin escribir
A = UDU
1
. (2.8)
Hemos comprobado que una matriz es diagonalizable si tiene n vectores propios linealmente
independientes. Entonces puede escribirse como (2.8), donde Ucontienen los vectores propios
y la matriz diagonal, D, los valores propios.
Se demuestra que una condicin suciente para que una matriz sea diagonalizable es que
tenga valores propios distintos.
2.4. VECTORES Y VALORES PROPIOS 57
Consideremos ahora el caso general de una matriz cuadrada de orden n con p valores
propios
1
, . . .
p
, con multiplicidad m
i
,
P
p
i=1
m
i
= n. Puede demostrarse que la condicin
para que A tenga n vectores propios linealmente independientes es que el rango de la matriz
(A
i
I) = nm
i
, y que esta condicin se cumple si la matriz tiene valores propios distintos.
En efecto, los valores propios se obtienen de |AI| = 0, lo que implica que, si todos son
distintos, el rango de la matriz (A
i
I) es n 1.
2.4.7 (*)Inversas Generalizadas
Se denomina matriz inversa generalizada de una matriz rectangular A
np
a una matriz A

de dimensiones p n que verica:


AA

A = A.
En general existen muchas matrices que verican esta condicin. Si adems imponemos
las condiciones:
A

AA

= simtrica
A

A = simtrica
AA

= simtrica
entonces A

es nica y se denomina la matriz inversa generalizada Moore-Penrose (MP) de


A. Si n > p y A tiene rango completo, rg(A) = p, la matriz inversa MP es:
A

= (A
0
A)
1
A
0
. (2.9)
El lector puede comprobar que esta matriz verica las propiedades anteriores. Si p > n
y rg (A) = n, esta matriz es:
A

= A
0
(AA
0
)
1
.
Si A no tiene rango completo esta expresin no es vlida ya que ni (A
0
A)
1
ni (AA
0
)
1
existen. La inversa MP se construye a partir de la descomposicin espectral de la matriz A
0
A
(supuesto n > p). Si
1
, . . .
r
, r < p, son los valores propios no nulos de A
0
A y u
1
, . . . u
r
sus vectores propios asociados podemos escribir:
A
0
A = U
r
D
r
U
0
r
,
donde U
r
es rectangular p r con los vectores u
i
en columnas y D
r
es diagonal r r e
incluye los valores propios no nulos. Entonces es fcil comprobar que
A

= U
r
D
1
r
U
0
r
A
0
que es la generalizacin de (2.9) para matrices de rango no completo.
Ejercicios 2.4
2.4.1 Calcular los vectores y valores propios de la matriz A =

2 1
1 2

y representarlos
grcamente.
58 CAPTULO 2. LGEBRA MATRICIAL
2.4.2 Escribir la representacin espectral de la matriz A de 2.4.1
2.4.3 Calcular los vectores y valores propios de la matriz A
1
y su representacin espec-
tral.
2.4.4 Demostrar que 0 es un valor propio de una matriz A si y solo si esta matriz es
singular.
2.4.5 Demostrar que los valores propios de una matriz son iguales a los de su transpuesta.
2.4.6 Dada la matriz A =
_
_
1 1 2
1 0 2
1 1 2
_
_
calcular la matriz inversa generalizada.
2.4.7 Calcular la descomposicin en valores singulares de la matriz A =
_
_
1 0
0 1
1 0
_
_
.
2.4.8 Demostrar que |A+vv
0
| = |A| (1 +v
0
A
1
v
0
), donde A es una matriz cuadrada no
singular y v un vector. Para ello utilizar que si llamamos
1
al valor propio no nulo de la
matriz de rango uno A
1
vv
0
, |(I +A
1
vv
0
)| =
Q
(1 +
i
) = 1 +
1
= 1 +tr(v
0
A
1
v).
2.4.5 Calcular la decomposicin de Cholesky de la matriz denida positiva A
0
A, donde
A es la matriz del ejercicio 2.4.6
2.5 (*)PROYECCIN ORTOGONAL
2.5.1 Matrices Idempotentes
En un modelo lineal la estimacin por mnimos cuadrados equivale a la proyeccin ortogonal
del vector de datos sobre el espacio generado por las variables explicativas. La proyeccin
ortogonal tiene una importancia capital en los mtodos de estimacin lineal y se realiza
multiplicando el vector que se desea proyectar por una matriz idempotente. Vamos a denir
formalmente estas matrices.
Llamaremos matriz idempotente
1
a una matriz cuadrada, simtrica, y que verica la
propiedad:
AA = A = A
0
A.
Es inmediato comprobar que una matriz idempotente o bien es singular (|A| = 0), con
rango r menor que el orden n de la matriz, o bien es la matriz identidad. En efecto, como
A es idempotente:
AA = A
si |A| 6= 0, existir la matriz inversa A
1
, y multiplicando por A
1
A
1
AA = A = I.
1
Una matriz idempotente puede no ser simtrica, pero todas las matrices idempotentes que utilicemos
lo sern; por lo tanto, en adelante idempotente ser simtrica e idempotente, sin que detallemos que es
simtrica.
2.5. (*)PROYECCIN ORTOGONAL 59
Por tanto, una matriz idempotente que no es la matriz I ser singular. Comprobaremos
que las races caractersticas de una matriz idempotente son cero o la unidad. Llamemos
a sus races caractersticas y u a sus vectores caractersticos. Entonces:
Au = u,
multiplicando por A, el primer miembro es:
AAu = Au =u
y el segundo:
Au =
2
u,
es decir,
u =
2
u
de donde resulta:

u = 0.
Para que sea una raz caracterstica el vector u debe ser distinto de cero, entonces:

2
= ( 1) = 0
que tiene como soluciones = 1 = 0. Por lo tanto, si se diagonaliza una matriz
idempotente lo que siempre puede hacerse al ser simtrica obtendremos en la diagonal
principal un nmero de unos igual al rango de la matriz y el resto de los elementos sern
cero.
Una conclusin inmediata de este resultado es que una matriz idempotente A es siempre
semidenida positiva. En efecto:
x
0
Ax = x
0
A
0
Ax = (Ax)
0
Ax 0.
Finalmente, si A es idempotente tambin lo es I A ya que:
(I A)(I A) = I AA+AA = I A
De las propiedades anteriores se deduce que si A es una matriz idempotente simtrica,
su rango es igual a su traza.
2.5.2 Proyeccin Ortogonal
Dado un vector y de n componentes diremos que v es la proyeccin ortogonal de y sobre un
subespacio E
p
contenido en <
n
y de dimensin p, p < n si:
1. y = v +w con v E
p
60 CAPTULO 2. LGEBRA MATRICIAL
2. v
0
w = 0 para todo v E
p
.
Esta denicin indica que y puede descomponerse como suma de dos vectores perpen-
diculares: el primero, v, es la proyeccin ortogonal de y sobre E
p
y pertenece, por tanto, a
E
p
; el segundo, w, es ortogonal a todos los vectores de E
p
(y por tanto a E
p
), y pertenece,
en consecuencia, al espacio E
np
, complemento ortogonal al E
p
. Es fcil demostrar que esta
descomposicin es nica. La gura 2.5 ilustra esta situacin.
y
v
w
E
Figura 2.5: Proyeccin ortogonal del vector y sobre el plano E
Como ilustracin, sea E
p
un espacio de dimensin uno engendrado por el vector x. En-
tonces la proyeccin del vector y sobre la direccin del vector x ser:
v = cx
donde c es un escalar. Para determinar c, impondremos la condicin de que la diferencia
w = y v debe ser ortogonal a v, y por tanto a x:
x
0
(y v) = 0,
es decir, x
0
y = x
0
xc, que implica:
c = (x
0
x)
1
x
0
y.
Sustituyendo este valor de c en la expresin de v, la proyeccin ser:
v = x(x
0
x)
1
x
0
y = Ay
2.5. (*)PROYECCIN ORTOGONAL 61
es decir, la proyeccin de un vector y sobre otro x se obtiene multiplicando el vector por la
matriz A = x(x
0
x)
1
x
0
. Esta matriz A, es cuadrada (nn), idempotente y de rango igual a
la dimensin del espacio sobre el que proyectamos, que es, en este caso, uno. Comprobemos
que es idempotente:

x(x
0
x)
1
x
0

x(x
0
x)
1
x
0

= x(x
0
x)
1
x
0
,
y que es de rango uno:
rg(A) = tr(A) = tr

(x
0
x)
1
x
0
x

= tr(1) = 1
Observemos que en el caso particular en que el vector x tiene norma unitaria, (x
0
x) = 1,
y la expresin del vector proyeccin es
v = xx
0
y
que tiene una interpretacin inmediata: el vector proyeccin estar en la direccin de x (lo
que implica es de la forma cx) y su norma viene dada por la longitud de la proyeccin que
es x
0
y, (ya que x tiene norma unitaria).
A continuacin generalizamos estos resultados a proyecciones ms generales.
Teorema 2.1 Sea y <
n
y sea X una matriz (n p) cuyas columnas son una base de un
cierto subespacio E
p
. Entonces la proyeccin del vector y sobre el espacio E
p
es Ay, donde
la matriz cuadrada A es simtrica, idempotente, de rango p, y tal que A = X(X
0
X)
1
X
0
.
Demostracin La proyeccin de y sobre un subespacio debe ser siempre del tipo v = Ay,
donde A es idempotente. En efecto la proyeccin de v sobre dicho espacio, dada por Av,
tendr que ser igual a v, ya que v pertenece al subespacio. Por tanto, si Av = v , resuta
que:
A(Ay) = Ay
para todo vector y, lo que requiere A = A
2
, es decir, la matriz proyeccin debe ser idem-
potente. Demostraremos ahora que la matriz idempotente A que proyecta sobre el espacio
generado por las columnas de una matriz X, E
p
, viene dada por:
A = X(X
0
X)
1
X
0
.
Probemos primero que A depende del subespacio E
p
, pero no de la base elegida. En efecto,
si consideramos otra base B generadora del subespacio dada por:
B = XC
donde C es (p p) y no singular, como (GP)
1
= P
1
G
1
para G y P matrices cuadradas
no singulares, tendremos que:
B(B
0
B)
1
B
0
= XC(C
0
X
0
XC)
1
C
0
X
0
= X(X
0
X)
1
X
0
= A
62 CAPTULO 2. LGEBRA MATRICIAL
por tanto, Ano depende de la base escogida. A continuacin veremos que el vector v denido
por:
v = X(X
0
X)
1
X
0
y,
verica las condiciones de una proyeccin. Demostraremos, en primer lugar, que v est
contenido en E
p
. Llamemos
= (X
0
X)
1
X
0
y
a los coecientes de la proyeccin de y sobre el espacio de las columnas de X, que repre-
sentaremos por x
1
, ..., x
p
. Entonces
v = X =
1
x
1
+
2
x
2
+... +
p
x
p
,
y al ser v una combinacin lineal de las columnas de X pertenece a E
p
. Demostraremos
ahora que y v es ortogonal a E
p
. Todo vector de E
p
puede expresarse como:
u =
1
x
1
+... +
p
x
p
= X
y por tanto,
u
0
(y v) = u
0
(I X(X
0
X)
1
X
0
)y =
0
(X
0
X
0
X(X
0
X)
1
X
0
)y = 0
es decir, y v es ortogonal a cualquier vector de E
p
, lo que demuestra el teorema.
Teorema 2.2 La condicin necesaria y suciente para que v = Ay, donde A es una matriz
cuadrada, sea la proyeccin ortogonal de y <
n
sobre un cierto espacio E
p
, es que A sea
idempotente (A = A
0
, A
2
= A) de rango p.
Demostracin La condicin es necesaria: si A dene una proyeccin, segn el teorema
anterior puede expresarse como A = X(X
0
X)
1
X
0
, siendo X una matriz que contiene, en
columnas, una base del espacio, por lo que A es simtrica e idempotente.
La condicin es suciente: supongamos que A es idempotente y hagamos
y = Ay + (I A)y
Vamos a demostrar que el vector (I A)y es ortogonal a todo vector que pertenezca a E
p
.
Sea Ac un vector cualquiera que pertenece a E
p
.
(Ac)
0
(I A)y = c
0
(A
0
A)y = 0
por tanto, si A es idempotente, Ay es la proyeccin de y sobre el espacio generado por las
columnas de A.
Teorema 2.3 Si y <
n
, v es su proyeccin sobre E
p
y z es cualquier otro vector de E
p
, se
verica, llamando kyk a la norma del vector y:
kyk
2
= kvk
2
+ ky vk
2
ky zk
2
= kv zk
2
+ ky vk
2
.
2.5. (*)PROYECCIN ORTOGONAL 63
Demostracin Estas expresiones representan el teorema de Pitgoras en un espacio general.
Como, por denicin de proyeccin, v
0
(y v) = 0, entonces v
0
y = v
0
v. Por otro lado:
(y v)
0
(y v) = y
0
y v
0
y y
0
v +v
0
v = y
0
y v
0
v,
que escribiremos
y
0
y = v
0
v + (y v)
0
(y v)
que es la primera igualdad. Para demostrar la segunda, partamos de la identidad
y z = y v +v z
y multiplicando por el vector transpuesto y utilizando que y v debe ser ortogonal a v z,
por serlo a todos los vectores de E
p
, el teorema queda demostrado.
Una consecuencia de este teorema es que podemos denir la proyeccin ortogonal de un
vector y sobre un espacio E
p
como aquel vector v de E
p
tal que ky vk es mnimo. En
este sentido el vector proyeccin es, el ms prximo al original. En efecto, como, para
cualquier vector z del plano:
ky zk ky vk
el vector v, proyeccin ortogonal, minimiza las distancias entre el espacio E
p
y el vector y.
Teorema 2.4 Si y <
n
, el cuadrado de la norma de su proyeccin sobre un espacio E
p
denido por las columnas de la matriz X vendr dado por y
0
Ay, donde A es idempotente.
Demostracin El vector proyectado ser Ay, donde A es idempotente, y su norma ser:
(Ay)
0
(Ay) = y
0
Ay.
Teorema 2.5 Si y <
n
y proyectamos este vector sobre espacios ortogonales, E
1
, ..., E
h
,
denidos por matrices de proyeccin , A
1
, ...A
h
, donde:
n =
h
X
i=1
rg(A
i
)
se verica:
y
0
y = y
0
A
1
y +y
0
A
2
y +... +y
0
A
h
y.
Ejercicios 2.5
2.5.1 Calcule la proyeccin ortogonal del vector (1,1 3) sobre el espacio generado por las
dos variables (1 ,1,1) y (0, 1,2).
2.5.2 Exprese al vector anterior como combinacin lineal de las dos variables.
2.5.3 Obtener el vector ortogonal al vector proyeccin.
2.5.4 Demuestre que el resultado anterior es equivalente a realizar la regresin simple
entre la variable (1,1 3) y la variable (0, 1,2).
2.5.5 Demostrar, utilizando el Teorema 2.1, que para calcular los coecientes de regresin
mltiple entre una variable y un conjunto de variables incorreladas basta con calcular los
coecientes de las regresiones simples.
64 CAPTULO 2. LGEBRA MATRICIAL
2.6 (*)DERIVADAS MATRICIALES
Denicin 2.1 Dada un funcin f que depende de n variables, x
1
, ..., x
n
, que pueden con-
siderarse componentes de un vector x, la derivada de f respecto a x es un vector cuyos
componentes son la derivada de f respecto a cada componente de x.
Ejemplo 2.1 Si f = 5x
1
+ 2x
2
+ 3x
3
f
x
=
_
_
5
2
3
_
_
Los siguientes resultados son consecuencia de la denicin
Corolario 2.1 Si f = a
0
x tendremos que:
(a
0
x)
x
= a
Corolario 2.2 Si f = x
0
Ax, donde A es cuadrada y simtrica:
(x
0
Ax)
x
= 2Ax
Demostracin Resulta de aplicar la denicin anterior, como:
x
0
Ax =
n
X
i=1
a
ii
x
2
i
+ 2
X
j>i
a
ij
x
i
x
j
tendremos que:
(xAx)
x
1
= 2a
11
x
1
+ 2a
12
x
2
+... + 2a
1n
x
n
= 2a
0
1
x
donde a
0
1
es la primera la de la matriz. Por tanto:
(xAx)
x
=
_

_
2a
0
1
x
2a
0
2
x
.
.
.
2a
0
n
x
_

_
= 2Ax
Denicin 2.2 Dada un funcin f que depende de np variables, x
11
, ..., x
np
, que son los
componentes de una matriz rectangular n p, X , la derivada de f respecto a X se dene
como la matriz cuyos componentes son la derivada de f respecto a cada componente de X
0
.
La derivada es pues una matriz p n con las dimensiones de X
0
.
2.6. (*)DERIVADAS MATRICIALES 65
Los siguientes resultados se comprueban aplicando la denicin
Corolario 2.3 Corolario 2.4 Si f = a
0
Xb
(a
0
Xb)
X
= ba
0
Denicin 2.3 Ejemplo 2.2 Corolario 2.5 Si f = a
0
X
0
Xb
(a
0
X
0
Xb)
X
= (ab
0
+ba
0
)X
0
Denicin 2.4 Dado un vector y cuyos componentes son funciones f
i
de un vector de
variables x
0
= (x
1
, ..., x
n
), denimos la derivada de y respecto a x como la matriz cuyas
columnas son las derivadas de los componentes f
i
respecto a x. Es decir, si:
y
0
= (f
1
(x), ..., f
n
(x))
entonces:
y
x
=

f
1
x
, . . . ,
f
n
x

=
_

_
f
1
x
1
. . .
f
n
x
1
.
.
.
.
.
.
f
1
xn
. . .
fn
xn
_

_
Corolario 2.6 Si y = Ax, donde A es una matriz cualquiera.
(Ax)
x
= A
0
Demostracin Para deducir este resultado de la denicin anterior, escribamos la matriz
A como:
A =
_

_
a
0
1
.
.
.
a
0
n
_

_
donde cada a
0
1
es una la de la matriz. Entonces:
y = Ax =
_

_
a
0
1
x
.
.
.
a
0
n
x
_

_
con lo que:
f
i
x
=
(a
0
i
x)
x
= a
i
por tanto, segn lo anterior:
y
x
= [a
1
, . . . , a
n
] = A
0
66 CAPTULO 2. LGEBRA MATRICIAL
Otras propiedades
Puede deducirse, extendiendo las deniciones anteriores, que, si los elementos de la matriz
cuadrada y no singular X son distintos:
a)
ln|X|
X
= (X
0
)
1
d)
tr (XB)
X
= B
0
b)
|X|
X
= |X| (X
0
)
1
e)
tr (X
0
AXB)
X
= BX
0
A+B
0
X
0
A
0
c)
tr(BXC)
X
= B
0
C
0
f)
tr(BX
1
)
X
=

X
1
BX
1

adems, si X es simtrica:
tr(XB)
X
= B+B
0
diag(B)
|X|
X
= |X|

2X
1
diag

X
1

El lector interesado puede encontrar las demostraciones de estos resultados en Bibby y


Toutenterg (1977), Graybill (1983) y Pollock (1979).
Ejercicios 2.6
2.6.1 Calcular la derivada con respecto al vector x =(x
1
, x
2
)
0
de las funciones siguientes
a) f
1
(x) = 2x
1
+ 3x
2
,
b) f
2
(x) = 4x
2
1
3x
1
x
2
,
c) f
3
(x) = 3x
4
1
x
3
2
+ 2x
2
1
x
2
2
7x
1
x
3
2
+ 6
2.6.2 Calcular la derivada con respecto al vector x =(x
1
, x
2
)
0
de las funciones vectoriales
siguientes, construidas con la notacin de 2.6.1
a)f
1
(x) = (f
1
(x), f
2
(x), f
3
(x))
0
,
b)f
2
(x) = (2f
1
(x) + 5f
2
(x), 6f
3
(x))
0
,
2.6.3 Si x =(x
1
, x
2
, x
3
, x
4
)
0
y X =

x
1
x
2
x
3
x
4

, comprobar que
ln|X|
x
1
=
x
4
x
1
x
4
x
2
x
3
y
utilizar este resultado para conrmar la expresin de
ln|X|
X
.
2.6.4 En el ejercicio anterior comprobar que
|X|
X
=

x
4
x
3
x
2
x
1

. Utilizar esta expre-


sin para vericar la ecuacin dada de la derivada del determinante de una matriz cuadrada.
2.6.5 Si x =(x
1
, x
2
, x
3
)
0
y X =

x
1
x
2
x
2
x
3

, comprobar que
|X|
X
=

x
3
2x
2
2x
2
x
1

,
Utilizar este resultado para conrmar la expresin general de la derivada del determinante
de una matriz cuadrada.
Captulo 3
DESCRIPCIN DE DATOS
MULTIVARIANTES
3.1 INTRODUCCIN
En este captulo y en el siguiente vamos a estudiar como describir un conjunto de datos
multivariantes. Supondremos que hemos observado un conjunto de variables en un conjunto
de elementos de una poblacin y en este captulo presentaremos mtodos para resumir los
valores de las variables y describir su estructura de dependencia. En el captulo siguiente
completaremos el anlisis descriptivo analizando como representar los datos grcamente y
decidir respecto a posibles transformaciones de las variables originales que conduzcan a una
descripcin ms simple. Tambin comentaremos el problema de limpiar los datos de valores
atpicos, que son observaciones debidas a errores de medida o otras causas de heterogeneidad.
El anlisis descriptivo que presentamos en este captulo debe siempre aplicarse como
primer paso para comprender la estructura de los datos y extraer la informacin que con-
tienen, antes de pasar a los mtodos ms complejos de los captulos siguientes. Las her-
ramientas simples que describimos en estos dos captulos pueden, en ocasiones, resolver el
problema que ha motivado la recogida de los datos. En particular, cuando el inters se centra
en la relacin entre las variables o en la comparacin de dos conjuntos de datos, los mtodos
descriptivos pueden ser de gran ayuda antes de emprender estudios ms complejos.
3.2 DATOS MULTIVARIANTES
3.2.1 Tipos de variables
La informacin de partida para los mtodos estudiados en este libro puede ser de varios tipos.
La ms habitual es una tabla donde aparecen los valores de p variables observadas sobre n
elementos. Las variables pueden ser cuantitativas, cuando su valor se exprese numricamente,
como la edad de una persona, su estatura o su renta, o cualitativas, cuando su valor sea un
atributo o categora, como el gnero, el color de los ojos o el municipio de nacimiento. Las
variables cuantitativas pueden a su vez clasicarse en continuas o de intervalo, cuando pueden
tomar cualquier valor real en un intervalo, como la estatura, o discretas, cuando slo toman
67
68 CAPTULO 3. DESCRIPCIN DE DATOS MULTIVARIANTES
CO x
1
x
2
x
3
A 1 0 0
V 0 1 0
C 0 0 1
N 0 0 0
Tabla 3.1: Codicacin de variables categricas
valores enteros, como el nmero de hermanos. Las variables cualitativas pueden clasicarse
en binarias, cuando toman nicamente dos valores posibles, como el gnero (mujer, hombre)
o generales, cuando toman muchos valores posibles, como el municipio de residencia.
Supondremos en adelante que las variables binarias se han codicado como numricas
(Por ejemplo, la variable gnero se convierte en numrica asignando el cero al varn y el uno a
mujer). Las variables cualitativas pueden tambin codicarse numricamente, pero requieren
un tratamiento distinto. Si los valores de las categoras no tienen relacin entre s, la forma
ms til de codicarlas es convirtindolas en variables binarias. Por ejemplo, supongamos la
variable color de los ojos, CO, y para simplicar supongamos que las categoras posibles son
azules (A), verdes (V), castaos (C) y negros (N). Tenemos p = 4 categoras que podemos
representar con p 1 = 3 variables binarias denidas como:
a) x
1
= 1 si CO=A, x
1
= 0 en otro caso.
b) x
2
= 1 si CO=V, x
2
= 0 en otro caso.
c) x
3
= 1 si CO=C, x
3
= 0 en otro caso.
La tabla 3.1 presenta la codicacin de la variable atributo CO en las tres variables
binarias cuantitativas, x
1
, x
2
, x
3
Si el nmero de clases posibles de una variable cualitativa es muy grande este procedimien-
to siempre puede aplicarse pero puede lgicamente dar lugar a muchas variables. Conviene
entonces ver si podemos agrupar las clases o categoras para evitar tener variables que casi
siempre toman el mismo valor (cero si la categora es poco frecuente o uno si lo es mucho).
Naturalmente la variable CO podra tambin haberse codicado dando valores numricos
arbitrarios a las categoras, por ejemplo, A=1, V=2, C=3, N=4, pero esta codicacin tiene
el inconveniente de sugerir una graduacin de valores que puede no existir. Sin embargo,
cuando los atributos pueden interpretarse en funcin de los valores de una variable contina
tiene ms sentido codicarla con nmeros que indiquen el orden de las categoras. Por
ejemplo, si tenemos empresas pequeas, medianas y grandes, en funcin del nmero de
trabajadores, tienen sentido codicarlas con los nmeros 1, 2, y 3, aunque conviene siempre
recordar que estos nmeros slo tienen un sentido de orden.
3.2.2 La matriz de datos
Supondremos en adelante que hemos observado p variables numricas en un conjunto de n
elementos. Cada una de estas p variables se denomina una variable escalar o univariante y
el conjunto de las p variables forman una variable vectorial o multivariante. Los valores
de las p variables escalares en cada uno de los n elementos pueden representarse en una
matriz, X, de dimensiones (np), que llamaremos matriz de datos. Denotaremos por x
ij
3.2. DATOS MULTIVARIANTES 69
al elemento genrico de esta matriz, que representa el valor de la variable escalar j sobre el
individuo i. Es decir:
datos x
ij
donde i = 1, ..., n representa el individuo;
j = 1, ..., p representa la variable
Algunos ejemplos de datos que se utilizan en el anlisis multivariante son:
1. En 100 estudiantes de una universidad medimos la edad, el gnero (1 mujer, 0 hombre),
la calicacin media, el municipio de residencia (que se codica en 4 categoras en
funcin del tamao) y el curso ms alto en que se encuentra matriculado. Los datos
iniciales se representan en una tabla de 100 las, cada una de ellas correspondiente a los
datos de un estudiante. La tabla tendr 5 columnas, cada una de ellas conteniendo los
valores de una de las 5 variables denidas. De estas 5 variables 3 son cuantitativas, una
binaria (el gnero) y otra cualitativa general (municipio de residencia, que tomar los
valores 1, 2, 3, y 4). Alternativamente podramos codicar el municipio de residencia
con tres variables binarias, y entonces, la matriz de datos tendr n =100 las y p =
7 columnas correspondientes a las tres cuantitativas, el gnero, y las tres variables
binarias adicionales para describir el tamao del municipio de residencia.
2. En cada una de las 138 empresas de una zona medimos el nmero de trabajadores, la
facturacin, el sector industrial y la cantidad recibida en ayudas ociales. Si clasi-
camos el sector en ocho clases con siete variables binarias la matriz de datos ser de
dimensiones 138 10 con tres variables cuantitativas y siete binarias (que describen el
sector industrial).
3. En 400 puntos de una ciudad instalamos controles que proporcionan cada hora las
medidas de 30 variables ambientales y de contaminacin atmosfrica en dicho punto.
Cada hora tendremos una matriz de datos con 400 las, los puntos de observacin, y
30 columnas, las 30 variables observadas.
La matriz de datos, X, puede representarse de dos formas distintas. Por las, como:
X =
_

_
x
11
x
12
. . . x
1p
x
21
. . . . . . x
2p
.
.
.
x
n1
. . . . . . x
np
_

_
=
_

_
x
0
1
.
.
.
.
.
.
x
0
n
_

_
donde cada variable x
0
i
es un vector la, p 1, que representa los valores de las p variables
sobre el individuo i. Alternativamente, podemos representar la matriz X por columnas:
X =

x
(1)
. . . x
(p)

donde ahora cada variable x


(j)
es un vector columna, n 1, que representa la variable
escalar x
j
medida en los n elementos de la poblacin. Llamaremos x = (x
1
, ..., x
p
)
0
a la
variable multivariante formada por las p variables escalares que toma los valores particulares
x
1
, ..., x
n
, en los n elementos observados.
70 CAPTULO 3. DESCRIPCIN DE DATOS MULTIVARIANTES
3.2.3 Anlisis univariante
Describir datos multivariantes supone estudiar cada variable aisladamente y adems las
relaciones entre ellas. Supondremos que el lector est familiarizado con el anlisis descriptivo
de una variable, y aqu expondremos nicamente las frmulas que utilizaremos en otras partes
del libro. El estudio univariante de la variable escalar x
j
implica calcular su media:
x
j
=
1
n
n
X
i=1
x
ij
que para una variable binaria es la frecuencia relativa de aparicin del atributo y para
una numrica es el centro de gravedad o geomtrico de los datos. Se calcula una medida
de variabilidad con relacin a la media, promediando las desviaciones entre los datos y su
media. Si denimos las desviaciones mediante d
ij
= (x
ij
x
j
)
2
, donde el cuadrado se toma
para prescindir del signo, se dene la desviacin tpica por:
s
j
=
r
P
n
i=1
d
ij
n
=
r
P
n
i=1
(x
ij
x
j
)
2
n
(3.1)
y su cuadrado es la varianza, s
2
j
=
P
n
i=1
d
ij
/n . Para comparar la variabilidad de distintas
variables conviene construir medidas de variabilidad relativa que no dependan de las unidades
de medida. Una de estas medidas es el coeciente de variacin
CV
j
=
s
s
2
j
x
2
j
donde de nuevo se toman los cuadrados para prescindir del signo y suponemos que x
j
es
distinto de cero. En tercer lugar, conviene calcular los coecientes de asimetra, que miden
la simetra de los datos respecto a su centro, y que se calculan como:
A
j
=
1
n
P
(x
ij
x
j
)
3
s
3
j
.
Este coeciente es cero para una variable simtrica. Cuando el valor absoluto del coeciente
es aproximadamente mayor que uno podemos concluir que los datos tienen una distribucin
claramente asimtrica.
Una caracterstica importante de un conjunto de datos es su homogeneidad. Si las desvia-
ciones d
ij
son muy distintas, esto sugiere que hay datos que se separan mucho de la media
y que tenemos por tanto alta heterogeneidad. Una posible medida de homogeneidad es la
varianza de las d
ij
, dada por:
1
n
n
X
i=1
(d
ij
s
2
j
)
2
ya que, segn (3.1), la media de las desviaciones d
j
= s
2
. Se calcula una medida adimensional
anloga al coeciente de variacin dividiendo la varianza de las desviaciones por el cuadrado
3.2. DATOS MULTIVARIANTES 71
de la media, s
4
, con lo que tenemos el coeciente de homogeneidad, que puede escribirse
H
j
=
1
n
P
n
i=1
(d
ij
s
2
j
)
2
s
4
j
.
Este coeciente es siempre mayor o igual a cero. Desarrollando el cuadrado del numerador
como
P
n
i=1
(d
ij
s
2
j
)
2
=
P
n
i=1
d
2
ij
+ns
4
j
2s
2
j
P
n
i=1
d
ij
este coeciente puede escribirse tambin
como:
H
j
=
1
n
P
(x
ij
x
j
)
4
s
4
j
1 = K
j
1.
El primer miembro de esta expresin, K
j
, es una forma alternativa de medir la homogeneidad
y se conoce como coeciente de kurtosis. Como H
j
0, el coeciente de kurtosis ser igual o
mayor que uno. Ambos coecientes miden la relacin entre la variabilidad de las desviaciones
y la desviacin media. Es fcil comprobar que :
1. Si hay unos pocos datos atpicos muy alejados del resto, la variabilidad de las desvia-
ciones ser grande, debido a estos valores y los coecientes de kurtosis o de homogeneidad
sern altos.
2. Si los datos se separan en dos mitades correspondientes a dos distribuciones muy
alejadas entre s, es decir, tenemos dos conjuntos separados de datos distintos, la media de
los datos estar equidistante de los dos grupos de datos y las desviaciones de todos los datos
sern similares, con lo que el coeciente H
j
ser muy pequeo (cero en el caso extremo en
que la mitad de los datos son iguales a cualquier nmero, a , y la otra mitad igual a a).
Un objetivo central de la descripcin de datos es decidir si los datos son una muestra
homognea de una poblacin o corresponden a una mezcla de poblaciones distintas que deben
estudiarse separadamente. Como veremos en el captulo siguiente, un caso especialmente
importante de heterogeneidad es la presencia de una pequea proporcin de observaciones
atpicas (outliers), que corresponden a datos heterogneos con el resto. La deteccin de estas
observaciones es fundamental para una correcta descripcin de la mayora de los datos, ya
que. como veremos, estos valores extremos distorsionan los valores descriptivos del conjunto.
El coeciente de kurtosis puede ayudar en este objetivo, ya que tomar un valor alto, mayor
que 7 u 8. Por ejemplo, si contaminamos datos que provienen de una distribucin normal
con un 1% de atpicos generados por otra distribucin normal con la misma media, pero
una varianza 20 veces mayor, el coeciente de kurtosis ser alrededor de 10. Siempre que
observemos un valor alto de la kurtosis para una variable esto implica heterogeneidad por
uno pocos atpicos muy alejados del resto.
Aparece un tipo distinto de heterogeneidad cuando tenemos una mezcla de dos pobla-
ciones, de manera que una proporcin importante de los datos, entre el 25% y el 50%, son
heterogeneos con el resto. En este caso, el coeciente de kurtosis es pequeo, menor de dos,
y es fcil comprobar que si mezclamos a partes iguales dos distribuciones muy distintas, la
kurtosis de la distribucin resultante tiende a uno, el valor mnimo del coeciente, cuando
aumenta la separacin entre las poblaciones
La presencia posible de datos atpicos recomienda calcular junto a los estadsticos tradi-
cionales medidas robustas de centralizacin y dispersin de los datos. Para centralizacin
72 CAPTULO 3. DESCRIPCIN DE DATOS MULTIVARIANTES
conviene calcular la mediana, que es el valor que se encuentra en la posicin central al ordenar
los datos. Para la dispersin, la MEDA, que es la mediana de las desviaciones absolutas re-
specto a la mediana. Finalmente siempre conviene representar grcamente las variables
continuas mediante un histograma o un diagrama de caja (vase por ejemplo Pea, 2001).
En el anlisis inicial de los datos conviene siempre calcular la media y la mediana de cada
variable. Si ambas son similares, la media es un buen indicador del centro de los datos. Sin
embargo, si dieren mucho, la media puede no ser una buena medida del centro de los datos
debido a: (1) una distribucin asimtrica, (2) la presencia de valores atpicos (que afectaran
mucho a la media y poco a la mediana) (3) heterogeneidad en los datos.
A continuacin pasaremos al anlisis multivariante de las observaciones. En este cap-
tulo presentaremos como obtener medidas conjuntas de centralizacin y dispersin para el
conjunto de variables y medidas de dependencia lineal entre pares de variables y entre todas
ellas.
3.3 MEDIDAS DECENTRALIZACIN: EL VECTOR
DE MEDIAS
La medida de centralizacin ms utilizada para describir datos multivariantes es el vector
de medias, que es un vector de dimensin p cuyos componentes son las medias de cada una
de las p variables. Puede calcularse, como el caso escalar, promediando las medidas de cada
elemento, que ahora son vectores:
x =
1
n
n
X
i=1
x
i
=
_

_
x
1
.
.
.
x
p
_

_
(3.2)
Su expresin a partir de la matriz de datos es :
x =
1
n
X
0
1, (3.3)
donde 1 representar siempre un vector de unos de la dimensin adecuada. En efecto,
escribiendo la matriz X en trminos de sus vectores la, que son vectores de dimensin 1 p
que contienen los valores de las p variables en cada elemento de la muestra, estos vectores
son las columnas de X
0
, y tendremos que:
x =
1
n
[x
1
. . . x
n
]
_

_
1
.
.
.
1
_

_
, (3.4)
que conduce a (3.2). El vector de medias se encuentra en el centro de los datos, en el sentido
de hacer cero la suma de desviaciones:
n
X
i=1
(x
i
x) = 0.
3.3. MEDIDAS DE CENTRALIZACIN: EL VECTOR DE MEDIAS 73
ya que esta suma es
P
n
i=1
x
i
nx, y aplicando la denicin (3.2) es inmediato que esta suma
es cero.
Las medidas de centralizacin escalares basadas en el orden de las observaciones no
pueden generalizarse fcilmente al caso multivariante. Por ejemplo, podemos calcular el
vector de medianas, pero este punto no tiene necesariamente una situacin como centro de
los datos. Esta dicultad proviene de la falta de un orden natural de los datos multivariantes.
Ejemplo 3.1 La tabla A.5 del Apndice de Datos, MEDIFIS, presenta ocho variables fsicas
tomadas en un grupo de 27 estudiantes. Las variables son sexo (sex con 0 para mujer, 1 para
varn), estatura (est, en cm.), peso (pes, en kgr.), longitud de pie (lpie, en cm), longitud de
brazo (lbra, en cm), anchura de la espalda (aes, en cm), dimetro de crneo (dcr, en cm) y
longitud entre la rodilla y el tobillo (lrt, en cm).
La tabla 3.2 presenta las medias y desviaciones tpicas de las variables, as como otras
medidas de la distribucin univariante de cada variable.
sex est pes lpie lbr aes dcr lrt
Medias .44 168.8 63.9 39.0 73.5 45.9 57.2 43.1
D. Tpicas .53 10.0 12.6 2.8 4.9 3.9 1.8 3.1
Coef. asimetra .22 .15 .17 .27 .37 -.22 .16 .56
Coef. kurtosis 1.06 1.8 2.1 1.9 2.1 2.4 2.0 3.4
Coef. variacin 1.2 .06 .20 .07 .07 .09 .03 .07
Tabla 3.2: Anlisis descriptivo de las medidas fsicas
En la variable binaria sexo la media es la proporcin de unos (hombres) en los datos, la
desviacin tpica es
p
p(1 p), donde p es la media. El lector puede comprobar que para
variables binarias el coeciente de kurtosis es
p
3
+ (1 p)
3
p(1 p)
y en este caso, como p = .44 el coeciente de kurtosis es 1.06. Para las variables continuas
las medias describen los valores centrales. Si miramos los coecientes de variacin se observa
que en las medidas de longitudes, como la estatura, la longitud del pie y las extremidades,
que vienen determinadas ms por la herencia gentica que por nuestros hbitos, la variabili-
dad relativa es del orden del 7% . El dimetro del crneo es mucho ms constante, con una
variabilidad relativa de menos de la mitad, el 3%. La variabilidad relativa de las variables
que dependen ms de nuestros hbitos, como el peso, es mucho mayor, del 20%. Las dis-
tribuciones son aproximadamente simtricas, a juzgar por los bajos valores de los coecientes
de asimetra. Los coecientes de kurtosis son bajos, menores o iguales a dos para tres de
las variables, lo que puede indicar la presencia de dos poblaciones mezcladas, como veremos
en la seccin 3.6. Ninguna variable tiene alta kurtosis, por lo que podemos descartar la
presencia de unos pocos valores atpicos grandes.
La tabla 3.3 presenta dos medidas robustas, las mediana (valor central de los datos) y la
MEDA o mediana de las desviacin absolutas para cada variable. Estas medidas conrman
los comentarios anteriores.
74 CAPTULO 3. DESCRIPCIN DE DATOS MULTIVARIANTES
est pes lpie lbr aes dcr lrt
medianas 168 65 39 73 46 57 43
medas 8.51 10.50 2.38 3.96 3.26 1.52 2.39
meda/mediana .05 .16 .05 .05 .07 .03 .06
Tabla 3.3: Anlisis descriptivo robusto de las medidas fsicas
Se observa que las medianas son muy similares a las medias y las medas a las desviaciones
tpicas, lo que sugiere falta de valores extremos. Los coecientes de variacin robustos,
calculados como ratio entre la meda y la mediana son tambin bsicamente similares a los
anteriores. Hay que sealar que, en general, la meda es ms pequea que la desviacin tpica,
y que, por tanto, estos coecientes de variacin sern ms pequeos que los originales. Lo
importante es que la estructura es similar entre las variables. La gura 3.1 muestra el
histograma de la variable estatura donde se aprecia que los datos parecen ser la mezcla de
dos distribuciones. Esto es esperable, ya que tenemos juntos hombres y mujeres.
Figura 3.1: Histograma de las estaturas donde se observa una distribucin mezclada
3.4 LA MATRIZ DE VARIANZAS Y COVARIAN-
ZAS
Como hemos comentado, para variables escalares la variabilidad respecto a la media se mide
habitualmente por la varianza, o su raz cuadrada, la desviacin tpica. La relacin lineal
entre dos variables se mide por la covarianza. La covarianza entre dos variables (x
j
, x
k
) se
3.4. LA MATRIZ DE VARIANZAS Y COVARIANZAS 75
calcula con:
s
jk
=
1
n
n
X
i=1
(x
ij
x
j
)(x
ik
x
k
)
y mide su dependencia lineal. Esta informacin para una variable multivariante puede pre-
sentarse de forma compacta en la matriz de varianzas y covarianzas. Denimos esta matriz
como:
S =
1
n
n
X
i=1
(x
i
x)(x
i
x)
0
(3.5)
que es una matriz cuadrada y simtrica que contiene en la diagonal las varianzas y fuera de
la diagonal las covarianzas entre las variables. En efecto, al multiplicar los vectores :
_

_
x
i1
x
1
.
.
.
x
ip
x
p
_

_
[x
i1
x
1
, . . . , x
ip
x
p
] =
_

_
(x
i1
x
1
)
2
. . . (x
i1
x
1
)(x
ip
x
p
)
.
.
.
.
.
.
(x
ip
x
p
)(x
i1
x
1
) . . . (x
ip
x
p
)
2
_

_
se obtiene la matriz de cuadrados y productos cruzados de las p variables en el elemento i.
Al sumar para todos los elementos y dividir por n se obtienen las varianzas y covarianzas
entre las variables. La matriz de varianzas y covarianzas, que llamaremos para simplicar
matriz de covarianzas, es la matriz simtrica de orden p con forma:
S =
_

_
s
2
1
... s
1p
.
.
.
.
.
.
s
p1
. . . s
2
p
_

_
.
3.4.1 Clculo a partir de la matriz de datos centrados
La matriz S puede obtenerse directamente a partir de la matriz de datos centrados
e
X, que
se dene como la matriz resultado de restar a cada dato su media:
e
X = X1x
0
.
Sustituyendo el vector de medias por su expresin (3.3):
e
X = X
1
n
11
0
X = PX, (3.6)
donde la matriz cuadrada P est denida por
P = I
1
n
11
0
76 CAPTULO 3. DESCRIPCIN DE DATOS MULTIVARIANTES
y es simtrica e idempotente (compruebe el lector que PP = P). La matriz P tiene rango
n 1 (es ortogonal al espacio denido por el vector 1, ya que P1 = 0) y proyecta los
datos ortogonalmente al espacio denido por el vector constante (con todas las coordenadas
iguales). Entonces la matriz S puede escribirse:
S =
1
n
e
X
0
e
X =
1
n
X
0
PX. (3.7)
Algunos autores denen la matriz de covarianzas dividiendo por n1 en lugar de n para
tener un estimador insesgado de la matriz de la poblacin. Este divisor aparece, como en el
caso univariante, porque para calcular la variabilidad no tenemos n desviaciones independi-
entes sino solamente n 1. En efecto, los n vectores de desviaciones (x
i
x) estn ligados
por la ecuacin
n
X
i=1
(x
i
x) = 0
y slo podemos calcular n 1 desviaciones independientes. Si dividimos la suma por ese
nmero se obtiene una estimacin insesgada de la varianza. En este libro llamaremos matriz
de varianzas corregida,
b
S al estimador insesgado dado por
b
S =
1
n 1
e
X
0
e
X
Ejemplo 3.2 La tabla A.7 del apndice de datos ACCIONES presenta tres medidas de
rentabilidad de 34 acciones en bolsa durante un perodo de tiempo. La primera, x
1
es la
rentabilidad efectiva por dividendos (dividendos repartidos por accin divididos por precio de
la accin), x
2
es la proporcin de benecios que va a dividendos (benecios repartidos en
dividendos sobre benecios totales) y x
3
es el cociente entre precio por accin y benecios.
La tabla 3.4 presenta las medidas descriptivas de las tres variables.
x
1
(rentab.) x
2
(benef.) x
3
(precio)
Medias 9.421 69.53 9.097
D. Tpicas 5.394 24.00 4.750
Coef. asimetra 0.37 0.05 2.71
Coef. kurtosis 1.38 1.40 12.44
Tabla 3.4: Anlisis descriptivo de la rentabilidad de las acciones
Las medidas de asimetra y kurtosis indican un alejamiento de la distribucin normal
para las tres variables: las dos primeras tienen valores muy bajos de la kurtosis, lo que
indica alta heterogeneidad, posiblemente por la presencia de dos grupos de datos distintos, y
la tercera tiene alta kurtosis, lo que sugiere la presencia de valores atpicos.
Estas caractersticas son muy claras en los histogramas de las variables. La primera
variable, rentabilidad efectiva por dividendos, x
1
, muestra dos grupos de acciones con com-
portamiento distinto. El histograma de la segunda variable, x
2
, muestra tambin dos grupos
3.4. LA MATRIZ DE VARIANZAS Y COVARIANZAS 77
de acciones. Finalmente, la distribucin de la tercera variable es muy asimtrica, con un
valor atpico muy destacado. La evidencia disponible indica que las acciones pueden proba-
blemente dividirse en dos grupos ms homogneos. Sin embargo, vamos a ilustrar el anlisis
de todos los datos.
Histograma de la rentabilidad por dividendos.
Figura 3.2: Histograma de la proporcin de benecios que va a dividendos
78 CAPTULO 3. DESCRIPCIN DE DATOS MULTIVARIANTES
Figura 3.3: Histograma del precio por accin con relacin a los benecios (per)
La matriz de varianzas y covarianzas de estas tres variables se presenta en la tabla 3.5
X
1
X
2
X
3
29.1 100.4 -15.7
100.4 576 -18.5
-15.7 -18.5 22.6
Tabla 3.5: Matriz de covarianzas de las acciones
Los elementos diagonales de esta matriz son los cuadrados de las desviaciones tpicas de
la tabla 3.4. Como las dimensiones de las variables son distintas, no tiene sentido calcular
medidas promedio.
Los histogramas de las tres variables han mostrado una clara falta de normalidad. Una
posibilidad, que estudiaremos con ms detalle en el captulo siguiente, es transformar las
variables para facilitar su interpretacin. Tomando logaritmos, la matriz de covarianzas de
las variables transformadas, se indica en la tabla 3.6
logx
1
logx
2
logx
3
.35 .15 -.19
.15 .13 -.03
-.19 -.03 .16
Tabla 3.6: Matriz de covarianzas de las acciones
Se observa que los logaritmos modican mucho los resultados. Los datos ahora son ms
homogneos y la variable de mayor varianza pasa a ser la primera, el logaritmo de la rentabil-
idad efectiva, mientras que la menor es la segunda, el logaritmo de la proporcin de ben-
ecios que va a dividendos. La relacin entre el logaritmo del ratio precio/benecios (X
3
) y
3.4. LA MATRIZ DE VARIANZAS Y COVARIANZAS 79
la rentabilidad efectiva es negativa. Las otras relaciones son dbiles. Una ventaja adicional
de los logaritmos es que hace las variables independientes de la escala de medida: Si mul-
tiplicamos las variables por una constante al tomar logaritmos esto es equivalente a sumar
una cantidad y sumar una constante a los datos no altera su variabilidad. Por tanto, al
tomar logaritmos en las variables las varianzas pueden compararse aunque los datos tengan
distintas dimensiones. La varianza media de las tres variables es
V ar =
.35 +.13 +.16
3
= .213
y parece describir razonablemente la variabilidad de las variables.
3.4.2 Propiedades
As como la varianza es siempre un nmero no negativo, la matriz de varianzas y covarianzas
tiene una propiedad similar: es semidenida positiva. Esta propiedad asegura que si y es
cualquier vector, y
0
Sy 0. Tambin la traza, el determinante y los valores propios de esta
matriz son no negativos.
Demostracin
Sea w cualquier vector de dimensin p, denamos la variable escalar:
v
i
= w
0
(x
i
x). (3.8)
La media de esta variable ser:
v =
1
n
n
X
i=1
v
i
=
1
n
w
0
n
X
i=1
(x
i
x) = 0,
y la varianza debe ser forzosamente no negativa, con lo que:
V ar(v) =
1
n
n
X
i=1
v
2
i
=
1
n
n
X
i=1
[w
0
(x
i
x)][(x
i
x)
0
w] 0
= w
0
Sw 0.
Como la ecuacin anterior es vlida para cualquier vector w, concluimos que S es semi-
denida positiva. Esta condicin tambin implica que si Sw
i
=
i
w
i,
, entonces
i
0.
Finalmente, todos los menores principales son no negativos (en particular |S| 0).
80 CAPTULO 3. DESCRIPCIN DE DATOS MULTIVARIANTES
3.4.3 Variables redundantes: El caso con Matriz S singular
Vamos a analizar las consecuencias de que la matriz S sea singular. Observemos que si existe
algn vector w tal que w
0
Sw = 0, entonces la variable (3.8) tiene varianza nula y al tener
media cero esta variable siempre toma el valor cero. Por tanto para cualquier i:
p
X
j=1
w
j
(x
ij
x
j
) = 0 i.
Esta ecuacin implica que las p variables no son independientes, ya que podemos despejar
una cualquiera en funcin de las dems:
x
i1
= x
1

w
2
w
1
(x
i2
x
2
) ...
w
p
w
1
(x
ip
x
p
).
Por tanto, si existe algn vector w que haga w
0
Sw = 0, existe una relacin lineal exacta
entre las variables. Lo contrario es tambin cierto. Si existe una relacin lineal entre las
variables podemos escribir w
0
(x
i
x) = 0, para todo elemento, es decir
e
Xw = 0,
multiplicando esta expresin por la derecha por la matriz
e
X
0
y dividiendo por n:
1
n
e
X
0
e
Xw = Sw = 0. (3.9)
Esta condicin implica la matriz S tiene una raz caracterstica o autovalor igual a cero y
w es el vector caracterstico asociado a la raz caracterstica cero. Multiplicado en (3.9) por
w
0
se obtiene (
e
Xw)
0
(
e
Xw) = 0, que implica
e
Xw = 0, y concluimos que una variable es una
combinacin lineal exacta de las otras. En consecuencia, es posible reducir la dimensionalidad
del sistema eliminando esta variable. Observemos, adems, que las coordenadas del vector
w indican la combinacin lineal redundante.
Ejemplo 3.3 La matriz de covarianzas siguiente corresponde a cuatro variables simuladas
de manera que tres de ellas son linealmente independientes, pero la cuarta es el promedio de
las dos primeras.
S =
_

_
.0947 .0242 .0054 .0594
.0242 .0740 .0285 .0491
.0054 .0285 .0838 .0170
.0594 .0491 .0170 .0543
_

_
Los autovalores de esta matriz calculados con Matlab son (0, 172 97; 0, 08 762, 0, 04 617 y
0, 00005). El menor valor propio es prcticamente cero comparado con los otros tres, por lo
que la matriz tiene, muy aproximadamente, rango 3. El vector propio asociado a este valor
propio nulo es ( .408 .408 .000 -.816 ). Dividiendo por el trmino mayor este vector propio
puede escribirse como (.5 .5 0 -1), que revela que la falta de rango completo de la matriz de
covarianzas es debido a que la cuarta variable es el promedio de las dos primeras.
3.4. LA MATRIZ DE VARIANZAS Y COVARIANZAS 81
Ejemplo 3.4 En la tabla A.2 del anexo de datos gura una base de datos denominada
EUROSEC compuesta por 26 pases en los que se ha medido el porcentaje de poblacin que
se dedica a cada uno de 9 sectores econmicos. El clculo de los autovalores de la matriz de
varianzas covarianzas correspondiente a estos datos se presenta a continuacin y se observa
que hay un autovalor muy prximo a 0 (.0019). Si este autovalor no es exactamente cero es
debido a que en la tabla de datos la suma de las las no es exactamente 100% en todos los
casos por errores de redondeo (vara entre 99,8% y 102%)
0.0019 0.0649 0.4208 1.0460 2.4434 5.6394 15.207 43.7017 303.458
Sin embargo, este autovalor tan pequeo dene una variable escalar que no tiene prc-
ticamente variabilidad. Para determinarla, obtenemos el vector propio ligado a este valor
propio, que es el vector (.335, .324, .337, .339, .325, .337, .334, .332, .334). Este vector
es aproximadamente el vector constante, lo que indica que la suma de todas las variables da
lugar a una variable escalar aproximadamente constante.
El segundo valor propio es tambin bastante pequeo. El vector propio correspondiente
es (-0.07, -0.29, -0.07, 0.91, 0.00, -0.10, -0.12, -0.05, -0.22). Este vector propio est deter-
minado por la variable cuarta, que tiene mucho ms peso que las dems. Esto sugiere que la
variable cuarta, sector de la energa, debe tener un peso muy similar en todos los pases. La
matriz de varianzas y covarianzas de las variables es:
_

_
241.6
0.53 0.94
73.11 3.02 49.10
2.33 0.14 1.01 0.14
13.77 0.04 5.70 0.03 2.70
52.42 1.76 6.53 0.34 2.68 20.93
9.59 1.20 3.06 0.11 0.07 4.69 7.87
79.29 1.86 7.37 0.34 1.77 17.87 2.06 46.64
12.22 0.21 3.41 0.19 0.88 1.19 0.96 5.39 1.93
_

_
Se observa como la cuarta variable tiene mucha menor variabilidad que las dems.
Generalizacin
Este procedimiento puede extenderse para cualquier nmero de valores propios nulos: si S
tiene rango h < p, existen p h variables redundantes que pueden eliminarse. Los vectores
asociados a autovalores nulos indican la composicin de estas variables redundantes. En
efecto, si S tiene rango h ese ser el nmero de valores propios no nulos, y existirn r = ph
vectores que verican :
Sw
1
= 0
.
.
.
.
.
.
Sw
r
= 0
o lo que es equivalente, existen r relaciones del tipo
(x
i
x)
0
w
j
= 0, j = 1, ..., r
82 CAPTULO 3. DESCRIPCIN DE DATOS MULTIVARIANTES
que implica la existencia de r combinaciones lineales exactas entre las variables. Podemos
pues representar las observaciones con h = p r variables. Existen muchas posibles repre-
sentaciones, ya que cualquier vector del subespacio denido por (w
1
, ..., w
r
) puede expresarse
como una combinacin lineal de estos vectores y verica:
S(a
1
w
1
+... +a
r
w
r
) = 0
Los r vectores propios de S asociados a valores propios nulos constituyen una base orto-
normal (vectores perpendiculares y de mdulo unitario) en dicho espacio. Observemos que
cuando hay ms de una raz nula, las relaciones lineales entre las variables no estn denidas
unvocamente, ya que dadas dos relaciones lineales nulas cualquier nueva relacin que resulte
combinando estas dos tendr la misma propiedad.
Una forma alternativa de analizar el problema es la siguiente. Como
S =
1
n
e
X
0
e
X,
el rango de S coincide con la matriz
e
X, ya que para cualquier matriz A, si llamamos rg(A)
al rango de A, se verica siempre que:
rg(A) = rg(A
0
) = rg(A
0
A) = rg(AA
0
).
Por tanto si la matriz
e
X tiene rango p, ste ser tambin el rango de S. Sin embargo, si
existen h combinaciones lineales entre las variables X, el rango de la matriz
e
X ser p h, y
ste ser tambin el rango de la matriz S.
Ejemplo 3.5 Calculemos los vectores propios de la matriz de varianzas y covarianzas para
los datos de ACCIONES de la tabla A.7, que fueron analizados en el ejemplo 3.2. Los
valores propios de la matriz de las variables originales son (594.86, 29.82, 3.22) y vemos
que existe un valor propio muy grande y dos pequeos, en particular el valor ms pequeo
esta ligado al vector propio ( 0.82, -0.13, 0.55). Para las variables en logaritmos los valores
propios son (0, 5208; 0, 1127 y 0.0065). Ahora existe un valor propio mucho ms pequeo
que los otros dos, y su vector propio es (57,-.55,.60).
Para interpretar la variable denida por este vector propio escribamos su expresin en
funcin de las variables originales. Recordando la denicin de las variables y llamando d a
los dividendos, p al precio, B al benecio y N al nmero de acciones, suponiendo que la gran
mayora de los benecios que se reparten van a dividendos (lo que es slo una aproximacin)
podemos escribir,
y =.57log(d/p) .55 log(dN/B) +.60 log(p/B/N)
y, redondeando, esta variable ser, aproximadamente,
y = .6 log(d/p)(B/dN)(pN/B) = .6 log 1 = 0
Es decir, llamando X
i
a las variables en logaritmos, la variable denida por la combi-
nacin X
1
X
2
+X
3
debe tomar valores pequeos. Si construimos esta variable a partir de
los datos, su media es .01 y su varianza .03, que es mucho menor que la de las variables
originales. Comprobamos que esta variable tiene poca variabilidad pero, al no ser constante,
3.5. MEDIDAS GLOBALES DE VARIABILIDAD 83
no hay una relacin determinista entre las tres variables en logaritmos. Los benecios repar-
tidos aparte de los dividendos aunque pequeos en promedio, no son despreciables para al-
gunas acciones. Observemos que esta informacin, que es revelada por el anlisis de los
vectores propios de la matriz de covarianzas, puede pasar fcilmente desapercibida al lector
no experto que trabaja directamente con estas medidas de rentabilidad.
3.5 MEDIDAS GLOBALES DE VARIABILIDAD
Cuando las variables se miden en las mismas unidades (euros, km) o son adimensionales
(porcentajes, proporciones, etc) interesa encontrar medidas de la variabilidad promedio que
permitan comparar distintos conjuntos de variables. Vamos a obtener primero estas me-
didas globales como resumen de la matriz de varianzas y covarianzas y, en segundo lugar,
interpretaremos estas medidas mediante el concepto de distancias entre puntos.
3.5.1 La variabilidad total y la varianza promedio
Una forma de resumir la variabilidad de un conjunto de variables es mediante la traza de su
matriz de varianzas y covarianzas y se dene la variabilidad total de los datos por:
T = tr(S) =
p
X
i=1
s
2
i
y la varianza promedio por
s
2
=
1
p
p
X
i=1
s
2
i
. (3.10)
El inconveniente de esta medida es que no tienen en cuenta la estructura de dependencia
entre las variables. Para ilustrar el problema supongamos p = 2 y el caso extremo en que
ambas variables son la misma, pero en unidades distintas. Entonces, la variabilidad conjunta
de las dos variables en el espacio es nula, porque los puntos estn siempre forzados a estar
sobre la recta que dene la relacin lineal entre las dos variables, y, sin embargo, s
2
puede
ser alta. En general, si la dependencia entre las variables es muy alta, intuitivamente la
variabilidad conjunta es pequea, ya que conocida una variable podemos determinar aprox-
imadamente los valores de las dems. Este aspecto no queda recogido en esta medida, que
prescinde de las relaciones de dependencia existentes.
3.5.2 La Varianza Generalizada
Una medida mejor de la variabilidad global es la varianza generalizada, que es el determinante
de la matriz de varianzas y covarianzas, es decir
V G = |S|
Su raz cuadrada se denomina desviacin tpica generalizada, y tiene las propiedades sigu-
ientes:
84 CAPTULO 3. DESCRIPCIN DE DATOS MULTIVARIANTES
a) Est bien denida, ya que el determinante de la matriz de varianzas y covarianzas es
siempre no negativo.
b) Es una medida del rea (para p = 2), volumen (para p = 3) o hipervolumen (para
p > 3) ocupado por el conjunto de datos.
Para aclarar estas ideas, supongamos el caso p = 2. Entonces, S puede escribirse:
S =

s
2
x
rs
x
s
y
rs
x
s
y
s
2
y

y la desviacin tpica generalizada es:


|S|
1/2
= s
x
s
y

1 r
2
(3.11)
Si las variables son independientes, la mayora de sus valores estarn dentro de un rectn-
gulo de lados 6s
x
, 6s
y
ya que, por el teorema de Tchebychev, entre la media y 3 desviaciones
tpicas deben estar, aproximadamente, al menos el 90% de los datos. En consecuencia, el rea
ocupada por ambas variables es directamente proporcional al producto de las desviaciones
tpicas.
Si las variables estn relacionadas linealmente y el coeciente de correlacin es distinto
de cero, la mayora de los puntos tendern a situarse en una franja alrededor de la recta de
regresin y habr una reduccin del rea tanto mayor cuanto mayor sea r
2
. En el lmite,
si r
2
= 1, todos los puntos estn en una lnea recta, hay una relacin lineal exacta entre
las variables y el rea ocupada es cero. La frmula (3.11) describe esta contraccin del rea
ocupada por los puntos al aumentar el coeciente de correlacin.
Un inconveniente de la varianza generalizada es que no sirve para comparar conjuntos
de datos con distinto nmero de variables, ya que tiene las dimensiones del producto de las
variables incluidas. Si aadimos a un conjunto de p variables que tiene una varianza general-
izada |S
p
| una variable adicional, incorrelada con el resto y varianza s
2
p+1
, es fcil comprobar,
con los resultados del clculo del determinante de una matriz particionada presentados en
2.3.5, que
|S
p+1
| = |S
p
| s
2
p+1
y eligiendo las unidades de medida de la variable p + 1 podemos hacer que la varianza
generalizada aumente o disminuya a voluntad. Supongamos el caso ms simple donde la
matriz S es diagonal y las variables van expresadas en las mismas unidades, por ejemplo
euros. Entonces
|S
p
| = s
2
1
....s
2
p
Supongamos que todas las varianzas en euros son mayores que la unidad. Entonces, si
aadimos una variable p + 1 , la nueva varianza generalizada ser
|S
p+1
| = s
2
1
....s
2
p
s
2
p+1
= |S
p
| s
2
p+1
> |S
p
|
3.5. MEDIDAS GLOBALES DE VARIABILIDAD 85
ya que s
2
p+1
> 1. En este caso la varianza generalizada aumenta monotonamente al consid-
erar nuevas variables, es decir, llamando |S
j
| a la varianza generalizada de las primeras j
variables, tenemos que
|S
p
| > |S
p1
| .... > |S
2
| > s
2
1
Supongamos ahora que expresamos las variables en miles de euros y con este cambio todas
las varianzas son ahora menores que la unidad. Entonces la varianza generalizada disminuye
monotonamente al incluir variables.
3.5.3 La variabilidad promedio
Para evitar estos inconvenientes, Pea y Rodrguez (2000) han propuesto como medida
global de variabilidad la variabilidad promedio, dada por
V P = |S|
1/p
(3.12)
que tiene la ventaja de que cuando todas las variables van en las mismas dimensiones esta
medida tiene las unidades de la varianza. Para matrices diagonales esta medida es sim-
plemente la media geomtrica de las varianzas. Observemos que, como el determinante es
el producto de los valores propios, la variabilidad promedio es la media geomtrica de los
valores propios de la matriz S, que por ser semidenida positiva sern siempre no negativos.
Como la media geomtrica de un conjunto de nmeros es siempre menor que su media
aritmtica esta medida ser siempre menor que la varianza media. La variabilidad promedio
tiene en cuenta la dependencia conjunta, ya que si una variable fuese combinacin lineal
de las dems al existir un valor propio nulo, la medida (3.12) es nula, mientras que la
varianza media, dada por (3.10) no lo ser. Veremos en los captulos siguientes que la
variabilidad promedio y la varianza media tienen una gran importancia en los procedimientos
multivariantes.
Anlogamente podemos denir la desviacin promedio mediante
DP = |S|
1/2p
.
Ejemplo 3.6 Partiendo de la matriz de covarianzas S para los logaritmos de las acciones,
datos A.7, ACCIONES, del ejemplo 3.5, obtenemos que
|S| = 0.000382
La variabilidad promedio es
V P = |S|
1/3
= .0726
que podemos comparar con la media aritmtica de las tres varianzas que calculamos en el
ejemplo 3.2:
tr(S)/3 = .2133
86 CAPTULO 3. DESCRIPCIN DE DATOS MULTIVARIANTES
Como vemos, la fuerte dependencia entre las variables hace que la variabilidad real promedio,
cuando se tienen en cuenta las covarianzas, sea mucho menor que cuando se prescinde de
ellas y se calcula el promedio de las varianzas.
Para las desviaciones tpicas
DP = |S|
1/6
= .269
que podemos tomar como medida global de variabilidad en los datos originales.
Ejemplo 3.7 La matriz de varianzas y covarianzas para los datos de las medidas fsicas es
S =
100.24 104.49 26.12 44.22 33.20 10.64 26.19
104.49 158.02 30.04 50.19 41.67 14.08 27.99
26.12 30.04 7.91 11.66 8.86 2.79 7.42
44.22 50.19 11.66 23.69 15.4 4.18 11.55
33.20 41.67 8.86 15.4 15.59 4.48 7.72
10.64 14.08 2.79 4.18 4.48 3.27 3.11
26.19 27.99 7.42 11.55 7.72 3.11 9.61
y la medida promedio V P = |S|
1/7
=5.7783 y V P
1/2
=2.4038. Como existe bastante de-
pendencia estas medidas son mucho menores de los promedios de las varianzas. Por ejemplo
tr(S)/7=45.48. Observemos que esta medida no tiene, en este ejemplo, clara interpretacin,
al estar las variables en distintas unidades.
3.6 VARIABILIDAD Y DISTANCIAS
Un procedimiento alternativo para estudiar la variabilidad de las observaciones es utilizar el
concepto de distancias entre puntos. En el caso escalar, la distancia entre el valor de una
variable x en un punto, x
i
, y la media de la variable, x, se mide de manera natural mediante
p
(x
i
x)
2
, o, lo que es equivalente, por el valor absoluto de la diferencia, |x
i
x| . La
desviacin tpica es un promedio de estas distancias entre los puntos y su media. Cuando
disponemos de una variable vectorial, cada dato es un punto en <
p
, y podemos pensar en
construir medidas de variabilidad promediando las distancias entre cada punto y el vector de
medias. Esto requiere generalizar el concepto de distancia a espacios de cualquier dimensin.
El concepto de distancia entre puntos ser importante en los captulos siguientes.
3.6.1 El concepto de distancia
Dados dos puntos x
i
, x
j
pertenecientes a <
p
, diremos que hemos establecido una distancia,
o una mtrica, entre ellos si hemos denido una funcin d con las propiedades siguientes:
1. d : <
p
<
p
<
+
, es decir, dados dos puntos en el espacio de dimensin p su distancia
con esta funcin es un nmero no negativo, d(x
i
, x
j
) 0;
2. d(x
i
, x
i
) = 0 i, la distancia entre un elemento y s mismo es cero.
3. d(x
i
, x
j
) = d(x
j
, x
i
), la distancia es una funcin simtrica en sus argumentos.
3.6. VARIABILIDAD Y DISTANCIAS 87
4. d(x
i
, x
j
) d(x
i
, x
p
) +d(x
p
, x
j
), la distancia debe vericar que si tenemos tres puntos,
la suma de las longitudes de dos lados cualesquiera del tringulo formado por los tres
puntos debe siempre ser mayor que el tercer lado. Esta propiedad se conoce como la
propiedad triangular.
Estas propiedades generalizan la nocin intuitiva de distancia entre dos puntos sobre una
recta. Una familia de medidas de distancia muy habituales en <
p
es la familia de mtricas
o distancias de Minkowski, que se dene en funcin de un parmetro r por
d
(r)
ij
=

p
X
s=1
(x
is
x
js
)
r
!
1/r
(3.13)
y las potencias ms utilizadas son r = 2, que conduce a la distancia eucldea, o en L
2
,
d
ij
=

p
X
s=1
(x
is
x
js
)
2
!
1/2
= (x
i
x
j
)
0
(x
i
x
j
)
1/2
,
y r = 1, que se denomina distancia en L
1
:
d
ij
= |x
i
x
j
|
0
1,
donde 1
0
= (1, . . . , 1).
La distancia ms utilizada es la eucldea pero tiene el inconveniente de depender de las
unidades de medida de las variables. Por ejemplo, sea x la estatura de una persona en metros
e y su peso en kilogramos. Compararemos la distancia entre tres personas: A(1.80, 80),
B(1.70, 72) y C(1.65, 81). El cuadrado de la distancia eucldea del individuo A al B ser:
d
2
(A, B) = (1.80 1.70)
2
+ (80 72)
2
= .1
2
+ 8
2
= 64.01
y, anlogamente d
2
(A, C) = .15
2
+1 = 1.225. Por tanto, con la distancia eucldea el individuo
A estar mucho ms cerca del individuo C que del B. Supongamos que, para hacer los
nmeros ms similares, decidimos medir la estatura en centmetros, en lugar de metros. Las
nuevas coordenadas de los individuos son ahora A(180, 80), B(170, 72) y C(165, 81), y las
distancias eucldeas entre los individuos se transforman en d
2
(A, B) = 10
2
+ 8
2
= 164 y
d
2
(A, C) = 15
2
+ 1 = 226. Con el cambio de unidades, el individuo A est con la distancia
eucldea ms cerca del B que del C. La distancia eucldea depende mucho de las unidades de
medida, y cuando no existe una unidad ja natural, como en este ejemplo, no est justicado
utilizarla.
Una manera de evitar el problema de las unidades es dividir cada variable por un trmino
que elimine el efecto de la escala. Esto conduce a la familia de mtricas eucldeas ponderadas,
que se denen por
d
ij
=

(x
i
x
j
)
0
M
1
(x
i
x
j
)

1/2
(3.14)
88 CAPTULO 3. DESCRIPCIN DE DATOS MULTIVARIANTES
donde M es una matriz diagonal que se utiliza para estandarizar las variables y hacer la
medida invariante ante cambios de escala. Por ejemplo, si colocamos en la diagonal de M
las desviaciones tpicas de las variables, la expresin (3.14) se convierte en
d
ij
=

p
X
s=1
(
x
is
x
js
s
s
)
2
!
1/2
=

p
X
s=1
s
2
s
(x
is
x
js
)
2
!
1/2
que puede verse como una distancia eucldea donde cada coordenada se pondera inversamente
proporcional a la varianza. Por ejemplo, si suponemos que las desviaciones tpicas de las
variables altura y peso son 10 cm y 10 kgr, las distancias estandarizadas al cuadrado entre
los individuos anteriores son
d
2
(A, B) = (1 + 0, 8
2
) = 1, 64
y
d
2
(A, C) = (1, 5
2
+ 0, 1
2
) = 2, 26.
Con esta mtrica, que es ms razonable, A est ms prximo a B que a C.
En general la matriz M puede no ser diagonal, pero siempre debe ser una matriz no
singular y denida positiva para que d
ij
0. En el caso particular en que tomemos M = I
se obtiene de nuevo la distancia eucldea. Si tomamos M = S se obtiene la distancia de
Mahalanobis que estudiamos a continuacin.
3.6.2 La Distancia de Mahalanobis
Se dene la distancia de Mahalanobis entre un punto y su vector de medias por
d
i
=

(x
i
x)
0
S
1
(x
i
x)

1/2
Es frecuente referirse al valor d
2
i
tambin como distancia de Mahalanobis, en lugar de
como cuadrado de la distancia, y en este libro, para simplicar, utilizaremos a veces esta
licencia, aunque estrictamente la distancia es d
i
. Vamos a interpretar esta distancia y compro-
bar que es una medida muy razonable de distancia entre variables correladas. Consideremos
el caso p = 2. Entonces, escribiendo s
12
= rs
1
s
2
, tenemos que
S
1
=
1
(1 r
2
)

s
2
1
rs
1
1
s
1
2
rs
1
1
s
1
2
s
2
2

y la distancia de Mahalanobis (al cuadrado) entre dos puntos (x


1
, y
1
), (x
2
, y
2
) puede escribirse
:
d
2
M
=
1
(1 r
2
)

(x
1
x
2
)
2
s
2
1
+
(y
1
y
2
)
2
s
2
2
2r
(x
1
x
2
)(y
1
y
2
)
s
1
s
2

Si r = 0, esta distancia se reduce a la distancia eucldea estandarizando las variables por sus
desviaciones tpicas. Cuando r 6= 0 la distancia de Mahalanobis aade un trmino adicional
3.6. VARIABILIDAD Y DISTANCIAS 89
que es positivo (y por lo tanto separa los puntos) cuando las diferencias entre las variables
tienen el mismo signo, cuando r > 0, o distinto cuando r < 0. Por ejemplo, entre el peso
y la altura hay correlacin positiva: al aumentar la estatura de una persona en promedio
tambin lo hace su peso. Si consideramos las tres personas anteriores A(180, 80), B(170, 72)
y C(165, 81) con desviaciones tpicas 10 cm y 10 kgr y el coeciente de correlacin 0,7, los
cuadrados de las distancias de Mahalanobis sern
d
2
M
(A, B) =
1
0, 51

1 + 0, 8
2
1, 4 0, 8

= 1.02
y
d
2
M
(A, C) =
1
0, 51

1, 5
2
+ 0, 1
2
+ 1, 4 1, 5 0, 1

= 4.84,
concluimos que el individuo A est ms cerca del B que del C con esta distancia. La distancia
de Mahalanobis tiene en cuenta que, aunque el individuo B es ms bajo que el A, como hay
correlacin entre el peso y la altura si su peso tambin disminuye proporcionalmente, el
aspecto fsico de ambos es similar porque aunque cambia el tamao global no cambia la
forma del cuerpo. Sin embargo, el individuo C es todava ms bajo que el A y adems pesa
ms, lo que implica que su aspecto fsico es muy distinto del de A. Como consecuencia, la
distancia de A a C es mayor que a B. La capacidad de esta distancia para tener en cuenta la
forma de un elemento a partir de su estructura de correlacin explica su introduccin por P.
C. Mahalanobis, un eminente estadstico indio, en los aos 30 para comparar medidas fsicas
de razas en la India.
3.6.3 La distancia promedio
Podramos plantearnos construir una medida global de la variabilidad respecto a la media
de una variable vectorial escogiendo promediando las distancias entre los puntos y la media.
Por ejemplo, si todas las variables van en las mismas unidades, podemos tomar la distancia
eucldea al cuadrado y promediar por el nmero de trminos en la suma:
V
m
=
1
n
n
X
i=1
(x
i
x)
0
(x
i
x). (3.15)
Como un escalar es igual a su traza, podemos escribir
V
m
=
n
X
i=1
tr

1
n
(x
i
x)
0
(x
i
x)

=
n
X
i=1
tr

1
n
(x
i
x)(x
i
x)
0

= tr(S)
y el promedio de distancias es la variabilidad total. Si promediamos las distancias tambin
por la dimensin del vector, tenemos que:
V
m,p
=
1
np
n
X
i=1
(x
i
x)
0
(x
i
x) = s
2
(3.16)
90 CAPTULO 3. DESCRIPCIN DE DATOS MULTIVARIANTES
y el promedio estandarizado de las distancias eucldeas entre los puntos y la media es el
promedio de las varianzas de las variables.
No tiene sentido denir una medida de distancia promediando las distancias de Maha-
lanobis, ya que es fcil comprobar (vase ejercicio 3.12) que el promedio de las distancias de
Mahalanobis es siempre p, y el promedio estandarizado por la dimensin del vector es uno .
Ejemplo 3.8 La tabla adjunta presenta para los datos de las medidas fsicas, MEDIFIS, las
distancias eucldeas al cuadrado de cada dato a su media, d
2
e
, las distancias de Mahalanobis
de cada dato a su media, D
2
M
, la mxima distancia eucldea entre cada punto y otro de la
muestra, d
2
em
, el orden del dato ms alejado con esta distancia, I
e
, la mxima distancia de
Mahalanobis entre cada punto y otro de la muestra, D
2
Mm
, y el orden del dato ms alejado
con esta distancia, I
M
.
orden d
2
e
D
2
M
d
2
em
I
e
D
2
Mm
I
M
1.0000 3.8048 0.0226 29.0200 24.0000 29.0200 24.0000
2.0000 0.3588 0.0494 15.4800 24.0000 15.4800 24.0000
3.0000 0.2096 0.0447 10.0600 20.0000 10.0600 20.0000
4.0000 1.6899 0.0783 20.5925 24.0000 20.5925 24.0000
5.0000 2.2580 0.0759 23.8825 24.0000 23.8825 24.0000
6.0000 0.8336 0.0419 15.6000 24.0000 15.6000 24.0000
7.0000 2.8505 0.0830 23.5550 24.0000 23.5550 24.0000
8.0000 3.0814 0.0858 20.3300 20.0000 20.3300 20.0000
9.0000 3.6233 0.0739 21.7750 20.0000 21.7750 20.0000
10.0000 3.5045 0.0348 28.1125 24.0000 28.1125 24.0000
11.0000 2.0822 0.0956 20.2900 24.0000 20.2900 24.0000
12.0000 0.6997 0.1037 11.5425 20.0000 11.5425 20.0000
13.0000 6.2114 0.0504 34.7900 24.0000 34.7900 24.0000
14.0000 2.2270 0.0349 18.2700 20.0000 18.2700 20.0000
15.0000 4.2974 0.1304 23.2200 20.0000 23.2200 20.0000
16.0000 10.5907 0.1454 35.6400 20.0000 35.6400 20.0000
17.0000 1.7370 0.0264 16.9000 20.0000 16.9000 20.0000
18.0000 0.7270 0.0853 14.1100 24.0000 14.1100 24.0000
19.0000 4.5825 0.1183 30.5500 24.0000 30.5500 24.0000
20.0000 7.8399 0.0332 39.1100 24.0000 39.1100 24.0000
21.0000 4.4996 0.0764 23.9600 20.0000 23.9600 20.0000
22.0000 0.5529 0.0398 12.3100 20.0000 12.3100 20.0000
23.0000 3.9466 0.0387 29.3900 24.0000 29.3900 24.0000
24.0000 11.9674 0.0998 39.1100 20.0000 39.1100 20.0000
25.0000 0.4229 0.0745 10.6500 20.0000 10.6500 20.0000
26.0000 0.2770 0.0358 10.5850 20.0000 10.5850 20.0000
27.0000 0.9561 0.1114 17.6050 24.0000 17.6050 24.0000
Se observa que con la distancia eucldea los puntos ms alejados de la media son el 24
y el 16, seguidos del 20. El punto ms extremo para cada uno es el 24 o el 20, lo que
dene a estos puntos como extremos en el espacio con esta medida. Con las distancias de
Mahalanobis los ms alejados de la media son los 15 y 16 pero, sin embargo, los puntos que
3.7. MEDIDAS DE DEPENDENCIA LINEAL 91
aparecen como extremos de la muestra son de nuevo los 20 y 24. Observando estos datos, el
24 correponde a un hombre muy alto, el mayor de la muestra, y el 20 a una mujer de baja
estatura y delgada, que constituye el extremo opuesto de los datos.
3.7 MEDIDAS DE DEPENDENCIA LINEAL
Un objetivo fundamental de la descripcin de los datos multivariantes es comprender la
estructura de dependencias entre las variables. Estas dependencias pueden estudiarse: (1)
entre pares de variables; (2) entre una variable y todas las dems; (3) entre pares de variables
pero eliminando el efecto de las dems variables; (4) entre el conjunto de todas las variables.
Vamos a analizar estos cuatro aspectos.
3.7.1 Dependencia por pares: La matriz de correlacin
La dependencia lineal entre dos variables se estudia mediante el coeciente de correlacin
lineal o simple. Este coeciente para las variables x
j
, x
k
es:
r
jk
=
s
jk
s
j
s
k
y tiene las propiedades siguientes: (1) 0 |r
jk
| 1; (2) si existe una relacin lineal exacta en-
tre las variables, x
ij
= a+bx
ik
, entonces |r
jk
| = 1; (3) r
jk
es invariante ante transformaciones
lineales de las variables.
La dependencia por pares entre las variables se mide por la matriz de correlacin. Lla-
maremos matriz de correlacin, R, a la matriz cuadrada y simtrica que tiene unos en la
diagonal principal y fuera de ella los coecientes de correlacin lineal entre pares de variables,
escribiremos:
R =
_

_
1 r
12
. . . r
1p
.
.
.
.
.
. . . .
.
.
.
r
p1
r
p2
. . . 1
_

_
Esta matriz es tambin semidenida positiva. Para demostrarlo, llamemos D = D(S) a
la matriz diagonal de orden p formada por los elementos de la diagonal principal de S, que
son las varianzas de las variables. La matriz D
1/2
contendr las desviaciones tpicas y la
matriz R esta relacionada con la matriz de covarianzas, S, mediante:
R = D
1/2
SD
1/2
, (3.17)
que implica
S = D
1/2
RD
1/2
. (3.18)
La condicin w
0
Sw 0 equivale a:
w
0
D
1/2
RD
1/2
w = z
0
Rz 0
llamando z = D
1/2
w al nuevo vector transformado por D
1/2
. Por tanto, la matriz R es,
como la matriz S, semidenida positiva.
92 CAPTULO 3. DESCRIPCIN DE DATOS MULTIVARIANTES
3.7.2 Dependencia de cada variable y el resto: Regresin Mltiple
Adems de estudiar la relacin entre pares de variables podemos estudiar la relacin entre
una variable y todas las dems. Hemos visto que si una variable es combinacin lineal de
las dems, y por lo tanto puede predecirse sin error con el resto, debemos eliminarla de
consideracin. Es posible que, sin llegar a esta situacin extrema, haya variables que sean
muy dependientes de las dems y conviene medir su grado de dependencia. Supongamos que
x
j
es la variable de inters y para simplicar la notacion la llamaremos variable explicativa
o respuesta y la denotaremos por y. A continuacin, consideremos su mejor predictor lineal
a partir de las restantes variables, que llamaremos variables explicativas o regresores. Este
predictor lineal tendr la forma:
b y
i
= y +
b

1
(x
i1
x
1
) +... +
b

p
(x
ip
x
p
), i = 1, ..., n (3.19)
y se comprueba que cuando las variables explicativas toman un valor igual a su media la
variable respuesta es tambin igual a su media. Los p 1 coecientes
b

k
, para k = 1, ..., p
con k 6= j, se determinan de manera que la ecuacin proporcione, en promedio, la mejor
prediccin posible de los valores de y
i
. Llamando residuos a los errores de prediccin, e
i
=
y
i
b y
i
, es inmediato, sumando para los n datos en (3.19), que la suma de los residuos para
todos los puntos muestrales es cero. Esto indica que cualquiera que sean los coecientes
b

j
la ecuacin (3.19) va a compensar los errores de prediccin positivos con los negativos.
Como queremos minimizar los errores con independencia del signo, los elevamos al cuadrado
y calculamos los
b

j
minimizando:
M =
n
X
i=1
e
2
i
,
Derivando esta expresin respecto a los parmetros
b

j
, se obtiene el sistema de p 1 ecua-
ciones, para k = 1, ..., p con k 6= j,:
2
n
X
i=1
h
y
i
y +
b

1
(x
i1
x
1
) +... +
b

p
(x
i,p
x
p
)
i
(x
ik
x
k
)
que puede escribirse:
X
e
i
x
ik
= 0 k = 1, ..., p; k 6= j,
que tiene una clara interpretacin intuitiva. Indica que los residuos, o errores de prediccin,
deben de estar incorrelados con las variables explicativas, de manera que la covarianza entre
ambas variables sea cero. En efecto, si existiese relacin entre ambas variables podra uti-
lizarse para prever los errores de prediccin y reducirlos, con lo que la ecuacin de prediccin
no podra ser ptima. Geometricamente este sistema establece que el vector de residuos
debe ser ortogonal al espacio generado por las variables explicativas. Deniendo una matriz
X
R
de datos para la regresin de dimensiones (n p 1) que se obtiene de la matriz de
datos centrada,
e
X, eliminando la columna de esta matriz que corresponde a la variable que
3.7. MEDIDAS DE DEPENDENCIA LINEAL 93
queremos prever, que llamaremos y, el sistema de ecuaciones para obtener los parmetros
es:
X
0
R
y = X
0
R
X
R
b

que conduce a :
b
= (X
0
R
X
R
)
1
X
0
R
y = S
1
p1
S
xy
.
donde S
p1
es la matriz de covarianzas de las p1 variables explicativas y S
xy
la columna de
la matriz de covarianzas correspondiente a las covarianzas de la variable seleccionada como
y con el resto. La ecuacin obtenida con estos coecientes se conoce como la ecuacin de
regresin mltiple entre la variable y = x
j
y las variables, x
k
, con k = 1, ..., p;y k 6= j.
El promedio de los residuos al cuadrado con la ecuacin de regresin mltiple para explicar
x
j
es:
s
2
r
(j) =
P
e
2
i
n
(3.20)
y es una medida de la precisin de la regresin para prever la variable y = x
j
. Una medida
adimensional de la dependencia se construye partiendo de la identidad
y
i
y = b y
i
y +e
i
y elevando al cuadrado y sumando para todos los puntos se obtiene la descomposicin bsica
del anlisis de la varianza, que podemos escribir como:
V T = V E +V NE
donde la variabilidad total o inicial de los datos, V T =
P
(y
i
y)
2
, se expresa como suma
de la variabilidad explicada por la regresin, V E =
P
(b y
i
y)
2
, y la residual o no explicada
por la regresin, V NE =
P
e
2
i
. Una medida descriptiva de la capacidad predictiva del
modelo es el cociente entre la variabilidad explicada por la regresin y la variabilidad total.
Esta medida se llama coeciente de determinacin, o coeciente de correlacin mltiple al
cuadrado, y se dene por:
R
2
j.1,...,p
=
V E
V T
= 1
V NE
V T
(3.21)
donde el subndice indica la variable que estamos explicando y los regresores. Utilizando
(3.20) podemos escribir
R
2
j.1,...,p
= 1
s
2
r
(j)
s
2
j
(3.22)
Es immediato comprobar que en el caso de una nica variable explicativa R
2
es el cuadrado
del coeciente de correlacin simple entre las dos variables. Tambin se comprueba que es
el cuadrado del coeciente de correlacin simple entre las variables y y b y. El coeciente de
94 CAPTULO 3. DESCRIPCIN DE DATOS MULTIVARIANTES
correlacin mltiple al cuadrado puede ser mayor, menor o igual que la suma de los cuadrados
de las correlaciones simples entre la variable y y cada una de las variables explicativas (vase
Cuadras, 1993).
Segn la ecuacin (3.22) podemos calcular el coeciente de correlacin mltiple entre
cualquier variable x
i
y las restantes si conocemos su varianza y la varianza residual de una
regresin de esta variable sobre las dems. Se demuestra en el apndice 3.1 que los trminos
diagonales de la inversa de la matriz de covarianzas, S
1
, son precisamente las inversas de
las varianzas residuales de la regresin de cada variable con el resto. Por tanto podemos
calcular fcilmente el coeciente de correlacin mltiple al cuadrado entre la variable x
j
y
las restantes como sigue:
(1) Tomar el elemento diagonal j de la matriz S, s
jj
que es la varianza s
2
j
de la variable.
(2) Invertir la matriz S y tomar el elemento diagonal j de la matriz S
1
que llamaremos
s
jj
. Este trmino es 1/s
2
r
(j), la varianza residual de una regresin entre la variable j y el
resto.
(3) Calcular R
2
j
, la correlacin mltiple como
R
2
j
= 1
1
s
jj
s
jj
Esta expresin permite obtener inmediatamente todos los coecientes de correlacin mltiple
a partir de las matrices S y S
1
.
Ejemplo 3.9 La matriz de correlacin para las 7 variables fsicas, tabla A.5, MEDIFIS, del
ejemplo 1.1. se presenta en la tabla 1.5. Las variables aparecen en el orden del ejemplo 1.1
R =
_

_
1 0.83 0.93 0.91 0.84 0.59 0.84
0.83 1 0.85 0.82 0.84 0.62 0.72
0.93 0.85 1 0.85 0.80 0.55 0.85
0.91 0.82 0.85 1 0.80 0.48 0.76
0.84 0.84 0.80 0.80 1 0.63 0.63
0.59 0.62 0.55 0.48 0.63 1 0.56
0.84 0.72 0.85 0.76 0.63 0.56 1
_

_
Se observa que la mxima correlacin aparece entre la primera y la tercera variable (estatura
y longitud del pie) y es 0,93. La mnima es entre la longitud del brazo y el dimetro del
crneo (0,48). En general las correlaciones ms bajas aparecen entre el dimetro del crneo
y el resto de las variables. La matriz S
1
es:
0.14 0.01 0.21 0.11 0.07 0.05 0.07
0.01 0.04 0.08 0.03 0.04 0.04 0.00
0.21 0.08 1.26 0.06 0.05 0.18 0.29
0.11 0.03 0.06 0.29 0.04 0.13 0.04
0.07 0.04 0.05 0.04 0.34 0.13 0.15
0.05 0.04 0.18 0.13 0.13 0.64 0.15
0.07 0.00 0.29 0.04 0.15 0.15 0.50
y utilizando los elementos diagonales de esta matriz y de la matriz S podemos calcular las
correlaciones mltiples al cuadrado de cada variable con el resto como sigue: (1) multipli-
camos los elementos diagonales de las matrices S y S
1
. El resultado de esta operacion es el
3.7. MEDIDAS DE DEPENDENCIA LINEAL 95
vector (14.3672, 5.5415, 9.9898, 6.8536, 5.3549, 2.0784, 4.7560). (2) A continuacin, cal-
culamos las inversas de estos elementos, para obtener (0.0696 0.1805 0.1001 0.1459 0.1867
0.4811 0.2103). Finalmente, restamos a uno estos coecientes para obtener (0.9304, 0.8195,
0.8999, 0.8541, 0.8133, 0.5189, 0.7897) y estos son los coecientes de correlacin mltiple
entre cada variable y el resto. Vemos que la variable ms previsible por las restantes es la
estatura,(R
2
= 0.9304) , despues el pi (R
2
= 0.8999) y luego la longitud del brazo (R
2
=
0.8541). La menos predecible es dcr, que tiene un coeciente de correlacin mltiple con el
resto de 0.5189, o en otros trminos, el resto de las variables explica el 52% de la variabilidad
de esta variable.
La ecuacin para prever la estatura en funcin del resto de las variables se obtiene facil-
mente con cualquier programa de regresin. El resultado es
est = 0.9 - 0.094 peso+ 1.43pie + 0.733 lbr + 0.494 aes + 0.347 dcr + 0.506 lrt
que es la ecuacin que permite prever con menor error la estatura de una persona dadas
el resto de las medidas. El R
2
de esta regresin es = 0,93, resultado que habamos obtenido
anteriormente. La ecuacin para prever la longitud del pi es:
pie = 8.14 + 0.162 est + 0.0617 pes - 0.051 lbr + 0.037 aes - 0.144 dcr + 0.229lrt
que indica que para prever el pie las variables ms relevantes parecen ser la estatura y
l alongitud rodilla tobillo. Podemos hacer regresiones tomando como variable explicativa el
sexo, entonces:
sexo = - 3.54 - 0.0191 est - 0.0013 pes + 0.141 pie + 0.0291 lbr + 0.0268 aes
- 0.0439 dcr + 0.0219 lrt
La variable ms importante para prever el sexo de una persona parece ser el pie que es la
que tiene un coeciente ms alto.
3.7.3 Dependencia directa entre pares: Correlaciones parciales
La dependencia directa entre dos variables controlando el efecto de las restantes se mide por
el coeciente de correlacin parcial. Se dene el coeciente de correlacin parcial entre dos
variables, (x
1
, x
2
), dadas las variables (x
3
, ..., x
p
), y se denota por r
12.3..p
, como el coeciente
de correlacin entre las partes de x
1
y x
2
que estn libres de los efectos de las variables
(x
3
, ..., x
p
). Este coeciente se obtiene en dos etapas. Primero, hay que obtener la parte de
cada variable que no es explicada por (o est libre de los efectos de) el grupo de variables que
se controlan. Esta parte es el residuo de la regresin sobre el conjunto de variables (x
3
, ..., x
p
),
ya que, por construccin, el residuo es la parte de la respuesta que no puede preverse o es
independiente de los regresores. Segundo, se calcula el coeciente de correlacin simple entre
estos dos residuos. Se demuestra en el apndice 3.3 que los coecientes de correlacin parcial
entre cada par de variables se obtienen estandarizando los elementos de la matriz S
1
. En
concreto, si llamamos s
ij
los elementos de S
1
, el coeciente de correlacion parcial entre las
variables x
j
x
k
se obtiene como
r
jk.12,...,p
=
s
ij

s
ii
s
jj
(3.23)
96 CAPTULO 3. DESCRIPCIN DE DATOS MULTIVARIANTES
Los coecientes de correlacin parcial pueden calcularse a partir de los coecientes de cor-
relacin mltiple mediante la relacin, que se demuestra en el apndice 3.3:
1 r
2
12.3..p
=
1 R
2
1.2,...,.p
1 R
2
1.3,...,p
,
donde r
2
12.3..p
es el cuadrado del coeciente de correlacin parcial entre las variables (x
1
, x
2
)
cuando se controlan las variables (x
3
, ..., x
p
) , R
2
1.2,...,p
es el coeciente de determinacin o coe-
ciente de correlacin mltiple al cuadrado en la regresin de x
1
con respecto a (x
2
, x
3
, ..., x
p
)
y R
2
1.3,...,p
es el coeciente de determinacin o coeciente de correlacin mltiple al cuadrado
en la regresin de x
1
con respecto a (x
3
, ..., x
p
). (El resultado es equivalente si intercambiamos
x
1
por x
2
). Esta expresin indica una relacin simple entre trminos del tipo 1 r
2
, que,
segn la expresin (3.21), representan la proporcin relativa de variabilidad no explicada.
Se dene la matriz de correlaciones parciales, P, como aquella que contiene los coecientes
de correlacin parcial entre pares de variables eliminando el efecto de las restantes. Por
ejemplo, para cuatro variables, la matriz de correlaciones parciales, :
P
4
=
_

_
1 r
12.34
r
13.24
r
14.23
r
21.34
1 r
23.14
r
24.13
r
31.24
r
32.14
1 r
34.12
r
41.23
r
42.13
r
43.12
1
_

_
donde, por ejemplo, r
12.34
es la correlacin entre las variables 1 y 2 cuando eliminamos el
efecto de la 3 y la 4, o cuando las variables 3 y 4 permanecen constantes. De acuerdo con
(3.23) est matriz se obtiene como
P = (1)
diag
D(S
1
)
1/2
S
1
D(S
1
)
1/2
donde D(S
1
) es la matriz diagonal obtenida seleccionando los elementos diagonales de la
matriz S
1
y el trmino (1)
diag
indica que cambiamos el signo de todos los elementos de la
matriz menos de los elementos diagonales que sern la unidad. La expresin (3.23) es similar
a la (3.17), pero utilizando la matriz S
1
en lugar de S. Observemos que D(S
1
)
1/2
no es
la inversa de D(S)
1/2
= D
1/2
, y que, en consecuencia, P no es la matriz inversa de R.
3.7.4 El coeciente de Dependencia
Para obtener una medida conjunta de la dependencia entre las variables podemos utilizar el
determinante de la matriz de correlacin, que mide el alejamiento del conjunto de variables de
la situacin de perfecta dependencia lineal. Se demuestra en el apndice 3.2 que 0 |R| 1
y:
(1) Si las variables estn todas incorreladas R es una matriz diagonal con unos en la
diagonal y |R| = 1.
(2) Si una variable es combinacin lineal del resto hemos visto que S y R son singulares
y |R| = 0
(3) En el caso general, se demuestra en el apndice 3.3 que:
|R
p
| =

1 R
2
p.1...p1

1 R
2
p1.1p2

...

1 R
2
2.1

. (3.24)
3.7. MEDIDAS DE DEPENDENCIA LINEAL 97
es decir, el determinante de la matriz de correlacin es el producto de p 1 trminos. El
primero representa la proporcin de variabilidad no explicada en una regresin mltiple
entre la variable p y las restantes variables, p 1, p 2, ..., 1. El segundo la proporcin de
variabilidad no explicada en una regresin mltiple entre la variable p 1 y las variables
restantes siguientes, p 2, p 3, ..., 1. El ltimo representa la proporcin de variabilidad no
explicada en una regresin simple entre las variables dos y uno.
De acuerdo con la propiedad anterior |R
p
|
1/p1
representa la media geomtrica de la
proporcin de variabilidad explicada por todas las regresiones anteriores. Observemos que
tambin es la media geomtrica de los valores propios de la matriz R
p
, teniendo en cuenta
que slo tenemos p 1 valores propios independientes ya que estn ligados por
P

i
= p .
A partir de estas propiedades Pea y Rodrguez (2000) han propuesto como medida de
dependencia lineal global la Dependencia, denida por :
D(R
p
) = 1 |R
p
|
1/(p1)
(3.25)
Por ejemplo, para p = 2 como |R
2
| = 1 r
2
12
, esta medida coincide con el cuadrado del
coeciente de correlacin lineal entre las dos variables. Para p > 2 podemos escribir de
(3.24) y (3.25):
1 D(R
p
) =

1 R
2
p.1...p1

1 R
2
p1.1p2

...

1 R
2
2.1

1/(p1)
y vemos que la dependencia es el coeciente de correlacin necesario para que la variabilidad
no explicada en el problema sea igual a la media geomtrica de todas las posibles variabili-
dades no explicadas. El coeciente de correlacin promedio estar dado por
(R
p
) = D(R
p
)
1/2
=
q
1 |R
p
|
1/(p1)
.
En el caso particular en que p = 2, el coeciente de correlacin promedio coincide con el
valor absoluto del coeciente de correlacin simple.
Ejemplo 3.10 Vamos a construir la matriz de correlaciones parciales para las 7 variables
fsicas, tabla A.5, MEDIFIS. Podemos construir la matriz de correlaciones parciales a partir
de S
1
estandarizandola por los elementos diagonales para obtener:
P =
1.00 0.19 0.48 0.52 0.32 0.17 0.27
0.19 1.00 0.37 0.30 0.34 0.26 0.00
0.48 0.37 1.00 0.11 0.07 0.20 0.37
0.52 0.30 0.11 1.00 0.13 0.31 0.10
0.32 0.34 0.07 0.13 1.00 0.29 0.37
0.17 0.26 0.20 0.31 0.29 1.00 0.27
0.27 0.00 0.37 0.10 0.37 0.27 1.00
Esta matriz muestra que las relaciones parciales ms fuertes se dan entre la estatura y
las longitudes del pie (0,48) y del brazo (0,52). Por ejemplo este coeciente se interpreta que
si consideramos personas con el mismo peso, pie, anchura de espalda, dimetro del crneo y
longitud rodilla tobillo, hay una correlacin positiva entre la estatura y la longitud del brazo
de 0,52. La tabla muestra que para personas de la misma estatura, peso y dems medidas
fsicas, la correlacin entre la anchura de la espalda y la longitud rodilla tobillo es negativa.
98 CAPTULO 3. DESCRIPCIN DE DATOS MULTIVARIANTES
Para obtener una medida de dependencia global, como el determinante de R es 1.4210
4
y el coeciente global de dependencia es
D = 1 |R|
1/6
= 1
6

1.42 10
4
= 0.771
Podemos concluir que, globalmente, la dependencia lineal explica 77% de la variabilidad
de este conjunto de datos.
Ejemplo 3.11 Calcularemos el coeciente global de dependencia para los datos del Anexo
de Datos en las unidades originales en que se presentan,
EUROALI EUROSEC EPF INV EST MUNDODES ACCION
D . 51 . 80 . 62 .998 .82 .61
Se observa que en INVEST la dependencia conjunta es muy fuerte. Esto sugiere que puede
reducirse el nmero de variables necesarias para describir la informacin que contienen.
3.8 La matriz de precisin
Se denomina matriz de precisin a la inversa de la matriz de varianzas y covarianzas. Esta
matriz juega un papel importante en muchos procedimientos estadsticos, como veremos
en captulos sucesivos. Un resultado importante es que la matriz de precisin contiene la
informacin sobre la relacin multivariante entre cada una de las variable y el resto. Este
resultado es a primera vista sorprendente, ya que la matriz de varianzas y covarianzas slo
contiene la informacin sobre las relaciones por pares de las variables, pero se explica por las
propiedades de la matriz inversa (vase 2.3.4). Puede demostrarse, (vase el apndice 3.1)
que la inversa de la matriz de covarianzas contiene :
(1) Por las, y fuera de la diagonal trminos proporcionales a los coecientes de regresin
mltiple de la variable correspondiente a esa la explicada por todas las dems. Los trminos
de la matriz son estos coecientes cambiados de signo y multiplicados por la inversa de la
varianza residual en esa regresin. Es decir, si llamamos s
ij
a los elementos de la matriz de
precisin:
s
ij
=
b

ij
/s
2
r
(i)
donde
b

ij
es el coeciente de regresin de la variable j para explicar la variable i, y s
2
r
(i) la
varianza residual de la regresin.
(2) En la diagonal las inversas de las varianzas residuales de cada variable en su regresin
con el resto. Es decir:
s
ii
= 1/s
2
r
(i)
(3) Si estandarizamos los elementos de esta matriz para que tenga unos en la diagonal, los
elementos fuera de la diagonal son los coecientes de correlacin parcial entre estas variables.
Es decir
r
ij.R
=
s
ij

s
ii
s
jj
3.9. COEFICIENTES DE ASIMETRA Y KURTOSIS 99
donde R se reere al resto de las variables, es decir el conjunto de p 2 variables x
k
con
k = 1, ..., p y k 6= i, j.
Por ejemplo, con cuatro variables, la primera la de la matriz inversa de varianzas y
covarianzas es
s
2
R
(1), s
2
R
(1)
b

12
, s
2
R
(1)
b

13
, s
2
R
(1)
b

14
donde s
2
R
(1) es la varianza residual de una regresin entre la primera variable y las otras tres
y
b

12
,
b

13
,
b

14
son los coecientes de regresin en la ecuacin
b x
1
=
b

12
x
2
+
b

13
x
3
+
b

14
x
4
donde hemos supuesto, sin prdida de generalidad, que las variables tienen media cero. Por
tanto, la matriz S
1
contiene toda la informacin de las regresiones de cada variable en las
dems.
Ejemplo 3.12 Calculemos e interpretemos la matriz de precisin de los datos de los loga-
ritmos de las acciones, tabla A: ACCIONES, del ejemplo 3.5. Esta matriz es
S
1
=
_
_
52.0942 47.9058 52.8796
47.9058 52.0942 47.1204
52.8796 47.1204 60.2094
_
_
Por ejemplo, la primera la de esta matriz puede escribirse como 52.0942(1.0000, 0.9196, 1.0151)
que indica que la varianza residual de una regresin entre la primera variables y las otras
dos es 1/52.0942 = .0192, y los coecientes de regresin de las variables X
2
y X
3
en una
regresin para explicar X
1
son 0.9196 y 1.0151 respectivamente. Observemos que, de nuevo,
aparece que la relacin z = X
1
X
2
+ X
3
tiene poca variabilidad. La varianza de la regresin
, 0.019, es menor que la de la variable z, ya que representa una variabilidad condicionada
cuando se conocen las variables X
2
y X
3
.
3.9 COEFICIENTES DE ASIMETRA Y KURTOSIS
La generalizacin de los coecientes de asimetra y kurtosis al caso multivariante no es
inmediata. Una de las propuestas ms utilizadas es debida a Mardia (1970), que propone
calcular las distancias de Mahalanobis para cada par de elementos muestrales (i, j) :
d
ij
= (x
i
x)
0
S
1
(x
j
x) .
y dene el coeciente de asimetra multivariante en la distribucin conjunta de las p variables
como
A
p
=
1
n
2
n
X
i=1
n
X
j=1
d
3
ij
,
100 CAPTULO 3. DESCRIPCIN DE DATOS MULTIVARIANTES
y el de kurtosis
K
p
=
1
n
n
X
i=1
d
2
ii
.
Estos coecientes tienen las propiedades siguientes:
1. Para variables escalares A
p
= A
2
. En efecto, entonces
A
p
=
1
n
2
n
X
i=1
n
X
j=1
(x
i
x)
3
(x
j
x)
3
/s
6
=
(
P
n
i=1
(x
i
x)
3
)
2
n
2
s
6
= A
2
2. El coeciente de asimetra es no negativo y ser cero si los datos estn distribuidos
homogneamente en una esfera.
3. Para variables escalares K = K
p
. El resultado es inmediato porque entonces d
2
ii
=
(x
i
x)
4
/s
4
.
4. Los coecientes son invariantes ante transformaciones lineales de los datos. Si y =
Ax +b, los coecientes de asimetra y kurtosis de y y de x son idnticos.
Ejemplo 3.13 Calcularemos los coecientes de asimetra y kurtosis multivariantes para los
datos sobre de rentabilidad de las acciones . Se comprueba que si tomamos los datos en su
mtrica original, el coeciente de asimetra multivariante es: A
p
= 16.76.. Este valor ser, en
general, mayor que los coecientes univariantes, que son, respectivamente, 0,37, 0,04, y 2,71.
Si tomamos logaritmos a los datos A
p
= 7.5629 , mientras que los univariantes son 0,08,
-0,25 y 1,02. Podemos concluir que , efectivamente, la transformacin logartmica ha servido
para simetrizar ms estos datos. El coeciente de kurtosis multivariante es K
p
= 31.26, que
debe compararse con los valores univariantes de 1,38, 1,40, y 12,44. Al tomar logaritmos
el coeciente multivariante es K
p
= 21.35, mientras que los univariantes son 1,43, 1,75, y
4,11, con lo que vemos que tambin se reduce la kurtosis tomando logaritmos.
EJERCICIOS
Ejercicio 3.1 Calcular el vector de medias y el de medianas para las tres variables de las
ACCIONES, tabla A.7. Comparar sus ventajas como medidas de centralizacin de estas
variables.
Ejercicio 3.2 Se dispone de 3 indicadores econmicos X
1
, X
2
, X
3
, que se miden en cuatro
pases, con los resultados siguientes:
X
1
X
2
X
3
2 3 -1
1 5 -2
2 2 1
2 3 1
Calcular el vector de medias, la matriz de varianzas y covarianzas, la varianza generalizada,
la matriz de correlacin y la raz y vector caracterstico mayor de dichas matrices.
3.9. COEFICIENTES DE ASIMETRA Y KURTOSIS 101
Ejercicio 3.3 A partir de los tres indicadores econmicos X
1
, X
2
, X
3
del problema 1 se
construyen dos nuevos indicadores
y
1
= (1/3)x
1
+ (1/3)x
2
+ (1/3)x
3
y
2
= x
1
0, 5x
2
0, 5x
3
Calcular el vector de medias para y
0
= (y
1
, y
2
), su matriz de varianzas y covarianzas, la
matriz de correlacin y la varianza generalizada.
Ejercicio 3.4 Demostrar que la matriz

1 r
r 1

tiene autovalores 1+r y 1r y autovectores


(1, 1) y (1, 1).
Ejercicio 3.5 Demostrar que si una matriz es de la forma C =

A 0
0 B

los autovectores
son de la forma (u
1
, 0) y (0, u
2
), donde u
1
y u
2
son autovectores de A y B, respectivamente.
Ejercicio 3.6 Cul es la relacin entre los autovalores de C y los de A y B en el ejercicio
5?.
Ejercicio 3.7 Demostrar que si Y = XA donde Y es n m y X es n p las matriz de
covarianzas de Y est relacionada con la de X por S
y
= A
0
S
x
A.
Ejercicio 3.8 Calcular los coecientes de correlacin mltiple entre cada variable y todas
las dems para los datos de INVES.
Ejercicio 3.9 Calcular la matriz de correlaciones parciales para los datos de INVES.
Ejercicio 3.10 Demostrar que la varianza residual de una regresin mltiple entre una vari-
able y y un conjunto de x puede escribirse como s
2
y
(1 R
2
) donde s
2
y
es la varianza de la
variable y y R
2
el coeciente de correlacin mltiple.
Ejercicio 3.11 Calcular los coecientes de correlacin parcial entre las variables del conjun-
to de acciones mediante regresiones y utilizando los elementos de la matriz S
1
y comprobar
la equivalencia.
Ejercicio 3.12 Calcular el coeciente de asimetra multivariante para un vector de dos vari-
ables incorreladas entre si. Cul es la relacin entre el coeciente de asimetra multivariante
y los univariantes?
Ejercicio 3.13 Repetir el ejercicio anterior para los coecientes de kurtosis.
Ejercicio 3.14 Demostrar que para un conjunto de datos
1
np
P
n
i=1
(x
i
x)
0
S
1
(x
i
x) = 1
(sugerencia, tome trazas y utilice que tr[
P
n
i=1
(x
i
x)
0
S
1
(x
i
x)] = tr [S
1
P
n
i=1
(x
i
x)(x
i
x)
0
]).
102 CAPTULO 3. DESCRIPCIN DE DATOS MULTIVARIANTES
Ejercicio 3.15 Demostrar que podemos calcular la matriz de distancias eucldeas entre los
puntos con la operacin diag(XX0)1+1diag(XX0) 2X
0
X, donde X es la matriz de datos,
diag(XX0) el vector que tiene por componentes los elementos diagonales y 1 es un vector de
unos.
Ejercicio 3.16 Demostrar que podemos calcular la matriz de distancias de Mahalanobis
entre los puntos con la operacin diag(XS
1
X0)1 + 1diag(XS
1
X0) 2X
0
S
1
X, donde X
es la matriz de datos, diag(XS
1
X0) el vector que tiene por componentes los elementos
diagonales de la matriz XS
1
X0, y 1 es un vector de unos.
APNDICE 3.1: LA ESTRUCTURA DE LA MA-
TRIZ DE PRECISIN
Particionemos la matriz S separando las variables en dos bloques: la variable 1 que
llamaremos y, y el resto, que llamaremos R. Entonces:
S =

s
2
1
c
0
1R
c
1R
S
R

donde s
2
1
es la varianza de la primera variable, c
1R
el vector de covarianzas entre la primera
y el resto y S
R
la matriz de varianzas y covarianzas del resto. Su inversa, utilizando los
resultados del captulo anterior sobre la inversa de una matriz particionada, ser:
S
1
=

s
2
1
c
0
1R
S
1
R
c
1R

1
A
12
A
21
A
22

.
Supongamos para simplicar que la media de todas las variables es cero. Entonces la
regresin de la primera variable sobre el resto tiene de coecientes:
b

1R
= S
1
R
c
1R
,
Para encontrar la relacin que buscamos, utilizaremos la identidad bsica del anlisis de la
varianza (ADEVA):
1
n
V T =
1
n
V E +
1
n
V NE
Apliquemos esta descomposicin a la primera variable. El primer trmino es s
2
1
, la varianza
de la primera variable, y el segundo, como b y = X
R
b

1R
, puede escribirse:
1
n
V E =
1
n
(b y
0
b y) =
b

0
1R
S
R
b

1R
= c
0
1R
S
1
R
S
R
S
1
R
c
1R
= c
0
1R
S
1
R
c
1R
,
y el tercero, V NE/n =
P
e
2
1R
/n = s
2
r
(1), donde hemos llamado e
1R
a los residuos de
la regresin de la primera variable respecto a las dems, y s
2
r
(1) a la varianza residual, sin
3.9. COEFICIENTES DE ASIMETRA Y KURTOSIS 103
corregir por grados de libertad, de esta regresin. Sustituyendo estos trminos en la identidad
bsica de ADEVA, obtenemos que la varianza residual puede calcularse como:
s
2
r
(1) = s
2
1
c
0
1R
S
1
R
c
1R
.
Si comparamos esta expresin con el primer trmino de la matriz S
1
concluimos que el
trmino diagonal primero de S
1
es la inversa de la varianza de los residuos (dividida por
n y sin correccin por grados de libertad) en una regresin entre la primera variable y el
resto. Como este anlisis puede hacerse para cualquiera de las variables, concluimos que
los trminos diagonales de S
1
son las inversas de las varianzas residuales en las regresiones
entre cada variable y el resto.
Para obtener la expresin de los trminos de fuera de la diagonal en S
1
aplicaremos la
frmula para la inversa de una matriz particionada:
A
12
=

s
2
r
(1)

1
c
0
1R
S
1
R
=

s
2
r
(1)

1
b

0
1R
,
y, por tanto, las las de la matriz S
1
contienen los coecientes de regresin (cambiados de
signo) de cada variable con relacin a las restantes divididos por la varianza residual de la
regresin (sin corregir por grados de libertad).
En resumen, S
1
puede escribirse:
S
1
=
_

_
s
2
r
(1) s
2
r
(1)
b

0
1R
. . . . . .
. . . . . .
s
2
r
(p)
b

0
pR
s
2
r
(p)
_

_
,
donde
b

jR
representa el vector de coecientes de regresin al explicar la variable j por las
restantes. Observemos que en esta matriz el subndice R se reere al conjunto de p
1 variables que queda al tomar como variable respuesta la que ocupa el lugar de la al
correspondiente ne la matriz. Por ejemplo,
b

0
pR
es el vector de coecientes de regresin entre
la p y las (1, ...p 1).
APNDICE3.2 LOS DETERMINANTES DES YR.
Vamos a obtener expresiones para los determinantes de la matriz de varianzas y covari-
anzas y de correlacin, utilizando los resultados para matrices particionadas del captulo 2.
Escribamos la matriz de varianzas y covarianzas como:
S
p
=

s
2
1
c
0
1R
c
1R
S
p1

donde s
2
1
es la varianza de la primera variable, c
0
1R
contiene las covarianzas entre la primera
y utilizamos ahora la notacin S
p
para referirnos a la matriz de varianzas y covarianzas de
las correspondientes p variables. Aplicando la frmula para el determinante de una matriz
particionada, podemos escribir
|S
p
| = |S
p1
| s
2
1

1 R
2
1.2...p

104 CAPTULO 3. DESCRIPCIN DE DATOS MULTIVARIANTES


donde R
2
1.2...p
es el coeciente de correlacin mltiple entre la primera variable y el resto que
viene dado, utilizando los resultados del apndice 3.1, por
R
2
1.2...p
=
1
s
2
1
c
0
1R
S
p1
c
1R
Anlogamente si escribimos la matriz de correlacin particionada como
R
p
=

1 r
0
1R
r
1R
R
p1

donde r
1R
y R
p1
son, respectivamente, el vector de correlaciones de la primera variable con
el resto y la matriz de correlacin entre el resto de las variables. Entonces,
|R
p
| = |R
p1
|

1 R
2
1.2...p

, (3.26)
ya que, tambin
R
2
1.2...p
= r
0
1R
R
p1
r
1R
.
Para demostrar esta igualdad, observemos que la relacin entre los vectores de correla-
ciones y covarianzas es r
1R
= D
1/2
p1
c
1R
/s
1
, donde D
1/2
p1
contiene las inversas de las desvia-
ciones tpicas de las p 1 variables. Como R
p1
= D
1/2
p1
S
p1
D
1/2
p1
, tenemos que
r
0
1R
R
p1
r
1R
= (c
0
1R
/s
1
)D
1/2
p1
D
1/2
p1
S
1
p1
D
1/2
p1
D
1/2
p1
(c
1R
/s
1
) =
1
s
2
1
c
0
1R
S
1
p1
c
1R
= R
2
1.2...p
Aplicando sucesivamente la ecuacin (3.26), se obtiene que
|R
p
| =

1 R
2
1.2...p

1 R
2
2.3p

...

1 r
2
p1.p

.
APNDICE 3.3 CORRELACIONES PARCIALES
El coeciente de correlacin parcial es el coeciente de correlacin simple en una regresin
entre residuos. Su cuadrado puede interpretarse de la forma habitual como la proporcin de
variacin explicada respecto al total, siendo en este caso la variacin total la no explicada
por otra regresin previa. Vamos a utilizar esta interpretacin para obtener la relacin entre
los coecientes de correlacin parcial y mltiple.
Supongamos p variables y vamos a obtener el coeciente de correlacin parcial entre las
variables x
1
, y x
2
, cuando se controlan x
3
, ..., x
p
. Para ello haremos una regresin simple
entre dos variables: la primera es e
1.3..p
, los residuos de una regresin entre x
1
y x
3
, ..., x
p
, y la
segunda e
2.3..p
, los residuos de una regresin entre x
2
y x
3
, ..., x
p
. El coeciente de correlacin
simple de esta regresin entre residuos, r
12.3...p
, es el coeciente de correlacin parcial. Por
construccin este coeciente es simtrico entre el par de variables, pero suponiendo que
tomamos la primera variable como dependiente en la regresin, la ecuacin estimada entre
los residuos es
e
1.3,...,p
= b
12.3,...,p
e
2.3,..,.p
3.9. COEFICIENTES DE ASIMETRA Y KURTOSIS 105
y el coeciente de correlacin de esta regresin, que es el de correlacin parcial, ser
r
12.3...p
= b
12.3,...,p
s(e
1.3,...,p
)
s(e
2.3,..,.p
)
Vamos a comprobar que estos trminos los podemos obtener de la matriz S
1
. En esta matriz
s
12
= s
2
r
(1)
b

12.3,...,p
= s
21
= s
2
r
(2)
b

12.3,...,p
ya que la matriz es simtrica. dividiendo
por la raiz de los elementos s
11
y s
22
. Se obtiene

s
12
s
22
s
11
=
s
2
r
(1)
b

12.3,...,p
s
1
r
(1)s
1
r
(2)
=
b

12.3,...,p
s
r
(2)
s
r
(1)
y puede comprobarse que esta expresin es r
12.3...p
, el coeciente de correlacin parcial.
En la regresin entre los residuos el cociente entre la variabilidad no explicada y la total
es uno menos el cuadrado del coeciente de correlacin. La variabilidad no explicada en
esta regresin es la variabilidad no explicada de la primera variable respecto a todas, que
llamaremos V NE
1.23...p
(e
1.3..p
contena la parte no explicada por las variables 3, .., p y ahora
hemos aadido la x
2
). La variabilidad total de la regresin es la de los residuos, e
1.3..p
, es
decir la no explicada en la regresin de x
1
respecto a x
2
, ..., x
p
. Por tanto, podemos escribir:
1 r
2
12.3...p
=
V NE
1.2,3,...,p
V NE
1.3...p
Vamos a expresar estas V NE en funcin de los coecientes de correlacin mltiple de las
correspondientes regresiones. Llamando R
2
1.3...p
al coeciente de determinacin en la regresin
mltiple de x
1
respecto a x
3
, ..., x
p
:
1 R
2
1.3...p
=
V NE
1.3,..,.p
V T
1
donde V T
1
es la variabilidad de la primera variable. Analogamente, en la regresin mltiple
entre la primera variable y todas las dems, x
2
, x
3
, ..., x
p
tenemos que
1 R
2
1.23...p
=
V NE
1.2,3,...,p
V T
1
.
De estas tres ecuaciones deducimos que
1 r
2
12.3...p
=
1 R
2
1.23...p
1 R
2
1.3...p
(3.27)
que permite calcular los coecientes de correlacin parcial en funcin de los coecientes de
correlacin mltiple. Aplicando reiteradamente esta expresin podemos tambin escribir

1 R
2
1.23...p

=

1 r
2
12.3...p

1 r
2
13.4...p

...

1 r
2
1p1.p

1 r
2
1p

Tambin puede demostrarse (vase Pea, 2002) que el coeciente de correlacin parcial
entre las variables (x
1
, x
2
) cuando se controlan las variables (x
3
, ..., x
p
) puede expresarse en
106 CAPTULO 3. DESCRIPCIN DE DATOS MULTIVARIANTES
funcin del coeciente de regresin de la variable x
2
en la regresin de x
1
con respecto a
(x
2
, x
3
, ..., x
p
), y su varianza. La expresin es:
r
12.3...p
=
b

12.3...p

r
b

2
12.3...p
+ (n p 1)s
2
h
b

12.3...p
i
)
!
donde
b

12.3...p
y su varianza, s
2
h
b

12.3...p
i
se obtienen en la regresin entre variables de media
cero:
b x
1
=
b

12.3...p
x
2
+
b

13.2...p
x
3
+... +
b

1p.2...p1
x
p
Captulo 4
ANALISIS GRAFICO Y DATOS
ATIPICOS
4.1 INTRODUCCIN
En este captulo vamos a continuar la descripcin de datos multivariantes, estudiando su
representacin grca y posibles transformaciones de las variables que conduzcan a una
descripcin ms simple de los datos. Tambin introduciremos un anlisis inicial de la homo-
geneidad de la muestra mediante el estudio de los posibles valores atpicos, debidos a errores
de medida, o otras causas de heterogeneidad.
Obtener buenas representaciones grcas de datos multivariantes es un problema dif-
cil, y en este captulo introduciremos los mtodos ms simples que se complementarn con
los anlisis grcos presentados en captulos posteriores. Recordemos que las correlaciones
miden las relaciones lineales entre las variables, y pueden ser m interpretadas cuando las
relaciones son no lineales. Por esa razn se intenta transformar las variables para que las
variables transformadas tengan relaciones aproximadamente lineales, y veremos como gener-
alizar las transformaciones univariantes para conseguir este objetivo. Por ltimo, los datos
multivariantes contienen con freuencia observaciones que son heterogeneas con el resto y, que
si no son detectadas, pueden alterar completamente el anlisis descriptivo de las variables
originales. En este captulo presentaremos mtodos para detectar los datos atpicos.
4.2 REPRESENTACIONES GRFICAS
4.2.1 Histogramas y diagramas de dispersin
El primer paso de cualquier anlisis multivariante es representar grcamente las variables
individualmente, mediante un histograma o un diagrama de caja. Estas representaciones son
muy tiles para detectar asmetras, heterogeneidad, datos atpicos etc. En segundo lugar
conviene construir los diagramas de dispersin de las variables por pares, y esta posibilidad
se incluye ya en muchos programas de ordenador. Con p variables existen p(p1)/2 grcos
posibles que pueden disponerse en forma de matriz y son muy tiles para entender el tipo
de relacin existente entre pares de variables, e identicar puntos atpicos en la relacin
107
108 CAPTULO 4. ANALISIS GRAFICO Y DATOS ATIPICOS
bivariante. En particular, estos grcos son importantes para apreciar si existen relaciones
no lineales, en cuyo caso la matriz de covarianzas puede no ser un buen resumen de la
dependencia entre las variables.
Podemos simular grcos de tres variables presentando en la pantalla de un ordenador
proyecciones adecuadas de esta relacin girando el punto de vista del observador para dar
idea del espacio tridimensional. Estas representaciones grcas se conocen con el nombre
de Gran Tour de los datos y pueden ser muy tiles, utilizados interactivamente con un
ordenador, pero no pueden construirse para dimensiones superiores a tres. Tambin para
variables discretas podemos construir diagramas de barras tridimensionales y para variables
continuas podemos construir los equivalentes multidimensionales de los histogramas. La
gura 4.3 presenta un ejemplo de estas representaciones.
Ejemplo 4.1 La gura muestra los grcos de dispersin de los datos de medidas de desar-
rollo del mundo, MUNDODES, del Anexo I.
TasaNat.
5 10 15 20 25 40 50 60 70 0 10000 30000
1
0
2
0
3
0
4
0
5
0
5
1
0
2
0
TasaMort
MortInf
0
5
0
1
0
0
4
0
5
0
6
0
7
0
EspHom
EspMuj
4
0
5
0
6
0
7
0
8
0
10 20 30 40 50
0
1
0
0
0
0
3
0
0
0
0
0 50 100 150 40 50 60 70 80
PNB
Figura 4.1: Matriz de dispersin para los datos MUNDOES.
La gura 4.1 ilustra claramente que existen relaciones de dependencia fuerte entre las
variables, muchas de carcter no lineal. Por ejemplo, la relacin entre las variables primera
y segunda, tasa de natalidad y de mortalidad, es claramente no lineal y se observa un valor
atpico muy destacado en la relacin. En toda la primera la (o columna) que indica las
relaciones de la primera variable (tasa de natalidad) con las restantes las relaciones parecen
no lineales y , en algunos casos, heterocedstica. Comentarios similares se aplican a la
segunda variable. En otros casos parece que la relacin entre dos variables es diferente para
distintos grupos de pases. Por ejemplo, en prcticamente todas las relaciones en que aparece
la sexta variable, riqueza del pas medida por el PNB, parecen existir dos tipos de pases. En
unos parece no existir relacin entre la variable demogrca y el PNB, mientras que en los
otros parece existir una clara relacin positiva (como con la tasa de mortalidad) o negativa
(como con la mortalidad infantil) entre las variables demogrcas y el PNB.
4.2. REPRESENTACIONES GRFICAS 109
Esta gura muestra adems que algunas de las relaciones son heterocedsticas, es decir,
que la variabilidad de la relacin aumenta al aumentar los niveles de las variables. Por
ejemplo, en la relacin entre tasa de natalidad y mortalidad infantil, donde adems se aprecia
claramente un valor atpico. Este punto aparece muy claramente en la relacin entre las dos
primeras variables (posiciones 1,2 y 2,1 de la matriz) y en los grcos de la segunda la y
columna, indicando que el punto es atpico en las dos primeras variables.
Finalmente algunas relaciones son muy fuertes y lineales como entre las esperanzas de
vida y la mortalidad infantil.
Ejemplo 4.2 El grco siguiente presenta los diagramas de dispersin para los datos de las
ACCIONES.
X1
30
40
50
60
70
80
90
100
2.0 4.5 7.0 9.5 12.0 14.5 17.0
30 40 50 60 70 80 90 100
X2
2.0
4.5
7.0
9.5
12.0
14.5
17.0
X3
5
10
15
20
25
30
5 10 15 20 25 30
1
1 1
1
1
1
34
34
Figura 4.2: Matriz de dispersin de los datos de ACCIONES
En la gura 4.2 se observa como la primera observacin aparece como un valor atpico
en todos los diagramas de dispersin. En los grcos con la tercera variable este punto es un
valor muy extremo en la relacin, mientras que en los grco de las otras dos variables aparece
como atpico, pero no parece muy inuyente en la relacin lineal entre ambas variables. La
accin 34 aparece, al igual que la 1, como una observacin aislada heterognea con el resto.
En este caso podemos hacer una representacin en tres dimensiones de las tres variables.
En la gura 4.3 se observa que la relacin entre las variables x
1
y x
2
depende del nivel de la
x
3
. El grco ilustra tambin con claridad el carcter claramente atpico de las observaciones
1 y 34 que aparecen muy separadas del resto. Por otro lado, se observa en el grco tridi-
mendional que las observaciones se agrupan en dos conjuntos distintos. Esta caracterstica,
que se apunta en los grcos bidimensionales, aparece claramente de maniesto en la repre-
sentacin tridimendional, ilustrando las ventajas de construir estas representaciones cuando
sea posible.
110 CAPTULO 4. ANALISIS GRAFICO Y DATOS ATIPICOS
34
1
Figura 4.3: Representacion Tridimensional de los datos de ACCIONES
En la gura 4.4 se presenta la matriz de datos de dispersin para los datos de las acciones
ahora en los logaritmos de las variables. Se observa que la transformacin en logaritmos
aporta mayor linealidad a las relaciones entre variables dos a dos y reduce algo el efecto de
la primera observacin que es atpica.
X1
3.4 3.6 3.8 4.0 4.2 4.4 4.6
1
.
5
2
.
0
2
.
5
3
.
4
3
.
8
4
.
2
4
.
6
X2
1.5 2.0 2.5 1.5 2.0 2.5 3.0
1
.
5
2
.
0
2
.
5
3
.
0
X3
Figura 4.4: Matriz de dispersin para los logartimos de los datos de ACCIONES.
Ejemplo 4.3 La gura 4.5 representa los datos A.4, INVEST, para las publicaciones cien-
tcas. Se observa que existe una fuerte relacin entre todas las variables. Las relaciones son
aproximadamente lineales, si bien en algunos casos se observa cierta curvatura que podra
4.2. REPRESENTACIONES GRFICAS 111
resolverse tomando logaritmos. No hay valores atpicos muy destacados.
INTER.A
6 8 10 12 6 7 8 9 10 4 6 8 10 6 7 8 9 10 12
7
9
1
1
1
3
6
8
1
0
INTER.F
AGRIC.
6
8
1
0
6
8
1
0
BIOLO.
MEDIC.
7
9
1
1
4
8
1
2
QUIMI.
INGEN.
6
8
1
0
7 8 9 11 13
6
8
1
0
1
2
6 7 8 9 10 7 8 9 11 6 7 8 9 10
FISICA
Figura 4.5: Representacin como matriz de dispersin de los datos de INVES
Ejemplo 4.4 La gura 4.6 presenta los grcos de dispersin para los datos de medidas
sicas del banco de datos MEDIFIS. Las relaciones son aproximadamente lineales y no se
detecta la presencia de datos atpicos destacados.
4.2.2 Representacin mediante guras
Para ms de tres variables se utilizan principalmente dos tipos de mtodos grcos. El
primero, es mostrar los datos mediante guras planas, asociando cada variable a una carac-
terstica del grco. El segundo, es buscar conjuntos de proyecciones en una y dos dimen-
siones que revelen aspectos caractersticos de los datos. Vamos a presentar en esta seccin
el primer enfoque, en la seccin siguiente hablaremos del segundo.
Existen muchas alternativas posibles para representar los datos mediante guras. Cher-
no ha propuesto la utilizacin de caras, que tienen la ventaja de nuestra facilidad para
reconocer patrones en este formato y el inconveniente de que la representacin es muy de-
pendiente de las variables escogidas para representar cada rasgo. Por ejemplo, la boca y la
forma de la cabeza son rasgos ms llamativos que las orejas o la longitud de la nariz, y el
mismo conjunto de datos puede sugerir distintos patrones de similitud entre las observaciones
segn la asociacin elegida entre rasgos y variables. La gura 4.7 presenta un ejemplo.
Si asociamos cada variable a un rasgo de una gura plana, podemos representar cada
elemento en la muestra por una gura geomtrica. En estas representaciones las similitudes
112 CAPTULO 4. ANALISIS GRAFICO Y DATOS ATIPICOS
entre guras indican las similitudes entre los elementos, y los valores atpicos aparecern
como guras discordantes con el resto. Una gura muy utilizada es la estrella. Por ejemplo,
para representar cinco variables, podemos escoger una estrella de cinco radios y asociar cada
variable a cada uno de estos radios o ejes. Cada observacin dar lugar a una estrella.
Normalmente las variables se estandarizan de manera que tengan media cero y desviacin
tpica unitaria. Entonces, se marca el cero sobre cada eje y se representa el valor de la
variable en unidades de desviaciones tpicas. La gura 4.8 presenta un ejemplo de su uso.
Ejemplo 4.5 La gura 4.7 presenta una representacin grca de los datos de investigacin,
INVEST, con las Caras de Cherno. Cada observacin es convertida en una cara, y cada
variable es asignada a una caracterstica de la misma. Para el siguiente ejemplo se ha uti-
lizado el programa Splus, que asigna las variables a las siguientes caractersticas: (1) rea de
la cara; (2) forma de la cara; (3) longitud de la nariz; (4) localizacin de la boca; (5) curva
de la sonrisa; (6) grosor de la boca; (7a 11) localizacin, separacin, ngulo, forma y grosor
de los ojos, etc. Se puede representar ms de 15 caractersticas, y, originalmente, Cherno
logr representar 18 variables en una cara. En la gura 4.7 se han representado los pases
contenidos en la base de datos INVEST pero eliminado EEUU, ya que este pas distorsion-
ara la representacin grca por tomar un valor muy extremo en todas las variables. En
este tipo de grcos podemos o bien ver el comportamiento por separado de cada variable o
bien la similitud global de cada dato multivariado. Por ejemplo, la variable MEDIC se ha
asignado a la curva de la sonrisa y vemos que los primeros cuatro pases son claramente
diferentes en cuanto a esta caracterstica. Sin embargo, juzgando globalmente, notamos que
el comportamiento ms parecido lo presentan los cinco primeros pases.
La representacin de las caras de Cherno nos permite observar las diferencias entre
los pases en cuanto al volumen de publicaciones. Para observar las diferencias entre los
patrones de publicacin de los distintos pases deberamos aplicar logaritmos a los datos para
reducir la asimetra en las distribuciones univariantes, observada en la gura 4.10, y para
linealizar ms las relaciones.
Ejemplo 4.6 Para representar los pases con las variables en logaritmos se ha optado por
un grco de estrellas. Como se explic anteriormente, cada radio de la estrella est asociado
a una variable, en el ejemplo que trataremos fue utilizado Splus, este programa comienza a
asignar variables desde la derecha en el sentido opuesto a las agujas del reloj. En la gura 4.8
se presenta cmo es esta asignacin para las variables de la base INVEST.En la gura 4.9
se siguen observando diferencias de tamao entre los primeros cinco pases y el resto, pero
se aprecian ciertos patrones en los que se distinguen pases con tendencia a la investigacin
en algunas reas frente a otras.
4.2.3 (*)Representacin de Proyecciones
En lugar de intentar representar las variables originales por pares podramos intentar repre-
sentar parejas de variables que resuman en algn sentido el conjunto de variables. Esperamos
as obtener una mayor intuicin visual de las propiedades de los datos. Una forma simple de
resumir un vector de variables es construir una variable escalar como combinacin lineal de
4.2. REPRESENTACIONES GRFICAS 113
sus valores. Por ejemplo, si x
0
= (x
1
, ..., x
p
) representa el precio de un conjunto de productos
en un mercado, una medida resumen de estos precios es:
y = a
0
x =
p
X
j=1
a
j
x
j
. (4.1)
Si a
j
= 1/p, la combinacin lineal resultante es la media de los precios. Si a
j
6= 1/p, pero
a
j
0 y
P
a
j
= 1 la nueva variable es una media ponderada de las variables originales con
pesos a
j
. En general (4.1) dene una nueva variable que informa globalmente del conjunto
de variables X.
La variable escalar obtenida mediante una combinacin lineal puede siempre interpretarse
geomtricamente como una proyeccin. El producto escalar del vector x, en <
p
, por otro
vector a de <
p
viene dado por:
a
0
x = |a||x| cos (4.2)
y si el vector de ponderacin, a, se toma de manera que su norma sea uno, |a| = 1, el
producto escalar es directamente la proyeccin del vector x sobre la direccin del vector a.
En consecuencia, si elegimos una direccin con |a| = 1, la nueva variable escalar
y
i
= a
0
x
i
(4.3)
que tomar valores (y
1
, ..., y
n
), puede interpretarse como la proyeccin de los datos X sobre
la direccin indicada por el vector a. El conjunto de los n valores de la nueva variable y
pueden englobarse en un vector y (n 1) que vendr dado por
y = Xa, (4.4)
donde X es la matriz de datos n p.
Como construir un indicador a partir de variables multivariantes puede interpretarse
como proyectar los datos sobre cierta direccin, es natural preguntarse por direcciones de
proyeccin que sean informativas para revelarnos la disposicin de los puntos en el espacio.
Para ello tenemos que denir un criterio de proyeccin y encontrar la direccin donde ese
criterio se maximiza. Las tcnicas diseadas con este objetivo se conocen como bsqueda de
proyecciones (projection pursuit), y se aplican como sigue:
1. Escoger la dimensin del espacio sobre el que vamos a proyectar (normalmente 2), y el
criterio que se desea maximizar.
2. Encontrar la direccin que maximiza el criterio analiticamente. Si no es posible en-
contrar la direccin de forma analtica hacerlo de manera aproximada, por ejemplo
seleccionando un nmero grande de direcciones (a
1
, ..., a
N
), evaluando el criterio en
cada una y seleccionando la direccin de este conjunto donde el criterio toma el valor
mximo.
3. Encontrar una direccin ortogonal a la primera que maximice el criterio. Esto puede
hacerse por ejemplo proyectando los datos sobre el espacio ortogonal a la primera
direccin, a, lo que supone transformales con Y = (I aa0)X y aplicar el algortimo
del punto 2 a los nuevos datos Y.
114 CAPTULO 4. ANALISIS GRAFICO Y DATOS ATIPICOS
4. Representar los datos sobre el plano denido por las dos direcciones de proyeccin.
Se suelen considerar interesantes las proyecciones que muestren relaciones no lineales
entre las variables, o distribuciones multimodales que pueden indicar la presencia de clusters
o grupos de observaciones. Inicialmente las funciones objetivo utilizadas se basaban en la
teora de la informacin. Por ejemplo, una medida de diversidad o heterogeneidad es la
entropa de Shannon
I(x) =
Z
log f(x)f(x)dx
que, entre las distribuciones continuas, se minimiza con la distribucin normal. Si maxi-
mizamos esta funcin esperamos obtener proyecciones donde la distribucin resultante se
aparte ms de la normal, en cierto sentido, lo que puede resultar en combinaciones intere-
santes y estructuras inesperadas entre las variables. Naturalmente otros muchos criterios son
posibles, y en la seccin 4.5 utilizaremos otro criterio para buscar direcciones que muestren
la presencia de atpicos. En el captulo siguiente utilizaremos estas ideas para obtener proye-
ciones que mantengan lo ms posible las distancias entre los puntos en el espacio. Los
captulos 5, 6 y 7 presentan ms ejemplos de estas tcnicas grcas.
4.3 TRANSFORMACIONES LINEALES
4.3.1 Consecuencias
Muchas propiedades importantes de los datos son independientes de las unidades de medida
de las variables y no cambiarn si pasamos de euros a dlares o de centmetros a metros. Va-
mos a estudiar como afectan cambios en las unidades de medida a los estadsticos estudiados
en el captulo 3. Por ejemplo, supongamos que en lugar de medir una variable bidimen-
sional x =(x
1
, x
2
)
0
en euros y en unidades lo hacemos en dlares y en miles de unidades,
y = (y
1
, y
2
)
0
. La relacin entre ambas variables ser:
y = Ax (4.5)
donde Aes una matriz diagonal que tiene como trminos diagonales los factores de conversin
de euros a dlares y de unidades a miles de unidades (1/1000). Para el conjunto de las n
observaciones la relacin ser:
Y = X A (4.6)
donde X e Y son np, y A es una matriz diagonal pp. Aplicando la denicin de vector
de medias
y =
1
n
Y
0
1 = A
0
1
n
X
0
1 =A
0
x (4.7)
y como A = A
0
, el vector de medias se transforma de la misma forma que los hacen las
variables.
4.3. TRANSFORMACIONES LINEALES 115
Las matrices de varianzas y covarianzas estarn relacionadas por:
S
y
=
1
n
Y
0
PY = A
0
(
1
n
X
0
PX)A =A
0
S
x
A. (4.8)
El cambio de unidades es un caso particular de una transformacin lineal de las vari-
ables para simplicar su interpretacin. Una transformacin lineal importante es la es-
tandarizacin de las variables, que puede hacerse de dos formas distintas, como veremos a
continuacin.
4.3.2 Estandarizacin univariante
Llamando x al vector p 1 de la variable vectorial, la transformacin lineal
y = D
1/2
(xx)
donde la matriz D
1/2
es cuadrada y diagonal con trminos:
D
1/2
=
_
_
s
1
1
0 . . . 0
0 s
1
2
. . . 0
0 0 . . . s
1
p
_
_
,
convierte las variables originales, x, en otras nuevas variables, y, de media cero y vari-
anza unidad. Cada componente del vector x, x
j
para j = 1, ..., p, se transforma con
y
j
= (x
j
x
j
)/s
j
. La matriz de varianzas y covarianzas de las nuevas variables ser la
matriz de correlacin de las variables primitivas. Esta transformacin es la estandarizacin
univariante de las variables.
4.3.3 (*)Estandarizacin multivariante
Dada una matriz denida positiva, S
x
, puede denirse su raz cuadrada S
1/2
x
, por la condicin
S
x
= S
1/2
x
(S
1/2
x
)
0
(4.9)
La matriz S
1/2
x
no es nica (vase 2.4.2). En efecto si S
1/2
x
verica la condicin (4.9)
tambin la verica S
1/2
x
M, donde M es cualquier matriz ortogonal. La matriz S
1/2
x
puede
construirse a partir de la descomposicin espectral
S
x
= ADA
0
donde D es diagonal y contiene los valores propios de S
x
y A es ortogonal y contiene los
vectores propios. Sea D
1/2
la matriz diagonal cuyos trminos son las races cuadradas de los
trminos de D, que son positivos. Deniendo la raiz cuadrada por la matriz simtrica:
S
1/2
x
= AD
1/2
A
0
(4.10)
116 CAPTULO 4. ANALISIS GRAFICO Y DATOS ATIPICOS
la variable
y = S
1/2
x
(xx)
tiene media cero y matriz de varianzas y covarianzas identidad, ya que
S
y
= S
1/2
x
S
x
S
1/2
x
= I
Con esta transformacin pasamos de variables correladas, con matriz de covarianza S
x
, a
variable incorreladas, con matriz de varianzas identidad. El nuevo conjunto de variables
viene dado por
Y =
e
XS
1/2
x
=
e
XAD
1/2
A
0
Esta estandarizacin se denomina multivariante, ya que utiliza todas las covarianzas para
estandarizar cada variable. Observemos que la estandarizacin univariante utiliza slo los
trminos diagonales de S
x
para construir D
1/2
, y no tiene en cuenta las covarianzas, mientras
que la multivariante utiliza toda la matriz.
Ejemplo 4.7 La tabla A.4 de los daos de INVEST presenta el nmero de publicaciones
recogidas en un trienio en 8 bases de datos de produccin cientca para los pases de la
OCDE. (La descripcin de las fuentes se encuentra en el apndice de datos). En la gura
4.10 se presenta un diagrama de cajas mltiple (Boxplot) que permite, adems de la explo-
racin de cada una de las variables, comparar los rangos de todas ellas de forma conjunta.
0
2
0
0
0
0
0
4
0
0
0
0
0
6
0
0
0
0
0
8
0
0
0
0
0
INTER.A INTER.F AGRIC. BIOLO. MEDIC. QUIMI. INGEN. FISICA
Figura 4.10: Diagrama de cajas de las variables de INVEST.
En el grco se observa la existencia de un atpico en todas las variables (EEUU) y una
asimetra en la distribucin de todas las variables que puede estar producida por ste dato.
4.4. TRANSFORMACIONES NO LINEALES 117
INTER.A INTER.F AGRIC. BIOLO. MEDIC. QUIMI. INGEN. FISICA
EE.UU 4.2223 4.0650 3.9773 3.5825 4.1091 3.3889 4.1696 4.0846
UK 0.4845 0.5640 1.2398 1.4429 0.5513 0.2697 -0.1532 0.4831
JP 0.1627 0.4247 0.1562 0.4567 0.4788 2.2109 0.9060 0.6573
F 0.2375 0.3930 0.1480 0.0406 0.3755 0.5152 -0.0054 0.5237
G 0.0782 0.5000 0.0417 0.7273 0.2177 0.0305 0.0491 0.1381
C -0.0269 0.0698 0.1594 0.4540 -0.1104 0.3521 0.0793 -0.0716
I -0.1975 -0.1687 -0.1545 0.2062 0.0336 -0.2367 -0.1770 -0.1643
A -0.2363 -0.2594 0.0765 -0.0645 -0.3089 -0.3865 -0.2156 -0.3065
H -0.2719 -0.3102 -0.2232 -0.2395 -0.2811 -0.3561 -0.2611 -0.2931
S -0.2796 -0.3325 -0.3551 -0.0918 -0.2606 -0.3982 -0.3194 -0.3839
CH -0.2914 -0.3527 -0.3861 -0.5353 -0.3287 -0.3895 -0.3124 -0.3210
E -0.3490 -0.3854 -0.4009 -0.5092 -0.3994 -0.4237 -0.3660 -0.4081
B -0.3440 -0.3857 -0.3932 -0.5069 -0.3831 -0.4554 -0.3448 -0.3877
D -0.3590 -0.5216 -0.4241 -0.3817 -0.3782 -0.4348 -0.3686 -0.4276
AU -0.3803 -0.3692 -0.4856 -0.6308 -0.4224 -0.5026 -0.3636 -0.4197
FI -0.3800 -0.4502 -0.4552 -0.4506 -0.4260 -0.5032 -0.3767 -0.4369
N -0.3911 -0.4626 -0.4667 -0.5608 -0.4428 -0.5150 -0.3803 -0.4598
Y -0.4162 -0.4925 -0.4550 -0.7199 -0.4971 -0.4996 -0.3849 -0.4315
GR -0.4217 -0.4950 -0.5235 -0.7124 -0.5024 -0.5412 -0.3810 -0.4454
IR -0.4042 -0.5257 -0.5368 -0.7256 -0.5053 -0.5620 -0.3964 -0.4574
P -0.4360 -0.5050 -0.5391 -0.7810 -0.5197 -0.5627 -0.3976 -0.4722
Tabla 4.1: Estandarizacin univariante de INVEST
Vamos a estudiar para estos datos las dos estandarizaciones propuestas:
Se observa que la estandarizacin univariante resalta el valor atpico de EEUU, pero
mantiene sin cambios importantes las variables, que sufren solamente un cambio de escala.
La estandarizacin multivariante transforma totalmente las variables originales. En la
primera variable EEUU sigue siendo atpico, pero en las siguientes esta caracterstica desa-
parece. En el captulo siguiente, componentes principales, interpretaremos las propiedades
de estas nuevas variables transformadas.
4.4 TRANSFORMACIONES NO LINEALES
4.4.1 Simplicidad en las distribuciones
El anlisis de un conjunto de datos multivariante es ms simple cuando su distribucin es
simtrica y las relaciones entre las variables son lineales, y la mayora de los mtodos multi-
variantes hacen estas hiptesis. En estas condiciones, la matriz de varianzas y covarianzas
es un buen resumen de las relaciones de dependencia existentes.
Al elegir las variables conviene tener en cuenta que la misma variable puede medirse de
muchas formas, en principio igualmente vlidas. Por ejemplo, el consumo de gasolina de un
automvil se expresa en Europa en litros cada 100 kilmetros (x) mientras que en EE.UU
118 CAPTULO 4. ANALISIS GRAFICO Y DATOS ATIPICOS
y
1
y
2
y
3
. y
4
y
5
y
6
y
7
y
8
EE.UU 4.15 -0.36 1.53 -0.22 -0.46 -0.12 0.12 0.05
UK 0.64 -2.14 -2.70 2.18 0.00 -0.25 0.18 0.44
JP 0.70 3.81 -1.77 0.18 -0.43 -0.34 -0.60 0.25
F 0.29 0.58 0.02 1.78 3.29 0.11 0.32 -0.81
G 0.23 -0.70 -1.11 -2.88 1.90 1.81 -0.65 -0.57
C 0.11 0.18 -1.40 -0.64 -1.47 1.72 1.96 -0.36
I -0.11 -0.48 -0.61 -1.33 0.34 -2.79 -1.84 0.19
A -0.22 -0.66 -0.28 0.52 -1.76 0.92 -2.36 -0.56
H -0.29 -0.23 0.05 -0.03 -0.42 -0.29 -0.66 -1.06
S -0.32 -0.35 -0.28 -1.14 -0.06 -1.25 1.71 0.94
CH -0.38 0.08 0.62 0.32 0.24 -0.06 0.22 0.92
E -0.42 0.01 0.40 0.18 -0.01 0.34 0.36 2.03
B -0.42 -0.05 0.48 0.12 -0.04 0.14 -0.18 0.91
D -0.43 -0.07 0.12 -0.19 -0.48 -1.67 1.41 -1.15
AU -0.47 0.05 0.73 -0.02 0.34 0.80 -0.50 2.10
FI -0.46 -0.12 0.31 -0.32 -0.17 -0.33 0.65 -0.96
N -0.48 -0.03 0.51 -0.04 -0.20 -0.07 0.26 0.90
Y -0.51 0.14 0.77 0.68 -0.27 0.47 -0.59 -0.62
GR -0.53 0.12 0.81 0.23 -0.11 0.33 -0.17 -1.38
IR -0.54 0.09 0.86 0.26 -0.14 -0.00 0.70 -1.31
P -0.55 0.15 0.93 0.36 -0.09 0.52 -0.35 0.06
Tabla 4.2: Estandarizacin multivariante de INVEST
se expresa en km recorridos con 1 litro (o galn) de gasolina (y). La relacin entre ambas
medidas es no lineal, ya que y = 100/x. Como segundo ejemplo, para medir el crecimiento
de una variable C
t
en el tiempo podemos calcular las diferencias C
t
C
t1
, pero en general
resulta ms relevante considerar las diferencias relativas (C
t
C
t1
)/C
t1
o (C
t
C
t1
)/C
t
. Si
expresamos la variable en logaritmos, sus diferencias en dicha escala son una buena medida
del crecimiento relativo, ya que:
ln C
t
ln C
t1
= ln
C
t
C
t1
= ln

1 +
C
t
C
t1
C
t1

'
C
t
C
t1
C
t1
utilizando que ln(1 +x) es aproximadamente x, si x es pequeo. Adems, es fcil demostrar
que, supuesto C
t
C
t1
:
C
t
C
t1
C
t
ln
C
t
C
t1

C
t
C
t1
C
t1
y las diferencias de las variables en logaritmos son una medida promedio de las dos formas
posibles de medir el crecimiento relativo. El logaritmo es una de las transformaciones ms
utilizadas para datos positivos ya que:
(1) Las distribuciones que describen el tamao de las cosas (renta de pases o familias
habitantes en las principales ciudades del mundo, tamao de empresas, consumo de energa
4.4. TRANSFORMACIONES NO LINEALES 119
en hogares, etc), son generalmente muy asimtricas, pero se convierten en aproximadamente
simtricas al expresar la variable en logaritmos.
(2) Cuando las diferencias relativas entre los valores de la variable sean importantes,
conviene expresar las variables en logaritmos, ya que las diferencias entre logaritmos equivalen
a diferencias relativas en la escala original.
(3) La variabilidad de las variable transformada es independiente de las unidades de
medida.
Para comprobar esta ltima propiedad, supongamos una variable escalar x que transfor-
mamos con y = log x y la variable transformada tiene media y y varianza s
2
y
. Si cambiamos
las unidades de medida de x multiplicando por una constante, z = kx, entonces la variable
logz tiene media y + log k y la misma varianza que la variable log x.
4.4.2 Simplicidad en las relaciones
Es frecuente con datos econmicos observar fuertes relaciones no lineales entre las variables.
En estos casos, el anlisis de los datos se simplica mucho si transformamos las variables
de manera que las nuevas variables tengan relaciones lineales. Por ejemplo, una relacin
frecuente es del tipo proporcional
y = kx
b
(4.11)
que implica que si la variable x aumenta en una unidad la variable y aumenta (supuesto b > 0)
una cantidad que depende del valor de x, pero el incremento proporcional de y cuando x
aumenta un 1% es constante e igual al b%. Esta relacin suele ir unida a heterocedasticidad
en la relacin, manifestada en una mayor variabilidad en el grco de dispersin cuando las
variables toman valores altos que en la zona de valores bajos. La relacin puede convertirse
en lineal y homocedstica (varianza constante) transformando las variables en logaritmos.
En efecto, tomando logaritmos en (4.11) y llamando y

= log y, x

= log x tenemos una


relacin lineal entre las nuevas variables (x

). A la hora de decidir si transformar o no


las variables es importante tener en cuenta la interpretacin de las nuevas variables.
Las transformaciones habituales de las variables individuales pueden escribirse mediante
la familia potencial de Box-Cox:
y
()
=
x

, para 6= 0
y
()
= log x, para = 0.
Un estudio ms detallado de esta transformacin incluyendo la estimacin del parmetro
se realizar en el captulo 10. La transformacin puede extenderse para tratar de transformar
conjuntamente el vector de variables para que todas las distribuciones conjuntas de grupos
de variables sean simtricas. (vease Gnanadesikan, 1997).
Ejemplo 4.8 La gura 4.11 presenta los diagramas de dispersin de las variables de INVES
en logaritmos con los histogramas de las variables en la diagonal principal. Este grco se
ha hecho con Matlab. Se observa que la transformacin logartmica hace las relaciones ms
lineales y los histogramas de todas las variables ms simtricos.
120 CAPTULO 4. ANALISIS GRAFICO Y DATOS ATIPICOS
Ejemplo 4.9 La gura 4.12 muestra la representacin de los datos de EPF en logaritmos.
Se observa que las relaciones son aproximadamente lineales y los histogramas simtricos.
4.5 DATOS ATPICOS
4.5.1 Denicin
Llamaremos datos atpicos a aquellas observaciones que parecen haberse generado de forma
distinta al resto de los datos. Pueden ser causadas por errores de medicin o transcripcin,
cambios en el instrumento de medicin o a heterogeneidad intrnseca de los elementos obser-
vados. Por ejemplo, supongamos que estamos estudiando las caractersticas de las viviendas
en una zona urbana donde la gran mayora son pisos, pero se ha incluido en la muestra
una gran vivienda unifamiliar con jardn. Esta observacin ser atpica y corresponde a una
heterogeneidad real de los datos. Es importante detectarla ya que obtendremos una mejor
descripcin de los datos separando ambos tipos de viviendas.
Los anlisis efectuados sobre datos recogidos en condiciones de estrecho control, revelan
que es frecuente que aparezcan entre un 1% y un 3% de observaciones atpicas respecto al
resto de la muestra. Cuando los datos se han recogido sin un cuidado especial, la proporcin
de datos atpicos puede llegar al 5% y ser incluso mayor.
La caracterizacin de un slo valor atpico es simple ya que, por denicin, debe estar
alejado del resto, con lo que la distancia entre el atpico y el resto de las observaciones ser
grande. Alternativamente, podemos denir una atpico como aquel punto que se encuentra
lejos del centro de los datos. Llamando x al vector de medias y utilizando como medida de
distancia la distancia eucldea, una observacin x
i
ser atpica en esta mtrica si
d
E
(x
i
,x) =

(x
i
x)
0
(x
i
x)

1/2
es grande. Para identicar las observaciones atpicas podramos hacer un histograma de
estas distancias y ver si existen puntos mucho ms alejados que los dems. Sin embargo,
como hemos visto, esta medida de distancia no es razonable cuando exista dependencia
entre las observaciones. La gura 4.13 ilustra una situacin donde el punto + es claramente
atpico y, sin embargo, ni est a una distancia eucldea grande del centro de los datos, ni
aparecer como atpico al analizar cada variable aisladamente. El problema es que, como
vimos, la distancia eucldea no tiene en cuenta la estructura de correlacin de los datos,
y una posibilidad mejor es estandarizar previamente los datos de forma multivariante. De
esta manera los datos transformados tienen media cero y matriz de covarianzas identidad, y
podemos buscar atpicos con la distancia eucldea, eliminando el problema de la correlacin
entre las variables. Deniendo, como antes, las variables estandarizadas multivariantemente
por:
y = S
1/2
x
(xx)
La distancia eucldea al cuadrado entre una observacin, y
i
, y su media, cero, ser
d
2
E
(y
i
, 0) = y
0
i
y
i
= (x
i
x)
0
S
1
x
(x
i
x) = d
2
M
(x
i
,x)
4.5. DATOS ATPICOS 121
y la distancia eucldea entre las variables incorreladas equivale a la distancia de Mahalanobis
entre las variables originales. Podramos entonces identicar datos atpicos calculando las
distancias de Mahalanobis para todos ellos y viendo si existe algn punto con una distancia
mucho mayor que el resto.
4.5.2 Los efectos de los atpicos
Las consecuencias de una sola observacin atpica pueden ser graves: distorsionar las medias
y desviaciones tpicas de las variables y destruir las relaciones existentes entre ellas. Para
ilustrar este problema, supongamos que en una muestra multivariante de tamao n se
introduce un valor atpico, x
a
, donde x
a
es un vector de falsas observaciones. Llamando x
y S al vector de medias y matriz de covarianzas sin la observacin x
a
, y x
c
y S
c
a los de la
muestra contaminada con este dato atpico, es fcil comprobar (vese ejercicio 4.4) que
x
c
= x +
(x
a
x)
n + 1
(4.12)
y
S
c
=
n
n + 1
S +
(x
a
x)(x
a
x)
0
n + 1
(
n
(n + 1)
). (4.13)
Estas frmulas indican que un solo dato atpico puede afectar mucho al vector de medias
y a todas las varianzas y covarianzas entre las variables. El efecto del atpico depende de
su tamao, medido por su distancia eucldea al centro del resto de las observaciones, pero
tambin de su posicin, ya que los trminos ms afectados de la matriz S dependen de la
posicin del atpico en el espacio. En general, si el tamao del atpico es grande, lo que
supone |x
a
x| grande, la media, varianzas y covarianzas de las variables pueden estar muy
distorsionadas.
Para analizar con ms detalle la distorsin de los coecientes de correlacin, consideremos
el caso ms simple de p = 2 y supongamos que x = 0, S = I, y n no muy pequeo de manera
que, para simplicar la presentacin, tomaremos n w n+1. Sea x
a
= (a
1
, a
2
)
0
y supongamos
para simplicar que x
c
w x = 0. Llamando s
c
ij
a los elementos de S
c
y tomando n w n + 1,
en (4.13) tendremos que
s
c
ii
w 1 +
a
2
i
n
, i = 1, 2 (4.14)
y
s
c
ij
w
a
i
a
j
n
, i 6= j
con lo que el coeciente de correlacin entre las dos variables ser:
r
c
w
a
1
a
2
(n +a
2
1
)
1/2
(n +a
2
2
)
1/2
.
Esta expresin muestra que si a
1
y a
2
tienen el mismo signo y son grandes con relacin a

n
el coeciente tiende a uno, mientras que si tienen signos opuestos, el coeciente tiende hacia
122 CAPTULO 4. ANALISIS GRAFICO Y DATOS ATIPICOS
menos uno. Vemos que la distorsin que produce el atpico depende no slo de su tamao
sino tambin de su posicin en el espacio.
La conclusin de este ejercicio es que una sola observacin puede distorsionar arbitrari-
amente los coecientes de correlacin entre las variables. En la gura 4.14 hemos aadido
a dos variables incorreladas una observacin atpica, marcada por a, con a = (9, 9)
0
. Como
indica la teora que hemos visto, esta nica observacin introduce una alta correlacin entre
las variables, creando una relacin inexistente.
La gura 4.15 ilustra cmo una nica observacin puede ocultar una relacin existente:
la observacin atpica a destruye la fuerte correlacin existente entre las variables.
Cuando existe ms de un atpico en los datos, puede producirse el efecto conocido como
enmascaramiento, que consiste en que observaciones atpicas similares se ocultan entre s.
Por ejemplo, supongamos que en la gura 4.13 en la posicin del atpico hay tres puntos
idnticos. Aunque eliminemos el primero, los otros dos continuarn distorsionando el clculo
de las medias y varianzas, haciendo muy difcil su identicacin, ya que cada punto enmascara
a los otros.
4.5.3 (*)Identicacin de grupos de atpicos
Hay dos losofas para tratar con la heterogeneidad. La primera es utilizar estimadores
robustos, que son estimadores diseados para verse poco afectados por cierta contaminacin
de atpicos. Comentaremos estos estimadores en el captulo 11. La segunda es detectar los
atpicos, y aplicar el clculo de los estimadores a las muestras limpias de atpicos. Ambos
enfoques son complementarios, y en esta seccin introduciremos el segundo.
El procedimiento para detectar grupos de atpicos es eliminar de la muestra todos los
puntos sospechosos, de manera que evitemos el enmascaramiento y podamos calcular el
vector de medias y la matriz de covarianzas sin distorsiones. A continuacin identicaremos
con estos estimadores la distancia de cada punto sospechoso respecto al centro de los datos, y
consideraremos atpicos a los muy alejados. El primer paso para identicar las observaciones
sospechosas es detectar aquellas que lo sean claramente respecto a una variable. Para ello
podemos utilizar el histograma o los diagramas de caja, como hemos visto en los ejemplos
anteriores. Una regla simple y automtica es considerar sospechosas aquellas observaciones
tales que
|x
i
med(x)|
Meda(x)
> 4, 5,
donde med(x) es la mediana de las observaciones, que es un estimador robusto del centro
de los datos, y Meda(x) es la mediana de las desviaciones absolutas |x
i
med(x)| , que es
una medida robusta de la dispersin. Este mtodo puede verse como una estandarizacin
robusta de los datos.
Esta deteccin univariante no identicar muchos atpicos multivariantes. Por ejemplo, el
punto (-1,1) marcado con + en el grco 4.13 es claramente atpico, pero no aparecer como
tal en los anlisis univariantes. Con frecuencia los atpicos multivariantes corresponden
a situaciones con efectos pequeos sobre todas las variables, como un error sistemtico de
observacin en todas ellas, en lugar de un efecto importante sobre una variable. Si el nmero
4.5. DATOS ATPICOS 123
de variables no es muy grande, los diagramas de dispersin pueden ayudar visualmente a
determinar datos atpicos en dos dimensiones. Para dimensiones mayores no es recomendable
utilizar la distancia de Mahalanobis, ya que si existen grupos de atpicos, pueden distorsionar
la estimacin del centro y la dispersin de los datos enmascarando los atpicos y quizs
sealando como atpicos a puntos que no lo son.
Para evitar este problema podemos buscar proyecciones de los datos que muestren las
observaciones atpicas. Observemos que cualquier observacin atpica multivariante debe
aparecer como atpica al menos en una direccin de proyeccin: la denida por la recta
que une el centro de los datos con el dato atpico. En base a esta idea, Stahel (1981) y
Donoho (1982) propusieron generar muchas direcciones al azar, proyectar los puntos sobre
estas direcciones y marcar como datos atpicos a aquellas observaciones que aparecen como
extremas en estas proyecciones. Para generar direcciones al azar pueden tomarse muestras
al azar de p puntos, calcular el plano que las contiene y tomar como direccin el vector
ortogonal al plano.
Este mtodo funciona bien con pocas variables, pero al aumentar la dimensin del proble-
ma el nmero de direcciones que necesitamos generar para cubrir razonablemente el espacio
y tener garantas de xito aumenta exponencialmente. Una solucin propuesta por Pea y
Prieto (2001), es proyectar los datos sobre ciertas direcciones especcas, escogidas de manera
que tengan alta probabilidad de mostrar los atipicos cuando existan. Hemos comentado que
en muestras univariantes una pequea proporcin de atpicos hace aumentar el coeciente
de kurtosis, lo que sugiere investigar las direcciones donde los puntos proyectados tengan
mxima kurtosis univariante. Por otro lado, un grupo grande de atpicos puede producir
bimodalidad y baja kurtosis, por lo que conviene tambin explorar las direcciones donde
los puntos proyectados tengan mnima kurtosis. La idea del procedimiento es buscar p di-
recciones ortogonales de mxima kurtosis y p direcciones ortogonales de mnima kurtosis,
eliminar provisionalmente los datos extremos en estas direcciones, calcular la media y la ma-
triz de covarianzas con los datos no sospechosos y despus identicar los datos atpicos como
aquellos que son extremos con la distancia de Mahalanobis calculada con las estimaciones no
contaminadas. Dada la muestra multivariante (x
1
, ..., x
n
), el proceso se realiza como sigue:
1. Sean x y S el vector de medias y la matriz de covarianzas de los datos. Estandarizar
los datos de forma multivariante y sean z
i
= S
1/2
x
(x
i
x) los datos estandarizados
con media cero y matriz de covarianzas identidad. Tomar j = 1 y z
(1)
i
= z
i
.
2. Calcular la direccin d
j
con norma unidad que maximiza el coeciente de kurtosis
univariante de los datos proyectados. Llamando y
(j)
i
= d
0
j
z
(j)
i
, a las datos proyectado
sobre la direccin d
j
, esta direccin se obtiene como solucin de:
max
X
(y
(j)
i
y
(j)
)
4
+(dd 1)
que puede resolverse como se indica en el apndice 4.1.
3. Proyectar los datos sobre un espacio de dimensin p j denido como el espacio
ortogonal a la direccin d
j
. Para ello tomar z
(j+1)
= (I d
j
d
0
j
)z
(j)
. Hacer j = j + 1.
4. Repetir (2) y (3) hasta obtener las p direcciones, d
1
, ..., d
p
.
124 CAPTULO 4. ANALISIS GRAFICO Y DATOS ATIPICOS
5. Repetir (2) y (3) pero ahora minimizando la kurtosis en lugar de maximizarla para
obtener otras p direcciones, d
p+1
, ..., d
2p
6. Considerar como sospechosos aquellos puntos que en alguna de estas 2p direcciones
estn claramente alejados del resto, es decir, verican

y
(j)
i
med(y
(j)
)

Meda(y
(j)
)
> 5
A continuacin se eliminan todos los valores sospechosos detectados y se vuelve a 2 para
analizar los datos restantes. La estandarizacin multivariante ahora se realizar con la nueva
media y matriz de covarianzas de los datos restantes. Los pasos 2 a 6 se repiten hasta que
no se detecten ms datos atpicos o se haya eliminado una proporcin de datos prejada,
por ejemplo un mximo del 40% de los datos.
Una vez que la muestra no contenga ms valores sospechosos con el criterio anterior se
calcula el vector de medias, x
R
, y la matriz de covarianzas, S
R
, de los datos no sospechosos,
y las distancias de Mahalanobis para los sospechosos como:
d
2
R
(x
i
,x
R
) = (x
i
x
R
)S
1
R
(x
i
x
R
)
0
Por razones que veremos ms adelante al estudiar contrastes de valores atpicos en el captulo
10, aquellos valores mayores que p + 3

2p se consideran atpicos (recordemos que el valor


promedio de la distancia de Mahalanobis es p). Algunos puntos del conjunto de sospechosos
sern atpicos y otros no. Los atpicos son desechados, y los buenos incoporados al conjunto
de puntos. Finalmente, se calcular un vector de medias, x
f
, y una matriz de covarianzas,
S
f
, con los puntos no atpicos, que sern las estimaciones nales obtenidas de los datos.
En el captulo 11 presentaremos mtodos formales para contrastar si unos datos son
atpicos respecto a un modelo. En el apndice 4.1 se detalla el clculo de las direcciones que
maximizan la kurtosis. El procedimiento converge rpidamente en general. Un programa de
ordenador en Matlab para ejecutar este algoritmo puede bajarse de la direccin http:/******
Los datos detectados como potencialmente atpicos deben ser estudiadas con detalle para
determinar las causas de la heterogeneidad. Si estos datos no tienen un error detectable,
conviene, cuando sea posible, investigar las causas de su tamao anmalo ya que puede
llevar a importantes descubrimientos. Si no hay un error en el dato y, sin embargo, es
muy distinto de los dems, hay que sospechar que sobre esa observacin ha actuado alguna
causa que no ha estado activa en el resto de las observaciones. Por ejemplo, una variable no
includa en el estudio ha tomado un valor distinto en esa observacin y es responsable del
cambio observado. El descubrimiento de esta variable insospechada puede ser el resultado
ms importante del estudio estadstico. Muchos descubrimientos cientcos importantes,
(por ejemplo la penicilina) y muchas patentes industriales, han surgido de la investigacin
para determinar las razones de un dato anmalo.
Ejemplo 4.10 Buscaremos datos atpicos en los datos de la EPF. En primer lugar calcu-
lamos las distancias de Mahalanobis de cada dato al centro de todos ellos. Estas distancias
se presentan en el histograma de la gura 4.16. Las provincias ms alejadas del centro de
4.6. LECTURAS COMPLEMENTARIAS 125
los datos son, por este orden, Madrid (D=4.29), Gerona (D=3.98) y Navarra (3.97). Si
aplicamos ahora el procedimiento de buscar direcciones extremas en la kurtosis, obtenemos
los grcos de las guras 4.17, 4.18, 4.19 y 4.20. Si eliminamos estos nueve posibles datos
extremos y calculamos las distancias de Mahalanobis con las medias y covarianzas calcu-
ladas sin estos datos obtenemos el histograma de la gura 4.21 . Las dos observaciones
claramente extremas corresponden a Madrid y Barcelona. Observemos que en el anlisis
inicial Barcelona quedaba oculta (enmascarada) por la presencia de Madrid, pero aparece
claramente como atpica cuando se elimina el efecto de Madrid.
Ejemplo 4.11 Vamos analizar los datos de los sectores industriales en Europa. EUROSEC.
Como las variables suman 100 aproximadamente eliminaremos la ltima y trabajaremos por
tanto con ocho variables. La gura 4.22 presenta el histograma de estas distancias. Hay tres
pases muy alejados del resto que son Yugoeslavia (D = 4.17), Luxemburgo (D = 4.16) y
Turqua (D = 4.02). Estos tres pases estn separados del resto y son atpicos en su estructura
de empleo.
Para entender la razn dividiremos los valores de cada uno de estos tres pases por la
media. La tabla siguiente presenta los valores medios, el pas ms prximo en la distancia
de Mahalanobis a esta estructura media (Francia, D = 1.4) y los cocientes entre los valores
del pas ms extremo y los valores medios.
Media 19.1 1.25 27.00 0.91 8.16 12.95 4.00 20.02
Francia /Med 0.56 0.64 1.01 .99 1.09 1.30 1.50 1.13
Yugoes/Med 2.54 1.19 0.62 1.21 0.60 0.49 2.82 0.26
En esta tabla aparece claramente el carcter atpico de Yugoslavia: tiene ms del doble
de poblacin empleada en Agricultura y nanzas que el pas medio y la mitad de empleo en
los servicios.
Vamos a comparar este resultado con el que se obtendra buscando posibles grupos de
atpicos. Las guras 4.23, 4.24, y ?? presentan las proyecciones sobre la direccin que
maximiza la kurtosis de los datos y dos direcciones ortogonales a ella.
En la primera direccin aparece como extremo el punto 7 (Luxemburgo), en la segunda
el 26 (Yugoeslavia) y en la tercera el 15 (Espaa) y el 18 (Turqua). Es interesante que si
eliminamos estos cuatro puntos y calculamos las distancias de Mahalanobis del resto a estos
cuatro pases, Espaa aparece ms alejada que Luxemburgo.
4.6 Lecturas complementarias
El libro de Gnanadesikan (1997) ampla el material de este captulo incluyendo otros mtodos
grcos para los datos, como las curvas de Andrews, donde cada observacin se representa
for una funcin f(t). Este libro tambin considera con detalle la transformacin Box- Cox
multivariante, que ha sido estudiada, entre otros por Velilla (1993,1995) y Atkinson (19 ). La
deteccin de atpicos multivariantes ha sido objeto de numeros trabajos. Algunas referencias
recientes son Rousseeuw y van Zomeren (1990), Atkinson (1994), Maronna y Yohai (1995),
, Rocke y Woodru (1996) y Juan y Prieto (2001). Volveremos sobre este tema al presentar
los estimadores robustos en el captulo 11.
EJERCICIOS
4.1 Construir los diagramas de dispersin con un programa de ordenador como Matlab,
Minitab o Spss para los datos de EUROSEC.
4.2 Demostrar que un cambio de medida de las variables que equivale a una transforma-
cin lineal no modica su matriz de correlacin.
4.3 Demostrar que la estandarizacin univariante no modica la matriz de correlacin de
las variables.
4.3 Demostrar que la estandarizacin multivariante hace cero los coecientes de cor-
relacin parcial entre las nuevas variables.
4.4 Demostrar que si introducimos un dato atpico en una muestra con vector de medias
l t d di i l d l t i + ( )/( + 1)
126 CAPTULO 4. ANALISIS GRAFICO Y DATOS ATIPICOS
est
50 60 70 80 90 70 75 80 54 56 58 60
1
6
0
1
8
0
5
0
7
0
9
0
pes
pie
3
4
3
8
4
2
7
0
7
5
8
0
lbr
aes
4
0
4
5
5
0
5
4
5
6
5
8
6
0
dcr
160 170 180 190 34 36 38 40 42 44 40 45 50 38 42 46 50
3
8
4
2
4
6
5
0
drt
Figura 4.6: Matriz de dispersin para los datos de la medidas fsicas (MEDIFIS)
4.6. LECTURAS COMPLEMENTARIAS 127
UK
JP
F
G
C
I
A
H
S
CH
E
B
D
AU
FI
N
Y
GR
IR
P
Figura 4.7: Representacin de las contribuciones cientcas de los pases de INVEST en caras
de Cherno
INTER.A
I
N
T
E
R
.
F
A
G
R
I
C
.
B
I
O
L
O
.
MEDIC.
Q
U
I
M
I
.
I
N
G
E
N
.
F
I
S
I
C
A
Figura 4.8: Esquema de asignacin de los radios de la estrella a la variables para los datos
de la investigacin de los pases de la OCEDE
128 CAPTULO 4. ANALISIS GRAFICO Y DATOS ATIPICOS
UK
JP
F
G
C
I
A
H
S
CH
E
B
D
AU
FI
N
Y
GR
IR
P
Figura 4.9: Representacin mediante estrellas de los pases de INVEST en logaritmos una
vez eliminado EEUU.
Figura 4.11: Distribuciones conjuntas y marginales de las variables de INVES en logaritmos.
4.6. LECTURAS COMPLEMENTARIAS 129
Figura 4.12: Los datos de EPF en logaritmos. Representaciones bivariantes e histogramas.
Figura 4.13: Una observacin atpica multivariante que no aparece como tal en los anlisis
univariantes.
130 CAPTULO 4. ANALISIS GRAFICO Y DATOS ATIPICOS
Figura 4.14: En esta gura las variables estaban originalmente casi incorreladas (r = .11),
pero la presencia del valor atpico ha creado una fuerte correlacin positiva (r = .71).
Figura 4.15: En esta gura el coeciente de correlacin sin el dato atipico es de 0,91 y
disminuye hasta 0,41 por la presencia del atpico marcado con a.
4.6. LECTURAS COMPLEMENTARIAS 131
1. 5 2 2.5 3 3.5 4 4.5
0
1
2
3
4
5
6
7
8
Figura 4.16: Distribucin de las distancias de Mahalanobis entre cada dato y el centro para
los datos de la EPF
0 10 20 30 40 50 60
-2
0
2
4
6
8
10
12
14
x 10
4
Ceut a
Navarra
Figura 4.17: Primera proyeccin en la direccin de mxima kurtosis para los datos de la
EPF
132 CAPTULO 4. ANALISIS GRAFICO Y DATOS ATIPICOS
0 10 20 30 40 50 60
-14
-12
-10
-8
-6
-4
-2
x 10
4
Madrid
Cant abria
Huelva
Figura 4.18: Segunda proyeccin en la direccin de mxima curtosis para los datos de la
EPF
0 10 20 30 40 50 60
-8
-6
-4
-2
0
2
4
6
x 10
4
Gerona
Figura 4.19: Tercera proyeccin en la direccin de mxima curtosis para los datos de la EPF
4.6. LECTURAS COMPLEMENTARIAS 133
0 10 20 30 40 50 60
-8
-6
-4
-2
0
2
4
x 10
4
Barcelona
Tenerife Las Palmas
Figura 4.20: Cuarta proyeccin sobre la direccin de mxima curtosis para los datos de la
EPF
1 2 3 4 5 6 7 8
0
2
4
6
8
10
12
14
16
18
Figura 4.21: Distancias de Mahalanobis para los datos de la EPF calculadas de manera
robusta, eliminando los datos extremos.
134 CAPTULO 4. ANALISIS GRAFICO Y DATOS ATIPICOS
1 1. 5 2 2. 5 3 3.5 4 4.5
0
0.5
1
1.5
2
2.5
3
3.5
4
Figura 4.22: Distancias de Mahalanobis de cada dato al centro de la muestra para los datos
de EUROSEC.
0 5 10 15 20 25 30
-0. 5
0
0.5
1
1.5
2
Figura 4.23: Proyeccin sobre la direccin de mxima curtosis
4.6. LECTURAS COMPLEMENTARIAS 135
0 5 10 15 20 25 30
22
24
26
28
30
32
34
Figura 4.24: Proyeccin sobre la segunda direccin de mxima curtosis ortogonal a la primera
136 CAPTULO 4. ANALISIS GRAFICO Y DATOS ATIPICOS
Captulo 5
COMPONENTES PRINCIPALES
5.1 INTRODUCCIN
Un problema central en el anlisis de datos multivariantes es la reduccin de la dimen-
sionalidad: si es posible describir con precisin los valores de p variables por un pequeo
subconjunto r < p de ellas, se habr reducido la dimensin del problema a costa de una
pequea prdida de informacin.
El anlisis de componentes principales tiene este objetivo: dadas n observaciones de p
variables, se analiza si es posible representar adecuadamente esta informacin con un nmero
menor de variables construidas como combinaciones lineales de las originales. Por ejemplo,
con variables con alta dependencia es frecuente que un pequeo nmero de nuevas variables
(menos del 20% de las originales ) expliquen la mayor parte (ms del 80%) de la variabilidad
original.
La tcnica de componentes principales es debida a Hotelling (1933), aunque sus orgenes
se encuentran en los ajustes ortogonales por mnimos cuadrados introducidos por K. Pearson
(1901). Su utilidad es doble:
1. Permite representar ptimamente en un espacio de dimensin pequea, observaciones
de un espacio general p-dimensional. En este sentido componentes principales es el
primer paso para identicar posibles variables latentes o no observadas, que estn
generando la variabilidad de los datos.
2. Permite transformar las variables originales, en general correladas, en nuevas variables
incorreladas, facilitando la interpretacin de los datos.
En este captulo presentamos nicamente esta tcnica como una herramienta exploratoria
para facilitar la descripcin e interpretacin de los datos. El problema de inferir si las
propiedades de reduccin de la dimensin encontradas en los datos puede extenderse a una
poblacin se estudiara en el captulo de anlisis factorial.
137
138 CAPTULO 5. COMPONENTES PRINCIPALES
5.2 PLANTEAMIENTO DEL PROBLEMA
Supongamos que se dispone de los valores de p-variables en n elementos de una poblacin
dispuestos en una matriz X de dimensiones np, donde las columnas contienen las variables
y las las los elementos. Supondremos en este captulo que previamente hemos restado a
cada variable su media, de manera que las variables de la matriz X tienen media cero y su
matriz de covarianzas vendr dada por 1/n X
0
X.
El problema que se desea resolver es cmo encontrar un espacio de dimensin ms re-
ducida que represente adecuadamente los datos. El problema puede abordarse desde tres
perspectivas equivalentes.
a) Enfoque descriptivo
Se desea encontrar un subespacio de dimensin menor que p tal que al proyectar sobre l los
puntos conserven su estructura con la menor distorsin posible. Veamos cmo convertir esta
nocin intuitiva en un criterio matemtico operativo. Consideremos primero un subespacio
de dimensin uno, una recta. Se desea que las proyecciones de los puntos sobre esta recta
mantengan, lo ms posible, sus posiciones relativas. Para concretar, consideremos el caso
de dos dimensiones (p = 2). La gura 5.1 indica el diagrama de dispersin y una recta
que, intuitivamente, proporciona un buen resumen de los datos, ya que las proyecciones de
los puntos sobre ella indican aproximadamente la situacin de los puntos en el plano. La
representacin es buena porque la recta pasa cerca de todos los puntos y estos se deforman
poco al proyectarlos. Esta propiedad puede concretarse exigiendo que las distancias entre
los puntos originales y sus proyecciones sobre la recta sean lo ms pequeas posibles. En
consecuencia, si consideramos un punto x
i
y una direccin a
1
= (a
11
, ..., a
1p
)
0
, denida por
un vector a
1
de norma unidad, la proyeccin del punto x
i
sobre esta direccin es el escalar:
z
i
= a
11
x
i1
+. . . +a
1p
x
ip
= a
0
1
x
i
(5.1)
y el vector que representa esta proyeccin ser z
i
a
1
. Llamando r
i
a la distancia entre el punto
x
i
, y su proyeccin sobre la direccin a
1
, este criterio implica:
minimizar
n
X
i=1
r
2
i
=
n
X
i=1
|x
i
z
i
a
1
|
2
, (5.2)
donde |u| es la norma eucldea o mdulo del vector u.
5.2. PLANTEAMIENTO DEL PROBLEMA 139
-2.5 -2 -1. 5 -1 -0. 5 0 0.5 1 1.5 2 2.5
-2.5
-2
-1.5
-1
-0.5
0
0. 5
1
1. 5
2
2. 5
r1
x1
z1
Figura 5.1: Ejemplo de la recta que minimiza las distancias ortogonales de los puntos a ella.
La gura (5.1) muestra que al proyectar cada punto sobre la recta se forma un tringulo
rectngulo donde la hipotenusa es la distancia al origen del punto al origen, (x
0
i
x
i
)
1/2
, y los
catetos la proyeccion del punto sobre la recta (z
i
) y la distancia entre el punto y su proyeccin
(r
i
). Por el teorema de Pitgoras, podemos escribir:
x
0
i
x
i
= z
i
2
+r
2
i
, (5.3)
y sumando esta expresin para todos los puntos, se obtiene:
n
X
i=1
x
0
i
x
i
=
n
X
i=1
z
2
i
+
n
X
i=1
r
2
i
. (5.4)
Como el primer miembro es constante, minimizar
P
n
i=1
r
2
i
, la suma de las distancias a
la recta de todos los puntos, es equivalente a maximizar
P
n
i=1
z
2
i
, la suma al cuadrado de
los valores de las proyecciones. Como las proyecciones z
i
son, por (9.21) variables de media
cero, maximizar la suma de sus cuadrados equivale a mazimizar su varianza. Este resultado
es intuitivo: la recta de la gura 5.1 parece adecuada porque conserva lo ms posible la
variabilidad original de los puntos. El lector puede convencerse considerando una direccin
de proyeccin perpendicular a la de la recta en esta gura: los puntos tendran muy poca
variabilidad y perderiamos la informacin sobre sus distancias en el espacio.
El objetivo de proyectar los puntos con mnima deformacin puede abordarse desde otro
punto de vista que conduce al mismo resultado nal. En el espacio de p-dimensiones, lo
caracterstico de la nube de puntos son sus distancias relativas. Tratemos de encontrar un
subespacio de dimensin 1, es decir, un recta tal que los puntos proyectados conserven lo
ms posible sus distancias relativas. Si llamamos d
2
ij
= x
0
i
x
j
a los cuadrados de las distancias
originales entre los puntos y
b
d
2
ij
= (z
i
z
j
)
2
a las distancias entre los puntos proyectados
140 CAPTULO 5. COMPONENTES PRINCIPALES
sobre una recta, deseamos que
D =
X
i
X
j
(d
2
ij

b
d
2
ij
)
sea mnima. Como la suma de las distancias originales es ja, minimizar D require maximizar
P
i
P
j
b
d
2
ij
, las distancias entre los puntos proyectados. Se demuestra en el apndice 5.1 que
la direccin es la misma que proporciona una variable escalar de varianza mxima.
b) Enfoque estadstico:
Representar puntos p dimensionales con la mnima prdida de informacin en un espacio de
dimensin uno es equivalente a sustituir las p variables originales por una nueva variable,
z
1
, que resuma ptimamente la informacin. Esto supone que la nueva variable debe tener
globalmente mxima correlacin con las originales o, en otros trminos, debe permitir prever
las variables originales con la mxima precisin. Esto no ser posible si la nueva variable
toma un valor semejante en todos los elementos, y, se demuestra en el apndice 5.2, que
la condicin para que podamos prever con la mnima prdida de informacin los datos
observados, es utilizar la variable de mxima variabilidad.
Volviendo a la gura 5.1 se observa que la variable escalar obtenida al proyectar los
puntos sobre la recta sirve para prever bien el conjunto de los datos. La recta indicada en
la gura no es la lnea de regresin de ninguna de las variables con respecto a la otra, que
se obtienen minimizando las distancias verticales u horizontales, sino que al minimizar las
distancias ortogonales o de proyeccin se encuentra entre ambas rectas de regresin.
Este enfoque puede extenderse para obtener el mejor subespacio resumen de los datos
de dimensin 2. Para ello calcularemos el plano que mejor aproxima a los puntos. El
problema se reduce a encontrar una nueva direccin denida por un vector unitario, a
2
,
que, sin prdida de generalidad, puede tomarse ortogonal a a
1
, y que verique la condicin
de que la proyeccin de un punto sobre este eje maximice las distancias entre los puntos
proyectados. Estadsticamente esto equivale a encontrar una segunda variable z
2
, incorrelada
con la anterior, y que tenga varianza mxima. En general, la componente z
r
(r < p) tendr
varianza mxima entre todas las combinaciones lineales de las p variables X originales, con
la condicin de estar incorrelada con las z
1
, ..., z
r1
previamente obtenidas.
c) enfoque geomtrico
El problema puede abordarse desde un punto de vista geomtrico con el mismo resultado
nal. Si consideramos la nube de puntos de la gura 5.1 vemos que los puntos se sitan
siguiendo una elipse y podemos describir su orientacin dando la direccin del eje mayor de
la elipse y la posicin de los punto por su proyeccin sobre esta direccin. Puede demostrarse
que este eje es la recta que minimiza las distancias ortogonales y volvemos al problema que
ya hemos resuelto. En varias dimensiones tendremos elipsoides y la mejor aproximacin a
los datos es la proporcionada por el eje mayor del elipsoide. Considerar los ejes del elipsoide
como nuevas variables originales supone pasar de variables correladas a variables ortogonales,
como veremos a continuacin.
5.3. CALCULO DE LOS COMPONENTES 141
5.3 CALCULO DE LOS COMPONENTES
5.3.1 Clculo del primer componente
El primer componente principal ser la combinacin lineal de las variables originales que
tenga varianza mxima. Los valores de este primer componente en los n individuos se
representarn por un vector z
1
, dado por
z
1
= Xa
1
.
Como las variables originales tienen media cero tambin z
1
tendr media nula. Su vari-
anza ser:
V ar(z
1
) =
1
n
z
0
1
z
1
=
1
n
a
0
1
X
0
Xa
1
= a
0
1
Sa
1
(5.5)
donde S es la matriz de varianzas y covarianzas de las observaciones. Es obvio que podemos
maximizar la varianza sin limite aumentando el mdulo del vector a
1
. Para que la maxi-
mizacin de (5.5) tenga solucin debemos imponer una restriccin al mdulo del vector a
1
,
y, sin prdida de generalidad, impondremos que a
0
1
a
1
= 1 . Introduciremos esta restriccin
mediante el multiplicador de Lagrange:
M = a
0
1
Sa
1
(a
0
1
a
1
1)
y maximizaremos esta expresin de la forma habitual derivando respecto a los componentes
de a
1
e igualando a cero. Entonces
M
a
1
= 2Sa
1
2a
1
= 0
cuya solucin es:
Sa
1
= a
1
, (5.6)
que implica que a
1
es un vector propio de la matriz S, y su correspondiente valor propio.
Para determinar qu valor propio de S es la solucin de la ecuacin (5.6) tendremos en cuenta
que, multiplicando por la izquierda por a
0
1
esta ecuacin,
a
0
1
Sa
1
= a
0
1
a
1
=
y concluimos, por (5.5), que es la varianza de z
1
. Como esta es la cantidad que queremos
maximizar, ser el mayor valor propio de la matriz S. Su vector asociado, a
1
, dene los
coecientes de cada variable en el primer componente principal.
Ejemplo 5.1 Ilustraremos con detalle el clculo de la primera componente principal con los
datos de los logaritmos de las ACCIONES, tabla A.7. Los paquetes estadsticos habituales
(Minitab, SPSS, Statgraphics, etc) proporcionan directamente los componentes principales,
pero vamos a indicar con detalle como se realizan los clculos para el lector interesado.
142 CAPTULO 5. COMPONENTES PRINCIPALES
La matriz de varianzas y covarianzas de estos datos en logaritmos, que ya utilizamos en
el ejemplo 3.5, es,
S =
_
_
0.35 0.15 0.19
0.15 0.13 0.03
0.19 0.03 0.16
_
_
Para el clculo de los autovalores tenemos que calcular las races de la ecuacin:
0 = |S I| =
=

_
_
0.35 0.15 0.19
0.15 0.13 0.03
0.19 0.03 0.16
_
_

_
_
0 0
0 0
0 0
_
_

=
= 0, 000382 0, 0628 + 0, 64
2

3
Las races del polinomio, obtenidas con MATLAB son
1
= 0.521,
2
= 0.113,
3
=
6.5110
3
. El autovector asociado a
1
nos da los pesos de la primera componente principal.
Para calcular el primer autovector resolvemos el sistema
Sa
1
=
1
a
1
que conduce a:
_
_
0.35 0.15 0.19
0.15 0.13 0.03
0.19 0.03 0.16
_
_
_
_
a
11
a
12
a
13
_
_
= 0.521
_
_
a
11
a
12
a
13
_
_
_
_
0.171a
11
+ 0.15a
12
0.19a
13
0.15a
11
0.391a
12
0.03a
13
0.19a
11
0.03a
12
0.361a
13
_
_
=
_
_
0
0
0
_
_
el sistema es compatible indeterminado. Para encontrar una de las innitas soluciones
tomemos la primera variable como parmetro, x, y resolvamos el sistema en funcin de
x. La solucin es,
{a
11
= x, a
12
= 0.427x, a
13
= 0.562x}
El valor de x se obtiene ahora imponiendo que el vector tenga norma unidad, con lo que
resulta:
a
1
=
_
_
0.817
0.349
0.459
_
_
y el primer componente es
Z
1
= 0.817X
1
0.349X
2
+ 0.459X
3
5.3. CALCULO DE LOS COMPONENTES 143
donde X
1
, X
2
y X
3
son las variables en logaritmos. Por ejemplo, el valor de esta nueva
variable, la primera componente principal, para la primera observacin (la primera accin)
es
z
1
= 0.817 log(3.4) 0.349 log(89.7) + 0.459 log(30.2) = 1.0049
El primer componente principal puede aproximadamente escribirse
Z
1

= 0.82X
1
+ 0.35(X
3
X
2
) + 0.11X
3
y utilizando la denicin de las variables originales este componente puede escribirse
Z
1

= 0.82 log(d/p) + 0.35 log(p/d) + 0.11 log(pN/b)
es decir,
Z
1

= 1.17 log(d/p) + 0.11 log(pN/b)
que indica que este primer componente depende basicamente de la variable X
1
, la rentabilidad
por dividendos. Llamando z
1
= log Z
1
este primer componente puede escribirse tambin como
z
1
=
p
1.27
d
1.16
(
N
B
)
.09
que es, aproximadamente, de nuevo la variable x
1
, el cociente entre el precio de la accin
y los dividendos recibidos. Esta variable es la que explica mejor la variabilidad conjunta de
las acciones.
Ejemplo 5.2 La encuesta de presupuestos familiares en Espaa (Tabla A.3 ) presenta
los gastos medios de las familias espaolas en nueve epgrafes: X
1
= alimentacin, X
2
=
vestido y calzado, X
3
= vivienda, X
4
= mobiliario domstico, X
5
= gastos sanitarios, X
6
=
transportes, X
7
= enseanza y cultura, X
8
= turismo y ocio, X
9
= otros gastos, para las
51 provincias espaolas (Ceuta y Melilla aparecen unidas como una provincia). La matriz
de covarianzas resume la variabilidad de estas 9 variables en los 51 elementos observados.
Como las distribuciones de los gastos son muy asimtricas, las variables se han expresado
en logaritmos. El vector propio asociado al mayor valor propio, 0,348, dene la siguiente
variable:
z
1
= 0, 12x
1
+ 0, 18x
2
+ 0, 30x
3
+ 0, 31x
4
+ 0, 46x
5
+ 0, 34x
6
+0, 50x
7
+ 0, 31x
8
+ 0, 31x
9
Se observa que z
1
es una suma ponderada de todos los gastos con mayor peso en los gastos
en enseanza y cultura (x
7
) y gastos sanitarios (x
5
). El menor peso lo tiene el gasto en
alimentacin (x
1
).
Si calculamos las coordenadas z
1
para las provincias espaolas y las ordenamos por esta
nueva variable las provincias quedan prcticamente ordenadas por su renta. La primera
componente principal tiene pues en este caso una explicacin inmediata: redescubre la renta
de cada provincia.
144 CAPTULO 5. COMPONENTES PRINCIPALES
5.3.2 Clculo del segundo componente
Vamos a obtener el mejor plano de proyeccin de las variables X. Lo calcularemos estable-
ciendo como funcin objetivo que la suma de las varianzas de z
1
= Xa
1
y z
2
= Xa
2
sea
mxima, donde a
1
y a
2
son los vectores que denen el plano. La funcin objetivo ser:
= a
0
1
Sa
1
+a
0
2
Sa
2

1
(a
0
1
a
1
1)
2
(a
0
2
a
2
1) (5.7)
que incorpora las restricciones de que las direcciones deben de tener mdulo unitario (a
0
i
a
i
) =
1, i = 1, 2. Derivando e igualando a cero:

a
1
= 2Sa
1
2
1
a
1
= 0

a
2
= 2Sa
2
2
2
a
2
= 0
La solucin de este sistema es:
Sa
1
=
1
a
1
, (5.8)
Sa
2
=
2
a
2
(5.9)
que indica que a
1
y a
2
deben ser vectores propios de S. Tomando los vectores propios de
norma uno y sustituyendo en (5.7), se obtiene que, en el mximo, la funcin objetivo es
=
1
+
2
(5.10)
es claro que
1
y
2
deben ser los dos autovalores mayores de la matriz S y a
1
y a
2
sus
correspondientes autovectores. Observemos que la covarianza entre z
1
y z
2
, dada por a
0
1
S
a
2
es cero ya que a
0
1
a
2
= 0, y las variables z
1
y z
2
estarn incorreladas. Puede demostrarse
(vase el ejercicio 5.7) que si en lugar de maximizar la suma de varianzas, que es la traza de la
matriz de covarianzas de la proyeccin, se maximiza la varianza generalizada (el determinante
de la matriz de covarianzas) se obtiene el mismo resultado.
Ejemplo 5.3 El segundo componente principal para las variables de gastos de la EPF denidas
en el ejemplo 5.1 es el asociado al segundo valor propio mayor que es 0,032. El vector propio
asociado a este valor propio dene la nueva variable:
z
2
= 0, 05x
1
+ 0, 16x
2
0, 17x
3
+ 0, 07x
4
0, 21x
5
+ 0, 29x
6

0, 40x
7
0, 17x
8
+ 0, 78x
9
=
(0, 05x
1
+ 0, 16x
2
+ 0, 07x
4
+ 0, 29x
6
+ 0, 78x
9
)
(0, 17x
3
+ 0, 21x
5
+ 0, 40x
7
+ 0, 17x
8
)
Esta variable puede verse como la diferencia entre dos medias ponderadas de los gastos. La
primera da sobre todo peso a otros gastos (x
9
), y transporte (x
6
). En la variable otros gastos
5.3. CALCULO DE LOS COMPONENTES 145
estn incluidas las transferencias fuera de la provincia a miembros de la familia mayores de
14 aos que no residan en ella, podemos conjeturar esta variable separa las provincias que
reciben transferencias de las que las envian. Es tambin signicativo que estas provincias
tienen altos gastos en transporte. La primera media ponderada puede considerarse un indi-
cador de como esta provincia enva recursos a otras. La segunda media da mayor peso a las
variables enseanza y cultura (x
7
) y gastos sanitarios (x
5
).
Este segundo componente va a separar a provincias que envian recursos a otras (alto
valor de x
9
) y que tienen tambin altos gastos de transporte, respecto a las que transeren
relativamente poco y tienen altos gastos de educacin y sanidad. Las provincias con valores
ms altos de este componente son Zamora, Len, Lugo, Toledo, Huesca, Lrida, Segovia,
Soria y Palencia. Estas provincias no han tenido tradicionalmente universidad, por lo que
tienen que enviar los estudiantes fuera y tienen bajos costes de educacin. Por el contrario,
las provincias con valores bajos de este componente z
2
incluyen a Madrid y Barcelona, cen-
tros receptores netos de estudiantes de otras provincias, as como a Salamanca, Zaragoza y
Tenerife. La Tabla 5.1 presenta la ordenacin de las provincias segn el primer y segundo
componente. La gura ?? representa cada provincia en el plano de las dos primeras compo-
nentes principales. Cada punto aparece representado por sus coordenadas respecto a los ejes
denidos por las componentes principales y puede interpretarse como la proyeccin de los
puntos, que estn en un espacio de dimensin 9, tantos como variables, sobre el plano que
mejor mantiene sus distancias relativas, que es el denido por las dos primeras componentes.
Proyeccin de los datos de la EPF sobre el plano denido por las dos primeras componentes
principales
5.3.3 Generalizacin
Puede demostrarse anlogamente que el espacio de dimensin r que mejor representa a los
puntos viene denido por los vectores propios asociados a los r mayores autovalores de S.
Estas direcciones se denominan direcciones principales de los datos y a las nuevas variables
por ellas denidas componentes principales. En general, la matriz X ( y por tanto la S) tiene
146 CAPTULO 5. COMPONENTES PRINCIPALES
Comp. 1 Comp. 2
Navarra Zamora
Madrid Len
Barcelona Lugo
Lrida Toledo
Vizcaya Huesca
Gerona Murcia
Baleares Navarra
Tarragona Lrida
Guipuzcoa Segovia
Las Palmas Soria
.
.
.
.
.
.
Ciudad Real Mlaga
Cuenca Salamanca
vila Cdiz
Teruel Madrid
Castelln Badajoz
Orense Jan
Zamora Ceuta y Melilla
Badajoz Zaragoza
Ceuta y Melilla Huelva
Salamanca Tenerife
Jan Barcelona
Tabla 5.1: Ordenacin de las provincias de la EPF, segn los dos primeros componentes
rango p, existiendo entonces tantas componentes principales como variables que se obtendrn
calculando los valores propios o races caractersticas,
1
, . . . ,
p
, de la matriz de varianzas
y covarianzas de las variables, S, mediante:
|S I| = 0 (5.11)
y sus vectores asociados son:
(S
i
I)a
i
= 0. (5.12)
Los trminos
i
son reales, al ser la matriz S simtrica, y positivos, ya que S es denida
positiva. Por ser S simtrica si
j
y
h
son dos races distintas sus vectores asociados son
ortogonales. En efecto:
a
0
h
Sa
j
= (a
0
h
Sa
j
)
0
= a
0
j
Sa
h
a
0
h
Sa
j
= a
0
j

h
a
h
y si
j
6=
h
, a
0
h
a
j
= a
0
j
a
h
= 0 y son ortogonales.
Si S fuese semidenida positiva de rango p < p, lo que ocurrira si p p variables fuesen
combinacin lineal de las dems, habra solamente p races caractersticas positivas y el resto
seran ceros.
5.3. CALCULO DE LOS COMPONENTES 147
Llamando Z a la matriz cuyas columnas son los valores de los p componentes en los n
individuos, estas nuevas variables estn relacionadas con las originales mediante:
Z = XA
donde A
0
A = I. Calcular los componentes principales equivale a aplicar una transformacin
ortogonal A a las variables X (ejes originales) para obtener unas nuevas variables Z incorre-
ladas entre s. Esta operacin puede interpretarse como elegir unos nuevos ejes coordenados,
que coincidan con los ejes naturales de los datos.
Ejemplo 5.4 Los restantes valores propios de la matriz de covarianzas de los datos de la
EPF son 0.027, 0.0175, 0.0126, 0.0107, 0.010, 0.0059, y 0.00526. A partir del tercero son
muy pequeos y de valor similar. El tercer componente principal es
z
3
= 0, 12x
1
+ 0, 05x
2
+ 0, 34x
3
+ 0, 11x
4
0, 85x
5
+ 0, 04x
6

0, 30x
7
+ 0, 20x
8
+ 0, 003x
9
=
(0, 12x
1
+ 0, 05x
2
+ 0, 34x
3
+ 0, 11x
4
+ 0, 04x
6
+ 0, 20x
8
)
(0, 85x
5
+ 0, 30x
7
)
y puede de nuevo interpretarse como la diferencia entre dos medias ponderadas. La
primera da sobre todo peso a las variables 3, vivienda, 8, turismo y ocio, 1, alimentacin y 4
, mobiliario domstico. La segunda a la 5, gastos sanitarios, y a la 7, enseanza y cultura.
Separ provincias con bajos costes en sanidad y altos en vivienda y ocio de las que tengan la
estructura opuesta. La gura ?? representa las observaciones proyectadas sobre el plano de
las componentes primera y tercera. Se observa que la tercera dimensin es independiente de
la primera (riqueza o renta) y separa provincias con altos gastos en sanidad, como Salamanca
y Palencia, de otras de aquellas con gastos relativamente bajos en esta magnitud y ms en
vivienda y ocio.
Representacin de los datos de la EPF em el plano denido por loso componentes primero
y tercero.
148 CAPTULO 5. COMPONENTES PRINCIPALES
Ejemplo 5.5 La tabla 5.2 presenta la matriz de varianzas y covarianzas entre nueve indi-
cadores econmicos medidos en distintas empresas.
x
1
x
2
x
3
x
4
x
5
x
6
x
7
x
8
x
9
177 179 95 96 53 32 -7 -4 -3
419 245 131 181 127 -2 1 4
302 60 109 142 4 .4 11
158 102 42 4 3 2
137 96 4 5 6
128 2 2 8
34 31 33
39 39
48
Tabla 5.2: Matriz de varianzas covarianzas de los nueve indicadores
Las races caractersticas de esta matriz se presentan en la tabla 5.3.
Componente 1 2 3 4 5 6 7 8 9

i
878,5 196,1 128,6 103,4 81,2 37,8 7,0 5,7 3,5
Tabla 5.3: Autovalores de la matriz tabla 5.2
La suma de los valores propios de la matriz es 1441, 8, prcticamente igual, salvo por
errores de redondeo, a la suma de las varianzas de las variables, que es 1442. Ya veremos
que esta concordancia ocurre siempre. Los vectores propios de los tres primeros componentes
se indican en la tabla 5.4. Se observa que el primer componente principal es una media
ponderada de las primeras seis variables. El segundo contrapone la primera, la segunda y la
cuarta a la tercera y la sexta. El tercer componente contrapone las tres primeras al resto de
las variables.
Estos resultados son consistentes con la matriz de la tabla 5.2. El rasgo ms caracterstico
de esta tabla es la distinta magnitud de las seis primeras variables respecto al resto. Esto
lo recoge el primer componente principal. El segundo rasgo es la presencia de covarianzas
negativas en las las de las dos primeras variables y esto se recoge en el segundo componente.
El tercero incorpora por un lado las tres ltimas variables y, por otro, contrapone las tres
primeras variables frente al resto.
Componente x
1
x
2
x
3
x
4
x
5
x
6
x
7
x
8
x
9
1 0.30 0.66 0.48 0.26 0.32 0.27 0.00 0.00 0.01
2 -0.48 -0.15 0.58 -0.49 -0.04 0.37 0.06 0.04 0.08
3 -0.41 -0.18 -0.23 0.45 0.49 0.27 0.26 0.28 0.29
Tabla 5.4: Vectores propios de la matriz tabla 5.2
5.4. PROPIEDADES DE LOS COMPONENTES 149
5.4 PROPIEDADES DE LOS COMPONENTES
Los componentes principales como nuevas variables tienen las propiedades siguientes:
1. Conservan la variabilidad inicial: la suma de las varianzas de los componentes es igual
a la suma de las varianzas de las variables originales, y la varianza generalizada de los
componentes es igual a la original.
Comprobemos el primer punto. Como V ar (z
h
) =
h
y la suma de las races carac-
tersticas es la traza de la matriz:
tr(S) = V ar (x
1
) +. . . +V ar (x
p
) =
1
+. . . +
p
por tanto
P
p
i=1
V ar(x
i
) =
P

i
=
P
p
i=1
V ar(z
i
). Las nuevas variables z
i
tienen con-
juntamente la misma variabilidad que las variables originales, la suma de varianzas es
la misma, pero su distribucin es muy distinta en los dos conjuntos.
Para comprobar que los componentes principales tambin conservan la Varianza gen-
eralizada, valor del determinante de varianzas y covarianzas de las variables, como el
determinante es el producto de las races caractersticas, tenemos que, llamando S
z
a
la matriz de covarianzas de los componentes, que es diagonal con trminos
i
:
|S
x
| =
1
. . .
p
=
p
i=1
V ar(z
i
) = |S
z
| .
2. La proporcin de variabilidad explicada por un componente es el cociente entre su
varianza, el valor propio asociado al vector propio que lo dene, y la suma de los
valores propios de la matriz.
En efecto, como la varianza del componente h es
h
, el valor propio que dene el
componente, y la suma de todas las varianzas de las variables originales es
P
p
i=1

i
, igual
como acabamos de ver a la suma de las varianzas de los componentes, la proporcin
de variabilidad total explicada por el componente h es
h
/
P

i
.
3. Las covarianzas entre cada componente principal y las variables X vienen dadas por
el producto de las coordenadas del vector propio que dene el componente por el valor
propio:
Cov(z
i
; x
1
, . . . x
p
) =
i
a
i
= (
i
a
i1
, . . . ,
i
a
ip
)
donde a
i
es el vector de coecientes de la componente z
i
.
Para justicar este resultado, vamos a calcular la matriz p p de covarianzas entre los
componentes y las variables originales. Esta matriz es:
Cov(z, x) = 1/nZ
0
X
y su primera la proporciona las covarianzas entre la primera componente y las p
variables originales. Como Z = XA, sustituyendo
Cov(z, x) = 1/nA
0
X
0
X = A
0
S = DA
0
,
150 CAPTULO 5. COMPONENTES PRINCIPALES
donde A contiene en columnas los vectores propios de S y D es la matriz diagonal
de los valores propios. En consecuencia, la covarianza entre, por ejemplo, el primer
componente principal y las p variables vendr dada por la primera la de A
0
S, es decir
a
0
1
S o tambin
1
a
0
1
, donde a
0
1
es el vector de coecientes de la primera componente
principal.
4. Las correlacin entre un componente principal y una variable X es proporcional al
coeciente de esa variable en la denicin del componente, y el coeciente de propor-
cionalidad es el cociente entre la desviacin tpica del componente y la desviacin tpica
de la variable.
Para comprobarlo:
Corr(z
i
; x
j
) =
Cov(z
i
x
j
)
p
V ar(z
i
)V ar(x
j
)
=

i
a
ij
q

i
s
2
j
= a
ij

i
s
j
5. Las r componentes principales (r < p) proporcionan la prediccin lineal ptima con r
variables del conjunto de variables X.
Esta armacin puede expresarse de dos formas. La primera demostrando que la mejor
prediccin lineal con r variables de las variables originales se obtiene utilizando las r
primeras componentes principales. La segunda demostrando que la mejor aproximacin
de la matriz de datos que puede construirse con una matriz de rango r se obtiene
construyendo esta matriz con los valores de los r primeros componentes principales.
La demostracin de estas propiedades puede verse en el apndice 5.1.
6. Si estandarizamos los componentes principales, dividiendo cada uno por su desviacin
tpica, se obtiene la estandarizacin multivariante de los datos originales.
Estandarizando los componentes Z por sus desviacines tpicas, se obtienen las nuevas
variables
Y
c
= ZD
1/2
= XAD
1/2
donde D
1/2
es la matriz que contienen las inversas de las desviacines tpicas de las com-
ponentes. Hemos visto en el captulo anterior que la estandarizacin multivariante de una
matriz de variables X de media cero viene dada por se dene como:
Y
s
= XAD
1/2
A
0
y ambas variables estn incorreladas y tienen matriz de covarianzas identidad. Se diferencian
en que unas pueden ser una rotacin de las otras, lo que es indiferente al tener todas las
mismas varianzas. Por tanto,la estandarizacin multivariante puede interpretarse como :
(1) obtener los componentes principales;
(2) estandarizarlos para que tengan todos la misma varianza.
Esta relacin se presenta grcamente en la gura 5.2. La transformacin mediante
componentes principales conduce a variables incorreladas pero con distinta varianza, puede
5.5. ANLISIS NORMADO O CON CORRELACIONES 151
interpretarse como rotar los ejes de la elipse que denen los puntos para que coincidan
con sus ejes naturales. La estandarizacin multivariane produce variables incorreladas con
varianza unidad, lo que supone buscar los ejes naturales y luego estandarizarlos. En conse-
cuencia, si estandarizamos los componentes se obtiene las variables estandarizadas de forma
multivariante.
Z=XA
X
Z
(0,0)
Y=ZD
-1/2
Y=XS
-1/2
Y
(0,0)
(0,0)
Figura 5.2: Representacin grca de la relacin entre componentes principales y es-
tandarizacin multivariante.
5.5 ANLISIS NORMADOOCONCORRELACIONES
Los componentes principales se obtienen maximizando la varianza de la proyeccin. En
trminos de las variables originales esto supone maximizar:
M =
p
X
i=1
a
2
i
s
2
i
+ 2
p
X
i=1
p
X
j=i+1
a
i
a
j
s
ij
(5.13)
con la restriccin a
0
a = 1. Si alguna de las variables, por ejemplo la primera, tiene una vari-
anza s
2
1
, mayor que las dems, la manera de aumentar M es hacer tan grande como podamos
la coordenada a
1
asociada a esta variable. En el lmite si una variable tiene una varianza mu-
cho mayor que las dems el primer componente principal coincidir muy aproximadamente
con esta variable.
Cuando las variables tienen unidades distintas esta propiedad no es conveniente: si dis-
minuimos la escala de medida de una variable cualquiera, de manera que aumenten en
152 CAPTULO 5. COMPONENTES PRINCIPALES
magnitud sus valores numricos (pasamos por ejemplo de medir en km. a medir en metros),
el peso de esa variable en el anlisis aumentar, ya que en (5.13):
(1) su varianza ser mayor y aumentar su coeciente en el componente, a
2
i
, ya que con-
tribuye ms a aumentar M;
(2) sus covarianzas con todas las variables aumentarn, con el consiguiente efecto de in-
crementar a
i
.
En resumen, cuando las escalas de medida de las variables son muy distintas, la maxi-
mizacin de (5.13) depender decisivamente de estas escalas de medida y las variables con
valores ms grandes tendrn ms peso en el anlisis. Si queremos evitar este problema,
conviene estandarizar las variables antes de calcular los componentes, de manera que las
magnitudes de los valores numricos de las variables X sean similares.
La estandarizacin resuelve otro posible problema. Si las variabilidades de las X son
muy distintas, las variables con mayor varianza van a inuir ms en la determinacin de la
primera componente. Este problema se evita al estandarizar las variables, ya que entonces
las varianzas son la unidad, y las covarianzas son los coecientes de correlacin. La ecuacin
a maximizar se transforma en:
M
0
= 1 + 2
p
X
i=1
p
X
j=i+1
a
i
a
j
r
ij
(5.14)
siendo r
ij
el coeciente de correlacin lineal entre las variables ij. En consecuencia la solucin
depende de la correlaciones y no de las varianzas.
Los componentes principales normados se obtiene calculando los vectores y valores propios
de la matriz R, de coecientes de correlacin. Llamando
R
p
a las races caractersticas de
esa matriz, que suponemos no singular, se verica que:
p
X
i=1

R
i
= traza(R) = p (5.15)
Las propiedades de los componentes extrados de R son:
1. La proporcin de variacin explicada por
R
p
ser:

R
p
p
(5.16)
2. Las correlaciones entre cada componente z
j
y las variables X originales vienen dados
directamente por a
0
j
p

j
siendo z
j
= Xa
j
.
Estas propiedades son consecuencia inmediata de los resultados de la seccin 5.4.
Cuando las variables X originales estn en distintas unidades conviene aplicar el anlisis
de la matriz de correlaciones o anlisis normado. Cuando las variables tienen las mismas
5.5. ANLISIS NORMADO O CON CORRELACIONES 153
unidades, ambas alternativas son posibles. Si las diferencias entre las varianzas de las vari-
ables son informativas y queremos tenerlas en cuenta en el anlisis no debemos estandarizar
las variables: por ejemplo, supongamos dos ndices con la misma base pero uno uctua mu-
cho y el otro es casi constante. Este hecho es informativo, y para tenerlo en cuenta en el
anlisis, no se deben estandarizar las variables, de manera que el ndice de mayor variabilidad
tenga ms peso. Por el contrario, si las diferencias de variabilidad no son relevantes podemos
eliminarlas con el anlisis normado. En caso de duda, conviene realizar ambos anlisis, y
seleccionar aquel que conduzca a conclusiones ms informativas.
Ejemplo 5.6 La matriz de correlacin de los nueve indicadores econmicos del ejemplo5.4
es
R =
_

_
1 .66 .41 .57 .34 .21 .09 .05 .03
1 .69 .51 .76 .55 .01 .01 .03
1 .28 .54 .72 .04 .00 .09
1 .69 .30 .05 .03 .02
1 .73 .06 .07 .07
1 .03 .03 .10
1 .85 .82
1 .90
1
_

_
Los valores propios son:

i
3.70 2.72 1.06 .70 .30 .23 .16 .09 .03
y los vectores propios asociados a los tres primeros valores propios son:
x
1
x
2
x
3
x
4
x
5
x
6
x
7
x
8
x
9
3.7 .34 .46 .41 .36 .46 .40 .06 .06 .08
2.72 -.11 -.07 -.03 -.04 -.02 -.01 .56 .58 .57
1.06 -.54 -.05 .38 -.52 .07 .53 -.04 -.07 .00
Tabla 5.5: Vectores propios de la matriz de correlaciones
Si comparamos estos resultados con los del ejemplo 5.4 vemos que el primer vector propio
cambia apreciablemente. Con la matriz de varianzas las variables con ms peso en el compo-
nente eran las que tenan una mayor varianza: la 2, luego la 3 y nalmente las 1,4,5 y 6 con
un peso parecido. Estos pesos siguen estrechamente la relacin relativa entre las varianzas
de las variables. Sin embargo, al utilizar la matriz de correlaciones este efecto desaparece,
y el peso de las variables est ms relacionado con las correlaciones. La proporcin de vari-
abilidad explicada por el primer componente cambia mucho: de 878, 5/1441, 8 = 60, 9% a
3.7/9 = 41%
El segundo componente cambia completamente: ahora est prcticamente asociado a las
tres ltimas variables. La proporcin de variabilidad que explica ha aumentado considerable-
mente, del 196/1441, 8 = 13, 6% a 2.72/9 = 30% . El tercer vector propio es tambin distinto
en ambas matrices.
154 CAPTULO 5. COMPONENTES PRINCIPALES
Ejemplo 5.7 Consideremos los datos de INVEST publicaciones cientcas en los pases de
la OCDE. Los datos tienen magnitudes muy distintas (unos bancos de datos tienen muchos
ms trabajos que otros). Si deseamos conservar esta propiedad, que esta asociada a que en
algunos campos cientcos se publica mucho ms que en otros, haremos el anlisis sobre
la matriz de covarianzas. Si no queremos dar ms peso a unos campos que a otros, es
conveniente realizar el anlisis normado o sobre la matriz de correlacin. Los resultados en
este ltimo caso se indican en la tabla 5.6
Comp.
h
P
h
P
h
i=1
P
h
1 7.630 0.954 0.954
2 0.207 0.026 0.980
3 0.121 0.015 0.995
4 0.019 0.002 0.997
5 0.017 0.002 0.999
6 0.004 0.001 1.000
7 0.001 0.000 1.000
8 0.000 0.000 1.000
Tabla 5.6: Variabilidad explicada por los componentes principales
Se observa que el primer componente principal explica una proporcin muy alta de la vari-
abilidad, el 95,4%. Con los tres primeros componentes se explica el 99,5% de la variabilidad.
Adems, despus del tercer vector propio la variabilidad explicada disminuye claramente,
(vase la tabla 5.6 y la gura 5.3 )lo que indica que slo debemos preocuparnos de los tres
primeros componentes ya que los siguientes tienen poca capacidad explicativa. En la tabla
5.7 se indican los valores de los componentes para estos tres vectores propios.
Comp. 1 Comp. 2 Comp. 3
INTER.A 0.358 -0.173 0.36
INTER.F 0.360 -0.098 0.08
AGRIC. 0.355 -0.366 -0.10
BIOLO. 0.346 -0.359 -0.69
MEDIC. 0.361 -0.070 0.15
QUIMI. 0.334 0.786 -0.41
INGEN. 0.354 0.268 0.40
FISICA 0.361 0.054 0.17
Tabla 5.7: Vectores propios de los tres primeros componentes
Ejemplo 5.8 Para interpretar los componentes consideramos sus coordenadas en las vari-
ables. Estas se indican en la tabla 5.7 y en la gura 5.4. Se observa que el primer componente
es un factor de tamao, ya que es una media ponderada de todas las variables con mayor
peso de los bancos interdisciplinarios y del banco mdico. El segundo componente es un fac-
tor de forma y contrapone la investigacin en Qumica e Ingeniera frente a la realizada en
5.6. INTERPRETACIN DE LOS COMPONENTES 155
Figura 5.3: Grco para la seleccin del nmero de componentes.
Agricultura y Biologa. El tercero contrapone ingeniera, fsica y el banco interA con respecto
a Biologa y Qumica.
5.6 INTERPRETACIN DE LOS COMPONENTES
Componentes de tamao y forma
Cuando existe una alta correlacin positiva entre todas las variables, el primer componente
principal tiene todas sus coordenadas del mismo signo y puede interpretarse como un prome-
dio ponderado de todas las variables (vase el ejercicio 5.2). Se interpreta entonces como
un factor global de tamao. Los restantes componentes se interpretan como factores de
forma y tpicamente tienen coordenadas positivas y negativas, que implica que contraponen
unos grupos de variables frente a otros. Estos factores de forma pueden frecuentemente es-
cribirse como medias ponderadas de dos grupos de variables con distinto signo y contraponen
las variables de un signo a las del otro. Por ejemplo el segundo componente principal de
los datos de la EPF del ejercicio 5.3 puede escribirse aproximadamente, despreciando los
coeciente pequeos (menores que 0,1):
z
2
= (0, 05x
1
+ 0, 16x
2
+ 0, 07x
4
+ 0, 29x
6
+ 0, 78x
9
)
(0, 17x
3
+ 0, 21x
5
+ 0, 40x
7
+ 0, 17x
8
) ' I
0
I
S
156 CAPTULO 5. COMPONENTES PRINCIPALES
Figura 5.4: Representacin de los pesos de las dos componentes.
donde
I
0
= 0, 16x
2
+ 0, 29x
6
+ 0, 78x
9
es un indicador de los gastos de transporte y transferencias a otras provincias y
I
S
= 0, 17x
3
+ 0, 21x
5
+ 0, 40x
7
+ 0, 17x
8
es un indicador de gastos en servicios (educacin y sanidad). Adems, cuando las vari-
ables van en logaritmos, los componentes suelen poder escribirse como ratios de promedios
geomtricos de las variables. Por ejemplo, supongamos que un componente tiene la expresin
z
1
= 0.5 log x
1
+ 0.3 log x
2
+ 0.2 log x
3
este componente puede escribirse tambin como
z
1
= 0.3 log
x
2
x
1
+ 0.2 log
x
3
x
1
que indica que es un promedio de estos dos ratios (vase el ejemplo 5.1).
La interpretacin de los componentes se simplica suponiendo que los coecientes pequeos
son cero y redondeando los coecientes grandes para expresar el componente como cocientes,
diferencias o sumas entre variables. Estas aproximaciones son razonables si modican poco
la estructura del componente y mejoran su interpretacin. Una medida del cambio introduci-
do al modicar un vector propio de a
i
a a
iM
es el cambio en la proporcin de variabilidad
explicada por el componente. Si el valor propio asociado a a
i
es
i
, el componente explica el
5.6. INTERPRETACIN DE LOS COMPONENTES 157

i
/
P

j
de la variabilidad. Si ahora modicamos el vector a a
iM
, la varianza de la proyec-
cin de los datos sobre este componente es
iM
= a
0
iM
Sa
iM
= (
e
Xa
iM
)
0
(
e
Xa
iM
)/n, la varianza
del componente, y la proporcin de variabilidad explicada ser
iM
/
P

j
. El cambio relativo
ser (
i

iM
)/
i
, ya que siempre
i

iM
, y si este cambio es pequeo, esta justicada la
modicacin si favorece la interpretacin.
Ejemplo 5.9 Vamos a calcular el cambio relativo que experimenta el segundo componente
principal de los datos de la EPF si despreciamos los coecientes ms pequeos, la varianza del
segundo componente modicado es 0,0319. La varianza del componente original es 0,0320,
por lo que el cambio de explicacin por tomar el coeciente simplicado es slo de (0,0320-
0,0319)/0,0320=1/320=0,0031.
Ejemplo 5.10 Supongamos 6 observaciones x
1
, . . . , x
6
en dos dimensiones, cada obser-
vacin corresponde a un rectngulo y las variables son longitud de la base y altura del rec-
tngulo. Grcamente las observaciones son,
1
2 3
4
5 6
que corresponden a la matriz de datos,
X =
_

_
2 2
1.5 0.5
0.7 0.5
0.5 1.5
0.5 0.7
0.7 0.7
_

_
aplicamos logaritmos a estos datos para facilitar la interpretacin de las componentes,
log(X) =
_

_
0.301 0.301
0.176 0.301
0.155 0.301
0.301 0.176
0.301 0.155
0.155 0.155
_

_
cuya matriz de varianzas covarianzas es,
S =

6.39 1.41
1.41 6.39

.10
2
Los autovalores y autovectores de la descomposicin espectral de esta matriz son,

1
= 0.78
2
= 0, 0498
a
1
=

0.707
0.707

a
2
=

0.707
0.707

158 CAPTULO 5. COMPONENTES PRINCIPALES


las dos primeras componentes son
Z
1
= Xa
1
= 0.707 log(X
1
) + 0.707 log(X
2
) = 0.707 log(X
1
X
2
) =
_

_
0.426
0.088
0.322
0.088
0.322
0.219
_

_
Z
2
= Xa
2
= 0.707 log(X
1
) 0.707 log(X
2
) = 0.707 log(
X
1
X
2
) =
_

_
0
0.337
0.103
0.337
0.103
0
_

_
Si ordenamos los rectngulos segn el valor de la primera y segunda componente obten-
emos,
1
1
2
2
3
3
4
4
5
5
6
6
La primera ordenacin coincide con la inducida por el volumen de los rectngulos, es
una transformacin creciente del producto de la base por la altura, y el primer componente
describe el tamao. El segundo componente relaciona la base con la altura y ordena las
observaciones en funcin de su forma.
5.6.1 Seleccin del nmero de componentes
Se han sugerido distintas reglas para seleccionar el nmero de componentes a mantener:
(1) Realizar un grco de
i
frente a i. Comenzar seleccionando componentes hasta que los
restantes tengan aproximadamente el mismo valor de
i
. La idea es buscar un codo
en el grco, es decir, un punto a partir del cual los valores propios son aproximada-
mente iguales. El criterio es quedarse con un nmero de componentes que excluya los
asociados a valores pequeos y aproximadamente del mismo tamao.
(2) Seleccionar componentes hasta cubrir una proporcin determinada de varianza, como el
80% o el 90%. Esta regla es arbitraria y debe aplicarse con cierto cuidado. Por ejemplo,
5.6. INTERPRETACIN DE LOS COMPONENTES 159
es posible que un nico componente de tamao recoja el 90% de la variabilidad y
sin embargo pueden existir otros componentes que sean muy adecuados para explicar
la forma de las variables.
(3) Desechar aquellos componentes asociados a valores propios inferiores a una cota, que
suele jarse como la varianza media,
P

i
/p. En particular, cuando se trabaja con
la matriz de correlacin, el valor medio de los componentes es 1, y esta regla lleva a
seleccionar los valores propios mayores que la unidad. De nuevo esta regla es arbitraria:
una variable que sea independiente del resto suele llevarse un componente principal
(vase ejercicio 5.8) y puede tener un valor propio mayor que la unidad. Sin embargo,
si esta incorrelada con el resto puede ser una variable poco relevante para el anlisis,
y no aportar mucho a la comprensin del fenmeno global.
5.6.2 Representacin grca
La interpretacin de los componentes principales se favore representando las proyecciones de
las observaciones sobre un espacio de dimensin dos, denido por parejas de los componentes
principales ms importantes. Este punto se ha ilustrado en los ejemplos anteriores, donde se
ha indicado que la proyeccin de cualquier observacin sobre un componente es directamente
el valor del componente para esa observacin. La representacin habitual es tomar dos
ejes ortogonales que representen los dos componentes considerados, y situar cada punto
sobre ese plano por sus coordendas con relacin a estos ejes, que son los valores de los dos
componentes para esa observacin. Por ejemplo, en el plano de los dos primeros componentes,
las coordenadas del punto x
i
son z
1i
= a
0
1
x
i
y z
2i
= a
0
2
x
i
.
La interpretacin se favorece representando en el mismo plano adems de las observa-
ciones las variables originales. Esto puede hacerse utilizando como coordenadas su coeciente
de correlacin con cada uno de los ejes. El vector de correlaciones entre el primer compo-
nente y las variables originales viene dado por
1/2
1
a
0
1
D, donde D es una matriz diagonal
cuyos trminos son las inversas de las desviaciones tpicas de cada variable. La matriz de
correlaciones R
cv
entre los p componentes y las p variables tendr como las los trminos

1/2
j
a
0
j
D y puede escribirse
R
cv
=
1/2
AD
donde A es la matriz de vectores propios,
1/2
es la matriz diagonal con trminos

i
y En
el anlisis normado como las variables se estandarizan a varianza unidad las correlaciones
ser simplemente
1/2
A.
Una representacin equivalente es el biplot que presentamos en la seccin siguiente. Tiene
la ventaja de representar al mismo tiempo las variables y las observaciones en un mismo
grco.
Conviene investigar si transformando las variables se obtiene una interpretacin ms sim-
ple. Como regla general, cuando al tomar logaritmos las variables X tienen una distribucin
aproximadamente simtrica, conviene realizar el anlisis de componentes principales sobre
los logaritmos de las variables.
160 CAPTULO 5. COMPONENTES PRINCIPALES
Es importante recordar que las covarianzas (o correlaciones) miden nicamente las rela-
ciones lineales entre las variables. Cuando entre ellas existan relaciones fuertes no lineales el
anlisis de componentes principales puede dar una informacin muy parcial de las variables.
Ejemplo 5.11 La gura 5.5 presenta la proyeccin de los datos de INVEST, los pases de
la OCDE, sobre el plano formado por los dos primeros componentes principales extrados de
la matriz de correlacin, que se estudiaron en el ejemplo 5.6. Se observa que el primer eje
ordena a los pases por su cantidad de investigacin, mientras que el segundo tiene en cuenta
sus caractersticas: separa a Japn, con gran nfasis en investigacin tecnolgica, del Reino
Unido, que tiene ms nfasis en la investigacin biomdica
Figura 5.5: Proyeccin de las observaciones en las dos primeras componentes principales.
Como indicamos en el Captulo la observacin de EEUU es atpica y existe una marcada
asimetra en las distribuciones de las variables. Vamos a presentar los datos excluyendo
a EEUU y con una transformacin logartmica de las variables para reducir la asimetra.
La gura 5.6 muestra el nuevo diagrama de cajas mltiple.Como la varianza de las nuevas
variables transformadas es similar, el anlisis de componentes principales se realizar direc-
tamente sobre la matriz de varianzas covarianzas. Los resultados obtenidos guran en las
tablas 5.8 y5.9
Los tres primeros componentes explican el 97% de la variabilidad y tienen la siguiente
interpretacin. El primero es una media ponderada de todos los bancos con mayo peso del
5.6. INTERPRETACIN DE LOS COMPONENTES 161
4
6
8
1
0
1
2
INTER.A INTER.F AGRIC. BIOLO. MEDIC. QUIMI. INGEN. FISICA
Figura 5.6: Diagrama de cajas de los logaritmos de las variables de INVEST una vez elimi-
nado EEUU.

h
P
h
P
h
i=1
P
h
Comp. 1 14.98 0.90 0.90
Comp. 2 0.83 0.05 0.94
Comp. 3 0.50 0.03 0.97
Comp. 4 0.21 0.01 0.99
Comp. 5 0.10 0.01 0.99
Comp. 6 0.08 0.00 1.00
Comp. 7 0.02 0.00 1.00
Comp. 8 0.02 0.00 1.00
Tabla 5.8: Variabilidad explicada por los componentes principales
162 CAPTULO 5. COMPONENTES PRINCIPALES
banco qumico. El segundo, contrapone la investigacin en Qumica frente a la general del
banco INTER.F y a la de ingeniera y fsica. El tercero contrapone el banco INTER.F y
Qumica al resto.
Comp. 1 Comp. 2 Comp. 3
INTER.A 0,31 0,05 -0,40
INTER.F 0,37 0,63 0,63
AGRIC. 0,30 0,07 -0,14
BIOLO. 0,27 -0,06 -0,30
MEDIC. 0,32 0,01 -0,25
QUIMI. 0,56 -0,70 0,41
INGEN. 0,28 0,25 -0,18
FSICA 0,32 0,21 -0,26
Tabla 5.9: Pesos de las tres primeras componentes principales
Los pases proyectados en estos tres componentes se presentan en la gura 5.7. Se ha
aadido tambin la proyeccin sobre el cuarto componente, que separa completamente a UK
de Japn.
5.6.3 Datos atpicos
Antes de obtener los componentes principales conviene asegurarse de que no existen datos
atpicos, ya que, como hemos visto en el captulo anterior, los atpicos pueden distorsionar
totalmente la matriz de covarianzas.
Para ilustrar su efecto sobre los componentes, supongamos el caso ms simple en que un
error de medida en una variable introduce un valor atpico grande en la primera variable. Su
efecto ser aumentar mucho la varianza de esta variable y disminuir las covarianzas con las
restantes, con lo que, si hacemos el atpico muy grande, la matriz S ser, aproximadamente:


2
1
. . . 0
0
0 S
22

donde 0
0
=(0, 0, ..., 0). Esta matriz tiene un vector propio (1, 0, . . . , 0) unido al valor propio

2
1
y si
2
1
es muy grande este ser el primer componente principal. Por tanto, un valor
atpico sucientemente grande distorsiona todos los componentes que podemos obtener de
la matriz afectada (vase el ejemplo 5.9).
El resultado anterior sugiere que las componentes principales podran utilizarse para
detectar datos atpicos multivariantes, ya que un valor muy extremo se llevara un componente
principal y aparecer como extremo sobre esta componente. Desgraciadamente, aunque los
componentes pueden identicar atpicos aislados, no hay garanta de que funcionen cuando
existen grupos de atpicos, debido al problema de enmascaramiento. Por esta razn conviene
utilizar para detectarlos el mtodo presentado en el captulo anterior, basado en proyecciones
sobre las direcciones extremas de kurtosis, que al ser capaz de identicar todos los posibles
atpicos permite calcular una la matriz de covarianzas libre de distorsiones graves.
5.6. INTERPRETACIN DE LOS COMPONENTES 163
Comp. 1
C
o
m
p
.

2
-5 0 5
-
2
-
1
0
1
2
UK
JP
F
G
C
I
A
H
S
CH
E
B
D
AU
FI
N
Y
GR
IR
P
Comp. 1
C
o
m
p
.

3
-5 0 5
-
2
.
0
-
1
.
0
0
.
0
1
.
0
UK
JP
F
G
C
I
A
H
S
CH
E
B
D
AU
FI
N
Y
GR
IR
P
Comp. 1
C
o
m
p
.

4
-5 0 5
-
1
.
0
-
0
.
5
0
.
0
0
.
5
UK
JP
F
G
C
I
A
H
S
CH
E
B
D
AU
FI
N
Y
GR
IR
P
Comp. 2
C
o
m
p
.

3
-2 -1 0 1 2
-
2
.
0
-
1
.
0
0
.
0
1
.
0
UK
JP
F
G
C
I
A
H
S
CH
E
B
D
AU
FI
N
Y
GR
IR
P
Comp. 2
C
o
m
p
.

4
-2 -1 0 1 2
-
1
.
0
-
0
.
5
0
.
0
0
.
5
UK
JP
F
G
C
I
A
H
S
CH
E
B
D
AU
FI
N
Y
GR
IR
P
Comp. 3
C
o
m
p
.

4
-2.0 -1.0 0.0 0.5 1.0
-
1
.
0
-
0
.
5
0
.
0
0
.
5
UK
JP
F
G
C
I
A
H
S
CH
E
B
D
AU
FI
N
Y
GR
IR
P
Figura 5.7: Representacin de las observaciones de INVEST en losplanos denidos por las
cuatro primeras componentes.
5.6.4 Distribucin de los componentes
Los componentes principales pueden verse como un conjunto nuevo de variables y estudiar
su distribucin individual y conjunta. Por construccin estarn incorrelados, pero pueden
exitir fuertes relaciones no lineales entre ellos.
Ejemplo 5.12 Vamos a calcular los componentes principales de la matriz de correlacin
de las 27 medidas fsicas, MEDIFIS. Aunque todas las variables van en centmetros, los
tamaos de las variables son muy distintos, lo que aconseja utilizar la matriz de correlacin.
La proporcin de varianza que explica cada vector propio se indica en la tabla 5.10
Para decidir cuntos componentes tomar utilizaremos la gura 5.8 que indica que a partir
del tercer componente hay una cada en la capacidad predictiva. Los tres primeros compo-
nentes explican conjuntamente el 93.5% de la variabilidad.
164 CAPTULO 5. COMPONENTES PRINCIPALES

h
5.56 0.62 0.39 0.17 0.14 0.10 0.05
P
h
% 78.96 8.87 5.65 2.48 1.98 1.37 0.68
Tabla 5.10: Variabilidad explicada por las componentes
Figura 5.8: Grco para seleccionar el nmero de componentes.
Los tres primeros vectores propios son:
est pes pie lbr aes dcr drt
Comp. 1 .41 .39 .40 .39 .38 .29 .37
Comp. 2 -.16 .04 -.20 -.30 .11 .89 -.15
Comp. 3 .04 -.29 .13 -.15 -.57 .20 .71
El primer componente es una media de todas las medidas fsicas, y por tanto una medida del
tamao del cuerpo, siendo la variable con menor peso el dimetro del crneo. La segunda
variable es de forma, y esta dominada por el dimetro del crneo. Observemos que esta
variable est poco correlada con el resto y, por lo tanto, arrastra ella sola un componente
principal, ya que no puede explicarse como combinacin de otras. El tercer componente
principal diferencia longitud frente a anchura: da mayor peso a la longitud de la pierna (drt)
y lo contrapone al peso y a la anchura de la espalda.
La gura 5.9 presenta un grco de las observaciones sobre el plano de los dos primeros
componentes principales. Las coordenadas son las puntuaciones estandarizadas z

i
= X

a
i
, i =
1, 2, donde X

es la matriz de variables estandarizadas (de media cero y varianza uno). En


este grco cada punto se indica con un 1, cuando la observacin corresponde a un varn
y un 0 cuando es mujer. Puede verse que la primera componente de tamao separa casi
perfectamente los hombres de las mujeres. El segundo componente no parece reejar ningn
efecto del sexo. Observemos que la primera componente es capaz, por si misma, de explicar
casi el 80% de variabilidad. Dado que el dimetro del crneo est poco correlado con el resto
5.6. INTERPRETACIN DE LOS COMPONENTES 165
de las variables, siendo casi en exclusiva responsable de una dimensin, vamos a repetir el
anlisis eliminando esta variable.
Figura 5.9: Proyeccin de las observaciones en las dos primeras componentes principales.
Los resultados de eliminar la variable dimetro del crneo del anlisis se presentan en la
tabla siguiente. Se incluyen los dos primeros valores y vectores propios que explican por s
mismos el 92% de la variabilidad.

h
P
h
% est pes pie lbr aes drt
5.1 85 .43 .41 .42 .41 .39 .38
.4 7 .08 -.32 .17 -.04 -.60 .71
Corr(z
1
x
i
) .97 .93 .95 .93 .88 .86
Corr(z
2
x
i
) .05 -.20 .11 -.030 -.38 .45
El primer componente es de nuevo una media ponderada que indica el tamao de las personas,
dando el mayor peso a la estatura de la persona. El segundo es de forma, ya que contrapone
la longitud de la pierna a la anchura de la espalda y tiene peso positivo en las longitudes (del
pie y estatura), y negativo en el peso. La proyeccin de los datos sobre el plano denido por
los dos componentes se presenta en la gura 5.10. Se observa que el primer componente de
tamao separa como antes los hombres de las mujeres, y que el segundo componente al ser
166 CAPTULO 5. COMPONENTES PRINCIPALES
ortogonal al tamao no parece depender del sexo. Este componente separa para ambos sexos
pesonas con constitucin delgada de gruesa.
La gura 5.11 presenta de forma grca las correlaciones entre el primer y segundo com-
ponente y cada variable, calculadas como
p

h
a
hj
. Se observa que el primer componente est
correlado con la altura y las restantes longitudes, mientras que el segundo est especialmente
relacionado con la longitud de la pierna y la anchura de la espalda.
Figura 5.10: Proyeccin de las observaciones en las dos primeras componentes principales.
Ejemplo 5.13 Vamos a analizar la base de datos de MUNDODES (tabla A.6 del Anxo).
Esta matriz de datos est constituida por 91 pases en los que se han observado 9 variables:
X
1
: ratio de natalidad, X
2
: ratio de mortalidad, X
3
: mortalidad infantil, X
4
: esperanza de
vida en hombres X
5
: esperanza de vida de mujeres y X
6
: PNB per capita.
La representacin grca de las variables dos a dos, presentada en el captulo anterior,
muestra relaciones claramente no lineales. Aplicando transformaciones logartmicas a las
variables mejoramos la linealidad en estas relaciones dos a dos.
Como las variables estn medidas en distintas unidades se debe realizar un anlisis de
componentes principales normado (basado en la matriz de correlaciones), los resultados se
presentan en la gura 5.12.
La gura 5.13 presenta el grco en forma de codo para seleccionar el nmero de compo-
nentes. El primer valor propio es 4.7278, y explica el 78,8% de la variabilidad. El segundo
es 0.7261, y explica el 12%. Hay un valor propio de 0,002 que corresponde a una variable
que es practicamente constante. Los vectores propios se presentan a continuacin.
5.6. INTERPRETACIN DE LOS COMPONENTES 167
Figura 5.11: Correlacin de las variables con las componentes principales.
variable PC1 PC2 PC3 PC4 PC5 PC6
X
1
-0.454 0.034 -0.130 0.159 0.378 0.780
X
2
0.416 0.196 0.513 0.683 0.233 0.067
X
3
0.341 -0.680 -0.524 0.307 0.225 -0.031
X
4
0.440 -0.052 0.222 -0.632 0.578 0.145
X
5
-0.452 0.085 -0.029 0.114 0.639 -0.605
X
6
-0.326 -0.699 0.628 -0.039 -0.100 0.002
168 CAPTULO 5. COMPONENTES PRINCIPALES
Comp. 1 Comp. 2 Comp. 3 Comp. 4 Comp. 5 Comp. 6
0
1
2
3
4
p p p
V
a
r
i
a
n
c
e
s
0.796
0.923
0.967
0.988
0.997
1
Figura 5.12: Proporcin de variabilidad explicada por cada componente para los datos de
MUNDODES.
Figura 5.13:
El primer componente explica el 79% de la variabilidad, el segundo corresponde a un
valor propio inferior a 1, pero lo incluiremos para interpretarlo. La primera componente se
puede interpretar como una medida de desarrollo de un pas, dado que las variables con peso
5.6. INTERPRETACIN DE LOS COMPONENTES 169
positivo son las esperanzas de vida de hombres y mujeres y la renta, mientras que las de peso
negativo son la mortalidad infantil y las tasas de natalidad y mortalidad, que son bajas en
los pases ms desarrollados. El segundo componente esta asociado a la mortalidad infantil
y a la renta, con lo que resulta de dicil interpretacin ya que mide una dimensin que est
incorrelada con el primer trmino de desarrollo. Para interpretarla, la gura 5.14 muestra los
paises en el plano de los dos componentes. Se observa que existe una fuerte relacin no lineal
entre ambos y aunque los componentes estn incorrelados no son claramente independientes.
El primer componente podemos suponer que ordena a los pases por desarrollo y el segundo
tiene en cuanta la mortalidad infantil y tiene una relacin no lineal con la renta.
Figura 5.14: Representacion de los dos primeros componentes para los datos de Mundodes
En los diagramas de dispersin vimos que relaciones entre las variables eran no lineales,
por lo que vamos a repetir el anlisis para las variables en logaritmos. Los valores propios de
la matriz de correlaciones de las variables en logaritmos no cambian mucho, pero los vectores
propios s lo hacen. Son ahora:
PC1 PC2 PC3 PC4 PC5 PC6
0.403 0.435 -0.376 -0.436 -0.562 0.033
0.307 -0.831 0.011 -0.457 -0.077 -0.020
0.433 0.267 -0.023 -0.331 0.793 0.051
-0.441 0.147 0.224 -0.531 0.019 -0.672
-0.446 0.071 0.213 -0.454 -0.012 0.738
-0.403 -0.149 -0.873 -0.057 0.223 -0.008
El primero sigue siendo una medida de desarrollo pero ahora el segundo esta sobre todo
ligado a la tasa de mortalidad. Separa paises con alta tasa de mortalidad de los de baja.
Vemos que el ltimo vector propio tambin tiene una interesante interpretacin. Nos dice
que la diferencia en logaritmos entre las esperanzas de vida de hombres y mujeres es prcti-
camente constante en todos los pases, ya que el valor propio que corresponde a este vector
170 CAPTULO 5. COMPONENTES PRINCIPALES
propio es muy pequeo (0,015). Los pesos asociados a cada una de las variables se presentan
en la gura 5.15
EspMuj EspHom MortInf PNB TasaNat. TasaMort
-
0
.
4
0
.
2
Comp. 1
TasaMort TasaNat. MortInf PNB EspHom EspMuj
-
0
.
4
0
.
4
Comp. 2
Figura 5.15: Pesos de las variables en los dos primeros componentes para los datos de
MUNDODES
La gura 5.16 presenta la representacin de los paises en los dos primeros componentes.
El primero es una medida del desarrollo y el segundo depende principalmente de la tasa de
mortalidad, y separa paises que tienen alto (o bajo) valor aparente de desarrollo de otros
que tienen una mortalidad mucho mayor de la que correspondera de acuerdo a su nivel
de desarrollo. Ambas dimensiones estan incorreladas pero no son independientes, como se
observa en la gura. Sin embargo, el grado de dependencia entre las variables es menor que
con las variables sin transformar.
Figura 5.16: Graco de los datos de Mundodes sobre los dos primeros componentes princi-
pales de los datos en logaritmos.
5.7. GENERALIZACIONES 171
5.7 Generalizaciones
La idea de componentes principales puede extenderse para buscar representaciones no lin-
eales de los datos que expliquen su estructura. Este enfoque es especialmente interesante
si sospechamos que los datos pueden disponerse siguiendo una determinada supercie en
el espacio. Como hemos visto los vectores propios ligados a valores propios prximos a
cero sonmuy importantes porque revelan relaciones de poca variabilidad de los datos. Por
ejemplo, supongamos para simplicar una variable bidimensional donde, aproximadamente,
f(x
1
) + f(x
2
) = c. Entonces, si hacemos componentes principales de las cuatro variables
(x
1
, x
2
, f(x
1
), f(x
2
), ) encontraremos un valor propio muy prximo a cero con un vector pro-
pio de la forma (0,0, 1,1).
Generalizando esta idea, si existe una relacin cualquiera no lineal entre las variables,
como esta relacin podemos aproximarla por una relacin polinmica
f(x
1
, ..., x
p
) =
X
a
i
x
i
+
X
b
ij
x
i
x
j
+
X
c
ijk
x
i
x
j
x
k
+...
si incluimos nuevas variables adicionales como x
2
1
, ..., x
2
p
o productos de variables x
1
x
2
etc
y extraemos los componentes principales de la matriz de correlaciones entre todas estas
variables, si los puntos tienen una relacin no lineal esta se detectar ligada a un valor propio
prximo a cero. Este enfoque se conoce a veces como componentes principales generalizados,
y el lector interesado puede encontrar ejemplos de su aplicacin en Gnandesikan (1977).
El inconveniente de introducir nuevas variables, transformaciones de las iniciales, es que
inmediatamente aumenta mucho la dimensin del problema con lo que si la muestra no es muy
grande podemos tener una matriz de correlaciones singular. Por otro lado la interpretacin
de los resultados de este anlisis, salvo en casos muy especiales, no suele ser fcil, con lo que
esta herramienta no suele ayuda mucho en para la exploracin de datos multivariantes.
5.8 Lecturas complementarias
Todos los textos generales de anlisis multivariante que se indican en las referencias estudian
componentes principales. Johnson y Wichern (1998) y Rechner (1998) son buenas presenta-
ciones con similar losofa a la utilizada en el libro mientras que Flury (1997) presenta un
enfoque distinto al aqu expuesto. Componentes principales es un caso particular de los
mtodos de proyeccin introducidos en la seccin 4.2.3 que se conocen como Projection Pur-
suit (Bsqueda de la Proyeccin). Vase Krzanowski y Marriot (1994) para ms detalles.
Un excelente tratado sobre componentes principales y sus extensiones es el libro de Jackson
(1991), que contiene numerosas referencias. La idea de componentes principales puede ex-
tenderse al caso no lineal, y Gnanadesikan (1997) es una buena referencia. Los componentes
principales puede aplicarse para investigar si varios grupos de datos tienen componentes
comunes. Este aspecto ha sido investigado por Krzanowski (1979) y Flury (1984, 1986).
Cuadras, C.M. (1991) y Aluja, T. y Morineau, A. (1999) son buenas referencias en espaol.
EJERCICIOS
172 CAPTULO 5. COMPONENTES PRINCIPALES
Ejercicio 5.1 Dada la matriz de covarianzas
S =
_
_
1 +d 1 1
1 1 +d 1
1 1 1 +d
_
_
encontrar los componentes principales. Calcular la proporcin de variabilidad explicada por
cada uno y las correlaciones entre los componentes y las variables. Interpretar los compo-
nentes en funcin del tamao de d.
Ejercicio 5.2 Dada la matriz de correlacin:
S =
_

_
1 d d d
d 1 d d
d d 1 d
d d d 1
_

_
encontrar la primera componente principal. (Nota, utilizar que
P
= [d.1.1
0
+(1 d)I] para
encontrar los componentes y discutir su interpretacin).
Ejercicio 5.3 Supongamos que Z, X
1
, ..., X
p
tienen una distribucin normal (p +1) dimen-
sional. Sean Y
1
, ..., Y
p
los componentes principales de X
1
, ..., X
p
. Demostrar que el coeciente
de correlacin mltiple de las regresiones:
Z =
X
a
i
X
i
Z =
X
b
i
Y
i
es idntico.
Ejercicio 5.4 Demostrar que si S =

A 0
0 B

, donde A y B son no singulares de rango


r
A
y r
B
los vectores propios de S son de la forma (u
1
, 0) y (0, u
2
), donde u
1
es un vector
propio de A y u
2
un vector propio de B.
Ejercicio 5.5 Indicar las implicaciones del resultado del ejercicio 5.4 para calcular compo-
nentes principales.
Ejercicio 5.6 Demostrar que si S =

A 0
0 B

los valores propios de S son los de A ms


los de B.
Ejercicio 5.7 Demostrar que el espacio que maximiza la varianza generalizada de la proyec-
cin es el denido por z
1
= Xa
1
y z
2
= Xa
2
donde z
1
y z
2
son los dos primeros componentes
principales.
5.8. LECTURAS COMPLEMENTARIAS 173
Ejercicio 5.8 Demostrar que si una variable x
1
est incorrelada con el resto de manera que
la matriz S tiene la forma S =

s
2
1
0
0
0 S
2

donde 0 y 0
0
son vectores de ceros, la matriz S
tiene un componente principal asociado nicamente a la primera variable, es decir, el vector
(1, 0...0) es un vector propio de S.
Ejercicio 5.9 Demostrar que la direccin donde la variabilidad de la proyeccin es mnima
es la dada por el vector propio ligado al menor valor propio de la matriz de covarianzas.
Ejercicio 5.10 Demostrar la siguiente acotacin para formas cuadrticas :
min
w
0
w
w
0
Bw
max
w
0
w, donde
min
y
max
son el menor y el mayor valor propio de la matriz
B. (Sugerencia, maximizar la forma cuadrtica como se hizo para obtener el primer compo-
nente principal)
APNDICE 5.1. DISTANCIAS ENTRE PUNTOS Y
PROYECCIONES
Vamos a demostrar que maximizar las distancias al cuadrado entre los puntos proyectados
equivale a maximizar la varianza de la variable denida por las proyecciones de los puntos.
Sea z
i
= a
0
1
x
i
la proyeccin de una observacin sobre la direccin a
1
, donde suponemos a
0
1
a
1
=
1. La variable z
i
tendr media cero ya que si las x tienen media cero
P
n
i=1
z
i
=
P
n
i=1
a
0
1
x
i
=
a
0
1
P
n
i=1
x
i
= 0. La suma de las distancias al cuadrado entre los puntos proyectados es
D
p
=
n
X
i=1
n
X
h=i+1
(z
i
z
h
)
2
.
Para interpretar este sumatorio observemos que cada trmino z
i
aparece al cuadrado
n 1, veces ya que cada punto se compara con los otros n 1, y que habr tantos dobles
productos como parejas de puntos, es decir

n
2

= n(n 1)/2. Por tanto:


D
p
= (n 1)
n
X
i=1
z
2
i
2
n
X
i=1
n
X
h=i+1
z
i
z
h
= n
X
z
2
i
B
siendo B :
B =
n
X
i=1
z
2
i
+ 2
n
X
i=1
n
X
h=i+1
z
i
z
h
que puede escribirse,
B = z
1
(z
1
+z
2
+. . . z
n
) +z
2
(z
1
+. . . +z
n
) +. . . z
n
(z
1
+. . . +z
n
)
=
n
X
i=1
z
i
n
X
i=1
z
i
= 0.
174 CAPTULO 5. COMPONENTES PRINCIPALES
Por tanto, maximizar las distancias entre los puntos equivale a maximizar:
A = n
X
z
2
i
que es el criterio de maximizar la varianza de la nueva variable, obtenida anteriormente.
Algunos autores han propuesta minimizar
XX
w
ij
(d
ij

b
d
ij
)
2
donde w
ij
es una funcin de ponderacin. El problema as planteado no tiene una solu-
cin simple y debe resolverse mediante un algoritmo iterativo no lineal. Vese por ejemplo
Krzanowski (1990, cap2).
APNDICE5.2. LOS COMPONENTES COMOPRE-
DICTORES PTIMOS
Demostraremos que los componentes principales son predictores ptimos de las X. Comence-
mos demostrando que si queremos aproximar la matriz X, de rango p, por otra matriz
b
X
r
de rango r < p, la aproximacin ptima es XA
r
A
0
r
= Z
r
A
0
r
, donde la matriz A
r
es p r y
sus columnas son los vectores propios asociados a los r mayores valores propios de la matriz
S.
El problema de aproximar la matriz X puede establecerse as: Consideremos un espacio
de dimensin r denido por una base U
r
ortonormal, donde U
r
es pr y U
0
r
U
r
= I. Se desea
encontrar una aproximacin de la matriz X utilizando una base de ese espacio, es decir,
queremos prever cada una de las las (x
1
, ..., x
n
) de la matriz, donde x
i
es el vector p 1 de
observaciones en el elemento i de la muestra, mediante los vectores U
r
. La prediccin de la
variable x
i
ser la proyeccin ortogonal sobre el espacio generado por estos vectores que es
b x
i
= U
r
U
0
r
x
i
y queremos determinar los vectores U
r
tal que el error cuadrtico de aproximacin total para
todas las las de la matriz, dado por
E =
p
X
j=1
n
X
i=1
(x
ij
b x
ij
)
2
=
n
X
i=1
(x
i
b x
i
)
0
(x
i
b x
i
) (5.17)
sea mnimo. El error puede escribirse
E =
n
X
i=1
x
i
0
x
i

n
X
i=1
x
i
0
U
r
U
0
r
x
i
(5.18)
y minimizar el error equivale a maximizar el segundo trmino. Utilizando que un es-
calar es igual a su traza,
P
n
i=1
x
i
0
U
r
U
0
r
x
i
= tr(
P
n
i=1
x
i
0
U
r
U
0
r
x
i
) =
P
n
i=1
tr(U
r
U
0
r
x
i
x
i
0
) =
tr(U
r
U
0
r
P
n
i=1
x
i
x
i
0
). Introduciendo que S =
P
n
i=1
x
i
x
i
0
/n y sustituyendo en tr(U
r
U
0
r
P
n
i=1
x
i
x
i
0
),
tenemos que esta expresin es ntr(U
r
U
0
r
S) = ntr(U
0
r
SU
r
). Por tanto:
n
X
i=1
x
i
0
U
r
U
0
r
x
i
= ntr(U
0
r
SU
r
) (5.19)
5.8. LECTURAS COMPLEMENTARIAS 175
Segn esta expresin, minimizar el error (5.18) implica encontrar un conjunto de vectores
U
r
= [u
1
, ..., u
r
] que maximicen la suma de los elementos diagonales de U
0
r
SU
r
, es decir,
P
r
j=1
u
0
j
Su
j
. Si r = 1, este es el problema que se ha resuelto para encontrar el primer
componente. Si r = 2, como el nuevo vector debe ser ortogonal al primero, obtenemos el
segundo componente, y as sucesivamente. Por tanto, U
r
= A
r
, y la aproximacin ptima a
la matriz X vendr dada por
b
X
r
= XA
r
A
0
r
. Adems, como en (5.18) el primer trmino es
n
X
i=1
x
i
0
x = tr(
n
X
i=1
x
i
0
x) =
n
X
i=1
tr(x
i
0
x) =
tr
n
X
i=1
(xx
i
0
) = ntr(S) =n
p
X
i=1

i
y el segundo es, segn (5.19), igual a n
P
r
i=1

i
, tenemos que el error de la aproximacin
ser n
P
p
i=r+1

i
.
Es interesante sealar que esta aproximacin a una matriz es la que proporciona la
descomposicin en valores singulares, es decir la mejor aproximacin a la matriz X por otra
matriz
b
X
r
de rango r < p es
b
X
r
= U
r
D
1/2
r
V
0
r
=
r
X
i=1

1/2
1
u
i
v
0
i
donde U
r
es la matriz de los r mayores vectores propios de XX
0
, D
1/2
r
contiene los r mayores
valores propios y V
r
contiene los vectores propios de X
0
X
.
. En efecto, segn hemos visto en
la seccin 5.7
b
X
r
= Z
r
A
0
r
, que es el resultado anterior.
El problema puede enfocarse desde otro punto de vista. Busquemos unas variables
[z
1
, ..., z
r
] que sean combinaciones lineales de las originales y que tengan la propiedad de
preverlas de manera ptima. Por ejemplo, si r = 1, buscamos un vector a
1
de manera que
la nueva variable:
z
1
= Xa
1
permita prever con mnimo error los valores observados para el conjunto de variables que
forman las columnas de la matriz X. Por ejemplo, el valor previsto para la variable x
j
en
el individuo i, b x
ij
, conocido el valor de la variable z
1
para ese individuo, z
1i
ser:
b x
ij
= b
j
z
1i
y el error de prediccin ser e
ij
= x
ij
b x
ij
. Vamos a demostrarlo para simplicar en el caso
r = 1. Calcularemos el vector a
1
para que minimice estos errores de prediccin. Es conocido
que el coeciente de regresin b
j
viene dado por:
b
j
=
P
n
i=1
x
ij
z
1i
P
z
2
1i
(5.20)
176 CAPTULO 5. COMPONENTES PRINCIPALES
como 1/n
P
z
2
1i
= 1/na
0
X
0
Xa = a
0
Sa, la varianza de z
1
puede crecer indenidamente si no
imponemos ninguna restriccin. Exigiremos que sea unitaria, es decir que:
a
0
Sa = 1 = (1/n)
X
z
2
1i
(5.21)
Entonces:
b
j
= 1/n
X
x
ij
z
1i
= 1/nX
0
j
Xa
1
= V
0
j
a
1
(5.22)
donde V
j
es el vector la j de la matriz S de varianzas y covarianzas. Impongamos la
condicin mnimo cuadrtica para obtener a
1
:
1
n
n
X
i=1
e
2
ij
= Mnimo =
1
n
n
X
i=1

x
ij
V
0
j
a
1
z
1i

2
y el segundo miembro puede escribirse:
1
n
n
X
i=1
x
2
ij
+
1
n
a
0
1
V
j
V
0
j
a
1
n
X
i=1
z
2
1i
2V
0
j
a
1
n
n
X
i=1
x
ij
z
1i
utilizando ahora (5.21) y (5.22), se obtiene
1
n
n
X
i=1
e
2
ij
=
1
n
n
X
i=1
x
2
ij
a
0
1
V
j
V
0
j
a
1
.
Aplicando este mismo razonamiento a las otras variables X y sumando para todas ellas:
M =
1
n
n
X
i=1
p
X
j=1
e
2
ij
=
1
n
n
X
i=1
p
X
j=1
x
2
ij

p
X
j=1
a
0
1
V
j
V
0
j
a
1
como el primer miembro es la traza de S que es ja, maximizar M equivale a minimizar:
a
0
1
p
X
j=1
V
j
V
0
j
a
1
= a
0
1
SS
0
a
0
1
= a
0
1
S
2
a
1
(5.23)
ya que S es simtrica. Por lo tanto, el problema es minimizar la expresin (9.14) con la
restriccin (5.21):
L = a
0
1
S
2
a
1
(a
1
Sa
1
1)
5.8. LECTURAS COMPLEMENTARIAS 177
L
a
= 2S
2
a2Sa = 0
S
2
a = Sa
de donde incluimos que a debe de ser un vector propio de S y un valor propio, ya que si:
Sa = a
multiplicando por S
S
2
a = Sa
Con lo que naliza la demostracin. Es interesante resaltar que este resultado es simple-
mente la implicacin estadstica de la propiedad que tienen los vectores y races caractersticos
de generar la matriz de base.
178 CAPTULO 5. COMPONENTES PRINCIPALES
Captulo 6
ESCALADO MULTIDIMENSIONAL
6.1 INTRODUCCIN
Las tcnicas de escalado multidimensional son una generalizacin de la idea de componentes
principales cuando en lugar de disponer de una matriz de observaciones por variables, como
en componentes principales, se dispone de una matriz, D, cuadrada n n de distancias
o disimilaridades entre los n elementos de un conjunto. Por ejemplo, esta matriz puede
representar las similitudes o distancias entre n productos fabricados por una empresa, las
distancias percibidas entre n candidatos polticos, las diferencias entre n preguntas de un
cuestionario o las distancias o similitudes entre n sectores industriales. Estas distancias
pueden haberse obtenido a partir de ciertas variables, o pueden ser el resultado de una
estimacin directa, por ejemplo preguntando a un grupo de jueces por sus opiniones sobre
las similaridades entre los elementos considerados.
El objetivo que se pretende es representar esta matriz mediante un conjunto de variables
ortogonales y
1
, . . . , y
p
, donde p < n , de manera que las distancias eucldeas entre las coor-
denadas de los elementos respecto a estas variables sean iguales (o lo ms prximas posibles)
a las distancias o disimilaridades de la matriz original. Es decir, a partir de la matriz D
se pretende obtener una matriz X, de dimensiones n p, que pueda interpretarse como la
matriz de p variables en los n individuos, y donde la distancia eucldea entre los elementos
reproduzca, aproximadamente, la matriz de distancias D inicial. Cuando p > 2, las vari-
ables pueden ordenarse en importancia y suelen hacerse representaciones grcas en dos y
tres dimensiones para entender la estructura existente.
Este planteamiento presenta dos interrogantes: Es siempre posible encontrar estas vari-
ables? Cmo construirlas? En general no es posible encontrar p variables que reproduzcan
exactamente las distancias iniciales, sin embargo es frecuente encontrar variables que repro-
duzcan aproximadamente las distancia iniciales. Por otro lado, si la matriz de distancias se
ha generado calculando las distancias eucldeas entre las observaciones denidas por ciertas
variables, recupereraremos las componentes principales de estas variables.
El escalado multidimensional comparte con componentes principales el objetivo de de-
scribir e interpretar los datos. Si existen muchos elementos, la matriz de similaridades ser
muy grande y la representacin por unas pocas variables de los elementos nos permitir
entender su estructura: qu elementos tienen propiedades similares, si aparecen grupos entre
179
180 CAPTULO 6. ESCALADO MULTIDIMENSIONAL
los elementos, si hay elementos atpicos, etc. Adems, si podemos interpretar las variables
aumentar nuestro conocimiento del problema, al entender cmo se han generado los datos.
Por ejemplo, supongamos que se realiza una encuesta para determinar que similitudes en-
cuentran los consumidores entre n productos o servicios, y que la informacin se resume en
una matriz cuadrada de similitudes entre los productos. Supongamos que descubrimos que
estas similitudes pueden generarse por dos variables. Entonces, es razonable suponer que los
consumidores han estimado la similitud entre los productos utilizando estas dos variables.
El escalado multidimensional representa un enfoque complementario a componentes prin-
cipales en el sentido siguiente. Componentes principales considera la matriz pp de correla-
ciones (o covarianzas) entre variables, e investiga su estructura. El escalado multidimensional
considera la matriz n n de correlaciones (o covarianzas) entre individuos, e investiga su
estructura. Ambos enfoques estn claramente relacionados, y existen tcnicas grcas, como
el biplot que estudiaremos en este captulo, que aprovechan esta dualidad para representar
conjuntamente las variables y los individuos en un mismo grco.
El escalado multidimensional (Multidimensional Scaling) tiene sus orgenes en los estu-
dios de psicologa experimental, en los aos 50, para descubrir la similaridad entre estmulos
aplicados a distintos individuos. Su desarrollo actual es debido a las investigaciones de Torg-
erson, Shepard, Kruskal y Gower, entre otros, y se han aplicado, preferentemente, en las
ciencias sociales. Los mtodos existentes se dividen en mtricos, cuando la matriz inicial es
propiamente de distancias, y no mtricos, cuando la matriz es de similaridades. Los mtodos
mtricos, tambin llamados coordenadas principales, utilizan las diferencias entre similitudes
mientras que los no mtricos parten de que si A es ms similar a B que a C, entonces A
esta ms cerca de B que de C, pero las diferencias entre las similitudes AB y AC no tienen
interpretacin.
6.2 ESCALADOS MTRICOS: COORDENADAS PRIN-
CIPALES
6.2.1 Construccin de variables a partir de las distancias
Vimos en el Captulo 3 que dada una matriz X de individuos por variables obtenemos
variables con media cero mediante la operacin:
e
X = (I
1
n
11
0
)X = PX
A partir de esta matriz
e
X, de variables con media cero y dimensiones np, podemos construir
dos tipos de matrices cuadradas y semidenidas positivas: la matriz de covarianzas, S,
denida por
e
X
0
e
X/n y la matriz de productos cruzados, Q =
e
X
e
X
0
, que vamos a ver que
puede interpretarse como una matriz de similitud (covarianzas) entre los n elementos. En
efecto, los trminos de esta matriz, q
ij
, contienen el producto escalar por pares de elementos:
6.2. ESCALADOS MTRICOS: COORDENADAS PRINCIPALES 181
q
ij
=
p
X
s=1
x
is
x
js
= x
0
i
x
j
, (6.1)
donde hemos llamado x
0
i
a la la i de la matriz
e
X. Por la expresin del producto escalar,
q
ij
= |x
i
| |x
j
| cos
ij
, si los dos elementos tienen coordenadas similares, cos
ij
' 1 y q
ij
ser grande. Por el contrario, si los dos elementos son muy distintos, cos
ij
' 0 y q
ij
ser
pequeo. En este sentido podemos interpretar la matriz
e
X
e
X
0
como la matriz de similitud
entre elementos.
Las distancias entre las observaciones se deducen inmediatamente de esta matriz de simil-
itud. La distancia eucldea al cuadrado entre dos elementos es:
d
2
ij
=
p
X
s=1
(x
is
x
js
)
2
=
p
X
s=1
x
2
is
+
p
X
s=1
x
2
js
2
p
X
s=1
x
is
x
js
(6.2)
que puede calcularse en funcin de los trminos de la matriz Q, por la expresin
d
2
ij
= q
ii
+q
jj
2q
ij
. (6.3)
Por tanto, dada la matriz
e
X podemos construir la matriz de similitud Q =
e
X
e
X
0
y, a
partir de ella, la matriz D de distancias al cuadrado entre elementos con ayuda de (6.3).
Llamando diag(Q) al vector que contiene los trminos diagonales de la matriz Q, y 1 al
vector de unos, la matriz D viene dada por
D =diag(Q)1
0
+1diag(Q)
0
2Q
El problema que vamos a abordar es el inverso: reconstruir la matriz
e
X a partir de una
matriz de distancias al cuadrado, D, con elementos d
2
ij
. Para ello, obtendremos primero la
matriz Q, y a continuacin la
e
X.
Comencemos estudiando cmo obtener la matriz Q dada la matriz D. En primer lugar,
observemos que no hay prdida de generalidad en suponer que las variables tienen media
cero. Esto es consecuencia de que las distancias entre dos puntos, d
2
ij
no varan si expresamos
las variables en desviaciones a la media, ya que
d
2
ij
=
p
X
s=1
(x
is
x
js
)
2
=
p
X
s=1
[(x
is
x
s
) (x
js
x
s
)]
2
. (6.4)
Dado que estamos suponiendo que la nica informacin existente son las distancias entre
elementos, para resolver esta indeterminacin vamos a buscar una matriz
e
X con variables de
media cero. En consecuencia, como
e
X
0
1 = 0 tambin Q1 = 0, es decir, la suma de todos los
elementos de una la de la matriz de similitudes, Q, (y de una columna ya que la matriz es
simtrica) debe de ser cero. Para imponer estas restricciones, sumemos en (6.3) por las:
182 CAPTULO 6. ESCALADO MULTIDIMENSIONAL
n
X
i=1
d
2
ij
=
n
X
i=1
q
ii
+nq
jj
= t +nq
jj
(6.5)
donde t =
P
n
i=1
q
ii
= traza (Q), y hemos utilizado que la condicin Q1 = 0 implica
P
n
i=1
q
ij
= 0. Sumando (6.3) por columnas
n
X
j=1
d
2
ij
= t +nq
ii
(6.6)
y sumando ahora (6.5) por las de nuevo
n
X
i=1
n
X
j=1
d
2
ij
= 2nt. (6.7)
Sustituyendo en (6.3) q
jj
obtenida en (6.5) y q
ii
en (6.6), tenemos que
d
2
ij
=
1
n
n
X
i=1
d
2
ij

t
n
+
1
n
n
X
j=1
d
2
ij

t
n
2q
ij
, (6.8)
y llamando d
2
i.
=
1
n
P
n
j=1
d
2
ij
y d
2
.j
=
1
n
P
n
i=1
d
2
ij
, a las medias por las y por columnas y
utilizando (6.7), tenemos que
d
2
ij
= d
2
i.
+ d
2
.j
d
2
..
2q
ij
. (6.9)
donde d
2
..
es la media de todos los elementos de D, dada por
d
2
..
=
1
n
2
XX
d
2
ij
,
Finalmente, de (6.9) resulta que
q
ij
=
1
2
(d
2
ij
d
2
i.
d
2
.j
+d
2
..
) (6.10)
expresin que indica cmo construir la matriz de similitud Q a partir de la matriz D de
distancias.
Pasemos ahora al problema de obtener la matriz X dada la matriz Q. Suponiendo que
la matriz de similitud es denida positiva de rango p, puede representarse por
Q = VV
0
6.3. MATRICES COMPATIBLES CON MTRICAS EUCLDEAS 183
donde V es np y contiene los vectores propios correspondientes a valores propios no nulos
de Q, es diagonal p p y contiene los valores propios y V
0
es p n. Escribiendo:
Q = (V
1/2
)(
1/2
V
0
) (6.11)
y tomando
Y = V
1/2
hemos obtenido una matriz n p con p variables incorreladas que reproducen la mtrica
inicial. Observemos que si partimos de unas variables X y calculamos a partir de estas vari-
ables la matriz de distancias con (6.2) y luego aplicamos el mtodo descrito a esta matriz de
distancias no obtendremos las variables originales, X, sino sus componentes principales. Esto
es inevitable, ya que existe una indeterminacin en el problema cuando la nica informacin
disponible son las distancias. En efecto, las distancias entre elementos no varan si:
(1) modicamos las medias de las variables
(2) rotamos los puntos, es decir multiplicamos por una matriz ortogonal.
Las distancias son funcin, por (6.3) de los trminos de la matriz de similitud, Q, y esta
matriz es invariante ante rotaciones de las variables. En efecto:
Q =
e
X
e
X
0
=
e
XAA
0
e
X
0
para cualquier matriz A ortogonal. La matriz Q slo contiene informacin sobre el espacio
generado por las variables X. Cualquier rotacin preserva las distancias. En consecuencia,
cualquier rotacin de las variables originales podra ser solucin.
6.3 Matrices compatibles con mtricas eucldeas
Para poder calcular la raz cuadrada de la matriz de similitud mediante (6.11) es necesario
que los valores propios de la matriz Q, que construimos a partir de la matriz D original, sean
no negativos. Dada una matriz de distancias, D, diremos que sta matriz es compatible con
una mtrica eucldea si la matriz de similitud que se obtiene a partir de ella
Q =
1
2
PDP
es semidenida positiva, donde P = I
1
n
11
0
.
Vamos a demostrar que esta condicin es necesaria y suciente, es decir, si D se ha
construido a partir de una mtrica eucldea Q es no negativa y si Q es no negativa es posible
encontrar una mtrica eucldea que reproduzca D.
Demostracin
184 CAPTULO 6. ESCALADO MULTIDIMENSIONAL
Demostraremos primero que si D se ha construido a partir de una mtrica eucldea Q
es no negativa. Para ello comprobaremos en primer lugar que la matriz
1
2
PDP tiene los
trminos (6.10). En efecto, los trminos de la matriz Q sern
Q =
1
2
(I
1
n
11
0
)D(I
1
n
11
0
) =
1
2
(D
1
n
11
0
D
1
n
D11
0
+
1
n
2
11
0
D11
0
) (6.12)
y llamando q
ij
a los elementos de Q:
q
ij
=
1
2
(d
2
ij
d
2
i.
d
2
.j
+d
2
..
). (6.13)
Vamos a comprobar ahora que Q puede expresarse como
e
X
e
X
0
y por tanto es semideni-
da positiva. Como ahora, por hiptesis, los trminos d
2
ij
son los cuadrados de distancias
eucldeas, por (6.2), podemos escribir
d
2
.j
=
1
n
X
i
X
s
x
2
is
+
X
s
x
2
js

2
n
X
i
X
s
x
is
x
js
d
2
i.
=
X
s
x
2
is
+
1
n
X
j
X
s
x
2
js

2
n
X
j
X
s
x
is
x
js
d
2
..
=
1
n
X
i
X
s
x
2
is
+
1
n
X
j
X
s
x
2
js

1
n
2
X
i
X
j
X
s
x
is
x
js
.
Como
1
n
X
s
(
X
i
x
is
)x
js
=
X
s
x
s
x
js
(6.14)
1
n
2
X
s
(
X
i
x
is
)(
X
j
x
js
) =
X
s
x
2
s
(6.15)
se verica que
q
ij
=
X
p
x
pi
x
pj

X
p
x
p
x
pj

X
p
x
p
x
pi
+
X
p
x
2
p
= (x
i
x)
0
(x
j
x) (6.16)
y, por tanto, en general
6.3. MATRICES COMPATIBLES CON MTRICAS EUCLDEAS 185
Q =
_

_
(x
1
x)
0
.
.
.
(x
n
x)
0
_

_
[(x
1
x) . . . (x
n
x)] =

X

X
0
, (6.17)
que es siempre semidenida positiva, de rango p.
Vamos a demostrar ahora que si Q es semidenida positiva podemos encontrar ciertas
variables, y
1
, . . . , y
p
, que reproduzcan las distancias observadas. Si Qes semidenida positiva
de rango p podemos expresarla como:
Q =
p
X

i
v
i
v
0
i
donde
i
son sus valores propios y v
i
los vectores propios. Llamando y
i
=

i
v
i
a la
estandarizacin de los vectores propios para que tengan varianza unidad, podemos escribir
Q =
X
y
i
y
0
i
(6.18)
Las variables y
i
representan la solucin buscada: son un conjunto de p variables n-
dimensionales incorreladas entre s y tales que el cuadrado de la distancia eucldea que
inducen entre dos puntos es:

2
ij
= (z
i
z
j
)
0
(z
i
z
j
) (6.19)
donde z
0
i
= (y
i1
, . . . , y
ip
) es igual a las distancias originales observadas d
2
ij
. Para demostrar-
lo observemos que (6.18) implica que la matriz cuadrada de similitud Q puede tambin
escribirse:
Q = [y
1
, . . . , y
p
]
_

_
y
0
1
.
.
.
y
0
p
_

_
=
_

_
z
0
1
.
.
.
z
0
n
_

_
[z
1
, . . . , z
n
]
donde estamos llamando y a las p variables n-dimensionales y z al vector de dimensin p
formado por los valores de estas variables en un individuo de la poblacin. Entonces:
q
ij
= z
0
i
z
j
(6.20)
La distancia al cuadrado entre dos puntos es, por (6.19)

2
ij
= z
0
i
z
i
+z
0
j
z
j
2z
0
i
z
j
186 CAPTULO 6. ESCALADO MULTIDIMENSIONAL
y, por (6.20)

2
ij
= q
ii
+q
jj
2q
ij
,
y como esta expresin es idntica a (6.3), concluimos que:

2
ij
= d
2
ij
y las nuevas variables reproducen exactamente las distancias eucldeas.
6.3.1 Construccin de las Coordenadas Principales
En general la matriz de distancias no ser compatible con una mtrica eucldea, pero es
frecuente que la matriz de similitud obtenida a partir de ella tenga p valores propios positivos
y ms grandes que el resto. Si los restantes np valores propios no nulos son mucho menores
que los dems, podemos obtener una representacin aproximada de los puntos utilizando los
p vectores propios asociados a valores propios positivos de la matriz de similitud. En este
caso, las representaciones grcas conservarn slo aproximadamente la distancia entre los
puntos.
Supongamos que tenemos una matriz de distancias al cuadrado D. El procedimiento para
obtener las coordenadas principales es:
1. Construir la matriz Q =
1
2
PDP, de productos cruzados.
2. Obtener los valores propios de Q. Tomar los r mayores valores propios, donde r
se escoge de manera que los restantes n r valores propios sean prximos a cero.
Observemos que como P1 = 0, donde 1 es un vector de unos, la matriz Q tiene rango
mximo n 1 y siempre tendr el vector propio 1 unido al valor propio cero.
3. Obtener las coordenadas de los puntos en las variables mediante v
i

i
, donde
i
es
un valor propio de Q y v
i
su vector propio asociado. Esto implica aproximar Q por
Q (V
r

1/2
r
)(
1/2
r
V
0
r
)
y tomar como coordenadas de los puntos las variables
Y
r
= V
r

1/2
r
.
El mtodo puede tambin aplicarse si la informacin de partida es directamente la matriz
de similitud entre elementos. Diremos que se ha denido una funcin de similitud entre
elementos si existe una funcin, s
ij
, con las propiedades siguientes:
(1) s
ii
= 1,
(2) 0 s
ij
1,
(3) s
ij
= s
ji
.
6.3. MATRICES COMPATIBLES CON MTRICAS EUCLDEAS 187
La similaridad es pues una funcin no negativa y simtrica. Si la matriz de partida, Q,
es una matriz de similitud, entonces q
ii
= 1, q
ij
= q
ji
y 0 q
ij
1. La matriz de distancias
asociadas ser, por (6.3),
d
2
ij
= q
ii
+q
jj
2q
ij
= 2(1 q
ij
)
y puede comprobarse que
p
2(1 q
ij
) es una distancia y verica la desigualdad triangular
al corresponder a la distancia eucldea para cierta conguracin de puntos.
Pueden obtenerse medidas de la precisin conseguida mediante la aproximacin a partir
de los p valores propios positivos de la matriz de similitud. Mardia ha propuesto el coeciente:
m
1,p
= 100
P
p

i
P
p
1
|
i
|
Ejemplo 6.1 Las distancias en kilomtros por carretera entre las ciudades espaolas sigu-
ientes se encuentran en el cuadro adjunto, que llamaremos matriz M, donde las ciudades se
han representado por las letras siguientes: M es Madrid, B Barcelona, V Valencia, S Sevilla,
SS San Sebastin y LC La Corua.
M B V S SS LC
M 0 627 351 550 488 603
B 627 0 361 1043 565 1113
V 351 361 0 567 564 954
S 550 1043 567 0 971 950
SS 488 565 564 971 0 713
LC 603 1113 954 950 713 0
Llamando D a esta matriz de distancias, la matriz de similitud es Q = .5PDP y
dividiendo cada trmino por 10,000 se obtiene la matriz:
0.1176 -0.3908 -0.1795 0.3856 -0.3180 0.3852
-0.3908 3.0321 1.2421 -2.0839 0.7338 -2.5333
-0.1795 1.2421 0.7553 0.6095 -0.3989 -2.0285
0.3856 -2.0839 0.6095 3.6786 -2.0610 -0.5288
-0.3180 0.7338 -0.3989 -2.0610 1.6277 0.4165
0.3852 -2.5333 -2.0285 -0.5288 0.4165 4.2889
que tiene los siguientes vectores propios, por columnas:
-0.0960 -0.0443 -0.2569 0.1496 0.8566 0.4082
0.6270 0.1400 -0.4155 -0.4717 -0.1593 0.4082
0.2832 -0.2584 -0.0094 0.7670 -0.3130 0.4082
-0.2934 -0.7216 0.2205 -0.4017 -0.1285 0.4082
0.1241 0.4417 0.7812 -0.0687 0.0885 0.4082
-0.6449 0.4426 -0.3198 0.0255 -0.3443 0.4082
ligados a los siguientes valores propios:
7.3792 5.9106 0.5947 -0.3945 0.0104 0.0000
La matriz Q tiene dos valores propios grandes y los otros tres son muy pequeos. Adems
tenemos el autovalor cero ligado al vector propio unidad. Esto sugiere que las distancias
188 CAPTULO 6. ESCALADO MULTIDIMENSIONAL
pueden explicarse aproximadamente mediante dos variables. Tomando los dos vectores pro-
pios asociados a los mayores valores propios, y estandarizndoles por la raz de su valor
propio, resultan las siguientes coordenadas para cada ciudad
Madrid -82.44 -34.05
Barcelona 538.61 107.67
Valencia 243.29 -198.62
Sevilla -252.04 -554.79
San Sebastin 106.60 339.55
La Corua -554.02 340.25
Si representamos estas coordenadas se obtiene la gura 6.1. Se observa que las coorde-
nadas de las ciudades reproducen, con cierta aproximacin, el mapa de Espaa.
Figura 6.1: Representacin de las coordenadas principales de seis ciudades espaolas
El grado de bondad de esta representacin puede medirse por el coeciente
m = 100
7.3792 + 5.9106
7.3792 + 5.9106 + 0.5947 + 0.3945 + 0.0104
= 93%
y vemos que la representacion en dos dimensiones es muy adecuada para estos datos.
Ejemplo 6.2 La matriz adjunta indica las similitudes encontradas por un grupo de consum-
idores entre 7 productos de consumo.
A B C D E F G
A 0 7 5 9 5 7 9
B 7 0 4 6 4 6 7
C 5 4 0 3 4 5 6
D 9 6 3 0 3 2 2
E 5 4 4 3 0 5 4
F 7 6 5 2 5 0 4
G 9 7 6 2 4 4 0
6.4. RELACIN ENTRE COORDENADAS Y COMPONENTES PRINCIPALES 189
Aplicando la transformacion a la matriz Q, los valores propios son 6.24, 3.37, 2.44,
2.04, 1.25, -.06, 0. La representacion de los productos correspondiente a los dos vectores
principales se presenta en el gura 6.2. El grado de ajuste de esta representacin es
m = 100
9.61
15.4
= 62.4%
-0.8 -0.6 -0. 4 -0. 2 0 0.2 0.4 0.6
-0.8
-0.6
-0.4
-0.2
0
0. 2
0. 4
0. 6
A
B
C
D
E
F
G
Figura 6.2: Representacin de los productos en el plano de las dos primeras coordenadas
principales.
Podemos concluir que los consumidores parecen utilizar dos dimensiones de valoracin
que explican el 62.4% de la variabilidad, aunque existen otras dimensiones que se tienen en
cuenta con menor peso.
6.4 RELACIN ENTRE COORDENADAS Y COM-
PONENTES PRINCIPALES
Cuando los datos originales forman una matriz
e
X de individuos por variables y construimos
la matriz Dde distancias utilizando las distancias eucldeas entre los puntos a partir de dichas
variables originales, las coordenadas principales obtenidas de la matriz D son equivalentes a
los componentes principales de las variables.
En efecto, con variables de media cero los componentes principales son los autovectores
de
1
n
e
X
0
e
X, mientras que, como hemos visto en la seccin 6.3 (ecuacin 6.18), las coordenadas
principales son los vectores propios estandarizados por

i
de los autovalores de Q =
e
X
e
X
0
.
Vamos a comprobar que
e
X
0
e
X y
e
X
e
X
0
tienen el mismo rango y los mismos autovalores no
nulos. Si a
i
es un autovector de X
0
e
X con autovalor
i
,
e
X
0
e
Xa
i
=
i
a
i
(6.21)
190 CAPTULO 6. ESCALADO MULTIDIMENSIONAL
y multiplicando por
e
X ambos miembros,
e
X
e
X
0
e
Xa
i
=
i
e
Xa
i
(6.22)
es decir,
e
Xa
i
es un autovector de
e
X
e
X
0
con el mismo valor propio
i
. Si n > p y la matriz
e
X
0
e
X tiene rango completo tendr p autovalores no nulos que ser los autovalores no nulos
de
e
X
e
X
0
. Los vectores propios de
e
X
e
X
0
son las proyecciones de la matriz
e
X sobre la direccin
de los vectores propios de
e
X
0
e
X.
Por otro lado, la matriz np que proporciona los valores de los p componentes principales
en los n individuos es:
Z =
e
XA (6.23)
donde Z es n p y tiene por columnas los componentes principales y A es p p y contiene
en columnas los vectores propios de
e
X
0
e
X. La matriz n p de coordenadas principales viene
dada por:
Y = [v
1
, . . . , v
p
]
_

1
.
.
.
p

p
_

_
= VL (6.24)
donde v
i
es un vector propio de
e
X
e
X
0
, la matriz V es n p y contiene los p autovectores no
nulos de
e
X
0
e
X, y L es p p y diagonal. Como V =
e
X, es claro que, aparte de un factor de
escala, ambos procedimientos conducen al mismo resultado.
El anlisis en coordenadas principales o escalado multidimensional, est muy relacionado
con componentes principales. En ambos casos tratamos de reducir la dimensionalidad de
los datos. En componentes partimos de la matriz
e
X
0
e
X, obtenemos sus valores propios,
y luego proyectamos las variables sobre estas direcciones para obtener los valores de los
componentes, que son idnticas a las coordenadas principales, que se obtienen directamente
como vectores propios de la matriz
e
X
e
X
0
. Si la matriz de similaridades proviene de una
mtrica eucldea ambos mtodos conducirn al mismo resultado. Sin embargo, el concepto
de coordenadas principales o escalado multidimensional puede aplicarse a una gama ms
amplia de problemas que componentes, ya que las coordenadas principales pueden obtenerse
siempre, aunque las distancias de partida no hayan sido exactamente generadas a partir de
variables, como veremos en el caso de escalado no mtrico.
6.5 BIPLOTS
Se conocen como biplots a las representaciones grcas conjuntas en un plano de las las y
de las columnas de una matriz. En el caso de una matriz de datos, el biplot es un grco
conjunto de las observaciones y las variables. La representacin se obtiene a partir de la
6.5. BIPLOTS 191
descomposicin en valores singulares de una matriz (vese la seccin 2.4.2). Una matriz X
de dimensiones n p puede siempre descomponerse como
X = VD
1/2
A
0
o grcamente
_

_
x
11
. x
1p
. . .
. . .
. . .
. . .
x
n1
. x
np
_

_
=
_

_
v
11
. v
1p
. . .
. . .
. . .
. . .
v
np
. v
np
_

_
_
_

1/2
. 0
0 . 0
0 .
1/2
_
_
_
_
a
11
. a
1p
. . .
a
p1
. a
pp
_
_
donde V es n p y contiene en columnas los vectores propios asociados a valores propios
no nulos de la matriz XX
0
, D es una matriz diagonal de orden p que contiene las raices
cuadradas de los valores propios no nulos de XX
0
o X
0
X y A
0
es una matriz ortogonal de
orden p y contiene por las los vectores propios de X
0
X. Las matrices de vectores propios
verican V
0
V = I, A
0
A = I.
La descomposicin en valores singulares tiene gran importancia prctica porque, como se
demuestr en el apndice 5.2, la mejor aproximacin de rango r < p a la matriz X se obtiene
tomando los r mayores valores propios de X
0
X y los correspondientes vectores propios de
XX
0
y X
0
X y construyendo
b
X= V
r
D
1/2
r
A
0
r
donde V
r
es nr y contiene las primeras r columnas de V correspondientes a los r mayores
valores propios de XX
0
, D
1/2
r
es diagonal de orden r y contiene estos r valores propios y A
0
r
es r p y contiene las r primeras las de A
0
que corresponden a los r vectores propios de
X
0
X ligados a los r mayores valores propios.
La representacin biplot de una matriz X consiste en aproximarla mediante la descom-
posicin en valores singulares de rango dos, tomando r = 2 :
X V
2
D
1/2
2
A
0
2
= (V
2
D
1/2c/2
2
)(D
c/2
2
A
0
2
) = FC
donde V
2
es n2, D
1/2
2
es diagonal de orden 2 y A
0
2
es 2p . Tomando 0 c 1 se obtienen
distintas descomposiciones de la matriz X en dos matrices. La primera, F representa las
n las de la matriz X en un espacio de dos dimensiones y la segunda, C, representa en el
mismo espacio las columnas de la matriz. Segn el valor de c se obtienen distintos biplots.
Los ms utilizados son para c = 0, 0, 5, y 1.
Vamos a interpretar el biplot cuando c = 1, que es el caso ms interesante. Entonces
representaremos las observaciones, las de X, por las las de la matriz V
2
, y las variables,
columnas de X, por las columnas de la matriz D
1/2
2
A
0
2
. Para distinguir ambas representa-
ciones las observaciones se dibujan como puntos y las variables como vectores en el plano.
Se verica que:
192 CAPTULO 6. ESCALADO MULTIDIMENSIONAL
(1) La representacin de las observaciones como puntos en un plano mediante las las de
V
2
, equivale a proyectar las observaciones sobre el plano de las dos componentes principales
estandarizadas para que tengan varianza unidad.
(2) Las distancias eucldeas entre los puntos en el plano equivale, aproximadamente, a
las distancias de Mahalanobis entre las observaciones originales.
(3) La representacin de las variables mediante vectores de dos coordenadas es tal que el
ngulo entre los vectores equivale, aproximadamente, a la correlacin entre las variables.
Para demostrar estas propiedades utilizaremos la relacin entre los componentes y los
vectores propios de XX
0
. Las coordenadas de los componentes principales son Z = XA, y,
como hemos visto en la seccin anterior, los vectores que forman las columnas de Z son
vectores propios sin normalizar de XX
0
. En efecto, los vectores propios de X
0
X verican
X
0
Xa
i
=
i
a
i
y multiplicando por X tenemos que
XX
0
(Xa
i
) =
i
(Xa
i
)
por tanto, z
i
= Xa
i
es un vector propio de la matriz XX
0
, pero no esta normalizado a norma
unidad. El vector propio normalizado ser
v
i
=
1

i
z
i
.
Generalizando, la matriz de vectores propios de XX
0
normalizados a norma unidad ser
V =[v
1
, ..., v
p
] =

1

i
z
1
, ...,
1

i
z
p

= ZD
1/2
y es inmediato que con esta normalizacin V
0
V = D
1/2
Z
0
ZD
1/2
= D
1/2
DD
1/2
=I. Por
tanto si representamos los puntos por V
2
tenemos las proyecciones estandarizadas a varianza
uno de las observaciones sobre los dos primeros componentes.
Vamos a comprobar la segunda propiedad. Una observacin se representa por los compo-
nentes principales por x
0
i
A, y si estandarizamos los componentes a varianza uno x
0
i
AD
1/2
.
Las distancias eucldeas al cuadrado entre dos observaciones en trminos de sus coordenadas
en los componentes estandarizados sern:

x
0
i
AD
1/2
x
0
j
AD
1/2

2
= (x
i
x
j
)
0
AD
1
A
0
(x
i
x
j
)
0
y como S = ADA
0
entonces S
1
= AD
1
A
0
y obtenemos la distancia de Mahalanobis entre
las observaciones originales. Si en lugar de tomar los p componentes tomamos slo los dos
ms importantes esta relacin ser aproximada y no exacta.
Comprobaremos por ltimo que si representamos las variables como vectores con co-
ordenadas D
1/2
2
A
0
2
= C los ngulos entre los vectores representan, aproximadamente, la
correlacin entre las variables. Para ello escribiremos
S ' A
2
D
2
A
0
2
= CC=
_
_
c
0
1
...
c
0
p
_
_

c
1
... c
p

6.6. ESCALADO NO MTRICO 193


donde c
1
es un vector 2 1 correspondiente a la primera columna de la matriz C. De esta
expresin es inmediato que
c
0
i
c
i
= s
2
i
y
c
0
i
c
j
= s
ij
y nalmente
r
ij
=
c
0
i
c
j
kc
i
k kc
j
k
= cos(c
i
c
j
)
Por tanto, aproximadamente el ngulo entre estos vectores es el coeciente de correlacin
entre las variables.
La precisin de la representacin del biplot depende de la importancia de los dos primeros
valores propios respecto al total. Si (
1
+
2
)/tr(S) es prximo a uno la representacin ser
muy buena. Si este valor es pequeo el biplot no proporciona una representacin able de
los datos.
Ejemplo 6.3 Vamos a utilizar la base de datos de MUNDODES (tabla A.6 del Anxo),
cuyos componentes principales se obtuvieron en el captulo anterior (vae el ejemplo ***).
Esta matriz de datos est constituida por 91 pases en los que se han observado 9 variables:
X
1
: ratio de natalidad, X
2
: ratio de mortalidad, X
3
: mortalidad infantil, X
4
: esperanza de
vida en hombres X
5
: esperanza de vida de mujeres y X
6
: PNB per capita.
La gura 6.3 es un biplot donde se han representado conjuntamente las observaciones por
su proyeccin estandarizada en el plano de los dos componentes principales. El lector debe
observar que ahora la variabilidad en ambos componentes es la misma como consecuencia de
la estandarizacin, lo que no ocurra en los grcos anteriores donde las escalas eran muy
diferentes. Se han representado tambin las variables como vectores de manera que el ngulo
entre las variables sea aproximadamente igual a sus correlaciones. En el biplot se observa
una separacin de los pases en dos grupos y, por otro lado, una divisin de las variables en
tres grupos: en el primero estn las tasas de mortalidad infantil y natalidad que estn muy
correladas entre s, por otro la tasa de mortalidad, que tiene baja correlacin con el resto de
variables, y por otro la renta y las esperanzas de vida de hombres y mujeres que estn muy
correladas con la renta.
En el grco 6.4 se muestra la misma representacin conjunta que en la guras 6.3 en el
caso de realizar el anlisis normado de componentes principales en las variables originales.
Se aprecia una relacin no lineal entre las dos primeras componentes.
6.6 ESCALADO NO MTRICO
En los problemas de escalado no mtrico se parte de una matriz de diferencias o disimili-
tudes entre objetos que se ha obtenido generalmente por consultas a jueces, o a partir de
194 CAPTULO 6. ESCALADO MULTIDIMENSIONAL
Comp. 1
C
o
m
p
.

2
-0.3 -0.2 -0.1 0.0 0.1 0.2
-
0
.
3
-
0
.
2
-
0
.
1
0
.
0
0
.
1
0
.
2
Albania
Bulgaria
Czechoslovaki
Hungary
Poland
Romania
USSR
Byelorussian_SSR
Ukrainian_SSR
Argentina
Bolivia
Brazil
Chile
Columbia
Ecuador
Guyana
Paraguay
Peru
Uruguay
Venezuela
Mexico
Belgium
Finland
Denmark
France
Germany
Greece
Ireland
Italy
Netherlands
Norway
Portugal
Spain
Sweden
Switzerland
U.K.
Austria
Japan
Canada
U.S.A.
Afghanistan
Bahrain
Iran
Iraq
Israel
Jordan
Kuwait
Oman
Saudi_Arabia
Turkey
United_Arab_Emirates
Bangladesh
China
Hong_Kong
India
Indonesia
Malaysia
Mongolia
Nepal
Pakistan Philippines
Singapore
Sri_Lanka
Thailand
Algeria
Angola
Botswana
Congo
Egypt
Ethiopia
Gabon
Gambia
Ghana
Kenya
Libya
Malawi
Morocco
Mozambique
Namibia
Nigeria
Sierra_Leone
Somalia
South_Africa
Sudan
Swaziland
Tunisia
Uganda
Tanzania
Zaire
Zambia
Zimbabwe
-15 -10 -5 0 5 10
-
1
5
-
1
0
-
5
0
5
1
0
TasaNat.
TasaMort
MortInf
EspHom
EspMuj
PNB
Figura 6.3: Representacin de observaciones y variables en el plano de las dos primeras
componentes, variables en logaritmos.
procedimientos de ordenacin de los elementos. Por ejemplo, el escalado no mtrico se ha
aplicado para estudiar las semejanzas entre las actitudes, preferencias o percepciones de per-
sonas sobre asuntos polticos o sociales o para evaluar preferencias respecto a productos y
servicios en marketing y en calidad. Los valores de una tabla de similaridades o distancias
se obtienen habitualmente por alguno de los procedimientos siguientes:
1. Estimacin directa. Un juez, o un conjunto de jueces, estiman directamente las
distancias entre los elementos. Una escala muy utilizada es la escala 0-100, de manera que
la distancia o disimilaridad entre un elemento y s mismo sea cero y la distancia entre dos
elementos distintos reeje la percepcin de sus diferencias. Con n elementos esto requiere
n(n 1)/2 evaluaciones.
2. Estimacin de rangos. Se selecciona un elemento y se pide al juez, o grupo de jueces,
que ordene los n1 restantes por mayor o menor proximidad al seleccionado. A continuacin
se selecciona el siguiente y se ordenan los n 2 restantes, y as sucesivamente. Existen
algoritmos de clculo que transforman estas ordenaciones en una matriz de distancias (vase
Green y Rao, 1972).
3. Rangos por pares. Se presentan al juez los n(n 1)/2 pares posibles y se le pide
que los ordene de mayor a menor distancia. Por ejemplo, con cuatro objetos supongamos
que se obtienen los resultados en orden de distancia: (3,4), (2,3), (2,4), (1,4), (1,2) y (1,3).
Entonces, los ms prximos son los objetos 3 y 4, y a esta pareja se le asigna el rango 1.
6.6. ESCALADO NO MTRICO 195
Comp. 1
C
o
m
p
.

2
-0.2 -0.1 0.0 0.1 0.2 0.3
-
0
.
2
-
0
.
1
0
.
0
0
.
1
0
.
2
0
.
3
Albania
Bulgaria
Czechoslovaki
Hungary
Poland
Romania
USSR
Byelorussian_SSR
Ukrainian_SSR
Argentina
Bolivia
Brazil
Chile Columbia
Ecuador Guyana
Paraguay
Peru
Uruguay
Venezuela
Mexico
Belgium
Finland
Denmark
France
Germany
Greece
Ireland
Italy
Netherlands
Norway
Portugal
Spain
Sweden
Switzerland
U.K.
Austria
Japan
Canada
U.S.A.
Afghanistan
Bahrain
Iran
Iraq
Israel
Jordan
Kuwait
Oman
Saudi_Arabia
Turkey
United_Arab_Emirates Bangladesh
China
Hong_Kong
India
Indonesia
Malaysia
Mongolia
Nepal
Pakistan
Philippines
Singapore
Sri_Lanka
Thailand
Algeria
Angola
Botswana
Congo
Egypt
Ethiopia
Gabon
Gambia
Ghana
Kenya
Libya
Malawi
Morocco
Mozambique
Namibia
Nigeria
Sierra_Leone
Somalia
South_Africa
Sudan
Swaziland
Tunisia
Uganda
Tanzania
Zaire
Zambia
Zimbabwe
-5 0 5 10
-
5
0
5
1
0
TasaNat.
TasaMort
MortInf
EspHom
EspMuj
PNB
Figura 6.4: Representacin de observaciones y variables en el plano de las dos primeras
componentes, variables originales.
A la pareja siguiente, (2,3), se le asigna rango dos y as sucesivamente hasta la pareja de
los elementos ms alejados, el 1 y el 3, que reciben rango n(n 1)/2, que es 6 en este caso.
A continuacin se calcula un rango medio para cada objeto, promediando los rangos de los
pares donde aparece. Por ejemplo, el objeto 1 aparece en pares que tienen rango 4, 5 y 6,
con lo que el rango del objeto 1 es :
rango(1) =
4 + 5 + 6
3
= 5.
Igualmente obtenemos que rango(2)= (2 + 3 + 5)/2 = 3, 3; rango(3)= (1 + 2 + 6)/3 = 3
y rango(4) = (1 + 3 + 4)/3 = 2, 7. Las diferencias entre los rangos se toman ahora como
medidas de distancia entre los objetos.
Se supone que la matriz de similaridades est relacionada con un matriz de distancias,
pero de una manera compleja. Es decir, se acepta que los jueces utilizan en las valoraciones
ciertas variables o dimensiones, pero que, adems, los datos incluyen elementos de error y
variabilidad personal. Por tanto, las variables que explican las similitudes entre los elementos
comparados determinarn una distancias eucldeas entre ellos, d
ij
, que estn relacionadas con
las similitudes dadas,
ij
, mediante una funcin desconocida

ij
= f(d
ij
)
196 CAPTULO 6. ESCALADO MULTIDIMENSIONAL
donde la nica condicin que se impone es que f es una funcin montona, es decir, si

ij
>
ih
d
ij
> d
ih
.
El objetivo que se pretende es encontrar unas coordenadas que sean capaces de reproducir
estas distancias a partir nicamente de la condicin de monotona. Para ello hay que denir:
(1) Un criterio de bondad del ajuste que sea invariante ante transformaciones montonas
de los datos.
(2) Un algoritmo para obtener las coordenadas, optimizando el criterio establecido.
Estos problemas no tienen solucin nica y se han presentado muchos procedimientos
alternativos. El ms utilizado es minimizar las diferencias entre las distancias derivadas
de las coordenadas principales,
b
d
ij
, y las similitudes de partida
ij
, es decir minimizar
PP
(
ij

b
d
ij
)
2
para todos los trminos de la matriz. Esta cantidad se estandariza para
favorecer las comparaciones, con lo que se obtiene el criterio de ajuste denominado STRESS,
dado por:
S
2
=
P
i<j
(
ij

b
d
ij
)
2
P
i<j

2
ij
(6.25)
Un criterio alternativo es minimizar las distancias al cuadrado, con lo que se obtiene el
criterio S-STRESS. Se han propuesto otros criterios que el lector puede consultar en Cox
y Cox (1994). Las distancias
b
d
ij
se determinarn encontrando p coordendas principales
que se utilizan como variables implicitas y
ij
, i = 1, ..., n, j = 1, ...p, que determinarn unas
distancias eucldeas entre dos elementos:
b
d
2
ij
=
p
X
s=1
(y
is
y
js
)
2
(6.26)
El mtodo de clculo es partir de la solucin proporcionada por las coordenadas principales e
iterar para mejorar esta solucin minimizando el criterio (6.25). Normalmente se toma p = 2
para facilitar la representacin grca de los datos, pero el nmero de dimensiones necesario
para una buena representacin de los datos puede estimarse probando distintos valores de
p y estudiando la evolucin del criterio de forma similar a como se determina el nmero de
componentes principales. Fijado p el problema es minimizar (6.25) donde las distancias se
calculan por (6.26). Derivando respecto a los valores de las coordenadas en los individuos
(vase apndice 6.1) se obtiene un sistema de ecuaciones no lineales en las variables y cuya
solucin requiere un algoritmo de optimizacin no lineal. Suele tomarse como solucin inicial
la obtenida con las coordenadas principales. Remitimos al lector interesado en los detalles
de los algoritmos a Cox y Cox (1994).
Ejemplo 6.4 Utilizaremos la matriz de similitudes entre productos. Con el programa SPSS
se obtiene la solucin indicada en la gura 6.5. Los productos A, B, C, etc se han repre-
sentado en el grco como m1, m2, m3,... Como puede verse la solucin es similar a la
obtenida con coordenadas principales, pero no idntica.
6.6. ESCALADO NO MTRICO 197
Configuracin de estmulos derivada
Modelo de distancia eucldea
Dimensin 1
2.0 1.5 1.0 .5 0.0 -.5 -1.0 -1.5
D
i
m
e
n
s
i

n

2
2.0
1.5
1.0
.5
0.0
-.5
-1.0
-1.5
m7
m6
m5
m4 m3
m2
m1
Figura 6.5: Representacin de los productos con el escalado no mtrico
El valor del coeciente al nalizar la estimacin no lineal es Stress = .14134 y la propor-
cin de variabilidad explicada, RSQ = .87957.
La gura 6.6 presenta la relacin entre las distancias obtenidas y las observaciones. Se
aprecia que la relacin es montona, aunque no lineal.
Grfico Transformacin
Modelo de distancia eucldea
Observaciones
10 8 6 4 2 0
D
i
s
t
a
n
c
i
a
s
3.5
3.0
2.5
2.0
1.5
1.0
.5
Figura 6.6: Relacin entre las distancias originales y las calculadas por el escalado multidi-
mensional
198 CAPTULO 6. ESCALADO MULTIDIMENSIONAL
6.7 Lecturas complementarias
Los captulos 11 y 12 de Jackson (1991) contienen ampliaciones sobre este tema y muchas
referencias. El libro de Dillon y Goldstein (1984) presenta una introduccin clara y simple
del escalado multidimensional no mtrico. Gnanadesikan (1997) presenta tambin una buena
introduccin al tema. Libros dedicados al escalado multidimensional son los de Schiman et
al (1981), Coxon (1982), Davidson (1983), Kruskal y Wish (1978), Green et al (1989) y Cox
y Cox (1994). Young (1987) contiene muchos ejemplos de aplicacin. Gower y Hand (1996)
esta integramente dedicado a los biplots.
EJERCICIOS
Ejercicio 6.1 Si la distancia eucldea entre dos elementos se dene por d
2
ij
= (x
i
x
j
)
0
(x
i

x
j
) demostrar que puede escribirse como d
2
ij
= q
ii
+q
jj
2q
ij
donde los q
ij
son elementos de
la matriz XX
0
.
Ejercicio 6.2 Demostrar que d
2
ij
= (x
i
x
j
)
0
(x
i
x
j
) puede escribirse como d
2
ij
= q
ii
+q
jj

2q
ij
donde ahora los q
ij
son elementos de la matriz XPX
0
, siendo P la matriz proyeccin
que elimina las medias denida en 6.12
Ejercicio 6.3 Demostrar que si tenemos una solucin Y
r
de coordenadas principales tam-
bin es solucin Z
r
= Y
r
C +b, donde C es una matriz ortogonal y b cualquier vector.
Ejercicio 6.4 Demostrar que si la matriz Q es semidenida positiva se verica que q
ii
+
q
jj
2q
ij
0. (Ayuda: utilice que si Q es denida positiva u
0
Qu 0 para cualquier vector
u y tome u = (0, ..., 1, 1, 0, ..., 0)
0
)
Ejercicio 6.5 Demostrar que si Q es semidenida positiva las magnitudes d
2
ij
= q
ii
+q
jj
2q
ij
verican las propiedades de una distancia. (Ayuda: para comprobar la propiedad triangular
utilice que para tres puntos u
0
Qu 0 con u = (1, 1, 1)
0
implica q
11
+ q
22
+ q
33
2q
12

2q
13
+ 2q
32
0)
Ejercicio 6.6 Demostrar que se verica la relacin Q = PQP.
Ejercicio 6.7 Demostrar que la descomposicin biplot puede escribirse como Y
r
A
0
r
donde
el primer trmino contiene las coordenadas principales y el segundo las componentes princi-
pales.
Apndice 6.1Maximizacin del STRESS
El procedimiento de optimizacin del criterio se obtiene derivando el STRESS respecto
a cada trmino, y
ip
, que nos indica como se modica el criterio si modicamos el valor de la
variable p en el elemeto i, lo que conduce a las ecuaciones
S
2
y
ip
= 2
n
X
j=1
(
ij

b
d
ij
)

b
d
ij
y
ip
= 0 (6.27)
6.7. LECTURAS COMPLEMENTARIAS 199
El cambio en las distancias del punto i a todos los dems cuando cambiamos la coordenada
p de este punto es, por (6.26):

b
d
ij
y
ip
=
(y
ip
y
jp
)
b
d
ij
y sustituyendo en (6.27) tenemos que la ecuacin a resolver es
y
ip
n
X
j=1
(
ij

b
d
ij
)
b
d
ij

n
X
j=1
(
ij

b
d
ij
)
b
d
ij
y
jp
= 0.
Si derivamos para los np valores de las coordenadas principales, el sistema de ecuaciones
resultante puede escribirse conjuntamente como
FX = 0
donde F es una matriz cuadrada y simtrica de orden n con coecientes
f
ij
=
(
ij

b
d
ij
)
b
d
ij
, i 6= j
f
ii
=
n
X
j=1,j6=i
f
ij
, i = j
200 CAPTULO 6. ESCALADO MULTIDIMENSIONAL
Captulo 7
ANLISIS DE
CORRESPONDENCIAS
7.1 INTRODUCCIN
El anlisis de correspondencias es una tcnica descriptiva para representar tablas de contin-
gencia, es decir, tablas donde recogemos las frecuencias de aparicin de dos o ms variables
cualitativas en un conjunto de elementos. Constituye el equivalente de componentes princi-
pales y coordenadas principales para variables cualitativas. La informacin de partida ahora
es una matriz de dimensiones I J, que representa las frecuencias absolutas observadas
de dos variables cualitativas en n elementos. La primera variable se representa por las, y
suponemos que toma I valores posibles, y la segunda se representa por columnas, y toma
J valores posibles. Por ejemplo, la tabla 7.1 presenta la clasicacin de n = 5387 escolares
escoceses por el color de sus ojos, que tiene cuatro categoras posibles y I = 4, y el color
de su cabello, que tiene cinco categoras posibles y J = 5. Esta tabla tiene inters histrico
ya que fu utilizada por Fisher en 1940 para ilustrar un mtodo de anlisis de tablas de
contingencia que est muy relacionado con el que aqu presentamos.
En general, una tabla de contingencia es un conjunto de nmeros positivos dispuestos
en una matriz, donde el nmero en cada casilla representa la frecuencia absoluta observada
para esa combinacin de las dos variables.
Una manera de llegar a una tabla de contingencia I J es denir I variables binarias para
Color del pelo
C. ojos rubio pelirrojo castao oscuro negro total
claros 688 116 584 188 4 1580
azules 326 38 241 110 3 718
castaos 343 84 909 412 26 1774
oscuros 98 48 403 618 85 1315
total 1455 286 2137 1391 118 5387
Tabla 7.1: Tabla de Contingencia del color de los ojos y el color del pelo de escolares escoceses.
Recogida por Fisher en 1940
201
202 CAPTULO 7. ANLISIS DE CORRESPONDENCIAS
las categoras de las las y J para las de las columnas y diponer estas variables en matrices
X
a
para las las y X
b
para las columnas. Por ejemplo, la matriz X
a
para la variable color de
los ojos contendr 4 variables en columnas correspondientes a las 4 categoras consideradas
para indicar el color de ojos, y en cada la slo una columna tomar el valor uno, la que
corresponda al color de ojos de la persona. La matriz tendr 5387 las correpondientes a las
personas incluidas en la muestra. Por tanto, la matriz X
a
de dimensiones 5387 4 ser de
la forma:
X
a
=
_

_
1 0 0 0
0 0 0 1
. . . .
0 0 0 1
0 1 0 0
_

_
donde hemos tamado las categoras para el color de ojos en el mismo orden que aparecen en las
las de la tabla 7.1. Por ejemplo, el primer dato corresponde a una persona de ojos claros, ya
que tiene un uno en la primera columna. El segundo dato tiene un uno en la cuarta categora,
que corresponde a ojos oscuros. Finalmente, el ltimo elemento de la matriz corresponde a
una persona de ojos azules. De la misma forma, la matriz X
b
tendr dimensiones 5387 5 y
las columnas indicarn el color del cabello de cada persona. Observemos que estas matrices X
de variables binarias tienen tantas columnas como categoras y sus variables son linealmente
dependientes, ya que siempre la suma de los valores de una la es uno, al ser las categoras
excluyentes y exhaustivas. Al realizar el producto X
a
X
b
sumaremos todas las personas que
tienen cada par de caractersticas y se obtiene la tabla de contingencia.
El anlisis de correspondencias es un procedimiento para resumir la informacin contenida
en una tabla de contingencia. Puede interpretarse de dos formas equivalentes. La primera,
como una manera de representar las variables en un espacio de dimensin menor, de forma
anloga a componentes principales, pero deniendo la distancia entre los puntos de manera
coherente con la interpretacin de los datos y en lugar de utilizar la distancia eucldea
utilizamos la distancia ji-cuadrado. Desde este enfoque, el anlisis de correspondencias es el
equivalente de componentes principales para datos cualitativos. La segunda interpretacin
est ms prxima al escalado multidimensional: es un procedimiento objetivo de asignar
valores numricos a variables cualitativas. Vamos a analizar estos dos aspectos.
7.2 BSQUEDA DE LA MEJOR PROYECCIN
En adelante trabajaremos con la matriz F de frecuencias relativas obtenida dividiendo cada
casilla por n, el total de elementos observados. Llamaremos f
ij
a las frecuencias relativas
que verican
I
X
i=1
J
X
j=1
f
ij
= 1
La matriz F puede considerarse por las o por columnas. Cualquier anlisis lgico de esta
matriz debe de ser equivalente al aplicado a su transpuesta, ya que la eleccin de la variable
7.2. BSQUEDA DE LA MEJOR PROYECCIN 203
Sobre. Not. Aprob. Sus. Total
Zona A 0,03 0,06 0,15 0,06 0,3
Zona B 0,07 0,14 0,35 0,14 0,7
Total 0,1 0,2 0,5 0,2 1
Tabla 7.2: Clasicacin de estudiantes por zona geogrca y calicacin obtenida
que se coloca en las, en lugar de en columnas, es arbitraria, y no debe inuir en el anlisis.
Vamos a presentar primero el anlisis por las de esta matriz, que ser simtrico al anlisis
por columnas, que estudiaremos a continuacin.
7.2.1 Proyeccin de las Filas
Vamos a analizar la matriz de frecuencias relativas, F, por las. Entonces las I las pueden
tomarse como I puntos en el espacio <
J
. Vamos a buscar una representacin de estos I
puntos en un espacio de dimensin menor que nos permita apreciar sus distancias relativas.
El objetivo es el mismo que con componentes principales, pero ahora tendremos en cuenta
las peculiaridades de este tipo de datos. Estas peculiaridades provienen de que la frecuencia
relativa de cada la es distinta, lo que implica que:
(1) Todos las las (puntos en <
J
) no tienen el mismo peso, ya que algunas continen ms
datos que otras. Al representar el conjunto de las las (puntos) debemos dar ms peso a
aquellas las que contienen ms datos.
(2) La distancia eucldea entre puntos no es una buena medida de su proximidad y
debemos modicar esta distancia, como veremos a continuacin.
Comenzando con el primer punto, cada la de la matriz F tiene una frecuencia relativa
f
i.
=
P
J
j=1
f
ij
, y el conjunto de estas frecuencias relativas se calcula con:
f = F
0
1
debemos dar a cada la un peso proporcional a su frecuencia relativa y los trminos del
vector f pueden directamente considerarse como pesos, ya que son nmeros positivos que
suman uno.
Con relacin a la medida de distancia a utilizar entre las las, observemos que la dis-
tancia eucldea no es una buena medida de las diferencias reales entre las estructuras de las
las. Por ejemplo, supongamos la tabla 7.2 donde se presentan las frecuencias relativas de
estudiantes clasicados por su procedencia geogrca, (A B) y sus calicaciones. Aunque
las frecuencias relativas de las dos las son muy distintas, las dos las tienen exactamente la
misma estructura relativa: simplemente, hay ms del doble de estudiantes de la zona B que
de la A, pero la distribucin de calicaciones es idntica en ambas zonas. Si calculamos la
distancia eucldea entre las zonas obtendremos un valor alto, que no reeja una estructura
distinta de las las sino slo que tienen distinta frecuencia relativa. Suponganos que dividi-
mos cada casilla por la frecuencia relativa de la la, f
i.
. Con esto se obtiene la tabla 7.3
donde los nmeros que aparecen en las las representan la frecuencia relativa de la variable
columna condicionada a la variable la. Ahora las dos las son idnticas, y esto es coherente
con una distancia eucldea cero entre ambas.
204 CAPTULO 7. ANLISIS DE CORRESPONDENCIAS
Sobre. Not. Aprob. Sus. Total
Zona A 0,1 0,2 0,5 0,2 1
Zona B 0,1 0,2 0,5 0,2 1
Tabla 7.3: Clasicacin de estudiantes por zona geogrca y calicacin obtenida
Color del cabello
C. ojos rubio pelirrojo castao oscuro negro total
claros 0.435 0.073 0.369 0.119 0.003 1
azules 0.454 0.053 0.336 0.153 0.004 1
castaos 0.193 0.047 0.512 0.232 0.015 1
oscuros 0.075 0.037 0.307 0.518 0.065 1
Tabla 7.4: Tabla de frecuencias relativas del color del cabello condicionada al color de los
ojos para los escolares escoceses
Para analizar que medida de distancia debemos utilizar, llamaremos R a la matriz de
frecuencias relativas condicionadas al total de la la, que se obtiene con:
R = D
f
1
F (7.1)
donde D
f
es una matriz diagonal I I con los trminos del vector f , f
i.
, frecuencias rela-
tivas de las las, en la diagonal principal. Esta operacin transforma la matriz original de
frecuencias relativas, F, en otra matriz cuyas casillas por las suman uno. Cada la de esta
matriz representa la distribucin de la variable en columnas condicionada al atributo que
representa la la. Por ejemplo, la tabla 7.4 presenta las frecuencias relativas condicionadas
para la tabla 7.1. En este caso I = 4 , J = 5. Esta tabla permite apreciar mejor la asociacin
entre las caractersticas estudiadas.
Llamaremos r
0
i
a la la i de la matriz R de frecuencias relativas condicionadas por
las, que puede considerarse un punto (o un vector) en el espacio <
J
. Como la suma de los
componentes de r
0
i
es uno, todos los puntos estn en un espacio de dimensin J1. Queremos
proyectar estos puntos en un espacio de dimensin menor de manera que las las que tengan
la misma estructura estn prximas, y las que tengan una estructura muy diferente, alejadas.
Para ello, debemos denir una medida de distancia entre dos las r
a
, r
b
. Una posibilidad es
utilizar la distancia eucldea, pero esta distancia tiene el inconveniente de tratar igual a todos
los componentes de estos vectores. Por ejemplo, en la tabla 7.1 las personas de cabello rubio
tienen una diferencia en frecuencia relativa entre los ojos azules y claros de 0,454-0,435=
0,019, y las personas de cabello negro tienen un diferencia en frecuencia relativa entre los
ojos castaos y azules de 0,015 - 0,004=0,011. Hay una diferencia mayor en el primer caso
que en el segundo y, sin embargo, intuitivamente vemos que la segunda diferencia es mayor
que la primera. La razn es que en el primer caso el cambio relativo es pequeo, del orden
del 4% ( 0,019/0,454), mientras que en el segundo caso el cambio relativo es muy grande:
las personas de cabello negro tienen ojos castaos casi cuatro veces ms frecuentemente (
0,015/0,004=3,75 veces) que ojos azules. Como los componentes representan frecuencias
relativas, no parece adecuado que una diferencia de 0,01 se considere igual en un atributo
7.2. BSQUEDA DE LA MEJOR PROYECCIN 205
de alta frecuencia (por ejemplo, pasar de 0,60 a 0,61) que en un atributo de baja frecuencia
(por ejemplo, pasar de 0,0001 a 0,0101).
Para obtener comparaciones razonables entre estas frecuencias relativas tenemos que
tener en cuenta la frecuencia relativa de aparicin del atributo que estudiamos. En atributos
raros, pequeas diferencias absolutas pueden ser grandes diferencias relativas, mientras que
en atributos con gran frecuencia, la misma diferencia ser poco importante. Una manera
intuitiva de construir las comparaciones es ponderar las diferencias en frecuencia relativa
entre dos atributos inversamente proporcional a la frecuencia de este atributo. Es decir, en
lugar de sumar los trminos (r
aj
r
bj
)
2
= (f
aj
/f
a.
f
bj
/f
b.
)
2
que miden la diferencia que las
las a y b tienen en la columna j sumaremos los trminos (r
aj
r
bj
)
2
/f
.j
donde f
.j.
=
P
I
i=1
f
ij
es la frecuencia relativa de la columna j . La expresin de la distancia entre dos las, r
a
y
r
b
de R vendr dada en esta mtrica por
D
2
(r
a
, r
b
) =
J
X
j=1
(
f
aj
f
a.

f
bj
f
b.
)
2
1
f
.j.
=
J
X
j=1
(r
aj
r
bj
)
2
f
.j.
(7.2)
que puede escribirse matricialmente como
D
2
(r
a
, r
b
) = (r
a
r
b
)
0
D
1
c
(r
a
r
b
) (7.3)
donde D
c
es una matriz diagonal con trminos f
.j.
. A la distancia (7.2) (7.3) se la conoce
como distancia
2
, y se analizar con ms detalle en la seccin siguiente.
Observemos que est distancia equivale a la distancia eucldea entre los vectores trans-
formados y
i
= D
1/2
c
r
i
. Podemos pues simplicar el problema deniendo una matriz de
datos transformada, sobre la que tiene sentido considerar la distancia eucldea entre las.
Llamando:
Y = R D
c
1/2
= D
1
f
F D
1/2
c
(7.4)
obtenemos una matriz Y que contiene trminos del tipo
y
ij
=
(
f
ij
f
i.
f
.
1/2
j
)
(7.5)
que ya no suman uno ni por las ni por columnas. Las casillas de esta matriz representan las
frecuencias relativas condicionadas por las, f
ij
/f
i.
, pero estandarizadas por su variabilidad,
que depende de la raz cuadrada de la frecuencia relativa de la columna. De esta manera
las casillas son directamente comparables entre s. La tabla 7.5 indica esta matriz resultado
de estandarizar las frecuencias relativas de la tabla 7.1 dividiendo cada casilla por la raz
cuadrada de la frecuencia relativa de la columna correspondiente, que se obtiene de la tabla
7.1. Por ejemplo, el primer elemento de la tabla 7.5 se obtiene como 0.435/
p
(1455/5387) =
206 CAPTULO 7. ANLISIS DE CORRESPONDENCIAS
. 83 7 . 31 6 . 587 . 235 .015
. 873 . 228 . 536 . 301 .02 9
. 374 . 205 . 815 . 455 .09 5
. 14 7 . 161 . 484 1. 022 . 440
Tabla 7.5: Matriz estandarizada por la y por variabilidad del color de los ojos y el color del
pelo de escolares
0.0114. En esta tabla la estructura de las columnas es similar a la de la tabla 7.1 de
frecuencias relativas, ya que hemos dividido todas las casillas de cada columna por la misma
cantidad.
Podramos tratar a esta matriz como una matriz de datos estndar, con observaciones en
las y variables en columnas, y preguntarnos como proyectarla de manera que se preserven
las distancias relativas entre las las, es decir, las las con estructura similar aparezcan
prximas en la proyeccin. Esto implica encontrar una direccin a de norma unidad,
a
0
a = 1 (7.6)
tal que el vector de puntos proyectados sobre esta direccin,
y
p
(a) = Y a (7.7)
tenga variabilidad mxima. El vector a se encontrar maximizando y
p
(a)
0
y
p
(a) = a
0
Y
0
Y a
con la condicin (7.6), y este problema se ha resuelto en el captulo 5 al estudiar componentes
principales: el vector a es un vector propio de la matriz Y
0
Y. Sin embargo, este tratamiento
de la matriz Y como una matriz de variables continuas no es del todo correcto porque las las
tienen una distinta frecuencia relativa, f
i.
, y por tanto deben tener distinto peso. Aquellas
las con mayor frecuencia relativa deben de tener ms peso en la representacin que aquellas
otras con frecuencia relativa muy baja, de manera que las las con gran nmero de individuos
estn bien representadas, aunque esto sea a costa de representar peor las las con pocos
elementos. En consecuencia, daremos a cada la un peso proporcional al nmero de datos
que contiene. Esto puede hacerse maximizando la suma de cuadrados ponderada.
m = a
0
Y
0
D
f
Y a (7.8)
sujeto a (7.6), que equivale a
m = a
0
D
1/2
c
F
0
D
1
f
FD
1/2
c
a. (7.9)
Alternativamente, podemos construir una matriz de datos Z denida por
Z = D
1/2
f
FD
1/2
c
(7.10)
cuyos componentes son
z
ij
=
(
f
ij
p
f
i.
f
.j
)
7.2. BSQUEDA DE LA MEJOR PROYECCIN 207
y que estandariza las frecuencias relativas en cada casilla por el producto de las races
cuadradas de las frecuancias relativas totales de la la y la columna, y escribir el problema
de encontrar el vector a como el problema de maximizar m = a
0
Z
0
Za sujeto a la restriccin
(7.6). Este es el problema resuelto en componentes principales, cuya solucin es
D
1/2
c
F
0
D
1
f
FD
1/2
c
a =a (7.11)
y a debe ser un vector propio de la matriz Z
0
Z donde Z est dado por (7.9) y su valor
propio.
Vamos a comprobar que la matriz Z
0
Z tiene como mayor valor propio siempre el 1 y como
vector propio D
1/2
c
. Multiplicando por la izquierda en (7.11) por D
1/2
c
se obtiene:
D
1
c
F
0
D
1
f
F(D
1/2
c
a) =(D
1/2
c
a)
Las matrices D
1
f
F y FD
1
c
representan matrices de frecuencias relativas por las y por
columnas y su suma por las y columnas respectivamente es uno. Por tanto D
1
f
F1 = 1
y D
1
c
F
0
1 = 1, que implica que la matriz D
1
c
F
0
D
1
f
F tiene un valor propio 1 unido a un
vector propio 1. En consecuencia, haciendo (D
1/2
c
a) = 1 concluimos que la matriz Z
0
Z tiene
un valor propio igual a uno con vector propio D
1/2
c
.
Olvidando esta solucin trivial, que no da informacin sobre la estructura de las las,
tomaremos el valor propio mayor menor que la unidad y su vector propio asociado a. En-
tonces, proyectando la matriz Y sobre la direccin a encontrada:
y
f
(a) = Ya = D
1
f
FD
1/2
c
a (7.12)
y el vector y
f
(a) es la mejor representacin de las las de la tabla de contingencia en una
dimensin. Anlogamente, si extraemos el vector propio ligado al siguiente mayor valor
propio obtenemos una segunda coordenada y podemos representar las las en un espacio de
dimensin dos. Las coordenadas de la representacin de cada la vendrn dadas por las las
de la matriz
C
f
= YA
2
= D
1
f
FD
1/2
c
A
2
donde A
2
= [a
1
a
2
] contiene en columnas los dos vectores propios Z
0
Z. La matriz C
f
es I 2
y las dos coordenadas de cada la proporcionan la mejor representacin de las las de la
matriz F en un espacio de dos dimensiones. El procedimiento se extiende sin dicultad para
representaciones en ms dimensiones, calculando vectores propios adicionales de la matriz
Z
0
Z.
En resumen el procedimiento que hemos presentado para buscar una buena representacin
de las las de la tabla de contingencia es:
(1) Caracterizar las las por sus frecuencias relativas condicionadas, y considerarlas como
puntos en el espacio.
(2) Denir la distancia entre los puntos por la distancia
2
, que tiene en cuenta que cada
coordenada de las las tiene distinta precisin.
208 CAPTULO 7. ANLISIS DE CORRESPONDENCIAS
(3) Proyectar los puntos sobre las direccines de mxima variabilidad, teniendo en cuenta
que cada la tiene un peso distinto e igual a su frecuencia relativa.
El procedimiento operativo para obtener la mejor representacin bidimensional de las
las de la tabla de contingencia es:
(1) Calcular la matriz Z
0
Z y obtener sus vectores y valores propios.
(2) Tomar los dos vectores propios, a
1
, a
2
, ligados a los mayores valores propios menores
que la unidad de esta matriz.
(3) Calcular las proyecciones D
1
f
FD
1/2
c
a
i
, i = 1, 2, y representarlas grcamente en un
espacio bidimensional.
Ejemplo 7.1 Aplicaremos este anlisis a la matriz de la tabla 7.1. La matriz de frecuencias
relativas estandarizada por las, R, se presenta en la tabla 7.4.
La variable transformada, Y, se calcula como
Y = R D
c
1/2
= R(
1
5387
_

_
1455
286
2137
1391
118
_

_
)
1/2
dando lugar a
Y =
. 83 7 . 31 6 . 587 . 235 .015
. 873 . 228 . 536 . 301 .02 9
. 374 . 205 . 815 . 455 .09 5
. 14 7 . 161 . 484 1. 022 . 440
Esta matriz puede interpretarse como una matriz de datos donde por las tenemos ob-
servaciones y por columnas variables. Para obtener la mejor representacin de las las en
un espacio de dimensin dos, vamos a obtener los vectores propios de la matriz YD
f
Y. Los
tres primeros valores y vectores propios de esta matriz se presentan en la tabla siguiente por
las:
valor propio vector propio
1 -0.5197 -0.2304 -0.6298 -0.5081 -0.1480
0.1992 -0.6334 -0.1204 -0.0593 0.6702 0.3629
0.0301 -0.5209 -0.0641 0.7564 -0.3045 -0.2444
Los otros dos valores propios de esta matriz son 0,0009 0,0000. La proyeccin de los
puntos sobre el espacio denido por los valores propios .1992 y .0301 se presenta en la gura
7.1
El eje de abscisas contiene la primera dimensin que explica el .1992/( .1992+.0301+.0009)=.8653.
Vemos que se separan claramente los ojos claros y azules frente a castaos y oscuros. La
primera dimensin es pues claro frente a oscuro. La segunda dimensin separa las carac-
tersticas puras, ojos claros o azules y negros, frente a la mezclada, castaos.
Ejemplo 7.2 En un estudio de mercado 4 evaluadores han indicado que caractersticas con-
sideran importantes en un tipo de producto. El resultado es la matriz F donde en columnas
se representan los evaluadores y en las los productos.
7.2. BSQUEDA DE LA MEJOR PROYECCIN 209
Figura 7.1: Proyeccin de las las de la matriz de los colores de ojos y pelo sobre el mejor
espacio de dimensin 2.
F=
1 2 3 4
c
1
0 0 1 0
c
2
1 1 0 0
c
3
0 1 0 1
c
4
0 0 0 1
c
5
0 1 0 0
c
6
1 1 1 0
Esta matriz es una tabla de contingencia muy simple donde las frecuencias posibles son
cero o uno. La matriz Z es
Z =
_

_
0 0 .707 0
.5 .35 0 0
0 .35 0 .50
0 0 0 .707
0 .5 0 0
.408 .289 .408 0
_

_
y los valores propios de Z
0
Z son (1, 0.75, 0.50, 0.17). El vector propio asociado al mayor valor
propio menor que uno es v = (0.27, 0, 0.53, 0.80). La proyeccin de las las de Ysobre las
dos direcciones principales conduce a la gura 7.2
Se observa que las caractersticas ms prximas son la 2 y la 5. Las elecciones de los evalu-
adores parecen ser debidas a dos dimensiones. La primera explica el 0,75/(0,75+0,50+0,17)=52,83%
de la variabilidad y la segunda el 35%. La primera dimensin tiene en cuenta las similitudes
210 CAPTULO 7. ANLISIS DE CORRESPONDENCIAS
Figura 7.2: Proyeccin de las caractersticas de los productos
aparentes por las elecciones de las personas: las caractersticas c3 y c4 son elegidas por la
misma persona y por nadie ms, por lo que estas caractersticas aparecen juntas en un ex-
tremo. En el lado opuesto aparecen la c1 y c6, que son elegidas por la misma persona, y las
c2 y c5 que son elegidas por personas que tambin eligen la c6. En la segunda dimensin las
caractersticas extremas son las c1 y c2.
7.2.2 Proyeccin de las columnas
Podemos aplicar a las columnas de la matriz F un anlisis equivalente al de las las. Las
columnas sern ahora puntos en <
I
. Llamando
c = F
0
1
al vector de frecuencias relativas de las columnas y D
c
a la matriz diagonal que contiene
estas frecuencias relativas en la diagonal principal, de acuerdo con la seccin anterior la
mejor representacin de los J puntos (columnas) en un espacio de dimensin menor, con la
mtrica
2
conducir, por simetra, a estudiar la matriz D
1
c
F
0
D
1/2
f
. Observemos que, si
ahora consideramos la matriz F
0
y volvemos al problema de representarla por las (que es
equivalente a representar F por columnas), el problema es idntico al que hemos resuelto en
la seccin anterior. Ahora la matriz que contiene las frecuencias relativas de las las F
0
es
D
c
y la que contiene la de las columnas es D
f
. Intercambiando el papel de estas matrices,
las direcciones de proyeccin son los vectores propios de la matriz
Z Z
0
= D
1/2
f
FD
1
c
F
0
D
1/2
f
(7.13)
donde Z es la matriz I J denida por (7.10). Como Z
0
Z y ZZ
0
tienen los mismos valores
propios no nulos, esa matriz tendr tambin un valor propio unidad ligado al vector propio
1. Esta solucin trivial no se considera. Llamando b al vector propio ligado al mayor valor
7.2. BSQUEDA DE LA MEJOR PROYECCIN 211
propio distinto de la unidad de ZZ
0
, la mejor representacin de las columnas de la matriz en
un espacio de dimensin uno vendr dada por
y
c
(b)= Y
0
b = D
1
c
F
0
D
1/2
f
b (7.14)
y, anlogamente, la mejor representacin en dimensin dos de las columnas de la matriz
vendr dada por las coordenadas denidas por las las de la matriz
C
c
= Y
0
B
2
= D
1
c
F
0
D
1/2
f
B
2
donde B
2
= [b
1
b
2
] contiene en columnas los dos vectores propios ligados a los valores propios
mayores de ZZ
0
y menores que la unidad. La matriz C
c
es J 2 y cada la es la mejor
representacin de las columnas de la matriz F en un espacio de dos dimensiones.
7.2.3 Anlisis Conjunto
Dada la simetra del problema conviene representar conjuntamente las las y las columnas
de la matriz. Observemos que las matrices Z
0
Z y Z Z
0
tienen los mismos valores propios no
nulos y que los vectores propios de ambas matrices que corresponden al mismo valor propio
estn relacionados. En efecto, si a
i
es un vector propio de Z
0
Z ligado al valor propio
i
:
Z
0
Za
i
=
i
a
i
entonces, multiplicando por Z
ZZ
0
(Za
i
) =
i
(Za
i
)
y obtenemos que b
i
= Za
i
es un vector propio de ZZ
0
ligado al valor propio
i
. Una manera
rpida de obtener estos vectores propios es calcular directamente los vectores propios de la
matriz de dimensin ms pequea, Z
0
Z o ZZ
0
, y obtener los otros vectores propios como
Za
i
o Z
0
b
i
. Alternativamente podemos utilizar la descomposicin en valores singulares de la
matriz Z o Z
0
, estudiada al introducir los biplots en el captulo anterior. Esta descomposicin
aplicada a Z es
Z = B
r
D
r
A
0
r
=
r
X
i=1

1/2
i
b
i
a
0
i
donde B
r
contiene en columnas los vectores propios de ZZ
0
, A
r
los de Z
0
Z y D
r
es digonal y
contiene los valores singulares,
1/2
i
, o races de los valores propios no nulos y r = min(I, J).
Entonces la representacin de las las se obtiene con (7.12) y la de las columnas con (7.14).
La representacin de la matriz Z con h dimensiones (habitualmente h = 2) implica aproximar
esta matriz mediante
b
Z
h
= B
h
D
h
A
0
h
. Esto es equivalente, por (7.10), a una aproximacin a
la tabla de contingencia observada mediante:
b
F
h
= D
1/2
f
b
Z
h
D
1/2
c
, (7.15)
212 CAPTULO 7. ANLISIS DE CORRESPONDENCIAS
y una forma de juzgar la aproximacin que estamos utilizando es reconstruir la tabla de
contingencia con esta expresin.
Si deseamos eliminar el valor propio unidad desde el principio, dado que no aparta in-
formacin de inters, podemos reemplazar la matriz F por F
b
F
e
, donde
b
F
e
es la matriz de
frecuencias esperadas que viene dada por
b
F
e
=
1
n
rc
0
.
Puede comprobarse que la matriz F
b
F
e
tiene rango r 1, y ya no tiene el valor propio igual
a la unidad.
La proporcin de variabilidad explicada por cada dimensin se calcula como en com-
ponentes principales descartando el valor propio igual a uno y tomando la proporcin que
representa cada valor propio con relacin al resto.
En resumen, el anlisis de correspondencias de una tabla de contingencia de dimensiones
I J se realiza en los pasos siguientes
(1) Se calcula la tabla de frecuencias relativas, F.
(1) Se calcula la tabla estandarizada Z, de frecuencias relativas las mismas dimensiones
de la tabla original, I J, dividiendo cada celda de F por la raz de los totales de su la y
columna, z
ij
=

f
ij
/
p
f
i.
f
.j

.
(2) Se calculan los h (normalmente h = 2) vectores propios ligados a valores propios
mayores, pero distintos de la unidad, de las matriz de menor dimensin de las ZZ
0
y Z
0
Z. Si
obtenemos lo vectores propios a
i
de Z
0
Z, los b
i
de ZZ
0
se obtienen por b
i
= Za
i
. Analoga-
mente si se obtienen los b
i
de ZZ
0
a
i
= Z
0
b
i
. Las I las de la matriz se presentarn como
I puntos en <
h
y las coordenadas de cada la vienen dadas por
C
f
= D
1/2
f
ZA
2
donde A
2
tiene en columnas los dos vectores propios de Z
0
Z. Las J columnas se representarn
como J puntos en <
h
y las coordenadas de cada columna son
C
c
= D
1/2
c
Z
0
B
2
Ejemplo 7.3 Vamos a representar conjuntamente las las y las columnas de la matriz de
los colores. La gura 7.3 presenta esta representacin. Se observa que el grco describe de
manera clara la relacin entre ambas variables. La dimensin principal grada la tonalidad
de claro a oscuro y la segunda separa los castaos de los casos ms extremos.
Es importante calcular conjuntamente los vectores propios para evitar problemas de sig-
nos, ya sea calculando los vectores propios de una matriz y obteniendo los otros como producto
por la matriz Z o bien a travs de la descomposicin en valores singulares. La razn es que
si v es un vector propio tambin lo es -v y al calcular separadamente las coordenadas y su-
perponerlas podemos obtener un resultado como el que se presenta en la gura 7.4 . En esta
gura se han calculado separadamente las dos representaciones y luego se han superpuesto.
El lector puede comprobar que si cambiamos de signo las coordenadas del eje de ordenadas
se obtiene la representacin de la gura (7.3). Estos problemas de signos se evitan calculado
los vectores conjuntamente.
7.2. BSQUEDA DE LA MEJOR PROYECCIN 213
Figura 7.3: Representacin de los colores de ojos y cabello para los escolares escoceses.
Figura 7.4:
214 CAPTULO 7. ANLISIS DE CORRESPONDENCIAS
7.3 LA DISTANCIA JI-CUADRADO
El contraste de independencia entre las variables la y columna en una tabla de contingencia
I J se realiza con la estadstico
X
2
=
X
(fr. observadas - fr. esperadas)
2
fr. esperadas
que, en la hiptesis de independencia, sigue una distribucin
2
con (I 1) (J 1) grados
de libertad. De acuerdo con la notacin anterior, la frecuencia esperada en cada celda de la
la i, suponiendo independencia de las y columnas, se obtendr repartiendo el total de la
la, nf
i.
, porporcionalmente a la frecuencia relativa de cada columna, f
.j
. Por ejemplo, la
frecuencia esperada de la primera casilla de la tabla 5.1 se obtendr multiplicando el nmero
total de elementos de la la, 1580, por la proporcin de personas rubias sobre el total,
1455/5387. Por tanto, el estadstico X
2
para contrastar la independencia puede escribirse:
X
2
=
I
X
i=1
J
X
j=1
(nf
ij
nf
i.
f
.j
)
2
nf
i.
f
.j
(7.16)
donde f
i.
=
P
J
j=1
f
ij
es la frecuencia relativa de la la i y f
j.
=
P
I
i=1
f
ij
la de columna j.
Como
(nf
ij
nf
i.
f
.j
)
2
nf
i.
f
.j
=
nf
i.
f
.j
(f
ij
f
i.
f
.j
)
2
f
i.
2
la expresin del estadstico X
2
puede tambin escribirse como :
X
2
= n
I
X
i=1
f
i.
J
X
j=1
(
f
ij
f
i.
f
.j
)
2
1
f
.j
. (7.17)
En esta representacin la distribucin condicionada de las frecuencias relativas de cada
la,
n
f
ij
f
i.
o
, se compara con la distribucin media de las las {f
.j
} , y cada coordenada se
pondera inversamente a la frecuencia relativa que existe en esa columna. Se suman luego
todas las las, pero dando a cada la un peso tanto mayor cuanto mayor es su frecuencia,
nf
i.
.
Vamos a ver que esta representacin es equivalente a calcular las distancias entre los
vectores de la matriz de frecuencias relativas por las, R , denida en (7.1) si medimos la
distancia con la mtrica
2
. Consideremos los vectores r
0
i
, las de la matriz R . La media
de estos vectores es
r =
P
I
i=1
w
i
r
i
P
I
i=1
w
i
donde los w
i
son coecientes de ponderacion. La media aritmtica se obtiene con w
i
= 1,
dando a todas las las el mismo peso. Sin embargo, en este caso esta poderacin no es
7.3. LA DISTANCIA JI-CUADRADO 215
conveniente, porque debemos dar ms peso a las las que contengan ms datos. Podemos
ponderar por la frecuencia relativa de cada la, w
i
= f
i.
, y entonces
P
w
i
=
P
f
i.
= 1. Como
las frecuencias relativas de las las vienen dadas por el vector columna D
f
1, tenemos que
r = R
0
D
f
1
y utilizando (7.1)
r = F
0
D
1
f
D
f
1 = F
0
1 = c
y el valor medio de las las viene dado por el vector cuyos componentes son las frecuencias
relativas de las columnas. La distancia de cualquier vector de la, r
i
, a su media, c, con la
mtrica
2
ser
(r
i
c)
0
D
1
c
(r
i
c)
donde la matriz D
1
c
se obtuvo en (7.3) para construir la distancia
2
. La suma de todas estas
distancias, ponderadas por su importancia, que se conoce como inercia total de la tabla, es
I
T
=
I
X
i=1
f
i.
(r
i
c)
0
D
1
c
(r
i
c)
y esta expresin puede escribirse como
I
T
=
I
X
i=1
f
i.
J
X
j=1

f
ij
f
i.
f
.j

2
/f
.j
y si comparamos con (7.17) vemos que la inercia total es igual a X
2
/n.
Se demuestra que la inercia total es la suma de los valores propios de la matriz Z
0
Z
eliminado el uno. Por tanto, el anlisis de las las (o de las columnas ya que el problema es
simtrico) puede verse como una descomposicin de los componentes del estadstico X
2
en
sus fuentes de variacin.
La distancia
2
tiene una propiedad importante que se conoce como el principio de equiv-
alencia distribucional. Esta propiedad es que si dos las tienen la misma estructura relativa,
f
ij
/f
i.
y las unimos en una nueva la nica, las distancias entre las restantes las permanecen
invariables. Esta misma propiedad por simetra se aplica a las columnas. Esta propiedad
es importante, porque asegura una cierta invarianza del procedimiento ante agregaciones o
desagregaciones irrelevantes de las categoras. Para demostrarlo, consideremos la distancia

2
entre las las a y b
J
X
j=1
(
f
aj
f
a.

f
bj
f
b.
)
2
1
f
.j.
es claro que esta distancia no se modica si unimos dos las en una, ya que esta unin no
va a afectar a las frecuencias f
ij
/f
i.
ni tampoco a f
.j.
. Vamos a comprobar que si unimos
dos las con la misma estructura la distancia de la nueva la al resto es la misma que las
216 CAPTULO 7. ANLISIS DE CORRESPONDENCIAS
de las las originales. En efecto, supongamos que para las las 1 y 2, se verica que para
j = 1, ..., J
f
1j
f
1.
=
f
2j
f
2.
= g
j
entonces, si unimos estas dos las en una nueva la, se obtiene que, para la nueva la
f
1j
+f
2j
f
1.
+f
2.
= g
j
y su distancia a cualquier otra la permanecer invariable.
Esta propiedad garantiza que no perdemos nada al agregar categora homogneas ni
podemos ganar nada por desagregar una categora homognea.
Ejemplo 7.4 Se han contabilizado los pesos y las alturas de 100 estudiantes universitarios
y se han formado 4 categorias tanto para el peso como para la altura. Para el peso, las
categorias se denotan P1, de 51 a 60 k., P2, de 61 a 70 k., P3, de 71 a 80 k. y P4, de 81 a
90 k. Para la altura se denotan A1, de 151 a 160 cm., A2, de 161 a 170 cm., A3, de 171 a
180 cm. y A4, de 181 a 190 cm. La siguiente tabla de contingencia muestra las frecuencias
de cada grupo:
Peso/Altura A1 A2 A3 A4
P1 15 8 3 0
P2 10 15 7 2
P3 2 7 17 3
P4 0 2 3 6
Realizar proyecciones por las, por columnas y conjunta de las y columnas. Comprobar
como las proyecciones por las y por columnas separan claramente las categorias, pero que
la proyeccin conjunta asocia claramente cada categora de un peso con la de una altura.
Para la proyeccin por las, la variable Y queda:
Y = RD

1
2
c
=
_

_
0.1110 0.0544 0.0211 0
0.0566 0.0780 0.0376 0.0177
0.0133 0.0427 0.1070 0.0312
0 0.0321 0.0498 0.1645
_

_
Los tres valores propios y vectores propios diferentes de uno de esta matriz son:
valor propio vector propio
0.3717 -0.6260 -0.1713 0.3673 0.6662
0.1401 -0.2974 -0.0064 0.6890 -0.6610
0.0261 0.4997 -0.8066 0.3007 0.0964
7.3. LA DISTANCIA JI-CUADRADO 217
La proyeccin por las es:
-0.1 -0.05 0 0.05 0.1 0.15
-0.08
-0.06
-0.04
-0.02
0
0.02
0.04
0.06
P1
P2
P3
P4
Para las columnas, los tres valores propios y vectores propios diferentes de uno de esta matriz
son:
valor propio vector propio
0.3717 -0.5945 -0.2216 0.3929 0.6656
0.1401 -0.2568 -0.0492 0.7034 -0.6609
0.0261 0.5662 -0.7801 0.2466 0.1005
La proyeccin por columnas es:
-0.08 -0.06 -0.04 -0.02 0 0.02 0.04 0.06 0.08 0.1 0.12
-0.1
-0.08
-0.06
-0.04
-0.02
0
0.02
0.04
A1
A2
A3
A4
218 CAPTULO 7. ANLISIS DE CORRESPONDENCIAS
El resultado de la proyeccin conjunta es el siguiente donde alturas y pesos quedan asociados:
-0.1 -0.05 0 0.05 0.1 0.15
-0.06
-0.04
-0.02
0
0.02
0.04
0.06
0.08
0.1
A1
P1
A2
P2
A3
P3
A4
P4
Ejemplo 7.5 Del conjunto de datos MUNDODES, se ha tomado la esperanza de vida de
hombres y de mujeres. Se han formado 4 categorias tanto para la mujer como para el hombre.
Se denotan por M1 y H1, a las esperanzas entre menos de 41 a 50 aos, M2 y H2, de 51 a
60 aos, M3 y H3, de 61 a 70, y M4 y H4, para entre 71 a ms de 80. La siguiente tabla de
contingencia muestra las frecuencias de cada grupo:
Mujer/Hombre H1 H2 H3 H4
M1 10 0 0 0
M2 7 12 0 0
M3 0 5 15 0
M4 0 0 23 19
Realizar proyecciones por las, por columnas y conjunta de las y columnas. Comprobar
que en la proyeccin por las las categorias estn claramente separadas y que en el caso del
hombre, las dos ltimas categoras estn muy cercanas. Comprobar en la proyeccin conjunta
la cercania de las categoras H3 con M3 y M4.
Para la proyeccin por las, la variable Y queda:
Y = RD

1
2
c
=
_

_
0.2425 0 0 0
0.0894 0.1532 0 0
0 0.0606 0.1217 0
0 0 0.0888 0.1038
_

_
7.3. LA DISTANCIA JI-CUADRADO 219
Los tres valores propios y vectores propios diferentes de uno de esta matriz son:
valor propio vector propio
0.8678 0.7221 0.3551 -0.4343 -0.4048
0.3585 -0.5249 0.7699 0.0856 -0.3528
0.1129 -0.1274 0.3072 -0.6217 0.7091
La proyeccin por las es:
-0.1 -0.05 0 0.05 0.1 0.15 0.2 0.25
-0.15
-0.1
-0.05
0
0.05
0.1
M1
M2
M3
M4
Para las columnas, los tres valores propios y vectores propios diferentes de uno de esta matriz
son:
valor propio vector propio
0.8678 -0.5945 -0.5564 0.1503 0.5606
0.3585 -0.6723 0.5172 0.4265 -0.3141
0.1129 -0.2908 0.4628 -0.7588 0.3543
220 CAPTULO 7. ANLISIS DE CORRESPONDENCIAS
La proyeccin por columnas es:
-0.2 -0.15 -0.1 -0.05 0 0.05 0.1 0.15
-0.2
-0.15
-0.1
-0.05
0
0.05
0.1
0.15
H1
H2
H3
H4
El resultado de la proyeccin conjunta es:
-0.2 -0.15 -0.1 -0.05 0 0.05 0.1 0.15
-0.2
-0.15
-0.1
-0.05
0
0.05
0.1
0.15
M1
H1
M2
H2
M3
H3
M4 H4
7.4 ASIGNACIN DE PUNTUACIONES
El anlisis de correspondencias puede aplicarse tambin para resolver el siguiente problema.
Supongamos que se desea asignar valores numricos y
c
(1), ..., y
c
(J) a las columnas de una
matriz F de observaciones, o, en otros trminos, convertir la variable en columnas en una
7.4. ASIGNACIN DE PUNTUACIONES 221
variable numrica. Por ejemplo, en la tabla (7.3) el color del cabello puede considerarse una
variable contina y es interesante cuanticar las clases de color denidas. Una asignacin
de valores numricos a las columnas de la tabla inducir automticamente unos valores
numricos para las categoras de la variable en las. En efecto, podemos asociar a la la i el
promedio de la variable y
c
en esa la, dado por:
y
i
=
P
J
j=1
f
ij
y
c
(j)
P
J
j=1
f
ij
=
J
X
j=1
r
ij
y
c
(j) (7.18)
donde r
ij
= f
ij
/f
i.
es la frecuencia relativa condicionada a la la. El vector de valores as
obtenido para todas las las ser un vector I 1 dado por:
y
f
= Ry
c
= D
1
r
Fy
c
(7.19)
Anlogamente, dadas unas puntuaciones y
f
para las las, las puntuaciones de las colum-
nas pueden estimarse igualmente por sus valores medios en cada columna, obteniendo el
vector J 1:
y
c
= D
1
c
F
0
y
f
(7.20)
Escribiendo conjuntamente (7.19) y (7.20) resultan las ecuaciones:
y
f
= D
1
f
F D
1
c
F
0
y
f
(7.21)
y
c
= D
1
c
F
0
D
1
f
Fy
c
(7.22)
que indican que las puntuaciones y
f
, y y
c
se obtienen como vectores propios de estas matrices.
Observemos que estas puntuaciones admiten una solucin trivial tomando y
c
= (1, ..., 1)
0
J
,
y
f
= (1, ..., 1)
0
I
. En efecto, las matrices D
1
c
F
0
y D
1
f
F suman uno por las, ya que son
de frecuencias relativas. Esta solucin equivale en (7.21) y (7.22) al valor propio 1 de la
correspondiente matriz. Para encontrar una solucin no trivial al problema, vamos a exigir
que ambas ecuaciones se cumplan aproximadamente introduciendo un coeciente de propor-
cionalidad, < 1, pero que queremos sea tan prximo a uno como sea posible. Multiplicando
(7.19) por D
1/2
f
y (7.20) por D
1/2
c
e introduciendo este coeciente de proporcionalidad ten-
emos que
(D
1/2
f
y
f
) = D
1/2
f
F D
1/2
c
(D
1/2
c
y
c
) (7.23)
(D
1/2
c
y
c
) = D
1/2
c
F
0
D
1/2
f
(D
1/2
f
y
f
) (7.24)
222 CAPTULO 7. ANLISIS DE CORRESPONDENCIAS
Para resolver estas ecuaciones, llamemos b = D
1/2
f
y
f
, a = D
1/2
c
y
c
y Z = D
1/2
f
F D
1/2
c
.
Sustituyendo estas deniciones en (7.23) y (7.24), obtenemos b = Za y a = Z
0
b y sustiuyen-
do una de estas ecuacione en la otra se obtiene

2
b = ZZ
0
b (7.25)

2
a = Z
0
Za (7.26)
Estas ecuaciones muestran que b y a son vectores propios ligados al valor propio
2
de
las matrices ZZ
0
y Z
0
Z. Los vectores de puntuaciones se obtendrn despus a partir de la
denicin de b = D
1/2
f
y
f
, con lo que resulta:
y
f
= D
1/2
f
b (7.27)
y como a = D
1/2
c
y
c
,
y
c
= D
1/2
c
a (7.28)
Las matrices ZZ
0
o Z
0
Z siempre admite el valor propio 1 ligado a un vector propio
(1, ..., 1)
0
. Tomando como a y b los vectores propios ligados al segundo mayor valor propio,
< 1, de estas matrices obtenemos las puntuaciones ptimas de las y columnas.
Podemos obtener una representacin grca de las las y columnas de la matriz de la
forma siguiente: si sustituimos las puntuaciones y
c
dadas por (7.28), que se denominan a
veces factores asociados a las columnas, en la ecuacin (7.19) y escribimos
y
f
(a) = D
1
f
FD
1/2
c
a
obtenemos las proyecciones de las las encontradas en (7.12). Anlogamente, sustituyendo
los factores y
f
asociados a las las en (7.20) y escribiendo
y
c
(b)= D
1
c
F
0
D
1/2
f
b
encontramos las proyecciones de las columnas de (7.14).
Concluimos que el problema de asignar puntaciones de una forma consistente a las las
y a las columnas de una tabla de contingencia, es equivalente al problema de encontrar
una representacin ptima en una dimensin de las las y las columnas de la matriz. En
otros trminos, el anlisis de correspondencia proporciona en la primera coordenada de las
las y columnas una forma consistente de asignar puntuaciones numricas a las las y a las
columnas de la tabla de contingencia.
7.4. ASIGNACIN DE PUNTUACIONES 223
Ejemplo 7.6 La tabla adjunta indica las puntuaciones alta (A), media (M) y baja (B)
obtenidas por 4 profesores P
1
, ..., P
4
, que han sido evaluados por un total de 49 estudiantes.
Qu puntuaciones habra que asignar a las categoras alta, media y baja? y a los profe-
sores?
A M B
P
1
2 6 2 10
P
2
4 4 4 12
P
3
1 10 4 15
P
4
7 5 0 12
14 25 10 49
Entonces la matriz Z = D
1/2
f
F D
1/2
c
es
Z =
_

_
.169 .380 .200
.309 .230 .365
.069 .516 .327
.540 .288 0
_

_
Vamos a obtener la descomposicin en valores singulares de esta matriz. Es :
Z =
_

_
.452 .166 .249
.495 . 004 .869
.553 .581 .317
.495 .797 .288
_

_
_
_
1
.45
.22
_
_
_
_
.534 .816 .221
.714 .296 .634
.452 .497 .741
_
_
que conduce a las variables
y = D
1/2
f
b
i
=
_

_
.143 .052 .079
.143 .001 .251
.143 .150 .082
.143 .230 .083
_

_
z = D
1/2
c
a =
_
_
.143 .218 .059
.143 .059 .127
.143 .157 .234
_
_
La mejor puntuacin -en el sentido de la mxima discriminacin- corresponde a (mul-
tiplicando por -1 el segundo vector propio para que los nmeros ms altos correpondan a
puntuaciones altas y favorecer la interpretacin) 218, -059, -157 y a los profesores (multi-
plicando por -1 el segundo vector propio, para ser consistentes con el cambio anterior) 230
-150 001 -052. Si queremos trasladar estas puntuaciones a una escala entre cero y diez,
escribiremos
y =
x x
min
x
max
x
min
10
224 CAPTULO 7. ANLISIS DE CORRESPONDENCIAS
-0.1 -0.05 0 0. 05 0. 1 0. 15
-0.04
-0.02
0
0.02
0.04
0.06
0.08
0.1
0.12
0.14
0.16
P4
P1
P2
P3
Alt o
Medio
Baja
Figura 7.5: Proyeccin de los profesores y de las puntuaciones
y las puntuaciones se convierten en 10, 7.4 y 0 y. Las evaluaciones de los profesores al
pasarlas a la escala de cero a diez se convierten en 10, 0, 3.98, 2.57. La gura 7.5 presenta
la proyeccin de los profesores y de las categoras sobre el plano de mejor representacin.
Ejemplo 7.7 La tabla de contingencia siguiente indica las puntuaciones, muy buena (MB),
buena (B), regular (R) o mala (M) obtenidas por las 5 pelculas nominadas a los Oscars a
la mejor pelcula del ao 2001 que han sido evaluadas por un total de 100 crticos de cine de
todo el mundo. Que puntuaciones habra que asignar a las categoras? y a las pelculas?
Pelculas/Puntuacin M R B MB
P1 1 7 2 10 20
P2 0 3 2 15 20
P3 2 7 2 9 20
P4 0 1 3 16 20
P5 1 3 3 13 20
4 21 12 63 100
La matriz P es:
_

_
0.1118 0.3416 0.1291 0.2817
0 0.1464 0.1291 0.4226
0.2236 0.3416 0.1291 0.2535
0 0.0488 0.1936 0.4507
0.1118 0.1464 0.1936 0.3662
_

_
7.5. LECTURAS COMPLEMENTARIAS 225
Las variables que se obtienen son:
y = Dr

1
2
b =
_

_
0.1000 -0.0934 -0.1124 0.1365 0.0000
0.1000 0.0721 -0.1208 -0.1234 0.0707
0.1000 -0.1356 0.0707 -0.1078 -0.0707
0.1000 0.1304 0.0334 0.0435 -0.1414
0.1000 0.0266 0.1291 0.0512 0.1414
_

_
z = Dc

1
2
a =
_

_
0.1000 -0.2382 0.3739 -0.2085
0.1000 -0.1580 -0.1053 0.0396
0.1000 0.0369 0.1282 0.2357
0.1000 0.0608 -0.0130 -0.0448
_

_
La mejor puntuacin para las categoras corresponde a -0.2382, -0.1580, 0.0369 y 0.0608.
Para las pelculas (multiplicando por -1 el segundo vector propio) a -0.0934, 0.0721, -0.1356,
0.1304 y 0.0266. Si trasladamos todas las puntuaciones entre cero y diez, obtenemos para
las categorias los valores 0, 2.6823, 9.2007 y 10. Para las cinco pelculas tenemos 1.5864,
7.8082, 0, 10 y 6.0977. La proyeccin conjunta muestra como la pelicula ms cercana a la
puntuacin muy buena (MB) es P4:
7.5 Lecturas complementarias
El anlisis de correspondencias puede extenderse para estudiar tablas de cualquier dimen-
sin con el nombre de anlisis de correspondencias mltiple. En este enfoque se utiliza la
descomposicin en valores singulares para aproximar simultaneamente todas las tablas bidi-
mensionales que pueden obtenerse de una tabla multidimensional. Una buena introduccin
226 CAPTULO 7. ANLISIS DE CORRESPONDENCIAS
desde el punto de vista de componentes principales con la mtrica ji-cuadrado se encuentra
en Gower y Hand (1995). Presentaciones de esta tcnica como extensin del anlisis de
correspondencias presentado en este captulo se encuentran en Greenacre (1984) y Lebart
et al (1984). La literatura sobre anlisis de correspondencias est sobre todo en francs,
vase Lebart et al (1997) y Saporta (1990). En espaol Cuadras (1990) y Escoer y Pages
(1990). Jackon (1991) contiene una sucinta descripcin del mtodo con bastantes referencias
histricas y actuales. Lebart, Salem y Bcue (2000) presenta interesantes aplicaciones del
anlisis de correspondencias para el estudio de textos.
Ejercicios 7
7.1 Demostrar que la traza de las matrices Z
0
Z y ZZ
0
es la misma.
7.2 Demostrar que el centro de los vectores r
i
de las las, donde cada la tiene un peso
f es el vector c de las frecuencias relativas de las columnas (calcule r =
P
f
i.
r
i
= R
0
D
f
1)
7.3 Demostrar que dada una matriz de datos X donde cada la tiene un peso W la
operacin que convierte a esta matriz en otra de media cero es
e
X = (I 11
0
W)X.
7.4 Demostrar que la suma de las distancias de Mahalanobis ponderadas de las las es
igual a la de las columnas, donde la suma de las las es
P
f
i.
(r
i
c)
0
D
1
c
(r
i
c).
7.5 Supongamos que estudiamos dos caractersticas en los elementos de un conjunto que
pueden darse en los niveles alto, medio y bajo en ambos casos. Si las frecuencias relativas
con las que aparecen estos niveles son las mismas para las dos caractersticas, indicar la
expresin de la representacin de las las y columnas en el plano bidimensional.
7.6 En el ejemplo 7.5 qu podemos decir de la puntuacin ptima para cuanticar las
las y columnas?
7.7 Indicar cmo afecta a la representacin de las y columnas que la tabla de contin-
gencias sea simtrica, es decir, f
ij
= f
ji
.
7.8 Justicar que la variable
(f
ij
r
i
c
j
/n)

r
i
c
j
/n
es aproximadamente una variable normal estndar.
7.9 Demostrar que si denimos la matriz X con elemento genrico x
ij
= (f
ij
f
i.
f
.j
)/
p
f
i.
f
.j
la matriz X
0
X tiene los mismos valores vectores propios que la Z
0
Z, donde z
ij
= f
ij
/
p
f
i.
f
.j
salvo el valor propio 1 que aparece en Z
0
Z, y no en X
0
X .
Captulo 8
ANLISIS DE CONGLOMERADOS
8.1 FUNDAMENTOS
El anlisis de conglomerados (clusters) tiene por objeto agrupar elementos en grupos ho-
mogneos en funcin de las similitudes o similaridades entre ellos. Normalmente se agrupan
las observaciones, pero el anlisis de conglomerados puede tambin aplicarse para agrupar
variables. Estos mtodos se conocen tambin con el nombre de mtodos de clasicacin
automtica o no supervisada, o de reconocimiento de patrones sin supervisin. El nombre
de no supervisados se aplica para distinguirlos del anlisis discriminante, que estudiaremos
en el captulo 13. El anlisis de conglomerados estudia tres tipos de problemas:
Particin de los datos. Disponemos de datos que sospechamos son heterogneos y se
desea dividirlos en un nmero de grupos prejado, de manera que:
(1) cada elemento pertenezca a uno y solo uno de los grupos;
(2) todo elemento quede clasicado;
(3) cada grupo sea internamente homogneo.
Por ejemplo, se dispone de una base de datos de compras de clientes y se desea hacer
una tipologa de estos clientes en funcin de sus pautas de consumo.
Construccin de jerarquas. Deseamos estructurar los elementos de un conjunto de forma
jerrquica por su similitud. Por ejemplo, tenemos una encuesta de atributos de distintas
profesiones y queremos ordenarlas por similitud. Una clasicacin jerrquica implica que los
datos se ordenan en niveles, de manera que los niveles superiores contienen a los inferiores.
Este tipo de clasicacin es muy frecuentes en biologa, al clasicar animales, plantas etc.
Estrictamente, estos mtodos no denen grupos, sino la estructura de asociacin en cadena
que pueda existir entre los elementos. Sin embargo, como veremos, la jerarqua construida
permite obtener tambin una particin de los datos en grupos.
Clasicacin de variables. En problemas con muchas variables es interesante hacer
un estudio exploratorio inicial para dividir las variables en grupos. Este estudio puede
orientarnos para plantear los modelos formales para reducir la dimensin que estudiaremos
ms adelante. Las variables pueden clasicarse en grupos o estructurarse en una jerarqua.
Los mtodos de particin utilizan la matriz de datos, pero los algoritmos jerrquicos
utilizan la matriz de distancias o similitudes entre elementos. Para agrupar variables se
parte de la matriz de relacin entre variables: para variables continuas suele ser la matriz de
227
228 CAPTULO 8. ANLISIS DE CONGLOMERADOS
correlacin, y para variables discretas, se construye, como veremos, a partir de la distancia
ji-cuadrado.
Vamos a estudiar en primer lugar los mtodos de particin
8.2 MTODOS CLSICOS DE PARTICIN
8.2.1 Fundamentos del algoritmo de k-medias
Supongamos una muestra de n elementos con p variables. El objetivo es dividir esta muestra
en un nmero de grupos prejado, G. El algoritmo de k-medias (que con nuestra notacin
debera ser de Gmedias) requiere las cuatro etapas siguientes :
(1) Seleccionar G puntos como centros de los grupos iniciales. Esto puede hacerse:
a) asignando aleatoriamente los objetos a los grupos y tomando los centros de los
grupos as formados;
b) tomando como centros los G puntos ms alejados entre s ;
c) construyendo los grupos con informacin a priori, o bien seleccionando los centros
a priori.
(2) Calcular las distancias eucldeas de cada elementoa al centro de los G grupos, y asignar
cada elemento al grupo ms prximo. La asignacin se realiza secuencialmente y al
introducir un nuevo elemento en un grupo se recalculan las coordenadas de la nueva
media de grupo.
(3) Denir un criterio de optimalidad y comprobar si reasignando uno a uno cada elemento
de un grupo a otro mejora el criterio.
(4) Si no es posible mejorar el criterio de optimalidad, terminar el proceso.
8.2.2 Implementacin del algoritmo
El criterio de homogeneidad que se utiliza en el algoritmo de k-medias es la suma de
cuadrados dentro de los grupos (SCDG) para todas las variables, que es equivalente a la
suma ponderada de las varianzas de las variables en los grupos:
SCDG=
G
X
g=1
p
X
j=1
ng
X
i=1
(x
ijg
x
jg
)
2
(8.1)
donde x
ijg
es el valor de la variable j en el elemento i del grupo g y x
jg
la media de esta
variable en el grupo. El criterio se escribe
min SCDG = min
G
X
g=1
p
X
j=1
n
g
s
2
jg
(8.2)
8.2. MTODOS CLSICOS DE PARTICIN 229
donde n
g
es el nmero de elementos del grupo g y s
2
jg
es la varianza de la variable j en
dicho grupo. La varianza de cada variable en cada grupo es claramente una medida de la
heterogeneidad del grupo y al minimizar las varianzas de todas las variables en los grupos
obtendremos grupos ms homogneos. Un posible criterio alternativo de homogeneidad
sera minimizar las distancias al cuadrado entre los centros de los grupos y los puntos que
pertenecen a ese grupo. Si medimos las distancias con la norma eucldea, este criterio se
escribe:
min
G
X
g=1
ng
X
i=1
(x
ig
x
g
)
0
(x
ig
x
g
) =
G
X
g=1
ng
X
i=1
d
2
(i, g)
donde d
2
(i, g) es el cuadrado de la distancia eucldea entre el elemento i del grupo g y su
media de grupo. Es fcil comprobar que ambos criterios son idnticos. Como un escalar es
igual a su traza, podemos escribir este ltimo criterio como
min
G
X
g=1
ng
X
i=1
tr

d
2
(i, g)

= min tr
"
G
X
g=1
ng
X
i=1
(x
ig
x
g
)(x
ig
x
g
)
0
#
y llamando W a la matriz de suma de cuadrados dentro de los grupos,
W =
G
X
g=1
ng
X
i=1
(x
ig
x
g
)(x
ig
x
g
)
0
teenmos que
min tr(W) = min SCDG
Como la traza es la suma de los elementos de la diagonal principal ambos criterios coinciden.
Este criterio se denomina criterio de la traza, y fue propuesto por Ward (1963).
La maximizacin de este criterio requerira calcularlo para todas las posibles particiones,
labor claramente imposible, salvo para valores de n muy pequeos. El algoritmo de kmedias
busca la particin ptima con la restriccin de que en cada iteracin slo se permite mover
un elemento de un grupo a otro. El algoritmo funciona como sigue
(1) Partir de una asignacin inicial
(2) Comprobar si moviendo algn elemento se reduce W.
(3) Si es posible reducir W mover el elemento, recalcular las medias de los dos grupos
afectados por el cambio y volver a (2). Si no es posible reducir W terminar.
En consecuencia, el resultado del algortimo puede depender de la asignacin inicial y
del orden de los elementos. Conviene siempre repetir el algoritmo desde distintos valores
iniciales y permutando los elemento de la muestra. El efecto del orden de las observaciones
suele ser pequeo, pero conviene asegurarse en cada caso de que no esta afectando.
El criterio de la traza tiene dos propiedades importantes. La primera es que no es
invariante ante cambios de medida en las variables. Cuando las variables vayan en unidades
distintas conviene estandarizarlas, para evitar que el resultado del algoritmo de k-medias
dependa de cambios irrelevantes en la escala de medida. Cuando vayan en las mismas
230 CAPTULO 8. ANLISIS DE CONGLOMERADOS
unidades suele ser mejor no estandarizar, ya que es posible que una varianza mucho mayor
que el resto sea precisamente debida a que existen dos grupos de observaciones en esa variable,
y si estandarizamos podemos ocultar la presencia de los grupos. Por ejemplo, la gura 8.1
muestra un ejemplo donde la estandarizacin puede hacer ms difcil la identicacin de los
grupos.
Figura 8.1: La estandarizacin puede dicultar la identicacin de los grupos.
La segunda propiedad del criterio de la traza es que minimizar la distancia eucldea
produce grupos aproximadamente esfricos. Las razones para este hecho se estudiarn en el
captulo 15. Por otro lado este criterio esta pensado para variables cuantitativas y, aunque
puede aplicarse si existe un pequeo nmero de variables binarias, si una parte importante
de las variables son atributos, es mejor utilizar los mtodos jerrquicos que se describen a
continuacin.
8.2.3 Nmero de grupos
En la aplicacin habitual del algoritmo de k-medias hay que jar el nmero de grupos, G.
Es claro que este nmero no puede estimarse con un criterio de homogeneidad ya que la
forma de conseguir grupos muy homogneos y minimizar la SCDG es hacer tantos grupos
como observaciones, con lo que siempre SCDG=0. Se han propuesto distintos mtodos para
seleccionar el nmero de grupos. Un procedimiento aproximado que se utiliza bastante,
aunque puede no estar justicado en unos datos concretos, es realizar un test F aproximado
de reduccin de variabilidad, comparando la SCDG con Ggrupos con la de G+1, y calculando
la reduccin proporcional de variabilidad que se obtiene aumentando un grupo adicional. El
test es:
F =
SCDG(G) SCDG(G+ 1)
SCDG(G+ 1)/(n G1)
(8.3)
8.2. MTODOS CLSICOS DE PARTICIN 231
y compara la disminucin de variabilidad al aumentar un grupo con la varianza promedio.
El valor de F suele compararse con una F con p, p(n G 1) grados de libertad, pero
esta regla no esta muy justicada porque los datos no tienen porque vericar las hiptesis
necesarias para aplicar la distribucin F . Una regla emprica que da resultados razonables,
sugerida por Hartigan (1975), e implantada en algunos programas informticos, es introducir
un grupo ms si este cociente es mayor que 10.
Ejemplo 8.1 La gura 8.2 presenta los datos de ruspini (chero ruspini.dat) que incluye
75 datos de dos variables y que se han utilizado para comparar distintos algoritmos de clasi-
cacin. El grco muestra claramente cuatro grupos de datos en dos dimensiones.
Figura 8.2: Datos de Ruspini
La tabla 8.1 muestra el resultado de aplicar el programa de k-medias en Minitab para
distinto nmero de grupos a los datos sin estandarizar. De acuerdo con el criterio F existen
tres grupos en los datos. Las guras 8.3, 8.4, 8.5 y 8.6 muestran los grupos obtenidos con
este programa.
La tabla se ha construido a partir de la informacin proporcionada por el programa. Al
pasar de 2 a 3 grupos hay una reduccin de variabilidad muy signicativa dada por
F =
89247 51154
51154/(75 4)
= 52. 87
Sin embargo al pasar de 3 a 4 grupos la reduccin no es signicativa
F =
51154 50017
50017/(75 5)
= 1. 59.
El algortimo de k-medias implantado en minitab llevara a dividir los datos en los tras
grupos indicados en la gura 8.4. Si aplicamos el algoritmo a los datos estandarizados se
232 CAPTULO 8. ANLISIS DE CONGLOMERADOS
Nmero de grupos tamao SCDG(i) SCDG F
2 34 43238
40 46009 89247
3 20 3689
40 46009
15 1456 51154 52.8
4 4 170
16 2381
15 1456
40 46009 50017 1.59
5 4 170
5 292
11 857
40 46009
15 1456 48784
Tabla 8.1: Tabla con la informacin para seleccionar el nmero de grupos con el algoritmo
de k.medias.
obtienen de nuevo tres grupos, pero distintos: el primero esta formado por los dos conjuntos
de puntos situados en la parte superior del grco y los otros dos grupos por los dos inferiores.
Figura 8.3: Divisin de los datos de Ruspini en dos grupos con Minitab.
Para estudiar el funcionamiento de distintos programas hemos aplicado el mismo anlisis
a estos datos con el programa de k-medias de SPSS. La particin en dos grupos es la misma
con ambos programas, pero la particin en tres y cuatro grupos es distinta como muestran
las guras 8.7, 8.8 y 8.9. El programa SPSS produce mejores resultados que Minitab. Este
ejemplo sugiere que antes de aceptar los resultados de un anlisis de conglomerados mediante
8.2. MTODOS CLSICOS DE PARTICIN 233
Figura 8.4: Divisin de los datos de Ruspini en tres grupos con Minitab
Figura 8.5: Divisin de los datos de Ruspini en cuatro grupos con Minitab
234 CAPTULO 8. ANLISIS DE CONGLOMERADOS
G = 2 G = 3 G = 4 G = 5 G = 6
eh 30 20 14 15 14
em 35 22 13 16 12
mi 509 230 129 76 83
tm 15 11 9 9 9
tn 64 58 37 35 26
Total=MS(G) 653 341 202 151 144
F 82.4 61.5 30.4 6.2
Tabla 8.2: Tabla con la informacin para seleccionar el nmero de grupos con el algoritmo
de k.medias.
el algoritmo de K-medias conviene probar distintos puntos de partida y distintos algoritmos.
Ejemplo 8.2 Vamos a aplicar el algoritmo de k-medias a los datos de los pases. Se van
a utilizar nicamente las 5 variables demogrcas de MUNDODES. Comenzaremos comen-
tando los resultados obtenidos al utilizar el programa k-medias con el programa SPSS. Para
decidir el nmero de grupos este programa nos proporciona la varianza promedio dentro de
los grupos para cada variable. Por ejemplo, si G = 2, dos grupos, la segunda columna de la
tabla 15.1 indica que la varianza promedio dentro de los dos grupos o no explicada para la
variable eh es 30, para la variable em es 35, y as sucesivamente. Este trmino se calcula
como sigue: para cada variable hacemos la descomposicin del anlisis de la varianza de su
suma de cuadrados total
P
(x
ij
x)
2
en la variabilidad explicada,
P
(x
i
x)
2
, donde x
i
es
la media de la variable en cada grupo, y la no explicada,
P
(x
ij
x
i
)
2
. Este ltimo trmino
dividido por sus grados de libertad, que son n G proporciona la varianza promedio dentro
de los grupos o no explicada. Segn la denicin La suma de estas varianzas multiplicada
por n G proporciona el estadstico SCDG, como indica la frmula (15.5). La tabla 15.1
resume esta informacin
La tabla muestra que, como es de esperar, las varianzas promedio de las variables dismin-
uyen al hacer ms grupos. La tabla muestra que la variable mi tiene mucha ms varianza que
las dems, y por tanto va a tener un peso muy importante en la construccin de los grupos,
que van a hacerse principalmente por los valores de esta variable. La tabla de las varianzas
muestra que el nmero de grupos es cinco, ya que al aumentar a seis la disminucin de
las varianzas es muy pequea. Podemos contrastar esta intuicin calculando el estadstico
F dado por (8.3). Llamando MS(G) a la la de totales que ser igual a SCDG(G)/(n-G),
tenemos que este estadistico se calcula como
F =
(n G)MS(G) (n G1)MS(G+ 1)
MS(G+ 1)
donde n = 91 y G es el nmero de grupos indicado por columnas. Por ejemplo, el contraste
para ver si conviene pasar de dos grupos a tres ser
F =
89.653 88.341
341
= 82.45
8.2. MTODOS CLSICOS DE PARTICIN 235
Figura 8.6: Divisin de los datos de Ruspini en 5 grupos con Minitab
Figura 8.7: Divisin en tres grupos de los datos de Ruspini con SPSS
236 CAPTULO 8. ANLISIS DE CONGLOMERADOS
Figura 8.8: Divisin en cuatro grupos de los datos de Ruspini con SPSS
Figura 8.9: Divisin en cinco grupos de los datos de Ruspini con SPSS
8.2. MTODOS CLSICOS DE PARTICIN 237
mortalidad infantil
180.0
170.0
160.0
150.0
140.0
130.0
120.0
110.0
100.0
90.0
80.0
70.0
60.0
50.0
40.0
30.0
20.0
10.0
0.0
30
20
10
0
Desv. tp. =46.30
Media =55.3
N = 91.00
Figura 8.10: Histograma de la variable mortalidad infantil indicando la presencia de entre
cuatro y cinco grupos de paises
As se obtiene la la de F de la tabla, y, de acuerdo con el criterio de Hartigan, escogeramos
cinco grupos.
Como hemos visto que la variable mi es muy importante en la construccin de los grupos,
la gura 15.1 presenta un histograma de esta variable. Se observa que esta variable, que va a
tener un peso dominante en la formacin de los grupos, indica claramente la heterogeneidad
de la muestra. En los grupos construidos el grupo con menor mortalidad infantil es el tres,
que incluye los paises de Europa menos Albania, y el de mayor mortalidad, el dos, que incluye
a los pases ms pobres de Africa.
La gura 8.11 ilustra la posicin de los 5 grupos en el grco de las dos variables ms
inuyentes y la gura 8.12 la composicin de los grupos. Se observa que el grupo 3 esta
formado por la mayora de los pases europeos, japn y norte amrica, el grupo1 incluye
los pases europeos ms pobres, los ms ricos de latinoamrica y otros pases como China
y Egipto. El grupo 4 engloba pases de desarrollo medio africanos (como surfrica o Zaire)
lationamericanos (Brasil) y de Asia como Arabia Saudita, India e Indonesia. Finalmente
los grupos 5 y 2 incluye los pases menos desarrollos.
238 CAPTULO 8. ANLISIS DE CONGLOMERADOS
Figura 8.11: Representacin de los grupos en el grco de dispersin de las variables mor-
talidad infantil y tasa de natalidad
Figura 8.12: Indicacin de los pases que pertenecen a cada uno de los grupos.
Hemos repetido el anlisis utilizando el programa Minitab para cinco grupos. Este pro-
grama propociona la suma de cuadrados dentro de los grupos por clusters (grupos) en lugar
de por variables, como se indica:
Number of Within cluster Average distance Maximum distance
observations sum of squares from centroid from centroid
8.2. MTODOS CLSICOS DE PARTICIN 239
Cluster1 21 10855.985 20.220 58.275
Cluster2 14 833.119 7.357 10.902
Cluster3 28 960.586 5.415 9.925
Cluster4 9 864.347 8.977 15.250
Cluster5 19 3126.014 12.110 21.066
Ejemplo 8.3 Los resultados para datos sin estandarizar son parecidos, pero no idnticos,
como puede verse en la gura 8.13, donde se han representado los grupos en el plano de
las dos variables con mayor varianza y que van a tener ms peso en la determinacin de
los grupso. Al estandarizar las variables los resultados cambian sustancialmente, al tener un
peso mayor el resto de las variables, los grupos son ms homogneos por continentes y en
Europa se separan los pases occidentales y los orientales. Los resultados se presentan en la
gura 8.14 donde de nuevo se han utilizado las dos variables ms importantes.
Figura 8.13: Resultados de k-medias con minitab para los datos de MUNDODES sin es-
tandarizar. Se forman cinco grupos. En ordenadas la mortalidad infantil(C4) y en abcisas
la tasa de natalidad (C2)
240 CAPTULO 8. ANLISIS DE CONGLOMERADOS
Figura 8.14: Resultados de k-medias para datos estandarizados de MUNDODES con el
programa Minitab. En ordenadas la mortalidad infantil(C4) y en abcisas la tasa de natalidad
(C2)
8.3 MTODOS JERRQUICOS
8.3.1 Distancias y Similaridades
Distancias Eucldeas
Los mtodos jerrquicos parten de una matriz de distancias o similaridades entre los ele-
mentos de la muestra y construyen una jerarqua basada en una distancia. Si todas las
variables son continuas, la distancia ms utilizada es la distancia eucldea entre las variables
estandarizadas. No es, en general, recomendable utilizar las distancias de Mahalanobis, ya
que la nica matriz de covarianzas disponible es la de toda la muestra, que puede mostrar
unas correlaciones muy distintas de las que existen entre las variables dentro de los grupos.
Por ejemplo, la gura 8.15 se ha generado con dos grupos de variables normales indepen-
dientes de medias (0,0) y (5,5) y varianza unidad. La posicin de los grupos genera en el
conjunto de puntos una correlacin positiva fuerte, que desaparece si consideramos cada uno
de los grupos por separado.
8.3. MTODOS JERRQUICOS 241
Figura 8.15: Dos grupos con variables incorreladas pueden dar lugar a alta correlacin entre
las variables.
Para decidir si estandarizar las variables o no antes del anlisis conviene tener en cuen-
ta los comentarios anteriores y el objetivo del estudio. Si no estandarizamos, la distancia
eucldea depender sobre todo de las variables con valores ms grandes, y el resultado del
anlisis puede cambiar completamente al modicar su escala de medida. Si estandarizamos,
estamos dando a priori un peso semejante a las variables, con independencia de su variabil-
idad original, lo que puede no ser siempre adecuado.
Cuando en la muestra existen variables continuas y atributos el problema se complica.
Supongamos que la variable x
1
es binaria. La distancia eucldea entre dos elementos de la
muestra en funcin de esta variable es (x
i1
x
h1
)
2
que tomar el valor cero si x
i1
= x
h1
, es
decir cuando el atributo est, o no est, en ambos elementos, y uno si el atributo est en un
elemento y no en el otro. Sin embargo, la distancia entre dos elementos correspondiente a
una variable continua estandarizada, (x
i1
x
h1
)
2
/s
2
1
, puede ser mucho mayor que uno, con lo
que las variables continuas van en general a pesar mucho ms que las binarias. Esto puede
ser aceptable en muchos casos, pero cuando, por la naturaleza del problema, esta situacin
no sea deseable, la solucin es trabajar con similaridades.
Similaridades El coeciente de similaridad segn la variable j = 1, ..., p entre dos elemen-
tos muestrales (i, h), se dene como una funcin, s
jih
, no negativa y simtrica:
(1) s
jii
= 1
(2) 0 s
jih
1
(3) s
jih
= s
jhi
Si obtenemos las similaridades para cada variable entre dos elementos podemos combina-
rlas en un coeciente de similaridad global entre los dos elementos. El coeciente propuesto
242 CAPTULO 8. ANLISIS DE CONGLOMERADOS
por Gower es
s
ih
=
P
p
j=1
w
jih
s
jih
P
p
j=1
w
jih
(8.4)
donde w
jih
es una variable cticia que es igual a uno si la comparacin de estos dos elementos
mediante la variable j tiene sentido, y ser cero si no queremos incluir esa variable en la
comparacin entre los elementos. Por ejemplo, si la variable x
1
es si una persona ha pedido
(x
1
= 1) o no (x
1
= 0) un crdito y la x
2
si lo ha devuelto o no, si una persona no ha
pedido crdito, tiene x
1
= 0, no tienen sentido preocuparse de x
2
. En este caso al comparar
individuos (i, j) si uno cualquiera de los dos tiene un valor cero en x
1
, asignaremos a la
variable w
2ij
el valor cero
Las similaridades entre elementos en funcin de las variables cualitativas pueden con-
struirse individualmente o por bloques. La similaridad entre dos elementos por una variable
binaria ser uno, si ambos tienen el atributo, y cero en caso contrario. Alternativamente,
podemos agrupar las variables binarias en grupos homogneos y tratarlas conjuntamente. Si
suponemos que todos los atributos tienen el mismo peso, podemos construir una medida de
similaridad entre dos elementos A y B respecto a todos estos atributos contando el nmero
de atributos que estn presentes:
(1) en ambos (a);
(2) en A y no en B, (b);
(3) en B y no en A, (c);
(4) en ninguno de los dos elementos, (d).
Estas cuatro cantidades forman una tabla de asociacin entre elementos, y servirn para
construir medidas de similitud o similaridad entre los dos elementos comparados. En esta
tabla se verica que n
a
= a +b +c +d, donde n
a
es el nmero de atributos.
Elementos variables (atributos)
x
1
x
2
x
3
x
4
x
5
x
6
x
7
A 0 1 1 0 0 0 1
B 1 0 1 1 1 1 0
C 1 0 0 1 1 1 1
. . . . . . .
Tabla 8.3: Matriz de datos cuando las variables son atributos binarios
Por ejemplo, la tabla 8.3 presenta una posible matriz de datos con siete atributos binarios
y con ella se ha construido la tabla 8.4 de asociacin que presenta la distribucin conjunta
de los valores 0 y 1 para los elementos A y B. El elemento A tiene 3 valores 1 en el conjunto
de variables binarias y de estos tres casos, en una ocasin tambin el elemento B tiene el
valor 1, y en otras dos tiene el valor 0. El elemento A toma 4 veces el valor 0, ninguna
coincidiendo con B y las cuatro con B tomando el valor uno. La suma de los totales de las
y columnas debe ser siempre el nmero de atributos binarios considerados. Para calcular un
coeciente de similitud entre dos individuos a partir de su tabla de asociacin se utilizan los
dos criterios principales siguientes:
8.3. MTODOS JERRQUICOS 243
B
1 0
A 1 1 (a) 2 (b) 3
0 4 (c) 0 (d) 4
Suma 5 2 7
Tabla 8.4: Tabla de asociacin correspondiente a los elementos A y B
1. Proporcin de coincidencias. Se calcula como el nmero total de coincidencias sobre
el nmero de atributos totales:
s
ij
=
a +d
n
a
. (8.5)
por ejemplo la similitud de Ay B es 1/7, y la de B y C es 5/7.
2. Proporcin de apariciones. Cuando la ausencia de un atributo no es relevante, podemos
excluir las ausencias y calcular slo la proporcin de veces donde el atributo aparece
en ambos elementos. El coeciente se dene por:
s
ij
=
a
a +b +c
(8.6)
Por ejemplo con este criterio en la tabla 8.3 la similitud entre A y B es tambin 1/7 , y
la de B y C es 4/6.
Aunque las dos propuestas anteriores son las ms utilizadas puede haber situaciones
donde sean recomendables otras medidas. Por ejemplo, podemos querer dar peso doble a las
coincidencias, con lo que resulta s
ij
= 2(a +d)/(2(a +d) +b +c), o tener slo en cuenta las
coincidencias y tomar s
ij
= a/(b + c). Finalmente los coecientes de similitud o similaridad
para una variable continua se construye mediante
s
jih
= 1
|x
ij
x
hj
|
rango(x
j
)
de esta manera el coeciente resultante estar siempre entre cero y uno. Cuando tenemos
varias variables estos coecientes pueden combinarse como indica la expresin (8.4).
Una vez obtenida la similaridad global entre los elementos, podemos transformar los
coecientes en distancias. Lo ms simple es denir la distancia mediante d
ij
= 1 s
ij
, pero
est relacin puede no vericar la propiedad triangular. Puede demostrarse que si la matriz
de similaridades es denida positiva (lo que ocurrir si calculamos las similitudes por (8.5)
o (8.6), y denimos la distancia por:
d
ij
=
q
2(1 s
ij
)
entonces s se verica la propiedad triangular (vase el ejercicio 6.5)
244 CAPTULO 8. ANLISIS DE CONGLOMERADOS
8.3.2 Algoritmos Jerrquicos
Dada una matriz de distancias o de similitudes se desea clasicar los elementos en una jer-
arqua. Los algoritmos existentes funcionan de manera que los elementos son sucesivamente
asignados a los grupos, pero la asignacin es irrevocable, es decir, una vez hecha, no se
cuestiona nunca ms. Los algoritmos son de dos tipos:
1. De aglomeracin. Parten de los elementos individuales y los van agregando en grupos.
2. De divisin. Parten del conjunto de elementos y lo van dividiendo sucesivamente hasta
llegar a los elementos individuales.
Los algoritmos de aglomeracin requieren menos tiempo de clculo y son los ms utiliza-
dos. El lector puede consultar los algoritmos de divisin en Seber (1984).
8.3.3 Mtodos Aglomerativos
Los algoritmos aglomerativo que se utilizan tienen siempre la misma estructura y slo se
diferencian en la forma de calcular las distancias entre grupos. Su estructura es:
1. Comenzar con tantas clases como elementos, n. Las distancias entre clases son las
distancias entre elementos originales.
2. Seleccionar los dos elementos ms prximos en la matriz de distancias y formar con
ellos una clase.
3. Sustituir los dos elementos utilizados en (2) para denir la clase por un nuevo elemento
que represente la clase construida. Las distancias entre este nuevo elemento y los
anteriores se calculan con uno de los criterios que comentamos a continuacin.
4. Volver a (2) y repetir (2) y (3) hasta que tengamos todos los elementos agrupados en
una clase nica.
Criterios para denir distancias entre grupos
Supongamos que tenemos un grupo A con n
a
elementos, y un grupo B con n
b
elementos, y
que ambos se fusionan para crear un grupo (AB) con n
a
+ n
b
elementos. La distancia del
nuevo grupo, (AB), a otro grupo C con n
c
elementos, se calcula habitualmente por alguna
de las cinco reglas siguientes:
1. Encadenamiento simple o vecino ms prximo. La distancia entre los dos nuevos
grupos es la menor de las distancias entre grupos antes de la fusin. Es decir:
d(C; AB) = min(d
CA
, d
CB
)
Una forma simple de calcular con un ordenador el mnimo entre las dos distancias es
utilizar que
min(d
CA
, d
CB
) = 1/2 (d
CA
+d
CB
|d
CA
d
CB
|)
8.3. MTODOS JERRQUICOS 245
En efecto, si d
CB
> d
CA
el trmino en valor absoluto es d
CB
d
CA
y el resultado de
la operacin es d
CA
, la menor de las distancias. Si d
CA
> d
CB
el segundo trmino es
d
CA
d
CB
y se obtiene d
CB
.
Como este criterio slo depende del orden de las distancias ser invariante ante trans-
formaciones montonas: obtendremos la misma jerarqua aunque las distancias sean
numricamente distintas. Se ha comprobado que este criterio tiende a producir grupos
alargados, que pueden incluir elementos muy distintos en los extremos.
2. Encadenamiento completo o vecino ms alejado. La distancia entre los dos nuevos
grupos es la mayor de las distancias entre grupos antes de la fusin. Es decir:
d(C; AB) = m ax(d
CA
, d
CB
)
y puede comprobarse que
m ax(d
CA
, d
CB
) = 1/2 (d
CA
+d
CB
+ |d
CA
d
CB
|) .
Este criterio ser tambin invariante ante transformaciones montonas de las distancias
al depender, como el anterior, del orden de las distancias. Tiende a producir grupos
esfricos.
3. Media de grupos. La distancia entre los dos nuevos grupos es la media ponderada entre
las distancias entre grupos antes de la fusin. Es decir:
d(C; AB) =
n
a
n
a
+n
b
d
CA
+
n
b
n
a
+n
b
d
CB
Como se ponderan los valores de las distancias, este criterio no es invariante ante
transformaciones montonas de las distancias.
4. Mtodo del centroide. Se aplica generalmente slo con variables continuas. La distancia
entre dos grupos se hace igual a la distancia eucldea entre sus centros, donde se
toman como centros los vectores de medias de las observaciones que pertenecen al
grupo. Cuando se unen dos grupos se pueden calcular las nuevas distancias entre ellos
sin utilizar los elementos originales. Puede demostrarse (vase ejercicio 8.5) que el
cuadrado de la distancia eucldea de un grupo C a la unin de los grupos A, con n
a
elementos y B con n
b
es
d
2
(C; AB) =
n
a
n
a
+n
b
d
2
CA
+
n
b
n
a
+n
b
d
2
CB

n
a
n
b
(n
a
+n
b
)
2
d
2
AB
El mtodo de Ward
Un proceso algo diferente de construir el agrupamiento jerrquico ha sido propuesto por
Ward y Wishart. La diferencia con los mtodos anteriores es que ahora se parte de los
elementos directamente, en lugar de utilizar la matriz de distancias, y se dene una medida
global de la heterogeneidad de una agrupacin de observaciones en grupos. Esta medida es
246 CAPTULO 8. ANLISIS DE CONGLOMERADOS
W, ya utilizada en la seccin 8.2, la suma de las distancias eucldeas al cuadrado entre cada
elemento y la media de su grupo:
W =
X
g
X
ig
(x
ig
x
g
)
0
(x
ig
x
g
) (8.7)
donde x
g
es la media del grupo g. El criterio comienza suponiendo que cada dato forma
un grupo, g = n y por tanto W (8.7) es cero. A continuacin se unen los elementos que
produzcan el incremento minimo de W. Obviamente esto implica tomar los ms prximos
con la distancia eucldea. En la siguiente etapa tenemos n 1 grupos, n 2 de un elemento
y uno de dos elementos. Decidimos de nuevo que dos grupos unir para que W crezca lo
menos posible, con lo que pasamos a n 2 grupos y as sucesivamente hasta tener un nico
grupo. Los valores de W van indicando el crecimiento del criterio al formar grupos y pueden
utilizarse para decidir cuantos grupos naturales contienen nuestros datos.
Puede demostrarse que, en cada etapa, los grupos que debe unirse para minimizar W
son aquellos tales que:
min
n
a
n
b
n
a
+n
b
(x
a
x
b
)
0
(x
a
x
b
)
Comparacin
Es difcil dar reglas generales que justiquen un criterio sobre otro, aunque los ms utilizados
son los tres ltimos. Nuestra recomendacin es analizar que criterio es ms razonable para
los datos que se quieren agrupar y , en caso de duda, probar con varios y comparar los
resultados.
El dendrograma
El dendrograma, o rbol jerrquico, es una representacin grca del resultado del proceso de
agrupamiento en forma de rbol. Los criterios para denir distancias que hemos presentado
tienen la propiedad de que, si consideramos tres grupos, A, B, C, se verica que
d(A, C) max {d(A, B), D(B, C)}
y una medida de distancia que tiene esta propiedad se denomina ultramtrica. Esta propiedad
es ms fuerte que la propiedad triangular, ya que una ultramtrica es siempre una distancia.
En efecto si d
2
(A, C) es menor o igual que el mximo de d
2
(A, B), d
2
(B, C) forzosamente
ser menor o igual que la suma d
2
(A, B) +d
2
(B, C). El dendrograma es la repreentacin de
una ultramtrica, y se contruye como sigue:
1. En la parte inferior del grco se disponen los n elementos iniciales.
2. Las uniones entre elementos se representan por tres lineas rectas. Dos dirigidas a los
elementos que se unen y que son perpendiculares al eje de los elementos y una paralela
a este eje que se sita al nivel en que se unen.
3. El proceso se repite hasta que todos los elementos estn concetados por lineas rectas.
8.3. MTODOS JERRQUICOS 247
Si cortamos el dendrograma a un nivel de distancia dado, obtenemos una clasicacin
del nmero de grupos existentes a ese nivel y los elementos que los forman.
El dendrograma es til cuando los puntos tienen claramente una estructura jerrquica,
pero puede ser engaoso cuando se aplica ciegamente, ya que dos puntos pueden parecer
prximos cuando no lo estn, y pueden aparecer alejados cuando estn prximos.
Ejemplo 8.4 Aplicaremos los algoritmos estudiados a la siguiente matriz inicial de distan-
cias entre elementos
A B C D
A 0 1 4 2, 5 0 1 4 2,5
B 1 0 2 3 = 0 2 3
C 2 2 0 4 0 4
D 2, 5 3 4 0 0
Mtodo 1 encadenamiento simple o vecino ms prximo. El valor mnimo fuera de la diagonal
de la matriz de distancias es 1, y corresponde a la distancia entre los elementos Ay B. Los
unimos para formar un grupo y calcularemos la nueva distancias de un elemento al grupo
(AB) como la mnima de las distancias de ese elemento a A y a B. Es decir:
d(AB, C) = min(4; 2) = 2;
d(AB, D) = min(2, 5; 3) = 2, 5.
La nueva tabla de distancias se obtiene de la anterior tachando las las y columnas de
A y B y aadiendo una nueva columna y una nueva la correspondiente al grupo AB que
contiene las nuevas distancias. El resultado es :
AB C D
AB 0 2 2,5
C 2 0 4
D 2,5 4 0
El valor mnimo fuera de la diagonal de la tabla es ahora 2, que corresponde a la distancia
entre AB y C. Uniendo estos dos grupos en uno y calculando las distancias al nuevo grupo :
d(ABC, D) = min(2, 5; 4) = 2, 5.
y nalmente se unen los dos grupos nales ABC y D. Este proceso se representa en el
dendrograma de la gura 8.16
El dendrograma indica que primero se unen los dos elementos A y B a distancia uno, ese
grupo se une al C con distancia 2 y el ABC al D a distancia 2,5.
248 CAPTULO 8. ANLISIS DE CONGLOMERADOS
0
0.5
1
1.5
2
2.5
A
B C D
Figura 8.16: Dendrograma del mtodo de encadenamiento simple
Mtodo 2. Encadenamiento completo o vecino ms alejado. La primera unin se hace igual
que en el caso anterior entre A y B a distancia uno. Sin embargo, ahora las nuevas distancias
son:
d(AB, C) = m ax(4; 2) = 4;
d(AB, D) = m ax(2, 5; 3) = 3
y la siguiente unin ser entre AB y D a distancia tres. La distancia de C al grupo ABD es
4 y esa ser la siguiente unin. La gura 8.17 resume el proceso.
Mtodo 3 . El inicio es, como en los mtodos anteriores, la unin de los elementos ms
prximos, AB. Las nuevas distancias son d(AB,C)=3; d(AB,D)=2,75. Por tanto, la siguiente
unin ser entre AB y D a distancia 2,75. Este grupo ABD se unir a C a su distancia que
es d(ABC,D) = 1/2(4+2,75) = 3,375. La gura 8.18 resume el proceso.
Mtodo 4 . El inicio es, como en los mtodos anteriores. Las nuevas distancias se calculan
como d
2
(C; AB) =
1
2
d
2
CA
+
1
2
d
2
CB

1
4
d
2
AB
= 8 +2 0, 25 = 9, 75. Anlogamente d
2
(D; AB) =
2, 5
2
/2 + 9/2 1/4 = 7, 375. La unin ser con D a distancia

7, 375 = 2.72. La distancia
de C al nuevo grupo ser d
2
(C; ABD) =
1
3
9, 75+
1
2
16
1
4
7, 375 = 3.16
2
, y C se unir al grupo
a la distancia 3.16. La gura 8.19 presenta el dendograma.
Ejemplo 8.5 La gura 8.20 presenta el dendrograma hecho con MINITAB para los paises de
MUNDODES con el mtodo de la disminucin de la suma de cuadrados (Ward). El grco
sugiere la presencia de cuatro o cinco grupos de paises.
8.3. MTODOS JERRQUICOS 249
0
0.5
1
1.5
2
2.5
3
3.5
4
A B
D
C
Figura 8.17: Dendrograma del mtodo de encadenamiento completo
0
0.5
1
1.5
2
2.5
3
3.5
A B
D
C
Figura 8.18: Dendrograma del mtodo de la media de los grupos
250 CAPTULO 8. ANLISIS DE CONGLOMERADOS
0
0.5
1
1.5
2
2.5
3
A
B D C
Figura 8.19: Dendrograma del mtodo del centroide.
Figura 8.20: Resultados de un agrupamiento jerrquico de los paises de MUNDODES por
las variables de natalidad
La gura muestra el resultado del encadenamiento simple, que es mucho ms confuso.
8.3. MTODOS JERRQUICOS 251
Figura 8.21: Resultados de una aglomeracin jerrquica para los paises de MUNDODES con
encadenamiento simple.
Para comparar los resultados del agrupamiento jerrquico y el de particin la gura 8.22
presenta los grupos obtenidos para los datos estandarizados y con el criterio de Ward en el
grco de las variables tasa de natalidad y mortalidad infantil.
Figura 8.22: Resultado del agrupamiento jerrquico cortado en cinco grupos para variables
estandarizadas de MUNDODES
252 CAPTULO 8. ANLISIS DE CONGLOMERADOS
8.4 CONGLOMERADOS POR VARIABLES
El anlisis de conglomerados de variables es un procedimiento exploratorio que puede sugerir
procedimientos de reduccin de la dimensin, como el anlisis factorial o los mtodos de
correlacin cannica que estudiaremos en la segunda parte del libro. La idea es construir
una matriz de distancias o similitudes entre variables y aplicar a esta matriz un algoritmo
jerrquico de clasicacin.
8.4.1 Medidas de distancia y similitud entre variables
Las medidas habituales de asociacin entre variables continuas son la covarianza y la cor-
relacin. Estas medidas tienen en cuenta nicamente las relaciones lineales. Alternativa-
mente, podramos construir una medida de distancia entre dos variables x
j
y x
h
represen-
tando cada variable como un punto en <
n
y calculando la distancia eucldea entre los dos
puntos. Esta medida es:
d
2
jh
=
n
X
i=1
(x
ij
x
ih
)
2
(8.8)
=
X
x
2
ij
+
X
x
2
ih
2
X
x
ij
x
ih
. (8.9)
Para que la distancia no dependa de las unidades, las variables deben estar estandarizadas.
En otro caso la distancia entre dos variables podra alterarse arbitrariamente mediante trans-
formaciones lineales de stas. (Por ejemplo, midiendo las estaturas en metros, en lugar de
en cm. y en desviaciones respecto a la media poblacional en lugar de con carcter absolu-
to). Suponiendo, por tanto, que trabajamos con variables estandarizadas de media cero y
varianza uno, se obtiene que (8.8) se reduce a:
d
2
jh
= 2n(1 r
jh
).
Observemos que:
(a) si r
jh
= 1, la distancia es cero, indicando que las dos variables son idnticas.
(b) si r
jh
= 0, las dos variables estn incorreladas y la distancia es d
jh
=

2n.
(c) si r
jh
< 0, las dos variables tienen correlacin negativa, y la distancia tomar su valor
mximo,

4n, cuando las dos variables tengan correlacin 1.
Esta medida de distancia puede estandarizarse para que sus valores estn entre cero y
uno prescindiendo de la constante n y tomando d
jh
=
p
(1 r
jh
) /2.
Para variables cualitativas binarias se puede construir una medida de similitud de forma
similar a como se hizo con los elementos construyendo una tabla de asociacin entre variables.
Para ello se cuenta el nmero de elementos donde estn presentes ambas caractersticas (a),
donde esta slo una de ellas (b) y (c), y donde no lo estn ninguna de las dos (d). En estas
8.5. LECTURAS COMPLEMENTARIAS 253
tablas se verica que si n es el nmero de individuos n = a +b +c +d, y podemos construir
coecientes de similitud como se hizo con los elementos. Alternativamente, esta tabla de
asociacin entre variables es una tabla de contingencia (vase el captulo 7) y una medida
de distancia es el valor de la ji-cuadrado (vese el Apndice 8.1)

2
=
(ad bc)
2
n
(a +b)(a +c)(c +d)(b +d)
.
Es ms habitual denir la distancia por el coeciente de contingencia
d
ij
= 1
r

2
n
.
8.5 Lecturas complementarias
Un libro pionero sobre mtodos de agrupamiento en espaol es Escudero (1977), que presenta
una visin muy amplia de distintas tcnicas de agrupacin. La literatura sobre cluster en
ingls es extensa: Anderberg (1973), Everitt (1993), Gordon (1981), Hartigan (1975), Mirkin
(1996) , Spath y Bull (1980) y Spath (1985), estn dedicados a este tema. La mayora de los
libros generales dedican tambin un captulo a estos mtodos.
Ejemplo 8.6 La gura8.23 muestra el dendrograma del agrupamiento de las variables de los
datos de EUROSEC. El criterio utilizado es el de Ward. Se observa que la agrupacin de las
variables coincide con lo esperado: primero se unen minera y energa, sevicios y servicions
industriales, e industria y construccin. En un segundo nivel tenemos servicios (que engloba
las tres variables servicios, servicios industriales y nanzas), agricultura, que esta sla e
industria, que recoge el resto de las variables industriales.
Figura 8.23: Agrupamiento por variables de los datos de EUROSEC
254 CAPTULO 8. ANLISIS DE CONGLOMERADOS
Ejemplo 8.7 El dendrograma de la gura8.24 muestra la agrupacin de las variables para
las medidas fsicas, MEDIFIS. La correlacin ms estrecha se da entre longitud del pie y
estatura, y la variable dimetro del crneo esta poco relacionada con el resto como obtuvi-
mos anteriormente. Si quisisemos hacer grupos a un primer nivel tenemos tres grupos de
variables, de longitud, con 4 variables, de anchura, con dos, y el dimetro de la cabeza. A
un nivel superior quedan todas las variables en un lado y el dimetro de la cabeza en el otro.
Figura 8.24: Dendrograma de las medidas fsicas con el criterio de Ward.
Ejemplo 8.8 La gura 8.25 presenta los resultados para las variables de INVES. A un nivel
bajo tenemos cuatro grupos de variables: qumica, ingeniera, agricultura y biologa y el resto,
que incluye 4 variables. A un nivel superior los dos ltimos grupos se unen y la distancia
mayor se da entre el banco de datos qumicos y el resto.
8.5. LECTURAS COMPLEMENTARIAS 255
Figura 8.25: Dendrograma de las variables de INVES
EJERCICIOS
Ejercicio 8.1 Aplicar el algoritmo de k-medias a los datos de los presupuestos familiares.
Cuntos grupos hay en lso datos?
Ejercicio 8.2 Aplicar un agrupamiento jerrquico a los datos de los presupuestos familiares.
Comparar el resultado con distintos mtodos de agrupacin. Compararlos con los resultados
de k-medias
Ejercicio 8.3 Demostrar que el criterio de Hartigan para el algoritmo de k-medias equivale
a continuar aadiendo grupos hasta que tr(W
G
) < tr(W
G+1
)(n G + 9)/(n G 1)
(Sugerencia utilizar que tr(W) = SCDG, e imponer la condicin de que el valor de F sea
mayor que 10)
Ejercicio 8.4 Demostrar que si denimos T =
P
G
g=1
P
ng
i=1
(x
ig
x)(x
ig
x)
0
a la suma de
cuadrados totales podemos escribir T = B+W, donde W se ha denido en la seccin 8.2 y
B es la matriz de suma de cuadrados entre grupos.
Ejercicio 8.5 Demostrar que las distancias entre grupos con encadenamiento simple, com-
pleto y media de grupos pueden calcularse con d
CA
+ d
CB
+ |d
CA
d
CB
| y obtener los
valores de y que dan lugar a estas distancias.
Ejercicio 8.6 Demostrar que en aglomeramiento jerrquico podemos calcular las distancias
eucldeas al cuadrado entre un grupo C a la unin de los grupos A, con n
a
elementos y B
con n
b
mediante d
2
(C; AB) =
n
a
na+n
b
d
2
CA
+
n
b
na+n
b
d
2
CB

nan
b
(na+n
b
)
2
d
2
AB
.
(sugerencia: La media de la unin de los grupos A y B tendr de coordenadas x
AB
=
na
n
a
+n
b
x
A
+
n
b
n
a
+n
b
x
B
, sustituir esa expresin en la distancia de C a ese punto (x
C
x
AB
)
0
(x
C

x
AB
) y desarrollar.
256 CAPTULO 8. ANLISIS DE CONGLOMERADOS
APNDICE 8.1. CLCULO DEL ESTADISTICO
JI-CUADRADO EN TABLAS 22
En la tabla de contingencia {a, b, c, d} las frecuencias esperadas son
1
n
{(a+c)(a+b), (a+
b)(b +d), (b +d)(c +d)} y el valor de la
2
denida en la seccion 7.3 es:

2
=

ad bc
n

n
(a +c)(a +b)
+
n
(a +b)(b +d)
+
n
(a +c)(c +d)
+
n
(b +d)(c +d)

En efecto, como la tabla tiene un grado de libertad, las discrepancias entre las frecuencias
observadas y esperadas deben de ser iguales, por ejemplo para la primera casilla

a
(a +c) (a +b)
n

2
=

na a(a +b +c) bc
n

2
=

ad bc
n

2
y lo mismo se obtiene en las restantes. Como:
(b +d)(d +c) + (a +c)(c +d) + (a +b)(b +d) + (a +c)(a +b) =
(b +d)n + (a +c)n = (a +b +c +d)n = n
2
resulta nalmente que:

2
=
(ab bc)
2
n
(a +b)(a +c)(b +d)(c +d)
.
Captulo 9
DISTRIBUCIONES
MULTIVARIANTES
9.1 CONCEPTOS BSICOS.
El problema central en la anlisis de datos es decidir si las propiedades encontradas en una
muestra pueden generalizarse a la poblacin de la que proviene. Para poder realizar esta
extrapolacin necesitamos construir un modelo del sistema generador de los datos, es decir,
suponer una distribucin de probabilidad para la variable aleatoria en la poblacin. Este
captulo repasa los conceptos bsicos para construir modelos estadsticos multivariantes y
presenta las distribuciones que se utilizarn para la inferencia en los captulos siguientes.
9.1.1 Variables aleatorias vectoriales.
Una variable aleatoria vectorial es el resultado de observar p caractersticas en un elemento
de una poblacin. Por ejemplo, si observamos la edad y el peso de los estudiantes de una
universidad tendremos valores de una variable aleatoria bidimensional; si observamos el
nmero de trabajadores, las ventas y los benecios de las empresas de un sector, tendremos
una variable aleatoria tridimensional.
Diremos que se ha denido la distribucin conjunta de una variable aleatoria vectorial
cuando se especique:
1. El espacio muestral o conjunto de sus valores posibles. Representando cada valor por
un punto en el espacio de dimensin p, <
p
, de los nmeros reales, el espacio muestral
es, en general, un subconjunto de este espacio.
2. Las probabilidades de cada posible resultado (subconjunto de puntos) del espacio mues-
tral.
Diremos que la variable vectorial pdimensional es discreta, cuando lo es cada una de las
pvariables escalares que la componen. Por ejemplo, el color de los ojos y del cabello forman
una variable bidimensional discreta. Anlogamente, diremos que la variable es continua si sus
componentes lo son. Cuando algunos de sus componentes sean discretos y otros continuos
257
258 CAPTULO 9. DISTRIBUCIONES MULTIVARIANTES
diremos que la variable vectorial es mixta. Por ejemplo, la variable: gnero (0=hombre,
1=mujer), estatura y peso de personas, es tridimensional mixta. En este captulo, para
simplicar la exposicin, y salvo indicacin en otro sentido, supondremos que la variable
vectorial es continua.
9.1.2 Distribucin conjunta
La funcin de distribucin conjunta de una variable aleatoria vectorial F(x) se dene en un
punto x
0
= (x
0
1
, ..., x
0
p
) mediante:
F(x
0
) = P(x x
0
) = P(x
1
x
0
1
, ..., x
p
x
0
p
)
donde P(x x
0
) representa la probabilidad de que la variable tome valores menores o
iguales al valor particular considerado, x
0
. Por tanto, la funcin de distribucin acumula
las probabilidades de todos los valores menores o iguales al punto considerado, y ser no
decreciente. Aunque la funcin de distribucin tiene un gran inters terico, es ms cmodo
en la prctica trabajar con la funcin de densidad para variables continuas, o con la funcin
de probabilidades para las discretas. Llamaremos funcin de probabilidad de una variable
discreta a la funcin p(x
0
) denida por
p(x
0
) = P(x = x
0
) = P(x
1
= x
0
1
, ..., x
p
= x
0
p
).
Diremos que el vector x es absolutamente continuo si existe una funcin de densidad, f(x),
que satisface:
F(x
0
) =
Z
x
0

f(x)dx, (9.1)
donde dx = dx
1
....dx
p
y la integral es una integral mltiple en dimensin p. La densidad de
probabilidad tiene la interpretacin habitual de una densidad: masa por unidad de volumen.
Por tanto la funcin de densidad conjunta debe vericar
a) f(x) = f(x
1
....., x
p
) 0. La densidad es siempre no negativa.
b)
R

f(x)dx =
R

......
R

f(x
1
, .....x
p
) dx
1
....dx
p
= 1. Si multiplicamos la densidad
en cada punto por el elemento de volumen en p dimensiones (que, si p = 2, ser el rea
de un rectngulo, si p = 3 el volumen de un paraleppedo, etc) y sumamos (integramos)
para todos los puntos con densidad no nula, obtenemos la masa de probabilidad total,
que se estandariza al valor unidad.
Las probabilidades de sucesos denidos como subconjuntos del espacio muestral sern
iguales a la masa de probabilidad correspondiente al subconjunto. Estas probabilidades se
calcularn integrando la funcin de densidad sobre el subconjunto. Por ejemplo, para una
variable bidimensional y sucesos A del tipo A = (a < x
1
b; c < x
2
d):
P(A) =
Z
b
a
Z
d
c
f(x
1
, x
2
)dx
1
dx
2
9.1. CONCEPTOS BSICOS. 259
mientras que, en general,
P(A) =
Z
A
f(x)dx.
En este captulo, y para simplicar la notacin, utilizaremos la letra f para referirnos a
la funcin de densidad de cualquier variable e indicaremos la variable por el argumento de
la funcin, de manera que f(x
1
) es la funcin de densidad de la variable x
1
, y f(x
1
, x
2
) es
la funcin de densidad de la variable bidimensional (x
1
, x
2
).
9.1.3 Distribuciones marginales y condicionadas
Dada una variable aleatoria vectorial pdimensional (x
1
, ...., x
p
) llamaremos distribucin
marginal de cada componente x
i
a la distribucin univariante de dicho componente, consid-
erado individualmente, e ignorando los valores del resto de los componentes. Por ejemplo,
para variables bidimensionales continuas las distribuciones marginales se obtienen como:
f(x
1
) =
Z

f(x
1
, x
2
)dx
2
, (9.2)
f(x
2
) =
Z

f(x
1
, x
2
)dx
1
, (9.3)
y representan la funcin de densidad de cada variable ignorando los valores que toma la otra.
Como hemos indicado antes, la letra f se reere genericamente a una funcin de densidad.
Por ejemplo, la ecuacin (9.2) indica que si integramos una funcin de densidad en dos
variables, f(x
1
, x
2
), respecto a la variable x
2
se obtiene una funcin que es de nuevo una
funcin de densidad, y de ah el smbolo f, pero que es ahora la funcin de densidad de
la variable x
1
. Las funciones f(x
1
) y f(x
1
, x
2
) sern en general totalmente distintas y slo
tienen en comn ser ambas funciones de densidad, por tanto f (.) 0, y
Z

f(x
1
)dx
1
= 1
Z

f(x
1
, x
2
)dx
1
dx
2
= 1.
Para justicar (9.2), calcularemos la probabilidad de que la variable x
1
pertenezca a un
intervalo (a, b] a partir de la distribucin conjunta. Entonces:
P(a < x
1
b) = P(a < x
1
b; < x
2
) =
Z
b
a
dx
1
Z

f(x
1
, x
2
)dx
2
=
=
Z
b
a
f(x
1
)dx
1
260 CAPTULO 9. DISTRIBUCIONES MULTIVARIANTES
que justica (9.2). Observemos que en esta ecuacin x
1
es un valor concreto cualquiera.
Supongamos que la precisin de la medida de x
1
es x
1
, es decir, diremos que ha ocurrido
el valor x
1
si se observa un valor en el intervalo x
1
x
1
/2. La probabilidad de este valor
ser el valor de la densidad en el centro del intervalo, f(x
1
) por la longitud de la base x
1
.
Si multiplicamos ambos miembros de la ecuacin (9.2) por la constante x
1
, tenemos en el
primer miembro f(x
1
)x
1
, que es la probabilidad de ese valor concreto de x
1
calculada con
su distribucin univariante. En el segundo miembro tendremos la suma (integral) de todas
las probabilidades de los pares de valores posibles (x
1
, x
2
), cuando x
1
es jo y x
2
toma todos
los valores posibles. En efecto, estas probabilidades vienen dadas por f(x
1
, x
2
)dx
2
x
1
, y
sumando para todos los valores posibles de x
2
de nuevo obtenemos la probabilidad del valor
x
1
.
Si x = (x
1
, x
2
), donde x
1
y x
2
son a su vez variables vectoriales, se dene la distribucin
condicionada de x
1
, para un valor concreto de la variable x
2
= x
0
2
, por:
f(x
1
|x
0
2
) =
f(x
1
, x
0
2
)
f(x
0
2
)
(9.4)
supuesto que f(x
0
2
) 6= 0. Esta denicin es consistente con el concepto de probabilidad
condicionada y con el de funcin de densidad para una variable. En efecto, supongamos
para simplicar que ambas variables son escalares. Entonces multiplicando por x
1
ambos
miembros tendremos
f(x
1
|x
0
2
)x
1
=
f(x
1
, x
0
2
)x
1
x
2
f(x
0
2
)x
2
y el primer miembro representa la probabilidad condicionada que se expresa como cociente
de la probabilidad conjunta y la marginal. De esta denicin se deduce:
f(x
1
, x
2
) = f(x
2
|x
1
)f(x
1
). (9.5)
La distribucin marginal de x
2
, puede calcularse en funcin de (9.3) y (9.5) como:
f(x
2
) =
Z
f(x
2
|x
1
)f(x
1
)dx
1
, (9.6)
que tiene una clara interpretacin intuitiva. Si multiplicamos ambos miembros por x
2
, el
elemento de volumen, tenemos en la izquierda f(x
2
)x
2
, la probabilidad del valor concreto de
x
2
considerado. La frmula (9.6) nos dice que esta probabilidad puede calcularse obteniendo
primero la probabilidad del valor x
2
para cada posible valor de x
1
, dada por f(x
2
|x
1
)x
2
,
y luego multiplicando cada uno de estos valores por las probabilidades de x
1
, f(x
1
)dx
1
, lo
que equivale a promedir las probabilidades condicionadas por x
1
respecto a la distribucin
de esta variable.
Como resultado de (9.5) y (9.6) la distribucin condicionada f(x
1
|x
2
) puede entonces
escribirse como:
f(x
1
|x
2
) =
f(x
2
|x
1
)f(x
1
)
R
f(x
2
|x
1
)f(x
1
)dx
1
(9.7)
9.1. CONCEPTOS BSICOS. 261
que es el teorema de Bayes para funciones de densidad, y constituye la herramienta funda-
mental de la inferencia Bayesiana que estudiaremos en el captulo 11.
Para variables discretas los conceptos son similares, pero las integrales se sustituyen por
sumas, como se indica en el siguiente ejemplo.
Ejemplo 9.1 La tabla 9.1 presenta al distribucin conjunta de las variables aleatorias disc-
retas: x
1
: votar a uno de cuatro posibles partidos polticos, que toma los cuatro valores
posibles P
1
, P
2
, P
3
y P
4
y x
2
: nivel de ingresos de los votantes, que toma los tres valores A
(alto), M (medio), B (bajo). Calcular las distribuciones marginales, la distribucin condi-
cionada de los votos para las personas con ingresos bajos y la distribucin condicionada de
los ingresos para los votantes del partido P
4
.
A M B
P
1
.1 .05 .01
P
2
.05 .20 .04
P
3
.04 .25 .07
P
4
.01 .1 .08
Tabla 9.1. Distribucin conjunta de votos e ingresos en una poblacin
Para calcular la distribucin marginal aadimos a la tabla una la y una columna y
colocamos all el resultado de sumar las las y las columnas de la tabla. Con esto se obtiene
la tabla 9.2. Por ejemplo, la distribucin marginal de los ingresos indica que la probabilidad
de ingresos altos es .2, de medios .6 y de bajos .2. Observemos que las distribuciones
marginales son el resultado que se obtiene en los mrgenes de la tabla (lo que justica su
nombre) al sumar las probabilidades conjuntas por las y por columnas.
A M B Marginal de votos
P
1
.1 .05 .01 .16
P
2
.05 .20 .04 .29
P
3
.04 .25 .07 .36
P
4
.01 .1 .08 .19
Marginal de ingresos .2 .6 .2
Tabla 9.2. Distribucin conjunta y marginales de votos e ingresos en una poblacin
Para calcular la distribucin condicionada de los votos para las personas de ingresos
bajos, dividimos cada casilla de la columna de ingresos bajos por el total de la columna. La
distribucin resultante se indica en el tabla 9.3
P
1
P
2
P
3
P
4
.05 .20 .35 .40
Tabla 9.3 distribucin condicionada de los votos para personas con ingresos medios.
Por ejemplo, el valor .05 es el resultado de dividir .01, la probabilidad conjunta de ingresos
bajos y votar a P
1
por la probabilidad marginal de ingresos bajos, .1. Esta tabla indica que
el partido preferido para las personas de ingresos bajos es el P
4
con un 40% de los votos,
seguido del P
3
con el 35%. La tabla 9.4 indica la distribucin condicionada de los ingresos
para los votantes del partido P
4
. El grupo ms numeroso de votantes de este partido es de
ingresos medios (52,63%) seguido de ingresos bajos (42,11%) y altos (5,26%).
262 CAPTULO 9. DISTRIBUCIONES MULTIVARIANTES
A M B Total
P
4
.0526 .5263 .4211 1
Tabla 9.4 distribucin condicionada de los ingresos para personas que votan a P
1
.
9.1.4 Independencia
El concepto fundamental en el estudio conjunto de varias variables aleatorias es el concep-
to de independencia. Diremos que dos vectores aleatorios x
1
, x
2
son independientes si el
conocimiento de uno de ellos no aporta informacin respecto a los valores del otro. En
otros trminos, la distribucin de valores concretos de x
2
no depende de x
1
y es la misma
cualquiera que sea el valor de x
1
. Esto se expresa matemticamente:
f(x
2
|x
1
) = f(x
2
) (9.8)
que indica que la distribucin condicionada es idntica a la marginal. Utilizando (9.5), una
denicin equivalente de independencia entre dos vectores aleatorios x
1
, x
2
es:
f(x
1
, x
2
) = f(x
1
)f(x
2
) (9.9)
es decir, dos vectores aleatorios son independientes si su distribucin conjunta (su prob-
abilidad conjunta) es el producto de las distribuciones marginales ( de las probabilidades
individuales). En general, diremos que las variables aleatorias x
1
, ..., x
p
, con densidad con-
junta f(x
1
, ..., x
p
) son independientes, si se verica:
f(x
1
, ......, x
p
) = f(x
1
)f(x
2
)....f(x
p
) (9.10)
La independencia conjunta es una condicin muy fuerte: al ser x
1
, ..., x
p
independientes
tambin lo sern cualquier subconjunto de variables (x
1
, ...., x
h
) con h p, as como cualquier
conjunto de funciones de las variables individuales, g
1
(x
1
)....g
1
(x
p
), o de conjuntos disjuntos
de ellas. Cuando las variables son independientes no ganamos nada con su estudio conjunto
y conviene estudiarlas individualmente. Es fcil comprobar que si las variables x
1
y x
2
son
independientes y construimos nuevas variables y
1
= g
1
(x
1
), y
2
= g
2
(x
2
), donde la primera
variable es slo funcin de x
1
y la segunda slo de x
2
, las variables y
1
, y
2
son tambin
independientes.
9.1.5 La maldicin de la dimensin
La maldicin de la dimensin es un trmino acuado por el matemtico R. Bellman para
describir como aumenta la complejidad de un problema al aumentar la dimensin de las
variables involucradas. En el anlisis estadstico multivariante la maldicin de la dimensin
se maniesta de varias formas.
En primer lugar, al aumentar la dimensin, el espacio est cada vez ms vaco, haciendo
ms difcil cualquier proceso de inferencia a partir de los datos. Esto es consecuencia de que,
al aumentar la dimensin del espacio aumenta su volumen (o su hipervolumen en general),
y como la masa total de probabilidad es la unidad, la densidad de la variable aleatoria
9.2. PROPIEDADES DE VARIABLES VECTORIALES 263
debe disminuir. En consecuencia, la densidad de probabilidad de una variable aleatoria de
dimensin alta es muy baja en todo el espacio, o, lo que es equivalente, el espacio esta
progresivamente ms vaco. Para ilustrar el problema, supongamos que la densidad de una
variable pdimensional es uniforme en el hipercubo [0,1]
p
y que todos los componentes son
independientes. Por ejemplo, pueden generarse muestras de esta variable tomando conjuntos
de p nmeros aleatorios entre cero y uno. Consideremos la probabilidad de que un valor
al azar de esta variable est dentro del hipercubo [0; 0, 9]
p
. Para p = 1, el caso escalar,
esta probabilidad es 0, 9, para p = 10, este valor baja a 0, 9
10
= 0, 35, y para p = 30
es 0, 9
30
= 0, 04. Vemos que, a medida que aumenta la dimensin del espacio, cualquier
conjunto va, progresivamente, quedndose vaco.
Un segundo problema es que el nmero de parmetros necesario para describir los datos
aumenta rpidamente con la dimensin. Para representar en dimensin p la media y la
matriz de covarianzas necesitamos
p +p(p + 1)/2 = p(p + 3)/2
que es de orden p
2
. Por tanto, la complejidad de los datos, medida por el nmero de parmet-
ros necesarios para representarlos, crece, en este caso, con el cuadrado de la dimensin del
espacio. Por ejemplo, 100 datos es una muestra grande para una variable unidimensional,
pero es muy pequea para una variable vectorial con p = 14 : para estimar las medias,
varianzas y covarianzas se requieren ms de 14(17)/2 = 119 observaciones. Como norma
general, los procedimientos multivariantes necesita un ratio n/p > 10 y es deseable que este
ratio sea mayor de 20.
La consecuencia del aumento de la dimensin es un aumento de la incertidumbre del
problema: la previsin conjunta de los valores de la variable va siendo cada vez ms difcil.
En la prctica, este problema disminuye si las variables son muy dependientes entre s, ya
que entonces, la densidad de probabilidad se concentra en determinadas zonas del espacio,
denidas por la relacin de dependencia, en lugar de repartirse por todo el espacio muestral.
Esta dependencia puede usarse, extendiendo los mtodos que como hemos visto en captulos
anteriores, para reducir la dimensin del espacio de variables y evitar la maldicin de la
dimensionalidad.
9.2 PROPIEDADES DEVARIABLES VECTORIALES
9.2.1 Vector de medias
Llamaremos esperanza, o vector de medias, , de una variable multidimensional, x, al vector
cuyos componentes son las esperanzas, o medias, de los componentes de la variable aleatoria.
Escribiremos el vector de medias como:
= E[x] (9.11)
donde debe entenderse que la esperanza operando sobre un vector o una matriz es el resultado
de aplicar este operador (tomar medias) a cada uno de los componentes. Si la variable es
264 CAPTULO 9. DISTRIBUCIONES MULTIVARIANTES
continua:
= E[x] =
Z
xf(x)dx
La esperanza es una funcin lineal, es decir, para cualquier matriz, A, y vector b, tenemos:
E [Ax +b] = AE[x
1
] +b.
Si x = (x
1
, x
2
)
0
tenemos tambin que, para escalares a y b :
E[ax
1
+bx
2
] = aE[x
1
] +bE[x
2
] .
y si x
1
y x
2
son independientes:
E [x
1
x
2
] = E[x
1
]E[x
2
] .
9.2.2 Esperanza de una funcin
Generalizando la idea de esperanza, si disponemos de una funcin escalar y = g(x) de un
vector de variables aleatorias, el valor medio de esta funcin se calcula:
E [y] =
Z
yf(y)dy =
Z
...
Z
g(x)f(x
1
, ...., x
n
)dx
1
, ...., dx
n
(9.12)
La primera integral tiene en cuenta que y es escalar y si conocemos su funcin de densidad,
f(y), su esperanza se calcula de la forma habitual. La segunda, muestra que no es necesario
calcular f(y) para determinar el valor promedio de g(x): basta ponderar sus valores posibles
por las probabilidades que dan lugar a estos valores.
Esta denicin es consistente, y es fcil comprobar que ambos mtodos conducen al
mismo resultado. Si x = (x
1
, x
2
)
0
, y denimos y
1
= g
1
(x
1
), y
2
= g
2
(x
2
), si x
1
e x
2
son
independientes
E [y
1
y
2
] = E(g
1
(x
1
))E(g
2
(x
2
))
9.2.3 Matriz de varianzas y covarianzas
Llamaremos matriz de varianzas y covarianzas (o simplemente matriz de covarianzas) de un
vector aleatorio x = (x
1
, ..., x
p
)
0
, de <
p
, con vector de medias
0
= (
1
, ....,
p
), a la matriz
cuadrada de orden p obtenida por :
V
x
= E [(x )(x )
0
] (9.13)
La matriz V
x
contiene en la diagonal las varianzas de los componentes, que representare-
mos por
2
i
, y fuera de ella las covarianzas entre los pares de variables, que representaremos
por
ij
. La matriz de covarianzas es simtrica y semidenida positiva. Es decir, dado un
vector cualquiera, , se vericar:

0
V
x
0.
9.2. PROPIEDADES DE VARIABLES VECTORIALES 265
Para demostrar esta propiedad denamos una variable unidimensional por:
y = (x )
0

donde es un vector arbitrario de <


p
. La variable y tiene esperanza cero ya que
E(y) = E [(x )]
0
=0
y su varianza debe ser no negativa:
var(y) = E

y
2

=
0
E[(x )(x )
0
] =
0
V
x
0
Llamaremos varianza media al promedio de las varianzas dado por tr(V
x
)/p, varianza
generalizada a |V
x
| y variabilidad promedio a
V P = |V
x
|
1/p
que es una medida global de la variabilidad conjunta para todas las variables que tiene en
cuenta su estructura de dependencia. La interpretacin de estas medidas es similar a la
estudiada en el captulo 3 para distribuciones de datos.
9.2.4 Transformaciones de vectores aleatorios.
Al trabajar con funciones de densidad de vectores aleatorios es importante recordar que,
como en el caso univariante, la funcin de densidad tiene dimensiones: si p = 1, caso
univariante, probabilidad por unidad de longitud, si p = 2, probabilidad por unidad de
supercie, si p = 3 por unidad de volumen y si p > 3) de hipervolumen. Por lo tanto, si
cambiamos las unidades de medida de las variables, la funcin de densidad debe modicarse
tambin. En general, sea x un vector de <
p
con funcin de densidad f
x
(x) y sea otro vector
aleatorio y de <
p
, denido mediante la transformacin uno a uno:
y
1
= g
1
(x
1
, ....., x
p
)
.
.
.
.
.
.
y
p
= g
p
(x
1
, ...., x
p
),
donde suponemos que existen las funciones inversas x
1
= h
1
(y
1
, ..., y
p
), ..., x
p
= h
p
(y
1
, ..., y
p
),
y que todas las funciones implicadas son diferenciables. Entonces, puede demostrarse que la
funcin de densidad del vector y viene dada por:
f
y
(y) = f
x
(x)

dx
dy

, (9.14)
donde aqu hemos utilizado f
y
y f
x
para representar las funciones de densidad de las vari-
ables y, y x, para evitar confusiones. El trmino |dx/dy| representa el jacobiano de la
266 CAPTULO 9. DISTRIBUCIONES MULTIVARIANTES
transformacin, (que ajusta la probabilidad por el cambio de escala de medida) dado por el
determinante:

dx
dy

x
1
y
1
. . .
x
1
y
p
.
.
.
.
.
.
x
p
y
1
...
x
p
y
p

que suponemos es distinto de cero en el rango de la transformacin.


Un caso importante es el de transformaciones lineales de la variable. Si hacemos
y = Ax
donde A es una matriz cuadrada no singular, las derivadas de los componentes de x respecto
a y se obtendrn de x = A
1
y, y sern, por tanto, los elementos de la matriz A
1
. El
Jacobiano de la transformacin ser |A
1
| = |A|
1
y la funcin de densidad de la nueva
variable y, ser
f
y
(y) = f
x
(A
1
y) |A|
1
(9.15)
expresin que indica que para obtener la funcin de densidad de la variable y sustituimos
en la funcin de densidad de la variable x el argumento por A
1
y y dividimos el resultado
por el determinante de la matriz A.
9.2.5 Esperanzas de transformaciones lineales
Sea x un vector aleatorio de dimensin p y denamos un nuevo vector aleatorio y de dimen-
sin m, (m p), con
y = Ax, (9.16)
donde A es una matriz rectangular de dimensiones mp. Llamando
x
,
y
, a sus vectores
de medias y V
x
, V
y
a las matrices de covarianzas, se verica la relacin:

y
= A
x
(9.17)
que es inmediata tomando esperanzas en (9.16). Adems:
V
y
= AV
x
A
0
(9.18)
donde A
0
es la matriz transpuesta de A. En efecto, aplicando la denicin de covarianzas y
las relaciones (9.16) y (9.18)
V
y
= E

(y
y
)(y
y
)
0

= E[A(x
x
)(x
x
)
0
A
0
] = AV
x
A
0
Ejemplo 9.2 Las valoraciones de los clientes de la puntualidad (x
1
), rapidez (x
2
) y limpieza
(x
3
) de un servicio de transporte tienen unas medias, en una escala de cero a diez, de 7, 8
y 8,5 respectivamente con una matriz de varianzas y covarianzas
9.3. DEPENDENCIA ENTRE VARIABLES ALEATORIAS 267
V
x
=
_
_
1 .5 .7
.5 .64 .6
.7 .6 1.44
_
_
Se construyen dos indicadores de la calidad del servicio. El primero es el promedio de
las tres puntuaciones y el segundo es la diferencia entre el promedio de la puntualidad y
la rapidez, que indica la abilidad del servicio y la limpieza, que indica la comodidad del
mismo. Calcular el vector de medias y la matriz de covarianzas para estos dos indicadores.
La expresin del primer indicador es
y
1
=
x
1
+x
2
+x
3
3
y la del segundo
y
2
=
x
1
+x
2
2
x
3
Estas dos ecuaciones pueden escribirse matricialmente

y
1
y
2

=

1/3 1/3 1/3
1/2 1/2 1

_
_
x
1
x
2
x
3
_
_
El vector de medias ser

=

1/3 1/3 1/3
1/2 1/2 1

_
_
7
8
8, 5
_
_
=

7, 83
1

y el valor 7,83 es una medida global de la calidad promedio del servicio y el menos uno de
la relacin abilidad comodidad. La matriz de varianzas covarianzas es:
V
y
=

1/3 1/3 1/3
1/2 1/2 1

_
_
1 .5 .7
.5 .64 .6
.7 .6 1.44
_
_
_
_
1/3 1/2
1/3 1/2
1/3 1
_
_
=
=

. 742 22 . 256 67
. 256 67 . 8

que indica que la variabilidad de ambos indicadores es similar y que estn relacionados
negativamente, ya que la covarianza es negativa.
9.3 Dependencia entre variables aleatorias
9.3.1 Esperanzas condicionadas
La esperanza de un vector x
1
condicionada a un valor concreto de otro vector x
2
es la
esperanza de la distribucin de x
1
condicionada a x
2
y viene dada por:
E[x
1
|x
2
] =
Z
x
1
f (x
1
|x
2
) dx
1
.
268 CAPTULO 9. DISTRIBUCIONES MULTIVARIANTES
En general esta expresin ser una funcin del valor x
2
. Cuando x
2
es un valor jo, la
esperanza condicionada ser una constante. Si x
2
es una variable aleatoria, la esperanza
condicionada ser tambin una variable aleatoria.
La esperanza de un vector aleatorio x
1
puede calcularse a partir de las esperanzas condi-
cionales en dos etapas: en la primera calculamos la esperanza de x
1
condicionada a x
2
. El
resultado es una funcin aleatoria que depende de la variable aleatoria x
2
. En la segunda,
calculamos la esperanza de esta funcin con relacin a la distribucin de x
2
. Entonces:
E(x
1
) = E [E(x
1
|x
2
)] . (9.19)
Esta expresin indica que la esperanza de una variable aleatoria puede obtenerse prome-
diando las esperanzas condicionadas por sus probabilidades de aparicin o, en otros trminos,
que la esperanza de la media condicionada es la esperanza marginal o incondicional.
Demostracin
E(x
1
) =
Z
x
1
f(x
1
)dx
1
=
ZZ
x
1
f(x
1
x
2
)dx
1
dx
2
=
ZZ
x
1
f(x
1
|x
2
)f(x
2
)dx
1
dx
2
=
Z
f(x
2
)
Z
x
1
f(x
1
|x
2
)dx
1

dx
2
=
Z
E [x
1
|x
2
] f(x
2
)dx
2
= E [E(x
1
|x
2
)] .
9.3.2 Varianzas condicionadas
La varianza de x
1
condicionada a x
2
se dene como la varianza de la distribucin de x
1
condicionada a x
2
. Utilizaremos la notacin
V ar(x
1
|x
2
) = V
1/2
y esta matriz tendr las propiedades ya estudiadas de una matriz de covarianzas.
Si x
1
es escalar, su varianza puede calcularse tambin a partir de las propiedades de la
distribucin condicionada. En concreto, puede expresarse como suma de dos trminos: el
primero asociado a las medias condicionadas y el segundo a las varianzas condicionadas.
Para obtener esta expresin partimos de la descomposicin:
x
1

1
= x
1
E(x
1
/x
2
) +E(x
1
/x
2
)
1
donde x
2
es un vector aleatorio cualquiera para el que la esperanza condicionada E(x
1
/x
2
)
es nita. Elevando al cuadrado esta expresin y tomando esperanzas en ambos miembros:
var(x
1
) = E(x
1
E(x
1
/x
2
))
2
+E(E(x
1
/x
2
)
1
)
2
+ 2E [(x
1
E(x
1
/x
2
)(E(x
1
/x
2
)
1
)]
el doble producto se anula, ya que
E[(x
1
E(x
1
/x
2
))(E(x
1
/x
2
)
1
)] =
9.3. DEPENDENCIA ENTRE VARIABLES ALEATORIAS 269
=
Z
(E(x
1
/x
2
)
1
)
Z
(x
1
E(x
1
/x
2
))f(x
1
/x
2
)dx
1

f(x
2
)dx
2
= 0
al ser nula la integral entre corchetes. Por otro lado, como por (9.19):
E [E(x
1
/x
2
)] = E(x
1
) =
1
,
el segundo trmino es la esperanza de la diferencia al cuadrado entre la variable aleatoria
E(x
1
/x
2
), que depender del vector aleatorio x
2
y su media
1
. Por tanto:
var(x
1
) = E [var(x
1
/x
2
)] +var [E(x
1
/x
2
)] (9.20)
Esta expresin se conoce como descomposicin de la varianza, ya que descompone la
variabilidad de la variable en dos fuentes principales de variacin. Por un lado, hay vari-
abilidad porque las varianzas de las distribuciones condicionadas, var(x
1
/x
2
), pueden ser
distintas, y el primer trmino promedia estas varianzas. Por otro, hay tambin variabilidad
porque las medias de las distribuciones condicionadas pueden ser distintas, y el segundo
trmino recoge las diferencias entre las medias condicionadas, E(x
1
/x
2
), y la media total,

1
, mediante el trmino var [E(x
1
/x
2
)] . Observemos que la varianza de la variable x
1
es, en
general, mayor que el promedio de las varianzas de las distribuciones condicionadas, debido
a que en las condicionadas la variabilidad se calcula respecto a las medias condicionadas,
E(x
1
/x
2
), mientras que var(x
1
) mide la variabilidad respecto a la media global,
1
. Si todas
las medias condicionadas son iguales a
1
, los que ocurrir por ejemplo si x
1
e x
2
son inde-
pendientes, entonces el trmino var [E(x
1
/x
2
)] es cero y la varianza es la media ponderada
de las varianzas condicionadas. Si E(x
1
/x
2
) no es constante, entonces la varianza de x
1
ser
tanto mayor cuanto mayor sea la variabilidad de las medias condicionadas.
Esta descomposicin de la varianza aparece en el anlisis de la varianza de los modelos
lineales univariantes:
X
(x
i
x)
2
/n =
X
(x
i
b x
i
)
2
/n +
X
(b x
i
x)
2
/n
donde, en esta expresin, b x
i
es la estimacin de la media condicionada en el modelo lineal.
La variabilidad total, que equivale a var(x
1
), se descompone en dos trminos incorrelados.
Por un lado, el promedio de las estimaciones de var(x
1
/x
2
), que se calculan promediando
las diferencias entre la variable y la media condicionada. Por el otro, la variabilidad de las
esperanzas condicionales respecto a la media global, que se estiman en los modelos lineales
por las diferencias b x
i
x.
9.3.3 Matriz de correlacin
Se dene la matriz de correlacin de un vector aleatorio x con matriz de covarianzas V
x
, por
R
x
= D
1/2
V
x
D
1/2
donde
D = diag(
2
1
, ...,
2
p
)
270 CAPTULO 9. DISTRIBUCIONES MULTIVARIANTES
es la matriz diagonal que contiene las varianzas de las variables. La matriz de correlacin
ser pues una matriz cuadrada y simtrica con unos en la diagonal y los coecientes de
correlacion entre los pares de variables fuera de la diagonal. Los coecientes de correlacin
simple o coecientes de correlacin lineal, vienen dados por

ij
=

ij

j
La matriz de correlacin es tambin semidenida positiva. Una medida global de las cor-
relaciones lineales existentes en el conjunto de variables es la dependencia, denida por
D
x
= 1 |R
x
|
1/(p1)
cuya interpretacin para variables aleatorias es anloga a la presentada en el captulo 3 para
variables estadsticas. Para p = 2 la matriz R
x
tiene unos en la diagonal y el coeciente
12
fuera, |R
x
| = 1
2
12
, y la dependencia D
x
= 1(1
2
12
) =
2
12
coincide con el coeciente de
determinacin. Se demuestra de la misma forma que se hizo en el captulo 3 que en el caso
general, p > 2, la dependencia es un promedio geomtrico de coecientes de determinacin.
9.3.4 Correlaciones Mltiples
Se denomina correlacin mltiple de una variable escalar, y, y un vector de variables x a una
medida de la capacidad de prever y mediante una funcin lineal de las variables x. Suponien-
do, sin prdida de generalidad, que las variables tienen media cero, denimos la mejor predic-
cin lineal de y como la funcin
0
x que minimiza E(y
0
x)
2
. Puede demostrarse que
= V
1
x
V
xy
siendo V
x
la matriz de covarianzas de x y V
xy
el vector de covarianzas entre
y y x. El coeciente de correlacin simple entre las variables escalares y y
0
x se denomina
coeciente de correlacin mltiple.
Puede demostrarse que si llamamos
ij
a los trminos de la matriz de covarianzas V de
un vector de variables y
ij
a los trminos de la matriz V
1
, el coeciente de correlacin
mltiple, R
i.R
entre cada variable (i) y todas las dems (R) se calcula como:
R
2
i.R
= 1
1

ij

ij
En particular, si E(y|x) es una funcin lineal de x entonces E(y|x) =
0
x y R
2
i.R
puede
tambin calcularse como 1
2
y|x
/
2
y
, donde
2
y|x
es la varianza de la distribucin condicionada,
y|x y
2
y
la varianza marginal de y.
9.3.5 Correlaciones Parciales
Supongamos que obtenemos la mejor aproximacin lineal a un vector de variables x
1
de
dimensiones p
1
1 a partir de otro vector de variables x
2
de dimensiones p
2
1. Suponiendo
que las variables tienen media cero, esto implica calcular un vector Bx
2
donde B es una ma-
triz de coecientes de dimensiones p
1
p
2
de manera que
P
p
1
j=1
E(x
1j

0
j
x
2
)
2
sea mnima,
donde x
1j
es el componente j del vector x
1
y
0
j
la la j de la matriz B. Llamemos V
1/2
a la
9.4. LA DISTRIBUCIN MULTINOMIAL 271
matriz de covarianzas de la variable x
1
Bx
2
. Si estandarizamos esta matriz de covarianzas
para pasarla a correlaciones, los coecientes de correlacin resultantes se denominan coe-
cientes de correlacin parcial entre los componentes de x
1
dadas las variables x
2
. La matriz
cuadrada y simtrica de orden p
1
R
1/2
= D
1/2
1/2
V
1/2
D
1/2
1/2
se denomina matriz de correlaciones parciales entre los componentes del vector x
1
cuando
controlamos (o condicionado a) el vector x
2
, donde D
1/2
= diag(
2
1/2
, ...,
2
k/2
) y
2
j/2
es la
varianza de la variable x
1j

0
j
x
2
.
En particular si E(x
1
|x
2
) es lineal en x
2
, entonces E(x
1
|x
2
) = Bx
2
y V
1/2
es la matriz
de covarianzas de la distribucin condicionada de x
1
|x
2
.
9.4 LA DISTRIBUCIN MULTINOMIAL
Supongamos que observamos elementos que clasicamos en dos clases, A y A. Por ejemplo,
clasicamos los recin nacidos en un hospital como hombre (A) o mujer (A), los dias de un
mes como lluviosos (A) o no (A), o los elementos fabricados por una mquina como buenos
(A) o defectuosos (A). Suponemos que el proceso que genera elementos es estable, existiendo
un probabilidad constante de aparicin de los elementos de cada clase, P(A) = p = cte, y
que el proceso no tiene memoria, es decir P(A|A) = P(A|A). Supongamos que observamos
elementos al azar de este proceso y denimos la variable
x =

1, si la observacin pertenece a la clase A
0, en otro caso

esta variable sigue una distribucin binomial puntual, con P(x = 1) = p y P(x = 0) = 1p.
Si observamos n elementos en lugar de uno y denimos la variable y =
P
n
i=1
x
i
, es decir,
contamos el nmero de elementos en n que pertenece a la primera clase, la variable y sigue
una distribucin binomial con
P(y = r) =
n!
r!(n r)!
p
r
(1 p)
nr
.
Podemos generalizar esta distribucin permitiendo G clases en lugar de dos, y llamamos p
al vector de probabilidades de pertenencia a las clases, p =(p
1
, ..., p
G
)
0
, donde
P
p
j
= 1.
Deniremos ahora las G variables aleatorias:
x
j
=

1, si la observacin pertenece al grupo j
0, en otro caso

j = 1, ..., G
y el resultado de una observacin es un valor del vector de G-variables x = (x
1
, ..., x
G
)
0
, que
ser siempre de la forma x = (0, ..., 1, ...0)
0
, ya que slamente una de las Gcomponentes puede
tomar el valor uno, el asociado a la clase observada para ese elemento. En consecuencia, los
componentes de esta variable aleatoria no son independientes, ya que estn ligadas por la
ecuacin
G
X
j=1
x
j
= 1.
272 CAPTULO 9. DISTRIBUCIONES MULTIVARIANTES
Para describir el resultado de la observacin bastara con denir G 1 variables, como se
hace en la distribucin binomial donde slo se dene una variable cuando hay dos clases,
ya que el valor de la ltima variable queda jada al conocer las restantes. Sin embargo,
con ms de dos clases es constumbre trabajar con las G variables y la distribucin de la
variable multivariante as denida se denomina multinomial puntual. Tiene como funcin de
probabilidades
P(x
1
, .., x
G
) = p
x
1
1
...p
x
G
G
=
Y
p
x
j
j
En efecto, como slo una de las x
j
es distinta de cero, la probabilidad de que la j-sima sea
uno es precisamente p
j
, la probabilidad de que el elemento observado pertenezca a la clase
j. Generalizando esta distribucin, sea (x
1
, ..., x
n
) una muestra de n valores de esta variable
multinomial puntual que resulta al clasicar n elementos de una muestra en las G clases. Se
denomina distribucin multinomial a la de la variable suma:
y =
n
X
i=1
x
i
que indica el nmero de elementos en la muestra que corresponden a cada una de las clases.
Los componentes de esta variable, y =(y
1
, ..., y
G
)
0
, representan las frecuencias observadas de
cada clase y podrn tomar los valores y
i
= 0, 1, ...n, pero estn sujetos a la restriccin:
X
y
i
= n, (9.21)
y su funcin de probabilidad ser:
P(y
1
= n
1
, .., y
G
= n
G
) =
n!
n
1
!...n
G
!
p
n
1
1
...p
n
G
G
donde
P
n
i
= n. El trmino combinatorio tiene en cuenta las permutaciones de n elementos
cuando hay n
1
, ..., n
G
repetidos. Se comprueba que
E(y) =np =
y
y
V ar(y) =n

diag(p) pp
0

= diag(
y
)
1
n

y
0
donde diag(p) es una matriz cuadrada con los elementos de p en la diagonal y ceros fuera
de ella. Esta matriz es singular ya que los elementos de y estn ligados por la ecuacin de
restriccin (9.21). Es fcil comprobar que las distribuciones marginales son binomiales, con:
E[y
j
] = np
j
, DT [y
j
] =
q
p
j
(1 p
j
).
Adems, cualquier distribucin condicionada es multinomial. Por ejemplo, la de G 1
variables cuando y
G
toma el valor jo n
G
es una multinomial en las G1 variables restantes
con tamao muestral n
0
= n n
G
. La distribucin condicionada de y
1
, y
2
cuando y
3
=
n
3
, ..., y
G
= n
G
es una binomial, con n
0
= n n
3
n
4
... n
G
, etc.
9.5. LA DISTRIBUCIN DE DIRICHLET 273
Ejemplo 9.3 En un proceso de control de calidad los elementos pueden tener tres tipos
de defectos: leves (A
1
), medios (A
2
), graves (A
3
) y se conoce que entre los elementos con
defectos la probabilidad de estos errores es p
1
= P(A
1
) = 0, 7; p
2
= P(A
2
) = 0, 2; y
p
3
= P(A
3
) = 0, 1. Calcular la probabilidad de que en los prximos tres elementos defectuosos
haya exactamente uno con un defecto grave.
Los defectos posibles en los tres siguientes elementos son, sin tener en cuenta el orden
de aparicin :
A
1
A
1
A
3
; A
1
A
2
A
3
; A
2
A
2
A
3
y sus probabilidades segn la distribucin multinomial sern:
P (x
1
= 2, x
2
= 0, x
3
= 1) =
3!
2!0!1!
0, 7
2
0, 2
0
0, 1 = 0, 147
P (x
1
= 1, x
2
= 1, x
3
= 1) =
3!
1!1!1!
0, 7 0, 2 0, 1 = 0, 084
P (x
1
= 0, x
2
= 2, x
3
= 1) =
3!
0!2!1!
0, 7
0
0, 2
2
0, 1 = 0, 012
Luego:
P (x
3
= 1) = 0, 147 + 0, 084 + 0, 012 = 0, 243
Este resultado puede tambin obtenerse considerando la Binomial (A
3
A
3
) con probabili-
dades (0, 9; 0, 1) y:
P (x
3
= 1) =

3
1

0, 1 + 0, 9
2
= 0, 243
9.5 LA DISTRIBUCIN DE DIRICHLET
La distribucin de Dirichlet se introduce para representar variables que toman valores en-
tre cero y uno y cuya suma es igual a la unidad. Estos datos se conocen como datos de
proporciones (compositional data en ingls). Por ejemplo, supongamos que investigamos el
peso relativo que los consumidores asignan a un conjunto de atributos de calidad, y que las
evaluaciones de la importancia de los atributos se realizan en una escala de cero a uno. Por
ejemplo, con tres atributos un cliente puede dar las valoraciones (0.6, 0,3, 01) indicando
que el primer atributo tiene el 60% del peso, el segundo el 30% y el tercero el 10%. Otros
ejemplos de este tipo de datos son la proporcin de tiempo invertido en ciertas actividades
o la composicin en % de las distintas sustancias que contienen un grupo de productos. En
todos estos casos los datos son vectores de variables continuas x =(x
1
, ..., x
G
)
0
tales que, por
construccin, 0 x
j
1 y existe la ecuacin de restriccin:
G
X
j=1
x
j
= 1.
274 CAPTULO 9. DISTRIBUCIONES MULTIVARIANTES
Una distribucin apropiada para representar este tipo de situaciones es la distribucin de
Dirichlet, cuya funcin de densidad es:
f(x
1
, ..., x
G
) =
(
0
)
(
1
)(
2
)...(
G
)
x

1
1
1
...x

G
1
G
donde (.) es la funcin gamma y = (
1
, ...,
G
)
0
es el vector de parmetros que caracteriza
la distribucin, y

0
=
0
1 =
G
X
j=1

j
.
Se demuestra que
E(x) = /
0
=
x
,
por tanto, los parmetros
j
indican la esperanza relativa de cada componente y
V ar(x) =
1
(
0
+ 1)
(
1

0
diag()
1

2
0

0
).
Esta expresin indica que la varianza de cada componente es:
var(x
j
) =

j
(
0

j
)

2
0
(
0
+ 1)
.
y vemos que el parmetro
0
determina la varianza de los componentes y que estas varianzas
decrecen rpidamente con
0
. Las variables de Dirichlet, al igual que las multinomiales, estn
ligadas por una ecuacin de restriccin, con lo que no son linealmente independientes y su
matriz de covarianzas ser singular. Las covarianzas entre dos componentes son:
cov(x
i
x
j
) =

j

2
0
(
0
+ 1)
,
y las covarianzas tambin disminuyen con
0
, pero son mayores cuanto mayores sean las
esperanzas de las variables.
El lector puede apreciar la similitud entre las frmulas de las probabilidades, medias y
varianzas para la multinomial y la Dirichlet. Esta similitud proviene de que en ambos casos
clasicamos el resultado en G grupos. La diferencia es que en el caso multinomial contamos
cuantas observaciones de n aparecen de cada grupo, mientras que en el de Dirichlet medimos
la proporcin que un elemento contiene de la cada clase. En la distribucin de Dirichlet
el parmetro
0
tiene un papel similar al tamao muestral y los cocientes
j
/
0
a las
probabilidades.
9.6 LA NORMAL k-DIMENSIONAL
La distribucin normal escalar tiene como funcin de densidad:
f(x) = (
2
)
1/2
(2)
1/2
exp

(1/2)(x )
2

.
9.6. LA NORMAL K-DIMENSIONAL 275
Figura 9.1: Representacin de la distribucin Normal bivariante y sus marginales.
y escribimos x N(,
2
) para expresar que x tiene distribucin normal con media y
varianza
2
.
Generalizando esta funcin, diremos que un vector x sigue una distribucin normal
pdimensional si su funcin de densidad es:
f(x) = |V|
1/2
(2)
p/2
exp

(1/2)(x )
0
V
1
(x )

(9.22)
En la gura 9.1 se muestra el aspecto de una Normal bivariante con = (0, 0) y V =

1 1/

3
1/

3 1

, y sus distribuciones marginales.


Escribiremos que x N
p
(, V). Las propiedades principales de la normal multivariante
son:
1. La distribucin es simtrica alrededor de .
La simetria se comprueba sustituyendo en la densidad x por a y observando que
f(+a) =f(a).
2. La distribucin tiene un nico mximo en .
Al ser V denida positiva el trmino del exponente (x )
0
V
1
(x ) es siempre
positivo, y la densidad f(x) ser mxima cuando dicho trmino sea cero, lo que ocurre
para x = .
3. La media del vector aleatorio normal es y su matriz de varianzas y covarianzas es
V.
Estas propiedades, que pueden demostrarse rigurosamente, se deducen de la compo-
racin de las densidades univariante y multivariante.
4. Si p variables aleatorias tienen distribucin conjunta normal y estn incorreladas son
independientes.
La comprobacin de esta propiedad consiste en tomar en (9.22) la matriz V diagonal
y comprobar que entonces f(x) = f(x
1
), ..., f(x
p
).
276 CAPTULO 9. DISTRIBUCIONES MULTIVARIANTES
5. Cualquier vector x normal pdimensional con matriz V no singular puede convertirse
mediante una transformacin lineal en un vector z normal pdimensional con vector
de medias 0 y matriz de varianzas y covarianzas igual a la identidad (I). Llamaremos
normal pdimensional estndar a la densidad de z, que vendr dada por:
f(z) =
1
(2)
p/2
exp

1
2
z
0
z

=
p
i=1
1
(2)
1/2
exp

1
2
z
2
i

(9.23)
La demostracin de esta propiedad es la siguiente: al ser V denida positiva existe
una matriz cuadrada A simtrica que consideramos su raz cuadrada y verica:
V = AA (9.24)
Deniendo una nueva variable:
z = A
1
(x ) (9.25)
entonces x = +Az y segn (9.14) la funcin de densidad de z es
f
z
(z) = f
x
( +Az) |A|
y utilizando AV
1
A = I, se obtiene (??) Por tanto, cualquier vector de variables
normales x en <
p
puede transformarse en otro vector de <
p
de variables normales
independientes y de varianza unidad.
6. Las distribuciones marginales son normales.
Si las variables son independientes la comprobacin de esta propiedad es inmediata.
La demostracin general puede verse, por ejemplo, en Mardia et al (1979).
7. Cualquier subconjunto de h < p variables es normal hdimensional.
Es una extensin del la propiedad anterior y se demuestra analogamente.
8. Si y es (k 1), k p, el vector y = Ax, donde A es una matriz (k p), es normal
kdimensional. En particular, cualquier variable escalar y = a
0
x, (siendo a
0
un vector
1 p no nulo) tiene distribucin normal.
La demostracin puede verse, por ejemplo, en Mardia et al (1979).
9. Al cortar con hiperplanos paralelos al denido por las p variables que forman la variable
vectorial, x, se obtienen las curvas de nivel, cuya ecuacin es:
(x )
0
V
1
(x ) = cte.
Las curvas de nivel son, por tanto, elipsoides, y denen una medida de la distancia de
un punto al centro de la distribucin. Esta medida ha aparecido ya en la descripcin
de datos del captulo 3 donde estudiamos su interpretacin. Se denomina distancia de
Mahalanobis y la representaremos por :
D
2
= (x )
0
V
1
(x ) (9.26)
9.6. LA NORMAL K-DIMENSIONAL 277
Como ilustracin, consideremos el caso ms simple de dos distribuciones univariantes
indicado en la gura 13.3. La observacin x=3, indicada con una X, en el grco, esta
con la distancia euclidea ms cerca del centro de la distribucin A, que es cero, que del
centro de la B que es diez. Sin embargo, con la distancia de Mahalanobis la distancia del
punto X a la distribucin A que tiene desviacin tpica uno es (30)
2
/1, mientras que
la distancia al centro de la B, que tiene desviacin tpica diez, es (3 10)
2
/10
2
= 0, 7
2
y el punto X est mucho ms cerca, con esta distancia, de la distribucin B. Esto es
consecuencia de que es mucho ms probable que este punto provenga de la distribucin
B que de la A.
10. La distancia de Mahalanobis se distribuye como una
2
con p grados de libertad.
Para comprobarlo, hagamos la transformacin (9.25) y como V
1
= A
1
A
1
se obtiene
que
D
2
= z
0
z =
X
z
2
i
donde cada z
i
es N(0, 1). Por tanto D
2

2
p
.
-20 -15 -10 -5 0 5 10 15 20 25 30
0
0.1
0.2
0.3
0.4
0.5
0.6
0.7
0.8
0.9
1
A
B
X
Figura 9.2: El punto X esta ms cerca, con la distancia euclidea del centro de la distribucin
A pero con la distancia de Mahalanobis lo est de la B
9.6.1 Distribuciones condicionadas
Particionemos el vector aleatorio en dos partes, x =(x
1
, x
2
)
0
, donde x
1
es un vector de
dimensin p
1
y x
2
de dimensin p
2
, siendo p
1
+p
2
= p. Particionemos tambin la matriz de
covarianzas del vector x en bloques asociados a estos dos vectores, como:
V =

V
11
V
12
V
21
V
22

(9.27)
278 CAPTULO 9. DISTRIBUCIONES MULTIVARIANTES
donde, por ejemplo, V
11
, la matriz de covarianzas del vector x
1
, es cuadrada de orden p
1
, V
12
,
la matriz de covarianzas entre los vectores x
1
y x
2
tiene dimensiones p
1
p
2
, y V
22
, la matriz
de covarianzas del vector x
2
, es cuadrada de orden p
2
. Queremos calcular la distribucin
condicionada del vector x
1
dados los valores del vector x
2
. Vamos a demostrar que esta
distribucin es normal, con media:
E [x
1
|x
2
] =
1
+V
12
V
1
22
(x
2

2
) (9.28)
y matriz de varianzas y covarianzas:
V ar [x
1
|x
2
] = V
11
V
12
V
1
22
V
21
(9.29)
Para interpretar estas expresiones supongamos primero el caso bivariante donde ambas
variables son escalares de media cero. Entonces la media se reduce a
E [x
1
|x
2
] =
12

1
22
x
2
que es la expresin habitual de la recta de regresin con pendiente =
12
/
22
. La expresin
de la varianza condicionada alrededor de la recta de regresin es
var [x
1
|x
2
] =
11

2
12
/
22
=
2
1
(1
2
)
donde =
12
/
1/2
22

1/2
11
es el coeciente de correlacin entre las variables. Esta expresin
indica que la variabilidad de la distribucin condicionada es siempre menor que la de la
marginal y la reduccin de variabilidad es tanto mayor cuanto mayor sea
2
.
Supongamos ahora que x
1
es escalar pero x
2
es un vector. La expresin de la media
condicionada proporciona la ecuacin de regresin mltiple
E[x
1
|x
2
] =
1
+
0
(x
2

2
)
donde = V
1
22
V
21
siendo V
21
el vector de covarianzas entre x
1
y los componentes de x
2
.
La varianza de esta distribucin condicionada es
var [x
1
|x
2
] =
2
1
(1 R
2
)
donde R
2
= V
12
V
1
22
V
21
/
2
1
es el coeciente de correlacin mltiple.
En el caso general, estas expresiones corresponden al conjunto de regresiones mltiples
de los componentes de x
1
sobre las variables x
2
, que se conoce como regresin multivariante.
Demostracin La expresin de la distribucin condicionada es
f (x
1
|x
2
) =
f (x
1
, x
2
)
f (x
2
)
Como las distribuciones f (x
1
, x
2
) y f (x
2
) son normales multivariantes al hacer el cociente
quedar un cociente entre determinantes y la diferencia entre los exponentes de las normales.
Comencemos calculando el exponente resultante. Ser
(x )
0
V
1
(x ) (x
2

2
)
0
V
1
22
(x
2

2
) (9.30)
9.6. LA NORMAL K-DIMENSIONAL 279
Vamos a descomponer la primera forma cuadrtica en los trminos correspondientes a x
1
y
x
2
. Para ello particionaremos (x ) como (x
1

1
, x
2

2
)
0
, particionaremos V como en
(9.27), y utilizaremos la expresin de la inversa de una matriz particionada (vase la seccin
2.2.3). Realizando el producto se obtiene.
(x )
0
V
1
(x ) = (x
1

1
)
0
B
1
(x
1

1
) (x
1

1
)
0
B
1
V
12
V
1
12
(x
2

2
)
(x
2

2
) V
1
22
V
21
B
1
(x
1

1
) + (x
2

2
) V
1
22
(x
2

2
)
+(x
2

2
)
0
A
1
22
A
21
B
1
A
12
A
1
22
(x
2

2
)
donde B =

V
11
V
12
V
1
22
V
21

, que es la expresin utilizada en (9.29). El cuarto trmino de


esta expresin se cancela en la diferencia (9.30), y los otros cuatro pueden agruparse como

x
1

1
V
12
V
1
22
(x
2

2
)

0
B
1

x
1

1
V
12
V
1
22
(x
2

2
)

.
Esta expresin muestra que el exponente de la distribucin corresponde a una variable
normal con vector de medias y matriz de covarianzas igules a los indicados en (9.28) y (9.29).
Vamos a comprobar que el cociente de determinantes conduce tambin a la misma matriz
de covarianzas. Utilizando que, segn la seccin 2.3.5, |V| = |V
22
|

V
11
V
12
V
1
22
V
21

=
|V
22
| |B|. Como en el denominador tenemos |V
22
| , el cociente proporciona el trmino nico
|B| . Finalmente, quedar en trmino (2)
p/2p
2
/2
=(2)
p
1
/2
.
En conclusin, la expresin resultante ser la de la funcin de densidad normal multi-
variante de orden p
1
, con vector de medias dado por (9.28) y matriz de covarianzas dada por
(9.29).
Ejemplo 9.4 La distribucin de los gastos en dos productos (x, y) de un grupo de consumi-
dores sigue una distribucin normal bivariante con medias respectivas 2 y 3 euros y matriz
de varianzas y covarianzas

1 0, 8
0, 8 2

Calcular la distribucin condicionada de los gastos en el producto y para los consumidores


que gastan 4 euros en el producto x.
La distribucin condicionada f (y/x = 4) = f (4, y) /f
x
(4). La distribucin marginal de
x es normal, N(2, 1). Los trminos de la distribucin conjunta f(x, y) sern:
|V|
1/2
=

2
1

2
2

1 %
2

1/2
=
1

2
p
1 %
2
V
1
=
1

2
1

2
2
(1 %
2
)


2
2
%
2

1
%
2

1

2
1

donde en este ejemplo


2
1
= 1,
2
2
= 2, y % = 0, 8/

2 = 0, 566. El exponente de la normal


bivariante f(x, y) ser:

1
2 (1 %
2
)
(

x
1

2
+

y
2

2
2%
(x
1
) (y
2
)

2
)
=
A
2
280 CAPTULO 9. DISTRIBUCIONES MULTIVARIANTES
En consecuencia, tendremos:
f (y | x) =

2
p
1 %
2

1
(2)
1
exp

A
2

1
1
(2)
1
exp

1
2

x
1

2
=
=
1

2
p
1 %
2
1

2
exp

1
2
B

donde el trmino resultante en el exponente, que llamaremos B, ser:


B =
1
1 %
2
"

x
1

2
+

y
2

2
2%
(x
1
) (y
2
)

x
1

1 %
2

#
=
1
1 %
2
"

y
2

2
%

x
1

2
#
2
B =
1

2
2
(1 %
2
)

2
+%

1
(x
1
)

2
Este exponente corresponde a una distribucin normal con media:
E[y | x] =
2
+%

1
(x
1
)
que es la recta de regresin, y desviacin tpica:
DT [y | x] =
2
p
1 %
2
Para x = 4.
E[y | 4] = 3 +

0, 8

2
1
(4 2) = 4, 6.
Como hay una correlacin positiva de 0,566 entre los gastos en ambos productos los con-
sumidores que gastan ms en uno tambin en promedio tienen gastos medios ms altos en
el otro. La variabilidad de la disribucin condicionada ser:
V ar [y | 4] =
2
2

1 %
2

= 2 (1 0, 32) = 1, 36
y ser menor que la varianza de la marginal porque cuando condicionamos tenemos ms
informacin.
9.7. DISTRIBUCIONES ELPTICAS 281
9.7 DISTRIBUCIONES ELPTICAS
La distribucin normal multivariante es un caso particular de una familia de distribuciones
muy utilizadas en el anlisis multivariante: las distribuciones elpticas. Para introducirlas,
consideremos primero el caso ms simple de las distribuciones esfricas
9.7.1 Distribuciones esfricas
Diremos que una variable vectorial x = (x
1
, ..., x
p
)
0
sigue una distribucin esfrica si su fun-
cin de densidad depende de la variable slo por la distancia eucldea x
0
x =
P
p
i=1
x
2
i
. Esta
propiedad implica que:
1. Los contornos de equiprobabilidad de la distribucin son esferas con centro en el origen.
2. La distribucin es invariante ante rotaciones. En efecto, si denimos una nueva vari-
ables y = Cx, donde C es una matriz ortogonal, la densidad de la variable y es la
misma que la de la variable x.
Un ejemplo de distribucin esfrica, estudiado en la seccin anterior, es la funcin de
densidad Normal estndar multivariante, cuya densidad es
f(x) =
1
(2)
p/2
exp(
1
2
x
0
x) =
p
i=1
1
(2)
1/2
exp(
1
2
x
2
i
)
Figura 9.3: Densidad de la normal estandar bivariante
Esta densidad est representada en la gura 9.3, y las dos variables escalares que forman
el vector son independientes. Este propiedad es caracterstica de la normal, ya que, habit-
ualmente, los componentes de las distribuciones esfricas son dependientes. Por ejemplo, la
282 CAPTULO 9. DISTRIBUCIONES MULTIVARIANTES
distribucin multivariante de Cauchy, dada por
f(x) =

p+1
2

(p+1)/2
(1 +x
0
x)
(p+1)/2
(9.31)
tiene colas ms pesadas que la normal, como en el caso univariante, y es fcil comprobar que
esta funcin no puede escribirse como producto de distribuciones univariantes de Cauchy,
por lo que sus componentes aunque estn incorrelados no son independientes.
Otra distribucin esfrica importante es la doble exponencial. En el caso bivariante esta
distribucin tiene funcin de densidad
f(x) =
1
2
exp(

x
0
x)
y aunque la funcin de densidad puede parecer similar a la normal tiene colas mucho ms
pesadas. La gura 9.4 muestra esta distribucin.
Figura 9.4: Dendidad de la doble exponencial bivariante
9.7.2 Distribuciones elpticas
Si la variable x sigue una distribucin esfrica y A es una matriz cuadrada de dimensin p
y m un vector de dimensin p, la variable
y = m+Ax (9.32)
se dice que sigue una distribucin elptica. Como una variable esfrica tiene media cero y
matriz de covarianzas cI, es inmediato que una variable elptica tiene media m y matriz de
covarianzas V =cAA
0
. Las distribuciones elpticas tienen las propiedades siguientes:
9.8. (*)LA DISTRIBUCIN DE WISHART 283
1. Su funcin de densidad depende de la variable a travs de la distancia de Mahalanobis:
(y m)
0
V
1
(y m)
2. Los contornos de equiprobabilidad de la distribucin son elipsoides con centro en el
punto m.
La distribucin normal multivariante general es el miembro ms conocido de las distribu-
ciones elpticas. Otro miembro de esta familia es la distribucin t multivariante. Aunque
existen distintas versiones de esta distribucin, la ms habitual se construye dividiendo cada
componente de un vector de variables normales multivariantes N
p
(m, V) por la misma vari-
able escalar: la raiz cuadrada de una
2
dividida por sus grados de libertad. Es obvio, por
construccin, que las marginales sern t de Student, y se obtiene que la funcin de densidad
de la variable multivariante resultante es
f(y) =
(
(v+p)
2
)
(v)
p/2
(
v
2
)
|V|
1/2

1 + (y m)
0
V
1
(y m)

(v+p)/2
(9.33)
donde el escalar v se denomina grados de libertad. Observemos que si hacemos v = 1, m = 0,
V = I, obtenemos la distribucin de Cauchy multivariante (9.31) que tiene simetra esfrica.
Para v > 2 la media de la distribucin es m y la varianza v/(v 2)V.
Las distribuciones elpticas comparten muchas propiedades de la normal: las distribu-
ciones marginales y condicionadas son tambin elpticas, y las medias condicionadas son
funcin lineal de las variables condicionantes. Sin embargo, la normal tiene la propiedad de
que es el nico miembro de la familia donde si la matriz de covarianzas es diagonal todas las
variables componentes son independientes. El lector interesado en la demostracin de este
resultado puede encontrarlo en Muirhead (1982).
9.8 (*)LA DISTRIBUCIN DE WISHART
9.8.1 Concepto
La distribucin de Wishart se utiliza para representar la incertidumbre respecto a una ma-
triz de varianzas y covarianzas de variables normales multivariantes. En el caso escalar, la
distribucin que representa esta incertidumbre es la ji-cuadrado de Pearson,
2
, y la dis-
tribucin de Wishart estndar puede considerarse como una generalizacin multivariante de
esta distribucin.
Recordemos los resultados univariantes: Si (x
1
, ...x
m
) es un conjunto de variables aleato-
rias normales independientes N(0,
2
), la suma estandarizada de sus cuadrados,
2
P
m
i=1
x
2
i
,
sigue una distribucin
2
m
. Tambin decimos que w =
P
m
i=1
x
2
i
sigue una distribucin
2

2
m
.
La densidad de una distribucin
2
m
es un caso particular de la Gamma con parmetros

1
2
,
m
2

y tiene funcin de densidad dada por


f(
2
) = k(
2
)
m
2
1
exp

1
2

, (9.34)
284 CAPTULO 9. DISTRIBUCIONES MULTIVARIANTES
donde k es una constante. Por otro lado, la distribucin de la variable w =
P
m
i=1
x
2
i
ser la
Gamma con parmetros

1
2
2
;
m
2

, y su densidad tendr la forma:


f(w) = k

m
2
w
m
2
1
exp

1
2

2
w

. (9.35)
Consideremos ahora un conjunto de m vectores aleatorios, (x
1
, ..., x
m
), de dimensin p
con la misma distribucin N
p
(0, I). La estimacin de su matriz de varianzas y covarianzas
se obtendr de
m
i=1
x
i
x
0
i
/m, y el numerador de esta expresin
W =
m
i=1
x
i
x
0
i
(9.36)
que es una matriz cuadrada p p, simtrica y denida positiva, decimos que sigue una
distribucin Wishart con m grados de libertad. Esta armacin debe interpretarse en el
sentido de que la distribucin conjunta de los
1
2
p(p + 1) elementos distintos de W es
f(w
11
, ....., w
pp
) = c|W|
(mp1)/2
exp

1
2
trW

(9.37)
donde c es una constante para que la funcin integre a uno (vase Seber, 1984). Observemos
que para p = 1 se obtiene (9.34). Escribiremos W W
p
(m), donde p indica que se trata
de la distribucin de los elementos de una matriz cuadrada y simtrica de orden p, y m
son los grados de libertad. Observemos que esta distribucin depende nicamente de las
dos medidas escalares del tamao de la matriz: la traza y el determinante. Por tanto, todas
las combinaciones de elementos de la matriz que conduzcan a los mismos valores de estas
medidas de tamao tienen la misma probabilidad.
Consideremos ahora mvectores aleatorios (x
1
, ..., x
m
) de una distribucin N
p
(0, ), donde
hemos utilizado el smbolo en lugar de V para representar la matriz de covarianzas para
evitar confusiones cuando esta distribucin se utilice en el anlisis bayesiano del captulo
siguiente. La distribucin de los elementos de la matriz
W =
m
i=1
x
i
x
0
i
(9.38)
es la distribucin Wishart con m grados de libertad y matriz de parmetros , dada por
f(w
11
, ....., w
pp
) = c||
m/2
|W|
(mp1)/2
exp

1
2
tr
1
W

. (9.39)
En general, si una matriz cuadrada y simtrica sigue la distribucin (9.39), donde es una
matriz simtrica (p p) no singular denida positiva de componentes constantes, diremos
que sigue la distribucin Wishart con m grados de libertad y matriz de parmetros , y
escribiremos W W
p
(m, ). Observemos que para p = 1 esta expresin se reduce (9.35), y
si hacemos = 1, la densidad (9.39) se reduce a (9.34). La gura 9.5 presenta un ejemplo
de esta distribucin
9.8. (*)LA DISTRIBUCIN DE WISHART 285
9.8.2 Propiedades de la distribucin
La distribucin de Wishart tiene las propiedades siguientes:
1. La esperanza de la distribucin es:
E [W] = m
lo que implica que W/m tiene esperanza .
2. La suma de dos distribuciones
2
independientes es otra distribucin
2
con grados de
libertad la suma de ambas. Anlogamente, si W
1
W
p
(m
1
, ) y W
2
W
p
(m
2
, ) son
independientes, entonces W
1
+W
2
W
p
(m
1
+m
2
, ). Este resultado es consecuencia
inmediata de la denicin de la distribucin por (9.34).
3. Si A es una matriz hp de constantes, y W W
p
(m, ), la distribucin de AWA
0

W
h
(m, A
1
A
01
).
En efecto, por (9.38) la variable AW
0
A ser
A
m
X
i=1
x
i
x
0
i
A
0
=
m
X
i=1
y
i
y
0
i
donde ahora y
i
es N(0, AA
0
), y aplicando la denicin de la distribucin Wishart se
obtiene el resultado.
4. Si S es la matriz de varianzas y covarianzas muestral
S =
1
n
X
0
PX
donde P = I
1
n
11
0
es idempotente, entonces
nS W
p
(n 1, ).
Esta expresin indica que si denimos el estimador
b
S =
1
(n 1)
X
0
PX =
n
(n 1)
S
su esperanza ser , y
b
S ser un estimador centrado para la matriz de varianzas.
Podemos escribir que (n 1)
b
S W
p
(n 1, ). Este resultado es anlogo al del
caso escalar: (n 1)b s
2
, donde b s
2
es el estimador centrado de la varianza, sigue una
distribucin
2

2
n1
.
286 CAPTULO 9. DISTRIBUCIONES MULTIVARIANTES
9.9 LA T
2
DE HOTELLING
Si x es un vector aleatorio N
p
(, V), la variable (x )
0
V
1
(x ) es una
2
con p
grados de libertad. Si sustituimos V por su estimacin
b
S, la matriz de varianzas muestral
dividiendo por n1, la distribucin que se obtiene se denomina T
2
de Hotelling. En general,
si x N
p
(, V) y (n 1)
b
S W
p
(n 1, V), la distribucin de la variable escalar:
T
2
= (x )
0
b
S
1
(x ) (9.40)
que representa la distancia de Mahalanobis entre una variable y su media poblacional, pero
calculada con la matriz de covarianzas estimada, se denomina distribucin T
2
de Hotelling
con p y n 1 grados de libertad. Diremos que T
2
T
2
(p, n 1). Asintticamente, como
b
S V, T
2
converge a la distancia de Mahalanobis y la distribucin de Hotelling a la dis-
tribucin
2
p
. Por tanto, para n grande, la distribucin de Hotelling es muy similar a una

2
p
. Para tamaos muestrales ms pequeos tiene una mayor variabilidad que la
2
p
, como
consecuencia de la mayor incertidumbre al utilizar la matriz estimada,
b
S, en lugar de la
matriz de covarianzas verdadera, V.
Si x es la media muestral, como x N
p
(,
1
n
V), la distribucin de
( x )
0

b
S
n
!
1
( x ) = n( x )
0
b
S
1
( x )
es tambin una T
2
de Hotelling. Observemos que si p = 1, la T
2
se reduce a:
T
2
=
n(x )
2
b s
2
= t
2
(9.41)
y coincide con el estadstico t de Student. Por tanto T
2
(1, m) = t
2
m
.
La distribucin de Hotelling no se tabula, ya que con una simple transformacin se reduce
a la distribucin F del anlisis de la varianza de Fisher. Se demuestra (vase Seber, 1984 o
Muirhead, 1982) que:
F
p,np
=
n p
p(n 1)
T
2
(p, n 1) (9.42)
lo que permite calcular la distribucin de T
2
en funcin de las tablas de la distribucin
F. Este resultado es consistente con (9.42), ya que, asintticamente, pF
p,np
tiende a una
distribucin
2
p
. La gura (??) muestra un ejemplo de la distribucin de Hotelling comparada
con la
2
p
. Vemos que para tamao muestral muy pequeo, n = 15, las colas de la distribucin
son ms planas que las de la ji-cuadrado indicando la mayor incertidumbre existente, pero
para n=50, ambas son ya muy similares. La aproximacin depende del cociente n/p, y si
este es grande, mayor de 25, podemos aproximar bien la distribucin de Hotelling mediante
la ji-cuadrado.
9.9. LA T
2
DE HOTELLING 287
Figura 9.5: Distribucin Wishart dibujada en funcin de la traza y el determinante
0 2 4 6 8 10 12 14
0
0.05
0.1
0.15
0.2
0.25
T(3,14
X2(3)
T(3,49)
T(3,14)
Figura 9.6: La distribucin de Hotelling para dos valores del tamao muestral y la distribu-
cin ji-cuadrado.
288 CAPTULO 9. DISTRIBUCIONES MULTIVARIANTES
9.10 DISTRIBUCIONES MEZCLADAS
Los datos multivariantes son frecuentemente heterogneos. Por ejemplo, si observamos el
gasto en distintos productos en una muestra de consumidores, es esperable que haya grupos
de consumidores con patrones de gasto distintos: los consumidores sin hijos respecto a que
las que los tienen, o los jvenes respecto a los ancianos. En general, si una poblacin donde
hemos denido una variable aleatoria vectorial, x, puede subdividirse en G estratos ms
homogneos y llamamos
i
a la proporcin de elementos en el estrato i (
P
G
i=1

i
= 1) y f
i
(x)
a la funcin de densidad de la variable en el estrato i, la funcin de densidad en toda la
poblacin vendr dada por la mezcla de densidades
f(x) =
G
X
i=1

i
f
i
(x). (9.43)
Para justicar esta distribucin, ntese que observar un elemento al azar de esa poblacin
puede plantearse en dos etapas. En la primera, seleccionamos el estrato al azar mediante
una variable escalar, g, que toma los valores 1, ..., G con probabilidades
1
, ...,
G
. En la
segunda, seleccionamos aleatoriamente el elemento de la poblacin seleccionada, f
i
(x). La
probabilidad de que el elemento seleccionado tome un valor x A ser
P(x A) =
G
X
i=1
P(x A/g = i)P(g = i)
y llamando
i
= P(g = i), la distribucin marginal de la variable x cuando no se conoce la
variable g viene dada por (9.43).
Las guras 9.7 y ?? presentan ejemplos de distribuciones obtenidas como mezclas de dos
distribuciones univariantes con proporcion de mezcla 50% (
1
=
2
= .5). En la gura
9.7 las dos distribuciones de partida son normales con la misma media y diferente varianza.
La distribucin resultante tiene la misma media y una varianza que es el promedio de las
varianzas de las distribuciones. Observemos que la distribucin mezclada no es normal. En
la gura ?? las distribuciones tienen distinta media y varianza. Como comprobaremos ahora
la media es en este caso el promedio de las medias pero la varianza tiene una expresin ms
complicada porque adems de la variabilidad de las distribuciones con respecto a sus medias
se aade la variabilidad debida a las diferencias entre las medias.
9.10. DISTRIBUCIONES MEZCLADAS 289
-10 -8 -6 -4 -2 0 2 4 6 8 10
0
0.05
0.1
0.15
0.2
0.25
0.3
0.35
0.4
N(0,1)
n(2,2)
Mezcla
Mezcla al 50% de dos distribuciones normales con distinta media y varianza
Los parmetros de la distribucin de la variable mezclada (, V), o marginal, se obtienen
fcilmente conocidos las medias
i
y matrices de varianzas V
i
de las distribuciones que
generan la mezcla, o condicionadas.
1. La media de la distribucin mezclada o media de la distribucin marginal es
=
G
X
i=1

i
(9.44)
La demostracin de este resultado es inmediato aplicando las propiedades de la es-
peranza condicional (9.19). Introduciendo la variable de clasicacin g, tenemos que,
como E(x/g=i) =
i
E(x) =E
g
E
x/g
(x) =E
g
(
i
) =
G
X
i=1

i
2. La matriz de varianzas y covarianzas de la distribucin marginal viene dada por
V =
G
X
i=1

i
V
i
+
G
X
i=1

i
(
i
)(
i
)
0
(9.45)
Para demostrar este resultado, introduciendo que
V =E

(x )(x )
0

= E

(x
i
+
i
)(x
i
+
i
)
0

y aplicando de nuevo las propiedades de la esperanza condicional (9.19), obtenemos


que
E
x/y

(x
i
+
i
)(x
i
+
i
)
0

= V
i
+ (
i
)(
i
)
0
y tomando ahora la esperanza de esta cantidad respecto a la distribucin de g se obtiene
el resultado deseado.
290 CAPTULO 9. DISTRIBUCIONES MULTIVARIANTES
La expresin (9.45) puede interpretarse como una descomposicin de la variabilidad simi-
lar a la del anlisis de la varianza. La variabilidad total, que es la matriz de varianzas y covar-
ianzas de la marginal, V, se descompone en una variabilidad explicada,
P
G
i=1

i
(
i
)(
i

)
0
, que tiene en cuenta las diferencias entre las medias de las distribuciones condicionadas

i
y la marginal, , y una variabilidad no explicada
P
G
i=1

i
V
i
, que es la variabilidad con
respecto a las distribuciones condicionadas. Por ejemplo, en el caso escalar representado en
la gura ??, esta expresin se reduce a :

2
=
G
X
i=1

2
i
+
G
X
i=1

i
(
i
)
2
y descompone la varianza de los datos en sus fuentes de variabilidad. En la gura ?? las
medias son cero y dos y las varianzas uno y cuatro, y tenemos que

2
= .5(1) +.5(4)+.5(0 1)
2
+.5(2 1)
2
= 3.5
que corresponde a una desviacin tpica de 1.87, que est de acuerdo con la distribucin de
la gura ??.
En el caso multivariante las mezclas de distribuciones normales pueden representar una
gama muy amplia de distribuciones. La gura 9.8 presenta un ejemplo.
9.11 Lecturas complementarias
El lector puede encontrar exposiciones ms detalladas y ms ejemplos de la teora aqu
expuesta en la mayora de los textos bsicos de estadstica y en los primeros captulos de la
mayora de los textos multivariantes. En ingls, Flury (1997), Johnson y Wichern (1998) y
Mardia et al (1979) son buenas exposiciones en orden creciente de complejidad matemtica.
Existen otras distribuciones ms exibles que la Dirichlet para modelar datos multivari-
antes de proporciones. Aitchinson (1986) es una buena referencia de distintas distribuciones
que pueden usarse para este objetivo. El lector interesado en ampliar las propiedades de
las propiedades elpticas puede acudir a Flury (1997), que es una excelente introduccin,
y a Muirhead (1982). Otras buenas referencias sobre las distribuciones aqu expuestas son
Anderson (1984), Seber (1984) y Johnson y Kotz (1970). Patel y Read (1982) se concentran
en la distribucin normal.
Las distribuciones mezcladas han ido teniendo un papel cada vez mayor en Estadstica,
tanto desde el punto de vista clsico como Bayesiano. Un referencia bsica es Titterington
at al (1987). Muchos de los textos de cluster, que comentaremos en el captulo 14, incluyen
el estudio de estas distribuciones.
9.11. LECTURAS COMPLEMENTARIAS 291
-10 -8 -6 -4 -2 0 2 4 6 8 10
0
0.05
0.1
0.15
0.2
0.25
0.3
0.35
0.4
N(0,1)
N(0,3)
Mezcla
Figura 9.7: Mezcla al 50% de dos distribuciones normales con la misma media y distinta
varianza
Figura 9.8: Mezcla de dos normales bivariantes en la proporcin 50% con medias (0,0) y
(3,3) y distintas matrices de covarianzas.
292 CAPTULO 9. DISTRIBUCIONES MULTIVARIANTES
Ejercicios
Ejercicio 9.1 Dada la funcin de densidad conjunta f(x, y) = 6x denida en 0 < x < 1,
0 < y < 1 x, comprobar que las densidades marginales de ambas variables son f(x) =
6x(1 x), 0 < x < 1 y f(y) = 3(1 y)
2
, 0 < y < 1.
Ejercicio 9.2 Comprobar que las densidades condicionadas en el ejemplo anterior son f(y|x) =
1
(1x)
, 0 < y < 1 x y f(x|y) =
2x
(1y)
2
, 0 < x < 1 y.
Ejercicio 9.3 Utilizar la frmula de transformaciones lineales de variables vectoriales para
demostrar que si denimos la variable normal estndar como la que tiene funcin de densi-
dad f(z) = (2)
p/2
exp(z
0
z/2) y hacemos la transformacin x = m+Az se obtiene la
expresin de la normal general.
Ejercicio 9.4 Obtener las distribuciones condicionadas en la normal bivariante de media
cero y matriz de covarianzas

1
1

.
Ejercicio 9.5 Demostrar en el ejercicio anterior que si > 1 tanto la matriz de covarianzas
como la de correlacin no son denidas positivas
Ejercicio 9.6 Comprobar las frmulas (9.19) y (9.20) para las esperanzas y varianzas glob-
ales de las variables del ejercicio 4.3
Ejercicio 9.7 Sea

x
y

un vector bidimensional de variables aleatorias normales incorreladas.


Escribir la funcin de densidad conjunta del vector de variables a =
P
m
i=1
x
2
i
, b
P
m
i=1
y
2
i
,
c =
P
m
i=1
x
i
y
i
.
Ejercicio 9.8 Calcular en el ejercicio anterior la densidad condicionada f(c|ab).
Ejercicio 9.9 Demostrar que la distancia de Mahalanobis entre la variable multinomial y
su media, (ynp)
0
Var(y)
1
(ynp) es la distancia ji-cuadrado
P
(y
i
np
i
)
2
/np
i
.
Ejercicio 9.10 En la normal bivariante , demostrar que existe una matriz triangular (de-
scomposicin de Cholesky) L =

l
11
0
l
21
l
22

tal que LL
0
= V. Encontrar los parmetros
l
11
, l
21
, l
22
como funcin de las varianzas y covarianzas de las variables. Interpretar el resul-
tado como parmetros de las distribuciones marginales y condicionadas de las variables.
Ejercicio 9.11 Aplicar la descomposicin de Cholesky del ejercicio anterior a la matriz de
covarianzas

9 3
3 4

Ejercicio 9.12 Generar muestras de una distribucin normal bivariante por el mtodo sigu-
iente: (1) generar un valor al azar de la distribucin marginal de la primera variable;
(2) generar un valor al azar de la distribucin univariante de la segunda variable dada la
primera. Aplicarlo para generar valores al azar de una variable aleatoria con vector de medias
= (0, 5)
0
desviaciones tpicas (2,3) y correlacin 0,5.
9.11. LECTURAS COMPLEMENTARIAS 293
Ejercicio 9.13 Demostrar que el mtodo anterior es equivalente a generar dos variables
aleatorias independientes de media cero y desviacin tpica unidad , z = (z
1
, z
2
)
0
, y obtener
los valores al azar de las variables mediante la transformacin x = +Lz , donde L es al
matriz triangular de la descomposicin de Cholesky.
Ejercicio 9.14 Demostrar que si particionamos el vector de variables y la matriz de covari-
anzas como V =

V
11
V
12
V
21
V
22

, y llamamos L
11
, L
12
, L
22
a las matrices correspondientes a la
descomposicin de Cholesky de esta matriz se verica que L
2
11
= V
11
, L
12
= V
1/2
11
V
12
, L
2
22
=
V
22
V
21
V
1
11
V
12
e interpretar estos resultados de acuerdo con la seccin 5.3.1
Ejercicio 9.15 Demostrar que si x
1
, ..., x
h
son vectores con medias
i
y matrices de covar-
ianzas V
i
la variable y =
P
h
I=1
cx
i
tiene media
P
h
I=1
c
i
y covarianza
P
h
I=1
c
2
V
i
.
Ejercicio 9.16 Cuando aumenta la dimensin del vector de datos la maldicin de la di-
mensin se maniesta en que cada vez hay menos densidad en una regin del espacio. Para
ilustrar este problema, considere la normal estndar y calcule con tablas de la
2
la proba-
bilidad de encontrar un valor en la esfera unidad denida por la relacin x0x 1, cuando la
dimensin de x, es p = 2, 4, 8, 16. Qu pasar al aumentar p?
Ejercicio 9.17 Considere una variable normal N
p
(0, I), donde p = 10. Tomemos un valor
al azar, x
0
y construyamos la direccin que une ese punto con el centro de la distribucin.
Cul es el valor esperado de la distancia entre ese punto y el centro de la distribucin?.
Supongamos que ahora tomamos una muestra de 100 valores de la variable aleatoria y los
proyectamos sobre la direccin anterior. Cul ser la distribucin que observamos? Cul
ser la distancia esperada entre el centro de esos datos y el punto x
0
?
Ejercicio 9.18 La funcin generatriz de momentos de una variable aleatoria multivariante
viene dada por (t) = E(e
t
0
x
), donde t es un vector de parmetros. Comprobar que para
una variable normal multivariante esta funcin es (t) = exp(t
0
+t
0
Vt).
APNDICE 9.1 La distribucin Wishart invertida
Si W es W
p
(m, ), la distribucin de U = W
1
se denomina distribucin Wishart
invertida, escribiremos U IW
p
(m, ). Su funcin de densidad es
f(U) = C||
m/2
|U|
(m+p+1)/2
exp(1/2 tr
1
U
1
)
y se verica que
E [U] =

1
mp 1
.
La distribucin Wishart invertida es utilizada por muchos autores para la estimacin
bayesiana de matrices de covarianzas. Como es equivalente decir que si U es Wishart inver-
tida, U IW
p
(m, ) y que U
1
= W sigue una distribucin Wishart, U
1
W
p
(m, ),
en este libro para simplicar, hemos optado por no utilizarla y se incluye aqu nicamente
como referencia para el lector que consulte otra bibliografa.
294 CAPTULO 9. DISTRIBUCIONES MULTIVARIANTES
Captulo 10
INFERENCIA CON DATOS
MULTIVARIANTES
10.1 INTRODUCCIN
En este captulo vamos a presentar una introduccin a la inferencia en modelos multivari-
antes. Suponemos al lector familiarizado con los conceptos bsicos de inferencia al nivel de
Pea (2001). El objetivo de este captulo es repasar los resultados de estimacin y contrastes
principales que sern necesarios en los temas posteriores. El lector puede encontrar en An-
derson (1984), Mardia et al. (1979) o Seber (1983) presentaciones ms completas de lo aqu
expuesto.
Se estudia primero la estimacin de los parmetros en modelos normales multivariantes
por mxima verosimilitud. En segundo lugar se presenta el mtodo de la razn de verosimili-
tudes, como procedimiento general para obtener contrastes con buenas propiedades en mues-
tras grandes. Existen otros procedimientos para construir contrastes multivariantes que no
revisaremos aqu, y que el lector puede encontrar en Anderson (1984). A continuacin, se
presenta un contraste sobre el valor del vector de medias en una poblacin normal multi-
variante. Este contraste se generaliza para comprobar la igualdad de los vectores de medias
de varias poblaciones normales multivariantes con la misma matriz de covarianzas, que es la
herramienta principal del anlisis de la varianza multivariante. Un caso particular de este
contraste es el test de valores atpicos, que puede formularse como una prueba de que una
observacin proviene de una distribucin con media distinta a la del resto de los datos. Final-
mente, se presentan los contrastes de normalidad conjunta de los datos y transformaciones
posibles para llevarlos a la normalidad.
10.2 Fundamentos de la Estimacin Mximo Verosim-
il
El mtodo de mxima verosimilitud, debido a Fisher, escoge como estimadores de los parmet-
ros aquellos valores que hacen mxima la probabilidad de que el modelo a estimar genere
la muestra observada. Para precisar esta idea, supongamos que se dispone de una muestra
295
296 CAPTULO 10. INFERENCIA CON DATOS MULTIVARIANTES
aleatoria simple de n elementos de una variable aleatoria pdimensional, x, con funcin de
densidad f(x | ), donde = (
1
, ...,
r
)
0
es un vector de parmetros que supondremos tiene
dimensin r pn. Llamando X = (x
1
, ..., x
n
), a los datos muestrales, la funcin de densidad
conjunta de la muestra ser, por la independencia de las observaciones:
f(X | ) =
n
Y
i=1
f(x
i
| ).
Cuando el parmetro es conocido, esta funcin determina la probabilidad de aparicin de
cada muestra. En el problema de estimacin se dispone de la muestra, pero es desconocido.
Considerando en la expresin de la densidad conjunta a como una variable y particular-
izando esta funcin para los datos observados, se obtiene una funcin que llamaremos funcin
de verosimilitud, `(|X), o `():
`(|X) = `() =
n
Y
i=1
f(x
i
| ) X fijo; variable (10.1)
El estimador de mxima verosimilitud, o estimador MV, es el valor de que hace mxima
la probabilidad de aparicin de los valores muestrales efectivamente observados y se obtiene
calculando el valor mximo de la funcin `(). Suponiendo que esta funcin es diferenciable
y que su mximo no ocurre en un extremo de su dominio de denicin, el mximo se obtendr
resolviendo el sistema de ecuaciones:
`()

1
= 0
:
`()

r
= 0
El vector
b
que satisface este sistema de ecuaciones corresponder a un mximo si la
matriz hessiana de segundas derivadas H, evaluada en
b
, es denida negativa:
H(
b
) =

2
` ()

=
b

denida negativa.
En ese caso
b
es el estimador de mxima verosimilitud o estimador MV de . En la prc-
tica suele ser ms cmodo obtener el mximo del logaritmo de la funcin de verosimilitud:
L() = ln ` () (10.2)
que llamaremos funcin soporte. Como el logaritmo es una transformacin montona, ambas
funciones tienen el mismo mximo, pero trabajar con el soporte tiene dos ventajas principales.
En primer lugar pasamos del producto de densidades (10.1) a la suma de sus logaritmos y la
expresin resultante suele ser ms simple que la verosimilitud, con lo que resulta ms cmodo
10.3. ESTIMACINDELOS PARMETROS DEVARIABLES NORMALES P-DIMENSIONALES.2
obtener el mximo. En segundo lugar, al tomar logaritmos las constantes multiplicativas de
la funcin de densidad, que son irrelevante para el mximo, se hacen aditivas y desaparecen
al derivar, con lo que la derivada del soporte tiene siempre la misma expresin y no depende
de constantes arbitrarias. En tercer lugar, el doble de la funcin soporte cambiada de sig-
no proporciona un mtodo general para juzgar el ajuste de un modelo a los datos que se
denomina desviacin:
D() = 2L()
y la desviacin D() mide la discrepancia entre el modelo y los datos. Cuanto mayor sea el
soporte, L() , mayor es la concordancia entre el valor del parmetro y los datos y menor la
desviacin. La desviacin aparecer de manera natural en el contraste de hiptesis y es una
medida global de ajuste de un modelo a los datos.
Para distribuciones cuyo rango de valores posibles es conocido a priori y no depende de
ningn parmetro, puede demostrarse (vese por ejemplo Casella y Berger, 1990) que, en
condiciones muy generales respecto al modelo de distribucin de probabilidad, el mtodo de
mxima verosimilitud (MV) proporciona estimadores que son:
1. Asintticamente centrados.
2. Con distribucin asintticamente normal.
3. Asintticamente de varianza mnima (ecientes).
4. Si existe un estadstico suciente para el parmetro, el estimador MV es suciente.
5. Invariantes en el sentido siguiente: si
b
es el estimador MV de , y g() es una funcin
cualquiera del vector de parmetros, entonces g(
b
) es el estimador MV de g().
10.3 Estimacin de los parmetros de variables nor-
males p-dimensionales.
Sea x
1
, ..., x
n
una muestra aleatoria simple donde x
i
N
p
(, V). Vamos a obtener los
estimadores MV de los parmetros desconocidos y V. El primer paso es construir la
funcin de densidad conjunta de las observaciones, que es, utilizando la expresin de la
normal multivariante estudiada en el captulo 8:
f(X | , V) =
n
Y
i=1
|V|
1/2
(2)
p/2
exp

(1/2)(x )
0
V
1
(x )

y la funcin soporte ser, despreciando las constantes:


L(, V|X) =
n
2
log |V|
1
2
n
X
i=1
(x )
0
V
1
(x ).
298 CAPTULO 10. INFERENCIA CON DATOS MULTIVARIANTES
Observemos que la funcin soporte as escrita es siempre negativa, ya que tanto el deter-
minante como la forma cuadrtica son positivos por ser denida positiva la matriz V. sta
funcin nos indica el apoyo o soporte que reciben los posibles valores de los parmetros dados
los valores muestrales observados. Cuanto mayor sea esta funcin (menos negativa) para un-
os valores de los parmetros, mayor ser la concordancia entre estos parmetros y los datos.
Vamos a expresar esta funcin de una forma ms conveniente. Llamando x =
P
n
i=1
x
i
/n al
vector de medias muestral y escribiendo (x
i
) = (x
i
x+ x) y desarrollando la forma
cuadrtica
n
X
i=1
(x )
0
V
1
(x ) =
n
X
i=1
(x x)
0
V
1
(x x) +n( x )
0
V
1
( x )
ya que
P
n
i=1
(x x) = 0. Concentrandonos en el primer trmino de esta descomposicin,
como un escalar es igual a su traza:
tr

n
X
i=1
(x x)
0
V
1
(x x)
!
=
n
X
i=1
tr

(x x)
0
V
1
(x x)

=
=
n
X
i=1
tr

V
1
(x x)(x x)
0

= tr

V
1
n
X
i=1
(x x)(x x)
0
!
,
y llamando:
S =
1
n
n
X
i=1
(x
i
x)(x
i
x)
0
, (10.3)
a la matriz de covarianzas muestral, y sustituyendo en la funcin soporte:
L(, V|x) =
n
2
log |V|
n
2
trV
1
S
n
2
( x )
0
V
1
( x ) (10.4)
Esta es la expresin que utilizaremos para el soporte de los parmetros en muestras de una
normal multivariante. Observemos que esta funcin slo depende de la muestra a travs de
los valores x y S, que sern, por tanto, estimadores sucientes de y V. Todas la muestras
que proporcionen los mismos valores de x y S darn lugar a las mismas inferencias respecto
a los parmetros.
Para obtener el estimador del vector de medias en la poblacin, utilizamos que, por ser
V
1
denida positiva, ( x )
0
V
1
( x ) 0 . Como este trmino aparece con signo
menos, el valor de que maximiza la funcin soporte es aquel que hace este trmino lo
menor posible, y se har cero tomando:
b = x (10.5)
por lo que concluimos que x es el estimador mximo verosmil de . Sustituyendo este
estimador en la funcin soporte este trmino desaparece. Para obtener el mximo de la
funcin respecto a V, sumaremos la constante
n
2
log |S| , y escribiremos el soporte como:
L(V|X) =
n
2
log |V
1
S|
n
2
trV
1
S (10.6)
10.4. EL MTODO DE LA RAZN DE VEROSIMILITUDES 299
Esta expresin es til porque el valor de la verosimilitud escrita de esta forma no depende de
las unidades de medida de las variables. Tambin es fcil comprobar (vese ejercicio 10.1)
que el valor de la verosimilitud es invariante ante transformaciones lineales no singulares de
las variables. Llamemos
i
a los valores propios de la matriz V
1
S, entonces:
L(V|X) =
n
2
X
log
i

n
2
X

i
=
n
2
X
(log
i

i
).
Esta expresin indica que la verosimilitud es una suma de funciones del tipo log x x.
Derivando respecto a x es inmediato que una funcin de este tipo tiene un mximo para
x = 1. Por tanto, L(V|X) ser mxima si todos los valores propios de V
1
S son iguales a la
unidad, lo que implica que V
1
S = I. Esto se consigue tomando como estimador de mxima
verosimilitud de V:
b
V = S (10.7)
Los estimadores MV de y V son pues x y S. Se demuestra, como en el caso uni-
variante, que x N
p
(, 1/nV). Adems nS se distribuye como la distribucin de Wishart,
W
p
(n 1, V). El estimador S es sesgado, pero
n
n1
S es un estimador centrado de V. Es-
tos estimadores tienen las buenas propiedades asintticas de los estimadores de mxima
verosimilitud: consistencia, eciencia y normalidad asinttica. En el ejercicio 10.2 se presen-
ta una deduccin alternativa, ms clsica, de estos estimadores derivando la funcin soporte.
10.4 El mtodo de la razn de verosimilitudes
En esta seccin repasamos la metodologa general para construir contrastes utilizando la
razn de verosimilitides y la aplicaremos al caso de poblaciones normales. Con frecuencia
se desea comprobar si una muestra dada puede provenir de una distribucin con ciertos
parmetros conocidos. Por ejemplo, en el control de calidad de ciertos procesos se toman
muestras de elementos, se mide una variable multivariante y se desea contrastar si el proceso
est en estado de control, lo que supone que las muestras provienen de una poblacin normal
con ciertos valores de los parmetros. En otros casos, interesa comprobar si varias muestras
multivariantes provienen o no de la misma poblacin. Por ejemplo, queremos comprobar si
ciertos mercados son igualmente rentables o si varios medicamentos producen efectos simi-
lares. Finalmente, si hemos basado nuestra inferencia en la hiptesis de normalidad conviene
realizar un contraste para ver si esta hiptesis no es rechazada por los datos observados.
Para realizar contrastes de parmetros vectoriales podemos aplicar la teora del contraste
de verosimilitudes. Esta teora proporciona pruebas estadsticas que, como veremos, tienen
ciertas propiedades ptimas para tamaos muestrales grandes. Dado un parmetro vectorial,
, pdimensional, que toma valores en (donde es un subconjunto de <
p
), suponemos
que se desea contrastar la hiptesis:
H
0
:
0
,
que establece que est contenido en una regin
0
del espacio paramtrico, frente a una
hiptesis alternativa:
H
1
:
0
,
300 CAPTULO 10. INFERENCIA CON DATOS MULTIVARIANTES
que supone que no est restringida a la regin
0
. Para comparar estas hiptesis, analizare-
mos su capacidad de prever los datos observados, y, para ello, compararemos las probabili-
dades de obtenerlos bajo ambas hiptesis. Calcular estas probabilidades requiere el valor del
vector de parmetros, que es desconocido. El mtodo de razn de verosimilitudes resuelve
este problema tomando el valor que hace ms probable obtener la muestra observada y que
es compatible con la hiptesis. En concreto:
1. La mxima probabilidad de obtener la muestra observada bajo H
0
se obtiene como
sigue. Si
0
determina un valor nico para los parmetros, =
0
, entonces se calcula
la probabilidad de los datos supuesto
0
. Si
0
permite muchos valores, elegiremos en-
tre ellos el valor del parmetro que haga mxima la probabilidad de obtener la muestra.
Como la probabilidad de la muestra observada es proporcional a la distribucin con-
junta de las observaciones, sustituyendo en esta funcin los datos disponibles resulta
la funcin de verosimilitud. Calculando el mximo de esta funcin en
0
, se obtiene el
mximo valor de la verosimilitud compatible con H
0
, que representaremos por f (H
0
) .
2. La mxima probabilidad de obtener la muestra observada bajo H
1
se calcula obtenien-
do el mximo absoluto de la funcin sobre todo el espacio paramtrico. Estrictamente
debera calcularse en el conjunto
0
, pero es ms simple hacerlo sobre todo el
espacio, ya que en general se obtiene el mismo resultado. La razn es que, habitual-
mente, H
0
impone restricciones en el espacio paramtrico mientras que H
1
supone que
estas restricciones no existen. Particularizando la funcin de verosimilitud en su mx-
imo, que corresponde al estimador MV de los parmetros, se obtiene una cantidad que
representaremos como f (H
1
) .
A continuacin compararemos f (H
0
) y f (H
1
). Para eliminar las constantes y hacer la
comparacin invariante ante cambios de escala de las variables, construimos su cociente, que
llamaremos razn de verosimilitudes (RV ) :
RV =
f(H
0
)
f(H
1
)
(10.8)
Por construccin RV 1 y rechazaremos H
0
cuando RV sea sucientemente pequeo.
La regin de rechazo de H
0
vendr, en consecuencia, denida por:
RV a,
donde a se determinar imponiendo que el nivel de signicacin del test sea . Para calcular
el valor a es necesario conocer la distribucin de RV cuando H
0
es cierta, lo que suele ser
difcil en la prctica. Sin embargo, cuando el tamao muestral es grande, el doble de la
diferencia de soportes entre la alternativa y la nula, cuando H
0
es cierta, denida por:
= 2 lnRV = 2 (L(H
1
) L(H
0
)) ,
donde L(H
i
) = log f(H
i
), i = 0, 1. se distribuye asintticamente como una
2
con un nmero
de grados de libertad igual a la diferencia de dimensin entre los espacios , y
0
. Intuiti-
vamente rechazamos H
0
cuando el soporte de los datos para H
1
es signicativamente mayor
10.5. CONTRASTE SOBRE LA MEDIA DE UNA POBLACIN NORMAL 301
que para H
0
. La diferencia se juzga, para muestras grandes, con la distribucin
2
. Utilizan-
do la denicin de la desviacin, este contraste puede interpretarse como la diferencia entre
las desviacines para H
0
y para H
1
:
= D(H
0
) D(H
1
)
Es frecuente que la dimensin de sea p y la dimensin de
0
sea pr, siendo r el nmero
de restricciones lineales sobre el vector de parmetros. Entonces, el nmero de grados de
libertad de la diferencia de soportes, , es:
g = gl() = dim() dim(
0
) = p (p r) = r
igual al nmero de restricciones lineales impuestas por H
0
.
10.5 Contraste sobre la media de una poblacin normal
Consideremos una muestra (x
1
, ..., x
n
) de una poblacin N
p
(, V). Se desea realizar el
contraste de la hiptesis:
H
0
: =
0
, V =cualquiera
frente a la alternativa:
H
1
: 6=
0
, V =cualquiera.
Para construir un contraste de razn de verosimilitudes, calcularemos el mximo de la
funcin de verosimilitud bajo H
0
y bajo H
1
. La funcin soporte es:
L(, V|X) =
n
2
log |V|
1
2
n
X
i=1
(x )
0
V
1
(x ).
Se requiere obtener los estimadores MV de y V bajo H
0
y bajo H
1
. Por la seccin 10.2
sabemos que, bajo H
1
, estos estimadores son x y S, y sustituyendo en (10.4) tenemos que el
soporte para H
1
es:
L(H
1
) =
n
2
log |S|
np
2
Bajo H
0
el estimador de es directamente
0
, y operando en la forma cuadratica como
vimos en la seccin 10.2.2 (tomando trazas y utilizando las propiedades lineales de la traza)
podemos escribir esta funcin como:
L(V|X) =
n
2
log |V|
n
2
trV
1
S
0
(10.9)
donde
S
0
=
1
n
n
X
i=1
(x
i

0
)(x
i

0
)
0
. (10.10)
302 CAPTULO 10. INFERENCIA CON DATOS MULTIVARIANTES
Si sumamos en la expresin (10.9) la constante
n
2
log |S
0
| obtenemos una expresin anloga
a (10.6), con lo que concluimos que S
0
es el estimador MV de V bajo H
0
. Sustituyendo V
por S
0
en (10.9) el soporte para H
0
ser
L(H
0
) =
n
2
log |S
0
|
np
2
y la diferencia de soportes ser
= 2(L(H
1
) L(H
0
)) = nlog
|S
0
|
|S|
(10.11)
y rechazaremos H
0
cuando el soporte para H
1
sea signicativamente mayor que para H
0
.
Esta condicin equivale a que la varianza generalizada bajo H
0
, (|S
0
|) sea signicativamente
mayor que bajo H
1
. La distribucin de es una
2
, con grados de libertad igual a la diferencia
de las dimensiones del espacio en que se mueven los parmetros bajo ambas hiptesis. La
dimensin del espacio paramtrico bajo H
0
es p + p(p 1)/2 = p(p + 1)/2, el nmero de
trminos distintos en V, y la dimensin del espacio parmetro bajo H
1
es p +p(p +1)/2. La
diferencia es p que sern los grados de libertad del estadstico
2
.
En este caso, podemos obtener la distribucin exacta del ratio de verosimilitudes, no
siendo necesaria la distribucin asinttica. Se demuestra en el apndice 10.2 que:
|S
0
|
|S|
= 1 +
T
2
n 1
(10.12)
donde el estadstico
T
2
= (n 1)( x
0
)
0
S
1
( x
0
),
sigue la distribucin T
2
de Hotelling con p y n 1 grados de libertad. Utilizando la relacin
entre el estadstico T
2
y la distribucin F, podemos calcular los percentiles de T
2
. Como
la diferencia de soportes es una funcin montona de T
2
, podemos utilizar directamente
este estadstico en lugar de la razn de verosimilitudes, y rechazaremos H
0
cuando T
2
sea
sucientemente grande. Observemos que de (10.11) y (10.12) podemos escribir
= nlog(1 +
T
2
n 1
)
que es consistente con la distribucin asinttica, ya que, para n grande, log(1 +a/n) a/n,
y entonces T
2
, que sabemos tiene una distribucin asinttica
2
p
.
Ejemplo 10.1 Un proceso industrial fabrica elementos cuyas caractersticas de calidad se
miden por un vector de tres variables, x. Cuando el proceso est en estado de control, los
valores medios de las variables deben ser (12, 4, 2). Para comprobar si el proceso funciona
adecuadamente, se toma una muestra de 20 elementos y se miden las tres caractersticas.
La media muestral es
x = (11.5, 4.3, 1.2)
10.6. CONTRASTES SOBRELAMATRIZ DEVARIANZAS DEUNAPOBLACINNORMAL303
y la matriz de covarianzas entre estas tres variables es
S =
_
_
10 4 5
4 12 3
5 3 4
_
_
(Los valores numricos se han simplicado para facilitar los clculos) Observemos que si
miramos cada variable aisladamente como
t = (x )

n/b s
es una t de Student con n 1 grados de libertad, obtendramos unos valores de las t para
cada variable de t
1
= (11.512)

20/
p
20 10/19 = .68; t
2
= (4.34)

20/
p
20 12/19
= .88; y t
3
= (1.2 2)

20/
p
20 4/19 = .85. Aparentemente, mirando cada variable
separadamente no hay diferencias signicativas entre las medias muestrales y las del proceso
bajo control y concluiramos que no hay evidencia de que el proceso est fuera de control. Si
calculamos ahora el estadstico de Hotelling
T
2
= 19( x
0
)
0
S
1
( x
0
) = 14.52
Para juzgar el tamao de esta discrepancia lo llevamos a la distribucin F
F
3,17
= ((20 3)/3)(T
2
/19) = 4.33
y como el valor F
3,17
(.001) = 3.4, rechazamos sin ninguna duda que el proceso esta en
estado de control.
Para entender la razones de esta discrepancia entre el contraste multivariante y los uni-
variantes, observemos que el contraste multivariante tiene en cuenta las correlaciones entre
las discrepancias individuales. La matriz de correlaciones de los datos muestrales obtenida
a partir de la matriz de covarianzas es
R =
_
_
1 .37 0.79
.37 1 0.43
0.79 0.43 1
_
_
la correlacin entre la primera variable y la tercera es negativa. Esto quiere decir que si
observamos un valor por debajo de la media en la primera variable, esperamos que aparezca
un valor por encima de la media en la tercera. En la muestra ocurre lo contrario, y esto
contribuye a sugerir un desplazamiento de la media del proceso.
10.6 Contrastes sobre la matriz de varianzas de una
poblacin normal
El contraste de la razn de verosimilitudes se aplica para hacer contrastes de matrices de
varianzas de forma similar a la estudiada para vectores de medias en la seccin anterior.
Vamos a ver cuatro contrastes sobre la matriz de covarianzas de variables normales. En el
304 CAPTULO 10. INFERENCIA CON DATOS MULTIVARIANTES
primer caso la hiptesis nula es que esta matriz toma un valor jo dado. En el segundo, que
la matriz es diagonal y las variables estn incorreladas. En el tercero las variables adems
tienen la misma varianza, es el contraste de esfericidad donde suponemos que la matriz
de covarianzas es
2
I. En el cuarto caso suponemos una esfericidad parcial: la matriz de
covarianzas puede descomponerse como una matriz de rango m < p ms
2
I . Si m = 0 este
contraste se reduce al de esfericidad.
10.6.1 Contraste de un valor particular
Supongamos que se desea realizar el contraste de la hiptesis:
H
0
: V = V
0
, cualquiera
frente a la alternativa:
H
1
: , y V =cualquiera.
Para construir un contraste de razn de verosimilitudes, calcularemos el mximo de la
funcin de soporte bajo H
0
y bajo H
1
. Utilizando la expresin del soporte:
L(, V|x) =
n
2
log |V|
n
2
trV
1
S
n
2
( x )
0
V
1
( x )
Bajo H
0
, el valor de V queda especicado, V
0
, y se estimar mediante x, con lo que :
L(H
0
) =
n
2
log |V
0
|
n
2
trV
1
0
S
mientras que bajo H
1
, los estimadores son x y S, con lo que, como vimos en la seccin
anterior:
L(H
1
) =
n
2
log |S|
np
2
y la diferencia de soportes ser
= 2(L(H
1
) L(H
0
)) = nlog
|V
0
|
|S|
+ntrV
1
0
Snp (10.13)
Vemos que el contraste consiste en comparar V
0
, el valor terico y S, el estimado con la
mtrica del determinante y con la de la traza. La distribucin del estadstico es una
2
,
con grados de libertad igual a la diferencia de las dimensiones del espacio en que se mueven
los parmetros bajo ambas hiptesis que es p(p + 1)/2, el nmero de trminos distintos en
V.
En particular este test sirve para contrastar si V
0
= I. Entonces el estadstico (10.13) se
reduce a
= nlog |S| +ntrSnp.
10.6. CONTRASTES SOBRELAMATRIZ DEVARIANZAS DEUNAPOBLACINNORMAL305
10.6.2 Contraste de independencia
Otro contraste de inters es el de independencia, donde suponemos que la matriz V
0
es
diagonal. Es decir:
H
0
: V =diagonal cualquiera
frente a la alternativa:
H
1
: , y V =cualquiera.
Entonces la estimacin mximo verosmil de V
0
es
c
V
0
=diag(S), donde diag(S) es una matriz
diagonal con trminos s
ii
iguales a los de S, y el estadstico (10.13) se reduce a
= nlog
Q
s
ii
|S|
+ntr
b
V
1
0
Snp
y como tr
b
V
1
0
S =tr
b
V
1/2
0
S
b
V
1/2
0
= trR =p, el contraste se reduce a:
= nlog |R| (10.14)
que suele escribirse en trminos de los valores propios de R, llamando
i
a estos valores
propios una forma equivalente del contraste es
= n
p
X
i=1
log
i
y su distribucin asinttica ser una
2
, con grados de libertad igual p(p + 1)/2 p =
p(p 1)/2.
10.6.3 Contraste de esfericidad
Un caso particular importante del contraste anterior es suponer que todas las variables tienen
la misma varianza y estn incorreladas. En este caso no ganamos nada por analizarlas
conjuntamente, ya que no hay informacin comn. Este contraste equivale a suponer que
la matriz V
0
es escalar, es decir V =
2
I, y se denomina de esfericidad, ya que entonces la
distribucin de las variables tiene curvas de nivel que son esferas: hay una total simetra en
todas las direcciones en el espacio. El contraste es
H
0
: V =
2
I, cualquiera
frente a:
H
1
: , y V =cualquiera
Sustituyendo V
0
=
2
I en (10.13), la funcin soporte bajo H
0
es
L(H
0
) =
np
2
log
2

n
2
2
trS
306 CAPTULO 10. INFERENCIA CON DATOS MULTIVARIANTES
y derivando respecto a
2
es inmediato comprobar que el estimador MV es b
2
= trS/p, .el
promedio de las varianzas. La funcin soporte L(H
1
) es la misma que en el contraste anterior
y la diferencia de soportes es
= nlog
b
2p
|S|
+ntrS/b
2
np (10.15)
y sustituyendo b
2
= trS/p el contraste se reduce a:
= np log b
2
nlog |S|
y se distribuir asintoticamente como una
2
con p(p + 1)/2 1 = (p + 2)(p 1)/2 grados
de libertad.
10.6.4 (*)Contraste de esfericidad parcial
El cuarto contraste que estudiaremos se denomina de esfericidad parcial porque supone que
la matriz de covarianzas tiene dependencias en un espacio de dimensin m, pero en el espacio
complementario de dimensin p m se da la situacin de esfericidad. Esto supone que toda
la estructura de dependencias entre las variables puede explicarse en funcin de m variables,
como veremos al estudiar el modelo factorial. Observemos que no tiene sentido contrastar
que una matriz cuadrada de orden p tiene rango m < p, porque, en este caso, la matriz debe
tener exactamente p m valores propios nulos. Si es as, lo comprobaremos al calcular sus
valores propios, ya que si se da esta condicin en la poblacin tiene que darse tambin en
todas las muestras. Sin embargo, s tiene sentido contrastar que la matriz tiene m valores
propios relativamente grandes, que coresponden a m direcciones informativas, y pm valores
propios pequeos e iguales, que corresponden a las no informativas. Esta es la esfericidad
parcial. El contraste ser:
H
0
: V = B+
2
I, cualquiera y rango(B) = m
frente a:
H
1
: , y V =cualquiera
Puede demostrarse utilizando los mismos principios (vase Anderson, 1963) que, llamando

i
a los valores propios de S, el contraste es:
= n
p
X
i=m+1
log
i
+n(p m) log
P
p
j=m+1

j
p m
(10.16)
y sigue asintticamente una distribucin
2
con (pm+2)(pm1)/2 grados de libertad.
Observemos que si las variables estn estandarizadas y m = 0, este contraste se reduce a
(10.15). Tambin si las variables estan estandarizadas
P
p
j=1

j
= p, el segundo trmino
se anula y este contraste se reduce (10.14). Concluimos que cuando m = 0 este contraste
coincide con el general de esfericidad presentado en la seccin anterior.
10.7. CONTRASTEDEIGUALDADDEVARIAS MEDIAS: EL ANLISIS DELAVARIANZAMULT
10.6.5 Ajustes en la distribucin
La aproximacin de la distribucin del estadstico a la
2
cuando el tamao muestral no
es muy grande puede mejorarse introduciendo factores de correccin. Box (1949) y Bartlett
(1954) han demostrado que las aproximaciones mejoran si sutituimos en los estadsticos
anteriores n por n
c
donde n
c
es menor que n y dependen de p y del contraste. Por ejemplo,
Box (1949) demostr que el contraste de independencia mejora si sutituimos n por n
c
=
n(2p +11)/2. Estas correciones pueden ser importantes si el tamao muestral es pequeo,
p es grande y el estadstico obtenido esta cerca del valor crtico, pero no van a ser importantes
si p/n es pequeo y el estadstico resultante es claramente conluyente en cualquiera de las
direcciones. El lector interesado puede acudir a Muirhead (1982).
Ejemplo 10.2 Contrastar si podemos admitir que la matriz de covarianzas de las medidas
de calidad del ejercicio 10.1 es de la forma
2
I. Si no es as contrastar si las variables aunque
tengan distinta varianza son independientes.
La estimacin de b
2
bajo la nula es trS/p = (10 + 12 + 4)/3 = 8, 67. Por otro lado se
comprueba que |S| = 146. Entonces
= 60 log 8, 67 20 log 146 = 29.92
que debe compararse con una
2
con (3 + 2)(3 1)/2 = 5 grados de libertad, y el valor
obtenido es claramente signicativo, por lo que rechazamos que las variables tengan la misma
varianza y estn incorreladas.
Para realizar el contraste de independencia transformemos las variables dividiendo cada
una de ellas por su varianza. Es decir, pasamos a nuevas variables z
1
= x
1
/

10, z
2
=
x
2
/

12, z
3
= x
3
/

4, que tendrn matriz de covarianzas, llamando D a la matriz diagonal


con elementos (1/

10, 1/

12, 1/

4), tendremos:
V
z
= DV
x
D
0
=
_
_
1 0.3651 0.7906
0.3651 1 0.4330
0.7906 0.4330 1
_
_
= R
x
y el contraste ahora es
= 20 log 0, 304 = 23.8
que debe compararse ahora con
2
con 3 grados de libertad, con lo que se rechaza sin
duda la hiptesis de independencia.
10.7 Contraste de igualdad de varias medias: el Anli-
sis de la Varianza Multivariante
Supongamos que hemos observado una muestra de tamao n de una variable p dimensional
que puede estraticarse en G clases o grupos, de manera que existen n
1
observaciones del
grupo 1, ...., n
G
del grupo G. Un problema importante es contrastar que las medias de las
308 CAPTULO 10. INFERENCIA CON DATOS MULTIVARIANTES
G clases o grupos son iguales. Vamos a resolverlo aplicando el contraste de la razn de
verosimilitudes. La hiptesis a contrastar es:
H
0
:
1
=
2
= ... =
G
= ;
donde, adems, V es denida positiva, e idntica en los grupos. La hiptesis alternativa es:
H
1
: no todas las
i
son iguales;
con las mismas condiciones para V.
La funcin de verosimilitud bajo H
0
de una muestra normal homognea se ha calculado
en la seccin 10.2 y sabemos que su mximo se alcanza para b = x y
b
V = S. Sustituyendo
estas estimaciones en la funcin soporte tenemos que
L(H
0
) =
n
2
log |S|
np
2
. (10.17)
Bajo H
1
, los n vectores de observaciones se subdividen en n
1
del grupo 1, ...., n
G
del grupo
G. La funcin de verosimilitud bajo H
1
ser:
f(
1
, ...,
p
, V |X) = |V|
n/2
(2)
np/2
exp
(

1
2
G
X
g=1
n
g
X
h=1
(x
hg

g
)
0
V
1
(x
hg

g
)
)
,
donde x
hg
es el h vector de variables del grupo g, y
g
su media. La maximizacin de esta
funcin en el espacio paramtrico denido por H
1
se realiza por el procedimiento estudiado
en 10.2. La estimacin de la media de cada grupo ser la media muestral, b
g
= x
g
, y la
estimacin de la matriz de covarianzas comn se obtiene utilizando que:
G
X
g=1
n
g
X
h=1
(x
hg
x
g
)
0
V
1
(x
hg
x
g
) = tr

G
X
g=1
n
g
X
h=1
(x
hg
x
g
)
0
V
1
(x
hg
x
g
)
!
G
X
g=1
ng
X
h=1
tr

V
1
(x
hg
x
g
)(x
hg
x
g
)
0

= tr

V
1
W

donde
W =
G
X
g=1
ng
X
h=1
(x
hg
x
g
)(x
hg
x
g
)
0
(10.18)
es la matriz de suma de cuadrados dentro de los grupos. Sustituyendo en la funcin de
verosimilitud y tomando logaritmos se obtiene
L(V|X) =
n
2
log |V
1
|
n
2
trV
1
W/n
10.7. CONTRASTEDEIGUALDADDEVARIAS MEDIAS: EL ANLISIS DELAVARIANZAMULT
y, segn los resultados de 10.2, la varianza comn a los grupos cuando estos tienen distinta
media se estima por:
b
V = S
w
=
1
n
W (10.19)
donde W est dada por (10.18). Sustituyendo estas expresiones en la funcin soporte ten-
dremos que
L(H
1
) =
n
2
log |S
w
|
np
2
. (10.20)
La diferencia de soportes ser:
= nlog
|S|
|S
w
|
(10.21)
y rechazaremos H
0
cuando esta diferencia sera grande, es decir, cuando la variabilidad
suponiendo H
0
cierta, medida por |S|, sea mucho mayor que la variabilidad cuando per-
mitimos que las medias de los grupos sean distintas, medida por |S
w
|. Su distribucin es,
asintoticamente, una
2
g
donde los grados de libertad, g, se obtienen como por la diferencia
entre ambos espacio paramtricos. H
0
determina una regin
0
donde hay que estimar los p
componentes del vector de medias comn y la matriz de covarianzas, en total p +p(p +1)/2
parmetros. Bajo la hiptesis H
1
hay que estimar G vectores de medias ms la matriz de
covarianzas lo que supone Gp +p(p + 1)/2 parmetros. La diferencia es g :
g = dim() dim(
0
) = p(G1) (10.22)
que sern los grados de libertad de la distribucin asinttica.
La aproximacin a la distribucin
2
g
del cociente de verosimilitudes puede mejorarse para
tamaos muestrales pequeos. Se demuestra que el estadstico :

0
= mlog log
|S|
|S
w
|
, (10.23)
donde
m = (n 1) (p +G)/2,
sigue asintticamente una distribucin
2
g
, donde g viene dada por (10.22), y la aproximacin
es mejor que tomando m = n en pequeas muestras.
El anlisis de la varianza multivariante
Este contraste es la generalizacin multivariante del anlisis de la varianza y puede deducirse
alternativamente como sigue. Llamemos variabilidad total de los datos a:
T =
n
X
i=1
(x
i
x)(x
i
x)
0
, (10.24)
310 CAPTULO 10. INFERENCIA CON DATOS MULTIVARIANTES
que mide las desviaciones respecto a una media comn. Vamos a descomponer la matriz T
como suma de dos matrices. La primera, W, es la matriz de las desviaciones respecto a las
medias de cada grupo y viene dada por (10.18). La segunda medir la variabilidad explicada
por las diferencias entre las medias y la llamaremos B. Esta descomposicin generaliza al
caso vectorial la descomposicin clsica de anlisis de la varianza. Para obtenerla sumaremos
y restaremos las medias de grupo en la expresin de T, como:
T =
G
X
g=1
ng
X
h=1
(x
gh
x + x
g
x
g
)(x
gh
x + x
g
x
g
)
0
y desarrollando se comprueba que el doble producto se anula y resulta:
T = B+W, (10.25)
donde T viene dado por (10.24), W por (10.18) y B, la matriz de variabilidad explicada o
de sumas de cuadrados entre grupos, se calcula por:
B =
G
X
g=1
n
g
( x
g
x)( x
g
x)
0
.
La descomposicin (10.25) puede expresarse como
Variabilidad Total (T) = Variabilidad Explicada (B) + Variabilidad Residual (W)
que es la descomposicin habitual del anlisis de la varianza.
Para hacer un contraste de que las medias son iguales podemos comparar el tamao de las
matrices T y B. La medida de tamao adecuada es el determinante, con lo que concluimos
que el contraste debe basarse en el cociente |T|/|W|. La distribucin exacta de este cociente
fue estudiada por Wilks. Para tamaos moderados el contraste es similar al de la razn de
verosimilitudes (10.23), que puede escribirse tambin como:

0
= mlog
|T|
|W|
= mlog
|W+B|
|W|
= mlog |I +W
1
B| (10.26)
Desde el punto de vista del clculo de (10.26) como |I +A| = (1 +
i
) donde
i
son los
vectores propios de A, este estadstico se reduce a

0
= m
X
log(1 +
i
)
donde
i
son los vectores propios de la matriz W
1
B.
Ejemplo 10.3 Vamos a aplicar este contraste para ver si se observan diferencias detectables
en pequeas muestras en los datos de Medis, entre las medidas fsicas de hombres y mujeres
de la tabla A.5. En la muestra hay 15 mujeres (variable sexo = 0) y 12 hombres (sexo = 1).
El primer paso del anlisis es calcular las medias y matrices de covarianzas en cada grupo,
10.7. CONTRASTEDEIGUALDADDEVARIAS MEDIAS: EL ANLISIS DELAVARIANZAMULT
por separado, y para el conjunto de los datos. En la tabla siguiente se presentan las medias
para cada variable, para toda la muestra, y para los grupos de mujeres y hombres
est pes pie lbr aes dcr lrt
total 168.78 63.89 38.98 73.46 45.85 57.24 43.09
mujeres 161.73 55.60 36.83 70.03 43.33 56.63 41.06
hombres 177.58 74.25 41.67 77.75 49.00 58.00 45.62
Las matrices de covarianzas dividiendo por n1 para toda la muestra, mujeres y hombres
son
Para las mujeres:
b
S
M
=
_

_
37.64
22.10 80.40
6.38 7.36 1.92
15.65 12.94 3.06 7.41
9.49 14.39 1.49 3.99 9.42
2.75 7.20 0.76 1.17 2.559 2.94
9.02 9.31 1.98 4.53 1.12 0.95 3.78
_

_
Para los hombres
b
S
H
=
_

_
45.53
48.84 74.20
9.48 9.63 2.79
14.34 19.34 2.09 12.57
14.86 19.77 3.23 6.18 6.77
9.45 9.90 1.86 2.36 3.02 3.13
8.92 5.23 2.31 1.21 1.84 2.63 6.14
_

_
y para el conjunto de hombres y mujeres, se calcula como media ponderada de estas dos
matrices
b
S
T
= (14
c
S
M
+ 11
c
S
H
)/25
con lo que se obtiene
b
S
T
=
_

_
41.11
33.86 77.67
7.476 8.36 2.30
15.07 15.76 2.63 9.68
11.85 16.76 2.25 4.95 8.25
5.70 8.390 1.24 1.70 2.76 3.03
8.98 7.52 2.13 3.07 1.44 1.70 4.82
_

_
Vamos a calcular el ratio de verosimilitudes como cociente de las variabilidades promedio
ante ambas hiptesis. Bajo H
0
se obtiene que la matriz de varianzas y covarianzas cuando
suponemos la misma media, S conduce a la variabilidad promedio
V P(H
0
) = |S|
1/7
= 5.77
mientras que
V P(H
1
) = |S
w
|
1/7
= 4.67
312 CAPTULO 10. INFERENCIA CON DATOS MULTIVARIANTES
con lo que el contraste es
27((27 1) (7 + 7)/2) log(5.77/4.67) = 108.5
que debe compararse con una
2
con 7 grados de libertad, y no hay ninguna duda de que
las diferencias son signicativas.
10.8 Contrastes de datos atpicos
El contraste de igualdad de medias puede aplicarse, como caso particular, para contrastar
si una observacin de una muestra de datos normales es atpica. La hiptesis nula ser que
todos los datos vienen de la misma poblacin normal. La hiptesis alternativa ser que
el dato sospechoso ha sido generado por otra poblacin desconocida. Para caracterizar la
poblacin alternativa podemos suponer que la media es distinta y la varianza la misma, o
que la media es la misma y la varianza distinta. Si supusiesemos que tanto la media como
la matriz de covarianzas tendramos un problema de identicacin, porque no es posible
con un solo dato estimar la media y la variabilidad. Puede comprobarse que los contrastes
suponiendo la media distinta o la varianza distinta son similares (vase Pea y Guttman,
1993) y aqu consideraremos el caso ms simple de media distinta pero misma matriz de
covarianzas. Para aplicar este contraste a un dato sospechoso, x
i
, estableceremos:
H
0
: E(x
i
) = ;
frente a
H
1
: E(x
i
) =
i
6= ;
La funcin de verosimilitud bajo H
0
es (10.17). Bajo H
1
, como la estimacin
i
es x
i
, la
estimacin de la varianza ser
S
(i)
=
1
n 1
W
(i)
,
donde
W
(i)
=
n
X
h=1,j6=i
(x
h
x
(i)
)(x
h
x
(i)
)
0
,
es la estimacin de la suma de cuadrados de los residuos, y x
(i)
es la media de las observa-
ciones, en ambos casos eliminando la observacin x
i
. La diferencia de soportes es, particu-
larizando (10.26):
= nlog
|T|
|W
(i)
|
y, se demuestra en el apndice 10.3, que se verica la relacin:
|T|
|W
(i)
|
= 1 +
1
n
D
2
(x
i
, x
(i)
)
10.9. CONTRASTES DE NORMALIDAD 313
donde D
2
(x
i
, x
(i)
) es:
D
2
(x
i
, x
(i)
) = (x
i
x
(i)
)
0
S
1
(i)
(x
i
x
(i)
). (10.27)
la distancia de Mahalanobis entre el dato y la media sin incluirle. Por tanto, para realizar
el test calcularemos la distancia de Mahalanobis (10.27), que se distribuir, si H
0
es cierta,
para muestras grandes como una
2
p
.
En la prctica, para detectar atpicos se calcula el mximo de las distancias D
2
(x
i
, x
(i)
) y
este valor se compara con el percentil 0,95 o 0,99 de las tablas de percentiles del mximo de
una
2
p
. El problema, entonces, es que si existe ms de un atpico, la potencia del contraste
puede ser muy baja, al estar contaminadas las estimaciones de los parmetros. Un proced-
imiento ms recomendable siempre que se trabaje con muestras que pueden ser heterogneas
es identicar primero todas las observaciones sospechosas, con los procedimientos indicados
en el captulo 3, y despus ir contrastando una por una si las observaciones se aceptan.
Es decir, ordenamos todos los datos sospechosos por D
2
(x
i
, x
(i)
) y contrastamos si el ms
prximo puede incorporarse a la muestra. Si se rechaza esta incorporacin el procedimiento
termina y todos los datos sospechosos son declarados atpicos. En caso contrario, el dato se
incorpora a la muestra y se recalculan los parmetros y las distancias de Mahalanobis, y se
vuelve a aplicar el procedimiento a las restantes excluidas.
10.9 Contrastes de Normalidad
Los mtodos ms utilizados en anlisis multivariante suponen normalidad conjunta de las
observaciones y conviene, cuando dispongamos de datos sucientes, contrastar esta hiptesis.
Normalidad unidimensional
La normalidad de las distribuciones univariantes puede contrastarse con los contrastes
2
,
Kolmogorov-Smirnov, Shapiro y Wilks, o con los contrastes basados en coecientes de
asimetra y curtosis, que pueden consultarse en Pea (2001). Llamando
A =
m
3
m
3/2
2
; K =
m
4
m
2
2
,
donde
m
h
=
1
n
X
(x
i
x)
h
.
Se demuestra que, asintticamente, con datos normales:
A N(0; 6/n); K N(3; 24/n)
y por tanto la variable
X
2
=
nA
2
6
+
n(K 3)
2
24
se distribuir, si la hiptesis de normalidad es cierta, como una
2
con 2 grados de libertad.
Rechazaremos la hiptesis de normalidad si X
2
>
2
2
().
314 CAPTULO 10. INFERENCIA CON DATOS MULTIVARIANTES
Normalidad multivariante
La normalidad multivariante implica la normalidad de distribuciones marginales unidimen-
sionales, pero la existencia de esta propiedad no garantiza la normalidad multivariante de
los datos. Para contrastar la normalidad conjunta existen varios contrastes posibles, y aqu
slo comentaremos la generalizacin multivariante de los contrastes de asimetra y curtosis.
(Vase Justel, Pea y Zamar (1997) para una generalizacin del contraste de Kolmogorov-
Smirnov al caso multivariante).
Deniendo los coecientes de asimetra y curtosis multivariantes como en la seccin 3.6:
A
p
=
1
n
2
n
X
i=1
n
X
j=1
d
3
ij
K
p
=
1
n
n
X
i=1
d
2
ii
donde d
ij
= (x
i
x)
0
S
1
(x
i
x), se verica asintticamente:
nA
p
/6
2
f
con f =
1
6
p(p + 1)(p + 2)
K
p
N (p(p + 2); 8p(p + 2)/n)
La potencia de este contraste no es muy alta a no ser que tengamos una muestra muy
grande. Dos casos frecuentes en la prctica en que se rechaza la hiptesis de normalidad
conjunta son:
(1) Las distribuciones marginales son aproximadamente simtricas, y las relaciones en-
tre las variables son lineales, pero existen valores atpicos que no pueden explicarse por la
hiptesis de normalidad. En este caso si eliminamos (o descontamos con un estimador ro-
busto) los valores atpicos, la normalidad conjunta no se rechaza y los mtodos basados en
la normalidad suelen dar buenos resultados.
(2) Algunas (o todas) las distribuciones marginales son asimtricas y existen relaciones
no lineales entre las variables. Una solucin simple y que funciona bien en muchos casos es
transformar las variables para conseguir simetra y relaciones lineales.
10.9.1 Transformaciones
Para variables escalares Box y Cox (1964) han sugerido la siguiente familia de transforma-
ciones para conseguir la normalidad:
x
()
=
(x+m)

( 6= 0) (x > m)
ln (x +m) ( = 0) (m > 0)
donde es el parmetro de la transformacin que se estima a partir de los datos y la
constante m se elige de forma que x + m sea siempre positiva. Por lo tanto, m ser cero si
10.9. CONTRASTES DE NORMALIDAD 315
trabajamos con datos positivos e igual en valor absoluto al valor ms negativo observado, en
otro caso. Suponiendo m = 0 esta familia incluye como casos particulares la transformacin
logartmica, la raz cuadrada y la inversa. Cuando > 1, la transformacin produce una
mayor separacin o dispersin de los valores grandes de x, tanto ms acusada cuanto mayor
sea el valor de mientras que cuando < 1 el efecto es el contrario: los valores de x grandes
tienden a concentrarse y los valores pequeos (x < 1) a dispersarse.
Estas transformaciones son muy tiles para las distribuciones marginales. Para estudiar
cmo determinar el valor del parmetro con una variable escalar, supongamos que m = 0 y
que existe un valor de que transforma la variable en normal. La relacin entre el modelo
para los datos originales, x, y para los transformados, x
()
, ser:
f(x) = f(x
()
)

dx
()
dx

, (10.28)
y como:
dx
()
dx
=
x
1

= x
1
y suponiendo que x
()
es N(,
2
), para cierto valor de , la funcin de densidad de las
variables originales ser:
f (x) =
1

2
e

1
2
2

2
x
1
Por tanto, la funcin de densidad conjunta de X = (x
i
, ..., x
n
) ser, por la independencia de
las observaciones:
f (X) =
1

n
Y
i=1
x
1
i
!
e

1
2
2
P

i
1

2
(10.29)
y la funcin soporte es:
L

; ,
2

=
n
2
ln
2

n
2
ln2 + ( 1)
X
ln x
i

1
2
2
X

i
1

2
.
Para obtener el mximo de esta funcin utilizaremos que, para jo, los valores de
2
y
que maximizan la verosimilitud (o el soporte) son, derivando e igualando a cero:
b
2
() =
1
n
X

x
()
b ()

2
,
b () = x
()
=
X
x
()
i
n
=
1
n
X

i
1

.
Al sustituir estos valores en la verosimilitud obtenemos lo que se denomina la funcin de
verosimilitud concentrada en . Su expresin es, prescindiendo de constantes:
L() =
n
2
ln b ()
2
+ ( 1)
X
ln x
i
(10.30)
316 CAPTULO 10. INFERENCIA CON DATOS MULTIVARIANTES
El procedimiento para obtener
b
consiste en calcular L() para distintos valores de .
El valor que maximice esta funcin es el estimador MV de la transformacin.
Para conseguir normalidad multivariante supondremos que existe un vector de parmet-
ros = (
1
, ...,
p
) que produce normalidad multivariante, donde
j
es la transformacin
aplicada al componente j del vector. Aplicando un anlisis similar al caso univariante, la
funcin soporte multivariante concentrada en el vector de parmetros de la transformacin
es:
L() =
n
2
ln

+
p
X
j=1
"
(
j
1)
n
X
i=1
ln x
ij
#
,
donde los parmetros se han estimado aplicando las formulas habituales a los datos trans-
formados:
b =
1
n
n
X
i=1
x
()
i
,
y
b
=
1
n
n
X
i=1
(x
()
i
b )(x
()
i
b )
0
.
La estimacin MV del parmetro vectorial no suele aportar mejoras importantes re-
specto a transformar individualmente cada variable para que las marginales sean normales.
Vase Johnson y Wichern (1998).
10.10 Lecturas recomendadas
En este captulo hemos resumido un tema muy amplio sobre el que existe abundante bib-
liografa. El lector puede encontrar una buena introduccin en ingls a los mtodos de
estimacin y contraste basados en la funcin de verosimilitud en Casella y Berger (1990).
En espaol vease Pea (2001) y las referencias all indicadas. La estimacin MV de la nor-
mal multivariante se trata con detalle en Anderson (1984), Mardia et al (1979) y Muirhead
(1982). Los contrastes de matrices de covarianzas se presentan claramente en Mardia et al
(1979) y Rechner (1998). El anlisis de la varianza multivariante es un tema muy amplio
y puede ampliarse en Johnson y Wichern (1998), Morrison (1976), Seber (1984) y Rechner
(1998). Mtodos tradicionales para el contraste de datos atpicos pueden encontrarse en Bar-
nett y Lewis (1994), y referencias a mtodos ms recientes en Pea y Prieto (2001). Para
la transformacin multivariante de Box-Cox vase Gnanadesikan (1997) y Velilla (1993).
Por razones de espacio no hemos incluido la aplicacin de nuevos mtodos de estimacin,
como la estimacin autosuciente de Efron, al caso multivariante. El lector puede consultarla
en Efron (1982) and Efron y Tibshirani (1993).
Ejercicios
10.1 Demostrar que la verosimilitud L(V|X) =
n
2
log |V
1
S|
n
2
trV
1
S es invariante
ante trasnformaciones de las variables y = Ax, con A cuadrada no singular.
10.10. LECTURAS RECOMENDADAS 317
10.2 Obtener los estimadores mximos verosmiles de los parmetros en la normal multi-
variante derivando en la funcin de verosimilitud (10.4). Para la varianza escribir la funcin
como funcin de V
1
y utilizar que
log|V
1
|
V
1
= V, y
trV
1
S
V
1
= S. Comprobar entonces que
L(V
1
|X)
V
1
=
n
2

log|V
1
|
V
1

tr(V
1
S)
V
1

=
n
2
(VS) = 0.
10.3 Demostrar que la funcin soporte de la seccin 10.2 puede escribirse como L(V|X) =

n
2
log |V|
n
2
trV
1
S(), donde S() =
P
n
i=1
(x
i
)(x
i
)
0
/n y utilizar esta expresin
para demostrar que el estimador MV de V cuando restringimos los valores de a una regin
A es es S(b ), donde b es el valor que maximiza
P
n
i=1
(x )
0
V
1
(x ) sobre A.
10.4 Demostrar que la funcin de verosimilitud del ejercicio anterior 10.1 puede escribirse
como L(V|X) =
np
2
(log
g
), donde
g
y son la media geomtrica y aritmtica de los
valores propios de la matriz V
1
S.
10.5 Demostrar que el contraste del anlisis de la varianza multivariante equivale a com-
parar las medias geomtricas de los valores propios de las matrices de variabilidad total y no
explicada.
10.6 Demostrar que el contraste del anlisis de la varianza multivariante no se modica si
en lugar de trabajar con las variables originales lo hacemos con las componentes principales.
10.7 Demostrar que el contraste multivariante de que una muestra viene de una poblacin
es invariante ante transformaciones lineales no singulares de las variables. Cmo sera el
contraste si en lugar de las variables utilizamo sus componentes principales?
10.8 Demostrar que el estimador MV del parmetro
2
en el modelo x N
p
(,
2
I) es
b
2
= trS/p.
10.9 Demostrar que el contraste H
0
: x N
p
(,
2
V
0
) frente a H
1
: x N
p
(, V)
depende slo de la media aritmtica y geomtrica de los valores propios V
1
0
S.
APNDICE 10.1: Inadmisibilidad de la media muestral
para p 3
Stein (1956) demostr que para p 3 la media muestral no es necesariamente el estimador
ptimo de la media poblacional de una normal multivariante. Este resultado es consecuencia
de que si tomamos como criterio seleccionar como estimador de el que minimice el error
cuadrtico medio de estimacin, dado por
E

( b )
0
M
1
( b )

,
donde M es una cierta matriz que sirve para denir como se mide la distancia entre el
estimador b y el parmetro . Eligiendo M = I, el estimador:
b
s
=

1
(p 2)
x
0
S
1
x

x,
es sesgado para , pero puede demostrarse que tiene un error cuadrtico medio menor que x.
Por tanto, con este criterio, b
s
es mejor estimador que la media muestral y en consecuencia la
media muestral se dice que es un estimador inadmisible si p 3, ya que el estimador b
s
tiene
siempre menor error cuadrtico medio. Observemos que b
s
contrae (shrinkage) el valor
de x, ya que |b
s
| |x|. Este resultado ha despertado un gran inters por los estimadores
shrinkage que mejoran el error cuadrtico medio de los estimadores MV tradicionales.
318 CAPTULO 10. INFERENCIA CON DATOS MULTIVARIANTES
APNDICE 10.2: RAZN DE VEROSIMILITUDES Y LA T
DE HOTELLING
Para demostrar la relacin entre la razn de verosimilitudes y la T de Hotelling utilizare-
mos el siguiente
Lemma 1 Si A es una matriz no singular y b un vector, |I + Abb
0
| = 1 + b
0
Ab. En efecto,
observemos que la matriz bb
0
tiene rango uno y tambin tendr rango uno Abb
0
. Por tanto,
Abb
0
tiene un nico valor propio no nulo. Llamando a este valor propio no nulo y v al
vector propio, como Abb
0
v = v, multiplicando por b
0
se obtiene que = b
0
Ab. Entonces
la matriz I + Abb
0
tendr un valor propio igual a 1+ y el resto sern la unidad . Como el
determinante es el producto de los valores propios, queda demostrado el lema.
Partiendo ahora de
nS
0
=
n
X
i=1
(x
i
x + x
0
)(x
i
x + x
0
)
0
,
y desarrollando en los trminos (x
i
x) y ( x
0
), resulta:
nS
0
= nS +n( x
0
)( x
0
)
0
.
Por tanto
|S
0
|
|S|
=
|S + (x
0
)(x
0
)
0
|
|S|
,
que puede escribirse
|S
0
|
|S|
= |S
1
||S + ( x
0
)( x
0
)
0
| = |I +S
1
( x
0
)( x
0
)
0
|,
y aplicando el lema anterior tenemos que:
|I +S
1
( x
0
)( x
0
)
0
| = 1 + (x
0
)
0
S
1
(x
0
),
con lo que, tenemos nalmente que :
|S
0
|
|S|
= 1 + ( x
0
)
0
S
1
( x
0
) = 1 +
T
2
n 1
.
APNDICE 10.3: CONTRASTE DE VALORES ATIPICOS
La relacin entre T y W
(i)
se obtiene restando y sumando x
(i)
:
T =
n
X
j=1
(x
j
x
(i)
+ x
(i)
x)(x
j
x
(i)
+ x
(i)
x)
0
,
10.10. LECTURAS RECOMENDADAS 319
que resulta en
T =
n
X
j=1
(x
j
x
(i)
)(x
j
x
(i)
)
0
+n( x
(i)
x)( x
(i)
x)
0
+F +F
0
donde F =
P
n
j=1
(x
j
x
(i)
)( x
(i)
x)
0
. El primer trmino puede escribirse
n
X
j=1
(x
j
x
(i)
)(x
j
x
(i)
)
0
= W
(i)
+ (x
i
x
(i)
)(x
i
x
(i)
)
0
y utilizando que
x
(i)
x = x
(i)

(n 1) x
(i)
+x
i
n
=
1
n
( x
(i)
x
i
)
y reemplazando en todos los trminos ( x
(i)
x) por ( x
(i)
x
i
)/n se obtiene nalmente que
T = W
(i)
+
n 1
n
(x
i
x
(i)
)(x
i
x
(i)
)
0
y, por tanto,
|T| =

W
(i)

1 +
n 1
n
W
1
(i)
(x
i
x
(i)
)(x
i
x
(i)
)
0

y aplicando el lema del apndice 10.2


|T|
|W
(i)
|
= 1 +
1
n
(x
i
x
(i)
)
0
S
1
(i)
(x
i
x
(i)
)
donde S
1
(i)
= (n 1)W
1
(i)
. Finalmente
DS = nlog(1 +
1
n
(x
i
x
(i)
)
0
S
1
(i)
(x
i
x
(i)
))
y para n grande como log(1 +x/n) ' x/n , tenemos que la distancia de Mahalanobis
D
2
(x
i
, x
(i)
) = (x
i
x
(i)
)
0
S
1
(i)
(x
i
x
(i)
)
2
p
.
320 CAPTULO 10. INFERENCIA CON DATOS MULTIVARIANTES
Captulo 11
METODOS DE INFERENCIA
AVANZADA MULTIVARIANTE
11.1 INTRODUCCIN
En este captulo vamos a presentar mtodos ms avanzados de inferencia para datos multi-
variantes. En primer lugar presentamos un algoritmo para estimar por mxima verosimilitud
muestras con datos incompletos. Este algoritmo, el EM, es muy til para estimar distribu-
ciones mezcladas, que utilizaremos en el captulo 14 en problemas de clasicacin y tambin
es til en la estimacin del modelo factorial que se presenta en el captulo 11. Adems
este algoritmo tiene un inters general por s mismo para resolver la estimacin de valores
ausentes en cualquier problema multivariante. A continuacin se presentan los mtodos ro-
bustos clsicos de estimacin, que pueden tambin considerarse como mtodos de estimacin
de mezclas en un caso especial: hay una distribucin central, que genera la mayora de las
observaciones, y una distribucin contaminante de forma desconocida que introduce una
pequea proporcin de atpicos en la muestra. Se presentan brevemente los mtodos clsicos
y se introduce un mtodo reciente basado en proyecciones que es fcil de implementar y que
puede evitar el efecto perturbador de los datos atpicos en la estimacin de los parmetros. Se
presenta tambin una breve introduccin a la inferencia bayesiana. Adems de su atractivo
metodolgico, la inferencia bayesiana permite incorporar informacin a priori, que puede ser
importante en problemas de clasicacin (captulo 12, anlisis discriminante) y construccin
de conglomerados (captulo 14, clasicacin mediante mezclas). Los mtodos bayesianos son
tambin tiles en anlisis factorial (captulo 11). Finalmente, los mtodos bayesianos de
estimacin por Montecarlo son muy ecaces para la estimacin de mezclas, como veremos en
el captulo 14. En este captulo se revisa brevemente el enfoque Bayesiano para la estimacin
y el contraste de hiptesis y se deduce un criterio de comparacin de modelos a partir de
este enfoque. Finalmente se presentan algunos mtodos clasicos y bayesianos para seleccin
de modelos.
Este captulo es ms avanzado que los anteriores y puede saltarse en una primera lectura
sin prdida de continuidad, ya que la comprensin bsica de los mtodos que se presentan
en los captulos siguientes no requiere el material de este captulo. Sin embargo este captulo
ser necesario para el lector interesado en los detalles de aplicacin de los mtodos, y en
321
322 CAPTULO 11. METODOS DE INFERENCIA AVANZADA MULTIVARIANTE
la comprensin de los algoritmos de estimacin actuales para el anlisis multivariante y los
mtodos de data mining, que estn adquiriendo una popularidad creciente.
11.2 ESTIMACIN MV CON DATOS FALTANTES
La estimacin mximo verosmil con datos faltantes es importante por dos razones princi-
pales. En primer lugar, es posible que la muestra tenga observaciones faltantes en algunas
variables. Por ejemplo, si tomamos una muestra de personas desempleadas y queremos rela-
cionar sus caractersticas fsicas con la duracin de desempleo, es posible que para algunas
personas no se consiga este dato. (En otros casos podemos tener informacin parcial, por
ejemplo un valor superior o inferior de la duracin, y en estos casos decimos que el dato est
censurado o truncado, no consideraremos estos casos en este libro). Como segundo ejemplo,
si hacemos una encuesta de opinin, y representamos por x el vector de respuestas de un
individuo, es posible que determinadas preguntas del cuestionario no sean respondidas por
algunos individuos, dando lugar a un problema de datos faltantes. Si los datos faltantes
ocurren en unos pocos elementos de la muestra, podemos eliminar las observaciones incom-
pletas, pero si ocurren en una proporcin importante de observaciones, podemos mejorar la
precisin de las estimaciones utilizando todos los datos, con el coste de un mayor esfuerzo
computacional.
En segundo lugar, la estimacin MV de muchos modelos de anlisis multivariante puede
realizarse ms facilmente con este algoritmo. Por ejemplo, en el modelo factorial, que estu-
diaremos en el captulo 12, o en la estimacin de distribuciones mezcladas para clasicacin,
que estudiaremos en el captulo 15. En el primer caso, podemos suponer que los factores son
variables ausentes y en el segundo, que faltan los valores de las variables de clasicacin que
nos indican de que poblacin proviene cada elemento.
Intuitivamente, el procedimiento para estimar los parmetros de un modelo con una
muestra que contiene datos faltantes podra ser:
(1) estimar los parmetros del modelo con los datos que estn completos, maximizando
la verosimilitud de la forma habitual;
(2) Utilizar los parmetros estimados en (1) para predecir los valores ausentes;
(3) Sustituir los datos ausentes por sus predicciones y obtener nuevos valores de los
parmetros maximizando la verosimilitud de la muestra completada.
Adicionalmente podramos iterar entre (2) y (3) hasta que se obtenga convergencia, es
decir hasta que el valor de los parmetros no cambie de una iteracin a la siguiente. Veremos
en la seccin siguiente que este procedimiento intuitivo es ptimo en muchos casos, pero no
siempre. La razn es que no tiene en cuenta cmo se utilizan los datos ausentes para estimar
los parmetros a partir de la verosimilitud. Por ejemplo, supongamos el caso ms simple
de una variable escalar, x, y un nico parmetro a estimar, . Supongamos que la funcin
soporte para es de la forma:
2
2
P
x
2
i
. Entonces, el estimador MV de es, derivando
respecto a e igualando a cero,
b

MV
=
P
x
2
i
. Supongamos ahora que la observacin x
1
falta. Para obtener entonces el estimador
b

MV
tendriamos que estimar el valor esperado
de x
2
1
a la vista de la informacin disponible y utilizarlo en
b

MV
=
P
x
2
i
. Si en lugar del
valor esperado de x
2
1
calculamos el valor esperado de x
1
y lo sustituimos en esta ecuacin
11.2. ESTIMACIN MV CON DATOS FALTANTES 323
elevado al cuadrado, como en general E(x
2
1
) 6= [E(x
1
)]
2
, este segundo procedimiento no es
necesariamente ptimo. Por ejemplo, si la variable x
1
tiene media cero dada la informacin
disponible lo que necesitamos es calcular su varianza, E(x
2
1
), y sustituirlo en la ecuacin del
parmetro. Esto no es lo mismo que calcular E(x
1
), que es cero, y sustituirlo como x
1
, con
lo que x
2
1
ser cero. Un procedimiento eciente y general para maximizar la verosimilitud
cuando tenemos datos faltantes es el algoritmo EM (Dempster, Laird y Rubin, 1977), que
extiende el procedimiento intuitivo anterior, como describimos a continuacin
11.2.1 Estimacin MV con el algoritmo EM
Supongamos que tenemos una muestra de tamao n de una variable vectorial, x, pero en
algunos de los n elementos observados faltan los valores de algunas variables. Por ejemplo,
observamos el peso y la altura de personas y en algunos casos tenemos slo el dato de la
estatura o slo el dato del peso. Vamos a suponer que estos datos ausentes aparecen al azar,
es decir, que en el ejemplo anterior la falta del dato del peso no aparece con ms frecuencia
en individuos de peso alto o bajo o con estatura ms alta o ms baja, sino que falta ese
dato por razones no relacionadas con los valores de las variables. Para cada elemento no
hay una relacin entre los valores observados y la aparicin o no de un dato ausente. Un
ejemplo donde no se cumple esta condicin es una encuesta de opinin donde las personas que
maniestan desacuerdo en un punto, por ejemplo con la pregunta diez, dejan de responder
al cuestionario a continuacin. En este caso, los valores ausentes en la pregunta once no
aparecen al azar, sino que son consecuencia del desacuerdo con la pregunta diez.
Los dos casos ms importantes de aparicin de valores ausentes son:
(1) Algunos elementos tienen datos faltantes: los elementos de la muestra x
1
, ..., x
n
1
,
estn completos, pero los restantes, x
n
1
+1
, ..., x
n
, carecen de los valores de algunas variables,
o de todas ellas;
(2) Algunas variables tienen datos faltantes: si dividimos el vector de variables en dos
grupos y escribimos x = (y
0
, z
0
)
0
, las variables y estn completas pero las z tienen datos
ausentes.
Para plantear el problema de manera que englobe estos dos casos, supondremos que
tenemos una muestra con una matriz de datos observados Y = (y
1
, ..., y
n
), donde y
i
es
un vector p
1
1, y un conjunto de datos ausentes Z = (z
1
, ..., z
m
), donde z
i
es un vector
p
2
1. Esta formulacin cubre los dos casos anteriores, ya que en el primero tomamos
z
1
= x
n
1
+1
, ..., z
m
= x
n
y m = n n
1
+ 1. En el segundo m = n.
Este conjunto de variables proviene de un modelo con parmetros , y se desea estimar
el vector de parmetros con la informacin disponible.La funcin de densidad conjunta de
todas las variables (Y, Z) puede escribirse
f(Y, Z|) =f(Z|Y, )f(Y|)
que implica
log f(Y|) =log f(Y, Z|)log f(Z|Y, ).
En la estimacin MV el primer miembro de esta expresin, log f(Y|), es la funcin
soporte de los datos observados, cuya maximizacin sobre nos proporcionar el estimador
324 CAPTULO 11. METODOS DE INFERENCIA AVANZADA MULTIVARIANTE
MV de los parmetros. El trmino log f(Y, Z|) es la funcin soporte si hubisemos obser-
vado la muestra completa, y el trmino log f(Z|Y, ) proporciona la densidad de los datos
ausentes conocida la muestra y los parmetros. Podemos escribir
L(|Y) =L
C
(|Y, Z)log f(Z|Y, ). (11.1)
Es frecuente que la maximizacin del soporte supuesta la muestra completa, L
C
(|Y, Z),
sea fcil, mientras que la maximizacin del soporte con los datos observados, L(|Y), sea
complicada. El algoritmo EM es un procedimiento iterativo para encontrar el estimador MV
de trabajando siempre con la funcin ms simple, L
C
(|Y, Z), en lugar de la compleja,
L(|Y). La estimacin se obtiene iterando en los dos pasos siguientes:
1. Partiendo de un estimador inicial,
b

(i)
, (en la primera iteracin i = 1) se calcula
la esperanza de las funciones de los valores ausentes que aparecen en la funcin de
verosimilitud completa, L
C
(|Y, Z), con respecto a la distribucin de Z dados el valor
b

(i)
y los datos observados Y. Sea:
L

C
(|Y) = E
Z/
b

(i) [L
C
(|Y, Z)]
el resultado de esta operacin que se denomina el paso E (de tomar valores esperados)
del algoritmo. Observemos que cuando L
C
(|Y, Z) sea una funcin lineal de Z, este
paso llevar a sustituir en esta funcin los valores ausentes por sus esperanzas dados
los parmetros. Sin embargo, cuando en la verosimilitud aparezcan funciones g(Z )
calcularemos la esperanza de estas funciones dados el resto de los datos y la estimacin
disponible de los parmetros.
2. A continuacin se maximiza la funcin L

C
(|Y) con respecto a . Este es el paso
M (maximizacin) del algoritmo. Este paso M equivale a maximizar la verosimilitud
completa donde se han sustituido las observaciones faltantes por ciertas estimaciones
de sus valores.
3. Sea
b

(i+1)
el estimador obtenido en el paso M. Con este valor volvemos al paso E. Se it-
era entre ellos hasta obtener convergencia, es decir hasta que la diferencia

(i+1)

(i)

sea sucientemente pequea.


Puede demostrarse (Dempster, Laird y Rubin, 1977), vase el apndice 11.1, que este
algoritmo maximiza L(|Y). Adems, la verosimilitud aumenta en cada iteracin, aunque
la convergencia puede ser muy lenta.
A continuacin presentamos dos ejemplos de utilizacin del algoritmo. En el primero, la
funcin de verosimilitud completa es lineal en los datos ausentes, con lo que les sustituimos
por sus estimaciones. En el segundo, los valores ausentes aparecen de forma no lineal en la
verosimilitud, y sustituiremos estas funciones por sus estimaciones.
11.2. ESTIMACIN MV CON DATOS FALTANTES 325
11.2.2 Estimacin MV de mezclas
Para ilustrar el comportamiento del algoritmo EM vamos a considerar un problema simple de
estimacin de mezclas que abordaremos con ms generalidad en el captulo 14. Supondremos
que los datos de una muestra, x
1
, ..., x
n
se generan mediante la distribucin

1
f
1
(x) + (1
1
)f
2
(x)
donde f
i
(x) es N
p
(
i
, V
i
), i = 1, 2. La funcin soporte para la muestra es
L(|X) =
n
X
i=1
log(
1
f
1
(x
i
) + (1
1
)f
2
(x
i
))
donde = (
1
,
2
, V
1
, V
2
,
1
) es el vector de parmetros. La estimacin MV de los parmet-
ros es complicada, porque tenemos que resolver las ecuaciones:
L(|X)

1
=
n
X
i=1
f
1
(x
i
) f
2
(x
i
)

1
f
1
(x
i
) + (1
1
)f
2
(x
i
)
= 0 (11.2)
Para interpretar esta ecuacin llamemos

1i
=

1
f
1
(x
i
)

1
f
1
(x
i
) + (1
1
)f
2
(x
i
)
a la probabilidad a posteriori de que la observacin i sea generada por la primera poblacin.
Entonces
1
1i
=
(1
1
)f
2
(x
i
)

1
f
1
(x
i
) + (1
1
)f
2
(x
i
)
y la ecuacin (11.2) puede escribirse:
n
X
i=1
(

1i

1

1
1i
(1
1
)
) = 0
que equivale a
n
X
i=1
(
1i

1
) = 0
Es decir
b
1
=
P
n
i=1
b
1i
n
Esta ecuacin indica que la probabilidad estimada de pertenencia a la primera poblacin debe
ser igual al promedio de las probabilidades estimadas de que cada observacin pertenezca a
esa poblacin. Desgraciadamente no puede aplicarse directamente porque para calcular las
326 CAPTULO 11. METODOS DE INFERENCIA AVANZADA MULTIVARIANTE
b
1i
necesitamos todos los parmetros del modelo. Derivando la funcin soporte respecto a

1
:
L(|X)

1
=
n
X
i=1

1
f
1
(x
i
)V
1
1
(x
i

1
)

1
f
1
(x
i
) + (1
1
)f
2
(x
i
)
= 0
que puede escribirse como
n
X
i=1
b
1i
(x
i

1
) = 0
de donde obtenemos:
b
1
=
P
n
i=1
b
1g
P
n
i=1
b
1i
x
i
. (11.3)
que indica que la media de la primera poblacin se estima dando un peso a cada observacin
proporcional a la probabilidad relativa de pertenecer a esta poblacin. El mismo resultado se
obtiene por simetra para c
2
intercambiando b
1g
por b
2g
= 1b
1g
. Anlogamente, derivando
respecto a V
1
puede demostrarse que el estimador es:
b
V
1
=
P
n
i=1
b
1g
P
n
i=1
b
1g
(x
i
b
1
)(x
i
b
1
)
0
(11.4)
que tiene un interpretacin similar, como promedio de desviaciones de los datos respecto a
sus medias, con pesos proporcionales a las probabilidades a posteriori.
Para resolver estas ecuaciones y obtener los estimadores necesitamos las probabilidades
b
1i
, y para calcular estas probabilidades con (15.10) necesitamos los parmetros del modelo.
Por otro lado vemos que si las observaciones estuviesen clasicadas como viniendo de una
u otra poblacin el problema es muy simple, porque entonces b
1i
es uno, si la i proviene
de la primera poblacin o cero, si viene de la segunda, y las frmulas (11.3) y (11.4) se
reducen a aplicar las frmulas de estimacin habituales a las observaciones de cada grupo.
Intuitivamente, podramos partir de una asignacin, estimar los parmetros y calcular las
probabilidades b
1i
e iterar entre ambas etapas y esta es la solucin que se obtiene con el
algoritmo EM.
Como la estimacin es muy simple si tenemos bien clasicadas las observaciones vamos
a aplicar el algoritmo EM introduciendo 2n variables de clasicacin que van a indicar de
que poblacin proviene cada dato muestral y que consideraremos como datos ausentes. Las
primeras n variables z
1i
, i = 1, ..., n se denen mediante :
z
1i
= 1, si x
i
proviene de f
1
= 0, si x
i
proviene de f
2
y analogamente z
2i
se dene para que tome el valor uno si x
i
proviene de f
2
, de manera que
z
1i
+ z
2i
= 1. Para escribir la verosimilitud completa de las variables x y de las z tenemos
en cuenta que, llamando al vector de parmetros, para una observacin cualquiera:
f(x
1
, z
11
, z
21
|) =f(x
1
/z
11
, z
21
)p(z
11
, z
21
|)
11.2. ESTIMACIN MV CON DATOS FALTANTES 327
donde
f(x
1
|z
11
, z
21
) =f
1
(x
1
)
z
11
f
2
(x
1
)
z
21
ya que si z
11
= 1 la dato x
1
proviene de f
1
y entonces forzosamente z
21
= 0 y viceversa. La
probabilidad de los valores z es:
p(z
11
, z
21
|) =
z
11
1
(1
1
)
z
21
ya que la probabilidad de z
11
= 1 (en cuyo caso z
21
= 0 ) es
1
. Uniendo ambas ecuaciones
podemos escribir
log f(x
1
, z
11
, z
21
|) =z
11
log
1
+z
11
log f
1
(x
1
)+z
21
log (1
1
) +z
21
log f
2
(x
1
)
y, para toda la muestra, llamando X = (x
1
, ..., x
n
) e incluyendo las variables de clasicacin
Z = (z
11
, ..., z
1n
, z
21
, ..., z
2n
) es
L(X, Z|) =
X
z
1i
log
1
+
X
z
1i
log f
1
(x
i
)+
X
z
2i
log (1
1
) +
X
z
2i
log f
2
(x
i
) (11.5)
Para aplicar el algoritmo EM primero necesitamos una estimacin inicial de los parmet-
ros. Esto puede hacerse representando grcamente los datos en un diagrama de dispersin
bivariante y diviendo en funcin de ese grco los datos en dos grupos. Supongamos que
tomamos como grupo 1 el de menor dispersin aparente. Entonces denimos unos valores
iniciales para las variables z, que llamaremos z
(1)
de manera que z
(1)
1i
= 1 si la observacin
x
i
se clasica en la primera problacin (entonces z
(1)
2i
= 0) y cero si se clasica en la segunda
(entonces z
(1)
2i
= 1). Una vez denidas estas variables de clasicacin estimaremos las medias
mediante
b
(1)
1
=
P
z
(1)
1i
x
i
P
z
(1)
1i
(11.6)
y lo mismo para b
(1)
2
. Analogamente, estimaremos la matriz de varianzas y covarianzas
mediante
b
V
(1)
1
=
1
P
z
(1)
1i
n
X
i=1
z
(1)
1i
(x
i
b
(1)
1
)(x
i
b
(1)
1
)
0
, (11.7)
que es simplemente la matriz de covarianzas muestrales de las observaciones de ese grupo.
Finalmente, estimaremos la probabilidad de que un dato pertenezca al grupo uno por la
proporcin de datos en ese grupo:
b
(1)
1
=
P
z
(1)
1i
n
(11.8)
A continuacin tomamos esperanzas en la distribucin conjunta (11.5) respecto a la distribu-
cin de los z supuesto este valor inicial
b

(1)
de los parmetros. Como las variables z aparecen
linealmente, esto se reduce a calcular sus esperanzas y sustituirlas en la ecuacin (11.5). Las
328 CAPTULO 11. METODOS DE INFERENCIA AVANZADA MULTIVARIANTE
1 2 3 4 5 6 7 8 9 10
0.837 -0.722 -0.722 -0.201 -0.021 0.279 2.143 4.382 4.219 0.337
-0.655 -1.081 -0.048 0.379 -0.330 -0.500 3.530 5.355 2.324 1.623
11 12 13 14 15 16 17 18 19 20
2.408 0.595 6.925 3.680 -1.265 -0.538 6.351 5.289 4.868 -2.191
2.992 1.310 4.634 3.565 0.264 1.052 3.896 2.549 2.556 -0.414
Tabla 11.1: Datos simulados, los 6 primeros de una distribucin y los 14 siguientes de otra
variables z son binomiales puntuales, y su esperanza coincide con la probabilidad de que
tomen el valor uno. Por tanto:
c z
1i
= E(z
1i
|
b

(1)
, x
i
) = P(z
1i
= 1|
b

(1)
, x
i
)
y esta probabilidad se calcula mediante el teorema de Bayes
P(z
1i
= |1
b

(1)
, x
i
) =
b
(1)
1
f
1
(x
1
|
b

(1)
)
b
(1)
1
f
1
(x
1
|
b

(1)
) + (1b
(1)
1
)f
2
(x
1
|
b

(1)
)
(11.9)
Una vez obtenidos los valores c z
ji
los sustituiremos en la funcin de verosimilitud (11.5) y
la maximizaremos respecto a los parmetros. Esto conduce a resolver las ecuaciones (11.6),
(11.7) y (11.8) pero sustituyendo ahora las z
(1)
ij
por las estimaciones c z
ji
. Observemos que
ahora las c z
ji
ya no sern valores cero o uno, y la frmula (11.6) ya no calcula la media de las
observaciones de un grupo sino que hace una media ponderada de todas las observaciones
con peso proporcional a la probabilidad de pertenecer al grupo. Esto propocionar otro
nuevo estimador
b

(2)
que, mediante (11.9) conducir a nuevos valores de las c z
ji
, y el proceso
se itera hasta la convergencia.
Ejemplo 11.1 Vamos a ilustrar el funcionamiento del algoritmo EM para estimar distribu-
ciones normales con datos simulados. Hemos generado 20 observaciones de una variable bidi-
mensional de acuerdo con el modelo .3N(0, I)+.7N(, V ) donde = (2, 2)
0
y V =

2 2
2 4

.
Los datos generados, donde los seis primeros provienen de la primera mezcla y los 14 sigu-
iente de la segunda se presentan en la tabla 11.1
Para obtener una estimacin inicial de los parmetros, consideramos el histograma de
cada variable.
11.2. ESTIMACIN MV CON DATOS FALTANTES 329
Figura 11.1: Histograma de la primera variable de la mezcla de normales
El histograma de la primera variable representado en la gura (11.1) indica que los
datos parecen ser mezcla de dos poblaciones con medias (0, 4) y similar variabilidad. Las
desviaciones tpicas de las poblaciones sobre esta variable son del orden de uno. El histograma
de la segunda, gura (11.2), parece de nuevo tambin una mezcla, aunque dadas las pocas
observaciones no es muy claro. Las medias parecen ser (0,3) pero ahora parece haber mas
variabilidad en la segunda variables que en la primera. El diagrama de dispersin de las
variables de la gura (??) indica dos grupos y correlacin entre las variables. A primera
vista este grco de dispersin sugiere dos poblaciones, la primera con 11 elementos y media
prxima al punto (0,0) y la segunda con nueve elementos y media alrededor del punto
(4,3). Uniendo la informacin univariante y bivariante vamos a tomar como estimacin
inicial b
(1)
1
= (0, 0)
0
, b
(1)
2
= (4, 3)
0
y matrices de covarianzas
b
V
(1)
1
=

1 .5
.5 1

y
b
V
(1)
2
=

1 1
1 4

. Para las proporciones tomaremos la estimacin inicial ms simple


1
=
2
= .5.
Una asignacin mejor sera clasicar las varaibles en los grupos y estimar a partir de esa
clasicacin los parmetros pero vamos a tomar una estimacin inicial rpida para ilustrar
como funciona el algoritmo con estimaciones iniciales no muy precisas.
330 CAPTULO 11. METODOS DE INFERENCIA AVANZADA MULTIVARIANTE
Figura 11.2: Histograma de la segunda variable en la mezcla de normales
Diagrama de dispersin de las dos variables.
La aplicacin del algoritmo EM se resume en la tabla siguiente. Se indican las iteraciones,
el valor de
1
, y las medias estimadas de cada variable en cada iteracin.
iter b
1
b
11
b
12
b
21
b
22
1 0.5551 0.3021 0.1780 4.4961 3.4869
2 0.5488 0.3289 0.1435 4.4614 3.4826
3 0.5479 0.3308 0.1408 4.4551 3.4798
4 0.5478 0.3311 0.1404 4.4536 3.4791
5 0.5477 0.3311 0.1403 4.4533 3.4790
6 0.5477 0.3311 0.1403 4.4532 3.4789
Se observa que la convergencia se alcanza bastante rpido, y que los resultados obtenidos
son consistentes con los datos del grco de dispersin de las variables. En efecto, once
11.2. ESTIMACIN MV CON DATOS FALTANTES 331
observaciones son clasicadas en el primer grupo y nueve en el segundo. Las probabilidades
a posterior de cada observacin de pertenecer al grupo 1 son ( 0.9999 1.0000 1.0000 0.9998
1.0000 1.0000 0.0003 0.0000 0.0000 0.9725 0.0008 0.9828 0.0000 0.0000 1.0000 0.9989 0.0000
0.0000 0.0000 1.0000). Esto es consecuencia de que algunas observaciones generadas por el
grupo 2 han aparecido muy prximas a las del grupo uno y, en consecuencia, se han marcado
como provenientes del grupo 1. La estimacin nal de las matrices de covarianzas es
V
1
=

0.7131 0.1717
0.1717 0.6841

y V
2
=

2.3784 0.4209
0.4209 0.9414

.
Se ha comprobado que esta solucin no parece depender de los valores iniciales. Comen-
zando con V
1
= V
2
= I se obtiene la misma solucin y si tomamos como valores iniciales
los exactos utilizados para generar los datos se obtiene de nuevo este resultado. El problema
es que esta estimacin es consistente con los datos, y dado el pequeo tamao muestral la
precisin de los estimadores es baja. Si repetimos el problema con n = 100 los parmetros
obtenidos se aproximan mucho ms a los verdaderos, pero la convergencia es muy lenta y
hacen falta ms de 50 iteraciones para alcanzarla.
11.2.3 Estimacin de poblaciones normales con datos ausentes
Vamos a aplicar el algoritmo EM para estimar los parmetros de una distribucin normal
multivariante cuando disponemos de observaciones ausentes. La funcin de verosimilitud
para una muestra sin valores ausentes puede escribirse, segn (10.4), en funcin de las ob-
servaciones
L(, V|X) =
n
2
log |V|
1
2
tr(V
1
n
X
i=1
x
i
x
0
i
)
n
2

0
V
1
+
0
V
1
n
X
i=1
x
i
(11.10)
y sabemos que la estimacin MV cuando tenemos toda la muestra es b =
P
n
i=1
x
i
/n y
b
V = S =
P
n
i=1
x
i
x
0
i
/n b b
0
.
Supongamos ahora que los vectores de observaciones x
1
, ..., x
m
(m < n) estn completos,
pero que los vectores x
m+1
= z
1
, ..., x
n
= z
nm
carecen de los valores de algunas variables
(o de todas ellas). Con la notacin de la seccin anterior, sea Y el conjunto de datos
disponibles y Z las variables ausentes. La funcin de verosimilitud completa viene dada por
(11.10). Para aplicar el algoritmo EM, comenzaremos calculando un estimador inicial con
los datos disponibles, y sean b
(0)
y
b
V
(0)
estos estimadores iniciales. Tomamos b
(i)
= b
(0)
y
b
V
(i)
=
b
V
(0)
y iteraremos entre los dos pasos siguientes:
1. Paso E. Hay que calcular la esperanza de la funcin de verosimilitud completa (11.10)
respecto a la distribucin de los datos faltantes Z, dados los parmetros
b

(i)
=(b
(i)
,
b
V
(i)
) y
los datos observados Y . En esta funcin los datos faltantes aparecen en dos trminos. El
primero es
0
V
1
P
n
i=1
x
i
, y all aparecen de forma lineal, por lo que tendremos simplemente
que sustituir los datos ausentes por sus estimaciones. El segundo es tr(V
1
P
n
i=1
x
i
x
0
i
), y
aqu tendremos que sustituir las expresiones x
i
x
0
i
por sus estimaciones. Comencemos con
el primer trmino, tomar esperanzas de dados los parmetros y los datos conocidos implica
sustituir x
i
para i > m por E(x
i
/Y,
b

(i)
). El calculo de esta esperanza se realiza como
sigue:
332 CAPTULO 11. METODOS DE INFERENCIA AVANZADA MULTIVARIANTE
(a) Si el vector x
i
es completamente inobservado, es decir, no se ha observado ninguna
variable para ese elemento, entonces E(x
i
/Y,
b

(i)
) = b
(i)
, no depende de los datos ob-
servados. Puede comprobarse que, nalmente, esta sustitucin es equivalente a desechar
completamente esta observacin, lo que resulta intuitivo. Si no observamos en un elemento
ninguna variable es equivalente a no tomarlo en la muestra.
(b) Si el vector x
i
= [x
0
1i
x
0
2i
]
0
se observa parcialmente, de manera que no conocemos
los valores de ciertas variables x
1i
, pero si hemos observado los valores de otras x
2i
,entonces
E(x
i
/Y,
b

(i)
) depende de los valores observados de x
2i
y ser igual a la esperanza condiciona-
da E(x
1i
/x
2i
,
b

(i)
). Esta esperanza se calcula, segn la seccin 8.5.1, por regresin mediante
:
E(x
1i
/Y,
b

(i)
) = E(x
1i
/x
2i
,
b

(i)
) = b x
(i)
1i.2
= c
1
(i)
+
b
V
(i)
12
b
V
(i)
22
(x
2i
c
2
(i)
) (11.11)
donde hemos particionado el vector de medias y la matriz de covarianzas con relacin a los
dos bloques de variables.
Para calcular la esperanza del segundo termino, observemos primero que E[tr(V
1
P
n
i=1
x
i
x
0
i
)] =
tr [E(V
1
P
n
i=1
x
i
x
0
i
)] = tr [V
1
P
n
i=1
E(x
i
x
0
i
)] . Por tanto tenemos que obtener las esperan-
zas E(x
i
x
0
i
/Y,
b

(i)
) para i > m. Consideremos, como antes, los dos casos siguientes:
(a) Si el vector es completamente inobservado, E(x
i
x
0
i
/Y,
b

(i)
) =
b
V
(i)
b
(i)
b
(i)0
, y, de
nuevo, puede comprobarse que esto va a ser equivalente a desechar completamente esta
observacin.
(b) Si el vector x
i
se observa parcialmente y no conocemos los valores de x
1i
pero si los
de x
2i
, utilizaremos la relacin
E(x
1i
x
0
1i
/Y,
b

(i)
) = E(x
1i
x
0
1i
/x
2i
,
b

(i)
) =
b
V
(i)
11.2
+ b x
(i)
1i.2
b x
(i)0
1i.2
(11.12)
donde
b
V
(i)
11.2
es la matriz de varianzas de la variable x
1i
dado x
2i
. Segn la seccin 8.5.1 esta
varianza condicionada viene dada por
b
V
(i)
11.2
=
b
V
(i)
11

b
V
(i)
12
b
V
(i)1
22
b
V
(i)
21
. (11.13)
que podemos calcular a partir de
b
V
(i)
y sustituir en (11.12).
2. Paso M. En la funcin de verosimilitud completa (11.10) reemplazamos las fun-
ciones de los valores ausentes por sus estimaciones (11.11) y (11.12) y calculamos los nuevos
estimadores de mxima verosimilitud, que vendrn dados por
b
(i+1)
=
P
n
i=1
b x
(i)
i
n
donde en b x
(i)
i
los valores observados no se modican y los no observados se han sustituido
por sus esperanzas condicionales (11.11). La estimacin de
b
V
(i+1)
ser
b
V
(i+1)
=
n
X
i=1
E(x
i
x
0
i
/Y,
b

(i)
)/n b
(i+1)
b
(i+1)
0
11.2. ESTIMACIN MV CON DATOS FALTANTES 333
donde las esperanzas de los valores observados son ellos mismos y las de los faltantes vienen
dadas por (11.12) y (11.13).
Con los valores estimados en el paso M volvemos al E, haciendo b
(i)
= b
(i+1)
y
b
V
(i)
=
b
V
(i+1)
. El algoritmo naliza cuando el cambio en los parmetros de una iteracin a la siguiente
es menor que un valor pequeo, como .001. A continuacin, presentamos un ejemplo de su
funcionamiento.
Ejemplo 11.2 Vamos a ilustrar el funcionamiento del algoritmo EM con los diez primeros
datos de las variables estatura y peso de la base de datos MEDIFIS. Supondremos que en las
tres primeras personas en la muestra no se ha observado la variable peso. Llamando x
1
a
esta variable, la muestra es: x
1
= (, , , 52, 51, 67, 48, 74, 74, 50), donde el signo * indica
que el valor est ausente. Sin embargo, suponemos que se han observado los diez valores de
la variable estatura: x
2
= (159, 164, 172, 167, 164, 161, 168, 181, 183, 158)
Ejercicio 11.1 Para comenzar el algoritmo obtenemos una estimacin inicial del vector de
medias con los diez datos de x
2
y los siete de x
1
. Este vector es b
(0)
= (59.43, 167.7). Con las
siete parejas de datos completos calculamos la matriz de covarianzas
b
V
(0)
=

118.24 70.06
70.06 79.26

.
Con estos parmetros iniciamos el paso E, calculo de las esperanzas condicionadas. La es-
peranza condicionada (regresin) de la primera variable en la segunda es
E(x
1
/x
2
) = 59.43 + 70.06/79.26(x
2
167.7)
es decir, el peso se prev con la recta de regresin entre peso y estatura cuyo coeciente de
regresin es 70.06/79.26 = .8839. Aplicndolo a los valores faltantes
E
_
_
x
11
x
12
x
13
_
_
= 59.43 + 70.06/79.26
_
_
159 167.7
164 167.7
172 167.7
_
_
=
_
_
51.738
56.158
63.229
_
_
Despus de esta primera estimacin de los valores ausentes, estimaremos los productos
cruzados. Los productos de la primera variable por la segunda son :
E(x
1i
x
2i
/Y,
b

(i)
) = x
2i
E(x
1i
/x
2i
,
b

(i)
)
que sern 159 51.738, para i=1, 164 56.158, para i=2, y 172 63.229, para i=3. Los
cuadrados de la variable ausente se estima por
E(x
2
1i
/Y,
b

(i)
) =
b
V
(i)
11.2
+ b x
(i)2
1i.2
donde
b
V
(i)
11.2
es la varianza residual de la regresin entre el peso y la estatura dada por
118.24 70.06
2
/79.26 = 56.31. Por tanto para i = 1, 2, 3 los valores sern 56.31 +51.738
2
=
2733.13, 56.31 + 56.158
2
= 3210.03, 56.31 + 63.229 = 4.0542.
Con estas estimaciones pasamos al paso M. En el calculo de la media, la nueva estimacin
ser b
(i)
= (58.71, 167.7) donde ahora la primera componente se calcula con diez datos,
334 CAPTULO 11. METODOS DE INFERENCIA AVANZADA MULTIVARIANTE
N
a
b x
11
b x
12
b x
13
b
1
s
12
s
2
1
ss
2
1
1 51.739 56.159 63.229 58.713 58.577 107.582 90.686
2 52.283 55.978 61.890 58.615 57.594 108.300 89.012
3 52.294 55.927 61.740 58.596 57.540 108.865 88.929
4 52.281 55.910 61.717 58.591 57.547 109.070 88.941
5 52.275 55.905 61.713 58.589 57.553 109.135 88.948
6 52.272 55.903 61.711 58.589 57.555 109.156 88.9515
7 52.272 55.902 61.711 58.588 57.556 109.162 88.9525
8 52.271 55.902 61.711 58.588 57.556 109.164 88.953
9 52.271 55.902 61.711 58.588 57.556 109.164 88.953
Tabla 11.2: Estimaciones del algoritmo EM en las distintas iteraciones
sustituyendo los ausentes por sus estimaciones. Para calcular la matriz de covarianzas se
utiliza la expresin
b
V
(i)
=
1
10
P
b x
2
1i
P
b x
1i
x
2i
P
b x
1i
x
2i
P
x
2
2i

58.71
2
58.71 167.7
58.71 167.7 167.7
2

donde los valores b x


1i
son los observados (para i=4,...,10) o las estimaciones de los ausentes
(para i=1,2,3) y anlogamente para b x
2
1i
. Observemos que la estimacin de b x
2
1i
NO es la
estimacin de b x
1i
elevada al cuadrado sino que adems se le aade el valor de la varianza
residual como hemos visto.
La tabla 11.2siguiente indica la evolucin de las estimaciones proporcionadas por el al-
goritmo hasta la convergencia para los valores ausentes, la media de la primera variable, la
covarianza y la varianza de la primera variable. El algoritmo converge en nueve iteraciones.
Se ha aadido una columna adicional , ss
2
1
,varianza de la primera variable, para ilustrar las
estimaciones que se obtendran si en lugar de utilizar el algoritmo EM utlizamos el mto-
do ms simple de modicar el paso E sustituyendo cada observacin faltante por su media
condicionada e iterando despus. Se observa que este segundo procedimiento al no tener en
cuenta toda la incertidumbre subestima las varianzas: la varianza con este mtodo es siempre
menor que la estimada por el algoritmo EM.
11.3 ESTIMACIN ROBUSTA
La estimacin MV depende de la hiptesis de normalidad en los datos. Esta es una hiptesis
fuerte, y difcil de comprobar con muestras de tamao mediano. En particular, la estimacin
MV de los parmetros suponiendo normalidad puede ser muy mala cuando los datos proven-
gan de distribuciones con colas pesadas, que pueden generar valores atpicos. Supongamos
por ejemplo que los datos provienen de una normal contaminada

1
N
1
(, V) + (1
1
)N
2
(,cV)
donde la mayora de los datos, por ejemplo,
1
= .95, se hab generado con la distribucin
central, N
1
(, V), pero una pequea proporcin (1
1
), por ejemplo el 5%, provienen de la
11.3. ESTIMACIN ROBUSTA 335
distribucin alternativa, que tiene mayor variabilidad, tanto ms cuanto mayor sea c, que es
siempre mayor que uno de manera que los elementos generados por ella pueden ser atpicos
y estar mucho ms alejados del centro que los de la primera.
Hemos visto en la seccin 11.2 , estimacin de mezclas, que los estimadores MV de los
parmetros se calculan como:
b =
P
n
i=1
b z
1i
x
i
P
n
i=1
b z
1i
y
b
V =
1
P
b z
1i
n
X
i=1
b z
1i
(x
i
x)(x
i
x)
0
,
donde las variables b z
1i
son estimaciones de la probabilidad de que la observacin provenga
de la primera poblacin (el dato no sea atpico). Los mtodos robustos parten de estas ecua-
ciones pero eligen los pesos b z
1i
que se aplican a las observaciones de manera que el estimador
resultante tenga buenas propiedades de robustez ante un conjunto amplio de distribuciones
contaminantes, no necesariamente normales. Maronna (1976) propuso estimar iterativa-
mente los parametros de la normal multivariante con estas ecuaciones pero sustituyendo los
b z
1i
por pesos w
i
(D
i
) convenientemente elegidos en funcin de la distancia de Mahalanobis
del punto al centro de los datos. Por ejemplo, w
i
(D
i
) se toma igual a uno si la distancia
es menor que una cierta constante y tiene a cero cuando la distancia crece. El proceso es
iterativo y recuerda el algoritmo EM. Se parte de una estimacin inicial de los parmetros,
con ella se calculan las distancias de Mahalanobis y los pesos w
i
(D
i
). Con estas estimaciones
se reestiman los parmetros con los nuevos pesos, lo que conducir a nuevas distancias de
Mahalanobis, que determinarn nuevos pesos y as sucesivamente. Este mtodo de modicar
las ecuaciones de verosimilitud mediante pesos se conoce como M-estimacin.
Aunque este procedimiento es atractivo, no funciona bien en dimensiones altas. Puede
demostrarse que el punto de ruptura de un M-estimador como el que hemos presentado, que
descuenta las observaciones extremas, es, como mximo 1/(p + 1). Esta propiedad implica
que en alta dimensin es necesario buscar un enfoque alternativo a los estimadores clsicos
robustos. Hay dos enfoques al problema. El primero, buscar un estimador que se base slo
en una fraccin de los datos, presumiblemente no contaminados. El segundo es eliminar los
atpicos, y construir el estimador a partir de los datos limpios de atpicos.
Con el primer enfoque un procedimiento simple es el introducido por Rousseeuw (1985),
que propone calcular el elipsoide de mnimo volumen, o de mnimo determinante, que engloba
al menos el 50% de los datos. La justicacin intuitiva del mtodo es la siguiente. Los datos
atpicos estarn en los extremos de la distribucin, por lo que podemos buscar una zona
de alta concentracin de puntos y determinar con ellos el centro de los datos y la matriz
de covarianzas, ya que los puntos de esa zona sern presumiblemente puntos buenos. Para
encontrar ese ncleo central con alta densidad de datos, exigimos que el ellipsoide que cubre
al menos el 50% de los datos tenga volumen mnimo. Esta idea es una generalizacin de los
resultados univariantes, donde se obtienen estimadores muy robustos a partir de la idea de
mediana. Por ejemplo, la mediana es una medida de centralizacin que se ve poco afectada
336 CAPTULO 11. METODOS DE INFERENCIA AVANZADA MULTIVARIANTE
por una alta contaminacin de los datos. Analogamente, para dispersin podemos utilizar
la meda, o mediana de las desviaciones de los datos respcto a la mediana, que tiene tambin
buenas propiedades. Generalizando estas ideas, podemos buscar el centro de la distribucin
de los datos multivariantes y su variabilidad construyendo el intervalo mnimo alrededor de un
punto central que englobe el 50% de los datos. El centro de este intervalo ser una estimacin
de la media y la matriz de covarianzas estimada en este intervalo, convenientemente escalada,
estimar la matriz de varianzas de la problacin.
Para obtener este intervalo, el proceso se implementa como sigue. Tomamos una muestra
mnima de tamao p+1 y calculamos su media, x
(1)
, y su matriz de covarianzas,
b
V
(1)
. A esta
muestra se la llama mnima, porque tiene el nmero exacto de elementos que necesitamos
para calcular un valor del vector de medias y de la matriz de covarianzas, donde suponemos
que la matriz de covarianzas estimada resulta no singular (en otro caso se tomara otra
muestra mnima). A continuacin, calculamos las distancias de Mahalanobis al centro de
esta muestra mnima para todos los puntos de la muestra completa de n puntos:
D
i
= (x
i
x
(1)
)
0
b
V
(1)1
(x
i
x
(1)
),
y tomamos la mediana, m
(1)
, de estas n distancias. Entonces, por construccin, el elipsoide
denido por (x x
(1)
)
0
b
V
(1)1
(x x
(1)
) m
(1)
contiene el 50% de los datos, o, lo que es
equivalente, el elipsoide denido por (xx
(1)
)
0
(m
(1)
b
V
(1)
)
1
(xx
(1)
) 1 contiene el 50% de
los datos. El volumen de un elipsoide de este tipo es proporcional a

m
(1)
b
V
(1)

1/2
=

b
V
(1)

1/2
(m
(1)
)
p/2
. (11.14)
El procedimiento de calcular el elipsoide de volumen mnimo que engloba el 50% de los datos
es tomar N muestras mnimas, obteniendo centros, x
(1)
, ..., x
(N)
, matrices de covarianzas,
b
V
(1)
, ...,
b
V
(N)
, y medianas, m
(1)
, ..., m
(N)
, y calcular en cada muestra mnima el volumen
(11.14). La muestra mnima que proporcione un menor valor del criterio (11.14) se utiliza
para calcular los estimadores robustos como sigue. Supongamos que la muestra de volumen
mnimo es la muestra J. Entonces, el estimador robusto de la media de los datos es x
(J)
, y
la estimacin de la matriz de covarianzas m
(J)
b
V
(J)
se expande para que corresponda a una
estimacin de la matriz en la poblacin. Como la distancia de Mahalanobis con respecto al
centro de la problacin con la matriz de la poblacin es una
2
p
, tenemos que, para muestras
grandes (xx
(J)
)
0
(m
(J)
b
V
(J)
)
1
(xx
(J)
) que contiene el 50% de los datos debe ser prximo a
la mediana de la
2
p
, que representaremos por
2
p.50
. Una estimacin consistente de la matriz
de covarianzas para datos normales es
b
V = (
2
p.50
)
1
m
(J)
b
V
(J)
.
Un procedimiento alternativo, ms rpido y eciente que el mtodo anterior, ha sido prop-
uesto por Pea y Prieto (2001) basado en las ideas de proyecciones expuestas en el captulo
3. El mtodo consiste en tres etapas. En la primera se identican los posibles atpicos como
datos extremos de las proyecciones de la muestra sobre las direcciones que maximizan o
minimizan la kurtosis de los puntos proyectados. En segundo lugar, se eliminan todos los
11.4. ESTIMACIN BAYESIANA 337
atpicos potenciales o puntos sospechosos, y llamando U al conjunto de observaciones no
sospechosas, la estimacin incial robusta de los parmetros se realiza con:
m =
1
|U|
X
iU
x
i
,

S =
1
|U| 1
X
iU
(x
i
m)(x
i
m)
0
,
En tercer lugar, utilizando estos estimadores robustos se contrastan una por una las obser-
vaciones sospechosas para ver si son atpicas. Como vimos en la seccin 10.8 el contraste
utiliza la distancia de Mahalanobis:
v
i
= (x
i
m)
T

S
1
(x
i
m), i 6 U.
y aquellas observaciones i 6 U tales que v
i
< T
2
0.99
(p, n1), donde T
2
0.99
(p, n1) es el percentil
.99 de la distribucin de Hotelling las consideramos como aceptables y las incluimos en U.
Cuando una nueva observacin se incluye en U los parmetros se recalculan y el proceso se
repite hasta que no se encuentran nuevas observaciones. Finalmente, una vez contrastados
todos los puntos se estiman los parmetros utilizando los elementos que no se han considerado
atpicos, y estos sern los estimadores robustos nales.
Este mtodo se basa en los resultados de la seccin 4.5 donde justicamos que los atpicos
aislados van a identicarse buscando la direccin de mxima kurtosis y los grupos numerosos
de atpicos van a aparecer en las direcciones de mnima kurtosis asociada a distribuciones
bimodales.
11.4 ESTIMACIN BAYESIANA
11.4.1 Concepto
En el enfoque bayesiano un parmetro es una variable aleatoria y la inferencia respecto a
sus posibles valores se obtiene aplicando el clculo de probabilidades (teorema de Bayes)
para obtener la distribucin del parmetro condicionada a la informacin disponible. Si
se desea un estimador puntual, se tomar la media o la moda de dicha distribucin; si se
desea un intervalo de conanza, se tomar la zona que encierre una probabilidad jada en
dicha distribucin. En consecuencia, una vez obtenida la distribucin de probabilidad del
parmetro, los problemas habituales de inferencia quedan resueltos con la distribucin a
posteriori de manera automtica y simple.
El enfoque bayesiano tiene dos ventajas principales. La primera es su generalidad y co-
herencia: conceptualmente todos los problemas de estimacin se resuelven con los principios
del clculo de probabilidades. La segunda es la capacidad de incorporar informacin a priori
con respecto al parmetro adicional a la muestral. Esta fortaleza es, sin embargo, tambin
su debilidad, porque exige siempre representar la informacin inicial respecto al vector de
parmetros mediante una distribucin inicial o a priori, p(). Este es el aspecto ms con-
trovertido del mtodo, ya que algunos cientcos rechazan que la informacin inicial -que
338 CAPTULO 11. METODOS DE INFERENCIA AVANZADA MULTIVARIANTE
puede incluir los prejuicios del investigador- se incluya en un proceso de inferencia cientca.
En principio esto podra evitarse estableciendo una distribucin neutra, de referencia o no
informativa para el problema, pero, aunque esto es factible en casos simples, puede ser en si
mismo un problema complejo en el caso multivariante, como veremos a continuacin.
La distribucin nal o a posteriori se obtiene mediante el teorema de Bayes. Si llamamos
Xa la matriz de datos, con distribucin conjunta f(X|), que proporciona las probabilidades
de los valores muestrales conocido el vector de parmetros, la distribucin a posteriori p(|X)
ser:
p(|X) =
f(X|)p()
R
f(X|)p()d()
. (11.15)
El denominador de esta expresin puede escribirse como m(X) la distribucin marginal
de los datos. Esta distribucin se denomina distribucin predictiva y se obtiene ponderando
las distribuciones f(X|) para cada posible valor del parmetro por las probabilidades que
la distribucin a priori asigna a estos valores.
En la prctica, el clculo de (11.15) se simplica observando que el denominador no
depende de , y acta nicamente como una constante normalizadora para que la integral
de p(|X) sea la unidad. Por tanto, podemos calcular la distribucin posterior escribiendo:
p(|X) = k`(|X)p(), (11.16)
ya que, dada la muestra, Xes constante y al considerar f(X|) como funcin de se convierte
en la funcin de verosimilitud `(|x). Multiplicando para cada valor de las ordenadas de
`(|X) y p() resulta la distribucin posterior. Para la forma de la posterior la constante k
es irrelevante, y siempre puede determinarse al nal con la condicin de que p(|X) sea una
funcin de densidad e integre a uno. Esta regla se resume en:
Posterior Prior Verosimilitud
donde indica proporcional. La distribucin a posteriori es un compromiso entre la prior y
la verosimilitud. Cuando p() es aproximadamente constante sobre el rango de valores en los
que la verosimilitud no es nula, diremos que p() es localmente uniforme o no informativa,
y la posterior vendr determinada por la funcin de verosimilitud.
Una ventaja adicional del enfoque bayesiano es su facilidad para procesar informacin
secuencialmente. Supongamos que despus de calcular (11.16) observamos una nueva mues-
tra de la misma poblacin Y, independiente de la primera. Entonces, la distribucin inicial
ser ahora p(|X) y la distribucin nal ser :
p(|XY) = k`(|Y)p(|X).
Naturalmente este mismo resultado se obtendra considerando una muestra ampliada
(X, Y) y aplicando el teorema de Bayes sobre dicha muestra, ya que por la independencia
de X e Y:
p(|XY) = k`(|XY)p() = k`(|X)p(|Y)p()
La estimacin bayesiana proporciona estimadores (la media de la distribucin a posteriori)
que son admisibles con criterios clsicos.
11.4. ESTIMACIN BAYESIANA 339
11.4.2 Distribuciones a priori
Una manera simple de introducir la informacin a priori en el anlisis es utilizar distribuciones
a priori conjugadas, que se combinan con la verosimilitud para producir distribuciones a
posteriori simples, como veremos en la seccin siguiente.
Si no se dispone de informacin a priori, o se desea que los datos hablen por s mismos, se
debe establecer una distribucin a priori no informativa o de referencia. Intuitivamente, una
distribucin a priori no informativa para un vector de parmetros de localizacin es aquella
que es localmente uniforme sobre la zona relevante del espacio paramtrico, y escribiremos
p () = c. Sin embargo, esta eleccin tiene el problema de que si el vector de parmetros
puede tomar cualquier valor real
Z

p()d = , y la prior no puede interpretarse como una


distribucin de probabilidad, sino como una herramienta para calcular la posterior. En efecto,
si podemos suponer que a priori un parmetro escalar debe estar en el intervalo (h, h),
donde h puede ser muy grande pero es un valor jo, la distribucin a priori p() = 1/2h es
propia, ya que integra a uno. La distribucin p () = c debe pues considerarse como una
herramienta simple para obtener la posterior. Estas distribuciones se denominan impropias.
En problemas simples trabajar con distribuciones a priori impropias no produce problemas,
(aunque puede dar lugar a paradojas, vase por ejemplo Bernardo y Smith, 1994), pero en
situaciones un poco ms complicadas la distribucin a posteriori correspondiente puede no
existir.
Las distribuciones constantes estn sujetas a una dicultad conceptual adicional: si
suponemos que la distribucin a priori para un parmetro escalar es del tipo p() = c
y hacemos una transformacin uno a uno del parmetro = g(), como
p() = p()

d
d

si la distribucin es constante para el parmetro , no puede ser constante para el parmetro


. Por ejemplo, si p() = c, y = 1/, entonces |d/d| =
2
y p() = c
2
, que no es
uniforme. Nos encontramos con la paradoja de que si no sabemos nada sobre y > 0,
no podemos decir que no sabemos nada (en el sentido de una distribucin uniforme) sobre
log 0
2
. Una solucin es utilizar las propiedades de invarianza del problema para elegir que
transformacin del parmetro es razonable suponer con distribucin constante, pero aunque
esto suele ser claro en casos simples (para las medias y para los logartimos de las varianzas)
, no es inmediato cmo hacerlo para parmetros ms complejos.
Jereys (1961), Box y Tiao (1973), Bernardo (1979) y Bernardo y Smith (1994), entre
otros, han estudiado el problema de establecer distribuciones de referencia con propiedades
razonables. Para distribuciones normales, y para los casos simples considerados en este
libro, la distribucin de referencia para un vector de parmetros de localizacin podemos
tomarla como localmente uniforme y suponer que en la zona relevante para la inferencia
p () = c. Para matrices de covarianza, Jereys, por consideraciones de invarianza ante
transformaciones, propuso tomar la distribucin de referencia proporcional al determinante
de la matriz de covarianzas elevado a (p + 1)/2, donde p es la dimensin de la matriz.
Sealaremos por ltimo que el problema de la distribucin a priori, aunque de gran
importancia conceptual, no es tan crucial en la prctica como puede parecer a primera vista
340 CAPTULO 11. METODOS DE INFERENCIA AVANZADA MULTIVARIANTE
ya que :
(1) Si tenemos muchos datos, la verosimilitud ser muy apuntada, y la posterior ven-
dr determinada por la verosimilitud, ya que entonces cualquier priori razonable ser casi
constante sobre la zona relevante para la inferencia.
(2) Si tenemos poca informacin muestral, cualquier procedimiento estadstico va a ser
muy sensible a las hiptesis que hagamos sobre el modelo de distribucin de probabilidad,
que van a afectar tanto o ms que la prior al anlisis. Sin embargo, estas hiptesis no
podremos comprobarlas con ecacia con muestras pequeas. Conviene en estos casos, sea
cual sea la prior elegida, estudiar la sensibilidad de la solucin a cambios en el modelo y en
la prior.
11.4.3 Clculo de la Posterior
Distribuciones Conjugadas
El clculo de la distribucin posterior puede ser complicado y requerir mtodos numricos.
El problema se simplica si podemos expresar aproximadamente nuestra informacin a pri-
ori con una distribucin que simplique el anlisis. Una familia de distribuciones a priori
adecuada para este objetivo es aquella con la misma forma que la verosimilitud, de manera
que la posterior pueda calcularse fcilmente y pertenezca a la misma familia que la priori.
A estas familias se las denomina conjugadas.
Una clase C de distribuciones a priori para un parmetro vectorial, , es conjugada, si
cuando la prior pertenece a esa clase, p() C entonces la posterior tambin pertence a la
clase, p(|X) C. La distribucin conjugada puede elegirse tomando la distribucin a priori
con la forma de la verosimilitud. Por ejemplo, supongamos que queremos hacer inferencia
respecto al parmetro en un modelo de la familia exponencial
f(X|) = g(X)h() exp {t(X)g()} .
La verosimilitud de la muestra ser
l(|X) = k h()
n
exp
n
g()
X
t(X)
o
y podemos tomar como familia conjugada :
p() = k h()

exp{g()m} ,
con lo que se obtiene inmediatamente la posterior:
p(|X) = k h()
+n
exp
n
g(X)
h
m+
X
t(X)
io
.
En la seccin siguiente veremos ejemplos de su utilizacin para estimar los parmetros de
una normal multivariante.
11.4. ESTIMACIN BAYESIANA 341
Mtodos de Monte Carlo con Cadenas de Markov (MC
2
)
Cuando no sea posible utilizar una distribucin a priori conjugada y el clculo de la posterior
sea complejo, podemos utilizar el ordenador para generar muestras de la distribucin poste-
rior. Existe una variedad de mtodos para realizar esta simulacin, que se conocen bajo el
nombre comn de mtodos de Monte Carlo con Cadenas de Markov (o mtodos MC
2
) y el
lector interesado puede acudir a Robert y Casella(1999) , Carlin y Louis (1996) y Gaberman
(1997). En este libro slo presentaremos uno de estos mtodos, el muestreo de Gibbs o
Gibbs sampling, que es especialmente til para la estimacin de las distribuciones mezcladas
consideradas en el captulo 14.
El muestro de Gibbs es apropiado para obtener muestras de una distribucin conjunta
cuando es fcil muestrear de las distribuciones condicionadas. Supongamos que estamos in-
teresados en obtener muestras de la distribucin conjunta de dos variables aleatorias, f(x, y),
y supongamos que conocemos las distribuciones condicionadas f(x/y), y f(y/x). Este mto-
do se implementa como sigue :
1. Fijar un valor arbitrario inicial y
(0)
y obtener un valor al azar para x de la distribucin
f(x/y
(0)
). Sea x
(0)
este valor.
2. Obtener un valor al azar para y de la distribucin f(y/x
(0)
). Sea y
(1)
este valor.
3. Volver a 1 con y
(1)
en lugar de y
(0)
y alternar entre 1 y 2 para obtener parejas de
valores (x
(i)
, y
(i)
), para i = 1, ..., N.
Se demuestra que, para N sucientemente grande, la pareja (x
(N)
, y
(N)
) es un valor al
azar de la distribucin conjunta f(x, y).
Un problema importante es investigar la convergencia de la secuencia. Puede demostrarse
que, bajo ciertas condiciones generales, el algoritmo converge, pero la convergencia puede
requerir un nmero enorme de iteraciones en algunos problemas (vase por ejemplo Justel y
Pea, 1996).
11.4.4 Estimacin Bayesiana de referencia en el modelo normal
Supongamos que se desea estimar los parmetros de una normal multivariante sin introducir
informacin a priori. Es ms simple tomar como parmetros , V
1
, donde V
1
es la
matriz de precisin. La estimacin de referencia para este problema supone que, a priori,
p(, V
1
) = p()p(V
1
), donde p() es constante en la regin donde la verosimilitud es no
nula y p(V
1
) se elige como no informativa en el sentido de Jereys. Puede demostrarse
que, entonces, una prior conveniente es proporcional a |V
1
|
1/2(p+1)
, con lo que la prior
resultante es
p(, V
1
) |V|
1/2(p+1)
. (11.17)
La expresin de la verosimilitud es, segn lo expuesto en la seccin 10.2.2, y expresndola
ahora en funcin de V
1
f(X|, V
1
) = C|V
1
|
n/2
exp
n

n
2
trV
1
S()
o
, (11.18)
342 CAPTULO 11. METODOS DE INFERENCIA AVANZADA MULTIVARIANTE
y multiplicando estas dos ecuaciones, (11.17) y (11.18), resulta la posterior
p(, V
1
|X) = C
1
|V
1
|
(np1)/2
exp

1
2
trV
1
S()n

, (11.19)
donde C
1
es la constante necesaria para que la densidad integre a uno. Observemos que si
el objetivo es obtener la moda de la posterior no necesitamos calcular esta constante.
La marginal de se obtiene integrando respecto a V. Para ello, observamos que en esta
integracin la matriz S() es una constante, ya que no depende de V, y la funcin a integrar
es similar a la distribucin Wishart, siendo ahora V
1
la variable, en lugar de W, n = m,
y S()n igual a la matriz de constantes . El trmino que falta para tener la distribucin
completa es ||
m/2
, que equivale a |S()n|
n/2
. Introduciendo esta constante, multiplicando
y dividiendo para completar la integral y prescindiendo de constantes, obtenemos que la
posterior ser
p(|X) |S()|
n/2
(11.20)
y, se demuestra en el Apndice 11.2, que este determinante puede escribirse como
p(|X) |1 + ( x )
0
S
1
( x )|
n/2
Esta expresin indica que la densidad marginal del vector de medias es una t multivariante
con np grados de libertad (vase la seccin 9.6.2). La moda de la densidad se alcanza para
= x, resultado anlogo al obtenido por MV. De la forma de la densidad (11.20) concluimos
que este valor de minimiza el determinante de la matriz de sumas de cuadrados S(). Este
criterio, minimizar el determinante de las sumas de cuadrados residuales, suele llamarse de
mnimos cuadrados multivariante.
La posterior de V se obtiene integrando (11.19) con respecto a . Se demuestra en
el Apndice 11.2 que la distribucin a posteriori para V
1
es una distribucin Wishart
W
p
(n 1, S
1
/n). Puede comprobarse que la media de la distribucin a posteriori de V es
nS/(np2), por lo que si tomamos este valor como estimador de V obtendremos un valor
distinto que con el mtodo MV.
11.4.5 Estimacin con informacin a priori
Supongamos que disponemos de informacin a priori para estimar los parmetros de una
distribucin N
p
(, V). La forma de la verosimilitud (11.18) sugiere (vase el apndice 11.2.)
las siguientes distribuciones a priori. Para dada V
1
estableceremos que
p(|V
1
) N
p
(
0
, V|n
0
),
y esta distribucin indica que, conocida V, la mejor estimacin a priori que podemos dar
del valor de es
0
, y la incertidumbre que asignamos a esta estimacin a priori es V|n
0
.
En principio podramos reejar nuestra incertidumbre respecto con cualquier matriz de
covarianzas, pero el anlisis se simplica si suponemos que esta incertidumbre es una fraccin
de la incertidumbre del muestreo. Observemos que sta es la distribucin a priori para
11.4. ESTIMACIN BAYESIANA 343
condicionada a V, por lo que tiene sentido expresar la incertidumbre en funcin de la varianza
muestral. Una vez que hayamos visto el papel que juega el parmetro n
0
comentaremos cmo
jarlo. Para la matriz de precisin estableceremos que:
p(V
1
) W
p
(m
0
, M|m
0
)
que escribimos de esta forma para que los parmetros tengan una interpretacin ms sencilla.
As, a priori, el valor esperado de la matriz de precisin es M, y, como veremos, el parmetro
m
0
controla la precisin que queremos dar a esta estimacin inicial. Utilizando estas dos
distribuciones, la distribucin a priori conjunta resultante es
p(, V
1
) = p(|V
1
)p(V
1
).
El apndice 11.2. calcula la distribucin a posteriori mediante
p(, V|X) `(X|, V)p(, V)
y all se obtiene que, a posteriori, la distribucin de la media condicionada a la varianza es
tambin normal:
p(|V
1
, X) N
p
(
p
, V
p
)
donde la media a posteriori, que puede tomarse como el estimador bayesiano de , es:

p
=
n
0

0
+n x
n
0
+ n
y la incertidumbre en esta estimacin es
V
p
=
V
n
0
+n
La media a posteriori es una media ponderada de la informacin a priori y la proporcionada
por la muestra, y los coecientes de ponderacin son n
0
y n. El parmetro n
0
representa
pues el peso que queremos dar a nuestra estimacin prior con relacin a la muestral. Vemos
tambin que la incertidumbre asociada equivale a la de una muestra de tamao n
0
+ n.
Podemos interpretar n
0
como el nmero de observaciones equivalentes que asignamos a la
informacin contenida en la prior. Por ejemplo, si n
0
= 10 y tomamos una muestra de
tamao 90, queremos que nuestra prior tenga un peso del 10% en el clculo de la posterior.
La distribucin a posteriori de la matriz de precisin es
p(V
1
|X) W
p
(n +m
0
, M
p
),
donde la matriz de la Wishart es
M
1
p
= m
0
M
1
+nS+
nn
0
n +n
0
( x
0
)( x
0
)
0
.
344 CAPTULO 11. METODOS DE INFERENCIA AVANZADA MULTIVARIANTE
Para interpretar este resultado, recordemos que la media de una distribucin de Wishart
W
p
(n +m
0
,M
p
) es
E(V
1
|X) =

m
0
n +m
0
M
1
+
n
n +m
0
S+
nn
0
(n +n
0
)
2
( x
0
)( x
0
)
0

1
,
el trmino entre parntesis juega el papel de la matriz de varianzas y vemos que suma tres
fuentes de incertidumbre: las dos que vienen de la distribucin prior y la muestral. El primer
trmino es la matriz de covarianzas a priori, el segundo la matriz de covarianzas muestral
y el tercero el incremento de covarianzas debido a la discordancia entre la media a priori
y la muestral. El trmino m
0
controla el peso que queremos dar a la estimacin prior de
la varianza, frente a la varianza muestral, y el trmino n
0
el peso de la discrepancia entre
la media a prioiri y la estimada. Observemos tambin que si la informacin proporcionada
por la muestra es grande con relacin a la prior, es decir, n es grande con relacin a m
0
y
n
0
, de manera que m
0
/n y n
0
/n sean pequeos, la esperanza de la precisin posterior es,
aproximadamente, la precisin muestral, S
1
.
11.5 CONTRASTES BAYESIANOS
11.5.1 Conceptos bsicos
En el enfoque bayesiano, la hiptesis nula no se acepta o rechaza, como en el enfoque clsico,
sino que se determina su probabilidad a posteriori dados los datos. Supongamos el contraste
general considerado en el captulo anterior: dado un parmetro vectorial, , pdimensional,
que toma valores en se desea contrastar la hiptesis:
H
0
:
0
,
frente a la hiptesis alternativa
H
1
:
0
.
Suponemos que existen probabilidades a priori para cada una de las dos hiptesis. Estas
probabilidades quedan automticamente determinadas si establecemos una distribucin a
priori sobre , ya que entonces:
p
0
= P(H
0
) = P(
0
) =
Z

0
p()d
y
p
1
= P(H
1
) = P(
0
) =
Z

0
p()d.
Las probabilidades a posteriori de las hiptesis las calcularemos mediante el teorema de
Bayes
P(H
i
|X) =
P(X|H
i
)P(H
i
)
P(X)
i = 0, 1
11.5. CONTRASTES BAYESIANOS 345
log
10
B
01
B
01
P(H
0
) para (p
0
/p
1
= 1) Interpretacin.
0 1 0, 5 indecisin
1 10
1
0, 1 dbil rechazo de H
0
2 10
2
0, 01 rechazo de H
0
3 10
3
0, 001 rechazo sin duda de H
0
Tabla 11.3: Interpretacin del factor de Bayes segn Jefreys
y de aqu se obtiene el resultado fundamental:
P(H
0
|X)
P(H
1
|X)
=
f(X|H
0
)
f(X|H
1
)
.
P(H
0
)
P(H
1
)
(11.21)
que puede expresarse como
Ratio de posteriores = R.Verosimilitudes x R. Prioris
Esta expresin indica que la evidencia respecto a la hiptesis nula se obtiene multiplicando
la evidencia proporcionada por los datos, con la evidencia a priori. Al cociente entre
las verosimilitudes se denomina factor de Bayes, B, y si las probabilidades a prioiri de
ambas hiptesis son las mismas, determina las probabilidades a posteriori de las hiptesis.
Expresando las probabilidades a posteriori en trminos del parmetro, se obtiene
P(H
i
|X) = P(
i
/X) =
Z

i
p(|X)d i = 0, 1
donde
1
=
0
, y p(|X) es la distribucin a posteriori para el vector de parmetros de
inters dada por (11.15). Por tanto
p(H
i
|X) =
1
f(X)
Z

i
f(X|)p()d i = 0, 1
donde
1
=
0
. Sustituyendo en (11.21) se obtiene que el factor de Bayes de la primera
hiptesis respecto a la segunda, B
01
, es
B
01
=
p
1
p
0
R

0
f(X|)p()d
R

0
f(X|)p()d
Jereys ha dado la escala de evidencia para el factor de Bayes que se presenta en la
Tabla 11.3. La primera columna presenta el factor de Bayes en una escala logaritmica, la
segunda el factor de Bayes, la tercera la probabilidad de la hiptesis nula supuesto que las
probabilidades a priori para las dos hiptesis son las mismas. La ltima columna propone
la decisin a tomar respecto a H
0
.
346 CAPTULO 11. METODOS DE INFERENCIA AVANZADA MULTIVARIANTE
11.5.2 Comparacin entre los contraste bayesianos y los clsicos
Si suponemos que, a priori, las probabilidades de ambas hiptesis son las mismas, el factor
de Bayes es comparable al ratio del contraste de verosimilitudes, pero existe una diferencia
fundamental: en el constraste de verosimilitudes se toma el mximo de la verosimilitud,
mientras que en el enfoque bayesiano se toma el promedio sobre la regin relevante, pro-
mediando con la distribucin a priori. Por tanto, el contraste tiene en cuenta al calcular la
integral el tamao del espacio denido por
0
y por
1
. Por ejemplo, supongamos que es
un parmetro escalar 0 1 y que contrastamos:
H
0
: =
0
frente a
H
1
: 6=
0
.
Para que las probabilidades a priori de ambas hiptesis sean las mismas, supongamos que
jamos p( =
0
) = 1/2 y que p() = 1/2 si 6=
0
. Entonces, el factor de Bayes compara
f(X|
0
) con el valor promedio de la verosimilitud cuando 6=
0
, mientras que el contraste de
verosimilitudes compara f(X|
0
) con el valor mximo de la verosimilitud. Si el valor =
0
no es exactamente cierto, sino slo aproximadamente cierto, y el tamao de la muestra es
muy grande:
1. Con el enfoque bayesiano, los valores alejados de
0
tendrn una verosimilitud muy
pequea con muestras grandes y al promediar sobre todos los valores se tender a favorecer
a H
0
. Al aumentar n puede hacer muy difcil rechazar H
0
.
2. Con el enfoque clsico, comparamos f(X|
0
) con f(X|
MV
), donde
MV
es el esti-
mador MV que estar prximo al verdadero valor para muestras grandes, y esta diferencia
aumentar con el tamao muestral, por lo que terminaremos siempre rechazando H
0
.
En resumen, con el enfoque clsico, cuando n se rechaza H
0
en la prctica, mientras
que con el enfoque bayesiano cuando n es ms difcil rechazar H
0
en la prctica. Esto
es consecuencia de que el enfoque bayesiano tiene en cuenta la verosimilitud de H
0
y de H
1
,
mientras que el enfoque clsico mira slo a H
0
.
Es importante sealar que esta contradiccin desaparece en el momento en que refor-
mulamos el problema como uno de estimacin. Entonces ambos mtodos coincidirn con
muestras grandes en la estimacin del parmetro.
11.6 Seleccin de Modelos
11.6.1 El Criterio de Akaike
El mtodo de mxima verosimilitud supone que la forma del modelo es conocida y slo falta
estimar los parmetros. Cuando no es as debe aplicarse con cuidado. Por ejemplo, supong-
amos que se desea estimar un vector de parmetros = (
1
, ...
p
)
0
y admitimos en lugar de un
modelo nico la secuencia de modelos M
1
= (
1
, 0, ..., 0), ...., M
i
= (
1
, ...,
i
, 0, .., 0), ...,M
p
=
(
1
, ...,
p
), es decir el modelo M
i
(i = 1, ..., p) indica que los primeros i parmetros son
11.6. SELECCIN DE MODELOS 347
distintos de cero y los restantes cero. Es claro que si estimamos los parmetros bajo cada
modelo y calculamos el valor mximo del soporte sustituyendo los parmetros por sus esti-
maciones MV, el modelo con mayor soporte de los datos ser el modelo M
p
con todos los
parmetros libres. Este resultado es general: el mtodo de mxima verosimilitud siempre da
mayor soporte al modelo con ms parmetros, ya que la verosimilud slo puedo aumentar si
introduzco ms parmetros para explicar los datos.
Esta limitacin del mtodo de mxima verosimilitud fue percibida por Fisher, que propuso
el mtodo en 1936 para estimar los parmetros de un modelo, indicando sus limitaciones para
comparar modelos distintos. La solucin habitula para seleccionar entre los modelos es hacer
un contraste de hiptesis utilizando el contraste de verosimilitudes y elegiendo el modelo M
i
frente al M
p
mediante
= 2(L(M
p
) L(M
i
)) = D(M
i
) D(M
p
)
donde L(M
p
) es el soporte del modelo M
p
al sustituir en el funcin soporte el parmetro
por su estimacin MV y L(M
i
) el soporte del modelo M
i
al estimar los parmetros con la
restriccion
i+1
= .. =
p
= 0, y D(M
j
) = 2L(M
j
) es al desviacin. Suponiendo que el
modelo ms simple, M
i
, es correcto, el estadstico se distribuye como una
2
con p i
grados de libertad.
Akaike propuso un enfoque alternativo para resolver el problema de seleccionar el modelo
suponiendo que el objetivo es hacer predicciones tan precisas como sea posible. Sea f(y|M
i
)
la densidad de una nueva observacion bajo el modelo M
i
y sea f(y) la verdadera funcin
de densidad que puede o no ser una de las consideradas, es decir, el modelo verdadero
puede o no ser uno de los M
i.
Queremos seleccionar el modelo de manera que f(y|M
i
) sea
tan prxima como sea posible a f(y). Una manera razonable de medir la distancia entre
estas dos funciones de densidad es mediante la distancia de Kullback-Leibler entre las dos
densidades, que se calcula:
KL(f(y|M
i
), f(y)) =
Z
log
f(y|M
i
)
f(y)
f(y)dy (11.22)
Para interpretar esta medida observemos que la diferencia de logaritmos equivale, cuando
los valores de ambas funciones son similares, a la diferencia relativa, ya que
log
f(y|M
i
)
f(y)
= log(1 +
f(y|M
i
) f(y)
f(y)
)

=
f(y|M
i
) f(y)
f(y)
y cuando las diferencias son grandes, el logaritmo es mejor medida de discrepancia que la
diferencia relativa. Las discrepancias se promedian respecto a la verdadera distribucin de
la observacin y la medida (11.22) puede demostrarse que es siempre positiva. Una manera
alternativa de escribir esta medida es
KL(f(y|M
i
), f(y)) = E
y
log f(y|M
i
) E
y
log f(y)
donde E
y
indica obtener la esperanza bajo la verdadera distribucin de y. Como esta
cantidad es siempre positiva, minimizaremos la distancia entre la verdadera distribucin y
348 CAPTULO 11. METODOS DE INFERENCIA AVANZADA MULTIVARIANTE
f(y|M
i
) haciendo el primer trmino lo ms pequeo posible. Puede demostrarse que (Akaike,
1985) que esto equivale a minimizar
AIC = 2L(M
i
) + 2i = D(M
i
) + 2i (11.23)
es decir, minimizamos la suma de la desviacin del modelo, que disminuir si introducimos
ms parmetros, y el nmero de parmetros en el modelo, que tiende a corregir por este
efecto.
11.6.2 El criterio BIC
Una ventaja del enfoque bayesiano es que el problema de seleccin de modelos puede abor-
darse con los mismos principios que el contraste de hiptesis. Supongamos que en un proble-
ma estadstico dudamos entre un conjunto de m modelos posibles para los datos observados
M
1
, . . . , M
m
. Si consideramos los modelos como posibles hiptesis sobre los datos, calculare-
mos sus probabilidades a posteriori, M
1
, . . . , M
m
y seleccionaremos el modelo con mxima
probabilidad a posteriori. Estas probabilidades vienen dadas por :
P (M
j
|X) =
f (X|M
j
)
f (X)
P (M
j
) j = 1, ..., m (11.24)
donde P (M
j
) es la probabilidad a priori del modelo j. Esta ecuacin indica cmo pasamos
de la probabilidad a priori a la posteriori para cada modelo: se calcula las verosimilitud
marginal de los datos para ese modelo, f (X|M
j
) ,donde el nombre marginal proviene de que
esta funcin no depende de los valores de los parmetros, y se compara con la verosimilitud
marginal promedio para todos los modelos, f (X). En efecto, llamemos
j
a los parmetros
del modelo M
j
. La distribucin f (X|M
j
) viene dada por
f (X|M
j
) =
Z
f (X|
j
,M
j
) p (
j
|M
j
) d
j
=
Z
L
j
(X|
j
) p (
j
|M
j
) d
j
es decir, se obtiene promediando la verosimilitud del modelo, L
j
(X|) , por las probabilidades
a priori de los parmetros, p (
j
|M
j
) . Por lo tanto, esta funcin expresa la verosimilitud de
los datos dado el modelo, sea cual sea el valor de los parmetros, lo que justica el nombre
de verosimilitud marginal. El denominador de (11.24) es
f (X) =
X
f (X|M
j
) P (M
j
)
y puede interpretarse como una media ponderada de las verosimilitudes marginales, siendo
los coecientes de la ponderacin las probabilidades a priori.
La conclusin que se desprende de (11.24) es que seleccionar el modelo con mayor prob-
abilidad a posteriori equivale a seleccionar el modelo donde el producto de la verosimilitud
marginal f (X|M
j
) y de la prior del modelo P (M
j
) sea mxima.
11.6. SELECCIN DE MODELOS 349
Las expresiones anteriores se derivan de las reglas del clculo de probabilidades y son
exactas. Es posible obtener una expresin aproximada de f (X|M
j
) si suponemos que la
distribucin a posteriori del vector de parmetros es asintticamente normal multivariante.
Supongamos que para el modelo j esta distribucin a posteriori es :
p (
j
|X, M
j
) = (2)
p
j
/2
|S
j
|
1/2
exp

1/2

0
S
1
j

donde p
j
es la dimensin del vector de parmetros del modelo M
j
, y
b

j
es el estimador MV
de
j
y S
j
la matriz de covarianzas de este estimador. Por el teorema de Bayes:
p (
j
|X, M
j
) =
l
j
(
j
|X) p (
j
|M
j
)
f (X|M
j
)
donde l
j
(
j
|X) es la verosimilitud, p (
j
|M
j
) la probabilidad a priori para los parmetros
y f (X|M
j
) la verosimilitud marginal. Esta expresin es cierta para cualquier valor del
parmetro y en particular para
j
=
b

j
. Tomando logaritmos y particularizando esta expre-
sin para
b

j
, podemos escribir
log f (X|M
j
) = L
j

j
|X

+ log p

j
|M
j

(p
j
/2) log 2
1
2
log |S
j
|

(11.25)
La matriz S
j
de covarianzas del estimador de los parmetros tiene trminos habitualmente
del tipo a/n. Escribiendo
S
j

1
n
R
j
entonces |S
j
| = n
p
j
|R
j
| y sustituyendo en (11.25):
log f (X|M
j
) = L
j

j
|X

+ log p

j
|M
j

+
p
j
2
log 2
p
j
2
log n +
1
2
log |R
j
| .
Vamos a aproximar esta expresin para n grande. Para ello vamos a mantener en esta
expresin nicamente los trminos que crecen con n y despreciar los que tomen un valor
acotado que no crece con n. El primer trmino es el valor del soporte en el mximo que es
la suma de n trminos para las n observaciones y ser de orden n. El segundo es el valor
de la prior y, para n grande, podemos suponer que va a ser aproximadamente constante con
relacin a la verosimilitud. El tercer trmino, (p
j
/2) log 2 es de orden constante. El cuarto
crece con n y el ltimo, por construccin, esta acotado. En consecuencia, para n grande
podemos escribir:
log f (X|M
j
) ' L
j

j
|X

p
j
2
log n.
Esta expresin fue obtenida por primera vez por Schwarz (1978), que propuso escoger
el modelo que conduzca a un valor mximo de esta cantidad. Una forma equivalente de
350 CAPTULO 11. METODOS DE INFERENCIA AVANZADA MULTIVARIANTE
este criterio, llamada criterio BIC (Bayesian Information Criterion), es xalcular para cada
modelo la cantidad:
BIC(M
j
) = 2L
j

j
|X

+p
j
log n
y seleccionar aquel modelo para el cual esta cantidad es mnima. De esta manera este criterio
pondera la desviacin del modelo, medida por 2L
j

j
|X

, con el nmero de parmetros.


Si introducimos ms parmetros en el modelo mejorar el ajuste, con lo que aumentar
el soporte o disminuir la desviacin, y este efecto queda compensado por el aumento del
nmero de parmetros que aparece en p
j
log n.
11.6.3 Relacin entre el BIC y EL AIC
La forma general de estos dos criterios de seleccin es
D(M
j
) +p
j
g(n)
donde D(M
j
) es la desviacin del modelo medida por 2L
j

j
|X

, y p
j
el nmero de
parmetros. La constante que multiplica al nmero de parmetros es distinta en ambos
criterios En el criterio BIC esta constante es log n, mientras que en el AIC es 2. Por tanto,
el criterio BIC seleccionar modelos ms parsimoniosos, es decir, con menor nmero de
parmetros que el AIC. Otros autores han propuesto otros criterios que corresponden a
distintas funciones g(n)
La diferencia entre estos criterios se explica por su distinto objetivo El criterio BIC
trata de seleccionar el modelo correcto, con mxima probabilidad a posteriori, y puede
demostrarse que es un criterio consitente, de manera que la probabilidad de seleccionar el
modelo correcto tiende a uno cuando crece el tamao muestral. El criterio AIC no pretende
seleccionar el modelo correcto, ya que admite que este modelo verdadero puede no estar entre
los estimados, y trata de obtener el modelo que proporcione mejores predicciones entre los
existentes. Puede demostrarse que, en condiciones generales de que el modelo verdadero
puede aproximarse arbitariamente bien con los estimados al crecer el tamao muestral, el
criterio AIC es eciente, en el sentido de escoger el modelo que proporciona, en promedio,
mejores predicciones. Sin embargo, en muestras pequeas o medianas, el criterio AIC tiende
a seleccionar modelos con ms parmetros de los necesarios.
11.7 Lecturas complementarias
Una buena introduccin al algoritmo EM se encuentra en Tanner (1991) y con ejemplos
multivariantes en Flury (1997). Versiones ms amplias se encuentran en Gelman et al (1995)
y Little y Rubin (1987). El libro de Schafer (1997) contiene numerosos ejemplos de su
aplicacin con datos multivariantes.
La estimacin de mezclas se estudia con detalle en Titterington at al (1987), y varios
de los textos de cluster, que comentaremos en el captulo 15, incluyen el estudio de es-
tas distribuciones. La estimacin robusta puede consultarse en Hampel at al (1986) and
11.7. LECTURAS COMPLEMENTARIAS 351
Rousseew and Leroy (1987). La estimacin Bayesiana multivariante en Bernardo y Smith
(1994), OHagan (1994) y Press (1989). Los algoritmos de cadenas de Markov (mtodos
MC
2
) en Gamerman (1997), Carlin y Louis (1996) y Robert y Casella (1999). Los contrastes
bayesianos en Berger (1985). La literatura de seleccin de modelos es muy amplia. Algunas
referencias bsicas son Akaike(1974), Miller (1990) y McQuarrie y Tsai (1998), Chow (1981)
y Lanterman (2001).
APNDICE 11.1.CONVERGENCIA DEL ALGORITMO EM
Sea
L

C
(|
b

(i)
) = E
h
L
C
(|Y, Z)|
b

(i)
, Y
i
la funcin que maximizamos en el paso M del algoritmo. Vamos a demostrar que cuando
b

(i)
=
b

(i+1)
=
b

F
entonces

L(|Y)

=
b

F
= 0
y
b

F
es el estimador MV. Para ello observemos que
L

C
(|
b

(i)
) =
Z
log f(Z|Y, )f(Z|Y,
b

(i)
)dZ+L(|Y)
y si maximizamos esta expresin derivando e igualando a cero se obtiene:
L

C
(|
b

(i)
)

=
Z
f(Z|Y, )

f(Z|Y,
b

(i)
)
f(Z|Y, )
dZ+L
0
(|Y) =0,
con lo que tendremos que
b

(i+1)
verica
Z
f(Z|Y, )

(i+1)
f(Z|Y,
b

(i)
)
f(Z|Y,
b

(i+1)
)
dZ+L
0
(
b

(i+1)
|Y) =0.
Cuando
b

(i)
=
b

(i+1)
=
b

F
el primer miembro es cero, ya que se reduce a
Z
f(Z|Y, )

(i+1)
dZ
que es siempre cero, como se comprueba derivando en la ecuacin
R
f(Z|Y, )dZ =1. Por
tanto tendr que vericarse que
L
0
(
b

(i+1)
|Y) =0
que implica que
b

(i+1)
es el estimador MV.
APENDICE 11.2: ESTIMACIN BAYESIANA
352 CAPTULO 11. METODOS DE INFERENCIA AVANZADA MULTIVARIANTE
Demostraremos primero que la distribucin marginal a posteriori de V
1
con la prior de
referencia es una Wishart invertida. Integrando en la conjunta
p(V
1
|X) =
Z
C
1
|V
1
|
(np1)/2
exp

1
2
trV
1
S()n

d,
y utilizando S()n = nS +n( x )( x )
0
, podemos escribir
p(V
1
|X) = C
1
|V
1
|
(np2)/2
exp

1
2
trV
1
nS

A
donde
A =
Z
|V|
1/2
exp
n

n
2
( x )
0
V
1
( x )
o
d,
que con las constantes adecuadas integra a uno. Por tanto, podemos concluir que la dis-
tribucin a posteriori para V
1
es una distribucin Wishart W
p
(n 1, S
1
/n).
Obtendremos ahora las distribuciones en el caso de prioris informativas. La verosimilitud
de los parmetros de la normal tiene la forma del producto de una normal por una Wishart,
con lo que la prior conjugada a este problema debe ser de la forma:
p(, V
1
) |V
1
|
(m
0
p)/2
exp

(1/2)

trV
1
M
1
m
0
+n
0
(
0
)
0
V
1
(
0
)

.
De acuerdo con esta distribucin a priori, p(|V
1
) es una normal multivariante con
media
0
y varianza V|n
0
,
p(|V
1
) |V
1
|
1/2
exp

1/2

n
0
(
0
)
0
V
1
(
0
)

mientras que p(V


1
) sigue una distribucin Wishart W
p
(m
0
,M/m
0
)
p(V
1
) |V
1
|
(m
0
p1)/2
exp

(1/2)trV
1
M
1
m
0

.
La distribucin posterior ser
p(, V
1
|X) = C|V
1
|
(n+m
0
p)/2
exp {E/2} ,
donde el exponente, E, puede escribirse:
E = tr(V
1
(M
1
m
0
+nS)) +n( x )V
1
( x )
0
+n
0
(
0
)
0
V
1
(
0
).
Vamos a expresar de otra forma las formas cuadrticas. Para ello utilizaremos el siguiente
resultado general:
Lemma 2 Si A y B son matrices no singulares, se verica que
(z a)
0
A(z a) + (z b)
0
B(z b) = (z c)
0
D(z c) + (a b)
0
H(a b)
donde c = (A+B)
1
(Aa +Bb), D = (A +B) y H = (A
1
+B
1
)
1
. Adems se verica
|A|
1
2
|B|
1
2
= |A+B|
1
2
|A
1
+B
1
|

1
2
11.7. LECTURAS COMPLEMENTARIAS 353
Comencemos demostrando que los dos miembros de las formas cuadrticas son idnticos.
El primer miembro puede escribirse
z
0
(A+B)z 2z
0
(Aa +Bb) +a
0
Aa +b
0
Bb
y llamando c = (A+B)
1
(Aa +Bb),tambin puede escribirse
z
0
(A+B)z 2z
0
(A+B)c +c
0
(A+B)c c
0
(A+B)c +a
0
Aa +b
0
Bb
que es igual a
(z c)
0
(A+B)(z c) +a
0
Aa +b
0
Bb (a
0
A+b
0
B)(A+B)
1
(Aa +Bb)
La primera parte de esta expresin es la primera forma cuadrtica del segundo miembro
del Lemma. Operando en la segunda parte, resulta
a
0
(AA(A+B)
1
A)a +b
0
(BB(A+B)
1
B)b 2b
0
B(A+B)
1
Aa
y utilizando que, segn la seccin 2.3.4:
(A
1
+B
1
)
1
= AA(A+B)
1
A = BB(A+B)
1
B = B(A+B)
1
A
resulta que la segunda forma cuadrtica es
(a b)
0
(A
1
+B
1
)
1
(a b)
Para comprobar la segunda parte, como (A
1
+B
1
)
1
= B(A+B)
1
A, tenemos que
|A
1
+B
1
|
1
= |B||A+B|
1
|A| con lo que |A||B| = |A+B||A
1
+B
1
|
1
Utilizando este lema, la suma de ( x )V
1
( x )
0
y n
0
(
0
)
0
V
1
(
0
) puede
escribirse como:
(n +n
0
)(
p
)
0
V
1
(
p
) +
nn
0
n +n
0
( x
0
)V
1
( x
0
)
donde

p
=
n
0

0
+n x
n
0
+ n
Con estos resultados la posterior puede descomponerse como producto de p(|V
1
X)
por p(V
1
|X). La primera distribucin es la de la media a posteriori dada la varianza, que
es normal multivariante
p(|V
1
X) = c|V
1
|
1/2
exp

1/2

(n +n
0
)(
p
)
0
V
1
(
p
)

.
y la segunda es la distribucin marginal a posteriori de la matriz de precisin, p(V
1
|X),
dada por
p(V
1
|X) = C|V
1
|
(n+m
0
p1)/2
exp

1/2(trV
1
M
1
p
)

donde
M
1
p
= M
1
m
0
+nS+
nn
0
n +n
0
( x
0
)( x
0
)
0
y representa una distribucin de Wishart W
p
(n +m
0
,M
p
).
354 CAPTULO 11. METODOS DE INFERENCIA AVANZADA MULTIVARIANTE
Captulo 12
ANLISIS FACTORIAL
12.1 INTRODUCCIN
El anlisis factorial tiene por objeto explicar si un conjunto de variables observadas por
un pequeo nmero de variables latentes, o no observadas, que llamaremos factores. Por
ejemplo, supongamos que hemos tomado veinte medidas fsicas del cuerpo de una persona:
estatura, longitud del tronco y de las extremidades, anchura de hombros, peso, etc. Es
intuitivo que todas estas medidas no son independientes entre s, y que conocidas algunas
de ellas podemos prever con poco error las restantes. Una explicacin de este hecho es que
las dimensiones del cuerpo humano dependen de ciertos factores, y si estos fuesen conocidos
podramos prever con pequeo error los valores de las variables observadas. Como segundo
ejemplo, supongamos que estamos interesados en estudiar el desarrollo humano en los pases
del mundo, y que disponemos de muchas variables econmicas, sociales y demogrcas, en
general dependientes entre s, que estn relacionadas con el desarrollo. Podemos pregun-
tarnos si el desarrollo de un pas depende de un pequeo nmero de factores tales que,
conocidos sus valores, podramos prever el conjunto de las variables de cada pas. Como
tercer ejemplo, supongamos que medimos con distintas pruebas la capacidad mental de un
individuo para procesar informacin y resolver problemas. Podemos preguntarnos si existen
unos factores, no directamente observables, que explican el conjunto de resultados observa-
dos. El conjunto de estos factores ser lo que llamamos inteligencia y es importante conocer
cuntas dimensiones distintas tiene este concepto y cmo caracterizarlas y medirlas. El
anlisis factorial surge impulsado por el inters de Karl Pearson y Charles Sperman en com-
prender las dimensiones de la inteligencia humana en los aos 30, y muchos de sus avances
se han producido en el rea de la psicometra.
El anlisis factorial esta relacionado con los componentes principales, pero existen ciertas
diferencias. En primer lugar, los componentes principales se construyen para explicar las
varianzas, mientras que los factores se construyen para explicar las covarianzas o correlaciones
entre las variables. En segundo lugar, componentes principales es un herramienta descriptiva,
mientras que el anlisis factorial presupone un modelo estadstico formal de generacin de
la muestra dada.
355
356 CAPTULO 12. ANLISIS FACTORIAL
12.2 EL MODELO FACTORIAL
12.2.1 Hiptesis bsicas
Supondremos que observamos un vector de variables x, de dimensiones (p 1), en elemen-
tos de una poblacin. El modelo de anlisis factorial establece que este vector de datos
observados se genera mediante la relacin:
x = +f +u (12.1)
donde:
1. f es un vector (m 1) de variables latentes o factores no observadas. Supondremos
que sigue una distribucin N
m
(0, I), es decir los factores son variables de media cero e
independientes entre s y con distribucin normal.
2. es una matriz (p m) de constantes desconocidas (m < p). Contiene los coecientes
que describen como los factores, f, afectan a las variables observadas, x, y se denomina
matriz de carga.
3. u es un vector (p 1) de perturbaciones no observadas. Recoge el efecto de todas
las variables distintas de los factores que inuyen sobre x. Supondremos que u tiene
distribucin N
p
(0, ) donde es diagonal, y que las perturbaciones estn incorreladas
con los factores f .
Con estas tres hiptesis deducimos que:
(a) es la media de las variables x, ya que tanto los factores como las perturbaciones
tienen media cero;
(b) x tiene distribucin normal, al ser suma de variables normales, y llamando V a su
matriz de covarianzas
x N
p
(, V).
La ecuacin (12.1) implica que dada una muestra aleatoria simple de n elementos generada
por el modelo factorial, cada dato x
ij
puede escribirse como:
x
ij
=
j
+
j1
f
1i
+... +
jm
f
mi
+u
ij
i = 1, ..., n j = 1, ..., p
que descompone x
ij
, el valor observado en el individuo i de la variable j, como suma de
m + 2 trminos. El primero es la media de la variable j,
j
, del segundo al m + 1 recogen
el efecto de los m factores, y el ltimo es una perturbacin especca de cada observacin,
u
ij
. Los efectos de los factores sobre x
ij
son el producto de los coecientes
j1
, ...,
jm
, que
dependen de la relacin entre cada factor y la variable j, (y que son los mismos para todos
los elementos de la muestra), por los valores de los m factores en el elemento muestral i,
f
1i
, ..., f
mi
. Poniendo juntas las ecuaciones para todas las observaciones, la matriz de datos,
X, (n p), puede escribirse como:
X = 1
0
+F
0
+U
12.2. EL MODELO FACTORIAL 357
donde 1 es un vector n 1 de unos, F es una matriz (n m) que contiene los m factores
para los n elementos de la poblacin,
0
es la transpuesta de la matriz de carga (m p)
cuyos coecientes constantes relacionan las variables y los factores y U es una matriz (np)
de perturbaciones.
12.2.2 Propiedades
La matriz de carga contiene las covarianzas entre los factores y las variables observadas.
En efecto, la matriz de covarianzas (p m) entre las variables y los factores se obtiene
multiplicando (12.1) por f
0
por la derecha y tomando esperanzas:
E

(x )f
0

= E [
0
] +E [uf
0
] =
ya que, por hiptesis, los factores estn incorrelados (E[
0
] = I) y tienen media cero y estn
incorrelados con las perturbaciones (E [uf
0
] = 0). Esta ecuacin indica que los trminos

ij
de la matriz de carga, , representan la covarianza entre la variable x
i
y el factor f
j
,
y, al tener los factores varianza unidad, son los coecientes de regresin cuando explicamos
las variables observadas por los factores. En el caso particular en que las variables xestn
estandarizadas, los trminos
ij
coecientes son tambin las correlaciones entre las variables
y los factores.
La matriz de covarianzas entre las observaciones verica, segn (12.1):
V = E

(x )(x )
0

= E [
0
]
0
+E [uu
0
]
ya que E[fu
0
] = 0 al estar incorrelados los factores y el ruido. Entonces, se obtiene la
propiedad fundamental:
V =
0
+, (12.2)
que establece que la matriz de covarianzas de los datos observados admite una descomposicin
como suma de dos matrices:
(1) La primera,
0
, es una matriz simtrica de rango m < p. Esta matriz contiene la
parte comn al conjunto de las variables y depende de las covarianzas entre las variables y
los factores.
(2) La segunda, , es diagonal, y contiene la parte especca de cada variable, que es
independiente del resto.
Esta descomposicin implica que las varianzas de las variables observadas pueden de-
scomponerse como:

2
i
=
m
X
j=1

2
ij
+
2
i
, i = 1, . . . , p.
donde el primer trmino es la suma de los efectos de los factores y el segundo el efecto de la
perturbacin. Llamando
h
2
i
=
m
X
j=1

2
ij
,
358 CAPTULO 12. ANLISIS FACTORIAL
a la suma de los efectos de los factores que llamaremos comunalidad, tenemos que

2
i
= h
2
i
+
2
i
, i = 1, . . . , p. (12.3)
Esta igualdad puede interpretarse como una descomposicin de la varianza en:
Varianza observada = Variabilidad comn + Variabilidad especca
(Comunalidad)
que es anloga a la descomposicin clsica de la variabilidad de los datos en una parte
explicada y otra no explicada que se realiza en el anlisis de la varianza. En el modelo
factorial la parte explicada es debida a los factores y la no explicada al ruido o componente
aleatorio. Esta relacin es la base del anlisis que presentamos a continuacin.
Ejemplo 12.1 Supongamos que tenemos tres variables generadas por dos factores. La ma-
triz de covarianzas debe vericar
_
_

11

12

13

21

22

23

31

32

33
_
_
=
_
_

11

12

21

22

31

32
_
_


11

21

31

12

22

32

+
_
_

11
0 0
0
22
0
0 0
33
_
_
Esta igualdad proporciona 6 ecuaciones distintas (recordemos que al ser V simtrica slo
tiene 6 trminos distintos). La primera ser:

11
=
2
11
+
2
12
+
11
Llamando h
2
1
=
2
11
+
2
12
a la contribucin de los dos factores en la variable 1. Las seis
ecuaciones son :

ii
= h
2
i
+
2
i
i = 1, 2, 3

ij
=
i1

j1
+
i2

j2
i = 1, 2, 3
i 6= j
12.2.3 Unicidad del modelo
En el modelo factorial ni la matriz de carga, , ni los factores, f, son observables. Esto plantea
un problema de indeterminacin: dos representaciones (, f) y (

, f

) sern equivalentes si
f =

Esta situacin conduce a dos tipos de indeterminacin.


(1) Un conjunto de datos puede explicarse con la misma precisin con factores incorrelados
o correlados.
(2) Los factores no quedan determinados de manera nica.
Vamos a analizar estas dos indeterminaciones. Para mostrar la primera, si H es cualquier
matriz no singular, la representacin (12.1) puede tambin escribirse como
x = +HH
1
f +u (12.4)
12.2. EL MODELO FACTORIAL 359
y llamando

= H a la nueva matriz de carga, y f

= H
1
f a los nuevos factores:
x = +

+u, (12.5)
donde los nuevos factores f

tienen ahora una distribucin N



0, H
1
(H
1
)
0

y, por lo tanto,
estn correlados. Anlogamente, partiendo de factores correlados, f N(0, V
f
), siempre
podemos encontrar una expresin equivalente de las variables mediante un modelo con fac-
tores incorrelados. En efecto, sea A una matriz tal que V
f
= AA
0
. (Esta matriz siempre
existe si V
f
es denida positiva), entonces A
1
V
f
(A
1
)
0
= I, y escribiendo
x = +(A)(A
1
)f +u,
y tomando

= A como la nueva matriz de coecientes de los factores y f

= A
1
f
como los nuevos factores, el modelo es equivalente a otro con factores incorrelados. Esta
indeterminacin se ha resuelto en las hiptesis del modelo tomando siempre los factores
como incorrelados.
En segundo lugar, si Hes ortogonal, el modelo x = +f +u y el x = + (H)(H
0
f) +u
son indistinguibles. Ambos contienen factores incorrelados, con matriz de covarianzas la
identidad. En este sentido, decimos que el modelo factorial est indeterminado ante rota-
ciones. Esta indeterminacin se resuelve imponiendo restricciones sobre los componentes de
la matriz de carga, como veremos en la seccin siguiente.
Ejemplo 12.2 Supongamos x = (x
1
, x
2
, x
3
)
0
y el modelo factorial M
1
siguiente:
x =
_
_
1 1
0 1
1 0
_
_

f
1
f
2

+
_
_
u
1
u
2
u
3
_
_
y los factores estn incorrelados. Vamos a escribirlo como otro modelo equivalente de factores
tambin incorrelados. Tomando H =
1

1 1
1 1

, esta matriz es ortogonal, ya que H


1
=
H
0
= H. Entonces
x =
_
_
1 1
0 1
1 0
_
_
1

1 1
1 1

1 1
1 1

f
1
f
2

+ [u] .
Llamando a este modelo, M
2
, puede escribirse como:
x =
_

_
2

2
0
1

2

1

2
1

2
1

2
_

g
1
g
2

+ [u]
y los nuevos factores, g, estn relacionados con los anteriores, f, por:

g
1
g
2

1 1
1 1

f
1
f
2

360 CAPTULO 12. ANLISIS FACTORIAL


y son por lo tanto una rotacin de los iniciales. Comprobemos que estos nuevos factores
estn tambin incorrelados. Su matriz de varianzas es:
V
g
=

1 1
1 1

V
f

1 1
1 1

1
y si V
f
= I V
g
= I, de donde se deduce que los modelos M1 y M2 son indistinguibles.
12.2.4 Normalizacin del modelo factorial
Como el modelo factorial esta indeterminado ante rotaciones la matriz no est identicada.
Esto implica que aunque observemos toda la poblacin, y , y V sean conocidos, no podemos
determinar de manera nica. La solucin para poder estimar esta matriz es imponer
restricciones sobre sus trminos. Los dos mtodos principales de estimacin que vamos a
estudiar utilizan alguna de las dos siguientes normalizaciones:
Criterio 1:
Exigir:

0
mp

pm
= D = Diagonal (12.6)
Con esta normalizacin los vectores que denen el efecto de cada factor sobre las p vari-
ables observadas son ortogonales. De esta manera, los factores adems de estar incorrelados
producen efectos lo ms distintos posibles en las variables. Vamos a comprobar que esta
normalizacin dene una matriz de carga de manera nica. Supongamos primero que ten-
emos una matriz tal que el producto
0
no es diagonal. Transformamos los factores con

= H, donde H es la matriz que contiene en columnas los vectores propios de


0
.
Entonces:

= H
0

0
H (12.7)
y como H diagonaliza
0
la matriz

verica la condicin (12.6). Veamos ahora que esta es


la nica matriz que lo verica. Supongamos que rotamos esta matriz y sea

= C donde
C es ortogonal. Entonces la matriz
0

= C
0

C no ser diagonal. Analogamente, si


partimos de una matriz que verica (12.6) si la rotamos dejar de vericar esta condicin.
Cuando se verica esta normalizacin, postmultiplicando la ecuacin (12.2) por , podemos
escribir
(V) = D,
que implica que las columnas de son vectores propios de la matriz V, que tiene como
valores propios los trminos diagonales de D. Esta propiedad se utiliza en la estimacin
mediante el mtodo del factor principal.
12.2. EL MODELO FACTORIAL 361
Criterio 2:
Exigir:

1
= D =Diagonal (12.8)
En esta normalizacin los efectos de los factores sobre las variables, ponderados por las
varianzas de las perturbaciones de cada ecuacin, se hacen incorrelados. Como la anterior,
esta normalizacin dene una matriz de carga de manera nica. En efecto, supongamos que

1
no es diagonal, y transformamos con

= H. Entonces:

= H
0

H (12.9)
y como
0

1
es una matriz simtrica y denida no negativa, siempre puede diagonalizarse
si escogemos como H la matriz que contiene en columnas los vectores propios de
0

1
.
Analogamente, si se verica de partida (12.8) y rotamos la matriz de carga esta condicin
dejar de vericarse. Esta es la normalizacin que utiliza la estimacin mximo verosmil. Su
justicacin es que de esta manera los factores son condicionalmente independientes dados
los datos, como veremos en el apndice 12.4.
Con esta normalizacin, postmultiplicando la ecuacin (12.2) por
1
, tenemos que
V
1
= D
y premultiplicando por
1/2
, resulta:

1/2
V
1

1/2
=
1/2
D
que implica

1/2
V
1/2

1/2
=
1/2
(D+I)
y concluimos que la matriz
1/2
V
1/2
tiene vectores propios
1/2
con valores propios
D+I. Esta propiedad se utiliza en la estimacin mximo verosmil.
12.2.5 Nmero mximo de factores
Si sustituimos en (12.2) la matriz terica de covarianzas, V, por la matriz muestral, S, el
sistema estar identicado si es posible resolverlo de manera nica. Para ello existe una
restriccin en el nmero de factores posibles. El nmero de ecuaciones que obtenemos de
(12.2) es igual al conjunto de trminos de S, que es p+p(p1)/2 = p(p+1)/2. El nmero de
incgnitas en el segundo trmino es pm, los coecientes de la matriz , ms los p trminos de
la diagonal de , menos las restricciones impuestas para identicar la matriz . Suponiendo
que
0

1
debe ser diagonal, esto supone m(m1)/2 restricciones sobre los trminos de
, .
Para que el sistema este determinado debe haber un nmero de ecuaciones igual o mayor
que el de incgnitas. En efecto, si existen menos ecuaciones que incgnitas no es posible
362 CAPTULO 12. ANLISIS FACTORIAL
encontrar una solucin nica y el modelo no est identicado. Si el nmero de ecuaciones es
exactamente igual al de incgnitas existir una solucin nica. Si existen ms ecuaciones que
incgnitas, podremos resolver el sistema en el sentido de los mnimos cuadrados y encontrar
unos valores de los parmetros que minimicen los errores de estimacin. Por lo tanto:
p +pm
m(m1)
2

p(p + 1)
2
que supone:
p +m p
2
2pm+m
2
,
es decir
(p m)
2
1 p +m.
El lector puede comprobar que esta ecuacin implica que, cuando p no es muy grande
(menor de 10) aproximadamente el nmero mximo de factores debe ser menor que la mitad
del nmero de variables menos uno. Por ejemplo, el nmero mximo de factores con 7 vari-
ables es 3. Esta es la regla que se obtiene si escribimos la desigualdad anterior despreciando
el trmino de las restricciones sobre los elementos de .
12.3 EL MTODO DEL FACTOR PRINCIPAL
El mtodo del factor principal es un mtodo para estimar la matriz de carga basado en
componentes principales. Evita tener que resolver las ecuaciones de mxima verosimilitud,
que son ms complejas. Tiene la ventaja de que la dimensin del sistema puede identicarse
de forma aproximada. Se utiliza en muchos programas de ordenador por su simplicidad. Su
base es la siguiente: supongamos que podemos obtener una estimacin inicial de la matriz
de varianzas de las perturbaciones
b
. Entonces, podemos escribir
S
b
=
0
, (12.10)
y como S

es simtrica, siempre puede descomponerse como:
S
b
= HGH
0
= (HG
1/2
)(HG
1/2
)
0
(12.11)
donde H es cuadrada de orden p y ortogonal, G es tambin de orden p, diagonal y contiene
las races caractersticas de S
b
. El modelo factorial establece que G debe ser diagonal
del tipo:
G =

G
1mm
O
m(pm)
O
(pm)m
O
(pm)(pm)

ya que S
b
tiene rango m. Por tanto, si llamamos H
1
a la matriz p m que contiene
los vectores propios asociados a los valores propios no nulos de G
1
podemos tomar como
estimador de la matriz p m:
b
= H
1
G
1/2
1
(12.12)
12.3. EL MTODO DEL FACTOR PRINCIPAL 363
con lo que resolvemos el problema. Observemos que la normalizacin resultante es:
b

0
b
= G
1/2
1
H
0
1
H
1
G
1/2
1
= G
1
= Diagonal (12.13)
ya que los vectores propios de matrices simtricas son ortogonales, por lo que H
0
1
H
1
= I
m
.
Por tanto, con este mtodo se obtienen estimadores de la matriz
b
con columnas ortogonales
entre s.
En la prctica la estimacin se lleva a cabo de forma iterativa como sigue:
1. Partir de una estimacin inicial de
b

i
o de
b

i
mediante
b

i
= diag

S
b

.
2. Calcular la matriz cuadrada y simtrica Q
i
= S
b

i
.
3. Obtener la descomposicin espectral de Q
i
de forma
Q
i
= H
1i
G
1i
H
0
1i
+H
2i
G
2i
H
0
2i
donde G
1i
contiene los m mayores valores propios de Q
i
y H
1i
sus valores propios.
Elegiremos m de manera que los restantes vectores propios contenidos en G
2i
sean
todos pequeos y de tamao similar. La matriz Q
i
puede no ser denida positiva y
algunos de sus valores propios pueden ser negativos. Esto no es un problema grave si
estos valores propios son muy pequeos y podemos suponerlos prximos a cero.
4. Tomar
b

i+1
= H
1i
G
1/2
1i
y volver a (1). Iterar hasta convergencia, es decir hasta que
k
n+1

n
k < .
Los estimadores obtenidos sern consistentes pero no ecientes, como en el caso de Mx-
ima verosimilitud. Tampoco son invariantes ante transformaciones lineales, como los MV,
es decir, no se obtiene necesariamente el mismo resultado con la matriz de covarianzas y con
la de correlaciones.
Para llevar a la prctica esta idea, debemos especicar cmo obtener el estimador inicial
b
, problema que se conoce como la estimacin de las comunalidades.
12.3.1 Estimacin de las comunalidades
Estimar los trminos
2
i
equivale a denir valores para los trminos diagonales, h
2
i
, de
0
,
ya que h
2
i
= s
2
i

b

2
i
. Existen las siguientes alternativas:
1. tomar
b

i
= 0. Esto equivale a extraer los componentes principales de S. Supone tomar
b
h
2
i
= s
2
i
(en el caso de correlaciones
b
h
2
i
= 1 ), que es claramente su valor mximo, por
lo que podemos comenzar con un sesgo importante.
2. tomar
b

2
j
= 1/s

jj
, donde s

jj
es el elemento diagonal j-simo de la matriz de precisin
S
1
. Segn el apndice 3.2 esto equivale a tomar h
2
j
como:
b
h
2
j
= s
2
j
s
2
j
(1 R
2
j
) = s
2
j
R
2
j
, (12.14)
364 CAPTULO 12. ANLISIS FACTORIAL
donde R
2
j
es el coeciente de correlacin mltiple entre x
j
y el resto de las variables.
Intuitivamente, cuanto mayor sea R
2
j
mayor ser la comunalidad
b
h
2
j
. Con este mtodo
comenzamos con una estimacin sesgada a la baja de h
2
i
, ya que
b
h
2
i
h
2
i
. En efecto,
por ejemplo, suponemos que para la variable x
1
el modelo verdadero es
x
1
=
m
X
j=1

1j
f
j
+u
1
(12.15)
que est asociado a la descomposicin
2
1
= h
2
1
+
2
1
. La proporcin de varianza
explicada es h
2
1
/
2
1
. Si escribimos la ecuacin de regresin
x
1
= b
2
x
2
+. . . +b
p
x
p
+
1
sustituyendo cada variable por su expresin en trminos de los factores tenemos que:
x
1
= b
2

2j
f
j
+u
2

+. . . +b
p

pj
f
j
+u
p

+. (12.16)
que conducir a una descomposicin de la varianza
2
1
=
b
h
2
1
+
b

2
1
. Claramente
b
h
2
1
h
2
1
,
ya que en (12.16) forzamos a que aparezcan como regresores adems de los factores,
como en (12.15) los ruidos u
1
, . . . , u
p
de cada ecuacin. Adems, es posible que un
factor afecte a x
1
pero no al resto, con lo que no aparecer en la ecuacin (12.16). En
resumen, la comunalidad estimada en (12.16) ser una cota inferior del valor real de la
comunalidad.
Ejemplo 12.3 En este ejemplo mostraremos las iteraciones del algoritmo del factor prin-
cipal de forma detallada para los datos de ACCIONES del Anexo I. La matriz de varianzas
covarianzas de estos datos en logaritmos es,
S =
_
_
0.13 0.15 0.19
0.15 0.13 0.03
0.19 0.03 0.16
_
_
Para estimar la matriz de cargas realizamos los pasos del algoritmo del factor principal
descritos anteriormente. Antes de empezar el algoritmo tenemos que jar la cota para decidir
la convergencia . Fijaremos un grande, 0.05, de forma que en pocas iteraciones el algoritmo
converja a pesar de los errores acumulados por el redondeo.
Paso 1. Tomando la segunda alternativa para la estimacin inicial de las comunalidades diag(
b

2
i
) =
1/s

jj
. donde s

jj
es el elemento j-simo de la matriz S
1
S
1
=
_
_
52.094 47.906 52.88
47.906 52.094 47.12
52.88 47.12 60.209
_
_
b

2
i
=
_
_
1/52.094 0 0
0 1/52.094 0
0 0 1/60.209
_
_
=
_
_
0.019 0 0
0 0.019 0
0 0 0.017
_
_
12.3. EL MTODO DEL FACTOR PRINCIPAL 365
Paso 2. Calculamos la matriz cuadrada y simtrica Q
i
= S
b

i
Q
i
=
_
_
0.13 0.15 0.19
0.15 0.13 0.03
0.19 0.03 0.16
_
_

_
_
0.019 0 0
0 0.019 0
0 0 0.017
_
_
=
_
_
0.111 0.15 0.19
0.15 0.111 0.03
0.19 0.03 0.143
_
_
Paso 3. Descomposicin espectral de Q
i
y separacin en dos trminos H
1i
G
1i
H
0
1i
y H
2i
G
2i
H
0
2i
.
Los valores propios de Q
i
son 0.379, 0.094, y 0.108. Observemos que uno de ellos es
negativo, con lo que la matriz no es denida positiva. Como hay un valor propio mucho
mayor que los dems tomaremos un nico factor. Esto supone la descomposicin
_
_
0.111 0.15 0.19
0.15 0.111 0.03
0.19 0.03 0.143
_
_
=
_
_
0.670
0.442
0.596
_
_
0.379
_
_
0.670
0.442
0.596
_
_
0
+
+
_
_
0.036 0.741
0.783 0.438
0.621 0.508
_
_

0.094 0
0 0.108

_
_
0.036 0.741
0.783 0.438
0.621 0.508
_
_
0
Paso 4. Calculamos
b

i+1
= H
1i
G
1/2
1i
b

i+1
=
_
_
0.670
0.442
0.596
_
_

0.379 =
_
_
0.412
0.272
0.367
_
_
Esta es la primera estimacin de la matriz de carga. Vamos a iterar para mejorar esta
estimacin. Para ello volvemos al paso 1.
Paso 1. Estimamos los trminos de la diagonal de
b

i
mediante
b

i
= diag

S
b

i
= diag
_
_
_
_
_
0.13 0.15 0.19
0.15 0.13 0.03
0.19 0.03 0.16
_
_

_
_
0.412
0.272
0.367
_
_

0.412 0.272 0.367



_
_
_
=
_
_
0.180 0 0
0 0.056 0
0 0 0.0253
_
_
Paso 2. Calculamos la matriz cuadrada y simtrica Q
i
= S
b

i
Q
i
=
_
_
0.13 0.15 0.19
0.15 0.13 0.03
0.19 0.03 0.16
_
_

_
_
0.180 0 0
0 0.056 0
0 0 0.0253
_
_
=
_
_
0.05 0.15 0.19
0.15 0.074 0.03
0.19 0.03 0.135
_
_
366 CAPTULO 12. ANLISIS FACTORIAL
Paso 3. Descomposicin espectral de Q
i
= H
1i
G
1i
H
0
1i
+H
2i
G
2i
H
0
2i
_
_
0.05 0.15 0.19
0.15 0.074 0.03
0.19 0.03 0.135
_
_
=
_
_
0.559
0.450
0.696
_
_
0.307
_
_
0.559
0.450
0.696
_
_
0
+
+
_
_
0.081 0.825
0.806 0.385
0.586 0.414
_
_

0.067 0
0 0.215

_
_
0.081 0.825
0.806 0.385
0.586 0.414
_
_
0
Paso 4. Calculamos
b

i+1
= H
1i
G
1/2
1i
b

i+1
=
_
_
0.559
0.450
0.696
_
_

0.307 =
_
_
0.310
0.249
0.386
_
_
comprobamos si se cumple el criterio de convergencia k
n+1

n
k < .

_
_
0.310
0.249
0.386
_
_

_
_
0.412
0.272
0.367
_
_

= 0.106 = 0.05
volvemos al paso 1 hasta que se cumpla el criterio.
Paso 1. Volvemos a estimar
b

i
= diag

S
b

i
= diag
_
_
_
_
_
0.35 0.15 0.19
0.15 0.13 0.03
0.19 0.03 0.16
_
_

_
_
0.310
0.249
0.386
_
_

. 31 . 249 . 386

_
_
_
=
_
_
0.254 0 0
0 0.068 0
0 0 0.011
_
_
Paso 2. Calculamos la matriz cuadrada y simtrica Q
i
= S
b

i
Q
i
=
_
_
0.13 0.15 0.19
0.15 0.13 0.03
0.19 0.03 0.16
_
_

_
_
0.254 0 0
0 0.068 0
0 0 0.011
_
_
=
_
_
0.124 0.15 0.19
0.15 0.062 0.03
0.19 0.03 0.149
_
_
Paso 3. Descomposicin espectral de Q
i
. Indicaremos slo el primer vector y valor propio
_
_
0.124 0.15 0.19
0.15 0.062 0.03
0.19 0.03 0.149
_
_
=
_
_
0499
0.425
0.755
_
_
0.291
_
_
0499
0.425
0.755
_
_
0
+H
2i
G
2i
H
0
2i
12.3. EL MTODO DEL FACTOR PRINCIPAL 367
Paso 4. Calculamos
b

i+1
= H
1i
G
1/2
1i
b

i+1
=
_
_
0499
0.425
0.755
_
_

0.291 =
_
_
0.269
0.229
0.407
_
_
comprobamos si se cumple el criterio de convergencia

n+1

< .

_
_
0.269
0.229
0.407
_
_

_
_
0.310
0.249
0.386
_
_

= 0.05 = 0.05
El criterio de convergencia se ha cumplido y el modelo con los parmetros estimados es:
x =
_
_
0.269
0.229
0.407
_
_
f
1
+
_
_
u
1
u
2
u
3
_
_
_
_
u
1
u
2
u
3
_
_
N
3
_
_
_
_
0
0
0
_
_
,
_
_
0.254 0 0
0 0.068 0
0 0 0.011
_
_
_
_
Observemos que la expresin del factor obtenido es bastante distinta a la del primer
componente principal que se obtuvo en el ejercicio 5.1
Ejemplo 12.4 Para la base de datos de INVEST se realiz un anlisis descriptivo en el
captulo 4 en el que se propuso una transformacin logartmica en todas las variables y la
eliminacin de EEUU. Sobre este conjunto de datos, una vez estandarizados, vamos a ilustrar
el clculo de un nico factor mediante el mtodo del factor principal (en el ejemplo siguiente
se consideran 2 factores). Vamos a comparar los dos mtodos propuestos para inicializar el
algortimo con los datos estandarizados. En el primer caso comenzamos las iteraciones con
b

j
= 0 =
b
h
2
(0)
= 1,
y el nmero de iteraciones antes de converger es 6. El criterio de parada en el paso k del
algoritmo es, en este caso, que la diferencia mxima entre las comunalidades en k y k-1 sea
menor de 0.0001. En la siguiente tabla se presentan las estimaciones de las comunalidades
para los pasos i=0,1,2,3,6.

h
2
(0)

h
2
(1)

h
2
(2)

h
2
(3)

h
2
(6)
INTER.A 1 0.96 0.96 0.96 0.96
INTER.B 1 0.79 0.76 0.75 0.75
AGRIC. 1 0.94 0.94 0.94 0.94
BIOLO. 1 0.92 0.91 0.91 0.91
MEDIC. 1 0.97 0.97 0.97 0.97
QUIMI. 1 0.85 0.83 0.82 0.82
INGEN. 1 0.9 0.88 0.88 0.88
FSICA 1 0.94 0.93 0.93 0.93
368 CAPTULO 12. ANLISIS FACTORIAL
En negrilla gura el resultado nal una vez que ha convergido el algoritmo.
Si inicializamos el algoritmo con el segundo mtodo,
b

j
= 1 R
2
j
=
b
h
2
(0)
= R
2
j
,
el nmero de iteraciones antes de converger es 5. En la siguiente tabla se presentan cmo
varan la estimaciones de las comunalidades para los pasos i=0,1,2,3,5.

h
2
(0)

h
2
(1)

h
2
(2)

h
2
(3)

h
2
(5)
INTER.A 0.98 0.96 0.96 0.96 0.96
INTER.B 0.82 0.76 0.75 0.75 0.75
AGRIC. 0.95 0.94 0.94 0.94 0.94
BIOLO. 0.97 0.92 0.91 0.91 0.91
MEDIC. 0.98 0.97 0.97 0.97 0.97
QUIMI. 0.85 0.82 0.82 0.82 0.82
INGEN. 0.93 0.89 0.88 0.88 0.88
FSICA 0.97 0.94 0.93 0.93 0.93
En negrilla gura el resultado nal una vez que ha convergido el algoritmo. Al haber inicial-
izado el algoritmo en un punto ms prximo al nal, la convergencia ha sido ms rpida,
y ya en la segunda iteracin el resultado es muy prximo al nal. Se observa como la esti-
macin inicial de las comunalidades,

h
2
(0)
, es cota superior de la estimacin nal,

h
2
(5)
. En
la siguiente tabla presentamos la estimacin de

(0)
de las que partimos en ambos mtodos
y la estimacin de las cargas nales obtenidas.
b

j
= 0
b

j
= 1 R
2
j
Final
Factor1 Factor1 Factor1
INTER.A 0.97 0.97 0.98
INTER.B 0.89 0.87 0.87
AGRIC. 0.97 0.97 0.97
BIOLO. 0.96 0.96 0.95
MEDIC. 0.98 0.98 0.99
QUIMI. 0.92 0.90 0.91
INGEN. 0.94 0.94 0.94
FSICA 0.96 0.97 0.97
El segundo mtodo proporciona un

(0)
ms prximo al resultado nal, sobre todo para aque-
llas variables donde la variabilidad especca es mayor.
12.3.2 Generalizaciones
El mtodo de estimacin del factor principal es un procedimiento de minimizar la funcin:
F = tr (S
0
)
2
. (12.17)
12.3. EL MTODO DEL FACTOR PRINCIPAL 369
En efecto, esta funcin puede escribirse
F =
p
X
i=1
p
X
j=1
(s
ij
v
ij
)
2
(12.18)
donde v
ij
son los elementos de la matriz V =
0
+ . Ahora bien, por la descomposicin
espectral, dada una matriz S cuadrada simtrica y no negativa la mejor aproximacin en
el sentido de mnimos cuadrados (12.18) mediante una matriz de rango m, AA
0
se obtiene
tomando A = HD
1/2
, donde H contiene los vectores propios y D
1/2
las races de los valores
propios de S (vase el apndice 5.2), que es lo que hace el mtodo del factor principal.
Harman (1976) ha desarrollado el algoritmo MINRES que minimiza (12.17) ms ecien-
temente que el mtodo del factor principal y Joreskog (1976) ha propuesto el algoritmo USL
(unweighted least squares), que se basa en derivar en (12.17), obtener
b
como funcin de
y luego minimizar la funcin resultante por un algoritmo no lineal tipo Newton-Raphson.
Ejemplo 12.5 Con los datos de INVEST, utilizados en el ejemplo anterior, presentamos el
anlisis factorial para dos factores realizado con un programa de ordenador con el mtodo del
factor principal. La tabla 12.1 indica la variabilidad de ambos factores. El segundo factor
explica poca variabilidad (2%) pero ha sido incluido por tener una clara interpretacin.
Factor1 Factor2
Variabilidad 7.18 0.17
P
h
0.89 0.02
P
h
i=1
P
h
0.89 0.91
Tabla 12.1: Variabilidad explicada por los dos primeros factores estimados por el mtodo
del factor principal.
El algoritmo del factor principal se inicia con
b

j
= 1 R
2
j
, y se han realizado 14 itera-
ciones antes de converger a los pesos que se presentan en la tabla 12.2.
Factor1 Factor2
2
i
INTER.A 0.97 -0.06 0.04
INTER.B 0.87 0.16 0.22
AGRIC. 0.97 -0.03 0.06
BIOLO. 0.95 -0.24 0.02
MEDIC. 0.99 -0.10 0.02
QUIMI. 0.91 -0.09 0.17
INGEN. 0.94 0.21 0.06
FSICA 0.97 0.17 0.03
Tabla 12.2: Matriz de cargas de los factores y comunalidades
El primer factor es la suma de las publicaciones en todas las bases, nos da una idea
de volumen. Segn este factor los pases quedaran ordenados en funcin de su produccin
370 CAPTULO 12. ANLISIS FACTORIAL
cientca. El segundo factor contrapone la investigacin en biomedicina con la investigacin
en tecnologa. Este segundo componente separa a Japn y Reino Unido, pases con una gran
produccin cientca.
En la gura 12.1 se presenta un grco de los paises sobre estos dos factores. El lector
debe comparar estos resultados con los obtenidos en el captulo 5 (ejercicios 5.6 y 5.10) con
componentes principales.
Factor1
F
a
c
t
o
r
2
-2 -1 0 1
-
1
.
5
-
1
.
0
-
0
.
5
0
.
0
0
.
5
1
.
0
1
.
5
UK
JP
F
G
C
I
A
H
S
CH
E
B
D
AU
FI
N
Y
GR
IR
P
Figura 12.1: Representacin de los pases en el plano formado por los dos primeros factores.
12.4 ESTIMACIN MXIMO VEROSMIL
12.4.1 Estimacin MV de los parmetros
Enfoque directo
Las matrices de parmetros pueden estimarse formalmente mediante mxima verosimilitud.
La funcin de densidad de las observaciones originales es N
p
(, V). Por tanto la verosimilitud
es la estudiada en el captulo 10. Sustituyendo por su estimador, x, la funcin soporte
para V es:
log(V|X) =
n
2
log |V|
n
2
tr

SV
1

, (12.19)
y sustituyendo V por (12.2) la funcin soporte de y es :
L(, ) =
n
2

log |
0
+| +tr(S(
0
+)
1

. (12.20)
12.4. ESTIMACIN MXIMO VEROSMIL 371
Los estimadores de mxima verosimilitud se obtienen maximizando (12.20) respecto a
las matrices y . Derivando con respecto a estas matrices y tras ciertas manipulaciones
algebraicas que se resumen en el Apndice 12.1, (vease Anderson, 1984, pp. 557-562) o
Lawley y Maxwell, 1971), se obtienen las ecuaciones:
b
= diag (S

0
) (12.21)

1/2
(S I)
b

1/2

1/2
b

=

b

1/2
b

D (12.22)
donde D es la matriz resultado de la normalizacin
b

0
b

1
b
= D =diagonal. (12.23)
Estas tres ecuaciones permiten resolver el sistema utilizando un algoritmo iterativo tipo
Newton-Raphson. La solucin numrica es a veces difcil porque puede no haber una solu-
cin en la cual
b
sea denida positiva, y es necesario entonces acudir a la estimacin con
restricciones. Observemos que (12.22) conduce a una ecuacin de valores propios: nos dice
que
b

1/2
b
contienen los vectores propios de la matriz simtrica

b

1/2
(S I)
b

1/2

y
que D contiene los valores propios
El algoritmo iterativo para resolver estas ecuaciones es:
1. Partir de una estimacin inicial. Si tenemos una estimacin
b

i
, (i = 1 la primera
vez), por ejemplo por el mtodo del factor principal, se calcula la matriz
b

i
mediante
b

i
= diag

S
b

i
b

0
i

. Alternativamente, podemos estimar la matriz


b

i
directamente
por el mtodo del factor principal.
2. Se calcula la matriz cuadrada simtrica A
i
=
b

1/2
i

S
b

1/2
i
=
b

1/2
S
b

1/2

I. Esta matriz pondera los trminos de S por su importancia en trminos de los


componentes especcos.
3. Se obtiene la descomposicin espectral de A
i
de forma que
A
i
= H
1i
G
1i
H
0
1i
+H
2i
G
2i
H
0
2i
donde los m mayores valores propios de A
i
estn en la matriz diagonal (mm), G
1i
y los p m menores de la G
2i
y H
1i
y H
2i
contienen los correspondientes vectores
propios.
4. Se toma
b

i+1
=
b

1/2
i
H
1i
G
1/2
1i
y se sustituye en la funcin de verosimilitud, que se
maximiza respecto a . Esta parte es fcil de hacer con un algortimo de optimizacin
no lineal. Con el resultado obtenido se vuelve a (2), iterando hasta la convergencia.
Puede ocurrir que este algoritmo converja a un mximo local donde algunos de los trmi-
nos de la matriz sean negativos. Esta solucin impropia se denomina a veces una solucin
372 CAPTULO 12. ANLISIS FACTORIAL
de Heywood. Los programas existentes cambian entonces esos valores por nmeros positivos
e intentan encontrar otro mximo local, aunque no siempre el algortimo converge.
En el Apndice 12.1 se comprueba que la estimacin MV es invariante ante transforma-
ciones lineales de las variables. En consecuencia, el resultado de la estimacin no depende
como ocurre en componentes principales del uso de la matriz de covarianzas o de correla-
ciones. Una ventaja adicional del mtodo de mxima verosimilitud es que podemos obtener
las varianzas asintticas de los estimadores mediante la matriz de informacin en el ptimo.
Observemos que cuando la matriz
b
tiene los trminos diagonales aproximadamente
iguales, la estimacin MV conducir a resultados similares al mtodo del factor principal.
En efecto, sustituyendo en las ecuaciones del estimador MV
b
= kI, ambos mtodos utilizan
la misma normalizacin y la ecuacin (12.22) es anloga a la (12.11), que se resuelve en el
mtodo del factor principal.
El algortimo EM
Un procedimiento alternativo para maximizar la verosimilitud es considerar los factores como
valores ausentes y aplicar el algoritmo EM. La funcin de verosimiltud conjunta de los datos
y los factores puede escribirse f(x
1
, ..., x
n
, f
1
, ..., f
n
) = f(x
1
, ..., x
n
|f
1
, ..., f
n
) f(f
1
, ..., f
n
). El
soporte para la muestra completa es
log(, |X, F) =
n
2