DE
ANLISIS MULTIVARIANTE
Carles M. Cuadras
21 de junio de 2012
2
Es propiedad del autor.
c C. M. Cuadras
CMC Editions
Manacor 30
08023 Barcelona, Spain
ndice general
1. DATOS MULTIVARIANTES
1.1. Introduccin . . . . . . . . . . . . . . . . . . . .
1.2. Matrices de datos . . . . . . . . . . . . . . . . .
1.3. La matriz de centrado . . . . . . . . . . . . . .
1.4. Medias, covarianzas y correlaciones . . . . . . .
1.5. Variables compuestas . . . . . . . . . . . . . . .
1.6. Transformaciones lineales . . . . . . . . . . . . .
1.7. Teorema de la dimensin . . . . . . . . . . . . .
1.8. Medidas globales de variabilidad y dependencia
1.9. Distancias . . . . . . . . . . . . . . . . . . . . .
1.10. Algunos aspectos del clculo matricial . . . . . .
1.10.1. Descomposicin singular . . . . . . . . .
1.10.2. Inversa generalizada . . . . . . . . . . .
1.10.3. Aproximacin matricial de rango inferior
1.10.4. Transformacin procrustes . . . . . . . .
1.11. Ejemplos . . . . . . . . . . . . . . . . . . . . . .
1.12. Complementos . . . . . . . . . . . . . . . . . . .
2. NORMALIDAD MULTIVARIANTE
2.1. Introduccin . . . . . . . . . . . . . .
2.2. Distribucin normal multivariante . .
2.2.1. Denicin . . . . . . . . . . .
2.2.2. Propiedades . . . . . . . . . .
2.2.3. Caso bivariante . . . . . . . .
2.3. Distribucin de Wishart . . . . . . .
2.4. Distribucin de Hotelling . . . . . . .
2.5. Distribucin de Wilks . . . . . . . . .
2.6. Relaciones entre Wilks, Hotelling y F
3
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
11
11
11
13
13
14
14
15
16
17
19
19
19
20
21
23
26
.
.
.
.
.
.
.
.
.
27
27
28
28
29
30
31
32
33
35
NDICE GENERAL
2.7. Distribucin multinomial . . . . . . . . . . . . . . . . . . . . . 36
2.8. Distribuciones con marginales dadas . . . . . . . . . . . . . . . 37
2.9. Complementos . . . . . . . . . . . . . . . . . . . . . . . . . . . 38
3. INFERENCIA MULTIVARIANTE
3.1. Conceptos bsicos . . . . . . . . . . . . . . .
3.2. Estimacin de medias y covarianzas . . . . .
3.3. Contraste de hiptesis multivariantes . . . .
3.3.1. Test sobre la media: una poblacin .
3.3.2. Test sobre la media: dos poblaciones
3.3.3. Comparacin de medias . . . . . . .
3.4. Teorema de Cochran . . . . . . . . . . . . .
3.5. Construccin de contrastes de hiptesis . . .
3.5.1. Razn de verosimilitud . . . . . . . .
3.5.2. Principio de unin-interseccin . . . .
3.6. Ejemplos . . . . . . . . . . . . . . . . . . . .
3.7. Anlisis de perles . . . . . . . . . . . . . .
3.8. Complementos . . . . . . . . . . . . . . . . .
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
41
41
42
43
43
44
44
45
48
48
50
52
57
59
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
61
61
61
63
66
67
67
68
68
69
71
.
.
.
.
.
.
73
73
75
76
78
79
80
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
NDICE GENERAL
5.5. Nmero de componentes principales
5.5.1. Criterio del porcentaje . . .
5.5.2. Criterio de Kaiser . . . . . .
5.5.3. Test de esfericidad . . . . .
5.5.4. Criterio del bastn roto . . .
5.6. Biplot . . . . . . . . . . . . . . . .
5.7. Ejemplos . . . . . . . . . . . . . . .
5.8. Complementos . . . . . . . . . . . .
5
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
82
82
82
83
83
84
85
89
6. ANLISIS FACTORIAL
6.1. Introduccin . . . . . . . . . . . . . . . . . .
6.2. El modelo unifactorial . . . . . . . . . . . .
6.3. El modelo multifactorial . . . . . . . . . . .
6.3.1. El modelo . . . . . . . . . . . . . . .
6.3.2. La matriz factorial . . . . . . . . . .
6.3.3. Las comunalidades . . . . . . . . . .
6.3.4. Nmero mximo de factores comunes
6.3.5. El caso de Heywood . . . . . . . . .
6.3.6. Un ejemplo . . . . . . . . . . . . . .
6.4. Teoremas fundamentales . . . . . . . . . . .
6.5. Mtodo del factor principal . . . . . . . . .
6.6. Mtodo de la mxima verosimilitud . . . . .
6.6.1. Estimacin de la matriz factorial . .
6.6.2. Hiptesis sobre el nmero de factores
6.7. Rotaciones de factores . . . . . . . . . . . .
6.7.1. Rotaciones ortogonales . . . . . . . .
6.7.2. Factores oblicuos . . . . . . . . . . .
6.7.3. Rotacin oblicua . . . . . . . . . . .
6.7.4. Factores de segundo orden . . . . . .
6.8. Medicin de factores . . . . . . . . . . . . .
6.9. Anlisis factorial conrmatorio . . . . . . . .
6.10. Complementos . . . . . . . . . . . . . . . . .
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
93
93
94
96
96
97
97
98
99
99
101
103
104
104
105
106
106
107
108
110
111
112
114
.
.
.
.
117
. 117
. 118
. 120
. 121
.
.
.
.
.
.
.
.
.
.
.
.
NDICE GENERAL
7.5. Aspectos inferenciales . . . . . . . .
7.5.1. Comparacin de medias . .
7.5.2. Comparacin de covarianzas
7.5.3. Test de dimensionalidad . .
7.5.4. Regiones condenciales . . .
7.6. Complementos . . . . . . . . . . . .
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
123
123
123
124
125
129
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
131
. 131
. 132
. 134
. 137
. 139
. 142
. 142
. 143
. 144
. 145
. 145
. 147
. 154
9. ANLISIS DE CORRESPONDENCIAS
9.1. Introduccin . . . . . . . . . . . . . . . . . .
9.2. Cuanticacin de las variables categricas .
9.3. Representacin de las y columnas . . . . .
9.4. Representacin conjunta de las y columnas
9.5. Soluciones simtrica y asimtrica . . . . . .
9.6. Variabilidad geomtrica (inercia) . . . . . .
9.7. Analisis de Correspondencias Mltiples . . .
9.8. Ejemplos . . . . . . . . . . . . . . . . . . . .
9.9. MDS ponderado . . . . . . . . . . . . . . . .
9.10. Complementos . . . . . . . . . . . . . . . . .
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
10. CLASIFICACIN
10.1. Introduccin . . . . . . . . . . . . . . . . . . . . . . . . . . .
10.2. Jerarqua indexada . . . . . . . . . . . . . . . . . . . . . . .
10.3. Geometra ultramtrica . . . . . . . . . . . . . . . . . . . . .
155
155
157
158
160
163
164
167
169
173
176
181
. 181
. 182
. 184
NDICE GENERAL
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
188
188
189
191
192
194
196
200
201
201
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
205
. 205
. 206
. 206
. 207
. 207
. 208
. 208
. 209
. 209
. 209
. 210
. 210
. 213
. 213
. 214
. 215
. 215
.
.
.
.
.
.
.
217
. 217
. 217
. 218
. 219
. 220
. 221
. 222
NDICE GENERAL
12.1.7. Comparacin entre discriminador lineal
12.2. Anlisis discriminante basado en distancias . .
12.2.1. La funcin de proximidad . . . . . . .
12.2.2. La regla discriminante DB . . . . . . .
12.2.3. La regla DB comparada con otras . . .
12.2.4. La regla DB en el caso de muestras . .
12.3. Complementos . . . . . . . . . . . . . . . . . .
y
.
.
.
.
.
.
logstico
. . . . .
. . . . .
. . . . .
. . . . .
. . . . .
. . . . .
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
224
227
227
228
229
230
232
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
235
. 235
. 236
. 237
. 237
. 238
. 239
. 239
. 240
. 240
. 241
. 244
. 245
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
259
. 259
. 260
. 263
. 265
. 266
. 267
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
247
247
249
251
253
254
257
258
NDICE GENERAL
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
273
. 273
. 274
. 275
. 276
. 276
. 277
. 278
. 278
. 282
10
NDICE GENERAL
P ROLOGO
El Anlisis Multivariante es un conjunto de mtodos estadsticos y matemticos, destinados a describir e interpretar los datos que provienen de la observacin de varias variables estadsticas, estudiadas conjuntamente.
Este libro es una presentacin convencional de los principales modelos y
mtodos del Anlisis Multivariante, con referencias a algunas contribuciones
recientes.
La exposicin mantiene un cierto rigor matemtico, compensado con una
clara orientacin aplicada. Todos los mtodos se ilustran con ejemplos, que
justican su aplicabilidad. Para examinar algunos datos y ver ms ejemplos
consltese otras publicaciones relacionadas en la pgina web
www:ub:edu=stat=cuadras=cuad:html
Esta obra tiene como precedentes la monograa Mtodos de Anlisis Factorial(Pub. no. 7, Laboratorio de Clculo, Universidad de Barcelona, 1974),
y el libro Mtodos de Anlisis Multivariante(EUNIBAR, 1981; PPU, 1991;
EUB, 1996, Barcelona).
El autor se reserva el derecho de ampliar el texto e introducir mejoras.
La primera versin apareci en 2007. La segunda versin (2010) contiene
correcciones, ampliaciones y un ndice alfabtico. La tercera versin (2011)
contiene algunas correcciones y nuevas referencias bibliogrcas. La cuarta
versin (2012) incorpora ms secciones y ejemplos.
Captulo 1
DATOS MULTIVARIANTES
1.1.
Introduccin
1.2.
Matrices de datos
12
datos multivariantes es
0
x11
B ..
B .
B
X = B xi1
B .
@ ..
xn1
..
..
x1j
..
.
xij
..
.
xnj
1
x1p
.
..
. .. C
C
C
xip C :
.. C
..
.
. A
xnp
Las las de X se identican con los individuos y las columnas de X con las
variables. Indicaremos:
1. xi la la i-sima de X; que operaremos como un vector columna.
2. Xj la columna j-sima de X:
3. x = (x1 ; : : : ; xj ; : : : ; xp )0 el vector columna de las medias de las variables, siendo
n
1X
xj =
xij :
n i=1
4. La matriz simtrica p
siendo
p de covarianzas
0
s11 s12
B s21 s22
B
S = B ..
.. . .
@ .
.
.
sp1 sp2
1X
=
(xij
n i=1
muestrales
1
s1p
s2p C
C
.. C ;
. A
spp
sjj 0
xj )(xij 0
xj 0 )
p de correlaciones
0
1 r12
B r21 1
B
R = B ..
.. . .
@ .
.
.
rp1 rp2
muestrales
1
r1p
r2p C
C
.. C ;
. A
1
13
sjj 0
;
sj sj 0
1.3.
La matriz de centrado
1
J:
n
Propiedades:
1. Simtrica: H0 = H:
2. Idempotente: H2 = H:
3. Los valores propios de H son cero o uno: Hv = v implica
4. 1 es vector propio de valor propio cero: H1 = 0;
5. El rango es rang(H) =n
1.4.
= 0 1:
10 H = 00 :
1:
Sea X = (xij ) la matriz de datos. La matriz de datos centrados se obtiene restando a cada variable su media: X = (xij xj ). Esta matriz, as
como el vector de medias, las matrices de covarianzas y correlaciones, tienen
expresiones matriciales simples.
1. x0 = n1 10 X:
2. Matriz de datos centrados:
X= X
1x0 = HX:
14
S = n1 X X = n1 X0 HX:
4. Matriz de correlaciones:
R = D 1 SD 1 ;
S = DRD;
(1.1)
1.5.
Variables compuestas
Algunos mtodos de AM consisten en obtener e interpretar combinaciones lineales adecuadas de las variables observables. Una variable compuesta Y es una combinacin lineal de las variables observables con coecientes
a = (a1 ; : : : ; ap )0
Y = a1 X1 +
+ ap Xp :
Si X =[X1 ; : : : ; Xp ] es la matriz de datos, tambin podemos escribir
Y = Xa:
Si Z = b1 X1 +
1. Y = x0 a; Z=x0 b:
2. var(Y ) = a0 Sa, var(Z) = b0 Sb:
3. cov(Y; Z) = a0 Sb:
Ciertas variables compuestas reciben diferentes nombres segn la tcnica multivariante: componentes principales, variables cannicas, funciones
discriminantes, etc. Uno de los objetivos del Anlisis Multivariante es encontrar variables compuestas adecuadas que expliquen aspectos relevantes de los
datos.
1.6.
Transformaciones lineales
es
Y = XT:
Las columnas Y1 ; : : : ; Yq de Y son las variables transformadas.
15
Propiedades:
1. y0 =x0 T; donde y es el vector (columna) de medias de Y:
2. SY = T0 ST; donde SY es la matriz de covarianzas de Y:
Demost.:
y0 = n1 10 Y = n1 10 XT = x0 T: SY = n1 Y0 HY = n1 T0 X0 HXT = T0 ST.
1.7.
Teorema de la dimensin
0;
r
X
i=1
Entonces
var(Xj
Pr
i=1
ai sji ;
sji =
r
X
ai0 sii0 :
i0 =1
P
P
ai Xi ) = sjj + ri;i0 =1 ai ai0 sii0 2 ri=1 ai sji
P
P
P
P
= Pri=1 ai sji + Pri=1 ai ( ri0 =1 P
ai0 sii0 ) 2 ri=1 ai sji
= ri=1 ai sji + ri=1 ai sji 2 ri=1 ai sji
= 0:
16
Por lo tanto
Xj
r
X
ai Xi = c =) Xj = c +
i=1
r
X
ai Xi
i=1
Corolario 1.7.2 Si todas las variables tienen varianza positiva (es decir,
ninguna se reduce a una constante) y r = rang(R)
p; hay r variables
linealmente independientes y las otras p r son combinacin lineal de estas
r variables.
Demost.: De (1.1) deducimos que r = rang(R) = rang(S):
1.8.
p:
b) Variacin total:
tr(S) =
Una medida de dependencia global debe ser funcin de la matriz de correlaciones R: Un coeciente de dependencia es
2
=1
jRj;
que verica:
2
1. 0
1:
2.
3.
1.9. DISTANCIAS
17
Demost.:
1. Sean 1 ; : : : ; p los valores propios de R. Si g y a son las medias geomtrica y aritmtica de p nmeros positivos, se verica g a: Entonces, de
tr(R) =p
(jRj)1=p = (
1=p
p)
p )=p
=1
1.9.
Distancias
v
u p
uX
dE (i; j) = t (xih
xjh )2 :
(1.2)
xjh )2 =shh ;
(1.3)
h=1
2. Distancia de K. Pearson
v
u p
uX
dP (i; j) = t (xih
h=1
(xi
xj )0 S 1 (xi
xj ):
(1.4)
18
Observaciones
Un cambio de escala de una variable Xj es una transformacin Yj = Xj ;
donde es una constante. La distancia dM es muy adecuada en AM debido
a que verica:
a) dE supone implcitamente que las variables son incorrelacionadas y no es
invariante por cambios de escala.
b) dP tambin supone que las variables estn incorrelacionadas pero es invariante por cambios de escala.
c) dM tiene en cuenta las correlaciones entre las variables y es invariante por
transformaciones lineales no singulares de las variables, en particular
cambios de escala.
Las distancias dE y dP son casos particulares de dM cuando la matriz de
covarianzas es la identidad Ip y diag(S), respectivamente. En efecto:
dE (i; j)2 = (xi
xj )0 (xi
xj )0 [diag(S)] 1 (xi
xj );
xj ):
x)0 S 1 (xi
x):
19
1.10.
1.10.1.
Descomposicin singular
sr
sr+1 =
= sn = 0;
n ortogonal. Se verica:
1.10.2.
Inversa generalizada
= A 1 A = In :
(AA )0 = AA
(A A)0 = A A;
20
n
A = VDs U0
1.10.3.
A ) (A
A )] =
m X
n
X
(aij
aij )2 = mnimo.
i=1 j=1
0;42
0;61
0;19
0;63
1
10
0;52 0
10;14
0
0
C
0;41 C @
0
2;295
0 A@
0;38 A
0
0
1;388
0;63
y la aproximacin de rango 2 es
0
0;945
B 2;015
A =B
@ 3;984
2;936
siendo (redondeando a
0
0;35
0;42
B 0;16
0;61
A =B
@ 0;86
0;19
0;33
0;63
2;480
0;397
5;320
1;386
21
0;50
0;86
0;06
0;59
0;40
0;70
1
2;534
0;587 C
C;
5;628 A
1;652
dos decimales)
1
10
0;52 0
10;14 0 0
C
0;41 C @
0
2;29 0 A @
0;38 A
0
0 0
0;63
0;50
0;86
0;06
0;59
0;40
0;70
1
0;62
0;31 A :
0;71
1.10.4.
Transformacin procrustes
1
0;62
0;31 A ;
0;71
(1.7)
22
T = UV0 ;
c=y
bxT:
2
PXY
= [tr(X Y Y X)1=2 ]2 =[tr(X X)tr(Y Y)]:
(1.8)
Este coeciente se puede expresar tambin en trminos de matrices de covarianzas, pero no es invariante por transformaciones lineales aplicadas por
separado a X y a Y.
Si p = 1 el anlisis procrustes equivale a la regresin lineal y = bx +
y bx; siendo b = sxy =s2x y PXY = sxy =(sx sy ) los coecientes de regresin y
correlacin ordinarios.
1.11. EJEMPLOS
23
N
72
60
56
41
32
30
39
42
37
33
32
63
54
47
E
66
53
57
29
32
35
39
43
40
29
30
45
46
51
S W
76 77
66 63
64 58
36 38
35 36
34 26
31 27
31 25
31 25
27 36
34 28
74 63
60 52
52 43
N
91
56
79
81
78
46
39
32
60
35
39
50
43
48
E
S W
79 100 75
68 47 50
65 70 61
80 68 58
55 67 60
38 37 38
35 34 37
30 30 32
50 67 54
37 48 39
36 39 31
34 37 40
37 39 50
54 57 43
1.11.
Ejemplos
Ejemplo 1.11.1
La Tabla 1.1 contiene los datos de n = 28 alcornoques y p = 4 variables,
que miden los depsitos de corcho (en centigramos) en cada uno de los cuatro
puntos cardinales: N, E, S, W.
1
280 216 278 218
B
212 221 165 C
C;
S=B
@
337 250 A
218
1
1 0;885 0;905 0;883
B
1
0;826 0;769 C
C:
R=B
@
1
0;923 A
1
0
24
Media
8.857
0.857
1.000
Varianza
124.1
61.27
99.5
(N + S pE W )=2
(N S)= p2
(E W )= 2
Media Varianza:
4.428
31.03
0.606
30.63
0.707
49.75
1.11. EJEMPLOS
25
Visualizacin de datos
En los captulos siguientes veremos mtodos y tcnicas de visualizacin de
datos multivariantes. Como norma general es conveniente, antes de realizar
el anlisis, examinar y revisar los datos. La Figura 1.1 contiene un grco
que permite visualizar la distribucin de las 4 variables de la Tabla 1.1 y las
relaciones lineales, o regresin lineal, entre cada par de variables.
Ejemplo 1.11.2
Se consideran n = 25 familias y se miden las variables (vase la Tabla
1.2):
X1 = long. cabeza primer hijo, X2 = anchura cabeza primer hijo,
Y1 = long. cabeza segundo hijo, Y2 = anchura cabeza segundo hijo.
Efectuando un anlisis procrustes para estudiar el grado de coincidencia
de la matriz X (dos primeras columnas) con la matriz Y (tercera y cuarta
columna), se obtienen los vectores de medias
x = (187;4; 151;12);
y=(183;32; 149;36);
0;9971 0;0761
0;0761 0;9971
Y2
145
152
149
149
Y1
185;6
188;8
178;9
180;0
2
El coeciente procrustes es PXY
= 0;5508:
Y2
152;3
148;2
146;8
150;4
26
X2
155
149
148
153
144
157
150
159
152
150
161
147
153
Y1
179
201
185
188
171
192
190
189
197
187
179
183
174
Y2
145
152
149
149
142
152
149
152
159
151
158
147
150
X1
202
194
163
195
186
181
175
192
174
176
197
190
X2
160
154
137
155
153
145
140
154
143
139
167
153
Y1
190
188
161
183
173
182
165
185
178
176
200
187
Y2
159
151
130
158
148
146
137
152
147
143
158
150
1.12.
Complementos
La descomposicin en valores singulares de una matriz es una idea sencilla pero muy til en Anlisis Multivariante. Generaliza los vectores y valores
propios de una matriz, permite calcular inversas generalizadas y es fundamental en Anlisis de Correlacin Cannica y en Anlisis de Correspondencias.
Vase Golub y Reinsch (1970).
La aproximacin de una matriz por otra de rango inferior se debe a Eckart
y Young (1936), y es la versin matricial de la reduccin de la dimensin,
uno de los objetivos tpicos del Anlisis Multivariante.
La transformacin procrustes fue estudiada independientemente por N.
Cli y P. H. Schonemann en 1966. Permite transformar una matriz en otra
y estudiar el grado de coincidencia entre dos matrices de datos, mediante
una generalizacin multivariante de la ecuacin de regresin. Vase Gower
(1971b), Mardia (1979) y Seber (1984).
Captulo 2
NORMALIDAD
MULTIVARIANTE
2.1.
Introduccin
)(X
27
)0 ]:
28
En este captulo introducimos y estudiamos la distribucin normal multivariante y tres distribuciones relacionadas con las muestras multivariantes:
Wishart, Hotelling y Wilks.
2.2.
2.2.1.
Denicin
1
)= p e
2
1
(x
2
)2 =
( 2 ) 1=2
p
e
2
1
(x
2
1
2 (x
(2.1)
Evidentemente se verica:
X=
+ Y
donde Y
(2.2)
N (0; 1);
1
(x
2
)0
1 (x
(2.3)
siendo x = (x1 ; : : : ; xp )0 ; = ( 1 ; : : : ; p )0 y
= ( ij ) una matriz denida
positiva, que como veremos, es la matriz de covarianzas. Por otra parte,
(2.2) sugiere denir la distribucin X = (X1 ; : : : ; Xp )0 Np ( ; ) como una
combinacin lineal de p variables Y1 ; : : : ; Yp independientes con distribucin
N (0; 1)
X1 = 1 + a11 Y1 +
+ a1p Yp ;
..
..
(2.4)
.
.
Xp = p + ap1 Y1 +
+ app Yp ;
que podemos escribir como
X = +AY
siendo Y =(Y1 ; : : : ; Yp )0 y A = (aij ) una matriz p
(2.5)
p que verica AA0 = :
29
@y
;
@x
@y
@x
))
el jacobiano del
@y
= jA 1 j
@x
Pero
= (A 1 )0 (A 1 ) y por lo tanto
y0 y = (x
)0 (A 1 )0 (A 1 )(x
)0
) = (x
2.2.2.
(2.6)
(x
):
(2.7)
obtenemos (2.3).
Propiedades
)(X
)0 ]=E(AYY0 A0 ) = AIp A0 = :
N ( i;
ii );
i = 1; : : : ; p:
+ bp Xp
30
1;
11 )
f (xp ;
p;
pp )
U = (x
(x
es
con p grados de libertad. En efecto, de (2.5) U = Y0 Y =
Ppji-cuadrado
2
i=1 Yi es suma de los cuadrados de p variables N (0; 1) independientes.
2.2.3.
Caso bivariante
1<
2 1
1 1
21
1p
2
2
1
(x1
2
1
1)
(x1
1)
(x2
2)
+ (x2
2
2
2)
g];
= 0:
2
i ); i
= 1; 2.
1
p
2 (1
2
2)
exp[
[(x2
2+
( 2 = 1 )(x1
2
2)
2 2 (1
( 2 = 1 )(x1
1 );
2
1 )]
2
2 (1
];
2
)):
31
2.3.
Distribucin de Wishart
p 1)
exp[
siendo
c
= 2np=2
p(p 1)=4
j jn=2
p
Q
i=1
1
tr(
2
Q)];
1
( (n + 1
2
i)):
32
Propiedades:
1. Si Q1 ; Q2 son independientes Wishart Wp ( ; m); Wp ( ; n); entonces la
suma Q1 + Q2 es tambin Wishart Wp ( ; m + n):
2. Si Q es Wishart Wp ( ; n); y separamos las variables en dos conjuntos
y consideramos las particiones correspondientes de las matrices y Q
=
entonces Q11 es Wp (
11
12
21
22
11 ; n)
Q=
y Q22 es Wp (
Q11 Q12
Q21 Q22
22 ; n):
3. Si Q es Wishart Wp ( ; n) y T es una matriz p q de constantes, entonces T0 QT es Wq (T0 T; n): En particular, si t es un vector, entonces
t0 Qt
t0 t
2.4.
es
2
n:
Distribucin de Hotelling
Indiquemos por Fnm la distribucin F de Fisher-Snedecor , con m y n grados de libertad en el numerador y denominador, respectivamente. El smbolo
signica distribuido como.
La distribucin de Hotelling es una generalizacin multivariante de la
distribucin t de Student.
Denicin
Si y es Np (0; I); Q es Wishart Wp (I; m) y adems y; Q son independientes,
entonces
T 2 = my0 Q 1 y
sigue la distribucin T 2 de Hotelling, que se indica por T 2 (p; m):
Propiedades:
1. Si x es Np ( ; ) independiente de M que es Wp ( ; m), entonces
T 2 = m(x
)0 M 1 (x
T 2 (p; m):
33
)0 S 1 (x
1)(x
n
p
p
(x
T 2 (p; n
)0 S 1 (x
1);
Fnp p :
T2 =
y por lo tanto
n1 n2
b 1 (x
(x y)0 S
n1 + n2
n1 + n2 1 p 2
T
(n1 + n2 2)p
2.5.
y)
T 2 (p; n1 + n2
Fnp1 +n2
2)
1 p:
Distribucin de Wilks
34
Denicin
Si las matrices A; B de orden p p son independientes Wishart Wp ( ; m);
Wp ( ; n), respectivamente, con m p; la distribucin del cociente de determinantes
jAj
=
jA + Bj
es, por denicin, la distribucin lambda de Wilks, que indicaremos por
(p; m; n):
Propiedades:
1. 0
1 y adems
no depende de
estudiarla suponiendo = I:
donde Ui es beta
B( 21 (m + i
p);
1
p):
2
p):
m
n
Fmn
m p+1
p
Fmp
p
1p
p
1p
m 1
n
m p+1
p
(p = 1)
p+1
2n
F2(m
2p
F2(m
equivale a la distribucin
(n = 1)
1)
(p = 2)
p+1)
(n = 2)
(2.8)
35
y 0.20
0.15
0.10
0.05
0.00
0.0
0.2
0.4
0.6
0.8
1.0
2.6.
2
2
A. Probemos la relacin entre y F cuando p = 1: Sean A
n
m; B
independientes. Entonces = A=(A + B)
(1; m; n) y F = (n=m)A=B =
(n=m)F
Fnm : Tenemos que
= (A=B)=(A=B + 1) = F =(1 + F ); luego
F = =(1 ) ) (n=m) =(1 ) Fnm : Mas si F Fnm entonces 1=F Fmn :
Hemos demostrado que:
(1; m; n) m
(1; m; n) n
Fmn :
(2.10)
yj;
que implica
1+y0 Q
y = jQ + yy0 j=jQj = 1= ;
36
2.7.
Distribucin multinomial
+ pk = 1:
(2.11)
+ fk = n:
n!
f1 !
fk !
pf11
pfkk :
pp0 ): Es decir:
cii = npi (1 pi );
cij = npi pj
si i 6= j:
Pue sto que C1 = 0; la matriz C es singular. La singularidad se debe a
que se verica (2.11). Ua g-inversa de C es (vase Seccin 1.10):
C =
Puesto que C(I
1
diag(p1 1 ; : : : ; pk 1 ):
n
1
diag(p1 1 ; : : : ; pk 1 )(I
n
110 ):
(2.12)
2.8.
37
Sea H(x; y) la funcin de distribucin bivariante de dos variables aleatorias (X; Y ): La funcin H es
H(x; y) = P (X
x; Y
y):
x) = H(x; 1);
y) = H(1; y):
1; 0g;
y demostr la desigualdad
H (x; y)
H(x; y)
H + (x; y):
38
y demostrado la desigualdad
+
donde
; y + son las correlaciones entre X; Y cuando la distribucin
bivariante es H ; H y H + ; respectivamente.
Posteriormente, diversos autores han propuesto distribuciones bivariantes
paramtricas a partir de las marginales F; G, que en algunos casos contienen a
H ; H 0 y H + : Escribiendo F; G; H para indicar F (x); G(y); H(x; y); algunas
familias son:
1. Farlie-Gumbel-Morgenstern:
H = F G[1 + (1
F )(1
G)];
1:
2. Clayton-Oakes:
H = [F
+G
1]
1=
< 1:
3. Ali-Mikhail-Haq:
H = F G=[1
(1
F )(1
G)]
1:
4. Cuadras-Aug:
H = (m nfF; Gg) (F G)1 ;
1:
5. Familia de correlacin:
H (x; y) = F (m nfx; yg) + (1
siendo J(y) = [G(y)
variante.
2.9.
F (y))=(1
)F (x)J(y);
1;
Complementos
2.9. COMPLEMENTOS
39
1=2
g((x
)0
(x
));
40
Captulo 3
INFERENCIA
MULTIVARIANTE
3.1.
Conceptos bsicos
L(X; ) =
n
Y
f (xi ; ):
i=1
42
3.2.
n=2
exp
1X
(xi
2 i=1
n
)0
(xi
x: Se verica
)0
(xi
) =
Pn
i=1
= tr[
di 0 1 di + n(x
)0 1 (x
)
P
n
1
0
)0 1 (x
i=1 di di ] + n(x
log L
@
=n
log L =
n
2
(x
S
y de
)0
tenemos
) = 0;
(x
)(x
)0 ] = 0:
(x
):
):
43
son pues
b = S:
)n
(x
)0 ) = n
(x
3.3.
3.3.1.
0
0)
(x
0)
2
p:
T 2 (p; n
1); el
(3.1)
44
3.3.2.
2:
1. Si
es conocida, como (x y) es Np (
tadstico de contraste es
n1 n2
(x y)0
n1 + n2
2. Si
2 ; (1=n1
(x
2
p:
y)
b = (n1 S1 + n2 S2 )=(n1 + n2
siendo S
insesgada) de :
3.3.3.
+ 1=n2 ) ) el es-
y)
Fnp1 +n2
1 p:
2) la estimacin centrada (o
Comparacin de medias
(3.2)
1X
x=
ni xi ;
n i=1
siendo Si = ni 1 X0i HXi ; n =
Pg
i=1
b =
S
ni :
1
n
g
X
i=1
n i Si ;
45
g:
Se verica que W = (n
b y la relacin:
g)S
T = B + W:
Wp ( ; g
1); W
Wp ( ; n
g); T
Wp ( ; n
1);
jWj
jW + Bj
(p; n
g; g
1):
3.4.
Teorema de Cochran
Algunos resultados de la seccin anterior son una consecuencia del Teorema 3.4.2, conocido como teorema de Cochran.
Lema 3.4.1 Sea X(n p) una matriz de datos Np ( ; ) y u; v dos vectores
n 1 tales que u0 u = v0 v =1; u0 v =0:
1. Si
= 0 entonces y0 = u0 X es Np (0; ):
2. y0 = u0 X es independiente de z0 = v0 X:
46
0
Anlogamente, si v = (v1 ; : : : ; vn )0 ; z0 = vP
X es tambin normal.
P
Las esperanzas de y; z son: E(y) = ( ni=1 ui ) ; E(z) = ( ni=1 vi ) : Las
covarianzas entre y y z son:
P
)(xj
)0 ]
E[(yPE(y))(z E(z))0 ]= ni=1 ui vj E[(xi
)(xj
)0 ] = u0 v = 0;
= ni=1 ui vi E[(xi
n)
n
X
0
i ui ui
i=1
i ui :
Entonces
u0n X
X CX =
i ui
r
X
47
siendo
yi yi0
Wp ( ; r):
i=1
P
C1 =P ni=1
C2 = nj=1
0
i (1)ui ui ;
0
j (2)vj vj ;
P
X0 C1 X = P
X0 C2 X =
C1 C2 = 0 ) i (1) j (2)u0i vj = 0;
0
i (1)yi yi ;
0
j (2)zj zj ;
8i; j:
1. La media x es Np ( ; =n):
2. La matriz de covarianzas S = X0 HX=n verica nS
Wp ( ; n
1):
48
Wp ( ; g
1);
Wp ( ; n
g):
Sean
11 = P
(1; : : : ; 1; 0; : : : ; 0); : : : ; 1g = (0; : : : 0; 1; : : : 1);
1 = gi=1 1i = (1; : : : ; 1; : : : ; 1; : : : ; 1);
C1 C2 = 0;
C22 = C2 ;
C21 = C1 ;
rang(C1 ) = n g;
rang(C2 ) = g 1;
W = X0 C1 X;
B = X0 C2 X:
El resultado es consecuencia de los Teoremas 3.4.2 y 3.4.3.
3.5.
3.5.1.
49
r: Sea 0
una subregin paramtrica de dimensin s, y planteamos el
test de hiptesis
H0 :
vs H1 :
0:
n
Y
f (x; )
i=1
y sea b el estimador mximo verosmil de 2 : Consideremos anlogamente b0 , el estimador de mxima verosimilitud de 2 0 : Tenemos que b
maximiza L sin restricciones y b0 maximiza L cuando se impone la condicin
de que pertenezca a 0 : La razn de verosimilitud es el estadstico
R
L(x1 ; : : : ; xn ; b0 )
;
L(x1 ; : : : ; xn ; b)
que satisface 0
1: Aceptamos la hiptesis H0 si R es prxima a 1 y
R
aceptamos la alternativa H1 si R es signicativamente prximo a 0.
El test basado en R tiene muchas aplicaciones en AM, pero en la mayora
de los casos su distribucin es desconocida. Existe un importante resultado
(atribuido a Wilks), que dice que la distribucin de -2 veces el logaritmo de
s g.l. cuando el tamao de la muestra n es grande.
R es ji-cuadrado con r
Teorema 3.5.1 Bajo ciertas condiciones de regularidad, se verica:
2 log
donde s = dim(
0)
es asintticamente
2
r s;
< r = dim( ).
2 log
Test de independencia
Si (X1 ; : : : ; Xp ) es N ( ; ); y queremos hacer un test sobre la independencia estocstica de las variables, entonces
0
= f( ; 0 )g; s = 2p;
= f( ; )g; r = p + p(p + 1)=2;
50
2p = p(p
1)=2 g.l.
I;
n log jRj
0; y
= f( ; )g;
= f( 1 ; : : : ;
s = p + p(p + 1)=2;
);
)g;
r
= gp + p(p + 1)=2;
g
n=2
3.5.2.
+ ng . Por lo tanto
1)p g.l. cuando la
Principio de unin-interseccin
51
H1 = [H1 (a):
Demost.: (x
0)
t (a) = (n
Sea A = (x
0 )(x
Av1 = 1 Sv1 entonces
0
0)
1)
a0 (x
0
0) a
0 )(x
a0 Sa
matriz de orden p
p y rango 1: Si v1 satisface
v0 Av
:
1
v v0 Sv
0
1
0 ) v1 = 1 Sv1 resulta que S (x
= max
De (x
0 )(x
y de la identidad
S 1 (x
vemos que
0 )(x
1
0
1
0 ) (S (x
0 ))
0
1
0 ) S (x
= (x
T 2 = maxt2 (a) = (n
a
= (x
0 ); v1
1)(x
0 )(x
0
1
0 ) S (x
= S 1 (x
0
1
0 ) S (x
0 ):
0 )(S
0
0 ) v1
(x
Por lo tanto
0 ):
1 v1
0 ))
52
A. pseudofascinata
n2 = 6
X1 X2
1;14 1;78
1;20 1;86
1;18 1;96
1;30 1;96
1;26 2;00
1;28 2;00
Tabla 3.1: X1 = long. antena, X2 = long. ala (en mm), para dos muestras de
tamao n1 = 9 y n2 = 6;.
3.6.
Ejemplos
Ejemplo 3.6.1
Se desean comparar dos especies de moscas de agua: Amerohelea fascinata, Amerohelea pseudofascinata. En relacin a las variables X1 = long.
antena, X2 = long. ala (en mm), para dos muestras de tamaos n1 = 9 y
n2 = 6; se han obtenido las matrices de datos de la Tabla 3.1.
y = (122;67; 192;67):
Matrices de covarianzas:
S1 =
98;00 80;83
80;83 167;78
S2 =
39;47 43;47
43;47 77;87
75;49 66;46
66;46 133;81
3.6. EJEMPLOS
53
b 1 (x
y)S
y)0 = 15;52:
6 9 2
D = 55;87
6+9
9+6 1 2 2
T = 25;78
2(9 + 6 2)
2
F12
Decisin: rechazamos la hiptesis de que las dos especies son iguales (Nivel
de signicacin=0;001):
Ejemplo 3.6.2
Comparacin de las especies virginica, versicolor, setosa de ores del
gnero Iris (datos de R. A. Fisher, Tabla 3.2), respecto a las variables que
miden longitud y anchura de spalos y ptalos:
X1 ; X2 = long:; anch:(sepalos); X3 ; X4 = long:; anch:(petalos):
1
C
C
A
54
X1
5.1
4.9
4.7
4.6
5.0
5.4
4.6
5.0
4.4
4.9
5.4
4.8
4.8
4.3
5.8
5.7
5.4
5.1
5.7
5.1
5.4
5.1
4.6
5.1
4.8
5.0
5.0
5.2
5.2
4.7
4.8
5.4
5.2
5.5
4.9
5.0
5.5
4.9
4.4
5.1
5.0
4.5
4.4
5.0
5.1
4.8
5.1
4.6
5.3
5.0
X2
3.5
3.0
3.2
3.1
3.6
3.9
3.4
3.4
2.9
3.1
3.7
3.4
3.0
3.0
4.0
4.4
3.9
3.5
3.8
3.8
3.4
3.7
3.6
3.3
3.4
3.0
3.4
3.5
3.4
3.2
3.1
3.4
4.1
4.2
3.1
3.2
3.5
3.6
3.0
3.4
3.5
2.3
3.2
3.5
3.8
3.0
3.8
3.2
3.7
3.3
X3
1.4
1.4
1.3
1.5
1.4
1.7
1.4
1.5
1.4
1.5
1.5
1.6
1.4
1.1
1.2
1.5
1.3
1.4
1.7
1.5
1.7
1.5
1.0
1.7
1.9
1.6
1.6
1.5
1.4
1.6
1.6
1.5
1.5
1.4
1.5
1.2
1.3
1.4
1.3
1.5
1.3
1.3
1.3
1.6
1.9
1.4
1.6
1.4
1.5
1.4
X4
0.2
0.2
0.2
0.2
0.2
0.4
0.3
0.2
0.2
0.1
0.2
0.2
0.1
0.1
0.2
0.4
0.4
0.3
0.3
0.3
0.2
0.4
0.2
0.5
0.2
0.2
0.4
0.2
0.2
0.2
0.2
0.4
0.1
0.2
0.2
0.2
0.2
0.1
0.2
0.2
0.3
0.3
0.2
0.6
0.4
0.3
0.2
0.2
0.2
0.2
X1
7.0
6.4
6.9
5.5
6.5
5.7
6.3
4.9
6.6
5.2
5.0
5.9
6.0
6.1
5.6
6.7
5.6
5.8
6.2
5.6
5.9
6.1
6.3
6.1
6.4
6.6
6.8
6.7
6.0
5.7
5.5
5.5
5.8
6.0
5.4
6.0
6.7
6.3
5.6
5.5
5.5
6.1
5.8
5.0
5.6
5.7
5.7
6.2
5.1
5.7
X2
3.2
3.2
3.1
2.3
2.8
2.8
3.3
2.4
2.9
2.7
2.0
3.0
2.2
2.9
2.9
3.1
3.0
2.7
2.2
2.5
3.2
2.8
2.5
2.8
2.9
3.0
2.8
3.0
2.9
2.6
2.4
2.4
2.7
2.7
3.0
3.4
3.1
2.3
3.0
2.5
2.6
3.0
2.6
2.3
2.7
3.0
2.9
2.9
2.5
2.8
X3
4.7
4.5
4.9
4.0
4.6
4.5
4.7
3.3
4.6
3.9
3.5
4.2
4.0
4.7
3.6
4.4
4.5
4.1
4.5
3.9
4.8
4.0
4.9
4.7
4.3
4.4
4.8
5.0
4.5
3.5
3.8
3.7
3.9
5.1
4.5
4.5
4.7
4.4
4.1
4.0
4.4
4.6
4.0
3.3
4.2
4.2
4.2
4.3
3.0
4.1
X4
1.4
1.5
1.5
1.3
1.5
1.3
1.6
1.0
1.3
1.4
1.0
1.5
1.0
1.4
1.3
1.4
1.5
1.0
1.5
1.1
1.8
1.3
1.5
1.2
1.3
1.4
1.4
1.7
1.5
1.0
1.1
1.0
1.2
1.6
1.5
1.6
1.5
1.3
1.3
1.3
1.2
1.4
1.2
1.0
1.3
1.2
1.3
1.3
1.1
1.3
X1
6.3
5.8
7.1
6.3
6.5
7.6
4.9
7.3
6.7
7.2
6.5
6.4
6.8
5.7
5.8
6.4
6.5
7.7
7.7
6.0
6.9
5.6
7.7
6.3
6.7
7.2
6.2
6.1
6.4
7.2
7.4
7.9
6.4
6.3
6.1
7.7
6.3
6.4
6.0
6.9
6.7
6.9
5.8
6.8
6.7
6.7
6.3
6.5
6.2
5.9
X2
3.3
2.7
3.0
2.9
3.0
3.0
2.5
2.9
2.5
3.6
3.2
2.7
3.0
2.5
2.8
3.2
3.0
3.8
2.6
2.2
3.2
2.8
2.8
2.7
3.3
3.2
2.8
3.0
2.8
3.0
2.8
3.8
2.8
2.8
2.6
3.0
3.4
3.1
3.0
3.1
3.1
3.1
2.7
3.2
3.3
3.0
2.5
3.0
3.4
3.0
X3
6.0
5.1
5.9
5.6
5.8
6.6
4.5
6.3
5.8
6.1
5.1
5.3
5.5
5.0
5.1
5.3
5.5
6.7
6.9
5.0
5.7
4.9
6.7
4.9
5.7
6.0
4.8
4.9
5.6
5.8
6.1
6.4
5.6
5.1
5.6
6.1
5.6
5.5
4.8
5.4
5.6
5.1
5.1
5.9
5.7
5.2
5.0
5.2
5.4
5.1
X4
2.5
1.9
2.1
1.8
2.2
2.1
1.7
1.8
1.8
2.5
2.0
1.9
2.1
2.0
2.4
2.3
1.8
2.2
2.3
1.5
2.3
2.0
2.0
1.8
2.1
1.8
1.8
1.8
2.1
1.6
1.9
2.0
2.2
1.5
1.4
2.3
2.4
1.8
1.8
2.1
2.4
2.3
1.9
2.3
2.5
2.3
1.9
2.0
2.3
1.8
3.6. EJEMPLOS
55
Lambda de Wilks:
=
jWj
= 0;02344
jW + Bj
(4; 147; 2)
8
F288
Decisin: las diferencias entre las tres especies son muy signicativas.
Ejemplo 3.6.3
Consideremos los siguientes datos (tamaos muestrales, medias, desviaciones tpicas, matrices de covarianzas) de p = 2 variables X (longitud del
fmur), Y (longitud del hmero), obtenidas sobre dos poblaciones (Angloindios, Indios) .
Medias
n1 = 27
n2 = 20
Diferencia
Desv. tpicas
X
460.4
444.3
16.1
23.7
Y
335.1
323.2
11.9
18.2
Matriz covarianzas
b = 561;7 374;2
S
374;2 331;24
Correlacin: r = 0;867
27 20
0;4777 = 5;488
27 + 20
27 + 20 1 2
5;488 = 2;685 (2 y 44 g.l.) (p = 0;079):
(27 + 20 2)2
56
Esta F no es signicativa al nivel 0.05. Por lo tanto ambos contrastes univariantes resultan signicativos, pero el test bivariante no, contradiciendo
la creencia de que un test multivariante debera proporcionar mayor signicacin que un test univariante.
Interpretemos geomtricamente esta paradoja (conocida como paradoja
de Rao). Con nivel de signicacin 0,05, y aplicando el test T 2 de Hotelling,
aceptaremos la hiptesis nula bivariante si el vector diferencia d = (x y)0
pertenece a la elipse
n1 n2 0
d
n1 + n2
561; 7 374; 2
374; 2 331; 24
3;2;
3;2:
0; 143x =
2;
Variable y :
0; 1862y =
2:
En la Figura 3.1 podemos visualizar la paradoja. Los valores de la diferencia que estn a la derecha de la recta vertical rx son signicativos para
la variable x: Anlogamente los que estn por encima de la recta horizontal
ry lo son para la y: Por otra parte, todos los valores que estn fuera de la
elipse (regin F) son signicativos para las dos variables. Hay casos en que
x; y por separado no son signicativos, pero conjuntamente s. No obstante,
existe una pequea regin por encima de ry y a la derecha de rx que cae
dentro de la elipse. Para los datos del ejemplo, se obtiene el punto sealado
con el signo +, para el cual x e y son signicativas pero no (x; y): As x e y
son signicativas si el punto se encuentra en el cuadrante A. (Una simetra
con respecto al origen nos permitira considerar otras dos rectas y la regin
B).
57
Pues bien, el test con x y el test con y por separado, son contrastes t
distintos del test T 2 empleado con (x; y); equivalente a una F. Tales contrastes no tienen por qu dar resultados compatibles. Las probabilidades de
las regiones de rechazo son distintas. Adems, la potencia del test con (x; y)
es superior, puesto que la probabilidad de la regin F es mayor que las probabilidades sumadas de las regiones A y B.
Para ms ejemplos de comparacin de medias, consltese Baillo y Gran
(2008).
3.7.
Anlisis de perles
Esta hiptesis slo tiene sentido si las variables observables son comparables.
58
1
B 0
C=B
@
0
1
1
0
1
1)
p
1
0
0 C
C:
A
1
La hiptesis es equivalente a
H0 : C = 0:
Aceptar H0 es lo mismo que decir que las medias de las p 1 variables
X1 X2 ; X2 X3 ; : : : ; Xp 1 Xp son iguales a cero. Por lo tanto aplicaremos
el test de la T 2 de Hotelling a la matriz de datos Y = XC: Bajo la hiptesis
nula
b 0 ) 1 (Cx)
T 2 = (n 1)(Cx)0 (CSC0 ) 1 (Cx) = n(Cx)0 (CSC
T 2 (p 1; n 1);
p+1
b 0 ) 1 (Cx)
(Cx)0 (CSC
p 1
Fnp
1
p+1
(3.3)
b 0 ) 1 Cx = 20;74
T 2 = n(Cx)0 (CSC
Bajo la hiptesis nula, sigue una T 2 (3; 23): Convertida en una F se obtiene
F (3; 25) = [25=(27 3)]T 2 = 6;40: El valor crtico al nivel 0;05 es 2;99: Hay
diferencias signicativas a lo largo de las cuatro direcciones cardinales.
3.8. COMPLEMENTOS
3.8.
59
Complementos
(bi
2
i) ;
i=1
60
Captulo 4
ANLISIS DE
CORRELACIN CANNICA
4.1.
Introduccin
En este captulo estudiamos la relacin multivariante entre vectores aleatorios. Introducimos y estudiamos las correlaciones cannicas, que son generalizaciones de las correlaciones simple y mltiple.
Tenemos tres posibilidades para relacionar dos variables:
La correlacin simple si X; Y son dos v.a.
La correlacin mltiple si Y es una v.a. y X = (X1 ; : : : ; Xp ) es un vector
aleatorio.
La correlacin cannica si X = (X1 ; : : : ; Xp ) e Y = (Y1 ; : : : ; Yq ) son dos
vectores aleatorios.
4.2.
Correlacin mltiple
Queremos relacionar una variable respuesta Y con p variables cuantitativas explicativas X1 ; : : : ; Xp ; que suponemos centradas. El modelo de regresin
mltiple consiste en encontrar la combinacin lineal
Yb =
1 X1
+
61
p Xp
62
Demost.:
(4.1)
( ) = E(Y Yb )2
= E(Y )2 + E(Yb )2
= var(Y ) + 0
( )=2
2E(Y Yb )
2 0
e igualando a 0
2 = 0:
La variable prediccin es Yb = X b = b1 X1 +
Y = Yb + Ye ;
+ bp Xp : Si ponemos
Se verica:
1. 0
1:
2. R = 1 si Y es combinacin lineal de X1 ; : : : ; Xp :
3. R = 0 si Y est incorrelacionada con cada una de las variables Xi :
Teorema 4.2.2 La variable prediccin Yb ; residual Ye y la correlacin mltiple R cumplen:
1. Yb e Ye son variables incorrelacionadas.
63
b = : En efecto,
Demost.: 1) es consecuencia de
0
cov(Yb ; Ye ) = E(Yb Ye ) = E( b X0 (Y
0
b 0 b = 0:
=b
b 0 X))
obtenemos
p b
i=1 i Xi )
R2 =
4.3.
p b
i=1 i i
0
0
= b = b b = var(Yb );
cov2 (Y; Yb )
var(Yb )
=
:
var(Y )
var(Y )var(Yb )
(4.2)
Correlacin cannica
Sean X = (X1 ; : : : ; Xp ); Y = (Y1 ; : : : ; Yq ) dos vectores aleatorios de dimensiones p y q: Planteemos el problema de encontrar dos variables compuestas
U = Xa = a1 X1 +
+ ap Xp ; V = Yb = b1 Y1 +
+ b p Yq ;
X
S11
S21
Y
S12
S22
64
As el problema se reduce a:
maximizar a0 S12 b restringido a a0 S11 a = b0 S22 b =1:
Los vectores de coecientes a; b que cumplen esta condicin son los primeros
vectores cannicos. La mxima correlacin entre U; V es la primera correlacin cannica r1 .
Teorema 4.3.1 Los primeros vectores cannicos satisfacen las ecuaciones
S12 S221 S21 a = S11 a;
S21 S111 S12 b = S22 b:
(4.3)
(a0 S11 a 1)
S11 a = 0;
S21 a
(4.4)
S22 b = 0:
b0 S21 a = b0 S22 b;
1=2
S111 S12 b;
1=2
S221 S21 a;
1;
donde
es el primer valor
65
1=2 0
> rm : Entonces:
k;
k = i; j; y multiplicando
0
i aj S11 ai ;
0
j ai S11 aj :
66
0
0
Restando: ( i
j )ai S11 aj = 0 ) ai S11 aj = 0 ) cor(Ui ; Uj ) = 0:
Por otra parte, expresando (4.3) como
i ai ;
j bj ;
4.4.
0
j )ai S12 bj
0
i bj S21 ai ;
0
j ai S12 bj :
1=2
ai = S11 ui ;
1=2
bi = S22 vi ;
ri =
i:
Demost.:
1=2
1=2
1=2
1=2
=U
U0
y por lo tanto
1=2
1=2
2
i ui
1=2
1=2
1=2
2
i (S11 ui )
4.5.
67
11 ;
12 ;
22 ,
Si queremos decidir cules son signicativas, supongamos normalidad multivariante, indiquemos 0 = 1 y planteemos el test
H0k :
>
k+1
[n
21 )
= 0;
(k = 0; 1; : : : ; m);
k
m
X
Y
1
2
(p + q + 1) +
ri ] log[
(1
2
i=1
i=k+1
ri2 )
4.6.
68
4.6.1.
Razn de verosimilitud
jSj
jRj
=
;
jS11 jjS22 j
jR11 jjR22 j
4.6.2.
m
Y
=
(1
ri2 ):
i=1
+ ap Xp ;V = b1 Y1 +
a0 12 b
p
a 11 a b0
22 b
+ b p Yq :
a0 S12 b
p
:
a0 S11 a b0 S22 b
= 0;
H1 :
> 0:
4.7. EJEMPLOS
4.7.
69
Ejemplos
C
C:
A
R11 =
1
0;8164
0;8164
1
R12 =
0;7006 0;7640
0;6208 0;8210
R22 =
1
0;7683
0;7683
1
; R21 =
0;7006 0;6208
0;7640 0;8210
= 0;7032,
R11 j = 0
r2 = 0;3256:
70
jRj
= 0;2653
jR11 jjR22 j
(2; 22; 2)
0
1
=1> 1=
> 2 = 0;
= 0;
L0 = 28;52 (4 g.l.),
L1 = 2;41 (2 g.l.).
Podemos rechazar H00 y aceptar H01 : Solamente la primera correlacin cannica es signicativa.
Datos electorales. En un estudio sobre comportamiento electoral en
Catalunya, se consideran los resultados de unas elecciones celebradas en las
41 comarcas catalanas y para cada comarca se tabulan los valores de las
siguientes variables:
X1 = log(porcentaje de votos a CU), X2 = log(porcentaje de votos a PSC),
X3 = log(porcentaje de votos a PP), X4 = log(porcentaje de votos a ERC),
Y1 = log(cociente Juan/Joan),
Y2 = log(cociente Juana/Joana),
donde cociente Juan/Joan signica el resultado de dividir el nmero de
hombres que se llaman Juan por el nmero de hombres que se llaman Joan.
Valores positivos de las variables Y1 ; Y2 en una comarca indican predominio
de los nombres en castellano sobre los nombres en cataln.
La matriz de correlaciones es:
X1
X2
X3
X4
Y1
Y2
X1
1
X2
0;8520
1
X3
0;6536
0;5127
1
X4
0;5478
0;7101
;6265
1
Y1
0;6404
0;7555
0;5912
0;7528
1
Y2
0;5907
0;6393
0;5146
0;7448
0;8027
1
4.8. COMPLEMENTOS
71
4.8.
Complementos
72
En ciertas aplicaciones tiene inters considerar medidas globales de asociacin entre dos matrices de datos X; Y; de rdenes n p y n q respectivamente, observadas sobre el mismo conjunto de n individuos. Una medida
interesante resulta de considerar la razn de verosimilitud de Wilks y viene
dada por
s
Q
AW = 1
(1 ri2 );
i=1
(4.5)
i=1
que coincide con el coeciente procrustes (1.8) cuando las variables X estn
incorrelacionadas y tienen varianza 1 (y anlogamente las Y ). Vase Cramer
y Nicewander (1979) y Cuadras (2011). En Cuadras et al. (2012) se propone
una generalizacin a la comparacin (mediante distancias) de dos conjuntos de datos en general, con una aplicacin a la comparacin de imgenes
hiperespectrales.
Si f (x; y) es la densidad de dos v.a. X; Y , tiene inters en estadstica el
concepto de mxima correlacin (propuesto por H. Gabelein) que se dene
como
1 = sup cor( (X); (Y ));
;
Captulo 5
ANLISIS DE
COMPONENTES
PRINCIPALES
5.1.
74
i ti ;
t0i ti = 1;
i = 1; : : : ; p:
Entonces:
1. Las variables compuestas Yi = Xti ; i = 1; : : : ; p; son las componentes
principales.
2. Las varianzas son los valores propios de S
var(Yi ) =
i;
i = 1; : : : ; p:
i 6= j = 1; : : : ; p:
0
i )ti tj
= 0; ) t0i tj = 0; ) cov(Yi ; Yj ) =
0
j ti tj ;
0
i tj ti ;
0
j ti tj
= 0; si i 6= j.
var(Yi ) = i t0i tj = i :
Pp
Pp
Sea ahora Y =
i=1 ai Xi =
i=1 i Yi una variable compuesta tal que
P
p
2
i=1 i = 1: Entonces
p
X
var(Y ) = var(
i=1
i Yi )
p
X
i=1
2
i var(Yi )
p
X
i=1
2
i i
p
X
(
i=1
2
i) 1
= var(Y1 );
75
p
X
bi Xi =
p
X
i Yi
condicionado a
2
i
= 1:
i=2
i=2
i=1
p
X
Entonces:
p
X
var(Y ) = var(
i=2
i Yi )
p
X
2
i var(Yi )
p
X
2
i i
i=2
i=2
p
X
(
2
i) 2
= var(Y2 );
i=2
5.2.
La varianza de
Ppla componente principal Yi es var(Yi ) =
total es tr(S) = i=1 i : Por lo tanto:
1. Yi contribuye con la cantidad
y la variacin
Pq
i=1
a la variacin
76
5.3.
xj = (xj1 ; : : : ; xjp );
es
2
ij
= (xi
xj ) (xi
xj ) =
p
X
(xih
xjh )2 :
h=1
La matriz
=(
ij )
es la matriz n
2
ij :
= (yi
yj ) (yi
yj ) =
q
X
(yih
yjh )2
h=1
77
p
X
h:
h=1
xj )2 = s2 :
(5.3)
En efecto, si x es la media
1
n2
Pn
i;j=1 (xi
Pn
(xi x (xj x))2
Pi;j=1
P
n
(xi x)2 + n12 ni;j=1 (xj
i;j=1
P
+ n22 ni;j=1 (xi x)(xj x))2
= n1 ns2 + n1 ns2 + 0 = 2s2 :
xj )2 =
=
1
n2
1
n2
x)2
p
X
sjj = tr(S):
j=1
j=1
78
p
X
j:
j=1
V (Y)q
= 100
V (X)p
+
1+
1
+
+
5.4.
Inferencia
1):
5.4. INFERENCIA
Sea
=
=[
79
la diagonalizacin de
1; : : : ;
p ];
: Indiquemos
= [ 1; : : : ;
= diag( 1 ; : : : ;
p ];
p );
los vectores propios y valores propios de : Por otra parte, sea S = GLG0 la
diagonalizacin de S: Indiquemos:
G = [g1 ; : : : ; gp ];
L = diag(l1 ; : : : ; lp )
l = [l1 ; : : : ; lp ];
5.4.1.
b i = gi
; i = 1; : : : ; p:
>
>
p k
k+1
p k+1
= ;
+ lp )=k
80
=n): En particular:
es
N ( i ; 2 2i =n);
cov(li ; lj ) = 0;
i 6= j;
X
j6=i
2
j)
0
i
3. l es independiente de G:
Demost.: Anderson (1959), Mardia, Kent y Bibby (1979).
Como consecuencia de que li es N ( i ; 2 2i =n); obtenemos el intervalo de
conanza asinttico con coeciente de conanza 1
li
(1 + az
=2
)1=2
<
<
(1
li
az
1=2
=2 )
5.4.2.
Contraste de hiptesis
Determinados contrastes de hiptesis relativos a las componentes principales son casos particulares de un test sobre la estructura de la matriz
:
A. Supongamos que queremos decidir si la matriz es igual a una matriz
determinada 0 : Sea X un matriz n p con las independientes Np ( ; ):
El test es:
H0 : = 0 (
desconocida)
Si L es la verosimilitud de la muestra, el mximo de log L bajo Ho es
log L0 =
n
log j2
2
0j
n
tr(
2
1
0
S):
5.4. INFERENCIA
81
El mximo no restringido es
log L =
n
p:
2
n
log j2 Sj
2
= 2(log L log L0 )
= ntra( 0 1 S) n log j
1
+ Lp )=p;
1
0
es
(5.4)
np:
Sj
g = (L1
(5.5)
entonces, asintticamente
2 log
= np(a
log g
2
q;
1)
(5.6)
= diag(
11 ;
pp )
desconocida).
>
>
p k
p k+1
= :
(l1 ; : : : ; lk ; lk+1 ; : : : ; lp );
S0
si H0 es cierta)
(l1 ; : : : ; lk ; a0 ; : : : ; a0 );
82
donde a0 = (lk+1 +
+ lp )=(p
S0 1 S
= n(p
k) log(lk+1 +
+ lp )=(p
(k p)=p
lp )1=p a0
k)
n(
p
X
y aplicando (5.6)
log li )
2
q;
(5.7)
i=k+1
donde q = (p
5.5.
k)(p
k + 1)=2
1:
5.5.1.
5.5.2.
Criterio de Kaiser
lam
83
60
50
40
30
20
10
0
0
5.5.3.
Test de esfericidad
H0
>
>
>
m+1
5.5.4.
84
> lp : Si normalizamos
p j
E(Lj ) = 100
1X 1
:
p i=1 j + i
5.6.
Biplot
Un biplot es una representacin, en un mismo grco, de las las (individuos) y las columnas (variables) de una matriz de datos X(n p):
Suponiendo X matriz centrada, el biplot clsico se lleva a cabo mediante
la descomposicin singular
X = U V0 ;
donde U es una matriz p q con columnas ortonormales, V es una matriz q q ortogonal, y
es una matriz diagonal con los valores singulares
0
de X. Es decir, U U = Ip ; V0 V = V0 V = Iq ; =diag( 1 ; : : : ; p ): Entonces
XV = U es la transformacin en componentes principales, luego las coordenadas de las las estn contenidas en U : Las cordenadas de las columnas
son entonces las las de la matriz V: Ambos sistemas de coordenadas se
pueden representar sobre el mismo grco, como en la Figura 5.2.
Podemos plantear el biplot de una manera alternativa. La transformacin
por componentes principales Y = XT permite representar las las. Para representar tambin las columnas, podemos entender una variable Xj como el
conjunto de puntos de coordenadas
xj ( j ) = (0; : : : ;
j ; : : : ; 0)
mj
Mj ;
5.7. EJEMPLOS
85
5.7.
Ejemplos
Ejemplo 5.7.1
Sobre una muestra de n = 100 estudiantes mujeres de Bioestadstica, se
midieron las variables
X1 = peso, X2 =talla, X3 =ancho hombros, X4 = ancho caderas,
(peso em kgs y medidas en cms ), con los siguientes resultados:
1. Medias: x1 = 54;25; x2 = 161;73; x3 = 36;53; x4 = 30;1:
2. Matriz de covarianzas:
0
44;7
B 17;79
S =B
@ 5;99
9;19
17;79
26;15
4;52
4;44
5;99
4;52
3;33
1;34
1
9;19
4;44 C
C
1;34 A
4;56
Val. prop.
Porc. acum.
t1
0; 8328
0; 5029
0; 1362
0; 1867
58;49
74;27
t2
0; 5095
0; 8552
0; 05 88
0; 0738
15;47
93;92
t3
;0; 1882
0; 0202
0; 1114
0; 9755
2;54
97;15
t4
0; 1063
;0; 1232
0; 9826
0; 0892
2;24
100
86
g.l.
333.9 9
123.8 5
0.39 2
Rechazamos m = 0; m = 1 y aceptamos m = 2:
c. Test del bastn roto: Puesto que P2 = 93;92 supera claramente el
valor esperado 79;16 y que no ocurre lo mismo con P3 , aceptamos
m = 2:
5. Componentes principales:
Y1 = 0; 8328X1 + 0; 5029X2 + 0; 1362X3 + 0; 1867X4 ;
Y2 = 0; 5095X1
0; 8552X2
0; 05 88X3 + 0; 0738X4 :
6. Interpretacin: la primera componente es la variable con mxima varianza y tiene todos sus coecientes positivos. La interpretamos como
una componente de tamao. La segunda componente tiene coecientes
positivos en la primera y cuarta variable y negativos en las otras dos.
La interpretamos como una componente de forma. La primera componente ordena las estudiantes segn su tamao, de la ms pequea
a la ms grande, y la segunda segn la forma, el tipo pcnico en contraste con el tipo atltico. Las dimensiones de tamao y forma estn
incorrelacionadas.
Ejemplo 5.7.2
Mediante ACP podemos representar una matriz de datos en dimensin
reducida (Teorema 5.3.2), realizando los pasos que se ilustran con este ejemplo.
La Tabla 5.1 contiene los tiempos parciales en minutos que 12 corredores
tardan en recorrer 16 kilmetros. El corredor ms rpido es el 5, el ms lento
es el 12.
5.7. EJEMPLOS
87
corredor km 4 km 8 km 12 km16
1
10
10
13
12
2
12
12
14
15
3
11
10
14
13
4
9
9
11
11
5
8
8
9
8
6
8
9
10
9
7
10
10
8
9
8
11
12
10
9
9
14
13
11
11
10
12
12
12
10
11
13
13
11
11
12
14
15
14
13
Val. prop.
%
Porc. acum.
t1
t2
t3
t4
.5275 .4538 -.2018 -.6893
.5000 .5176 .2093 .6621
.4769 -.5147 .6905 -.1760
.4943 -.5112 -.6624 .2357
12.26 4.098 .4273 .1910
72.22 24.13
2.52
1.15
72.22 96.35 98.85
100
var(Y1 ) = 12;26
var(Y2 ) = 4;098
1
C
C
A
88
Figura 5.2: Representacin por anlisis de componentes principales y mediante biplot de los tiempos parciales de 12 corredores.
5.8. COMPLEMENTOS
89
5.8.
Complementos
El Anlisis de Componentes Principales (ACP) fu iniciado por K. Pearson en 1901 y desarrollado por H. Hotelling en 1933. Es un mtodo referente
a una poblacin, pero W. Krzanowski y B. Flury han investigado las componentes principales comunes a varias poblaciones.
El ACP tiene muchas aplicaciones. Una aplicacin clsica es el estudio
de P. Jolicoeur y J. E. Mosimann sobre tamao y forma de animales (como
los caparazones de tortugas machos y hembras), en trminos de la primera,
segunda y siguientes componentes principales. La primera componente permite ordenar los animales de ms pequeos a ms grandes, y la segunda
permite estudiar su variabilidad en cuanto a la forma. Ntese que tamao
y formason conceptos independientesen sentido lineal.
EL ACP Comn (Common Principal Component Analysis) es el estudio de las componentes principales comunes en varios conjuntos de datos.
Supongamos que unas mismas variables tienen matrices de covarianzas 1 ; : : : ;
k en k poblaciones distintas y que las descomposiciones espectrales son
0
i = T i T ; i = 1; : : : ; k; es decir, los vectores propios (columnas de T) son
los mismos. Entonces las componentes principales son las mismas, aunque las
varianzas sean distintas. Por ejemplo, los caparazones de tortugas machos y
hembras, aunque de distinta magnitud, pueden tener la misma estructura de
tamao y forma. Vase Krzanowski (1988) y Flury (1997).
El AFM (Anlisis Factorial Mltiple) permite visualizar varios conjuntos
de datos observados con distintas variables, a n de encontrar una estructura
comn. El AFM se realiza en dos pasos. Primero se aplica un PCA a cada
matriz (centrada) de datos, que se normaliza dividiendo por la raz cuadrada
del primer valor propio. Las matrices transformadas se juntan en una sola, a
la que se aplica un PCA global. Vase Escouer y Pags (1990).
El biplot, tcnica introducida por Gabriel (1971), permite la representacin
en un mismo grco de las las y columnas de una matriz de datos X (Figura 5.2). Vase Gower y Hand (1996), Galindo-Villardn (1986), Crdenas y
Galindo-Villardn (2009), Greenacre (2010) y Gower et al. (2011).
El ACP puede servir para estudiar la capacidad de un crneo o de una
caparazn. Supongamos que la caparazn de una tortuga tiene longitud L,
90
son
+ rp2 ;
(5.8)
5.8. COMPLEMENTOS
91
92
Captulo 6
ANLISIS FACTORIAL
6.1.
Introduccin
El Anlisis Factorial (AF) es un mtodo multivariante que pretende expresar p variables observables como una combinacin lineal de m variables
hipotticas o latentes, denominadas factores. Tiene una formulacin parecida
al Anlisis de Componentes Principales, pero el modelo que relaciona variables y factores es diferente en AF. Si la matriz de correlaciones existe, las
componentes principales tambin existen, mientras que el modelo factorial
podra ser aceptado o no mediante un test estadstico.
Ejemplos en los que la variabilidad de las variables observables se puede
resumir mediante unas variables latentes, que el AF identica como factores, son:
1. La teoria clsica de la inteligencia supona que los test de inteligencia estaban relacionados por un factor general, llamado factor g de
Spearman.
2. La estructura de la personalidad, tambin medida a partir de test y
escalas, est dominada por dos dimensiones: el factor neuroticismoestabilidad y el factor introversin-extroversin.
3. Las diferentes caractersticas polticas de ciertos pases estn inuidas
por dos dimensiones: izquierda-derecha y centralismo-nacionalismo.
El AF obtiene e interpreta los factores comunes a partir de la matriz de
93
94
6.2.
r1p
r2p
.
..
. ..
1
C
C
C:
A
El modelo unifactorial
i = 1; : : : ; p:
(6.1)
De acuerdo con este modelo, cada variable Xi depende del factor comnF
y de un factor nico Ui : El modelo supone que:
a) las variables y los factores estn estandarizados (media 0 y varianza
1).
b) Los p + 1 factores estn incorrelacionados.
De este modo F contiene la parte de la variabilidad comn a todas las
variables, y cada Xi est adems inuida por un factor nico Ui ; que aporta
la parte de la variabilidad que no podemos explicar a partir del factor comn.
El coeciente ai es la saturacin de la variable Xi en el factor F:
De (6.1) deducimos inmediatamente que
= 1;
a2i + d2i
cor(Xi ; F ) = ai ;
cor(Xi ; Xj ) = ai aj ;
i 6= j:
(6.2)
95
= rij ri0 j 0
ai aj 0 ai0 aj 0 = 0:
(6.3)
F
0;83
1;00
0;67
0;67
0;65
0;57
I
0;78
0;67
1;00
0;64
0;54
0;51
M
0;70
0;67
0;64
1;00
0;45
0;51
D
0;66
0;65
0;54
0;45
1;00
0;40
Mu
0;63
0;57
0;51
0;51
0;40
1;00
relaciona las calicaciones en C (clsicas), F (francs), I (ingls), M (matemticas), D (discriminacin de tonos) y Mu (msica) obtenidas por los alumnos
de una escuela. Esta matriz verica, aproximadamente, las relaciones (6.2).
Si consideramos la primera y la tercera la, tenemos que:
0;70
0;66
0;63
0;83
=
=
=
= 1;2 .
0;67
0;64
0;54
0;51
De acuerdo con el modelo unifactorial, estas calicaciones dependen esencialmente de un factor comn.
96
6.3.
6.3.1.
El modelo multifactorial
El modelo
+ a1m Fm +d1 U1
+ a2m Fm
+d2 U2
Xp = ap1 F1 +
+ apm Fm
(6.5)
+dp Up :
i 6= j = 1; : : : ; p:
i = 1; : : : ; m; j = 1; : : : ; p:
3. Tanto los factores comunes como los factores nicos son variables reducidas (media 0 y varianza 1).
En el modelo factorial (6.5) se admite que las variables, en conjunto,
dependen de los factores comunes, salvo una parte de su variabilidad, slo
explicada por el correspondiente factor especco. Los factores comunes representan dimensiones independentes en el sentido lineal, y dado que tanto
los factores comunes como los nicos son variables convencionales, podemos
suponer que tienen media 0 y varianza 1.
6.3.2.
97
La matriz factorial
Los coecientes aij son las saturaciones entre cada variable Xi y el factor
Fj : La matriz p m que contiene estos coecientes es la matriz factorial
0
1
a11
a1m
B a21
a2m C
C:
A =B
@
A
ap1
apm
Si indicamos por X = (X1 ; : : : ; Xp )0 el vector columna de las variables,
y anlogamente F = (F1 ; : : : ; Fm )0 ; U =(U1 ; : : : ; Up )0 ; el modelo factorial en
expresin matricial es
X = AF + DU;
(6.6)
donde D =diag(d1 ; : : : ; dp ) es la matriz diagonal con las saturaciones entre
variables y factores nicos. El AF tiene como principal objetivo encontrar e
interpretar la matriz factorial A:
6.3.3.
Las comunalidades
+ a2im + d2i ;
98
Evidentmente se verica
R = R + D2 :
6.3.4.
(6.9)
1)=2
(p m
m(m
1
1)=2) = [(p
2
m)2
m]:
(6.10)
1
ma = (2p + 1
2
8p + 1):
Un modelo factorial es sobredeterminado si m > ma ; pues hay ms saturaciones libres que correlaciones. Si m = ma el modelo es determinado y
podemos encontrar A algebraicamente a partir de R:
Desde un punto de vista estadstico, el caso ms interesante es m < ma ;
ya que entonces podemos plantear la estimacin estadstica de A; donde
d > 0 juega el papel de nmero de grados de libertad del modelo. El nmero
mximo m de factores comunes en funcin de p es:
p
m
2 3 4 5 6 7 8 9 10 20 30 40
0 1 1 2 3 3 4 5 6 14 22 31
6.3.5.
99
El caso de Heywood
Una limitacin del modelo factorial es que alguna comunalidad puede alcanzar (algebraicamente) un valor superior a 1, contradiciendo (6.8). Cuando esto ocurre, la solucin se ha de interpretar con precaucin. En algunos
mtodos, como el de la mxima verosimilitud, se resuelve este inconveniente
(primeramente observado por H.B. Heywood) imponiendo la condicin h2i
1 en la estimacin de las comunalidades.
6.3.6.
Un ejemplo
Las asignaturas clsicas de la enseanza media, se dividen, en lneas generales, en asignaturas de Ciencias y de Letras, las primeras con contenido ms
racional y emprico, las segundas con contenido ms humanstico y artstico.
Consideremos las siguientes 5 asignaturas:
Ciencias Naturales (CNa), Matemticas (Mat), Francs (Fra), Latn (Lat),
Literatura (Lit). Supongamos que estn inuidas por dos factores comunes o
variables latentes: Ciencias (C) y Letras (L). En otras palabras, suponemos
que C y L son dos variables no observables, que de manera latente inuyen
sobre las cinco asignaturas. Las calicaciones de n = 20 alumnos en las asignaturas y en los factores se encuentran en la Tabla 6.1.
L
.2
.1
.9
.8
.8
7 + 0;2
5 + 0;4
100
Asignaturas
Factores
1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
7
5
5
6
7
4
5
5
6
6
6
5
6
8
6
4
6
6
6
7
7
5
6
8
6
4
5
6
5
5
7
5
6
7
7
3
4
6
5
7
5
6
5
5
6
6
5
5
7
6
5
4
6
8
5
4
7
7
4
6
5
6
7
6
7
7
5
5
6
6
6
5
6
8
6
4
8
7
4
7
6
5
5
6
6
6
6
5
6
6
5
4
5
8
6
4
7
7
4
6
Ciencias Letras
7
5
6
7
6
4
5
6
5
5
7
6
6
7
6
3
5
6
5
7
5
6
5
5
6
6
6
5
6
6
5
4
6
8
5
4
7
7
4
6
101
De los 7 puntos, 5.6 se explican por el factor comn C, 1 punto por el factor
comn L y 0.4 puntos por el factor nico. Este factor nico representa la
variabilidad propia de las CNa, independente de los conceptos C y L.
Las comunalidades son:
h21 = 0;68; h22 = 0;82; h23 = 0;82; h24 = 0;73; h25 = 0;68:
Los porcentajes de la variabilidad explicada por los factores comunes y las
comunalidades son:
Factor C Factor L Comunalidades
C. Naturales
64
4
68
Matemticas
81
1
82
Francs
1
81
82
Latn
9
64
73
Literatura
4
64
68
6.4.
Teoremas fundamentales
El primer teorema, conocido como teorema de Thurstone, permite relacionar la matriz factorial con la matriz de correlaciones, o ms exactamente,
con la matriz de correlaciones reducida. El segundo teorema permite determinar, tericamente, el nmero de factores comunes y los valores de las
comunalidades.
Teorema 6.4.1 Bajo las hiptesis del modelo factorial lineal se verica
P
i 6= j = 1; : : : ; p;
rij = m
k=1 aik ajk ;
Pm 2
1 = k=1 aik + d2i ;
i = 1; : : : ; p:
En notacin matricial
R = AA0 + D2 :
(6.11)
102
(6.12)
Una solucin factorial viene dada por cualquier matriz A que cumpla la
relacin (6.12). As pues, si m > 1; existen innitas soluciones, pues si A es
solucin, tambin lo es AT, siendo T una matriz m m ortogonal. Por otro
lado, (6.11) o (6.12) tampoco resuelven completamente el problema, ya que
desconocemos las comunalidades. La obtencin de las comunalidades est
muy ligada al nmero de factores comunes.
Teorema 6.4.2 Se verica:
1. El modelo factorial existe si R es la suma de una matriz semidenida
positiva y una matriz diagonal con elementos no negativos.
2. El nmero m de factores comunes es el rango de la matriz R : Por
lo tanto m es el orden del ms grande menor de R que no contiene
elementos de la diagonal.
1 tales que R es
3. Les comunalidades son aquellos valores 0
h2i
matriz semi-denida positiva (tiene m valores propios positivos).
Demost.: Es una consecuencia de la relacin (6.12) entre R y A: El mayor
menor de R quiere decir la submatriz cuadrada con determinante no negativo,
que no contenga elementos de la diagonal.
Hemos visto que a partir de R podemos encontrar m, pero la solucin no
es nica. El principio de parsimonia en AF dice que entre varias soluciones
admisibles, escogeremos la que sea ms simple. El modelo factorial ser pues
aquel que implique un nmero mnimo m de factores comunes. Fijado m, las
comunalidades se pueden encontrar, algebraicamente, a partir de la matriz
de correlaciones R: En la prctica, las comunalidades se hallan aplicando
mtodos estadsticos.
Finalmente, podemos probar de manera anloga, que si el anlisis factorial lo planteamos a partir de la matriz de covarianzas ; sin suponer las
variables reducidas, aunque s los factores, entonces obtenemos la estructura
= AA0 + D2 :
(6.13)
6.5.
103
Vj = a21j +
p
X
q (r
jj 0
m
X
jj 0
j;j 0 =1
ajk aj 0 k );
k=1
ai1 F1 = ai2 F2 +
+ aim Fm + di Ui ;
+ a2p2 ;
1=2
104
I (volver al paso i)
La matriz Ai converge a la matriz factorial A: Como criterio de convergencia podemos considerar la estabilidad de las comunalidades. Pararemos si
pasando de i a i + 1 los valores de las comunalidades, es decir, los valores en
diag(Ai A0i ); prcticamente no varan. Esta refactorizacin podria fallar si se
presenta el caso de Heywood o R no satisface el modelo factorial (6.11).
Ejemplo: Volviendo al ejemplo de las asignaturas, la solucin por el
mtodo del factor principal encuentra dos factores que explican el 74.6 % de
la varianza:
F1
F2
C. Naturales .621 -.543
Matemticas .596 -.682
Francs .796 .432
Latn .828 .210
Literatura .771 .292
Valor propio 2.654 1.076
Porcentaje 53.08 21.52
6.6.
6.6.1.
105
n
(log j2
2
tr(
S)):
S) log jSj p
(6.14)
@Fp
= diag(
@V
S)
1
A;
S)
):
(
S) 1 A = 0; diag( 1 (
S) 1 ) = 0;
0
0
1
= AA + V;
A V A es diagonal.
(6.15)
6.6.2.
Una ventaja del mtodo de la mxima verosimilitud es que permite formular un test de hiptesis sobre la estructura factorial de y el nmero m
de factores comunes.
Planteemos el test
H0 :
= AA0 + V vs H1 :
donde A es de rango m.
es denida positiva,
106
bA
b 0 +V;
b siendo A
b yV
b las estimaciones, los mximos del logaritmo
Si b = A
de la razn de verosimilitud son (Seccin 5.4.2)
H0 :
H1 :
n
(log j b j + tr( b 1 S));
2
n
(log jSj + p):
2
b V)
b
S) p) = nFp (A;
1
1)=2) = ((p m)2 p m)
2
grados de libertad. Podemos observar que Ck es n veces el valor mnimo de
la funcin (6.14) y que k coincide con (6.10).
k = p(p
6.7.
1)=2
(p m + p
m(m
Rotaciones de factores
6.7.1.
Rotaciones ortogonales
p
X
i=1
a2ij
p
X
i=1
a2ik ];
(6.16)
107
6.7.2.
Factores oblicuos
+ pim Fm0 + di Ui ;
i = 1; : : : ; p:
(6.17)
108
yQ
Q=P ;
y la versin del teorema de Thurstone para factores correlacionados
R = P P0 + D2 :
Si los factores son ortogonales, el modelo factorial coincide con la estructura
factorial y tenemos que
P = Q;
6.7.3.
= Im :
Rotacin oblicua
p
m X X
X
2
[
qij2 qik
k=1 k6=j=1 i=1
p
X
qij2
i=1
p
X
2
qik
]
i=1
k > 1;
109
= T0 T;
Q = AT:
CNa
Mat
Fra
Lat
Lit
Mxim
F1
.659
.999
.104
.234
.327
veros.
F2
.432
.005
.974
.809
.831
Varimax
C
L
.636 .464
.999 .046
.055 .978
.193 .820
.280 .847
Comun.
.62
.99
.96
.71
.79
CNa
Mat
Fra
Lla
Lit
Modelo
C
.570
1.04
-.150
.028
.114
La Figura 6.1 representa los factores ortogonales iniciales F1 y F2 , dibujados como vectores unitarios, y los factores oblicuos C y L. Las variables
tienen una longitud proporcional a la raz cuadrada de sus comunalidades.
110
Figura 6.1: Proyeccin de las variables sobre los factors comunes ortogonals, y
factores rotados (rotacin promax), interpretados como factores de Ciencias
y Letras.
6.7.4.
6.8.
111
Medicin de factores
Af )
x=D
+ u2p ;
f = (A0 D 2 A) 1 A0 D 2 x:
Una modicacin de este mtodo (propuesta por T. W. Anderson y H.
Rubin) consiste en aadir la condicin de que los factores comunes estimados
estn incorrelacionados. La solucin que resulta es
f = B 1 A0 D 2 x;
siendo B2 = A0 D 2 RD 2 A:
Ejemplo: Continuando con el ejemplo de las 5 asignaturas, las calicaciones en las asignatures de los 4 primeros alumnos (Tabla 6.1) y las puntuaciones (Anderson-Rubin) en los factores C y L; obtenidos con la rotacin
varimax, son:
C
L
Alumno CNa Mat Fra Lat Lit
1
7
7
5
5
6
1.06 -.559
2
5
5
6
6
5 -.568 .242
3
5
6
5
7
5
.259 -.505
4
6
8
5
6
6
1.85 -.614
112
6.9.
Los mtodos del factor principal y de la mxima verosimilitud son exploratorios, en el sentido de que exploran las dimensiones latentes de las
variables. El AF tambin se puede plantear en sentido conrmatorio, estableciendo una estructura factorial de acuerdo con el problema objeto de
estudio, y seguidamente aceptando o rechazando esta estructura mediante
un test de hiptesis. Por ejemplo, podemos considerar que la matriz factorial
en el ejemplo de las 5 asignaturas es
CNa
Mat
Fra
Lla
Lit
C L
1 0
1 0
0 1
0 1
0 1
interpretando que las dos primeras slo dependen del factor Ciencias y las
otras tres del factor Letras. Entonces podemos realizar una transformacin
de la matriz factorial inicial para ajustarnos a la matriz anterior.
Si la solucin inicial es A; postulamos una estructura B y deseamos encontrar T ortogonal tal que AT se aproxime a B en el sentido de los mnimos
cuadrados
tr[(B AT)0 (B AT)] = mnimo,
entonces la solucin es T = UV0 ; siendo A0 B = UDs V0 la descomposicin
singular de A0 B: Es decir AT es la transformacin procrustes de A: Vase (
1.7).
Si T no es ortogonal y por lo tanto se admite una estructura oblicua,
entonces T se obtiene siguiendo un procedimiento parecido a la rotacin
promax
T = (A0 A) 1 A0 B;
pero normalizando a mdulo 1 los vectores columna de T:
113
.71
.54
.67
.00
-.03
.01
.00
.42
.56
P
.00 .00
-.03 -.08
.04 -.09
.87 .00
.81 .13
.82 -.01
.00 .78
-.30 .73
-.06 .41
Comun.
.50
.26
.46
1
.76
.54 1
.70
.24 .28 1
.68
.61
.68
.54
2
12
= 9;77
p = 0;64
114
.68
.52
.69
.00
.00
.00
.00
.00
.00
P
.00
.00
.00
.87
.83
.83
.00
.00
.00
.00
.00
.00
.00
.00
.00
.66
.80
.70
Comun.
.46
.27
.48
1
.77
.54 1
.69
.52 .34 1
.69
.43
.63
.49
2
24
= 51;19
p = 0;001
.38
.24
.38
.87
.83
.83
.24
.15
.36
6.10.
.58
.41
.53
.00
.01
.01
.02
.43
.59
P
.00 .00
.35 .00
.30 -.03
.03 .00
-.13 .06
.04 -.02
.00 .95
-.13 .57
-.22 .34
1
.00
.00
.00
Comun.
.48
.37
.52
1
.75
.00
1
.72
.00 .00 1
.68
.95
.56
.64
2
6
= 2;75
p = 0;84
Complementos
Constituyen dos precedentes del Anlisis Factorial el concepto de factor latente de F. Galton y de eje principal de K. Pearson. El primer trabajo,
publicado en 1904, por Ch. Spearman (Spearman, 1904) desarrolla una teora
de la inteligencia alrededor de un factor comn, el factor g. Esta teora,
6.10. COMPLEMENTOS
115
que ordenaba la inteligencia de los individuos a lo largo de una sola dimensin, fue defendida por C. Burt, con consecuencias sociolgicas importantes,
pues proporcion una base cientca para nanciar las escuelas privadas en
detrimento de otras.
El Anlisis Factorial moderno se inicia con la obra Multiple Factor
Analysis de L.L. Thurstone, que postulaba ms de un factor comn, introduca la estructura simple y las rotaciones de factores. A partir de Thurstone
la medida de la inteligencia era ms democrtica, ya que posea varias
dimensiones latentes, quedando sin sentido una ordenacin clasista de los
individuos, pues si en una dimensin sera posible ordenarlos, en varias dimensiones es imposible. Hubo una polmica similar sobre la personalidad. La
teoria psicoanaltica defenda una continuidad entre la personalidad neurtica
y la psictica, mientras que el AF revela que neurosis y psicosis son dimensiones independientes.
Los modelos y mtodos de Spearman, Burt, Thurstone y otros (Holzinger,
Harman y Horst), son ya historia. Los mtodos actuales para obtener la
matriz factorial son: factor principal, anlisis factorial cannico (C.R. Rao),
mtodo Alfa (H.F. Kaiser, J. Carey) y el mtodo de la mxima verosimilitud
(D.N. Lawley, K.G. Joreskog). Vase Joreskog (1967).
El mtodo varimax de rotacin ortogonal de Kaiser es uno de los ms
recomendados. J.B. Carroll introdujo la rotacin oblicua quartimin y A.E.
Hendrickson y P.O. White la promax. Anderson y Rubin (1956) publicaron
un excelente trabajo sobre AF, tratando todo los aspectos algebraicos y estadsticos del tema. Vase Harman (1976), Torrens-Ibern (1972).
El estudio de las dimensiones latentes es un tema presente en la ciencia
y siempre ha despertado inters. C. R. Rao demostr que si conocemos la
distribucin de k combinaciones lineales de p variables independientes, siendo
k(k 1)=2 < p
k(k + 1)=2; entonces la distribucin de cada una de las
p variables queda determinada (salvo la media o parmetro de localizacin).
Por ejemplo, si tenemos p = 210 variables independientes bastara conocer
la distribucin de k = 20 combinaciones lineales adecuadas para determinar
la distribucin de las 210 variables. Este resultado proporciona una cierta
justicacin terica acerca del hecho que la informacin multivariante posee
una dimensionalidad latente mucho ms pequea.
La etapa inicial del AF (hasta 1966), era exploratoria, como una herramienta para explorar la dimensionalidad latente de las variables. Ms tarde,
el anlisis factorial se ha entendido en sentido conrmatorio (Joreskog, Lawley, Maxwell, Mulaik), estableciendo una estructura factorial de acuerdo con
116
el problema, y seguidamente aceptando o rechazando esta estructura mediante un test de hiptesis (Joreskog, 1969, 1970). Consltese Cuadras (1981).
Se han llevado a cabo muchas aplicaciones del AF. Citaremos tres, las
dos primeras sobre AF exploratorio y la tercera sobre AF conrmatorio.
Rummel (1963) estudia 22 medidas de los conictos de 77 naciones y encuentra tres dimensiones latentes, que identica como: agitacin, revolucin
y subversin, y ordena las naciones segn las puntuaciones en los factores
comunes.
Snchez-Turet y Cuadras (1972) adaptan el cuestionario E.P.I. de personalidad (Eysenck Personality Inventory) y sobre un test de 69 tems (algunos
tems detectan mentiras) encuentran tres factores: Introversin-Extroversin,
Estabilidad-Inestabilidad, Escala de mentiras.
Joreskog (1969) explica un ejemplo de AF conrmatorio sobre 9 test,
previamente estudiado por Anderson y Rubin. Vase la Seccin 6.9.
Finalmente, el Anlisis de Estructuras Covariantes es una generalizacin
del AF, que unica este mtodo con otras tcnicas multivariantes (MANOVA,
anlisis de componentes de la varianza, anlisis de caminos, modelos simplex
y circumplexos, etc.). Se supone que la estructura general para la matriz de
covarianzas es
= B(P P0 + D2 )B0 + 2 :
Otra generalizacin es el llamado modelo LISREL (Linear Structural Relationship), que permite relacionar un grupo de variables dependientes Y
con un grupo de variables independientes X; que dependen de unas variables latentes a travs de un modelo de medida. Las variables latentes estn
relacionadas por un modelo de ecuaciones estructurales. LISREL (Joreskog
y Sorbom, 1999) es muy exible y tiene muchas aplicaciones (sociologa, psicologa, economa). Vase Satorra (1989), Batista y Coenders (2000).
Captulo 7
ANLISIS CANNICO DE
POBLACIONES
7.1.
Introduccin
Con el Anlisis de Componentes Principales podemos representar los individuos de una poblacin, es decir, representar una nica matriz de datos. Pero
si tenemos varias matrices de datos, como resultado de observar las variables
sobre varias poblaciones, y lo que queremos es representar las poblaciones,
entonces la tcnica adecuada es el Anlisis Cannico de Poblaciones (CANP).
Supongamos que de la observacin de p variables cuantitativas X1 ; : : : ; Xp
sobre g poblaciones obtenemos g matrices de datos
0
1
X1
n1 p
B X2 C n2 p
B
C
X = B .. C
..
@ . A
.
Xg
ng p
118
A =X X =
g
X
(xi
x)(xi
x)0 :
i=1
g
X
ni (xi
x)(xi
x)0 :
i=1
1
n
g
X
n i Si :
i=1
Entonces A =X X juega el papel de matriz de covarianzas entrelas poblaciones, S juega el papel de matriz de covarianzas dentrode las poblaciones.
7.2.
Variables cannicas
0
Denicin 7.2.1 Sean V = [v1 ; : : : ; vp ] los vectores propios de A =X X respecto de S con valores propios 1 >
> p , es decir,
Avi =
i Si vi ;
normalizados segn
vi0 Si vi = 1:
Los vectores v1 ; : : : ; vp son los vectores cannicos y las variables cannicas
son las variables compuestas
Yi = Xvi :
119
i;
i;
+ vpi Xp
es decir:
i 6= j:
>
p;
0
j ti Stj ;
0
i tj Sti ;
0
0
) ( j
i )ti Stj = 0 ) ti Stj = 0 ) covA (Yi ; Yj ) =
covA (Yi ; Yj ) = 0; si i 6= j. Adems, de t0i Stj = 1:
0
j ti Stj
i Yi )
p
X
i=1
2
i varA (Yi )
p
X
i=1
2
i i
p
X
(
i=1
2
i) 1
= varA (Y1 );
120
p
X
i Yi
condicionado a
p
X
2
i
= 1:
i=2
i=2
Entonces:
p
X
varA (Y ) = varA (
i Yi ) =
p
X
2
i varA (Yi )
p
X
2
i i
p
X
(
2
i) 2
= varA (Y2 );
i=2
i=2
i=2
i=2
7.3.
xj )0 S 1 (xi
xj ):
121
yj )0 (yi
xj )0 S 1 (xi
yj ) = (xi
xj ):
(7.1)
(7.2)
0
con
V0 SV = Ip ;
XS 1 X Y = Y :
0
XS 1 X = Y Y0
suponiendo Y ortogonal. Tomando Y
0
obenemos nalmente XS 1 X = YY0 :
7.4.
1=2
Representacin cannica
122
= (yi
yj )(yi
(7.3)
i:
q es la matriz de la transformacin
yj ) =
q
X
yjh )2
(yih
h=1
2
ij (q)
1X
=
g i=1
i;
VM (X) =
q
X
1X
s (Yek ) =
varA (Yek )
g
k=1
k=1
2
1X
V (Y)q =
g k=1
k:
123
7.5.
V (Y)q
= 100
VM (X)
+
1+
+
+
Aspectos inferenciales
7.5.1.
Comparacin de medias
El test
H0 :
(7.4)
7.5.2.
Comparacin de covarianzas
El test
H00 :
jS1 jn1 =2
jSjn=2
jSg jng =2
+ ng Sg )=n = W=n
124
= n log jSj
+ ng log jSg j)
2
q
es signicativo, donde q = gp(p + 1)=2 p(p + 1)=2 = (g 1)p(p + 1)=2 son los
grados de libertad de la ji-cuadrado. Si rechazamos H00 , entonces resulta que
no disponemos de unos ejes comunes para representar todas las poblaciones
(la orientacin de los ejes viene determinada por la matriz de covarianzas),
y el anlisis cannico es tericamente incorrecto. Conviene pues aceptar H00 :
Este es el llamado test de Bartlett.
Debido a que el test anterior puede ser sesgado, conviene aplicar la correccin de Box,
c (n
g) log jSj
b i = (ni =(ni
donde S
b g j)
1) log jS
+ (ng
1))Si ; y la constante c es
2p2 + 3p
(
6(p + 1)(g
c = [1
7.5.3.
b1j +
1) log jS
((n1
g
1 X 1
)(
1) k=1 ng 1
1
n
)]:
Test de dimensionalidad
0
1;
1g:
Si los vectores de medias poblacionales estn en un espacio Rm de dimensin m < k; entonces el espacio cannico tiene dimensin m y por lo tanto
debemos aceptar la hiptesis
(m)
H0
donde 1 >
>
de A) respecto de
>
>
>
m+1
k;
125
k
X
1
(p + g)]
log(1 + li )
2
i=m+1
2
q;
7.5.4.
1
(p + g)] log(1 + lj )
2
2
r;
Regiones condenciales
126
Demost.: xi
i es Np (0; =ni ) independiente de W que sigue la distribucin
Wp ( ; n g): Por lo tanto
0
1
(n g)ni (xi
i ) W (xi
1
0
= ni (xi
i )S (xi
i)
i)
T 2 (p; n
g);
0
1
i ) S (xi
i)
(n
ni (n
g)p
Fnp
g p + 1)
g p+1 :
As pues
R2
]=1
;
ni
que dene una regin condencial hiperelptica para i con coeciente de
conanza 1
: Pero la transformacin cannica y0i = x0i V convierte (xi
0
0
1
i ) S (xi
i ) en (yi
i ) (yi
i ) y por lo tanto
P [(xi
P [(yi
0
1
i ) S (xi
0
i ) (yi
i)
i)
R2
]=1
ni
127
5.
6.
7.
8.
T.
T.
T.
T.
128
22924
42795
31009
86629
17419
32502
23475
65626
49890
1142
1970
1784
3562
3541
1
C
C
C
C
A
1
C
C
C
C
A
W4 (7; )
W5 (267; )
1
C
C
C
C
A
(35 y 1108 g.l.)
7.6. COMPLEMENTOS
129
7.6.
Complementos
(xih x)(xih x) =
g
X
i=1
ni (xi x)(xi x) +
g
ni
X
X
(xih xi )(xih xi )0 :
i=1 h=1
130
1+
+pg
g;
y la matriz de covarianzas es
=
g
X
pi (
)(
i=1
Esta descomposicin de
versin multivariante de
)0 +
g
X
pi
i:
i=1
es la versin poblacional de T = B + W; y la
0
2)
2)
>(
0
2 ) [diag(
)] 1 (
2 );
Captulo 8
ESCALADO
MULTIDIMENSIONAL
(MDS)
8.1.
Introduccin
ij
:
Se habla de distancia (mtrica) cuando se cumplen las tres condiciones:
1. (i; i) = 0
para todo i:
2. (i; j) = (j; i)
3. (i; j)
para todo i; j:
(i; k) + (j; k)
132
B 21
B
= B ..
@ .
12
1n
22
2n
..
.
n1
..
C
C
.. C
. A
n2
ij
ji
= (i; j)
ii
= 0:
nn
i = 1; : : : ; n;
tales que
2
ij
p
X
(xi
xj )2 = (xi
xj )0 (xi
xj )
(8.1)
=1
8.2.
= x0i xi + x0j xj
2x0i xj :
es
133
(2)
=(
2
ij )
con G
(8.2)
ai:
a:j + a:: ;
ai:
a:i + a:: ;
bjj =
aj:
a:j + a:: ;
y por lo tanto
2
ij
= bii + bjj
(8.3)
2aij :
Supongamos que
A=
= yi0 yi + yj0 yj
2yi0 yj = (yi
yj )0 (yi
yj );
134
8.3.
Hemos visto que si B 0, cualquier matriz Y tal que B = YY0 proporciona unas coordenadas cartesianas compatibles con la matriz de distancias
: Sea
B = U U0
la descomposicin espectral de B, donde U es una matriz n p de vectores
propios ortonormales de B y es matriz diagonal que contiene los valores
propios ordenados
(8.4)
1
p > p+1 = 0
Obsrvese que B1 = 0; y por lo tanto p+1 = 0 es tambin valor propio de
B de vector propio el vector 1 de unos: Entonces es evidente que la matriz
n p
X = U 1=2
(8.5)
tambin verica B = XX0 .
Denicin 8.3.1 La solucin por coordenadas principales es la matriz de coordenadas (8.5), tal que sus columnas X1 ; : : : ; Xp ; que interpretaremos como
variables, son vectores propios de B de valores propios (8.4). Las coordenadas
del elemento i 2 son
x0i = (xi1 ; : : : ; xip );
donde xi es la la i-sima de X: Reciben el nombre de coordenadas principales
y cumplen (8.1).
La solucin por coordenadas principales goza de importantes propiedades.
En las aplicaciones prcticas, se toman las q < p primeras coordenadas principales a n de representar : Por ejemplo, si q = 2, las dos primeras coordenadas de X proporcionan una representacin a lo largo de los ejes X1 y
X2 :
X1 X2
1 x11 x12
2 x21 x22
..
..
..
.
.
.
n xn1
Propiedades:
xn2
135
= Xp = 0
1
n
k;
k = 1; : : : ; p
1
n
k:
k 6= k 0 = 1; : : : ; p:
1 0
X Xk0 = 0;
n k
136
5. La variabilidad geomtrica de
es
n
1 X
V (X) = 2
2n i;j=1
2
ij
1X
=
n k=1
(8.6)
k:
2
ij (q)
q
n
1 XX
= 2
(xik
2n i;j=1 k=1
1X
xjk ) =
n k=1
2
es mximo.
Prueba: Sea x1 ; :::; xn una muestra con media x = 0 y varianza s2 . Se
verica
P
P
Pn
P
1
xj )2 = 2n1 2 ( ni;j=1 x2i + ni;j=1 x2j 2 ni;j=1 xi xj )
i;j=1 (xi
2n2
P
P
P
P
= 2n1 2 (n ni=1 x2i + n nj=1 x2j 2 ni=1 xi nij=1 xj )
= s2 ;
por lo tanto
V (X) =
p
X
s2k :
k=1
8.4. SIMILARIDADES
137
8.4.
Similaridades
138
a+d
p
(Sokal-Michener)
(8.7)
a
sij =
(Jaccard)
a+b+c
que verican: sii = 1 sij = sji 0.
Podemos transformar una similaridad en distancia aplicando la frmula
d2ij = sii + sjj
Entonces la matriz A =
2sij :
(8.8)
(d2ij )=2 es
1
(Sf + S0f 2S);
2
donde Sf tiene todas sus las iguales, y como HSf = S0f H = 0; resulta que
A=
B = HAH = HSH:
Por lo tanto:
1. Si S es matriz (semi)denida positiva, la distancia dij es eucldea.
2. rang(HSH) = rang(S)
1:
8.5.
139
>0>
p0 :
p+1
(8.9)
im jm :
i2 j2
(i2 ; j2 )
(ik ; jk ) 2
(im ; jm );
es
; es decir,
;
donde
(i; j)
(i0 ; j 0 ) si
ij
i0 j 0 :
D A B
3 0 1
2
0
1
0
C
1
1
0
D A B
1 0 1
1
0
0
0
C
1
1
0
D
1
1
1
0
140
Figura 8.1: Representacin de 4 objetos conservando las preordenaciones relacionadas a tres matrices de distancias.
posibilidad de representar ; aplicando, por ejemplo, un anlisis de coordenadas principales sobre la distancia transformada, pero conservando (aproximadamente) la preordenacin. En general, la funcin ' no es lineal, y se
obtiene por regresin montona. Hay dos casos especialmente simples.
Denicin 8.5.2 La transformacin q-aditiva de
b2 =
ij
2
ij
ij
se dene como
2a si i 6= j
si i = j
+ c si i 6= j
0
si i = j
ij
b = B aH:
J); B
141
a>0>
p+1
p0
a;
b
que son no negativos si a
p0 ; en cuyo caso B es semidenida positiva.
La mejor transformacin q-aditiva es la que menos distorsiona la distancia
original. De acuerdo con este criterio, el mejor valor para la constante es
a = p0 :
Las transformaciones aditiva y no lineal son ms complicadas y las dejamos para otro dia. De hecho, los programas de MDS operan con transformaciones no lineales, siguiendo criterios de minimizacin de una funcin
que mide la discrepancia entre la distancia original y la transformada. Por
ejemplo, el mtodo de Kruskal consiste en:
1. Fijar una dimensin Eucldea p:
2. Transformar la distancia ij en la disparidad bij = '( ij ); donde
' es una funcin montona creciente. Las disparidades conservan la
preordenacin de las distancias.
3. Ajustar una distancia eucldea dij a las disparidades bij de manera que
minimice
X
(dij bij )2 :
i<j
142
8.6.
Distancias estadsticas
8.6.1.
Variables cuantitativas
yi jq )1=q ;
p
X
i=1
2. Distancia Eucldea:
jxi
v
u p
uX
d2 (x; y) = t (xi
yi j
yi )2
i=1
3. Distancia dominante:
d1 (x; y) = max fjxi
1 i p
yi jg
1 X jxi yi j
;
dG (x; y) =
p i=1
Ri
143
1 X jxi yi j
dC (x; y) =
:
p i=1 xi + yi
dG y dC son invariantes por cambios de escala.
Supongamos ahora dos poblaciones 1 ; 2 con vectores de medias 1 ; 2
y matrices de covarianzas 1 ; 2 : Cuando 1 = 2 = ; la distancia de
Mahalanobis entre poblaciones es
M 2(
1;
2)
=(
0
2)
2)
Esta distancia, ya introducida previamente, es invariante por cambios de escala y tiene en cuenta la correlacin entre las variables. Adems, si Mp ; Mq ; Mp+q
indican las distancias basada en p; q; p + q variables, respectivamente, se verica:
a) Mp Mp+q :
2
= Mp2 +Mq2 si los dos grupos de p y q variables son independientes.
b) Mp+q
No es fcil dar una denicin de distancia cuando 1 6= 2 : Una denicin
de compromiso es
(
8.6.2.
0 1
2) [ (
2 )]
2 ):
Variables binarias
Cuando todas las variables son binarias (toman solamente los valores 0
y 1), entonces conviene denir un coeciente de similaridad (Seccin 8.4) y
aplicar (8.8) para obtener una distancia. Existen muchas maneras de denir
una similaridad sij en funcin del peso que se quiera dar a los a; b; c; d: Por
ejemplo:
sij =
a
a + 2(b + c)
(Sokal-Sneath)
2a
sij =
(Dice)
(a + b)(a + c)
(8.11)
144
8.6.3.
Variables categricas
0
si h = h0 ;
1
1
ph + ph0 si h 6= h0 :
qi )2 =(pi + qi );
P p
db (p; q) = arc cos( ki=1 pi qi ):
da (p; q) = 2
i=1 (pi
Cq = diag(q1 1 ; : : : ; qk 1 ):
Aplicando la distancia de Mahalanobis tomando el promedio de ambas ginversas se obtiene da (p; q):
p
p
La distancia db (p; q) se justica situando los puntos ( p1 ; : : : ; pj ) y
p
p
( q1 ; : : : ; qk ) sobre una hiperesfera de radio unidad y hallando la distancia
geodsica. Vase la distancia de Rao.
8.6.4.
145
Variables mixtas
si p1 = p3 = 0;
si p1 = p2 = 0:
8.6.5.
Otras distancias
146
>
j;
j;
<
j:
<
j:
La estimacin de los parmetros a partir de las proporciones pij es complicada. Alternativamente, teniendo en cuenta que pij + pji = 1 podemos
denir la distancia entre estmulos
d(! i ; ! j ) = jpij
0;5j
y aplicar un MDS sobre la matriz (d(! i ; ! j )): La representacin de los estmulos a lo largo de la primera dimensin nos proporciona una solucin a la
ordenacin de los estmulos.
Distancia de Rao
Sea S = ff (x; ); 2 g un modelo estadstico y z( ) = @@ log f (x; )
un vector columna. La matriz de informacin de Fisher F ( ) es la matriz
de covarianzas de los z 0 s. Siendo a ; b dos valores de los parmetros. Una
distancia tipo Mahalanobis sera el valor esperado de
(z( a )
z( b ))0 F ( ) 1 (z( a )
z( b )):
8.7. EJEMPLOS
147
3. Distribucin normal. Si
vectores de medias es:
2
1;
2)
=(
0
2)
2 ):
8.7.
z2 ( ))0 F ( ) 1 (z1 ( )
z2 ( )):
Ejemplos
Ejemplo 8.7.1
Un arquelogo encontr 5 herramientas cortantes A,B,C,D,E y una vez
examinadas, comprob que estaban hechas de piedra, bronce y hierro, conforme a la siguiente matriz de incidencias:
Piedra Bronce Hierro
A
0
1
0
B
1
1
0
C
0
1
1
D
0
0
1
E
1
0
0
Utilizando la similaridad de Jaccard
dades:
A B
A 1 1/2
B
1
C
D
E
D
0
0
1/2
1
E
0
1/2
0
0
1
148
Figura 8.2: Representacin por anlisis de coordenadas principales de 5 herramientas prehistricas. Se aprecia una ordenacin temporal.
qi j:
8.7. EJEMPLOS
DROBA
DALKE
GRONI
FONTA
VIENA
ZURIC
HUELV
BARCE
FORNI
FORES
ETNA
FRUSK
THESS
SILIF
TRABZ
CHALU
ORANG
AGADI
LASME
149
Dro Dal Gro Fon Vie Zur HueBar For For Etn Fru The Sil Tra ChaOra AgaLas
0
.307 0
.152.276 0
.271.225.150 0
.260.370.187.195 0
.235.300.112.120.128 0
.782.657.695.580.540.623 0
.615.465.529.412.469.445.259 0
.780.657.693.607.606.609.373.309 0
.879.790.801.764.760.761.396.490.452 0
.941.846.873.813.818.817.414.524.451.177 0
.560.505.470.442.342.391.577.460.501.681.696 0
.668.545.592.514.434.500.502.392.363.590.630.315 0
.763.643.680.584.581.610.414.357.413.646.667.544.340 0
.751.619.675.582.519.587.418.342.399.587.648.439.269.286 0
.709.489.636.548.531.549.595.489.514.635.649.444.408.574.438 0
.947.867.864.782.837.795.573.574.568.519.535.782.733.696.698.760 0
.927.834.844.803.789.792.428.498.485.329.303.666.661.642.631.710.321 0
.931.699.846.749.802.792.404.485.429.380.253.659.566.604.551.460.615.430 0
150
8.7. EJEMPLOS
B a jo
C o rto
D im inu to
M e nu d o
Pequeno
E n o rm e
In m e n so
Vo lu m in o so
A lto
D e lg a d o
E le va d o
F in o
L a rg o
A n ch o
A n g o sto
E stre ch o
G ra n d e
G ru e so
P ro fu n d o
H ueco
D e n so
P e sa d o
L ig e ro
151
B a j C o r D im M e n P e q E n o In m Vo u A lt D e g E le F in L a r A n c A n g E st G ra G ru P ro H u e D e n P e s L ig
0 2 .3 0 2 .3 2 2 .3 2 1 .5 2 3 .5 0 3 .4 3 3 .3 8 3 .7 1 3 .3 3 3 .5 7 3 .3 1 3 .3 1 3 .1 7 2 .8 7 3 .1 4 3 .3 8 2 .8 8 3 .0 7 3 .4 1 3 .4 3 3 .3 5 3 .2 7
6 0 0 1 .9 4 2 .0 6 1 .4 6 3 .5 4 3 .6 4 3 .4 6 3 .5 3 2 .9 8 3 .5 1 2 .8 7 3 .5 1 3 .2 4 2 .8 5 2 .6 2 3 .4 6 3 .2 3 3 .3 7 3 .2 4 3 .1 4 3 .2 5 2 .9 3
7 4 7 0 0 1 .1 0 0 .9 3 3 .6 7 3 .7 2 3 .5 4 3 .6 0 2 .3 8 3 .4 8 1 .8 6 3 .4 4 3 .4 1 2 .4 4 2 .1 3 3 .5 6 3 .5 3 3 .5 0 3 .3 4 3 .2 3 3 .5 6 2 .3 4
2 9 7 6 4 2 0 1 .0 1 3 .7 3 3 .5 6 3 .5 8 3 .3 7 1 .8 3 3 .4 2 1 .7 1 3 .2 4 3 .4 0 2 .8 0 2 .2 6 3 .5 0 3 .3 4 3 .4 7 3 .3 6 3 .3 0 3 .2 4 1 .8 5
7 0 6 2 1 6 3 9 0 3 .7 4 3 .7 2 3 .5 6 3 .6 1 2 .7 1 3 .3 7 2 .2 3 3 .4 4 3 .2 6 2 .2 0 2 .0 8 3 .7 2 3 .3 4 3 .4 1 3 .3 6 3 .2 0 3 .4 0 2 .2 5
9 0 9 0 8 7 8 9 8 7 0 0 .3 7 0 .9 7 1 .9 1 3 .4 3 1 .9 6 3 .4 7 1 .9 2 2 .4 7 3 .4 3 3 .4 1 0 .9 0 2 .7 2 2 .6 4 3 .4 3 2 .9 4 2 .3 1 3 .4 3
9 0 9 0 8 8 9 0 8 8 2 2 0 1 .6 0 2 .0 2 3 .4 3 2 .1 0 3 .4 0 2 .2 8 2 .1 8 3 .5 6 3 .4 6 1 .1 4 2 .7 0 2 .4 1 3 .2 5 3 .0 5 2 .6 5 3 .4 8
8 9 8 9 8 9 8 7 8 9 6 6 6 3 0 2 .7 2 3 .6 1 2 .4 5 3 .6 0 2 .9 4 2 .3 5 3 .4 8 3 .5 2 1 .3 0 1 .8 2 3 .0 2 3 .4 2 2 .5 5 2 .2 7 3 .4 7
8 0 8 4 8 8 8 9 8 7 8 5 8 3 8 7 0 3 .0 4 0 .8 2 3 .1 5 2 .6 3 3 .2 3 3 .3 6 3 .2 1 1 .8 3 3 .1 8 2 .9 6 3 .4 8 3 .2 2 2 .9 8 3 .4 1
8 3 8 0 8 0 6 4 8 0 9 0 9 0 8 9 8 3 0 2 .9 7 1 .1 5 2 .7 6 3 .4 8 1 .6 2 1 .3 8 3 .3 2 3 .6 3 3 .3 2 3 .3 8 3 .3 6 3 .5 1 2 .4 7
8 4 8 7 8 8 8 9 8 8 8 4 8 4 8 6 1 7 8 5 0 3 .1 2 2 .6 0 3 .2 0 3 .3 6 3 .2 5 2 .0 0 3 .2 7 3 .1 3 3 .4 6 3 .3 4 3 .2 4 3 .2 7
8 4 8 1 7 4 5 3 7 5 9 0 9 0 8 9 8 3 2 1 8 6 0 2 .8 3 3 .4 0 1 .9 6 2 .0 1 3 .3 5 3 .6 2 3 .4 1 3 .3 8 3 .2 6 3 .4 5 2 .0 2
8 4 8 0 8 9 8 9 8 8 8 7 8 5 8 5 7 4 7 9 7 5 8 7 0 3 .2 4 3 .0 4 3 .0 8 2 .4 6 3 .3 7 2 .8 0 3 .4 2 3 .2 8 3 .3 2 3 .4 1
8 5 8 3 8 9 8 9 8 8 8 6 8 4 7 6 8 2 8 3 8 4 8 7 7 3 0 3 .4 8 3 .5 3 1 .0 3 2 .7 6 2 .8 2 3 .2 7 2 .9 7 3 .1 8 3 .3 2
8 2 7 4 7 7 7 8 7 9 9 0 8 9 8 8 8 5 5 3 8 6 5 8 8 2 8 4 0 0 .6 8 3 .3 3 3 .5 5 3 .3 7 3 .3 4 3 .2 1 3 .3 8 2 .9 1
8 1 7 4 8 2 8 1 8 4 8 9 9 0 8 9 8 5 5 4 8 5 6 3 8 1 8 3 2 3 0 1 .9 5 1 .9 4 3 .2 6 3 .4 4 2 .8 0 2 .3 5 3 .3 1
8 7 8 8 8 4 8 6 8 2 3 7 4 9 6 2 7 7 8 7 7 8 8 8 8 3 8 0 8 9 8 9 0 2 .8 5 2 .8 1 3 .4 6 3 .1 1 3 .1 0 3 .4 0
8 7 8 6 8 9 8 6 8 7 8 1 8 6 6 4 8 5 8 2 8 6 8 6 8 4 6 3 8 7 8 6 7 2 0 3 .2 3 3 .3 6 2 .4 4 2 .3 5 3 .4 7
8 2 8 6 8 9 8 8 8 9 8 6 8 6 8 3 8 7 8 8 8 6 8 9 8 7 8 5 8 5 8 6 8 7 8 5 0 2 .5 7 2 .7 7 3 .2 3 3 .4 3
8 2 8 3 8 8 8 9 8 8 9 0 9 0 8 8 8 7 8 5 8 4 8 7 8 5 8 6 8 4 8 4 8 8 8 7 6 6 0 3 .3 3 3 .4 1 2 .8 4
89 89 89 87 89 87 86 77 88 87 89 88 87 82 89 88 85
7 2 7 9 8 7 0 3 .3 5 3 .4 8
9 0 9 0 9 0 8 9 9 0 8 8 8 8 7 5 8 7 8 9 8 9 8 9 8 8 8 4 9 0 9 0 8 5 5 8 8 9 9 0 5 6 0 3 .5 1
86 87 83 69 83 90 90 90 89 72 89 71 90 90 83 80 90 89 90 87 84 81 0
152
d) Se representan las n(n 1)=2 distancias dij vs las dbij ; para visualizar
las relaciones de monotona.
La conguracin en 2 dimensiones (Figura 8.5) es la mejor aproximacin
en dimensin 2 a las distancias originales, (transformadas monotnicamente)
en el sentido de que minimiza el stress. En este caso el stresses del 19 %.
En cuanto a la interpretacin, se aprecian diversos gradientes de valoracin de los adjetivos:
1. Diminuto !Enorme
2. Bajo-Corto !Alto-Largo
3. Delgado !Grueso
4. Ligero !Pesado.
8.7. EJEMPLOS
153
Figura 8.5: Representacin MDS de 23 adjetivos teniendo en cuenta sus diferencias semnticas.
Figura 8.6: Relacin entre las distancias originales y las disparidades, indicando que se conserva bien la preordenacin de las distancias.
154
8.8.
Complementos
Captulo 9
ANLISIS DE
CORRESPONDENCIAS
9.1.
Introduccin
A1
A2
..
.
AI
B1
f11
f21
B2
f12
f22
BJ
f1J
f2J
..
fI1
f1
fI2
f2
.
fIJ
fJ
f1
f2
..
.
(9.1)
fI
n
P
P
donde fi = j fij es la frecuencia marginal de Ai ; f j = i fij es la frecuencia marginal de Bj : Debemos tener en cuenta que, en realidad, la tabla
155
156
A1
1
..
.
A2
0
..
.
i
..
.
0
..
.
0
..
.
...
AI
0
..
.
B1
1
..
.
B2
0
..
.
...
BJ
0
..
.
..
1
..
.
0
..
.
1
..
.
..
0
..
.
c = P0 1:
1 0
1 X;
n
c=
1 0
1 Y;
n
Dc = diag(c);
las matrices diagonales que contienen los valores marginales de las y columnas de P. Se verica
X0 X = nDr ;
Y0 Y = nDc ;
X0 Y = nP = N:
157
Por lo tanto, las matrices de covarianzas entre las, entre columnas y entre
las y columnas, son
S11 = Dr
rr0 ;
S22 = Dc
cc0 ;
S12 = P
rc0 :
Puesto que la suma de las variables es igual a 1, las matrices S11 y S22 son
singulares.
9.2.
V = Yb:
158
(9.2)
donde D es la matriz diagonal con los valores singulares en orden decreciente. Si u1 ; v1 son los primeros vectores cannicos, tendremos entonces
1=2
a = S11 u1 ;
1=2
b = S22 v1 ;
r=
1;
bi = Dc 1=2 vi ;
ri =
i;
i = 1; : : : ; m nfI; Jg:
En notacin matricial, los vectores que cuantican las categoras de las las
y de las columnas de N, son las columnas de las matrices
A0 = Dr 1=2 U;
B0 = Dc 1=2 V:
B = Dc 1=2 VD ;
(9.3)
pues el producto por una constante (en este caso un valor singular), no altera
las correlaciones.
9.3.
pi1 pi2
; ;
ri ri
piJ
);
ri
es decir, las probabilidades condicionadasP (B1 =Ai ); : : : ; P (BJ =Ai ): La matriz de perles de las las es
Q = Dr 1 P:
159
J
X
(pij =ri
j=1
pi0 j =ri0 )2
cj
(2)
=(
2
ii0 )
y G es
(2)
= g10 + 1g0
2G;
1r0 )G(I
(9.4)
Las distancias eucldeas entre las las de A coinciden con la distancia jicuadrado.
Relacionemos ahora estas coordenadas con las cuanticaciones anteriores.
De (9.2) tenemos
Dr 1=2 (P
y de
Dr1=2 (Dr 1 P
deducimos que
D1=2
r (I
1r0 )QDc 1 Q0 (I
160
I
X
(pij =cj
i=1
pij 0 =cj 0 )2
ri
y probar que las distancias eucldeas entre las las de la matriz B obtenidas
en (9.3), coinciden con esta distancia ji-cuadrado. Es decir, si centramos los
0
1
perles de las columnas C= (I 1c0 )Dc P0 ; entonces CDr 1 C = BB0 :
As pues, considerando las dos primeras coordenadas principales:
Filas
(a11 ; a12 )
(a21 ; a22 )
..
.
B1
B2
..
.
Columnas
(b11 ; b12 )
(b21 ; b22 )
..
.
AI (aI1 ; aI2 )
BJ
(bJ1 ; bJ2 )
A1
A2
..
.
obtenemos una representacin de las las y columnas de la matriz de frecuencias N: Esta representacin es ptima en el sentido de que aproximamos
una matriz por otra de rango inferior, vase (1.5).
9.4.
161
luego
Dr 1 (P
rc0 )BD 1 = A:
rc0 )BD 1 = r0 A:
B = Dc 1 P0 AD 1 :
(9.5)
Conviene notar que Dr 1 P son los perles de las las, y Dc 1 P0 son los perles
de las columnas. As pues tenemos que, salvo el factor dilatador D 1 ; (pues
los elementos diagonales de D son menores que 1), se verica:
1. Las coordenadas de las las son las medias, ponderadas por los perles
de las las, de las coordenadas de las columnas.
2. Las coordenadas de las columnas son las medias, ponderadas por los
perles de las columnas, de las coordenadas de las las.
Por ejemplo, la primera coordenada principal de las las verica:
ai1 =
(b11
pi1
pi2
+ b21
+
ri
ri
+ bJ1
piJ
);
ri
i = 1; : : : ; I;
1
1
(a11
p1j
p2j
+ a21
+
cj
cj
+ aI1
pIj
);
cj
j = 1; : : : ; J:
La Tabla 9.1 contiene unos datos articiales, que clasican 400 clientes
segn la edad (joven, mediana, mayor) y los productos que compran en un
supermercado.
162
Producto
A
B
C
D
E
Total
Edad
Joven Mediana Mayor Total
70
0
0
70
45
45
0
90
30
30
30
90
0
80
20
100
35
5
10
50
180
160
60
400
Tenemos:
0
1
0;175
0
0
B 0;1125 0;1125
0 C
B
C
C
P=B
B 0;075 0;075 0;075 C ;
@
0
0;2
0;05 A
0;0875 0;0125 0;025
B
B
r=B
B
@
0;175
0;225
0;225
0;250
0;125
C
C
C;
C
A
1
0;45
c = @ 0;40 A :
0;15
B
B
Q=B
B
@
1;00
0;50
0;33
0
0;70
1
0
0
0;50 0 C
C
0;33 0;33 C
C
0;80 0;20 A
0;10 0;20
6
6
A=6
6
4
Filas
1;0990
0;0551
0;1834
0;9231
0;5384
0;1199
0;4213
0;4815
0;1208
0;3012
2
7
7
7 B=4
7
5
Columnas
0;7525
0;6770
0;4522
3
0;0397
0;2393 5
0;7571
163
= 0; 6847
= 0; 6847
= 0; 6847
= 0; 6847
= 0; 6847
(0; 7525 1 + 0 + 0)
(0; 7525 0; 5 0; 677 0; 5 + 0)
1
(0; 7525 0; 33 0; 677 0; 33 0; 4522 0; 33)
1
(0 0; 677 0; 8 0; 4522 0; 2)
1
(0; 7525 0; 7 0; 677 0; 1 0; 4522 0; 2)
1
9.5.
La representacin de las y columnas utilizando las coordenadas principales A; B es la solucin simtrica. La representacin conjunta es posible
gracias a las frmulas (9.5). La representacin utilizando las matrices
A = Dr 1=2 UD ;
B0 = Dc 1=2 V;
164
Color ojos
CLARO
AZUL
CASTAO
OSCURO
Total
Color
cabellos
Rubio Rojo Castao Oscuro Negro Total
688
116
584
188
4
1,580
326
38
241
110
3
718
343
84
909
412
26
1,774
98
48
403
681
81
1,311
1,455 286
2,137
1,391
114
5,383
Tabla 9.2: Clasicacin de 5383 individuos segn el color de los ojos y del
cabello.
es decir, coordenadas principales para las las y coordenadas estndar para
las columnas, es la llamada solucin asimtrica. Esta solucin verica
P
rc0 = Dr AB00 Dc ;
6
A=6
4
0;4400
0;3996
0;0361
0;7002
0;0872
6
6
0;1647 7
7 B=6
6
5
0;2437
4
0;1345
Columnas
0;5437
0;1722
0;2324
0;0477
0;0402
0;2079
0;5891
0;1070
1;0784
0;2743
3
7
7
7
7
5
9.6.
=n
K
X
k=1
2
k;
165
siendo K = m nfI; Jg y
2
=n
I X
J
X
(fij
i=1 j=1
fi f j =n)2
fi f j
I X
J
X
(pij
i=1 j=1
2
ri cj )2
= :
ri c j
n
J
I X
X
p2ij
rc
i=1 j=1 i j
1:
166
Proposicin 9.6.1 V =
Prueba:
2
ii0
J
X
(pij =ri
pi0 j =ri0 )2
cj
j=1
J
X
pij
=
(
ri c j
j=1
pi0 j 2
) cj
ri0 cj
Por lo tanto
1 XXX
pij
V =
ri (
2 i=1 i0 =1 j=1 ri cj
I
pi0 j 2
) cj ri0
ri0 cj
i=1
PI
i0 =1
PJ
i=1
PI
i0 =1
p2
ij
j=1 ri r 2 c2 cj ri0 =
PJ
i j
=
PI
i=1
pij = cj ;
Prueba: Sea
k=1
i=1
PJ
PJ
p2ij
j=1 ri cj ri0
p2ij
j=1 ri cj ;
2)=2; siendo
i=1
PI
i=1
2
k:
W = Dr 1=2 (P
i0 =1
PI
=
=
PK
i=1
PI
PI
PI
pij pi0 j
j=1 ri ri c2j ri0 cj ri0
PI
PJ pij pi0 j
i0 =1
j=1
cj
PJ pij cj
j=1 cj = 1;
P
p2ij
i;j ri cj :
Entonces
2
m
X
k=1
2
k:
167
(2)
2r0 AA0 r = r0 a:
r = r0 a10 r + r0 1a0 r
Pero
0 1=2
2 0
2
r0 a = tr(D1=2
r AA Dr ) = tr(UD U ) = tr(D ):
Lo hemos probado para m = K; pero fcilmente vemos que la frmula tambin vale para m < K:
As pues, en la representacin por AC de las las y columnas de N en
dimensin m; el porcentaje de variabilidad geomtrica o inercia viene dado
por
P
Pm = 100
9.7.
m
k=1
PK
k=1
2
k
:
2
k
(9.6)
El AC combina y representa dos variables categricas. Pero se puede adaptar para estudiar ms de dos variables. Presentemos primero el procedimiento
para dos variables, que despus generalizaremos.
Escribimos la matriz n (I + J) de datos binarios como una matriz
n (J1 + J2 )
Z = [Z1 ; Z2 ]:
Entonces tenemos que
Bu = Z0 Z =
Z01 Z1 Z01 Z2
Z02 Z1 Z02 Z2
=n
Dr P
P0 Dc
168
b) [Z1 ; Z2 ]:
c) Bu :
Dimensin
N = Z01 Z2
Z = [Z1 ; Z2 ]
Bu = Z0 Z
J1
n
J2
(J1 + J2 )
(J1 + J2 )
(J1 + J2 )
Coordenadas
A (las)
B (columnas)
A
B
A
B
Valor propio
p
1+
2
p
( 1+2 )2
Consideremos a continuacin Q variables categricas con J1 ; : : : ; JQ estados, respectivamente, sobre n individuos. Sea J = J1 +
+ JQ : La tabla de
datos, de orden n J es la super-matriz de indicadores
Z = [Z1 ; : : : ; Zj ; : : : ; Zq ];
donde Zj es n Jj y contiene los datos binarios de la variable j: La tabla de
contingencia que tabula la combinacin de las variables i; j es Nij = Z0i Zj :
La matriz de Burt, de orden J J es
2
3
Z01 Z1 Z01 Z2
Z01 ZQ
6 Z0 Z1 Z0 Z2
Z02 ZQ 7
2
6 2
7
Bu = Z0 Z = 6 ..
7;
..
..
...
4 .
5
.
.
0
0
0
ZQ Z1 ZQ Z2
ZQ ZQ
donde las matrices Z0j Zj son diagonales.
9.8. EJEMPLOS
169
b) Bu :
En el caso a) representamos las J columnas e ignoramos las n las (individuos). En el caso b) tenemos una tabla de frecuencias J J simtrica
y podemos representar las las (=columnas) aplicando AC simple. Los dos
procedimientos son equivalentes, salvo que se cumple la relacin
B
k
=(
Z 2
k)
(Bu ) =
(Z)
B
k
Z
k
1 X
[
Q2 i6=j
J
Q
(Nij ) + (J
Z
k
Q)];
1;
siendo 2 (Nij ) la inercia para la tabla Nij ; vase Seccin 9.6: As pues podemos
constatar que AC puede servir tambin para representar ms de dos variables
categricas.
9.8.
Ejemplos
Ejemplo 9.8.1
La Tabla 9.3 contiene las frecuencias con la clasicacin cruzada de 1257
individuos segun Edad (E), Sexo (S), intencin de Voto (V) y Clase social
(C). Tenemos Q = 4; J = 12; J1 = 4; J2 = 2; J3 = 3; J4 = 2: Los datos
iniciales (matriz Z; solo mostramos 5 individuos) son de la forma:
170
Edad
>73 51-73 41-50
0
1
0
0
1
0
0
0
0
1
0
0
0
1
0
..
..
..
.
.
.
Votacin
26-40 <26 Izq Der
0
0
1
0
0
0
0
1
0
1
1
0
0
0
0
1
0
0
1
0
..
..
..
..
.
.
.
.
Clase
Alt Med Obr
0
1
0
1
0
0
0
0
1
1
0
0
0
1
0
..
..
..
.
.
.
Sexo
H M
1 0
0 1
1 0
0 1
1 0
.. ..
. .
9.8. EJEMPLOS
171
Edad
>73
51-73
41-50
26-40
<26
>73
51-73
41-50
26-40
<26
>73
51-73
41-50
26-40
<26
2
6
6
6
6
6
6
6
6
6
6
6
6
6
6
6
6
6
6
4
81
0
0
0
0
56
25
14
23
44
39
42
0
347
0
0
0
194
153
70
75
202
166
181
0
0
343
0
0
169
174
65
72
206
174
169
Hombres
Derecha Izquierda
Clase
4
0
27
8
27
4
17
12
7
6
Clase
8
4
21
13
27
12
14
15
9
9
Clase
8
15
35
62
29
75
32
66
14
34
Mujeres
Derecha Izquierda
alta
10
0
26
9
25
9
28
9
7
3
media
9
2
33
8
29
4
17
13
13
7
obrera
17
4
52
53
32
70
36
67
18
33
0
0
0
326
0
144
182
66
59
201
156
170
14
70
65
66
23
178
60
238
0
0
112
126
0
0
0
0
160
68
92
23
38
99
79
81
56
194
169
144
68
631
0
178
180
273
279
352
25
153
174
182
92
0
626
60
87
479
335
291
23
75
72
59
38
180
87
0
267
0
132
135
44
202
206
201
99
273
479
0
0
752
370
382
39
166
174
156
79
279
335
112
132
370
614
0
42
181
169
170
81
352
291
126
135
382
0
643
3
7
7
7
7
7
7
7
7
7
7
7
7
7
7
7
7
7
7
5
Tabla 9.3: Tabla de frecuencias combinando 1257 individuos segn edad, sexo,
clase social y voto (arriba) y correspondiente tabla de Burt (abajo).
172
Ejemplo 9.8.2
La Tabla 14.1 (Captulo 14), contiene las frecuencias de supervivencia
(S, NO), clasicadas por gnero (G), supervivencia (S), edad (E) y clase (C,
primera 1, segunda 2, tercera 3 y tripulacin T), del hundimiento del vapor
Titanic. Ahora Q = 4; J = 10; J1 = 2; J2 = 2; J3 = 2; J4 = 4: La Figura 9.4
representa esta combinacin de datos categricos. Los hombres adultos, la
tripulacin y la tercera clase estn ms cerca de NO, mientras que mujeres,
nios y primera clase estn ms cerca de S. Vase tambin el Ejemplo 14.5.1.
9.9.
173
MDS ponderado
w1=
g
X
wi = 1;
wi
g; w =
0;
i=1
1 (2)
2 0
U;
(9.7)
)(Ig w10 )D1=2
w = U
2 g
una descomposicin espectral, donde 2 = diag( 21 ; : : : ; 2p ) contiene los val(2)
ores propios y g = ( 2ij ):
0
D1=2
w (Ig 1w )(
2
ij wj
1
= w0
2
es
(2)
g w:
174
2
k
cor(Xk ; Xk0 ) = 0;
0
1=2
cov(Xk ; Xk0 ) = D1=2
w Xk Xk0 Dw =
= 0;
p
X
es
2
k:
k=1
siendo d un vector g
parte
1 0
w
2
Por otra parte
= 1d0 +d10
2XX0 ;
= w0 1d0 w
w0 XX0 w = d0 w:
1=2
1=2
d0 w =tr(Dw
XX0 Dw
) =tr(U
U0 ) =tr(
):
q
X
k=1
2
k:
175
n=
g
X
ni ;
i=1
B
B
B
M=B
B
B
@
1
1
0
0
0
0
0
0
1
1
1
0
0
0
0
0
0
1
C
C
C
C:
C
C
A
=M
gM
1 0
1
11 )(
n
2
e la matriz n
siendo U
es
(2)
n )(In
(9.9)
es
1 0
e 0 = YY0 ;
e 2U
11 ) = UD
n
(9.10)
Teorema 9.9.1 La solucin no ponderada Y sobre n coincide con la solucin ponderada X sobre g ; en el sentido de que obtenemos Y repitiendo
n1 ; : : : ; ng veces las las de X:
1
176
1 0
1
11 )M(
n
2
(2)
0
g )M (In
1 0
11 ) = YY0 :
n
Se verica
1 0
11 )M = M(Ig
n
Por lo tanto, de (9.8) tenemos
(In
1g w0 ):
1 (2)
w10 )M0 = MXX0 M0 ;
g )(Ig
2
que demuestra que Y = MX: En otras palabras, las coordenadas principales
no ponderadas Y son el resultado de repetir n1 ; : : : ; ng veces las coordenadas
X: La relacin entre los valores singulares es
M(Ig
1w0 )(
ek = g
k;
k = 1: : : : ; p:
9.10.
Complementos
p j (1 +
K
X
k=1
0 0
k aik bjk ):
9.10. COMPLEMENTOS
177
P
Si el trmino entre parntesis = K
k=1
para que log(1 + )
; entonces
0 0
k aik bjk ;
K
X
es sucientemente pequeo
0 0
k aik bjk ;
k=1
i = 1; : : : ; I;
pi0 j 2
pij 0
pi0 j 0 2
pij + pij 0
pi0 j + pi0 j 0 2
pij
) (
)] cj +[(
) (
)] cj 0 = [(
) (
)] (cj +cj 0 );
ri c j
ri0 cj
ri c j 0
ri0 cj 0
ri (cj + cj 0 )
ri0 (cj + cj 0 )
178
las las como medias ponderadas de las coordenadas de las columnas y recprocamente, las coordenadas (b1 ; : : : ; bJ ) de las columnas como medias ponderadas de las coordenadas de las las:
J
X
pij
ai =
bj ;
ri
j=1
bj =
I
X
ai
i=1
pij
:
cj
J
X
pij
bj ;
ri
j=1
bj =
I
X
i=1
ai
pij
:
cj
(9.11)
9.10. COMPLEMENTOS
179
1=2
h(x; y)g(y)
1=2
1
X
k uk (x)vk (y);
(9.12)
k=1
180
Captulo 10
CLASIFICACIN
10.1.
Introduccin
Clasicar los elementos de un conjunto nito consiste en realizar una particin del conjunto en subconjuntos homogneos, siguiendo un determinado
criterio de clasicacin. Cada elemento pertenece a un nico subconjunto,
que a menudo tiene un nombre que lo caracteriza. As clasicamos:
Las personas en hombres y mujeres.
Los trabajadores en actividades profesionales: servicios, industria, agricultura.
Los animales en especies, gneros, familias y rdenes.
Los libros de una biblioteca en arte, literatura, ciencia, informtica y
viajes.
Sea = f! 1 ; ! 2 ; : : : ; ! n g un conjunto nito con n elementos diferentes,
que abreviadamente indicaremos
= f1; 2; :::; ng:
Clasicar es tambin denir una relacin de equivalencia R sobre . Esta
relacin dene una particin sobre en m clases de equivalencia:
= c1 + c2 +
+ cm ;
182
10.2.
Jerarqua indexada
Las clasicaciones pueden ser jerrquicas o no jerrquicas . Una clasicacin jerrquica es una sucesin de clusterings tal que cada clustering se
obtiene agrupando clusters. Por ejemplo, si n = 5, una clasicacin jerrquica
es:
= f1g + f2g + f3g + f4g + f5g
= f1; 2g + f3; 4g + f5g
= f1; 2g + f3; 4; 5g
=
Denicin 10.2.1 Una jerarqua indexada (C; ) sobre est formada por
una coleccin de clusters C }( ) y un ndice tal que:
Axioma de la interseccin: Si c; c0 2 C entonces c \ c0 2 fc; c0 ; ;g:
Axioma de la reunin: Si c 2 C entonces c = [fc0 j c0 2 C; c0
La reunin de todos los clusters es el conjunto total:
cg:
= [fc j c 2 Cg:
El ndice es una aplicacin de C sobre el conjunto de nmeros reales positivos tal que:
(i) = 0; 8i 2 ;
(c)
(c0 ) si c
c0 :
fig 2 C:
2 C:
Comentarios:
1. El primer axioma signica que si tenemos dos clusters, uno est incluido
en el otro o ambos son disjuntos, es decir, c c0 ; c0 c; c \ c0 = ;:
Se trata de evitar que un elemento de
pertenezca a dos clusters
excluyentes a la vez, ya que entonces estara mal clasicado.
2. El segundo axioma signica que cada cluster es reunin de los clusters
que contiene. Es decir, reuniendo clusters obtenemos clusters ms amplios. Por ejemplo, en el reino animal, un gnero es reunin de especies,
una familia es reunin de gneros, etc.
183
(cij )
x;
a) cij
b) cjk
jRx k ) j; k 2 cjk;
(cjk )
x;
cjk ) i; k 2 cjk;
) iRx k:
cij ) i; k 2 cij;
en clases
Ejemplo 10.2.1
Consideremos n = 5 partidos polticos: CU (Conveniencia y Unin), PP
(Partido Pragmtico), PSC (Partido Social Cataln), IC (Iniciativa Catalana) y ER (Entente Republicana). Un ejemplo (hipottico) de jerarqua
indexada sobre ={CU,PP,PSC,IC,ER} es:
C ={CU0 ,PP0 ,PSC0 ,IC0 ,ERC0 ,{CU, PP}1 ,{PSC, IC}1;5 ,{PSC, IC, ERC}2 ,
donde el ndice est indicado como un subndice: (CU)=0, (CU,PP)=1,
etc. Tenemos entonces las siguientes particiones o clusterings:
=
=
=
=
3 },
184
10.3.
Geometra ultramtrica
Para presentar una clasicacin utilizamos llaves. Por ejemplo, la clasicacin divisiva de Nacin, Comunidades Autnomas y Provincias (slo vamos
a considerar 8) es:
Nacin
Autonomas Provincias
8
< Huesca
Teruel
:
8 Zaragoza
Barcelona
>
>
<
Gerona
Catalu~
na
Lerida
>
>
:
Tarragona
Madrid
Madrid
8
>
>
>
>
Aragon
>
>
>
>
>
>
<
Espa~
na
>
>
>
>
>
>
>
>
>
>
:
u(i; i) = 0:
de orden n
1
u1n
u2n C
C
.. C
. A
unn
uii = 0:
185
Proposicin 10.3.1 Una distancia ultramtrica verica la desigualdad triangular y por lo tanto es mtrica.
Demost.:
u(i; j)
186
si
u(i; j)
x;
(10.2)
187
+ cm
+ ci [ cj +
+ cm :
(10.3)
= u(ca ; cb )
supfu(ca ; ci ); u(cb ; ci )g = supfu0 (ca ; ci [ cj ); u0 (cb ; ci [ cj )g;
u0 (ca ; ci [ cj ) = u(ca ; ci )
supfu(ca ; cb ); u(cb ; ci )g = supfu0 (ca ; cb ); u0 (cb ; ci [ cj )g:
188
10.4.
A partir de un espacio ultramtrico podemos construir una jerarquia indexada. Nos lo permite el siguiente
Algoritmo fundamental de clasicacin
Sea ( ; u) un espacio ultramtrico. El fundamento de este algoritmo consiste en el hecho de que, en virtud del Teorema 10.3.5, juntando elementos o
clusters ms prximos, conservamos la propiedad ultramtrica.
1. Comencemos con la particin:
= f1g +
+ fng:
k 6= i; j;
+ fi; jg +
+ fng
(10.4)
10.5.
Una jerarqua indexada es una estructura conjuntista. Un espacio ultramtrico es una estructura geomtrica. Ambas estructuras son equivalentes.
189
Teorema 10.5.1 Sea (C; ) una jerarqua indexada total sobre un conjunto
: Entonces podemos denir una distancia ultramtrica u sobre : Recprocamente, todo espacio ultramtrico ( ; u) dene una jerarqua indexada (C; ).
Demost.: A partir de (C; ) denimos la siguiente distancia
u(i; j) = (cij );
donde cij es el mnimo cluster (respecto a la relacin de inclusin) que contiene i; j. Sea fi; j; kg un tringulo y sean tambin cik ; cjk los mnimos clusters
que contienen fi; kg; fj; kg respectivamente. Tenemos que
cik \ cjk 6= ;
y por tanto (axioma de la interseccin) hay dos posibilidades:
a) cik
b) cjk
u(j; k) = (cjk )
u(i; k) = (cik )
10.6.
B 21
B
= B ..
@ .
n1
12
1n
22
2n
..
.
n2
...
C
C
.. C
. A
nn
ij
ji
= (i; j);
ii
= 0:
190
+ fng:
k 6= i; j;
(10.5)
+ fi; jg +
+ fng;
(10.6)
10.6.1.
191
k 6= i; j:
(10.7)
(i; k) = a
(j; k);
se transforme en ultramtrico
0
(i; jg
(i; k) = 0 (j; k) = a:
Ejemplo. Sea
una matriz de distancias sobre
= f1; 2; 3; 4; 5g: El
mtodo del mnimo proporciona una jerarqua indexada (C; ) asociada a
una matriz ultramtrica U :
1 2 3 4 5
1 0 1 3 4 7
2
0 4 4 8
=
3
0 2 8
4
0 7
5
0
(1; 2; 3; 4)
(1; 2; 3; 4)
0
5
(1; 2)
3
!
4
5
(1; 2) 3 4
0
3 4
0 2
0
5
(1; 2) (3; 4)
7
(1; 2)
0
3
8 !
(3; 4)
0
7
5
0
5
7
!
7
0
5
7 ! C = ff1g0 ; : : : ; f5g0 ; f1; 2g1 ; f3; 4g2 ; f1; 2; 3; 4g3 ;
0
1 2 3 4 5
1 0 1 3 3 7
2
0 3 3 7
(C; ) ! U =
3
0 2 7
4
0 7
5
0
7g
192
(i; j)g
el conjunto de distancias ultramtricas ms pequeas que : Entonces la distancia ultramtrica u resultante de aplicar el mtodo del mnimo es el elemento mximo de U
u(i; j)
u(i; j);
u 2 U;
8i; j 2 :
Demost.: Sean fi; jg los elementos ms prximos. Entonces u(i; j) = (i; j):
La columna k (6= i; j) tendr trminos repetidos iguales a una distancia 0
construida tomando un mnimo. Si u
es otra distancia ultramtrica,
entonces: a) si es estrictamente ms pequea es evidente que u > u. b) si
u(k 0 ; k 00 ) es ms grande que u(k 0 ; k 00 ) pero es igual a alguna , entonces la
columna k tendr elementos repetidos, y al menos uno ser superior a 0 :
Contradiccin.
El razonamiento es parecido si consideramos un cluster c y un elemento
k2
= c: Comprese con U en el ejemplo anterior. Vase tambin el Teorema
10.7.3.
A la vista de este resultado, podemos decir que u es la mejor aproximacin
a por defecto.
10.6.2.
k 6= i; j:
(10.8)
(i; k)
(j; k) = b;
se convierta en ultramtrico
0
(i; jg
(i; k) = 0 (j; k) = b:
193
(i; j)g
el conjunto de distancias ultramtricas ms grandes que : Entonces la distancia ultramtrica u resultante de aplicar el mtodo del mximo es un elemento
minimal de U
u(i; j) u(i; j); u 2 U; 8i; j 2 :
As u es la mejor aproximacin a
por exceso.
Comentarios:
1. Las distancias u; u; y
verican:
u(i; j)
Hay igualdad u =
(i; j)
= u si y slo si
u(i; j):
es ultramtrica.
= '( ) ) u0 = '(u)
Demost.: En el proceso de encontrar la ultramtrica slo intervienen los rangos de los valores de ; que son los mismos que los rangos de los valores de
0
:
194
10.7.
rg:
Entonces
8i 2 B(i0 ; r) verif ica
supfu(i ; i
+1 )j
= 1; : : : ; m
1g:
Sea ahora
supfu(i1 ; im 1 ); u(im 1 ; im )g
supfsupfu(i ; i +1 )j = 1; : : : ; m 2g; u(im 1 ; im )g
supfu(i ; i +1 )j = 1; : : : ; m 1g:
= f1; 2; : : : ; ng y
(i ; i
+1 )
195
entonces u
u:
sup[i; j]2
Sea [i; j; k] una cadena que une i; j pero que contiene k: El conjunto de
las cadenas [i; j; k] est contenido en el conjunto de las cadenas [i; j]. Por lo
tanto:
nf sup[i; j]m
nf0 sup[i; k; j]m0
(10.9)
m
Por otra parte, dadas las cadenas [i; j]; [j; k] podemos construir
[i; k; j] = [i; j] [ [j; k]
de modo que
sup[i; k; j] = supfsup[i; j]; sup[j; k]g
Teniendo en cuenta (10.9) deducimos que
u(i; j)
Sea ahora u
sup u(i ; i
1
+1 )
sup[i; j]m
Por lo tanto
u(i; j)
196
Figura 10.2: Representacin mediante un dendograma que agrupa 11 profesores segn los artculos publicados conjuntamente.
10.8.
Ejemplos
10.8. EJEMPLOS
Are
Arenas
0
Corcuera 1
Cuadras 0.50
Fortiana 0.83
Marquez 1
Nualart
1
Oliva
1
Oller
1
Rovira
1
Sanz
1
Sarra
1
197
Cor
Cua For
0
1
1
1
1
1
0.75
1
1
1
0
0.06
1
1
0.33
1
1
1
1
0
1
1
1
1
0.33
0.75
0
1
1
0.33
1
1
1
1
0
1
1
1
0.93
1
0
1
1
1
1
0
1
1
1
San
Sar
0
0.11 0
1
0.25 0
198
Alemn
Ingls
Vasco
Cataln
Castellano
Dans
Filands
Francs
Gallego
Holands
Hngaro
Italiano
Noruego
Polaco
Ale
0
29
45
34
32
30
58
33
32
19
42
37
29
45
Ing Vas Cat Cas Dan Fil Fra Gal Hol Hun Ita Nor Pol
0
44
28
29
26
55
32
27
25
38
35
27
44
0
45
46
43
59
46
44
43
45
46
43
53
0
17
27
57
13
13
43
40
22
29
44
0
31
55
24
7
32
42
17
32
36
0
59
33
26
29
36
32
3
44
0
59
55
56
56
60
58
56
0
23
33
38
24
33
45
0
33
40
15
27
38
0
37
36
28
42
0
45
36
52
0
33 0
42 44
10.8. EJEMPLOS
199
200
10.9.
Clasicacin no jerrquica
= jWj=jTj:
10.10.
201
Nmero de clusters
tr(B(k)) tr(W(k))
=
;
g 1
n g
1)2=p W(k
1)
k 2=p W(k)
10.11.
log jW(k)j:
Complementos
La historia de la clasicacin comienza con la sistemtica de Carl von Linn, que permita clasicar animales y plantas segn gnero y especie. La clasicacin moderna (denominada taxonoma numrica) se inicia en 1957 con
202
+pg fg (x);
(i; k) +
(j; k) +
(i; j) + j (i; k)
(j; k)j;
10.11. COMPLEMENTOS
203
0
0
0
0
1=2
+1=2
0
0
204
Captulo 11
ANLISIS DISCRIMINANTE
11.1.
Introduccin
1;
2:
1 )P (
1)
205
+ P (R1 =
2 )P (
2 ):
(11.1)
206
11.2.
11.2.1.
Discriminador lineal
Sean 1 ; 2 los vectores de medias de las variables en 1 ; 2 ; respectivamente, y supongamos que la matriz de covarianzas es comn. Las distancias
de Mahalanobis de las observaciones x =(x1 ; : : : ; xp )0 de un individuo ! a las
poblaciones son
M 2 (x; i ) = (x
0
i)
(x
i );
i = 1; 2:
M 2 (x; 1 ) = x0 1 x+ 2
x0 1 x
0
= ( 2
1)
2x0 1 2
0
1
1
1 + 2x
1
( 2 + 1 ) + 2x0
2
1
2)
1
(
2
1+
2)
2) :
Tenemos que
M 2 (x; 2 )
2 ) =2)
y la regla (11.2) es
Si L(x) >0 asignamos ! a
en caso contrario asignamos ! a
1;
2:
(11.3)
11.2.2.
207
1;
2:
La funcin discriminante es
V (x) = log f1 (x)
11.2.3.
log f2 (x) :
Regla de Bayes
1) ;
q2 = P (
2) ;
q1 + q2 = 1:
Una vez que se dispone de las observaciones x =(x1 ; : : : ; xp ); las probabilidades a posteriori de que ! pertenezca a las poblaciones (teorema de Bayes)
son
qi fi (x)
; i = 1; 2:
P ( i =x) =
q1 f1 (x) + q2 f2 (x)
La regla de clasicacin de Bayes es
Si P (
1;
2:
El discriminador de Bayes es
B (x) = log f1 (x)
208
Esta ltima integral es mnima si R2 incluye todas las x tal que q1 f1 (x) q2 f 2 (x) <0
y excluye toda las x tal que q1 f1 (x) q2 f 2 (x) >0: Por tanto pce es mnima
si R2 = R2 ; donde R2 = fxjB(x) <0g:
11.3.
11.3.1.
1 1=2
p=2
i
expf
1
(x
2
0
i)
1
i
es Np ( 1 ;
(x
i )g:
2)
1)
Discriminador lineal
Si suponemos
6=
2;
V (x) = 21 (x
= L(x)
0
1)
= ; entonces
(x
1)
+ 21 (x
0
2)
(x
0
2)
2 ):
0
2)
(x
2)
+ 2(x
0
2)
1 )]
=p+ ;
y la varianza de V = (x
var(V ) = E((
0
1)
(x
2)
(x
209
2 )(x
0
2)
1 ))
= :
11.3.2.
Regla de Bayes
Si suponemos 1 6= 2 ;
priori q1 = P ( 1 ) ; q2 = P (
11.3.3.
La probabilidad de asignar x a
P (L(x) <0j
1)
cuando proviene de Np ( 1 ; ) es
= P ((L(x)
p
1p
1
)= ) = (
);
2
2
11.3.4.
Discriminador cuadrtico
1
2
1
2
1
2
0
1
x + x0 1 1 1
1
1
1 + 2 log j
1
1
2
2j
1
2
log j
1j
210
11.3.5.
(x1
x2 ) :
donde
b
L(x)
es N (
= (x1
11.3.6.
x2 )0 S
1
2
(x1
; 12 ) si x proviene de Np ( 2 ; );
x2 ) :
Un ejemplo
Ejemplo 11.3.1
Mytilicola intestinalis es un coppodo parsito del mejilln, que en estado
larval presenta diferentes estadios de crecimiento. El primer estadio (Nauplis)
y el segundo estadio (Metanauplius) son difciles de distinguir.
Sobre una muestra de n1 = 76 y n2 = 91 coppodos que se pudieron identicar al microscopio como del primero y segundo estadio respectivamente,
se midieron las variables
l = longitud, a = anchura,
211
x1 =
S1 =
x2 =
S2 =
Estadio-2
( 241;6 147;8 )
210;9 57;97
57;97 152;8
Discriminador lineal
La estimacin de la matriz de covarianzas comn es:
S = (n1 S1 + n2 S2 )=(n1 + n2 ) =
301;4 31;02
31;02 222;6
0;069long
(461;1; 285;9)
301;4 31;02
31;02 222;6
22;1
9;7
0;034anch + 20; 94
0;069long
0;034anch + 20;24
212
Figura 11.1: Discriminadores lineal y cuadrtico en la clasicacin de coppodos en Estadios 1 y 2. La lnea recta es el conjunto de puntos tales que L = 0:
La parbola es el conjunto de puntos tales que Q = 0:
9;7
301;4 31;02
31;02 222;6
22;1
9;7
= 1;872:
1p
1;872) = ( 0;684) = 0;247:
2
213
Discriminador cuadrtico
El test de homogeneidad de covarianzas nos da:
2
= [1
13 1
1
( +
18 75 90
1
)](1835;4
165
882;5
con 3 g.l. Las diferencias entre las matrices de covarianzas son signicativas. Por tanto, el discriminador cuadrtico puede resultar ms apropiado.
Efectuando clculos se obtiene:
Q(long; anch) = 0;0014long2 + 0;002anch2 0;002long
0;445long 0;141anch + 72;36
anch
11.4.
11.4.1.
Discriminadores lineales
0
i)
(x
i );
i = 1;
; k;
; M 2 (x;
k )g;
asignamos ! a
i:
(11.5)
214
1
2
asignamos ! a
i:
M 2 (x; i )]:
Lji (x) :
Lir (x) :
11.4.2.
1 funciones discriminantes.
asignamos ! a
i:
Qij (x) = 21 x0
+ 21
0
j
1
j
1
2
0
i
x + x0
1
i
1
i
+ 21 log j
1
1
j
jj
1
2
log j i j :
11.4.3.
215
Regla de Bayes
asignamos ! a
i;
k
X
i=1
cuando en realidad
k
X
P (j=i));
qi (
j6=i
11.4.4.
Un ejemplo clsico
Continuando con el ejemplo 3.6.2, queremos clasicar a una de las 3 especies una or cuyas medidas son:
x1 =6.8 x2 =2.8 x3 =4.8 x4 =1.4
La matriz de covarianzas comn es
0
0;2650 0;0927 0;1675 0;0384
B
0;1154 0;05524 0;0327
S=B
@
0;18519 0;0426
0;0418
1
C
C
A
216
Individuo
L12
L13
L21
L23
L31
L32
Poblacin
x
-51.107 -44.759 51.107 6.3484 44.759 -6.3484
2
Por lo tanto clasicamos la or a la especie I. Versicolor.
Para estimar la probabilidad de clasicacin errnea pce podemos omitir
una vez cada individuo, clasicarlo a partir de los dems y observar si sale
bien clasicado (mtodo leaving-one-out). El resultado de este proceso da:
Poblacin 1
original
2
3
Poblacin asignada
1
2
3
50
0
0
0
48
2
0
1
49
Captulo 12
DISCRIMINACIN
LOGSTICA Y OTRAS
12.1.
12.1.1.
Introduccin
p)1 y ;
pues L = p si y = 1; L = 1 p si y = 0:
Si realizamos n pruebas independientes y observamos y1 ; : : : ; yn , la verosimilitud es
n
Y
L=
pyi (1 p)1 yi = pk (1 p)n k
i=1
217
218
P
siendo k =
yi la frecuencia absoluta de A en las n pruebas. Para estimar
p resolvemos la ecuacin de verosimilitud
@
ln L = 0
@p
cuya solucin es pb = k=n; la frecuencia relativa del suceso A: La distribucin
asinttica de pb es normal N (p; p(1 p)=n):
Muy distinta es la estimacin cuando esta probabilidad depende de otras
variables. La probabilidad de A debe entonces modelarse adecuadamente.
12.1.2.
p(x)
]=
1 p(x)
1 x1
p xp
x;
(12.1)
siendo = ( 1 ;
; p )0 parmetros de regresin: El modelo (12.1) equivale a
suponer las siguientes probabilidades para A y su contrario, ambas en funcin
de x
0
e 0+ x
1
p(x) =
1 p(x) =
0 ;
0 :
+
x
0
1+e
1 + e 0+ x
Hagamos ahora una breve comparacin con el modelo lineal. El mdelo de
regresin lineal (vase Captulo 13) es
y=
1 x1
p xp
+ e;
219
12.1.3.
0 entonces y = 0:
p(x))1 y : La
..
x1p
x2p
..
.
xnp
n
Y
p(xi )yi (1
p(xi ))1
yi
i=1
Tomando logaritmos
ln L =
n
X
i=1
yi ln p(xi )(1
p(x))1
yi
C
C
C:
A
0
en el modelo,
220
@
@
j = 0; 1; : : : ; p:
ln(1 + e
1 xi
0 + 1 xi
ln p(xi ) = 1
ln p(xi ) = xij
de-
e 0 + xi
0
1+e 0 + xi
0
e 0+ x
xij 1+e 0 + 0 xi
), luego
=1
p(xi )
= xij (1
p(xi ))
12.1.4.
221
12.1.5.
En regresin logstica se obtiene el ajuste del modelo calculando la verosimilitud L del modelo (estimando los parmetros por mxima verosimilitud) y
utilizando el llamado estadstico de desviacin:
D=
2 ln L(modelo de regresin).
2 ln
L(modelo de regresin)
L(modelo saturado)
222
12.1.6.
Curva ROC
1:
1:
223
Entonces no es posible distinguir entre las dos poblaciones. En otras palabras, la funcin discriminant logstica Lg (x) = ln[p(x)=(1 p(x))] tiene
exactamente la misma distribucin tanto si y = 1 como si y = 0:
El rea bajo la curva ROC es siempre mayor o igual que 0;5: Un valor
a partir de 0;8 se considera como que la discriminacin es buena. Un valor
a partir de 0;9 se considerara como muy bueno. La discriminacin sera
perfecta si el rea vale 1. Vase Hosmer y Lemeshow (2000).
Ejemplo 12.1.1
En un estudio epidemiolgico sobre n = 189 mujeres que han tenido un
beb, se intent estudiar las causas (edad, peso antes embarazo, fumar, etc.)
que provocan el nacimiento de un beb prematuro. Se considera que un beb
es prematuro si su peso est por debajo de los 2500 gramos. Visitando la
pgina web
http://www.umass.edu/statdata/statdata/
(!Data sets, Regression-Logistic) se puede bajar el chero Low Birthweight. Consideramos LOW como variable dependiente (0 si peso mayor
2500gr, 1 si menor que 2500gr) y las variables predictoras AGE (edad), LWT
(peso de la madre), RACE (1=blanco, 2=negro, 3=otros), SMOKE (0=no
fuma, 1=fuma).
Las estimaciones de los parmetros 0 ; 1 ; : : :, sus desviaciones tpicas y el
estadstico de Wald se dan en el siguiente cuadro. La variable race (categrica
con 3 estados), se desglosa en 2 variables binarias.
Variable
Age
Weight
Race
Race_1
Race_2
Smoke
Visits
Constant
D = 2log-veros
-0.022
-0,012
-0.94
0.29
1.05
-0.008
-0.79
214.57
p
0.622
0.052
0.020
0.024
0.583
0.006
0.963
0.000
224
% Normales pred.
9,2
50,0
93,8
100
100
La curva ROC es el grco conjunto de la Sensibilidad (eje vertical) y 1Especicidad (eje horizontal), variando la probabilidad de corte. La diagonal
indicara empate (no se distingue entre beb de bajo peso y beb normal).
El rea bajo la curva ROC es 0; 5 en el peor de los casos (que la curva ROC
coincida con la diagonal). En este ejemplo (Figura 11.2) el rea vale 0; 684;
indicando que el modelo posee una capacidad de prediccin moderada.
12.1.7.
225
Figura 12.1: Curva ROC que representa las curvas de Sensibilidad y 1Especicidad para los datos de bebs con bajo peso.
e
1
(x
2
1)
1
(x
2
1 (x
1)
1)
1
1 (x
+e
1)
1
(x
2
0)
1 (x
(x
0)
0)
Puesto que
L(x) =
0
1
(
2
1)
e L(x)
:
1 + e L(x)
x siendo
0
0)
0) ;
0)
y teniendo
L(x);
0) =
1 (x
0) ;
226
0
0)
0 ):
ST( ).
0,069 0,012
0,031 0,013
-20,23 3,277
167,12
Wald
31,21
5,859
38,15
g. l. p valor
1
0,000
1
0,015
1
0,000
;
20;23+0;069l+0;031a
227
Figura 12.2: Curvas ROC para el discriminador lineal y el logstico (izquierda). Ambas curvas son indistinguibles (derecha), indicando la misma eciencia para discriminar entre los dos estadios. El rea bajo la curva ROC es
0,838.
12.2.
Los mtodos que hemos descrito funcionan bien con variables cuantitativas o cuando se conoce la densidad. Pero a menudo las variables son binarias,
categricas o mixtas. Aceptando y aplicando el principio de que siempre es
posible denir una distancia entre observaciones, es posible dar una versin
del anlisis discriminante utilizando solamente distancias.
12.2.1.
La funcin de proximidad
Sea
una poblacin, X un vector aleatorio con valores en E
Rp y
densidad f (x1 ; :::; xp ) : Sea una funcin de distancia entre las observaciones
de X: Denimos la variabilidad geomtrica como la cantidad
1
V (X) =
2
228
(x) es la media de las distancias de x; que es ja, a t; que vara aleatoriamente, menos la variabilidad geomtrica.
Teorema 12.2.1 Supongamos que existe una representacin de (E; ) en un
espacio L (Eucldeo o de Hilbert)
(E; ) ! L
con un producto escalar < :; : > y una norma kzk2 =< z; z >, tal que
2
donde
(x; y) = k (x)
(y)k2 ;
(x) = k (x)
kE( (X))k2 :
E( (X))k2 :
12.2.2.
La regla discriminante DB
= (x
y)0
1
i
(x
y) ;
i = 1; 2;
lo nico que cambia es la matriz . Debe quedar claro que depende del
vector aleatorio X, que en general tendr diferente distribucin en 1 y 2 .
229
Seguidamente, mediante (12.3), encontraremos las funciones de proximidad 21 ; 22 , correspondientes a 1 ; 2 . Sea ! un individuo que queremos
clasicar, con valores x = X (!).
La regla de clasicacin basada en distancias (DB, distance-based) es:
2
Si 21 (x)
2 (x) asignamos ! a
en caso contrario asignamos ! a
1;
2:
(x) = k (x)
E i ( (X))k2 ;
i = 1; 2;
12.2.3.
0
i)
(x) = (x
(x
i)
y el discriminador lineal es
L (x) =
1
2
2
2
(x)
(x; y) = (x
=0
y)0
1
i
2
1
2;
(x) :
2)
y) + log j i j =2
(x
1
2
2
i
2
2
(x)
2
1
(x) :
es la distancia de
x 6= y;
x = y;
230
E (x) = [x
0
2 )]
(12.4)
2) ;
12.2.4.
muestra de
muestra de
1;
(12.5)
2;
2
ij
(1) ;
n2
1 X
b
V2 = 2
2n2 i;j=1
2
ij (2):
2
i (1)
Vb1 ;
n2
X
b2 (y) = 1
2
n2 i=1
2
2
Si b1 (x) b2 (y) asignamos ! a
en caso contrario asignamos ! a
2
i (2)
1;
2:
Vb2 :
231
y; y1 ; y2 ; :::; yn2 2 Rq ;
b2 (x) = d2 (x;x) ;
1
E
Por otro
1
2n2
Restando
Ejemplo 12.2.1
n
P
d2 (xi ; x) =
i=1
n
P
d2 (xi ; xj ) =
i;j=1
1
n
1
n
n
P
i=1
n
P
i=1
1
2n2
Pn
i=1
x)0 (xi
(xi
x)
x0i xi + x0 x 2x0 x:
n
P
(xi
i;j=1
n
P
1
x0i xi
n
i=1
xj )0 (xi
xj )
x0 x:
232
Tomando los 137 casos, se calcula el nmero de individuos mal clasicados utilizando el discriminador lineal LDF (11.2), el discriminador eucldeo
(12.4), el location model LM (que consiste en ajustar un discriminador
lineal para cada combinacin de las variables categricas) y el discriminador
basado en distancias DB, utilizando la similaridad de Gower (8.12) para variables mixtas y transformndola en distancia mediante (8.8). Los resultados
estn contenidos en la siguiente tabla. Con el mtodo DB se clasican equivocadamente slo 39 mujeres.
Tumor Benigno Maligno Total
Casos
78
59
137
LDF
31
27
58
EDF
29
37
56
LM
21
24
45
DB
18
21
39
Para otros ejemplos con datos categricos o mixtos, vase Cuadras (1992b).
12.3.
Complementos
1 =x)
la regla de clasicacin es
! es de
en caso contrario.
1
1+e +
= F(
x),
12.3. COMPLEMENTOS
233
234
Captulo 13
EL MODELO LINEAL
13.1.
El modelo lineal
+ xi2
+ xim
..
+ ei ;
x1m
x2m
..
.
xnm
10
1. El vector de observaciones:
y = (y1 ; y2 ; : : : ; yn )0 :
2. El vector de parmetros:
1;
235
CB
C B
CB 2 C B
C B .. C + B
A@ . A @
=(
2; : : : ;
(13.1)
i = 1; : : : ; n;
0
m) :
e1
e2
..
.
en
C
C
C:
A
236
3. La matriz de diseo:
1
x1m
x2m C
C
C:
A
xnm
x11 x12
B x21 x22
B
X =B
...
@
xn1 xn2
e = (e1 ; e2 ; : : : ; en )0
La notacin matricial compacta del modelo es:
y = X + e:
Solamente y y X son conocidas. En los modelos de regresin, X contiene
las observaciones de m variables explicativas. En los modelos de anlisis de
la varianza, X contiene los valores 0; 1 1; segn el tipo de diseo experimental que siguen los datos.
13.2.
i = 1; : : : ; n:
2. E(ei ej ) = 0;
3. var(ei ) =
i 6= j = 1; : : : ; n:
i = 1; : : : ; n:
In :
Si podemos suponer que los errores son normales y estocsticamente independientes, entonces estamos ante un modelo lineal normal
y
Nn (X ; 2 In ):
m y cuando
237
13.3.
Estimacin de parmetros
13.3.1.
Parmetros de regresin
X )0 (y
X )=
n
X
(yi
xi1
:::
xim
2
m)
(13.2)
i=1
sea mnimo.
X0 X = X0 y
(13.3)
X )0 (y
X ) = y0 y 2 0 X0 y+2 X0 X :
e igualando a cero
2X0 y+2X0 X = 0
obtenemos (13.3).
Distinguiremos dos casos segn el rango del diseo.
a) r = m: Entonces la estimacin de es nica:
b = (X0 X) 1 X0 y:
(13.4)
X b )0 (y
ybi = xi1 b1 +
Xb) =
n
X
(yi
i=1
+ xim bm :
es
ybi )2 ;
238
13.3.2.
Varianza
X b ) = X0 y
X0b
e= X0 (y
X0 X b = 0:
Teorema 13.3.3 Sea y = X + e el modelo lineal donde e satisface las suposiciones bsicas del modelo (Seccin 13.2). Entonces el estadstico
b2 = R02 =(n
r);
= i si i r;
= 0 si i > r;
R02
=b
eb
e=b
e TT b
e=
n
X
i=r+1
zi2 :
239
E(zi2 ) = var(zi ) =
E(zi ) = 0;
i > r;
y por tanto
E(Ro2 ) =
n
X
E(zi2 ) = (n
r) 2 :
i=r+1
3. U = ( b
)0 X0 X( b
)=
2
m:
2
n
2
n m:
13.4.
13.4.1.
Regresin mltiple
sigue la distribucin
+ xi1
+ xim
+ ei ;
i = 1; : : : ; n;
(13.5)
240
donde yi es la i-sima observacin de Y; y xi1 ; : : : ; xim son las i-simas observaciones de las variables explicativas. La matriz de diseo es
0
1
1 x11
x1m
B 1 x21
x2m C
B
C
X = B .. ..
.. C :
.
.
@ . .
.
. A
1 xn1
xnm
13.4.2.
Diseo de un factor
Supongamos que una variable observable Y ha sido observada en k condiciones experimentales diferentes, y que disponemos de ni rplicas (observaciones independentes de Y ) yi1 ; : : : ; yini bajo la condicin experimental i: El
modelo es
yih = + i + eih ; i = 1; : : : ;k; h = 1; : : : ;ni ;
(13.6)
donde es la media general y i es el efecto aditivo de la condicin i: Las
desviaciones aleatorias eih se suponen normales independientes. En el modelo
(13.6), se supone la restriccin lineal
1
= 0;
B
B
B
B
X= B
B
B
B
@
13.4.3.
1
1
1
1
1
1
1
1
1
0
0
0
0
0
0
0
1
1
0
0
0
0
0
0
0
1
1
1
31
C
C
C
C
C;
C
C
C
A
B
B
B
B
e
X= B
B
B
B
@
1
1
1
1
1
1
1
1
1
0
0
1
1
1
0
0
1
1
1
1
1
21
C
C
C
C
C:
C
C
C
A
241
(13.7)
+ eij ;
donde es la media general, i es el efecto aditivo del nivel i del factor la, j
es el efecto aditivo del nivel j del factor columna. Las desviaciones aleatorias
eij se suponen normales independientes. En el modelo (13.6) se suponen las
restricciones lineales
a
b
X
X
(13.8)
i =
j = 0:
i=1
j=1
B
B
B
B
B
B
X= B
B
B
B
B
B
@
13.5.
1
1
1
1
1
1
1
1
1
1
0
0
1
0
0
1
0
0
0
1
0
0
1
0
0
1
0
0
0
1
0
0
1
0
0
1
1
1
1
0
0
0
0
0
0
0
0
0
1
1
1
0
0
0
31
0
0
0
0
0
0
1
1
1
B
B
B
B
B
B
e = B
X
B
B
B
B
B
@
C
C
C
C
C
C
C;
C
C
C
C
C
A
1
1
1
1
1
1
1
1
1
1
0
1
1
0
1
1
0
1
0
1
1
0
1
1
0
1
1
1
1
1
0
0
0
1
1
1
0
0
0
1
1
1
1
1
1
C
C
C
C
C
C
C:
C
C
C
C
C
A
Hiptesis lineales
+ him
= 0;
i = 1; : : : ; t:
es
242
(13.9)
(13.10)
La estimacin LS de
es
e = XC:
X
b = (X
e 0 X)
e 1 Xy
e
e b)0 (y X
e b):
R12 = (y X
243
X b H )0 (y
XbH )
X b )0 (y
X b );
X b H )0 (y
R12 = (y
X b H ):
2
n r:
2. Si H0 es cierta
R12
2
siendo r0 = r
2
n r0 ;
R02
R12
2
2
t;
t:
es suma de (n r) cuadra-
244
Cr (X) = [t1 ; : : : ; tr ]:
n
X
zi2
i=r 0 +1
y R12 =
sigue la distribucin
R12
2
n r0 :
R02 =
zi2
i=r 0 +1
y (R12
R02 )=
2
t;
sigue la distribucin
donde t = r
r0 :
R02 no tienen
2
2
(R12
R02 ) n
R02
r
t
Fnt r :
(13.11)
13.6.
= 0;
13.7. COMPLEMENTOS
245
n
X
(yi
i=1
R12
ybi ) ;
n
X
(yi
y)2 ;
i=1
(R12
R02 ) n
m
m
R02
Fnm m 1 :
i=1
R2 n
1 R2
m
m
Fnm m 1 :
Rechazaremos H0 si F es signicativa.
13.7.
Complementos
246
Captulo 14
ANLISIS DE LA VARIANZA
(ANOVA)
El anlisis de la varianza comprende un conjunto de tcnicas estadsticas
que permiten analizar cmo operan diversos factores, estudiados simultneamente en un diseo factorial, sobre una variable respuesta.
14.1.
Diseo de un factor
Si escribimos
yih =
donde
y1n1
y2n2
yknk
+
i
i;
+ eih ;
i = 1; : : : ;k; h = 1; : : : ;ni ;
P
= (1=ni )P hP
yih
= (1=n) i h yih
= n1 +
+ nk
248
Indiquemos tambin:
P
2
= Pi n
Pi (yi y) 2
= Pi Ph (yih yi )
= i h (yih y)2
b i = yi ;
son
i = 1; : : : ; k;
k:
R02 = QE :
Por tanto, como una consecuencia del Teorema 13.5.1, tenemos que:
1. QD =(n
k) es un estimador centrado de
2. Si H0 es cierta, QE =(k
y QD =
2
n k:
QT
2
QE
2
n 1;
2
k 1:
QE =(k
QD =(n
1)
k)
Fnk k1 :
(14.1)
14.2.
249
Supongamos que las observaciones de una variable Y dependen de dos factores A, B, denominados factores la y columna, con a y b niveles A1 ; : : : ;Aa
y B1 ; : : : ;Bb ; y que disponemos de una observacin para cada combinacin
de los niveles de los factores:
A1
A2
..
.
Aa
B1
y11
y21
..
.
B2
y12
y22
..
.
ya1
y1
ya2
y2
..
Bb
y1b
y2b
..
.
y1
y2
..
.
yab
yb
ya
y
siendo
1X
yij ;
b j=1
b
yi =
1X
yij ;
a i=1
a
yj =
1 XX
yij ;
ab i=1 j=1
a
y =y=
las medias por las, por columnas y general. Supongamos que los datos se
ajustan al modelo (13.7) con las restricciones (13.8), donde es la media
general, i es el efecto del nivel Ai del factor la, j es el efecto del nivel Bj
del factor columna. El rango del diseo y los g.l. del residuo son
r = 1 + (a
1) + (b
1) = a + b
1; n
r = ab
(a + b
1) = (a
y;
bi
bj = (yij
bj = y j
b i = yi
yi
y;
y j + y):
a X
b
X
i=1 j=1
(yij
yi
y j + y)2 :
1)(b
1):
250
QT = QA + QB + QR :
En el modelo de dos factores, las hiptesis de inters son:
H0A :
H0B :
1
1
=
=
=
=
a
b
Ambas hiptesis son demostrables. Supongamos H0B cierta. Entonces el modelo se transforma en yij = + i + eij ; es decir, acta solamente un factor,
y por tanto
a X
b
X
2
R1 =
(yij yi )2 :
i=1 j=1
yi )2 = ((y j
y)+(yij
yi
y j +y))2 resulta
R12 = QB + QR :
Anlogamente, si H0F es cierta, obtendramos R12 = QA + QR : Por el Teorema
13.5.1 se verica:
1. QR =(a 1)(b 1) es un estimador centrado de
y QR =
2
(a 1)(b 1) :
251
QA (a 1)(b 1)
QR
(a 1)
a
F(a
1
1)(b 1) ;
b
F(a
1
1)(b 1) :
14.3.
QB (a 1)(b 1)
QR
(b 1)
Supongamos que las observaciones de una variable Y dependen de dos factores A, B, denominados factores la y columna, con a y b niveles A1 ; : : : :Aa
y B1 ; : : : ;Bb ; y que disponemos de c observaciones (rplicas) para cada combinacin de los niveles de los factores:
A1
A2
..
.
Aa
B1
y111 ; : : : ; y11c
y211 ; : : : ; y21c
..
.
B2
y121 ; : : : ; y12c
y221 ; : : : ; y22c
..
.
ya11 ; : : : ; ya1c
y1
ya22 ; : : : ; ya2c
y2
..
Bb
y1b1 ; : : : ; y1bc
y2b1 ; : : : ; y2bc
..
.
y1
y2
..
.
yab1 ; : : : ; yabc
yb
ya
y
siendo
b;c
1 X
yi =
yijh ;
bc j;h=1
yj
a;b;c
1 X
y=y =
yij :
abc i;j;h=1
1X
=
yijh ;
c h=1
c
yij
a;c
1 X
=
yijh ;
ac i;h=1
ij
+ eijh ;
i = 1; : : : ; a; j = 1; : : : ; b; h = 1; : : : ; c;
siendo la media general, i el efecto del nivel Ai del factor la, j el efecto
del nivel Bj del factor columna, ij la interaccin entre los niveles Ai ;Bj . El
252
i=1
b
X
j=1
a
X
ij
i=1
b
X
ij
= 0:
j=1
1) + (b
1) + (a
1)(b
1) = ab
b i = yi
b = yj
j
y;
bij = yij
yi
bij = (yij
y):
y;
bi
bj
y j + y;
a;b;c
X
(yijh
yi )2 :
i;j;h=1
QT = QA + QB + QAB + QR :
Las hiptesis de inters son:
H0A :
H0B :
H0AB :
=
1 =
11 =
1
=
=
=
253
FA
FB
FAB
14.4.
a 1
Fab(c
1)
b 1
Fab(c
1)
(a 1)(b 1)
1)
Fab(c
Diseos multifactoriales
A
i
B
j
C
k
AB
ij
AC
ik
BC
jk
ABC
ijk
+ eijkh ;
siendo:
C
B
A
i ; j ; k
AB
AC
BC
ij ; ik ; jk
ABC
ijk
eijkh
=
=
=
=
=
media general,
efectos principales de A,B,C,
interacciones entre A y B, A y C, B y C,
interaccin entre A,B y C,
desviacin aleatoria N (0; 2 ):
254
g.l., AB tiene (a
D; el residuo es
1)(b
1) + (a
1)(d
1) +
+ (a
1)(b
1)(c
1)(d
1) = abc(d
1)
A=(a 1)
;
R=q
F =
AB=(a
1)(b
R=q
1)
A
i
B
j
C
k
AB
ij
+ eijkh
1)(c
1) + (b
1)(c
1) + (a
1)(b
1)(c
1) + q:
14.5.
A=(a 1)
;
R0 =q 0
F =
AB=(a 1)(b
R0 =q 0
1)
Modelos log-lineales
255
B1
f11
f21
..
.
B2
f12
f22
..
.
..
Bb
f1b
f2b
..
.
f1
f2
..
.
Aa
fa1 fa2
fab fa
f1 f2
fb n
P
P
donde fi =
j fij ; f j =
i fij son las frecuencias marginales de Ai ;Bj
respectivamente. Indiquemos las probabilidades
pij = P (Ai \ Bj );
pi = P (Ai );
p j = P (Bj ):
Fi = npi ;
F j = np j ;
la condicin de independencia es
ln Fij = ln Fi + ln F j
ln n;
A
i
B
j ;
(14.2)
P P
= ( ai=1 bj=1 ln Fij )=ab;
P
= ( bj=1 ln Fij )=b
;
Pa
= ( i=1 ln Fij )=a
:
A
i
B
j
AB
ij ;
256
B
A
= ln Fij
donde AB
j es la desviacin del modelo lineal. La
i
ij
similitud con el modelo ANOVA de dos factores es bastante clara.
En las aplicaciones no conocemos las frecuencias esperadas Fij ; sino las
frecuencias observadas fij : Entonces la estimacin de los parmetros es muy
semejante al modelo ANOVA, pero los contrastes de hiptesis se resuelven
mediante ji-cuadrados.
La hiptesis de inters es la independencia entre A y B
AB
ij
H0 :
= 0;
que equivale a decir que los datos se ajustan al modelo (14.2). Sean
Fbij = nfi
fj
las estimaciones mximo-verosmiles de las frecuencias esperadas. El test jicuadrado clsico consiste en calcular
X
(fij Fbij )2 =Fbij
i;j
A
i
B
j
C
k;
A
i
B
j
C
k
AB
ij
AC
ik
BC
jk ;
A
i
B
j
C
k
AB
ij
AC
ik
BC
jk
ABC
ijk ;
A
i
B
j
C
k
BC
jk :
257
Clase
Gnero
Edad Supervivencia 1
2
3
T
Hombre Adulto
NO
118 154 387 670
Mujer
4
13
89
3
Hombre Nio
0
0
35
0
Mujer
0
0
17
0
Hombre Adulto
S
57
14
75 192
Mujer
140
80
76 20
Hombre Nio
5
11
13
0
Mujer
1
13
14
0
Tabla 14.1: Tabla de frecuencias combinando gnero, edad, supervivencia y
clase, de los datos del "Titanic".
14.5.1.
Ejemplo
Ejemplo 14.5.1
Analicemos los datos de supervivencia del "Titanic"(vase el Ejemplo
9.8.2), Tabla 14.1.
Indicamos por la parte del modelo que contiene los efectos principales
y las interacciones de orden inferior a la mxima propuesta. Por ejemplo, en
el caso del modelo [GESC], tendramos
=
G
i
E
j
S
k
C
l
GE
ij
GS
ik
GC
il
ES
jk
EC
jl
SC
kl
2
Smbolo
g.l.
p
[G][E][S][C]
1216.4 25 0.000
[GE][GS][GC][ES][EC][SC] 112.33 13 0.000
[GES][GEC][GSC][ESC]
5.3
3 0.151
[GEC][S]
659.3 15 0.000
[GEC][GSC][GES]
32.3
6 0.000
[GESC]
0
[GEC][GSC][ESC]
9.2
4 0.056
258
14.6.
Complementos
Captulo 15
ANLISIS DE LA VARIANZA
(MANOVA)
15.1.
Modelo
B
B
Y =B
@
y11 y12
y21 y22
..
..
.
.
yn1 yn2
..
y1p
y2p
..
.
ynp
C
C
y1 ;e
y2 ; : : : ;e
yp ];
C = [e
A
Y = XB + E
259
(15.1)
260
x11 x12
x21 x22
..
..
.
.
xn1 xn2
..
C
C
C;
A
xnm
x1m
x2m
..
.
11
12
1p
21
22
2p
..
.
..
.
m1
m2
...
..
.
mp
C
C
C;
A
C
C
C:
A
Las matrices Y y X son conocidas. Suponemos que las las de E son independientes Np (0; ):
15.2.
Estimacin de parmetros
En el modelo MANOVA debemos estimar los m p parmetros de regresin contenidos en B; as como la matriz de covarianzas :
En el modelo univariante y = X + e; la estimacin LS b = (X0 X) X0 y
0
minimiza b
e0 b
e= (y X b ) (y X b ): En el caso multivariante, el estimador
b tal que minimiza la traza
LS de B es B
0
b 0 E)
b = tr[(Y
tr(E
b (Y
XB)
b 0E
b = (Y
R0 = E
b (Y
XB)
b
XB)];
b = Y XB:
b
siendo E
La matriz de residuos es la matriz R0 = (R0 (i; j)) de orden p
0
b
XB);
ej =
donde R0 (j; j) es la suma de cuadrados residual del modelo univariante y
X j + ej :
261
b = (X0 X) 1 X0 Y;
B
XB0 )0 (Y
b + XB
b XB0 )0 (Y XB
b + XB
b XB0 )
XB0 ) = (Y XB
0
b XB0 ) (XB
b XB0 )+
= R0 + (XB
0
b (XB
b XB0 )+(XB
b XB0 )0 (Y XB)
b
(Y XB)
0
b XB0 ) (XB
b XB0 );
= R0 + (XB
b 0 (XB
b XB0 ) =(Y XB)
b 0 X(B
b B0 ) = 0 por vericar B
b
pues (Y XB)
0
las ecuaciones normales (15.2). Luego (Y XB0 ) (Y XB0 ) = R0 + M;
siendo M una matriz p p denida positiva. Entonces la traza y el determinante de (Y XB0 )0 (Y XB0 ) alcanzan el valor mnimo cuando M = 0,
b Por otra parte
es decir, para B0 = B:
b = (X0 X) 1 X0 E(Y) =(X0 X) 1 (X0 X)B = B:
E(B)
262
Teorema 15.2.2 Bajo las mismas condiciones del teorema anterior, con r =
rang(X); podemos expresar la matriz de residuos como
R0 = Y0 [I
X(X0 X) X0 ]Y:
Demost.:
(Y
b (Y
XB)
b = Y0 Y
XB)
= Y0 Y
= Y0 Y
= Y0 [I
es
r):
b 0 X0 XB
b
b B
b 0 X0 Y + B
Y0 XB
0
0
b
b 0X Y = B
b 0 X0 XB)
b
Y XB
(por B
0
0
0
Y X(X X) X Y
X(X0 X) X0 ]Y:
Sea ahora T = [t1 ; : : : ; tr ; tr+1 ; : : : ; tn ] una matriz ortogonal tal que sus
columnas formen una base ortonormal de Rn ; de manera que las r primeras
generen el mismo subespacio Cr (X) generado por las columnas de X: Por lo
tanto las otras n r columas sern ortogonales a Cr (X): Es decir
t0i X =
t0i X = 0
si i r;
si i > r;
r primeras las
r ltimas las
b Y XB:
b De X0 (Y XB)
b = 0; ver ecuaciones
Consideremos el residuo E=
b es ortogonal a X en el sentido que
normales (15.2), deducimos que E
donde Zn
b=
T0 E
es matriz (n
b = T0 Y
T0 E
0
Zn
r)
r primeras las
n r ltimas las
p: Pero
b =Z
T0 XB
0
Zn
;
r
263
b =E
b 0 TT0 E
b=
b 0E
R0 = E
0 Z0n
0
Zn
= Z0n r Zn r :
Indiquemos Z0n r = [z1 ; : : : ; zn r ] donde z01 ; : : : ; z0n r son las las (independientes) de Zn r : Entonces cada zi es un vector de media cero y matriz
+ zn r z0n r :
de covarianzas : Luego E(zi z0i ) = y Z0n r Zn r = z1 z01 +
Por lo tanto
E(R0 ) = E(z1 z01 +
+ zn r z0n r ) = (n
r) :
15.3.
y la matriz residual es
R1 = (Y
b H )0 (Y
XB
b H ):
XB
264
Wp ( ; n
r):
R0 siguen la distribucin de
R0
Wp ( ; t);
t:
0
Zn
r0
r0 las de Zn
r0
265
e b )0 (Y X
e b ) = Z0
R1 = (Y X
n
r0 Zn r0
es Wishart Wp ( ; n
r las de Zn r :
R0 = Z0t Zt ;
j(R1
jR0 j
jR0 j
=
R0 ) + R0 j
jR1 j
(p; n
r; t):
As 0
1 sigue la distribucin de Wilks. Aceptaremos H0 si
signicativo y rechazaremos H0 si es pequeo y signicativo.
no es
15.4.
<
r; t) <
)= :
Manova de un factor
+ eih ;
i = 1; : : : ;k; h = 1; : : : ;ni ;
donde es un vector de medias general, i es el efecto del nivel i del factor, yih es la observacin multivariante h en la situacin (o poblacin) i;
266
B = R1
R0 ;
T = R1 = B + W;
g.
Entre grupos
k
Dentro grupos n
Total
n
15.5.
MANOVA de un factor
l.
matriz Wishart lambda de Wilks
1
B
= jWj=jTj
k
W
(p; n k; k
1
T
1)
1)(b
15.6.
267
1)
1)
ij
+ eijh ;
i = 1; : : : ; a; j = 1; : : : ; b; h = 1; : : : ; c;
donde es la media general, i es el efecto aditivo del nivel i del factor la,
j es el efecto aditivo del nivel j del factor columna,
ij es la interaccin,
parmetro que mide la desviacin de la aditividad del efecto de los factores,
e yijh = (yijh1 ; : : : ; yijhp )0 es la rplica multivariante h de las variables observables. Tambin, como en el caso univariante, intervienen las matrices
A = (auv ); B = (buv ); AB = (cuv ); R0 = (ruv ); T = (tuv ); donde
auv
buv
cuv
ruv
tuv
P
= bc Pi (yi u y u )(yi v y v )
= ac j (y j u y u )(y j v y v )
P
= c i;j (yij u yi u y j v + y u )(yij v yi v y j v + y v )
P
= i;jh (yijhu yi u )(yijhv yi v )
P
= i;j (yiju y u )(yiju y u );
u; v = 1; : : : ; p;
que verican
T = A + B + AB + R0 :
(AB no es un producto matricial). Obtenemos la tabla:
268
15.7.
Ejemplos
Machos
Temp
Y 1 Y 2 Y3
4
18.15 16.51 0.24
18.68 19.50 0.32
19.54 19.84 0.20
20 21.27 23.30 0.33
19.57 22.30 0.45
20.15 18.95 0.35
34 20.74 16.69 0.31
20.02 19.26 0.41
17.20 15.90 0.28
Hembras
Y 1 Y 2 Y3
19.15 19.49 0.16
18.35 19.81 0.17
20.58 19.44 0.22
18.87 22.00 0.25
20.66 21.08 0.20
21.56 20.34 0.20
20.22 19.00 0.18
18.38 17.92 0.30
20.85 19.90 0.17
15.7. EJEMPLOS
269
g. l.
T
T S
Residuo
12
Total
17
F
g.l.
0 matriz dispersin 1 lambda
4;81 9;66 ;284
@
32;5 ;376 A .261
3.18 6,20
;019
0
1
;642 1;27
;19
@
2;51
;38 A .337
6.55 3,10
;006
0
1
;275 ;816 ;038
@
32;5 ;088 A .772
0.46 6,20
;006
1
0
19;3 7;01
;19
@
26;7 ;208 A
;039
0
1
25;0 18;7
;06
@
32;5 ;284 A
;125
270
15.8.
Otros criterios
Sean 1
p los valores propios de R0 respecto de R1 ; es decir,
las raices de la ecuacin det(R0
R1 ) = 0: Podemos expresar el criterio de
Wilks como
jR0 j
= 1
=
p:
jR1 j
Este criterio es especialmente interesante, teniendo en cuenta que si
razn de verosimilitud en el test de hiptesis, entonces = n=2 :
es la
271
tr[R0 (R1 R0 )] =
p
X
1
i=1
2. Traza de Pillai:
p
X
tr[R1 1 (R1 R0 )] =
(1
i=1
i) =
i=1
=1
p
X
ri2
1
p
X
ri2
ri2 :
i=1
= r12 :
0
1
1+
0
1
=1
= r12 :
0.007
28.02
2.090
24.90
F
152.8
446.2
57.78
2002
g.l.
35
35
35
7
g.l.
2354
2787
2815
563
272
15.9.
Complementos
Captulo 16
FUNCIONES ESTIMABLES
MULTIVARIANTES
16.1.
Funciones estimables
+ pm
es estimable si existe
+ an yn = a0 y;
E( b ) = :
es estimable se da
274
16.2.
Teorema de Gauss-Markov
= p0
1. Si b es estimador LS de
, entonces b = p0 b es nico.
+ a2n ;
tenemos que
var(a0 y) = kak2
= (ke
ak2 + kbk2 )
ke
ak2
= var(e
a0 y);
16.3.
275
En el modelo lineal multivariante (15.1), tambin tiene inters la estimacin de ciertas combinaciones lineales de los parmetros B: Indiquemos
por y1 ; : : : ; yn los vectores la de Y; y 1 ; : : : ; m los vectores la de B; es
decir:
2
3
2
3
y1
1
6
7
6
7
Y = 4 ... 5 ; B = 4 ... 5 :
yn
= p1
+ pm
es una combi-
= p0 B;
es es-
+ an yn = a0 Y;
E( b ) =
es fpem es la si-
b
Slo hay que sustituir B por sus estimaciones LS B:
Teorema 16.3.2 Sea
estimable. Se verica:
= (
1; : : : ;
p)
276
b es estimador LS de B, entonces b 0 = ( b 1 ; : : : ; b p ) = p0 B
b es nico.
1. Si B
y de varianza mnima
j:
Observemos que este teorema vale sin necesidad de una hiptesis de normalidad. El estimador LS de es
b 0 = p0 B
b = p0 (X0 X) X0 Y =g1 y1 +
+ gn yn
2. La distribucin de R0 es Wp ( ; n
r):
16.4.
16.4.1.
Distancia de Mahalanobis
b j )0 b
(bi
b ):
j
277
0
0
Sea ij = kgi gj k : Si b i = gi0 Y es independiente de b j = gj0 Y y se verica
la hiptesis H0 : i = j ; entonces ij1 ( b i b j ) es Np (0; ) y (n r) b es
Wp ( ; n r); por lo tanto ij1 M (i; j) es Hotelling T 2 (p; n r) y
r
(n
p+1
r)p
1
ij
Fnp
M (i; j)2
r p+1 :
16.4.2.
r
(n
r p+1 ;
p+1 1 b
2 ( i
r)p
2
donde
0b 1 b
( i
i)
i)
Coordenadas cannicas
y la matriz
B
U =@
b 11
b
s1
..
.
j = 1; : : : ; s;
..
b 1p
..
.
sp
C
A:
V0 b V = I;
wj )0 (wi
wj ) = ( b i
b )0 b
j
(bi
b ):
j
278
16.4.3.
V (Y)q
= 100
V
+
1+
1
+
+
Regiones condenciales
0
Sean wi0 = b i V; i = 1; : : : ; s; las proyecciones cannicas de las estimaciones de las fpem. Podemos entender wi0 como una estimacin de i 0 = 0i V;
la proyeccin cannica de i : Podemos tambin encontrar regiones condenciales para las i ; i = 1; : : : ; g:
Sea 1
el coeciente de conanza, F tal que P (F > F ) = ; donde
F sigue la distribucin F con p y (n g p + 1) g.l., y consideremos:
R2 = F
(n
(n r
r)p
:
p + 1)
Luego las proyecciones cannicas i de las fpem pertenecen a regiones condenciales que son hiperesferas (esferas en dimensin 3, crculos en dimensin
2) de centros y radios
(wi ; i R )
donde
16.5.
i:
Ejemplos
16.5. EJEMPLOS
279
Placebo
Y1
Y2
.548 177.8
.619 184.4
.641 247.2
.628 163.4
.846 173.6
.517 167.2
.876 174.0
.602 158.6
Individuo
1
2
3
4
5
6
7
8
Clobazan
Y1
Y2
.519 203.0
.776 164.8
.678 215.8
.595 153.6
.858 171.6
.493 166.0
.741 170.2
.719 157.2
Diazepan
Y1
Y2
.637 194.8
.818 175.2
.701 205.8
.687 152.2
.855 189.2
.618 181.0
.849 189.0
.731 184.6
i+
j +eij :
1;
2;
3:
Individuos
Residuo
14
280
Y1
Y2
W1
W2
.869 -.494
.296 .955
Y1
Y2
Y3
W1
W2
.395 .278
.961 -.276
.405 .653
16.5. EJEMPLOS
281
Ejemplo 3. Continuando con el ejemplo 15.7.2, podemos hacer la representacin cannica de las ocho especies, eliminando el efecto del sexo y de
la interaccin. Los dos primeros valores propios de U0 U respecto de b son
201.67 y 28.054, que explican el 98.2 % de la variabilidad geomtrica (inercia), vase la Fig. 16.3. Las coordenadas y los radios de la representacin
cannica (izquierda) y las correlaciones entre variables observables y cannicas (derecha) son:
Especie
1
2
3
4
5
6
7
8
W1
-4.567
-3.760
-1.944
-2.613
-2.299
-1.705
6.828
10.06
W2
-1.164
-.5129
-1.031
1.536
1.731
.6381
-3.671
2.475
radio
.342
.342
.418
.342
.342
.342
.503
.342
Y1
Y2
Y3
Y4
Y5
W1
.600
.661
.453
.804
.748
W2
.115
.450
.698
.522
.522
Esta representacin permite visualizar las diferencias entre las especies, sin
la inuencia del dimorsmo sexual y de la interaccin especie sexo.
282
16.6.
Complementos
Bibliografa
[1] Albert, A. and J. A. Anderson (1984) On the existence of maximum
likelihood estimates in logistic regression models. Biometrika, 71, 1-19.
[2] Aluja, T., Morineau, A. (1999) Aprender de los datos: el anlisis de
componentes principales, una aproximacin desde el data mining. EUB,
Barcelona.
[3] Anderson, T. W. (1958) An Introduction to Multivariate Analysis. Wiley, N. York.
[4] Anderson, M. J. and T.J. Willis (2003) Canonical analysis of principal coordinates: a useful method of constrained ordination for ecology.
Ecology, 84, 511-525.
[5] Anderson, T. W. and H. Rubin (1956) Statistical inference in factor
analysis. Proc. of the Third Berkeley Symposium on Math. Stat. and
Prob., 5, 111-150.
[6] Arenas, C. and C. M. Cuadras (2004) Comparing two methods for
joint representation of multivariate data. Comm. Stat. Comp. Simul.,
33, 415-430.
[7] Baillo, A. and A. Gran (2008) 100 Problemas Resueltos de Estadstica
Multivariante. Delta, Madrid.
[8] Bar-Hen, A. and J.-J. Daudin (1997) A test of a special case of typicality in linear discriminant analysis. Biometrics, 53, 39-48.
[9] Bar-Hen, A. (2001) Preliminary tests in linear discriminat analysis.
Statistica, 4, 585593.
283
284
BIBLIOGRAFA
[10] Batista, J.M. and G. Coenders (2000) Modelos de Ecuaciones Estructurales. La Muralla, Madrid.
[11] Benzecri, J. P. (1976) LAnalyse des Donnes. I. La Taxinomie. II.
LAnalyse des Correspondances. Dunod, Paris.
[12] Cailliez, F. (1983) The analytical solution of the additive constant problem. Psychometrika, 48, 305-308.
[13] Crdenas C. and M. P. Galindo Villardn. (2001) Biplot con informacin externa basado en modelos bilineales generalizados. Universidad
Central de Venezuela, Caracas.
[14] Carmona, F. (2005) Modelos Lineales. Pub. Univ. de Barcelona,
Barcelona.
[15] Cooley, W. W. and P. R. Lohnes (1971) Multivariate Data Analysis.
Wiley, N. York.
[16] Cox, T. F. and M. A. A. Cox (1964) Multidimensional Scaling. Chapman and Hall, London.
[17] Cramer, E. M. and W. A. Nicewander (1979) Some symmetric, invariant measures of multivariate association. Psychometrika, 44, 43-54.
[18] Critchley, F. and W. Heiser (1988) Hierarchical trees can be scaled
perfectly in one dimension. J. of Classication, 5, 5-20.
[19] Cuadras, C. M. (1974) Anlisis discriminante de funciones paramtricas
estimables. Trab. Esta. Inv. Oper., 25, 3-31.
[20] Cuadras, C. M. (1981) Mtodos de Anlisis Multivariante. Eunibar,
Barcelona. 3a Ed. EUB, Barcelona, 1996.
[21] Cuadras, C. M. (1988) Distancias estadsticas (con discusin) . Estadstica Espaola, 30, 295-378.
[22] Cuadras, C. M. (1989) Distance analysis in discrimination and classication using both continuous and categorical variables. In: Y. Dodge
(Ed.), Statistical Data Analysis and Inference, pp. 459473. Elsevier
Science Publishers B. V. (NorthHolland), Amsterdam.
BIBLIOGRAFA
285
286
BIBLIOGRAFA
[34] Cuadras, C. M. (2008) Distance-based multisample tests for multivariate data. In: Arnold, B. C., Balakrishnan, N., Sarabia, J. M., Mnguez,
R. (Eds.), Advances in Mathematical and Statistical Modeling, pp. 6171. Birkhauser, Boston.
[35] Cuadras, C. M. (2009) Constructing copula functions with weighted
geometric means. J. of Statistical Planning and Inference, 139, 37663772.
[36] Cuadras, C. M. (2010) On the covariance between functions (correction). J. of Multivariate Analysis, 101, 1317-1318.
[37] Cuadras, C. M. (2011) Distance-based approach in multivariate association. In: S. Ingrassia, R. Rocci, M. Vichi, (Eds.), New Perspectives in
Statistical Modeling and Data Analysis, pp. 535-542., Springer, Berlin.
[38] Cuadras, C. M. and C. Arenas (1990) A distance based regression
model for prediction with mixed data. Comm. Stat.-Theor. Meth., 19,
2261-2279.
[39] Cuadras, C. M., Atkinson, R. A. and J. Fortiana (1997) Probability densities from distances and discriminant analysis. Statistics and
Probability Letters, 33, 405-411.
[40] Cuadras, C. M. and J. Aug (1981) A continuous general multivariate
distribution and its properties. Commun. Stat.-Theor. Meth, A10, 339353.
[41] Cuadras, C. M., Arenas, C. and J. Fortiana (1996) Some computational
aspects of a distance-based model for prediction. Comm. Stat.-Simul.
Comp., 25, 593-609.
[42] Cuadras, C. M. and F. Carmona (1983) Euclidean dimensionality of
ultrametric distances. Qestiio, 7, 353-358.
[43] Cuadras. C. M. and D. Cuadras (2006) A parametric approach to correspondence analysis. Linear Algebra and its Applications, 417, 64-74.
[44] Cuadras, C. M. and D. Cuadras (2011) Partitioning the geometric variability in multivariate analysis and contingency tables. In: B. Fichet,
D. Piccolo, R. Verde, M. Vichi, (Eds.), Classication and Multivariate
Analysis for Complex Data Structures, pp. 237-244. Springer, Berlin.
BIBLIOGRAFA
287
288
BIBLIOGRAFA
[54] Cuadras, C. M., Fortiana, J. and M. Greenacre (2000) Continuous extensions of matrix formulations in correspondence analysis, with applications to the FGM family of distributions. In: R. D. H. Heijmans,
D. S. G. Pollock and A. Satorra, (Eds.), Innovations in Multivariate
Statistical Analysis, pp. 101-116. Kluwer Ac. Publ., Dordrecht.
[55] Cuadras, C. M., Cuadras, D. and M. Greenacre (2006) Comparison
of dierent methods for representing categorical data. Comm. Stat.Simul. and Comp., 35 (2), 447-459.
[56] Cuadras, C. M., Fortiana, J. and F. Oliva (1996) Representation of statistical structures, classication and prediction using multidimensional
scaling. In: W. Gaul, D. Pfeifer (Eds.), From Data to Knowledge, pp.
20-31. Springer, Berlin.
[57] Cuadras, C. M., Fortiana, J. and F. Oliva (1997) The proximity of an
individual to a population with applications in discriminant analysis.
J. of Classication, 14, 117-136.
[58] Cuadras, C. M. and Y. Lahlou (2000) Some orthogonal expansions for
the logistic distribution. Comm. Stat.-Theor. Meth., 29, 2643-2663.
[59] Cuadras, C. M. and J. M. Oller (1987) Eigenanalysis and metric multidimensional scaling on hierarchical structures. Qestii, 11, 37-57.
[60] Cuadras, C. M. and M. Snchez-Turet (1975) Aplicaciones del anlisis
multivariante cannico en la investigacin psicolgica. Rev. Psicol. Gen.
Aplic., 30, 371-382.
[61] Cuadras, C. M., Valero, S., Cuadras, D., Salembier, P. and J. Chanussot (2012) Distance-based measures of association with applications in
relating hyperspectral images. Comm. Stat., Theor.- Meth., 41, 2342
2355.
[62] Chatterjee, S. and B. Price (1991) Regression Analysis by Example.
Wiley, N. York.
[63] De Cceres, M., Oliva, F. and X. Font (2006) On relational possibilistic
clustering. Pattern Recognition, 39, 2010-2024.
BIBLIOGRAFA
289
[64] Eckart, C. and G. Young (1936) The approximation of one matrix for
another of lower rank. Psychometrika, 1, 211-218.
[65] Efron, B. (1975) The ecency of logistic regression compared to normal
discriminant analysis. J. of the American Statistical Association, 70,
892-898.
[66] Escoer, B. and J. Pags (1990) Analyses Factorielles Simples et Multiples. Dunod, Paris.
[67] Escouer, Y. (1973) Le traitement des variables vectorielles. Biometrics, 29, 751-760.
[68] Everitt, B.S. (1993) Cluster Analysis. Edward Arnold, London.
[69] Flury, B. (1997) A First Course in Multivariate Statistics. Springer, N.
York.
[70] Fortiana, J. and C. M. Cuadras (1997) A family of matrices, the discretized Brownian Bridge and distance-based regression. Linear Algebra
and its Applications, 264, 173-188.
[71] Friendly, M. (1994) Mosaic displays for multi-way contingency tables.
J. of the American Statistical Association, 89, 190200.
[72] Friendly, M. (1999) Extending mosaic displays: Marginal, conditional,
and partial views of categorical data. J. of Computational and Graphical Statistics, 8, 373395.
[73] Friendly, M. (2007) HE plots for multivariate linear models. J. of Computational and Graphical Statistics, 16, 421-444.
[74] Gabriel, K. R. (1971) The biplot graphic display of matrices with application to principal component analysis. Biometrika, 58, 453-467.
[75] Galindo Villardon, M. P. (1986) Una alternativa de representacin simultnea: HJ-Biplot. Qestii, 10, 13-23.
[76] Gittings, R. (1985) Canonical Analysis. A Review with Applications in
Ecology. Springer-Verlag, Berlin.
290
BIBLIOGRAFA
BIBLIOGRAFA
291
[91] Hill, M. O. (1973) Reciprocal averaging: an eigenvector method of ordination. J. of Ecology, 61, 237-249.
[92] Holman, E. W. (1972) The relation between Hierarchical and Euclidean
models for psychological distances. Psychometrika, 37, 417-423.
[93] Hosmer, D. W. and S. Lemeshow (2000) Applied Logistic Regression,
2nd Edition. Wiley, N. York.
[94] Huitson, A. (1966) The Analysis of Variance. Charles Gri n, London.
[95] Hutchinson, T. P. and C. D. Lai (1991) The Engineering Statisticians
Guide to Continuous Bivariate Distributions. Rumsby Scientic Pub.,
Adelaide.
[96] Irigoien, I. and C. Arenas (2008) INCA: New statistic for estimating the
number of clusters and identifying atypical units. Statistics in Medicine,
27, 2948-2973.
[97] Jauregui, E., Irigoien, I., Sierra, B., Lazkano, E. and C. Arenas (2011)
Loop-closing: A typicality approach. Robotics and Autonomous Systems 59, 218-227.
[98] Joe, H. (1997) Multivariate Models and Dependence Concepts. Chapman and Hall, London.
[99] Johnson, S. C. (1967) Hierarchical clustering schemes. Psychometrika,
32, 241-254.
[100] Joreskog, K. (1967) Some contributions to maximum likelihood factor
analysis. Psychometrika, 32, 443-482.
[101] Joreskog, K. (1969) A general approach to conrmatory maximum likelihood factor analysis. Psychometrika, 34, 183-202.
[102] Joreskog, K. (1970) A general method for analysis of covarianvce structures. Biometrika, 57, 239-251.
[103] Joreskog, K, Sorbom, D. (1999) LISREL 8: A Guide to the Program
and Applications. Scientic Software International, Inc., Chicago.
292
BIBLIOGRAFA
BIBLIOGRAFA
293
294
BIBLIOGRAFA
ndice alfabtico
Anlisis factorial
mltiple, 89
simple, 93
aproximacin
a la distribucin F , 34
aproximacin
de Eckart-Young, 20
biplot, 84, 89
coeciente
de Pearson, 165
procrustes, 22, 72
componentes principales
comunes, 89
denicin, 73
distribucin, 79
comunalidad, 94, 97
coordenadas
cannicas, 121, 277
principales, 134, 159
correccin de Box, 124
correlacin
cannica, 65
cannica generalizada, 271
mltiple, 62
simple, 13
vectorial, 72
correspondencias
mltiples, 167
simples, 160
curva
especicidad, 222
ROC, 222
sensibilidad, 222
dendograma, 185
descomposicin
espectral, 19
singular, 19
desigualdad
de Cramr-Rao, 41
triangular, 131, 185
ultramtrica, 184
discriminador
Bayes, 209
cuadrtico, 210
distancia, 17
ciudad, 142
de Bhattachariyya, 144
de Mahalanobis, 17, 120, 130, 160,
209, 276
de Pearson, 17, 130
de Prevosti, 149
de Rao, 146
dominante, 142
Eucldea, 17, 76, 142
ji-cuadrado, 159
distribucin
F de Fisher-Snedecor, 32, 33
de Hotelling, 32, 51
295
296
NDICE ALFABTICO
de Wilks, 33, 265
de Wishart, 31
elptica, 39
multinomial, 36
normal bivariante, 30
normal multivariante, 28
NDICE ALFABTICO
297
principio
de Fisher, 47
de equivalencia distribucional, 177
de Gauss-Markov, 274
de parsimonia, 102
de la dimensin, 15
de unin-interseccin, 51, 59, 68,
de Thurstone , 101
272
de Wilks, 49
probabilidad de clasicacin errnea, test
205, 207, 209
comparacin de dos medias, 44
comparacin de medias, 50
razn de verosimilitud, 49
de Bartlett, 59, 124
realce en regresin mltiple, 90
de Bartlett-Lawley, 67
regla
de esfericidad, 83
basada en distancias, 229
de razn de verosimilitud, 49
de Bayes, 207, 215
de Wald, 221
discriminacin logstica, 219
independencia, 49, 67, 81
discriminante, 205
sobre la covarianza, 80
mxima verosimilitud, 207, 214
sobre la media, 43
relaciones tetrdicas, 95
tipicalidad, 233
rotacin
transformacin
biquartimin, 108
cannica, 120
covarimin, 108
componentes principales, 74, 77
oblicua, 108
lineal, 14
ortogonal, 106
procrustes, 22, 112
promax, 108
quartimax, 107
unicidad, 97
quartimin, 108
valores singulares, 19, 66, 84, 158
varimax, 107
variabilidad geomtrica (inercia), 76,
similaridad, coeciente de
77, 121, 136, 165
denicin, 137
variable
Dice, 143
cannica, 65
Gower, 145, 232
compuesta, 14, 74
Jaccard, 138
Sokal y Michener, 138
Sokal-Sneath, 143
tablas concatenadas, 179
teorema
de Cochran, 45
de Craig, 47