DE
ANLISIS MULTIVARIANTE
Carles M. Cuadras
21 de septiembre de 2014
2
c C. M. Cuadras
CMC Editions
Manacor 30
08023 Barcelona, Spain
ndice general
1. DATOS MULTIVARIANTES 13
1.1. Introduccin . . . . . . . . . . . . . . . . . . . . . . . . . . . . 13
1.2. Matrices de datos . . . . . . . . . . . . . . . . . . . . . . . . . 13
1.3. Matriz de centrado . . . . . . . . . . . . . . . . . . . . . . . . 15
1.4. Medias, covarianzas y correlaciones . . . . . . . . . . . . . . . 15
1.5. Variables compuestas . . . . . . . . . . . . . . . . . . . . . . . 16
1.6. Transformaciones lineales . . . . . . . . . . . . . . . . . . . . . 16
1.7. Teorema de la dimensin . . . . . . . . . . . . . . . . . . . . . 17
1.8. Medidas globales de variabilidad y dependencia . . . . . . . . 18
1.9. Distancias . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 19
1.10. Algunos aspectos del clculo matricial . . . . . . . . . . . . . . 21
1.10.1. Descomposicin singular . . . . . . . . . . . . . . . . . 21
1.10.2. Inversa generalizada . . . . . . . . . . . . . . . . . . . 21
1.10.3. Aproximacin matricial de rango inferior . . . . . . . . 22
1.10.4. Transformacin procrustes . . . . . . . . . . . . . . . . 23
1.11. Ejemplos . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 25
1.12. Complementos . . . . . . . . . . . . . . . . . . . . . . . . . . . 28
2. NORMALIDAD MULTIVARIANTE 29
2.1. Introduccin . . . . . . . . . . . . . . . . . . . . . . . . . . . . 29
2.2. Distribucin normal multivariante . . . . . . . . . . . . . . . . 30
2.2.1. Denicin . . . . . . . . . . . . . . . . . . . . . . . . . 30
2.2.2. Propiedades . . . . . . . . . . . . . . . . . . . . . . . . 31
2.2.3. Caso bivariante . . . . . . . . . . . . . . . . . . . . . . 32
2.3. Distribucin de Wishart . . . . . . . . . . . . . . . . . . . . . 33
2.4. Distribucin de Hotelling . . . . . . . . . . . . . . . . . . . . . 34
2.5. Distribucin de Wilks . . . . . . . . . . . . . . . . . . . . . . . 35
2.6. Relaciones entre Wilks, Hotelling y F . . . . . . . . . . . . . . 37
3
4 NDICE GENERAL
3. INFERENCIA MULTIVARIANTE 43
3.1. Conceptos bsicos . . . . . . . . . . . . . . . . . . . . . . . . . 43
3.2. Estimacin de medias y covarianzas . . . . . . . . . . . . . . . 44
3.3. Contraste de hiptesis multivariantes . . . . . . . . . . . . . . 45
3.3.1. Test sobre la media: una poblacin . . . . . . . . . . . 45
3.3.2. Test sobre la media: dos poblaciones . . . . . . . . . . 46
3.3.3. Comparacin de varias medias . . . . . . . . . . . . . . 46
3.4. Teorema de Cochran . . . . . . . . . . . . . . . . . . . . . . . 47
3.5. Construccin de contrastes de hiptesis . . . . . . . . . . . . . 51
3.5.1. Razn de verosimilitud . . . . . . . . . . . . . . . . . . 51
3.5.2. Principio de unin-interseccin . . . . . . . . . . . . . . 53
3.6. Ejemplos . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 54
3.7. Anlisis de perles . . . . . . . . . . . . . . . . . . . . . . . . 59
3.8. Complementos . . . . . . . . . . . . . . . . . . . . . . . . . . . 61
6. ANLISIS FACTORIAL 97
6.1. Introduccin . . . . . . . . . . . . . . . . . . . . . . . . . . . . 97
6.2. El modelo unifactorial . . . . . . . . . . . . . . . . . . . . . . 98
6.3. El modelo multifactorial . . . . . . . . . . . . . . . . . . . . . 100
6.3.1. El modelo . . . . . . . . . . . . . . . . . . . . . . . . . 100
6.3.2. La matriz factorial . . . . . . . . . . . . . . . . . . . . 101
6.3.3. Las comunalidades . . . . . . . . . . . . . . . . . . . . 101
6.3.4. Nmero mximo de factores comunes . . . . . . . . . . 102
6.3.5. El caso de Heywood . . . . . . . . . . . . . . . . . . . 103
6.3.6. Un ejemplo . . . . . . . . . . . . . . . . . . . . . . . . 103
6.4. Teoremas fundamentales . . . . . . . . . . . . . . . . . . . . . 105
6.5. Mtodo del factor principal . . . . . . . . . . . . . . . . . . . 107
6.6. Mtodo de la mxima verosimilitud . . . . . . . . . . . . . . . 109
6.6.1. Estimacin de la matriz factorial . . . . . . . . . . . . 109
6.6.2. Hiptesis sobre el nmero de factores . . . . . . . . . . 110
6.7. Rotaciones de factores . . . . . . . . . . . . . . . . . . . . . . 110
6.7.1. Rotaciones ortogonales . . . . . . . . . . . . . . . . . . 111
6.7.2. Factores oblicuos . . . . . . . . . . . . . . . . . . . . . 111
6.7.3. Rotacin oblicua . . . . . . . . . . . . . . . . . . . . . 112
6.7.4. Factores de segundo orden . . . . . . . . . . . . . . . . 114
6.8. Medicin de factores . . . . . . . . . . . . . . . . . . . . . . . 115
6.9. Anlisis factorial conrmatorio . . . . . . . . . . . . . . . . . . 116
6.10. Complementos . . . . . . . . . . . . . . . . . . . . . . . . . . . 119
www:ub:edu=stat=cuadras=cuad:html
11
12 NDICE GENERAL
DATOS MULTIVARIANTES
1.1. Introduccin
13
14 CAPTULO 1. DATOS MULTIVARIANTES
siendo
1X
n
sjj 0 = (xij xj )(xij 0 xj 0 )
n i=1
Propiedades:
1. Simtrica: H0 = H:
2. Idempotente: H2 = H:
1. x0 = n1 10 X:
X= X 1x0 = HX:
16 CAPTULO 1. DATOS MULTIVARIANTES
3. Matriz de covarianzas:
0
S = n1 X X = n1 X0 HX:
4. Matriz de correlaciones:
R = D 1 SD 1 ; S = DRD; (1.1)
Propiedades:
1. y0 =x0 T; donde y es el vector (columna) de medias de Y:
2. SY = T0 ST; donde SY es la matriz de covarianzas de Y:
Demost.:
y0 = n1 10 Y = n1 10 XT = x0 T: SY = n1 Y0 HY = n1 T0 X0 HXT = T0 ST.
Entonces
Pr P P
var(Xj ai Xi ) = sjj + ri;i0 =1 ai ai0 sii0 2 ri=1 ai sji
i=1 P P P P
= Pri=1 ai sji + Pri=1 ai ( ri0 =1 P
ai0 sii0 ) 2 ri=1 ai sji
= ri=1 ai sji + ri=1 ai sji 2 ri=1 ai sji
= 0:
18 CAPTULO 1. DATOS MULTIVARIANTES
Por lo tanto
X
r X
r
Xj ai Xi = c =) Xj = c + ai Xi
i=1 i=1
Corolario 1.7.2 Si todas las variables tienen varianza positiva (es decir,
ninguna se reduce a una constante) y r = rango(R) p; hay r variables
linealmente independientes y las otras p r son combinacin lineal de estas
r variables.
a) Varianza generalizada:
jSj = 1 p:
b) Variacin total:
tr(S) = 1 + + p
que verica:
2
1. 0 1:
2
2. = 0 si y slo si las p variables estn incorrelacionadas.
2
3. = 1 si y slo si hay relaciones lineales entre las variables.
Demost.:
1.9. DISTANCIAS 19
1.9. Distancias
Algunos mtodos de AM estn basados en criterios geomtricos y en la
nocin de distancia entre individuos y entre poblaciones. Si
0 1
x01
B C
X = @ ... A
x0n
es una matriz de datos, con matriz de covarianzas S; las tres deniciones ms
importantes de distancia entre las las x0i = (xi1 ; : : : ; xip ); x0j = (xj1 ; : : : ; xjp )
de X son:
1. Distancia eucldea:
v
u p
uX
dE (i; j) = t (xih xjh )2 : (1.2)
h=1
2. Distancia de K. Pearson
v
u p
uX
dP (i; j) = t (xih xjh )2 =shh ; (1.3)
h=1
Observaciones
Un cambio de escala de una variable Xj es una transformacin Yj = Xj ;
donde es una constante. Comparando las tres distancias, se concluye que
dM es muy adecuada en AM debido a que verica:
S = (n1 S1 + n2 S2 )=(n1 + n2 )
Ds = diag(s1 ; : : : ; sr ; 0; : : : ; 0):
Entonces
Ds = diag(s1 1 ; : : : ; sr 1 ; 0; : : : ; 0):
y la matriz m n
A = VDs U0
es una g-inversa de A: En efecto,
Ds = diag(s1 ; : : : ; sk ; 0; : : : ; 0):
3 2 1
1.10. ALGUNOS ASPECTOS DEL CLCULO MATRICIAL 23
entonces
0 1
0:35 0:42 0:52 0 10 1
B 0:16 C 10:14 0 0 0:50 0:59 0:62
0:61 0:41 C @
A=B @ 0:86 0 2:295 0 A@ 0:86 0:40 0:31 A ;
0:19 0:38 A
0 0 1:388 0:06 0:70 0:71
0:33 0:63 0:63
y la aproximacin de rango 2 es
0 1
0:945 2:480 2:534
B 2:015 0:397 0:587 C
A =B @ 3:984
C;
5:320 5:628 A
2:936 1:386 1:652
siendo (redondeando a dos decimales)
0 1
0:35 0:42 0:52 0 10 1
B 0:16 C 10:14 0 0 0:50 0:59 0:62
0:61 0:41 C @
A =B @ 0:86 0 2:29 0 A @ 0:86 0:40 0:31 A :
0:19 0:38 A
0 0 0 0:06 0:70 0:71
0:33 0:63 0:63
Y = bXT + 1c;
yj = bT0 xj + cj 1
lo ms prximo posible a yj :
Si X;Y son las matrices centradas, obtenemos primero la descomposicin
singular
0
X Y = UDs V0 :
Indicando M1=2 = F 1=2 F0 ; siendo M = F F0 la descomposicin espectral
0 0
de la matriz simtrica M = X Y Y X; la solucin es
0 0 0
b = tr(X Y Y X)1=2 =tr(X X); T = UV0 ; c=y bxT:
N E S W N E S W
72 66 76 77 91 79 100 75
60 53 66 63 56 68 47 50
56 57 64 58 79 65 70 61
41 29 36 38 81 80 68 58
32 32 35 36 78 55 67 60
30 35 34 26 46 38 37 38
39 39 31 27 39 35 34 37
42 43 31 25 32 30 30 32
37 40 31 25 60 50 67 54
33 29 27 36 35 37 48 39
32 30 34 28 39 36 39 31
63 45 74 63 50 34 37 40
54 46 60 52 43 37 39 50
47 51 52 43 48 54 57 43
1.11. Ejemplos
Ejemplo 1.11.1 rboles.
Variables compuestas
Las siguientes variables compuestas explican diferentes aspectos de la
variabilidad de los datos:
Media Varianza
Contraste eje N-S con eje E-W: Y1 = N + S E W 8.857 124.1
Contraste N-S: Y2 = N S 0.857 61.27
Contraste E-W: Y3 = E W 1.000 99.5
Diremos que una variable compuesta est normalizada si la suma de
cuadrados de sus coecientes es 1. La normalizacin evita que la varianza
tome un valor arbitrario. La normalizacin de Y1 ; Y2 ; Y3 da:
Media Varianza
Z1 = (N + S pE W )=2 4.428 31.03
Z2 = (N S)= p2 0.606 30.63
Z3 = (E W )= 2 0.707 49.75
La normalizacin de las variables consigue que stas tengan varianzas ms
homogneas. La media de Z1 sugiere que la principal direccin de variabilidad
se pone de maniesto al comparar el eje N-S con el eje E-W.
1.11. EJEMPLOS 27
Visualizacin de datos
En los captulos siguientes veremos mtodos y tcnicas de visualizacin de
datos multivariantes. Como norma general es conveniente, antes de realizar
el anlisis, examinar y revisar los datos. La Figura 1.1 contiene un grco
que permite visualizar la distribucin de las 4 variables de la Tabla 1.1 y las
relaciones lineales, o regresin lineal, entre cada par de variables.
0:9971 0:0761
T= :
0:0761 0:9971
Y1 Y2 Y1 Y2
179 145 185:6 152:3
201 152 188:8 148:2
185 149 178:9 146:8
188 149 180:0 150:4
2
El coeciente procrustes es PXY = 0:5508:
28 CAPTULO 1. DATOS MULTIVARIANTES
X1 X2 Y1 Y2 X1 X2 Y1 Y2
191 155 179 145 202 160 190 159
195 149 201 152 194 154 188 151
181 148 185 149 163 137 161 130
183 153 188 149 195 155 183 158
176 144 171 142 186 153 173 148
208 157 192 152 181 145 182 146
189 150 190 149 175 140 165 137
197 159 189 152 192 154 185 152
188 152 197 159 174 143 178 147
192 150 187 151 176 139 176 143
186 161 179 158 197 167 200 158
179 147 183 147 190 153 187 150
195 153 174 150
Tabla 1.2: Longitud y anchura del primer y segundo hijo en 25 familias.
1.12. Complementos
La descomposicin en valores singulares de una matriz es una idea senci-
lla pero muy til en Anlisis Multivariante. Generaliza los vectores y valores
propios de una matriz, permite calcular inversas generalizadas y es fundamen-
tal en Anlisis de Correlacin Cannica y en Anlisis de Correspondencias.
Vase Golub y Reinsch (1970).
La aproximacin de una matriz por otra de rango inferior se debe a Eckart
y Young (1936), y es la versin matricial de la reduccin de la dimensin,
uno de los objetivos tpicos del Anlisis Multivariante.
La transformacin procrustes fue estudiada independientemente por N.
Cli y P. H. Schonemann en 1966. Permite transformar una matriz en otra
y estudiar el grado de coincidencia entre dos matrices de datos, mediante
una generalizacin multivariante de la ecuacin de regresin. Vase Gower
(1971b), Mardia et al. (1979) y Seber (1984).
Captulo 2
NORMALIDAD
MULTIVARIANTE
2.1. Introduccin
Los datos en AM suelen provenir de una poblacin caracterizada por
una distribucin multivariante. Sea X =(X1 ; : : : ; Xp ) un vector aleatorio con
distribucin absolutamente continua y funcin de densidad f (x1 ; : : : ; xp ): Es
decir, f verica:
29
30 CAPTULO 2. NORMALIDAD MULTIVARIANTE
= E[(X )(X )0 ]:
2 1 1
(x )2 = 2 ( 2 ) 1=2 1
(x ) 1
2 (x )
f (x; ; )= p e 2 = p e 2 : (2.1)
2 2
Evidentemente se verica:
j j 1=2 1
(x )0 1 (x )
f (x; ; ) = p e 2 ; (2.3)
( 2 )p
X= + AY (2.5)
@y
fX (x1 ; : : : ; xp ) = fY (y1 (x); : : : ; yp (x)) ;
@x
@y
siendo yi = yi (x1 ; : : : ; xp ), i = 1; : : : ; p, el cambio y J = @x
el jacobiano del
cambio. De (2.5) tenemos
@y
y = A 1 (x )) = jA 1 j
@x
y0 y = (x )0 (A 1 )0 (A 1 )(x ) = (x )0 1
(x ): (2.7)
1 1=2
Substituyendo (2.7) en (2.6) y de jAj =j j obtenemos (2.3).
2.2.2. Propiedades
1. De (2.5) es inmediato que E(X) = y que la matriz de covarianzas es
Xi N ( i; ii ); i = 1; : : : ; p:
Denicin
Si las las de la matriz Zn p son independientes Np (0; ) entonces diremos
que la matriz Q = Z0 Z es Wishart Wp ( ; n); con parmetros y n grados
de libertad.
Cuando es denida positiva y n p; la densidad de Q es
f (Q) =cjQj(n p 1)
exp( 1
2
tr( 1
Q));
siendo
1
Q
p
c = 2np=2 p(p 1)=4
j jn=2 [ 12 (n + 1 i)]:
i=1
34 CAPTULO 2. NORMALIDAD MULTIVARIANTE
Propiedades:
11 12 Q11 Q12
= ; Q= ;
21 22 Q21 Q22
Denicin
Si y es Np (0; I); independiente de Q que es Wishart Wp (I; m), entonces
T 2 = my0 Q 1 y
y por lo tanto
n p
(x )0 S 1 (x ) Fnp p :
p
4. Si x; S1 ;y; S2 son el vector de medias y la matriz de covarianzas de
las matrices Xn1 p ; Yn2 p ; respectivamente, con las independientes
Np ( ; ); y consideramos la estimacin conjunta centrada (o insesgada)
de
b (n1 S1 + n2 S2 )=(n1 + n2 2);
S=
entonces
n1 n2 b 1 (x
T2 = (x y)0 S y) T 2 (p; n1 + n2 2)
n1 + n2
y por lo tanto
n1 + n2 1 p 2
T Fnp1 +n2 1 p:
(n1 + n2 2)p
Denicin
Si las matrices A; B de orden p p son independientes Wishart Wp ( ; m);
Wp ( ; n), respectivamente, con m p; la distribucin del cociente de deter-
minantes
jAj
=
jA + Bj
es, por denicin, la distribucin lambda de Wilks, que indicaremos por
(p; m; n):
Propiedades:
y 0.20
0.15
0.10
0.05
0.00
0.0 0.2 0.4 0.6 0.8 1.0
x
1 (1; m; n) m
Fmn : (2.10)
(1; m; n) n
jQ + yy0 j = jQjj1+y0 Q 1
yj;
que implica
1+y0 Q 1
y = jQ + yy0 j=jQj = 1= ;
donde = jQj=jQ + yy0 j (p; m; 1) (1; m+1 p; p): Adems y0 Q 1 y =
p
1= 1 = (1 )= : De (2.10) tenemos que y0 Q 1 y(m + 1 p)=p Fm+1 p
y por lo tanto
mp
T 2 = my0 Q 1 y Fp :
m + 1 p m+1 p
38 CAPTULO 2. NORMALIDAD MULTIVARIANTE
p1 + + pk = 1:
f1 + + fk = n: (2.11)
cii = npi (1 pi );
cij = npi pj si i 6= j:
1
C = diag(p1 1 ; : : : ; pk 1 ): (2.12)
n
1
C = diag(p1 1 ; : : : ; pk 1 )(I 110 ):
n
2.8. DISTRIBUCIONES CON MARGINALES DADAS 39
H(x; y) = P (X x; Y y):
H 0 (x; y) = F (x)G(y):
y demostr la desigualdad
F (X) = G(Y );
y demostrado la desigualdad
+
;
1. Farlie-Gumbel-Morgenstern:
2. Clayton-Oakes:
1=
H = [F +G 1] ; 1 < 1:
3. Ali-Mikhail-Haq:
4. Cuadras-Aug:
5. Familia de correlacin:
2.9. Complementos
La distribucin normal multivariante es, con diferencia, la ms utilizada
en anlisis multivariante. Textos como Anderson (1956), Rao (1973), Rencher
(1995, 1998), se basan, casi exclusivamente, en la suposicin de normalidad.
2.9. COMPLEMENTOS 41
INFERENCIA
MULTIVARIANTE
43
44 CAPTULO 3. INFERENCIA MULTIVARIANTE
Sea di = xi x: Se verica
Pn P
i=1 (xi )0 1 (xi ) = ni=1 di 0 1 di + n(x )0 1
(x )
P
= tr [ 1 ni=1 di di 0 ] + n(x )0 1
(x ):
Por lo tanto el logaritmo de L se puede expresar como
1
log L(X; ; ) = n
2
log det(2 ) n
2
tr( S) n
2
(x )0 1
(x ):
1
Derivando matricialmente respecto de y de tenemos
@ 1
@
log L =n (x ) = 0;
@ n
@ 1 log L = 2
[ S (x )(x )0 ] = 0:
3.3. CONTRASTE DE HIPTESIS MULTIVARIANTES 45
H0 : 1 = 2:
H0 : 1 = 2 = = g:
T = B + W:
jWj
= (p; n g; g 1):
jW + Bj
1. Si = 0 entonces y0 = u0 X es Np (0; ):
2. y0 = u0 X es independiente de z0 = v0 X:
48 CAPTULO 3. INFERENCIA MULTIVARIANTE
Anlogamente, si v = (v1 ; : : : ; vn )0 ; z0 = vP
0
X es tambin normal.
P
Las esperanzas de y; z son: E(y) = ( ni=1 ui ) ; E(z) = ( ni=1 vi ) : Las
covarianzas entre y y z son:
X
n
0
E[(y E(y))(z E(z)) ] = ui vj E[(xi )(xj )0 ]
i=1
Xn
= ui vi E[(xi )(xj )0 ] = u0 v = 0;
i=1
Teorema 3.4.2 Sea X(n p) una matriz de datos Np (0; ) y sea C(n n)
una matriz simtrica.
Demost.: Sea
X
n
0
C= i ui ui
i=1
Demost.:
X
n
P
0
C1 = i (1)ui ui ; X0 C1 X = 0
i (1)yi yi ;
i=1
X
n
P
0
C2 = j (2)vj vj ; X0 C2 X = 0
j (2)zj zj ;
j=1
X
n X
n
0 0 0
C1 C2 = i (1) j (2)ui ui vj vj =0 ) i (1) j (2)ui vj = 0; 8i; j:
i=1 i=1
1. La media x es Np ( ; =n):
50 CAPTULO 3. INFERENCIA MULTIVARIANTE
H0 : 2 0 vs H1 : 2 0:
L(x1 ; : : : ; xn ; b0 )
R = ;
L(x1 ; : : : ; xn ; b)
que satisface 0 R 1: Aceptamos la hiptesis H0 si R es prxima a 1 y
aceptamos la alternativa H1 si R es signicativamente prximo a 0.
El test basado en R tiene muchas aplicaciones en AM, pero en la mayora
de los casos su distribucin es desconocida. Existe un importante resultado
(atribuido a Wilks), que dice que la distribucin de -2 veces el logaritmo de
R es ji-cuadrado con r s g.l. cuando el tamao de la muestra n es grande.
Test de independencia
0 = f( ; 0 )g; s = 2p;
= f( ; )g; r = p + p(p + 1)=2;
n=2
R = ;
Tabla 3.1: X1 = long. antena, X2 = long. ala (en mm), para dos muestras de
tamao n1 = 9 y n2 = 6;
3.6. Ejemplos
Ejemplo 3.6.1 Moscas.
b = 1 (9S1 + 6S2 ) =
S
75:49 66:46
:
13 66:46 133:81
Distancia de Mahalanobis entre las dos muestras:
D2 = (x b 1 (x
y)0 S y) = 15:52:
3.6. EJEMPLOS 55
Estadstico T 2 :
6 9 2
T2 = D = 55:87
6+9
Estadstico F :
9+6 1 2 2 2
T = 25:78 F12
2(9 + 6 2)
Decisin: rechazamos la hiptesis de que las dos especies son iguales (nivel
de signicacin = 0:001):
X1 X2 X3 X4 X1 X2 X3 X4 X1 X2 X3 X4
5.1 3.5 1.4 0.2 7.0 3.2 4.7 1.4 6.3 3.3 6.0 2.5
4.9 3.0 1.4 0.2 6.4 3.2 4.5 1.5 5.8 2.7 5.1 1.9
4.7 3.2 1.3 0.2 6.9 3.1 4.9 1.5 7.1 3.0 5.9 2.1
4.6 3.1 1.5 0.2 5.5 2.3 4.0 1.3 6.3 2.9 5.6 1.8
5.0 3.6 1.4 0.2 6.5 2.8 4.6 1.5 6.5 3.0 5.8 2.2
5.4 3.9 1.7 0.4 5.7 2.8 4.5 1.3 7.6 3.0 6.6 2.1
4.6 3.4 1.4 0.3 6.3 3.3 4.7 1.6 4.9 2.5 4.5 1.7
5.0 3.4 1.5 0.2 4.9 2.4 3.3 1.0 7.3 2.9 6.3 1.8
4.4 2.9 1.4 0.2 6.6 2.9 4.6 1.3 6.7 2.5 5.8 1.8
4.9 3.1 1.5 0.1 5.2 2.7 3.9 1.4 7.2 3.6 6.1 2.5
5.4 3.7 1.5 0.2 5.0 2.0 3.5 1.0 6.5 3.2 5.1 2.0
4.8 3.4 1.6 0.2 5.9 3.0 4.2 1.5 6.4 2.7 5.3 1.9
4.8 3.0 1.4 0.1 6.0 2.2 4.0 1.0 6.8 3.0 5.5 2.1
4.3 3.0 1.1 0.1 6.1 2.9 4.7 1.4 5.7 2.5 5.0 2.0
5.8 4.0 1.2 0.2 5.6 2.9 3.6 1.3 5.8 2.8 5.1 2.4
5.7 4.4 1.5 0.4 6.7 3.1 4.4 1.4 6.4 3.2 5.3 2.3
5.4 3.9 1.3 0.4 5.6 3.0 4.5 1.5 6.5 3.0 5.5 1.8
5.1 3.5 1.4 0.3 5.8 2.7 4.1 1.0 7.7 3.8 6.7 2.2
5.7 3.8 1.7 0.3 6.2 2.2 4.5 1.5 7.7 2.6 6.9 2.3
5.1 3.8 1.5 0.3 5.6 2.5 3.9 1.1 6.0 2.2 5.0 1.5
5.4 3.4 1.7 0.2 5.9 3.2 4.8 1.8 6.9 3.2 5.7 2.3
5.1 3.7 1.5 0.4 6.1 2.8 4.0 1.3 5.6 2.8 4.9 2.0
4.6 3.6 1.0 0.2 6.3 2.5 4.9 1.5 7.7 2.8 6.7 2.0
5.1 3.3 1.7 0.5 6.1 2.8 4.7 1.2 6.3 2.7 4.9 1.8
4.8 3.4 1.9 0.2 6.4 2.9 4.3 1.3 6.7 3.3 5.7 2.1
5.0 3.0 1.6 0.2 6.6 3.0 4.4 1.4 7.2 3.2 6.0 1.8
5.0 3.4 1.6 0.4 6.8 2.8 4.8 1.4 6.2 2.8 4.8 1.8
5.2 3.5 1.5 0.2 6.7 3.0 5.0 1.7 6.1 3.0 4.9 1.8
5.2 3.4 1.4 0.2 6.0 2.9 4.5 1.5 6.4 2.8 5.6 2.1
4.7 3.2 1.6 0.2 5.7 2.6 3.5 1.0 7.2 3.0 5.8 1.6
4.8 3.1 1.6 0.2 5.5 2.4 3.8 1.1 7.4 2.8 6.1 1.9
5.4 3.4 1.5 0.4 5.5 2.4 3.7 1.0 7.9 3.8 6.4 2.0
5.2 4.1 1.5 0.1 5.8 2.7 3.9 1.2 6.4 2.8 5.6 2.2
5.5 4.2 1.4 0.2 6.0 2.7 5.1 1.6 6.3 2.8 5.1 1.5
4.9 3.1 1.5 0.2 5.4 3.0 4.5 1.5 6.1 2.6 5.6 1.4
5.0 3.2 1.2 0.2 6.0 3.4 4.5 1.6 7.7 3.0 6.1 2.3
5.5 3.5 1.3 0.2 6.7 3.1 4.7 1.5 6.3 3.4 5.6 2.4
4.9 3.6 1.4 0.1 6.3 2.3 4.4 1.3 6.4 3.1 5.5 1.8
4.4 3.0 1.3 0.2 5.6 3.0 4.1 1.3 6.0 3.0 4.8 1.8
5.1 3.4 1.5 0.2 5.5 2.5 4.0 1.3 6.9 3.1 5.4 2.1
5.0 3.5 1.3 0.3 5.5 2.6 4.4 1.2 6.7 3.1 5.6 2.4
4.5 2.3 1.3 0.3 6.1 3.0 4.6 1.4 6.9 3.1 5.1 2.3
4.4 3.2 1.3 0.2 5.8 2.6 4.0 1.2 5.8 2.7 5.1 1.9
5.0 3.5 1.6 0.6 5.0 2.3 3.3 1.0 6.8 3.2 5.9 2.3
5.1 3.8 1.9 0.4 5.6 2.7 4.2 1.3 6.7 3.3 5.7 2.5
4.8 3.0 1.4 0.3 5.7 3.0 4.2 1.2 6.7 3.0 5.2 2.3
5.1 3.8 1.6 0.2 5.7 2.9 4.2 1.3 6.3 2.5 5.0 1.9
4.6 3.2 1.4 0.2 6.2 2.9 4.3 1.3 6.5 3.0 5.2 2.0
5.3 3.7 1.5 0.2 5.1 2.5 3.0 1.1 6.2 3.4 5.4 2.3
5.0 3.3 1.4 0.2 5.7 2.8 4.1 1.3 5.9 3.0 5.1 1.8
Lambda de Wilks:
jWj
= = 0:02344 (4; 147; 2)
jW + Bj
Transformacin a una F aplicando (2.9):
8
! F = 198:95 F288
Decisin: las diferencias entre las tres especies son muy signicativas.
Medias X Y
Matriz covarianzas
n1 = 27 460.4 335.1
n2 = 20 444.3 323.2 b = 561:7 374:2
S
374:2 331:24
Diferencia 16.1 11.9
Correlacin: r = 0:867
Desv. tpicas 23.7 18.2
Suponiendo normalidad, los contrastes t de comparacin de medias para
cada variable por separado son:
Pues bien, el test con x y el test con y por separado, son contrastes t
distintos del test T 2 empleado con (x; y); equivalente a una F. Tales con-
trastes no tienen por qu dar resultados compatibles. Las probabilidades de
las regiones de rechazo son distintas. Adems, la potencia del test con (x; y)
es superior, puesto que la probabilidad de la regin F es mayor que las pro-
babilidades sumadas de las regiones A y B.
Para ms ejemplos de comparacin de medias, consltese Baillo y Gran
(2008).
H0 : 1 = = p:
Esta hiptesis slo tiene sentido si las variables observables son comparables.
60 CAPTULO 3. INFERENCIA MULTIVARIANTE
La hiptesis es equivalente a
H0 : C = 0:
Consideremos los datos del ejemplo 1.11.1. Queremos estudiar si las me-
dias poblacionales de N, E, S, W son iguales. En este caso
0 1
1 1 0 0
C=@ 0 1 1 0 A
0 0 1 1
y la T 2 de Hotelling es:
b 0 ) 1 Cx = 20:74
T 2 = n(Cx)0 (CSC
Bajo la hiptesis nula, sigue una T 2 (3; 23): Convertida en una F se obtiene
F (3; 25) = [25=(27 3)]T 2 = 6:40: El valor crtico al nivel 0:05 es 2:99: Hay
diferencias signicativas a lo largo de las cuatro direcciones cardinales.
3.8. COMPLEMENTOS 61
3.8. Complementos
C. Stein prob que la estimacin b = x de de la distribucin Np ( ; )
puede ser inadmisible si p 3; en el sentido de que no minimiza
p
X
2
(bi i) ;
i=1
ANLISIS DE
CORRELACIN CANNICA
4.1. Introduccin
En este captulo estudiamos la relacin multivariante entre vectores aleato-
rios. Introducimos y estudiamos las correlaciones cannicas, que son gene-
ralizaciones de las correlaciones simple y mltiple.
Tenemos tres posibilidades para relacionar dos variables:
Yb = 1 X1 + + p Xp
63
64 CAPTULO 4. ANLISIS DE CORRELACIN CANNICA
b= 1
: (4.1)
Demost.:
( ) = E(Y Yb )2
= E(Y )2 + E(Yb )2 2E(Y Yb )
= var(Y ) + 0 2 0
Derivando vectorialmente respecto de e igualando a 0
@
( )=2 2 = 0:
@
Y = Yb + Ye ;
1. 0 R 1:
2. R = 1 si Y es combinacin lineal de X1 ; : : : ; Xp :
3. R2 =var(Yb )=var(Y ):
Demost.:
1. Es consecuencia de b = : En efecto,
0
cov(Yb ; Ye ) = E(Yb Ye ) = E( b X0 (Y b 0 X)) = b 0 b 0 b = 0:
obtenemos
cov2 (Y; Yb ) var(Yb )
R2 = = : (4.2)
var(Y )var(Yb ) var(Y )
U = Xa = a1 X1 + + ap Xp ; V = Yb = b1 Y1 + + b q Yq ;
4. cor(Ui ; Vj ) = 0 si i 6= j:
0 0
Restando: ( i j )ai S11 aj = 0 ) ai S11 aj = 0 )cor(Ui ; Uj ) = 0:
Por otra parte, expresando (4.3) como
S111 S12 S221 S21 ai = i ai ; S221 S21 S111 S12 bj = j bj ;
Demost.:
1=2 1=2 1=2 1=2
QQ0 = S11 S12 S22 S22 S21 S11 =U 2
U0
y por lo tanto
1=2 1=2 2
S11 S12 S221 S21 S11 ui = i ui
1=2
Multiplicando por S11
1=2 2 1=2
S111 S12 S221 S21 (S11 ui ) = i (S11 ui )
1 2 m
jSj jRj
= = ;
jS11 jjS22 j jR11 jjR22 j
H0 : 1 = 0; H1 : 1 > 0:
4.7. Ejemplos
Ejemplo 4.7.1 Familias.
r1 = 0:838 6; r2 = 0:3256:
jSj
= = 0:2653 (2; 22; 2)
jS11 jjS22 j
r1 = 0:8377; r2 = 0:4125:
nos indican que las regiones ms catalanas, en el sentido de que los nombres
castellanos Juan y Juana no predominan tanto sobre los catalanes Joan y
Joana, tienden a votar ms a CU y ERC, que son partidos nacionalistas. Las
regiones con predominio de voto al PSC o al PP, que son partidos centra-
listas, estn en general, ms castellanizadas. Las segundas variables cannicas
tienen una interpretacin ms difcil.
4.8. Complementos
El anlisis de correlacin cannica (ACC) fue introducido por Hotelling
(1936), que buscaba la relacin entre test mentales y medidas biomtricas,
a n de estudiar el nmero y la naturaleza de las relaciones entre mente y
4.8. COMPLEMENTOS 75
cuerpo, que con un anlisis de todas las correlaciones sera difcil de interpre-
tar. Es un mtodo de aplicacin limitada, pero de gran inters terico puesto
que diversos mtodos de AM se derivan del ACC.
Aplicaciones a la psicologa se pueden encontrar en Cooley y Lohnes
(1971), Cuadras y Snchez (1975). En ecologa se ha aplicado como un mode-
lo para estudiar la relacin entre presencia de especies y variables ambientales
(Gittings, 1985).
La distribucin de las correlaciones cannicas es bastante complicada.
Solamente se conocen resultados asintticos (Muirhead, 1982).
En ciertas aplicaciones tiene inters considerar medidas globales de aso-
ciacin entre dos matrices de datos X; Y; de rdenes n p y n q respecti-
vamente, observadas sobre el mismo conjunto de n individuos. Una medida
interesante resulta de considerar la razn de verosimilitud de Wilks. Viene
dada por
Qs
AW = 1 jI S221 S21 S111 S12 j = 1 (1 ri2 );
i=1
Sin embargo AH suele dar valores bajos. Tambin es una medida de aso-
ciacin global
!2
Xs
2
PXY = ri =s2 ; (4.5)
i=1
que coincide con el coeciente procrustes (1.8) cuando las variables X estn
incorrelacionadas y tienen varianza 1 (y anlogamente las Y ). Vase Cramer
y Nicewander (1979) y Cuadras (2011). En Cuadras et al. (2012) se propone
una generalizacin a la comparacin (mediante distancias) de dos conjun-
tos de datos en general, con una aplicacin a la comparacin de imgenes
hiperespectrales.
76 CAPTULO 4. ANLISIS DE CORRELACIN CANNICA
ANLISIS DE
COMPONENTES
PRINCIPALES
tales que:
77
78 CAPTULO 5. ANLISIS DE COMPONENTES PRINCIPALES
Sti = i ti ; t0i ti = 1; i = 1; : : : ; p:
Entonces:
var(Yi ) = i; i = 1; : : : ; p:
cov(Yi ; Yj ) = 0; i 6= j = 1; : : : ; p:
0
)( j i )ti tj = 0; ) t0i tj = 0; ) cov(Yi ; Yj ) = 0
j ti tj = 0; si i 6= j.
Adems:
var(Yi ) = i t0i tj = i :
Pp Pp
Sea ahora Y =
P i=1 ai Xi = i=1 i Yi una variable compuesta tal que
p 2
i=1 i = 1: Entonces
p p p p
X X X X
2 2 2
var(Y ) = var( i Yi ) = i var(Yi ) = i i ( i) 1 = var(Y1 );
i=1 i=1 i=1 i=1
5.2. VARIABILIDAD EXPLICADA POR LAS COMPONENTES 79
Entonces:
p p p p
X X X X
2 2 2
var(Y ) = var( i Yi ) = i var(Yi ) = i i ( i) 2 = var(Y2 );
i=2 i=2 i=2 i=2
P
2. Si m < p; Y1 ; : : : ; Ym contribuyen con la cantidad m i=1 i a la variacin
total tr(S):
es
p
X
2 0
ij = (xi xj ) (xi xj ) = (xih xjh )2 :
h=1
1 X
n
2
V (X) = ij :
2n2 i;j=1
X
m
2 0
ij (m) = (yi yj ) (yi yj ) = (yih yjh )2
h=1
1 X
n
(xi xj )2 = s2 : (5.3)
2n2 i;j=1
En efecto, si x es la media
X
n X
n
2
1
n2
(xi xj ) = 1
n2
(xi x (xj x))2
i;j=1 i;j=1
X n X
n
2
= 1
n2
(xi x) + 1
n2
(xj x)2
i;j=1 i;j=1
X n
2
+ n2 (xi x)(xj x))2
i;j=1
= 1
n
ns2 + n1 ns2 + 0 = 2s2 :
X
m X
m
2
V (Z)m = s (Zj ) = vj0 Svj ;
j=1 j=1
V (Y)m 1+ + m
Pm = 100 = 100 :
V (X)p 1+ + p
5.4. Inferencia
Hemos planteado el ACP sobre la matriz S; pero lo podemos tambin
plantear sobre la matriz de covarianzas poblacionales : Las componentes
principales obtenidas sobre S son, en realidad, estimaciones de las compo-
nentes principales sobre :
Sea X matriz de datos n p donde las las son independientes con dis-
tribucin Np ( ; ): Recordemos que:
1. x es Np ( ; =n):
5.4. INFERENCIA 83
=[ 1; : : : ; p ]; = [ 1; : : : ; p ]; = diag( 1 ; : : : ; p );
los vectores propios y valores propios de : Por otra parte, sea S = GLG0
la diagonalizacin de S: Indiquemos:
1 p:
li es N ( i ; 2 2i =n); cov(li ; lj ) = 0; i 6= j;
2. gi es Np ( i ; Vi =n) donde
X i 0
Vi = i i i
j6=i
( i j )2
3. ` es independiente de G:
El mximo no restringido es
n n
log L = 2
log j2 Sj 2
p:
entonces, asintticamente
2
2 log R = np(a log g 1) q; (5.6)
H0 : = d = diag( 11 ; : : : ; pp ) ( desconocida).
60
lam
50
40
30
20
10
0
0 1 2 3 4 5 6
k
trozos ordenados son los valores propios l1 > l2 > > lp : Si normalizamos
a Vt = 100; entonces el valor esperado de lj es
p j
1X 1
E(Lj ) = 100 :
p i=1 j + i
5.6. Biplot
Un biplot es una representacin, en un mismo grco, de las las (indi-
viduos) y las columnas (variables) de una matriz de datos X(n p):
Suponiendo X matriz centrada, el biplot clsico (debido a K. R. Gabriel),
se lleva a cabo mediante la descomposicin singular
X = U V0 ;
xj ( j ) = (0; : : : ; j ; : : : ; 0) mj j Mj ;
5.7. Ejemplos
Ejemplo 5.7.1 Estudiantes.
2. Matriz de covarianzas:
0 1
44:7 17:79 5:99 9:19
B 17:79 26:15 4:52 4:44 C
S =B
@ 5:99
C
4:52 3:33 1:34 A
9:19 4:44 1:34 4:56
90 CAPTULO 5. ANLISIS DE COMPONENTES PRINCIPALES
4. Nmero de componentes:
5. Componentes principales:
Y1 = 0; 8328X1 + 0; 5029X2 + 0; 1362X3 + 0; 1867X4 ;
Y2 = 0; 5095X1 0; 8552X2 0; 05 88X3 + 0; 0738X4 :
corredor km 4 km 8 km 12 km16
1 10 10 13 12
2 12 12 14 15
3 11 10 14 13
4 9 9 11 11
5 8 8 9 8
6 8 9 10 9
7 10 10 8 9
8 11 12 10 9
9 14 13 11 11
10 12 12 12 10
11 13 13 11 11
12 14 15 14 13
5. Interpretacin:
5.8. Complementos
El Anlisis de Componentes Principales (ACP) fu iniciado por K. Pear-
son en 1901 y desarrollado por H. Hotelling en 1933. Es un mtodo referente
a una poblacin, pero W. Krzanowski y B. Flury han investigado las compo-
nentes principales comunes a varias poblaciones.
El ACP tiene muchas aplicaciones. Una aplicacin clsica es el estudio
de P. Jolicoeur y J. E. Mosimann sobre tamao y forma de animales (como
los caparazones de tortugas machos y hembras), en trminos de la primera,
5.8. COMPLEMENTOS 93
X
1
4
X= 2 (2n
[1 cos(2n 1) X]:
n=1
1)2
ANLISIS FACTORIAL
6.1. Introduccin
El Anlisis Factorial (AF) es un mtodo multivariante que pretende ex-
presar p variables observables como una combinacin lineal de m variables
hipotticas o latentes, denominadas factores. Tiene una formulacin pare-
cida al Anlisis de Componentes Principales, pero el modelo que relaciona
variables y factores es diferente en AF. Si la matriz de correlaciones existe,
las componentes principales tambin existen, mientras que el modelo factorial
podra ser aceptado o no mediante un test estadstico.
Ejemplos en los que la variabilidad de las variables observables se puede
resumir mediante unas variables latentes, que el AF identica como fac-
tores, son:
97
98 CAPTULO 6. ANLISIS FACTORIAL
Xi = ai F + di Ui ; i = 1; : : : ; p: (6.1)
De acuerdo con este modelo, cada variable Xi depende del factor comn
F y de un factor nico Ui : El modelo factorial supone que:
a) Variables y factores estn estandarizados (media 0 y varianza 1).
b) Los p + 1 factores estn incorrelacionados.
De este modo F contiene la parte de la variabilidad comn a todas las
variables, y cada Xi est adems inuida por un factor nico Ui ; que apor-
ta la parte de la variabilidad que no podemos explicar a partir del factor
comn. El coeciente ai es la saturacin de la variable Xi en el factor F: La
estandarizacin es una condicin terica que se supone al modelo para su
estudio, pero que no debe imponerse al conjunto de datos observados.
De (6.1) deducimos inmediatamente que
a2i + d2i = 1;
cor(Xi ; F ) = ai ;
cor(Xi ; Xj ) = ai aj ; i 6= j:
Por lo tanto la saturacin ai es el coeciente de correlacin entre Xi y el factor
comn. Por otra parte a2i ; cantidad que recibe el nombre de comunalidad,
indicada por h2i ; es la proporcin de variabilidad que se explica por F y la
correlacin entre Xi ; Xj slo depende de las saturaciones ai ; aj :
Una caracterizacin del modelo unifactorial es
rij rij 0 ai
= = ; (6.2)
ri0 j ri0 j 0 ai0
6.2. EL MODELO UNIFACTORIAL 99
cor(Fi ; Uj ) = 0; i = 1; : : : ; m; j = 1; : : : ; p:
3. Tanto los factores comunes como los factores nicos son variables re-
ducidas (media 0 y varianza 1).
6.3.6. Un ejemplo
Ejemplo 6.3.1 Asignaturas.
C L
CNa .8 .2
Mat .9 .1
(6.11)
Fra .1 .9
Lat .3 .8
Lit .2 .8
104 CAPTULO 6. ANLISIS FACTORIAL
Asignaturas Factores
Alumno CNa Mat Fra Lat Lit Ciencias Letras
1 7 7 5 5 6 7 5
2 5 5 6 6 5 5 6
3 5 6 5 7 5 6 5
4 6 8 5 6 6 7 5
5 7 6 6 7 6 6 6
6 4 4 6 7 6 4 6
7 5 5 5 5 6 5 6
8 5 6 5 5 5 6 5
9 6 5 7 6 6 5 6
10 6 5 6 6 6 5 6
11 6 7 5 6 5 7 5
12 5 5 4 5 4 6 4
13 6 6 6 6 5 6 6
14 8 7 8 8 8 7 8
15 6 7 5 6 6 6 5
16 4 3 4 4 4 3 4
17 6 4 7 8 7 5 7
18 6 6 7 7 7 6 7
19 6 5 4 4 4 5 4
20 7 7 6 7 6 7 6
Tabla 6.1: Calicaciones en 5 asignaturas y puntuaciones en 2 factores
comunes de 20 alumnos.
De los 7 puntos, 5.6 se explican por el factor comn C, 1 punto por el factor
comn L y 0.4 puntos por el factor nico. Este factor nico representa la
variabilidad propia de las CNa, independente de los conceptos C y L.
Las comunalidades son:
h21 = 0:68; h22 = 0:82; h23 = 0:82; h24 = 0:73; h25 = 0:68:
Teorema 6.4.1 Bajo las hiptesis del modelo factorial lineal se verica:
P
rij = m k=1 aik ajk ; i 6= j = 1; : : : ; p;
Pm 2
1 = k=1 aik + d2i ; i = 1; : : : ; p:
En notacin matricial
R = AA0 + D2 : (6.12)
106 CAPTULO 6. ANLISIS FACTORIAL
R = AA0 : (6.13)
Una solucin factorial viene dada por cualquier matriz A que cumpla la
relacin (6.13). As pues, si m > 1; existen innitas soluciones, pues si A es
solucin, tambin lo es AT, siendo T una matriz m m ortogonal. Por otro
lado, (6.12) o (6.13) tampoco resuelven completamente el problema, ya que
desconocemos las comunalidades. La obtencin de las comunalidades est
muy ligada al nmero de factores comunes.
= AA0 + D2 : (6.14)
Vj = a21j + + a2pj :
V2 = a212 + + a2p2 ;
108 CAPTULO 6. ANLISIS FACTORIAL
P =(pij )
Q=P ;
R = P P0 + D2 :
P = Q; = Im :
pij = jak+1
ij j=aij ; k > 1;
P = AL; = T0 T; Q = AT:
Figura 6.1: Proyeccin de las variables sobre los factores comunes ortogonales,
y factores rotados (rotacin promax), interpretados como factores de Ciencias
y Letras.
= BB0 + E2 ;
u = D 1 (x Af )
u0 u = u21 + + u2p ;
116 CAPTULO 6. ANLISIS FACTORIAL
1 1
expresando (6.19) como D x=D Af + u; es fcil ver que
f = (A0 D 2 A) 1 A0 D 2 x:
f = B 1 A0 D 2 x;
siendo B2 = A0 D 2 RD 2 A:
C L
CNa 1 0
Mat 1 0
Fra 0 1
Lat 0 1
Lit 0 1
interpretando que las dos primeras slo dependen del factor Ciencias y las
otras tres del factor Letras. Entonces podemos realizar una transformacin
de la matriz factorial inicial para ajustarnos a la matriz anterior.
Si la solucin inicial es A; postulamos una estructura B y deseamos en-
contrar T ortogonal tal que AT se aproxime a B en el sentido de los mnimos
cuadrados
tr[(B AT)0 (B AT)] = mnimo,
1 2 3 4 5 6 7 8 9
1 1 .318 .468 .335 .304 .326 .116 .314 .489
2 1 .230 .234 .157 .195 .057 .145 .139
3 1 .327 .335 .325 .099 .160 .327
4 1 .722 .714 .203 .095 .309
5 1 .685 .246 .181 .345
6 1 .170 .113 .280
7 1 .585 .408
8 1 .512
9 1
P Comun.
:71 :00 :00 .50
:54 :03 :08 .26
:67 :04 :09 .46
2
:00 :87 :00 1 .76 12 = 9:77
:03 :81 :13 .54 1 .70 p = 0:64
:01 :82 :01 .24 .28 1 .68
:00 :00 :78 .61
:42 :30 :73 .68
:56 :06 :41 .54
P Comun.
.68 .00 .00 .46
.52 .00 .00 .27
.69 .00 .00 .48
2
.00 .87 .00 1 .77 24 = 51:19
.00 .83 .00 .54 1 .69 p = 0:001
.00 .83 .00 .52 .34 1 .69
.00 .00 .66 .43
.00 .00 .80 .63
.00 .00 .70 .49
P Comun.
:38 :58 :00 :00 .48
:24 :41 :35 :00 .37
:38 :53 :30 :03 1 .52
2
:87 :00 :03 :00 .00 1 .75 6 = 2:75
:83 :01 :13 :06 .00 .00 1 .72 p = 0:84
:83 :01 :04 :02 .00 .00 .00 1 .68
:24 :02 :00 :95 .95
:15 :43 :13 :57 .56
:36 :59 :22 :34 .64
6.10. Complementos
Constituyen dos precedentes del Anlisis Factorial el concepto de fac-
tor latente de F. Galton y de eje principal de K. Pearson. El primer trabajo,
publicado en 1904, por Ch. Spearman (Spearman, 1904) desarrolla una teora
de la inteligencia alrededor de un factor comn, el factor g. Esta teora,
120 CAPTULO 6. ANLISIS FACTORIAL
ANLISIS CANNICO DE
POBLACIONES
7.1. Introduccin
Con el Anlisis de Componentes Principales podemos representar los indi-
viduos de una poblacin, es decir, representar una nica matriz de datos. Pero
si tenemos varias matrices de datos, como resultado de observar las variables
sobre varias poblaciones, y lo que queremos es representar las poblaciones,
entonces la tcnica adecuada es el Anlisis Cannico de Poblaciones (CANP).
Supongamos que de la observacin de p variables cuantitativas X1 ; : : : ; Xp
sobre g poblaciones obtenemos g matrices de datos
0 1
X1 n1 p
B X2 C n2 p
B C
X = B .. C ..
@ . A .
Xg ng p
123
124 CAPTULO 7. ANLISIS CANNICO DE POBLACIONES
0
Entonces A =X X juega el papel de matriz de covarianzas entrelas pobla-
ciones, S juega el papel de matriz de covarianzas dentrode las poblaciones.
Avi = i Si vi ;
normalizados segn
vi0 Si vi = 1:
Los vectores v1 ; : : : ; vp son los vectores cannicos y las variables cannicas
son las variables compuestas
Yi = Xvi :
7.2. VARIABLES CANNICAS 125
Demost.: Supongamos 1 > > p > 0: Probemos que las variables com-
puestas Yi = Xti ; i = 1; : : : ; p; estn incorrelacionadas:
covA (Yi ; Yj ) = t0i Atj = t0i S j tj = 0
j ti Stj ;
covA (Yj ; Yi ) = t0j Ati = t0j S j ti = 0
i tj Sti ;
0 0 0
Restando ( j i )ti Stj = 0 ) ti Stj = 0 ) covA (Yi ; Yj ) = j ti Stj =
covA (Yi ; Yj ) = 0; si i =6 j. Adems, de t0i Stj = 1:
varA (Yi ) = i t0i Stj = i :
Pp Pp
Sea ahora
P Y = i=1 a i Xi P i=1 i Yi una variable compuesta tal que
=
varS (Y ) = pi=1 2i varS (Yi ) = pi=1 2i = 1: Entonces varA (Y ) es:
p p p p
X X X X
2 2 2
varA ( i Yi ) = i varA (Yi ) = i i ( i) 1 = varA (Y1 );
i=1 i=1 i=1 i=1
126 CAPTULO 7. ANLISIS CANNICO DE POBLACIONES
Y =XV:
AV = SV con V0 SV = Ip ;
es signicativo, donde q = gp(p + 1)=2 p(p + 1)=2 = (g 1)p(p + 1)=2 son los
grados de libertad de la ji-cuadrado. Si rechazamos H00 , entonces resulta que
no disponemos de unos ejes comunes para representar todas las poblaciones
(la orientacin de los ejes viene determinada por la matriz de covarianzas),
y el anlisis cannico es tericamente incorrecto. Conviene pues aceptar H00 :
Este es el llamado test de Bartlett.
Debido a que el test anterior puede ser sesgado, conviene aplicar la cor-
reccin de Box,
k = m nfp; g 1g:
0
donde 1 > > m son los valores propios de M M (la versin poblacional
de A) respecto de : Si
l1 > > lk
son los valores propios de B respecto de W (ver Seccin 3.3.3), es decir,
soluciones de
jB lWj = 0;
7.5. ASPECTOS INFERENCIALES 131
(m)
entonces un test para decidir H0 est basado en el estadstico
1 Xk
2
bm = [n 1 (p + g)] log(1 + li ) q;
2 i=m+1
(n g)p
(xi 0 1
i ) S (xi i) Fp g p+1 :
ni (n g p + 1) n
As pues
0 1 R2
P (xi i ) S (xi i) =1 ;
ni
que dene una regin condencial hiperelptica para i con coeciente de
conanza 1 : Pero la transformacin cannica y0i = x0i V convierte a
0 1 0
(xi i ) S (xi i ) en (yi i ) (yi i ) y por lo tanto
0 R2
P (yi i ) (yi i) =1 :
ni
7.6. Ejemplos
Ejemplo 7.6.1 Colepteros.
7.7. Complementos
El Anlisis Cannico de Poblaciones (CANP) fue planteado por M. S.
Bartlett en trminos de correlacin cannica entre las poblaciones y las va-
riables observables. C. R. Rao lo relacion con la distancia de Mahalanobis
y lo estudi como una tcnica para representar poblaciones. Su difusin es
debida a Seal (1964).
Existen diferentes criterios para obtener la regin condencial para las
medias de las poblaciones. Aqu hemos seguido un criterio propuesto por
Cuadras (1974). Una formulacin que no supone normalidad es debida a
Krzanowski y Radley (1989). A menudo los datos no cumplen la condicin
de igualdad de las matrices de covarianzas, aunque el CANP es vlido si las
matrices muestrales son relativamente semejantes.
En el CANP, y ms adelante en el Anlisis Discriminante, interviene la
descomposicin T = B + W; es decir:
Si los datos provienen de g poblaciones con densidades fi (x), medias y
matrices de covarianzas ( i ; i ) y probabilidades pi ; i = 1; : : : ; g; es decir,
136 CAPTULO 7. ANLISIS CANNICO DE POBLACIONES
con densidad
f (x) =p1 f1 (x) + +pg fg (x);
entonces el vector de medias correspondiente a f es
=p1 1+ +pg g;
y la matriz de covarianzas es
g g
X X
0
= pi ( i )( i ) + pi i:
i=1 i=1
ESCALADO
MULTIDIMENSIONAL
(MDS)
8.1. Introduccin
Representar un conjunto nito cuando disponemos de una distancia entre
los elementos del conjunto, consiste en encontrar unos puntos en un espacio de
dimensin reducida, cuyas distancias eucldeas se aproximen lo mejor posible
a las distancias originales.
Sea = f! 1 ; ! 2 ; : : : ; ! n g un conjunto nito con n elementos diferentes,
que abreviadamente indicaremos
= f1; 2; :::; ng:
Sea ij = (i; j) una distancia o disimilaridad entre los elementos i; j de
:
Se habla de distancia (mtrica) cuando se cumplen las tres condiciones:
1. (i; i) = 0 para todo i:
2. (i; j) = (j; i) 0 para todo i; j:
3. (i; j) (i; k) + (j; k) para todo i; j; k (desigualdad triangular):
Si slo se cumplen las dos primeras condiciones, diremos que (i; j) es
una disimilaridad.
137
138 CAPTULO 8. ESCALADO MULTIDIMENSIONAL (MDS)
tales que
p
X
2
ij = (xi xj )2 = (xi xj )0 (xi xj ) (8.1)
=1
G = XX0 :
8.2. CUNDO UNA DISTANCIA ES EUCLDEA? 139
2
Los elementos de G = (gij ) son gij = x0i xj : Relacionando (2)
=( ij ) con G
vemos que
(2)
= 1g0 + g10 2G; (8.2)
donde g =(g11 ; : : : ; gnn )0 contiene los elementos de la diagonal de G: Sea H la
matriz de centrado (Captulo 1) y consideremos las matrices A = 12 (2) =
1 2
( ) y B = HAH:
2 ij
bii = ai ai +a ; bjj = aj aj +a ;
y por lo tanto
2
ij = bii + bjj 2bij = aii + ajj 2aij : (8.3)
Supongamos que es eucldea. Entonces G = XX0 . De (8.2) resulta que
Propiedades:
X1 = = Xp = 0
s2k = 1
n k; k = 1; : : : ; p
cor(Xk ; Xk0 ) = 0; k 6= k 0 = 1; : : : ; p:
B = XX0 = ZZ0 :
La matriz de covarianzas de Z es
1
S = Z0 Z = TDT0 ;
n
es mximo.
Demost.: Sea x1 ; :::; xn una muestra con media x = 0 y varianza s2 . Se
verica
Pn P P P
1
i;j=1 (xi xj )2 = 2n1 2 ( ni;j=1 x2i + ni;j=1 x2j 2 ni;j=1 xi xj )
2n2 P P P P
= 2n1 2 (n ni=1 x2i + n nj=1 x2j 2 ni=1 xi nij=1 xj )
= s2 ;
por lo tanto
p
X
V (X) = s2k :
k=1
8.4. Similaridades
En ciertas aplicaciones, especialmente en Biologa y Psicologa, en lugar
de una distancia, lo que se mide es el grado de similaridad entre cada par de
individuos.
Una similaridad s sobre un conjunto nito es una aplicacin de
en R tal que:
s(i; i) s(i; j) = s(j; i) 0:
144 CAPTULO 8. ESCALADO MULTIDIMENSIONAL (MDS)
1 p >0> p+1 p0 :
i1 j1 i2 j2 im jm : (8.9)
donde
(i; j) (i0 ; j 0 ) si ij i0 j 0 :
A B C D A B C D A B C D
A 0 1 2 3 0 1 1 1 0 1 1 1
B 0 1 2 0 1 1 0 1 1
C 0 1 0 0 0 1
D 0 0 0
bij = + c si i 6= j
ij
0 si i = j
donde c > 0 es una constante.
Es evidente que las dos transformaciones aditiva y q-aditiva conservan
la preordenacin de la distancia. Probemos ahora que la primera puede dar
lugar a una distancia eucldea.
Teorema 8.5.1 Sea una matriz de distancias no eucldeas y sea p0 < 0 el
menor valor propio de B: Entonces la transformacin q-aditiva proporciona
una distancia eucldea para todo a tal que a p0 :
b A a(I
A= b = B aH:
J); B
8.5. NOCIONES DE MDS NO MTRICO 147
1 a p a>0> p+1 a p0 a;
3. Ajustar una distancia eucldea dij a las disparidades bij de manera que
minimice X
(dij bij )2 :
i<j
1. Distancia ciudad:
p
X
d1 (x; y) = jxi yi j
i=1
2. Distancia eucldea:
v
u p
uX
d2 (x; y) = t (xi yi )2
i=1
3. Distancia dominante:
d1 (x; y) = max fjxi yi jg
1 i p
M 2( 1; 2) =( 1 2)
0 1
( 1 2)
0 1 1
( 1 2) [ ( 1 + 2 )] ( 1 2 ):
2
0 si h = h0 ;
d(i; j)2 =
ph 1 + ph01 si h 6= h0 :
p = (p1 ; : : : ; pk ); q = (q1 ; : : : ; qk );
Modelo de Thurstone
Supongamos que queremos ordenar n estmulos ! 1 ; : : : ; ! n (por ejemplo,
n productos comerciales)
! i1 ! in
segn una escala de preferencias i1 in ; donde los i son parmetros.
Sea pij la proporcin de individuos de la poblacin que preeren ! j sobre ! i :
Un modelo es Z j i
1 2
pij = p e t =2 dt:
2 1
152 CAPTULO 8. ESCALADO MULTIDIMENSIONAL (MDS)
Distancia de Rao
Sea S = ff (x; ); 2 g un modelo estadstico y z( ) = @@ log f (x; )
un vector columna. La matriz de informacin de Fisher F ( ) es la matriz
de covarianzas de los z 0 s. Sean a ; b dos valores de los parmetros. Una
distancia tipo Mahalanobis sera el valor esperado de
8.7. Ejemplos
Ejemplo 8.7.1 Herramientas prehistricas.
1 X
k
jpi qi j:
2r i=1
8.7. EJEMPLOS 155
Dro Dal Gro Fon Vie Zur HueBar For For Etn Fru The Sil Tra ChaOra AgaLas
droba 0
dalke .307 0
groni .152.276 0
fonta .271.225.150 0
viena .260.370.187.195 0
zuric .235.300.112.120.128 0
huelva .782.657.695.580.540.623 0
barce .615.465.529.412.469.445.259 0
forni .780.657.693.607.606.609.373.309 0
fores .879.790.801.764.760.761.396.490.452 0
etna .941.846.873.813.818.817.414.524.451.177 0
fruskF .560.505.470.442.342.391.577.460.501.681.696 0
thess .668.545.592.514.434.500.502.392.363.590.630.315 0
silif .763.643.680.584.581.610.414.357.413.646.667.544.340 0
trabz .751.619.675.582.519.587.418.342.399.587.648.439.269.286 0
chalu .709.489.636.548.531.549.595.489.514.635.649.444.408.574.438 0
orange .947.867.864.782.837.795.573.574.568.519.535.782.733.696.698.760 0
agadi .927.834.844.803.789.792.428.498.485.329.303.666.661.642.631.710.321 0
lasme .931.699.846.749.802.792.404.485.429.380.253.659.566.604.551.460.615.430 0
Esta distancia gentica fue propuesta por A. Prevosti. La Tabla 8.1 con-
tiene la s distancias entre n = 19 poblaciones de Drosophila Suboscura que
provienen de:
B a j C o r D im M e n P e q E n o In m Vo u A lt D e g E le F in L a r A n c A n g E st G ra G ru P ro H u e D e n P e s L ig
B a jo 0 2 .3 0 2 .3 2 2 .3 2 1 .5 2 3 .5 0 3 .4 3 3 .3 8 3 .7 1 3 .3 3 3 .5 7 3 .3 1 3 .3 1 3 .1 7 2 .8 7 3 .1 4 3 .3 8 2 .8 8 3 .0 7 3 .4 1 3 .4 3 3 .3 5 3 .2 7
C o rto 6 0 0 1 .9 4 2 .0 6 1 .4 6 3 .5 4 3 .6 4 3 .4 6 3 .5 3 2 .9 8 3 .5 1 2 .8 7 3 .5 1 3 .2 4 2 .8 5 2 .6 2 3 .4 6 3 .2 3 3 .3 7 3 .2 4 3 .1 4 3 .2 5 2 .9 3
D im inu to 7 4 7 0 0 1 .1 0 0 .9 3 3 .6 7 3 .7 2 3 .5 4 3 .6 0 2 .3 8 3 .4 8 1 .8 6 3 .4 4 3 .4 1 2 .4 4 2 .1 3 3 .5 6 3 .5 3 3 .5 0 3 .3 4 3 .2 3 3 .5 6 2 .3 4
M e nu d o 2 9 7 6 4 2 0 1 .0 1 3 .7 3 3 .5 6 3 .5 8 3 .3 7 1 .8 3 3 .4 2 1 .7 1 3 .2 4 3 .4 0 2 .8 0 2 .2 6 3 .5 0 3 .3 4 3 .4 7 3 .3 6 3 .3 0 3 .2 4 1 .8 5
Pequeccxxxxo 7 0 6 2 1 6 3 9 0 3 .7 4 3 .7 2 3 .5 6 3 .6 1 2 .7 1 3 .3 7 2 .2 3 3 .4 4 3 .2 6 2 .2 0 2 .0 8 3 .7 2 3 .3 4 3 .4 1 3 .3 6 3 .2 0 3 .4 0 2 .2 5
E n o rm e 9 0 9 0 8 7 8 9 8 7 0 0 .3 7 0 .9 7 1 .9 1 3 .4 3 1 .9 6 3 .4 7 1 .9 2 2 .4 7 3 .4 3 3 .4 1 0 .9 0 2 .7 2 2 .6 4 3 .4 3 2 .9 4 2 .3 1 3 .4 3
In m e n so 9 0 9 0 8 8 9 0 8 8 2 2 0 1 .6 0 2 .0 2 3 .4 3 2 .1 0 3 .4 0 2 .2 8 2 .1 8 3 .5 6 3 .4 6 1 .1 4 2 .7 0 2 .4 1 3 .2 5 3 .0 5 2 .6 5 3 .4 8
Vo lu m in o so 8 9 8 9 8 9 8 7 8 9 6 6 6 3 0 2 .7 2 3 .6 1 2 .4 5 3 .6 0 2 .9 4 2 .3 5 3 .4 8 3 .5 2 1 .3 0 1 .8 2 3 .0 2 3 .4 2 2 .5 5 2 .2 7 3 .4 7
A lto 8 0 8 4 8 8 8 9 8 7 8 5 8 3 8 7 0 3 .0 4 0 .8 2 3 .1 5 2 .6 3 3 .2 3 3 .3 6 3 .2 1 1 .8 3 3 .1 8 2 .9 6 3 .4 8 3 .2 2 2 .9 8 3 .4 1
D e lg a d o 8 3 8 0 8 0 6 4 8 0 9 0 9 0 8 9 8 3 0 2 .9 7 1 .1 5 2 .7 6 3 .4 8 1 .6 2 1 .3 8 3 .3 2 3 .6 3 3 .3 2 3 .3 8 3 .3 6 3 .5 1 2 .4 7
E le va d o 8 4 8 7 8 8 8 9 8 8 8 4 8 4 8 6 1 7 8 5 0 3 .1 2 2 .6 0 3 .2 0 3 .3 6 3 .2 5 2 .0 0 3 .2 7 3 .1 3 3 .4 6 3 .3 4 3 .2 4 3 .2 7
F in o 8 4 8 1 7 4 5 3 7 5 9 0 9 0 8 9 8 3 2 1 8 6 0 2 .8 3 3 .4 0 1 .9 6 2 .0 1 3 .3 5 3 .6 2 3 .4 1 3 .3 8 3 .2 6 3 .4 5 2 .0 2
L a rg o 8 4 8 0 8 9 8 9 8 8 8 7 8 5 8 5 7 4 7 9 7 5 8 7 0 3 .2 4 3 .0 4 3 .0 8 2 .4 6 3 .3 7 2 .8 0 3 .4 2 3 .2 8 3 .3 2 3 .4 1
A n ch o 8 5 8 3 8 9 8 9 8 8 8 6 8 4 7 6 8 2 8 3 8 4 8 7 7 3 0 3 .4 8 3 .5 3 1 .0 3 2 .7 6 2 .8 2 3 .2 7 2 .9 7 3 .1 8 3 .3 2
A n g o sto 8 2 7 4 7 7 7 8 7 9 9 0 8 9 8 8 8 5 5 3 8 6 5 8 8 2 8 4 0 0 .6 8 3 .3 3 3 .5 5 3 .3 7 3 .3 4 3 .2 1 3 .3 8 2 .9 1
E stre ch o 8 1 7 4 8 2 8 1 8 4 8 9 9 0 8 9 8 5 5 4 8 5 6 3 8 1 8 3 2 3 0 1 .9 5 1 .9 4 3 .2 6 3 .4 4 2 .8 0 2 .3 5 3 .3 1
G ra n d e 8 7 8 8 8 4 8 6 8 2 3 7 4 9 6 2 7 7 8 7 7 8 8 8 8 3 8 0 8 9 8 9 0 2 .8 5 2 .8 1 3 .4 6 3 .1 1 3 .1 0 3 .4 0
G ru e so 8 7 8 6 8 9 8 6 8 7 8 1 8 6 6 4 8 5 8 2 8 6 8 6 8 4 6 3 8 7 8 6 7 2 0 3 .2 3 3 .3 6 2 .4 4 2 .3 5 3 .4 7
P ro fu n d o 8 2 8 6 8 9 8 8 8 9 8 6 8 6 8 3 8 7 8 8 8 6 8 9 8 7 8 5 8 5 8 6 8 7 8 5 0 2 .5 7 2 .7 7 3 .2 3 3 .4 3
H ueco 8 2 8 3 8 8 8 9 8 8 9 0 9 0 8 8 8 7 8 5 8 4 8 7 8 5 8 6 8 4 8 4 8 8 8 7 6 6 0 3 .3 3 3 .4 1 2 .8 4
D e n so 89 89 89 87 89 87 86 77 88 87 89 88 87 82 89 88 85 7 2 7 9 8 7 0 3 .3 5 3 .4 8
P e sa d o 9 0 9 0 9 0 8 9 9 0 8 8 8 8 7 5 8 7 8 9 8 9 8 9 8 8 8 4 9 0 9 0 8 5 5 8 8 9 9 0 5 6 0 3 .5 1
L ig e ro 86 87 83 69 83 90 90 90 89 72 89 71 90 90 83 80 90 89 90 87 84 81 0
Figura 8.6: Relacin entre las distancias originales y las disparidades, indi-
cando que se conserva bien la preordenacin de las distancias.
8.8. Complementos
En un plano terico, el MDS comienza con el teorema de I. J. Schoenberg
acerca de la posibilidad de construir las coordenadas de un conjunto de puntos
dadas sus distancias. A nivel aplicado, es de destacar a W. S. Torgerson, que
en 1957 aplica el MDS a la psicologa, y Gower (1966), que prueba su relacin
con el Anlisis de Componentes Principales y el Cannico de Poblaciones,
abriendo un fructfero campo de aplicacin en la biologa.
El MDS no mtrico es debido a R. N. Shepard, que en 1962 introdujo el
concepto de preordenacin, y J. B. Kruskal, que en 1964 propuso algoritmos
efectivos que permitan encontrar soluciones. La transformacin q-aditiva fue
estudiada por J. C. Lingoes y K. V. Mardia. Diversos autores estudiaron la
transformacin aditiva, hasta que Cailliez (1983) encontr la solucin de-
160 CAPTULO 8. ESCALADO MULTIDIMENSIONAL (MDS)
ANLISIS DE
CORRESPONDENCIAS
9.1. Introduccin
El Anlisis de Correspondencias (AC) es una tcnica multivariante que
permite representar las categoras de las las y columnas de una tabla de
contingencia.
Supongamos que tenemos dos variables categricas A y B con I y J cate-
goras respectivamente, y que han sido observadas
P cruzando las I categoras
A con las J categoras B, obteniendo n = ij fij observaciones, donde fij es
el nmero de veces en que aparece la interseccin Ai \Bj ; dando lugar a la
tabla de contingencia I J :
B1 B2 BJ
A1 f11 f12 f1J f1
A2 f21 f22 f2J f2
.. .. .. .. .. .. (9.1)
. . . . . .
AI fI1 fI2 fIJ fI
f1 f2 fJ n
P P
donde fi = j fij es la frecuencia marginal de Ai ; f j = i fij es la fre-
cuencia marginal de Bj : Debemos tener en cuenta que, en realidad, la tabla
161
162 CAPTULO 9. ANLISIS DE CORRESPONDENCIAS
A1 A2 AI B1 B2 BJ
1 1 0 0 1 0 0
.. .. .. .. .. .. .. .. ..
. . . . . . . . .
i 0 0 1 0 1 0
.. .. .. .. .. .. .. .. ..
. . . . . . . . .
n 0 0 1 0 0 1
Z = [X; Y]:
P = n1 N;
r = P1J ; c = P0 1I :
r = n1 X0 1n ; c = n1 Y0 1n ;
Dr = diag(r); Dc = diag(c);
las matrices diagonales que contienen los valores marginales de las y colum-
nas de P. Se verica
X0 X = nDr ; Y0 Y = nDc ; X0 Y = nP = N:
9.2. CUANTIFICACIN DE LAS VARIABLES CATEGRICAS 163
Por lo tanto, las matrices de covarianzas entre las, entre columnas y entre
las y columnas, son
Puesto que la suma de las variables es igual a 1, las matrices S11 y S22 son
singulares.
U = Xa; V = Yb:
En efecto,
En notacin matricial, los vectores que cuantican las categoras de las las
y de las columnas de N, son las columnas de las matrices
A0 = Dr 1=2 U; B0 = Dc 1=2 V:
pues el producto por una constante (en este caso un valor singular), no altera
las correlaciones.
Q = Dr 1 P:
9.3. REPRESENTACIN DE FILAS Y COLUMNAS 165
X
J
(pij =ri pi0 j =ri0 )2
2
ii0 = :
j=1
cj
G = QDc 1 Q0 ;
(2) 2
y la relacin entre =( ii0 ) y G es
(2)
= g10 + 1g0 2G;
D1=2
r (I 1r0 )G(I r10 )Dr1=2 = UD2 U0 ;
A = Dr 1=2 UD : (9.4)
Las distancias eucldeas entre las las de A coinciden con las distancias ji-
cuadrado.
Relacionemos ahora estas coordenadas con las cuanticaciones anteriores.
De (9.2) tenemos
y de
deducimos que
D1=2
r (I 1r0 )QDc 1 Q0 (I r10 )Dr1=2 = UD2 U0 :
X
I
(pij =cj pij 0 =cj 0 )2
2
jj 0 = ;
i=1
ri
y probar que las distancias eucldeas entre las las de la matriz B obtenidas
en (9.3), coinciden con esta distancia ji-cuadrado. Es decir, si centramos los
1 0
perles de las columnas C= (I 1c0 )Dc P0 ; entonces CDr 1 C = BB0 :
As pues, considerando las dos primeras coordenadas principales:
Filas Columnas
A1 (a11 ; a12 ) B1 (b11 ; b12 )
A2 (a21 ; a22 ) B2 (b21 ; b22 )
.. .. .. ..
. . . .
AI (aI1 ; aI2 ) BJ (bJ1 ; bJ2 )
luego
Dr 1 (P rc0 )BD 1 = A:
9.4. REPRESENTACIN CONJUNTA 167
10 (P rc0 )BD 1 = r0 A:
(c0 c0 )BD 1 = r0 A = 0:
A = Dr 1 PBD 1 ; B = Dc 1 P0 AD 1 : (9.5)
Conviene notar que Dr 1 P son los perles de las las, y Dc 1 P0 son los perles
de las columnas. As pues tenemos que, salvo el factor dilatador D 1 ; (pues
los elementos diagonales de D son menores que 1), se verica:
1. Las coordenadas de las las son las medias, ponderadas por los perles
de las las, de las coordenadas de las columnas.
2. Las coordenadas de las columnas son las medias, ponderadas por los
perles de las columnas, de las coordenadas de las las.
Edad
Producto Joven Mediana Mayor Total
A 70 0 0 70
B 45 45 0 90
C 30 30 30 90
D 0 80 20 100
E 35 5 10 50
Total 180 160 60 400
Tabla 9.1: Clasicacin de 400 clientes segn edades y productos adquiridos
en un supermercado.
La Tabla 9.1 contiene unos datos articiales, que clasican 400 clientes
segn la edad (joven, mediana, mayor) y los productos que compran en un
supermercado. Los clculos son:
0 1 0 1
0:175 0:000 0:000 0:175 0 1
B 0:1125 0:1125 0:000 C B 0:225 C 0:45
B C B C
P=B
B 0:075 0:075 0:075 C;
C r=B
B 0:225 C;
C c = @ 0:40 A :
@ 0:000 0:200 0:050 A @ 0:250 A 0:15
0:0875 0:0125 0:025 0:125
La matriz de perles de las las y las coordenadas principales son:
0 1 2 3
1:00 0:00 0:00 1:10 0:12 2 3
B 0:50 0:50 0:00 C 6 0:05 0:42 7 0:75 0:04
B C 6 7
Q=B B 0:33 0:33 0:33 C ; A = 6
C
6 0:18 7
0:48 7 ; B = 4 0:68 0:24 5 :
@ 0:00 0:80 0:20 A 4 0:92 0:12 5 0:45 0:76
0:70 0:10 0:20 0:54 0:30
Los valores singulares son: 1 = 0:6847; 2 = 0:3311: La primera coor-
denada principal de las las A1 ; : : : ;A5 verica:
1
1:10 = 0; 6847 (0; 75 1 + 0 + 0)
1
0:05 = 0; 6847 (0; 75 0; 5 0; 68 0; 5 + 0)
1
0:18 = 0; 6847 (0; 75 0; 33 0; 68 0; 33 0; 45 0; 33)
1
0:92 = 0; 6847 (0 0; 68 0; 8 0; 452 0; 2)
1
0:54 = 0; 6847 (0; 752 0; 7 0; 68 0; 1 0; 45 0; 2)
Las coordenadas de las marcas A, B, C, D, E son medias de las coordenadas
de las tres edades, ponderadas por la incidencia del producto en la edad.
9.5. SOLUCIONES SIMTRICA Y ASIMTRICA 169
A = Dr 1=2 UD ; B0 = Dc 1=2 V;
P rc0 = Dr AB00 Dc ;
La Tabla 9.2 relaciona los colores de los cabellos y de los ojos de 5,383
individuos.
170 CAPTULO 9. ANLISIS DE CORRESPONDENCIAS
Color cabellos
Color ojos Rubio Rojo Castao Oscuro Negro Total
claro 688 116 584 188 4 1,580
azul 326 38 241 110 3 718
castao 343 84 909 412 26 1,774
oscuro 98 48 403 681 81 1,311
Total 1,455 286 2,137 1,391 114 5,383
Tabla 9.2: Clasicacin de 5383 individuos segn el color de los ojos y del
cabello.
siendo K = m nfI; Jg y
X
I X
J
(fij fi f j =n)2
2
=n
i=1 j=1
fi f j
2
El coeciente de Pearson se dene como
X
I X
J
(pij ri cj )2 2
2
= = :
i=1 j=1
ri c j n
XI X J
p2ij
2
= 1:
rc
i=1 j=1 i j
2
Proposicin 9.6.1 V = :
Demost.:
X
J
(pij =ri pi0 j =ri0 )2 XJ
pij pi0 j 2
2
ii0 = = ( ) cj
j=1
cj j=1
ri c j ri0 cj
172 CAPTULO 9. ANLISIS DE CORRESPONDENCIAS
Por lo tanto
1 XXX
I I J
pij pi0 j 2
V = ri ( ) cj ri0
2 i=1 i0 =1 j=1 ri cj ri0 cj
PI
y por otro lado, dado que i=1 pij = cj ;
PI PI PJ pij pi0 j PI PI PJ pij pi0 j
i=1 i0 =1 j=1 ri ri c2j ri0 cj ri0 = i=1 i0 =1 j=1 cj
PI PJ pij cj
= i=1 j=1 cj = 1;
P p2ij
es decir, vemos que V = ( + 2)=2; siendo = i;j ri cj :
2 PK 2
Proposicin 9.6.2 = k=1 k:
Demost.: Sea
W = Dr 1=2 (P rc0 )Dc 1=2 = UD V0 :
Entonces
2
= tr(WW0 ) = tr(UD2 U0 ) = tr(D2 ):
Pero
0 1=2 2 0
r0 a = tr(D1=2 2
r AA Dr ) = tr(UD U ) = tr(D ):
Z01 Z1 Z01 Z2 Dr P
Bu = Z0 Z = =n :
Z02 Z1 Z02 Z2 P0 Dc
a) N: b) [Z1 ; Z2 ]: c) Bu :
Z = [Z1 ; : : : ; Zj ; : : : ; Zq ];
a) Z: b) Bu :
9.8. EJEMPLOS 175
2 P B 1 X 2
(Bu ) = k k = [ (Nij ) + (J Q)];
Q2 i6=j
2 P Z J
(Z) = k k = 1;
Q
siendo 2 (Nij ) la inercia para la tabla Nij ; vase Seccin 9.6: As pues podemos
constatar que AC puede servir tambin para representar ms de dos variables
categricas.
9.8. Ejemplos
Ejemplo 9.8.1 Votaciones.
Tabla 9.3: Tabla de frecuencias combinando 1257 individuos segn edad, sexo,
clase social y voto (arriba) y correspondiente tabla de Burt (abajo).
9.8. EJEMPLOS 177
siendo
1=2 2
D1=2 0
w (Ig 1w )(
1
2
(2)
g )(Ig w10 )Dw =U U0 ; (9.7)
una descomposicin espectral, donde 2
= diag( 21 ; : : : ; 2
p) contiene los va-
(2)
lores propios y g = ( 2ij ):
X = [X1 ; X2 ; : : : ; Xp ];
2
donde k es el valor propio de vector propio unitario Uk :
180 CAPTULO 9. ANLISIS DE CORRESPONDENCIAS
cor(Xk ; Xk0 ) = 0; k 6= k 0 = 1; : : : ; p:
(In 1
n
110 )M( 1
2
(2) 0
g )M (In
1
n
110 ) = YY0 :
Se verica
(In 1
n
110 )M = M(Ig 1g w0 ):
Por lo tanto, de (9.8) tenemos
M(Ig 1w0 )( 1
2
(2)
g )(Ig w10 )M0 = MXX0 M0 ;
1
Tomando n sucientemente grande, podemos aproximarlo tanto como queramos.
182 CAPTULO 9. ANLISIS DE CORRESPONDENCIAS
9.10. Complementos
El Anlisis de Correspondencias (AC) tiene una larga historia que se inicia
en 1935 (H.O. Hirschfeld, R.A. Fisher, L. Guttman). Ha sido extensamente
estudiado por Benzcri (1973) y Greenacre (1984).
Utilizando coordenadas estndar A0 = (a0ik ); B0 = (b0jk ); podemos expre-
sar la matriz de correspondencias P = (pij ) como
P = rc0 + Dr A0 D B00 Dc :
Indicando r = (p1 ; : : : ; pI )0 ; c = (p 1 ; : : : ; p J )0 los vectores marginales de las
y columnas de P, la expresin escalar es
!
XK
0 0
pij = pi p j 1 + k aik bjk :
k=1
P
Si el trmino entre parntesis = K k=1
0 0
k aik bjk ; es sucientemente pequeo
para que log(1 + ) ; entonces
X
K
0 0
log pij = log pi + log p j + k aik bjk ;
k=1
CLASIFICACIN
10.1. Introduccin
Clasicar los elementos de un conjunto nito consiste en realizar una par-
ticin del conjunto en subconjuntos homogneos, siguiendo un determinado
criterio de clasicacin. Cada elemento pertenece a un nico subconjunto,
que a menudo tiene un nombre que lo caracteriza. As clasicamos:
Las personas en hombres y mujeres.
Los trabajadores en actividades profesionales: servicios, industria, agri-
cultura.
Los animales en especies, gneros, familias y rdenes.
Los libros de una biblioteca en arte, literatura, ciencia, informtica y
viajes.
Sea = f! 1 ; ! 2 ; : : : ; ! n g un conjunto nito con n elementos diferentes,
que abreviadamente indicaremos
= f1; 2; :::; ng:
Clasicar es tambin denir una relacin de equivalencia R sobre . Esta
relacin dene una particin sobre en m clases de equivalencia:
= c1 + c2 + + cm ;
donde + signica reunin disjunta. A la particin la llamaremos clustering y
a las clases de equivalencia clusters (conglomerados).
187
188 CAPTULO 10. CLASIFICACIN
Denicin 10.2.1 Una jerarqua indexada (C; ) sobre est formada por
una coleccin de clusters C }( ) y un ndice tal que:
8i 2 ; fig 2 C:
2 C:
Comentarios:
1. El primer axioma signica que si tenemos dos clusters, uno est incluido
en el otro o ambos son disjuntos, es decir, c c0 ; c0 c; c \ c0 = ;:
Se trata de evitar que un elemento de pertenezca a dos clusters
excluyentes a la vez, ya que entonces estara mal clasicado.
2. El segundo axioma signica que cada cluster es reunin de los clusters
que contiene. Es decir, reuniendo clusters obtenemos clusters ms am-
plios. Por ejemplo, en el reino animal, un gnero es reunin de especies,
una familia es reunin de gneros, etc.
10.2. JERARQUA INDEXADA 189
8 8
>
> < Huesca
>
>
>
> Aragon Teruel
>
> :
>
>
< 8 Zaragoza
>
> Barcelona
Espa~
na <
>
> Gerona
>
> Catalu~
na
>
> >
> Lerida
>
> :
>
> Tarragona
:
Madrid Madrid
Propiedad ultramtrica:
Demost.:
= c1 + c2 + + cm
= c1 + + ci [ cj + + cm :
u0 (ca ; cb ) = u(ca ; cb )
supfu(ca ; ci ); u(cb ; ci )g = supfu0 (ca ; ci [ cj ); u0 (cb ; ci [ cj )g;
u0 (ca ; ci [ cj ) = u(ca ; ci )
supfu(ca ; cb ); u(cb ; ci )g = supfu0 (ca ; cb ); u0 (cb ; ci [ cj )g:
Teorema 10.5.1 Sea (C; ) una jerarqua indexada total sobre un conjunto
: Entonces podemos denir una distancia ultramtrica u sobre : Recproca-
mente, todo espacio ultramtrico ( ; u) dene una jerarqua indexada (C; ).
u(i; j) = (cij );
cik \ cjk 6= ;
= f1g + + fng:
0
(k; fi; jg) = m nf (i; k); (j; k)g; k 6= i; j: (10.7)
se transforme en ultramtrico
0 0
(i; jg (i; k) = 0 (j; k) = a:
1 2 3 4 5
(1; 2) 3 4 5
1 0 1 3 4 7 (1; 2) (3; 4) 5
(1; 2) 0 3 4 7
2 0 4 4 8 (1; 2) 0 3 7
= ! 3 0 2 8 ! !
3 0 2 8 (3; 4) 0 7
4 0 7
4 0 7 5 0
5 0
5 0
(1; 2; 3; 4) 5
(1; 2; 3; 4) 0 7 ! C = ff1g0 ; : : : ; f5g0 ; f1; 2g1 ; f3; 4g2 ; f1; 2; 3; 4g3 ; 7g
5 0
1 2 3 4 5
1 0 1 3 3 7
2 0 3 3 7
(C; ) ! U =
3 0 2 7
4 0 7
5 0
Demost.: Sean fi; jg los elementos ms prximos. Entonces u(i; j) = (i; j):
La columna k (6= i; j) tendr trminos repetidos iguales a una distancia 0
construida tomando un mnimo. Si u es otra distancia ultramtrica,
entonces: a) si es estrictamente ms pequea es evidente que u > u. b) si
u(k 0 ; k 00 ) es ms grande que u(k 0 ; k 00 ) pero es igual a alguna , entonces la
columna k tendr elementos repetidos, y al menos uno ser superior a 0 :
Contradiccin. El razonamiento es parecido si consideramos un cluster c y
un elemento k 2 = c:
10.6. ALGORITMOS DE CLASIFICACIN JERRQUICA 199
se convierta en ultramtrico
0 0
(i; jg (i; k) = 0 (j; k) = b:
Comentarios:
Teorema 10.6.3 Los mtodos del mnimo y del mximo son invariantes por
transformaciones montonas de la distancia :
0
= '( ) ) u0 = '(u)
0
donde u; u0 son las ultramtricas asociadas a ; y ' es una funcin mon-
tona positiva.
Entonces
8i 2 B(i0 ; r) verif ica B(i; r) = B(i0 ; r):
10.7. MS PROPIEDADES DEL MTODO DEL MNIMO 201
Demost.: [i; j]2 = fi; jg es una cadena que une i; j y por lo tanto
Sea [i; j; k] una cadena que une i; j pero que contiene k: El conjunto de
las cadenas [i; j; k] est contenido en el conjunto de las cadenas [i; j]. Por lo
tanto:
nf sup[i; j]m nf0 sup[i; k; j]m0 (10.9)
m m
202 CAPTULO 10. CLASIFICACIN
Por otra parte, dadas las cadenas [i; j]; [j; k] podemos construir
de modo que
sup[i; k; j] = supfsup[i; j]; sup[j; k]g
Teniendo en cuenta (10.9) deducimos que
Por lo tanto
u(i; j) nf sup[i; j]m = u(i; j):
m
10.8. Ejemplos
Ejemplo 10.8.1 Profesores.
Are Cor Cua For Mar Nua Oli Oll Rov San Sar
Arenas 0
Corcuera 1 0
Cuadras 0.50 1 0
Fortiana 0.83 1 0.06 0
Marquez 1 1 1 1 0
Nualart 1 1 1 1 1 0
Oliva 1 1 0.33 0.33 1 1 0
Oller 1 0.75 1 1 1 1 1 0
Rovira 1 1 1 1 1 1 1 1 0
Sanz 1 1 1 1 0.33 0.93 1 1 0.11 0
Sarra 1 1 1 1 0.75 1 1 1 1 0.25 0
Aplicando un anlisis cluster, mtodo del mnimo (single linkage), a esta
matriz de disimilaridades, obtenemos el dendograma de la Figura 10.2. Este
grco pone de maniesto que hay tres grupos principales con 4, 2 y 5 pro-
fesores, que trabajan en anlisis multivariante (AM), estadstica matemtica
(EM) y anlisis estocstico (AE), respectivamente.
204 CAPTULO 10. CLASIFICACIN
Ale Ing Vas Cat Cas Dan Fin Fra Gal Hol Hun Ita Nor Pol
Alemn 0
Ingls 29 0
Vasco 45 44 0
Cataln 34 28 45 0
Castellano 32 29 46 17 0
Dans 30 26 43 27 31 0
Fins 58 55 59 57 55 59 0
Francs 33 32 46 13 24 33 59 0
Gallego 32 27 44 13 7 26 55 23 0
Holands 19 25 43 43 32 29 56 33 33 0
Hngaro 42 38 45 40 42 36 56 38 40 37 0
Italiano 37 35 46 22 17 32 60 24 15 36 45 0
Noruego 29 27 43 29 32 3 58 33 27 28 36 33 0
Polaco 45 44 53 44 36 44 56 45 38 42 52 42 44 0
10.11. Complementos
La historia de la clasicacin comienza con la sistemtica de Carl von Lin-
n, que permita clasicar animales y plantas segn gnero y especie. La clasi-
cacin moderna (denominada taxonoma numrica) se inicia en 1957 con
la necesidad de proponer criterios objetivos de clasicacin (Sokal, Sneath,
Michener). Posteriormente, diversos autores relacionaron las clasicaciones
jerrquicas con los espacios ultramtricos (Benzecri, Jardine, Sibson, John-
son), dado que la propiedad ultramtrica ya era conocida en otros campos
de la matemtica. Hartigan (1967) y Johnson (1967) son dos referencias im-
portantes para representar matrices de similaridades (o disimilaridades) me-
diante dendogramas y relacionarlos con las clasicaciones jerrquicas. Vase
Gordon (1999).
Una crtica que se ha hecho al anlisis cluster es el excesivo repertorio
de distancias y mtodos de clasicacin. Incluso se han realizado clasica-
ciones de las propias maneras de clasicar, y clasicaciones jerrquicas de las
distancias. Tambin se ha argumentado (Flury, 1997) que el planteamiento
correcto del anlisis cluster consiste en encontrar mixturas
Criterio de agrupacin i j
Mnimo (single linkage) 1=2 1=2 0 1=2
Mximo (complete linkage) 1=2 1=2 0 +1=2
Media (weighted average link) 1=2 1=2 0 0
upgma (group average link) ni =(ni + nj ) nj =(ni + nj ) 0 0
ANLISIS DISCRIMINANTE
11.1. Introduccin
Sean 1 ; 2 dos poblaciones, X1 ; :::;Xp variables observables. Indiquemos
x = (x1 ; :::; xp ) las observaciones de las variables sobre un individuo !. Se
trata de asignar ! a una de las dos poblaciones. Este problema aparece en
muchas situaciones: decidir si se puede conceder un crdito; determinar si
un tumor es benigno o maligno; identicar la especie a que pertenece una
planta, etc.
Una regla discriminante es un criterio que permite asignar ! conocido
(x1 ; :::; xp ), y que a menudo es planteado mediante una funcin discriminante
D (x1 ; :::; xp ). Entonces la regla de clasicacin es
211
212 CAPTULO 11. ANLISIS DISCRIMINANTE
La funcin discriminante es
V (x) = log f1 (x) log f2 (x) :
11.2. CLASIFICACIN EN DOS POBLACIONES 213
El discriminador de Bayes es
B (x) = log f1 (x) log f2 (x) + log (q1 =q2 ) :
Cuando q1 = q2 = 1=2; entonces B (x) = V (x) : Este discriminador es ptimo
.
Teorema 11.2.1 La regla de Bayes minimiza la probabilidad de clasicacin
errnea.
Demost.: Supongamos que se dispone de otra regla que clasica a 1 si x 2R1 ;
y a 2 si x 2R2 ; donde R1 ; R2 son regiones complementarias del espacio
muestral. Indicando dx =dx1 dxp ; la probabilidad de clasicacin errnea
es
Z Z
pce = q1 f1 (x)dx+q2 f2 (x)dx
R2 R1
Z Z Z
= (q1 f1 (x) q2 f 2 (x))dx+q2 ( f2 (x)dx+ f2 (x)dx)
R2 R2 R1
Z
= (q1 f1 (x) q2 f 2 (x))dx+q2 :
R2
0 1 1 0 1 1 1
+ 12 2 2 2 1 1 1 + log j 2j log j 1j :
2 2 2
Q(x) es el discriminador cuadrtico. Anlogamente podemos obtener el dis-
criminador cuadrtico de Bayes
B(x) =Q(x) + log(q1 =q2 ):
donde = (x1 x2 )0 S 1
(x1 x2 ) :
11.4. Ejemplo
Ejemplo 11.4.1 Coppodos.
l = longitud, a = anchura,
Discriminador lineal
La estimacin de la matriz de covarianzas comn es:
301:4 31:02
S = (n1 S1 + n2 S2 )=(n1 + n2 ) =
31:02 222:6
El discriminador lineal es:
1
1 301:4 31:02 22:1
L(long; anch) = [(long; anch) 2
(461:1; 285:9)]
31:02 222:6 9:7
Estadio asignado
1 2
Estadio 1 61 15
original 2 21 70
Discriminador de Bayes
Una larva, desde que eclosiona est 4 horas en el estadio 1 y 8 horas
en el estadio 2. Al cabo de 12 horas, la larva pasa a un estadio fcilmente
identicable. Por tanto, una larva tiene, a priori, una probabilidad 4=12 = 1=3
de pertenecer al estadio 1 y una probabilidad 8=12 = 2=3 de pertenecer al
estadio 2. As q1 = 1=3; q2 = 2=3; y el discriminador de Bayes es
B(long; anch) = V (long; anch) + log(1=2) = 0:069 long 0:034 anch + 20:24
218 CAPTULO 11. ANLISIS DISCRIMINANTE
Discriminador cuadrtico
El test de homogeneidad de covarianzas nos da:
2 13 1 1 1
= [1 ( + )](1835:4 882:5 926; 32) = 26:22
18 75 90 165
con 3 g.l. Las diferencias entre las matrices de covarianzas son signicati-
vas. Por tanto, el discriminador cuadrtico puede resultar ms apropiado.
Efectuando clculos se obtiene:
Q(long; anch) = 0:0014 long2 + 0:002 anch2 0:002 long anch
0:445 long 0:141 anch + 72:36
M 2 (x; i) = (x i)
0 1
(x i ); i = 1; : : : ; k;
11.7. Complementos
El Anlisis Discriminante se inicia en 1936 con el trabajo de R.A. Fisher
sobre clasicacin de ores del gnero Iris. A. Wald y T.W. Anderson estu-
diaron las propiedades del discriminador lineal. L. Cavalli y C. A. B. Smith
introdujeron el discriminador cuadrtico.
J. A. Anderson, en diversos trabajos, estudi el modelo de discriminacin
logstico. Si denimos
la regla de clasicacin es
DISCRIMINACIN
LOGSTICA Y OTRAS
y = 1 si A se presenta, y = 0 si A no se presenta.
L = py (1 p)1 y ;
pues L = p si y = 1; L = 1 p si y = 0:
Si realizamos n pruebas independientes y observamos y1 ; : : : ; yn , la verosimi-
litud es
Yn
L= pyi (1 p)1 yi = pk (1 p)n k
i=1
223
224 CAPTULO 12. DISCRIMINACIN LOGSTICA Y OTRAS
P
siendo k = yi la frecuencia absoluta de A en las n pruebas. Para estimar
p resolvemos la ecuacin de verosimilitud
@
ln L = 0
@p
cuya solucin es pb = k=n; la frecuencia relativa del suceso A: La distribucin
asinttica de pb es normal N (p; p(1 p)=n):
Muy distinta es la estimacin cuando esta probabilidad depende de otras
variables. La probabilidad de A debe entonces modelarse adecuadamente.
Y
n
L= p(xi )yi (1 p(xi ))1 yi
i=1
Tomando logaritmos
X
n
ln L = yi ln p(xi )(1 p(x))1 yi
i=1
226 CAPTULO 12. DISCRIMINACIN LOGSTICA Y OTRAS
X0 (X) = X0 y;
Figura 12.1: Curva ROC que representa las curvas 1-Especicidad y Sensi-
bilidad. La curva 2 indicara que los datos poseen mejor capacidad de dis-
criminacin que la curva 1.
http://www.umass.edu/statdata/statdata/
230 CAPTULO 12. DISCRIMINACIN LOGSTICA Y OTRAS
1 0 1 (x
Multiplicando numerador y denominador por e 2 (x 0) 0)
y tenien-
do en cuenta que 21 (x 1)
0 1
(x 1
1 ) + 2 (x 0)
0 1
(x 0 ) = L(x);
donde 0
1 1
L (x) = x ( + 1) ( 0 1)
2 0
es el discriminador lineal, vemos que
e L(x)
P (y = 1jx) = :
1 + e L(x)
0
Puesto que L(x) = 0 + x siendo
1 0 1 1
0 = ( 1 + 0) ( 1 0) ; = ( 1 0) ;
2
conseguimos obtener el modelo logstico a partir del discriminador lineal. Sin
embargo, el modelo normal es ms eciente. En realidad el modelo logstico
sirve para la clase de distribuciones pertenecientes a la familia exponencial,
que incluye la normal. Al ser el logstico un modelo ms amplio y robusto,
pierde en eciencia.
Efron (1975) calcul analticamente la eciencia relativa (cociente entre
las probabilidades de clasicacin errnea) del modelo logstico respecto
p al
lineal normal. La eciencia relativa asinttica es una funcin de siendo
la distancia de Mahalanobis entre las dos poblaciones:
0 1
=( 1 0) ( 1 0 ):
12.2. ANLISIS DISCRIMINANTE BASADO EN DISTANCIAS 233
2
(x) es la media de las distancias de x; que es ja, a t; que vara aleato-
riamente, menos la variabilidad geomtrica.
12.2. ANLISIS DISCRIMINANTE BASADO EN DISTANCIAS 235
y el discriminador lineal es
1 2 2
L (x) = 2 2 (x) 1 (x) :
2
2. Si las poblaciones son Np ( 1 ; 1 ) ; Np ( 2; 2) y i es la distancia de
Mahalanobis ms una constante
2
i (x; y) = (x y)0 i
1
(x y) + log j i j =2 x 6= y;
=0 x = y;
Restando
b2 (x) = x0 x+x0 x 2x0 x =d2 (x;x) :
E
Para otros ejemplos con datos categricos o mixtos, vase Cuadras (1992b).
12.3. Complementos
Albert y Anderson (1984) probaron que en el modelo logstico, los esti-
madores mximo verosmiles de los parmetros no existen si hay completa
separacin de las muestras de las dos poblaciones. Adems, si las muestras es-
tn muy diferenciadas, las estimaciones de los parmetros no funcionan. Por
ejemplo, en el caso de los datos de ores del gnero Iris, (vase Tabla 3.2),
las estimaciones resultan demasiado grandes y no son correctas. Longford
(1994) estudi la funcin de verosimilitud en el modelo de regresin logstica
con coecientes de regresin aleatorios.
Existen otros mtodos de anlisis discriminante, algunos no-paramtricos,
otros para variables mixtas, como el mtodo del ncleo, del vecino ms pr-
ximo, el basado en el location modelde Krzanowski (1975), etc. Consltese
McLachlan (1992).
Los mtodos de anlisis discriminante basados en distancias pueden abor-
dar todo tipo de datos y han sido estudiados por Cuadras (1989, 1992b, 2008)
y Cuadras et al. (1997). Permiten mejorar la ordenacin y formacin de clus-
ters, vase Anderson y Willis (2003) y De Cceres et al. (2006).
Dadas dos poblaciones Np ( 1 ; ) y Np ( 2 ; ); el problema de la tipi-
calidad consiste en decidir si una observacin x proviene de la mixtura
Np ( 1 + (1 ) 2 ; ); 0 1; o de una tercera poblacin Np ( 3 ; ):
Por ejemplo, en una prospeccin arqueolgica puede interesar averiguar si
un crneo pertenece a un mismo grupo humano (en el que hay hombres y
mujeres), o bien a otro grupo distinto. Este problema ha sido estudiado por
Rao (1973) y Bar-Hen y Daudin (1997) para datos normales. Para datos en
general se puede abordar tambin mediante distancias, vase Cuadras y For-
tiana (2000). El caso de varias poblaciones ha sido estudiado por Bar-Hen
(2001) e Irigoien y Arenas (2008). En Jauregui et al. (2011) se lleva a cabo
una interesante aplicacin a la robtica.
240 CAPTULO 12. DISCRIMINACIN LOGSTICA Y OTRAS
Captulo 13
EL MODELO LINEAL
1. El vector de observaciones:
y = (y1 ; y2 ; : : : ; yn )0 :
2. El vector de parmetros:
0
=( 1; 2; : : : ; m) :
241
242 CAPTULO 13. EL MODELO LINEAL
3. La matriz de diseo:
0 1
x11 x12 x1m
B x21 x22 x2m C
B C
X =B ... C:
@ A
xn1 xn2 xnm
sea mnimo.
Teorema 13.3.1 Toda estimacin LS de es solucin de las ecuaciones
X0 X = X0 y (13.3)
denominadas ecuaciones normales del modelo.
Demost.:
e0 e =(y X )0 (y X ) = y0 y 2 0 X0 y+2 X0 X :
Derivando vectorialmente respecto de e igualando a cero
@ 0
ee= 2X0 y+2X0 X = 0
@
obtenemos (13.3).
Distinguiremos dos casos segn el rango del diseo.
a) r = m: Entonces la estimacin de es nica:
b = (X0 X) 1 X0 y: (13.4)
b) r < m: Cuando el diseo no es de rango mximo una solucin es
b = (X0 X) X0 y;
siendo
ybi = xi1 b1 + + xim bm :
244 CAPTULO 13. EL MODELO LINEAL
13.3.2. Varianza
La varianza comn de los trminos de error, 2 =var(ei ); es el otro
parmetro que debemos estimar en funcin de las observaciones y = (y1 ; : : : ; yn )0
y de X: En esta estimacin interviene de manera destacada la suma de
cuadrados residual.
X0b
e = X0 (y X b ) = X0 y X0 X b = 0:
Demost.: Sea T = [t1 ; : : : ; tr ; tr+1 ; : : : ; tn ] una matriz ortogonal tal que sus
columnas formen una base ortonormal de Rn ; de manera que las r primeras
generen el subespacio Cr (X) y por tanto las otras n r sean ortogonales a
Cr (X): Denimos z = T0 y: Entonces z =(z1 ; : : : ; zn )0 verica
E(zi ) = t0i X = i si i r;
= 0 si i > r;
2
La matriz de covarianzas de y es In ; y por ser T ortogonal, la de z es
tambin 2 In : As
y por tanto
X
n
E(Ro2 ) = E(zi2 ) = (n r) 2 :
i=r+1
2. b Nm ( ; 2
(X0 X) 1 ):
3. U = ( b )0 X0 X( b )= 2 2
m:
5. R02 = 2 2
n m:
1 + + k = 0;
0 1 2 31 0 1 21
1 1 0 0 1 1 0
B 1 1 0 0 C B 1 1 0 C
B C B C
B 1 0 1 0 C B 1 0 1 C
B C B C
X= B 1 0 1 0 C; e
X= B 1 0 1 C:
B C B C
B 1 0 0 1 C B 1 1 1 C
B C B C
@ 1 0 0 1 A @ 1 1 1 A
1 0 0 1 1 1 1
i = j = 0: (13.8)
i=1 j=1
0 1 2 3 1 2 31 0 1 2 1 2 1
1 1 0 0 1 0 0 1 1 0 1 0
B 1 0 1 0 1 0 0 C B 1 0 1 1 0 C
B C B C
B 1 0 0 1 1 0 0 C B 1 1 1 1 0 C
B C B C
B 1 1 0 0 0 1 0 C B 1 1 0 0 1 C
B C B C
X= B 1 0 1 0 0 1 0 C; e = B
X 1 0 1 0 1 C:
B C B C
B 1 0 0 1 0 1 0 C B 1 1 1 0 1 C
B C B C
B 1 1 0 0 0 0 1 C B 1 1 0 1 1 C
B C B C
@ 1 0 1 0 0 0 1 A @ 1 0 1 1 1 A
1 0 0 1 0 0 1 1 1 1 1 1
H0 : H = 0: (13.9)
H = AX:
Observaciones:
a) Suponemos que la matriz H es de rango t:
b) Solamente podremos construir un test (el test F) para decidir si podemos
aceptar o no una hiptesis lineal si esta hiptesis es demostrable.
c) Es evidente que si el modelo es de rango mximo, r = rango(X) = m;
cualquier hiptesis lineal es demostrable.
Cuando una hiptesis (13.9) es cierta, los parmetros se convierten en
y la matriz de diseo X en X: e As el modelo lineal, bajo H0 ; es
e + e:
y =X (13.10)
e = XC:
X
La estimacin LS de es
e 0 X)
b = (X e 1 Xy
e
e b)0 (y X
R12 = (y X e b):
13.5. HIPTESIS LINEALES 249
R12 = (y X b H )0 (y XbH )
R02 = (y X b )0 (y X b ); R12 = (y X b H )0 (y X b H ):
Se verica:
1. R02 = 2 2
n r:
2. Si H0 es cierta
R12 2 R12 R02 2
2 n r0 ; 2 t;
siendo r0 = r t:
3. Si H0 es cierta, los estadsticos (R12 R02 ) y R02 son estocsticamente
independientes.
tal que
Cr0 (XC) = [t1 ; : : : ; tr0 ] Cr (X) = [t1 ; : : : ; tr ]:
Siguiendo los mismos argumentos del Teorema 13.3.3, tenemos que
X
n
R12 = zi2
i=r 0 +1
y R12 = 2
sigue la distribucin 2
n r0 : Por otro lado
X
r
R12 R02 = zi2
i=r 0 +1
y (R12 R02 )= 2
sigue la distribucin 2
t; donde t = r r0 :
3. Las sumas de cuadrados que intervienen en R02 y en R12 R02 no tienen
trminos en comn, por tanto son independientes.
X
n X
n
R02 = (yi 2
ybi ) ; R12 = (yi y)2 ;
i=1 i=1
(R12 R02 ) n m 1
F = Fnm m 1 :
R02 m
R2 n m 1
F = Fnm m 1 :
1 R2 m
Rechazaremos H0 si F es signicativa.
13.7. Complementos
Hemos visto los aspectos fundamentales del modelo lineal. Un estudio
ms completo incluira:
a) anlisis grco de los residuos, b) efectos de la colinealidad, c) m-
nimos cuadrados ponderados, d) errores correlacionados, e) seleccin de las
variables, etc. Vase Sche (1959), Pea (1989), Chatterjee y Price (1991),
Carmona (2005).
Para tratar variables explicativas mixtas, podemos construir un modelo
lineal considerando las dimensiones principales obtenidas aplicando anlisis
de coordenadas principales sobre una matriz de distancias entre las observa-
ciones. Consultar Cuadras y Arenas (1990), Cuadras et al. (1996).
252 CAPTULO 13. EL MODELO LINEAL
Captulo 14
ANLISIS DE LA VARIANZA
(ANOVA)
253
254 CAPTULO 14. ANLISIS DE LA VARIANZA (ANOVA)
Indiquemos tambin:
P 2
Suma de cuadrados entre grupos: QE = Pi n
Pi (yi y) 2
Suma de cuadrados dentro de grupos: QD = Pi Ph (yih yi )
Suma de cuadrados total: QT = i h (yih y)2
QT = QE + QD :
b i = yi ; i = 1; : : : ; k;
H0 : 1 = = k:
R12 R02 = QE :
Por tanto, como una consecuencia del Teorema 13.5.1, tenemos que:
2 2 2
1. QD =(n k) es un estimador centrado de y QD = n k:
2
2. Si H0 es cierta, QE =(k 1) es tambin estimador centrado de y
QT 2 QE 2
2 n 1; 2 k 1:
B1 B2 Bb
A1 y11 y12 y1b y1
A2 y21 y22 y2b y2
.. .. .. .. .. ..
. . . . . .
Aa ya1 ya2 yab ya
y1 y2 yb y
siendo
1X 1X 1 XX
b a a b
yi = yij ; yj = yij ; y =y= yij ;
b j=1 a i=1 ab i=1 j=1
las medias por las, por columnas y general. Supongamos que los datos se
ajustan al modelo (13.7) con las restricciones (13.8), donde es la media
general, i es el efecto del nivel Ai del factor la, j es el efecto del nivel Bj
del factor columna. El rango del diseo y los g.l. del residuo son
r = 1 + (a 1) + (b 1) = a + b 1; n r = ab (a + b 1) = (a 1)(b 1):
b = y; b i = yi y; bj = y j y;
X
a X
b
R02 = (yij yi y j + y)2 :
i=1 j=1
256 CAPTULO 14. ANLISIS DE LA VARIANZA (ANOVA)
QT = QA + QB + QR :
2 2 2
1. QR =(a 1)(b 1) es un estimador centrado de y QR = (a 1)(b 1) :
QA (a 1)(b 1) a 1
FA = F(a 1)(b 1) ;
QR (a 1)
QB (a 1)(b 1) b 1
FB = F(a 1)(b 1) :
QR (b 1)
B1 B2 Bb
A1 y111 ; : : : ; y11c y121 ; : : : ; y12c y1b1 ; : : : ; y1bc y1
A2 y211 ; : : : ; y21c y221 ; : : : ; y22c y2b1 ; : : : ; y2bc y2
.. .. .. .. .. ..
. . . . . .
Aa ya11 ; : : : ; ya1c ya22 ; : : : ; ya2c yab1 ; : : : ; yabc ya
y1 y2 yb y
siendo
b;c a;c
1 X 1 X
yi = yijh ; yj = yijh ;
bc j;h=1 ac i;h=1
a;b;c
1X 1 X
c
yij = yijh ; y=y = yij :
c h=1 abc i;j;h=1
yijh = + i + j + ij + eijh ;
i = 1; : : : ; a; j = 1; : : : ; b; h = 1; : : : ; c;
siendo la media general, i el efecto del nivel Ai del factor la, j el efecto
del nivel Bj del factor columna, ij la interaccin entre los niveles Ai ;Bj . El
258 CAPTULO 14. ANLISIS DE LA VARIANZA (ANOVA)
i = j = ij = ij = 0:
i=1 j=1 i=1 j=1
1 + (a 1) + (b 1) + (a 1)(b 1) = ab
b = y; b i = yi y; b = yj y; bij = yij yi y j + y;
j
QT = QA + QB + QAB + QR :
siendo:
= media general,
A B C
i ; j ; k = efectos principales de A,B,C,
AB AC BC
ij ; ik ; jk = interacciones entre A y B, A y C, B y C,
ABC
ijk = interaccin entre A,B y C,
eijkh = desviacin aleatoria N (0; 2 ):
con
B1 B2 Bb
A1 f11 f12 f1b f1
A2 f21 f22 f2b f2
.. .. .. .. .. ..
. . . . . .
Aa fa1 fa2 fab fa
f1 f2 fb n
P P
donde fi = j fij ; f j = i fij son las frecuencias marginales de Ai ;Bj
respectivamente. Indiquemos las probabilidades
ln pij = ln pi + ln p j :
la condicin de independencia es
ln Fij = ln Fi + ln F j ln n;
siendo P P
= ( ai=1 bj=1 ln Fij )=ab;
P
A
i = ( bj=1 ln Fij )=b ;
B Pa
j = ( i=1 ln Fij )=a :
El modelo (14.2) es un ejemplo de modelo log-lineal.
En general no se puede aceptar la independencia estocstica. Por tanto,
hemos de aadir un trmino AB
ij a (14.2) y escribir
A B AB
ln Fij = + i + j + ij ;
262 CAPTULO 14. ANLISIS DE LA VARIANZA (ANOVA)
donde AB ij = ln Fij A
i
B
j es la desviacin del modelo lineal. La
similitud con el modelo ANOVA de dos factores es bastante clara.
En las aplicaciones no conocemos las frecuencias esperadas Fij ; sino las
frecuencias observadas fij : Entonces la estimacin de los parmetros es muy
semejante al modelo ANOVA, pero los contrastes de hiptesis se resuelven
mediante ji-cuadrados.
La hiptesis de inters es la independencia entre A y B
AB
H0 : ij = 0;
que equivale a decir que los datos se ajustan al modelo (14.2). Sean
Fbij = nfi fj
las estimaciones mximo-verosmiles de las frecuencias esperadas. El test ji-
cuadrado clsico consiste en calcular
X
(fij Fbij )2 =Fbij
i;j
Clase
Gnero Edad Supervivencia 1 2 3 T
Hombre Adulto NO 118 154 387 670
Mujer 4 13 89 3
Hombre Nio 0 0 35 0
Mujer 0 0 17 0
Hombre Adulto S 57 14 75 192
Mujer 140 80 76 20
Hombre Nio 5 11 13 0
Mujer 1 13 14 0
Ejemplo 14.5.1
Analicemos los datos de supervivencia del "Titanic"(vase el Ejemplo
9.8.2), Tabla 14.1.
Indicamos por la parte del modelo que contiene los efectos principales
y las interacciones de orden inferior a la mxima propuesta. Por ejemplo, en
el caso del modelo [GESC], tendramos
G E S C GE GS GC ES EC SC
= + i + j + k + l + ij + ik + il + jk + jl + kl
2
Modelo para ln Fijkl Smbolo g.l. p
+ G E S
i + j + k + l
C
[G][E][S][C] 1216.4 25 0.000
+ GE
ij + + SC kl [GE][GS][GC][ES][EC][SC] 112.33 13 0.000
+ GES
ijk + + ESC
jkl [GES][GEC][GSC][ESC] 5.3 3 0.151
+ GEC
ijl + S
k [GEC][S] 659.3 15 0.000
+ GEC
ijl + GSC
ikl + ijk
GES
[GEC][GSC][GES] 32.3 6 0.000
+ GESC
ijkl [GESC] 0 - -
+ GEC
ijl + GSC
ijk + jkl
ESC
[GEC][GSC][ESC] 9.2 4 0.056
El modelo [G][E][S][C] debe rechazarse, pues 2 es muy signicativo. El
modelo [GE][GS][GC][ES][EC][SC] con slo las interacciones de segundo or-
den se ajusta mejor pero tambin debe rechazarse. El modelo con todas las
264 CAPTULO 14. ANLISIS DE LA VARIANZA (ANOVA)
14.6. Complementos
El Anlisis de la Varianza fue introducido por R. A. Fisher en 1938, para
resolver problemas de diseo experimental en agricultura. Hemos visto que
es una aplicacin del modelo lineal. Existen muchos diseos diferentes, cuyo
estudio dejamos para otro momento.
Los primeros estudios y aplicaciones consideraban factores de efectos -
jos. En 1947, C. Eisenhart consider que algunos efectos podan ser aleato-
rios. Ciertamente, los efectos que actan sobre los modelos pueden ser jos,
aleatorios o mixtos, y cuando hay interacciones el clculo de los cocientes F
es diferente. Vase Cuadras (2000), Huitson (1966), Pea (1989).
En ANOVA de un factor hemos supuesto datos independientes e igualdad
de varianzas, es decir, = 2 I: Pero S. Wilks prob que el test F, vase
(14.1), sigue siendo vlido si las variables son equicorrelacionadas, es decir,
si 0 1
1
B 1 C
B C
= 2 B .. .. . . .. C :
@ . . . . A
1
En el caso general de una cualquiera, debe aplicarse Anlisis de Perles,
dando lugar tambin a un test F, vase (3.3).
Captulo 15
ANLISIS DE LA VARIANZA
(MANOVA)
15.1. Modelo
El anlisis multivariante de la varianza (MANOVA) es una generalizacin
a p > 1 variables del anlisis de la varianza (ANOVA).
Supongamos que tenemos n observaciones independientes de p variables
observables Y1 ; : : : ; Yp ; obtenidas en diversas condiciones experimentales, co-
mo en el caso univariante. La matriz de datos es
0 1
y11 y12 y1p
B y21 y22 y2p C
B C
Y =B .. .. .. .. C = [e
y1 ;e
y2 ; : : : ;e
yp ];
@ . . . . A
yn1 yn2 ynp
Y = XB + E (15.1)
265
266 CAPTULO 15. ANLISIS DE LA VARIANZA (MANOVA)
Teorema 15.2.2 Bajo las mismas condiciones del teorema anterior, con r =
rango(X); podemos expresar la matriz de residuos como
R0 = Y0 [I X(X0 X) X0 ]Y:
Demost.:
0
(Y b (Y
XB) b = Y0 Y
XB) b
Y0 XB b 0 X0 Y + B
B b 0 X0 XB
b
= Y0 Y b
Y0 XB (por Bb 0 X0 Y = B
b 0 X0 XB)
b
= Y0 Y Y0 X(X0 X) X0 Y
= Y0 [I X(X0 X) X0 ]Y:
Sea ahora T = [t1 ; : : : ; tr ; tr+1 ; : : : ; tn ] una matriz ortogonal tal que sus
columnas formen una base ortonormal de Rn ; de manera que las r primeras
generen el mismo subespacio Cr (X) generado por las columnas de X: Por lo
tanto las otras n r columnas sern ortogonales a Cr (X): Es decir,
t0i X = si i r;
t0i X = 0 si i > r;
b Y XB:
Consideremos el residuo E= b De X0 (Y XB) b = 0; ver ecuaciones
b es ortogonal a X en el sentido que
normales (15.2), deducimos que E
b= 0 r primeras las
T0 E
Zn r n r ltimas las
b = T0 Y b =Z 0
T0 E T0 XB = ;
0 Zn r
15.3. CONTRASTE DE HIPTESIS LINEALES 269
b =E
b 0E b 0 TT0 E
b= 0
R0 = E 0 Z0n r = Z0n r Zn r :
Zn r
Indiquemos Z0n r = [z1 ; : : : ; zn r ] donde z01 ; : : : ; z0n r son las las (inde-
pendientes) de Zn r : Entonces cada zi es un vector de media cero y matriz
de covarianzas : Luego E(zi z0i ) = y Z0n r Zn r = z1 z01 + + zn r z0n r :
Por lo tanto
H0 : HB = 0
y la matriz residual es
R1 = (Y b H )0 (Y
XB b H ):
XB
270 CAPTULO 15. ANLISIS DE LA VARIANZA (MANOVA)
1. R0 Wp ( ; n r):
b= 0
T0 E ;
Zn r0
15.4. MANOVA DE UN FACTOR 271
e b )0 (Y X
R1 = (Y X e b ) = Z0
n r0 Zn r0
R1 R0 = Z0t Zt ;
MANOVA de un factor
g. l. matriz Wishart lambda de Wilks
Entre grupos k 1 B = jWj=jTj
Dentro grupos n k W (p; n k; k 1)
Total n 1 T
yijh = + i + j + ij + eijh ; i = 1; : : : ; a; j = 1; : : : ; b; h = 1; : : : ; c;
donde es la media general, i es el efecto aditivo del nivel i del factor la,
j es el efecto aditivo del nivel j del factor columna, ij es la interaccin,
parmetro que mide la desviacin de la aditividad del efecto de los factores,
e yijh = (yijh1 ; : : : ; yijhp )0 es la rplica multivariante h de las variables ob-
servables. Tambin, como en el caso univariante, intervienen las matrices
A = (auv ); B = (buv ); AB = (cuv ); R0 = (ruv ); T = (tuv ); donde
P
auv = bc Pi (yi u y u )(yi v y v )
buv = ac j (y j u y u )(y j v y v )
P
cuv = c i;j (yij u yi u y j v + y u )(yij v yi v y j v + y v )
P
ruv = i;jh (yijhu yi u )(yijhv yi v )
P
tuv = i;j (yiju y u )(yiju y u ); u; v = 1; : : : ; p;
que verican
T = A + B + AB + R0 :
(AB no es un producto matricial). Indicando q = (a 1)(b 1); r = ab(c 1);
para contrastar las hiptesis de que los factores la, columna o las interac-
ciones no inuyen, en ninguna de las variables, obtenemos la tabla:
274 CAPTULO 15. ANLISIS DE LA VARIANZA (MANOVA)
15.7. Ejemplos
Machos Hembras
Temp Y 1 Y 2 Y3 Y 1 Y 2 Y3
4 18.15 16.51 0.24 19.15 19.49 0.16
18.68 19.50 0.32 18.35 19.81 0.17
19.54 19.84 0.20 20.58 19.44 0.22
20 21.27 23.30 0.33 18.87 22.00 0.25
19.57 22.30 0.45 20.66 21.08 0.20
20.15 18.95 0.35 21.56 20.34 0.20
34 20.74 16.69 0.31 20.22 19.00 0.18
20.02 19.26 0.41 18.38 17.92 0.30
17.20 15.90 0.28 20.85 19.90 0.17
2. Traza de Pillai: p
X p
X
1
tr[R1 (R1 R0 )] = (1 i) = ri2 :
i=1 i=1
15.9. Complementos
El Anlisis Multivariante de la Varianza es muy similar al Anlisis de
la Varianza, salvo que interviene ms de una variable cuantitativa obser-
vable. Esta extensin multivariante se inicia en 1930 con los trabajos de H.
Hotelling, J. Wishart y S. S. Wilks. Posteriormente S. N. Roy propuso un
planteamiento basado en el principio de unin-interseccin.
Los cuatro criterios que hemos visto son equivalentes para p = 1; y dife-
rentes para p > 1: No est claro cul es el mejor criterio, depende de la
hiptesis alternativa. Por ejemplo, en el diseo de un factor, si los vectores
de medias estn prcticamente alineados, entonces el criterio de Roy es el
ms potente. Vase Rencher (1998).
Tales criterios miden el tamao de H = R1 R0 respecto de E = R0 ; ma-
trices que se pueden visualizar mediante elipsoides de concentracin. Friendly
(2007) propone representar ambos elipsoides en el llamado HE plot (Figura
15.2).
Se puede plantear un anlisis tipo ANOVA para datos categricos, dando
lugar al mtodo llamado CATANOVA (Light y Margolin, 1971). Para datos
mixtos o no normales, se puede plantear MANOVA utilizando distancias
entre las observaciones, calculando coordenadas principales mediante MDS, y
a continuacin aplicando el modelo de regresin multivariante. Vase Cuadras
(2008), Cuadras y Cuadras (2011).
Captulo 16
FUNCIONES ESTIMABLES
MULTIVARIANTES
279
280 CAPTULO 16. FUNCIONES ESTIMABLES MULTIVARIANTES
b 0 = a1 y1 + + an yn = a0 Y;
E( b ) = :
b 0 = p0 B:
b
b
Slo hay que sustituir B por sus estimaciones LS B:
0
Teorema 16.3.2 Sea = ( 1; : : : ; p) = p0 B una funcin paramtrica
estimable. Se verica:
282 CAPTULO 16. FUNCIONES ESTIMABLES MULTIVARIANTES
b es estimador LS de B, entonces b 0 = ( b 1 ; : : : ; b p ) = p0 B
1. Si B b es nico.
Observemos que este teorema vale sin necesidad de una hiptesis de nor-
malidad. El estimador LS de es
b 0 = p0 B
b = p0 (X0 X) X0 Y =g1 y1 + + gn yn
M (i; j)2 = ( b i b j )0 b 1
(bi b ):
j
16.4. ANLISIS CANNICO DE FUNCIONES ESTIMABLES 283
0 0
Sea ij = kgi gj k : Si b i = gi0 Y es independiente de b j = gj0 Y y se verica
la hiptesis H0 : i = j ; entonces ij1 ( b i b j ) es Np (0; ) y (n r) b es
Wp ( ; n r); por lo tanto ij1 M (i; j) es Hotelling T 2 (p; n r) y
n r p+1
ij
1
M (i; j)2 Fnp r p+1 :
(n r)p
Anlogamente vemos que la distribucin de
n r p+1 1 b
2 ( i i)
0b 1
(bi i)
(n r)p
1Xb
s
j = ; j = 1; : : : ; s;
s i=1 ij
y la matriz 0 1
b 11 b
1 1p p
B .. .. .. C
U =@ . . . A:
b b
s1 1 sp p
U0 UV = b VD ; V0 b V = I;
W = UV:
(wi wj )0 (wi wj ) = ( b i b )0 b
j
1
(bi b ):
j
284 CAPTULO 16. FUNCIONES ESTIMABLES MULTIVARIANTES
16.5. Ejemplos
Ejemplo 16.5.1 Frmacos.
Se quiere hacer una comparacin de dos frmacos ansiolticos (Diazepan y
Clobazan) con un placebo, que indicaremos D, C, P. Las variables observables
son efectos secundarios en la conduccin de automviles: Y1 =tiempo de
reaccin (segundos) a la puesta en rojo de un semforo, Y2 =distancia mnima
(cm.) entre dos puntos que el conductor necesitaba para poder pasar por el
medio. Los datos sobre 8 individuos (media de varias pruebas) eran:
16.5. EJEMPLOS 285
yij = + i+ j +eij :
1 = + 1; 2 = + 2; 3 = + 3:
Esta representacin permite visualizar las diferencias entre las especies, sin la
inuencia del dimorsmo sexual y de la interaccin especie sexo (Fig. 16.3).
16.6. Complementos
El teorema de Gauss-Markov se puede generalizar de diversas maneras al
caso multivariante. Ver Mardia et al. (1979), Rencher (1998).
La representacin cannica de funciones paramtricas estimables multi-
variantes fue propuesta por Cuadras (1974). Ver Cuadras et al. (1996) y otras
generalizaciones en Lejeune y Calinski (2000), Arenas y Cuadras (2004).
Bibliografa
[8] Bar-Hen, A. and J.-J. Daudin (1997) A test of a special case of typi-
cality in linear discriminant analysis. Biometrics, 53, 39-48.
289
290 BIBLIOGRAFA
[12] Cailliez, F. (1983) The analytical solution of the additive constant prob-
lem. Psychometrika, 48, 305-308.
[64] Cuadras, C. M., Valero, S., Cuadras, D., Salembier, P. and J. Chanus-
sot (2012) Distance-based measures of association with applications in
relating hyperspectral images. Comm. Stat., Theor.- Meth., 41, 2342
2355.
[67] Eckart, C. and G. Young (1936) The approximation of one matrix for
another of lower rank. Psychometrika, 1, 211-218.
[77] Gabriel, K. R. (1971) The biplot graphic display of matrices with ap-
plication to principal component analysis. Biometrika, 58, 453-467.
[82] Gower, J. C. (1966) Some distance properties of latent roots and vector
methods in multivariate analysis. Biometrika, 53, 315-328.
[85] Gower, J. C. and D. J. Hand (1996) Biplots. Chapman and Hall, Lon-
don.
[100] Irigoien, I. and C. Arenas (2008) INCA: New statistic for estimating the
number of clusters and identifying atypical units. Statistics in Medicine,
27, 2948-2973.
[101] Jauregui, E., Irigoien, I., Sierra, B., Lazkano, E. and C. Arenas (2011)
Loop-closing: A typicality approach. Robotics and Autonomous Sys-
tems 59, 218-227.
[123] Oliva, F., Bolance, C. and L. Diaz (1993) Aplicaci de lanlisi multi-
variante a un estudi sobre les llenges europees. Qestii, 17, 139-161.
[124] Oller, J. M. (1987) Information metric for extreme values and logistic
distributions. Sankhya, 49 A, 17-23.
301
302 NDICE ALFABTICO
de esfericidad, 87
de razn de verosimilitud, 51
de Wald, 227
independencia, 52, 69, 85
sobre la covarianza, 84
sobre la media, 45
tipicalidad, 239
transformacin
cannica, 126
componentes principales, 78, 81
lineal, 16
procrustes, 24, 117
unicidad, 101