Métodos y Aplicaciones
I. Título
& %
EUCR
iii
iv
Dedicatoria
J.T.Z.
W.C.E.
J.G.V.
v
vi
Prólogo
Tuve el placer de ir por primera vez a Costa Rica en 1990, y pude constatar el
desarrollo del Análisis de Datos en la Universidad de Costa Rica, así como la
influencia que tiene esta universidad en la región de América Latina y el Caribe.
Luego, he regresado varias veces y he podido trabajar con el equipo de la Escuela
de Matemática de esta universidad.
Javier Trejos, William Castillo y Jorge González ofrecen ahora un libro, es-
crito en español, sobre el Análisis de Datos. Este libro trata de técnicas clásicas
del Análisis de Datos tal como son conocidas en Francia, y ciertos capítulos
tratan incluso de técnicas desarrolladas en Francia, como el Análisis de Corres-
pondencias, el Método de Nubes Dinámicas y el Método Statis.
Sólo queda desear que el libro sea aprovechado en una región donde servirá
ciertamente a los investigadores en su trabajo de análisis.
J’ai eu le plaisir de venir au Costa Rica en 1990 pour la première fois, et j’ai pu
constater le dévelopement de l’Analyse des Données à l’Université du Costa Rica, et le
rayonnement que cette université a sur la région d’Amérique Centrale et les Caraïbes.
Ensuite, je suis revenu plusieurs fois et j’ai pu travailler avec l’équipe de l’Ecole de
Mathématiques de cette université.
Javier Trejos, William Castillo et Jorge González offrent maintenant un livre en es-
pagnol sur l’Analyse des Données. Ce livre porte sur les techniques classiques d’Analyse
des Données telles qu’elles sont connues en France, et certains chapitres portent même
sur des techniques développées en France, telles que l’Analyse des Correspondances, la
Méthode des Nuées Dynamiques et la Méthode Statis.
Il ne reste qu’a profiter de ce livre dans une région où il servira certainement les
chercheurs dans leurs démarches d’analyse.
Edwin Diday
vii
viii
Prefacio
ix
x
Hubo que decidir dejar por fuera algunas técnicas que pudieron haber for-
mado parte del libro, como la Regresión, el Análisis Canónico, o el Escalamiento
Multidimensional. La primera de ellas, si bien tiene una fuerte componente geo-
métrica, como la mayoría de técnicas incluidas en este libro, también tiene una
fuerte componente de estimación estadística, y muchas veces la práctica de la re-
gresión cae más en el campo de la Estadística Inferencial que en el de la Estadís-
tica Descriptiva. En cuanto al Análisis Canónico, tiene un gran interés teórico
pues generaliza muchas de las técnicas aquí expuestas, pero no se usa mucho en
la práctica, por lo que su inclusión hubiese alargado innecesariamente el texto.
Finalmente, el escalamiento también es muy importante, pero en realidad se trata
de una familia de técnicas que quizás ameritan un libro solo para ellas.
La mayor parte del material ha sido probado a lo largo de los años en di-
versos cursos de Licenciatura y Maestría de la Universidad de Costa Rica, por
lo que agradecemos a los estudiantes y profesores que lo han usado ya que sus
señalamientos y comentarios nos han ayudado a mejorar sustancialmente el texto
xii
inicial. Versiones previas del libro también han sido utilizadas en diversos cursos
que hemos impartido en la región, como en la Universidad de San Carlos y en la
del Valle de Guatemala, la Universidad Nacional Autónoma de Honduras, la Uni-
versidad Nacional Autónoma de Nicaragua – León, y la Universidad de Panamá.
En México, en la Universidad Autónoma Metropolitana – Unidad Iztapalapa, la
Benemérita Universidad Autónoma de Puebla, el Instituto Tecnológico y de Es-
tudios Superiores de Monterrey, campus Monterrey y Guadalajara, el Centro de
Investigaciones y Estudios Avanzados del Instituto Politécnico Nacional, y en el
Foro Nacional de Estadística de México. También fuera de la región mesoame-
ricana, en la Universidad de Pinar del Río y Universidad Central de Las Villas,
Cuba, y en la Universidad de Copiapó, Chile. Desde luego, la responsabilidad
del material incluido en el texto, y los posibles errores que salgan publicados,
son entera responsabilidad de los autores.
1 Estadística Descriptiva 1
Ejercicios . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 21
2.1 Introducción . . . . . . . . . . . . . . . . . . . . . . . . . . . . 23
Ejercicios . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 35
xiii
xiv
3.1 Introducción . . . . . . . . . . . . . . . . . . . . . . . . . . . . 37
3.3.2 Diagonalización de R . . . . . . . . . . . . . . . . . . . 46
Ejercicios . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 89
4.1 Introducción . . . . . . . . . . . . . . . . . . . . . . . . . . . . 99
Ejercicios . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 173
Ejercicios . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 230
Ejercicios . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 262
8.4.1 Individuo visto por todas las tablas (individuos promedio) 284
8.5 Correlaciones de las variables con los ejes del compromiso . . . 287
Ejercicios . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 313
Bibliografía 327
Indice de Figuras
3.6 Plano principal generado por las dos primeras componentes prin-
cipales del A.C.P. de los datos sin filtrado. . . . . . . . . . . . . 63
xxi
xxii
3.9 Plano principal generado por las dos primeras componentes prin-
cipales del A.C.P. de los datos sin filtrado. . . . . . . . . . . . . 67
4.7 Primer plano factorial: todos los perfiles de la Tabla 4.1. . . . . 114
xxvii
xxviii
5.4 Valores propios del A.C.M. de la Tabla 5.3, datos médicos. . . . 150
7.1 Extracto de una tabla de las fincas bananeras con las variables
que describen la productividad. . . . . . . . . . . . . . . . . . . 237
Análisis Discriminante
Descriptivo
7.1 Introducción
235
236 7.2 Los datos y notaciones
Se denota como:
• Además, se denota como Cg la matriz cuyas filas son los centros de gra-
vedad gst .
• Altura del hijo (AltHijo): al lado de una madre nacen varios hijos, pero
solo uno se deja para la próxima cosecha, aquél que tiene mayor robustez
al momento de hacer la inspección; a éste se le llama el hijo y se mide su
altura del suelo en centímetros.
• C1 = {3, 10, 17, 22, 40, 44, 47, 49, 58, 63, 71, 75}.
238 7.2 Los datos y notaciones
Tabla 7.1: Extracto de una tabla de las fincas bananeras con las variables que describen
la productividad.
J. T REJOS — W. C ASTILLO — J. G ONZÁLEZ 239
• C2 = {81, 84, 96, 104, 121, 131, 136, 142, 148, 153, 155, 157, 158}.
• C3 = {170, 172, 177, 189, 193, 195, 202, 209, 210, 211, 216}.
Como se supone que las variables son centradas entonces el centro de grave-
dad del conjunto de todos los individuos Ω es g = 0 y la matriz de covarianza
(total) V, de las p variables calculadas sobre Ω es
X n r X
X
t t
V = X DX = pi xi xi = pi xi xi t .
i=1 s=1 i∈Cs
Ejemplo 2 Para los datos del ejemplo 1, la tabla de datos centrada tiene la
forma mostrada en la tabla 7.2.
1. V = VB + VW .
Pr
2. s=1 qs gs = 0. Es decir rang (Cg ) ≤ r − 1.
D EMOSTRACIÓN :
Para demostrar 1, se calcula primeramente
X X
pi (xi − gs )(xi − gs )t = (pi xi xti − pi gs xti − pi xi gst + pi gs gst )
i∈Cs i∈C
Xs X X
= pi xi xti − gs pi xti − pi xi gst +
i∈Cs X i∈Cs i∈Cs
gs gst pi
X i∈Cs
= pi xi xti − qs gs gst − qs gs gst + qs gs gst
i∈C
Xs
= pi xi xti − qs gs gst .
i∈Cs
Para demostrar 3., nótese que las matrices VB y Cg tienen el mismo núcleo1 y
por lo tanto el mismo rango; en efecto, sea x ∈ Rr , se tiene
VB x = 0 ⇒ xt Cg t Dq Cg x = 0 ⇒ (Cg x)t Dq Cg x = 0 ⇒ Cg x = 0.
Además
Cg x = 0 ⇒ VB x = 0.
• Varianza intraclase de z
intra(z) = ut VW u.
• Varianza interclase de z
inter(z) = ut VB u
λk = utk VB uk
= max{ut VB u|ut Vu = 1, ut Vus = 0, s = 1, . . . , k − 1}. (7.3)
D EMOSTRACIÓN :
En este caso los vectores v1 , . . . , vt son vectores propios de la matriz
Cg t Dq Cg V−1 = VB V−1 , de donde sigue que para j = 1, . . . , t, uj = V−1 vj
es un vector propio de V−1 VB con valor propio correspondiente λj . Además,
los vectores propios u1 , . . . , ut son V–ortonormados. Se tiene entonces que las
componentes principales zj = Xuj = XV−1 vj , j = 1, . . . , t, son las funciones
discriminantes.
246 7.2 Los datos y notaciones
Tabla 7.3: Variables discriminantes del análisis discriminante de los sitios de banano.
248 7.2 Los datos y notaciones
El teorema 7.3, cuya prueba se deja como ejercicio, tiene un interés práctico
en la implementación computacional del Análisis Discriminante Descriptivo. Se
sabe que el proceso de diagonalización de una matriz representa un esfuerzo
computacional significativo. Para lograr más eficiencia en ese proceso se debe
procurar diagonalizar siempre una matriz simétrica del menor tamaño posible,
aún cuando posteriormente se deban hacer ciertas transformaciones. El teorema
7.3 garantiza que esto siempre es posible ya que así es suficiente diagonalizar
una matriz r × r lo cual es ventajoso si r < p.
1
Teorema 7.3 Sea C = Cg t Dq 2 , p × r. Entonces
1. VB = CCt .
2. Si e1 , . . . , et son vectores propios Ir -ortonormados de Ct V−1 C, asocia-
dos respectivamente a los valores propios no ceros, λ1 , . . . , λt . Entonces
v1 , . . . , vt son vectores propios V−1 -ortonormados de VB V−1 asocia-
Ce
dos a los mismos valores propios λj , donde vj = √ j .
λj
A partir de los resultados obtenidos con el teorema 7.2, se pueden construir las
siguientes representaciones bidimensionales para el caso de más de dos grupos
a priori, es decir, r > 2.
Eje 2
6
1-BUENO 3-POBRE
? ? -
Eje 1
2-MEDIO ?
Figura 7.1: Plano principal de representación de los centros de los sitios de banano.
Por las fórmulas de dualidad del A.C.P. (ver sección 3.9, página 83) se sabe
que las columnas de la matriz (v1 . . . vt ) D√λ son las coordenadas de las colum-
√
nas yj de Cg . Es decir, coords yj = λs vjs para j = 1, . . . , p y s = 1, . . . , t.
250 7.2 Los datos y notaciones
Xt Dp zs = Xt Dp XV−1 vs = vs .
Eje 2
6
b p
b bb
m mp p
m m pp
b? b m ?p p
b -
b Eje 1
m ?
b b pp
p
m m
mmm
b b
p
m
?
Ejemplo 6 En el caso de los datos de banano que se han venido exponiendo, las
correlaciones entre las componentes principales y las variables originales, todas
con 36 dimensiones, se muestran en la tabla 7.4. El círculo de correlaciones
respectivo se presenta en la figura 7.3.
Cuando solo hay dos grupos a priori, las representaciones se simplifican ya que el
rango de VB (y por tanto el de VB V−1 ) vale 1. En este caso, si q1 , q2 denotan
los pesos de cada grupo, g2 − g1 es un vector propio de VB V−1 asociado al
único valor propio q1 q2 kg2 − g1 kV−1 (ver ejercicio 4). En consecuencia, las
252 7.2 Los datos y notaciones
Tabla 7.4: Correlaciones entre las variables explicativas originales y las variables dis-
criminantes.
Indices de calidad
donde t es el número
de valores propios positivos del A.C.P. de la nube
Ng = Cg , V−1 , Dq .
• Individuos:
t −1
2
kPrs (xi )k2V−1
x V vs vs
−1 (xti V−1 vs )2
2 i V
cos (i, s) = = = .
kxi k2V−1 xti V −1 xi xti V−1 xi
donde Prs (gl ) denota la proyección del vector gl a lo largo del vector vs que
define el s-ésimo eje discriminante.
J. T REJOS — W. C ASTILLO — J. G ONZÁLEZ 253
Eje 2
6
• #manos
• AltHijo
- Eje 1
•
CircMadr
Figura 7.3: Círculo de correlaciones entre las variables explicativas originales y las va-
riables discriminantes.
Los siguientes datos son tomados del análisis de la calidad del agua realizado
por el Instituto Costarricense de Electricidad (ICE) en el complejo hidroléctrico
Ventanas Garita.
Grupos Individuos
G1: V PV DV EOV ESV ECV AV CV QV VV
G2: VI PVI DVI EOVI ESVI ECVI AVI CVI QVI VVI
G3: I PI DI EOI ESI ECI AI CI QI VI
G4: IV PIV DIV EOIV ESIV ECIV AIV CIV QIV VIV
Sitio/
NIT FOS CAL STT PH MN ZN SS ALC CL CAU DBO PSO
Estación
PV 1.44 0.78 58.25 126.75 7.29 0.21 0.02 0.66 120.50 3.92 17.85 25.00 53.25
PVI 2.70 1.13 62.50 195.00 7.50 0.20 0.02 1.15 104.50 4.10 28.20 90.70 77.00
PI 3.89 0.35 79.25 176.50 7.41 0.37 0.28 0.62 80.25 3.35 53.27 3.77 89.75
PIV 1.87 0.48 68.00 171.00 7.50 0.18 0.66 0.75 97.50 3.05 46.75 26.60 72.50
AV 2.36 0.43 69.00 156.50 8.41 0.06 0.03 0.20 150.75 7.85 0.45 16.70 87.25
AVI 1.88 0.96 68.50 230.00 8.10 0.16 0.16 0.95 116.50 17.70 0.90 46.35 84.00
AI 2.13 0.24 80.25 176.25 7.74 0.25 0.07 0.62 104.75 5.90 1.64 4.47 86.00
AIV 1.06 0.46 73.00 180.50 8.05 0.12 0.25 0.45 135.00 10.55 1.21 8.90 79.00
EOV 0.83 0.63 53.25 169.00 7.70 0.18 0.26 0.70 136.75 3.60 12.00 22.17 76.50
EOVI 2.31 1.20 60.50 224.50 7.27 0.16 0.06 0.95 97.00 4.10 12.00 24.25 61.00
EOI 3.96 0.27 81.25 160.50 7.17 0.36 0.05 0.32 158.00 3.25 20.00 1.32 82.00
EOIV 1.37 0.36 66.50 158.00 7.30 0.14 0.21 0.85 99.50 2.60 20.00 6.60 49.50
ECV 1.06 0.69 55.50 177.25 7.21 0.18 0.02 0.72 127.75 3.70 12.00 13.55 58.25
ECVI 2.57 1.21 58.50 288.00 7.25 0.41 0.05 0.65 95.00 4.25 12.00 22.45 57.00
ECI 3.86 0.27 81.50 168.00 7.16 0.17 0.48 0.46 78.75 3.35 20.00 1.35 81.75
ECIV 1.11 0.45 60.50 157.50 7.25 0.16 0.07 1.00 99.50 2.75 20.00 9.65 41.50
ESV 0.91 0.66 59.00 160.25 7.25 0.18 0.03 0.49 125.75 3.37 12.00 14.02 43.25
ESVI 2.52 1.10 61.50 217.00 7.35 0.21 0.10 0.85 98.00 4.25 12.00 21.65 64.00
ESI 4.14 0.25 82.75 152.25 7.26 0.20 0.09 0.37 79.50 3.35 20.00 1.45 84.50
ESIV 1.05 0.37 64.50 156.50 7.30 0.14 0.16 0.45 101.50 2.75 20.00 8.10 47.00
QV 2.14 0.55 71.25 188.25 8.36 0.03 0.02 0.20 165.00 3.60 0.14 3.27 66.50
QVI 2.42 1.58 68.50 209.00 8.20 0.04 0.03 0.35 153.00 4.55 0.35 20.10 85.50
QI 2.66 0.40 82.25 186.50 8.00 0.02 0.06 0.16 162.50 3.42 0.61 1.75 85.25
QIV 2.22 0.75 78.00 185.50 8.30 0.00 0.15 0.20 178.50 2.90 0.36 1.50 85.50
CV 3.60 0.52 72.25 184.75 8.44 0.03 0.01 0.42 149.50 8.12 1.37 4.77 88.25
CVI 3.73 1.39 63.50 232.50 8.05 0.12 0.04 0.75 128.50 9.30 3.04 46.00 70.00
CI 3.71 0.37 80.00 190.25 7.75 0.22 0.05 0.46 113.25 7.07 4.68 1.85 83.00
CIV 4.76 0.83 72.50 159.00 8.05 0.08 0.15 0.40 105.00 6.65 3.58 3.50 84.50
VV 7.64 1.19 58.50 335.50 8.05 0.28 0.06 1.85 182.25 12.90 16.67 21.50 83.50
VVI 5.72 1.91 57.00 404.00 8.05 0.31 0.07 1.75 153.50 12.85 17.25 116.9 86.50
VI 6.09 0.87 67.00 321.25 7.80 0.28 0.11 1.27 136.00 9.05 50.05 9.35 90.50
VIV 4.65 0.76 73.00 254.00 8.05 0.20 0.32 0.95 144.50 7.80 42.20 6.50 88.00
DV 0.88 0.70 61.00 172.25 7.31 0.19 0.02 0.55 129.00 3.75 19.90 11.07 48.50
DVI 2.32 0.90 64.00 227.50 7.40 0.26 0.16 0.95 101.00 4.10 37.10 54.15 68.50
DI 4.08 0.27 81.25 169.00 7.32 0.17 0.04 0.70 85.75 3.27 59.75 1.92 84.50
DIV 1.05 0.32 67.00 134.00 7.30 0.17 0.03 0.70 103.50 2.90 62.25 8.10 51.00
Variable G1 G2 G3 G4
FOS -0.30 0.07 0.64 -0.42
NIT -0.07 1.36 -0.85 -0.44
CAL -0.73 -0.65 1.28 0.10
STT -0.23 0.84 -0.17 -0.45
PH 0.28 0.05 -0.37 0.03
MN -0.31 0.30 0.50 -0.49
ZN -0.51 -0.33 0.10 0.73
SS -0.12 0.62 -0.36 -0.13
ALC 0.74 -0.21 -0.39 -0.14
CL 0.03 0.49 -0.26 -0.26
CAU -0.46 -0.27 0.40 0.32
DBO -0.17 1.23 -0.65 -0.41
PSO -0.37 -0.02 0.81 -0.42
Vector propio
v1 v2 v3
1 −0.36 −0.18 0.20
2 0.56 −0.68 0.13
3 −0.84 0.09 −0.18
4 0.13 −0.50 0.15
5 0.23 0.05 0.04
6 −0.27 −0.29 0.21
7 −0.17 0.12 −0.59
8 0.22 −0.32 0.00
9 0.30 0.26 0.30
10 0.18 −0.24 0.12
11 −0.30 0.04 −0.30
12 0.42 −0.64 0.10
13 −0.47 −0.16 0.19
Eje 2
6
AV-1
• •
• • EOV-1
• VV-1 QV-1
CV-1
DIV-4 ECIV-4 ?
• G−1
•
• • ESIV-4
• EOIV-4 • • ESV-1
EOI-3 ? PIV-4 •
• •
VIV-4
G−4 ECV-1 PV-1
• • • •
QI-3 QIV-4 AIV-4• DV-1
G?−3
•
•
VI-3
CIV-4
-
•
CI-3 Eje 1
• ECI-3 •
•DI-3 P -3
•
ESI-3 AI-3
DVI-2
• • •
ESVI-2 CVI-2
• AVI-2
EOVI-2• ?
• G−2
• PVI-2
ECVI-2 •
QVI-2
•
VVI-2
Tabla 7.9: Cosenos cuadrados de los centros de gravedad con las funciones discrimi-
nantes.
258 7.3 Ejemplo sobre el embalse La Garita
Eje 3
6
•
PIV-4
•
EOIV-4
•
VIV-4 DIV-4
•
? •
G-4 ECIV-4
•
ECI-3 QIV-4 • AIV-4
•
•
PI-3 •ESIV-4
• •
AVI-2 QV-1• •
•
DVI-2 • QVI-2 CVI-2
•
DI -3 • EOVI-2
CIV-4•• ? -Eje 1
AI-3 •
ESVI-2 G-2 DV-1
? • •ESV-1
G-3 • QI-3 PVI-2 •
CI -3 •VVI-2 •PV-1
• • ECVI-2 • ?
ESI-3 VI-3 • VV-1 G-1
CV-1
• • •
EOI-3 AV-1
• EOV-1
ECV-1
6
Eje 2
•
ALC
•
• ZN
CAL
•
CAU
•
PH -Eje 1
• •
PSO NIT
•
• CL
MN •
SS
•
STT
•
DBO •
FOS
?
Figura 7.6: Correlación entre variables y variables discriminantes z1 , z2 .
J. T REJOS — W. C ASTILLO — J. G ONZÁLEZ 259
6
Eje 3
•
ZN
•
CAU
•
CAL
•
SS
-Eje 1
•
PH
•
• DBO •
NIT • CL FOS
• • • STT
PSO
MN
•
ALC
?
Figura 7.7: Correlación entre variables y variables discriminantes z1 , z3 .
hAx, xiM
R(x) =
kxk2M
D EMOSTRACIÓN :
Expresando x ∈ Rn en términos de la base B se tiene:
n
X
x = hx, uj iM uj ;
j=1
n
X
A(x) = hx, ui iM A(ui )
i=1
n
X
= λi hx, ui iM ui .
i=1
Luego
n
X n
X
hAx, xiM = h λi hx, ui iM ui , hx, uj iM uj iM
i=1 j=1
n X
X n
= λi hx, ui iM hx, uj iM hui , uj iM
i=1 j=1
n
X
= λi hx, ui i2M (por ortonormalidad de B).
i=1
⊥
Si x ∈ Ek−1 se tiene que hx, ui iM = 0 por i = 1, . . . , k − 1. Además como
para k ≤ i se tiene que λk ≥ λi se sigue que:
n
X n
X
hAx, xiM = λi hx, ui i2M = λi hx, ui i2M
i=1 i=k
n
X
≤ λk hx, ui i2M ≤ λk kxk2M .
i=k
⊥ , u ∈ E , se tiene que:
Como R(uk ) = λk y uk ∈ Ek−1 k k
maxx∈E ⊥ R(x) = λk
k−1
minx∈Ek R(x) = λk
262 7.4 Cociente de Rayleigh
si x ∈ E se tiene que:
Luego:
λn ≤ R(x) ≤ λ1 .
D EMOSTRACIÓN :
n
X
xj = hxj , ui iM ui
i=1
Xn n
X
hAxj , xj iM = h λi hxj , ui iM ui , hxj , ui iM ui iM
i=1 i=1
n
X
= λi hxj , ui i2M
i=1
k
X k X
X n
hAxj , xj iM = λi hxj , ui i2M
j=1 j=1 i=1
n
X k
X
= λi hxj , ui i2M
i=1 j=1
Xn
= λi Ci ,
i=1
J. T REJOS — W. C ASTILLO — J. G ONZÁLEZ 263
Pk 2
Pn
con Ci = j=1 hxj , ui iM . Además véase que i=1 Ci = k:
n
X X k
n X k X
X n
2
Ci = hxj , ui iM = hxj , ui i2M
i=1 i=1 j=1 j=1 i=1
k
X
= kxj k2M = k.
j=1
Finalmente,
k
X n
X k−1
X n
X
hAxj , xj iM = λi Ci = λi Ci + λi Ci
j=1 i=1 i=1 i=k
k−1
X n
X
≤ λi Ci + λk Ci
i=1 i=k
k−1
X k−1
X
= λi Ci + λk (k − Ci )
i=1 i=1
k−1
X k
X
= (λi − λk )Ci + λk k ≤ λi .
i=1 i=1
Ejercicios
Obs x1 x2 Clase
1 0 3 1
2 2 1 1
3 4 5 1
4 6 9 1
5 8 7 1
6 5 2 2
7 7 0 2
8 9 4 2
9 11 8 2
10 13 6 2
J. T REJOS — W. C ASTILLO — J. G ONZÁLEZ 265
Res x1 x2 x3 x4 x5 x6 Grupo
1 395 224 35.1 79.1 6 14.9 1
2 410 232 31.9 73.4 9.7 16.4 1
3 405 233 30.7 76.5 7.5 16.5 1
4 405 240 30.4 75.3 8.7 16 1
5 390 217 31.9 76.5 7.8 15.7 1
6 405 243 32.1 77.4 7.1 15.5 1
7 390 229 32.1 78.4 4.6 17 1
8 405 240 31.1 76.5 8.2 15.3 1
9 420 234 32.4 76 7.2 16.8 1
10 390 223 33.8 77 6.2 16.8 1
11 415 247 30.7 75.5 8.4 16.1 1
12 400 234 31.7 77.6 5.7 18.7 1
13 400 224 28.2 73.5 11 15.5 2
14 395 229 29.4 74.5 9.3 16.1 2
15 395 219 29.4 72.8 8.7 18.5 2
16 395 224 28.6 73.7 8.7 17.3 2
17 400 223 28.5 73.1 9.1 17.7 2
18 400 224 27.8 73.2 12.2 14.6 2
19 400 221 26.5 72.3 13.2 14.5 2
20 410 233 25.9 72.3 11.1 16.6 2
21 402 234 27.1 72.1 10.4 17.5 2
22 400 223 26.8 70.3 13.5 16.2 2
23 400 213 25.8 70.4 12.1 17.5 2
8.1 Introducción
267
268 8.2 Fundamentos del método Statis
1. Los individuos son los mismos en las m mediciones, pero las variables no
necesariamente son las mismas.
2. Las variables son las mismas en las m mediciones, pero los individuos
pueden cambiar.
Teorema 8.1 Sea S una matriz de tamaño m×m, de rango q, simétrica, semide-
finida positiva; Π una matriz diagonal de pesos de tamaño m×m y {u1 , . . . , uq }
un conjunto Π-ortonormal de vectores propios de SΠ asociados a los q prime-
ros valores propios positivos λ1 ≥ · · · ≥ λq > λq+1 = · · · λm = 0. Entonces
1. Se puede escribir
q
X
S= λk uk utk = U∆λ Ut
k=1
skl = hOk , Ol iΦ .
El conjunto Ob = {Ob1 , . . . , O
bm } de m puntos de E constituye una imagen
Euclídea para O asociada a la tabla S, si los productos internos M entre los
b reproducen los productos internos Φ entre los objetos de O:
puntos de O
bk , O
hOk , Ol iΦ = hO bl iM , para k, l ∈ {1, . . . , m}.
bk ]B = (qk1 , . . . , qkr )t .
qk = [O
Se tiene entonces
r
X
bk , O
hOk , Ol iΦ = hO bl iM = q t ql = qks qls .
k
s=1
Como se vio antes, las entradas skl de la matriz S son los productos internos
entre los objetos de O (S resulta usualmente semidefinida positiva):
skl = hOk , Ol iΦ .
Por la parte 1. del teorema 8.1 se sabe que una imagen Euclídea para la nube
(O, Π) se obtiene diagonalizando la matriz Π-simétrica SΠ. Esto es,
q
X
S= λk uk utk = U∆λ Ut = QQt
k=1
272 8.3 Statis: individuos fijos
Si solo se toman los primeros r < q vectores propios para definir la matriz
U(r) = (u1 , . . . , ur ) y la correspondiente matriz Q(r) , se obtiene una imagen
Euclídea aproximada óptima (en el sentido del teorema 8.1) para la nube (O, Π).
Una imagen Euclídea centrada para la nube (O, Π) se obtiene centrando pre-
viamente las filas y columnas de la matriz S con la matriz de centraje J, esto
es
En las secciones 8.3 hasta 8.6 se analiza en detalle el método Statis, y poste-
riormente se presenta el Statis Dual en las secciones 8.7 hasta 8.9.
En este caso se supone que los individuos son los mismos en las m matrices,
pero las variables no necesariamente, por lo tanto se dispone de un conjunto de
m estudios o nubes (X1 , M1 , D), . . . , (Xm , Mm , D) donde Xk es una matriz
de n individuos y pk variables cuantitativas centradas.
• Wkij = hxki , xkj iMk = xtki Mk xkj es el producto interno con métrica
Mk , de los individuos i, j de la k-ésima tabla,
D E
• xik , xjk = (xik )t Dxjk = covD (xik , xjk ) es la covarianza entre las varia-
D
bles i, j de la k-ésima tabla.
Para cada uno de los años 1995, 1996, 1997 y 1998, se dispone de una tabla
de individuos por variables, una por cada punto de muestreo, cuatro de ellas de
tamaño 12 × 19 y Turr2 (T2) de tamaño 12 × 17 (los sólidos SD y ST no se
midieron). Cada una de estas matrices es el resultado de promediar los valores
mensuales de cada variable en los cuatro años de muestreo. Cada una de las
12 filas (una por cada mes) representa el valor que cada una de las variables
asumió en promedio (en los cuatro años) ese mes. Por otro lado, cada una de las
columnas (una por cada variable) representa el valor promedio que la variable
correspondiente asumió en cada uno de los 12 meses. Las variables (columnas)
se denotan con su nombre, son vectores en R12 . Los individuos son vectores filas
en R19 y R17 , se denotan: En, Fe, Mz, Ab, My, Jn, Jl, Ag, Se, Oc, No, Di.
(X1 , I19 , D), (X2 , I19 , D), (X3 , I19 , D), (X4 , I19 , D), (X5 , I17 , D).
274 8.3 Statis: individuos fijos
8.3.1 La interestructura
Elección de Ok
con cki vector propio de Wk D asociado a λki y ctki Dckj = δij , el delta
de Kronecker.
3. Además (ver ejercicio 6 del capítulo 3), se pueden reconstruir las distan-
cias entre los individuos de la k–ésima tabla:
kxki − xkj k2Mk = kxki k2Mk − 2 hxki , xkj iMk + kxkj k2Mk
= Wkii − 2Wkij + Wkjj .
En este espacio se pueden calcular las distancias entre estos objetos y además
construir una representación aproximada de estas distancias, es decir una imagen
Euclídea en un subespacio Eq de Rm de dimensión q, que es el número de ejes
elegidos, usualmente q = 2. Lo anterior se logra diagonalizando el operador
SΠ, donde la matriz S de productos internos y la matriz Π de pesos asignados
a los objetos Wi se definen como:
El número de ejes q se selecciona con los mismos criterios del A.C.P. (ver
sección 3.5.3, página 57).
Para medir el grado de asociación entre dos configuraciones (k, l), Robert y
Escoufier [89] introdujeron en 1976 el coeficiente RV , que es la correlación
vectorial entre Wk y Wl :
Wk Wl
RV (k, l) = ,
kWk k φD kWl k φD φD
tr(Wk DWl D)
= p .
tr(Wk D)2 tr(Wl D)2
J. T REJOS — W. C ASTILLO — J. G ONZÁLEZ 277
p
1. d(Wk, Wl ) = kWk − Wl kφD = 2(1 − RV (k, l)), con Wk y Wl
normados.
kWk k
2. Si RV (k, l) = 1, entonces Wk = αWl con α = kWl k .
Turr2•
Rev1•
-
Rev3•
Tuis5•
Tuis4•
los meses, y bajas correlaciones entre las variables de una y otra tabla, por el
contrario los puntos más cercanos son Tuis5 y Rev3 lo que se interpreta como
configuraciones similares entre los meses y altas correlaciones. El punto de
muestreo Turr2 es el que presenta en todos los meses los más bajos índices de
calidad, en oposición al punto Tuis4 que es el menos contaminado.
Con el objeto de tener una visión más global de las proximidades entre los
estudios, se calcula una imagen Euclídea centrada, la cual se obtiene al sustituir
la matriz S por la matriz centrada Sc = JSJt .
En la Figura 8.2 se presentan las imágenes Euclídeas planas en los ejes 1–2
y 1–3, cuyas calidades de representación están en la tabla 8.5. Para cada punto
se ha calculado la calidad de su representación como el cociente de la norma
J. T REJOS — W. C ASTILLO — J. G ONZÁLEZ 279
Río Norma de Wk ck
Norma Proyectada de W cos2
Rev1 1 0.89 0.789
Rev3 1 0.89 0.797
Tuis4 1 0.94 0.876
Tuis5 1 0.88 0.773
Turr2 1 0.91 0.839
Rev1•
Tuis5•
-
Rev3•
Tuis4•
Turr2•
p
kWk kM (Sc )kk
= (2)
,
c
kWk k kQc (k)k
(2) (2)
donde Qc (k) es la fila k de Qc , matriz de coordenadas de la imagen Euclídea
obtenida de Sc .
280 8.3 Statis: individuos fijos
8.3.2 El compromiso
Suponiendo
Pm que los WkP se han normalizado, se quiere que W tenga la forma
m
W = k=1 k α W k = a k=1 βk Wk , donde α = aβ, y tal que el vector
β = (β1 , . . . , βm ) y la constante de normalización a > 0 sean elegidos de
t
||β||Π−1 = 1, maximiza
m
X m
X
tk RV (W (a, β) , Wk )2 = tk hW (a, β) , Wk i2φD (8.4)
k=1 k=1
Pm
con W (a, β) = a k=1 βk Wk , ||W(a, β)||φD = 1, ||Wk ||φD = 1.
Cálculo de β
m
*m +2 m m
!2
X X X X
tk βl Wl , Wk = tk βl hWl , Wk iφD
k=1 l=1 φD k=1 l=1
m m
!2
X X
= tk skl βl
k=1 l=1
m
X
= tk (sk β)2k = kSβk2Π = β t SΠSβ
k=1
= hΠSΠSβ, βiΠ−1 .
Se sabe por el Teorema de Rayleigh (ver sección 7.4, página 259) (sección
7.4, página 259) que esta última expresión alcanza su máximo cuando β es vector
propio de ΠSΠS asociado al mayor valor propio λ1 , con kβkΠ−1 = 1. Además
se satisfacen las siguientes propiedades:
β t Π−1 β = 1 ⇔ γ t Πγ = 1.
Cálculo de la constante a
* m m
+
X X
1 = kW(a, β)k2φD = a βk Wk , a βl Wl
k=1 l=1 φD
m
XX m
= a2 βk βl skl
k=1 l=1
= a β Sβ = a2 γ t ΠSΠγ
2 t
= λ1 a2 γ t Πγ = λ1 a2 .
Luego a = √1 .
λ1
Se sabe que los elementos skl de la matriz S son no negativos y por ende también
los de SΠ. Luego, por el teorema de Frobenius [1], el primer valor propio λ1 de
SΠ es real, no negativo y se puede elegir un vector propio γ1 de SΠ, asociado
a λ1 , tal que tenga todos sus elementos no negativos1 . Esta elección unida a
los resultados de toda la sección permite finalmente definir el compromiso de la
siguiente manera.
1
El teorema de Frobenius afirma que, si A es una matriz n × n tal que todos sus elementos
aij son no negativos, entonces su primer valor propio λ1 es real y no negativo. Además, existe un
vector propio u1 asociado a λ1 , el cual tiene todos sus elementos no negativos
J. T REJOS — W. C ASTILLO — J. G ONZÁLEZ 283
8.4 La intraestructura
X m
√ √ √
X = ( α1 X1 , α2 X2 , . . . , αm Xm )n×p , con p = pk
k=1
M1 0 · · · 0
0 M2 · · · 0
M = . . . .. .
.. .. .. .
0 0 · · · Mm
6
•
Jn •
• Fe
• En •
Di Mz
•
Jl •Ag
• -
No •
My
•
• Ab
Se
Oc
•
?
Como se vio, las filas de Q = WDC∆ √1 son las coordenadas de una imagen
λ
Euclídea óptima para la nube de individuos promedios (filas de X). La igualdad
anterior muestra que las coordenadas qi de la imagen en una base, del individuo
promedio xi es la D-proyección de la fila wi de la matriz W sobre los ejes
286 8.4 La intraestructura
1. La norma cumple:
n
X 2
kwki − wli k2D = λj qkij − qlij
j=1
Xn
2
kwki k2D = λj qkij .
j=1
P
2. Como kWk − Wl kφD = ni=1 wi kwki − wli k2D (ver relación (8.2)) y
de la relación (1.) se puede concluir que cuando los primeros h valores
propios no son muy diferentes y despreciendo
Ph los últimos n2 − h valores
2
propios, se tiene kwki − wli kD ≈ hλ1 j=1 (qkij − qlij ) , y por tanto
la distancia entre los estudios k, l se debe a las trayectorias que en los
instantes k, l presenten mayor distancia.
Definición 8.3 Se entiende por trayectoria del individuo xi , la línea que une los
puntos {qki |k = 1, . . . , m }, de la representación del individuo xi en los ejes
del compromiso, a través de las m tablas.
resto, esto es interpretado como el río que se diferencia de los otros. Las obser-
vaciones anteriores pueden verificarse en las siguientes figuras de algunas de
las trayectorias.
6 6
R3•
T2 Ab
Oc • T2
• R3 •
R1••
•
T4 • R3 •
• Jl T2 T5 En
T5 T4
R1 • R3 • •
• • •
R1 -
R1 -
• • • T4 •
T4• T5 T4 T5• T2
• R1 T5•
R3 •R3• T2
•
R1 •
• T4
T2 Di •
T5 Se
? ?
(a) Octubre, Abril y Diciembre. (b) Setiembre, Julio y Enero.
• •
T2 T4 T4
Jn •
Mz •R3
•R1• • R3 •T2 T5
T5
T5
• R1
• -
• •
T4 R3 R1• T2
•
My
?
(c) Mayo, Marzo y Junio.
las correlaciones de las variables de las diferentes tablas con estas componentes.
Si cr es la r-ésima componente y xjk es la j-ésima variable de la k-ésima tabla,
entonces la covarianza de esta variable con el eje r es
El estudio del gráfico de las correlaciones es útil para interpretar las trayec-
torias de los individuos.
R3 •• •
T4 •
T5 •
R1
T5 Ca • R1
R3 •• Mg -
R1 • DBO
R3
• • • •
T2 • T5 • T5 T2
T2
T4
• •R1
T4
• PO4 R3
T4 ••T5 • R1
•
T2 • • ST
T2 R3
?
Figura 8.5: Proyecto Angostura: correlaciones de las variables Mg, Ca, DBO, ST, PO4
y Cal en el plano principal 1–2.
J. T REJOS — W. C ASTILLO — J. G ONZÁLEZ 289
Contrastando las trayectorias de los meses con esta situación se puede con-
jeturar que: el mes de Octubre se caracteriza por la presencia de sólidos y al-
tos valores en la concentración de fósforo (P O4), Abril presenta una situación
análoga y además concentraciones altas de manganeso y calcio. Diciembre, en
cambio, presenta bajas concentraciones de M g, Ca, ST y P O4 y valores altos
en la calidad. Finalmente los gráficos de las variables mencionadas anterior-
mente ayudan a corroborar en alguna medida estas observaciones (ver Figuras
8.6).
290 8.5 Correlaciones de las variables con los ejes del compromiso
1.92 280 ?
•
.
•
• • •
•
• • ?
• ? ?
0.96 . • 140 ?
• • ?
?
? .
? •
• ? •
? . ?
•
•
. . . .
.
• .
? •
?
? .
? . . .
.
? ?
. . .
• ? ?
• . ? •
• ?
.
.
? . •
• . .
0.0 en mz my jl se no 0 en mz my jl se no
• Rev1; ? Rev3; . Tuis4; Tuis5; Turr2 • Rev1; ? Rev3; . Tuis4; Tuis5;
15.0 22
? •
? ?
• . ?
• •
. •
? ?
?
• • ? •
• ? •
? •
•
? •
7.5 11 .
.
. .
.
•
.
. . . .
•
. .
?
•
• ? • •
.
? . • • • • •
? ? .
?
. .
?
? ? .
?
. . ? .
•
•
.
0.0 en mz my jl se no 0 en mz my jl se no
• Rev1; ? Rev3; . Tuis4; Tuis5; Turr2 • Rev1; ? Rev3; . Tuis4; Tuis5; Turr2
89.0 .
• . .
? .
.
• • . .
? . .
?
•
?
•
?
?
.
• ?
• ?
• • .
.
•
? ? •
• •
?
44.5
0.0 en mz my jl se no
• Rev1; ? Rev3; . Tuis4; Tuis5; Turr2
(e) Calidad.
• En total desacuerdo.
• Bastante en desacuerdo.
• Podría estar de acuerdo.
• Bastante de acuerdo.
• Totalmente de acuerdo.
292 8.6 Análisis evolutivo de una encuesta de opinión
-Eje 1
•1989
•1990
•1991
% Inercia 57.89 6
Eje 2
•
LM3 •
LM4
•
IS4 •
IS3•IS2
•
LM1 •IS1 •
LM2
CJ3
•
•
PS4 • • •
BN2
CJ1 PS3 •
BN4• BN3
•
• CJ2 •
SP3
CJ4 SP1
-
•
• SD3 •
• • SP2
PS2 Eje 1
BN1
•
•
SD4
PS1 SD1 DS2
• • •
• •DS4
SP4 ••
DS1 DS3SD2
Figura 8.8: Correlación entre variables y los ejes del compromiso para la evolución de
la opinión.
294 8.6 Análisis evolutivo de una encuesta de opinión
Se observa que las variables SD, DS, SP y en menor grado BN y CJ, corre-
lacionan con el primer eje. Por otra parte las variables LM e IS lo hacen con
el segundo eje. En el caso de las variables BN y CJ se observa una evolución
(movimiento) sobre el primer eje que es explicada en parte por la diferenciación
del año 88 con respecto a los restantes.
• En los grupos sociales de más alta escolaridad, como EUC, se nota una
evolución en el sentido de disminuir su confianza en la justicia, aumen-
tar su deseo de que se invierta más presupuesto en seguridad y cada año
el sentimiento de inseguridad es mayor. Respecto a la enfermedad del
sida estos grupos sociales son cada vez más tolerantes. En los sectores de
menos escolaridad, como EP y EN, esta tendencia es menos pronunciada
y más irregular.
• Hay una diferenciación de la opinión entre los grupos de menor edad con
respecto a los de mayor edad, la cual se expresa en grado creciente de
desconfianza en la justicia de parte de los jóvenes que a su vez son más
tolerantes respecto al sida, que las personas de mayor edad (ver Figuras
8.8 y 8.9).
•
A55
• •
A45
A35
• •
• SJOSALAJ
IA
•
• -
EN Eje 1
•
EUI IM
• •
ET A25 • •
LIM EP
•
ES •
• IB
GUAN
•
A18
?
Figura 8.9: Grupos sociales promedio: Escolaridad, Edad, Ingreso Familiar y Provin-
cia.
•
PIZQ
-Eje 1
PLN
• • • PUSC
PNIN
?
Figura 8.10: Grupos sociales promedio: partidos políticos.
296 8.6 Análisis evolutivo de una encuesta de opinión
•
A553
A452
•
A453 • •
A554
•
A454
A451 • • •A552 -Eje 1
A551
•
A181
A182 •
A184 •
•
A183
?
Figura 8.11: Trayectorias de los grupos de edad más opuestos.
EUC4 •
EUC2 •
EUC3 •
•
EN3
EUC1 • •
EP3 EN2
• -Eje 1
EP1
•
••EP2
EN1 • EP4
•
EN4
?
Figura 8.12: Trayectorias de los escolaridad más opuestos.
J. T REJOS — W. C ASTILLO — J. G ONZÁLEZ 297
Como se señaló al inicio del capítulo, el método Statis Dual se usa en el caso en
que, en los m estudios, las variables medidas son las mismas, pero los individuos
son posiblemente diferentes al pasar de una tabla a otra.
8.7.1 La interestructura
Sea Π = diag (tk )m×m la matriz diagonal de los pesos dados a los operado-
res {V1 , . . . , Vm }. La imagen Euclídea de los operadores Vk con pesos Π se
obtiene diagonalizando la matriz Π- simétrica SΠ; donde skl = hVk , Vl iΦM .
Sean u1 , . . . , ur los vectores propios Π− ortonormados de SΠ, asociados a los
valores propios λ1 ≥ · · · ≥ λr > 0.
Pr 2
El error en que se incurre por esta aproximación es cuantificado por j=3 λj .
J. T REJOS — W. C ASTILLO — J. G ONZÁLEZ 299
Interpretación de la interestructura
Observaciones:
Así entonces, cuando hay estabilidad de las correlaciones entre dos ‘ins-
tantes’ k y l (k < l) y las normas kVk kΦM y kVl kΦM son muy diferentes,
se ha producido un aumento o una disminución en las varianzas de las va-
riables de un instante al otro. Dependiendo de la naturaleza del problema
analizado, puede ser interesante identificar los factores responsables de
dichas variaciones.
300 8.7 Statis Dual: las mismas variables en los m instantes
Otras propiedades
1 1
Sn = diag( √ ) S diag( √ )
skk skk
Sc = JSJ t , J = I11 − 111 1t11 Π.
J. T REJOS — W. C ASTILLO — J. G ONZÁLEZ 301
•en
•di
no •••oc
ag -
se•
jl ••jn•ab
mz •• my
Eje 2
6
• se
oc•
• ag
jl
• -Eje 1
• jn •
mz• • abno
di•
my• en•
1. Los meses de enero, setiembre y mayo son los puntos más alejados, cues-
tión que muestra cambios importantes (relativamente) en algunas de las
variables.
2. Abril y noviembre están muy próximos, pero no es concluyente, puesto que
hay una mala representación del mes de abril (18%).
8.8 El compromiso
son las misma de Statis, sólo varían las interpretaciones, las cuales se resumen a
continuación.
El compromiso R es
m
X
R= βk Rk .
k=1
Pm
donde β es vector propio de ΠS asociado al mayor valor propio λ1 y i=1 βi =
1; R verifica las siguientes propiedades:
Como se observó en las figuras 8.13 y 8.14 el mes de enero es el que más
difiere y según las propiedades del compromiso enumeradas anteriormente este
mes debería tener un bajo peso en la formación del compromiso, lo que se cor-
robora en la tabla anterior (peso de 6.84).
8.9 Intraestructura
Variables activas
X βk j m
1
coordcs (xj ) = (xj )t )Dcs = √ rj Mus = √ (rk )t Mus
λs k=1
λs
0.6
6
•
Altura
PSTA•
PSCO• -
0.6
PSHF
••
AFV
Como se puede observar, el primer eje del compromiso (57.4%) está deter-
minado fundamentalmente por la variable peso seco de los cogollos (PSCO) y en
menor grado por la variable peso seco de los tallos (PSTA). Se hace referencia
a él como Eje de los gramos.
El segundo eje, con un porcentaje de Inercia del 17.5%, está definido por
la variable Altura de los tallos (Altura) y en menor grado por la variable Area
foliar verde (AFV). Se le denomina Eje de los centímetros.
306 8.9 Intraestructura
Variables suplementarias
Para hacer una representación, se identifica la variable xjk con la variable su-
√
xjk )t = [0 . . . 0, ( βk xjk )t , 0 . . . 0]1×n , luego su coordenada en la
plementaria (e
componente cs es:
1 βk
xjk ) = (e
coordcs (e xjk )t Dcs = √ (xjk )t Dk Xk Mus = √ (rjk )t Mus .
λs λs
Nótese que las coordenadas de las variables observadas en el período entero son
iguales al promedio de las variables correspondientes en cada instante, salvo por
la constante 1/m:
Xm
coordcs (xj ) = xjk ).
coordcs (e
k=1
Véanse las figuras 8.16, donde se ilustra este tipo de representación por medio
de variables suplementarias. Se muestran los siguientes casos:
6 se 6
•my •
ag
•
ab• •mz •no jl•
•jn •di
•
oc •
•jl - ab •mz -
•
jn
no •my
en• ••
di •
en
oc••ag
se•
? ?
6 •my 6
•
en my
• •
ab •jn no•
•mz •ag
•jl di • • • jl
ab mz
- • -
•
jn
en no
• • oc
•
oc•
•ag
• •se • se
di
? ?
6
di ab•
•
no •my
•
• en mz•
-
jn •
•jl
se
••
oc• ag
?
(e) PSTA.
Se ve que mientras más grande sea el desplazamiento de una variable j entre los
instantes k y l, más aporta esta variable a la distancia entre Rk y Rl .
Teorema 8.2 Sea X una matriz n × p de rango mayor o igual que q. Una
solución del problema
min kX − Yk2M,N | rng (Y) = q
Y
D EMOSTRACIÓN :
Es claro que expresando M = Lt1 L1 y N = Lt2 L2 se tiene
hX, YiM,N = L2 XLt1 , L2 YLt1 Ip ,In
y
kX − YkM,N =
L2 XLt1 − L2 YLt1
Ip ,In .
Sean x1 , . . . , xn las filas de la matriz X. Se sabe que
n
o
min
L2 XLt1 − L2 YLt1
Ip ,In | rng (Y) = q =
=
L2 XLt − L2 XLt UUt
1 1 Ip ,In
n
X q
X t
= kxi k2 − utk L2 XLt1 L2 XLt1 uk
i=1 k=1
de donde
L2 XLt1 − L2 XLt1 UUt
=
X − XMHHt
M,N .
Ip ,In
310 8.11 Datos del Proyecto Angostura
D EMOSTRACIÓN :
1. Sea Y de rango q1 ≤ q y sean x1 , . . . , xn las filas de X; entonces
kX − Yk2M,N ≥ min{kX − Zk2M,N | rng (Z) = q1 }
n
X q1
X
2
= kxi k − utk (L2 XLt1 )t L2 XLt1 uk
i=1 k=1
n
X q
X
≥ kxi k2 − utk (L2 XLt1 )t L2 XLt1 uk
i=1 k=1
= min{kX − Zk2M,N | rng (Z) = q}.
P P
3. Como S = rk=1 λk vk vkt entonces S − SMHHt = rk=q+1 λk vk vkt .
Ahora, en vista de que vk vkt , vl vlt M,M = δkl (el delta de Kronecker) se
P
deduce que kS − SMHHt k2 = rk=q+1 λ2k .
En las tablas 8.9 y 8.10 se presentan los datos que corresponden al Proyecto
Hidroeléctrico Angostura.
Rev1 pH Temp Na K Ca Mg SiO2 OD DBO SD ST PO4 Cl NO3 SO4 HCO3 DT POD Cal
En 7.37 20.07 6.56 2.16 15.30 6.08 29.80 7.94 2.00 128.67 149.33 0.28 2.87 2.16 8.52 77.97 63.73 92.87 86.00
Fe 7.23 20.47 5.67 1.93 14.43 3.88 24.27 7.66 2.89 88.00 114.67 0.21 2.49 2.26 8.15 67.60 53.47 89.90 84.80
Mz 7.49 20.43 6.19 1.92 15.30 4.17 26.30 8.45 2.00 86.00 108.67 0.27 2.69 2.06 8.39 71.47 55.67 99.20 86.43
Ab 7.87 21.87 7.00 2.32 16.27 5.23 25.57 8.17 2.14 123.33 144.00 0.31 3.06 1.74 9.83 81.20 64.33 98.80 84.90
My 7.36 21.60 5.59 1.78 14.67 3.76 26.10 8.20 2.29 94.00 202.00 0.72 2.75 2.63 8.78 67.00 54.37 98.67 81.17
Jn 7.21 20.30 5.04 1.76 12.63 3.31 22.57 8.20 3.14 94.00 176.67 0.52 2.19 2.53 7.77 60.87 48.00 95.83 83.53
Jl 7.40 20.60 4.80 1.63 12.20 3.76 19.93 8.22 2.12 96.00 196.33 0.33 1.95 2.05 6.39 58.53 47.57 97.10 85.00
Ag 7.47 20.63 4.98 1.67 12.83 3.35 24.33 8.00 2.44 96.67 136.00 0.29 1.80 1.62 5.85 58.27 48.47 94.40 85.40
Se 7.34 21.30 4.82 1.83 12.73 3.32 24.20 8.40 2.36 114.67 217.33 0.69 2.26 2.37 6.49 56.10 47.07 100.70 81.07
Oc 7.19 20.80 5.22 1.88 13.27 3.51 33.10 8.29 2.41 104.00 267.33 0.93 2.24 2.16 7.47 61.37 49.27 97.97 78.93
No 7.32 19.97 5.09 1.58 12.36 3.17 27.63 8.32 2.05 84.67 199.33 1.20 1.96 1.91 6.68 56.90 45.63 96.57 79.10
Di 7.33 19.87 5.24 1.81 12.93 3.75 25.60 8.23 2.21 94.97 174.67 0.60 2.16 2.04 7.23 61.97 49.03 95.63 82.73
J. T REJOS — W. C ASTILLO — J. G ONZÁLEZ
Rev3 pH Temp Na K Ca Mg SiO2 OD DBO SD ST PO4 Cl NO3 SO4 HCO3 DT POD Cal
En 7.00 22.83 4.72 1.04 15.40 3.10 20.00 7.61 3.54 80.00 113.33 0.22 1.03 0.29 3.70 73.50 51.77 95.33 83.80
Fe 7.17 24.07 5.51 1.51 15.90 3.47 19.10 6.93 3.49 88.00 106.00 0.32 2.13 0.86 7.13 69.40 55.50 88.93 82.03
Mz 7.13 22.30 5.77 1.59 17.07 4.09 21.97 7.90 2.84 95.33 122.67 0.33 2.05 1.03 10.62 74.70 61.10 97.77 85.27
Ab 6.57 23.20 7.07 2.03 15.77 3.91 21.73 7.45 7.57 107.33 142.67 0.34 3.11 2.08 13.40 70.60 56.67 94.07 74.50
My 6.84 22.30 4.52 1.28 13.57 2.87 23.50 7.62 2.87 76.00 158.67 0.55 1.70 1.62 6.96 61.13 46.47 94.47 81.63
Jn 7.04 21.57 4.19 3.27 13.70 2.71 21.87 7.97 3.94 86.00 118.67 0.48 1.34 0.56 6.02 60.90 48.57 97.93 82.63
Jl 7.19 21.67 4.43 1.11 13.07 2.81 20.20 7.51 3.42 80.00 150.67 0.33 2.61 0.60 5.12 58.00 45.33 92.10 84.53
Ag 7.36 22.63 4.81 1.36 13.27 3.02 19.93 7.89 2.07 91.33 125.33 0.42 1.56 1.19 5.90 60.07 46.80 98.33 85.80
Se 7.10 22.87 4.49 1.37 12.77 2.91 20.37 7.94 2.09 90.00 172.00 0.57 1.90 2.21 5.24 53.53 45.40 99.70 82.70
Oc 7.12 20.97 4.59 1.45 12.63 2.86 30.10 7.85 2.21 110.00 278.00 0.87 1.93 2.52 7.47 55.63 46.20 95.10 81.70
No 7.42 20.67 4.50 1.35 11.93 2.83 25.13 8.54 2.00 73.33 142.67 0.34 1.32 1.48 5.24 54.33 42.60 102.73 86.53
Di 7.04 20.20 4.56 1.42 11.93 2.85 20.93 8.54 2.00 93.67 127.67 0.48 0.69 0.73 1.77 57.80 42.23 102.27 85.73
Tuis4 pH Temp Na K Ca Mg SiO2 OD DBO SD ST PO4 Cl NO3 SO4 HCO3 DT POD Cal
En 7.44 22.07 4.18 1.52 10.37 3.40 29.43 7.95 2.00 88.67 92.00 0.22 0.89 0.46 0.77 62.90 43.07 98.13 88.73
Fb 7.49 23.53 4.92 1.73 15.40 4.25 31.37 7.78 3.27 96.67 100.67 0.22 1.08 1.15 3.28 80.73 63.30 98.27 84.43
Mz 7.65 22.67 5.45 1.80 14.46 4.44 31.13 8.49 2.24 82.00 92.00 0.38 1.34 1.16 2.69 80.13 58.37 106.97 86.77
Ab 7.78 22.37 4.63 1.86 10.84 3.72 36.23 7.88 2.46 99.33 233.33 0.91 0.87 0.62 0.90 66.97 44.17 98.10 80.80
My 7.32 22.63 3.51 1.33 8.96 2.81 28.90 7.90 2.76 60.67 104.00 0.31 0.80 0.79 0.83 54.57 38.47 98.50 86.23
Jn 7.55 21.87 5.30 2.53 10.00 2.44 32.53 8.12 2.08 72.67 75.33 0.23 0.85 1.56 5.17 57.37 37.70 99.83 88.33
Jl 7.41 23.07 3.60 2.08 9.15 3.08 25.00 7.82 2.32 70.33 80.67 0.19 0.87 0.48 1.01 56.07 39.33 98.67 88.27
Ag 7.40 23.40 3.80 1.51 10.12 3.12 28.83 7.09 2.45 85.33 98.00 0.40 0.79 0.47 1.19 58.67 40.07 90.03 85.37
Se 6.95 23.73 3.40 2.67 9.13 2.87 26.83 7.60 2.09 96.67 107.33 0.42 1.03 0.79 1.38 50.77 35.13 97.13 82.97
Oc 7.23 22.00 3.61 1.44 9.49 2.85 35.00 8.33 3.20 85.33 91.33 0.42 0.85 0.73 1.90 53.37 37.47 102.80 84.53
No 7.39 21.80 3.52 1.36 9.49 3.04 24.40 8.27 2.00 69.33 76.67 0.56 0.74 1.06 0.78 57.53 40.93 101.93 87.73
Di 7.12 20.53 3.49 1.47 9.74 3.19 32.23 8.57 2.00 79.67 87.00 0.33 0.82 0.82 1.01 56.73 37.90 103.13 87.63
Tuis5 pH Temp Na K Ca Mg SiO2 OD DBO SD ST PO4 Cl NO3 SO4 HCO3 DT POD Cal
En 7.44 21.97 4.30 1.59 10.87 3.53 29.13 7.78 2.00 87.33 97.33 0.26 0.83 0.47 0.74 64.37 42.20 96.03 87.40
Fb 7.45 23.63 3.97 1.52 10.84 3.46 30.57 7.58 4.78 75.33 134.00 0.42 1.01 1.06 0.93 64.13 44.03 96.67 81.13
Mz 7.88 22.80 4.34 1.68 11.58 3.67 32.33 8.12 2.00 92.67 112.00 0.40 0.89 1.30 1.39 60.20 44.80 101.83 85.23
Ab 8.25 22.80 4.72 1.99 11.50 3.92 32.37 8.18 3.45 98.00 114.00 0.36 0.98 0.56 1.52 65.80 45.23 102.93 81.33
My 7.38 23.27 3.51 1.45 9.08 2.95 28.50 7.75 3.13 63.33 130.67 0.36 0.85 0.96 0.98 53.87 37.73 98.30 84.47
Jn 7.42 21.63 3.46 1.35 9.23 2.83 28.17 7.81 2.43 74.67 106.67 0.34 0.75 0.41 0.96 51.23 36.73 95.60 86.37
Jl 7.13 22.67 3.87 1.48 9.49 3.32 26.30 7.41 2.03 96.67 114.20 0.69 1.00 0.55 1.40 58.17 38.70 92.70 85.20
Ag 7.27 23.23 3.82 1.60 9.99 3.15 29.17 7.08 2.88 86.67 149.33 0.54 0.63 0.54 1.44 55.83 39.67 89.47 81.97
Se 6.74 23.90 3.34 2.29 9.20 2.91 28.37 7.19 4.24 86.00 174.00 0.97 0.90 0.64 0.54 53.43 35.73 92.17 75.83
Oc 7.13 21.93 3.44 1.56 9.11 2.85 34.07 7.85 2.30 95.33 100.67 0.80 1.02 0.75 1.68 52.37 36.33 97.13 83.80
No 7.10 22.03 3.66 1.62 9.59 3.20 30.23 7.72 2.45 72.67 77.33 0.59 0.70 0.78 0.70 60.23 37.60 95.93 86.30
Di 7.03 21.83 3.71 1.57 10.07 3.28 35.77 8.01 2.35 99.00 116.00 0.38 0.81 0.98 0.95 61.17 39.33 98.77 85.87
Turr2 pH Temp Na K Ca Mg SiO2 OD DBO PO4 Cl NO3 SO4 HCO3 DT POD Cal
En 7.61 21.13 9.75 4.91 18.00 11.67 50.17 7.82 1.84 0.55 4.05 5.24 14.17 121.67 93.30 95.33 80.70
Fb 7.74 21.73 9.48 4.69 19.77 11.47 44.33 7.76 1.75 0.46 4.14 5.01 13.21 120.63 97.43 95.60 81.36
Mz 8.07 22.33 10.04 5.48 19.77 12.30 37.80 7.95 2.26 0.59 5.71 6.01 14.67 121.33 102.00 99.00 78.26
Ab 7.86 22.07 11.70 5.50 21.70 14.90 44.00 7.84 2.58 0.87 5.38 5.72 17.50 137.67 116.67 96.67 75.59
My 7.59 23.67 8.60 3.92 16.87 10.25 46.40 7.70 1.31 0.43 4.30 6.70 12.50 107.33 86.80 98.33 81.85
Jn 7.56 22.07 6.54 3.22 12.92 6.84 44.47 8.07 1.56 0.49 2.36 3.35 7.23 86.93 61.27 99.93 83.25
Jl 7.59 22.13 8.44 4.46 16.33 10.73 42.10 7.69 3.59 0.50 3.48 4.88 10.23 104.67 87.03 95.53 78.73
Ejercicios
1
2. En el método Statis, sea Π = m Im la matriz de pesos (todos iguales),
skl = hWk , Wl iΦD . Demuestre que la imagen Euclídea {W c1 , . . . , W
cm }
se puede obtener diagonalizando S en lugar de SΠ.
Indicación: Demuestre que
Los datos son mostrados en las tablas 8.11, 8.12, 8.13 y 8.14. Aplique el
método Statis para analizar estos datos.
En vista de que se tiene que la posibilidad de aplicar también el método
Statis Dual, ¿cómo cree que se comportarán los resultados del análisis?
316
Punto
Nit Fos Cal Sto pH Mn Zn SS Alc Cl Cau DBO Por
muestreo
Alajuela 2.36 0.43 69.00 156.50 8.41 0.06 0.03 0.20 150.75 7.85 0.45 16.70 87.25
Ciruelas 3.60 0.53 72.25 184.75 8.44 0.04 0.01 0.42 149.50 8.12 1.37 4.78 88.25
Desfogue 0.89 0.70 61.00 172.25 7.31 0.19 0.02 0.55 129.00 3.75 19.90 11.07 48.50
Embcent 1.06 0.69 55.50 177.25 7.21 0.18 0.02 0.72 127.75 3.70 12.00 13.55 58.25
Embori 0.83 0.63 53.25 169.00 7.70 0.18 0.26 0.70 136.75 3.60 12.00 22.18 76.50
Embsal 0.92 0.66 59.00 160.25 7.25 0.18 0.03 0.49 125.75 3.37 12.00 14.02 43.25
Presa 1.44 0.78 58.25 167.50 7.29 0.21 0.03 0.66 120.50 3.92 17.85 25.00 53.25
QSoto 2.14 0.55 71.25 188.25 8.36 0.03 0.02 0.20 165.00 3.60 0.14 3.27 66.50
Virilla 7.65 1.19 58.50 335.50 8.05 0.28 0.06 1.85 182.25 12.90 16.68 21.50 83.50
Embcent 2.58 1.21 58.50 288.00 7.25 0.42 0.05 0.65 95.00 4.25 12.00 22.45 57.00
Embori 2.31 1.21 60.50 224.50 7.28 0.16 0.06 0.95 97.00 4.10 12.00 24.25 61.00
Embsal 2.52 1.10 61.50 217.00 7.35 0.21 0.10 0.85 98.00 4.25 12.00 21.65 64.00
Presa 2.71 1.13 62.50 195.00 7.50 0.20 0.02 1.15 104.50 4.10 28.20 90.70 77.00
QSoto 2.42 1.58 68.50 209.00 8.20 0.04 0.03 0.35 153.00 4.55 0.35 20.10 85.50
Virilla 5.73 1.91 57.00 404.00 8.05 0.31 0.07 1.75 153.50 12.85 17.25 116.95 86.50
Punto
Nit Fos Cal Sto pH Mn Zn SS Alc Cl Cau DBO Por
muestreo
Alajuela 2.13 0.24 80.25 176.25 7.74 0.25 0.07 0.62 104.75 5.90 1.64 4.47 86.00
Ciruelas 3.71 0.37 80.00 190.25 7.75 0.22 0.05 0.46 113.25 7.08 4.68 1.85 83.00
Desfogue 4.08 0.27 81.25 169.00 7.33 0.17 0.04 0.70 85.75 3.27 59.75 1.93 84.50
Embcent 3.86 0.27 81.50 168.00 7.16 0.17 0.48 0.46 78.75 3.35 20.00 1.35 81.75
Embori 3.96 0.27 81.25 160.50 7.17 0.36 0.05 0.33 158.00 3.25 20.00 1.33 82.00
Embsal 4.14 0.25 82.75 152.25 7.26 0.20 0.09 0.37 79.50 3.35 20.00 1.45 84.50
Presa 3.90 0.35 79.25 176.50 7.41 0.37 0.28 0.62 80.25 3.35 53.27 3.77 89.75
QSoto 2.66 0.40 82.25 186.50 8.00 0.03 0.06 0.16 162.50 3.42 0.61 1.75 85.25
Virilla 6.09 0.87 67.00 321.25 7.80 0.28 0.11 1.27 136.00 9.05 50.05 9.35 90.5
Embcent 1.11 0.46 60.50 157.50 7.25 0.16 0.07 1.00 99.50 2.75 20.00 9.65 41.50
Embori 1.37 0.37 66.50 158.00 7.30 0.15 0.21 0.85 99.50 2.60 20.00 6.60 49.50
Embsal 1.06 0.37 64.50 156.50 7.30 0.15 0.16 0.45 101.50 2.75 20.00 8.10 47.00
Presa 1.87 0.48 68.00 171.00 7.50 0.18 0.66 0.75 97.50 3.05 46.75 26.60 72.50
QSoto 2.23 0.76 78.00 185.50 8.30 0.00 0.15 0.20 178.50 2.90 0.36 1.50 85.50
Virilla 4.65 0.76 73.00 254.00 8.05 0.21 0.32 0.95 144.50 7.80 42.20 6.50 88.00
Φ2 , 18 coeficiente de correlación, 16
χ2 , 18 colonias de hormigas, 324
compromiso, 271, 282
algoritmo voraz, 324 comunalidad, 56
algoritmos genéticos, 324 coordenada factorial, 110
análisis bivariado, 15 coordenadas factoriales, 143
análisis de correspondencias, 102, 328 covarianza, 16
análisis de correspondencias múlti-
ples, 137, 140 datos, 1
análisis de datos simbólicos, 325 desigualdad de Cauchy-Schwartz, 26
análisis discriminante, 237 desviación estándar, 15
análisis discriminante decisional, distancia, 24
238 distancia de chi-cuadrado, 107,
análisis discriminante descriptivo, 141, 143
237 distancia Euclídea clásica, 25,
análisis en componentes principales, 26
110
efecto talla, 62, 91
análisis factorial de correspondencias,
eje factorial, 85, 110
102, 141
enjambres de partículas, 325
análisis univariado, 14
equivalancia distribucional, 107, 134
atributos, 6
escalas de Likert, 78, 293
espacio de individuos, 24
código disyuntivo completo, 138
espacio de variables, 24
categorías, 6
Estadística, 1
centro de gravedad, 104, 106, 141,
142 fórmulas de transición, 130, 173
chi-cuadrado, 18
cociente de correlación, 19 igualdad de Fisher, 204
cociente de Rayleigh, 262 imagen Euclídea, 271
codificación, 6, 10 independencia, 102
coeficiente RV , 278 indicadoras, 7
coeficiente de contingencia Φ2 , 18 indicatrices, 7
339
340 Indice alfabético