Anda di halaman 1dari 118

ANÁLISIS MULTIVARIADO DE DATOS

Métodos y Aplicaciones

Javier Trejos Zelaya – William Castillo Elizondo


Jorge González Varela

Universidad de Costa Rica


Análisis Multivariado de Datos
Métodos y Aplicaciones

Javier Trejos Zelaya

William Castillo Elizondo


Jorge González Varela

Editorial de la Universidad de Costa Rica


Código Postal 11501-2060
Ciudad Universitaria Rodrigo Facio
San Pedro de Montes de Oca, Costa Rica
' $
500
T Trejos Zelaya, Javier, 1961-
Análisis Multivariado de Datos / Javier Trejos
Zelaya. -ed.- San José, C.R. : Editorial de la
Universidad de Costa Rica
2012.
xxx, 340 p.
ISBN FALTA
1. completar información

I. Título

& %
EUCR

Editorial de la Universidad de Costa Rica

Código Postal 11501-2060


Ciudad Universitaria Rodrigo Facio
San Pedro de Montes de Oca, Costa Rica

iii
iv
Dedicatoria

A mi esposa Vivian, y a mis hijos Lucía, Juan, Carlo, Nicole y Pablo,

J.T.Z.

A mi nieta Raquel† , a mi esposa Irene, y a mis hijos José Ernesto, Laura e


Ignacio,

W.C.E.

A mi madre, y a mi hijo Daniel,

J.G.V.

v
vi
Prólogo

Tuve el placer de ir por primera vez a Costa Rica en 1990, y pude constatar el
desarrollo del Análisis de Datos en la Universidad de Costa Rica, así como la
influencia que tiene esta universidad en la región de América Latina y el Caribe.
Luego, he regresado varias veces y he podido trabajar con el equipo de la Escuela
de Matemática de esta universidad.

Javier Trejos, William Castillo y Jorge González ofrecen ahora un libro, es-
crito en español, sobre el Análisis de Datos. Este libro trata de técnicas clásicas
del Análisis de Datos tal como son conocidas en Francia, y ciertos capítulos
tratan incluso de técnicas desarrolladas en Francia, como el Análisis de Corres-
pondencias, el Método de Nubes Dinámicas y el Método Statis.

Sólo queda desear que el libro sea aprovechado en una región donde servirá
ciertamente a los investigadores en su trabajo de análisis.
J’ai eu le plaisir de venir au Costa Rica en 1990 pour la première fois, et j’ai pu
constater le dévelopement de l’Analyse des Données à l’Université du Costa Rica, et le
rayonnement que cette université a sur la région d’Amérique Centrale et les Caraïbes.
Ensuite, je suis revenu plusieurs fois et j’ai pu travailler avec l’équipe de l’Ecole de
Mathématiques de cette université.

Javier Trejos, William Castillo et Jorge González offrent maintenant un livre en es-
pagnol sur l’Analyse des Données. Ce livre porte sur les techniques classiques d’Analyse
des Données telles qu’elles sont connues en France, et certains chapitres portent même
sur des techniques développées en France, telles que l’Analyse des Correspondances, la
Méthode des Nuées Dynamiques et la Méthode Statis.

Il ne reste qu’a profiter de ce livre dans une région où il servira certainement les
chercheurs dans leurs démarches d’analyse.

Edwin Diday

vii
viii
Prefacio

Hace muchos años iniciamos con el proyecto de escribir un libro de texto en


español sobre las principales técnicas de Análisis Multivariado de Datos. En la
Universidad de Costa Rica se consolidó un grupo de trabajo en este campo, que
ha tenido una rica experiencia en desarrollos tanto metodológicos como en apli-
caciones a diversos campos. La bibliografía empleada estaba casi en su totalidad
en francés y en una menor parte en inglés. Debemos decir también que el grupo
tuvo una influencia marcada por la Escuela Francesa de Análisis de Datos, no
sólo por los intercambios académicos llevados a cabo inicialmente con la Uni-
versidad Paul Sabatier, de Toulouse, y luego con otros centros académicos, sino
también por otro tipo de colaboraciones académicas y de investigación con esta
escuela.

Encontrar material bibliográfico sobre el análisis multivariado, con el en-


foque de este texto, es un poco difícil: las referencias van desde las presenta-
ciones superficiales en las que no se justifican los métodos ni su uso, a las pre-
sentaciones extremadamente teóricas que no tienen una aplicación a simple vista.
Encontrar referencias útiles en español es aún más difícil. Por ello, quisimos
hacer un libro que tuviera un balance entre la teoría y la práctica. Los métodos
están justificados tanto desde el punto de vista teórico como práctico, habién-
dose enviado en muchas ocasiones al final del capítulo algunas demostraciones
que podrían distraer al lector deseoso de ver cómo se aplica cada método sobre
una base de datos real. Esperamos haber encontrado ese balance para que tanto
el estudioso de los métodos encuentre, desde el interés teórico, una respuesta al
por qué de cada método, como el aplicador que desea saber cómo funciona en la
práctica la técnica.

Consecuentemente, cada capítulo está organizado de manera que inicial-


mente se presenta el objetivo del método, enseguida se desarrolla el método
con sus propiedades de la mano de un ejemplo de ilustración, dejándose las de-

ix
x

mostraciones de algunas propiedades teóricas para el final del capítulo, cuando


no son esenciales para la comprensión del método. Además, cada capítulo con-
tiene varios ejemplos completos de aplicación junto con sus resultados e inter-
pretaciones. Al final se presentan ejercicios tanto teóricos como prácticos para
que el lector pueda ejercitarse en la comprensión de la teoría y la práctica. En
la medida de lo posible, hemos presentado las tablas de datos completos. De
cualquier forma, si algún lector quiere usarlas y no desea transcribirlas, puede
dirigirse a los lectores para que se las enviemos por vía electrónica.

Nuestra intención es que el presente libro sirva como material de referencia


para investigadores que necesiten la herramienta del análisis multivariado. No se
ha incluido ningún aspecto relativo al uso de software, ya que existen diversos
paquetes computacionales que realizan los cálculos de las técnicas aquí expues-
tas. Cada paquete tiene su manual de uso y allí el lector podrá ver la manera
de utilizarlo, pero lo importante es que con este libro de texto el uso de esas
técnicas debería ser más claro y el lector podrá usar conscientemente cualquier
técnica multivariada cubierta en el texto.

El libro está organizado en nueve capítulos. El primero sirve de introducción


general y recordatorio de la Estadística Descriptiva, fijándose algunos términos
que se usarán a lo largo del texto. El segundo capítulo introduce el Análisis
Multidimensional, con los elementos de base para todo el desarrollo teórico que
se hace en los capítulos posteriores, como los términos de espacios vectoriales
usados y las métricas asociadas. En el capítulo tres se expone la principal técnica
multivariada, como es el Análisis en Componentes Principales, la cual es útil
no sólo en sí misma para realizar análisis de tablas de datos cuantitativos, sino
también como técnica de base para los demás temas de Análisis Multivariado.
Estos tres primeros capítulos son de lectura obligatoria para la comprensión del
resto del texto.

Enseguida, en los capítulos 5 y 6, se desarrollan dos técnicas importantes,


como el Análisis Factorial de Correspondencias y el Análisis de Corresponden-
cias Múltiples. Se trata de técnicas especializadas en el análisis de datos cua-
litativos, la primera de ellas cuando los datos están dispuestos en una tabla de
contingencia, y la segunda es para tratar el caso general de varias variables cua-
litativas.

Se sigue con un capítulo dedicado a diversas técnicas de Clasificación


Automática, o Análisis de Conglomerados. El capítulo inicia con una intro-
ducción a los conceptos de similutudes y distancias, tanto entre objetos como
entre grupos, para pasar luego a exponer las dos principales familias de métodos
J. Trejos — W. Castillo — J. González xi

de clasificación: los métodos jerárquicos y los métodos de particionamiento. A


pesar de lo amplio de este tema, se cubren las principales técnicas: clasificación
jerárquica ascendente, método de las k–medias y métodos de nubes dinámicas.

El capítulo 7 está dedicado a la Discriminación Descriptiva, como es el análi-


sis factorial discriminante. Se decidió no cubrir los temas de discriminación
decisional pues escapan al contexto de este libro y pueden ser objeto de una
publicación que trate también de temas de estimación estadística.

El capítulo 8 está enteramente dedicado al Análisis de Tablas Múltiples. Para


ello se escogió exponer con detalle el Método Statis, uno de los más completos y
bien justificados para este tipo de análisis. Se decidió incluir en el capítulo prác-
ticamente todos los detalles del método, tanto en el caso clásico como en el caso
dual, ya que es difícil encontrar este tipo de justificaciones en la bibliografía, aún
en la más especializada.

Se finaliza con un capítulo que presenta brevemente las tendencias modernas


del Análisis Multivariado de Datos, para lo cual se escogieron tres temas: la
optimización de los métodos, el análisis de datos simbólicos, y la minería de
datos.

Hubo que decidir dejar por fuera algunas técnicas que pudieron haber for-
mado parte del libro, como la Regresión, el Análisis Canónico, o el Escalamiento
Multidimensional. La primera de ellas, si bien tiene una fuerte componente geo-
métrica, como la mayoría de técnicas incluidas en este libro, también tiene una
fuerte componente de estimación estadística, y muchas veces la práctica de la re-
gresión cae más en el campo de la Estadística Inferencial que en el de la Estadís-
tica Descriptiva. En cuanto al Análisis Canónico, tiene un gran interés teórico
pues generaliza muchas de las técnicas aquí expuestas, pero no se usa mucho en
la práctica, por lo que su inclusión hubiese alargado innecesariamente el texto.
Finalmente, el escalamiento también es muy importante, pero en realidad se trata
de una familia de técnicas que quizás ameritan un libro solo para ellas.

Como se dijo anteriormente, los capítulos 1, 2 y 3 son necesarios para la


comprensión de cualquier capítulo posterior. Enseguida, los capítulos son inde-
pendientes entre sí, con excepción del 4 y 5, que necesariamente se deben cubrir
en ese orden.

La mayor parte del material ha sido probado a lo largo de los años en di-
versos cursos de Licenciatura y Maestría de la Universidad de Costa Rica, por
lo que agradecemos a los estudiantes y profesores que lo han usado ya que sus
señalamientos y comentarios nos han ayudado a mejorar sustancialmente el texto
xii

inicial. Versiones previas del libro también han sido utilizadas en diversos cursos
que hemos impartido en la región, como en la Universidad de San Carlos y en la
del Valle de Guatemala, la Universidad Nacional Autónoma de Honduras, la Uni-
versidad Nacional Autónoma de Nicaragua – León, y la Universidad de Panamá.
En México, en la Universidad Autónoma Metropolitana – Unidad Iztapalapa, la
Benemérita Universidad Autónoma de Puebla, el Instituto Tecnológico y de Es-
tudios Superiores de Monterrey, campus Monterrey y Guadalajara, el Centro de
Investigaciones y Estudios Avanzados del Instituto Politécnico Nacional, y en el
Foro Nacional de Estadística de México. También fuera de la región mesoame-
ricana, en la Universidad de Pinar del Río y Universidad Central de Las Villas,
Cuba, y en la Universidad de Copiapó, Chile. Desde luego, la responsabilidad
del material incluido en el texto, y los posibles errores que salgan publicados,
son entera responsabilidad de los autores.

Deseamos agradecer a la Vicerrectoría de Docencia de la Universidad de


Costa Rica por su apoyo durante el inicio de la redacción de este material, así
como a la Escuela de Matemática por las facilidades prestadas durante varios
semestres. Al Programa de Estudios de Posgrado en Matemática por habernos
permitido dictar cursos relacionados con el material publicado, lo cual hizo que
se lograra mejorar sustancialmente el texto inicial. Los resultados numéricos pre-
sentados en este libro han sido obtenidos a partir de programas elaborados por
los autores o bien con el paquete PIMAD 3.0, elaborado por nuestro colega Olde-
mar Rodríguez. Algunos planos principales y círculos de correlaciones fueron
también hechos a partir de este paquete, y los árboles de clasificación fueron
elaborados a partir de la programación de nuestro colega Alex Murillo. Final-
mente, también agradecemos a colegas que han facilitado el uso de datos reales,
cuyo análisis forma una parte muy importante en este libro. Algunos de ellos
son Patricia Sánchez, por los datos sobre fabes asturianas; Antonio Banichevivh
y Javier Bonatti, por los datos meteorológicos sobre concentración del CO2;
Franklin Rosales, Luis Pocasangre y el equipo de Bioversity, por los datos so-
bre calidad y salud de suelos bananeros; y Edith Guevara, por los datos sobre el
comedor del Instituto Tecnológico de Costa Rica.
Tabla de Contenidos

1 Estadística Descriptiva 1

1.1 Elementos de Estadística . . . . . . . . . . . . . . . . . . . . . 1

1.1.1 Individuos o unidades estadísticas . . . . . . . . . . . . 2

1.1.2 Las variables de la estadística . . . . . . . . . . . . . . 4

1.2 Tablas de datos . . . . . . . . . . . . . . . . . . . . . . . . . . 8

1.2.1 Tablas de individuos × variables . . . . . . . . . . . . . 8

1.2.2 Tablas de variables × variables . . . . . . . . . . . . . . 10

1.2.3 Tablas de individuos × individuos . . . . . . . . . . . . 12

1.3 Análisis estadísticos univariados y bivariados . . . . . . . . . . 14

Ejercicios . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 21

2 Introducción a la Estadística Multidimensional 23

2.1 Introducción . . . . . . . . . . . . . . . . . . . . . . . . . . . . 23

2.2 Los espacios vectoriales asociados a las tablas de datos . . . . . 24

2.3 Nubes de puntos . . . . . . . . . . . . . . . . . . . . . . . . . . 31

2.4 Inercia en un punto . . . . . . . . . . . . . . . . . . . . . . . . 32

2.5 Esquema de dualidad . . . . . . . . . . . . . . . . . . . . . . . 33

Ejercicios . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 35

xiii
xiv

3 Análisis en Componentes Principales 37

3.1 Introducción . . . . . . . . . . . . . . . . . . . . . . . . . . . . 37

3.2 Objetivo del A.C.P. . . . . . . . . . . . . . . . . . . . . . . . . 38

3.3 Solución del A.C.P. . . . . . . . . . . . . . . . . . . . . . . . . 40

3.3.1 A.C.P. normado . . . . . . . . . . . . . . . . . . . . . . 41

3.3.2 Diagonalización de R . . . . . . . . . . . . . . . . . . . 46

3.3.3 Vectores principales . . . . . . . . . . . . . . . . . . . 47

3.3.4 Componentes principales . . . . . . . . . . . . . . . . . 47

3.3.5 Propiedades de las componentes principales . . . . . . . 48

3.4 Representaciones gráficas . . . . . . . . . . . . . . . . . . . . . 49

3.4.1 Planos principales . . . . . . . . . . . . . . . . . . . . 49

3.4.2 Círculos de correlaciones . . . . . . . . . . . . . . . . . 50

3.5 Indices de calidad . . . . . . . . . . . . . . . . . . . . . . . . . 51

3.5.1 Calidad global . . . . . . . . . . . . . . . . . . . . . . 51

3.5.2 Calidad particular . . . . . . . . . . . . . . . . . . . . . 54

3.5.3 Número de componentes principales . . . . . . . . . . . 57

3.6 Interpretación de los resultados . . . . . . . . . . . . . . . . . . 58

3.7 Elementos suplementarios . . . . . . . . . . . . . . . . . . . . 60

3.7.1 Individuos suplementarios . . . . . . . . . . . . . . . . 60

3.7.2 Variables suplementarias . . . . . . . . . . . . . . . . . 61

3.8 Casos de aplicación . . . . . . . . . . . . . . . . . . . . . . . . 61

3.8.1 Análisis de la concentración de CO2 . . . . . . . . . . . 61

3.8.2 Análisis de fabes asturianas . . . . . . . . . . . . . . . 68

3.8.3 Encuestas de opinión pública . . . . . . . . . . . . . . . 78


J. Trejos — W. Castillo — J. González xv

3.8.4 Opinión sobre un servicio de comedor . . . . . . . . . . 78

3.9 El A.C.P. general . . . . . . . . . . . . . . . . . . . . . . . . . 83

Ejercicios . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 89

4 Análisis Factorial de Correspondencias 99

4.1 Introducción . . . . . . . . . . . . . . . . . . . . . . . . . . . . 99

4.2 Conceptos básicos y objetivos del A.F.C. . . . . . . . . . . . . . 99

4.2.1 Concepto de independencia entre dos variables


cualitativas . . . . . . . . . . . . . . . . . . . . . . . . 101

4.2.2 Objetivos del A.F.C. . . . . . . . . . . . . . . . . . . . 102

4.3 Perfiles, distancias y algunas propiedades . . . . . . . . . . . . 103

4.3.1 Perfiles-fila y sus pesos . . . . . . . . . . . . . . . . . . 103

4.3.2 Perfiles-columna y sus pesos . . . . . . . . . . . . . . . 105

4.3.3 Distancia entre perfiles . . . . . . . . . . . . . . . . . . 107

4.3.4 Equivalencia distribucional . . . . . . . . . . . . . . . . 107

4.3.5 Relación entre la inercia y la cantidad χ2 . . . . . . . . 109

4.4 Ejes factoriales, coordenadas y


representación gráfica de perfiles . . . . . . . . . . . . . . . . . 109

4.4.1 A.C.P. de la nube de perfiles-fila . . . . . . . . . . . . . 110

4.4.2 A.C.P. de la nube de perfiles-columna . . . . . . . . . . 111

4.4.3 Relaciones de transición . . . . . . . . . . . . . . . . . 112

4.4.4 Representación de modalidades suplementarias . . . . . 115

4.4.5 Acerca del centraje en A.F.C. . . . . . . . . . . . . . . 115

4.5 Interpretación de un A.F.C.: algunos índices . . . . . . . . . . . 116

4.5.1 Contribución absoluta . . . . . . . . . . . . . . . . . . 116

4.5.2 Contribución relativa . . . . . . . . . . . . . . . . . . . 117


xvi

4.5.3 Selección de ejes . . . . . . . . . . . . . . . . . . . . . 118

4.5.4 Selección de perfiles . . . . . . . . . . . . . . . . . . . 119

4.5.5 Ejemplo ilustrativo: tipos de vehículos . . . . . . . . . . 120

4.5.6 Aplicación en Biología . . . . . . . . . . . . . . . . . . 125

4.6 Propiedades del Análisis Factorial de


Correspondencias . . . . . . . . . . . . . . . . . . . . . . . . . 129

4.7 Ejercicios . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 132

5 Análisis de Correspondencias Múltiples 137

5.1 Introducción . . . . . . . . . . . . . . . . . . . . . . . . . . . . 137

5.2 La tabla de datos en A.C.M. . . . . . . . . . . . . . . . . . . . 137

5.2.1 Código disyuntivo completo . . . . . . . . . . . . . . . 138

5.2.2 Márgenes de X . . . . . . . . . . . . . . . . . . . . . . 139

5.3 Objetivos de un A.C.M. . . . . . . . . . . . . . . . . . . . . . . 140

5.3.1 Los individuos . . . . . . . . . . . . . . . . . . . . . . 140

5.3.2 Las modalidades . . . . . . . . . . . . . . . . . . . . . 140

5.3.3 El A.C.M. y otros métodos . . . . . . . . . . . . . . . . 140

5.4 Perfiles y distancias en A.C.M. . . . . . . . . . . . . . . . . . . 141

5.4.1 Perfiles-fila y distancia . . . . . . . . . . . . . . . . . . 141

5.4.2 Perfiles-columna y distancia . . . . . . . . . . . . . . . 142

5.5 Ejes factoriales y coordenadas factoriales en A.C.M. . . . . . . 143

5.5.1 Coordenadas factoriales de los individuos . . . . . . . . 143

5.5.2 Coordenadas factoriales de las modalidades . . . . . . . 144

5.5.3 Relaciones de transición entre coordenadas . . . . . . . 144

5.5.4 Elementos suplementarios . . . . . . . . . . . . . . . . 145


J. Trejos — W. Castillo — J. González xvii

5.6 Interpretaciones en A.C.M. . . . . . . . . . . . . . . . . . . . . 147

5.6.1 Ejemplo: datos médicos . . . . . . . . . . . . . . . . . 148

5.6.2 Ejemplo: datos sociológicos . . . . . . . . . . . . . . . 149

5.7 Relación del A.C.M. con otros métodos . . . . . . . . . . . . . 160

5.7.1 Matriz de Burt: sus propiedades . . . . . . . . . . . . . 160

5.7.2 Análisis de una matriz de Burt . . . . . . . . . . . . . . 162

5.8 Inercia de algunas nubes de puntos . . . . . . . . . . . . . . . . 165

5.8.1 Inercia total . . . . . . . . . . . . . . . . . . . . . . . . 165

5.8.2 Inercia de nubes de modalidades . . . . . . . . . . . . . 165

5.8.3 Inercia proyectada . . . . . . . . . . . . . . . . . . . . 166

5.9 Pruebas de algunas propiedades del A.C.M. . . . . . . . . . . . 168

Ejercicios . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 173

6 Clasificación Automática 175

6.1 Introducción . . . . . . . . . . . . . . . . . . . . . . . . . . . . 175

6.2 Medidas de Semejanza . . . . . . . . . . . . . . . . . . . . . . 177

6.2.1 Distancias y disimilitudes . . . . . . . . . . . . . . . . 177

6.2.2 Similitudes . . . . . . . . . . . . . . . . . . . . . . . . 177

6.2.3 Disimilitudes . . . . . . . . . . . . . . . . . . . . . . . 181

6.2.4 Agregaciones . . . . . . . . . . . . . . . . . . . . . . . 188

6.3 Clasificación Jerárquica . . . . . . . . . . . . . . . . . . . . . . 189

6.3.1 Jerarquías . . . . . . . . . . . . . . . . . . . . . . . . . 189

6.3.2 Clasificación jerárquica ascendente . . . . . . . . . . . 191

6.3.3 Ejemplo de las notas escolares . . . . . . . . . . . . . . 197

6.3.4 Observaciones sobre la clasificación jerárquica . . . . . 199


xviii

6.4 Clasificación por Particiones . . . . . . . . . . . . . . . . . . . 199

6.4.1 Problema combinatorio . . . . . . . . . . . . . . . . . . 200

6.4.2 Criterio de la inercia . . . . . . . . . . . . . . . . . . . 201

6.4.3 Método de k-medias . . . . . . . . . . . . . . . . . . . 202

6.4.4 Métodos de nubes dinámicas . . . . . . . . . . . . . . . 206

6.4.5 Método de Fisher . . . . . . . . . . . . . . . . . . . . . 210

6.4.6 Análisis de las formas fuertes . . . . . . . . . . . . . . 210

6.4.7 Uso de heurísticas modernas de optimización . . . . . . 213

6.4.8 Aplicaciones del particionamiento . . . . . . . . . . . . 213

6.5 Ejemplos . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 214

6.5.1 Clasificación en Meteorología . . . . . . . . . . . . . . 215

6.5.2 Clasificación de variables sociológicas . . . . . . . . . . 219

6.5.3 Clasificación de fabes asturianas . . . . . . . . . . . . . 219

6.6 Prueba de algunos resultados teóricos . . . . . . . . . . . . . . 222

6.6.1 Fórmula de recurrencia de Lance & Williams . . . . . . 222

6.6.2 Propiedad de Fisher para la descomposición de la inercia 227

6.6.3 Convergencia del método de k-medias . . . . . . . . . . 228

Ejercicios . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 230

7 Análisis Discriminante Descriptivo 235

7.1 Introducción . . . . . . . . . . . . . . . . . . . . . . . . . . . . 235

7.2 Los datos y notaciones . . . . . . . . . . . . . . . . . . . . . . 236

7.2.1 Caracterización de las funciones discriminantes . . . . . 243

7.2.2 Cálculo de las funciones discriminantes . . . . . . . . . 244

7.2.3 Representaciones en Análisis Discriminante Descriptivo 247


J. Trejos — W. Castillo — J. González xix

7.3 Ejemplo sobre el embalse La Garita . . . . . . . . . . . . . . . 252

7.4 Cociente de Rayleigh . . . . . . . . . . . . . . . . . . . . . . . 259

Ejercicios . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 262

8 Análisis de Tablas Múltiples 267

8.1 Introducción . . . . . . . . . . . . . . . . . . . . . . . . . . . 267

8.2 Fundamentos del método Statis . . . . . . . . . . . . . . . . . . 268

8.2.1 Objetivos de los métodos Statis y Statis Dual . . . . . . 269

8.2.2 Producto interno y teorema de aproximación . . . . . . 269

8.2.3 Imagen Euclídea asociada a una tabla de productos es-


calares . . . . . . . . . . . . . . . . . . . . . . . . . . 270

8.2.4 Construcción de una imagen Euclídea para la nube (O, Π) 271

8.2.5 Imagen Euclídea centrada . . . . . . . . . . . . . . . . 272

8.3 Statis: individuos fijos . . . . . . . . . . . . . . . . . . . . . . 272

8.3.1 La interestructura . . . . . . . . . . . . . . . . . . . . . 274

8.3.2 El compromiso . . . . . . . . . . . . . . . . . . . . . . 280

8.4 La intraestructura . . . . . . . . . . . . . . . . . . . . . . . . . 283

8.4.1 Individuo visto por todas las tablas (individuos promedio) 284

8.4.2 Imagen Euclídea para los individuos de las tablas Xk . . 285

8.5 Correlaciones de las variables con los ejes del compromiso . . . 287

8.6 Análisis evolutivo de una encuesta de opinión . . . . . . . . . . 291

8.6.1 Construcción de la tabla de datos . . . . . . . . . . . . . 292

8.6.2 Análisis de la interestructura . . . . . . . . . . . . . . . 292

8.6.3 Análisis de la intraestructura . . . . . . . . . . . . . . . 293

8.7 Statis Dual: las mismas variables en los m instantes . . . . . . . 297


xx

8.7.1 La interestructura . . . . . . . . . . . . . . . . . . . . . 298

8.8 El compromiso . . . . . . . . . . . . . . . . . . . . . . . . . . 302

8.9 Intraestructura . . . . . . . . . . . . . . . . . . . . . . . . . . . 304

8.9.1 Representación de las variables . . . . . . . . . . . . . 304

8.9.2 Relación entre la interestructura y las trayectorias de las


variables . . . . . . . . . . . . . . . . . . . . . . . . . 308

8.9.3 Representación de los individuos . . . . . . . . . . . . . 308

8.10 Aproximación óptima de matrices . . . . . . . . . . . . . . . . 308

8.11 Datos del Proyecto Angostura . . . . . . . . . . . . . . . . . . 310

Ejercicios . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 313

9 Nuevas Tendencias en Análisis Multivariado 321

9.1 Optimización y análisis de datos . . . . . . . . . . . . . . . . . 321

9.2 Análisis de datos simbólicos . . . . . . . . . . . . . . . . . . . 323

9.3 Minería de datos . . . . . . . . . . . . . . . . . . . . . . . . . 324

Bibliografía 327
Indice de Figuras

1.1 El coeficiente de correlación lineal muestra el tipo de relación


entre dos variables cuantitativas . . . . . . . . . . . . . . . . . 17

2.1 Caso de variables centradas: la norma es una varianza y la co-


rrelación es un coseno. . . . . . . . . . . . . . . . . . . . . . . 29

2.2 Tres situaciones típicas para la correlación entre dos variables


centradas xj y xk . . . . . . . . . . . . . . . . . . . . . . . . . . 29

2.3 La media como una proyección y la desviación estándar como


una medida del error, para variables no centradas. . . . . . . . . 30

2.4 El esquema de dualidad. . . . . . . . . . . . . . . . . . . . . . 34

3.1 Proyección de un punto–individuo sobre un subespacio y su com-


plemento ortogonal. . . . . . . . . . . . . . . . . . . . . . . . . 42

3.2 Primer plano principal para la tabla de notas escolares, generado


por las dos primeras componentes principales. . . . . . . . . . . 50

3.3 Círculo de correlaciones para la tabla de notas escolares gene-


rado por las dos primeras componentes principales. . . . . . . . 52

3.4 Proyección de dos puntos individuos en el plano principal. . . . 54

3.5 Descomposición del coseno cuadrado según el teorema de Pitá-


goras. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 56

3.6 Plano principal generado por las dos primeras componentes prin-
cipales del A.C.P. de los datos sin filtrado. . . . . . . . . . . . . 63

xxi
xxii

3.7 Círculo de correlaciones generado por las dos primeras compo-


nentes principales del A.C.P. de los datos sin filtrado. . . . . . . 64

3.8 Círculo de correlaciones generado por las dos primeras compo-


nentes principales del A.C.P. de los datos filtrados. . . . . . . . 66

3.9 Plano principal generado por las dos primeras componentes prin-
cipales del A.C.P. de los datos sin filtrado. . . . . . . . . . . . . 67

3.10 Fabes asturianas: plano principal y círculo de correlaciones 1-2. 75

3.11 Fabes asturianas: plano principal y círculo de correlaciones 1-3. 76

3.12 Fabes asturianas: plano principal y círculo de correlaciones 1-4. 77

3.13 Círculo de correlaciones y proyección de las modalidades de


señalización como individuos suplementarios en el primer plano
principal para los datos del comedor del I.T.C.R. . . . . . . . . 82

3.14 Esquema de dualidad en el caso del A.C.P. general. . . . . . . . 88

4.1 Componentes de una tabla de contingencia. . . . . . . . . . . . 100

4.2 Componentes de una tabla de frecuencias. . . . . . . . . . . . . 101

4.3 Tabla de perfiles-fila. . . . . . . . . . . . . . . . . . . . . . . . 104

4.4 Tabla de perfiles-columna. . . . . . . . . . . . . . . . . . . . . 106

4.5 Primer plano factorial de los perfiles-fila de la Tabla 4.1. . . . . 112

4.6 Primer plano factorial de los perfiles-columna de la Tabla 4.1. . 113

4.7 Primer plano factorial: todos los perfiles de la Tabla 4.1. . . . . 114

4.8 Valores propios del A.F.C. de la Tabla 4.4. . . . . . . . . . . . . 121

4.9 Representación simultánea de los perfiles de la Tabla 4.4 en el


primer plano factorial (65.59% de inercia). . . . . . . . . . . . . 122

4.10 Representación simultánea de los perfiles de la Tabla 4.4 en el


plano factorial 1-3 (% Inercia 50.91). . . . . . . . . . . . . . . . 124

4.11 Plano principal del A.F.C. de epífitas y helechos (82.6% de inercia).126

4.12 Plano principal del A.F.C. de epífitas y niveles (74.82% de inercia).127


J. Trejos — W. Castillo — J. González xxiii

5.1 Primer plano factorial: perfiles de las modalidades de la Tabla


5.3, datos médicos (66.42% de inercia). . . . . . . . . . . . . . 150

5.2 A.C.M. de las diez variables de opinión: plano principal (25%


de inercia). . . . . . . . . . . . . . . . . . . . . . . . . . . . . 153

5.3 A.C.M. de los temas “empresa privada–libertad”: plano princi-


pal (49% de inercia explicada). . . . . . . . . . . . . . . . . . . 157

5.4 Trayectoria seguida por las modalidades de var8 y var9 en el


plano generado por los ejes 1 y 3 (43% de inercia). . . . . . . . 158

5.5 Gráfico de los valores propios del A.F.C. de la matriz de Burt


correspondiente a los datos de la Tabla 5.7. . . . . . . . . . . . 163

5.6 Primer plano factorial del A.F.C. de la Matriz de Burt corres-


pondiente a los datos de la Tabla 5.7: centros de las modalidades
(18.72% de inercia). . . . . . . . . . . . . . . . . . . . . . . . . 164

6.1 Agrupación natural de puntos del plano en 3 clases. . . . . . . . 191

6.2 Ejemplo de árbol jerárquico . . . . . . . . . . . . . . . . . . . . 192

6.3 Arbol de clasificación obtenido al usar la agregación del salto


mínimo en el Ejemplo 4. . . . . . . . . . . . . . . . . . . . . . 195

6.4 Arbol de clasificación obtenido al usar la agregación del salto


máximo en el Ejemplo 5. . . . . . . . . . . . . . . . . . . . . . 196

6.5 Arbol de clasificación obtenido al usar la agregación del salto


promedio en el Ejemplo 6. . . . . . . . . . . . . . . . . . . . . 197

6.6 Arbol de clasificación obtenido al usar la agregación del salto


promedio (Ejemplo 7). . . . . . . . . . . . . . . . . . . . . . . 199

6.7 Jerarquía obtenida sobre las formas fuertes con el método de


conexidad descendente. . . . . . . . . . . . . . . . . . . . . . . 214

6.8 Arbol de clasificación jerárquica de los instantes. . . . . . . . . 220

6.9 Arbol de clasificación para las variables de opinión. . . . . . . . 222

6.10 Arbol jerárquico de las variedades de fabes asturianas usando


cuatro criterios de agregación. . . . . . . . . . . . . . . . . . . 223
xxiv

6.11 Fabes asturianas: árbol jerárquico de las variables. . . . . . . . . 224

7.1 Plano principal de representación de los centros de los sitios de


banano. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 248

7.2 Plano principal de representación de los individuos, como suple-


mentarios, en el plano de los centros de los sitios de banano (con
b se representan los individuos del sitio bueno, con m los de sitio
medio y con p los de sitio pobre). . . . . . . . . . . . . . . . . . 250

7.3 Círculo de correlaciones entre las variables explicativas origi-


nales y las variables discriminantes. . . . . . . . . . . . . . . . 252

7.4 Representación suplementaria de los individuos en los ejes dis-


criminantes v1 , v2 . . . . . . . . . . . . . . . . . . . . . . . . . 256

7.5 Representación de los individuos como elementos suplementar-


ios en los ejes discriminantes v1 , v3 . . . . . . . . . . . . . . . . 257

7.6 Correlación entre variables y variables discriminantes z1 , z2 . . . 257

7.7 Correlación entre variables y variables discriminantes z1 , z3 . . . 258

8.1 Proyecto Angostura: interestructura. . . . . . . . . . . . . . . . 278

8.2 Proyecto Angostura: interestructura centrada. . . . . . . . . . . 279

8.3 Proyecto Angostura: Individuos promedio, ejes 1–2. . . . . . . . 285

8.4 Trayectorias de los meses. . . . . . . . . . . . . . . . . . . . . 287

8.5 Proyecto Angostura: correlaciones de las variables Mg, Ca, DBO,


ST, PO4 y Cal en el plano principal 1–2. . . . . . . . . . . . . . 288

8.6 Proyecto Angostura: concentración mensual. . . . . . . . . . . 290

8.7 Interestructura para la evolución de la opinión. . . . . . . . . . . 293

8.8 Correlación entre variables y los ejes del compromiso para la


evolución de la opinión. . . . . . . . . . . . . . . . . . . . . . . 293

8.9 Grupos sociales promedio: Escolaridad, Edad, Ingreso Familiar


y Provincia. . . . . . . . . . . . . . . . . . . . . . . . . . . . . 295
J. Trejos — W. Castillo — J. González xxv

8.10 Grupos sociales promedio: partidos políticos. . . . . . . . . . . 295

8.11 Trayectorias de los grupos de edad más opuestos. . . . . . . . . 296

8.12 Trayectorias de los escolaridad más opuestos. . . . . . . . . . . 296

8.13 Caña de azúcar: interestructura normalizada (94% de inercia). . 301

8.14 Caña de azúcar: interestructura centrada (79% de inercia). . . . 302

8.15 Caña de azúcar: variables activas (75% de inercia). . . . . . . . 305

8.16 Caña de azúcar: variables suplementarias. . . . . . . . . . . . . 307


xxvi
Indice de Tablas

1.1 Tabla de datos de las notas escolares con peso y estatura. . . . . 9

1.2 Parte de una tabla de datos proveniente de una encuesta. . . . . . 9

1.3 Tabla de contingencia que cruza el nivel de salario con el nivel


de estudios. . . . . . . . . . . . . . . . . . . . . . . . . . . . . 11

1.4 Tabla de Burt entre 4 de las variables acerca del servicio de


comedor del ITCR. . . . . . . . . . . . . . . . . . . . . . . . . 13

1.5 Tabla de datos con la distancia entre algunas ciudades. . . . . . 13

1.6 Tabla de datos: sociomatriz en que 10 estudiantes de sexto grado


califican la afinidad hacia cada uno de sus compañeros. . . . . . 14

3.1 Tabla de datos de las notas escolares. . . . . . . . . . . . . . . . 40

3.2 Correlaciones entre las materias de la tabla de notas escolares. . 47

3.3 Dos primeras componentes principales para la tabla de notas es-


colares. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 48

3.4 Cosenos cuadrados y calidad de la representación para la tabla


de notas escolares. . . . . . . . . . . . . . . . . . . . . . . . . 57

3.5 Tabla de datos para las fabes asturianas. . . . . . . . . . . . . . 70

3.6 Principales estadísticas univariadas para las fabes asturianas. . . 70

3.7 Matriz de correlaciones para las fabes asturianas. . . . . . . . . 71

xxvii
xxviii

3.8 Valores propios y porcentajes de inercia para la tabla de las fabes


asturianas. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 72

3.9 Fabes asturianas: cuatro primeras componentes principales. . . . 72

3.10 Fabes asturianas: correlaciones principales (con negrita se han


destacado los valores mayores para cada componente principal). 73

3.11 Fabes asturianas: comunalidades. . . . . . . . . . . . . . . . . . 74

3.12 Frecuencias relativas de las categorías en el estudio de opinión


sobre el comedor del I.T.C.R. . . . . . . . . . . . . . . . . . . . 80

3.13 Comedor del I.T.C.R.: frecuencias de las variables de señalización. 81

3.14 Comedor del I.T.C.R.: valores propios del A.C.P. . . . . . . . . 81

3.15 Los datos de los peces de Amiard. . . . . . . . . . . . . . . . . 94

3.16 Datos sobre las causas de muerte en algunos países occidentales. 95

3.17 Datos sobre el consumo de proteínas en Europa en 1981. . . . . 96

3.18 Importaciones provenientes de México de los países de Cen-


troamérica, entre 1979 y 1988. . . . . . . . . . . . . . . . . . . 97

4.1 Cantidad de estudiantes matriculados en universidades estatales


según su procedencia, 1989. . . . . . . . . . . . . . . . . . . . 100

4.2 Perfiles-fila correspondientes a la Tabla 4.1. . . . . . . . . . . . 105

4.3 Perfiles-columna correspondientes a la Tabla 4.1. . . . . . . . . 106

4.4 Cantidad de gasolina regular comprada, por marca y tipo de ve-


hículo, entre agosto y noviembre de 1996. . . . . . . . . . . . . 120

4.5 Valores propios del A.F.C. de la Tabla 4.4. . . . . . . . . . . . . 121

4.6 Contribuciones absolutas y cosenos cuadrados de las marcas de


vehículos. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 123

4.7 Contribuciones absolutas y cosenos cuadrados de los tipos de


vehículos. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 123
J. Trejos — W. Castillo — J. González xxix

4.8 Número de epífitas por especie sobre 4 especies de helechos


(primera parte de la tabla) y en cinco niveles (segunda parte de
la tabla). . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 128

4.9 Respuestas según el sexo. . . . . . . . . . . . . . . . . . . . . . 132

4.10 Respuestas según la profesión. . . . . . . . . . . . . . . . . . . 133

4.11 Exportaciones no tradicionales de Costa Rica. . . . . . . . . . . 134

5.1 Tres variables cualitativas observadas en 10 individuos. . . . . . 138

5.2 Código disyuntivo completo de los datos de la Tabla 5.1. . . . . 139

5.3 Datos médicos de incontinencia: códigos de las modalidades de


las variables. . . . . . . . . . . . . . . . . . . . . . . . . . . . . 149

5.4 Valores propios del A.C.M. de la Tabla 5.3, datos médicos. . . . 150

5.5 Frecuencias para las variables socioeconómicas. . . . . . . . . . 154

5.6 Frecuencias de las variables de opinión. . . . . . . . . . . . . . 155

5.7 Cantidad de profesores de la Universidad de Costa Rica dis-


tribuidos por AÑO-SEXO, AÑO-CRA y SEXO-CRA. . . . . . 163

5.8 Primeros 4 valores propios del A.F.C. de la matriz de Burt co-


rrespondiente a los datos de la Tabla 5.7 . . . . . . . . . . . . . 164

5.9 Tabla de datos de las razas de perros. . . . . . . . . . . . . . . . 175

6.1 Resultados de 25 corridas del método de k-medias sobre la tabla


de las notas escolares. . . . . . . . . . . . . . . . . . . . . . . . 207

6.2 Clasificación de las estaciones de observación, usando el método


de Ward. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 218

6.3 Clasificación de los instantes de observación, usando el método


de Ward. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 219

7.1 Extracto de una tabla de las fincas bananeras con las variables
que describen la productividad. . . . . . . . . . . . . . . . . . . 237

7.2 Tabla de datos centrados de las fincas bananeras (extracto). . . . 240


xxx

7.3 Variables discriminantes del análisis discriminante de los sitios


de banano. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 246

7.4 Correlaciones entre las variables explicativas originales y las va-


riables discriminantes. . . . . . . . . . . . . . . . . . . . . . . 251

7.5 Tabla de datos del embalse La Garita. . . . . . . . . . . . . . . 254

7.6 Matriz Ctg de los centros de gravedad. . . . . . . . . . . . . . . 255

7.7 Vectores propios de la matriz VB V−1 . . . . . . . . . . . . . . . 255

7.8 Valores propios de la matriz VB V−1 . . . . . . . . . . . . . . . 256

7.9 Cosenos cuadrados de los centros de gravedad con las funciones


discriminantes. . . . . . . . . . . . . . . . . . . . . . . . . . . 256

7.10 Tabla de reses charolais y cebú. . . . . . . . . . . . . . . . . . . 265

8.1 Proyecto Angostura: matriz S de coeficientes RV . . . . . . . . 277

8.2 Proyecto Angostura: valores propios de la interestructura. . . . . 278

8.3 Proyecto Angostura: calidad de la representación de la interes-


tructura. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 279

8.4 Proyecto Angostura: valores propios de la interestructura centrada.280

8.5 Proyecto Angostura: calidad de la interestructura centrada. . . . 280

8.6 Proyecto Angostura: valores propios de WD. . . . . . . . . . . 285

8.7 Caña de azúcar: calidad de la representación plana. . . . . . . . 301

8.8 Caña de azúcar: pesos del compromiso. . . . . . . . . . . . . . 304

8.9 Proyecto Angostura: Reventazón 1 y Reventazón 3. . . . . . . . 311

8.10 Proyecto Angostura: Tuís 4, Tuís 5 y Turrialba2. . . . . . . . . . 312

8.11 Proyecto Hidroeléctrico Ventanas–Garita: Verano. . . . . . . . . 316

8.12 Proyecto hidroeléctrico Ventanas–Garita: Verano–Invierno. . . . 317

8.13 Proyecto hidroeléctrico Ventanas–Garita: Invierno. . . . . . . . 318

8.14 Proyecto hidroeléctrico Ventanas–Garita: Invierno–Verano. . . . 319


ccxxxvi
Capítulo 7

Análisis Discriminante
Descriptivo

7.1 Introducción

Se designa con el nombre de Análisis Discriminante a una familia de técnicas


utilizadas para describir y clasificar individuos caracterizados por ciertas varia-
bles, más precisamente se trata de ‘explicar’ una variable cualitativa con r mo-
dalidades con base en p variables cuantitativas llamadas variables explicativas
o predictores. Cada individuo asume una sola modalidad, definiéndose así una
partición del conjunto de individuos en r clases denominadas grupos a priori, o
simplemente grupos.

Se distinguen dos objetivos fundamentales que pueden ser complementarios:

1. Descriptivo: determinar cuales son las combinaciones lineales de las p va-


riables observadas que permiten diferenciar lo mejor posible (discriminar)
los r grupos. Este objetivo es de carácter descriptivo y se relaciona con
el Análisis en Componentes Principales. Es natural entonces que se dé la
mayor importancia a la construcción de representaciones bidimensionales
de los individuos, de las variables y de los grupos a priori.

2. Decisional: construir reglas de clasificación —reglas decisionales— para


asignar un nuevo individuo, del cual se conocen los valores de los predic-
tores, a uno de los grupos a priori. Este objetivo es de carácter

235
236 7.2 Los datos y notaciones

decisional y su nexo es con los métodos probabilísticos. Esencial a este


énfasis es la construcción de reglas de decisión y los procedimientos para
su evaluación.

Los ejemplos más clásicos de análisis discriminante pertenecen al dominio


médico. Suponiendo que se ha logrado un diagnóstico fundamentado en una se-
rie de análisis y exámenes realizados sobre un conjunto de pacientes, se pretende
realizar un diagnóstico sobre un nuevo paciente al cual se le han practicado los
mismos exámenes y análisis. El análisis discriminante intentará, a partir de esta
información y de sus interrelaciones, prever el diagnóstico más probable.

Este capítulo trata el Análisis Discriminante solo en relación con el primer


objetivo. Es decir, desde un punto de vista descriptivo, por eso se llama Análisis
Discriminante Descriptivo.

7.2 Los datos y notaciones

Se consideran p variables continuas (variables explicativas) x1 , . . . , xp obser-


vadas en una muestra Ω de n individuos. Cada individuo i ∈ E se identifica
con su vector (fila) de mediciones en Rp , xti = (xi1 , . . . , xip ) y cada variable
xj con su vector (columna) de valores asumidos xj = (x1j , x2j , . . . , xnj )t . La
variable cualitativa y (a explicar) determina una partición P = {C1 , . . . , Cr },
del conjunto de individuos Ω en r grupos.

Se denota como:

• X la matriz de tamaño n × p la cual se supone centrada en sus columnas.


Como es usual sus columnas son las variables explicativas xj (previamente
centradas) y los individuos xti son sus filas.

• D=diag(pi ) es la matriz de pesos del conjunto de individuos Ω.

• A cada clase Cs se le asigna el peso qs y centro de gravedad gs para


s = 1, . . . , r donde
X 1 X
qs = pi y gs = pi xi .
qs
i∈Cs i∈Cs

Se escribe Dq = diag(qj ) la matriz diagonal de los pesos de las r clases


J. T REJOS — W. C ASTILLO — J. G ONZÁLEZ 237

• Además, se denota como Cg la matriz cuyas filas son los centros de gra-
vedad gst .

Ejemplo 1 En un estudio sobre la calidad y salud de suelos bananeros en la


Cuenca del Caribe, se estudiaron varias variables físicas, químicas y biológicas
que caracterizan la producción de los cultivos. En particular, también se estudió
la productividad de las fincas a través de tres variables cuantitativas:

• Circunferencia de la madre (CircMadr): se llama madre a una palmera


de banano adulta, que produce un racimo próximo a la recolección; la
circunferencia de la mata es medida a un metro de altura del suelo, en
centímetros.

• Altura del hijo (AltHijo): al lado de una madre nacen varios hijos, pero
solo uno se deja para la próxima cosecha, aquél que tiene mayor robustez
al momento de hacer la inspección; a éste se le llama el hijo y se mide su
altura del suelo en centímetros.

• Número de manos (#Manos): es el número de grupos de frutas, llamadas


manos, que tiene el racimo; es un número entero, generalmente menor o
igual a 10.

Como parte del estudio mencionado, se hicieron mediciones en más de 40


fincas de 4 países latinoamericanos. Por ejemplo, en la tabla 7.1 se presenta una
muestra extraída de una de las tablas creadas para el estudio, correspondiente
a una de las fincas en Costa Rica (la tabla tiene realmente 220 objetos, pero por
razones didácticas utilizamos una muestra de 36 plantas de banano). Los sitios
de donde se toman los valores han sido clasificados a priori por el finquero, con
base en su experiencia, como buenos, medios y pobres, según la productividad
histórica.

Se quiere hacer un análisis discriminante para determinar si la clasificación


a priori dada por el finquero con base en su experiencia, es válida y puede servir
de base para un estudio posterior que usará todas las variables físicas, químicas
y biológicas, así como esa separación en clases para realizar los contrastes entre
los tipos de suelos.

Las clases están definidas por:

• C1 = {3, 10, 17, 22, 40, 44, 47, 49, 58, 63, 71, 75}.
238 7.2 Los datos y notaciones

Objeto CircMadr AltHijo #manos Sitio


3 101 210 9 bueno
10 93 245 9 bueno
17 83 225 8 bueno
22 94 245 8 bueno
40 84 260 9 bueno
44 92 247 9 bueno
47 86 187 8 bueno
49 82 214 9 bueno
58 84 240 9 bueno
63 90 205 9 bueno
71 94 233 9 bueno
75 92 237 10 bueno
81 78 195 8 medio
84 71 196 8 medio
96 81 203 8 medio
104 86 126 6 medio
121 81 173 7 medio
131 63 180 6 medio
136 83 232 7 medio
142 82 230 7 medio
148 83 205 7 medio
153 82 190 7 medio
155 75 220 7 medio
157 85 180 8 medio
158 82 270 8 medio
170 54 120 5 pobre
172 59 280 4 pobre
177 65 167 6 pobre
189 62 122 5 pobre
193 62 146 6 pobre
195 60 165 5 pobre
202 65 140 6 pobre
209 64 175 4 pobre
210 63 135 5 pobre
211 59 125 5 pobre
216 59 180 6 pobre

Tabla 7.1: Extracto de una tabla de las fincas bananeras con las variables que describen
la productividad.
J. T REJOS — W. C ASTILLO — J. G ONZÁLEZ 239

• C2 = {81, 84, 96, 104, 121, 131, 136, 142, 148, 153, 155, 157, 158}.
• C3 = {170, 172, 177, 189, 193, 195, 202, 209, 210, 211, 216}.

El centro de gravedad total de la nube de puntos, es decir, el vector de


medias, es
g = (77.19, 197.31, 7.14)
mientras que los centros de gravedad de las clases son
g1 = (89.58, 229.00, 8.83),
g2 = (79.38, 200.00, 7.23),
g3 = (61.09, 159.55 5.18).

Finalmente, se tiene D = diag(1/36) y los pesos de las clases son


q1 = 12/36 = 0.33, q2 = 13/36 = 0.36, q3 = 11/36 = 0.31.

Como se supone que las variables son centradas entonces el centro de grave-
dad del conjunto de todos los individuos Ω es g = 0 y la matriz de covarianza
(total) V, de las p variables calculadas sobre Ω es
X n r X
X
t t
V = X DX = pi xi xi = pi xi xi t .
i=1 s=1 i∈Cs

Sea Vs la matriz de covarianza de las p variables, calculada sobre los indivi-


duos de la s-ésima clase,
1 X
Vs = pi (xi − gs )(xi − gs )t .
qs
i∈Cs

El promedio de estas matrices se define como la matriz de covarianza de


todas las clases y se denomina matriz de covarianza intraclase y se denota como
VW ,
Xr r X
X
VW = q s Vs = pi (xi − gs )(xi − gs )t .
s=1 s=1 i∈Cs

Finalmente la matriz VB de covarianza correspondiente a las p variables


calculadas sobre los centros de gravedad, se denomina matriz de covarianza in-
terclase, la cual es igual a,
X r
VB = qs gs gst = Ctg Dq Cg .
s=1
240 7.2 Los datos y notaciones

Ejemplo 2 Para los datos del ejemplo 1, la tabla de datos centrada tiene la
forma mostrada en la tabla 7.2.

Una vez centrados los datos se tiene g = (0, 0, 0) y

g1 = (12.39, 31.69 1.69),


g2 = (2.19, 2.69, 0.09),
g3 = (−16.10, −37.76, −1.96).

Por su parte, se tienen las siguientes matrices de varianzas–covarianzas:


 
158.93 318.83 17.36
V =  318.83 1882.32 41.54 
17.36 41.54 2.56
 
132.13 317.86 17.14
VB =  317.86 1745.10 40.49  .
17.14 40.49 2.46
 
30.74 2.92 0.68
VW = 0.33 ×  2.92 411.67 3.17  +
0.68 3.17 0.31
 
37.47 0.69 0.76
+0.36 ×  0.69 1108.00 10.62  +
0.76 10.62 0.49
 
9.90 −3.96 0.53
+0.31 ×  −3.96 1871.52 −12.83 
0.53 −12.83 0.51
 
26.80 0.97 0.23
=  0.97 137.22 1.06  .
0.23 1.06 0.10

Nótese que la correlación entre la circunferencia del tallo (variable 2) y el


número de manos (variable 3) es muy alta, lo cual puede afectar los resulta-
dos.
J. T REJOS — W. C ASTILLO — J. G ONZÁLEZ 241

Objeto CircMadr AltHijo #manos


3 1.8882928 0.2925948 1.1622769
10 1.2537208 1.0993112 1.1622769
17 0.4605055 0.6383304 0.5377698
22 1.3330421 1.0993112 0.5377698
40 0.539827 1.4450468 1.1622769
44 1.1743991 1.1454093 1.1622769
47 0.69847 -0.2375332 0.5377698
49 0.381184 0.3847909 1.1622769
58 0.539827 0.984066 1.1622769
63 1.0157561 0.1773496 1.1622769
71 1.3330421 0.8227227 1.1622769
75 1.1743991 0.9149189 1.7867839
81 0.0638979 -0.0531409 0.5377698
84 -0.4913527 -0.0300918 0.5377698
96 0.3018624 0.1312515 0.5377698
104 0.69847 -1.6435246 -0.7112443
121 0.3018624 -0.5602198 -0.0867372
131 -1.1259249 -0.3988765 -0.7112443
136 0.4605055 0.7996737 -0.0867372
142 0.381184 0.7535756 -0.0867372
148 0.4605055 0.1773496 -0.0867372
153 0.381184 -0.1683861 -0.0867372
155 -0.1740667 0.5230852 -0.0867372
157 0.6191485 -0.3988765 0.5377698
158 0.381184 1.6755372 0.5377698
170 -1.8398186 -1.781819 -1.3357513
172 -1.443211 1.9060276 -1.9602584
177 -0.9672819 -0.698514 -0.7112443
189 -1.2052464 -1.7357209 -1.3357513
193 -1.2052464 -1.1825439 -0.7112443
195 -1.3638895 -0.7446121 -1.3357513
202 -0.9672819 -1.3208381 -0.7112443
209 -1.0466033 -0.5141217 -1.9602584
210 -1.1259249 -1.4360833 -1.3357513
211 -1.443211 -1.6665736 -1.3357513
216 -1.443211 -0.3988765 -0.7112443

Tabla 7.2: Tabla de datos centrados de las fincas bananeras (extracto).


242 7.2 Los datos y notaciones

El siguiente teorema muestra que la covarianza total se puede descomponer


en la suma de la covarianza intraclase más la covarianza interclase.

Teorema 7.1 Sean V, VB , VW las matrices de covarianza total, interclase e


intraclase, respectivamente, entonces

1. V = VB + VW .
Pr
2. s=1 qs gs = 0. Es decir rang (Cg ) ≤ r − 1.

3. rang (Cg ) = rang (VB ).

D EMOSTRACIÓN :
Para demostrar 1, se calcula primeramente
X X
pi (xi − gs )(xi − gs )t = (pi xi xti − pi gs xti − pi xi gst + pi gs gst )
i∈Cs i∈C
Xs X X
= pi xi xti − gs pi xti − pi xi gst +
i∈Cs X i∈Cs i∈Cs
gs gst pi
X i∈Cs
= pi xi xti − qs gs gst − qs gs gst + qs gs gst
i∈C
Xs
= pi xi xti − qs gs gst .
i∈Cs

Sustituyendo esta última expresión en VB + VW se tiene


r
X X
VB + V W = (qs gs gst + pi (xi − gs )(xi − gs )t )
s=1 i∈Cs
r
X X
= (qs gs gst + pi xi xti − qs gs gst )
s=1 i∈Cs
r X
X
= pi xi xi t
s=1 i∈Cs
= V.
Pr
La prueba de 2. sigue de sustituir el valor de gs en s=1 qs gs , en efecto
r
X r X
X n
X
qs gs = pi xi = pi xi = g = 0.
s=1 s=1 i∈Cs i=1
J. T REJOS — W. C ASTILLO — J. G ONZÁLEZ 243

Para demostrar 3., nótese que las matrices VB y Cg tienen el mismo núcleo1 y
por lo tanto el mismo rango; en efecto, sea x ∈ Rr , se tiene
VB x = 0 ⇒ xt Cg t Dq Cg x = 0 ⇒ (Cg x)t Dq Cg x = 0 ⇒ Cg x = 0.
Además
Cg x = 0 ⇒ VB x = 0.

En el ejemplo 2 puede comprobarse que, en efecto, se cumple


V = VB + VW sobre estos datos.

7.2.1 Caracterización de las funciones discriminantes

En el primer objetivo descriptivo se plantea la necesidad de encontrar funciones


que permitan separar lo mejor posible las r categorías. Desde este punto de vista
el problema que se propone resolver el análisis discriminante puede formularse
en los siguientes términos: entre todas las combinaciones lineales de las p varia-
bles, buscar aquellas que tienen una varianza interclase máxima (para resaltar las
diferencias entre las clases) y una varianza intraclase mínima (baja dispersión al
interior de las clases). Estas combinaciones lineales serán las llamadas funciones
discriminantes, se denotan como z1 , . . . , zm y se caracterizan más precisamente
como sigue:

1. Cada función discriminante z ∈ Rp es una combinación lineal de las p


variables originales. Esto es,
p
X
z= uj xj = Xu, con u ∈ Rp .
j=1

Como cada una de las p variables es centrada, z también lo es y su varianza


es
var (z) = (Xu)t Dp Xu = ut Xt Dp Xu = ut Vu.
De acuerdo con la parte 1 del teorema 7.1 se tiene que
var (z) = ut Vu = ut VW u + ut VB u. (7.1)
Esta última igualdad muestra que la varianza de la variable z se descom-
pone en varianza al interior de las clases (intra) y varianza entre las clases
(inter), por lo que para z = Xu se definen:
1
El núcleo de una matriz A es el conjunto de vectores x tales que Ax = 0.
244 7.2 Los datos y notaciones

• Varianza intraclase de z

intra(z) = ut VW u.

• Varianza interclase de z

inter(z) = ut VB u

2. Como la idea es definir m funciones discriminantes z1 , . . . , zm , es natural


plantear que ellas sean Dp −ortonormadas, es decir, no correlacionadas y
de varianza uno.

3. Los valores de cada variable zj en los individuos de un mismo grupo,


deben ser lo más próximos posible. Es decir, se debe minimizar intra(zj ),
la varianza intraclase.

4. Los valores de cada variable zj en los individuos pertenecientes a clases


distintas, deben ser lo más diferentes posible. Esto es, se debe maximizar
inter(zj ), la varianza interclase.

7.2.2 Cálculo de las funciones discriminantes

Si se pide que u cumpla con ut Vu = 1, entonces de acuerdo con la ecuación


(7.1)
var(z) = ut Vu = ut VB u + ut VW u = 1
se ve que las propiedades 3. y 4. de las funciones discriminantes son equiva-
lentes:
 
max ut VB u ut Vu = 1 ⇔ min ut VW u ut Vu = 1 .

Luego es suficiente que la función z = Xu satisfaga



max ut VB u ut Vu = 1 . (7.2)

Sea rang (X) = p, como

ut VB u = ut VV−1 VB u = hu, V−1 VB uiV

y la matriz V−1 VB es V-simétrica, se tiene que el máximo de (7.2) es λ1 y se


alcanza en u = u1 vector propio de la matriz V−1 VB asociado al primer valor
propio λ1 (ver el teorema de Rayleigh en la sección 7.4), página 259.
J. T REJOS — W. C ASTILLO — J. G ONZÁLEZ 245

La primera función discriminante es por lo tanto z1 = Xu1 . La segunda


función discriminante z2 = Xu2 se obtiene entre las que el vector u2 satisfa-
ce la relación (7.2) y además es V − ortogonal con u1 . Continuando de esta
manera se tiene que la k-ésima función discriminante zk = Xuk , está definida
por el vector uk el cual es solución del problema de máximo:

λk = utk VB uk
= max{ut VB u|ut Vu = 1, ut Vus = 0, s = 1, . . . , k − 1}. (7.3)

donde los u1 , . . . , uk−1 corresponden a las funciones discriminantes z1 , . . . , zk−1


previamente calculadas.

De acuerdo con la parte 1 del teorema de Rayleigh (ver la sección 7.4) uk


es vector propio de V−1 VB asociado al k-ésimo valor propio λk . Así λk es la
inercia interclases de la k−ésima variable discriminante. Nótese que λk ∈ [0, 1] .
Los resultados anteriores indican que el problema de encontrar las funciones
discriminantes se reduce al cálculo de los valores y vectores propios de la matriz
V−1 VB .

El siguiente teorema muestra que las variables zj también se pueden calcular


a partir de un A.C.P., lo cual permite obtener representaciones bidimensionales
de los individuos, de las clases (en planos principales) y de las variables (en
círculos de correlaciones), como se presentó en el capítulo 3 sobre el Análisis
en Componentes Principales. Estas representaciones ayudan a verificar si las
variables discriminan las clases a priori y si es posible describirlas en términos
de las variables originales.

Teorema 7.2 Sea X de rango p, es decir, V es invertible. Si v1 , . . . , vt son los


vectores propios del A.C.P. de la nube de centros de gravedad
Ng = (Cg , V−1 , Dq ), ortonormados según la métrica V−1 , con valores pro-
pios correspondientes λ1 > λ2 > . . . > λt , entonces las variables discrimi-
nantes son zj = XV−1 vj = Xuj , j = 1, . . . , t.

D EMOSTRACIÓN :
En este caso los vectores v1 , . . . , vt son vectores propios de la matriz
Cg t Dq Cg V−1 = VB V−1 , de donde sigue que para j = 1, . . . , t, uj = V−1 vj
es un vector propio de V−1 VB con valor propio correspondiente λj . Además,
los vectores propios u1 , . . . , ut son V–ortonormados. Se tiene entonces que las
componentes principales zj = Xuj = XV−1 vj , j = 1, . . . , t, son las funciones
discriminantes.
246 7.2 Los datos y notaciones

Cada valor propio λi se llama poder discriminante y el vector propio corres-


pondiente vi , eje discriminante. Los ejes discriminantes son entonces los ejes de
máxima inercia de la nube de centros de gravedad (baricentros). En este sentido
se dice que son los ejes que más discriminan los grupos a priori.

Ejemplo 3 Dando continuación al ejemplo 2, se tiene


 
0.02 0.00 −0.16
V−1 =  0.00 0.00 −0.01  .
−0.16 −0.01 1.58

Al diagonalizar VB V−1 se obtienen los valores propiosλ1 = 0.89 y λ2 =


0.03, que explican respectivamente 97% y 3% de la inercia de la nube de cen-
tros Ng . Los vectores propios respectivos son: v1 = (−0.65, −0.08, 0.76)t ,
v2 = (0.50, −0.80, 0.35)t . Las variables discriminantes se muestran en la
tabla 7.3.
J. T REJOS — W. C ASTILLO — J. G ONZÁLEZ 247

Objeto Comp.1 Comp.2


3 -1.593 -8.632
10 -1.355 -0.890
17 -0.580 1.035
22 -1.082 -8.730
40 -1.025 7.505
44 -1.319 0.047
47 -0.605 -2.191
49 -0.825 8.732
58 -0.973 7.246
63 -1.129 1.326
71 -1.365 -1.956
75 -1.607 6.846
81 -0.298 5.202
84 -0.013 11.594
96 -0.441 2.572
104 0.181 -16.837
121 -0.050 -4.744
131 0.984 4.819
136 -0.284 -5.803
142 -0.237 -4.918
148 -0.214 -6.153
153 -0.134 -5.436
155 0.075 1.331
157 -0.546 -1.370
158 -0.655 2.528
170 1.821 5.315
172 1.519 -4.099
177 0.935 2.828
189 1.488 -1.949
193 1.112 5.290
195 1.460 0.430
202 1.005 2.479
209 1.584 -10.014
210 1.414 -2.692
211 1.604 0.824
216 1.148 8.464

Tabla 7.3: Variables discriminantes del análisis discriminante de los sitios de banano.
248 7.2 Los datos y notaciones

El teorema 7.3, cuya prueba se deja como ejercicio, tiene un interés práctico
en la implementación computacional del Análisis Discriminante Descriptivo. Se
sabe que el proceso de diagonalización de una matriz representa un esfuerzo
computacional significativo. Para lograr más eficiencia en ese proceso se debe
procurar diagonalizar siempre una matriz simétrica del menor tamaño posible,
aún cuando posteriormente se deban hacer ciertas transformaciones. El teorema
7.3 garantiza que esto siempre es posible ya que así es suficiente diagonalizar
una matriz r × r lo cual es ventajoso si r < p.

1
Teorema 7.3 Sea C = Cg t Dq 2 , p × r. Entonces

1. VB = CCt .
2. Si e1 , . . . , et son vectores propios Ir -ortonormados de Ct V−1 C, asocia-
dos respectivamente a los valores propios no ceros, λ1 , . . . , λt . Entonces
v1 , . . . , vt son vectores propios V−1 -ortonormados de VB V−1 asocia-
Ce
dos a los mismos valores propios λj , donde vj = √ j .
λj

7.2.3 Representaciones en Análisis Discriminante


Descriptivo

A partir de los resultados obtenidos con el teorema 7.2, se pueden construir las
siguientes representaciones bidimensionales para el caso de más de dos grupos
a priori, es decir, r > 2.

Representación de los grupos a priori

Se ha visto que el Análisis Discriminante Descriptivo se puede interpretar como


la búsqueda de los ejes (en Rp ) más discriminantes de los grupos a priori, en el
sentido de maximización de la inercia interclases.
 Estos ejes son los vectores
propios del A.C.P. de Ng = Cg , V−1 , Dq (ver teorema 7.2), lo que permite al
mismo tiempo calcular las funciones discriminantes. Para obtener las representa-
ciones bidimensionales de los centros de gravedad de los grupos, se proyectan
éstos, V−1 − ortogonalmente sobre los planos principales del A.C.P.

De lo anterior sigue que la coordenada del centro de gravedad gs del grupo


Cs , sobre el eje j− ésimo es: coordj (gs ) = gst V−1 vj . Se puede entonces hacer
una representación gráfica de los centros de gravedad en un plano principal.
J. T REJOS — W. C ASTILLO — J. G ONZÁLEZ 249

Ejemplo 4 El plano principal de representación de los centros de los 3 grupos o


sitios de banano se muestra en la figura 7.1. Puede verse una buena separación
entre los centros, bien alejados entre sí

Eje 2
6

1-BUENO 3-POBRE
 ? ? -
Eje 1
2-MEDIO ?

Figura 7.1: Plano principal de representación de los centros de los sitios de banano.

Representación de las variables como son definidas por los


grupos a priori

Las columnas de la matriz Cg , de dimensión r (el número de grupos), repre-


sentan las variables tal como son descritas por los grupos a priori ya que cada
columna yj de Cg es el vector (g1j , . . . , grj ), donde gsj es el promedio de la
variable explicativa xj en el grupo Cs . Se les llamará variables promedio.

Por las fórmulas de dualidad del A.C.P. (ver sección 3.9, página 83) se sabe
que las columnas de la matriz (v1 . . . vt ) D√λ son las coordenadas de las colum-
 √
nas yj de Cg . Es decir, coords yj = λs vjs para j = 1, . . . , p y s = 1, . . . , t.
250 7.2 Los datos y notaciones

Superponiendo el gráfico de los grupos a priori y el de las variables prome-


dio, es posible analizar la influencia de las variables en la determinación de los
grupos a priori.

Representación de los individuos

Los individuos se proyectan en suplementario sobre los ejes discriminantes, es


decir, sobre los ejes principales del A.C.P. de la nube de centros
Ng = (Cg , V−1 , Dq ). Sea xi el i−ésimo individuo, su coordenada sobre el
j− ésimo eje es:
coordj (xi ) = xti V−1 vj .

Es claro que el vector de coordenadas de los individuos sobre el j−ésimo


eje es la función discriminante zj = Xuj .

Ejemplo 5 El plano principal de representación de los individuos, como puntos


suplementarios en el plano de los centros de los 3 grupos o sitios de banano, se
muestra en la figura 7.2. Se aprecia que, en general, los puntos de cada sitio
están agrupados entre sí y bien separados de los puntos de los otros sitios. Solo
hay tres excepciones para algunos puntos del sitio medio, que se mezclan con
los sitios vecinos.

Representación de las variables

Las variables explicativas originales se representan en el sistema Dp −ortonor-


mado determinado por las variables discriminantes. La coordenada de la
variable xj (columna j− ésima de X) sobre el eje s− ésimo es: coords xj =
(xj )t Dp zs = vjs . En efecto, como zs = XV−1 vs entonces el vector de
coordenadas de las variables en la dirección de la variable discriminante zs es,

Xt Dp zs = Xt Dp XV−1 vs = vs .

Si las variables son estandarizadas (varianza


 igual a 1) entonces la coordenada
está dada por la correlación coords xj = r xj , zs y las variables se pueden
representar como en el A.C.P. normado, en un círculo de correlaciones.
J. T REJOS — W. C ASTILLO — J. G ONZÁLEZ 251

Eje 2
6

b p
b bb
m mp p
m m pp
b? b m ?p p
 b -
b Eje 1
m ?
b b pp
p
m m
mmm

b b
p

m
?

Figura 7.2: Plano principal de representación de los individuos, como suplementarios,


en el plano de los centros de los sitios de banano (con b se representan los
individuos del sitio bueno, con m los de sitio medio y con p los de sitio
pobre).

Ejemplo 6 En el caso de los datos de banano que se han venido exponiendo, las
correlaciones entre las componentes principales y las variables originales, todas
con 36 dimensiones, se muestran en la tabla 7.4. El círculo de correlaciones
respectivo se presenta en la figura 7.3.

El caso de dos grupos a priori

Cuando solo hay dos grupos a priori, las representaciones se simplifican ya que el
rango de VB (y por tanto el de VB V−1 ) vale 1. En este caso, si q1 , q2 denotan
los pesos de cada grupo, g2 − g1 es un vector propio de VB V−1 asociado al
único valor propio q1 q2 kg2 − g1 kV−1 (ver ejercicio 4). En consecuencia, las
252 7.2 Los datos y notaciones

Variable Comp.1 Comp.2


CircMadre -0.961 -0.269
AltHijo -0.676 0.083
#Manos -0.961 0.258

Tabla 7.4: Correlaciones entre las variables explicativas originales y las variables dis-
criminantes.

representaciones tanto de los individuos, los centros de gravedad y las variables,


se hacen sobre una recta.

Indices de calidad

La calidad de la discriminación en un subespacio principal de dimensión q es el


porcentaje de inercia explicada:
Pq Pq
j=1 λj j=1 λj
100 × = 100 × Pt
Inercia Total j=1 λj

donde t es el número
 de valores propios positivos del A.C.P. de la nube
Ng = Cg , V−1 , Dq .

La calidad de la representación de los centros de gravedad de la clase l-ésima


y del i-ésimo individuo sobre el s-ésimo eje discriminante se mide por medio de
los cosenos cuadrados de la misma forma como se hace en A.C.P. Las fórmulas
para el cálculo de estos cosenos son:

• Centro de gravedad de la clase l:


t −1  2
kPrs (gl )k2V−1 g V vs vs −1 (glt V−1 vs )2
2 l V
cos (gl , s) = = = .
kgl k2V−1 glt V−1 gl glt V−1 gl

• Individuos:
t −1  2
kPrs (xi )k2V−1 x V vs vs −1 (xti V−1 vs )2
2 i V
cos (i, s) = = = .
kxi k2V−1 xti V −1 xi xti V−1 xi

donde Prs (gl ) denota la proyección del vector gl a lo largo del vector vs que
define el s-ésimo eje discriminante.
J. T REJOS — W. C ASTILLO — J. G ONZÁLEZ 253

Eje 2
6

• #manos
• AltHijo
 - Eje 1


CircMadr

Figura 7.3: Círculo de correlaciones entre las variables explicativas originales y las va-
riables discriminantes.

7.3 Ejemplo sobre el embalse La Garita

Los siguientes datos son tomados del análisis de la calidad del agua realizado
por el Instituto Costarricense de Electricidad (ICE) en el complejo hidroléctrico
Ventanas Garita.

La tabla de datos está conformada por las mediciones de 12 variables rela-


cionadas con la contaminación de los ríos y un índice de calidad obtenido con
algunas de ellas. Las mediciones son mensuales y se hicieron durante un año en
nueve puntos de muestreo, uno en cada río que llega al embalse (cinco en total),
tres en el embalse y una a la salida de éste.

Las variables están medidas en unidades de concentración, salvo la Calidad


que es un índice entre cero y cien y son las siguientes (entre paréntesis se coloca
el nombre abreviado de la variable): Nitratos (NIT), Fosfatos (FOS), Cali-
dad del agua (CAL), Sólidos totales (STT), potencial Hidrógeno (PH), Man-
ganeso (MN), Zinc (ZN), Sólidos Sedimentables (SS), Alcalinidad (ALC),
254 7.3 Ejemplo sobre el embalse La Garita

Cloro (CL), Caudal (CAU), Demanda Bioquímica de Oxígeno (DBO) y Por-


centaje de Saturación de Oxígeno (PSO).

Los 9 puntos de muestreo son (entre paréntesis se coloca el nombre abre-


viado del punto de muestreo): Presa (P), Alajuela (A), Ciruelas (C), Virilla (V)
y Quebrada Soto (Q), Embalse Orilla (EO), Embalse Centro (EC), Embalse
Salida (ES) y Desfogue (D). Los datos se pueden ver en la tabla 7.5.

El objetivo es utilizar el Análisis Factorial Discriminate para investigar la


relación entre la contaminación de los ríos y la estación del año, que en Costa
Rica son cuatro: Verano (V), transición Verano-Invierno (VI), Invierno (I) y tran-
sición Invierno-Verano (IV).

Para satisfacer este objetivo se organiza la información de la manera si-


guiente: X es la matriz de tamaño 36 × 13, donde cada fila es un sitio-estación
que corresponde al sitio de muestreo y la estación del año en que se realizó la
medición, de esta manera cada punto de muestreo aporta cuatro filas, por ejem-
plo para el Virilla son VV, VVI, VI, VIV (el nombre se forma con la etiqueta
del punto de muestreo seguida de la etiqueta de la estación). Las columnas están
formadas por el promedio de cada variable sobre los meses correspondientes a
cada estación.

Se asigna a todos los individuos (sitio-estación) el mismo peso, es decir


1
pi = 36 para i = 1, . . . 36. De esta manera los cuatro grupos V,VI,I,IV, tie-
nen el mismo peso qi = 41 y estan formados por:

Grupos Individuos
G1: V PV DV EOV ESV ECV AV CV QV VV
G2: VI PVI DVI EOVI ESVI ECVI AVI CVI QVI VVI
G3: I PI DI EOI ESI ECI AI CI QI VI
G4: IV PIV DIV EOIV ESIV ECIV AIV CIV QIV VIV

La matriz Ctg cuyas columnas son los centros de gravedad calculados de la


matriz X centrada y reducida, se muestra en la Tabla 7.6.

La matriz de covarianza de los centros de gravedad es VB = 14 Ctg Cg y la


matriz de Covarianza de las variables definidas por la tabla X es, en este caso, la
matriz de correlaciones. Los vectores y valores propios (positivos) de la matriz
de rango 3, VB V−1 se muestran respectivamente en las tablas 7.7 y 7.8.
J. T REJOS — W. C ASTILLO — J. G ONZÁLEZ 255

Sitio/
NIT FOS CAL STT PH MN ZN SS ALC CL CAU DBO PSO
Estación
PV 1.44 0.78 58.25 126.75 7.29 0.21 0.02 0.66 120.50 3.92 17.85 25.00 53.25
PVI 2.70 1.13 62.50 195.00 7.50 0.20 0.02 1.15 104.50 4.10 28.20 90.70 77.00
PI 3.89 0.35 79.25 176.50 7.41 0.37 0.28 0.62 80.25 3.35 53.27 3.77 89.75
PIV 1.87 0.48 68.00 171.00 7.50 0.18 0.66 0.75 97.50 3.05 46.75 26.60 72.50

AV 2.36 0.43 69.00 156.50 8.41 0.06 0.03 0.20 150.75 7.85 0.45 16.70 87.25
AVI 1.88 0.96 68.50 230.00 8.10 0.16 0.16 0.95 116.50 17.70 0.90 46.35 84.00
AI 2.13 0.24 80.25 176.25 7.74 0.25 0.07 0.62 104.75 5.90 1.64 4.47 86.00
AIV 1.06 0.46 73.00 180.50 8.05 0.12 0.25 0.45 135.00 10.55 1.21 8.90 79.00

EOV 0.83 0.63 53.25 169.00 7.70 0.18 0.26 0.70 136.75 3.60 12.00 22.17 76.50
EOVI 2.31 1.20 60.50 224.50 7.27 0.16 0.06 0.95 97.00 4.10 12.00 24.25 61.00
EOI 3.96 0.27 81.25 160.50 7.17 0.36 0.05 0.32 158.00 3.25 20.00 1.32 82.00
EOIV 1.37 0.36 66.50 158.00 7.30 0.14 0.21 0.85 99.50 2.60 20.00 6.60 49.50

ECV 1.06 0.69 55.50 177.25 7.21 0.18 0.02 0.72 127.75 3.70 12.00 13.55 58.25
ECVI 2.57 1.21 58.50 288.00 7.25 0.41 0.05 0.65 95.00 4.25 12.00 22.45 57.00
ECI 3.86 0.27 81.50 168.00 7.16 0.17 0.48 0.46 78.75 3.35 20.00 1.35 81.75
ECIV 1.11 0.45 60.50 157.50 7.25 0.16 0.07 1.00 99.50 2.75 20.00 9.65 41.50

ESV 0.91 0.66 59.00 160.25 7.25 0.18 0.03 0.49 125.75 3.37 12.00 14.02 43.25
ESVI 2.52 1.10 61.50 217.00 7.35 0.21 0.10 0.85 98.00 4.25 12.00 21.65 64.00
ESI 4.14 0.25 82.75 152.25 7.26 0.20 0.09 0.37 79.50 3.35 20.00 1.45 84.50
ESIV 1.05 0.37 64.50 156.50 7.30 0.14 0.16 0.45 101.50 2.75 20.00 8.10 47.00

QV 2.14 0.55 71.25 188.25 8.36 0.03 0.02 0.20 165.00 3.60 0.14 3.27 66.50
QVI 2.42 1.58 68.50 209.00 8.20 0.04 0.03 0.35 153.00 4.55 0.35 20.10 85.50
QI 2.66 0.40 82.25 186.50 8.00 0.02 0.06 0.16 162.50 3.42 0.61 1.75 85.25
QIV 2.22 0.75 78.00 185.50 8.30 0.00 0.15 0.20 178.50 2.90 0.36 1.50 85.50

CV 3.60 0.52 72.25 184.75 8.44 0.03 0.01 0.42 149.50 8.12 1.37 4.77 88.25
CVI 3.73 1.39 63.50 232.50 8.05 0.12 0.04 0.75 128.50 9.30 3.04 46.00 70.00
CI 3.71 0.37 80.00 190.25 7.75 0.22 0.05 0.46 113.25 7.07 4.68 1.85 83.00
CIV 4.76 0.83 72.50 159.00 8.05 0.08 0.15 0.40 105.00 6.65 3.58 3.50 84.50

VV 7.64 1.19 58.50 335.50 8.05 0.28 0.06 1.85 182.25 12.90 16.67 21.50 83.50
VVI 5.72 1.91 57.00 404.00 8.05 0.31 0.07 1.75 153.50 12.85 17.25 116.9 86.50
VI 6.09 0.87 67.00 321.25 7.80 0.28 0.11 1.27 136.00 9.05 50.05 9.35 90.50
VIV 4.65 0.76 73.00 254.00 8.05 0.20 0.32 0.95 144.50 7.80 42.20 6.50 88.00

DV 0.88 0.70 61.00 172.25 7.31 0.19 0.02 0.55 129.00 3.75 19.90 11.07 48.50
DVI 2.32 0.90 64.00 227.50 7.40 0.26 0.16 0.95 101.00 4.10 37.10 54.15 68.50
DI 4.08 0.27 81.25 169.00 7.32 0.17 0.04 0.70 85.75 3.27 59.75 1.92 84.50
DIV 1.05 0.32 67.00 134.00 7.30 0.17 0.03 0.70 103.50 2.90 62.25 8.10 51.00

Tabla 7.5: Tabla de datos del embalse La Garita.


256 7.3 Ejemplo sobre el embalse La Garita

Variable G1 G2 G3 G4
FOS -0.30 0.07 0.64 -0.42
NIT -0.07 1.36 -0.85 -0.44
CAL -0.73 -0.65 1.28 0.10
STT -0.23 0.84 -0.17 -0.45
PH 0.28 0.05 -0.37 0.03
MN -0.31 0.30 0.50 -0.49
ZN -0.51 -0.33 0.10 0.73
SS -0.12 0.62 -0.36 -0.13
ALC 0.74 -0.21 -0.39 -0.14
CL 0.03 0.49 -0.26 -0.26
CAU -0.46 -0.27 0.40 0.32
DBO -0.17 1.23 -0.65 -0.41
PSO -0.37 -0.02 0.81 -0.42

Tabla 7.6: Matriz Ctg de los centros de gravedad.

Vector propio
v1 v2 v3
1 −0.36 −0.18 0.20
2 0.56 −0.68 0.13
3 −0.84 0.09 −0.18
4 0.13 −0.50 0.15
5 0.23 0.05 0.04
6 −0.27 −0.29 0.21
7 −0.17 0.12 −0.59
8 0.22 −0.32 0.00
9 0.30 0.26 0.30
10 0.18 −0.24 0.12
11 −0.30 0.04 −0.30
12 0.42 −0.64 0.10
13 −0.47 −0.16 0.19

Tabla 7.7: Vectores propios de la matriz VB V−1 .


J. T REJOS — W. C ASTILLO — J. G ONZÁLEZ 257

Valor propio Inercia % explicado % acumulado


λ1 0.8834 38.65% 38,65%
λ2 0.8705 38.08% 76.73%
λ3 0.5320 23.27% 100.00%

Tabla 7.8: Valores propios de la matriz VB V−1 .

Eje 2
6

AV-1
• •
• • EOV-1
• VV-1 QV-1
CV-1
DIV-4 ECIV-4 ?
• G−1

• • ESIV-4
• EOIV-4 • • ESV-1
EOI-3 ? PIV-4 •
• •
VIV-4
G−4 ECV-1 PV-1
• • • •
QI-3 QIV-4 AIV-4• DV-1
 G?−3


VI-3
CIV-4
-

CI-3 Eje 1
• ECI-3 •
•DI-3 P -3

ESI-3 AI-3

DVI-2
• • •
ESVI-2 CVI-2
• AVI-2
EOVI-2• ?
• G−2
• PVI-2
ECVI-2 •
QVI-2


VVI-2

Figura 7.4: Representación suplementaria de los individuos en los ejes discriminantes


v1 , v2 .

cos2 (gl , 1) cos2 (gl , 2) cos2 (gl , 3) Total


G–1 0.241 0.332 0.427 1
G–2 0.128 0.870 0.002 1
G–3 0.949 0.000 0.051 1
G–4 0.016 0.131 0.853 1

Tabla 7.9: Cosenos cuadrados de los centros de gravedad con las funciones discrimi-
nantes.
258 7.3 Ejemplo sobre el embalse La Garita

Eje 3
6

PIV-4


EOIV-4

VIV-4 DIV-4

? •
G-4 ECIV-4

ECI-3 QIV-4 • AIV-4


PI-3 •ESIV-4
• •
AVI-2 QV-1• •

DVI-2 • QVI-2 CVI-2
 •
DI -3 • EOVI-2
CIV-4•• ? -Eje 1
AI-3 •
ESVI-2 G-2 DV-1
? • •ESV-1
G-3 • QI-3 PVI-2 •
CI -3 •VVI-2 •PV-1
• • ECVI-2 • ?
ESI-3 VI-3 • VV-1 G-1
CV-1

• • •
EOI-3 AV-1
• EOV-1
ECV-1

Figura 7.5: Representación de los individuos como elementos suplementarios en los


ejes discriminantes v1 , v3 .

6
Eje 2


ALC

• ZN
CAL
 •
CAU

PH -Eje 1
• •
PSO NIT

• CL
MN •
SS


STT


DBO •
FOS

?
Figura 7.6: Correlación entre variables y variables discriminantes z1 , z2 .
J. T REJOS — W. C ASTILLO — J. G ONZÁLEZ 259

6
Eje 3


ZN


CAU


CAL

 •
SS
-Eje 1

PH

• DBO •
NIT • CL FOS
• • • STT
PSO
MN

ALC

?
Figura 7.7: Correlación entre variables y variables discriminantes z1 , z3 .

De la observación de los gráficos de planos y círculos, además de las tablas


de vectores propios y cosenos cuadrados, se puede decir lo siguiente:

• El primer eje discriminante separa el grupo 3 (Invierno) de los restantes.


El segundo eje separa el grupo 2 (fin del Verano ) y el tercer eje opone el
grupo 1 (Verano) al grupo 4 (fin del Invierno).

• La variable discriminante z1 está determinada por una mayor contribución


(mayor peso absoluto en la combinación lineal) de las variables Caudal,
Porcentaje de saturación de oxígeno, Alcalinidad y pH, todas ellas de im-
portancia en la calidad del agua. El grupo 3 corresponde a la época llu-
viosa, con los mayores caudales, mejor oxigenación del agua. y por ende
un mayor índice de calidad. La variable z 2 , definida fundamentalmente
por las variables STT, SS, DBO y FOS, indicadores de la presencia de
sólidos, minerales y contaminación con desechos órganicos contribuye a
la separación del grupo 2, época del fin del verano, caracterizada por el
bajo caudal, alta DBO y gran presencia de sólidos, todo lo cual contribuye
a un bajo índice de calidad del agua. La variable discriminante z 3 definida
en mayor grado por las variables ZN, ALC y Caudal, separa el grupo 4 (fin
del Invierno) del grupo 1 (inicio del Verano). El grupo 4 tiene una mayor
260 7.4 Cociente de Rayleigh

presencia de Zinc que el grupo 1.

No se ha puesto el gráfico de las variables definidas sobre los cuatro grupos,


por el hecho que en este ejemplo, el valor propio λ1 es aproximadamente igual a
λ2 , por lo que la representación en el círculo de correlaciones es similar al de las
variables definidas sobre el total de individuos (ver la Tabla 7.8 y la Figura 7.6).

7.4 Cociente de Rayleigh

Sea M una métrica sobre el espacio Rn y sea A un operador M-simétrico, es de-


cir, tal que el producto interno definido por M cumple hAx, yiM = hx, AyiM =
xt At My, para todo par de vectores x, y ∈ Rn (o, lo que es equivalente matri-
cialmente, cumple que (MA)t = MA). Si x ∈ Rn , x 6= 0, la expresión

hAx, xiM
R(x) =
kxk2M

se denomina cociente de Rayleigh y tiene, entre otras, las propiedades que se


enuncian en los dos teoremas que siguen.

Teorema 7.4 (Teorema de Rayleigh) Sean A un operador M−simétrico sobre


Rn , x ∈ Rn , x 6= 0, B = {u1 , . . . , un } la base de Rn de vectores propios
de A, M–ortonormados, asociados a los valores propios ordenados en orden
decreciente λ1 ≥ λ2 ≥ . . . ≥ λn .

Si Ek = Cl{u1 , . . . , uk } denota el subespacio de Rn generado por los vec-


tores propios correspondientes a los k primeros valores propios y E⊥ k denota el
complemento M-ortogonal de Ek , entonces

1. λk = maxx∈E ⊥ R(x) = minx∈Ek R(x) con x 6= 0, k = 2, . . . , n − 1.


k−1

2. λ1 = maxx∈Rn R(x) y λn = minx∈Rn R(x), con x 6= 0.


J. T REJOS — W. C ASTILLO — J. G ONZÁLEZ 261

D EMOSTRACIÓN :
Expresando x ∈ Rn en términos de la base B se tiene:
n
X
x = hx, uj iM uj ;
j=1
n
X
A(x) = hx, ui iM A(ui )
i=1
n
X
= λi hx, ui iM ui .
i=1

Luego
n
X n
X
hAx, xiM = h λi hx, ui iM ui , hx, uj iM uj iM
i=1 j=1
n X
X n
= λi hx, ui iM hx, uj iM hui , uj iM
i=1 j=1
n
X
= λi hx, ui i2M (por ortonormalidad de B).
i=1

Si x ∈ Ek−1 se tiene que hx, ui iM = 0 por i = 1, . . . , k − 1. Además como
para k ≤ i se tiene que λk ≥ λi se sigue que:
n
X n
X
hAx, xiM = λi hx, ui i2M = λi hx, ui i2M
i=1 i=k
n
X
≤ λk hx, ui i2M ≤ λk kxk2M .
i=k

Por otra parte si x ∈ Ek se tiene hx, ui iM = 0 para i = k + 1, . . . , n


n
X k
X
2
hAx, xiM = λi hx, ui iM = λi hx, ui i2M
i=1 i=1
k
X
≥ λk hx, ui i2M = λk kxk2M .
i=1

⊥ , u ∈ E , se tiene que:
Como R(uk ) = λk y uk ∈ Ek−1 k k

maxx∈E ⊥ R(x) = λk
k−1
minx∈Ek R(x) = λk
262 7.4 Cociente de Rayleigh

si x ∈ E se tiene que:

λn kxk2M ≤ hAx, xiM ≤ λ1 kxk2M

Luego:
λn ≤ R(x) ≤ λ1 .

Teorema 7.5 Sea A un operador M–simétrico sobre Rn , B = {u1 , . . . , un }


una base M-ortonormal de Rn formada de vectores propios de A asociados a
λ1 ≥ . . . ≥ λn respectivamente.

Si {x1 , . . . , xk } un subconjunto arbitrario de vectores de Rn , M-ortonor-


males, entonces
Xk Xk
hAxj , xj iM ≤ λj .
j=1 j=1

La igualdad se tiene para {x1 , . . . , xk } = {u1 , . . . , uk }, los vectores propios


de A asociados a λ1 ≤ . . . ≤ λk .

D EMOSTRACIÓN :

n
X
xj = hxj , ui iM ui
i=1
Xn n
X
hAxj , xj iM = h λi hxj , ui iM ui , hxj , ui iM ui iM
i=1 i=1
n
X
= λi hxj , ui i2M
i=1
k
X k X
X n
hAxj , xj iM = λi hxj , ui i2M
j=1 j=1 i=1
n
X k
X
= λi hxj , ui i2M
i=1 j=1
Xn
= λi Ci ,
i=1
J. T REJOS — W. C ASTILLO — J. G ONZÁLEZ 263

Pk 2
Pn
con Ci = j=1 hxj , ui iM . Además véase que i=1 Ci = k:
n
X X k
n X k X
X n
2
Ci = hxj , ui iM = hxj , ui i2M
i=1 i=1 j=1 j=1 i=1
k
X
= kxj k2M = k.
j=1

Finalmente,
k
X n
X k−1
X n
X
hAxj , xj iM = λi Ci = λi Ci + λi Ci
j=1 i=1 i=1 i=k
k−1
X n
X
≤ λi Ci + λk Ci
i=1 i=k
k−1
X k−1
X
= λi Ci + λk (k − Ci )
i=1 i=1
k−1
X k
X
= (λi − λk )Ci + λk k ≤ λi .
i=1 i=1

La última desigualdad sigue del hecho que C Pi ≤ 1. En efecto, se puede comple-


tar una base {xi |i = 1, · · · , n} y kui k2M = nj=1 hxj , ui i2M = 1.

Ejercicios

1. Demostrar que si u es vector propio de V−1 VB asociado a λ 6= 1, en-


tonces u es vector propio de W−1 VB asociado a β = 1−λ
λ
.
2. Para el caso de dos grupos a priori de centros de gravedad g1 , g2 .
Demuestre que:
(a) Solamente hay una variable discriminante y en tal caso el eje dis-
criminante está determinado por el vector v = g1 − g2 .
(b) Si q1 , q2 son los pesos de las clases (q1 g1 + q2 g2 = 0 y q1 + q2 = 1);
demuestre que
VB = q1 g1 (g1t − g2t )
VB = −q2 g2 (g1t − g2t ).
264 7.4 Cociente de Rayleigh

3. Use el ejercicio 2 para demostrar que VB = q1 q2 (g1 − g2 )(g1 − g2 )t .

4. Demuestre que u = V−1 (g1 − g2 ) es vector propio de V−1 VB asociado


al valor propio λ = q1 q2 (g1 − g2 )t V−1 (g1 − g2 ), y además u es vec-
tor propio de W−1 VB asociado al valor propio β = 1−λ λ
= q1 q2 (g1 −
t −1
g2 ) W (g1 − g2 ).
Nota: estos resultados muestran que en el A.C.P. de la nube de centros de
−1
gravedad se pueden utilizar como métricas indistintamente V−1 o VW ,
esta última se llama métrica de Mahalanobis.

5. Demuestre el teorema 7.3, página 247.

6. En un experimento realizado por J.C. Amiard, 23 peces se distribuyeron


en tres acuarios sometidos a diferentes niveles de contaminación. Haga
un Análisis Discriminante Descriptivo para determinar en qué medida la
contaminación de los peces está ligada a la intensidad de la radiocontami-
nación.
Use la tabla de tamaño 23 × 15 definida en el ejercicio 10, página 92, capí-
tulo 3, sin incluir en el análisis a la variable x7 : radiación de los riñones.
Los primeros 8 peces estuvieron en la pecera número 1, los siguientes 8
peces en la pecera número 2, y los últimos 7 peces (con las etiquetas 18 a
24) estuvieron en la pecera número 3. Cada pecera recibió cantidades dife-
rentes de redioactividad y por espacios de tiempo diferentes. Use entonces
la variable “pecera” como la variable cualitativa a explicar.

7. Considere la siguiente tabla de datos con dos variables cuantitativas x1 ,


x2 , con 10 individuos separados en dos clases.

Obs x1 x2 Clase
1 0 3 1
2 2 1 1
3 4 5 1
4 6 9 1
5 8 7 1
6 5 2 2
7 7 0 2
8 9 4 2
9 11 8 2
10 13 6 2
J. T REJOS — W. C ASTILLO — J. G ONZÁLEZ 265

(a) Calcule los centros de gravedad de cada grupo (llamados g1 y g2 ) y


el centro de gravedad total.
(b) Calcule las matrices de varianzas–covarianzas V, VW y VB .
(c) Compruebe la relación V = VW + VB .
(d) Calcule la inversa de V, para lo cual puede usar una hoja electrónica,
un paquete informático o la bien conocida fórmula simple  para in-

a b
vertir matrices 2 × 2, usando el determinante: si A =
c d
 
d −b
entonces A−1 = det1(A) .
−c a
(e) Considere un nuevo elemento dado por los valores x = (7, 5.2).
Usando como métrica la matriz V−1 calculada en el punto anterior,
calcule las distancias de x a los centros de las clases: dV −1 (x, g1 ) y
dV −1 (x, g2 ). ¿De cuál centro de clase está más próximo el punto x?

8. En un estudio zootécnico realizado en Cuba en 1970, acerca del interés


por cruzar reses de raza charolais y cebú, se llevaron a cabo medidas de 6
variables, que representan distintos pesos del animal. La muestra contiene
23 reses, de las cuales 12 son charolais y 11 son cebú. Las variables son:
x1 : peso de la res viva,
x2 : peso de la piel,
x3 : peso de la carne de primera calidad,
x4 : peso de la carne total,
x5 : peso de la grasa,
x6 : peso de los huesos.
El grupo 1 está formado por las reses charolais mientras que el grupo 2
por las cebú.
Los datos se muestran en la Tabla 7.10.
Se quiere obtener una función discriminante para diferenciar las dos razas.

(a) Calcule los centros de gravedad de cada clase y el centro de gravedad


total.
(b) Calcule la función discriminante. ¿Cuál es la calidad de esta
discriminación?
266 7.4 Cociente de Rayleigh

Res x1 x2 x3 x4 x5 x6 Grupo
1 395 224 35.1 79.1 6 14.9 1
2 410 232 31.9 73.4 9.7 16.4 1
3 405 233 30.7 76.5 7.5 16.5 1
4 405 240 30.4 75.3 8.7 16 1
5 390 217 31.9 76.5 7.8 15.7 1
6 405 243 32.1 77.4 7.1 15.5 1
7 390 229 32.1 78.4 4.6 17 1
8 405 240 31.1 76.5 8.2 15.3 1
9 420 234 32.4 76 7.2 16.8 1
10 390 223 33.8 77 6.2 16.8 1
11 415 247 30.7 75.5 8.4 16.1 1
12 400 234 31.7 77.6 5.7 18.7 1
13 400 224 28.2 73.5 11 15.5 2
14 395 229 29.4 74.5 9.3 16.1 2
15 395 219 29.4 72.8 8.7 18.5 2
16 395 224 28.6 73.7 8.7 17.3 2
17 400 223 28.5 73.1 9.1 17.7 2
18 400 224 27.8 73.2 12.2 14.6 2
19 400 221 26.5 72.3 13.2 14.5 2
20 410 233 25.9 72.3 11.1 16.6 2
21 402 234 27.1 72.1 10.4 17.5 2
22 400 223 26.8 70.3 13.5 16.2 2
23 400 213 25.8 70.4 12.1 17.5 2

Tabla 7.10: Tabla de reses charolais y cebú.


Capítulo 8

Análisis de Tablas Múltiples

8.1 Introducción

El estudio de tablas múltiples de datos nace con el propósito de generalizar a


varias tablas, las principales técnicas del Análisis de Datos. Numerosos méto-
dos factoriales se han desarrollado en los últimos años para el estudio de varias
matrices de datos de tipo cuantitativo y cualitativo. Todos tienen como punto
de partida un conjunto de m tablas y como objetivo la búsqueda de un subes-
pacio de baja dimensión donde representar simultáneamente los individuos de
las diferentes tablas y análogamente para las variables. Estos métodos difieren
según el tipo de tablas de que se trate. Así, por ejemplo, a partir de los años 70
Carroll y Chang [18] desarrollaron los métodos IndScal e IdioScal para el caso
de m tablas de proximidades, generalizando el escalamiento multidimensional.
Carlier, en 1977, propuso por su parte un método para m tablas de contingen-
cia [17] y para el caso de m tablas cuantitativas de individuos por variables.
Escofier y Pagès [38] propusieron un método general, llamado Análisis Facto-
rial Múltiple, basado en una ponderación de las tablas de datos a partir de un
primer análisis en componentes principales, pasando luego a análisis globales y
específicos. Escoufier propuso en 1976 el método STATIS (Análisis Estadístico
de Tablas con Tres Indices), método que se desarrollará en este capítulo por ser
el mejor justificado y más utilizado.

Para facilitar la comprensión de esta temática se hará referencia, durante su


desarrollo, al siguiente ejemplo.

267
268 8.2 Fundamentos del método Statis

Ejemplo 1 Proyecto Hidroléctrico Angostura. Con el objetivo de construir


una planta Hidroeléctrica en Costa Rica se utilizarán las aguas de tres ríos.
Para analizar la calidad del agua y la agresividad de ésta a los diferentes mate-
riales necesarios para la construcción de la represa, se definieron cinco puntos
de muestreo llamados: Reventazón1 (R1), Turrialba2 (T2), Reventazón3 (R3),
Tuis4 (T4) y Tuis5 (T5). Durante cuatro años (Marzo de 1995-Diciembre
de 1998) se realizaron muestreos mensuales para obtener mediciones de 19
variables, las cuales son: potencial hidrógeno (pH), temperatura en grados
centígrados (Temp), sodio (Na), potasio (K), calcio (Ca), magnesio (Mg),
silicones (SiO2 ), oxígeno disuelto (OD), demanda bioquímica de oxígeno
(DBO), sólidos sedimentables (SD), sólidos totales (ST), fosfatos (PO4 ),
cloro (Cl), nitratos (NO3 ), sulfatos (SO4 ), bicarbonatos (HCO3 ), dureza to-
tal (DT), porcentaje de oxígeno disuelto (POD), y CAL, donde este último es
un índice de calidad del agua expresado con un número entre 0 y 100, obtenido
como una función (no lineal) de algunas de las variables anteriores.

8.2 Fundamentos del método Statis

Se supone que se tienen m tablas de individuos por variables X1 , . . . , Xm que


corresponden a m mediciones de un mismo fenómeno. Puede presentarse alguna
de las dos situaciones siguientes:

1. Los individuos son los mismos en las m mediciones, pero las variables no
necesariamente son las mismas.

2. Las variables son las mismas en las m mediciones, pero los individuos
pueden cambiar.

Suponiendo que cada tabla Xk está provista con una métrica Mk en el


espacio de los individuos y con una métrica de pesos Dk en el espacio de
las variables, se tiene en el primer caso un conjunto de m nubes de puntos
o tripletes del tipo Nk = (Xk , Mk , D) y en el segundo caso nubes del tipo
Nk = (Xk , M, Dk ). Como es usual, en adelante se hará referencia al k-ésimo
triplete como el k-ésimo estudio o la k-ésima nube (ver la sección 2.3, 31, sobre
la construcción de nubes de puntos).
1
Los datos fueron aportados por la Lic. Vania Morales G. del Laboratorio Químico del Instituto
Costarricense de Electricidad (I.C.E.).
J. T REJOS — W. C ASTILLO — J. G ONZÁLEZ 269

La estrategia en cada situación es diferente, en la primera se privilegian los


individuos y en la segunda las variables. Ambas estrategias se denominan Statis
y Statis Dual respectivamente.

8.2.1 Objetivos de los métodos Statis y Statis Dual

En cualquiera de las dos situaciones anteriores, el objetivo es realizar un estudio


comparativo de las m−tablas, distinguiendo para ello tres fases denominadas:
interestructura, compromiso e intraestructura.

1. Interestructura. Esta fase tiene como objetivo comparar globalmente los


m estudios, como si fueran “paquetes sin abrir". Para ello se define un ob-
jeto Ok que represente a cada estudio y una métrica Φ que permite calcu-
lar distancias entre estos objetos. Esta métrica tiene asociado un producto
interno y una distancia, que también se denotarán Φ. Posteriormente se
encuentra una imagen Euclídea para ellos, esto es un conjunto de m pun-
tos de un subespacio de baja dimensión (casi siempre un plano) de modo
que la distancia Euclídea usual entre estos puntos es aproximadamente la
distancia Φ entre los Ok .

2. Compromiso. En esta fase se construye un escenario que permita rep-


resentar simultáneamente a los individuos en Statis, y a las variables en
Statis Dual, de todas las tablas. De esta manera es posible seguir la trayec-
toria de un individuo en el caso de Statis, y de la correlación entre variables
en el caso de Statis Dual, al moverse de una tabla a otra.

3. Intraestructura. Con la ayuda del compromiso se buscan los individuos o


las variables, según corresponda, causantes de la diferenciación observada
en la interestructura. Además se representan las trayectorias de los indivi-
duos (o de las correlaciones entre variables) que ayudan a este propósito.

8.2.2 Producto interno y teorema de aproximación

En esta sección se define el producto interno de Hilbert-Schmidt para el caso


particular que aquí se estudia y se presenta un teorema a partir del cual se de-
duce la optimalidad de las imágenes Euclídeas aproximadas que se construyen
en Statis. Una definición más general de este producto y el teorema de aproxi-
mación correspondiente se encuentra en la sección 8.10.
270 8.2 Fundamentos del método Statis

Definición 8.1 Sean el espacio Euclídeo (Rn , φD ) y X,Y matrices de tamaño


n × n. El producto escalar de Hilbert-Schmidt
 φD , entre las matrices X y Y se
define como hX, YiφD = tr Xt DYD .

El teorema siguiente es consecuencia del corolario 8.1 de la sección 8.10.

Teorema 8.1 Sea S una matriz de tamaño m×m, de rango q, simétrica, semide-
finida positiva; Π una matriz diagonal de pesos de tamaño m×m y {u1 , . . . , uq }
un conjunto Π-ortonormal de vectores propios de SΠ asociados a los q prime-
ros valores propios positivos λ1 ≥ · · · ≥ λq > λq+1 = · · · λm = 0. Entonces

1. Se puede escribir
q
X
S= λk uk utk = U∆λ Ut
k=1

donde U = (u1 , . . . , uq ) es la matriz cuyas columnas son los vectores


propios u1 , . . . , uq y ∆λ = diag(λ1 , . . . , λq ) es la matriz diagonal de los
valores propios.

2. Para toda matriz Q de tamaño m × m, simétrica, semidefinida positiva y


de rango r = rng (Q) ≤ q, se tiene que
q
X
min kS − QkΠ = λ2k
rng (Q)=r
k=r+1
Pr t
y el mínimo se alcanza en Q = k=1 λk uk uk .

8.2.3 Imagen Euclídea asociada a una tabla de productos escalares

Definición 8.2 Sean O = {O1 , . . . , Om } un conjunto de m objetos entre los


cuales hay definido un producto escalar (también llamado producto interno) Φ,
y S la matriz simétrica de tamaño m × m cuyas entradas están definidas como

skl = hOk , Ol iΦ .

Sea (E, M) un espacio vectorial Euclídeo de dimensión r.


J. T REJOS — W. C ASTILLO — J. G ONZÁLEZ 271

El conjunto Ob = {Ob1 , . . . , O
bm } de m puntos de E constituye una imagen
Euclídea para O asociada a la tabla S, si los productos internos M entre los
b reproducen los productos internos Φ entre los objetos de O:
puntos de O

bk , O
hOk , Ol iΦ = hO bl iM , para k, l ∈ {1, . . . , m}.

Si esta última igualdad se da en términos aproximados se dirá que se tiene


una imagen Euclídea aproximada.

La definición es análoga si en lugar de una matriz de productos internos S


se tiene una matriz de distancias D.

Usualmente se usa una base B, M-ortonormal de vectores de E para definir


un sistema de ejes (O, B) y representar en este sistema la imagen Euclídea, para
b = {O
ello los puntos O b1 , . . . , O
bm } se expresan en términos de sus coordenadas
en la base B que se denota

bk ]B = (qk1 , . . . , qkr )t .
qk = [O

Se tiene entonces
r
X
bk , O
hOk , Ol iΦ = hO bl iM = q t ql = qks qls .
k
s=1

8.2.4 Construcción de una imagen Euclídea para la


nube (O, Π)

Sea Π = diag(tk ) una matriz de pesos correspondientes a los m objetos


O = {O1 , . . . , Om }. Por abuso de lenguaje se le llamará nube al par (O, Π).

Como se vio antes, las entradas skl de la matriz S son los productos internos
entre los objetos de O (S resulta usualmente semidefinida positiva):
skl = hOk , Ol iΦ .

Por la parte 1. del teorema 8.1 se sabe que una imagen Euclídea para la nube
(O, Π) se obtiene diagonalizando la matriz Π-simétrica SΠ. Esto es,
q
X
S= λk uk utk = U∆λ Ut = QQt
k=1
272 8.3 Statis: individuos fijos

donde Q = U∆√λ y q es el rango de S.

Luego las filas de la matriz Q son las coordenadas, en la base de vectores


propios, de los puntos que constituyen una imagen Euclídea para la nube (O, Π).

Si solo se toman los primeros r < q vectores propios para definir la matriz
U(r) = (u1 , . . . , ur ) y la correspondiente matriz Q(r) , se obtiene una imagen
Euclídea aproximada óptima (en el sentido del teorema 8.1) para la nube (O, Π).

8.2.5 Imagen Euclídea centrada

Una imagen Euclídea centrada para la nube (O, Π) se obtiene centrando pre-
viamente las filas y columnas de la matriz S con la matriz de centraje J, esto
es

Sc = JSJt , donde J = Im − 1m 1tm Π y 1tm = (1, . . . , 1) ∈ Rm .

b Π) resulta con centro de gravedad en el origen.


La nube (O,

En las secciones 8.3 hasta 8.6 se analiza en detalle el método Statis, y poste-
riormente se presenta el Statis Dual en las secciones 8.7 hasta 8.9.

8.3 Statis: individuos fijos

En este caso se supone que los individuos son los mismos en las m matrices,
pero las variables no necesariamente, por lo tanto se dispone de un conjunto de
m estudios o nubes (X1 , M1 , D), . . . , (Xm , Mm , D) donde Xk es una matriz
de n individuos y pk variables cuantitativas centradas.

Se asume que las tablas están centradas respecto a la métrica de pesos


D = diag(wi ), la misma Pen todas las tablas definida por los pesos asignados
n
a los n individuos, con i=1 wi = 1. Se tienen métricas Mk en los espacios
de los individuos Rpk . Nótese que se ha denotado wi el peso del i-ésimo indi-
viduo, para evitar usar la notación pi que se ha usado hasta ahora, con el fin de
evitar confusiones con el número de variables en cada tabla de datos, denotada
pk . Esta notación wi será la que se usará a lo largo de este capítulo para el peso
del individuo i.
J. T REJOS — W. C ASTILLO — J. G ONZÁLEZ 273

Además se usarán las siguientes notaciones:

• Xk para la k-ésima tabla,

• xki para el individuo i de la k-ésima tabla,

• xjk para la variable j de la k-ésima tabla,

• xkij para la entrada ij de la k-ésima tabla,

• Wkij = hxki , xkj iMk = xtki Mk xkj es el producto interno con métrica
Mk , de los individuos i, j de la k-ésima tabla,
D E
• xik , xjk = (xik )t Dxjk = covD (xik , xjk ) es la covarianza entre las varia-
D
bles i, j de la k-ésima tabla.

Ejemplo 2 En los datos presentados en el Ejemplo 1, del proyecto hidroeléc-


trico Angostura, la situación es la siguiente.

Para cada uno de los años 1995, 1996, 1997 y 1998, se dispone de una tabla
de individuos por variables, una por cada punto de muestreo, cuatro de ellas de
tamaño 12 × 19 y Turr2 (T2) de tamaño 12 × 17 (los sólidos SD y ST no se
midieron). Cada una de estas matrices es el resultado de promediar los valores
mensuales de cada variable en los cuatro años de muestreo. Cada una de las
12 filas (una por cada mes) representa el valor que cada una de las variables
asumió en promedio (en los cuatro años) ese mes. Por otro lado, cada una de las
columnas (una por cada variable) representa el valor promedio que la variable
correspondiente asumió en cada uno de los 12 meses. Las variables (columnas)
se denotan con su nombre, son vectores en R12 . Los individuos son vectores filas
en R19 y R17 , se denotan: En, Fe, Mz, Ab, My, Jn, Jl, Ag, Se, Oc, No, Di.

En la situación descrita se tienen cinco tablas en las cuales los individuos


son los mismos (12 meses). Los datos se muestran en la sección 8.11, página
310. Si se usa la métrica identidad se tiene que para los primeros cuatro espacios
de individuos la métrica es Mk = M = I19 con k = 1, . . . 4 y M5 = I17 para
1
el último (Turr2), D = 12 I12 la métrica de pesos en los cinco espacios de
variables. Se dispone entonces de los estudios o nubes

(X1 , I19 , D), (X2 , I19 , D), (X3 , I19 , D), (X4 , I19 , D), (X5 , I17 , D).
274 8.3 Statis: individuos fijos

8.3.1 La interestructura

Elección de Ok

Se elige como objeto Ok representante de cada estudio a la matriz


Wk = Xk Mk Xtk , por las siguientes razones:

1. El tamaño de las matrices Wk es independiente de k, cada Wk es una


matriz n × n.

2. Se sabe que los vectores y valores propios de Wk D permiten escribir:


n
X
Wk D = λki cki ctki = C∆λ Ct
i=1

con cki vector propio de Wk D asociado a λki y ctki Dckj = δij , el delta
de Kronecker.

3. Además (ver ejercicio 6 del capítulo 3), se pueden reconstruir las distan-
cias entre los individuos de la k–ésima tabla:

kxki − xkj k2Mk = kxki k2Mk − 2 hxki , xkj iMk + kxkj k2Mk
= Wkii − 2Wkij + Wkjj .

La distancia entre los Wk

Como Wk es una matriz n × n, se usa en el espacio de las matrices de n × n el


producto interno de Hilbert-Schmidt φD :

hWk , Wl iφD = tr (Wk DWl D) .

En este espacio se pueden calcular las distancias entre estos objetos y además
construir una representación aproximada de estas distancias, es decir una imagen
Euclídea en un subespacio Eq de Rm de dimensión q, que es el número de ejes
elegidos, usualmente q = 2. Lo anterior se logra diagonalizando el operador
SΠ, donde la matriz S de productos internos y la matriz Π de pesos asignados
a los objetos Wi se definen como:

skl = hWk , Wl iφD y Π = diag (tk ) .


J. T REJOS — W. C ASTILLO — J. G ONZÁLEZ 275

Con los vectores propios u1 , . . . uq de SΠ, Π - ortonormados, asociados


a los q primeros valores propios λ1 ≥ λ2 . . . ≥ λq , se construye una imagen
Euclídea (aproximada o exacta) {W c1 , . . . , W
cm } con Wci ∈ Eq , para el conjunto
{W1 , . . . , Wm }, donde q ≤ rng (S). Si q = rng (S) se verifica que el producto
interno Π entre dos puntos W ci , W
cj es igual al producto interno φD entre los
Wk , Wl : D E
hWk , Wl iφD = W ck , W
cl ,
Π
lo que en términos de distancias es:
ck − W
kWk − Wl kφD = kW cl kΠ

donde las coordenadas de W ck en la base {u1 , . . . uq } de vectores propios de SΠ


es igual a la i-ésima fila de la matriz U∆√λi , con U = (u1 , . . . , uq )m×q y

∆√λi = diag( λi ).

El número de ejes q se selecciona con los mismos criterios del A.C.P. (ver
sección 3.5.3, página 57).

Algunas propiedades que ayudan a la lectura de la imagen Euclídea, son:

1. Si W = XMXt y para todo i ∈ {1, . . . , n}, λi es un valor propio de


WD, entonces
X X n
X
kWk2φD = wi wj (Wij )2 = wi wj (hxi , xj iM )2 = λ2i
i,j i,j i=1
X X
kWk2φD = wi wj (Wij )2 = wi kwi k2D (8.1)
i,j i

donde wi es el peso del individuo i-ésimo, Wij es la entrada ij de la matriz


W y wi es la fila i-ésima de la matriz W.
2. Si Wk = Xk Mk Xtk , Wl = Xl Ml Xtl entonces
X
kWk − Wl k2φD = wi wj (Wkij − Wlij )2
i,j
X
= wi wj (hxki , xkj iMk − hxli , xlj iMl )2
i,j
X
= wi wj (Wkij − Wlij )2
i,j
X
= wi kwki − wli k2D (8.2)
i
276 8.3 Statis: individuos fijos

donde wi es el peso i-ésimo, Wkij es la entrada (i, j) de la matriz Wk y


wki es la fila i-ésima de la matriz Wk .
3. Si se usa la métrica identidad para todas las tablas Mk = Ipk entonces
pl D
pk X
X E
0 2
hWk , Wl iφD = xjk , xjl (8.3)
D
j=1 j 0 =1
D E
0 2
donde xjk , xjl es la covarianza entre las variables j, j 0 de las tablas
D
k, l respectivamente.
4. Si para todo k, Mk = Ipk y hWk , Wl iφD = 0, entonces las variables
de la tabla k son D-ortogonales con las variables de la tabla l (covarianza
nula).

Se omiten las demostraciones a todas estas propiedades para no hacer demasiado


pesada la lectura de este capítulo, pero se pueden encontrar en [64].

Además de los criterios usados en la lectura de un gráfico de individuos en


el A.C.P., las propiedades anteriores establecen que:

a) La distancia entre dos puntos es una medida de la diferencia de los pro-


ductos internos entre los individuos de sus respectivas tablas. Dos puntos
bien representados y próximos significa configuraciones similares en las
nubes de individuos de ambas tablas.
b) Si se usa la métrica identidad, el ángulo entre dos vectores Wck y Wcl de la
imagen Euclídea es una medida de las covarianzas de las variables de la
tabla k con las variables de la tabla l. Si los vectores son perpendiculares
indica covarianzas nulas entre las variables de ambas tablas.

Coeficiente RV de asociación entre dos configuraciones

Para medir el grado de asociación entre dos configuraciones (k, l), Robert y
Escoufier [89] introdujeron en 1976 el coeficiente RV , que es la correlación
vectorial entre Wk y Wl :
 
Wk Wl
RV (k, l) = ,
kWk k φD kWl k φD φD
tr(Wk DWl D)
= p .
tr(Wk D)2 tr(Wl D)2
J. T REJOS — W. C ASTILLO — J. G ONZÁLEZ 277

Algunas propiedades importantes de este coeficiente son:

p
1. d(Wk, Wl ) = kWk − Wl kφD = 2(1 − RV (k, l)), con Wk y Wl
normados.
kWk k
2. Si RV (k, l) = 1, entonces Wk = αWl con α = kWl k .

3. Si Mk = In y RV (k, l) = 0, entonces las variables de la tabla k son


D-ortogonales con las de la tabla l.

Observación. En la práctica los Wk pueden tener normas muy diferentes,


afectando con ello la interpretación de los resultados, por lo que es recomen-
dable normalizarlos previamente, esto es sustituirlos por kWW k
k kφ
y en tal caso
D
Sk,l = skl = RV (k, l).

Ejemplo 3 En el ejemplo del proyecto hidroeléctrico Angostura, se calcula la


matriz S de productos internos entre los Wk normalizados, esto es skl =
RV (k, l) (ver Tabla 8.1).

Rev1 Rev3 Tuis4 Tuis5 Turr2


Rev1 1 0.7 0.51 0.64 0.63
Rev3 0.7 1 0.70 0.65 0.61
Tuis4 0.51 0.70 1 0.68 0.47
Tuis5 0.64 0.65 0.68 1 0.52
Turr2 0.63 0.61 0.47 0.52 1

Tabla 8.1: Proyecto Angostura: matriz S de coeficientes RV .

Se toma como matriz de pesos de los estudios a Π = 15 I5 (todos los pesos


iguales). La diagonalización de la matriz SΠ da una imagen Euclídea para la
nube de los cinco estudios, la cual se representa en la Figura 8.1 considerando
los dos primeros ejes.

Sus coordenadas en estos ejes son deducidas a partir√ de los√dos prime-


ros vectores y valores propios de SΠ, esto es Q (2) = ( λ1 u1 , λ2 u2 ) con
ku1 kΠ = 1 = ku2 kΠ . Los valores propios se muestran en la tabla 8.2.

Al observar la Figura 8.1 y la Tabla 8.3 se concluye que los puntos de


muestreo están bien representados y que los puntos más distantes son Turr2 y
Tuis4, lo que significa una diferencia significativa en las posiciones relativas de
278 8.3 Statis: individuos fijos

Turr2•

Rev1•
 -
Rev3•
Tuis5•
Tuis4•

Figura 8.1: Proyecto Angostura: interestructura.

Ejes Valor propio % Inercia % Inercia acumulada


1 0.693 69% 69%
2 0.121 12% 81%
3 0.078 8% 89%
4 0.070 7% 96%
5 0.038 4% 100%

Tabla 8.2: Proyecto Angostura: valores propios de la interestructura.

los meses, y bajas correlaciones entre las variables de una y otra tabla, por el
contrario los puntos más cercanos son Tuis5 y Rev3 lo que se interpreta como
configuraciones similares entre los meses y altas correlaciones. El punto de
muestreo Turr2 es el que presenta en todos los meses los más bajos índices de
calidad, en oposición al punto Tuis4 que es el menos contaminado.

Con el objeto de tener una visión más global de las proximidades entre los
estudios, se calcula una imagen Euclídea centrada, la cual se obtiene al sustituir
la matriz S por la matriz centrada Sc = JSJt .

En la Figura 8.2 se presentan las imágenes Euclídeas planas en los ejes 1–2
y 1–3, cuyas calidades de representación están en la tabla 8.5. Para cada punto
se ha calculado la calidad de su representación como el cociente de la norma
J. T REJOS — W. C ASTILLO — J. G ONZÁLEZ 279

Río Norma de Wk ck
Norma Proyectada de W cos2
Rev1 1 0.89 0.789
Rev3 1 0.89 0.797
Tuis4 1 0.94 0.876
Tuis5 1 0.88 0.773
Turr2 1 0.91 0.839

Tabla 8.3: Proyecto Angostura: calidad de la representación de la interestructura.

Rev1•
Tuis5•
 -
Rev3•
Tuis4•
Turr2•

Figura 8.2: Proyecto Angostura: interestructura centrada.

proyectada entre la norma:

p
kWk kM (Sc )kk
= (2)
,
c
kWk k kQc (k)k

(2) (2)
donde Qc (k) es la fila k de Qc , matriz de coordenadas de la imagen Euclídea
obtenida de Sc .
280 8.3 Statis: individuos fijos

Ejes Valor propio % Inercia % Inercia acumulada


1 0.394 39% 39%
2 0.254 26% 65%
3 0.226 23% 88%
4 0.125 12% 100%

Tabla 8.4: Proyecto Angostura: valores propios de la interestructura centrada.

Río Plano 1-2 Plano 1-3


Rev1 0.91 0.5
Rev3 0.20 0.77
Tuis4 0.90 0.83
Tuis5 0.53 0.93
Turr2 0.98 0.80

Tabla 8.5: Proyecto Angostura: calidad de la interestructura centrada.

8.3.2 El compromiso

Consiste en encontrar un objeto W de dimensión n × n de la misma forma de


los objetos Wk y que los represente adecuadamente, en el sentido de que recoja
las propiedades comunes a todos ellos. El objetivo es utilizar W para definir un
escenario común para los individuos de todas las tablas y por Dualidad para las
variables de todas las tablas.

Suponiendo
Pm que los WkP se han normalizado, se quiere que W tenga la forma
m
W = k=1 k α W k = a k=1 βk Wk , donde α = aβ, y tal que el vector
β = (β1 , . . . , βm ) y la constante de normalización a > 0 sean elegidos de
t

modo que se satisfagan las siguientes propiedades:

1. W sea de la misma naturaleza que la de los Wk , esto es que la norma


de W sea el promedio ponderado de las normas de los Wk con matriz de
pesos Π = diag(tk )
m
X
kWkφD = tk kWk kφD = 1.
k=1
P
2. W = a m k=1 βk Wk es la combinación lineal de los Wk , que está más
correlacionada con los Wk , en el sentido que variando β ∈ Rm , con
J. T REJOS — W. C ASTILLO — J. G ONZÁLEZ 281

||β||Π−1 = 1, maximiza
m
X m
X
tk RV (W (a, β) , Wk )2 = tk hW (a, β) , Wk i2φD (8.4)
k=1 k=1
Pm
con W (a, β) = a k=1 βk Wk , ||W(a, β)||φD = 1, ||Wk ||φD = 1.

Cálculo de β

Sea S una matriz m × m de productos internos entre los Wk , tal que


skl = hWk , Wl iφD .

Desarrollando (8.4) y quitando la constante a, pues no interviene en el cál-


culo de β, se tiene:

m
*m +2 m m
!2
X X X X
tk βl Wl , Wk = tk βl hWl , Wk iφD
k=1 l=1 φD k=1 l=1
m m
!2
X X
= tk skl βl
k=1 l=1
m
X
= tk (sk β)2k = kSβk2Π = β t SΠSβ
k=1
= hΠSΠSβ, βiΠ−1 .

Se sabe por el Teorema de Rayleigh (ver sección 7.4, página 259) (sección
7.4, página 259) que esta última expresión alcanza su máximo cuando β es vector
propio de ΠSΠS asociado al mayor valor propio λ1 , con kβkΠ−1 = 1. Además
se satisfacen las siguientes propiedades:

1. ΠS y ΠSΠS tienen los mismos espacios propios.


Además se tiene la siguiente relación entre los rangos de las matrices
rang (ΠSΠS) = rang (SΠS) = rang (S) = rang (ΠS).

2. Es costumbre disgonalizar la matriz SΠ en lugar de ΠS. Para eso se hace


la siguiente transformación: como β es vector propio de ΠS asociado
282 8.3 Statis: individuos fijos

a λ1 , con kβkΠ−1 = 1, entonces γ = Π−1 β es vector propio de SΠ


asociado a λ1 , con kγkΠ = 1.
Lo anterior sigue de las siguientes equivalencias

ΠSβ = λ1 β ⇔ ΠSΠγ = λ1 Πγ ⇔ SΠγ = λ1 γ,

β t Π−1 β = 1 ⇔ γ t Πγ = 1.

Cálculo de la constante a

Se calcula la constante a de modo que el compromiso tenga norma igual a uno:

* m m
+
X X
1 = kW(a, β)k2φD = a βk Wk , a βl Wl
k=1 l=1 φD
m
XX m
= a2 βk βl skl
k=1 l=1
= a β Sβ = a2 γ t ΠSΠγ
2 t

= λ1 a2 γ t Πγ = λ1 a2 .

Luego a = √1 .
λ1

Expresión final del compromiso

Se sabe que los elementos skl de la matriz S son no negativos y por ende también
los de SΠ. Luego, por el teorema de Frobenius [1], el primer valor propio λ1 de
SΠ es real, no negativo y se puede elegir un vector propio γ1 de SΠ, asociado
a λ1 , tal que tenga todos sus elementos no negativos1 . Esta elección unida a
los resultados de toda la sección permite finalmente definir el compromiso de la
siguiente manera.
1
El teorema de Frobenius afirma que, si A es una matriz n × n tal que todos sus elementos
aij son no negativos, entonces su primer valor propio λ1 es real y no negativo. Además, existe un
vector propio u1 asociado a λ1 , el cual tiene todos sus elementos no negativos
J. T REJOS — W. C ASTILLO — J. G ONZÁLEZ 283

Sean Π = diag(tk ) la matriz de pesos de los Wk , γ vector propio de SΠ


con todas sus entradas no negativas y asociado al mayor valor propio λ1 , y con
kγkΠ = 1. En este caso el compromiso W se expresa como:
m
1 X
W= √ tk γk Wk . (8.5)
λ1 k=1

Ejemplo 4 En el ejemplo (2) que se ha venido desarrollando sobreP el proyecto


hidroeléctrico Angostura, el vector α = aβ del compromiso 5k=1 αk Wk es
αt = (0.244, 0.257, 0.233, 0.243, 0.222). Como se puede observar las entradas
del vector α son similares, de donde se concluye que el compromiso representa
adecuadamente a todos los Wk , teniendo la más alta correlación (en el sentido
del coeficiente RV) con el punto de muestreo Rev3, como se puede observar en
la Figura 8.1, en la cual el compromiso está sobre el primer eje a la distancia 1
del origen.

8.4 La intraestructura

El objetivo de esta fase es obtener representaciones simultáneas de los individuos


y las variables de las diferentes tablas, cuestión que se logra diagonalizando el
operador WD, correspondiente al A.C.P. de la nube N = (X, M, D) donde W
es el compromiso, D la matriz de pesos de los individuos, X y M se definen
como sigue:

X m
√ √ √
X = ( α1 X1 , α2 X2 , . . . , αm Xm )n×p , con p = pk
k=1
 
M1 0 · · · 0
 0 M2 · · · 0 
 
M =  . . . .. .
 .. .. .. . 
0 0 · · · Mm

Nótese que la matriz W de productos internos entre individuos definida por


el A.C.P. de (X, M, D) corresponde al compromiso W :
m
X m
X
W = XMXt = αk Xk Mk Xtk = αk Wk .
k=1 k=1
284 8.4 La intraestructura

La diagonalización del operador WD permite obtener una imagen Euclídea


de las filas de la matriz X. Cada una de estas filas puede interpretarse como
visiones de un individuo a través de las diferentes tablas, lo que se llama “indi-
viduos promedios". Estas afirmaciones se justifican a continuación.

8.4.1 Individuo visto por todas las tablas (individuos


promedio)

Sean C = (c1 , . . . , cn ) la matriz cuyas columnas son los vectores propios


D−normalizados del operador WD y ∆λ√= diag (λi ) la matriz de los valo-
res propios correspondientes, ∆√λ = diag( λi ). Entonces,
  t X
n
W = C∆√λ C∆√λ = λi ci cti
i=1
y
Q = C∆√λ = WDC∆ √1 .
λ

Las filas de Q : q1 , . . . , qn son las coordenadas en la base de vectores pro-


pios, de los puntos que forman una imagen Euclídea óptima para los individuos
de la tabla X, es decir:

hqi , qj i = hxi , xj iM = Wij

donde xi es la i−ésima fila de X y hqi , qj i es el producto interno con matriz


identidad.

Además, si Wkij denota la entrada (i, j) de la tabla Wk = Xk Mk Xtk se


tiene:

kqi − qj k2 = kqi k2 − 2qti qj + kqj k2 = Wii − 2Wij + Wjj


Xm Xm Xm
= αk Wkii − 2 αk Wkij + αk Wkjj
k=1 k=1 k=1
m
X
= αk kxki − xkj k2Mk = kxi − xj k2M .
k=1

La última igualdad significa que la distancia entre los individuos de la tabla


X, es igual a la “distancia compromiso" entre los correspondientes individuos
de las diferentes tablas.
J. T REJOS — W. C ASTILLO — J. G ONZÁLEZ 285

6

Jn •
• Fe
• En •
Di Mz

Jl •Ag
 • -
No •
My


• Ab
Se
Oc

?

Figura 8.3: Proyecto Angostura: Individuos promedio, ejes 1–2.

Ejemplo 5 En la Tabla 8.6 se presentan los resultados obtenidos de la diagona-


lización del operador WD definido en el ejemplo 2, del proyecto hidroeléctrico
Angostura.

Ejes Inercia % Inercia % Inercia Acumulada


1 0.8131 34.27% 34.27%
2 0.3521 14.84% 49.11%
3 0.3074 12.96% 62.06%
4 0.2097 8.84% 70.90%

Tabla 8.6: Proyecto Angostura: valores propios de WD.

Los individuos promedio correspondientes a este ejemplo, para todas las


tablas, se representan en la Figura 8.3.

8.4.2 Imagen Euclídea para los individuos de las


tablas X1 , . . . , Xm

Como se vio, las filas de Q = WDC∆ √1 son las coordenadas de una imagen
λ
Euclídea óptima para la nube de individuos promedios (filas de X). La igualdad
anterior muestra que las coordenadas qi de la imagen en una base, del individuo
promedio xi es la D-proyección de la fila wi de la matriz W sobre los ejes
286 8.4 La intraestructura

del compromiso (columnas de C) multiplicada por un factor de dilatación √1λ .


i
Se generaliza esta idea y se definen las coordenadas de una imagen Euclídea
suplementaria para los individuos de la tabla Xk como la D-proyección de las
filas de la matriz Wk sobre los ejes del compromiso corregida por un factor de
dilatación, esto es
Wk DC∆ √1 = Qk .
λ

Las coordenadas de la imagen Euclídea suplementaria de las filas xki de Xk


definida por las filas qki de Qk , no verifican la relación
hqki , qkj iI = hxki , xkj iMk = Wkij , pues las columnas de C no son vectores
propios de Wk D. Sin embargo se tienen las siguientes propiedades:

1. La norma cumple:
n
X 2
kwki − wli k2D = λj qkij − qlij
j=1
Xn
2
kwki k2D = λj qkij .
j=1

P
2. Como kWk − Wl kφD = ni=1 wi kwki − wli k2D (ver relación (8.2)) y
de la relación (1.) se puede concluir que cuando los primeros h valores
propios no son muy diferentes y despreciendo
Ph los últimos n2 − h valores
2
propios, se tiene kwki − wli kD ≈ hλ1 j=1 (qkij − qlij ) , y por tanto
la distancia entre los estudios k, l se debe a las trayectorias que en los
instantes k, l presenten mayor distancia.

Definición 8.3 Se entiende por trayectoria del individuo xi , la línea que une los
puntos {qki |k = 1, . . . , m }, de la representación del individuo xi en los ejes
del compromiso, a través de las m tablas.

Ejemplo 6 En el ejemplo 2, del proyecto hidroeléctr4ico Angostura, las trayec-


torias de los individuos (meses) corresponden a una poligonal de cinco puntos,
uno por cada punto de muestreo. La longitud de las trayectorias está directa-
mente relacionada con la distancia entre los puntos de muestreo representada
en la interestructura (ver Figuras 8.4). Los meses con trayectorias más largas
son: Enero, Marzo, Abril, Setiembre y Octubre y Diciembre, son por lo tanto
los meses en los que hay una mayor diferencia en los valores de algunas de las
variables. Nótese además que el punto T2 (Turr2) es el que se separa más del
J. T REJOS — W. C ASTILLO — J. G ONZÁLEZ 287

resto, esto es interpretado como el río que se diferencia de los otros. Las obser-
vaciones anteriores pueden verificarse en las siguientes figuras de algunas de
las trayectorias.

6 6
R3•
T2 Ab
Oc • T2
• R3 •
R1••

T4 • R3 •
• Jl T2 T5 En
T5 T4
R1 • R3 • •
• • •
 R1 -
 R1 -
• • • T4 •
T4• T5 T4 T5• T2
• R1 T5•
R3 •R3• T2

R1 •
• T4
T2 Di •
T5 Se

? ?
(a) Octubre, Abril y Diciembre. (b) Setiembre, Julio y Enero.

• •
T2 T4 T4
Jn •
Mz •R3
•R1• • R3 •T2 T5
 T5
T5
• R1
• -
• •
T4 R3 R1• T2

My

?
(c) Mayo, Marzo y Junio.

Figura 8.4: Trayectorias de los meses.

8.5 Correlaciones de las variables con los ejes del com-


promiso

Los vectores propios del operador WD corresponden a las componentes prin-


cipales del A.C.P. de la nube N = (X, M, D), por lo que se pueden calcular
288 8.5 Correlaciones de las variables con los ejes del compromiso

las correlaciones de las variables de las diferentes tablas con estas componentes.
Si cr es la r-ésima componente y xjk es la j-ésima variable de la k-ésima tabla,
entonces la covarianza de esta variable con el eje r es

hxjk , cr iD = (xjk )t Dcr .

Las correlaciones de las diferentes variables se representan en un gráfico en


el cual la variable xjk es un punto cuya coordenada sobre el eje r es hxjk , cr iD .

El estudio del gráfico de las correlaciones es útil para interpretar las trayec-
torias de los individuos.

Ejemplo 7 Para el ejemplo del proyecto Angostura, las correlaciones corres-


pondientes al ejemplo 2 de algunas de las variables se muestran en la Figura
8.5 (donde se han superpuesto las trayectorias de los individuos).
6

T2

Cal T4
• •
R1 T5 •
•T4 R3

R3 •• •
T4 •
T5 •
R1
T5 Ca • R1
 R3 •• Mg -
R1 • DBO
R3
• • • •
T2 • T5 • T5 T2
T2
T4
• •R1
T4
• PO4 R3
T4 ••T5 • R1

T2 • • ST
T2 R3
?
Figura 8.5: Proyecto Angostura: correlaciones de las variables Mg, Ca, DBO, ST, PO4
y Cal en el plano principal 1–2.
J. T REJOS — W. C ASTILLO — J. G ONZÁLEZ 289

Del gráfico de las correlaciones de las variables se observa que el eje 1


está determinado en su parte negativa por las variables M g y Ca.El eje 2 está
influenciado en su parte negativa por las variables ST y P O4, en su lado posi-
tivo por el índice de calidad CAL.

Contrastando las trayectorias de los meses con esta situación se puede con-
jeturar que: el mes de Octubre se caracteriza por la presencia de sólidos y al-
tos valores en la concentración de fósforo (P O4), Abril presenta una situación
análoga y además concentraciones altas de manganeso y calcio. Diciembre, en
cambio, presenta bajas concentraciones de M g, Ca, ST y P O4 y valores altos
en la calidad. Finalmente los gráficos de las variables mencionadas anterior-
mente ayudan a corroborar en alguna medida estas observaciones (ver Figuras
8.6).
290 8.5 Correlaciones de las variables con los ejes del compromiso

1.92 280 ?

.

• • •

• • ?

• ? ? 
0.96 .  • 140  ?
• • ?
? 
 ? .
? •
•  ? •
?   . ?
•  
 • 
. . . . 
.
 • .


? •
?
 ? .
? . . .

 .
 ? ?
. . . 
• ? ?  
• .  ? •
• ?
.
.
? . •
 • . .
0.0 en mz my jl se no 0 en mz my jl se no
• Rev1; ? Rev3; . Tuis4;  Tuis5; Turr2 • Rev1; ? Rev3; . Tuis4;  Tuis5;

(a) PO4 . (b) ST.

15.0 22

? •

? ?
• . ?
• •
. •
? ?
?
• • ? •
• ? •
? •

? •
7.5 11    .
.

.  .
 . 

  .
.  . . .
 

. .
?
• 
•  ? • • 
.
 ? . • • • •  •
?  ? .
? 

. .
? 
?  ? .
? 
. . ? .
• 

.

0.0 en mz my jl se no 0 en mz my jl se no
• Rev1; ? Rev3; . Tuis4;  Tuis5; Turr2 • Rev1; ? Rev3; . Tuis4;  Tuis5; Turr2

(c) Mn. (d) Ca.

89.0 .

• . .
? . 
.
• •   . .
? . .
? 
 •
?

• 
?

 ?
.
 • ?
• ?
• • .
 .
• 
? ? •

 • •
?

44.5

0.0 en mz my jl se no
• Rev1; ? Rev3; . Tuis4;  Tuis5; Turr2

(e) Calidad.

Figura 8.6: Proyecto Angostura: concentración mensual.


J. T REJOS — W. C ASTILLO — J. G ONZÁLEZ 291

8.6 Análisis evolutivo de una encuesta de opinión

Se ha utilizado el método Statis para analizar la evolución de la opinión pública


de los costarricenses mayores de 18 años.

Los datos de base corresponden a las encuestas de opinión pública de los


años 1988, 1989, 1990 y 1991 realizadas por el proyecto de investigación Es-
tructuras de la Opinión Pública de la Escuela de Matemática de la Universidad
de Costa Rica. Estas encuestas, a escala nacional, son anuales sobre una mues-
tra de unos 1000 individuos, mayores de 18 años, preservando cuotas por sexo,
edad y ocupación. Los entrevistados se pronuncian sobre unas 100 afirmaciones
relativas a los principales conflictos sociales ventilados por la prensa local [85],
[44].

Como interesa analizar la evolución de las opiniones de los diferentes grupos


sociales se seleccionan aquellas preguntas que se repitieron en los cuatro años,
las cuales son:

• El seguro social debe privatizarse (SP).


• Se debe propiciar la libre elección médica (LM).
• La democracia es el sufragio (DS).
• Se debe defender la banca nacionalizada (BN).
• Se debe confiar en la justicia (CJ).
• Se debe aumentar el presupuesto en seguridad (PS).
• Ya no nos sentimos seguros (IS).
• Los enfermos de sida deben aislarse (SD).

Los entrevistados deben responder una de las siguientes alternativas, codifi-


cadas en una escala de 1 a 5 (llamadas escalas de Likert):

• En total desacuerdo.
• Bastante en desacuerdo.
• Podría estar de acuerdo.
• Bastante de acuerdo.
• Totalmente de acuerdo.
292 8.6 Análisis evolutivo de una encuesta de opinión

8.6.1 Construcción de la tabla de datos

Para analizar la evolución de la opinión se ha considerado la opinión promedio


de los grupos sociales determinados por las siguientes variables:

• Provincia: San José (Sjos), Alajuela (Ala), Cartago (Car), Guanacaste


(Gua), Puntarenas (Aren), Limón (Lim) y Heredia (Her).
• Edad, codificada en las siguientes clases: de 18 a 25 años (A18), de 25 a
35 (A25), de 35 a 45 (A35), de 45 a 55 (A45) y más de 55 años (A55).
• Escolaridad: Ninguna (EN), Primaria (EP), Secundaria (ES), Técnica (ET),
Universitaria incompleta (EUI) y Universitaria completa (EUC).
• Partido político: Partido Liberación Nacional (PLN), Partido Unidad
Social Cristiana (PUSC), Izquierda (Izq), Otros partidos (Potr) y Ningún
partido (Pnin).
• Ingreso Familiar: Ingresos Bajos (IB), Ingresos Medios (IM) e Ingresos
Altos (IA).

También se disponía de información sobre el Sexo y la Profesión, pero no se


presentan aquí.

Las tablas de datos se construyeron usando los centros de gravedad como


filas (individuos), para obtener así cuatro matrices de tamaño 42 × 8 (una por
cada año).

Los resultados obtenidos se presentan a continuación.

8.6.2 Análisis de la interestructura

La Figura 8.7 muestra la evolución global de la opinión anual en el periodo


1988-1991 en el primer plano principal el cual explica un 85% de la inercia
total. Los puntos representativos de cada encuesta se encuentran muy próximos
a la circunferencia de radio uno, lo que garantiza una buena representación de la
realidad descrita por las variables tomadas en cuenta en este estudio.

Se observa una estabilidad de la opinión en los años 89, 90, 91 diferencián-


dose de la estructura de la opinión en 1988. Esta diferenciación se analizó en el
contexto de la intraestructura.
J. T REJOS — W. C ASTILLO — J. G ONZÁLEZ 293

(% Inercia 85.00) Eje 2


6
•1988

 -Eje 1
•1989
•1990
•1991

Figura 8.7: Interestructura para la evolución de la opinión.

8.6.3 Análisis de la intraestructura

La Figura 8.8 corresponde a la representación de las variables en el círculo de


correlaciones generado por los dos primeros ejes, los cuales explican el 58% de
la inercia total. A la etiqueta de cada variable se le agrega un 1, 2, 3 ó 4 para
indicar el año 1988, 1989, 1990, 1991 respectivamente.

% Inercia 57.89 6
Eje 2


LM3 •
LM4

IS4 •
IS3•IS2

LM1 •IS1 •
LM2
CJ3


PS4 • • •
BN2
CJ1 PS3 •
BN4• BN3

• CJ2 •
SP3
CJ4 SP1
 -

• SD3 •
• • SP2
PS2 Eje 1
BN1


SD4
PS1 SD1 DS2
• • •
• •DS4
SP4 ••
DS1 DS3SD2

Figura 8.8: Correlación entre variables y los ejes del compromiso para la evolución de
la opinión.
294 8.6 Análisis evolutivo de una encuesta de opinión

Se observa que las variables SD, DS, SP y en menor grado BN y CJ, corre-
lacionan con el primer eje. Por otra parte las variables LM e IS lo hacen con
el segundo eje. En el caso de las variables BN y CJ se observa una evolución
(movimiento) sobre el primer eje que es explicada en parte por la diferenciación
del año 88 con respecto a los restantes.

En las Figuras 8.9 y 8.10 se representan algunos grupos sociales promedio


en los ejes del compromiso y en las Figuras 8.11 y 8.12 las trayectorias de los
grupos de edad y escolaridad más opuestos. Se nota que el nivel de escolaridad es
un factor claramente discriminante en cuanto a la opinión. Los grupos de mayor
escolaridad, EUC arriba en el segundo cuadrante, se oponen a los grupos sociales
de menor escolaridad (EP) que son a su vez los de más bajos ingresos (IB).
Asociadas con estos grupos se encuentran, respectivamente, las provincias de
mayor desarrollo como San José y Alajuela, en oposición a Limón y Guanacaste.
Las diferencias de opinión más claras derivan de las variables que determinan
en mayor grado esas direcciones. Es así como a partir de las observaciones
anteriores se puede decir lo siguiente:

• En los grupos sociales de más alta escolaridad, como EUC, se nota una
evolución en el sentido de disminuir su confianza en la justicia, aumen-
tar su deseo de que se invierta más presupuesto en seguridad y cada año
el sentimiento de inseguridad es mayor. Respecto a la enfermedad del
sida estos grupos sociales son cada vez más tolerantes. En los sectores de
menos escolaridad, como EP y EN, esta tendencia es menos pronunciada
y más irregular.

• Hay una diferenciación de la opinión entre los grupos de menor edad con
respecto a los de mayor edad, la cual se expresa en grado creciente de
desconfianza en la justicia de parte de los jóvenes que a su vez son más
tolerantes respecto al sida, que las personas de mayor edad (ver Figuras
8.8 y 8.9).

• En relación con los grupos de filiación política, se ve que la diferenciación


proviene de los grupos minoritarios fuera del PLN y del PUSC. Estos dos
últimos partidos son indistinguibles desde el ángulo de la opinión respecto
de las variables analizadas, como lo ponen en evidencia las representa-
ciones en la Figura 8.10
J. T REJOS — W. C ASTILLO — J. G ONZÁLEZ 295

% Inercia 57.89 Eje 2


6

EUC


A55
• •
A45
A35
• •
• SJOSALAJ
 IA

• -
EN Eje 1

EUI IM
• •
ET A25 • •
LIM EP

ES •
• IB
GUAN


A18

?
Figura 8.9: Grupos sociales promedio: Escolaridad, Edad, Ingreso Familiar y Provin-
cia.

% Inercia 57.89 Eje 2


6

POTR


PIZQ
 -Eje 1
PLN
• • • PUSC
PNIN

?
Figura 8.10: Grupos sociales promedio: partidos políticos.
296 8.6 Análisis evolutivo de una encuesta de opinión

% Inercia 57.89 Eje 2


6


A553

A452

A453 • •
A554

A454
 A451 • • •A552 -Eje 1
A551

A181
A182 •
A184 •


A183

?
Figura 8.11: Trayectorias de los grupos de edad más opuestos.

% Inercia 57.89 Eje 2


6

EUC4 •
EUC2 •
EUC3 •

EN3
EUC1 • •
EP3 EN2
 • -Eje 1
EP1

••EP2
EN1 • EP4

EN4

?
Figura 8.12: Trayectorias de los escolaridad más opuestos.
J. T REJOS — W. C ASTILLO — J. G ONZÁLEZ 297

8.7 Statis Dual: las mismas variables en los m instantes

Como se señaló al inicio del capítulo, el método Statis Dual se usa en el caso en
que, en los m estudios, las variables medidas son las mismas, pero los individuos
son posiblemente diferentes al pasar de una tabla a otra.

Precisando, se supone que están dados m estudios (Xk , M, Dk );


k = 1, . . . , m donde Xk es la matriz de datos nk × p generada a partir de la
medición de p variables cuantitativas sobre nk individuos, en la ocasión k-ésima.
En adelante se supondrá que cada Xk es centrada respecto de la correspondiente
matriz diagonal Dk = diag(wi ) de mk pesos de los individuos, y que M es una
métrica Euclídea en el espacio de los individuos (Rp ).

En este caso se usa la matriz de varianza-covarianza Vk = Xtk Dk Xk como


objeto representativo del estudio (Xk , M, Dk ), por razones análogas a las men-
cionadas en Statis. Nótese que las matrices Vk son todas matrices p × p.

Situaciones como la anterior se encuentran cuando, usando los datos del


ejemplo 1, se quiere estudiar la evolución de un punto de muestreo particular
a lo largo de los cuatro años. Se dispone por lo tanto de cuatro matrices, una
por cada año, la primera de tamaño 10 × 17 (no se dispone de los meses enero
y febrero) y las tres restantes de tamaños 12 × 17, se está en presencia de tablas
con las mismas variables, pero con individuos diferentes.

Ejemplo 8 Para ilustrar el método Statis Dual, se examinará el crecimiento de


la caña de azúcar en la variedad1 cp 722086, para lo cual se realizaron durante
once meses desde marzo de 1995 a enero de 1996, mediciones mensuales de
cinco variables en 30 matas seleccionadas al azar mes a mes. Las mediciones de
las variables implican la destrucción de la mata, por lo que no hay trayectorias
de los individuos. Se tiene entonces once tablas de datos de tamaño 30 × 5. Las
siguientes son las variables consideradas:

• AFV: Area Foliar verde (cm2 ).


• Altura: Altura de los tallos (cm).
• PSHF: Peso seco de las hojas verdes (grs).
• PSCO: Peso seco de los cogollos (grs).
1
Los datos fueron aportados por los profesores Walter Marín y Fermín Subirós de la Escuela
de Biología de la Universidad de Costa Rica.
298 8.7 Statis Dual: las mismas variables en los m instantes

• PSTA: Peso seco de los tallos (grs).

8.7.1 La interestructura

La métrica de Hilbert-Schmidt para el caso de los operadores Vk es:


hVk , Vl iΦM = tr (Vk MVl M)

Sea Π = diag (tk )m×m la matriz diagonal de los pesos dados a los operado-
res {V1 , . . . , Vm }. La imagen Euclídea de los operadores Vk con pesos Π se
obtiene diagonalizando la matriz Π- simétrica SΠ; donde skl = hVk , Vl iΦM .
Sean u1 , . . . , ur los vectores propios Π− ortonormados de SΠ, asociados a los
valores propios λ1 ≥ · · · ≥ λr > 0.

La matriz S se expresa como


r
X
S= λj uj utj = U∆λ Ut = (U∆√λ )(U∆√λ )t
j=1

donde U = [u1 , · · · , ur ]m×r y ∆λ = diag(λj ).

Representación bidimensional de la interestructura

Una representación óptima de la interestructura en el plano se obtiene, según el


teorema 8.1, por medio de las filas de la matriz U∆√λ , tomando solamente los
dos primeros vectores propios. Las m matrices Vk están representadas en el
plano por m puntos cuyas√coordenadas
√ en los dos primeros ejes {u1 , u2 } son las
filas de la matriz Q2 = ( λ1 u1 , λ2 u2 ).

La distancia entre dos puntos Vbk y Vbl (filas k y l de Q2 ) es la que mejor


aproxima la distancia del producto escalar de Hilbert-Schmidt entre V k y Vl
que en este caso se define como hVk , Vl iΦM = tr Vkt ΠVl Π . Se tiene la
siguiente aproximación:
2 2 2
b
Vk − Vbl = Vbk + Vbl − 2 · Vbk · Vbl

= kVk k
2
+ kVl k2 − 2 hVk , Vl i
ΦM ΦM ΦM
= kVk − Vl k2ΦM .

Pr 2
El error en que se incurre por esta aproximación es cuantificado por j=3 λj .
J. T REJOS — W. C ASTILLO — J. G ONZÁLEZ 299

Interpretación de la interestructura

Se desarrollan algunos resultados que ayudan a comprender el significado de las


proximidades entre los operadores Vk .

Relación entre distancias y correlaciones. Si las tablas Xk son centradas y


reducidas, entonces Vk = Rk que es la matriz de correlaciones de las columnas
de la tabla Xk . Es claro que si M = I, entonces
Xp p X
X p h  i2
0
kRk k2ΦM = krkj k2 = r xjk , xjk
j=1 j=1 j 0 =1

donde rkj es la fila j de Rk . En consecuencia


p X
X p
0 0
d2ΦM (Rk , Rl ) = [r(xjk , xjk ) − r(xjl , xjl )]2 .
j=1 j 0 =1

Observaciones:

1. De lo anterior se concluye que la proximidad entre puntos observada en el


plano de la interestructura se interpreta como estabilidad en la estructura
de correlaciones para las mediciones efectuadas en las ocasiones k y l.
2. Si en la fórmula de d2ΦM (Rk , Rl ) se sustituye Rl por αRk , se tiene:
p X
X p
0
d2ΦM (Rk , αRk ) 2
= (α − 1)kRk k2ΦM = (α − 1) 2
[r(xjk , xjk )]2 .
j=1 j 0 =1

Por lo tanto la comparación entre dos puntos homotéticos tales que


Rl = αRk depende de la magnitud de las correlaciones y de α2 − 1.
3. En caso que las matrices xk no sean reducidas, se tiene
p X
X p
0 0
kVk k2ΦM = hVk , Vk iΦM = [r(xjk , xjk ]2 var(xjk )var(xjk ).
j=1 j 0 =1

Así entonces, cuando hay estabilidad de las correlaciones entre dos ‘ins-
tantes’ k y l (k < l) y las normas kVk kΦM y kVl kΦM son muy diferentes,
se ha producido un aumento o una disminución en las varianzas de las va-
riables de un instante al otro. Dependiendo de la naturaleza del problema
analizado, puede ser interesante identificar los factores responsables de
dichas variaciones.
300 8.7 Statis Dual: las mismas variables en los m instantes

Otras propiedades

1. Supóngase que Vk M = Vl M entonces :

(a) Los A.C.P. de los tripletes (Xk , M, Dk ) y (Xl , M, Dl ), tienen los


mismos vectores y valores propios y, las componentes principales,
en ambos casos, son combinaciones lineales de las mismas variables
con los mismos pesos. Es decir, tienen la misma interpretación.
(b) Si las matrices Xk , Xl son reducidas entonces las correlaciones de
las variables con las componentes principales en el instante k, son
iguales a las correlaciones de las variables con las componentes prin-
cipales en el instante l.

2. En el caso Vl M = αVk M, entonces hay proporcionalidad en la estruc-


tura de correlaciones.

La demostración de estas dos propiedades es sencilla y se deja como ejercicio


(ver ejercicio 4).

Ejemplo 9 Para hacer el cálculo de la interestructura para los datos de caña de


azúcar, se centran y reducen las variables de las once tablas por lo que el objeto
representativo de cada tabla es la matriz de correlaciones Rk = Xtk Dk Xk
1
donde la métrica de pesos de los individuos es Dk = 30 I30 (todos los individuos
con el mismo peso), además se usará como métrica en el espacio de individuos a
1
la identidad M = I5 y como matriz de pesos para los once estudios Π = 11 I11 .

La matriz de productos internos S está definida por

skl = hRk , Rl iΦM = tr(Rk MRl M) = tr(Rk Rl ).

Se construye una imagen Euclídea plana, primeramente con la matriz de


coeficientes RV denotada Sn (Figura 8.13) y luego con la matriz Sc centrada
(Figura 8.14), donde

1 1
Sn = diag( √ ) S diag( √ )
skk skk
Sc = JSJ t , J = I11 − 111 1t11 Π.
J. T REJOS — W. C ASTILLO — J. G ONZÁLEZ 301

En el círculo de la Figura 8.13 se pueden observar aproximadamente las


relaciones entre las matrices de correlaciones a través del RV -coeficiente
hRk ,Rl i
definido como RV (Rk , Rl ) = kR k kkRl k
.

•en

•di
no •••oc
 ag -
se•
jl ••jn•ab
mz •• my

Figura 8.13: Caña de azúcar: interestructura normalizada (94% de inercia).

Por otro lado, en la Figura 8.14 se tiene una representación aproximada de


las distancias entre las matrices de correlaciones. Así entonces, la proximidad
de dos puntos bien representados observada en el círculo y en la Figura 8.14,
significa que las matrices de correlación correspondientes son aproximadamente
iguales.

Como ayuda en la lectura de la Figura 8.14 se construye una tabla con


las normas y la calidad de la representación de cada matriz, definida como el
cociente de la norma de su proyección ortogonal entre la norma de la matriz
(ver Tabla 8.7).

Mes mar abr may jun jul ago


100 Cal 98 18 99 95 86 69
Mes sep oct nov dic ene
100 Cal 97 87 77 68 96

Tabla 8.7: Caña de azúcar: calidad de la representación plana.


302 8.8 El compromiso

Eje 2
6

• se

oc•

• ag
jl
 • -Eje 1
• jn •
mz• • abno
di•

my• en•

Figura 8.14: Caña de azúcar: interestructura centrada (79% de inercia).

De ambos gráficos se puede observar lo siguiente:

1. Los meses de enero, setiembre y mayo son los puntos más alejados, cues-
tión que muestra cambios importantes (relativamente) en algunas de las
variables.
2. Abril y noviembre están muy próximos, pero no es concluyente, puesto que
hay una mala representación del mes de abril (18%).

3. {Marzo, junio, julio}, {Agosto, octubre, noviembre, diciembre} son gru-


pos estables, en el sentido que la estructura de correlaciones se mantiene
aproximadamente igual.

8.8 El compromiso

El compromiso en Statis Dual se define de manera análoga al compromiso en el


método Statis, teniendo en cuenta que al ser las matrices Xk centradas y reduci-
das los objetos de estudio son las matrices de correlaciones. Las propiedades
J. T REJOS — W. C ASTILLO — J. G ONZÁLEZ 303

son las misma de Statis, sólo varían las interpretaciones, las cuales se resumen a
continuación.

El compromiso R es
m
X
R= βk Rk .
k=1
Pm
donde β es vector propio de ΠS asociado al mayor valor propio λ1 y i=1 βi =
1; R verifica las siguientes propiedades:

1. R es el objeto más correlacionado con los Rk , en el sentido de que R es


el que maximiza el promedio del cuadrado de las correlaciones de R con
los Rk . Es decir, R maximiza el cociente
Pm Pm 2
k=1 tk h l=1 αl Rl , Rk i
al variar α ∈ Rm .
kRk2
√ √ √  Pm
2. Si Xt = β1 Xt1 , β2 Xt2 , . . . , βm Xtm p×n con n = k=1 nk y
D = diag(Dk )n×n entonces R = X DX. Además las variables definidas
t

por las columnas de X son centradas y reducidas respecto a D, por lo que


se puede interpretar el compromiso como una matriz de correlaciones.
0 P j j0 j0
3. rD (xj , xj ) = m k=1 βk rDk (xk , xk ) donde x , x son las variables de la
j
0
matriz X (columnas j-ésima, j 0 -ésima de X) y xjk , xjk son las correspon-
dientes variables de la matriz Xk (columnas j-ésima y j 0 -ésima de Xk ).
Puede notarse que la D–correlación entre dos variables de X es el prome-
dio de las Dk –correlaciones entre las correspondientes variables de Xk .

4. Si todos los Rk son iguales entonces βk = tk para todo k, es decir el


compromiso es el promedio de los Rk

5. Si algún Rk es muy diferente a los demás (es decir, hRk , Rl i = 0 , para


todo l 6= k), éste no participa del compromiso (βk = 0).
1
6. Si se eligen todos los pesos de los Rk iguales, esto es Π = m Im , entonces
los mayores βk corresponden a los Rk que en promedio correlacionan más
con el resto de los Rl .

Se puede afirmar de estas propiedades que el compromiso rescata lo que es


común a las diferentes configuraciones y descarta las diferencias. Las pruebas
de esas propiedades se encuentran en [64].
304 8.9 Intraestructura

Ejemplo 10 Se define S y Π como sigue:


Rk Rl 1
Sk,l = RV (k, l) = h , i, Π= I11 .
kRk k kRl k 11

El vector propio β asociado P


al mayor valor propio λ1 de la matriz ΠS define
los pesos del compromiso C = m Rk
k=1 βk kRk k (ver Tabla 8.8).

Rk mar abr may jun jul ago


100 × βk 9.38 9.00 9.17 9.51 9.54 9.55
Rk sep oct nov dic ene
100 × βk 9.10 9.27 9.60 9.06 6.84

Tabla 8.8: Caña de azúcar: pesos del compromiso.

Como se observó en las figuras 8.13 y 8.14 el mes de enero es el que más
difiere y según las propiedades del compromiso enumeradas anteriormente este
mes debería tener un bajo peso en la formación del compromiso, lo que se cor-
robora en la tabla anterior (peso de 6.84).

8.9 Intraestructura

El estudio de la intraestructura involucra la representación en un subespacio de


baja dimensión (usualmente dos) de las trayectorias (por alusión al tiempo) de las
variables y, eventualmente, de los individuos. Ello permite explicar las desvia-
ciones entre tablas de datos observadas en la interestructura, por medio de las
desviaciones individuales de las variables en las trayectorias.
√ √ 
Sea Xt = β1 Xt1 . . . βm Xtm y D = diag (Dk )n×n . Si u1 , . . . , up son
los vectores propios M-ortonormados del A.C.P. de (X, M, D), asociados a los
valores propios λ1 ≥ . . . ≥ λp > 0, entonces los ui son vectores propios
de RM donde R = Xt DX es el compromiso. Se denotan con c1 , . . . cp las
componentes principales correspondientes de este A.C.P..

8.9.1 Representación de las variables

Se consideran representaciones de las variables definidas por las columnas de la


tabla X (variables activas) y de las variables definidas por las columnas de las
tablas Xk ponderadas por un factor βk (variables suplementarias).
J. T REJOS — W. C ASTILLO — J. G ONZÁLEZ 305

Variables activas

Por definición Xt Dcs = √1 RMus , luego


λs

X βk j m
1
coordcs (xj ) = (xj )t )Dcs = √ rj Mus = √ (rk )t Mus
λs k=1
λs

donde rjk es la columna j de Rk y rj es la fila j de R. Esta representación


corresponde a una imagen Euclídea óptima de rango q ≤ p, asociada a R.

Ejemplo 11 La Figura 8.15 muestra la representación de las variables activas


(variables promedio) en los dos primeros ejes del compromiso correspondiente
al ejemplo 8.

0.6
6


Altura

PSTA•
 PSCO• -
0.6
PSHF
••
AFV

Figura 8.15: Caña de azúcar: variables activas (75% de inercia).

Como se puede observar, el primer eje del compromiso (57.4%) está deter-
minado fundamentalmente por la variable peso seco de los cogollos (PSCO) y en
menor grado por la variable peso seco de los tallos (PSTA). Se hace referencia
a él como Eje de los gramos.

El segundo eje, con un porcentaje de Inercia del 17.5%, está definido por
la variable Altura de los tallos (Altura) y en menor grado por la variable Area
foliar verde (AFV). Se le denomina Eje de los centímetros.
306 8.9 Intraestructura

Variables suplementarias

Para hacer una representación, se identifica la variable xjk con la variable su-

xjk )t = [0 . . . 0, ( βk xjk )t , 0 . . . 0]1×n , luego su coordenada en la
plementaria (e
componente cs es:

1 βk
xjk ) = (e
coordcs (e xjk )t Dcs = √ (xjk )t Dk Xk Mus = √ (rjk )t Mus .
λs λs
Nótese que las coordenadas de las variables observadas en el período entero son
iguales al promedio de las variables correspondientes en cada instante, salvo por
la constante 1/m:
Xm
coordcs (xj ) = xjk ).
coordcs (e
k=1

Véanse las figuras 8.16, donde se ilustra este tipo de representación por medio
de variables suplementarias. Se muestran los siguientes casos:

(a) AFV: Área foliar verde.

(b) Altura: Altura de los tallos.

(c) PSHF: Peso seco de las hojas verdes.

(d) PSCO: Peso seco de los cogollos.

(e) PSTA: Peso seco de los tallos.


J. T REJOS — W. C ASTILLO — J. G ONZÁLEZ 307

6 se 6
•my •
ag

ab• •mz •no jl•
•jn •di

oc •
 •jl - ab •mz -

jn
no •my
en• ••
di •
en
oc••ag

se•
? ?

(a) AFV. (b) Altura.

6 •my 6

en my
• •
ab •jn no•
•mz •ag
•jl di • • • jl
ab mz
 - • -

jn
en no
• • oc

oc•
•ag
• •se • se
di
? ?

(c) PSHF. (d) PSCO.

6
di ab•

no •my

 • en mz•
-
jn •
•jl
se
••
oc• ag
?

(e) PSTA.

Figura 8.16: Caña de azúcar: variables suplementarias.


308 8.10 Aproximación óptima de matrices

8.9.2 Relación entre la interestructura y las trayectorias de las va-


riables

Se trata de identificar las variables que explican las desviaciones observadas en


la interestructura. Se sabe que los Rk mejor representados en el compromiso
corresponden a los de mayor βk . Por lo tanto interesan fundamentalmente las
cantidades kRk − Rl k2 , donde βk y βl son grandes y si además βk ≈ βl y
M = I se tiene que
p X
X p  2
kRk − Rl k2 ≈ xjk ) − coordcs (e
λs coordcs (e xjl ) .
j=1 s=1

Se ve que mientras más grande sea el desplazamiento de una variable j entre los
instantes k y l, más aporta esta variable a la distancia entre Rk y Rl .

Ejemplo 12 En el caso del crecimiento de la caña de azúcar, como se observa


en la interestructura, los meses de enero, mayo y setiembre son lo más alejados,
las trayectorias de las variables muestran que los aportes fundamentales a esta
separación corresponden a las variables: Altura, PSHF, PSCO y PSTA para el
mes de enero; Altura, AFV y PSHF para el mes de mayo; Altura y PSCO para
el mes de setiembre.

8.9.3 Representación de los individuos

La representación de un individuo xi es la usual del A.C.P., es decir su coorde-


nada en el eje uj es: coorduj (xi ) = xti Muj .
r
X r
X 
xi = hxi , uj iM uj = xti Muj uj .
j=1 j=1

En el ejemplo de crecimiento de la caña no es posible analizar trayectorias de


individuos, pues éstos se destruyen mes a mes.

8.10 Aproximación óptima de matrices

En esta sección se presentan los resultados matemáticos a partir de los cuales se


deduce la optimalidad de las imágenes Euclídeas aproximadas que se construyen
en Statis.
J. T REJOS — W. C ASTILLO — J. G ONZÁLEZ 309

Definición 8.4 Sean Rp y Rn espacios vectoriales provistos de métricas M y


N, respectivamente. El producto
 escalar de Hilbert Schmidt se define como
hX, YiM,N = tr Xt NYM para todas las matrices X, Y de tamaño n × p.

Teorema 8.2 Sea X una matriz n × p de rango mayor o igual que q. Una
solución del problema

min kX − Yk2M,N | rng (Y) = q
Y

es XMHHt con H = [v1 . . . vq ] , v1 . . . vq vectores propios M−ortonormados


de Xt NXM, donde rng (Y) denota el rango de Y.

D EMOSTRACIÓN :
Es claro que expresando M = Lt1 L1 y N = Lt2 L2 se tiene


hX, YiM,N = L2 XLt1 , L2 YLt1 Ip ,In

y
kX − YkM,N = L2 XLt1 − L2 YLt1 Ip ,In .
Sean x1 , . . . , xn las filas de la matriz X. Se sabe que
n o
min L2 XLt1 − L2 YLt1 Ip ,In | rng (Y) = q =

= L2 XLt − L2 XLt UUt
1 1 Ip ,In
n
X q
X t
= kxi k2 − utk L2 XLt1 L2 XLt1 uk
i=1 k=1

con U = [u1 . . . uq ] , u1 . . . uq vectores propios Ip –ortonormados de L1 Xt NXLt1


asociados a λ1 ≥ · · · ≥ λq > 0 (ver [33]).

Sea uj = L1 vj entonces se deduce que v1 . . . vq son vectores propios


M−ortonormados de Xt NXM asociados a λ1 ≥ · · · ≥ λq > 0.

Por otra parte, como L1 H = U entonces

L2 XLt1 UUt = L2 XMHHt Lt1

de donde

L2 XLt1 − L2 XLt1 UUt = X − XMHHt M,N .
Ip ,In
310 8.11 Datos del Proyecto Angostura

Corolario 8.1 Se tiene:

1. min{kX − Yk2M,N | rng (Y) ≤ q} = min{kX − Yk2M,N | rng (Y) = q}.


2. Sea M = N y X = S simétrica. Entonces se tiene que
min{kS − Yk2M,M | rng (Y) = q} se alcanza en
q
X
SMHHt = λj vj vjt
j=1

donde v1 . . . vq son vectores propios M−ortonormados de SM asociados


a λ1 ≥ · · · ≥ λq > 0.
P
3. min{kS − YkM,M | rng (Y) = q} = rj=q+1 λ2j con r = rng (S).

D EMOSTRACIÓN :
1. Sea Y de rango q1 ≤ q y sean x1 , . . . , xn las filas de X; entonces
kX − Yk2M,N ≥ min{kX − Zk2M,N | rng (Z) = q1 }
n
X q1
X
2
= kxi k − utk (L2 XLt1 )t L2 XLt1 uk
i=1 k=1
n
X q
X
≥ kxi k2 − utk (L2 XLt1 )t L2 XLt1 uk
i=1 k=1
= min{kX − Zk2M,N | rng (Z) = q}.

2. Se tiene Xt NXM = SMSM. Sean v1 . . . vq vectores propios M−orto-


normados de SM asociados a λ1 ≥ · · · ≥ λq > 0, luego también lo son
de SMSM P asociados a λ21 ≥ · · · ≥ λ2q > 0. Por lo tanto SMHHt =
HDλ H = qk=1 λk vk vkt .
t

P P
3. Como S = rk=1 λk vk vkt entonces S − SMHHt = rk=q+1 λk vk vkt .


Ahora, en vista de que vk vkt , vl vlt M,M = δkl (el delta de Kronecker) se
P
deduce que kS − SMHHt k2 = rk=q+1 λ2k .

8.11 Datos del Proyecto Angostura

En las tablas 8.9 y 8.10 se presentan los datos que corresponden al Proyecto
Hidroeléctrico Angostura.
Rev1 pH Temp Na K Ca Mg SiO2 OD DBO SD ST PO4 Cl NO3 SO4 HCO3 DT POD Cal
En 7.37 20.07 6.56 2.16 15.30 6.08 29.80 7.94 2.00 128.67 149.33 0.28 2.87 2.16 8.52 77.97 63.73 92.87 86.00
Fe 7.23 20.47 5.67 1.93 14.43 3.88 24.27 7.66 2.89 88.00 114.67 0.21 2.49 2.26 8.15 67.60 53.47 89.90 84.80
Mz 7.49 20.43 6.19 1.92 15.30 4.17 26.30 8.45 2.00 86.00 108.67 0.27 2.69 2.06 8.39 71.47 55.67 99.20 86.43
Ab 7.87 21.87 7.00 2.32 16.27 5.23 25.57 8.17 2.14 123.33 144.00 0.31 3.06 1.74 9.83 81.20 64.33 98.80 84.90
My 7.36 21.60 5.59 1.78 14.67 3.76 26.10 8.20 2.29 94.00 202.00 0.72 2.75 2.63 8.78 67.00 54.37 98.67 81.17
Jn 7.21 20.30 5.04 1.76 12.63 3.31 22.57 8.20 3.14 94.00 176.67 0.52 2.19 2.53 7.77 60.87 48.00 95.83 83.53
Jl 7.40 20.60 4.80 1.63 12.20 3.76 19.93 8.22 2.12 96.00 196.33 0.33 1.95 2.05 6.39 58.53 47.57 97.10 85.00
Ag 7.47 20.63 4.98 1.67 12.83 3.35 24.33 8.00 2.44 96.67 136.00 0.29 1.80 1.62 5.85 58.27 48.47 94.40 85.40
Se 7.34 21.30 4.82 1.83 12.73 3.32 24.20 8.40 2.36 114.67 217.33 0.69 2.26 2.37 6.49 56.10 47.07 100.70 81.07
Oc 7.19 20.80 5.22 1.88 13.27 3.51 33.10 8.29 2.41 104.00 267.33 0.93 2.24 2.16 7.47 61.37 49.27 97.97 78.93
No 7.32 19.97 5.09 1.58 12.36 3.17 27.63 8.32 2.05 84.67 199.33 1.20 1.96 1.91 6.68 56.90 45.63 96.57 79.10
Di 7.33 19.87 5.24 1.81 12.93 3.75 25.60 8.23 2.21 94.97 174.67 0.60 2.16 2.04 7.23 61.97 49.03 95.63 82.73
J. T REJOS — W. C ASTILLO — J. G ONZÁLEZ

Rev3 pH Temp Na K Ca Mg SiO2 OD DBO SD ST PO4 Cl NO3 SO4 HCO3 DT POD Cal
En 7.00 22.83 4.72 1.04 15.40 3.10 20.00 7.61 3.54 80.00 113.33 0.22 1.03 0.29 3.70 73.50 51.77 95.33 83.80
Fe 7.17 24.07 5.51 1.51 15.90 3.47 19.10 6.93 3.49 88.00 106.00 0.32 2.13 0.86 7.13 69.40 55.50 88.93 82.03
Mz 7.13 22.30 5.77 1.59 17.07 4.09 21.97 7.90 2.84 95.33 122.67 0.33 2.05 1.03 10.62 74.70 61.10 97.77 85.27
Ab 6.57 23.20 7.07 2.03 15.77 3.91 21.73 7.45 7.57 107.33 142.67 0.34 3.11 2.08 13.40 70.60 56.67 94.07 74.50
My 6.84 22.30 4.52 1.28 13.57 2.87 23.50 7.62 2.87 76.00 158.67 0.55 1.70 1.62 6.96 61.13 46.47 94.47 81.63
Jn 7.04 21.57 4.19 3.27 13.70 2.71 21.87 7.97 3.94 86.00 118.67 0.48 1.34 0.56 6.02 60.90 48.57 97.93 82.63
Jl 7.19 21.67 4.43 1.11 13.07 2.81 20.20 7.51 3.42 80.00 150.67 0.33 2.61 0.60 5.12 58.00 45.33 92.10 84.53
Ag 7.36 22.63 4.81 1.36 13.27 3.02 19.93 7.89 2.07 91.33 125.33 0.42 1.56 1.19 5.90 60.07 46.80 98.33 85.80
Se 7.10 22.87 4.49 1.37 12.77 2.91 20.37 7.94 2.09 90.00 172.00 0.57 1.90 2.21 5.24 53.53 45.40 99.70 82.70
Oc 7.12 20.97 4.59 1.45 12.63 2.86 30.10 7.85 2.21 110.00 278.00 0.87 1.93 2.52 7.47 55.63 46.20 95.10 81.70
No 7.42 20.67 4.50 1.35 11.93 2.83 25.13 8.54 2.00 73.33 142.67 0.34 1.32 1.48 5.24 54.33 42.60 102.73 86.53
Di 7.04 20.20 4.56 1.42 11.93 2.85 20.93 8.54 2.00 93.67 127.67 0.48 0.69 0.73 1.77 57.80 42.23 102.27 85.73

Tabla 8.9: Proyecto Angostura: Reventazón 1 y Reventazón 3.


311
312

Tuis4 pH Temp Na K Ca Mg SiO2 OD DBO SD ST PO4 Cl NO3 SO4 HCO3 DT POD Cal
En 7.44 22.07 4.18 1.52 10.37 3.40 29.43 7.95 2.00 88.67 92.00 0.22 0.89 0.46 0.77 62.90 43.07 98.13 88.73
Fb 7.49 23.53 4.92 1.73 15.40 4.25 31.37 7.78 3.27 96.67 100.67 0.22 1.08 1.15 3.28 80.73 63.30 98.27 84.43
Mz 7.65 22.67 5.45 1.80 14.46 4.44 31.13 8.49 2.24 82.00 92.00 0.38 1.34 1.16 2.69 80.13 58.37 106.97 86.77
Ab 7.78 22.37 4.63 1.86 10.84 3.72 36.23 7.88 2.46 99.33 233.33 0.91 0.87 0.62 0.90 66.97 44.17 98.10 80.80
My 7.32 22.63 3.51 1.33 8.96 2.81 28.90 7.90 2.76 60.67 104.00 0.31 0.80 0.79 0.83 54.57 38.47 98.50 86.23
Jn 7.55 21.87 5.30 2.53 10.00 2.44 32.53 8.12 2.08 72.67 75.33 0.23 0.85 1.56 5.17 57.37 37.70 99.83 88.33
Jl 7.41 23.07 3.60 2.08 9.15 3.08 25.00 7.82 2.32 70.33 80.67 0.19 0.87 0.48 1.01 56.07 39.33 98.67 88.27
Ag 7.40 23.40 3.80 1.51 10.12 3.12 28.83 7.09 2.45 85.33 98.00 0.40 0.79 0.47 1.19 58.67 40.07 90.03 85.37
Se 6.95 23.73 3.40 2.67 9.13 2.87 26.83 7.60 2.09 96.67 107.33 0.42 1.03 0.79 1.38 50.77 35.13 97.13 82.97
Oc 7.23 22.00 3.61 1.44 9.49 2.85 35.00 8.33 3.20 85.33 91.33 0.42 0.85 0.73 1.90 53.37 37.47 102.80 84.53
No 7.39 21.80 3.52 1.36 9.49 3.04 24.40 8.27 2.00 69.33 76.67 0.56 0.74 1.06 0.78 57.53 40.93 101.93 87.73
Di 7.12 20.53 3.49 1.47 9.74 3.19 32.23 8.57 2.00 79.67 87.00 0.33 0.82 0.82 1.01 56.73 37.90 103.13 87.63

Tuis5 pH Temp Na K Ca Mg SiO2 OD DBO SD ST PO4 Cl NO3 SO4 HCO3 DT POD Cal
En 7.44 21.97 4.30 1.59 10.87 3.53 29.13 7.78 2.00 87.33 97.33 0.26 0.83 0.47 0.74 64.37 42.20 96.03 87.40
Fb 7.45 23.63 3.97 1.52 10.84 3.46 30.57 7.58 4.78 75.33 134.00 0.42 1.01 1.06 0.93 64.13 44.03 96.67 81.13
Mz 7.88 22.80 4.34 1.68 11.58 3.67 32.33 8.12 2.00 92.67 112.00 0.40 0.89 1.30 1.39 60.20 44.80 101.83 85.23
Ab 8.25 22.80 4.72 1.99 11.50 3.92 32.37 8.18 3.45 98.00 114.00 0.36 0.98 0.56 1.52 65.80 45.23 102.93 81.33
My 7.38 23.27 3.51 1.45 9.08 2.95 28.50 7.75 3.13 63.33 130.67 0.36 0.85 0.96 0.98 53.87 37.73 98.30 84.47
Jn 7.42 21.63 3.46 1.35 9.23 2.83 28.17 7.81 2.43 74.67 106.67 0.34 0.75 0.41 0.96 51.23 36.73 95.60 86.37
Jl 7.13 22.67 3.87 1.48 9.49 3.32 26.30 7.41 2.03 96.67 114.20 0.69 1.00 0.55 1.40 58.17 38.70 92.70 85.20
Ag 7.27 23.23 3.82 1.60 9.99 3.15 29.17 7.08 2.88 86.67 149.33 0.54 0.63 0.54 1.44 55.83 39.67 89.47 81.97
Se 6.74 23.90 3.34 2.29 9.20 2.91 28.37 7.19 4.24 86.00 174.00 0.97 0.90 0.64 0.54 53.43 35.73 92.17 75.83
Oc 7.13 21.93 3.44 1.56 9.11 2.85 34.07 7.85 2.30 95.33 100.67 0.80 1.02 0.75 1.68 52.37 36.33 97.13 83.80
No 7.10 22.03 3.66 1.62 9.59 3.20 30.23 7.72 2.45 72.67 77.33 0.59 0.70 0.78 0.70 60.23 37.60 95.93 86.30
Di 7.03 21.83 3.71 1.57 10.07 3.28 35.77 8.01 2.35 99.00 116.00 0.38 0.81 0.98 0.95 61.17 39.33 98.77 85.87

Turr2 pH Temp Na K Ca Mg SiO2 OD DBO PO4 Cl NO3 SO4 HCO3 DT POD Cal
En 7.61 21.13 9.75 4.91 18.00 11.67 50.17 7.82 1.84 0.55 4.05 5.24 14.17 121.67 93.30 95.33 80.70
Fb 7.74 21.73 9.48 4.69 19.77 11.47 44.33 7.76 1.75 0.46 4.14 5.01 13.21 120.63 97.43 95.60 81.36
Mz 8.07 22.33 10.04 5.48 19.77 12.30 37.80 7.95 2.26 0.59 5.71 6.01 14.67 121.33 102.00 99.00 78.26
Ab 7.86 22.07 11.70 5.50 21.70 14.90 44.00 7.84 2.58 0.87 5.38 5.72 17.50 137.67 116.67 96.67 75.59
My 7.59 23.67 8.60 3.92 16.87 10.25 46.40 7.70 1.31 0.43 4.30 6.70 12.50 107.33 86.80 98.33 81.85
Jn 7.56 22.07 6.54 3.22 12.92 6.84 44.47 8.07 1.56 0.49 2.36 3.35 7.23 86.93 61.27 99.93 83.25
Jl 7.59 22.13 8.44 4.46 16.33 10.73 42.10 7.69 3.59 0.50 3.48 4.88 10.23 104.67 87.03 95.53 78.73

Tabla 8.10: Proyecto Angostura: Tuís 4, Tuís 5 y Turrialba2.


Ag 7.79 22.97 8.66 4.71 16.40 9.91 45.70 7.73 3.75 0.61 3.45 4.49 9.94 102.00 85.43 97.23 78.12
Se 7.31 22.40 8.50 4.86 16.93 10.17 43.70 7.82 3.32 1.29 4.32 5.35 12.47 105.67 86.50 95.77 75.01
Oc 7.34 21.53 8.54 4.93 16.47 9.72 46.50 8.14 4.17 1.92 4.37 4.49 13.40 107.73 85.20 99.87 61.59
No 7.21 20.83 8.84 5.47 17.03 10.53 49.60 7.73 10.92 1.10 2.81 3.71 8.51 114.33 87.57 93.33 74.52
Di 7.38 20.43 7.23 4.24 13.57 8.44 45.90 8.80 2.63 0.37 2.87 4.09 8.79 92.97 70.60 105.33 82.70
8.11 Datos del Proyecto Angostura
J. T REJOS — W. C ASTILLO — J. G ONZÁLEZ 313

Ejercicios

1. Demuestre que la matriz S del método Statis cuyas entradas son


skl = hWk , Wl iΦD es semidefinida positiva, donde Wk = Xk Mk Xtk
y Xk es una matriz de individuos por variables de rango completo por
columnas para k = 1, . . . m.

1
2. En el método Statis, sea Π = m Im la matriz de pesos (todos iguales),
skl = hWk , Wl iΦD . Demuestre que la imagen Euclídea {W c1 , . . . , W
cm }
se puede obtener diagonalizando S en lugar de SΠ.
Indicación: Demuestre que

(a) Si u es vector propio de S asociado al valor propio λ, con kuk = 1,


√ 1
entonces mu es vector propio de SΠ asociado al valor propio m

con k mukΠ = 1.
(b) La imagen Euclídea para {W1 , . . . , Wm } obtenida con los vectores
propios kui k = 1 de S, es la misma que se obtiene con los vectores
propios kui kΠ = 1 de SΠ.

3. Demuestre las siguientes propiedades del compromiso del método Statis:

(a) Si todos los Wk son iguales entonces el compromiso es la media


aritmética de los Wk .
(b) Si algún Wk es muy diferente de los demás (es decir, es tal que
hWk , Wl iΦD = 0, todo l), éste no participa del compromiso
(αk = 0).
1
(c) Si se eligen todos los pesos de los Wk iguales, esto es Π = m Im ,
entonces los mayores αk corresponden a los Wk que en promedio
tienen un mayor RV–coeficiente con el resto de los Wi .
(d) En la imagen Euclídea no centrada de la interestructura, el compro-
miso se encuentra sobre el primer eje a la distancia de ||W||ΦD .
(e) Demuestre las dos propiedades dadas en la subsección denominada
otras propiedades de la sección 8.7.1, página 300.

4. En el contexto del método Statis Dual.

(a) Supóngase que Vk M = Vl M entonces :


314 8.11 Datos del Proyecto Angostura

i. Los A.C.P. de los tripletes (Xk , M, Dk ) y (Xl , M, Dl ), tienen


los mismos vectores y valores propios y, las componentes prin-
cipales, en ambos casos, son combinaciones lineales de las mis-
mas variables con los mismos pesos. Es decir, tienen la misma
interpretación.
ii. Si las matrices Xk , Xl son reducidas entonces las correlaciones
de las variables con las componentes principales en el instante
k, son iguales a las correlaciones de las variables con las com-
ponentes principales en el instante l.
(b) En el caso Vk M = αVl M, entonces hay proporcionalidad en la
estructura de correlaciones.

5. Para estudiar la contaminación en un proyecto hidroeléctrico en Costa


Rica2 se dispone de la observación de 13 variables en 9 puntos de muestreo
durante 4 estaciones climáticas.
Las variables son:

• Nit: concentración de nitratos.


• Fos: concentración de fosfatos.
• Cal: índice de calidad del agua (función no lineal de los parámetros).
• Sto: concentración de sólidos totales.
• pH: potencial hidrógeno.
• Mn: concentración de manganeso.
• Zn: concentración de zinc.
• SS: concentración de sólidos sedimentables.
• Alc: alcalinidad.
• Cl: concentración de cloro.
• Cau: caudal.
• DBO: demanda bioquímica de oxígeno (ppm).
• Por: porcentaje de saturación de oxígeno.

Los sitios de muestreo son:

• Alajuela: río Alajuela.


2
Los datos fueron aportados por la Lic. Vania Morales G. del Laboratorio Químico del Instituto
Costarricense de Electricidad (I.C.E.).
J. T REJOS — W. C ASTILLO — J. G ONZÁLEZ 315

• Ciruelas: río Ciruelas.


• Desf: desfogue.
• Embcen: embalse centro.
• Embori: embalse orilla.
• Embsal: embalse salida.
• Presa: presa.
• QSoto: río Quebrada Soto.
• Virilla: río Virilla.

Las 4 tablas de datos, que corresponden a estaciones climáticas, son:

• V: verano (enero, febrero, marzo, abril).


• VI: transición verano–invierno (mayo).
• I: invierno (junio, julio, agosto, setiembre, octubre).
• IV: transición invierno–verano (noviembre).

Los datos son mostrados en las tablas 8.11, 8.12, 8.13 y 8.14. Aplique el
método Statis para analizar estos datos.
En vista de que se tiene que la posibilidad de aplicar también el método
Statis Dual, ¿cómo cree que se comportarán los resultados del análisis?
316

Punto
Nit Fos Cal Sto pH Mn Zn SS Alc Cl Cau DBO Por
muestreo
Alajuela 2.36 0.43 69.00 156.50 8.41 0.06 0.03 0.20 150.75 7.85 0.45 16.70 87.25
Ciruelas 3.60 0.53 72.25 184.75 8.44 0.04 0.01 0.42 149.50 8.12 1.37 4.78 88.25
Desfogue 0.89 0.70 61.00 172.25 7.31 0.19 0.02 0.55 129.00 3.75 19.90 11.07 48.50
Embcent 1.06 0.69 55.50 177.25 7.21 0.18 0.02 0.72 127.75 3.70 12.00 13.55 58.25
Embori 0.83 0.63 53.25 169.00 7.70 0.18 0.26 0.70 136.75 3.60 12.00 22.18 76.50
Embsal 0.92 0.66 59.00 160.25 7.25 0.18 0.03 0.49 125.75 3.37 12.00 14.02 43.25
Presa 1.44 0.78 58.25 167.50 7.29 0.21 0.03 0.66 120.50 3.92 17.85 25.00 53.25
QSoto 2.14 0.55 71.25 188.25 8.36 0.03 0.02 0.20 165.00 3.60 0.14 3.27 66.50
Virilla 7.65 1.19 58.50 335.50 8.05 0.28 0.06 1.85 182.25 12.90 16.68 21.50 83.50

Tabla 8.11: Proyecto Hidroeléctrico Ventanas–Garita: Verano.


8.11 Datos del Proyecto Angostura
Punto
Nit Fos Cal Sto pH Mn Zn SS Alc Cl Cau DBO Por
muestreo
Alajuela 1.89 0.96 68.50 230.00 8.10 0.16 0.16 0.95 116.50 17.70 0.90 46.35 84.00
Ciruelas 3.74 1.39 63.50 232.50 8.05 0.12 0.04 0.75 128.50 9.30 3.05 46.00 70.00
Desfogue 2.32 0.90 64.00 227.50 7.40 0.26 0.16 0.95 101.00 4.10 37.10 54.15 68.50
J. T REJOS — W. C ASTILLO — J. G ONZÁLEZ

Embcent 2.58 1.21 58.50 288.00 7.25 0.42 0.05 0.65 95.00 4.25 12.00 22.45 57.00
Embori 2.31 1.21 60.50 224.50 7.28 0.16 0.06 0.95 97.00 4.10 12.00 24.25 61.00
Embsal 2.52 1.10 61.50 217.00 7.35 0.21 0.10 0.85 98.00 4.25 12.00 21.65 64.00
Presa 2.71 1.13 62.50 195.00 7.50 0.20 0.02 1.15 104.50 4.10 28.20 90.70 77.00
QSoto 2.42 1.58 68.50 209.00 8.20 0.04 0.03 0.35 153.00 4.55 0.35 20.10 85.50
Virilla 5.73 1.91 57.00 404.00 8.05 0.31 0.07 1.75 153.50 12.85 17.25 116.95 86.50

Tabla 8.12: Proyecto hidroeléctrico Ventanas–Garita: Verano–Invierno.


317
318

Punto
Nit Fos Cal Sto pH Mn Zn SS Alc Cl Cau DBO Por
muestreo
Alajuela 2.13 0.24 80.25 176.25 7.74 0.25 0.07 0.62 104.75 5.90 1.64 4.47 86.00
Ciruelas 3.71 0.37 80.00 190.25 7.75 0.22 0.05 0.46 113.25 7.08 4.68 1.85 83.00
Desfogue 4.08 0.27 81.25 169.00 7.33 0.17 0.04 0.70 85.75 3.27 59.75 1.93 84.50
Embcent 3.86 0.27 81.50 168.00 7.16 0.17 0.48 0.46 78.75 3.35 20.00 1.35 81.75
Embori 3.96 0.27 81.25 160.50 7.17 0.36 0.05 0.33 158.00 3.25 20.00 1.33 82.00
Embsal 4.14 0.25 82.75 152.25 7.26 0.20 0.09 0.37 79.50 3.35 20.00 1.45 84.50
Presa 3.90 0.35 79.25 176.50 7.41 0.37 0.28 0.62 80.25 3.35 53.27 3.77 89.75
QSoto 2.66 0.40 82.25 186.50 8.00 0.03 0.06 0.16 162.50 3.42 0.61 1.75 85.25
Virilla 6.09 0.87 67.00 321.25 7.80 0.28 0.11 1.27 136.00 9.05 50.05 9.35 90.5

Tabla 8.13: Proyecto hidroeléctrico Ventanas–Garita: Invierno.


8.11 Datos del Proyecto Angostura
Punto
Nit Fos Cal Sto pH Mn Zn SS Alc Cl Cau DBO Por
muestreo
Alajuela 1.06 0.46 73.00 180.50 8.05 0.12 0.25 0.45 135.00 10.55 1.21 8.90 79.00
Ciruelas 4.77 0.84 72.50 159.00 8.05 0.08 0.15 0.40 105.00 6.65 3.58 3.50 84.50
Desfogue 1.06 0.33 67.00 134.00 7.30 0.17 0.03 0.70 103.50 2.90 62.25 8.10 51.00
J. T REJOS — W. C ASTILLO — J. G ONZÁLEZ

Embcent 1.11 0.46 60.50 157.50 7.25 0.16 0.07 1.00 99.50 2.75 20.00 9.65 41.50
Embori 1.37 0.37 66.50 158.00 7.30 0.15 0.21 0.85 99.50 2.60 20.00 6.60 49.50
Embsal 1.06 0.37 64.50 156.50 7.30 0.15 0.16 0.45 101.50 2.75 20.00 8.10 47.00
Presa 1.87 0.48 68.00 171.00 7.50 0.18 0.66 0.75 97.50 3.05 46.75 26.60 72.50
QSoto 2.23 0.76 78.00 185.50 8.30 0.00 0.15 0.20 178.50 2.90 0.36 1.50 85.50
Virilla 4.65 0.76 73.00 254.00 8.05 0.21 0.32 0.95 144.50 7.80 42.20 6.50 88.00

Tabla 8.14: Proyecto hidroeléctrico Ventanas–Garita: Invierno–Verano.


319
Indice Alfabético

Φ2 , 18 coeficiente de correlación, 16
χ2 , 18 colonias de hormigas, 324
compromiso, 271, 282
algoritmo voraz, 324 comunalidad, 56
algoritmos genéticos, 324 coordenada factorial, 110
análisis bivariado, 15 coordenadas factoriales, 143
análisis de correspondencias, 102, 328 covarianza, 16
análisis de correspondencias múlti-
ples, 137, 140 datos, 1
análisis de datos simbólicos, 325 desigualdad de Cauchy-Schwartz, 26
análisis discriminante, 237 desviación estándar, 15
análisis discriminante decisional, distancia, 24
238 distancia de chi-cuadrado, 107,
análisis discriminante descriptivo, 141, 143
237 distancia Euclídea clásica, 25,
análisis en componentes principales, 26
110
efecto talla, 62, 91
análisis factorial de correspondencias,
eje factorial, 85, 110
102, 141
enjambres de partículas, 325
análisis univariado, 14
equivalancia distribucional, 107, 134
atributos, 6
escalas de Likert, 78, 293
espacio de individuos, 24
código disyuntivo completo, 138
espacio de variables, 24
categorías, 6
Estadística, 1
centro de gravedad, 104, 106, 141,
142 fórmulas de transición, 130, 173
chi-cuadrado, 18
cociente de correlación, 19 igualdad de Fisher, 204
cociente de Rayleigh, 262 imagen Euclídea, 271
codificación, 6, 10 independencia, 102
coeficiente RV , 278 indicadoras, 7
coeficiente de contingencia Φ2 , 18 indicatrices, 7

339
340 Indice alfabético

índice de chi-cuadrado, 102, 109 producto escalar de Hilbert-Schmidt,


individuo, 2 272
inercia, 109, 165
recocido simulado, 324
inercia inter-clases, 204
relaciones de transición, 112, 144
inercia intra-clases, 204
inercia total, 33, 204 sobrecalentamiento simulado, 324
interestructura, 271, 276 Statis, 270
intraestructura, 271, 285 Statis dual, 299

k-medias, 208, 324 tablas de datos, 8


tabla de Burt, 12, 160, 162, 170
método de nubes dinámicas, 208 tabla de contingencia, 11, 17,
método Statis, 270 100, 328
método Statis dual, 299 tabla de frecuencias, 101
métrica, 26, 270 tabla individuos × variables, 8
métrica de los inversos de las tablas individuos × individuos,
varianzas, 35 12
métrica de Mahalanobis, 266 tablas variables × variables, 10
métrica de pesos, 27, 270 teorema de Rayleigh, 262
métrica identidad, 26, 30, 35 trayectorias, 288
matriz de Burt, 12, 160, 162, 170 trayectoria de un individuo, 288
matriz de covarianzas, 28 trayectorias de las variables, 306
matriz de varianzas-covarianzas, 28
media, 15 unidad de medida, 5
minería de datos, 326 unidad estadística, 2
modalidades, 6 variable, 4
muestra, 2 variable binaria, 6
multipartición, 212 variable categórica, 5
variable continua, 5
norma, 25
variable cualitativa, 5
nubes dinámicas, 208
variable cuantitativa, 4
objeto, 2 variable de conteo, 5
optimización, 215, 323 variable de presencia-ausencia,
6
particionamiento, 201, 215, 324 variable dicotómica, 6
perfiles columna, 105, 142 variable discreta, 5
perfiles fila, 103, 141 variable nominal, 6
pesos de los individuos, 3 variable numérica, 4
población, 2 variable ordinal, 6
ponderación, 3 varianza, 15

Anda mungkin juga menyukai