Anda di halaman 1dari 201

See discussions, stats, and author profiles for this publication at: https://www.researchgate.

net/publication/286931204

Herramientas en el Análisis Estadístico Multivariado

Book · June 2015

CITATIONS READS

7 5,823

4 authors:

Mónica Balzarini Cecilia Bruno


National University of Cordoba, Argentina National University of Cordoba, Argentina
275 PUBLICATIONS   2,076 CITATIONS    54 PUBLICATIONS   191 CITATIONS   

SEE PROFILE SEE PROFILE

Mariano Córdoba Ingrid Teich


National University of Cordoba, Argentina Instituto Nacional de Tecnología Agropecuaria, Centro de Investigaciones Agrope…
30 PUBLICATIONS   113 CITATIONS    29 PUBLICATIONS   163 CITATIONS   

SEE PROFILE SEE PROFILE

Some of the authors of this publication are also working on these related projects:

Anuario estadístico UNC View project

FastMapping View project

All content following this page was uploaded by Mónica Balzarini on 16 December 2015.

The user has requested enhancement of the downloaded file.


Herramientas en el Análisis
Estadístico Multivariado

Escuela Virtual Internacional CAVILA


Facultad de Ciencias Agropecuarias, Universidad
Nacional de Córdoba

Córdoba, Argentina
2015

Mónica Balzarini
Cecilia Bruno
Mariano Córdoba
Ingrid Teich

1
La cita bibliográfica de ésta obra es:

Balzarini M., Bruno C., Córdoba M. y Teich I. 2015. Herramientas en el Análisis


Estadístico Multivariado. Escuela Virtual Internacional CAVILA. Facultad de Ciencias
Agropecuarias, Universidad Nacional de Córdoba. Córdoba, Argentina

2
TABLA DE CONTENIDOS

TABLA DE CONTENIDOS.................................................................................................................................................................... 2

CAPÍTULO I ...................................................................................................................................................... 7

INTRODUCCIÓN AL ANÁLISIS MULTIVARIADO ............................................................................... 7


¿QUÉ ES EL ANÁLISIS MULTIVARIADO? .................................................................................................................................... 8
MATRIZ DE DATOS MULTIVARIADOS Y DISTANCIAS....................................................................................................... 10
ALGUNOS ESTADÍSTICOS BÁSICOS ........................................................................................................................................... 12
REPRESENTACIONES GRÁFICAS DE DATOS MULTIVARIADOS ................................................................................... 15
¿Cómo observar en un espacio de tantas dimensiones? .................................................................................... 15
EJERCITACIÓN ..................................................................................................................................................................................... 24
Consignas ............................................................................................................................................ 25
Respuestas .......................................................................................................................................... 26
Pasos en Infostat ................................................................................................................................. 28

CAPÍTULO II ................................................................................................................................................. 30

ANÁLISIS DE COMPONENTES PRINCIPALES .................................................................................. 30


TÉCNICAS DE ORDENAMIENTO Y REDUCCIÓN DE DIMENSIÓN ................................................................................. 31
ANÁLISIS DE COMPONENTES PRINCIPALES ........................................................................................................................ 31
Interpretación Geométrica ................................................................................................................. 34
Normalidad en el ACP ......................................................................................................................... 36
Correlación entre variables originales y CPs ....................................................................................... 36
Ilustración ........................................................................................................................................... 37
EJERCITACIÓN ..................................................................................................................................................................................... 44
Consignas ............................................................................................................................................ 45
Respuestas .......................................................................................................................................... 46
Pasos en Infostat ................................................................................................................................. 49
Salida del software .............................................................................................................................. 51
Otros ejercicios ................................................................................................................................... 52

CAPÍTULO III ................................................................................................................................................ 53

ESCALAMIENTO MULTIDIMENSIONAL MÉTRICO Y ANÁLISIS DE CORRESPONDENCIAS


........................................................................................................................................................................... 53
ESCALAMIENTO MULTIDIMENSIONAL MÉTRICO .............................................................................................................. 54
Distancias y Similitudes ....................................................................................................................... 57
Índices de similitud para datos binarios ............................................................................................................. 59
Árbol de recorrido mínimo ................................................................................................................. 62
Ilustración .......................................................................................................................................... 63

3
ANÁLISIS DE CORRESPONDENCIA SIMPLE Y MÚLTIPLE ................................................................................................ 68
Ilustración .......................................................................................................................................... 71
EJERCITACIÓN ..................................................................................................................................................................................... 72
Ejercicio 1 (EMD) ................................................................................................................................. 72
Consignas ............................................................................................................................................ 73
Respuestas .......................................................................................................................................... 74
Pasos en Infostat ................................................................................................................................. 78
Salida del software .............................................................................................................................. 80
Ejercicio 2 (Análisis de Correspondencias Múltiples) ......................................................................... 82
Consignas ............................................................................................................................................ 83
Respuestas .......................................................................................................................................... 84
Pasos en Infostat ................................................................................................................................. 85
Salida del software .............................................................................................................................. 87
Otros ejercicios ................................................................................................................................... 88

CAPÍTULO IV ................................................................................................................................................ 89

ANÁLISIS DE CONGLOMERADOS......................................................................................................... 89
ANÁLISIS DE CONGLOMERADOS ................................................................................................................................................ 90
Conglomerados Jerárquicos ................................................................................................................ 90
Conglomerado No Jerárquico ............................................................................................................. 93
Ilustración ........................................................................................................................................... 95
EJERCITACIÓN ..................................................................................................................................................................................... 98
Consignas ............................................................................................................................................ 99
Respuestas ........................................................................................................................................ 100
Pasos en Infostat ............................................................................................................................... 108
Salida del software ............................................................................................................................ 109
Otros ejercicios ................................................................................................................................. 110

CAPÍTULO V............................................................................................................................................... 112

CORRELACIONES CANÓNICAS Y REGRESIÓN POR MÍNIMOS CUADRADOS PARCIALES


........................................................................................................................................................................ 112
ANÁLISIS DE CORRELACIONES CANÓNICAS.......................................................................................................................113
Álgebra del Análisis ........................................................................................................................... 114
Algunas cuestiones sobre ACC .......................................................................................................... 115
Precauciones en la interpretación de las combinaciones lineales ................................................... 115
Ilustración ......................................................................................................................................... 117
REGRESIÓN POR MÍNIMOS CUADRADOS PARCIALES ....................................................................................................119
Álgebra del Análisis ........................................................................................................................... 120
Representación Gráfica ..................................................................................................................... 120
Ilustración ......................................................................................................................................... 120
EJERCITACIÓN ...................................................................................................................................................................................124
Ejercicio 5.1 (ACC) ............................................................................................................................. 124
Consignas: ......................................................................................................................................... 125

4
Respuestas ........................................................................................................................................ 126
Pasos en Infostat ............................................................................................................................... 130
Salida del software ............................................................................................................................ 131
Ejercicio 5.2 (PLS) .............................................................................................................................. 132
Consignas: ......................................................................................................................................... 133
Respuestas ........................................................................................................................................ 134
Pasos en Infostat ............................................................................................................................... 138
Otros ejercicios ................................................................................................................................. 143

CAPÍTULO VI ............................................................................................................................................. 145

ANÁLISIS DISCRIMINANTE Y ÁRBOLES DE CLASIFICACIÓN Y REGRESIÓN .................. 145


ANÁLISIS DISCRIMINANTE .........................................................................................................................................................146
Motivación ........................................................................................................................................ 146
Análisis Discriminante Lineal de Fisher (Dos poblaciones) ............................................................... 147
Algebra del Análisis........................................................................................................................................... 148
Supuestos .......................................................................................................................................................... 149
Análisis Discriminante Canónico ....................................................................................................... 150
Error de clasificación ......................................................................................................................... 152
Ilustración ......................................................................................................................................... 153
ÁRBOLES DE CLASIFICACIÓN Y REGRESIÓN (ALGORITMOS CART) .......................................................................158
Procedimiento................................................................................................................................... 158
Ilustración ......................................................................................................................................... 159
EJERCITACIÓN ...................................................................................................................................................................................161
Ejercicio 6.1 (ADL) ............................................................................................................................. 161
Consignas: ......................................................................................................................................... 162
Respuestas ........................................................................................................................................ 163
Pasos en Infostat ............................................................................................................................... 167
Salida del software ............................................................................................................................ 168
Ejercicio 5.2 (Árboles de Clasificación) ............................................................................................. 170
Consignas: ......................................................................................................................................... 171
Respuestas ........................................................................................................................................ 171
Pasos en Infostat ............................................................................................................................... 173
Salida del software ............................................................................................................................ 175
EJERCICIO 5.3 (Árboles de Regresión)............................................................................................... 175
Consignas: ......................................................................................................................................... 175
Pasos en Infostat ............................................................................................................................... 177
Salida del software ............................................................................................................................ 178
Otros ejercicios ................................................................................................................................. 179

CAPÍTULO VII ........................................................................................................................................... 181

TÓPICOS ESPECIALES: ANÁLISIS ESPACIAL MULTIVARIADO ............................................. 181


USO DE INFORMACIÓN ESPACIAL EN EL ANÁLISIS MULTIVARIADO .....................................................................182
¿Para qué utilizar la información espacial? ...................................................................................... 182

5
¿Cómo incorporar la información espacial al análisis multivariado? ............................................... 182
Análisis espaciales a utilizar a posteriori del ACP (sobre las variables sintéticas) ............................ 184
Índice de autocorrelación espacial de Moran ................................................................................................... 184
Semivariogramas e interpolación de las CPs para construir mapas sintéticos de variabilidad ....................... 185
MULTISPATI-PCA: un método que incorpora la información espacial a priori del ACP.................... 188
INSTALACIÓN DEL MENÚ ESTADÍSTICA ESPACIAL EN INFOSTAT ...............................................................190
EJERCITACIÓN ........................................................................................................................................................................191
Ejercicio 7.1 ....................................................................................................................................... 191
Consignas: ......................................................................................................................................... 192
Respuestas ........................................................................................................................................ 193
Pasos en Infostat ............................................................................................................................... 195
Salida del software ............................................................................................................................ 196
Otros ejercicios ................................................................................................................................. 198

REFERENCIAS .......................................................................................................................................... 199

6
CAPÍTULO I

INTRODUCCIÓN AL ANÁLISIS MULTIVARIADO

7
¿QUÉ ES EL ANÁLISIS MULTIVARIADO?

Los métodos y modelos del análisis multivariado (AM) permiten explorar,


describir e interpretar datos que provienen del registro de varias variables sobre un
mismo caso objeto de estudio. Como las variables representan atributos de la misma
unidad de análisis, usualmente están correlacionadas. El AM no solo describe sino que
toma ventaja de esta correlación para caracterizar los casos. El AM provee
herramientas para comprender la relación (dependencia) entre las variables medidas
simultáneamente sobre la misma unidad, para comparar, agrupar y/o clasificar
observaciones multivariadas e incluso para comparar, agrupar y clasificar variables.
Gran parte de la metodología disponible se usa de manera exploratoria, para
describir tendencias y principales fuentes de variación en los datos. Los estudios
exploratorios pueden realizarse sin la necesidad de vincular los datos con hipótesis.
Otras técnicas multivariadas son confirmatorias y se aplican para responder a
hipótesis referidas a la variabilidad multidimensional de las unidades de estudio y
sus causas de variación.
En todos los casos los estudios son multidimensionales, es decir abordan la
variabilidad entre los objetos en sentido multivariado. ¿Cómo varían los casos de
estudio, es decir cuáles son más parecidos y cuáles más diferentes, si interpretamos a
éstos en el espacio multidimensional en el que quedan situados según los valores
registrados para cada variable o dimensión de análisis.
Gran parte de la metodología multivariada se basa en los conceptos de
distancia y de dependencia lineal. Las distancias serán usadas como medidas de
variabilidad entre pares de puntos que representan los datos multivariados y a partir
de ellas es posible analizar similitudes y diferencias entre observaciones y/o
variables. Mientras que el análisis univariado explora datos de cada variable
independientemente, el análisis multivariado explora tablas de datos de varias
variables y por tanto permite contemplar distintos tipos de dependencias entre
variables: dependencias entre cada par de variables, entre una variable y todas las
restantes, entre pares de variables controlando por el efecto de otras en el sistema
multivariado y dependencia conjunta entre todas las variables. Los proyectos de
recolección de datos que producen información multivariada pueden ser tanto
observacionales como experimentales.

8
Para explicar que significa “análisis multivariado” se encuentran en la
literatura distintas definiciones. Kendall (1975) interpreta el análisis multivariable
como el conjunto de técnicas estadísticas que analizan simultáneamente más de dos
variables. Con esta definición, cualquier técnica estadística para el estudio de
asociaciones y relaciones puede considerarse una técnica de análisis multivariado.
Seber (1984) se refiere al análisis multivariable como aquel orientado al estudio de
vectores de variables aleatorias correlacionadas. Para Johnson y Wichern (1998) el
AM es una bolsa mixta que contiene métodos apropiados para investigaciones
científicas y tecnológicas donde los objetivos son uno o varios de los siguientes:
1. Reducción de dimensionalidad o simplificación estructural. El fenómeno en estudio
involucra numerosas variables, para facilitar su interpretación se desea representarlo
tan simple como sea posible sin sacrificar información valiosa.
2. Agrupamiento y Clasificación. Se desea crear, a partir de las características medidas,
grupos de objetos o variables “similares”. Alternativamente, se puede requerir el
establecimiento de reglas para clasificar objetos en grupos bien definidos.
3. Investigación de la dependencia entre variables. La naturaleza de la correlación
entre varias variables es de interés. Son todas las variables mutuamente

cierto, cómo dependen?


4. Predicción. La relación entre variables debe ser determinada para predecir los
valores de una o más variables sobre la base de observaciones sobre las otras
5. Construcción y Prueba de Hipótesis. Se prueban hipótesis estadísticas específicas,
formuladas en término de los parámetros de distribuciones multivariadas.

Por mencionar algunas de las técnicas multivariadas comunes en relación a la


clasificación anterior diremos que los métodos denominados Análisis de
Componentes Principales, Análisis de Correspondencias, Coordenadas Principales o
Escalamiento Multimensional Métrico, y los gráficos conocidos como Biplots son
técnicas generalmente utilizadas para la reducción de dimensión y el ordenamiento
de observaciones multivariadas. Mientras que el Análisis de Conglomerados se usa
para agrupamiento de individuos o variables y generación de tipologías, el Análisis
Discriminante para clasificación y predicción, los Análisis de Correlaciones Canónicas
y las Regresiones Multivariadas, como PLS, para la investigación de dependencia

9
entre variables y el Análisis Multivariado de Varianza (MANOVA) para prueba de
hipótesis sobre vectores medios de distribuciones multivariadas.

MATRIZ DE DATOS MULTIVARIADOS Y DISTANCIAS

La información multivariante se dispone generalmente en una matriz de datos, de


dimensión n×p, siendo n el número de casos y p el número de variables registradas
sobre cada caso. Las p variables pueden tener todas la misma “jerarquía” es decir
puede que no haya una variable output del sistema o variable dependiente/respuesta.
La organización de datos para un análisis multivariado se realiza generalmente en
forma de una matriz con n filas, cada fila conteniendo las observaciones registradas
sobre un mismo individuo, y p columnas cada una representando una variable
aleatoria. Llamaremos X , a la matriz de datos de dimensión np donde cada fila es un
caso u observación multivariada. Una observación multivariada es la colección de
mediciones sobre p variables diferentes tomadas sobre el mismo ítem o unidad objeto
de estudio.

Variable X1 X2 Xj Xp
Caso
1 X 11 X 12 ... X1 j ... X1 p
2 X 21 X 22 ... X2 j ... X2p
. . . ... . ... .
. . . ... . ... .
n X n1 X n2 ... X nj ... X np
Figura 1.1: Organización de datos multivariados

Cada observación multivariada es representada por un vector p-dimensional de


variables aleatorias y puede ser conceptualizada como un punto (o vector desde el
origen) en el espacio R p con coordenadas igual al valor de cada una de las variables
para esa observación. El vector de variables para una observación puede considerarse
como una variable vectorial o multivariante p-variada.

Por ejemplo, en la Figura 1.2 se presenta la representación de 3 observaciones


bivariadas en el espacio generado por dos variables en estudio (altura y peso).

10
3

Obs Altura Peso 2

Altura
1 2 3
2 1 2 1
3 3 2
0
0 1 2 3
Peso

Figura 1.2: Visualización de observaciones en el espacio de las variables.

La distancia entre un par de puntos que representan casos en el espacio que tiene como ejes
a las variables indica la disimilitud entre los casos. A mayor distancia, menor parecido o
similitud multivariada entre los casos.
Para datos cuantitativos, una de las métricas de distancia más usada es la Euclidea. Por
ejemplo, en este espacio de dos dimensiones (Altura y Peso), la distancia (al cuadrado)
entre las observaciones 1 y 2, puede calcularse como la hipotenusa de un triángulo
rectángulo que tiene a estos dos puntos como vértices. Así la distancia bidimensional entre
la observación 1 y 2 será igual a la suma de dos catetos al cuadrado. Un cateto representa
cuán lejos están los puntos 1 y 2 en una dimensión de análisis (por ej., Peso) y el otro la
distancia en la segunda dimensión de análisis (Altura). En el ejemplo la distancia entre el
par de observaciones 1,2 es raíz cuadrada de 2.
Una importante propiedad de esta métrica de distancia es que puede generalizarse
fácilmente a espacios de mayor dimensión. En la dimensión p, la distancia Euclidea
comprende la suma de diferencias entre los puntos en p dimensiones.

Ejemplo: En el Archivo Proteinas.idb (abrirlo desde InfoStat) existen n=25 casos y p=9
variables. Se trata de los alimentos que actúan como Fuentes proteicas para distintos países
europeos (Manly, 2005). Decimos que la matriz de datos es 25×9.
Nuestro objetivo será explorar la variabilidad (similitudes y diferencias) entre los objetos
de estudio (países) mediante la observación conjunta del perfil de alimentación proteica de
cada país, es decir posicionando a cada país según el consumo de las 9 fuentes proteicas
simultáneamente. Podríamos dibujar una nube de puntos como la siguiente, que representa
a nuestros casos es el espacio de dos de las variables originales medidas.

11
18 Francia Inglaterra

15 Irlanda
Bélgica
Suiza

Carne Vacuna
12
Albania AlemaniaO
Rusia
9 Bulgaria Austria
AlemaniaE
6 Portugal Rumania
Hungría
3 Yugoslavia

0
0 1 3 4 5
Huevos

Figura 1.3. Nube de puntos usada para representar 25 países en el espacio


bidimensional dado por el consumo de carne vacuna y de huevos.

No obstante, dado que las observaciones multivariadas se obtuvieron midiendo 9


variables, se necesita un espacio de dimensión 9 (un eje para cada variable) para
situar cada observación y para analizar las distancias multivariadas entre cualquier
par de ellas.
La matriz de distancias contiene todas las distancias de a pares entre las
observaciones. La diagonal principal es cero, ya que se dispone la distancia de un
individuo consigo mismo. La matriz es simétrica por propiedad de la métrica de
distancia: la distancia entre el caso 1 y 2 es la misma que entre el caso 2 y 1. Por ello,
muchas veces las matrices de distancias se presentan solo como matrices
triangulares.
La matriz nn de distancias p-dimensionales entre lo n individuos es ampliamente
usada para describir datos multivariados. Las distancias son calculadas con distintas
expresiones según la naturaleza de los datos, hasta ahora hemos hablado de la
métrica Euclidea o Pitagórica usada para datos cuantitativos.

ALGUNOS ESTADÍSTICOS BÁSICOS

Antes de comenzar con el análisis descriptivo multivariado, se revisan las medidas


resumen más usadas en el análisis descriptivo univariado, ya que es recomendable

12
que todo análisis comience con un análisis descriptivo (gráficos y medidas resumen)
de cada una de las variables separadamente y prosiga con el análisis bivariado antes
del análisis multivariado.
Si X es una variable aleatoria con valores xi para i=1,..., n , la medida de tendencia
central más usada en estadística univariada es la media aritmética que si la variable
es cuantitativa informa sobre el centro de gravedad de los datos, mientras que si la
variable es binaria provee la frecuencia relativa del evento “éxito”. Como medida de
dispersión, la más frecuentemente usada es la desviación típica o desviación estándar,
que es función directa de la varianza. La varianza representa la media de los desvíos
cuadráticos de cada valor de la variable respecto a la media. La varianza muestral de
una variable X es,
n
S X2  c ( xi  x )2
i 1

donde la constante c puede ser 1/n ó 1/(n-1) de acuerdo se trate del estimador
máximo verosímil o del estimador insesgado de la varianza poblacional. La desviación
estándar muestral para la misma variable es S X  S X2 . Como ésta depende de las
unidades de medidas usadas, fundamentalmente cuando se quieren comparar la
dispersión de conjuntos de datos en distinta escala, se utiliza el coeficiente de
variación (desvío estándar/media)*100; esta es una medida que no depende de las
unidades de medida. Para estudiar la distribución de cada variable, los gráficos más
frecuentes son los histogramas y los gráficos de cajas si las variables son cuantitativas
y los gráficos de sectores si éstas son cualitativas.
Con dos variables Xj y Xk, el gráfico típico es el de dispersión a partir del cual es
posible indagar sobre la dependencia lineal entre ambas variables. Una media de la
dependencia lineal es la covarianza entre las variables (promedio, a través de las
observaciones, de los productos de los desvíos del valor de cada variable respecto a
su media). La covarianza entre dos variables mide cómo varían las dos variables
conjuntamente. La covarianza entre la j-ésima y k-ésima variable es:
n
S jk  c ( xij  x j )( xik  xk ) para j,k=1,...,p
i l

Las covarianzas, al igual que las varianzas dependen de las unidades de medida y por
eso en lugar de covarianzas muchas veces se habla de correlación lineal entre las

13
variables (covarianza entre las variables, estandarizada por el desvío estándar de
cada variable). El coeficiente de correlación producto-momento de Pearson es una
medida de la magnitud de la asociación lineal entre dos variables que no depende de
las unidades de medida de las variables originales. Para las variables j-ésima y k-
ésima se define como,
 n 
  ( xij  x j )( xik  xk )  /(n  1)
rjk 
S jk
  i l 
S 2j Sk2  n 2   n 2 
   ( xij  x j )  /(n  1)    ( xik  xk )  /(n  1) 
  i l    i l  

El coeficiente tiene el mismo valor cuando S jk , S 2j y S k2 son expresadas con divisor n o

n-1. El coeficiente de correlación muestral representa la covarianza de los valores


muestrales estandarizados. Este coeficiente tiene 3 propiedades: 1) asume valores en
el intervalo [-1;1], 2) si existe una relación lineal entre las variables, es decir Y=a+bX,
el coeficiente de correlación lineal es 1 si b>0 y -1 si b<0 es decir el signo del
coeficiente indica la dirección de la asociación (tiene valores negativos cuando la
tendencia promedio indica que cuando un valor en el par observado es más grande
que su media el otro valor es más pequeño que su media) y 3) el valor del coeficiente
de correlación permanece sin cambio si las n mediciones de la j-ésima variable son
reemplazados por la combinación lineal yij  axij  b y los valores de la k-ésima variable

son reemplazados por yik  cxik  d donde a y c tienen el mismo signo, es decir el

coeficiente es invariante ante transformaciones lineales de las variables.

Matriz de Varianzas y Covarianzas (S). Para una muestra de n observaciones p-


variadas, las varianzas de las p variables y las covarianzas entre ellas son dispuestas
en una matriz cuadrada pp simétrica, que denotaremos con S, que contiene las
varianzas de cada una de las p variables sobre la diagonal principal y las covarianzas
entre cada par de variables como elementos fuera de la diagonal principal. Dicha
matriz es conocida como matriz de varianzas y covarianzas muestral y tiene la
siguiente forma,

14
 S12 S12 ... S1 p 
S S22 ... S 2 p 
 21 
. . ... . 
S
 . . ... . 
 . . ... . 
 
 S p1 S p2 ... S p2 

La matriz de varianza-covarianza tiene p varianzas y p(p-1)/2 covarianzas. Esta


matriz S es semidefinida positiva, i.e. para todo vector v en Rp se verifica que v ' S v  0 .

Matriz de correlación (R): Para una muestra de n observaciones p-variadas, las


correlaciones lineales entre cada par de variables son dispuestas en una matriz
cuadrada pp simétrica, que denotaremos con R, que contiene unos sobre la diagonal
principal y los coeficientes de correlación de Pearson entre cada par de variables
como elementos fuera de la diagonal principal.

REPRESENTACIONES GRÁFICAS DE DATOS MULTIVARIADOS

¿CÓMO OBSERVAR EN UN ESPACIO DE TANTAS DIMENSIONES?

Una etapa importante en el análisis y modelación de datos multivariados es su


representación gráfica. John Tukey (1977) en su trabajo sobre análisis exploratorio
de datos recomienda “mirar a los datos para ver que pretenden decir”. Los gráficos,
además de servir para la presentación de datos y resultados, permiten identificar
observaciones raras, tendencias y/o agrupamientos preliminares e hipotetizar
posibles modelos para su análisis. Debido al gran número de variables involucradas,
no es una tarea fácil examinar gráficamente datos multivariados. Por ejemplo, para
construir todos los gráficos de dispersión de a pares se requiere p(p-1)/2 gráficos,
donde p es el número de características. Además de realizar histogramas, gráficos de
tallos y hojas, “box-plot”, sobre las observaciones (preferentemente estandarizadas)
de cada variable, existen diversos tipos de gráficas para representar observaciones
multivariadas, muchas de ellas son verdaderas técnicas de reducción de dimensión.
En general se persigue la graficación en espacios visuales de menor dimensión que
preservan las relaciones entre las observaciones en el espacio original.

15
Matriz de gráficos de dispersión. Corresponde a la matriz pp de gráficos de
dispersión de todos los pares de variables en estudio (Figura 1.4). En la diagonal
principal pueden graficarse los histogramas, gráficos de cajas o simplemente
identificarse cada una de las p variables en orden. Se pueden introducir variables
clasificatorias o de agrupamiento en este tipo de gráficos a través de la selección de
colores y formas de símbolos en cada gráfico de dispersión. A continuación se
grafican las relaciones de a pares de las variables de un conjunto de datos sobre
biomasa, Ph, Zinc, Salinidad y Potasio registrados en un experimento fisiológico de
laboratorio diseñado para analizar relaciones entre la biomasa de plántulas y las
condiciones del medio de cultivo donde se desarrollan las mismas.

Biomasa

pH

Salinidad

Zinc

Potasio

Figura 1.4: Matriz de diagramas de


dispersión

Gráfico de estrellas. Los gráficos de estrellas (Chambers, et al., 1983) son útiles para
visualizar observaciones multivariadas. Una observación p-dimensional es
representada en el plano por una estrella construída sobre un círculo con p radios o
rayos igualmente espaciados que nacen desde el centro del círculo (Figura 1.5). La
longitud de la estrella sobre cada radio representa el valor de la variable asociada al
rayo. Observaciones estandarizadas ayudan a la interpretación simultánea. Para
eliminar valores negativos, se puede seleccionar como centro del círculo al valor más
pequeño y expresar a los otros en relación a esta. Otra técnica usada con el mismo fin
es el uso de la transformación rango. Las estrellas son usualmente presentadas en un

16
arreglo matricial. Los patrones dominantes permiten clasificar visualmente las
observaciones. A continuación se presenta el gráfico de estrella para la primera y
última observación del ejemplo anterior.

45

Figura 1.5: Gráfico de estrellas de dos observaciones multivariadas

Caras de Chernoff. Chernoff (1973) sugirió representar observaciones p-


dimensionales a través de rostros donde cada característica del mismo depende del
valor de una de las variables analizadas (Figura 1.6). Johnson y Wichern (1998)
encuentra interesante este tipo de gráficos diciendo que las personas reaccionan a las
caras; presenta un ejemplo de un archivo con 22 observaciones multivariadas, cada
una de ellas correspondiendo a una compañía de servicios públicos. Para cada
compañía se registraron 8 variables, las magnitudes de estas variables son
representadas según distintas características de las caras: la altura de la mitad
superior de la cara, el alto, la posición del centro de la boca, las cejas, la excentricidad
de los mismos, la longitud de la nariz, la longitud de los ojos y la curvatura de la boca.
Las caras resultantes permiten agrupar visualmente a las 22 firmas en 7 grupos.

17
Figura 1.6: Caras de Chernoff (Johnson & Wichern,1998)

Gráficos de perfiles multivariados. Cuando se tienen medidas repetidas en el


tiempo de una variable o varias variables medidas en un mimo sujeto o unidad
experimental, se pueden visualizar los perfiles multivariados de cada sujeto. Si los
perfiles que se muestran son el resultado de promediar la respuesta de varias
repeticiones o unidades, entonces tiene sentido mostrar barras de error estándar
para cada variable. Como ejemplo se presenta el diagrama de perfiles multivariados
para la evolución de altura desde la siembra y hasta el día 505 en 3 procedencias de
Prosopis chilensis (Figura 1.7).

18
Titulo

122.3

94.4

Altura (cm)
66.4

38.5

10.6
D060 D120 D324 D498
D030 D090 D197 D434 D505

Figura 1.7: Gráfico de Perfiles Multivariados

Biplots. Los gráficos de dispersión son usados para visualizar directamente las
observaciones o las variables, las relaciones en otra dimensión son sólo implícitas.
Los gráficos Biplots propuestos por Gabriel (1971,1981), muestran las observaciones
y las variables en el mismo gráfico, de forma tal que se pueden hacer interpretaciones
sobre las relaciones conjuntas. El prefijo "bi" en el nombre biplot refleja la
característica de que tanto observaciones como variables, son representadas en el
mismo gráfico.
En los Biplots, las observaciones son generalmente graficadas como puntos. La
configuración de los puntos es obtenida a partir de combinaciones lineales de las
variables originales. Las variables son graficadas como vectores desde el origen. Los
ángulos entre las variables representan la correlación entre las variables.
Las dimensiones seleccionadas para el biplot son aquellas que mejor explican la
variabilidad de los datos originales. Distintos análisis multivariados permiten
encontrar los ejes óptimos para la graficación de observaciones y variables en un
espacio común. Veremos aplicaciones de estos gráficos en Análisis de Componentes
Principales, en Análisis de Correlaciones Canónicas y en Análisis Discriminantes.
En los biplots la distancia entre símbolos representando observaciones y símbolos
representando variables no tiene interpretación, pero las direcciones de los símbolos
desde el origen si pueden ser interpretadas. Las observaciones (puntos filas) que se
grafican en una misma dirección que una variable (punto columna) podría tener
valores relativamente altos para esa variable y valores bajos en variables o puntos

19
columnas que se grafican en dirección opuesta. Dependiendo de las condiciones de
optimalidad especificadas, las distancias entre los puntos filas o entre los puntos
columnas pueden ser estadísticamente interpretadas, los ángulos entre los vectores
que representan las variables pueden ser interpretados en términos de las
correlaciones entre variables y las longitudes de los rayos pueden hacerse
proporcionales a las desviaciones estándar. Cuando las longitudes de los vectores son
similares el gráfico sugiere contribuciones similares de cada variable en la
representación realizada.
Gráficos de escalamiento multidimensional. La técnica de escalamiento
multidimensional explora las similitudes (o distancias) entre observaciones y permite
mostrarlas entre ellas de manera gráfica. Son útiles para mostrar distancias entre
datos para los cuales las medidas Euclídeas no son apropiadas o se desea, por alguna
otra razón, usar una medida de distancia alternativa (por ejemplo, una función de un
índice de asociación). El objetivo es mostrar las relaciones entre observaciones,
representadas por distancias o similitudes, en un plano tal que las distancias
verdaderas sean preservadas tanto como sea posible.
Ejemplo. Los datos originales corresponden a la matriz de distancias aéreas entre
ciudades de USA. Es importante notar que a pesar de representar los datos en dos
dimensiones, i.e. en el plano, la ubicación de los puntos en la gráfica reproduce su
posición relativa en un mapa físico (con el Sur en la parte superior de gráfico). Se
presentan los gráficos del EM métrico que luego será presentado mas detalladamente
como ACoorP (Figura 1.8)

20
Figura 1.8: Escalamiento Multidimensional Métrico

Arboles de Recorrido Mínimo (Mínimun Spanning trees). Los árboles de recorrido


se construyen uniendo puntos que representan observaciones multivariadas y que se
proyectan en un plano como resultado de alguna técnica de reducción de dimensión.
Los puntos son conectados con segmentos de líneas rectas tal que todos los puntos
quedan unidos directa o indirectamente y no hay loops (Gower y Ross, 1969). El árbol
de mínimo recorrido es un árbol de recorrido con segmentos conectados de tal
manera que la suma de las longitudes de todos los segmentos es mínima. El árbol de
mínimo recorrido puede calcularse a partir de la matriz de distancia de las
observaciones multivariadas en el espacio p-dimensional en el que viven o a partir de
matrices de distancia en espacios de menor dimensión. Cuando puntos p-
dimensionales (con p>2) son conectados, en el plano, en función de su distancia en el
espacio original, el árbol de mínimo recorrido puede proveer información sobre
similitudes de las observaciones en otras dimensiones no directamente
representadas en el plano. Por ejemplo, algunos puntos que se encuentran muy cerca
en el espacio bidimensional podrían estar, en su espacio original, más lejos de lo que
aparentan en el plano. Los árboles de mínimo recorrido conceptualmente se ligan al
algoritmo de agrupamiento conocido como encadenamiento simple y en ese sentido
son usados no solo para representación gráfica sino también para formar
conglomerados de puntos.

21
Ejemplo: una investigación involucró la identificación de 18 especies vegetales en un
gradiente de humedad de 10 niveles. La Figura 1.9 corresponde al gráfico BIPLOT de
este conjunto de datos y la Figura 1.10 a los árboles de recorrido mínimo para las
observaciones (arriba) y para las variables (abajo) (Moser, 1994). Los árboles
permiten ordenar las especies en relación a la salinidad y humedad decreciente de
izquierda a derecha.

Figura 1.9: Biplot (Moser, 1994)

22
Figura 1.10: Arboles de Mínimo Recorrido (Moser, 1994)

23
EJERCITACIÓN

Base de datos: Ejercicio1_CAVILA_prosopis.IDB2


Descripción de los datos: La base de datos contiene la caracterización morfológica
de un enjambre híbrido de Prosopis flexuosa y P. chilensis ubicado en una parcela de
4700 m2 el Parque Provincial y Reserva Forestal Chancaní, en el oeste de la provincia
de Córdoba, Argentina (Mottura 2006). La base contiene 81 filas, las cuales
corresponden a cada árbol. La primer columna corresponde al número identificador
de cada individuo, la segunda columna indica su clasificación en P. flexuosa, P.
chilensis o híbrido. Del total de individuos, 8 fueron clasificados como híbridos, 63
como P. flexuosa y 10 como P. chilensis. Las siguientes columnas corresponden a 13
caracteres morfológicos cuantitativos (Tabla 1.1), los cuales fueron medidos en 10
hojas y 5 frutos por individuo.
Tabla 1.1: Caracteres morfológicos

NPI Número de pares de pinas


LPI Largo de la pinna (mm)
NFO Número de pares de foliólulos
DIFOL Distancia entre foliólulos en la pinna (mm)
LF Largo del foliólulo (mm)
L-AF Relación Largo/Ancho del foliólulo
AR Área del foliólulo (cm2)
AFOL Área total de la hoja (cm2)
LPE Largo del pecíolo
Relación entre el área del tercio superior del foliólulo respecto del
API
rectángulo en que se inscribe la misma.
G-AFR Relación ancho/grosor de fruto
Relación entre la superficie del tercio superior del foliólulo respecto del
APT
área total del foliólulo
Falcado (Relación entre la distancia desde el ápice hasta la base del
FAL
foliólulo y la longitud de una línea que pasa por el centro del foliólulo)

24
CONSIGNAS

1) Calcule las distancias euclídeas multivariadas entre individuos


utilizando todos los caracteres y responda:
1.1) ¿Cuáles son los dos árboles más disímiles morfológicamente y a qué
especies pertenecen? ¿Cuál es la distancia morfológica entre ambos
individuos?
1.2) ¿Cuáles son los dos árboles más parecidos?
1.3) Cuando pide los resultados como un vector, ¿cuántas distancias
aparecen (es decir cuántas filas tiene la columna)? ¿Por qué?
1.4) ¿En este caso, es conveniente estandarizar los datos para calcular las
distancias morfológicas? ¿Por qué?

2) Obtenga la matriz de distancias euclídeas multivariadas entre grupos (P.


chilensis, P. flexuosa e híbridos) utilizando todos los caracteres y
responda:

2.1) ¿Cuál es la distancia entre P. flexuosa y P. chilensis?

2.2) Morfológicamente, los híbridos son más similares a P. chilensis o a P.


flexuosa?

25
RESPUESTAS

1.1) Los individuos más diferentes entre sí son el 9 y el 79, con una distancia
morfológica de 11.59 entre ellos. El 9 es un P. flexuosa y el 79 un P. chilensis.

Nota: para encontrar más rápidamente la mayor distancia, conviene pedir los
resultados como un vector y luego ordenarlos de mayor a menor

Para ordenar los datos, una vez obtenida la tabla con las distancias en forma de
vector (una columna), ir a Datos>Ordenar

26
1.2) Los individuos más parecidos entre sí son el 25 y el 35, con una distancia
morfológica de 0.89 entre ellos. Ambos son P. flexuosa.

1.3) Hay 3240 distancias, es decir [(n*n)-n]/2, que dado que nuestro n es 81,
corresponden a [(81*81)-81]/2. La matriz de distancias tiene 81 filas y 81
columnas, por lo tanto, en la matriz aparecen 81*81 distancias (6561
distancias). Sin embargo la diagonal es de ceros ya que en la diagonal se ubican
las distancias de cada individuo consigo mismo. Esas distancias no aparecen
en el vector, por lo tanto se restan 6561-81= 6480. Además, en la matriz de
distancias puede observarse que los elementos por arriba de la diaginal son
iguales a los elementos por debajo, ya que la distancia entre el individuo i y el
individuo j, es igual a la distancia entre el individuo j y el individuo i, por lo
tanto, el número de distancias se reduce a la mitad, quedando 6480/2=3240.

1.4) En este caso es conveniente estandarizar los datos ya que las variables tienen
distintas medias y distintas varianzas.

27
2.1) Matriz de distancias entre especies (e híbridos):
Hibrido P. chilensis P. flexuosa
Hibrido 0 4.69 3.73
P. chilensis 4.69 0 6.49
P. flexuosa 3.73 6.49 0

La distancia entre P. flexuosa y P. chilensis es 6.49.

2.2) Los híbridos son morfológicamente más similares a P. flexuosa

PASOS EN INFOSTAT

Cómo pedir las distancias

Seleccionamos las variables y el criterio de clasificación, en este caso Individuos, para


calcular distancias entre especies, en vez de individuos poner clasificación en
Criterios de clasificación

28
29
CAPÍTULO II

ANÁLISIS DE COMPONENTES PRINCIPALES

30
TÉCNICAS DE ORDENAMIENTO Y REDUCCIÓN DE DIMENSIÓN

Las técnicas de reducción de dimensión permiten examinar todos los datos en un


espacio de menor dimensión al espacio original de las variables. En lugar de
considerar cada una de las variables separadamente (análisis univariado), se
construye un número (generalmente reducido) de nuevas variables sintéticas de tal
manera que estas nuevas variables contengan una alta proporción de la información
contenida en el conjunto de variables originales.
Las observaciones son luego ordenadas, usando estas nuevas variables
sintéticas. Como el ordenamiento de los casos se produce en un espacio de menor
dimensión, estas técnicas también reciben el nombre de técnicas de ordenamiento.
Las técnicas de ordenación multivariada y de reducción de dimensión permiten
obtener gráficos de pocas dimensiones para datos multivariados correspondientes a
espacios de mayor dimensión. Comúnmente se consideran dos dimensiones y los
datos se presentan en diagramas de dispersión donde los ejes son las nuevas
variables construidas. Estos gráficos de dispersión reciben el nombre de planos
factoriales y los ejes que los conforman, “ejes factoriales”. La ordenación de las
observaciones logradas a partir de estos gráficos puede luego ser correlacionada con
información auxiliar, usada para agrupamiento, clasificación, resumen de la
información, formulación de modelos e hipótesis. A continuación se describen
algunas de las técnicas de ordenamiento y reducción de dimensión mas utilizadas en
la práctica del análisis multivariado.

ANÁLISIS DE COMPONENTES PRINCIPALES

El análisis de componentes principales (ACP) provee una aproximación para la


construcción de estas nuevas variables sintéticas y para decidir cuántas nuevas
variables podrían ser necesarias para representar bien la información original.
Es importante notar que las diferencias en los datos generan variabilidad, que en
estadística se mide como varianzas; y la variabilidad conjunta de dos variables se
representa por su covarianza. Luego una forma de resumir y ordenar los datos es a

31
través del análisis o la explicación de la estructura de varianza-covarianza del
conjunto de variables en estudio.
El análisis de componentes principales es una técnica frecuentemente utilizada
para ordenar y representar datos multivariados continuos (o discretos ordinales) a
través de un conjunto de d=1,...,p combinaciones lineales ortogonales normalizadas de
las variables originales que explican la variabilidad existente en los datos de forma tal
que ningún otro conjunto de combinaciones lineales de igual cardinalidad (i.e. de
igual cantidad de variables sintéticas) tiene varianza de las combinaciones mayor a la
del conjunto de componentes principales. Usualmente d es mucho menor que p y por
ello la técnica implica una reducción de la dimensión y una consecuente facilitación
en la interpretación de los datos. No es necesario asumir ninguna estructura a priori
del análisis, la idea es encontrar combinaciones lineales de las variables originales
con ciertas propiedades de optimalidad (máxima varianza). Una combinación lineal
es una suma ponderada de las variables, es decir un índice que combina todas las
variables, dando a cada una de ellas un peso o ponderador. Así, la técnica incluye la
asignación de pesos diferenciales para las distintas variables con la finalidad de hacer
algunas de ellas más importantes en la descripción de la variabilidad subyacente
(información).
El ACP opera sobre la matriz de varianza-covarianza de los datos y preserva la
distancia Euclídea entre observaciones. Los datos podrían o no ser previamente
centrado y/o escalados dando lugar a distintos tipos de ACP. El ACP a partir de la
matriz de correlación de los datos (matriz de covarianza de las variables originales
centradas y escaladas) es útil cuando las unidades de medidas y/o las varianzas de las
variables son diferentes, de otro modo las variables con mayor varianza (no
necesariamente más informativas) tendrán demasiada influencia en la determinación
de la solución. Cuando las variables no tienen varianzas similares o no son medidas
sobre la misma escala (variables no conmensurables), es recomendable la obtención
de las componentes a partir de la matriz de correlación, es decir trabajar con los datos
estandarizados.
Las componentes principales obtenidas usando la matriz de correlación pueden ser
sustancialmente diferentes a las obtenidas usando la matriz de covarianza, en cada
caso habrá que juzgar que análisis es más conveniente.

32
El ACP para ordenar observaciones se basa en la descomposición espectral de  , la
matriz pp de varianza-covarianza asociada con las p variables aleatorias estudiadas,
p
    j e j e j ´ VDV '
j 1

donde V es la matriz de autovectores normalizados y D es la matriz diagonal de


autovalores (no negativos) en orden creciente. En la práctica, cuando se trabaja con
muestras,  es reemplazada por S (la matriz de varianzas y covarianzas muestral),
pero el procedimiento y los resultados son equivalentes, para diferenciar la situación;
componentes derivadas a partir de S suelen llamarse componentes principales
muestrales, obviamente estas resumen variabilidad muestral.
Los autovalores y autovectores de la matriz de covarianza muestral usados
para obtener las componentes muestrales podrían diferir de su contraparte
poblacional debido al muestreo. En adelante no se hará distinción entre autovalores,
autovectores y componente muestrales y poblacionales ya que los resultados
presentados se aplican de igual manera al caso muestral que en el poblacional.
La j-ésima componente principal es algebraicamente una combinación lineal
de las p variables originales obtenida como Yj  e j ´X  e1 j X1  e2 j X 2  ...  epj X p con j=1,...,p.

Las variables sintéticas usan información contenida en cada una de las variables
originales, algunas variables pueden contribuir más a la combinación lineal que otras.
Los coeficientes de cada variable original en la componente son proporcionales al
coeficiente de correlación entre la componente y la variable. La varianza de la j-ésima
componente principal es Var (Yj )  e j ´e j   j es decir que el j-ésimo autovalor es la

varianza de la j-ésima componente principal. Además se satisface que


Cov(Yk , Yj )  ek ´e j  0 para ij, es decir las componentes principales son ortogonales o

no correlacionadas. Esto es importante para facilitar la interpretación, ya que cada


componente puede analizarse separadamente o independientemente del valor de
otras componentes.
Eligiendo los autovectores como vectores de coeficientes para la combinación
lineal se puede demostrar que las componentes principales son combinaciones
lineales no correlacionadas cuyas varianzas son tan grandes como sea posible, sujeto
a la restricción de que el vector de coeficientes tenga longitud 1. Esta restricción debe
ser impuesta ya que de lo contrario la varianza de la combinación lineal podría

33
incrementarse indeterminadamente a través de la multiplicación del vector de
coeficientes de la combinación por alguna constante.

INTERPRETACIÓN GEOMÉTRICA

Las combinaciones lineales representan la selección de un nuevo sistema de


coordenadas obtenidos por la rotación del sistema de coordenadas original. Los
nuevos ejes representan las direcciones con máxima variabilidad y proveen una
forma mas simple y parsimoniosa para describir la estructura de covarianza. Esta
nueva base para representar los datos satisface que el primer eje se encuentra en la
dirección de máxima varianza (la primera componente es la combinación lineal de
máxima varianza) y los ejes subsecuentes maximizan la varianza explicada dado que
son ortogonales a los ejes previos.
Dado que las componentes son no correlacionadas, la proporción de la varianza total,
traza de la matriz de covarianzas, explicada por las primeras d nuevas variables será
1  2  ...  d
Pr opd 
1  2  ...   p

con Pr opd tan grande como sea posible para los datos analizados. (La varianza total en
la muestra será igual a p cuando se trabaje con variables previamente
estandarizadas).
Si bien el número de componentes principales posibles de construir es p, para
obtener una dimensión de reducción simplemente se selecciona un orden d menor a p
de combinaciones lineales que retiene una adecuada proporción de la varianza total
(digamos 70% o más) y se usan estas combinaciones como nuevas variables para
graficar y analizar los datos sin mayor pérdida de información.
El ACP no sólo puede realizarse sobre la matriz de covarianza de las p variables de un
conjunto de datos multivariados sino también sobre la matriz de covarianza de las n
observaciones a los fines de ordenar las variables en el espacio de las componentes
resultantes. El ACP para ordenar variables se basa en la descomposición espectral de
la matriz de varianzas-covarianza o de correlación de dimensión nn. Los gráficos

34
Biplots (descriptos más adelante) son utilizados para conectar estas dos análisis y
representar en un mismo espacio a los pesos de los elementos de las variables
sintéticas que combinan casos y de aquellas que combinan variables. Así en el BIPLOT
del ACP aparecerán en un mismo gráfico las observaciones (casos) y las variables del
análisis.
Para interpretar un Biplot obtenido a partir de un ACP se recomienda seguir los
siguientes pasos:
1. Observar el porcentaje de variabilidad total explicado por el Biplot. Si el Biplot
conformado por las CP1 y CP2 no explica más del 60% de la variabilidad total, juzgar
la necesidad de explorar los patrones de variabilidad en un segundo Biplot
conformado por las CP1 y CP3. Si son necesarios muchos Biplot para explicar un
porcentaje razonable de la variabilidad total, digamos mayor a 60-70%, habrá
indicios de que el ACP no es suficiente para representar confiablemente las relaciones
entre los casos y las variables (Arroyo et al., 2005).
2. Concentrarse en la CP1, que por construcción, siempre explicará el mayor
porcentaje de variabilidad total.
2.1 Analizar las proyecciones perpendiculares a la CP1 de los puntos que representan
los casos. Identificar los de mayor inercia, i.e. los puntos que se encuentran a mayor
distancia del cero, ya sea que se alejan hacia la derecha o hacia la izquierda.
 Interpretar “similaridades/disimilaridades” entre casos en función de las
distancias entre proyecciones sobre la CP1.
2.2. Analizar las proyecciones de los puntos que representan las variables sobre la
CP1. Identificar las variables de mayor inercia.
 Interpretar “correlaciones” entre variables según los ángulos de los vectores
que los representan. Ángulos agudos indican correlaciones positivas, ángulos obtusos
corresponden a correlaciones negativas y ángulos rectos indican que no hay
correlación entre las variables.
Nota: La longitud de los vectores correspondientes a las variables no son de interés
cuando los datos han sido previamente estandarizados. Si no se estandarizan los
datos, las longitudes de los vectores son proporcionales a las varianzas de las
variables.
2.3. Interpretar correlaciones entre casos y variables en función de la orientación,
pero no de la cercanía entre puntos filas y columnas, i.e. las variables orientadas hacia

35
la derecha tendrán altos valores en los casos orientados en la misma dirección y las
variables orientadas hacia la izquierda tendrán altos valores en los casos orientados
hacia la izquierda.
3. Concentrarse en la CP2 y realizar las interpretaciones siguiendo un procedimiento
análogo al realizado para la CP1 pero teniendo en cuenta que las variables en esta
dimensión son de menor importancia que los realizados sobre la CP1 según indican
los porcentajes de variabilidad total explicados por cada CP.

NORMALIDAD EN EL ACP

Para realizar un ACP de forma exploratoria o descriptiva, no es necesario que los


datos sigan distribución normal. Lo único a controlar es que las variables sean
cuantitativas o de una naturaleza que otorgue sentido al calcular varianza y
covarianzas y que las correlaciones subyacentes sean lineales, por esto último es que
algunas veces las variables originales son transformadas a escala logaritmo antes de
realizar el análisis.
Sin embargo, cuando las variables en estudio se distribuyen conjuntamente como una
Normal, la distribución es caracterizada (excepto por su centroide) por la matriz de
varianzas-covarianzas, y las componentes principales muestrales obtenidas a partir
de la estimación de la matriz de covarianza pueden ser utilizadas para especificar la
distribución subyacente. Bajo normalidad multivariada, las componentes principales
muestrales debieran distribuirse normalmente, el análisis de gráficos de dispersión
univariados (Q-Q plots para cada componente principal) y bivariados (diagramas de
dispersión de los primeros pares de componentes) pueden ser utilizadas como otro
mecanismo para la verificación de normalidad multivariada en los datos. Este
supuesto es importante si se quiere realizar inferencias poblacionales, pero no si
solamente queremos describir el conjunto de datos disponibles sin pretender
extrapolar conclusiones a una población mayor.

CORRELACIÓN ENTRE VARIABLES ORIGINALES Y CPS

36
Para analizar asociación entre variables con componentes. Las correlaciones (o
loadings) entre las componentes principales y las variables originales vienen dada
por,
ekj  j
r (Y j , X k ) 
 k2

y representan un indicador de cuan importante es una variable particular en la


construcción de la componente. La interpretación de esta correlación puede ser más
confiable que la interpretación de los coeficientes de la combinación ya que la
correlación tiene en cuenta diferencias en las varianzas de las variables originales y
consecuentemente elimina el sesgo de interpretaciones causadas por diferentes
escalas de medición.

ILUSTRACIÓN

Como ejemplo usaremos una base de datos que contiene variables que corresponden
a los porcentajes de empleos en países Europeos en los siguiente 9 grupos
industriales: AGR=agricultura, MIN=minería, MAN=producción, PS=suministro
eléctrico, CON=construcción, SER=servicios, FIN=finanzas, SPS= servicio social y
personal, TC= transporte y comunicaciones.
A continuación se presenta el gráfico de dispersión correspondiente a las dos
primeras dimensiones del ACP realizado sobre la matriz pp de varianza y covarianza
asociada con el vector p-dimensional (p=9) de variables aleatorias estudiadas (Figura
2.1). El gráfico permite ordenar las observaciones y pone en evidencia que las
observaciones más diferentes en relación a estas tasa de empleo corresponden a los
países de Turquía, Yugoslavia, Grecia y Rumania. El porcentaje total de variación
explicada entre los dos ejes es muy alto (>90%) y desde el examen de la correlación
de las variables con el primer eje se hace evidente que la variable tasa de empleo en el
sector agrícola es la fuente de variación más importante en este eje. Sin embargo, es
importante notar que las varianzas de las distintas variables son muy diferente y por
tanto un ACP sobre la matriz de correlación debiera ser recomendado antes de
continuar con el análisis de la contribución relativa de cada variable sobre cada eje.
Trabajando con la matriz de correlaciones el análisis sugiere explorar también la

37
tercera componente. Si guardamos tres ejes, podríamos graficar dos diagramas de
dispersión uno de la CP1 y la CP2 y otro de la CP1 y la CP3. En este último,
observaremos solo el eje CP3 ya que la interpretación sobre la dispersión de los casos
sobre CP2 se realizó en el gráfico anterior.
7.0 7.0

MIN PS FIN Y ugoslav ia


CP 2 (23.4%)

CP 3 (12.2%)
3.5 3.5
MIN
MAN PS MAN
TC AGR
Turquia SER
0.0 CON 0.0
SPS CON AGR
SER Y ugoslav ia
SPS
TC Turquia
-3.5 FIN -3.5

-7.0 -7.0

-7.0 -3.5 0.0 3.5 7.0 -7.0 -3.5 0.0 3.5 7.0
CP 1 (38.5%) CP 1 (38.5%)

Figura 2.1: Análisis de Componentes Principales. Ordenación de observaciones

El biplot del ACP representa una forma útil de observar los resultados. El biplot de la
CP1 y CP2 de este ejemplo explica el 62% de la variabilidad total de los datos. La
primer CP, muestra que en paises como Yugoslavia, Turquía y Grecia, la principal
fuente de emplo proviene del sector agrícola, mientras que en países como Bélgica,
Inglaterra, Alemania y Países Bajos (puntos azules que se encuentran hacia la
izquierda del gráfico Biplot) la principal fuente de empleo son las Manufacturas
(MAN), Transporte y Comunicaciones (TC), Construcción (CON), Servicios (SER) y
Seguros (SPS). Actividades como Minería (MIN) y Finanzas (FIN) no tienen inercia
sobre la CP1, ya que la proyección sobre el eje x es muy próxima a cero. Sin embargo,
en la segunda CP, MIN y FIN permiten diferenciar las fuentes de laborales de Hungría,
Checoslovaquia y Alemania que proviene principalmente de la Minería y
Manufacturas de la fuente de empleo de países como Dinamarca, Suecia y Francia
donde predominan las finanzas.
Otro archivo de dato que utilizaremos como ilustración se llama
Proteínas.idb2, se encuentra disponible como datos de prueba en InfoStat y
corresponde a la composición proteica de dietas de 25 habitantes de países europeos
(filas del archivo) según los alimentos consumidos (Carne Vacuna, Carne de Cerdo,
Huevos, Leche, Pescado, Cereal, Embutidos, Frutos Secos y Frutas y Vegetales). El
archivo contiene 9 variables correspondientes a los alimentos consumidos y una
variable indicadora con los nombres de los países. En la Figura 2.2 se presenta el

38
gráfico Biplot de las observaciones que conforman la fila del archivo de datos, que en
este ejemplo corresponde a los países, como puntos azules y a las variables como
vectores que parten del centro del gráfico.

5.0

Pescado
Frutas yVegetales
2.5
Embutidos
CP 2 (18.2%)

FrutosSecos
0.0 Huevos
CarneVacuna
Leche
CarneCerdo Cereal
-2.5

-5.0
-5.0 -2.5 0.0 2.5 5.0
CP 1 (44.5%)

Figura 2.2. Gráfico Biplot del Análisis de Componentes Principales obtenido a partir
del archivo de datos Proteinas.idb2 con los datos estandarizados.

En la Figura 2.3 se muestran sólo las observaciones del archivo de datos a los fines de
simplificar la visualización. En este gráfico puede verse la dispersión de las
observaciones en un plano compuesto por un eje denominado Componente Principal
1 (CP1), abscisas o eje X y la Componente Principal 2 (CP2), eje de las ordenadas o Y.
Para comenzar a interpretar este gráfico es importante observar en primera instancia
en sentido Este-Oeste, y ver las proyecciones de las observaciones sobre la CP1. Se
puede observar que países como Yugoslavia, Rumania, Albania, Hungría, Grecia,
España y Portugal se encuentran hacia la derecha del gráfico, mientras que países
como Alemania O, Irlanda, Dinamarca y Francia se encuentran hacia la izquierda del
gráfico. A partir de la dispersión de las observaciones, podemos inferir que los países
que se encuentran hacia la derecha poseen una fuente de proteínas diferente a
aquellos países que se encuentran hacia la izquierda, pero no podemos inferir sobre
cuáles son los alimentos que causan estas diferencias. En el sentido Norte-Sur, sobre
la CP2, la proyección de Portugal y España se encuentra en contraposición a la
proyección de países como Albania, Bulgaria, Austria y Suiza.
39
Si analizamos la Figura 2.2, donde el gráfico Biplot permite visualizar
simultáneamente las observaciones y las variables del archivo de datos, se puede
observar que países que poseen una proyección hacia la derecha de la CP1, obtienen
su principal fuente de proteínas a partir de alimentos como Frutos Secos y Cereales,
mientras que los países que poseen su proyección hacia la izquierda de la CP1,
reciben su fuente proteica de alimentos cárnicos y sus derivados, como carne de vaca,
leche, huevo, carne de cerdo y embutidos.

5.0 Portugal

España
2.5
Grecia
CP 2 (18.2%)

Francia Noruega
Polonia
Dinamarca Italia
0.0 AlemaniaO Checosl
Irlanda Rumania Yugoslavia
Suiza Hungría
Austria
Bulgaria Albania
-2.5

-5.0
-5.0 -2.5 0.0 2.5 5.0
CP 1 (44.5%)

Figura 2.3. Gráfico de dispersión de las observaciones del archivo de datos


Proteinas.idb2 realizado con las dos primeras componentes principales obtenidas del
Análisis de Componentes Principales realizado con los datos estandarizados.

Al solicitar un ACP en InfoStat, además del gráfico Biplot, en la ventana Resultados


mostrará los autovalores que acompañan a cada CP y los autovectores, coeficientes o
“peso” de cada variable. La combinación lineal de cada autovector con el valor
observado para dicha variable conforma la Componente Principal. Se denominará
CP1 a la componente principal con mayor autovalor, es decir, la CP que explique la
mayor variabilidad de los datos, luego, se denominará CP2 a la siguiente componente
que explique alta variabilidad, pero ésta explicará menos que la CP1 y más que la CP3.
En el Cuadro 1, las dos primeras CP (CP1+CP2) explican el 63% de la variabilidad
total de los datos. Los autovectores, coeficientes asociados a las variables son
ponderadores o pesos, mientras más grande sea este coeficiente mayor inercia o
“peso” tendrá esa variable para explicar la variabilidad de las observaciones. El signo

40
del autovalor indica el sentido, si es negativo la proyección de la variable será hacia la
izquierda de la CP1, mientras que si es positivo su proyección será hacia la derecha de
la CP1. Por ejemplo, las variables Cereal y Frutos Secos, poseen los coeficientes más
altos (0.44 y 0.42, respectivamente). Los vectores de esta variable, se encuentran
hacia la derecha del gráfico Biplot (Figura 2.2), la proyección de estas variables sobre
la CP1 se encuentran en el extremo derecho del eje y están cerca a las proyecciones
de países como Albania, Yugoslavia, Rumania, Portugal y España. De allí que podemos
inferir que estos países reciben su principal fuente proteica de los Cereales y Frutos
Secos.

Tabla 2.1. Coeficientes de autovalores y autovectores obtenidos a partir del Análisis


de Componentes Principales sobre la matriz de correlación. Archivo Proteinas.idb2
Análisis de componentes principales
Datos estandarizados
Casos leidos 25
Casos omitidos 0
Variables de clasificación
País
Autovalores
Lambda Valor Proporción Prop Acum
1 4.01 0.45 0.45
2 1.63 0.18 0.63
3 1.13 0.13 0.75
4 0.95 0.11 0.86
5 0.46 0.05 0.91
6 0.33 0.04 0.95
7 0.27 0.03 0.98
8 0.12 0.01 0.99
9 0.10 0.01 1.00
Autovectores
Variables e1 e2
CarneVacuna -0.30 -0.06
CarneCerdo -0.31 -0.24
Huevos -0.43 -0.04
Leche -0.38 -0.18
Pescado -0.14 0.65
Cereal 0.44 -0.23
Embutidos -0.30 0.35
FrutosSecos 0.42 0.14
Frutas yVegetales 0.11 0.54

Matriz de correlación/Coeficientes
CarneVacun CarneCerd Huevo Lech Pescad Cerea Embutido FrutosSeco Frutas
a o s e o l s s yVegetale
s
CarneVacun 1.00
a
CarneCerdo 0.15 1.00
Huevos 0.59 0.62 1.00
Leche 0.50 0.28 0.58 1.00
Pescado 0.06 -0.23 0.07 0.14 1.00
Cereal -0.50 -0.41 -0.71 -0.59 -0.52 1.00
Embutidos 0.14 0.31 0.45 0.22 0.40 -0.53 1.00
FrutosSecos -0.35 -0.63 -0.56 -0.62 -0.15 0.65 -0.47 1.00

41
Frutas -0.07 -0.06 -0.05 -0.41 0.27 0.05 0.08 0.37 1.00
yVegetales
Cuando las variables están medidas en distinta escala o poseen diferente magnitud, se
recomienda Estandarizar los Datos. Para Estandarizar los Datos, InfoStat a cada valor
observado le resta la media de la variable y lo divide por el desvío estándar de la
misma. Así, cada uno de los valores es escalado por la varianza. Cuando la opción
Estandarizar Datos no es seleccionada, el ACP se realiza sobre la matriz de Varianzas
y Co-Varianzas y no sobre la matriz de Correlación. Las variables con mayor varianza,
presentaron mayor peso o coeficiente (autovector). Por ejemplo, si a partir del menú
Estadística Medias Resumenes, solicitamos la media y la varianza muestral para
cada variable, aquella que presenta la mayor varianza respecto al resto de las
variables es la variable Cereal con una valor de 120, seguida por Leche (50.5), luego
están Carne de Cerdo, Carne Vacuna y Pescado con valores entre 11 y 13.6, Frutos
Secos, Frutos y Vegetales, Embutidos y Huevos (Tabla 2.2).

Tabla 1.2. Media, Desvío Estándar y Varianza de cada una de las variables del archivo
Proteinas.idb2
Medidas resumen
Variable Media D.E. Var(n-1) CV Mín Máx
CarneVacuna 9.83 3.35 11.20 34.06 4.40 18.00
CarneCerdo 7.90 3.69 13.65 46.78 1.40 14.00
Huevos 2.94 1.12 1.25 38.07 0.50 4.70
Leche 17.11 7.11 50.49 41.52 4.90 33.70
Pescado 4.28 3.40 11.58 79.42 0.20 14.20
Cereal 32.25 10.97 120.45 34.03 18.60 56.70
Embutidos 4.28 1.63 2.67 38.22 0.60 6.50
FrutosSecos 3.07 1.99 3.94 64.64 0.70 7.80
Frutas yVegetales 4.14 1.80 3.25 43.61 1.40 7.90

Cuando se trabaja sobre la matriz de covarianza, los coeficientes de los autovalores


que acompañan a las variables, el valor más grande es para la variable Cereales
(0.861), luego leche con un valor absoluto de 0.425 (Tabla 3). Estos valores de los
coeficientes cambian cuando se trabaja sobre la matriz de correlación, si bien la
variable Cereal sigue teniendo un peso importante, cobran valor variables como
Huevos, Frutos Secos y luego Leche.

Tabla 2.3. Coeficientes de autovalores y autovectores obtenidos a partir del Análisis


de Componentes Principales sobre la matriz de covarianza. Archivo Proteinas.idb2
Análisis de componentes principales
Datos originales (no estandarizados)
Casos leidos 25
Casos omitidos 0
Variables de clasificación
País
Autovalores
Lambda Valor Proporción Prop Acum

42
1 155.23 0.71 0.71
2 30.70 0.14 0.85
3 15.64 0.07 0.92
4 8.32 0.04 0.96
5 3.63 0.02 0.98
6 2.43 0.01 0.99
7 1.56 0.01 1.00
8 0.71 3.3E-03 1.00
9 0.25 1.2E-03 1.00
Autovectores
Variables e1 e2
CarneVacuna -0.15 0.13
CarneCerdo -0.13 0.04
Huevos -0.07 0.02
Leche -0.43 0.83
Pescado -0.13 -0.29
Cereal 0.86 0.41
Embutidos -0.07 -0.08
FrutosSecos 0.11 -0.07
Frutas yVegetales 0.02 -0.17

Matriz de covarianzas/Coeficientes
CarneVacuna CarneCerdo Huevos Leche Pescado Cereal Embutidos FrutosSecos Frutas
yVegetales
CarneVacuna 11.20
CarneCerdo 1.89 13.65
Huevos 2.19 2.56 1.25
Leche 11.96 7.39 4.57 50.49
Pescado 0.69 -2.94 0.25 3.33 11.58
Cereal -18.36 -16.78 -8.74 - -19.58 120.45
46.22
Embutidos 0.74 1.89 0.83 2.58 2.25 -9.56 2.67
FrutosSecos -2.32 -4.66 -1.24 -8.76 -0.99 14.19 -1.54 3.94
Frutas -0.45 -0.41 -0.09 -5.23 1.63 0.92 0.25 1.34 3.25
yVegetales

29.0
Leche

14.5 Cereal
CP 2 (14.1%)

CarneVacuna
CarneCerdo
0.0 Huevos
FrutosSecos
Embutidos
Frutas yVegetales
Pescado
-14.5

-29.0
-29.0 -14.5 0.0 14.5 29.0
CP 1 (71.1%)

Figura 2.4. Gráfico Biplot del Análisis de Componentes Principales obtenido a partir de
la matriz de covarianzas sobre el archivo de datos Proteinas.idb2.

43
EJERCITACIÓN

Base de datos: Ejercicio1_CAVILA_prosopis.IDB2


Descripción de los datos: La base de datos contiene la caracterización morfológica
de un enjambre híbrido de Prosopis flexuosa y P. chilensis ubicado en una parcela de
4700 m2 el Parque Provincial y Reserva Forestal Chancaní, en el oeste de la provincia
de Córdoba, Argentina (Mottura 2006). La base contiene 81 filas, las cuales
corresponden a cada árbol. La primer columna corresponde al número identificador
de cada individuo, la segunda columna indica su clasificación en P. flexuosa, P.
chilensis o híbrido. Del total de individuos, 8 fueron clasificados como híbridos, 63
como P. flexuosa y 10 como P. chilensis. Las siguientes columnas corresponden a 13
caracteres morfológicos cuantitativos (Tabla 1.1), los cuales fueron medidos en 10
hojas y 5 frutos por individuo.
Tabla 1.1: Caracteres morfológicos

NPI Número de pares de pinas


LPI Largo de la pinna (mm)
NFO Número de pares de foliólulos
DIFOL Distancia entre foliólulos en la pinna (mm)
LF Largo del foliólulo (mm)
L-AF Relación Largo/Ancho del foliólulo
AR Área del foliólulo (cm2)
AFOL Área total de la hoja (cm2)
LPE Largo del pecíolo
Relación entre el área del tercio superior del foliólulo respecto del
API
rectángulo en que se inscribe la misma.
G-AFR Relación ancho/grosor de fruto
Relación entre la superficie del tercio superior del foliólulo respecto del
APT
área total del foliólulo
Falcado (Relación entre la distancia desde el ápice hasta la base del
FAL
foliólulo y la longitud de una línea que pasa por el centro del foliólulo)

44
CONSIGNAS

A partir de los resultados de un ACP sobre las variables morfológicas,


responder:

1) ¿Cuánta variabilidad explican los tres primeros componentes principales?

2) ¿Es conveniente realizar el ACP sobre los datos estandarizados o no? ¿Por qué?

3) Grafique los resultados del ACP en un biplot identificando los 3 grupos (P.
chilensis, P. flexuosa e híbridos) con distintos colores.
3.1- ¿Es posible diferenciar los tres grupos en el espacio definido por las dos
primeras CP?
3.2- ¿Qué eje (CP1 o CP2) permite diferenciar mejor a los grupos?
3.3- ¿Qué conclusiones puede inferir respecto a la caracterización
morfológica de los híbridos?
3.4- Las variables LF, AFOL, AR y LPI están relacionadas al tamaño de los
foliólulos, mayores valores de estas variables indican foliólulos más
grandes. Según puede observarse en el biplot, ¿qué especie tiene
foliólulos más grandes, P. chilensis o P. flexuosa? Justifique.
3.5- Observando el biplot indique si los siguientes pares de variables están
correlacionadas o no, y en caso afirmativo, de qué manera (positiva o
negativamente): NFO y AR, APT y LPI, LPE y DIFOL, API y NPI.

4) ¿Qué variables están asociadas al CP2 y de qué manera?

5) El individuo 80 corresponde a un P. chilensis, ¿puede identificarlo en el biplot?


¿Qué valores de CP1 y de CP2 le corresponden?

45
RESPUESTAS

1) La primer componentes del ACP realizado sobre las variables morfológicas


explica el 54% de la variabilidad fenotípica observada, la segunda un 9% y la
tercera un 9% también.

Nota: esto puede observarlo en la ventana de Resultados de Infostat, en la tabla


Autovalores:

Autovalores
Lambda Valor Proporción Prop Acum
1 7.02 0.54 0.54
2 1.21 0.09 0.63
3 1.19 0.09 0.72
4 0.94 0.07 0.80
5 0.86 0.07 0.86
6 0.61 0.05 0.91
7 0.38 0.03 0.94
8 0.32 0.02 0.96
9 0.27 0.02 0.98
10 0.14 0.01 1.00
11 0.03 2.5E-03 1.00
12 0.03 2.2E-03 1.00
13 4.3E-03 3.3E-04 1.00

2) En este caso es conveniente realizar el ACP sobre los datos estandarizados


dado que las unidades de medida y las varianzas de las variables son
diferentes. De otro modo las variables con mayor varianza (no necesariamente
más informativas) tendrán demasiada influencia en la determinación de la
solución.

Nota: para estandarizar las variables en Infostat, activar Estandarizar datos en la


ventana que aparece cuando se pide un ACP:

46
2
3) El biplot resultante es: Mo05.218

9
1 NFO
CP2g (13.7%)

6
Mo13.232
NPI Mo09.209
0 3

CP2m (9.3%)
AFOL
APT LPI
0
G_AFR AR
-1
-3 API LF
LPE
DIFOL
-6Mo05.216
FAL
-2
-2 -9
-1 0 1 2
-9 -6 -3 0 3 6 9
CP1g (16.7%)
CP1m (54.0%)

Híbridos P. flexuosa P. chilensis variables

Figura 1: Biplot obtenidos mediante ACP sobre los caracteres morfológicos de 81


individuos de Prosopis spp. Los distintos colores representan el grupo morfológico en el que
fueron clasificados los árboles.

Nota: el formato del gráfico puede ser modificado mediante la ventana Herramientas
Graficas de Infostat. En este caso se quitaron los decimales en los ejes, se agregó una
cuadrícula y se cambió el lugar del nombre de las variables para una mejor
visualización. Para ver como se puede colorear cada grupo diferencialmente, leer más
debajo de este documento, en la parte de “Pasos en el Infostat”.

3.1- Sí, en el Biplot puede observarse que con las primeras componentes es posible
diferenciar a los individuos clasificados como P. flexuosa, P. chilensis e Híbridos.
3.2- El eje que mejor permite diferenciar a los tres grupos es el CP1 ya que los
individuos de P. flexuosa presentan valores menores en el CP1, los híbridos valores
intermedios y P. chilensis los mayores valores.
3.3- Los híbridos presentan valores intermedios del CP1 entre flexuosa y chilensis.
Este eje explica el mayor porcentaje de variabilidad fenotípica observada (54%),
indicando que, como es de esperarse, los híbridos presentan características
intermedias entre ambos parentales.
3.4- Los individuos de P. chilensis presentan foliólulos más grandes dado que los
individuos de P. chilensis presentan mayores valores de CP1 y las variables LF, AFOL,
AR y LPI están asociadas positivamente a dicho eje.
3.5- NFO y AR no se encuentran correlacionadas ya que el ángulo entre los vectores
que representan a dichas variables es de aproximadamente 90°. Tanto APT y LPI
como API y NPI están negativamente correlacionadas (altos valores de una indican
bajos valores de la otra), dado que el ángulo entre ambas es cercano a 180°.
Finalmente LPE y DIFOL están positivamente correlacionadas, ya que el ángulo entre
ambas es cercano a 0°

47
4) En particular, las variables NFO, FAL, NPI y DIFOL son variables bien
representadas en la CP2. Altos valores de CP2 están asociados un número alto
de foliólulos (NFO) y de pares de pinnas (NPI) y bajos valores de falcado (FAL)
y de distancia entre foliólulos en la pinna (DIFOL).

5) El árbol 80 es un P. chilensis cuyas coordenadas en el CP1 y CP2 son 7.58 y -


0.41, respectivamente.

Nota: Para ver el valor de CP1 y CP2 de cada observación, cuando se pide el ACP se
debe activar la casilla Guardar los ejes. Luego, en la planilla de datos se agregan
dos columnas, correspondientes al CP1 y el CP2.

Para que aparezcan los identificadores de cada observación en el biplot, desde


Herramientas Gráficas seleccionar las series correspondientes a las observaciones
y apretar el botón derecho del mouse, luego cliquear en Identificadores, Visibles,
caso:

48
PASOS EN INFOSTAT

Cómo pedir el ACP

Seleccionamos las variables

49
Para que los individuos de los tres grupos aparezcan con distinto color en el biplot, ir
a la pestaña particiones y poner “clasificación” en color:

Finalmente;

50
SALIDA DEL SOFTWARE

Análisis de componentes principales

Datos estandarizados
Casos leidos 81
Casos omitidos 0

Variables de clasificación

Caso

Autovalores
Lambda Valor Proporción Prop Acum
1 7.02 0.54 0.54
2 1.21 0.09 0.63
3 1.19 0.09 0.72
4 0.94 0.07 0.80
5 0.86 0.07 0.86
6 0.61 0.05 0.91
7 0.38 0.03 0.94
8 0.32 0.02 0.96
9 0.27 0.02 0.98
10 0.14 0.01 1.00
11 0.03 2.5E-03 1.00
12 0.03 2.2E-03 1.00
13 4.3E-03 3.3E-04 1.00

Autovectores
Variables e1 e2
LF 0.36 -0.14
AR 0.34 -0.17
FAL -0.01 -0.48
LPE 0.16 -0.26
APT -0.30 0.02
API -0.23 -0.18
NPI 0.24 0.32
LPI 0.34 0.03
NFO 0.19 0.58
AFOL 0.36 0.01
DIFOL 0.28 -0.38
L_AF 0.31 -0.07
G_AFR -0.27 -0.15

51
OTROS EJERCICIOS

Ejercicio 2.2

El archivo empleos.idb (se puede encontrar en datos de prueba de Infostat) que se


encuentra en la base de datos de prueba de Infostat contiene datos de porcentaje de
empleo en distintos sectores laborales para un conjunto de países Europeos. Las
columnas del archivo correspondientes a los sectores laborales son: .AGR: agricultura,
MIN: mineria: MAN: manufactura, PS: previsión social, SER: servicios, FIN:finanzas,
SPS:Seguros, TC: transporte y comunicación.
Realizar un análisis de componentes principales y gráfico Biplot. Interpretar los
resultados, ejercitar la forma de redacción para reporte de resultados que es típica de
este tipo de análisis.

NOTA: ¿Cómo abrir un archivo de datos de prueba, por ejemplo empleos.ibd?


Para abrir el archivo empleos: Menú  ABRIR  ABRIR DATOS DE PRUEBA

Ejercicio 2.3
El archivo Proteinas.ibd (se puede encontrar en datos de prueba de Infostat) contiene
los porcentajes en que fuentes de proteína participan de la dieta promedio de los
habitantes de 25 países europeos.
3.1 Discuta si corresponde utilizar la matriz de covarianzas o correlación para el
análisis de componentes principales de estos datos.
3.2 ¿Es posible reducir la dimensionalidad del espacio original?
3.3 Observando el Biplot discuta como los países se agrupan y en función de que
hábitos alimentarios.

Ejercicio 2.4
Los datos en Procedencias.idb (se puede encontrar en datos de prueba de Infostat)
corresponden a 144 unidades experimentales conformadas por 6 algarrobos. Los
datos reportados son promedios de los 6 árboles y corresponden a la altura de planta
a los 30, 60, 90, 120, 197, 324, 434 y 498 días desde la siembra a campo (Datos: Ing. G.
Versino).
4.1 Utilizando las variables 030D...550D derive los componentes principales,
descomponiendo la matriz de correlación y agrupando los datos según procedencia.
4.2 ¿Cuántos ejes principales pueden derivarse para este ejemplo?
4.3 ¿Qué proporción de la varianza total explica cada uno de los ejes derivados?
4.4 ¿Cuántos ejes pueden ser apropiados para representar estas observaciones?
4.5 ¿Qué interpretación puede hacer de cada eje? Interprételo utilizando el Biplot.
y tenga en cuenta que entre los días 197 y 324 ocurrió una fuerte helada (mire los
perfiles multivariados).

52
CAPÍTULO III

ESCALAMIENTO MULTIDIMENSIONAL
MÉTRICO Y ANÁLISIS DE
CORRESPONDENCIAS

53
ESCALAMIENTO MULTIDIMENSIONAL MÉTRICO

Para el ordenamiento de observaciones (muestras) basado en múltiples


variables continuas, discretas o mezclas de tipo de variables, se deben calcular
distancias, en sentido multivariado, entre los objetos a ordenar. Las distancias de a
pares de objetos se usan para construir una matriz de distancias la cual es usada
como input de técnicas de ordenamiento que permiten visualizar las distancias entre
las observaciones en espacios de fácil visualización (planos). Tal ordenamiento de los
objetos de estudio puede realizarse vía Análisis de Coordenadas Principales (ACoorP)
o Escalamiento Multidimensional Métrico. La técnica es particularmente útil para
explorar bases de datos de variables discretas como por ejemplo las que provienen de
información dicotómica, donde se codifica la información en forma binaria
(presencia/ausencia, 0/1). Dado que la técnica trabaja con una matriz de distancias
(en lugar de una de varianzas y covarianzas como el ACP), es posible seleccionar la
métrica apropiada para la naturaleza del dato, haciendo posible el ordenamiento de
objetos donde se han medido distintos tipos de variables. Puede ser utilizado con
datos cuantitativos a partir de una matriz de distancias confeccionada con métricas
para este tipo de datos, por ej. Euclidea. Si se tienen datos binarios y se seleccionan
medidas de similaridad en lugar de distancias, será necesario que luego las
similitudes se expresen como distancias. Este procedimiento se puede realizar a
través de distintas transformaciones matemáticas, por ej. 1-S, donde S es una medida
de similitud expresada en el intervalo [0,1].

El ACoorP permite: 1) resumir y graficar datos de un conjunto de entidades, 2)


explorar tendencias y relaciones entre éstas y 3) agrupar y clasificar no sólo
entidades sino también variables si se opera con una matriz de distancia entre
columnas del archivo de entrada, más que entre filas (se supone que en las filas se
representan las observaciones y en las columnas las variables).

Como con cualquier otra TRD, la ordenación en la dimensión real de las


observaciones (aquella en el espacio multidimensional que no podemos observar
directamente) está dada por el número de variables que proveen información y solo
queda reflejada parcialmente en el plano de representación. Las gráficas resultantes
pueden, posteriormente correlacionarse con información auxiliar sobre las

54
observaciones proveyendo información útil para la posterior modelación de
asociaciones entre las muestras y otras variables, como por ejemplo colorear o
resaltar de manera diferente objetos de distintos grupos o niveles de un factor de
clasificación.

El análisis de coordenadas principales es utilizado para mostrar las relaciones


de interés (entre observaciones o alternativamente entre variables) en un plano tal
que las distancias en el espacio multidimensional sean preservadas tanto como sea
posible en el espacio reducido (por ej. plano de las dos primeras Coordenadas
Principales). Los planos construidos a partir de éstas nuevas variables sintéticas se
denominan planos factoriales o vectoriales ya que se obtienen a partir de la
descomposición espectral de una matriz, en este caso: la matriz de distancia.

Esta técnica opera sobre la matriz Q derivada de un doble proceso de


centrado de la matriz de similitudes (o distancias) A , tal que el elemento ij-ésimo es
_ _ _
Qij  Aij  Ai .  A. j  A..
_
donde Aij es la similitud entre las observaciones i y j, Ai. es la media de las
_ _
similitudes para la fila i, A. j es la media de las similitudes para la columna j y A.. es la

media general de las similitudes en A . El criterio de optimalidad implica la extracción


de un conjunto de ejes ortogonales desde la descomposición espectral de Q :

Q  EDE
Los autovalores, elementos de la diagonal de D , expresan la variabilidad de los
datos explicada por cada dimensión. Como los autovalores se ordenan en forma
decreciente, los dos primeros ejes (coordenadas principales) explican la mayor
cantidad de variación en Q que puede representarse en un espacio bidimensional.

Las columnas de Z  ED forman las coordenadas principales.


12

Dicho en palabras más que con expresiones, la descomposición espectral de la


matriz sobre la que opera el procedimiento genera un conjunto de autovectores y
autovalores que son usados para definir las nuevas coordenadas y la varianza de las
mismas. Los nuevos ejes, denominados Coordenadas Principales, están numerados de
acuerdo a la proporción de varianza total explicada por cada uno, i.e. CP1,CP2,...,CPk,
luego de ordenarlos según valores decrecientes de los autovalores asociados a cada
55
eje. Los autovalores proveen una medida de la variación explicada sobre cada eje, que
puede ser expresada porcentualmente respecto a la variación total. Por la forma en
que se ordenaron (y denominaron) las coordenadas, la coordenada principal 1
siempre explicará un mayor porcentaje de las diferencias entre entidades que las
otras coordenadas. Para respetar las características de las técnicas basadas en planos
factoriales, se recomienda que los ejes que conforman el plano que se muestra, tengan
los mismos valores mínimos y máximos (sólo así se observaran las mayores
diferencias sobre el eje 1 respecto al eje 2 u otro eje usado para la construcción del
plano). El diagrama de dispersión formado con las coordenadas principales
representa un conjunto de puntos ordenados en el plano según el ordenamiento que
los mismos tienen en el espacio multidimensional cuando se usan todas las variables.

En la Figura 3.1, se muestran dos ordenamientos publicados en revistas


científicas con el fin de analizar similitudes y diferencias (distancias) de muestras de
ADN humano, donde se registró también la procedencia de la muestra, usando esta
información para circular los puntos de una misma procedencia. En el primero, los
ejes no tienen nombre, se supone que la abscisa corresponde a la CP1 y la ordenada a
la CP2, ya que separa muestras de origen más diverso (África vs. América). En el
segundo, los ejes están rotados para visualizar que los agrupamientos resultantes
copian el mapa de Europa.

56
Figura 3.1. Ordenamiento de 36 poblaciones a partir de 5 marcadores del
ADN (Cavallis Sforza, 1966) (arriba) y ordenamiento de 1387 individuos
con 197146 marcadores binarios del ADN (Novembre, 2008) (abajo)

DISTANCIAS Y SIMILITUDES

Dado que las diferencias entre las observaciones generan variación, el análisis de las
distancias (similitudes) contenida en la matriz de datos provee información útil para
la ordenación. Esta variabilidad puede ser capturada por matrices nn, donde n es el
número de observaciones, cuyos elementos representan las distancias entre cada par
de observaciones o bien por matrices pp, donde p es el número de variables. En este

57
último caso, la matriz de distancias será usada para el ordenamiento de las columnas
de la matriz de datos, es decir el ordenamiento de las variables. No obstante, lo mas
común es el ordenamientos de los casos, es decir de las filas (observaciones) de la
tabla de datos.

Para ordenar las observaciones es necesario una escala que represente similitudes
y/o distancia entre pares de ellas, más un criterio de utilización de dicha escala para
producir la ordenación. Para datos binarios pueden usarse distintas medidas de
similitud para indicar cuán similares son dos observaciones multidimensionales.
Luego, estas son transformadas en distancias. Para datos de naturaleza continua,
generalmente se usan distancias producidas por diferentes órdenes de la métrica de
Minkowski, la de orden 2 corresponde a la ya presentada distancia Euclidea. En la
Tabla 3.1 se presentan algunas medidas de distancia y medidas de similitud
comúnmente utilizadas para ordenamiento.

Tabla 3.1. Medidas de distancia para datos continuos

Métrica Expresión
m
1. City Block o Manhattan dij   xik  x jk
(Minkowsi con r=1) k 1

1 m 
2. Manhattan promedio dij   
m  k 1
xik  x jk 

12
3. Euclidea m 
dij   xik  x jk
2

(Minkowski con r=2) 


 k 1 
m 2
4.Euclidea cuadrado dij   xik  x jk 
 k 1 
12
1m 2
5. Euclidea promedio dij    xik  x jk 
m  k 1 
m

x ik  x jk
6. Bray-Curtis dij  k 1

 x  x jk 
m

ik
k 1

1 m 
  xik  x jk 
dij  m k 1 
7. Bray-Curtis promedio m
(Canberra)
  xik  x jk 
k 1

58
 n 
  ( xij  x j )( xik  xk )  /(n  1)
S jk   i l 
8. Correlación de Pearson
 n 2   n 2 
   ( xij  x j )  /(n  1)    ( xik  xk )  /(n  1) 
  i l    i l  
 n 1
n 2

 R( xij ) R( xik )  n 
 2 

9. Correlación de Spearman S jk  i 1

 n  n  1   n
2
 n 1 
2

  R( xij )  n     R( xik ) 2  n  
2

 i l  2    i l  2  

Las métricas de distancia basadas en el índice de similitud dado por la correlación de


Pearson o la de Spearman, son especialmente recomendadas para datos ordinales.
Por ejemplo, para datos de scores de enfermedad o datos discretos donde las
categorías tienen un orden (por ej. mucho, poco, nada).

ÍNDICES DE SIMILITUD PARA DATOS BINARIOS

Para el caso de variables binarias, estos se representan por una ecuación


donde a es la cantidad de veces en que en ambas observaciones hay coincidencia por
presencia del estado de la variable, es decir en ambas observaciones la variable vale
1. La letra b indica la cantidad de veces en que en la primera observación la variable
vale 1 y en la segunda 0. La letra c indica la cantidad de veces en que en la primera
observación la variable vale 0 y en la segunda vale 1. La letra d indica la cantidad de
casos donde hay coincidencia por ausencia, es decir en las dos observaciones la
variable vale 0. Así, a, b, c, y d indican las frecuencias absolutas de los eventos (1,1),
(1,0), (0,1) y (0,0) respectivamente, que surgen al comparar el perfil de variables
binarias de dos individuos, donde 1 representa un estado de la variable y 0 el otro.
Pueden construirse, distintos índices de similitud o asociación variando la
importancia relativa (mediante ponderación) que se le asigna a cada uno de los
cuatro eventos que surgen al comparar dos observaciones multidimensionales
binarias. Por ejemplo, el índice simple matching o emparejamiento simple da igual
peso al parecido de dos objetos sea que este parecido provenga del hecho que para
una variable los dos valen 1 (copresencia del evento) o los dos vales cero (coausencia
del evento). Por el contrario los índices de similitud de Jaccard o de Dice, por ejemplo,
le dan mas peso para definir la medida de similitud entre dos observaciones a las

59
variables que valen 1 en ambos casos, i.e. a la copresencia. En la Tabla 3.2 se
presentan algunos de índices de similitud.

Tabla3.2. Índices de similitud entre observaciones multivariadas binarias.

Nombre Expresión Rango

1. Emparejamiento [0,1]
a  d  a  b  c  d 
Simple

2. Roger &Tanimoto (a  d )  a  d  2  b  c   [0,1]

3. Hamman  a  d    b  c   a  b  c  d  [-1, 1]

4. Sokal&Sneath_1 (a  d )  a  d  0.5  b  c   [0,1]

 a.d    c.b  [-1, 1]


5. Coeficiente Phi
 a  b  . a  c  . b  d  . c  d 

[0,1]
 a  a  b    a  a  c   

6. Sokal&Sneath_2 0.25  
  d  d  b     d  d  c  
 

7. Jaccard a a  b  c [0,1]

[0,1]
8. Ochiai a  a  b  a  c 

9.Kulczynski 
0.5 a  a  c    a  a  b   [0,1]

11 Anderberg a a  2  b  c  [0,1]

11 Dice 2a  2a  b  c  [0,1]

12. Braun-Blanquet a / max  a  b  ,  a  c  [0,1]

 a.d  [0,1]
13. Sokal&Sneath_3
 a  b  . a  c  . d  b  . d  c 

14.Emparejemiento [0,1]
a a  b  c  d 
Positivo

15. Kulczynski_1 a b  c  [0,1]

60
16. Yule&Kendall  a.d    b.c   a.d    b.c  [-1, 1]

Nota: a, b, c, y d frecuencias absolutas para eventos (1,1), (1,0), (0,1) y (0,0) respectivamente, en la
siguiente tabla de composición de dos muestras a través de n=a+b+c+d marcadores.

Muestra 2

1 0

Muestra 1 A b
1
0 C d

Los índices de similitud (Sij) son llevados a medidas de distancia mediante


transformaciones, usualmente (1-Sij)1/2, donde Sij representa la similitud entre el
individuo i y j. Desde cada índice de similitud, es posible obtener una medida de
distancia. En la Tabla 3.3 se presenta una serie de funciones que podrían ser usadas
para obtener distancias, d ij , a partir de índices de similitud ( Sij ).

Tabla 3.3. Obtención de medidas de distancia a partir de índices de similitud.

Función Rango para Sij Rango para d ij

1. dij  1  Sij [0,1] [0,1]

2. dij  1  S ij [0,1] [0,1]

3. dij   log Sij (0,1] [0, )

4. dij  1 Sij  1 (0,1] [0, )


5. dij  2 1  Sij  [0,1] [0, 2]

 
6. dij  1  Sij  1 2 [1,1] [0,1]

Las expresiones dij deben cumplir al menos las siguientes propiedades para ser
consideradas como medidas de distancia entre el par de observaciones (i,j), éstas son:
(i) dij > 0 si ij, (ii) dii = 0 y (iii) dij = dji. Además, existen propiedades que de cumplirse

61
permiten identificar las distancias como métricas. Las métricas cumplen las 3
propiedades mencionadas y además la desigualdad triangular, i.e., dij  dik  dkj . Las

distancias métricas son recomendadas cuando el objetivo del estudio es obtener


ordenación y clasificación de observaciones. La transformación raíz cuadrada de 1-S
siendo S una medida de similitud, permite obtener métricas apropiadas para
ordenamiento.

Existe también un coeficiente que permite expresar similaridad entre muestras


caracterizadas por variables de diferente tipo, i.e., variables continuas y discretas
binarias. Fue propuesto por Gower (Gower, 1971) y su expresión es:
m

W ijc Sijc
Sij  c 1
p

W
K 1
ijc

donde:

Sij = similaridad entre la i-ésima y j-ésima muestra o entidad

m = número de variables observadas

Wijc = ponderación para la c-ésima variable en la i-ésima y j-ésima entidad

Si la c-ésima variable es de tipo binaria o cualitativa, la similitud entre la entidad i y la


j, para la variable c (Sijc), vale 0 si los datos entre el i-ésimo (xi) y el j-ésimo objeto son
diferentes y vale 1 si son iguales. Para el caso de una variable cuantitativa, donde rc es
el rango de la variable c, la similaridad para el atributo c está dada por:

xic  x jc
Sijc  1 
rc

ÁRBOL DE RECORRIDO MÍNIMO

Las representaciones en planos conformados por componentes o coordenadas


principales no siempre representan exactamente las relaciones que verdaderamente
existen entre los elementos en el espacio multidimensional ya que sólo son
proyecciones planares de las mismas. La distancia en el plano de ordenación puede

62
ser menor a la verdadera distancia multidimensional entre dos elementos debido a
deformaciones ocurridas en la proyección. La técnica conocida como Árbol de
Recorrido Mínimo (ARM) puede ayudar a mejorar las interpretaciones ya que
permite identificar este tipo de deformaciones (Arroyo et al., 2005)

Un ARM se construye como una colección de segmentos de línea recta que conectan
puntos de una ordenación gráfica sin formar circuitos cerrados. Cada punto está
conectado con el resto de manera directa o indirecta a través del conjunto de
segmentos. El ARM es generado conectando los puntos de manera tal que la suma de
las longitudes de los segmentos entre puntos sea mínima. Un ARM puede calcularse a
partir de la matriz de distancia de las observaciones multivariadas en el espacio m-
dimensional en el que viven o a partir de las matrices de distancia en espacios de
menor dimensión. Cuando puntos m-dimensionales, con m>2, son conectados en el
plano en función de su distancia en el espacio original, el ARM puede proveer
información sobre similitudes de las observaciones en dimensiones no directamente
representadas en el plano. Por ejemplo, algunos puntos que se encuentran muy cerca
en el espacio bidimensional podrían estar, en su espacio original, más lejos de lo que
aparentan en el plano. Los ARM conceptualmente se ligan al algoritmo de
conglomerado conocido como encadenamiento simple y en ese sentido son usados no
solo para representación gráfica de las interdistancias entre puntos, sino también
para formar conglomerados de éstos.

ILUSTRACIÓN

Archivo Perfiles morfológicos y moleculares

El archivo contiene información sobre cinco perfiles morfológicos que caracterizan


grupos genéticos de Moniliophthora roreri (Cif) (Phillips, 2003). Cada perfil está
compuesto por 4 variables (marcadores) morfológicas: Rint20 (cantidad de anillos a
los 20 días), Prod (producción de esporas por caja de petri), G24h (germinación de
esporas a las 24 horas) y Glo (porcentajes de esporas globosas) y por 5 perfiles
definidos por 4 marcadores moleculares del tipo AFLP: W5, W8, X15, Y18 (Tabla 3.3.
4 y Tabla 3.5). Para ilustrar un ACoorP se analizaron separadamente los datos de
marcadores morfofisiológicos y los datos de marcadores moleculares debido a las

63
diferencias en la naturaleza de las variables. Con los marcadores morfológicos, se
calculó, previa estandarización, una matriz de distancias Euclídeas entre materiales
que fue usada como entrada del análisis de coordenadas principales. Si selecciona la
opción de guardar los ejes, las coordenadas principales serán agregadas como nuevas
columnas en el archivo de datos.

Tabla 3.4. Perfil morfológico para cinco tipos de Moniliophthora roreri (Cif)

Grupo Genético Rint2O1 Prod2 Ge24h3 Glo4

Bolivar 2.56 261.35 2.33 72.12


Co-Central 3.93 176.25 6.40 56.65
Co-East 2.13 275.37 2.93 57.58
Co-West 2.16 128.77 7.15 59.31
Gileri 0.75 221.60 2.00 40.55
1Rint20: cantidad de anillos a los 20 días, 2Prod: producción de esporas por caja de petri, 3Ge24h:
germinación de esporas a las 24 horas, 4Glo: porcentaje de esporas globosas.

Tabla 3.5. Perfil molecular para cinco tipos de Moniliophthora roreri (Cif)

Grupo Genético W5 W8 X15 Y18

Bolivar 1 1 1 0
Co-Central 1 1 0 1
Co-East 0 1 0 0
Co-West 1 1 1 1
Gileri 1 0 0 1

64
Figura 3.2. Menú ESTADÍSTICA. Comando Análisis Multivariado, opción Análisis de
Coordenadas Principales (EMD). La métrica de distancia seleccionada es Euclídea.

Análisis de coordenadas principales (EMD)

Euclidea
Bolivar Co-Central Co-East Co-West Gileri
Bolivar 0,00
Co-Central 2,85 0,00
Co-East 1,39 2,69 0,00
Co-West 3,19 1,78 2,98 0,00
Gileri 3,30 3,70 2,17 3,34 0,00

Distancia: (Euclidea)

Autovalores
Lambda Valor Proporción Prop Acum
1 8,84 0,55 0,55
2 5,66 0,35 0,91
3 1,35 0,08 0,99
4 0,15 0,01 1,00

Coordenadas principales (se adicionan como nuevas columnas en el


archivo de datos)

PCO(1) PCO(2)
0,50 1,60
-1,62 0,12
0,95 0,56
-1,50 -0,84
1,68 -1,43

2
Bolivar

1
Co-East
CP 2 (35,4%)

Co-Central

Co-West

-1
Gileri

-2
-2 -1 0 1 2
CP 1 (55,2%)

65
Figura 3.3. Diagramas de dispersión a partir de las coordenadas principales (CP1 y
CP2) obtenidas utilizando distancias Euclídeas entre cinco grupos genéticos de
Moniliophthora roreri a partir de cuatro marcadores morfológicos de naturaleza
continua.

Luego se realizó un ACoorP sobre los datos binarios provenientes de los marcadores

AFLP usando la matriz de distancia obtenidas a partir de la transformación 1 Sij 


12

con S=índice de similitud de Dice y al que se le superpuso un ARM para facilitar la


visualización del ordenamiento.

Figura 3.4. Menú ESTADÍSTICA. Comando Análisis Multivariado, opción Análisis de


Coordenadas Principales (EMD). El índice de similitud seleccionado es Dice y la
transformación a distancia la raíz cuadrada del complemento a uno de la similitud. La opción
ARM está seleccionada

Análisis de coordenadas principales

Dice (sqrt(1-S))
Bolivar Co-Central Co-East Co-West Gileri
Bolivar 0,000
Co-Central 0,577 0,000
Co-East 0,707 0,707 0,000
Co-West 0,378 0,378 0,775 0,000
Gileri 0,775 0,447 1,000 0,577 0,000

Distancia: (Dice (sqrt(1-S)))

Autovalores
Lambda Valor Proporción Prop Acum

66
1 0,537 0,617 0,617
2 0,245 0,281 0,898
3 0,063 0,072 0,970
4 0,026 0,030 1,000

0,6

Bolivar

CP 2 (28,1%) 0,3 Co-West

0,0
Gileri
Co-East
Co-Central
-0,3

-0,6
-0,60 -0,30 0,00 0,30 0,60
CP 1 (61,7%)

Figura 3.5. Diagrama de dispersión a partir de las coordenadas principales (CP1 y CP2)
obtenidas utilizando distancias de Dice entre cinco grupos genéticos de Moniliophthora
roreri a partir de cuatro marcadores moleculares de naturaleza binaria. Se superpone el
ARM (Árbol de Recorrido Mínimo).

Interpretación
Un 89,8% de la variabilidad total en marcadores morfológicos es explicado por el
gráfico construido con los dos primeros ejes del ACoorP. A nivel morfológico Gileri,
Co-East y Bolivar se separan de Co-Central y Co-West. La CP2 indicó que Bolivar y Co-
East son diferentes a Gileri. A nivel molecular, también se explicó en el plano de
análisis el mismo porcentaje de la variación total. Co-Central y Co-West vuelven a
separarse de Bolivar y Co-East aunque, desde la dimensión molecular, Gileri es más
parecido (se encuentra más cercano) a Co-Central que desde lo morfológico.

67
ANÁLISIS DE CORRESPONDENCIA SIMPLE Y MÚLTIPLE

El análisis de correspondencia (AC) es una técnica exploratoria que permite


representar gráficamente filas y columnas de una tabla de contingencia (Greenacre,
1984). En Psicología suelen referirse a esta técnica como escalamiento dual, en
ecología ha sido muy usada para ordenamiento de datos discretos de vegetación
(presencia-ausencia de una serie de especies en cada parcela observada a lo largo de
un gradiente ambiental), la versión comúnmente usada para este fin se denomina
“Detrended Correspondence Análisis, DECORANA o DCA” (Hill, 1979).
La técnica de AC también constituye una herramienta de principal importancia para
el análisis de datos textuales donde se construyen tablas de contingencia
relacionando el uso de varios vocablos entre distintos textos de discurso. El AC puede
ser interpretado como una técnica complementaria y a veces suplementaria del uso
de modelos log-lineales para el estudio analítico de las relaciones contenidas en
tablas de contingencia. El AC permite explorar gráficamente asociaciones entre
variables categorizadas.
En el AC se representan las filas y las columnas de una tabla a dos vías de clasificación
de variables categorizadas como puntos en un espacio Euclideo de baja dimensión
(generalmente bidimensional). El propósito de su uso es similar al de ACP para datos
continuos, diferenciándose de este por el hecho de que el AC opera sobre la matriz de
desviaciones chi-cuadrado en lugar de usar la matriz de varianza-covarianza como lo
hace el ACP.
Las filas de la tabla de contingencia pueden ser vistas como puntos con coordenadas
dadas por las columnas de la tabla. Los perfiles filas son construidos a partir de la
división de la frecuencia observada en cada celda por el correspondiente total fila. A
cada punto fila se le asigna un peso a través de la división del total fila por el gran
total de la tabla. Los perfiles columnas se definen de manera equivalente. El AC
determina a través de la descomposición por valor singular de la matriz de
desviaciones chi-cuadrado de proporciones filas y columnas bajo la hipótesis de
independencia entre filas y columnas, un subespacio óptimo para la representación
de los perfiles filas y columnas ponderados por sus respectivos pesos.
Cuando el AC es realizado sobre una única tablas de dos vías, se denomina Análisis de
Correspondencia Simple (ACS), cuando se extiende para explorar tablas

68
multidimensionales se denomina Análisis de Correspondencia Múltiple (ACM). Para
este último enfoque se utilizan las conocidas tablas “BURT” que contienen los niveles
o modalidades de cada variable categorizada tanto en las filas como en las columnas
de la tabla y por tanto contienen todas las clasificaciones cruzadas a dos vías de las
variables originales.
El algoritmo del AC en cualquiera de los casos parte de una tabla de contingencia IJ
de proporciones respecto al gran total, P. Las sumas de proporciones filas y columnas
es,
r  P1 y c  P´1

donde 1 es un vector unitario de longitud adecuada. El valor esperado de cada celda


bajo la hipótesis de independencia fila columna es rc´. Con estos elementos se puede
construir la matriz que contiene las raíces cuadradas de las desviaciones chi-
cuadrado de las proporciones filas y columnas
Q  Dr1/ 2 ( P  rc´) Dc1/ 2

donde Dr  diag (r ) y Dc  diag (c) . La matriz Q debe interpretarse como un arreglo

de los puntos filas y columnas como desviaciones desde los centroides filas y
columnas respectivamente.
Realizando la descomposición por valor singular de Q , Q  ADu B , se extraen los ejes

principales que definen el subespacio óptimo para la representación de los puntos


filas y columnas.
Los ejes son extraídos en relación a la desviación chi-cuadrado explicada por cada
uno. El primer eje principal se asocia a la más alta contribución sobre el estadístico
chi-cuadrado de la tabla de contingencia. Luego, este es el óptimo espacio uni-
dimensional para representar los puntos filas y columnas. Los primeros d ejes definen
el espacio d-dimensional óptimo con d=min(I-1,J-1).
Como el análisis no es realizado sobre las frecuencias absolutas sino sobre las
proporciones de la tabla de contingencia, comúnmente se utiliza el término inercia
para denotar la información chi-cuadrado en la tabla (inercia es el valor chi cuadrado
divido por el gran total de la tabla). La proporción de la inercia total explicada por
cada eje es usada como criterio de selección del número de ejes necesarios para la
representación. Las coordenadas para graficar las filas, F, y las columnas, G, con
respecto a los ejes principales son calculadas de las siguiente manera,

69
F  Dr1/ 2 ADu y G  Dc1/ 2 BDu

Finalmente, la contribución de cada punto sobre la inercia total de cada eje es


calculada como,
S  Dr ( F * F ) y T  Dc (G * G)

para las filas y columnas, respectivamente y donde * denota la multiplicación


elemento por elemento de dos matrices.
Similar al ACP, los resultados pueden ser representados en un biplot para graficar los
puntos filas y columnas en el mismo espacio. Las distancias entre puntos filas miden
la discrepancia entre perfiles filas. Los puntos filas posicionados cerca en el gráfico
tienen similar perfil fila. Distancias desde el origen indican la discrepancia entre los
perfiles filas y el centroide fila o la distribución fila marginal. El mismo tipo de
interpretación puede realizarse sobre los perfiles columnas. Las distancias entre
puntos filas y columnas carecen de sentido, pero puntos filas y columnas que caen en
la misma dirección respecto al origen se encuentran positivamente correlacionados,
mientras que aquellos que caen en direcciones opuestas se encuentras negativamente
correlacionados. Las direcciones pueden cambiar si se grafican otras dimensiones,
por lo que es importante realizar el análisis sobre un espacio con alta inercia.
El ACM también puede ser visto como un procedimiento para concatenar tablas de
contingencias. En la versión DECORANA del AC se usa un algoritmo especial para
remover tipos particulares de estructuras no-lineales que aparecen a menudo en
análisis de datos colectados a lo largo de un gradiente. Para dos observaciones
suficientemente separadas a lo largo del gradiente la posición relativa es determinada
por las distancias con respecto a las observaciones entre ellas. Esto sucede porque en
las tablas de contingencia, los ceros en común no proveen tanta información para
describir la disimilitud entre dos puntos, así la separación queda determinada por
pares de puntos que tienen conteos en común. Típicamente, estas posiciones relativas
resultan en formatos de herradura o arcos cuando los puntos son graficados en un
espacio bidimensional. El algoritmo para eliminar esta tendencia divide el primer eje
del AC en segmentos y ajusta cada punto dentro del segmento de manera tal que el
valor medio de los puntos del segmento sea cero usando un procedimiento de
suavizado. Luego re-escala los ejes para considerar los diferentes niveles de
compresión del arco a lo largo de su extensión. Otras idea para remover tendencias es

70
el uso de “curvas principales” a través de la técnica LOWESS de suavizado (aplicada
con respecto a cada dimensión del AC) para estimar el valor promedio de cada punto
sobre la curva.

ILUSTRACIÓN

Las variables corresponden a las características de propietarios de autos (estado civil,


con o sin hijos, propietario o inquilino de vivienda, sexo e ingreso) y a características
de los autos que poseen (origen, tamaño, tipo). Todas las variables son categorizadas
con no más de 3 modalidades por variable.
En la figura 3.6 se presentan las dos primeras dimensiones del AC simple de la tabla
de contingencia correspondiente al cruce de las variables estado civil y origen del
auto. El gráfico sugiere, en su primer eje (con una inercia de 92.84%), que los
individuos solteros prefieren autos japoneses y que los casados con hijos optan por
autos americanos (normalmente autos de mayor tamaño). A continuación se grafican
las dos primeras dimensiones del AC múltiple.

0.2 Soltero-hijo

0.1

Japones
American
Eje 2

Casado
0.0
Soltero Casado-hijo

-0.1
Europeo

-0.2
-0.2 -0.1 0.0 0.1 0.2
Eje 1

Figura 3.6. Análisis de Correspondencia Simple

71
Grande
1.6

Soltero-hijo
American
0.8
Ingreso1
Casado-hijo Familiar
Trabajo Hombre Alquila
Medio
Eje 2

Soltero
0.0
Dueño
Mujer
Japones
Ingreso2 Sport
Chico
-0.8 Europeo
Casado

-1.6
-1.2 -0.6 0.0 0.6 1.2
Eje 1

Figura 3.7. Análisis de Correspondencia Múltiple

El ACM sugiere dependencia entre las modalidades soltero, alquila casa, un ingreso,
auto chico, sport las cuales se oponen al perfil caracterizado por las modalidades
casado con hijo, dueño de vivienda, 2 ingresos, auto grande, familiar, americano. En el
segundo eje se podría interpretar una diferenciación de este último grupo, por un
lado los de autos grandes americanos, casados con hijos y por otro las mujeres
casadas sin hijos con autos medianos, mas frecuentemente Europeos.

EJERCITACIÓN

EJERCICIO 1 (EMD)

Base de datos: CAVILA_ejercicio_poly_clase3.IDB2


Descripción de los datos: La base de datos contiene la caracterización genética de
208 árboles de tabaquillo (Polylepis australis) pertenecientes a 18 poblaciones
distribuidas a lo largo del rango de distribución de la especie (montañas del
norte/centro de Argentina). Las poblaciones fueron clasificadas en 3 regiones. La
base de datos contiene 208 filas, las cuales corresponden a cada árbol y 247
columnas. La primer columna corresponde al identificador de cada individuo, la

72
segunda columna indica la población a la que pertenece, la tercera indica la región y el
resto de las columnas corresponden a marcadores genéticos del tipo AFLP. Estas
variables son del tipo binario, conteniendo 0 y 1, los cuales indican la
ausencia/presencia de cada marcador genético.

Imagen de un individuo de Polylepis australis

CONSIGNAS

Realice un Análisis de Coordenadas Principales o Escalamiento


multidimensional métrico a nivel de individuo, utilizando como medida de
distancia la tranformación sqrt(1-S) del índice de similitud Dice.

1.1) ¿Cuánta variabilidad explica el plano formado por los dos primeros ejes? ¿Le
parece un porcentaje de la variabilidad total aceptable? ¿Por qué?
1.2) ¿Cuál es el número mínimo de ejes para explicar al menos un 50% de la
variabilidad genética observada?
1.3) Realice un gráfico de dispersión con los dos primeros ejes obtenidos donde se
observen los individuos coloreados según la región a la que pertenecen y
responder:

73
1.3.1) ¿Se observan diferencias genéticas entre los árboles pertenecientes a
distintas regiones?
1.3.2) ¿Qué eje/s elegiría para diferenciar las tres regiones?
1.3.3) ¿Los árboles de la región 3 son genéticamente más similares a los árboles
de la región 1 o a los árboles de la región 2? Justifique
1.3.4) Observe los árboles de las regiones 2 y 3, ¿en cuál región hay mayor
variabilidad genética?

1.4) Realice el mismo análisis pero esta vez a nivel de poblaciones, ¿cuánta
variabilidad explican los dos primeros ejes?

1.5) Realice un gráfico de dispersión con los dos primeros ejes obtenidos donde se
observen las poblaciones coloreadas según la región a la que pertenecen y
responda:
1.5.1) ¿Se observan diferencias genéticas entre las poblaciones pertenecientes
a distintas regiones?
1.5.2) Identifique la población de la región 2 que es genéticamente más similar
a las poblaciones de la región 1 que a las poblaciones de la región 2. Si observa el
gráfico realizado previamente a nivel de individuos, ¿podría identificar a los
individuos de ésta población?

RESPUESTAS

1.1 ) El plano formado por los dos primeros ejes explica un 11.6% de la
variabilidad total (8.1% del CP1 + 3.5% del CP2). Si bien este porcentaje no es
muy alto, cuando se trabaja con tantas variables (en nuestro caso, 244), poder
sintetizar un 11.6% de la variabilidad con dos variables resulta muy útil.
Cuantas más variables haya, más difícil será resumir la variabilidad total (salvo
que las variables estén muy correlacionadas entre sí).

74
1.2 ) El número mínimo de ejes para explicar al menos un 50% de la variabilidad
genética observada es 25.

Nota: esto puede observarlo en la ventana de Resultados de Infostat, en la tabla


Autovalores:

Análisis de coordenadas principales (EMD)

Distancia: (Dice (sqrt(1-S)))

Autovalores
Lambda Valor Proporción Prop Acum
1 1.692 0.081 0.081
2 0.739 0.035 0.116
3 0.647 0.031 0.147
4 0.555 0.027 0.174
5 0.495 0.024 0.198
6 0.439 0.021 0.219
7 0.411 0.020 0.238
8 0.402 0.019 0.258
9 0.379 0.018 0.276
10 0.374 0.018 0.294
11 0.352 0.017 0.310
12 0.345 0.017 0.327
13 0.328 0.016 0.343
14 0.322 0.015 0.358
15 0.317 0.015 0.373
16 0.313 0.015 0.388
17 0.304 0.015 0.403
18 0.289 0.014 0.417
19 0.288 0.014 0.430
20 0.281 0.013 0.444
21 0.276 0.013 0.457
22 0.265 0.013 0.470
23 0.262 0.013 0.482
24 0.254 0.012 0.494
25 0.246 0.012 0.506
26 0.243 0.012 0.518
27 0.235 0.011 0.529
28 0.230 0.011 0.540

75
EMD a nivel de individuos
Distancia: (Dice (sqrt(1-S)))
0.19

0.10

CP 2 (3.5%) 0.00

-0.10

-0.19
-0.19 -0.10 0.00 0.10 0.19
CP 1 (8.1%)

Región 1 Región 2 Región 3

Gráfico de dispersión de los dos primeros ejes de un Análisis de Coordenadas


Principales realizado sobre las distancias genéticas (Dice) calculadas con los datos de tipo
binario obtenidos mediante marcadores moleculares del tipo AFLP de 208 individuos de P.
australis. Los distintos colores indican la región geográfica a la que pertenecen los árboles.

Nota: el formato del gráfico puede ser modificado mediante la ventana Herramientas
Gráficas de Infostat. En este caso se modificaron las escalas de los ejes de manera de
usar la misma escala para ambos. Tanto en los biplot como en estos gráficos, es
deseable utilizar la misma escala en ambos ejes, ya que de esta manera se puede
apreciar la variabilidad explicada por los mismos, sin distorsionar los resultados. Si
un eje explica menor variabilidad y se usa una escala mayor, a primera vista parecerá
que explica mayor o igual variabilidad que el otro eje, distorsionando los resultados.
Además se agregó una cuadrícula y se cambió el título y el nombre de las leyendas.
Para ver como se puede colorear cada grupo diferencialmente, leer más debajo de
este documento, en la parte de “Pasos en el Infostat”.

1.3.1) Sí, en el gráfico pueden observarse los tres grupos, lo cual indica que existen
diferencias genéticas entre los árboles de las tres regiones. Sin embargo hay un grupo
de árboles pertenecientes a la región 2 que no se diferencian de los árboles de la
región

1.3.2) Para diferenciar las tres regiones es necesario utilizar ambos ejes ya que la
región 1 puede diferenciarse de las otras dos sólo con el eje 1, pero para diferenciar
las regiones 2 y 3, es necesario el eje 2.

76
1.3.3) Los árboles de la región 3 son genéticamente más similares a los árboles de la
región 2 ya que se encuentran más cercanos en el gráfico y sólo se los puede
diferenciar por la CP2, que sólo explica un 3.5 % de la variabiliadd. A nivel de la CP1,
que explica un 8.1% de la variabilidad, no se los puede diferenciar.
1.3.4) La región 2 presenta mayor variabilidad genética ya que los individuos se
encuentran más dispersos en el gráfico, especialmente a nivel de la CP1.

1.4) Cuando se realiza el análisis a nivel de poblaciones el CP1 explica un 24.2 % de la


variabilidad total y el CP2 un 10.5%. De esta manera, con los dos primeros ejes puede
explicarse un 34.7% de la variabilidad genética observada.

EMD a nivel de poblaciones


Distancia: (Dice (sqrt(1-S)))
0.32

0.16
CP 2 (10.5%)

0.00

-0.16

-0.32
-0.32 -0.16 0.00 0.16 0.32
CP 1 (24.2%)

Región 1 Región 2 Región 3

Gráfico de dispersión de los dos primeros ejes de un Análisis de Coordenadas


Principales realizado sobre las distancias genéticas (Dice) calculadas la caracterización
genética de 18 poblaciones de P. australis. Los distintos colores indican la región geográfica a
la que pertenecen los árboles.

1.5.1) Sí, es posible diferenciar a las tres regiones. Las poblaciones de la región 1
presentan valores mayores del CP1, a diferencia de la región 3, cuyas poblaciones
presentan los menores valores del CP1. Asímismo, la región 3 se diferencia de la
región 2 por presentar valores menores en la CP2.

77
1.5.2) La población de la región 2 que es genéticamente más similar a las poblaciones
de la región 1 es la población B (para saber cuál es debe hacer click sobre el punto en
el gráfico o seleccionar las series en la ventana de herramientas gráficas y hacer click
con el botón derecho, identificadores, visibles). En el gráfico realizado previamente a
nivel de individuos, es posible identificar a los individuos de ésta población ya que
también se observan individuos de la región 2 entre los individuos de la región 1.

PASOS EN INFOSTAT

Cómo pedir el EMD

Seleccionamos las variables y el criterio de clasificación (árbol o población)

78
Para que los individuos de los tres grupos aparezcan con distinto color en el gráfico, ir
a la pestaña particiones y poner “región” en color:

Finalmente elegir la distancia de Dice;

79
SALIDA DEL SOFTWARE

Análisis de coordenadas principales (EMD)

Distancia: (Dice (sqrt(1-S)))

Autovalores
Lambda Valor Proporción Prop Acum
1 1.69 0.08 0.08
2 0.74 0.04 0.12
3 0.65 0.03 0.15
4 0.55 0.03 0.17
5 0.50 0.02 0.20
6 0.44 0.02 0.22
7 0.41 0.02 0.24
8 0.40 0.02 0.26
9 0.38 0.02 0.28
10 0.37 0.02 0.29
11 0.35 0.02 0.31
12 0.35 0.02 0.33
13 0.33 0.02 0.34
14 0.32 0.02 0.36
15 0.32 0.02 0.37
16 0.31 0.01 0.39
17 0.30 0.01 0.40
18 0.29 0.01 0.42
19 0.29 0.01 0.43
20 0.28 0.01 0.44
21 0.28 0.01 0.46
22 0.26 0.01 0.47
23 0.26 0.01 0.48
24 0.25 0.01 0.49
25 0.25 0.01 0.51
26 0.24 0.01 0.52
27 0.23 0.01 0.53
28 0.23 0.01 0.54
29 0.23 0.01 0.55
30 0.22 0.01 0.56
31 0.22 0.01 0.57
32 0.21 0.01 0.58
33 0.21 0.01 0.59
34 0.20 0.01 0.60
35 0.20 0.01 0.61
36 0.19 0.01 0.62
37 0.19 0.01 0.63
38 0.18 0.01 0.64
39 0.18 0.01 0.65
40 0.17 0.01 0.66
41 0.17 0.01 0.66
42 0.16 0.01 0.67
43 0.16 0.01 0.68
44 0.16 0.01 0.69
45 0.16 0.01 0.69
46 0.15 0.01 0.70
47 0.15 0.01 0.71
48 0.15 0.01 0.72
49 0.15 0.01 0.72
50 0.14 0.01 0.73
51 0.14 0.01 0.74

80
52 0.14 0.01 0.74
53 0.13 0.01 0.75
54 0.13 0.01 0.76
55 0.13 0.01 0.76
56 0.13 0.01 0.77
57 0.12 0.01 0.77
58 0.12 0.01 0.78
59 0.12 0.01 0.78
60 0.12 0.01 0.79
61 0.11 0.01 0.80
62 0.11 0.01 0.80
63 0.11 0.01 0.81
64 0.11 0.01 0.81
65 0.10 4.8E-03 0.82
66 0.10 4.7E-03 0.82
67 0.09 4.5E-03 0.83
68 0.09 4.5E-03 0.83
69 0.09 4.4E-03 0.83
70 0.09 4.3E-03 0.84
71 0.09 4.2E-03 0.84
72 0.09 4.1E-03 0.85
73 0.09 4.1E-03 0.85
74 0.08 4.0E-03 0.85
75 0.08 3.9E-03 0.86
76 0.08 3.9E-03 0.86
77 0.08 3.8E-03 0.87
78 0.08 3.8E-03 0.87
79 0.08 3.6E-03 0.87
80 0.07 3.4E-03 0.88
81 0.07 3.4E-03 0.88
82 0.07 3.3E-03 0.88
83 0.07 3.3E-03 0.89
84 0.07 3.2E-03 0.89
85 0.06 3.1E-03 0.89
86 0.06 3.0E-03 0.90
87 0.06 2.9E-03 0.90
88 0.06 2.9E-03 0.90
89 0.06 2.7E-03 0.91
90 0.06 2.7E-03 0.91
91 0.06 2.7E-03 0.91
92 0.05 2.6E-03 0.91
93 0.05 2.5E-03 0.92
94 0.05 2.5E-03 0.92
95 0.05 2.4E-03 0.92
96 0.05 2.3E-03 0.92
97 0.05 2.3E-03 0.93
98 0.05 2.3E-03 0.93
99 0.05 2.2E-03 0.93
100 0.05 2.2E-03 0.93
101 0.04 2.1E-03 0.93
102 0.04 2.0E-03 0.94
103 0.04 2.0E-03 0.94
104 0.04 1.9E-03 0.94
105 0.04 1.9E-03 0.94
106 0.04 1.9E-03 0.94
107 0.04 1.8E-03 0.95
108 0.04 1.8E-03 0.95
109 0.04 1.7E-03 0.95
110 0.04 1.7E-03 0.95
111 0.03 1.7E-03 0.95
112 0.03 1.6E-03 0.95

81
113 0.03 1.6E-03 0.96
114 0.03 1.5E-03 0.96
115 0.03 1.4E-03 0.96
116 0.03 1.4E-03 0.96
117 0.03 1.4E-03 0.96
118 0.03 1.4E-03 0.96
119 0.03 1.3E-03 0.96
120 0.03 1.3E-03 0.97
121 0.03 1.2E-03 0.97
122 0.03 1.2E-03 0.97
123 0.02 1.2E-03 0.97
124 0.02 1.1E-03 0.97
125 0.02 1.1E-03 0.97
126 0.02 1.1E-03 0.97
127 0.02 1.0E-03 0.97
128 0.02 1.0E-03 0.97
129 0.02 1.0E-03 0.98
130 0.02 9.9E-04 0.98
131 0.02 9.4E-04 0.98
132 0.02 9.3E-04 0.98
133 0.02 8.9E-04 0.98
134 0.02 8.7E-04 0.98
135 0.02 8.5E-04 0.98
207 Autovalores no mostrados

EJERCICIO 2 (ANÁLISIS DE CORRESPONDENCIAS MÚLTIPLES)

Base de datos: Alcoholismo.IDB2 (se encuentra en Datos de prueba de Infostat)


Descripción de los datos: La base contiene de datos contiene los resultados de un
estudio que aborda la caracterización de personas con problemas relacionados con el
alcohol desde características sociodemográficas y psicológicas. Se relevaron un
conjunto de variables categorizadas tales como sexo, edad, ocupación, estado civil,
motivo de consulta y diagnóstico del paciente al entrar al centro de rehabilitación. Los
datos son gentileza de Yolanda Prados y Graciela Diosque, Facultad de Psicología,
U.N.C.

Variables:

genero= masculino (Masc.), femenino (Fem)

edad = joven (Jov) menores de 30 años, mediana (Med) entre 30 y 50 años, mayor
(May) mayores de 50 años.

estado= estado civil; casado/a (EC-Cas), soltero/a (EC-Sol), separado/a (EC-Sep) ,


viudo/a (EC-Viu), unido/a de hecho (EC-UnH)

82
ocupac= ocupación; empleado/a (O-Emp), desocupado/a (O-Des), jubilado/a (O-Jub),
profesional (O-Pro), subempleado/a(O-Sub), ama de casa (O-Ama), indepediente (O-
Ind).

motivo= motivo de consulta; C-Far (uso de fármacos), C-Sus (uso de sustancias que
generan adición), C-Der (derivados de otros consultorios), C-Des (deseos de dejar de
beber), C-Alc (consumo de alcohol), C-EsA(estado de ánimo), C-Vio (violencia
familiar), C-Fis (síntomas físicos).

CONSIGNAS

Realice un AC simple para estudiar la asociación entre motivo de consulta y


edad de las personas relevadas.

2.1) Observando las tablas de frecuencias obtenidas:


2.1.1) ¿cúantas personas menores de 30 años (Jov) consultaron por Consumo
de Fármacos?
2.1.2) ¿cuántas personas en total consultaron por consumo de alcohol?
2.1.3) Del total de personas que consultaron por consumo de alcohol, ¿qué
porcentaje corresponde a mayores de 50 años?
2.1.4) Cuántos pacientes de entre 30 y 50 años (Med) participaron en el
estudio?
2.1.5) ¿Qué porcentaje de los pacientes mayores a 50 años fueron derivados
de otros consultorios?

2.2) ¿Qué porcentaje de inercia tiene el primer eje obtenido?

2.3) Realice un gráfico donde se visualicen las dos dimensiones del AC simple de
la tabla decontingencia correspondiente al cruce de las variables “edad” y
“motivo de consulta” y observando el mismo responda:
2.3.1) ¿Hay diferencias respecto a los motivos de consulta de las personas
jóvenes, de edades medias y mayores?
2.3.2) ¿Por qué motivos consultaban mayoritariamente los pacientes
jóvenes (menores de 30 años)?
2.3.3) ¿Y las personas mayores?

83
RESPUESTAS

2.1)
2.1.1) Como se observa en la tabla de frecuencia absolutas, sólo 1 persona
menor de 30 años (Jov) consultó por Consumo de Fármacos.
2.1.2) Como se observa en la tabla de frecuencia absolutas 27 personas
consultaron por consumo de alcohol (19 de edad media, 6 mayores y 2
jóvenes)
2.1.3) Como se observa en la tabla de frecuencias relativas por columna (si en
la columnas se encuentra la variable motivo y en las filas la edad), del
total de personas que consultaron por consumo de alcohol, el 22%
corresponde a mayores de 50 años.
2.1.4) Como se observa en la tabla de frecuencia absolutas, en el estudio
participaron 70 pacientes de entre 30 y 50 años (Med).
2.1.5) Como se observa en la tabla de frecuencias relativas por fila (si en la
columnas se encuentra la variable motivo y en las filas la edad), del
total de pacientes mayores a 50 años que participaron del estudio, un
13% fueron derivados de otros consultorios?

2.2) El primer eje del AC simple tiene un 73.99% de inercia.

2.3)
1.50

C-Fis
0.75

May C-Sus
C-Vio Jov.
C-Des
Eje 2

0.00 C-EsA
C-Alc
C-Der
Med.
C-Far

-0.75

-1.50
-1.50 -0.75 0.00 0.75 1.50
Eje 1

EDAD MOTIVO

84
Figura ejercicio 2.3: Biplot obtenido al realizar el AC simple de las variables “motivo
de consulta” y “edad”.

3.1) Sí, el gráfico sugiere que hay una asociación entre edad y motivo de consulta. Los
tres puntos correspondientes a las edades caen en distintos cuadraantes y lejos del
centro, asociados a diferentes motivos de consulta.

3.2) El gráfico sugiere que los jóvenes (menores de 30 años) consultaban


mayoritariamente por consumo de sustancias (C-Sus).

3.3) El gráfico sugiere que los mayores de 50 años consultaban por deseos de dejar
de beber (C-Des) y por síntomas físicos (C-Fis).

PASOS EN INFOSTAT

Para pedir el AC ir a Estadísticas>Análisis Multivariado>Análisis de Correspondencias

Seleccionar los criterios de clasificación (edad y motivo)

85
Para contestar algunas preguntas es necesario pedir la tabla de frecuencias absolutas
y los perfiles filas y columnas

86
SALIDA DEL SOFTWARE

Análisis de correspondencias

Frecuencias absolutas
En columnas:MOTIVO
En filas: EDAD

C-EsA C-Der C-Alc C-Des C-Vio C-Far C-Sus C-Fis Total


Med. 12 17 19 5 5 8 3 1 70
May 4 3 6 5 3 1 0 2 24
Jov. 2 3 2 0 2 1 5 0 15
Total 18 23 27 10 10 10 8 3 109

Perfiles fila (frecuencias relativas por filas)


En columnas:MOTIVO
En filas: EDAD

C-EsA C-Der C-Alc C-Des C-Vio C-Far C-Sus C-Fis Total


Med. 0.17 0.24 0.27 0.07 0.07 0.11 0.04 0.01 1.00
May 0.17 0.13 0.25 0.21 0.13 0.04 0.00 0.08 1.00
Jov. 0.13 0.20 0.13 0.00 0.13 0.07 0.33 0.00 1.00
Total 0.17 0.21 0.25 0.09 0.09 0.09 0.07 0.03 1.00

Perfiles columna (frecuencias relativas por columnas)


En columnas:MOTIVO
En filas: EDAD

C-EsA C-Der C-Alc C-Des C-Vio C-Far C-Sus C-Fis Total


Med. 0.67 0.74 0.70 0.50 0.50 0.80 0.38 0.33 0.64
May 0.22 0.13 0.22 0.50 0.30 0.10 0.00 0.67 0.22
Jov. 0.11 0.13 0.07 0.00 0.20 0.10 0.63 0.00 0.14
Total 1.00 1.00 1.00 1.00 1.00 1.00 1.00 1.00 1.00

Frecuencias relativas al total


En columnas:MOTIVO
En filas: EDAD

C-EsA C-Der C-Alc C-Des C-Vio C-Far C-Sus C-Fis Total


Med. 0.11 0.16 0.17 0.05 0.05 0.07 0.03 0.01 0.64
May 0.04 0.03 0.06 0.05 0.03 0.01 0.00 0.02 0.22
Jov. 0.02 0.03 0.02 0.00 0.02 0.01 0.05 0.00 0.14
Total 0.17 0.21 0.25 0.09 0.09 0.09 0.07 0.03 1.00

Contribuciones por celda al estadístico chi-cuadrado


En columnas:MOTIVO
En filas: EDAD

C-EsA C-Der C-Alc C-Des C-Vio C-Far C-Sus C-Fis Total


Med. 0.02 0.34 0.16 0.31 0.31 0.39 0.89 0.45 2.86
May 3.4E-04 0.84 5.1E-04 3.56 0.29 0.66 1.76 2.72 9.82
Jov. 0.09 0.01 0.79 1.38 0.28 0.10 13.81 0.41 16.88
Total 0.11 1.19 0.95 5.25 0.89 1.15 16.46 3.57 29.56

Contribución a la Chi cuadrado


Autovalor Inercias Chi-Cuadrado (%) % acumulado
1 0.45 0.20 21.87 73.99 73.99
2 0.27 0.07 7.69 26.01 100.00

Coordenadas fila
Eje 1 Eje 2
Med. -0.05 -0.20
May -0.50 0.40
Jov. 1.03 0.27

87
OTROS EJERCICIOS

Ejercicio 3.3

El archivo autos.idb contiene datos de una encuesta de preferencia realizada con


motivos de indagar que tipo de autos prefieren los norteamericanos que compran un
vehículo. A un total de 339 personas se le pregunto el sexo, estado civil, si tiene casa o
alquila, si tiene 1 o 2 ingresos, que tamaño de auto prefiere, tipo de auto y origen del
auto de preferencia. Todas las variables son variables categorizadas. Realizar un análisis
de correspondencias múltiples y gráfico Biplot. Interpretar los resultados, ejercitar la
forma de redacción para reporte de resultados que es típica de este tipo de análisis.
NOTA: ¿Cómo abrir un archivo de datos de prueba, por ejemplo autos.ibd?
Para abrir el archivo empleos: Menú  ABRIR  ABRIR DATOS DE PRUEBA

Ejercicio 3.4
Realice un EMD sobre la matriz de distancias euclídeas de las variables
morfológicas de archivo CAVILA_prosopis.IDB2.

4.1) ¿Cuánta variabilidad explican los tres primeros ejes obtenidos? Compare con
la variabilidad explicada por los tres primeros ejes obtenidos de un ACP.
4.2) Grafique los resultados del EMD en un gráfico de dispersión identificando los 3
grupos (P. chilensis, P. flexuosa e híbridos) con distintos colores.

¿Es posible diferenciar los tres grupos en el espacio definido por las dos
primeros ejes? ¿Qué eje permite diferenciar mejor a los grupos? ¿Es posible
observar asociaciones entre los grupos y las variables? Discuta las similitudes
y diferencias con el biplot obtenido en el ejercicio 1 de la clase 2 (ACP).

88
CAPÍTULO IV

ANÁLISIS DE CONGLOMERADOS

89
ANÁLISIS DE CONGLOMERADOS

Numerosas investigaciones sobre tipo, abundancia y distribución de los organismos


necesitan identificar la estructura subyacente en los datos, es decir el agrupamiento o
conglomeración de las entidades de estudio en grupos (o clusters) relativamente
homogéneos. Es común para este fin el uso de métodos de clasificación no
supervisada (sin conocimiento a priori del análisis de los agrupamientos
subyacentes). El objetivo del análisis de conglomerados, o de clasificación no
supervisado, es formar grupos tal que los elementos de un grupo sean más parecidos
entre sí que con los elementos de otro grupo.
El Análisis de Conglomerado combina técnicas o algoritmos matemáticos que tienen
por objeto la búsqueda de grupos similares de objetos, ya sean estos objetos muestras
o variables. Cuando se realizan agrupamientos de muestras (filas del archivo) se
clasifica a las muestra en grupos lo más homogéneos posible en base a todas las
variables que caracterizan cada muestra. Cuando se agrupan variables (columnas del
archivo) se clasifican a las mismas en grupos tal que las variables en un mismo grupo
tienen un comportamiento parecido a través de todas las muestras.
En el análisis de conglomerados no se conoce a priori el grupo de pertenencia de las
entidades a agrupar. Para cualquier algoritmo de cluster será necesario seleccionar
una medida de distancia o proximidad entre ellas y un criterio o método de
agrupamiento.
El análisis de conglomerados puede ser de tipo jerárquico o no jerárquico.

CONGLOMERADOS JERÁRQUICOS

En el análisis de conglomerados jerárquico para agrupar n muestras (cada una p-


dimensional) se calcula primero una matriz de distancias (nn) que contiene las
interdistancias entre todos los pares de muestras. Luego sobre esa matriz se aplica un
procedimiento de conglomeración jerárquico, el cual comienza uniendo las
observaciones más parecidas (menor distancia) y prosigue uniendo otra entre sí o al

90
clúster formado según el cálculo de distancia (entre observaciones individuales o
entre clústeres). Una característica de los métodos jerárquicos es que una vez que un
objeto es colocado en un conglomerado, su ubicación no cambia, es decir, en el
próximo agrupamiento no se lo vuelve a asignar a ningún grupo.
Dentro de los algoritmos de clasificación jerárquicos, se encuentra un gran número de
métodos, como el método del vecino más cercano (encadenamiento simple o simple
linkage), el método UPGMA (unweigthed pair-group arithmetic average method o
encadenamiento promedio) o el método de Ward.
Para entender cuál es la diferencia entre éstos métodos, veamos cómo funcionan
algunos de ellos. En el método de encadenamiento simple, primero se unen los dos
elementos más cercanos (menor distancia) y luego para decidir si otro elemento se
une a este grupo, se calcula la distancia entre el elemento y el clúster como el mínimo
de las distancias entre el elemento y cada componente del clúster. En cualquier etapa
del proceso en la cual es necesario evaluar la distancia entre dos clústeres (para
unirlos o no), la distancia entre clústeres se calcula en función de la distancia entre los
dos miembros más cercanos (la distancia mínima); la distancia entre dos grupos es la
distancia entre sus puntos más próximos (Vecino más cercano o nearest neighbor).
Por el contrario en el algoritmo denominado encadenamiento promedio, la distancia
entre clústeres se calcula como el promedio de las distancias entre un elemento de un
clúster y un elemento del otro clúster. El agrupamiento entre conglomerados se
realiza en función de la distancia promedio entre todos los pares de individuos de
cada grupo.
Estas formas diferentes de calcular la distancia entre clústeres durante el proceso de
aglomeración es la que marca las diferencias entre un algoritmo de clúster jerárquico
y otro. En el manual de InfoStat (Balzarini et al., 2008) se describen distintas
alternativas.

Todos los métodos jerárquicos que generan como output un dendrograma donde la
longitud de las ramas que conectan las entidades en análisis indica la magnitud de las
distancias entre ellas y lo van construyendo de forma jerárquica. En los pasos
sucesivos agrupa objetos cercanos entre sí y los une al conglomerado más cercano, de
esta manera forma un tercer conglomerado que incluye a ambos grupos. El proceso

91
de conglomeración continua hasta que se forma un solo conglomerado que integra a
todos los objetos.
El dendrograma es una representación o diagrama de los datos en forma de árbol
(Dendro hace referencia a árbol) que organiza los datos en subcategorías que se van
dividiendo hasta llegar al nodo siguiente, simbolizando las ramas de un árbol que se
van dividiendo sucesivamente.

555

337

67

75

521

517

522

336

507

240

202

156

70

41

0 2 4 6 8 10 12 14
Distancia

Figura 4.1. Dendrograma donde se muestra el proceso de conglomeración de 14


variedades de garbanzo. En el eje de las abscisas se muestra la distancia a la que se
unieron las variedades.

El dendrograma resultante puede presentarse acompañado del coeficiente de


correlación cofenético que mide la correlación entre las interdistancias en el
dendrograma (distancias ultramétricas) y las interdistancias en el espacio
multidimensional reflejadas en la matriz de distancia sobre la que se aplicó el
procedimiento. Mayor coeficiente de correlación cofenética indica que las distancias

92
en el dendrograma mejor reflejan las distancias verdaderas (o evaluadas entre todos
los caracteres medidos) entre los objetos que se clasifican.
La determinación del número de grupos en el caso de estos métodos es una cuestión
controversial. Existen muchas propuestas, pero ninguna que podamos decir que es “la
forma” de determinar el número de clúster. Una propuesta es, por ejemplo, posicionar
una línea de corte a un valor de distancia del 75% del rango de distancias observadas.
La cantidad de cruces de las líneas que forman clústeres con la línea de corte, sería un
número de clústeres recomendado. El estadístico GAP y otros estadísticos como
Pseudo F, orientados a evaluar la variabilidad entre clústeres respecto a la
variabilidad dentro de clúster, suelen ser usados. Un buen número de clústeres es
aquel donde las distancias entre grupos son mayores que las distancias dentro de
grupos. Nunca debe olvidarse que el análisis de conglomerados es en una técnica
descriptiva y exploratoria y los resultados deben reportarse como tal. Distintos
agrupamientos pueden ser posibles para el mismo conjunto de datos.

CONGLOMERADO NO JERÁRQUICO

Otros métodos usados para clasificación no supervisada son los métodos no-
jerárquicos, como K-means, donde la clasificación de entidades depende de la relación
entre sumas de cuadrados entre y dentro de un número determinado de grupos, que
se hipotetiza a priori. En el método k-means el usuario decide formar k grupos o
conglomerados y el algoritmo evaluara múltiples particiones de los objetos en k
grupos tal que la distancia entre grupos sea máxima y dentro de grupos sea mínima.
La técnica fue diseñada para agrupar items dentro de una colección de k
conglomerados. El número de k grupos debe ser especificado “a priori” por el
investigador o ser determinada como parte de un procedimiento de agrupamiento.
Estos métodos utilizan la matriz de datos originales para construir el agrupamiento.
Comienza realizando una partición inicial de los individuos dentro de k grupos. Inicia
con un grupo de puntos semillas o centroides que forman el núcleo del clúster. La
asignación de ítems o individuos a los grupos se realiza mediante procesos que
optimicen el criterio de selección: disminución de la suma de cuadrados o varianza
dentro de grupos.

93
En el caso de conglomerados no jerárquicos, es común resumir el proceso de
conglomeración con un gráfico indicando la reducción en la función objetivo
(disminución de la variabilidad dentro de los grupos), en relación al número de
conglomerados (desde dos hasta el número indicado por el usuario). El número
recomendado de grupos es aquel que se asocia con una caída mayor de la función
respecto al número inmediato anterior.
Siempre que se realice un análisis de conglomerados sería bueno acompañar el
resultado que expresa qué objetos pertenecen a uno u otro conglomerado con una
tabla descriptiva conteniendo medidas resumen que muestren el valor de las
variables en cada conglomerado. De ésta manera señalar dónde están las mayores
diferencias entre conglomerados. Los gráficos de estrellas o de “tela de araña” como
se denominan en otros software son útiles para mostrar diferencias entre clústeres.
Podría mostrarse una estrella por conglomerado donde cada rayo de la estrella
represente una variable.

Procedimiento
En el Menú ESTADÍSTICA, comando Análisis Multivariado, InfoStat permite
implementar distintos procesos para agrupar objetos descriptos por un conjunto de
valores de varias variables. Los objetos generalmente representan las filas de la tabla
de datos. Ocasionalmente, estos procedimientos son usados para agrupar variables en
lugar de observaciones (es decir conglomerar columnas en lugar de filas). La ventana
“selector de variables” permite seleccionar las variables del archivo que se usarán en
el análisis e indicar una o más variables como criterio de clasificación con el objetivo
de resumir varios registros en un único caso. Al presionar el botón Aceptar aparece
otra ventana llamada Análisis de conglomerados la cual tiene tres solapas:
Jerárquicos, No jerárquicos y Medidas resumen. Cuando hay varios registros por
objeto a agrupar (por ej. Varias repeticiones de un tratamiento en un estudio
experimental) es posible indicar un criterio de clasificación de registros (por ejemplo,
tratamiento) y en la solapa Medidas de resumen, InfoStat permitirá escoger la medida
resumen usada para obtener el perfil que represente al objeto a agrupar, la medida
resumen más usada es la media.
En la solapa Jerárquicos y No jerárquicos, se puede elegir el tipo de método de
conglomeración usado. En el caso de los jerárquicos también debe seleccionarse el

94
tipo de distancia a utilizar. Para la selección de un métrica de distancia es importante
recordar la clasificación de las mismas según la naturaleza del dato. Por ejemplo, para
datos continuos se recomienda una distancia del tipo de Minkowski (Manhattan,
Euclidea, etc). Para datos binarios, la selección de un índice de similitud (S) como
emparejamiento simple, emparejamiento positivos, Jaccard, Dice y luego la
conversión del mismo a distancia utilizando una función como 1-S o raíz(1-S). Para
variables ordinales, la selección de una medida de similitud basada en coeficientes de
correlación. Para el caso de tener mezcla de tipos de variables, por ejemplo
cuantitativas y binarias, la distancia de Gower es recomendada.

Activando la celda estandarizar datos, se estandariza variable antes de realizar el


agrupamiento. Este procedimiento es común para datos cuantitativos no
conmensurables. Mediante la activación del casillero Guardar clasificación, InfoStat
genera una nueva columna en la tabla de datos activa que contiene la designación del
grupo al que fue asignada cada observación. El número de grupos debe ser
especificado de antemano en el casillero Número de conglomerados.

ILUSTRACIÓN

Clasificación. Análisis de Conglomerados. Datos binarios.


Archivo Fusarium

Se ejemplifica el uso del método de agrupamiento jerárquico UPGMA


(encadenamiento promedio) sobre la matriz de distancias conformada a partir del
índice de similitud de Dice y la transformación 1  S para llevar esta medida de
similitud a distancia en el agrupamiento de 8 cepas de aislamiento de Fusarium, por
ello se indica “conglomerar filas”. Se pide el dendrograma y que se guarde la
clasificación, que en el ejemplo se pide se realice en dos grupos.

95
Figura 4.2. Menú GENÉTICA. Comando Clasificación. Análisis de Conglomerados.

96
Análisis de conglomerados

Promedio (Average linkage)


Distancia: (Dice (sqrt(1-S)))
Correlación cofenética= 0,969
Variables estandarizadas

Dice (sqrt(1-S))
A B C D E F G H
A 0,00
B 0,53 0,00
C 0,58 0,30 0,00
D 0,64 0,62 0,53 0,00
E 0,58 0,30 0,41 0,65 0,00
F 0,71 0,71 0,73 0,76 0,64 0,00
G 0,73 0,73 0,76 0,71 0,76 0,40 0,00
H 0,73 0,73 0,76 0,71 0,76 0,51 0,35 0,00
Matriz de distancias ultramétricas
A B C D E F G H
A 0,00
B 0,56 0,00
C 0,56 0,35 0,00
D 0,61 0,61 0,61 0,00
E 0,56 0,30 0,35 0,61 0,00
F 0,73 0,73 0,73 0,73 0,73 0,00
G 0,73 0,73 0,73 0,73 0,73 0,46 0,00
H 0,73 0,73 0,73 0,73 0,73 0,46 0,35 0,00

Figura 4.3. Dendrograma obtenido a partir de la matriz de distancia basada


en el índice de similitud de Dice. Transformación: raíz cuadrada del
complemento a uno de la similitud.

97
Interpretación

Los perfiles moleculares de los aislamientos B y E se unen a menor distancia que el


resto de los aislamientos, formado un grupo. A ese grupo se unen (en orden
decreciente de parecido) los perfiles C, A y D. Los perfiles H y G conforman otro
grupo, el perfil F es más parecido a este grupo que al conformado por los perfiles B y
E. Estos dos grupos se presentan como los más diferentes, ya que se unen a la mayor
distancia.

EJERCITACIÓN

Ejercicio 4.1
Base de datos: Clase4_CAVILA.IDB2
Descripción de los datos: La base contiene datos de lluvias anuales

registradas en el período 1980-2009 (30 años) pertenecientes a 13 estaciones

pluviométricas de la región pampeana central de la Argentina. De las 13 estaciones, 7

se encuentran ubicadas en la provincia de Córdoba, Argentina (en las localidades de

Córdoba, Laboulaye, Marcos Juárez, Pilar, Río Cuarto, Villa Dolores y Villa María de

Río Seco), 5 en la provincia de Santa Fe (en las localidades de Ceres, El Trébol,

Rosario, Sauce Viejo y Venado Tuerto) y 3 en la provincia de Entre Ríos (en las

localidades de Gualeguaychú, Paraná y Concordia). La primer columna corresponde al

identificador de la estación, la segunda a la provincia en la cual se encuentra y las

siguientes 30 columnas a las precipitaciones anuales de los años comprendidos entre

1980 y 2009. Los datos son gentileza de la Ing. Leticia Vicario (Vicario L., García C.M.,

Teich I., Nertoni J.C., Rodríguez A. "Variabilidad de las sequías meteorológicas en la

98
región central de la Argentina”. Tecnologías y Ciencias del Agua. (2015) VI(1): 153-

167).

CONSIGNAS

Identifique grupos de estaciones hidro-meterológicamente similares mediante


un Análisis de Conglomerados utilizando los 30 valores de lluvia anuales, la
distancia Euclídea y el método de Encadenamiento promedio.

1) ¿En este caso conviene estandarizar los datos? ¿Por qué?

2) Compare los dendrogramas resultantes del análisis de conglomerados


identificando 2, 3, 4 y 5 grupos. ¿En qué se diferencian? ¿Cuál considera que es
el número óptimo de grupos?

3) Guarde la clasificación del análisis de conglomerados con 3 grupos. Indique en


el dendrograma a qué distancia es posible separarlos. ¿Qué grupos se
formaron?

4) ¿Cuál es la precipitación media del año 2009 en cada grupo formado (3


grupos)?

5) Realice un gráfico de perfiles multivariados del tipo dot plot para los tres
grupos formados. ¿Se pueden observar diferencias entre grupos? Describa
dichas diferencias. Observando el dendrograma ¿qué grupos esperaría que
tengan un comportamiento más similar entre sí? ¿Estos dos grupos tienen un
comportamiento más similar entre sí en el diagrama de perfiles multivariados?

99
6) Realice un ACP e identifique en el biplot los tres grupos formados según el
Análisis de Conglomerados. Interprete.

RESPUESTAS

1) En este caso no es conveniente estandarizar los datos ya que todas las


variables miden precipitación anual, por lo tanto sus medias y sus varianzas
son comparables.

2) Como se puede apreciar en la figura A, el dendrograma resultante es siempre


el mismo, ya que siempre se usó el mismo método (average linkage) y la
misma distancia (euclídea). Lo que cambia es la distancia a la cual se fija el
corte. Este criterio es arbitrario y debe estar basado en el conocimiento y los
objetivos del investigador. Por ejemplo, en este estudio se deseaba definir
subgrupos de estaciones pluviométricas que caractericen zonas homogéneas
respecto a sus características hidro-metereológicas. Para ello, previamente al
análisis de conglomerados, se utilizó una metodología propuesta
Pierrehumbert (1977) que se basa en la similitud de las características físicas
de las localizaciones donde están instaladas las estaciones. Esta información
fue utilizada también para definir el número óptimo de grupos. Además, se
debe considerar que el número de estaciones es 13, por lo tanto un número
mayor a 4 de grupos muy probablemente tenga grupos con muy pocas
estaciones, lo cual no es deseable. A partir de la observación de los
dendrogramas (Figura A), el conocimiento de los investigadores, el número
total de estaciones y las características físicas y pluviométricas de las mismas,
se definió que la cantidad óptima de zonas o sub-áreas homogéneas es tres.

100
Promedio (Average linkage) Promedio (Average linkage)
Distancia: (Euclidea) Distancia: (Euclidea)

12 12

13 13

10 10

9 9

7 7

11 11

8 8

3 3

5 5

2 2

6 6

4 4

1 1

0.00 423.32 846.65 1269.97 1693.30 0.00 424.77 849.55 1274.32 1699.10
1. 2.

Promedio (Average linkage) Promedio (Average linkage)


Distancia: (Euclidea)
Distancia: (Euclidea)

12
12
13
13
10

9 10

7 9
11 7
8
11
3
8
5
3
2

6 5

4 2
1 6

0.00 428.70 857.40 1286.10 1714.80 4


3. 1

0.00 428.70 857.40 1286.10 1714.80


4.

Figura A: Dendrogamas resultantes del análisis de conglomerados,


identificando 2, 3, 4 y 5 grupos

101
3) El análisis de conglomerados identificó los siguientes tres grupos: el grupo 1
está conformado por las estaciones de Río Cuarto, Laboulaye, Venado Tuerto,
Marco Juárez, el Trébol y Ceres; el grupo 2 por las estaciones de Villa María de
Río Seco, Pilar y Córdoba y por último, el grupo 3, conformado por las
estaciones de Sauce Viejo, Rosario, Paraná y Gualeguaychú. En la figura B se
puede observar una distancia de corte a la cual se separan los tres grupos,
1230.

SAUCE VIEJO

ROSARIO

PARANÁ

GUALEGUAYCHU

V.M.de R.S.

PILAR

CÓRDOBA

RÍO CUARTO

LABOULAYE

VENADO T.

M. JUAREZ

EL TRÉBOL

CERES

0 425 850 1275 1700


5.
Figura B: Dendrograma obtenido mediante el análisis de conglomerados realizado
sobre los datos de lluvia anual entre los años 1980 y 2009 de las 13 estaciones
analizadas. Se detalla la distancia a la cual se separan los tres grupos obtenidos.

Nota 1: Para que aparezcan los nombres de las estaciones en el dendrograma,


cuando se pide el análisis de conglomerados se debe poner ESTACION como
criterio de clasificación. Para cambiar el formato de la figura se debe usar la
ventana herramientas gráficas. En este caso en vez de identificar a los grupos con
colores se cambió el estilo de la línea, cosa que puede ser útil para una
publicación. Para hacer esto se debe ir a la solapa “series” de la ventana

102
Herramientas gráficas y hacer click con el botón derecho del mouse en el nombre
de cada conglomerado, Conectores, Relleno/Color. Para que aparezca la línea que
indica la distancia de corte ir a Eje X y poner la distancia que se desee en “línea de
corte”.

Nota 2: para guardar la clasificación lograda en el análisis de conglomerados


clickear dicha opción. Luego, en el archivo original se genera una columna nueva que
se llama Conglomerado con la clasificación obtenida.

103
4) La precipitación media del año 2009 en el grupo 1 (conformado por las
estaciones de Río Cuarto, Laboulaye, Venado Tuerto, Marco Juárez, el Trébol y
Ceres) es de 876.93, en el grupo 2 (conformado por las estaciones de Villa
María de Río Seco, Pilar y Córdoba) fue de 561.27 y en el grupo 3 (conformado
por las estaciones de Sauce Viejo, Rosario, Paraná y Gualeguaychú) de
1348.82.

Nota: para calcular medidas resumen para cada grupo, como por ejemplo la media,
primero es necesario guardar la clasificación lograda en el análisis de
conglomerados. Esto genera una nueva columna eb el archivo original que se llama
Conglomerado. Luego se debe ir a Estadísticas, Medidas resumen y elegir como
variable el año 2009 y como criterio de clasificación la nueva variable llamada
conglomerado.

5) En la Figura C se observa que efectivamente hay diferencias entre grupos, el grupo


3 (verde) presenta en general condiciones de mayor humedad, especialmente en
los últimos años (período 2000-2009). Además en este último período se observan
cambios respecto a los otros grupos en relación a la variabilidad interanual, como
también un comportamiento diferente. Por ejemplo, del 2006 al 2007 se registra
104
un aumento en las precipitaciones mientras que en los grupos 1 y 2 se registra una
disminución. Las estaciones que conforman el grupo 2 (azul) presentan los
menores valores de precipitación a lo largo de período estudiado. Observando el
dendrograma es de esperar que el grupo 3 se diferencie más del resto. Es decir que
los grupos 2 y 1 sean más similares entre sí (una forma de ver esto es notar que si
uno corta a una distancia mayor y forma solo dos conglomerados, el grupo 3 se
separa del resto). En la figura C se puede apreciar que efectivamente los grupos 2 y
1 tienen un comportamiento más similar entre ellos, aunque igualmente se
aprecian diferencias, ya que, por ejemplo, el grupo 2 presenta menores
precipitaciones en general.

1600
Grupo 1
Grupo 2
Grupo 3
1325
Precipitacion anual

1050

775

500
1980
1981
1982
1983
1984
1985
1986
1987
1988
1989
1990
1991
1992
1993
1994
1995
1996
1997
1998
1999
2000
2001
2002
2003
2004
2005
2006
2007
2008
2009
Año

Figura C: Lluvias medias anuales en los tres grupos de estaciones definidos.

Nota: Para pedir un gráfico de perfiles multivariados hay que ir a Gráficos, Diagrama
de Perfiles multivariados y en variables elegir las precipitaciones de todos los años) y
en perfiles la variable que se guardó del análisis de conglomerados: “Conglomerado”.
El formato del gráfico puede ser modificado mediante la ventana Herramientas
Graficas de Infostat. En este caso se quitaron los decimales en los ejes, se agregó una
cuadrícula y se cambió el formato de los números en el eje x. También se cambio el
grosor y el color de los conectores.

105
6) En la Figura D puede apreciarse el ordenamiento de las estaciones
pluviométricas en el plano definido por las dos primeras componentes
principales obtenidas del ACP realizado sobre los datos de lluvia anual entre
1980 y 2009. Los distintos colores corresponden a estaciones que pertenecen
a distintos conglomerados. Los dos primeros ejes obtenidos mediante el
análisis de componentes principales explican un 67,7% de la variabilidad
observada entre estaciones respecto a las medias pluviométricas anuales,
siendo el primer eje (CP1) el más importante para visualizar variabilidad entre
observaciones ya que explica un 53.8 % de la variabilidad total. Este eje está
asociado a mayores valores de precipitaciones medias anuales, en particular
de los años 2002 y 2009. Es decir, altos valores de CP1 indican mayores
precipitaciones anuales durante el período de estudio, en particular en los
años 2009, 2007 y 2000. Como se aprecia también en los análisis anteriores,
las estaciones del grupo 3 presentan valores más altos del CP1, indicando
condiciones de mayor humedad en dicha región, particularmente en los años
entre 2000 y 2009.

106
1500

1992
750
2003

2002
CP 2 (13.9%)

0 2000
2007

2009

-750

-1500
-1500 -750 0 750 1500
CP 1 (53.8%)

Grupo 1 Grupo 2
Grupo 3 Biplot(1,2) - Variables
6.

Figura D: Biplot resultante del ACP realizado sobre los datos de lluvia anual entre
1980 y 2009 de 13 estaciones pluviométricas de la región central de Argentina. Los
distintos colores corresponden a estaciones pertenecientes a distintos grupos
obtenidos mediante un Análisis de conglomerados.

Nota: Para obtener este biplot, ir a Estadísticas, análisis Multivariado,


Componentes Principales. Poner todos los años en variables, como criterio de
clasificación poner estación y en la pestaña particiones poner Conglomerado en la
opción color. Recuerden no estandarizar los datos en éste caso.

107
PASOS EN INFOSTAT

Cómo pedir el Análisis de Conglomerados

Seleccionamos las variables

108
Seleccionamos el método Average Linkeage, la distancia Euclídea y recuerden que en
este caso NO ESTANDARIZAMOS los datos. Elegir el núemro de conglomerados que
quieren y clickear en guardar clasificación.

SALIDA DEL SOFTWARE

Análisis de conglomerados

Promedio (Average linkage)


Distancia: (Euclidea)
Correlación cofenética= 0.747
Variables no estandarizadas
Casos leidos 13
Casos omitidos 0

109
OTROS EJERCICIOS

Ejercicio 4.2
Los datos del archivo Ganado (se encuentra en datos de prueba de Infostat) contienen
datos sobre cabezas de ganado en los distintos departamentos de La Rioja.
a. Utilizando análisis de conglomerados no jerárquico, distancia Euclídea entre
objetos y estandarización de las variables, construya 2, 3, 4, 5, 6, 7, 8 y 9
conglomerados.
b. En la salida de esta corrida va a encontrar (entre otras cosas) un gráfico que
muestra una cantidad que mide heterogeneidad dentro de grupos vs el número de
conglomerados elegido. Interprete este gráfico y decida cual es un número
razonable de conglomerados para estas observaciones.
c. Una vez que tenga el número de conglomerados seleccionado, repita el cálculo para
ese número y guarde los identificadores de conglomerados (guardar clasificación).
d. Con el objeto para interpretar más fácilmente las características que asemejan y
diferencias los grupos conformados, realice un diagrama de perfiles multivariados
para las cabezas de ganado, clasificadas por conglomerados.
e. Una representación gráfica puede obtenerse mediante un análisis de conglomerados
jerárquico. Realice un análisis de conglomerados jerárquico (por el método de
encadenamiento promedio), utilizando nuevamente la distancia Euclídea y la
estandarización de variables y disponiendo asimismo que se identifique la misma
cantidad de conglomerados que en el punto ‘b’.
f. ¿Cómo reportaría estos resultados?

Ejercicio 4.3:
A veces interesa saber cómo se relacionan las variables entre sí. Es decir, qué
variables se parecen y que grupos forman cuanto se considera su correlación a lo
largo de los individuos u objetos. Realice un análisis de conglomerado jerárquico para
las variables (columnas) del ejercicio anterior y comente sus conclusiones. ¿Qué
medida de distancia utilizaría en este caso?

110
Ejercicio 4.4:
El archivo Mamíferos (se encuentra en datos de prueba de Infostat) contiene el
número de dientes según sean incisivos, colmillos, premolares y molares y según su
ubicación en el maxilar superior e inferior para distintos mamíferos. Construya un
dendrograma que refleje las relaciones de similitud entre mamíferos utilizando, como
medida de distancia entre ellos, la distancia Euclídea y como método de aglomeración
los siguientes:
a. Encadenamiento completo (complete linkage)
b. Encadenamiento promedio (average linkage)
c. Encadenamiento simple (single linkage)

111
CAPÍTULO V

CORRELACIONES CANÓNICAS Y REGRESIÓN POR


MÍNIMOS CUADRADOS PARCIALES

112
ANÁLISIS DE CORRELACIONES CANÓNICAS

El análisis de correlaciones canónicas (ACC) aborda el estudio de la asociación entre


dos conjuntos de variables. Muchas veces cada conjunto de variable es usado para
representar un concepto el cual no puede ser medido directamente sino a través de
varias variables o indicadores. Por ejemplo, supongamos que se tienen variables que
indican el clima de una serie de ambientes y otras variables que indican la vegetación
de esos mismos ambientes, el ACC permite identificar y cuantificar la asociación entre
clima y vegetación (dos conjuntos de variables o dos conceptos).
El ACC se basa en la correlación entre una combinación lineal de las variables en un
conjunto (en el ejemplo, una combinación lineal de las variables que miden clima) con
una combinación lineal de las variables en el otro conjunto (combinación de variables
que miden vegetación).
En un primer paso del análisis, se pretende determinar el par de combinaciones
lineales con máxima correlación. En un segundo paso, el par con máxima correlación
entre todos los pares no correlacionados con el par de combinaciones seleccionadas
en el primer paso y así sucesivamente. Las combinaciones lineales de un par son
llamadas variables canónicas y la correlación entre ellas, es llamada correlación
canónica para diferenciarla de la correlación ordinaria entre dos variables.
Para interpretar las variables canónicas, recordemos que el coeficiente de correlación
simple entre dos variables (coeficiente producto momento de Pearson) fue definido
como,
Cov(Y , X )  12
r12  corr (Y , X )  
Var (Y )Var ( X )  11 22
Luego si x es un vector de q variables y l´x es una combinación lineal de x , la
correlación entre Y y l´x será
Cov(Y , l´x)
ry ,l´ x  corr (Y , l´x) 
Var (Y )Var (l´x)

El vector l que maximiza la correlación anterior es la combinación lineal resultante de


ajustar un modelo de regresión múltiple de Y sobre x y también se puede demostrar
que ,

ry ,l´x  corr (Y , l´x)  R 2

113
donde R 2 es el coeficiente de determinación de la regresión múltiple.
Si y es un vector de p variables , x es un vector de q variables y l1´y y l2 ´x son dos
combinaciones lineales, la correlación canónica entre dichas combinaciones es ,
Cov(l1´y, l2´x)
rl1´ y ,l2 ´ x  corr (l1´y, l2´x) 
Var (l1´y )Var (l2´x)

ÁLGEBRA DEL ANÁLISIS

Para encontrar los vectores l1 y l2 que la correlación entre ambas combinaciones


lineales de interés sea máxima es necesario realizar la descomposición por valor
singular de una matriz conformada por el producto de las matrices de varianzas y
covarianzas de y y x . Sea

 12  y 
   11  la matriz de varianzas covarianza del vector particionado   y sea
 21  22  x
u  l1´y y v  l2´x , luego se tienen que:
Var (u)  l1´11l1
Var (v)  l2´22l2
Cov(u, v)  l1´12l2 y
l1´12l2
Corr (u, v) 
l1´11l1 l2 ´22l2

Las correlaciones canónicas (al cuadrado) ordenadas de mayor a menor son los
1/ 2
autovalores (ordenados de mayor a menor) de la matriz 11 122212111
1/ 2
y los
vectores de coeficientes de las combinaciones lineales relacionadas a y , i.e. vectores
1/ 2
l1 , son obtenidos a partir de los autovectores de esa matriz, haciendo l1´ e1´11 . Los

vectores de coeficientes de combinaciones lineales l2 provienen de los autovectores

de la descomposición de 221/ 22111


1 1/ 2
1222 , l2´ e2´221/ 2 .

La solución a este problema de maximización también puede plantearse a partir de la


descomposición de una matriz Q conformada a partir de los coeficientes de regresión,

114
Q  ( R111R12 )( R22
1
R21 ) , donde Rij i,j=1,2 representan particiones de la matriz de

correlación R . ( R111R12 ) son los coeficientes de regresión estandarizados en la


1
predicción del conjunto 2 desde el conjunto 1, similarmente ( R22 R21 ) . Las
correlaciones canónicas son los autovalores de Q.
La matriz Q no es simétrica, por lo que sus autovectores no son ortogonales, luego si
bien es cierto que un par de variables canónicas no se encuentra correlacionado con
otro par de variables canónicas por construcción, no se puede decir que ellas sean
necesariamente ortogonales.

ALGUNAS CUESTIONES SOBRE ACC

El número de correlaciones canónicas que puede ser extraído desde estas


descomposiciones es igual al mínimo de los números p y q (cardinalidad de cada uno
de los conjuntos de variables que se desean correlacionar). Si  k2 es la k-ésima

correlación canónica al cuadrado,  k2 es la proporción de varianza de uk explicada por

x , y es también la proporción de vk explicada por y .

En el output de un ACC habrá tantos coeficientes de correlación canónica como el


min[p,q] generalmente se presentan ordenados de mayor a menor.
Los coeficientes de correlación canónica al cuadrado representan la proporción de la
varianza total explicada por cada par de variables canónicas.

PRECAUCIONES EN LA INTERPRETACIÓN DE LAS COMBINACIONES LINEALES

Las combinaciones lineales son elegidas bajo el objetivo de maximizar la correlación,


por lo que la interpretación de los vectores de coeficientes puede ser dificultosa. Si las
variables fueron estandarizadas, aquellas con coeficientes de mayor valor absoluto
serán las mas importantes dentro de cada combinación lineal y por ende las de mayor
contribución para explicar las correlaciones. No obstante, es poco recomendable
interpretar los coeficientes si es que no se emplea alguna otra técnica, como

115
rotaciones de los ejes de representación que facilitan la interpretación de dichas
combinaciones.
InfoStat adiciona automáticamente a la tabla de datos los valores que asumen cada
una de las variables canónicas (score de cada observación sobre cada combinación
lineal definiendo una variable canónica). Las correlaciones entre las variables
originales y las variables canónicas pueden solicitarse desde el menú ANÁLISIS DE
CORRELACIÓN.
El ACC asume correlación del tipo lineal, otras correlaciones pueden pasar
desapercibidas y/o distorsionar el análisis.
La incorporación y eliminación de variables puede modificar sustancialmente el
análisis, al igual que la presencia de puntos influyentes. Técnicas de diagnóstico
comunes en el análisis de regresión pueden ser utilizadas para la identificación de
puntos influyentes.
No se requiere normalidad para obtener una correlación canónica, a menos que se
pretendan obtener errores estándares y pruebas de hipótesis para las correlaciones.
InfoStat produce automáticamente una serie de pruebas de hipótesis que establecen
que cada correlación canónica y todas las menores son cero en la población. La
prueba implementada usa la aproximación usual basada en el estadístico Chi
cuadrado, es importante que al menos uno de los dos conjuntos tenga una
distribución aproximadamente normal para que los niveles de probabilidad sean
válidos. En la salida se podrán observar, para cada una de las correlaciones canónicas
factibles de calcular, el coeficiente de correlación canónica (R), la proporción de la
varianza total explicada por cada par de variables canónicas (R2), el estadístico
(lambda), para probar la hipótesis de que dicha correlación y todas las menores son
iguales a cero en la población, los grados de libertad (gl) y los niveles de probabilidad
asociados a dicha prueba (valor p).
Para realizar un ACC en InfoStat, en Variables de la ventana Correlaciones canónicas
se deben señalar las variables que conforman el primer grupo (variables en el grupo 1
o variables dependientes) y las que conforman el segundo grupo (variables en el
grupo 2 o variables independientes). Cuando se Acepta, aparece otra ventana en la
cual se puede elegir utilizar las Variables en su escala original (usa matriz de
covarianzas) o Variables estandarizadas (usa matriz de correlación).

116
ILUSTRACIÓN

En un estudio realizado con alumnos del último año de la escuela secundaria, se


deseaba conocer si las calificaciones en asignaturas de naturaleza cuantitativa como
Matemática, Física y Contabilidad se correlacionaban o no con las calificaciones
obtenidas en asignaturas de naturaleza no cuantitativa como Lengua, Literatura e
Historia. El estudio se realizó analizando los resultados de 6 evaluaciones, una para
cada asignatura, por estudiante sobre una muestra aleatoria de alumnos. Los
docentes responsables de este ensayo opinaban que los alumnos que tenían buen
desempeño en las materias de naturaleza cuantitativa lo tendrían también en las
materias no cuantitativas. Los datos se encuentran en el archivo CorrCan.

Resultados Correlaciones Canónicas. Archivo CorrCan.

Matriz de correlación
Literatura Historia Lengua Matematica Fisica Contabilidad
Literatura 1.000 0.597 0.853 0.870 0.127 0.865
Historia 0.597 1.000 0.778 0.768 0.226 0.566
Lengua 0.853 0.778 1.000 0.982 0.166 0.760
Matemática 0.870 0.768 0.982 1.000 0.134 0.738
Física 0.127 0.226 0.166 0.134 1.000 0.347
Contabilidad 0.865 0.566 0.760 0.738 0.347 1.000

Correlaciones canónicas
L(1) L(2) L(3)
R 0.990 0.601 0.148
R² 0.980 0.361 0.022
Lambda 68.246 7.297 0.344
gl 9.000 4.000 1.000
p-valor 0.000 0.121 0.558

Coef. combinaciones lineales


L(1) L(2) L(3)

117
Literatura 0.271 1.879 -0.470
Historia 0.036 -0.066 -1.624
Lengua 0.731 -1.687 1.692
Matemática 0.845 1.223 0.261
Física -0.018 0.478 -0.976
Contabilidad 0.202 -1.578 -0.118

Obsérvese que la primera correlación canónica R es 0.99, correspondiente a la


correlación entre el primer par de variables canónicas, L(1). El valor R2=0.98 indica
que el 98% de la variabilidad de los datos es explicada por dicha correlación. La
prueba para la hipótesis que la primera correlación canónica y todas las restantes son
iguales a cero en la población, se basa en el estadístico lambda con 9 grados de
libertad. En este ejemplo, el valor del estadístico (68.24) se asocia con un valor p
menor a 0.001. Luego, la primera correlación canónica entre las calificaciones
obtenidas en materias cuantitativas y no cuantitativas es significativamente distinta
de cero en la población. La segunda correlación canónica, R=0.60, y las correlaciones
menores no son significativamente distintas de cero como se puede visualizar a partir
de los restantes valores p. En síntesis, una correlación canónica sería suficiente para
medir la asociación, a nivel de calificaciones, entre ambos tipos de materias.

118
REGRESIÓN POR MÍNIMOS CUADRADOS PARCIALES

PLS (del inglés, Partial Least Squares) es un método estadístico multivariado que
permite relacionar dos matrices de datos, una que se supone como matriz de
variables dependientes y otro conformada por variables regresoras o predictoras
que se suponen pueden explicar a las dependientes o respuesta.
Tiene por objetivo descubrir y reportar la naturaleza de las relaciones de variables
predictoras con una o varias variables respuesta (i.e., una matriz de variables
respuestas). El método PLS permite describir Y a partir de X y su estructura de
variación común.
Es una técnica que generaliza y combina el ACP y el análisis de Regresión Lineal. Es
particularmente útil cuando se desea predecir un conjunto de variables dependientes
(Y) desde un conjunto relativamente grande de variables predictoras (X)
correlacionadas o multicolineales.
El análisis suele usarse en contextos donde el número de casos (n) es menor al
número de variables predictoras (p); situación donde la regresión por mínimos
cuadrados parciales (Ordinary Least Squares, OLS) no podría ser usada, aun siendo
que la variable respuesta fuese una única. Solo cuando hay más observaciones que
variables predictoras y no existe problema de multicolinealidad, la predicción de Y en
función de X puede realizarse eficientemente con un análisis de regresión lineal
múltiple.
PLS se usa cuando existe correlación entre las variables predictoras y/o existen más
predictoras que observaciones. El problema de la estimación en estos casos podría
resolverse combinando linealmente las predictoras con un ACP y luego
regresionando Y con un número reducido de CP. Pero hay que recordar que las CP
explican variación en X y nada nos dicen sobre la relación de Y con X. Por el contrario
la técnica PLS busca una solución óptima o de compromiso entre el objetivo de
explicar la máxima variación en X y encontrar las correlaciones de éstas con Y.
Para implementar una regresión PLS es necesario disponer de I observaciones o
casos descriptos por m variables dependientes (matriz de variables Y) y además n
predictores colectados sobre estos I casos en una matriz de datos I×n (matriz de
variables X).

119
ÁLGEBRA DEL ANÁLISIS

La técnica se basa en un re-arreglo de descomposición por valor singular (SVD) de la


matriz de correlación entre dos matrices de variables. Así, la SVD se interpreta en
relación a los scores de pares de variables latentes (VL), un elemento del par para
cada matriz, tales que los coeficientes de cualquiera de ellas son proporcionales a la
capacidad predictiva de la variable correspondiente de una matriz sobre la otra VL.
Si llamamos X e Y a los dos matrices de variables y suponemos que el número de
variables en X es m (X1, X2, ...,Xm) y el número de variables en Y es n (Y1, Y2, ...,Yn), es
posible construir una matriz R de correlación tal que su elemento Rij sea la
correlación entre Xi e Yj. Esta matriz no tiene unos en la diagonal y usualmente no es
cuadrada. La idea en PLS es obtener un vector de m coeficientes Ai, uno para cada
variable en X y un vector de n coeficientes Bj, uno para cada variable en Y, tal que el
producto AB (i.e., matriz cuya entrada ij es Ai*Bj) aproxime bien a la matriz R en el
sentido mínimo cuadrático (i.e., minimizando la suma de los términos (Rij-Ai*Bj)2).
Podríamos decir que estos coeficientes permiten combinar las variables de cada
matriz para explicar la variabilidad debida a la relación o correlación entre ambas.

REPRESENTACIÓN GRÁFICA

Los resultados de PLS, son presentados a través de un “tri-plot”. Nos referimos a tri-
plot cuando se dispone de un gráfico biplot sobre el que además se grafican
covariables para explicar la asociación entre los marcadores filas y columnas de la
matriz Y, representados en el biplot. Así las tres dimensiones del análisis, es decir los l
casos, las m variables respuestas y las n variables predictoras medidas sobre los
mismos casos, serán representadas en un mismo plot.

ILUSTRACIÓN

En particular en ensayos multi-ambientales, por ejemplo ensayos comparativos de


rendimientos conducidos en distintos ambientes, PLS puede ser usado para explicar a
partir de un conjunto (relativamente grande y posiblemente correlacionado) de

120
variables, las variaciones debidas a la interacción tratamiento-ambiente. En el archivo
PLS se implementara la técnica para explicar la interacción Genotipo-Ambiente (en la
Campaña 01_02) de un ensayo de soja donde se evaluaron 3 genotipos en 7
ambientes. Las variables predictoras fueron las siguientes covariables ambientales:
Ra3 (radiación acumulada en el periodo de llenado de granos), %MD (indicador de
compactación de suelo), %pi (otro indicador de compactación de suelo), PrB2t
(profundidad del horizonte B2 texural) y MO (materia orgánica). En esta campaña
intervinieron 3 genotipos (A5520RG, A6040RG y DM4800RR) y 7 localidades
(Cavanagh, Totoras, Oliveros, Maizales, Bouquet, Rueda, y C.Gómez).
Para realizar el PLS entre Y (matriz que contiene términos de interacción entre 7
localidades y 3 genotipos) y la matriz X (conteniendo las covariables ambientales
antes descriptas), se ejecutaron los siguientes pasos: 1) Obtención de las matrices Y y
X. 2) Implementación de la rutina SVD para PLS de los datos en X e Y estandarizados.

Cuadro 1. Covariables por ambiente (matriz X)

Estadística descriptiva

Localidad Resumen Ra3 %Md MO %pi PrB2t


Bouquet Media 493.03 17.00 2.87 52.50 28.00
C.Gómez Media 488.83 0.00 3.13 21.67 14.67
Cavanagh Media 548.13 22.00 3.65 37.07 20.00
Maizales Media 469.80 31.00 3.07 88.50 25.00
Oliveros Media 452.43 19.00 2.54 59.07 31.33
Rueda Media 368.03 3.57 2.85 35.33 28.67
Totoras Media 540.47 0.00 3.55 19.00 33.33

Para obtener Y se usó ajusto un modelo de ANOVA con los efectos de genotipo y de
localidad. Al no introducir el efecto de la interacción GxE en el modelo, la misma queda
confundida en el error experimental, razón por la cual los residuos del modelo constituyen
una medida de interaccion (mas error) que será usada para conformar Y.

Cuadro 2. matriz Y

Análisis de la Interacción Genotipo Ambiente


Matriz de residuos analizada por SVD
A5520RG A6040RG DM4800RR
Bouquet 13.10 -23.86 10.76
C.Gómez -2.07 4.06 -1.99

121
Cavanagh 8.56 -10.28 1.71
Maizales 4.93 7.92 -12.85
Oliveros -21.68 2.31 19.37
Rueda -0.81 17.51 -16.70
Totoras 3.99 -2.99 -1.00
Autovalores
Lambda Valor Proporción Prop Acum
1 276.64 0.60 0.60
2 184.83 0.40 1.00
3 0.00 0.00 1.00

Ambas matrices se usaron para construir el archivo de InfoStat denominado PLS (Cuadro
3). Se solicito la rutina SVD para PLS y la obtención del tri-plot ejecutados sobre esta nueva
tabla.

Cuadro 3. Tabla de datos necesaria para implantar la técnica PLS con el propósito de
correlacionar una matriz (73) de términos de interacción con otra matriz (75) de
covariables ambientales.

Localidad A5520RG A6040RG DM4800RR Ra3 %Md MO %pi PrB2t


Bouquet 13.10 -23.86 10.76 493.03 17.00 2.87 52.50 28.00
C.Gómez -2.07 4.06 -1.99 488.83 0.00 3.13 21.67 14.67
Cavanagh 8.56 -10.28 1.71 548.13 22.00 3.65 37.07 20.00
Maizales 4.93 7.92 -12.85 469.80 31.00 3.07 88.50 25.00
Oliveros -21.68 2.31 19.37 452.43 19.00 2.54 59.07 31.33
Rueda -0.81 17.51 -16.70 368.03 3.57 2.85 35.33 28.67
Totoras 3.99 -2.99 -1.00 540.47 0.00 3.55 19.00 33.33

122
Para realizar el análisis PLS las columnas de Y deben ir como variables dependientes,
mientras que las filas como clasificatorias; las columnas de X como predictoras.

2.2

DM4800RR
Oliveros
1.1
Ra3 PrB2t
Maizales Bouquet
%Md
%pi
Totoras
Dim: 2

0.0
Cavanagh

A5520RG
Rueda
C.Gómez
-1.1
A6040RG
MO

-2.2
-2.2 -1.1 0.0 1.1 2.2
Dim: 1

Tri-plot de la correlación entre una matriz de interacción entre 3 genotipos y 7


ambientes versus una matriz de 5 covariables ambientales.

Interpretación

La interacción GE se explica en su totalidad a partir de las dos primeras CP, según lo


muestran los autovalores. Los scores de genotipos y ambientes para el estudio de
interacción se presentan en la salida, ellos sirven para asociar genotipos con ambientes,
pero no para explicar esta asociación con variables en X, las nuevas variables latentes
obtenidas a partir de la técnica PLS se muestran en la ventana resultados. Las covariables
de mayor “inercia” sobre el eje 1 del tri-plot resultaron ser Ra3 y MO. Luego las
interacciones detectadas en este conjunto de datos, desde el punto de vista ambiental, son
principalmente atribuidas a estas dos variables.

Valores de Ra3, relativamente altos se registraron en Cavanagh y en Totoras, éstos podrían


explicar el desempeño mejor que tuvo el genotipo A5520RG respecto a los otros en esas
localidades. La MO también fue relativamente alta en Cavanagh y Totoras y muy baja en

123
Oliveros (correlación negativa entre el marcador de MO y el de la localidad Oliveros). Las
características de suelo distintas de la MO, no resultaron importantes para explicar las
interacciones en esta campaña. El cultivar A6040RG se desempeñó, relativos a los otros
dos cultivares, mejor en Rueda y en Oliveros; la interacción con Rueda se correlaciona
negativamente con Ra3. La segunda dimensión del tri-plot se asocia con las adaptaciones
mejores de DM4800 en Oliveros que presenta un menor contenido de MO que los otros
sitios.

EJERCITACIÓN

EJERCICIO 5.1 (ACC)

Base de datos: CAVILA_ejercicio CC.IDB2


Descripción de los datos: La base de datos contiene 3 indicadores de diversidad
genética (P SW y Pn) de 18 poblaciones de P. australis y 4 indicadores ambientales de
los sitios donde se encuentran dichas poblaciones (Precipitación, Temperatura media,
Temperatura Máxima y Temperatura mínima). Es de interés conocer si existe relación
entre la diversidad genética de las poblaciones y las condiciones ambientales.

Variable
Pop Población de P. australis
Div.Gen (P) Porcentaje de loci polimórficos
Div.Gen (SW) Índice de Shannon Weaver
Div.Gen (Pn) Diversidad génica
Pp Precipitación
Tmedia Temperatura media anual
Tmax Temperatura máxima anual
Tmin Temperatura mínima anual

124
CONSIGNAS:

Realice un Análisis de Correlaciones Canónicas entre los indicadores de


diversidad genética y las características ambientales de los sitios.

1) ¿Existe asociación entre diversidad genética de las poblaciones y las


condiciones ambientales de los sitios? Justifique.

2) ¿Cuántos pares de variables canónicas se correlacionan significativamente?


Realice una tabla especificando el coeficiente de correlación y el valor p de los
dos primeros pares de variables canónicas obtenidos.

3) ¿Cómo se correlacionan los componentes de cada variable canónica con la


variable canónica correspondiente? Realice una tabla presentando los
coeficientes de correlación simple de Pearson entre las tres componentes de
diversidad genética y la variable canónica compuesta por los mismos y entre
los cuatro componentes ambientales y la canónica correspondiente.

4) Realice un gráfico de dispersión entre las dos primeras variables canónicas e


interprete los resultados teniendo en cuenta lo obtenido en el punto 4.

125
RESPUESTAS

1) Sí. Los resultados del ACC indican que existe una asociación entre la diversidad
genética de las poblaciones de P. australis y las condiciones ambientales de los
sitios donde se encuentran ya que el primer par de variables canónicas se
correlaciona significativamente (p=0.00078) con un coeficiente de correlación
de 0.95.

2) Sólo el primer par de variables canónicas se correlaciona significativamente.

Coeficientes de corelación canonica y valores p


Ejes Canónicos Correlación Canónica Valor p
1 0.95 0.00078
2 0.51 0.64

Nota: esto puede observarlo en la ventana de Resultados de Infostat, en la tabla


Correlaciones Canónicas:

Correlaciones canónicas
L(1) L(2) L(3)
R 0.95 0.51 0.17
R² 0.89 0.26 0.03
Lambda 33.60 4.30 0.40
gl 12.00 6.00 2.00
p-valor 7.8E-04 0.64 0.82

3) Los tres indicadores de diversidad genética se correlacionan alta y


positivamente con la variable canónica compuesta por ellos. El índice de
Shannon Weaver (SW) es el indicador más correlacionado con la variable
canónica (r=0.99), seguido por Pn (r=0.92). El porcentaje de loci polimórficos
es el indicador de diversidad genética menos correlacionado con la variable
canónica, si bien el coeficiente de correlación es alto (r=0.81). En el caso de las
variables ambientales, las cuatro se correlacionan negativamente con la
variable canónica correspondiente. La temperatura mínima es la variable que
presenta mayor correlación con la mism (r=-0.75)

126
Coeficientes de Correlación de Pearson entre el primer eje
canónico compuesto por indicadores de diversidad genética y sus
componentes.
Eje 1DG
Porcentaje de loci polimórficos
(P) 0.81
Indice de Shannon Weaver (SW) 0.99
Diversidad Génica (Pn) 0.92
Coeficientes de Correlación de Pearson entre el primer eje
canónico compuesto por indicadores ambientales y sus
componentes.
Eje 1Amb
Precipitación -0.29
Temperatura media -0.27
Temperatura maxima -0.34
Temperatura mínima -0.75

Nota: para obtener estos resultados debe guardar las variables canónicas al
realizar el ACC. Luego, se debe ir a Estadísticas, Análisis de Correlación,
Coeficientes de correlación y pedir la correlación entre las variables originales
y la variable canónica correspondiente. ¿Cómo sabemos cuál es variable
canónica correspondiente? Depende de cómo se pidió el ACC, es decir qué
variables se pusieron en el grupo 1 y qué variables se pusieron en el grupo 2. Si
se pusieron las de diversidad genética en el grupo 1, entonces se deben
correlacionar estas 3 variables con la Can1_1 y las variables ambientales con la
Can2_1.

127
128
4) El gráfico de dispersión obtenido entre las dos primeras variables canónicas
es

1.84

Eje Canónico Diversidad Genética


0.96

0.08

-0.81

-1.69
-1.74 -0.80 0.14 1.08 2.02
Eje Canónico Ambiental

Se observa una relación negativa entre ambas variables canónicas pero dado que
los indicadores ambientales están correlacionados negativamente con la variable
canónica correspondiente, se concluye que la diversidad genética se relaciona
positivamente con las variables ambientales. Es decir, sitios con mayor
precipitación y mayores temperaturas media, máxima y mínima presentan
poblaciones de P. australis con mayores niveles de diversidad genética. En
particular, la temperatura mínima es la variable ambiental que mayor asociación
presenta con la diversidad genética.

Nota: para interpretar los resultados de un ACC, es conveniente analizar la


correlación de las componentes y las variables canónicas y luego la relación entre
los pares de variables canónicas, tal como se realizó en éste ejercicio.

129
PASOS EN INFOSTAT

Cómo pedir el ACC

Seleccionamos las variables en cada grupo

130
Seleccionamos estandarizar variables (son variables muy diferentes con varianzas
muy distintas) y guardar variables canónicas.

SALIDA DEL SOFTWARE

Correlaciones canónicas

Matriz de correlación
Div.Gen (P) Div.Gen. (SW) Div.Gen (Pn) Pp Tmedia Tmax Tmin
Div.Gen (P) 1.00 0.74 0.90 0.30 0.27 0.31 0.66
Div.Gen. (SW) 0.74 1.00 0.89 0.26 0.24 0.31 0.69
Div.Gen (Pn) 0.90 0.89 1.00 0.37 0.32 0.42 0.75
Pp 0.30 0.26 0.37 1.00 -0.23 0.50 0.20
Tmedia 0.27 0.24 0.32 -0.23 1.00 0.61 0.77
Tmax 0.31 0.31 0.42 0.50 0.61 1.00 0.60
Tmin 0.66 0.69 0.75 0.20 0.77 0.60 1.00

Correlaciones canónicas
L(1) L(2) L(3)
R 0.95 0.51 0.17
R² 0.89 0.26 0.03
Lambda 33.60 4.30 0.40
gl 12.00 6.00 2.00
p-valor 7.8E-04 0.64 0.82
Interpretar p-valor según manual de referencia

Coeficientes de las combinaciones lineales


L(1) L(2) L(3)
Div.Gen (P) 0.15 -1.00 -2.26
Div.Gen. (SW) 0.88 -2.08 0.20
Div.Gen (Pn) 0.01 3.13 1.75

Pp 1.16 1.89 1.40


Tmedia 2.26 2.38 1.78
Tmax -1.02 -1.01 -2.28
Tmin -2.12 -1.13 -0.15

131
EJERCICIO 5.2 (PLS)

Base de datos: CAVILA_ejercicio DURAZNOS.IDB2


Descripción de los datos: La base de datos contiene indicadores de calidad de frutos
de duraznos. Algunos son obtenidos como variables instrumentales y otros como
variables sensoriales ya que los métodos utilizados para evaluar calidad de frutas
son: 1) escalas objetivas basadas en instrumentos de medición y 2) métodos
subjetivos basados en el juicio humano (análisis sensorial) (Kader, 1992). Toda vez
que la seguridad e higiene de un alimento está garantizada, lo satisfactorio de sus
propiedades organolépticas pasa a ser el criterio más importante, el que determina la
elección y, más aún, la fidelidad de un consumidor hacia un producto o marca. (Grupo
Eroski, 2002). La calidad como aceptabilidad por parte del consumidor de un
determinado producto está integrada por distintos aspectos recogidos por los
sentidos: vista (color y defectos), olfato (aroma y flavor), tacto (manual y bucal), oído
(tacto y durante la masticación) y gusto (sabor). Todos los aspectos de la calidad,
tanto externos como internos, son contemplados y valorados por el consumidor a la
hora de decidir sobre la adquisición de un producto para consumo en fresco.
El objetivo del estudio del cual proveyeron los datos que analizaremos fue evaluar la
potencialidad de una serie de parámetros reológicos obtenidos como variables
instrumentales en la predicción variables medidas desde un análisis sensorial. Ambos
métodos están orientados a evaluar calidad organoléptica de duraznos (Datos:
gentiliza Ing. Loreto Contador). Para cada una de seis variedades se tomaron varios
frutos al azar que se procesaron en un laboratorio de fruticultura. Allí se midieron,
sobre cada mitad de cada fruto, variables instrumentales relacionadas con
propiedades físicas-químicas del mismo. La otra mitad del fruto fue usada en una
prueba sensorial de la que se obtuvieron 5 variables.

132
Variables
Fza Max P2 (N)
Area Total P2 (N.mm)
Instrumentales Fza Final P2 (N)
Area Total 7,9 (N.mm)
N Peaks 7,9
Hardeness/Force 2 B (N)
Resilence B (%)
Chewiness B (%)
N Peaks Acoustic B
Peaks Min Acoustic B (dBs)
PAM.1
______________________ _______________________________
Crujencia
Dureza
Sensoriales Crocancia
Jugosidad
Fundencia

CNSIGNAS:

5 Realice un Análisis de Regresion por Minimos Cuadrados Parciales entre las


variables sensoriales y las instrumentales usando estas últimas como
predictoras de las primeras.

1) ¿Cómo es posible explicar Y (matriz de variables sensoriales) a partir de X


(matriz de variables instrumentales)?

2) Represente gráficamente la relación entre combinaciones lineales de variables


instrumentales y combinaciones de variables sensoriales en un espacio que
maximice la estructura de covarianza común entre ambos tipos de variables
(TRIPLOT). Interprete.

133
3) ¿Cuántas variables latentes pueden construirse para modelar la relación y
cuántas deberían analizarse para visualizar las principales relaciones?

4) ¿Cómo se correlacionan las variables respuestas y predictoras con cada una


de las dos primeras variables latentes? Realice una tabla presentando los
coeficientes de correlación simple de Pearson entre las variables en estudio y
las dos primeras variables latentes.

5) Realice un gráfico de dispersión de las observaciones usando las dos primeras


variables latentes como ejes e interprete los resultados teniendo en cuenta lo
observado en el TRIPLOT del punto 1.

RESPUESTAS

1) Las variables sensoriales pueden predecirse a partir de las variables latentes


construidas usando como modelo la expresión Y=T*B*QT o tambien como
Y=X*Beta-pls siendo T, B, Q y Beta-pls matrices resultantes del ajuste de un
modelo desarrollado para explicar la estructura de covariacion común de las
variables en Y (variables sensoriales) con las variables en X (variables
instrumentales). Todas estas matrices se encuentran presentes en la ventana
de resultados de InfoStat. Una descripción breve de las mismas es:

P matriz que indica cómo combinar las 11 variables predictoras para generar
11 nuevas variables sintéticas que las representen.
U matriz conteniendo las nuevas variables sintéticas que surgieron de la
combinación de las variables en X
B matriz de coeficientes asociados a cada variable latente
W matriz que indica ponderaciones de las variables predictoras en las
variables latentes
Q matriz que indica ponderaciones de las variables dependientes en las
variables latentes
T matriz de variables latentes usadas para predecir Y
Beta-pls coeficientes de regresión PLS los que postmultiplicando X pueden ser
usados para predecir Y.

134
2) En la siguiente figura se presenta el triplot de la regresión PLS.

3.00

1.50 Dureza

Hardness/Force 2 B (N)
Chew iness (b) Peaks Min Acoustic B (dBs)
Factor 2 (17.1%)

resilence B (%) N° Peaks 7,9


Crocancia PAM.1
0.00
4B29 Carson 4B12
Fza Final P2 (N)
N°Peaks Acoustic B Fundencia
Área Total P2 (N.mm) Andross
Área Total 7,9(N.mm)
Jugosidad
Fza Máx P2 (N) Crujencia
Venus
-1.50

Andes Nec 1 (16B20)

-3.00
-3.00 -1.50 0.00 1.50 3.00
Factor 1 (45.9%)

Triplot obtenido por regresión PLS en datos de calidad de 6 variedades de durazno.


En verde se indican los indicadores sensoriales de la calidad (variables
dependientes) y en amarillo los indicadores instrumentales (variables predictoras).
Las variedades se representan en azul.

Interpretación:
La Dureza y la Crocancia como características organolépticas correlacionadas
negativamente con la Fundencia del fruto de durazno, se correlacionaron
positivamente con las variables instrumentales hardeness/force 2 B (N), Area
Total 7,9 (N.mm), Area Total P2(N.mm) y Fza final P2 (N), variables estas que
alcanzaron mayores valores en las variedades Venus y 4B29. La variedad 4B12
con altos valores de fundencia (seguida por la variedad Carson) presentó baja
crocancia y menores valores para los parámetros reologicos mencionados.
También existe relación entre Crujencia y Numero de Peaks acoustic B, aunque
de menor magnitud que la observada entre Crocancia alta y baja Fundencia
con los parámetros reológicos mencionados anteriormente (capaz de explicar

135
el 17% de la estructura de covarianza común entre ambos tipos de variables).
Las relaciones descriptas en el espacio construido por los dos primeros ejes de
la regresión PLS explicaron un 63% de la estructura de covarianza común
entre ambos tipos de variables.

3) Pueden construirse tantas variables latentes como predictoras. Para este


problema se construyeron 11 variables latentes pero se usaron solo dos ya que
estas explicaron más del 60% de la estructura de relación entre Y y X. Para
calcular este porcentaje para cada eje o factor de análisis, es menester calcular la
varianza de la variable latente (se puede realizar usando el modulo Medidas
Resumen de Infostat) y analizar el cociente entre la varianza de la variable latente
y la varianza total (suma de las varianzas de todos los factores).

4) Los indicadores organolépticos y las variables instrumentales se correlacionaron


con las variables latentes. La Dureza, la Crocancia y la Fundencia fueron las más
correlacionadas. Excepto tres, las variables instrumentales se mostraron
altamente correlacionadas con el eje 1. Todas, excepto Npeaks asumieron
mayores valores en las variedades con mayor crocancia y dureza. El segundo
factor permite explicar a través de la mayoría de las variables instrumentales
(nuevamente correlacionadas de manera estadísticamente significativa) la
crujencia de la fruta.

Nota: para obtener estos resultados debe guardar las variables latentes al realizar
el PLS. Luego, se debe ir a Estadísticas, Análisis de Correlación, Coeficientes de
correlación y pedir la correlación entre las variables originales y los factores de
interes. En este caso se pidió formato compacto, lista y se seleccionaron las
correlaciones de las variables latentes 1 y 2.

Coeficientes de correlación

Correlación de Pearson
Variable(1) Variable(2) n Pearson p-valor
Latente1 Latente2 74 0.00 >0.9999
Latente1 Fza Máx P2 (N) 74 -0.64 <0.0001
Latente1 Área Total P2 (N.mm) 74 -0.79 <0.0001
Latente1 Fza Final P2 (N) 74 -0.70 <0.0001
Latente1 Área Total 7,9(N.mm) 74 -0.81 <0.0001
Latente1 N° Peaks 7,9 74 0.47 <0.0001
Latente1 Hardness/Force 2 B (N) 74 -0.78 <0.0001
Latente1 resilence B (%) 74 -0.52 <0.0001
Latente1 Chewiness (b) 74 -0.67 <0.0001
Latente1 N°Peaks Acoustic B 74 -0.16 0.1626
Latente1 Peaks Min Acoustic B (dBs).. 74 0.08 0.5163
Latente1 PAM.1 74 0.10 0.4171
Latente1 Crujencia 74 -0.13 0.2792
Latente1 Dureza 74 -0.52 <0.0001
Latente1 Crocancia 74 -0.40 0.0004
Latente1 Jugosidad 74 0.19 0.1093
Latente1 Fundencia 74 0.61 <0.0001

136
Latente2 Fza Máx P2 (N) 74 -0.66 <0.0001
Latente2 Área Total P2 (N.mm) 74 -0.51 <0.0001
Latente2 Fza Final P2 (N) 74 -0.50 <0.0001
Latente2 Área Total 7,9(N.mm) 74 -0.42 0.0002
Latente2 N° Peaks 7,9 74 0.32 0.0059
Latente2 Hardness/Force 2 B (N) 74 0.54 <0.0001
Latente2 resilence B (%) 74 0.59 <0.0001
Latente2 Chewiness (b) 74 0.63 <0.0001
Latente2 N°Peaks Acoustic B 74 -0.08 0.5080
Latente2 Peaks Min Acoustic B (dBs).. 74 0.13 0.2718
Latente2 PAM.1 74 0.21 0.0728
Latente2 Crujencia 74 -0.23 0.0494
Latente2 Dureza 74 0.33 0.0045
Latente2 Crocancia 74 0.03 0.7875
Latente2 Jugosidad 74 -0.18 0.1233
Latente2 Fundencia 74 -0.08 0.5009

5) El gráfico de dispersión de las observaciones obtenido a partir de las dos


primeras variables latentes indica la similitud/diferencia de las variedades
fundada en la correlación entre las variables instrumentales y las sensoriales

2
Latente2

-1

-2

-3

-4
-6 -5 -4 -3 -2 -1 0 1 2 3 4
Latente1

4B12 4B29
Andes Nec 1 (16B20) Andross
Carson Venus

Gráfico de dispersión entre las dos primeras variables latentes obtenidas


mediante PLS entre indicadores instrumentales y sensoriales de calidad de
duraznos.

137
PASOS EN INFOSTAT

Cómo pedir el PLS

Seleccionamos las variables dependientes e independientes y variedad como variable


de clasificación.

138
Seleccionamos estandarizar variables (son variables muy diferentes con varianzas
muy distintas) y guardar tantas raíces como variables latentes haya (cantidad de
predictoras).

139
Salida del software

Mínimos cuadrados parciales (PLS)

P
1 2 3 4 5 6 7 8 9 10 11
1 -0.42 -0.35 0.15 -0.27 0.01 0.18 -0.03 0.03 -0.09 0.13 0.75
2 -0.37 -0.34 0.08 -0.34 -0.01 -0.21 -0.42 -0.54 0.08 0.43 -0.20
3 -0.43 -0.29 -0.07 -0.09 -0.15 -0.34 0.04 0.16 -0.11 -0.78 -0.24
4 0.25 0.22 0.04 -0.68 0.55 0.03 -0.43 0.16 -0.26 -0.23 -0.09
5 -0.41 0.37 -0.10 0.03 1.1E-03 -0.14 -0.35 0.24 0.39 -0.13 0.25
6 -0.28 0.40 -0.08 -0.11 0.20 0.86 0.18 -0.57 -0.17 -0.09 -0.22
7 -0.35 0.43 -0.15 -2.3E-03 0.02 -0.37 0.28 0.33 -0.36 0.30 -0.16
8 -0.09 -0.05 -0.48 0.35 0.80 -0.06 0.05 -0.21 0.43 -0.04 0.10
9 0.04 0.09 0.76 -0.08 -0.30 -0.09 0.56 0.04 0.40 -0.06 0.01
10 0.05 0.14 -0.51 -0.63 -0.37 0.36 0.50 0.09 0.56 0.09 0.08
11 -0.34 -0.45 0.17 -0.08 0.19 0.31 0.20 0.39 0.02 0.14 -0.43

U
1 2 3 4 5 6 7 8 9 10 11
1 1.51 0.83 -1.76 -0.87 -1.52 -1.32 -1.16 -1.16 -0.49 0.49 -1.24
2 -2.77 0.65 1.62 1.15 -0.65 2.33 -1.82 1.36 1.77 -0.48 -0.96
3 -2.30 1.54 1.45 0.89 -0.49 0.89 -2.65 0.99 2.52 0.88 -1.98
4 -0.26 0.08 -0.61 1.36 -0.25 -0.36 -0.40 -0.26 0.19 0.35 -1.04
5 2.16 -0.71 -0.52 -1.15 1.61 -1.51 1.70 -0.79 -1.11 0.31 1.59
6 0.04 -1.19 -0.13 -0.31 0.65 -0.05 0.83 -0.08 -0.28 -0.45 0.62
7 0.95 0.40 0.24 -0.54 0.09 -1.03 -0.04 -1.00 0.52 -0.80 -0.21
8 -1.25 -0.06 0.15 0.90 0.15 0.31 -0.17 -0.08 -0.10 -0.18 0.20
9 0.06 -0.56 -0.12 -0.09 -0.61 0.33 -0.01 -0.61 -0.35 -1.32 0.17
10 1.36 -1.07 0.26 0.29 1.02 1.82 0.03 2.17 -0.78 0.56 0.83
11 0.77 -0.52 0.90 -0.02 1.54 -0.35 0.83 -0.18 0.33 -0.18 0.63
12 2.38 -1.00 -0.31 -1.27 1.38 -0.90 1.36 -0.37 -0.36 0.25 0.92
13 0.51 0.19 0.52 0.74 0.99 -0.65 -0.09 -0.01 0.58 0.26 -0.59
14 -1.24 -0.32 -0.53 0.92 -0.17 0.17 0.52 -0.74 -0.61 0.27 0.06
15 -0.73 0.25 0.16 0.06 0.14 1.24 -0.15 0.36 -0.06 0.38 -0.17
16 -0.45 -0.95 -0.42 0.04 -0.21 0.68 0.08 0.30 -0.92 -0.48 0.86
17 2.15 -0.25 -0.48 -1.41 0.28 -0.92 0.90 -1.08 0.10 -0.39 0.36
18 1.07 -1.20 0.47 -0.68 2.01 0.96 1.70 0.79 -1.33 0.41 2.44
19 -0.53 0.72 -0.13 -1.91 0.90 -2.29 1.39 -1.82 -0.34 -0.99 0.81
20 -0.80 -0.38 -1.51 -0.55 -0.80 -0.71 1.01 -1.17 -0.47 -0.79 -0.69
21 -1.95 1.09 0.29 1.17 -0.19 0.14 -0.83 0.21 0.76 0.18 -0.43
22 -1.62 0.84 0.68 0.23 -1.2E-03 1.20 -0.96 0.74 0.86 0.16 -0.92
23 -1.92 0.85 -1.37 0.07 0.59 -0.07 -0.11 1.60 -0.85 1.43 -0.03
24 -2.12 1.24 0.82 -0.03 0.83 -0.07 0.07 -0.26 0.84 0.15 1.01
25 0.95 -0.71 -1.39 -0.37 0.72 -1.32 1.17 -0.41 -1.31 0.50 0.85
26 -0.18 1.7E-04 -1.00 -0.48 -0.95 -1.53 0.31 -1.86 0.05 -1.26 -0.42
27 0.10 0.72 -0.73 0.84 -1.08 -0.12 -0.90 -0.14 0.36 0.39 -0.87
28 0.29 -0.25 1.15 0.28 0.47 0.94 0.02 0.42 0.91 -0.71 0.27
29 0.53 1.06 -0.45 -0.22 -1.42 -1.12 -0.86 -1.69 0.31 -0.72 -0.84
30 0.65 0.28 0.18 -0.03 0.40 0.40 -0.02 0.51 -0.07 0.70 0.72
31 1.40 -0.33 -0.17 -0.72 -1.10 0.23 -0.35 -0.63 0.47 -1.46 -0.39
32 2.77 -0.49 -0.41 -1.27 1.23 -0.82 1.26 -0.39 -0.72 0.45 1.42
33 2.02 0.17 -0.84 -0.62 -0.57 -0.44 -0.31 -0.54 -0.62 -0.09 -0.05
34 0.37 0.25 -1.82 1.25 -1.96 0.43 -1.49 0.49 -0.21 0.98 -1.41
35 -1.49 -0.36 0.07 1.13 -2.08 2.63 -1.89 1.60 1.15 -0.43 -1.40
36 0.50 0.42 -0.41 0.17 -1.86 0.36 -1.39 -0.29 0.67 -0.88 -1.48
37 0.93 0.15 -0.73 0.17 -0.82 0.28 -1.16 0.72 0.29 0.57 -1.04
38 1.11 -0.76 -0.01 0.04 0.60 1.25 0.10 1.64 -0.36 0.71 0.88
39 2.55 -0.24 -0.81 -0.48 1.57 -1.94 1.75 -1.19 -1.49 0.72 1.69
40 -1.73 2.53 0.95 -0.44 -1.07 -0.59 -1.14 -1.52 0.82 -0.99 -0.49
41 -0.92 1.17 0.11 0.99 0.33 -1.18 0.24 -0.68 -0.05 0.32 -0.18
42 -1.87 1.37 0.57 0.74 -0.68 0.63 -1.22 0.21 0.84 0.74 -1.62
43 0.09 0.80 0.49 -0.66 0.42 0.35 -0.04 0.44 -0.43 0.93 0.84
44 -1.37 1.46 0.73 0.13 -0.24 0.14 -0.46 -0.13 0.57 0.06 -0.09
45 -0.28 0.26 0.05 0.63 0.28 -0.34 0.60 -0.33 -0.67 -0.25 0.61
46 -3.03 1.69 1.24 1.81 -2.45 2.84 -3.09 1.90 2.49 0.39 -2.82
47 -2.35 0.76 0.71 0.75 -0.81 0.97 -0.97 0.99 0.80 -0.49 -0.78
48 -3.18 1.59 0.29 1.59 -1.72 2.28 -2.67 2.46 1.14 1.45 -1.69
49 0.50 0.32 0.97 -0.89 0.29 -0.09 0.28 -0.20 0.37 -0.70 0.37
50 -0.66 -0.15 -0.68 -0.10 -0.80 -0.30 0.43 -0.43 -0.32 -0.56 -0.09
51 0.93 0.09 0.58 -1.33 0.83 -0.63 1.12 -0.40 -0.13 -0.58 0.45
52 -0.50 0.38 0.30 1.45 -0.58 1.01 -1.00 1.35 0.67 0.65 -1.00
53 1.68 -0.74 0.03 -0.48 1.14 -1.25 1.79 -0.83 -1.07 -0.35 1.21
54 1.43 -0.77 -0.10 -0.71 0.86 -0.98 1.64 -0.79 -0.92 -0.14 1.36
55 0.10 -0.56 0.43 0.26 -0.17 0.81 -0.16 0.83 0.46 -0.08 -0.44
56 1.70 -0.52 -0.17 -1.06 -1.0E-03 -1.16 0.98 -1.31 -0.30 -0.80 0.25
57 1.30 0.34 0.51 0.37 1.03 -0.98 0.59 -0.32 0.03 0.11 -0.03
58 0.09 -1.53 1.27 0.35 0.12 1.89 0.67 1.19 0.09 -1.43 0.82
59 1.88 -0.43 -0.57 -1.21 0.48 -1.52 1.24 -1.06 -1.09 0.13 1.00
60 0.34 -0.21 0.38 0.12 0.76 0.76 0.01 1.40 -0.15 1.47 0.25
61 2.67 -0.91 -0.26 -0.89 1.55 -1.08 1.87 -0.13 -1.27 0.48 1.67

140
62 2.15 0.07 -0.18 -1.21 0.42 -1.12 0.81 -0.93 -0.82 -0.14 0.68
63 1.58 -0.86 -0.47 -1.43 -0.08 -0.93 1.00 -0.90 -0.87 -0.42 0.63
64 -0.31 -1.33 -0.74 -1.24 0.81 -0.99 1.16 -0.79 -1.98 0.47 1.99
65 0.41 -1.38 0.08 -0.52 0.80 0.12 0.94 0.37 -0.72 0.17 0.93
66 -1.63 -0.79 0.39 -1.21 0.01 -0.41 0.10 -0.04 0.42 -0.20 -0.01
67 0.39 0.33 -0.64 0.23 -0.50 -1.51 0.05 -1.29 0.03 0.02 -0.68
68 -1.11 0.29 0.30 -0.52 -0.97 -1.24 -0.69 -1.64 0.59 -0.51 -0.76
69 -0.67 -0.81 0.27 -0.51 -0.18 -0.09 -0.24 -0.19 0.38 -0.35 -0.33
70 -0.60 0.19 1.49 0.38 1.23 0.56 0.23 0.75 0.92 0.33 0.38
71 -0.92 -0.09 0.08 0.61 -0.84 0.69 -1.07 0.58 0.58 0.05 -1.24
72 -1.49 -1.47 -0.42 1.64 -0.05 2.47 -0.41 2.59 -0.44 0.96 0.04
73 -0.76 -0.45 0.38 0.53 0.16 -0.08 0.09 -0.04 0.48 -0.78 -0.58
74 -1.36 -1.03 -0.69 3.16 -0.81 1.89 -0.94 1.71 -0.31 0.54 -0.82

B
1 2 3 4 5 6 7 8 9 10 11
1 0.49 0.00 0.00 0.00 0.00 0.00 0.00 0.00 0.00 0.00 0.00
2 0.00 0.31 0.00 0.00 0.00 0.00 0.00 0.00 0.00 0.00 0.00
3 0.00 0.00 0.24 0.00 0.00 0.00 0.00 0.00 0.00 0.00 0.00
4 0.00 0.00 0.00 0.32 0.00 0.00 0.00 0.00 0.00 0.00 0.00
5 0.00 0.00 0.00 0.00 0.27 0.00 0.00 0.00 0.00 0.00 0.00
6 0.00 0.00 0.00 0.00 0.00 0.57 0.00 0.00 0.00 0.00 0.00
7 0.00 0.00 0.00 0.00 0.00 0.00 0.70 0.00 0.00 0.00 0.00
8 0.00 0.00 0.00 0.00 0.00 0.00 0.00 0.42 0.00 0.00 0.00
9 0.00 0.00 0.00 0.00 0.00 0.00 0.00 0.00 0.51 0.00 0.00
10 0.00 0.00 0.00 0.00 0.00 0.00 0.00 0.00 0.00 0.30 0.00
11 0.00 0.00 0.00 0.00 0.00 0.00 0.00 0.00 0.00 0.00 1.09

Matriz W
1 2 3 4 5 6 7 8 9 10 11
1 -0.33 -0.36 0.15 -0.25 0.07 0.15 0.15 -9.2E-05 -0.28 0.05 0.75
2 -0.29 -0.21 0.08 -0.38 -0.17 -0.28 -0.40 -0.44 0.13 0.45 -0.20
3 -0.34 -0.32 -0.15 -0.19 -0.11 -0.28 0.06 0.01 -0.05 -0.75 -0.24
4 0.26 0.24 0.19 -0.64 0.32 0.25 -0.37 0.11 -0.23 -0.22 -0.09
5 -0.52 0.44 -5.0E-03 0.15 -0.12 0.13 -0.48 0.22 0.33 -0.16 0.25
6 -0.35 0.30 -0.01 0.01 0.07 0.51 0.34 -0.59 -0.12 -0.07 -0.22
7 -0.38 0.34 -0.26 -0.19 0.24 -0.35 0.28 0.38 -0.32 0.32 -0.16
8 -0.04 -0.13 -0.16 0.09 0.84 -0.15 -0.04 -0.20 0.41 -0.05 0.10
9 -0.02 0.22 0.72 -0.19 -0.03 -0.26 0.41 0.05 0.39 -0.07 0.01
10 0.11 -0.02 -0.49 -0.49 -0.22 0.25 0.28 0.13 0.54 0.08 0.08
11 -0.26 -0.46 0.25 0.08 0.15 0.45 -0.01 0.45 0.12 0.18 -0.43

Matriz Q
1 2 3 4 5 6 7 8 9 10 11
1 -0.14 -0.51 0.05 0.07 -0.33 0.76 -0.08 0.47 -0.04 -0.42 0.02
2 -0.56 0.73 0.75 -0.06 0.26 0.22 -0.48 0.27 0.76 0.39 -0.20
3 -0.44 0.07 -0.35 0.79 -0.31 0.55 -0.56 0.76 -0.04 0.67 -0.49
4 0.20 -0.40 0.32 0.11 0.84 0.16 0.60 0.35 -0.23 0.10 0.69
5 0.66 -0.18 -0.45 -0.60 0.17 -0.19 0.28 0.02 -0.60 0.45 0.50

Matriz T
1 2 3 4 5 6 7 8 9 10 11
1 1.67 -0.29 -0.36 0.20 1.47 -0.38 -0.22 0.12 -0.11 -0.12 -0.13
2 -0.85 0.03 -0.32 1.55 1.24 0.29 -0.30 0.34 0.38 0.11 -0.07
3 -0.91 -2.27 -0.57 -0.56 1.34 -0.58 -0.17 -0.53 0.83 0.57 -0.54
4 0.33 -0.67 -0.72 1.09 1.07 0.35 0.32 -0.04 0.16 0.38 0.08
5 0.68 -0.34 -1.00 1.15 0.43 -0.33 0.22 -0.11 -0.02 -0.36 -0.18
6 -1.62 -1.10 -1.05 1.18 1.00 0.09 0.56 0.18 0.47 -0.74 -0.25
7 1.74 0.18 -0.76 1.33 1.22 -0.88 -0.05 -0.79 0.29 -0.24 0.12
8 -1.43 -0.40 -0.17 1.53 1.11 0.53 -0.48 0.78 0.33 -0.41 -0.12
9 0.28 0.14 -8.0E-04 1.65 1.67 0.30 -0.42 0.13 0.16 0.06 -0.05
10 2.42 0.26 -0.03 -0.39 1.93 -0.46 -0.41 0.24 -0.46 -0.05 0.10
11 0.82 -1.32 -0.59 1.32 1.30 0.04 0.39 0.10 0.02 0.24 0.21
12 1.18 -0.95 -1.69 -0.28 0.88 -0.07 0.97 -0.58 0.55 -0.01 -0.03
13 1.49 -0.93 -0.22 1.62 2.08 -0.72 0.30 -0.37 -0.23 -0.10 0.29
14 -2.06 0.23 -0.31 0.92 -0.09 1.92 -0.18 -1.48 -0.40 -0.41 0.13
15 -0.68 1.87 -0.43 -1.49 1.62 1.70 0.03 -0.45 -0.30 -0.50 -0.27
16 -1.73 -0.04 -0.30 -0.92 0.77 -0.19 -1.03 -0.86 0.69 0.41 0.04
17 1.86 0.43 -2.29 -1.37 -0.35 0.45 0.78 -0.46 0.57 0.18 0.10
18 0.18 0.86 -0.31 0.17 0.72 0.91 -0.31 -0.27 -0.35 0.31 0.20
19 -3.60 2.61 -0.90 0.34 -0.09 -1.03 0.10 0.21 -0.91 0.25 -4.1E-03
20 -3.18 2.54 -1.74 0.05 -0.59 0.84 1.29 -0.57 -0.94 0.25 -0.31
21 -1.32 1.07 -1.14 0.28 -0.76 -0.30 -0.66 -0.12 0.32 -0.36 0.12
22 -1.35 1.69 -0.48 -1.63 1.91 0.58 0.06 0.20 -0.24 -0.24 0.06
23 -4.43 4.43 -1.44 -0.08 0.72 -1.54 0.49 1.13 -0.32 0.91 0.05
24 -2.88 1.80 -2.07 -0.19 -0.97 0.53 -0.33 0.54 1.60 0.35 0.20
25 -1.16 0.09 -1.23 0.92 -0.10 -0.61 0.23 -0.13 -0.03 -0.35 0.28
26 -1.56 0.26 -1.65 0.08 -0.63 -0.17 0.17 -0.30 0.48 -2.5E-03 0.33
27 1.74 0.14 -1.45 0.32 -1.69 -0.01 -0.39 -0.32 -0.17 -0.23 -0.13
28 1.81 -0.42 -1.23 -0.69 -0.49 0.32 -0.16 0.36 -0.02 0.12 0.15
29 1.94 -0.12 -0.33 0.76 -0.60 -0.12 -0.91 -0.17 -0.59 0.19 0.11
30 1.83 0.22 -0.97 0.93 -1.29 0.07 -0.52 -0.09 -0.48 -0.06 -0.19
31 2.44 -0.38 -1.53 -2.06 -0.52 0.17 -0.19 0.70 0.14 0.02 -0.10
32 2.49 -0.14 -1.63 -0.67 -0.43 0.15 0.18 0.21 0.14 0.16 0.15
33 2.96 0.22 -0.53 -1.18 0.33 -0.15 -0.73 0.41 -0.46 -0.28 0.01
34 2.02 -0.48 -1.35 0.31 -1.30 0.14 -0.25 -0.03 -0.06 0.26 -4.0E-03
35 0.43 -1.17 -1.27 0.46 -1.30 0.53 -0.01 0.82 -0.22 0.23 0.02
36 2.55 0.04 -0.83 -0.66 -0.23 -0.31 -0.46 -0.15 -0.44 0.10 0.12

141
37 2.01 -0.45 -1.24 -1.19 0.21 -0.89 -0.10 -0.60 0.13 -0.01 -0.12
38 1.76 -0.18 -1.30 -0.96 -0.90 -0.35 -0.32 -0.12 -0.17 0.23 -0.13
39 1.97 -0.11 -0.80 0.39 -0.90 0.09 -0.49 0.09 -0.59 8.5E-05 1.9E-03
40 -0.41 3.02 1.98 -0.52 0.35 0.22 -1.15 0.57 0.53 -0.46 -0.11
41 -0.45 1.65 1.53 0.81 -0.56 -0.20 -0.15 -0.09 -0.03 -0.01 0.07
42 -1.04 0.83 2.14 -1.28 0.91 1.09 0.28 -0.03 -0.43 0.80 0.31
43 0.52 1.38 1.89 0.02 0.01 0.24 -0.40 -0.16 0.09 -0.03 0.15
44 -0.41 2.29 1.18 -0.03 -0.60 0.26 -0.24 -0.10 0.47 0.24 -0.03
45 0.01 1.96 1.55 -0.38 -0.21 0.02 -0.52 -0.46 0.41 0.33 -0.22
46 1.17 0.83 1.22 1.17 -0.94 0.45 0.33 -0.86 -0.06 0.15 -0.02
47 -1.61 1.80 1.24 0.45 -0.71 -0.93 -0.11 0.15 -0.01 -0.48 0.08
48 -1.10 1.40 1.21 0.91 -1.07 -0.46 -0.15 0.01 0.31 -0.34 -0.08
49 1.05 1.00 1.19 -1.03 -0.10 -0.47 -0.05 -0.49 0.22 -0.65 0.10
50 -1.56 1.29 0.41 0.22 -1.44 0.08 0.53 0.03 0.42 -1.20 -0.18
51 0.46 2.00 1.31 -0.95 0.37 -0.41 0.67 -0.35 -0.55 0.28 -0.12
52 1.79 0.06 1.09 0.50 -0.75 -0.37 0.28 -0.27 0.23 0.15 -0.13
53 1.14 -1.9E-03 1.74 0.97 -0.22 -0.19 0.26 -0.15 -0.46 0.26 -0.08
54 0.53 -0.49 1.14 0.63 -0.87 0.36 0.43 0.19 0.31 0.08 -0.08
55 0.60 -1.11 0.92 -0.77 -0.34 0.08 0.72 0.53 0.22 -0.25 0.06
56 1.23 -0.89 1.03 -0.42 -0.25 0.30 0.67 0.57 0.12 0.14 0.05
57 2.38 0.34 1.53 -1.08 0.57 -0.41 0.22 0.13 0.03 -0.26 -0.03
58 1.40 -0.25 1.50 1.37 -0.65 0.04 0.24 0.09 -0.17 0.29 0.28
59 0.72 -0.62 1.32 0.18 -0.51 -0.16 0.23 -0.09 0.07 0.24 0.09
60 0.50 -0.91 1.45 -0.42 -0.06 0.15 0.51 0.21 -0.03 0.07 -0.01
61 2.03 0.03 0.96 -0.32 -0.47 -0.49 0.43 -0.57 0.32 0.38 -0.08
62 2.17 0.51 1.66 -0.94 0.58 -0.05 0.01 0.37 0.08 -0.10 -0.13
63 0.20 -1.18 1.46 -0.04 -0.35 -0.01 0.46 0.09 -0.07 0.06 0.20
64 -5.01 -2.99 0.67 -0.45 -0.10 0.05 -1.26 -0.27 -0.45 0.19 0.22
65 -1.55 -2.24 1.02 -0.33 0.06 0.18 0.37 0.66 1.8E-03 -0.58 0.21
66 -5.46 -2.94 0.38 -1.68 -0.86 -1.01 0.23 -1.14 0.09 -0.10 0.10
67 0.30 -1.13 0.59 0.66 -0.51 0.12 0.42 0.45 0.23 0.16 5.0E-04
68 -2.57 -3.65 1.73 0.31 -0.05 -0.01 -0.36 -0.05 0.04 0.96 -0.56
69 -2.66 -3.48 -0.23 -1.07 -0.21 -0.28 -0.18 -0.03 -0.62 -0.49 0.31
70 0.03 -0.49 0.34 0.11 -0.37 0.23 0.41 0.49 0.19 0.05 -0.03
71 -0.85 -1.57 0.84 -1.11 0.59 0.05 0.23 0.69 0.17 -0.44 0.14
72 -2.05 -1.26 -0.84 0.17 -0.50 0.48 0.17 1.00 -0.29 0.22 -0.10
73 -1.26 -0.97 -0.54 -0.19 -0.03 -0.48 0.03 0.23 -1.01 -0.74 -0.50
74 -0.04 -1.57 -0.41 0.33 -0.47 0.63 -0.53 0.66 -0.13 0.25 -0.15

Betas-PLS
1 2 3 4 5
1 0.09 -0.33 -0.53 0.84 0.56
2 -0.27 0.22 0.01 -0.49 -0.22
3 -0.02 -0.26 -0.28 -0.10 -0.09
4 -0.10 0.06 -0.24 0.06 0.18
5 0.20 0.84 0.66 -0.44 -0.63
6 0.12 0.12 0.10 -0.11 -0.23
7 -0.33 -0.17 -0.18 0.17 0.24
8 -0.25 -0.12 -0.45 0.35 0.11
9 -0.24 0.12 -0.52 0.20 -0.05
10 0.01 -0.09 -0.15 -0.01 0.13
11 0.38 0.43 0.78 -0.21 -0.46

142
OTROS EJERCICIOS

Ejercicio 5.3
En el archivo CorrCan (datos de prueba de InfoStat) contiene los resultados de un
estudio realizado con alumnos del último año de la escuela secundaria, en el que se
deseaba conocer si las calificaciones en asignaturas de naturaleza cuantitativa como
Matemática, Física y Contabilidad se correlacionaban o no con las calificaciones
obtenidas en asignaturas de naturaleza no cuantitativa como Lengua, Literatura e
Historia.

5.3.1) ¿Existe asociación entre las calificaciones obtenidas en asignaturas de


naturaleza cuantitava y no cuantitativa? Presente los resultados de los tres
primeros pares de variables canónicas (coeficiente de correlación y valor p).
5.3.2) ¿Cómo se correlacionan los componentes de cada variable canónica con la
variable canónica correspondiente? Realice una tabla presentando los
coeficientes de correlación simple de Pearson entre las calificaciones de
asignaturas cuantitativas y la variable canónica compuesta por las mismas y
entre las calificaciones de asignaturas no cuantitativas y la canónica
correspondiente.
5.3.3) Realice un gráfico de dispersión entre las dos primeras variables canónicas e
interprete los resultados teniendo en cuenta lo obtenido en el punto anterior.

Ejercicio 5.4
El archivo gimnasio.idb (archivo de datos de prueba de Infostat) contiene datos de un
estudio realizado en un gimnasio. Las tres primeras columnas del archivo
corresponden a variables físicas (peso, cintura y pulso) tomadas sobre un grupo de
20 individuos y las tres últimas son variables que miden el desempeño de la actividad
física de los mismos individuos (número de ejercicios continuados en la barra,
número de abdominales y número de saltos). Se puede decir que el desempeño en las
actividades se correlaciona con el físico del individuo?

Ejercicio 5.5
En el archivo vinos_PLS se presentan los resultados de un estudio realizado con 5
vinos, en el que se deseaba conocer si tres calificaciones subjetivas, dadas por una
escala hedónica de calidad (mayor valor, mayor calidad) y la opinión sobre si el vino
es más apropiado para acompañar carne o dulces, se pueden predecir a partir de
otros atributos del vino como son el precio, el contenido de azucares, el grado de
alcohol y la acidez del mismo.

143
¿Existe asociación entre las 4 predictoras con las apreciaciones subjetivas que se le
asignan a estos 5 vinos?

Ejercicio 5.6
El artículo en pdf que se adjunta en esta clase, corresponde a un estudio sobre
compuestos volátiles en vinos. El ejercicio que proponemos es identificar la
metodología estadística utilizada para el análisis del mismo, en particular la
aplicación de la regresión PLS y la forma de reporte de los resultados.
¿Usan un triplot para reportar los resultados?
¿Informan el modelo explicativo de Y derivado de la regresión PLS?
¿Para que podría servir ese modelo con futuros vinos?

144
CAPÍTULO VI

ANÁLISIS DISCRIMINANTE Y ÁRBOLES DE


CLASIFICACIÓN Y REGRESIÓN

145
ANÁLISIS DISCRIMINANTE

Dado un agrupamiento determinado de los casos en estudio, otra técnica


multivariada comúnmente usada es el Análisis Discriminante. Éste permite describir
algebraicamente las relaciones entre dos o más poblaciones (o grupos de
observaciones multivariadas) de manera tal que las diferencias entre ellas se
maximicen o se hagan más evidente.
El Análisis Discriminante requieren el conocimiento de cómo están estructurados en
grupos las unidades de estudio, i.e., cada caso es clasificado “a priori” del análisis en
una de varias (dos o más) poblaciones o grupos claramente identificados. Este
conocimiento que establece si un caso pertenece a un grupo u otro se supone que es
anterior al análisis y que proviene del conocimiento teórico del investigador o
también podría ser del conocimiento empírico, pero en este último caso realizado a
partir de otras variables distintas a las que se usarán en la discriminación. Es decir, no
tiene sentido que implementemos un análisis de cluster para conformar grupos a
partir de un conjunto de variables y que luego usemos esas mismas variables para ver
si hay diferencias entre grupos. Contrariamente, la idea es sabiendo que existen
grupos o poblaciones de casos, identificar desde un conjunto de nuevas variables, si
éstas tienen capacidad discriminante; i.e., asumen valores distintos en los distintos
grupos.
Este análisis también se realiza frecuentemente con fines predictivos relacionados a
la clasificación, en una de las poblaciones existentes, de nuevas observaciones u
observaciones sobre las cuales no se conoce a qué grupo pertenecen. Una observación
nueva, la cual no fue utilizada para la construcción de la función discriminante y la
regla de clasificación, se asignará al grupo en el cual tienen más probabilidad de
pertenecer en base a sus características medidas. Para tal asignación es necesario
definir esta función discriminante, también denominada clasificador.

MOTIVACIÓN

Supongamos que en función de datos relativos a la incidencia de una patología, se


separan 40 ambientes en dos grupos: Grupo 1, incluye aquellos casos de alta

146
incidencia (mayor a un cierto umbral de incidencia que por conocimiento del
problema sabemos que es alto), y Grupo 2, aquellos con incidencia baja (menor al
umbral antes mencionado). Luego para cada uno de los n=40 casos o ambientes se
registran p variables climáticas (por ej., temperaturas máximas medias para un
determinado periodo que puede ser influyente para el desarrollo de la patología,
temperaturas mínimas medias en el mismo periodo, precipitación acumulada en el
periodo, velocidad del viento, etc).
El interés será construir una función discriminante para : 1) conocer cuál o cuáles de
las variables climáticas registradas tiene potencialidad para discriminar entre
ambientes de alta y de baja incidencia; es decir que variables tuvieron diferencias
significativas entre los dos grupos de ambientes, y 2) para construir un clasificador
tal que pueda ser usado para clasificar futuros casos (ambientes) en uno de los
grupos, es decir para predecir, dado los valores de las variables climáticas, si ese
nuevo ambiente tiene más probabilidad de presentar alta o baja incidencia de la
patología.

ANÁLISIS DISCRIMINANTE LINEAL DE FISHER (DOS POBLACIONES)

Fisher, al comienzo del siglo pasado, abordó el problema de reconocer las diferencias
multivariadas entre dos poblaciones desde una óptica univariada a través de la
construcción de una combinación lineal de las variables originales. Esta variable
sintética, es conocida como función discriminante lineal (FDL).
La FDL combina a las variables originales de manera lineal, es decir de la misma
manera que lo hace una componente principal. La diferencia radica en los
ponderadores de las variables o coeficientes de la combinación lineal. En el caso del
ACP, los ponderadores (elementos de los autovectores correspondientes a la
descomposición espectral de una matriz de varianzas-covarianzas) son tales que las
nuevas variables sintéticas (CP´s) son óptimas para explicar la VARIABILIDAD TOTAL
de la nube de puntos que representa las observaciones en el hiperespacio. Mientras
que los ponderadores de las variables originales en la FDL (elementos de los
autovectores correspondientes a la descomposición espectral del producto de dos
matrices, una que contiene varianzas-covarianzas entre grupos y otro con varianzas-

147
covarianzas dentro de grupos) son tales que la nueva variable sintética (FDL) es
óptima para explicar VARIABILIDAD ENTRE GRUPOS. Geométricamente la FDL puede
ser conceptualizada como el eje que atraviesa la nube de puntos en el hiperespacio de
manera tal que la proyección de los puntos sobre ese eje es la que muestra mayor
diferencia entre grupos. Luego, si los grupos no se diferencias en sus proyecciones
sobre el eje discriminante, no existirá la posibilidad de utilizar esa FDL para clasificar
futuras observaciones. Si, por el contrario, la diferenciación de los grupos sobre el eje
es importante, entonces la FDL puede usarse para clasificar futuras observaciones en
uno u otro grupo.

ALGEBRA DEL ANÁLISIS

Sea x el vector p1 de características medidas sobre un elemento de una población y


consideremos dos poblaciones  1 y  2 . Llamaremos f1 (x) y f 2 (x) a las distribuciones

de probabilidad multivariadas asociadas con las poblaciones 1 y 2 respectivamente.


Asumimos que estas distribuciones tienen vectores medios 1  E (x | 1 ) y
2  E (x |  2 ) y matriz de covarianza común 1  2    E (x  i )(x  i ) ' i=1,2.
Consideremos la combinación lineal y  l´x , luego se tiene que 1 y  E (y | 1 )  l´1 y

2 y  E (y |  2 )  l´2 y que la varianza de la combinación lineal es V (y)   y2  l´l .

La idea de Fisher fue maximizar la distancia estadística entre 1y y 2 y a través de

una selección apropiada del vector de coeficientes de la combinación lineal,


( 1 y  2 y )2 (l´1  l´2 ) 2
maximizando 
 y2 l´l

La solución a dicha maximización es l  c1 (1  2 )  c  0 . La combinación lineal

del vector de observaciones y el vector l es conocida como función lineal


discriminante de Fisher, y  l´x  ( 1  2 )´1x .

En la práctica, usualmente se dispone de muestras donde la membresía de cada


elemento es conocida y la función discriminante se construye a partir de los
estimadores muestrales,

148
1  x1
 2  x2
(n1  1) S1  (n2  1) S 2
  Scomun 
n1  n2  2
1
con y  ( x1  x2 )´Scomun x

1 1
m  ( x1  x2 )´Scomun ( x1  x2 )
2

SUPUESTOS

Es importante notar que el método de Fisher para discriminación asume matrices de


covarianzas homogéneas entre grupos, usa variables estandarizadas pero no requiere
del supuesto de normalidad.
InfoStat realiza una prueba de hipótesis orientada a conocer si las matrices de
varianza-covarianza de las variables, son homogéneas o iguales estadísticamente
entre las poblaciones de análisis. La prueba es la propuesta en Johnson & Wichern
(1998). La hipótesis nula establece que las matrices de varianzas-covarianzas son
homogéneas, luego con un valor p menor al nivel de significación usado
(generalmente α=0,05) rechaza el supuesto de homogeneidad de matrices de
varianza-covarianzas. En el caso de que estas matrices no sean iguales, es posible
desarrollar una función discriminante cuadrática. No obstante, existen numerosos
trabajos estadísticos que muestran que aún cuando este supuesto no se cumple, el
análisis discriminante podría generar una FDL con baja tasa de error cuando es usada
en clasificación. De hecho, el ejemplo que veremos en esta clase está basado en una
tabla de datos (Iris) que usó Fisher para desarrollar la FDL y procesando esos datos
en InfoStat se observa que el supuesto de homogeneidad de matrices de varianzas-
covarianzas no se cumple y aún así la FDL es buena (con baja tasa de error en la
clasificación de observaciones).

149
ANÁLISIS DISCRIMINANTE CANÓNICO

Cuando más de dos grupos o poblaciones describen la estructura de las


observaciones, el método de Fisher es generalizado bajo el nombre de análisis
discriminante canónico.
g
1 g
Sea H   ( i   )( i   )´ donde    i la matriz de sumas de cuadrados y
i 1 g i 1
productos cruzados (SCPC) entre grupos o matriz de SCPC asociada a la hipótesis H
sobre efectos de g grupos y definamos a la matriz de SCPC de los términos de error
g ni g
como E   (xij  xi )(xij  xi )´  (ni  1) Si . Los autovectores de E 1H son las
i 1 j 1 i 1

funciones discriminantes canónicas que separan los g grupos. Los ejes canónicos
yk  lk ´x son variables no correlacionadas, pero no es requisito que sean ortogonales (

E 1H no es una matriz simétrica) por lo que éstas variables no representan una
simple rotación de los ejes coordenados como en el caso del Análisis de Componentes
Principales. Usando estos ejes canónicos es posible construir un espacio
discriminante o espacio canónico. El espacio canónico de mejor calidad para observar
las diferencias entre grupos es el conformado por el eje canónico 1 y el eje canónico 2.
Los autovalores de la matriz E 1H , que contiene las varianza-covarianzas entre (H) y
dentro (E) de grupos, expresados como proporción, indican en porcentaje de la
variabilidad entre grupos que puede ser descripta por cada eje. Estos autovalores son
usados para conocer con cuantos ejes canónicos o FDL será necesario trabajar para
identificar la mayor parte de la variabilidad multivariada entre grupos. La primera
función discriminante (asociada con el mayor de los autovalores, i , de E 1H ) realiza

la mayor contribución a la separación de los grupos. En la práctica sólo las primeras


funciones pueden ser necesarias para la separación de los grupos.
1  ...  r
Los autovalores dan una medida de la separación, es la proporción de
1  ...  s
separación explicada por las primeras r variables canónicas. Cuando sólo dos o tres
variables canónicas describen apropiadamente la separación, generalmente se
grafican los datos en el espacio de estas primeras variables canónicas para reducir la
dimensión de la representación.

150
Usualmente se reporta bajo el nombre de “estructura canónica total” a las
correlaciones simples entre las variables respuestas y las variables canónicas. Otra
forma útil de obtener una medida de la importancia de una variable respuesta a la
variable canónica es a través de la estandarización de los coeficientes de la
combinación lineal correspondiente. Es decir, los autovectores de la matriz E 1H que
son usados como vectores de pesos o coeficientes de las combinaciones lineales que
conforman los ejes canónicos pueden leerse directamente desde la FDL o luego de
estandarizar los datos. En caso de estandarizar, esta se realiza usando la matriz de
varianza-covarianza (promedio o común entre grupos). En este último caso los
coeficientes se vuelven independientes de las unidades de medidas de las variables y
por tanto pueden compararse directamente.
Así, observando los coeficientes por ejemplo de la primera FDL de los datos
estandarizados, es posible identificar las variables de mayor peso (con mayor valor
absoluto de coeficiente) en la discriminación realizada sobre el eje 1. En el caso que el
eje 2 se importante, en términos de la variabilidad explicada, igual lectura podrá
realizarse sobre este eje. Usualmente, si el interés radica en reportar una FDL, ésta se
construye con los autovectores de E 1H , así luego se usa con los datos sin
estandarizar. Los ejes canónicos de los datos estandarizados son, por el contrario,
usados cuando el propósito es comparar las variables respecto a su importancia
relativa para discriminar los grupos sobre el eje en estudio.
Las medias de los grupos de observaciones, en el espacio discriminante, es el vector
de medias de los casos sobre cada eje y también es conocida como centroide del
espacio discriminante.
La regla de clasificación más usada sugiere asignar una nueva observación,
llamémosla x 0 , en el grupo con centroide más cercano, en términos de distancia
r r
estadística, a x 0 . Luego, x 0 se deberá asignar a  k si [l j ´(x0  xk )]2  [l j ´( x0  xi )]2
j 1 j 1

para todo i  k y r  s  min( g  1, p) .

151
ERROR DE CLASIFICACIÓN

El método de Fisher fue desarrollado considerando los datos que se disponen y


posibles combinaciones lineales entre ellos. Es claro que si el propósito de la
construcción de una función discriminante es clasificar, el investigador estará
interesado en encontrar aquella función que produce reglas de clasificación que
resultan en una pequeña o nula cantidad de casos mal clasificados (error de
clasificación) cuando es utilizada con nuevos casos o nuevos datos. Si se ha
construido una regla para clasificar nuevas observaciones será importante estimar de
alguna manera el/los error/s de clasificación asociados a la regla. Las reglas de
clasificación se juzgan desde la especificación de los errores de clasificación.
La tasa de error aparente, que es la que muestra InfoStat automáticamente, surge de
aplicar la o las FDL que se hayan construido sobre los mismos datos que dieron
origen a la FDL. Luego de aplicar la FDL a uno de los casos en estudio, evaluaremos si
el clasificador ha clasificado al caso en el grupo al que sabemos pertenece o no. Se
puede construir una tabla de clasificación cruzada donde para cada caso u
observación cruzaremos la siguiente información: 1) a qué grupo pertenece, y 2) en
qué grupo fue clasificado. La cantidad de casos mal clasificados para un grupo,
expresado como porcentaje del total de casos, indica el porcentaje de mala
clasificación esperado para individuos de esa población. El promedio de estos
porcentajes a través de todos los grupos o poblaciones es la tasa de error de
clasificación de la FDL. Clasificadores con tasa de error menor al 25% son usualmente
aceptados. Las tasas de error aparente tienden a subestimar el error, son útiles sólo
cuando se disponen de grandes tamaño de muestra en cada población.
Por último, es común en problemas de clasificación, cuando se tienen suficientes
datos, realizar una validación cruzada. Esto implica, particionar el conjunto de datos
original en dos subconjuntos, uno utilizado para hallar la función discriminante y otro
usado para la validación de la misma.
Las tasas de error aparente (% de mala clasificación de las observaciones utilizadas
en el ajuste de la función discriminante) o las obtenidas por el procedimiento de
Lachenbruch (validación cruzada) siempre debieran acompañar un Análisis
Discriminante realizado con fines de clasificación.

152
Cuando datos desde una población tienen más probabilidad de ocurrencia en la
muestra que datos desde otra población (supongamos que una población es
relativamente más grande que otra) una regla de clasificación podría tomar en cuenta
tales probabilidades conocidas a priori. La regla óptima debiera incorporar la
probabilidad de cada elemento u observación de ser seleccionada desde una
población o grupo en la muestra (probabilidad a priori). Reglas de clasificación que
incorporan la idea de una probabilidad a priori de pertenencia a un grupo impiden
clasificar una observación en un grupo “raro” o poco frecuente a menos que los datos
soporten dicha asignación fuertemente. En algunas aplicaciones, el costo de mal
clasificación no es el mismo para el error de clasificar mal en la población 1 que para
aquel producido al clasificar mal en la población 2. Por ejemplo, el costo de realizar
un mal préstamo podría no ser igual al costo de no realizar un buen préstamo. Por
ello, en esas situaciones la función discriminante óptima puede construirse
incorporando el costo de mala clasificación, errores costosos deben ser evitados. Las
reglas de clasificación se obtienen a través de la minimización del costo promedio o
costo esperado de mala clasificación.

ILUSTRACIÓN

Se utilizan los datos del archivo Iris.idb2 conteniendo 50 observaciones de 4


características de una flor: longitud del sépalo, (“SepalLen”), ancho del sepalo
(“SepalWid”), longitud del pétalo (“PetalLen”) y ancho del pétalo (“PetalWid”) para 3
especies del género Iris (Fisher, 1936). Total de observaciones: 150. Se pretende
encontrar una función discriminante que permita clasificar nuevas flores en uno de
los tres grupos (especies), de acuerdo al valor que asumen para esas flores, las cuatro
variables que conforman la función discriminante.
Después de seleccionar el AD, en la ventana Análisis Discriminante Lineal, se
declaró “SepalLen”, “SepalWid”, “PetalLen” y “PetalWid” como Variables y Especie
como Criterio de agrupamiento. Al Aceptar aparece otra ventana de diálogo donde
se solicitaron las opciones por defecto: Mostrar tasas de error de clasificación,
Guardar coordenadas discriminantes (2, igual al número de grupos menos 1) y
Sobreescribir coordenadas discriminantes (si en el archivo ya existe una columna

153
conteniendo los ejes canónicos (coordenadas discriminantes) 1 y 2, InfoStat
sobrescribirá dichas columnas con los ejes obtenidos en el análisis presente). Luego
se seleccionó Gráfico. Al Aceptar se obtuvieron los siguientes resultados:

Cuadro 1. Resultados de un Análisis Discriminante lineal sobre el archivo de ejemplo de


InfoStat Irs.idb2 (Fisher, 1936)
Análisis discriminante
Análisis discriminante lineal
Casos leídos 150
Variables
SepalLen
SepalWid
PetalLen
PetalWid

Variables de clasificación
Iris

Prueba de Homogeneidad de Matrices de Covarianzas


Grupos N Estadístico gl p-valor
3 150 140.94 20 <0.0001

Autovalores de Inv(E)H
Autovalores % % acumulado
32.19 99.12 99.12
0.29 0.88 100.00

Funciones discriminantes canónicas


1 2
Constante -2.11 -6.66
SepalLen -0.83 0.02
SepalWid -1.53 2.16
PetalLen 2.20 -0.93
PetalWid 2.81 2.84

Funciones discriminantes - datos estandarizados con las varianzas comunes


1 2
SepalLen -0.43 0.01
SepalWid -0.52 0.74
PetalLen 0.95 -0.40
PetalWid 0.58 0.58

Centroides en el espacio discriminante


Grupo Eje 1 Eje 2
Setosa -7.61 0.22
Versicolor 1.83 -0.73
Virginica 5.78 0.51

Tabla de clasificación cruzada (tasa de error aparente)


Grupo Setosa Versicolor Virginica Total Error(%)
Setosa 50 0 0 50 0.00
Versicolor 0 48 2 50 4.00
Virginica 0 1 49 50 2.00
Total 50 49 51 150 2.00

154
La prueba de homogeneidad de matrices de covarianzas arrojó un valor p<0.001,
sugiriendo que no se cumple este supuesto y que una función discriminante
cuadrática podría ser mejor. Sin embargo, se continuó con el análisis ya que este
conjunto de datos ha sido ampliamente utilizado en la literatura para ejemplificar los
resultados del AD lineal. A partir de los autovalores de la expresión inv(E)H, se puede
concluir que el eje canónico 1 explica el 99.12% de la variación entre grupos. Como
hay tres grupos se generaron dos funciones discriminantes, o sea dos ejes canónicos,
el valor de cada observación sobre los cada eje canónico se adicionan a la tabla de
datos. La primera función discriminante canónica puede expresarse de la siguiente
manera:
F=-2.11-0.83(SepalLen)-1.53(SepalWid)+2.20(PetalLen)+2.81(PetalWid)
En esta función lineal de las cuatro variables seleccionadas, los coeficientes
responden a las distribuciones de cada variable. Si las variables tienen varianzas muy
distintas y/o existe alta co-variación entre pares de variables, la interpretación puede
ser engañosa, por eso conviene analizar la importancia relativa de cada variable, en la
discriminación de los grupos, usando la función con coeficientes estandarizados por
varianzas y covarianzas. A partir de la primera función discriminante estandarizada
por las covarianzas comunes puede verse que PetalLen es la variable más importante
para la discriminación sobre este eje. Observaciones (flores) con valores altos para
esta variable (pétalos más largos) aparecerán situadas a la derecha del gráfico de
dispersión de observaciones en el espacio discriminante (espacio formado por los
ejes canónicos) ya que el coeficiente es positivo (0.95).
Los centroides en el espacio discriminante o medias de las funciones por grupo,
muestran que el Grupo 1 se opone a los otros dos grupos en el eje canónico 1,
indicando que las diferencias en PetalLen permiten discriminar observaciones del
grupo 1 (menor longitud de pétalos) respecto a aquellas de los grupos 2 y 3. De igual
manera se pueden interpretar diferencias entre grupos usando el eje canónico 2. En
este ejemplo el eje 2 explica muy poca variación entre los grupos (el autovalor
asociado señala que el porcentaje de variación explicada sobre este eje es 0.88%). Por
ello se debe señalar la importancia relativa de los ejes canónicos.
La tabla de clasificación cruzada que se presenta al final de la salida (en filas se
representa el grupo al que pertenece la observación y en columnas el grupo al que es
asignada la misma observación al usar la función discriminante) señala que las 50

155
plantas del Grupo 1 fueron todas bien clasificadas, la tasa de error de clasificación en
este grupo es 0%. De los 50 individuos del Grupo 2, 48 fueron asignados bien y dos
fueron mal clasificados dentro del Grupo 3, la tasa de error es del 4%. Similar
interpretación se hace para el Grupo 3. La tasa de error aparente promedio es del 2%.
InfoStat adiciona automáticamente a la tabla de datos una columna que se llama
“Clasificación”, donde puede verse que los casos 71, 84 y 134 fueron aquellos mal
clasificados.
Para visualizar la discriminación entre grupos sugerida por el AD, se seleccionó
Gráfico en la ventana de AD. Esta opción produce automáticamente un diagrama de
dispersión con el eje canónico 1 y el eje canónico 2, particionado por el criterio de
clasificación, en este caso “especie”. Al gráfico se le agregaron las elipses de
predicción, las que se logran de la siguiente manera: seleccionar las tres series,
presionar el botón derecho y elegir “dibujar contornos”, esto habilita el submenú
“opciones del contorno”, que son: “contorno simple”, “elipse de predicción” y “elipse
de confianza”. Se marcaron además las tres observaciones erróneamente clasificadas.

4
Setosa Versicolor Virginica

2
71
Eje Canónico 2

0
134
84

-2

-4
-10 -5 0 5 10
Eje Canónico 1

Figura 1. Diagrama de dispersión de los dos primeros ejes canónicos obtenidos del
Análisis Discriminante Lineal para tres grupos de flores de la especie Iris. Elipses de
predicción (contornos de cada grupo). Casos mal clasificados por la función lineal
discrimínate lineal: 71, 84 y 134. Archivo: Iris.idb2.

156
4

Eje Canónico 2 2

-2
Setosa
Versicolor
Virginica
-4
-10 -5 0 5 10
Eje Canónico 1

Figura 2. Elipses de confianza para los centroides de cada grupo sobre el eje canónico 1
y 2 obtenidos a través del Análisis Discriminante Lineal para tres grupos de flores de la
especie Iris. Líneas de corte verticales indican los centroides de cada grupo sobre el eje
canónico 1. Archivo: Iris.idb2.

157
ÁRBOLES DE CLASIFICACIÓN Y REGRESIÓN (ALGORITMOS CART)

Los modelos basados en árboles de regresión y/o clasificación constituyen una


alternativa a los modelos lineales para los problemas de regresión y para modelos
logísticos en problemas de clasificación. Estos modelos están pensados para captar
comportamientos lineales y no lineales; los modelos lineales estándar no permiten
correlaciones entre variables, mientras que los algoritmos CART si las permiten.
Además p (número de variables) puede ser mayor a n (el número de casos). En ciertas
aplicaciones, especialmente cuando el grupo de predictores contiene una mezcla de
variables numéricas y factores altamente correlacionadas, los modelos basados en
árboles son más fáciles para interpretar y discutir que los modelos lineales. Se
denominan modelos de árbol porque el método original de presentar los resultados
es en forma de árbol binario (cada nodo se bifurca en dos ramas). Cuando la variable
dependiente es continua se conforman árboles de regresión y cuando es de
clasificación se generan árboles de clasificación. Un árbol de regresión o de
clasificación es un conjunto de reglas determinadas por un procedimiento de ajuste
por particiones binarias recursivas, donde un conjunto de datos es sucesivamente
particionado.

PROCEDIMIENTO

Inicialmente todos los objetos son considerados como pertenecientes al mismo grupo.
El grupo se separa en dos subgrupos a partir de una de las variables regresoras de
manera tal que la heterogeneidad, a nivel de la variable dependiente, sea mínima de
acuerdo a la medida de heterogeneidad seleccionada. Los dos subgrupos (nodos)
formados se separaran nuevamente si: 1) hay suficiente heterogeneidad para
producir una partición de observaciones y/o 2) el tamaño del nodo es superior al
mínimo establecido para continuar el algoritmo. El proceso se detiene cuando no se
cumple una de estas condiciones. En cada instancia de separación el algoritmo analiza
todas las variables regresoras y selecciona, para realizar la partición, aquella que
permite conformar grupos más homogéneos dentro y más heterogéneos entre ellos.
158
La medida de heterogeneidad dentro de los nodos (H) determina si el árbol será un
árbol de clasificación o uno de regresión. Los primeros se usan cuando la variable
dependiente que se quiere predecir es categorizada (sus valores son clases) y los
segundos cuando la variable dependiente es una variable continua. Para los arboles
de clasificación, una forma de calcular H es a través de la deviance, estadístico que
mide la heterogeneidad de las proporciones de las distintas clases en un grupo. Para
construir un árbol de regresión la medida de heterogeneidad más usada es la suma de
cuadrados dentro de grupo.

ILUSTRACIÓN

Realizaremos una ilustración usando el archivo Iris que fue analizado para introducir
análisis discriminante. En general cualquier problema que pueda abordarse por un
Análisis Discriminante, también podrá ser analizado desde la perspectiva de los
árboles de clasificación. Implementado sobre ese archivo el árbol de clasificación (o
de decisión) resultante es:

(n=150)

PetalLen(>2.450; n=100)
PetalLen(<=2.450; n=50)

PetalWid(<=1.750; n=54)
PetalWid(>1.750; n=46)

PetalLen(<=4.950; n=48) PetalLen(>4.950; n=6)

Figura 3. Árbol de Clasificación. Archivo: Iris.idb2.

159
Cuadro 2. Resultados de un Árbol de Clasificación sobre el archivo de ejemplo de
InfoStat Irs.idb2 (Fisher, 1936)
Árboles de clasificación-regresión
H= Deviance (suma (ni*ln(pi))
Nodo Formación H Predicción n Setosa Versicolor Virginica p(Setosa) p(Versicolor) p(Virginica)
Raíz 150 50 50 50 0.33 0.33 0.33
1 PetalLen(<=2.450) 0.00 Setosa 50 50 0 0 1.00 0.00 0.00
2 PetalLen(>2.450) 138.63 Versicolor 100 0 50 50 0.00 0.50 0.50
2.1 PetalWid(<=1.750) 33.32 Versicolor 54 0 49 5 0.00 0.91 0.09
2.1.1 PetalLen(<=4.950) 9.72 Versicolor 48 0 47 1 0.00 0.98 0.02
2.1.2 PetalLen(>4.950) 7.64 Virginica 6 0 2 4 0.00 0.33 0.67
2.2 PetalWid(>1.750) 9.64 Virginica 46 0 1 45 0.00 0.02 0.98

Interpretación

Como puede observarse la primera separación se realiza en base a valores de la


variable largo del pétalo menores e iguales a 2.45 (50 individuos) y los mayores a
2.45 (100 individuos). De esta rama separa en base al ancho del pétalo los menores e
iguales a 1.75 (54 individuos) y los mayores de 1.75 (46 individuos) y así el proceso
continúa. En la sección resultados se puede explorar con que probabilidad se han
clasificado observaciones en cada nodo. Cuando la probabilidad es baja y/o los nodos
tienen bajo n, es conveniente “podar” el árbol. Para podar el árbol o eliminar las
ramificaciones que no son confiables o de interés, se recomienda subir el valor
asignado al mínimo n para que continúe la partición hasta un valor inmediatamente
superior al n del nodo cuyas ramas se quieren podar.
Los datos utilizados en el Capítulo 1 para ilustrar y analizar la aplicación de distintas
herramientas estadísticas para detectar EGE fueron obtenidos a partir de
simulaciones publicadas por Jombart et al. (2008) correspondientes a estructuras
espaciales de la variabilidad genética de tipo parches y clina. Los dos conjuntos de
datos se denominan spcaIllus$dat2A y spcaIllus$dat2B y se encuentran en la librería
“adegenet” de R. A continuación se describe el procedimiento de simulación utilizado
por Jombart et al. (2008) y se adiciona un análisis exploratorio de ambos conjuntos
de datos tanto a nivel del patrón espacial de los puntos como a nivel de los datos
genéticos asociados con cada punto distribuido en el espacio.

160
EJERCITACIÓN

EJERCICIO 6.1 (ADL)

Base de datos: Ejercicio clase 6_ADL.IDB2


Descripción de los datos:
Los datos corresponden a un estudio realizado en el norte argentino para determinar
calidad de agua en distintos ambientes acuáticos. Se evaluaron cinco variables físico-
químicas y cuatro indicadores microbiológicos de contaminación (coliformes totales y
fecales, Escherichia coli, Enterococcus) en cinco ambientes acuáticos.
La base de datos contiene 55 filas, cada una corresponde a una medición. La primer
columna (Ambiente) indica el nombre del ambiente acuático (5 ambientes en total:
Arenales, Planta, Dique, Vaq y Wierna). La segunda columna indica la fecha en la cual
se realizó la medición, ya que en para un mismo ambiente se realizaron varias
mediciones. Las siguientes 5 columnas indican las variables físico químicas
evaluadoas edidas (temperatura, pH, oxígeno disuelto, conductividad, turbidez) y las
últimas 4 corresponden a los indicadores microbiológicos, los cuales fueron
transformados con la función logaritmo natural (coliformes totales y fecales,
Escherichia coli, Enterococcus).

161
CONSIGNAS:

Realice un ADL utilizando las 9 variables y los ambientes como criterio de


agrupación.

1) ¿Qué porcentaje de variación entre ambientes explica el primer eje canónico?


¿y el segundo?
2) ¿Cómo se expresa la primer función discriminante canónica?
3) ¿Cuáles son las dos variables más importantes para discriminar ambientes?
4) Realice un biplot con los resultados del ADL y observando el mismo responda:

4.1) ¿Tienen las variables potencialidad discriminatoria para diferenciar los


ambientes respecto a su calidad de agua?

4.2) ¿Qué par de ambientes son los más diferentes respecto a su calidad de
agua? ¿Cómo los caracterizaría?

4.3) ¿Qué par de ambientes son muy parecidos respecto a su calidad de agua?

5) De las 14 muestras del ambiente Dique, cuántas fueron bien clasificadas con la
función discriminante? Cuántas fueron mal clasificadas? A qué ambiente se las
atribuyó erróneamente?
6) Y de las 13 muestras del ambiente Planta cuántas fueron mal clasificadas?
¿Qué tasa de error de clasificación para las muestras del ambiente Planta se
obtuvo?
7) Imagine que llega al laboratorio una muestra de agua que no se sabe a cuál de
los 5 ambientes pertenece. Se miden los 9 parámetros mencionados
anteriormente y utilizando la función discriminante obtenida se la clasifica.
¿cuál es la probabilidad de clasificarla erróneamente?
8) Ahora el objetivo es identificar un subconjunto de variables que, sin pérdida
significativa de capacidad discriminatoria entre ambientes, demande un
menor esfuerzo de medición. ¿Qué variable omitiría? Realice 9 ADLs con 8
variables cada uno (en cada ADL no incluya una variable) y realice una tabla
donde se presente el error de clasificación de las funciones discriminantes con
8 variables.
9) Calcule las distancias euclídeas entre los centroides de cada ambiente en el
espacio discriminante. ¿Cuáles son los ambientes más disímiles y cuáles los
más similares?

162
RESPUESTAS

1) El primer eje canónico explica un 79.2% de la variación entre grupos y el


segundo eje canónico 11.28%.

Nota: esto lo puede ver en la tabla Autovalores en la Ventana Resultados

Autovalores de Inv(E)H
Autovalores % % acumulado
6.80 79.20 79.20
0.97 11.28 90.47
0.69 8.00 98.47

2) La primer función discriminante canónica puede expresarse de la siguiente


manera:
F = 4.79 – 0.26 (LN_CT) + 0.23 (LN_CF) - 0.26 (LN_EC) - 0.04 (LN_EN) - 0.02 (T) +
0.52 (pH) - 0.43 (OD) - 0.01 (Conductividad) - 0.00063 (Turbidez)

Nota: esto lo puede ver en la tabla Funciones discriminantes canónicas en la


Ventana Resultados
Funciones discriminantes canónicas
1 2
Constante 4.79 -6.83
LN_CT (NMP/100 ml) -0.26 -0.03
LN_CF(NMP/100 ml) 0.23 -0.19
LN_EC(UFC/100 ml) -0.26 -0.36
LN_EN(UFC/100ml) -0.04 0.32
T (ºC) -0.02 0.11
pH 0.52 0.27
OD(mg/l) -0.43 0.42
Cond (?s/seg) -0.01 0.01
Turb (NTU) -6.3E-04 2.0E-03

3) La Conductividad es la variable más importante para discriminar ambientes ya


que tiene el coeficiente más alto (en valor absoluto) en el eje canónico 1. Dado
la conductividad está asociada negativamente con el eje canónico 1
(coeficiente=-1.19), muestras de agua con alta conductividad presentarán bajos
valores en el eje canónico 1. La segunda variable de importancia para la
discriminación de los ambientes es oxígeno disuelto, con un coeficiente de -
0.79.

Nota: para interpretar la importancia relativa de las variables se debe analizar


la tabla Funciones discriminantes con datos estandarizados ya que si las
variables tienen varianzas muy distintas y/o existe alta covariación entre
pares de variables, la interpretación de los coeficientes de la función
discriminante puede ser engañosa.

163
Funciones discriminantes - datos estandarizados con las varianzas
comunes
1 2
LN_CT (NMP/100 ml) -0.63 -0.07
LN_CF(NMP/100 ml) 0.61 -0.50
LN_EC(UFC/100 ml) -0.60 -0.84
LN_EN(UFC/100ml) -0.08 0.68
T (ºC) -0.12 0.50
pH 0.39 0.20
OD(mg/l) -0.79 0.77
Cond (?s/seg) -1.19 0.83
Turb (NTU) -0.18 0.59

3) En la siguiente figura se muestra el biplot obtenido con los resultados del ADL.

7.50

Conductividad
OD
Enterococcus
Turbidez
3.75
T

Wierna
pH Vaq
Planta
Variables

Dique
0.00 Arenales
CT Variables

CF
-3.75

E. coli

-7.50
-7.50 -3.75 0.00 3.75 7.50
Eje Canónico 1

Espacio Discriminante formado por los ejes canónicos 1 y 2 del AD

4.1) Se observa que las 9 variables utilizadas para caracterizar las muestras de
agua tienen potencialidad discriminatoria para diferenciar los ambientes respecto
a su calidad de agua.

164
4.2) Los ambientes Planta y Dique se ubican en extremos opuestos en el eje
canónico 1, permitiendo una clara diferenciación de los mismos. Las muestras
de agua de Planta presentan mayor conductivdad, oxígeno disuelto y
coliformes totales y menos coliformes fecales que el ambiente Dique.

4.3) Tanto los ambientes Wierna y Arenales como Dique y Vaq presentan
características similares y es más difícil diferenciarlos entre sí con los
parámetros medidos.

5) De las 14 muestras del ambiente Arenales, 12 fueron bien clasificadas con la


función discriminante y 2 fueron erróneamente clasificada como Vaq.

Nota: esto lo puede ver en la tabla de clasificación cruzada en la Ventana


Resultados
Tabla de clasificación cruzada (tasa de error aparente)
Grupo Arenales Dique Planta Vaq Wierna Total Error(%)
Arenales 12 0 0 1 0 13 7.69
Dique 0 12 0 2 0 14 14.29
Planta 0 0 13 0 0 13 0.00
Vaq 0 0 0 9 0 9 0.00
Wierna 0 0 0 0 6 6 0.00
Total 12 12 13 12 6 55 5.45

6) Las 13 muestras del ambiente Planta fueron clasificadas correctamente, por lo


tanto la tasa de error de clasificación para las muestras del ambiente Planta es
0.
7) La probabilidad de clasifica erróneamente una muestra de agua incógnita es de
0.545, ya que la tasa de error total es de 5.45%.
8) La variable que no mediría es Turbidez, el error de clasificación sin dicha
variables es incluso menor que incluyéndola, de 3.64%.
Variable no incluída Error de
clasificación (%)
Turbidez. 3.64
Col. Totales 5.45
OD 5.45
E. Coli 7.27
Col. Fecales 7.27
Temperatura 7.27
Enterococcus 9.09
pH 12.73
Conductividad 14.55

165
9) En la tabla siguiente se presentan las distancias euclídeas entre los centroides
de cada ambiente en el espacio discriminante:
8. Arenales Dique Planta Vaq Wierna
Arenales 0 9. 10. 11. 12.
Dique 4.23 0 13. 14. 15.
Planta 3.34 6.58 0 16. 17.
Vaq 3.03 1.3 5.75 0 18.
Wierna 1.16 3.76 4.5 2.46 0

Como se observó en el biplot, Dique y Planta son los ambientes más disímiles con
una distancia de 6.58 mientras que los más similares son Wierna y Arenales,
cuyos centroides presentan una distancia de 1.16 en el espacio discriminante.

Nota: las coordenadas de los centroides en el espacio discriminante se pueden ver


en la tabla Centroides en el espacio discriminante en la Ventana Resultados:

Centroides en el espacio discriminante


Grupo Eje 1 Eje 2
Arenales -0.90 0.98
Dique 2.92 -0.83
Planta -3.66 -0.90
Vaq 2.00 0.09
Wierna 0.07 1.62

Para calcular las distancias euclídeas entre ambientes pueden covertir dichos
resultados automáticamente en una tabla utilizando el último ícono a la
derecha que aparece en la Ventana resultados.

166
PASOS EN INFOSTAT

Cómo pedir el ADL

Seleccionamos las variables y el criterio de agrupamiento

167
SALIDA DEL SOFTWARE

Análisis discriminante

Análisis discriminante lineal

Casos leidos 55

Variables

LN_CT (NMP/100 ml)


LN_CF(NMP/100 ml)
LN_EC(UFC/100 ml)
LN_EN(UFC/100ml)
T (ºC)
pH
OD(mg/l)
Cond (?s/seg)
Turb (NTU)

Variables de clasificación

Rio

Alguna matriz de covarianzas dentro es singular

168
Grupo n Rango ln(Det)
Arenales 13 9 38.32
Dique 14 9 31.31
Planta 13 9 47.09
Vaq 9 8
Wierna 6 5

Autovalores de Inv(E)H
Autovalores % % acumulado
6.80 79.20 79.20
0.97 11.28 90.47
0.69 8.00 98.47
0.13 1.53 100.00

Funciones discriminantes canónicas


1 2
Constante 4.79 -6.83
LN_CT (NMP/100 ml) -0.26 -0.03
LN_CF(NMP/100 ml) 0.23 -0.19
LN_EC(UFC/100 ml) -0.26 -0.36
LN_EN(UFC/100ml) -0.04 0.32
T (ºC) -0.02 0.11
pH 0.52 0.27
OD(mg/l) -0.43 0.42
Cond (?s/seg) -0.01 0.01
Turb (NTU) -6.3E-04 2.0E-03

Funciones discriminantes - datos estandarizados con las varianzas comunes


1 2
LN_CT (NMP/100 ml) -0.63 -0.07
LN_CF(NMP/100 ml) 0.61 -0.50
LN_EC(UFC/100 ml) -0.60 -0.84
LN_EN(UFC/100ml) -0.08 0.68
T (ºC) -0.12 0.50
pH 0.39 0.20
OD(mg/l) -0.79 0.77
Cond (?s/seg) -1.19 0.83
Turb (NTU) -0.18 0.59

Centroides en el espacio discriminante


Grupo Eje 1 Eje 2
Arenales -0.90 0.98
Dique 2.92 -0.83
Planta -3.66 -0.90
Vaq 2.00 0.09
Wierna 0.07 1.62

Tabla de clasificación cruzada (tasa de error aparente)


Grupo Arenales Dique Planta Vaq Wierna Total Error(%)
Arenales 12 0 0 1 0 13 7.69
Dique 0 12 0 2 0 14 14.29
Planta 0 0 13 0 0 13 0.00
Vaq 0 0 0 9 0 9 0.00
Wierna 0 0 0 0 6 6 0.00
Total 12 12 13 12 6 55 5.45

169
EJERCICIO 5.2 (ÁRBOLES DE CLASIFICACIÓN)

Base de datos: Clase6_CT_1


Descripción de los datos:
En 1986, el transbordador espacial Challenger tuvo un accidente catastrófico debido a
un incendio en una de las piezas de sus propulsores. La comisión encargada de
estudiar las causas del accidente concluyó que fue causado por la fuga de combustible
de uno de los tanques. Los dos cohetes de propulsión llevan unas juntas especiales
selladas con anillos de goma, diseñadas para prevenir el escape de combustible muy
caliente producido durante la ignición. Se sabía, que los anillos de goma sujetos a
cambios muy importantes de temperatura y presión pueden resultar dañados y llegar
a fallar. De forma sencilla, un anillo sujeto a fuerte presión en el momento de la
ignición recupera fácilmente su forma si está en un ambiente templado, pero no es así
si el anillo está frío. La noche anterior al lanzamiento se discutió por parte del
personal de la NASA y de los fabricantes de los cohetes la conveniencia del
lanzamiento, dado que había una previsión de 31ºF y por tanto esto podría afectar al
funcionamiento de los anillos. Para tomar una decisión utilizaron, sin duda entre
otros argumentos, la experiencia de los 22 lanzamientos previos en los que habían
podido analizar los fallos en los anillos. Pero de los seis vuelos previos en los que
había ocurrido un fallo en alguno de los anillos los datos no se observaba ninguna
relación entre la probabilidad de fallos en los anillo y la temperatura y la presión y
por ello el hecho de que fuera a hacer frío esa noche, no debería implicar un retraso
en el lanzamiento. El archivo Clase6_CT_1 contiene la información de las 23
observaciones de las siguientes variables: Vuelo, Fecha, Defecto, que tiene las
categorías Si y No en función de si se encontraron defectos o no en los anillos; Temp,
la temperatura (en grados Fahrenheit) en el momento del lanzamiento y Pres, presión
en el momento del lanzamiento.

170
CONSIGNAS:

Realice un árbol de clasificación entre la variable dependiente Defecto y las


variables regresoras Temp y Pres.

1) ¿Qué variable es la más importante para predecir el Defecto en los anillos?


2) Para qué valores de la variables regresoras se predice que se van a producir
defectos en los anillos? Con que probabilidad?
3) En el día del lanzamiento la temperatura pronosticada era de 31ºF, que
decisión hubiese tomado?
4) Repita el procedimiento pero cambiando el tamaño mínimo del nodo para
continuar con la partición a 3.

RESPUESTAS

1) La variable más importante es la temperatura.

(n=22)

Temp(>64.5; n=18)

Temp(<=64.5; n=4)

Temp(<=71.0; n=10)

Temp(>71.0; n=8)

Temp(<=69.5; n=6) Temp(>69.5; n=4)

171
2) Valores de Temp ≤ 64.5 °F predicen la ocurrencia de defectos en los anillos con
una probabilidad de 1, es decir en los 4 lanzamiento anteriores cuando la
temperatura fue inferior a 64.5° hubo una falla de los anillos.

Nota: esto puede observarlo en la ventana de Resultados de Infostat, en la tabla


Árboles de clasificación-regresión:

Nodo Formación H Predicción n No Si p(No) p(Si)


Raiz 22 16 6 0.73 0.27
1 Temp(<=64.5) 0.00 Si 4 0 4 0.00 1.00
2 Temp(>64.5) 12.56 No 18 16 2 0.89 0.11
2.1 Temp(<=71.0)10.01 No 10 8 2 0.80 0.20
2.1.1 Temp(<=69.5) 0.00 No 6 6 0 1.00 0.00
2.1.2 Temp(>69.5) 5.55 No 4 2 2 0.50 0.50
2.2 Temp(>71.0) 0.00 No 8 8 0 1.00
0.00

3) Los resultados indican que se debería haber pospuesto el lanzamiento.

4) Si bien los resultados del nuevo análisis son similares a los anteriores, aportan
nueva información. Cuando las temperaturas fueron mayores a 64.5° F y
menores o iguales a 69.5° F, no se produjeron fallas en los anillos. Esto también
sucede cuando las temperaturas se ubicaron por encima de los 71° F. Mientras
que cuando la temperatura fue mayor a 69.5° F y menor o igual a 71° F y la
presión fue menores a 75 se produjo una falla de los anillos, mientras cuando la
presión fue mayor a dicho umbral dos de tres lanzamientos (p=0.67) no
presentaron defectos.

(n=22)

Temp(>64.5; n=18)

Temp(<=64.5; n=4)

Temp(<=71.0; n=10)

Temp(>71.0; n=8)

Temp(>69.5; n=4)
Temp(<=69.5; n=6)

Pres(<=75.0; n=1) Pres(>75.0; n=3)

172
Nodo Formación H Predicción n No Si p(No) p(Si)
Raiz 22 16 6 0.73 0.27
1 Temp(<=64.5) 0.00 Si 4 0 4 0.00 1.00
2 Temp(>64.5) 12.56 No 18 16 2 0.89 0.11
2.1 Temp(<=71.0) 10.01 No 10 8 2 0.80 0.20
2.1.1 Temp(<=69.5) 0.00 No 6 6 0 1.00 0.00
2.1.2 Temp(>69.5) 5.55 No 4 2 2 0.50 0.50
2.1.2.1 Pres(<=75.0) 0.00 Si 1 0 1 0.00 1.00
2.1.2.2 Pres(>75.0) 3.82 No 3 2 1 0.67 0.33
2.2 Temp(>71.0) 0.00 No 8 8 0 1.00 0.00

PASOS EN INFOSTAT

Cómo pedir el árbol de clasificación

Seleccionamos las variables en cada grupo

173
Inicialmente dejamos las opciones por defecto. Para realizar el punto 4 en el casillero
Mínimo tamaño del nodo para continuar la partición cambiar el 5 por 3.

174
SALIDA DEL SOFTWARE

Árboles de clasificación-regresión

H= Deviance (suma (ni*ln(pi))

Nodo Formación H Predicción n No Si p(No) p(Si)


Raiz 22 16 6 0.73 0.27
1 Temp(<=64.5) 0.00 Si 4 0 4 0.00 1.00
2 Temp(>64.5) 12.56 No 18 16 2 0.89 0.11
2.1 Temp(<=71.0) 10.01 No 10 8 2 0.80 0.20
2.1.1 Temp(<=69.5) 0.00 No 6 6 0 1.00 0.00
2.1.2 Temp(>69.5) 5.55 No 4 2 2 0.50 0.50
2.2 Temp(>71.0) 0.00 No 8 8 0 1.00 0.00

EJERCICIO 5.3 (ÁRBOLES DE REGRESIÓN)

Base de datos: Trigo


Descripción de los datos:
Los datos provienen de un ensayo del ensayo de rotaciones agrícolas en el cultivo de
trigo para el cual se registraron, además del rendimiento del cultivo, valores de
variables climáticas. Se proveen los registros de los últimos 30 años. Las variables
climáticas registradas son: precipitación (PP), temperatura media (T media), agua
disponible (AD), heliofania media y radiación acumulada. Todas las mediciones
fueron realizadas en el período crítico (PC) del cultivo.

CONSIGNAS:

1) Realice un árbol de regresión utilizando como variable dependiente el


Rendimiento y las variables climáticas como regresoras. Interpretar los
resultados obtenidos.

175
Respuestas

1) La variable meteorológica de mayor contribución para explicar variabilidad en


los rendimientos fue la T media en PC. Los mejores rendimientos se
obtuvieron con temperaturas promedio menores a 13.5 °C (3733 kg/ha). En
los años con T media en PC mayores, la variable PP en PC explicó diferencias
en rendimiento; con PP menores a 122.8 mm los rendimientos predichos
fueron de 2609 kg/ha, mientras que con PP mayores a 122.8 mm los
rendimientos promedios fueron de 1984 kg/ha.

(n=149)

T media en PC(>13.502; n=140)

T media en PC(<=13.502; n=9)

PP en PC(<=122.80; n=77) PP en PC(>122.80; n=63)

Nota: para obtener una interpretación completa del análisis debe complementar la
información del árbol de regresión con la obtenida en la ventana de Resultados de
Infostat.

Nodo Formación H Predicción n Media Varianza


Mínimo Máximo
Raiz 2412 149 2412 1361480 138
5190
1 T media PC(<=13.502) 6994921 3733 9 3733 874365
2010 5190
2 T media PC(>13.502) 177793998 2327 140 2327 1279094 138
4790
2.1 PP PC(<=122.80) 113032885 2609 77 2609 1487275 138
4790
2.2 PP PC(>122.80) 51231316 1984 63 1984 826312 455
4025

176
PASOS EN INFOSTAT

Cómo pedir el árbol

Seleccionamos las variables en cada grupo

En la ventana Árboles de clasificación-regresión seleccionar la opción Suma de


cuadrados corregida. El algoritmo por defecto continuara la separación de nodos
hasta que el que el tamaño de un nodo sea inferior al mínimo preestablecido por

177
defecto que es 5. Otra opción para “podar” el árbol es colocar un umbral de
heterogeneidad. La primera opción es más sencilla de utilizar. En este ejemplo
utilizando un tamaño mínimo del nodo de 80 se logra podar el árbol rescatando las
relaciones más importantes en la determinación del rendimiento.

SALIDA DEL SOFTWARE

Árboles de clasificación-regresión

H= Suma de cuadrados corregida

Nodo Formación H Predicción n Media Varianza Mínimo


Máximo
Raiz 2412 149 2412 1361480 138
5190
1 T media PC(<=13.502) 6994921 3733 9 3733 874365 2010
5190
2 T media PC(>13.502) 177793998 2327 140 2327 1279094 138
4790
2.1 PP PC(<=122.80) 113032885 2609 77 2609 1487275 138
4790
2.2 PP PC(>122.80) 51231316 1984 63 1984 826312 455
4025

178
OTROS EJERCICIOS

Ejercicio 5.4
En el archivo SateliteC (datos de prueba de Infostat), están grabados los datos
correspondientes a las reflectancias en cada una de cuatro bandas de 72 píxeles para
los cuales se conoce la cobertura del suelo (verdad terrestre). El objetivo del estudio
es encontrar un criterio de separación de las distintas coberturas en función de las
reflectancias observadas. Esas reglas se podrán utilizar posteriormente en la
estimación de la cobertura vegetal de una región a partir de una imagen satelital.
d. Hacer un análisis discriminante lineal de estos datos
e. Interpretar el significado de la salida del programa.
f. ¿Cuáles son las coberturas más difíciles y más fáciles de separar?
g. ¿Cuáles son las bandas que separan las coberturas?

Ejercicio 5.5
El archivo Clase6_CT_2.idb2 contiene datos de un estudio realizado para la detección
de emails spam. El total de mails registrado es de n=4601 de los cuales 1813 son
spam. Las variables relevadas para utilizar en la predicción de correo spam son las
siguientes:

crl.tot: longitud total de las palabras que están en mayúsculas.


dollar: frecuencia del símbolo $, en términos del porcentaje respecto de caracteres.
bang: frecuencia del símbolo !, en términos del porcentaje respecto de caracteres.
money: frecuencia de la palabra money, en términos del porcentaje respecto de
caracteres.
n000: frecuencia de la cadena 000, en términos del porcentaje respecto de caracteres.
Make: frecuencia de la palabra make, en términos del porcentaje respecto de
caracteres.
yesno: variable respuesta, n para no-spam, y la letra y para spam.

Realizar un árbol de clasificación usando las 6 variables como predictoras. Cambiar el


tamaño mínimo del nodo a n=1000. Tener en cuenta que en este ejercicio dado la
extensión de la tabla de datos puede demorar en realizar el cálculo de acuerdo a la
capacidad de procesamiento de la computadora.

179
Ejercicio 5.6
El archivo cpus.idb2 contiene datos de un estudio realizado para evaluar la
performance de 209 computadoras con diferentes parámetros de configuración de
sus componentes (Ein-Dor y Feldmesser, 1987). Las variables observadas son las
siguientes:
name: fabricante y modelo de computadora
syct: número de ciclos por segundotiempo de ciclo en nanosegundos.
mmin: memoria principal mínima en kilobytes.
mmax: memoria principal máxima en kilobytes.
cach: tamaño de la caché en kilobytes.
chmin: número mínimo de canales.
chmax: número máximo de canales.
perf: rendimiento relativo.
estperf: rendimiento relativo estimado.
El objetivo del estudio es conocer que variables influyen en el rendimiento relativo y
relativo estimado. Realizar un árbol de regresión en cada uno de los dos casos.

Ein-Dor, P. y Feldmesser, J. 1987. Atributes of the performance of central processing units: a relative
performance prediction model, Communitaions of the ACM, 30: 308-317.

180
CAPÍTULO VII

TÓPICOS ESPECIALES: ANÁLISIS ESPACIAL


MULTIVARIADO

181
USO DE INFORMACIÓN ESPACIAL EN EL ANÁLISIS MULTIVARIADO

¿PARA QUÉ UTILIZAR LA INFORMACIÓN ESPACIAL?

Los métodos de análisis multivariado permiten identificar y resumir las principales


estructuras en bases de datos conteniendo la descripción de un número de
observaciones para varias variables. En muchos casos, la información espacial está
también disponible para cada observación, de tal forma que pueden realizarse mapas
a partir de conjuntos de datos multivariados. Con los avances tecnológicos de los
últimos años, la cantidad de datos espaciales disponibles es cada vez mayor. Por
ejemplo, la utilización de nuevas tecnologías asociadas a la agricultura de precisión
permite capturar información de múltiples variables en gran cantidad de sitios
georreferenciados dentro de lotes en producción. Para comprender y manejar la
variabilidad en los rendimientos es crucial conocer la variabilidad y covariación
espacial de variables de suelo. En general, la dimensión espacial es relevante en los
estudios de la naturaleza, ya sean ecológicos, genéticos, hidrológicos, entre otras
disciplinas. A nivel analítico podemos distinguir dos objetivos principales en el
análisis de datos espaciales multivariados: resumir estructuras de covarianza e
identificar patrones espaciales. En la práctica, alcanzar ambas metas
simultáneamente es un desafío desde el punto de vista estadístico y una variedad de
métodos han sido desarrollados que ofrecen un equilibrio entre estos dos objetivos.

¿CÓMO INCORPORAR LA INFORMACIÓN ESPACIAL AL ANÁLISIS MULTIVARIADO?

Existen diferentes formas de incorporar la información espacial en el análisis


multivariado y múltiples métodos para hacerlo, según el objetivo del trabajo. Aquí nos
enfocaremos en el uso del Análisis de Componentes Principales con datos espaciales.
Existen dos grandes formas de incorporar la información espacial en el ACP: a
posteriori y a priori. En la primera aproximación, la estructura multivariada es
primero resumida usando el ACP y la información espacial es utilizada luego, una vez

182
que se obtuvieron las variables sintéticas (CPs). Los CPs pueden ser utilizados como
input de análisis espaciales univariados. Por ejemplo, se puede calcular un índice de
autocorrelación espacial, como el índice de Moran (Moran 1950) o construir un
semivariograma a partir de una variable sintética que resume una porción
importante de la varianza genética total. También se pueden construir mapas
sintéticos mediante la interpolación de los valores obtenidos. El proceso de
interpolación espacial consiste en la predicción de los valores de una variable
aleatoria sobre un conjunto de puntos definidos por una localización en el espacio
(Webster y Oliver 2001; Fortin y Dale 2009). Así, la interpolación de las variables
sintéticas obtenidas mediante la aplicación del ACP permite la confección de mapas
de la variabilidad estudiada, facilitando la visualización de los patrones espaciales.
Como notamos previamente, el ACP no incorpora la información espacial en el
análisis, ya que no ha sido desarrollado con el objetivo de detectar estructura
espacial. El uso de la información espacial a priori, es decir, dentro del criterio de
optimización de la TRD, fue desarrollado en el trabajo de Wartenberg (1985), quien
propuso un análisis espacial de correlación multivariada basándose en el ACP, el
índice de Moran y el uso de redes de conexión (vecindarios) entre unidades de
análisis. Esta idea fue desarrollada en el contexto de datos ecológicos por Thioulouse
et al. (1995), y en datos genéticos por Jombart et al. (2008), quien desarrolló
recientemente el ACP espacial (ACPe) para datos genéticos, basándose en una
modificación del ACP que optimiza la varianza genética y su autocorrelación espacial.
También Dray et al. (2008) se basaron en el trabajo de Wartenberg para desarrollar
el método MULTISPATI PCA para datos de vegetación y el cual ha sido utilizado en el
contexto de la agricultura de precisión para delimitar zonas homogéneas intra-lote
(Córdoba et al. 2013). ´

183
ANÁLISIS ESPACIALES A UTILIZAR A POSTERIORI DEL ACP (SOBRE LAS VARIABLES
SINTÉTICAS)

ÍNDICE DE AUTOCORRELACIÓN ESPACIAL DE MORAN

Uno de los índices más usados para medir autocorrelación espacial es el Índice de
Moran (Moran 1950). El cálculo del índice o coeficiente de Moran de autocorrelación
espacial en un espacio continuo requiere la definición de una matriz de ponderación
espacial y para obtener estos ponderadores se pueden seguir distintos
procedimientos, entre los que se destacan el uso de redes de conexión (Dray 2011).
Las redes de conexión o gráficos de vecindario se generan conectando individuos
vecinos en un mapa (Legendre y Legendre 1998). La triangulación de Delaunay es un
método recomendado para construir gráficos de vecindario cuando las entidades se
encuentran distribuidas en forma homogénea en el espacio. Sin embargo, puede
conectar a entidades periféricas que no deberían estar relacionadas. El gráfico de
Gabriel es un subconjunto del gráfico de Delaunay que no incluye las conexiones
periféricas (Figura 7.1). Las redes de conexión pueden ser adaptadas manualmente
pudiéndose excluir contactos entre puntos cercanos o incluir relaciones entre puntos
lejanos, siguiendo criterios biológicos.

Figura 7.1: Redes de conexión calculadas mediante la triangulación de Delaunay


(izquierda) y el gráfico de Gabriel (derecha). Cada nodo corresponde a un punto en el
espacio donde se midieron una serie de variables. Obsérvese que el número de vecinos es
mayor en la red calculada con Delaunay.

184
Cuando trabajamos con variables sintéticas, tenemos un valor de CP1, por ejemplo,
en una zona, llamémosla i-ésima zona y se compara su valor con el valor promedio de
la variable (CP1) en las localizaciones de su vecindario. La expresión del índice es:
N  i  j Wi , j ( X i  X )( X j  X )
I
( i  j Wi , j ) i ( X i  X )2

donde N es el número total de observaciones, Xi es el valor de la variable en una


localización particular (posición i) y Xj es el valor de la CP1 en otra localización
(posición j). El elemento Wij de la matriz de ponderaciones W, es el peso aplicado a la
comparación de las observaciones en la posición i y la posición j que puede ser
entendido como un coeficiente de continuidad. Cuando se utilizan redes de conexión,
la matriz W está compuesta por ceros y unos ya que si la posición j es adyacente a la
posición i, el término ij recibe un peso de 1 y si no, de 0. Otra posibilidad para
construir la matriz W es relacionar los elementos con la distancia d entre las

posiciones de manera inversamente proporcional, es decir: Wij  1 d .


ij

El índice de Moran varía entre –1 y 1 ya que es estandarizado por la variabilidad de X.


Cuando la autocorrelación es alta, el coeficiente será alto. Un valor cercano a 1 indica
una alta correlación positiva, mientras que valores cercanos a –1 indican
autocorrelación negativa. Una desventaja de Wij es que su valor se encuentra
distorsionado por la unidad de medida de la distancia entre posiciones, por lo cual,
Wij debe ser normalizado.
El índice de Moran puede calcularse en R mediante las librerías “spdep”
(Bivand et al. 2011) y “ape” (Paradis et al. 2004).

SEMIVARIOGRAMAS E INTERPOLACIÓN DE LAS CPS PARA CONSTRUIR MAPAS


SINTÉTICOS DE VARIABILIDAD

La teoría de variables regionalizadas, bajo la cual se definen los semivariogramas,


adopta una perspectiva estocástica de los procesos espaciales. Según ésta, cada dato
es una realización de un proceso aleatorio, por lo cual existe una distribución de
probabilidad asociada al mismo. Uno de los supuestos más importantes que se
asumen es que todas las distribuciones de probabilidad asociadas a cada punto son

185
normales y tienen la misma media y varianza. Estos últimos supuestos se conocen
como estacionariedad de primer y segundo orden. Una forma de corroborar que se
cumpla el supuesto de estacionariedad es realizando regresiones de la variable con
las coordenadas geográficas. En el caso de encontrar una relación significativa se
puede ajustar un modelo y trabajar con los residuos. De esta manera la tendencia
(cambios de la media) se remueve y la autocorrelación espacial se estudia en el
término aleatorio de la variable representado por los residuos.
Bajo este enfoque, un primer paso para analizar la presencia de
autocorrelación espacial en un conjunto de datos georreferenciados en un continuo es
construir un semivariograma empírico. La función semivariograma de un proceso

estacionario, denotado por   si  s j  , es sólo función de la diferencia entre las

coordenadas  si  s j  y puede expresarse como,

  si  s j     h  
1
2
 
Var  Z  si   Z  s j 

donde h es la distancia espacial entre los puntos muestrales Z  si  y Z  s j  que se

suponen sobre un espacio continuo. Entre otros factores a tener en cuenta para
ajustar el semivariograma se encuentra el tamaño de muestra con el que se estima
cada semivarianza; comúnmente se recomienda que la estimación se realice con al
menos 30 pares de puntos. La distribución de los puntos en el espacio determinará
para qué lags ésto es posible.
Una vez construido el semivariograma empírico se puede modelar la gráfica
obtenida mediante el ajuste de semivariogramas teóricos. Existen distintos modelos
teóricos para funciones semivariogramas, entre los que se encuentran el lineal, el
esférico, el gaussiano y el exponencial. Cualquiera de los semivariogamas puede
caracterizarse mediante tres parámetros: el umbral, el rango y el efecto pepita
(Figura 7.2). El umbral es el valor de la asíntota superior del semivariograma y
representa la varianza de los datos estimada teniendo en cuenta la estructura
espacial. El rango es la distancia espacial a la cual el semivariograma alcanza o se
aproxima al umbral. Muchas veces, esta distancia se considera como la distancia a
partir de la cual las observaciones no están correlacionadas. Cuando el
semivariograma alcanza el umbral asintóticamente, el rango práctico es definido
como la distancia a la cual el semivariograma alcanza el 95% del umbral. El tercer

186
parámetro del semivariograma conocido como efecto pepita, representa la
componente de varianza que no está espacialmente estructurada (Schabenberger y
Gotway 2005).

UMBRAL
semivarianza

EFECTO PEPITA

RANGO

distancia

Figura 7.2: Semivariograma esférico. Se representan los tres


parámetros que lo definen: el rango, el umbral y el efecto pepita

Para realizar interpolaciones espaciales existen diversos métodos. Si se conoce y


utiliza la estructura de autocorrelación de los datos es posible realizar predicciones
más precisas. Un método de interpolación que utiliza esta información, es el método
denominado “krigging”, el cual incluye la información provista por el semivariograma
ajustado (Schabenberger y Gootway 2005). Existen otros métodos de interpolación,
sencillos y robustos, como el de la inversa de la distancia que también han sido. Estas
técnicas permiten evaluar estadísticamente la presencia de un patrón espacial y
comprender visualmente el patrón espacial subyacente. Los mapas sintéticos, i.e.
mapas basados en variables sintéticas como puede ser una CP permiten observar
patrones espaciales multivariados (Figura 7.3).

187
Figura 7.3: Mapa de un lote obtenido por interpolación (kriging) de la
CP1 de un PCA realizado sobre variables de suelo (conductividad
eléctrica a dos profundidades, elevación, profundidad de tosca y
rendimiento de soja.

MULTISPATI-PCA: UN MÉTODO QUE INCORPORA LA INFORMACIÓN ESPACIAL A


PRIORI DEL ACP

La segunda aproximación utiliza métodos que permiten la identificación de los


principales patrones espaciales considerando simultáneamente el aspecto espacial y
multivariado de los datos. Existen diferentes formas de incorporar la información
espacial en estos análisis. Entre estos métodos se encuentra el análisis espacial
multivariado basado en el índice de Moran (MULTISPATI – PCA), el cual tiene como
objetivo identificar las estructuras espaciales multivariadas estudiando la relación
entre dos matrices, (una de ellas contiene los valores de las variables en cada puntos
de muestreo, mientras que la otra contiene los valores ponderados de las variables en
los vecinos de cada punto de muestreo (matriz “lagged”) usando un análisis de
coinercia (Dray y Dufour 2007). Es decir, el análisis MULTISPATI – PCA maximiza el
producto escalar entre la combinación lineal de las variables originales (en este caso
los componentes principales calculadas en PCA) y la combinación lineal de variables
“lag”. El resultado es una combinación lineal de las variables que maximiza el

188
producto de la autocorrelación (una versión generalizada de Moran) por la varianza
calculada con un PCA estándar (Dray et al., 2008; Couteron y Ollier, 2005). Este es un
método puramente descriptivo, basado en algebra lineal y en propiedades
geométricas y geográficas de los datos. No se basa en ningún modelo de ajuste y se
puede aplicar en cualquier tipo de variables (Saby et al., 2009).
Se simularon poblaciones de genotipos multilocus mediante el programa EASYPOP
2.01. Se obtuvieron 30 repeticiones de cada una de cinco situaciones o condiciones de
interés, con tres poblaciones de individuos genotipados con marcadores multilocus-
multialélicos. Los primeros 3 escenarios contemplan situacionesdonde las
poblaciones presentan EGE, bajo tres niveles diferentes de diferenciación genética:
baja (Fst=0.04), media (Fst=0.08) y alta (Fst=0.13). Estos escenarios se lograron
mediante la variación de las tasas de migración y suponiendo 20 loci por genotipo.
Las otras dos situaciones corresponden a escenarios sin EG, uno con 20 y otro con 30
loci. De cada población se eligieron individuos al azar para generar la EGE de tipo
parche y a cada individuo se les asignaron coordenadas espaciales bidimensionales.
Para generar escenarios con distinto número de marcadores aportando a la
variabilidad genética espacialmente estructurada, a partir de los archivos con
extensión .dat obtenidos de EASYPOP, se construyeron tablas base para cada nivel de
diferenciación. Éstas están compuestas por las siguientes columnas: coordenadas
geográficas de los individuos (primeras dos columnas), la población de origen
simulada (columna 3) y los genotipos simulados para 50 loci, de las cuales los
primeras 20 columnas corresponden a loci con EG y las 30 restantes corresponden a
los marcadores simulados sin EGE. Las tablas se denominaron mediante un nombre
compuesto por tres partes: “tipo.de.estructura_nivel.de.divergencia
_número.de.simulación”. El primer término de la denominación corresponde al tipo
de estructura espacial que se simula, en nuestro caso fue parche y la denominación
par. El segundo término de la denominación corresponde al nivel de divergencia, el
cual tiene tres niveles: b, m, a los cuales corresponden a baja, media y alta
diferenciación. El tercer término corresponde al número de repetición el cual varió
entre 001 y 030. A partir de éstas tablas base (en total 90 tablas correspondientes a 3
escenarios de divergencia con 30 repeticiones cada uno) se generaron los escenarios
finales mediante la lectura de las primeras 23, 33 o alternativamente 53 columnas
para hacer variar la proporción de loci con EGE. Así, se generaron nueve escenarios

189
con distinta proporción de loci con estructura espacial (se agregó un término a la
denominación del escenario correspondiente al nivel de loci sin EGE (ruido): r0, r10 y
r30) También se generó un escenario sin EGE que se denominó “se”. A continuación
se presentan los conjuntos de parámetros utilizados en EASYPOP para cada una de las
cinco condiciones mencionadas anteriormente y las rutinas en leguaje R usadas para
el análisis, tomando como ejemplo la repetición 001, diferenciación baja.

INSTALACIÓN DEL MENÚ ESTADÍSTICA ESPACIAL EN INFOSTAT

Para instalar el menú “Estadística Espacial” es necesario que el software R haya


sido instalado previamente y vinculado a InfoStat (ver “¿Cómo instalar R?” en el menú
Ayuda de InfoStat). Posteriormente, se debe copiar la carpeta “Estadística Espacial”
dentro de la carpeta “Rscripts” ubicada en el directorio donde InfoStat fue instalado.

Al reiniciar InfoStat, el menú se agrega automáticamente en la barra de


herramientas como muestra la siguiente figura:

Las rutinas realizadas desde el menú “Estadística Espacial” están programadas


en R y, por lo tanto, requieren determinados paquetes para ejecutarse. InfoStat
solicitará estos paquetes cuando los necesite e intentará descargarlos desde la web
cuando se ejecute cada rutina. En caso de que InfoStat no logre tener acceso a
internet, los paquetes pueden ser manualmente instalados desde el menú [R], tanto

190
desde la web como desde un archivo .zip. La siguiente figura ilustra parte del menú
[R].

EJERCITACIÓN

EJERCICIO 7.1

Base de datos: Suelo.idb2


Descripción: datos recolectados en un Haplustol Entico representativo de los suelos
de la Región Semiárida Pampeana (RSP). Para su recopilación se confeccionó una
grilla regular pero no equidistante, en la que en cada uno de sus nodos se tomó una
muestra, la cual fue georreferenciada. Luego a cada una de estas muestras se le
determinó la textura (L+A: limo +arcilla), contenido de materia orgánica (MO),
nitrógeno total (N) y fósforo disponible (P). Posterior al muestreo en el lote se
sembró trigo y se cosechó con una cosechadora con monitor de rendimiento.,
contenido de materia orgánica (MO), nitrógeno total (N), fósforo disponible (P) y
Rendimiento (Rend) de trigo. El primer punto de muestreo tiene la
georreferenciación 0 en la dirección Y y 0 en la dirección X, el siguiente punto de
muestreo tiene también la coordenada 0 en la dirección Y mientras que en la
dirección X la coordenada es 5 (i.e. el punto se encuentra a 5 m del origen), se
mantiene la coordenada 0 en Y hasta el punto 10 que se encuentran en la misma fila
de la grilla y cambian las coordenadas de X. El punto 11 al encontrarse en la fila
siguiente cambia la coordenada Y de 0 a 5 y así prosigue con el resto de los puntos.

191
CONSIGNAS:

A partir de los resultados de aplicar el MULTISPATI-PCA sobre las variables de


suelo y rendimiento, responder:

1) ¿Cuánta variabilidad explican las dos primeros componentes principales


espaciales del MULTISPATI-PCA?

2) Compare las varianzas e índices de autocorrelación del MULTISPATI-PCA y


ACP y concluya sobre sus diferencias.

3) Grafique los resultados del MULTISPATI-PCA en un gráfico de


correlaciones.

3.1) ¿Cuáles fueron las variables más importantes en la definición de la CP1


y CP 2 espacial?
3.2) ¿En el MULTISPATI-PCA, qué variable se correlaciona con el
rendimiento?
3.3) Compare los resultados del MULTISPATI-PCA y ACP y describa si
existió un cambio en la estructura de correlación de las variables.

4) Utilizando la función de interpolación “AutoMapa” del menú “Estadística


Espacial” obtenga los mapas de variabilidad espacial multivariada a partir
de la CP espacial 1 y 2. Interprete los resultados.

192
RESPUESTAS

1) La primer componente del MULTISPATI-PCA realizado sobre las variables de


suelo y rendimiento explican el 41% de la variabilidad observada y la segunda
un 19%.

Nota: esto puede observarlo en la ventana de Resultados de Infostat:


Resultados del MULTISPATI-PCA

Eje Autovalores Varianza Espacial Proporcion Prop. Acum. Índice de Moran


1 1.20 2.07 0.41 0.41 0.58
2 0.28 0.94 0.19 0.60 0.30

2) Se observa una pérdida de varianza comparada a ACP (2.22 vs. 2.07 para el eje
1 y 1.18 vs. 0.94 para el eje 2), pero una ganancia en la autocorrelación
espacial (0.47 vs. 0.58 para el eje 1 y 0.18 vs. 0.30 para el eje 2).

Nota: esta comparación puede realizarla observarlo en la ventana de


Resultados de Infostat.

3) El gráfico resultante es:

MULTISPATI-PCA

d = 0.2

P
A.L

MO
N

Eigenvalues

Rend

3.1) Las variables más importantes en la definición de la CP1 espacial


fueron A.L, P y MO, mientras que la variable Rend fue una importante para
la construcción de la CP2.

193
Nota: Esto puede observarse también en los autovectores de la ventana
Resultados.

3.2) Ninguna.
3.3) Se observa que incorporando la información espacial en el análisis
(usando MULTISPATI-PCA), la variable P pasa a ser importante en la
construcción de la CP1. Con el ACP el P era una variable que se proyectaba
en la CP2 y que se correlacionaba en forma positiva con Rend.

3.4) Mapas de la CP1 (izquirda) y CP2 (derecha).

Los valores que toman las CP, tienen que analizarse en función de las variables
que presentaron mayor correlación con cada componente. En el caso de
MULTISPATI-PCA, las zonas con valores bajos de la CP1 (color naranja) se
caracterizan por altos niveles de P, mientras que las zonas que presentaron
valores altos de la CP1 (color verde) se caracterizan por valores altos de L+A,
MO y N. En el mapa de la segunda componente del MULTISPATI-PCA pueden
observar los sitios de mayor rendimiento se ubican en la zona central del lote
(color verde).

194
PASOS EN INFOSTAT

Cómo pedir el MULTISPATI-PCA

Seleccionamos las variables y coordenadas

195
En las opciones de la red de vecindarios colocamos como distancia máxima el 10. Esto
significa que los puntos vecinos de un sitio dado son aquellos que se ubican hasta una
distancia euclidea de 10 metros. Las demás opciones se dejan por defecto.

SALIDA DEL SOFTWARE

Análisis de Componentes Principales Espaciales

Buscar [ CS ] en la tabla [ Suelo ]


Resultados del Análisis de Componentes Principales

Eje Autovalores Proporcion Prop. Acum. Índice de Moran


1.00 2.22 0.44 0.44 0.47
2.00 1.18 0.24 0.68 0.18

Resultados del MULTISPATI-PCA


Eje Autovalores Varianza Espacial Proporcion Prop. Acum. Índice de Moran
1 1.20 2.07 0.41 0.41 0.58
2 0.28 0.94 0.19 0.60 0.30

Autvectores
Variable CS1 CS2
A.L 0.65 0.17
P -0.45 0.22
MO 0.45 -0.25
N 0.35 -0.28
Rend -0.22 -0.89

196
Cómo hacer el mapa de la CP1

Seleccionar la CS1 y las coordenadas y pasarlas a sus correspondientes casilleros.

Seleccionar los modelos a ajustar Exp, Sph, Gau y Ste. Colocar como dimensión de la
grilla de predicción 1 metro y en block colocar el 2. Las demás opciones se dejan por
defecto.

197
OTROS EJERCICIOS

Ejercicio 7.2

El archivo sa.idb2 contiene datos provenientes de un lote en producción bajo agricultura de


precisión (65,4 ha) ubicado al sudeste bonaerense de la República Argentina. Se compilaron
valores georreferenciados de conductividad eléctrica aparente (CE) en dos profundidades 0-30
cm (CE30) y 0-90 cm (CE90), Elevación, profundidad de tosca (Tosca) y rendimiento de soja
(RTO). Los datos fueron sometidos a procedimientos de depuración para eliminar valores con
error de medición potencialmente alto. Debido a las diferentes resoluciones espaciales de las
variables medidas, se promediaron los datos de CE30, CE90, Elevación y RTO, que se
encontraban dentro de un radio de 14 m desde cada sitio donde se había registrado la variable
Tosca. Se asignaron las medias de estas variables a cada uno de los sitios de medición de Tosca.
La base de datos resultante estuvo conformada por n=672 sitios (filas) y p=5 variables
(columnas).

Realizar un análisis de componentes principales espacial e interpretar los resultados. Utilizar


como 80 m como distancia máxima para la definición del vecindario. Obtener e interpretar el
mapa de variabilidad espacial

198
REFERENCIAS

Bivand, R., Altman, M., Anselin, L., Assunção, R., Berke, O., Andrew Bernat, Blanchet, G.,
Blankmeyer, E., Carvalho, M., Christensen, B., Chun, Y., Dormann, C., Dray, S.,
Halbersma, R., Krainski, E., Legendre, P., Lewin-Koh, N., Hongfei Li, J.M., Millo, G.,
Mueller, W., Ono, H., Peres-Neto, P., Piras, G., Reder, M., Tiefelsdorf, M. & Yu, D.
(2011) spdep: Spatial dependence: weighting schemes, statistics and models. R
package version 0.5-31.

Chambers, J. M., Cleveland, W. S., Kleiner, B., & Tukey, P. A. (1983). Graphical Methods
for Data Analysis. Belmont, CA: Wadsworth.

Chernoff, H. (1973). Using faces to represent points in K-dimensional space


graphically. JASA,68,342,36-368.

Córdoba, M., Bruno, C., Costa, J. & Balzarini, M. (2013) Subfield management class
delineation using cluster analysis from spatial principal components of soil
variables. Computers and Electronics in Agriculture, 97, 6-14.

Dray, S. & Dufour, A.B. (2007) The ade4 package: implementing the duality diagram
for ecologists. Journal of Statistical Software, 22, 1-20.

Dray, S. (2011) A New Perspective about Moran's Coefficient: Spatial Autocorrelation


as a Linear Regression Problem. Geographical Analysis, 43, 127-141.

Dray, S., Saïd, S. & Débias, F. (2008) Spatial ordination of vegetation data using a
generalization of Wartenberg's multivariate spatial correlation. Journal of
Vegetation Science, 19, 45-56.

Fortin, M.-J. & Dale, M.R.T. (2009) Spatial Autocorrelation in Ecological Studies: A
Legacy of Solutions and Myths. Geographical Analysis, 41, 392–397.

Gabriel, K. R. (1971). The biplot graphic display of matrices with application to


principal components analysis. Biometrics, 58(3), 453-467.

Gabriel, K. R. (1981). Biplot display of multivariate matrices for inspection of data and
diagnosis. In V. Barnett (Ed.), Interpreting Multivariate Data. London: Wiley.

199
Gower J.C., Ross, G.J.S. (1969) Minimum spanning trees and single linkage cluster
analysis. Applied Statistics 18, 54-64.

Johnson R.A., and Wichern, D.W.(1988). Applied Multivariate Statistics Analysis, 2nd
Edition. Prentice-hall, New Jersey, 607 pp.

Legendre, P. & Legendre, L. (1998) Numerical Ecology. Elsevier Science B.V.,


Amsterdam, The Netherlands.

Moran, P.A.P. (1950) Notes on Continuous Stochastic Phenomena. Biometrika, 37, 17-
23.

Moser, E.B. (1994). Graphical Analysis of Multidimensional Ecological Community


Data. Proceedings of the 19th Annual sas Users Group International Conference,
Dallas, TX

Paradis, E., Claude, J. & Strimmer, K. (2004) APE: Analyses of Phylogenetics and
Evolution in R language. Bioinformatics, 20, 289-290.

Schabenberger, O. & Gotway, C.A. (2005) Statistical methods for spatial data analysis.
Chapman & Hall/CRC, Boca Raton.

Tukey, J. W. (1977). Exploratory Data Analysis. Addison-Wesley Publishing Co.,


Reading, MA.

Wartenberg, D. (1985) Multivariate Spatial Correlation: A Method for Exploratory


Geographical Analysis. Geographical Analysis, 17, 263-283.

Webster, R. & Oliver, M.A. (2001) Geostatistics for environmental scientists. John
Wiley & Sons, Chichester, England ; New York.

200

View publication stats

Anda mungkin juga menyukai