net/publication/286931204
CITATIONS READS
7 5,823
4 authors:
Some of the authors of this publication are also working on these related projects:
All content following this page was uploaded by Mónica Balzarini on 16 December 2015.
Córdoba, Argentina
2015
Mónica Balzarini
Cecilia Bruno
Mariano Córdoba
Ingrid Teich
1
La cita bibliográfica de ésta obra es:
2
TABLA DE CONTENIDOS
TABLA DE CONTENIDOS.................................................................................................................................................................... 2
CAPÍTULO I ...................................................................................................................................................... 7
CAPÍTULO II ................................................................................................................................................. 30
3
ANÁLISIS DE CORRESPONDENCIA SIMPLE Y MÚLTIPLE ................................................................................................ 68
Ilustración .......................................................................................................................................... 71
EJERCITACIÓN ..................................................................................................................................................................................... 72
Ejercicio 1 (EMD) ................................................................................................................................. 72
Consignas ............................................................................................................................................ 73
Respuestas .......................................................................................................................................... 74
Pasos en Infostat ................................................................................................................................. 78
Salida del software .............................................................................................................................. 80
Ejercicio 2 (Análisis de Correspondencias Múltiples) ......................................................................... 82
Consignas ............................................................................................................................................ 83
Respuestas .......................................................................................................................................... 84
Pasos en Infostat ................................................................................................................................. 85
Salida del software .............................................................................................................................. 87
Otros ejercicios ................................................................................................................................... 88
CAPÍTULO IV ................................................................................................................................................ 89
ANÁLISIS DE CONGLOMERADOS......................................................................................................... 89
ANÁLISIS DE CONGLOMERADOS ................................................................................................................................................ 90
Conglomerados Jerárquicos ................................................................................................................ 90
Conglomerado No Jerárquico ............................................................................................................. 93
Ilustración ........................................................................................................................................... 95
EJERCITACIÓN ..................................................................................................................................................................................... 98
Consignas ............................................................................................................................................ 99
Respuestas ........................................................................................................................................ 100
Pasos en Infostat ............................................................................................................................... 108
Salida del software ............................................................................................................................ 109
Otros ejercicios ................................................................................................................................. 110
4
Respuestas ........................................................................................................................................ 126
Pasos en Infostat ............................................................................................................................... 130
Salida del software ............................................................................................................................ 131
Ejercicio 5.2 (PLS) .............................................................................................................................. 132
Consignas: ......................................................................................................................................... 133
Respuestas ........................................................................................................................................ 134
Pasos en Infostat ............................................................................................................................... 138
Otros ejercicios ................................................................................................................................. 143
5
¿Cómo incorporar la información espacial al análisis multivariado? ............................................... 182
Análisis espaciales a utilizar a posteriori del ACP (sobre las variables sintéticas) ............................ 184
Índice de autocorrelación espacial de Moran ................................................................................................... 184
Semivariogramas e interpolación de las CPs para construir mapas sintéticos de variabilidad ....................... 185
MULTISPATI-PCA: un método que incorpora la información espacial a priori del ACP.................... 188
INSTALACIÓN DEL MENÚ ESTADÍSTICA ESPACIAL EN INFOSTAT ...............................................................190
EJERCITACIÓN ........................................................................................................................................................................191
Ejercicio 7.1 ....................................................................................................................................... 191
Consignas: ......................................................................................................................................... 192
Respuestas ........................................................................................................................................ 193
Pasos en Infostat ............................................................................................................................... 195
Salida del software ............................................................................................................................ 196
Otros ejercicios ................................................................................................................................. 198
6
CAPÍTULO I
7
¿QUÉ ES EL ANÁLISIS MULTIVARIADO?
8
Para explicar que significa “análisis multivariado” se encuentran en la
literatura distintas definiciones. Kendall (1975) interpreta el análisis multivariable
como el conjunto de técnicas estadísticas que analizan simultáneamente más de dos
variables. Con esta definición, cualquier técnica estadística para el estudio de
asociaciones y relaciones puede considerarse una técnica de análisis multivariado.
Seber (1984) se refiere al análisis multivariable como aquel orientado al estudio de
vectores de variables aleatorias correlacionadas. Para Johnson y Wichern (1998) el
AM es una bolsa mixta que contiene métodos apropiados para investigaciones
científicas y tecnológicas donde los objetivos son uno o varios de los siguientes:
1. Reducción de dimensionalidad o simplificación estructural. El fenómeno en estudio
involucra numerosas variables, para facilitar su interpretación se desea representarlo
tan simple como sea posible sin sacrificar información valiosa.
2. Agrupamiento y Clasificación. Se desea crear, a partir de las características medidas,
grupos de objetos o variables “similares”. Alternativamente, se puede requerir el
establecimiento de reglas para clasificar objetos en grupos bien definidos.
3. Investigación de la dependencia entre variables. La naturaleza de la correlación
entre varias variables es de interés. Son todas las variables mutuamente
9
entre variables y el Análisis Multivariado de Varianza (MANOVA) para prueba de
hipótesis sobre vectores medios de distribuciones multivariadas.
Variable X1 X2 Xj Xp
Caso
1 X 11 X 12 ... X1 j ... X1 p
2 X 21 X 22 ... X2 j ... X2p
. . . ... . ... .
. . . ... . ... .
n X n1 X n2 ... X nj ... X np
Figura 1.1: Organización de datos multivariados
10
3
Altura
1 2 3
2 1 2 1
3 3 2
0
0 1 2 3
Peso
La distancia entre un par de puntos que representan casos en el espacio que tiene como ejes
a las variables indica la disimilitud entre los casos. A mayor distancia, menor parecido o
similitud multivariada entre los casos.
Para datos cuantitativos, una de las métricas de distancia más usada es la Euclidea. Por
ejemplo, en este espacio de dos dimensiones (Altura y Peso), la distancia (al cuadrado)
entre las observaciones 1 y 2, puede calcularse como la hipotenusa de un triángulo
rectángulo que tiene a estos dos puntos como vértices. Así la distancia bidimensional entre
la observación 1 y 2 será igual a la suma de dos catetos al cuadrado. Un cateto representa
cuán lejos están los puntos 1 y 2 en una dimensión de análisis (por ej., Peso) y el otro la
distancia en la segunda dimensión de análisis (Altura). En el ejemplo la distancia entre el
par de observaciones 1,2 es raíz cuadrada de 2.
Una importante propiedad de esta métrica de distancia es que puede generalizarse
fácilmente a espacios de mayor dimensión. En la dimensión p, la distancia Euclidea
comprende la suma de diferencias entre los puntos en p dimensiones.
Ejemplo: En el Archivo Proteinas.idb (abrirlo desde InfoStat) existen n=25 casos y p=9
variables. Se trata de los alimentos que actúan como Fuentes proteicas para distintos países
europeos (Manly, 2005). Decimos que la matriz de datos es 25×9.
Nuestro objetivo será explorar la variabilidad (similitudes y diferencias) entre los objetos
de estudio (países) mediante la observación conjunta del perfil de alimentación proteica de
cada país, es decir posicionando a cada país según el consumo de las 9 fuentes proteicas
simultáneamente. Podríamos dibujar una nube de puntos como la siguiente, que representa
a nuestros casos es el espacio de dos de las variables originales medidas.
11
18 Francia Inglaterra
15 Irlanda
Bélgica
Suiza
Carne Vacuna
12
Albania AlemaniaO
Rusia
9 Bulgaria Austria
AlemaniaE
6 Portugal Rumania
Hungría
3 Yugoslavia
0
0 1 3 4 5
Huevos
12
que todo análisis comience con un análisis descriptivo (gráficos y medidas resumen)
de cada una de las variables separadamente y prosiga con el análisis bivariado antes
del análisis multivariado.
Si X es una variable aleatoria con valores xi para i=1,..., n , la medida de tendencia
central más usada en estadística univariada es la media aritmética que si la variable
es cuantitativa informa sobre el centro de gravedad de los datos, mientras que si la
variable es binaria provee la frecuencia relativa del evento “éxito”. Como medida de
dispersión, la más frecuentemente usada es la desviación típica o desviación estándar,
que es función directa de la varianza. La varianza representa la media de los desvíos
cuadráticos de cada valor de la variable respecto a la media. La varianza muestral de
una variable X es,
n
S X2 c ( xi x )2
i 1
donde la constante c puede ser 1/n ó 1/(n-1) de acuerdo se trate del estimador
máximo verosímil o del estimador insesgado de la varianza poblacional. La desviación
estándar muestral para la misma variable es S X S X2 . Como ésta depende de las
unidades de medidas usadas, fundamentalmente cuando se quieren comparar la
dispersión de conjuntos de datos en distinta escala, se utiliza el coeficiente de
variación (desvío estándar/media)*100; esta es una medida que no depende de las
unidades de medida. Para estudiar la distribución de cada variable, los gráficos más
frecuentes son los histogramas y los gráficos de cajas si las variables son cuantitativas
y los gráficos de sectores si éstas son cualitativas.
Con dos variables Xj y Xk, el gráfico típico es el de dispersión a partir del cual es
posible indagar sobre la dependencia lineal entre ambas variables. Una media de la
dependencia lineal es la covarianza entre las variables (promedio, a través de las
observaciones, de los productos de los desvíos del valor de cada variable respecto a
su media). La covarianza entre dos variables mide cómo varían las dos variables
conjuntamente. La covarianza entre la j-ésima y k-ésima variable es:
n
S jk c ( xij x j )( xik xk ) para j,k=1,...,p
i l
Las covarianzas, al igual que las varianzas dependen de las unidades de medida y por
eso en lugar de covarianzas muchas veces se habla de correlación lineal entre las
13
variables (covarianza entre las variables, estandarizada por el desvío estándar de
cada variable). El coeficiente de correlación producto-momento de Pearson es una
medida de la magnitud de la asociación lineal entre dos variables que no depende de
las unidades de medida de las variables originales. Para las variables j-ésima y k-
ésima se define como,
n
( xij x j )( xik xk ) /(n 1)
rjk
S jk
i l
S 2j Sk2 n 2 n 2
( xij x j ) /(n 1) ( xik xk ) /(n 1)
i l i l
son reemplazados por yik cxik d donde a y c tienen el mismo signo, es decir el
14
S12 S12 ... S1 p
S S22 ... S 2 p
21
. . ... .
S
. . ... .
. . ... .
S p1 S p2 ... S p2
15
Matriz de gráficos de dispersión. Corresponde a la matriz pp de gráficos de
dispersión de todos los pares de variables en estudio (Figura 1.4). En la diagonal
principal pueden graficarse los histogramas, gráficos de cajas o simplemente
identificarse cada una de las p variables en orden. Se pueden introducir variables
clasificatorias o de agrupamiento en este tipo de gráficos a través de la selección de
colores y formas de símbolos en cada gráfico de dispersión. A continuación se
grafican las relaciones de a pares de las variables de un conjunto de datos sobre
biomasa, Ph, Zinc, Salinidad y Potasio registrados en un experimento fisiológico de
laboratorio diseñado para analizar relaciones entre la biomasa de plántulas y las
condiciones del medio de cultivo donde se desarrollan las mismas.
Biomasa
pH
Salinidad
Zinc
Potasio
Gráfico de estrellas. Los gráficos de estrellas (Chambers, et al., 1983) son útiles para
visualizar observaciones multivariadas. Una observación p-dimensional es
representada en el plano por una estrella construída sobre un círculo con p radios o
rayos igualmente espaciados que nacen desde el centro del círculo (Figura 1.5). La
longitud de la estrella sobre cada radio representa el valor de la variable asociada al
rayo. Observaciones estandarizadas ayudan a la interpretación simultánea. Para
eliminar valores negativos, se puede seleccionar como centro del círculo al valor más
pequeño y expresar a los otros en relación a esta. Otra técnica usada con el mismo fin
es el uso de la transformación rango. Las estrellas son usualmente presentadas en un
16
arreglo matricial. Los patrones dominantes permiten clasificar visualmente las
observaciones. A continuación se presenta el gráfico de estrella para la primera y
última observación del ejemplo anterior.
45
17
Figura 1.6: Caras de Chernoff (Johnson & Wichern,1998)
18
Titulo
122.3
94.4
Altura (cm)
66.4
38.5
10.6
D060 D120 D324 D498
D030 D090 D197 D434 D505
Biplots. Los gráficos de dispersión son usados para visualizar directamente las
observaciones o las variables, las relaciones en otra dimensión son sólo implícitas.
Los gráficos Biplots propuestos por Gabriel (1971,1981), muestran las observaciones
y las variables en el mismo gráfico, de forma tal que se pueden hacer interpretaciones
sobre las relaciones conjuntas. El prefijo "bi" en el nombre biplot refleja la
característica de que tanto observaciones como variables, son representadas en el
mismo gráfico.
En los Biplots, las observaciones son generalmente graficadas como puntos. La
configuración de los puntos es obtenida a partir de combinaciones lineales de las
variables originales. Las variables son graficadas como vectores desde el origen. Los
ángulos entre las variables representan la correlación entre las variables.
Las dimensiones seleccionadas para el biplot son aquellas que mejor explican la
variabilidad de los datos originales. Distintos análisis multivariados permiten
encontrar los ejes óptimos para la graficación de observaciones y variables en un
espacio común. Veremos aplicaciones de estos gráficos en Análisis de Componentes
Principales, en Análisis de Correlaciones Canónicas y en Análisis Discriminantes.
En los biplots la distancia entre símbolos representando observaciones y símbolos
representando variables no tiene interpretación, pero las direcciones de los símbolos
desde el origen si pueden ser interpretadas. Las observaciones (puntos filas) que se
grafican en una misma dirección que una variable (punto columna) podría tener
valores relativamente altos para esa variable y valores bajos en variables o puntos
19
columnas que se grafican en dirección opuesta. Dependiendo de las condiciones de
optimalidad especificadas, las distancias entre los puntos filas o entre los puntos
columnas pueden ser estadísticamente interpretadas, los ángulos entre los vectores
que representan las variables pueden ser interpretados en términos de las
correlaciones entre variables y las longitudes de los rayos pueden hacerse
proporcionales a las desviaciones estándar. Cuando las longitudes de los vectores son
similares el gráfico sugiere contribuciones similares de cada variable en la
representación realizada.
Gráficos de escalamiento multidimensional. La técnica de escalamiento
multidimensional explora las similitudes (o distancias) entre observaciones y permite
mostrarlas entre ellas de manera gráfica. Son útiles para mostrar distancias entre
datos para los cuales las medidas Euclídeas no son apropiadas o se desea, por alguna
otra razón, usar una medida de distancia alternativa (por ejemplo, una función de un
índice de asociación). El objetivo es mostrar las relaciones entre observaciones,
representadas por distancias o similitudes, en un plano tal que las distancias
verdaderas sean preservadas tanto como sea posible.
Ejemplo. Los datos originales corresponden a la matriz de distancias aéreas entre
ciudades de USA. Es importante notar que a pesar de representar los datos en dos
dimensiones, i.e. en el plano, la ubicación de los puntos en la gráfica reproduce su
posición relativa en un mapa físico (con el Sur en la parte superior de gráfico). Se
presentan los gráficos del EM métrico que luego será presentado mas detalladamente
como ACoorP (Figura 1.8)
20
Figura 1.8: Escalamiento Multidimensional Métrico
21
Ejemplo: una investigación involucró la identificación de 18 especies vegetales en un
gradiente de humedad de 10 niveles. La Figura 1.9 corresponde al gráfico BIPLOT de
este conjunto de datos y la Figura 1.10 a los árboles de recorrido mínimo para las
observaciones (arriba) y para las variables (abajo) (Moser, 1994). Los árboles
permiten ordenar las especies en relación a la salinidad y humedad decreciente de
izquierda a derecha.
22
Figura 1.10: Arboles de Mínimo Recorrido (Moser, 1994)
23
EJERCITACIÓN
24
CONSIGNAS
25
RESPUESTAS
1.1) Los individuos más diferentes entre sí son el 9 y el 79, con una distancia
morfológica de 11.59 entre ellos. El 9 es un P. flexuosa y el 79 un P. chilensis.
Nota: para encontrar más rápidamente la mayor distancia, conviene pedir los
resultados como un vector y luego ordenarlos de mayor a menor
Para ordenar los datos, una vez obtenida la tabla con las distancias en forma de
vector (una columna), ir a Datos>Ordenar
26
1.2) Los individuos más parecidos entre sí son el 25 y el 35, con una distancia
morfológica de 0.89 entre ellos. Ambos son P. flexuosa.
1.3) Hay 3240 distancias, es decir [(n*n)-n]/2, que dado que nuestro n es 81,
corresponden a [(81*81)-81]/2. La matriz de distancias tiene 81 filas y 81
columnas, por lo tanto, en la matriz aparecen 81*81 distancias (6561
distancias). Sin embargo la diagonal es de ceros ya que en la diagonal se ubican
las distancias de cada individuo consigo mismo. Esas distancias no aparecen
en el vector, por lo tanto se restan 6561-81= 6480. Además, en la matriz de
distancias puede observarse que los elementos por arriba de la diaginal son
iguales a los elementos por debajo, ya que la distancia entre el individuo i y el
individuo j, es igual a la distancia entre el individuo j y el individuo i, por lo
tanto, el número de distancias se reduce a la mitad, quedando 6480/2=3240.
1.4) En este caso es conveniente estandarizar los datos ya que las variables tienen
distintas medias y distintas varianzas.
27
2.1) Matriz de distancias entre especies (e híbridos):
Hibrido P. chilensis P. flexuosa
Hibrido 0 4.69 3.73
P. chilensis 4.69 0 6.49
P. flexuosa 3.73 6.49 0
PASOS EN INFOSTAT
28
29
CAPÍTULO II
30
TÉCNICAS DE ORDENAMIENTO Y REDUCCIÓN DE DIMENSIÓN
31
través del análisis o la explicación de la estructura de varianza-covarianza del
conjunto de variables en estudio.
El análisis de componentes principales es una técnica frecuentemente utilizada
para ordenar y representar datos multivariados continuos (o discretos ordinales) a
través de un conjunto de d=1,...,p combinaciones lineales ortogonales normalizadas de
las variables originales que explican la variabilidad existente en los datos de forma tal
que ningún otro conjunto de combinaciones lineales de igual cardinalidad (i.e. de
igual cantidad de variables sintéticas) tiene varianza de las combinaciones mayor a la
del conjunto de componentes principales. Usualmente d es mucho menor que p y por
ello la técnica implica una reducción de la dimensión y una consecuente facilitación
en la interpretación de los datos. No es necesario asumir ninguna estructura a priori
del análisis, la idea es encontrar combinaciones lineales de las variables originales
con ciertas propiedades de optimalidad (máxima varianza). Una combinación lineal
es una suma ponderada de las variables, es decir un índice que combina todas las
variables, dando a cada una de ellas un peso o ponderador. Así, la técnica incluye la
asignación de pesos diferenciales para las distintas variables con la finalidad de hacer
algunas de ellas más importantes en la descripción de la variabilidad subyacente
(información).
El ACP opera sobre la matriz de varianza-covarianza de los datos y preserva la
distancia Euclídea entre observaciones. Los datos podrían o no ser previamente
centrado y/o escalados dando lugar a distintos tipos de ACP. El ACP a partir de la
matriz de correlación de los datos (matriz de covarianza de las variables originales
centradas y escaladas) es útil cuando las unidades de medidas y/o las varianzas de las
variables son diferentes, de otro modo las variables con mayor varianza (no
necesariamente más informativas) tendrán demasiada influencia en la determinación
de la solución. Cuando las variables no tienen varianzas similares o no son medidas
sobre la misma escala (variables no conmensurables), es recomendable la obtención
de las componentes a partir de la matriz de correlación, es decir trabajar con los datos
estandarizados.
Las componentes principales obtenidas usando la matriz de correlación pueden ser
sustancialmente diferentes a las obtenidas usando la matriz de covarianza, en cada
caso habrá que juzgar que análisis es más conveniente.
32
El ACP para ordenar observaciones se basa en la descomposición espectral de , la
matriz pp de varianza-covarianza asociada con las p variables aleatorias estudiadas,
p
j e j e j ´ VDV '
j 1
Las variables sintéticas usan información contenida en cada una de las variables
originales, algunas variables pueden contribuir más a la combinación lineal que otras.
Los coeficientes de cada variable original en la componente son proporcionales al
coeficiente de correlación entre la componente y la variable. La varianza de la j-ésima
componente principal es Var (Yj ) e j ´e j j es decir que el j-ésimo autovalor es la
33
incrementarse indeterminadamente a través de la multiplicación del vector de
coeficientes de la combinación por alguna constante.
INTERPRETACIÓN GEOMÉTRICA
con Pr opd tan grande como sea posible para los datos analizados. (La varianza total en
la muestra será igual a p cuando se trabaje con variables previamente
estandarizadas).
Si bien el número de componentes principales posibles de construir es p, para
obtener una dimensión de reducción simplemente se selecciona un orden d menor a p
de combinaciones lineales que retiene una adecuada proporción de la varianza total
(digamos 70% o más) y se usan estas combinaciones como nuevas variables para
graficar y analizar los datos sin mayor pérdida de información.
El ACP no sólo puede realizarse sobre la matriz de covarianza de las p variables de un
conjunto de datos multivariados sino también sobre la matriz de covarianza de las n
observaciones a los fines de ordenar las variables en el espacio de las componentes
resultantes. El ACP para ordenar variables se basa en la descomposición espectral de
la matriz de varianzas-covarianza o de correlación de dimensión nn. Los gráficos
34
Biplots (descriptos más adelante) son utilizados para conectar estas dos análisis y
representar en un mismo espacio a los pesos de los elementos de las variables
sintéticas que combinan casos y de aquellas que combinan variables. Así en el BIPLOT
del ACP aparecerán en un mismo gráfico las observaciones (casos) y las variables del
análisis.
Para interpretar un Biplot obtenido a partir de un ACP se recomienda seguir los
siguientes pasos:
1. Observar el porcentaje de variabilidad total explicado por el Biplot. Si el Biplot
conformado por las CP1 y CP2 no explica más del 60% de la variabilidad total, juzgar
la necesidad de explorar los patrones de variabilidad en un segundo Biplot
conformado por las CP1 y CP3. Si son necesarios muchos Biplot para explicar un
porcentaje razonable de la variabilidad total, digamos mayor a 60-70%, habrá
indicios de que el ACP no es suficiente para representar confiablemente las relaciones
entre los casos y las variables (Arroyo et al., 2005).
2. Concentrarse en la CP1, que por construcción, siempre explicará el mayor
porcentaje de variabilidad total.
2.1 Analizar las proyecciones perpendiculares a la CP1 de los puntos que representan
los casos. Identificar los de mayor inercia, i.e. los puntos que se encuentran a mayor
distancia del cero, ya sea que se alejan hacia la derecha o hacia la izquierda.
Interpretar “similaridades/disimilaridades” entre casos en función de las
distancias entre proyecciones sobre la CP1.
2.2. Analizar las proyecciones de los puntos que representan las variables sobre la
CP1. Identificar las variables de mayor inercia.
Interpretar “correlaciones” entre variables según los ángulos de los vectores
que los representan. Ángulos agudos indican correlaciones positivas, ángulos obtusos
corresponden a correlaciones negativas y ángulos rectos indican que no hay
correlación entre las variables.
Nota: La longitud de los vectores correspondientes a las variables no son de interés
cuando los datos han sido previamente estandarizados. Si no se estandarizan los
datos, las longitudes de los vectores son proporcionales a las varianzas de las
variables.
2.3. Interpretar correlaciones entre casos y variables en función de la orientación,
pero no de la cercanía entre puntos filas y columnas, i.e. las variables orientadas hacia
35
la derecha tendrán altos valores en los casos orientados en la misma dirección y las
variables orientadas hacia la izquierda tendrán altos valores en los casos orientados
hacia la izquierda.
3. Concentrarse en la CP2 y realizar las interpretaciones siguiendo un procedimiento
análogo al realizado para la CP1 pero teniendo en cuenta que las variables en esta
dimensión son de menor importancia que los realizados sobre la CP1 según indican
los porcentajes de variabilidad total explicados por cada CP.
NORMALIDAD EN EL ACP
36
Para analizar asociación entre variables con componentes. Las correlaciones (o
loadings) entre las componentes principales y las variables originales vienen dada
por,
ekj j
r (Y j , X k )
k2
ILUSTRACIÓN
Como ejemplo usaremos una base de datos que contiene variables que corresponden
a los porcentajes de empleos en países Europeos en los siguiente 9 grupos
industriales: AGR=agricultura, MIN=minería, MAN=producción, PS=suministro
eléctrico, CON=construcción, SER=servicios, FIN=finanzas, SPS= servicio social y
personal, TC= transporte y comunicaciones.
A continuación se presenta el gráfico de dispersión correspondiente a las dos
primeras dimensiones del ACP realizado sobre la matriz pp de varianza y covarianza
asociada con el vector p-dimensional (p=9) de variables aleatorias estudiadas (Figura
2.1). El gráfico permite ordenar las observaciones y pone en evidencia que las
observaciones más diferentes en relación a estas tasa de empleo corresponden a los
países de Turquía, Yugoslavia, Grecia y Rumania. El porcentaje total de variación
explicada entre los dos ejes es muy alto (>90%) y desde el examen de la correlación
de las variables con el primer eje se hace evidente que la variable tasa de empleo en el
sector agrícola es la fuente de variación más importante en este eje. Sin embargo, es
importante notar que las varianzas de las distintas variables son muy diferente y por
tanto un ACP sobre la matriz de correlación debiera ser recomendado antes de
continuar con el análisis de la contribución relativa de cada variable sobre cada eje.
Trabajando con la matriz de correlaciones el análisis sugiere explorar también la
37
tercera componente. Si guardamos tres ejes, podríamos graficar dos diagramas de
dispersión uno de la CP1 y la CP2 y otro de la CP1 y la CP3. En este último,
observaremos solo el eje CP3 ya que la interpretación sobre la dispersión de los casos
sobre CP2 se realizó en el gráfico anterior.
7.0 7.0
CP 3 (12.2%)
3.5 3.5
MIN
MAN PS MAN
TC AGR
Turquia SER
0.0 CON 0.0
SPS CON AGR
SER Y ugoslav ia
SPS
TC Turquia
-3.5 FIN -3.5
-7.0 -7.0
-7.0 -3.5 0.0 3.5 7.0 -7.0 -3.5 0.0 3.5 7.0
CP 1 (38.5%) CP 1 (38.5%)
El biplot del ACP representa una forma útil de observar los resultados. El biplot de la
CP1 y CP2 de este ejemplo explica el 62% de la variabilidad total de los datos. La
primer CP, muestra que en paises como Yugoslavia, Turquía y Grecia, la principal
fuente de emplo proviene del sector agrícola, mientras que en países como Bélgica,
Inglaterra, Alemania y Países Bajos (puntos azules que se encuentran hacia la
izquierda del gráfico Biplot) la principal fuente de empleo son las Manufacturas
(MAN), Transporte y Comunicaciones (TC), Construcción (CON), Servicios (SER) y
Seguros (SPS). Actividades como Minería (MIN) y Finanzas (FIN) no tienen inercia
sobre la CP1, ya que la proyección sobre el eje x es muy próxima a cero. Sin embargo,
en la segunda CP, MIN y FIN permiten diferenciar las fuentes de laborales de Hungría,
Checoslovaquia y Alemania que proviene principalmente de la Minería y
Manufacturas de la fuente de empleo de países como Dinamarca, Suecia y Francia
donde predominan las finanzas.
Otro archivo de dato que utilizaremos como ilustración se llama
Proteínas.idb2, se encuentra disponible como datos de prueba en InfoStat y
corresponde a la composición proteica de dietas de 25 habitantes de países europeos
(filas del archivo) según los alimentos consumidos (Carne Vacuna, Carne de Cerdo,
Huevos, Leche, Pescado, Cereal, Embutidos, Frutos Secos y Frutas y Vegetales). El
archivo contiene 9 variables correspondientes a los alimentos consumidos y una
variable indicadora con los nombres de los países. En la Figura 2.2 se presenta el
38
gráfico Biplot de las observaciones que conforman la fila del archivo de datos, que en
este ejemplo corresponde a los países, como puntos azules y a las variables como
vectores que parten del centro del gráfico.
5.0
Pescado
Frutas yVegetales
2.5
Embutidos
CP 2 (18.2%)
FrutosSecos
0.0 Huevos
CarneVacuna
Leche
CarneCerdo Cereal
-2.5
-5.0
-5.0 -2.5 0.0 2.5 5.0
CP 1 (44.5%)
Figura 2.2. Gráfico Biplot del Análisis de Componentes Principales obtenido a partir
del archivo de datos Proteinas.idb2 con los datos estandarizados.
En la Figura 2.3 se muestran sólo las observaciones del archivo de datos a los fines de
simplificar la visualización. En este gráfico puede verse la dispersión de las
observaciones en un plano compuesto por un eje denominado Componente Principal
1 (CP1), abscisas o eje X y la Componente Principal 2 (CP2), eje de las ordenadas o Y.
Para comenzar a interpretar este gráfico es importante observar en primera instancia
en sentido Este-Oeste, y ver las proyecciones de las observaciones sobre la CP1. Se
puede observar que países como Yugoslavia, Rumania, Albania, Hungría, Grecia,
España y Portugal se encuentran hacia la derecha del gráfico, mientras que países
como Alemania O, Irlanda, Dinamarca y Francia se encuentran hacia la izquierda del
gráfico. A partir de la dispersión de las observaciones, podemos inferir que los países
que se encuentran hacia la derecha poseen una fuente de proteínas diferente a
aquellos países que se encuentran hacia la izquierda, pero no podemos inferir sobre
cuáles son los alimentos que causan estas diferencias. En el sentido Norte-Sur, sobre
la CP2, la proyección de Portugal y España se encuentra en contraposición a la
proyección de países como Albania, Bulgaria, Austria y Suiza.
39
Si analizamos la Figura 2.2, donde el gráfico Biplot permite visualizar
simultáneamente las observaciones y las variables del archivo de datos, se puede
observar que países que poseen una proyección hacia la derecha de la CP1, obtienen
su principal fuente de proteínas a partir de alimentos como Frutos Secos y Cereales,
mientras que los países que poseen su proyección hacia la izquierda de la CP1,
reciben su fuente proteica de alimentos cárnicos y sus derivados, como carne de vaca,
leche, huevo, carne de cerdo y embutidos.
5.0 Portugal
España
2.5
Grecia
CP 2 (18.2%)
Francia Noruega
Polonia
Dinamarca Italia
0.0 AlemaniaO Checosl
Irlanda Rumania Yugoslavia
Suiza Hungría
Austria
Bulgaria Albania
-2.5
-5.0
-5.0 -2.5 0.0 2.5 5.0
CP 1 (44.5%)
40
del autovalor indica el sentido, si es negativo la proyección de la variable será hacia la
izquierda de la CP1, mientras que si es positivo su proyección será hacia la derecha de
la CP1. Por ejemplo, las variables Cereal y Frutos Secos, poseen los coeficientes más
altos (0.44 y 0.42, respectivamente). Los vectores de esta variable, se encuentran
hacia la derecha del gráfico Biplot (Figura 2.2), la proyección de estas variables sobre
la CP1 se encuentran en el extremo derecho del eje y están cerca a las proyecciones
de países como Albania, Yugoslavia, Rumania, Portugal y España. De allí que podemos
inferir que estos países reciben su principal fuente proteica de los Cereales y Frutos
Secos.
Matriz de correlación/Coeficientes
CarneVacun CarneCerd Huevo Lech Pescad Cerea Embutido FrutosSeco Frutas
a o s e o l s s yVegetale
s
CarneVacun 1.00
a
CarneCerdo 0.15 1.00
Huevos 0.59 0.62 1.00
Leche 0.50 0.28 0.58 1.00
Pescado 0.06 -0.23 0.07 0.14 1.00
Cereal -0.50 -0.41 -0.71 -0.59 -0.52 1.00
Embutidos 0.14 0.31 0.45 0.22 0.40 -0.53 1.00
FrutosSecos -0.35 -0.63 -0.56 -0.62 -0.15 0.65 -0.47 1.00
41
Frutas -0.07 -0.06 -0.05 -0.41 0.27 0.05 0.08 0.37 1.00
yVegetales
Cuando las variables están medidas en distinta escala o poseen diferente magnitud, se
recomienda Estandarizar los Datos. Para Estandarizar los Datos, InfoStat a cada valor
observado le resta la media de la variable y lo divide por el desvío estándar de la
misma. Así, cada uno de los valores es escalado por la varianza. Cuando la opción
Estandarizar Datos no es seleccionada, el ACP se realiza sobre la matriz de Varianzas
y Co-Varianzas y no sobre la matriz de Correlación. Las variables con mayor varianza,
presentaron mayor peso o coeficiente (autovector). Por ejemplo, si a partir del menú
Estadística Medias Resumenes, solicitamos la media y la varianza muestral para
cada variable, aquella que presenta la mayor varianza respecto al resto de las
variables es la variable Cereal con una valor de 120, seguida por Leche (50.5), luego
están Carne de Cerdo, Carne Vacuna y Pescado con valores entre 11 y 13.6, Frutos
Secos, Frutos y Vegetales, Embutidos y Huevos (Tabla 2.2).
Tabla 1.2. Media, Desvío Estándar y Varianza de cada una de las variables del archivo
Proteinas.idb2
Medidas resumen
Variable Media D.E. Var(n-1) CV Mín Máx
CarneVacuna 9.83 3.35 11.20 34.06 4.40 18.00
CarneCerdo 7.90 3.69 13.65 46.78 1.40 14.00
Huevos 2.94 1.12 1.25 38.07 0.50 4.70
Leche 17.11 7.11 50.49 41.52 4.90 33.70
Pescado 4.28 3.40 11.58 79.42 0.20 14.20
Cereal 32.25 10.97 120.45 34.03 18.60 56.70
Embutidos 4.28 1.63 2.67 38.22 0.60 6.50
FrutosSecos 3.07 1.99 3.94 64.64 0.70 7.80
Frutas yVegetales 4.14 1.80 3.25 43.61 1.40 7.90
42
1 155.23 0.71 0.71
2 30.70 0.14 0.85
3 15.64 0.07 0.92
4 8.32 0.04 0.96
5 3.63 0.02 0.98
6 2.43 0.01 0.99
7 1.56 0.01 1.00
8 0.71 3.3E-03 1.00
9 0.25 1.2E-03 1.00
Autovectores
Variables e1 e2
CarneVacuna -0.15 0.13
CarneCerdo -0.13 0.04
Huevos -0.07 0.02
Leche -0.43 0.83
Pescado -0.13 -0.29
Cereal 0.86 0.41
Embutidos -0.07 -0.08
FrutosSecos 0.11 -0.07
Frutas yVegetales 0.02 -0.17
Matriz de covarianzas/Coeficientes
CarneVacuna CarneCerdo Huevos Leche Pescado Cereal Embutidos FrutosSecos Frutas
yVegetales
CarneVacuna 11.20
CarneCerdo 1.89 13.65
Huevos 2.19 2.56 1.25
Leche 11.96 7.39 4.57 50.49
Pescado 0.69 -2.94 0.25 3.33 11.58
Cereal -18.36 -16.78 -8.74 - -19.58 120.45
46.22
Embutidos 0.74 1.89 0.83 2.58 2.25 -9.56 2.67
FrutosSecos -2.32 -4.66 -1.24 -8.76 -0.99 14.19 -1.54 3.94
Frutas -0.45 -0.41 -0.09 -5.23 1.63 0.92 0.25 1.34 3.25
yVegetales
29.0
Leche
14.5 Cereal
CP 2 (14.1%)
CarneVacuna
CarneCerdo
0.0 Huevos
FrutosSecos
Embutidos
Frutas yVegetales
Pescado
-14.5
-29.0
-29.0 -14.5 0.0 14.5 29.0
CP 1 (71.1%)
Figura 2.4. Gráfico Biplot del Análisis de Componentes Principales obtenido a partir de
la matriz de covarianzas sobre el archivo de datos Proteinas.idb2.
43
EJERCITACIÓN
44
CONSIGNAS
2) ¿Es conveniente realizar el ACP sobre los datos estandarizados o no? ¿Por qué?
3) Grafique los resultados del ACP en un biplot identificando los 3 grupos (P.
chilensis, P. flexuosa e híbridos) con distintos colores.
3.1- ¿Es posible diferenciar los tres grupos en el espacio definido por las dos
primeras CP?
3.2- ¿Qué eje (CP1 o CP2) permite diferenciar mejor a los grupos?
3.3- ¿Qué conclusiones puede inferir respecto a la caracterización
morfológica de los híbridos?
3.4- Las variables LF, AFOL, AR y LPI están relacionadas al tamaño de los
foliólulos, mayores valores de estas variables indican foliólulos más
grandes. Según puede observarse en el biplot, ¿qué especie tiene
foliólulos más grandes, P. chilensis o P. flexuosa? Justifique.
3.5- Observando el biplot indique si los siguientes pares de variables están
correlacionadas o no, y en caso afirmativo, de qué manera (positiva o
negativamente): NFO y AR, APT y LPI, LPE y DIFOL, API y NPI.
45
RESPUESTAS
Autovalores
Lambda Valor Proporción Prop Acum
1 7.02 0.54 0.54
2 1.21 0.09 0.63
3 1.19 0.09 0.72
4 0.94 0.07 0.80
5 0.86 0.07 0.86
6 0.61 0.05 0.91
7 0.38 0.03 0.94
8 0.32 0.02 0.96
9 0.27 0.02 0.98
10 0.14 0.01 1.00
11 0.03 2.5E-03 1.00
12 0.03 2.2E-03 1.00
13 4.3E-03 3.3E-04 1.00
46
2
3) El biplot resultante es: Mo05.218
9
1 NFO
CP2g (13.7%)
6
Mo13.232
NPI Mo09.209
0 3
CP2m (9.3%)
AFOL
APT LPI
0
G_AFR AR
-1
-3 API LF
LPE
DIFOL
-6Mo05.216
FAL
-2
-2 -9
-1 0 1 2
-9 -6 -3 0 3 6 9
CP1g (16.7%)
CP1m (54.0%)
Nota: el formato del gráfico puede ser modificado mediante la ventana Herramientas
Graficas de Infostat. En este caso se quitaron los decimales en los ejes, se agregó una
cuadrícula y se cambió el lugar del nombre de las variables para una mejor
visualización. Para ver como se puede colorear cada grupo diferencialmente, leer más
debajo de este documento, en la parte de “Pasos en el Infostat”.
3.1- Sí, en el Biplot puede observarse que con las primeras componentes es posible
diferenciar a los individuos clasificados como P. flexuosa, P. chilensis e Híbridos.
3.2- El eje que mejor permite diferenciar a los tres grupos es el CP1 ya que los
individuos de P. flexuosa presentan valores menores en el CP1, los híbridos valores
intermedios y P. chilensis los mayores valores.
3.3- Los híbridos presentan valores intermedios del CP1 entre flexuosa y chilensis.
Este eje explica el mayor porcentaje de variabilidad fenotípica observada (54%),
indicando que, como es de esperarse, los híbridos presentan características
intermedias entre ambos parentales.
3.4- Los individuos de P. chilensis presentan foliólulos más grandes dado que los
individuos de P. chilensis presentan mayores valores de CP1 y las variables LF, AFOL,
AR y LPI están asociadas positivamente a dicho eje.
3.5- NFO y AR no se encuentran correlacionadas ya que el ángulo entre los vectores
que representan a dichas variables es de aproximadamente 90°. Tanto APT y LPI
como API y NPI están negativamente correlacionadas (altos valores de una indican
bajos valores de la otra), dado que el ángulo entre ambas es cercano a 180°.
Finalmente LPE y DIFOL están positivamente correlacionadas, ya que el ángulo entre
ambas es cercano a 0°
47
4) En particular, las variables NFO, FAL, NPI y DIFOL son variables bien
representadas en la CP2. Altos valores de CP2 están asociados un número alto
de foliólulos (NFO) y de pares de pinnas (NPI) y bajos valores de falcado (FAL)
y de distancia entre foliólulos en la pinna (DIFOL).
Nota: Para ver el valor de CP1 y CP2 de cada observación, cuando se pide el ACP se
debe activar la casilla Guardar los ejes. Luego, en la planilla de datos se agregan
dos columnas, correspondientes al CP1 y el CP2.
48
PASOS EN INFOSTAT
49
Para que los individuos de los tres grupos aparezcan con distinto color en el biplot, ir
a la pestaña particiones y poner “clasificación” en color:
Finalmente;
50
SALIDA DEL SOFTWARE
Datos estandarizados
Casos leidos 81
Casos omitidos 0
Variables de clasificación
Caso
Autovalores
Lambda Valor Proporción Prop Acum
1 7.02 0.54 0.54
2 1.21 0.09 0.63
3 1.19 0.09 0.72
4 0.94 0.07 0.80
5 0.86 0.07 0.86
6 0.61 0.05 0.91
7 0.38 0.03 0.94
8 0.32 0.02 0.96
9 0.27 0.02 0.98
10 0.14 0.01 1.00
11 0.03 2.5E-03 1.00
12 0.03 2.2E-03 1.00
13 4.3E-03 3.3E-04 1.00
Autovectores
Variables e1 e2
LF 0.36 -0.14
AR 0.34 -0.17
FAL -0.01 -0.48
LPE 0.16 -0.26
APT -0.30 0.02
API -0.23 -0.18
NPI 0.24 0.32
LPI 0.34 0.03
NFO 0.19 0.58
AFOL 0.36 0.01
DIFOL 0.28 -0.38
L_AF 0.31 -0.07
G_AFR -0.27 -0.15
51
OTROS EJERCICIOS
Ejercicio 2.2
Ejercicio 2.3
El archivo Proteinas.ibd (se puede encontrar en datos de prueba de Infostat) contiene
los porcentajes en que fuentes de proteína participan de la dieta promedio de los
habitantes de 25 países europeos.
3.1 Discuta si corresponde utilizar la matriz de covarianzas o correlación para el
análisis de componentes principales de estos datos.
3.2 ¿Es posible reducir la dimensionalidad del espacio original?
3.3 Observando el Biplot discuta como los países se agrupan y en función de que
hábitos alimentarios.
Ejercicio 2.4
Los datos en Procedencias.idb (se puede encontrar en datos de prueba de Infostat)
corresponden a 144 unidades experimentales conformadas por 6 algarrobos. Los
datos reportados son promedios de los 6 árboles y corresponden a la altura de planta
a los 30, 60, 90, 120, 197, 324, 434 y 498 días desde la siembra a campo (Datos: Ing. G.
Versino).
4.1 Utilizando las variables 030D...550D derive los componentes principales,
descomponiendo la matriz de correlación y agrupando los datos según procedencia.
4.2 ¿Cuántos ejes principales pueden derivarse para este ejemplo?
4.3 ¿Qué proporción de la varianza total explica cada uno de los ejes derivados?
4.4 ¿Cuántos ejes pueden ser apropiados para representar estas observaciones?
4.5 ¿Qué interpretación puede hacer de cada eje? Interprételo utilizando el Biplot.
y tenga en cuenta que entre los días 197 y 324 ocurrió una fuerte helada (mire los
perfiles multivariados).
52
CAPÍTULO III
ESCALAMIENTO MULTIDIMENSIONAL
MÉTRICO Y ANÁLISIS DE
CORRESPONDENCIAS
53
ESCALAMIENTO MULTIDIMENSIONAL MÉTRICO
54
observaciones proveyendo información útil para la posterior modelación de
asociaciones entre las muestras y otras variables, como por ejemplo colorear o
resaltar de manera diferente objetos de distintos grupos o niveles de un factor de
clasificación.
Q EDE
Los autovalores, elementos de la diagonal de D , expresan la variabilidad de los
datos explicada por cada dimensión. Como los autovalores se ordenan en forma
decreciente, los dos primeros ejes (coordenadas principales) explican la mayor
cantidad de variación en Q que puede representarse en un espacio bidimensional.
56
Figura 3.1. Ordenamiento de 36 poblaciones a partir de 5 marcadores del
ADN (Cavallis Sforza, 1966) (arriba) y ordenamiento de 1387 individuos
con 197146 marcadores binarios del ADN (Novembre, 2008) (abajo)
DISTANCIAS Y SIMILITUDES
Dado que las diferencias entre las observaciones generan variación, el análisis de las
distancias (similitudes) contenida en la matriz de datos provee información útil para
la ordenación. Esta variabilidad puede ser capturada por matrices nn, donde n es el
número de observaciones, cuyos elementos representan las distancias entre cada par
de observaciones o bien por matrices pp, donde p es el número de variables. En este
57
último caso, la matriz de distancias será usada para el ordenamiento de las columnas
de la matriz de datos, es decir el ordenamiento de las variables. No obstante, lo mas
común es el ordenamientos de los casos, es decir de las filas (observaciones) de la
tabla de datos.
Para ordenar las observaciones es necesario una escala que represente similitudes
y/o distancia entre pares de ellas, más un criterio de utilización de dicha escala para
producir la ordenación. Para datos binarios pueden usarse distintas medidas de
similitud para indicar cuán similares son dos observaciones multidimensionales.
Luego, estas son transformadas en distancias. Para datos de naturaleza continua,
generalmente se usan distancias producidas por diferentes órdenes de la métrica de
Minkowski, la de orden 2 corresponde a la ya presentada distancia Euclidea. En la
Tabla 3.1 se presentan algunas medidas de distancia y medidas de similitud
comúnmente utilizadas para ordenamiento.
Métrica Expresión
m
1. City Block o Manhattan dij xik x jk
(Minkowsi con r=1) k 1
1 m
2. Manhattan promedio dij
m k 1
xik x jk
12
3. Euclidea m
dij xik x jk
2
x ik x jk
6. Bray-Curtis dij k 1
x x jk
m
ik
k 1
1 m
xik x jk
dij m k 1
7. Bray-Curtis promedio m
(Canberra)
xik x jk
k 1
58
n
( xij x j )( xik xk ) /(n 1)
S jk i l
8. Correlación de Pearson
n 2 n 2
( xij x j ) /(n 1) ( xik xk ) /(n 1)
i l i l
n 1
n 2
R( xij ) R( xik ) n
2
9. Correlación de Spearman S jk i 1
n n 1 n
2
n 1
2
R( xij ) n R( xik ) 2 n
2
i l 2 i l 2
59
variables que valen 1 en ambos casos, i.e. a la copresencia. En la Tabla 3.2 se
presentan algunos de índices de similitud.
1. Emparejamiento [0,1]
a d a b c d
Simple
[0,1]
a a b a a c
6. Sokal&Sneath_2 0.25
d d b d d c
7. Jaccard a a b c [0,1]
[0,1]
8. Ochiai a a b a c
9.Kulczynski
0.5 a a c a a b [0,1]
11 Dice 2a 2a b c [0,1]
a.d [0,1]
13. Sokal&Sneath_3
a b . a c . d b . d c
14.Emparejemiento [0,1]
a a b c d
Positivo
60
16. Yule&Kendall a.d b.c a.d b.c [-1, 1]
Nota: a, b, c, y d frecuencias absolutas para eventos (1,1), (1,0), (0,1) y (0,0) respectivamente, en la
siguiente tabla de composición de dos muestras a través de n=a+b+c+d marcadores.
Muestra 2
1 0
Muestra 1 A b
1
0 C d
5. dij 2 1 Sij [0,1] [0, 2]
6. dij 1 Sij 1 2 [1,1] [0,1]
Las expresiones dij deben cumplir al menos las siguientes propiedades para ser
consideradas como medidas de distancia entre el par de observaciones (i,j), éstas son:
(i) dij > 0 si ij, (ii) dii = 0 y (iii) dij = dji. Además, existen propiedades que de cumplirse
61
permiten identificar las distancias como métricas. Las métricas cumplen las 3
propiedades mencionadas y además la desigualdad triangular, i.e., dij dik dkj . Las
W ijc Sijc
Sij c 1
p
W
K 1
ijc
donde:
xic x jc
Sijc 1
rc
62
ser menor a la verdadera distancia multidimensional entre dos elementos debido a
deformaciones ocurridas en la proyección. La técnica conocida como Árbol de
Recorrido Mínimo (ARM) puede ayudar a mejorar las interpretaciones ya que
permite identificar este tipo de deformaciones (Arroyo et al., 2005)
Un ARM se construye como una colección de segmentos de línea recta que conectan
puntos de una ordenación gráfica sin formar circuitos cerrados. Cada punto está
conectado con el resto de manera directa o indirecta a través del conjunto de
segmentos. El ARM es generado conectando los puntos de manera tal que la suma de
las longitudes de los segmentos entre puntos sea mínima. Un ARM puede calcularse a
partir de la matriz de distancia de las observaciones multivariadas en el espacio m-
dimensional en el que viven o a partir de las matrices de distancia en espacios de
menor dimensión. Cuando puntos m-dimensionales, con m>2, son conectados en el
plano en función de su distancia en el espacio original, el ARM puede proveer
información sobre similitudes de las observaciones en dimensiones no directamente
representadas en el plano. Por ejemplo, algunos puntos que se encuentran muy cerca
en el espacio bidimensional podrían estar, en su espacio original, más lejos de lo que
aparentan en el plano. Los ARM conceptualmente se ligan al algoritmo de
conglomerado conocido como encadenamiento simple y en ese sentido son usados no
solo para representación gráfica de las interdistancias entre puntos, sino también
para formar conglomerados de éstos.
ILUSTRACIÓN
63
diferencias en la naturaleza de las variables. Con los marcadores morfológicos, se
calculó, previa estandarización, una matriz de distancias Euclídeas entre materiales
que fue usada como entrada del análisis de coordenadas principales. Si selecciona la
opción de guardar los ejes, las coordenadas principales serán agregadas como nuevas
columnas en el archivo de datos.
Tabla 3.4. Perfil morfológico para cinco tipos de Moniliophthora roreri (Cif)
Tabla 3.5. Perfil molecular para cinco tipos de Moniliophthora roreri (Cif)
Bolivar 1 1 1 0
Co-Central 1 1 0 1
Co-East 0 1 0 0
Co-West 1 1 1 1
Gileri 1 0 0 1
64
Figura 3.2. Menú ESTADÍSTICA. Comando Análisis Multivariado, opción Análisis de
Coordenadas Principales (EMD). La métrica de distancia seleccionada es Euclídea.
Euclidea
Bolivar Co-Central Co-East Co-West Gileri
Bolivar 0,00
Co-Central 2,85 0,00
Co-East 1,39 2,69 0,00
Co-West 3,19 1,78 2,98 0,00
Gileri 3,30 3,70 2,17 3,34 0,00
Distancia: (Euclidea)
Autovalores
Lambda Valor Proporción Prop Acum
1 8,84 0,55 0,55
2 5,66 0,35 0,91
3 1,35 0,08 0,99
4 0,15 0,01 1,00
PCO(1) PCO(2)
0,50 1,60
-1,62 0,12
0,95 0,56
-1,50 -0,84
1,68 -1,43
2
Bolivar
1
Co-East
CP 2 (35,4%)
Co-Central
Co-West
-1
Gileri
-2
-2 -1 0 1 2
CP 1 (55,2%)
65
Figura 3.3. Diagramas de dispersión a partir de las coordenadas principales (CP1 y
CP2) obtenidas utilizando distancias Euclídeas entre cinco grupos genéticos de
Moniliophthora roreri a partir de cuatro marcadores morfológicos de naturaleza
continua.
Luego se realizó un ACoorP sobre los datos binarios provenientes de los marcadores
Dice (sqrt(1-S))
Bolivar Co-Central Co-East Co-West Gileri
Bolivar 0,000
Co-Central 0,577 0,000
Co-East 0,707 0,707 0,000
Co-West 0,378 0,378 0,775 0,000
Gileri 0,775 0,447 1,000 0,577 0,000
Autovalores
Lambda Valor Proporción Prop Acum
66
1 0,537 0,617 0,617
2 0,245 0,281 0,898
3 0,063 0,072 0,970
4 0,026 0,030 1,000
0,6
Bolivar
0,0
Gileri
Co-East
Co-Central
-0,3
-0,6
-0,60 -0,30 0,00 0,30 0,60
CP 1 (61,7%)
Figura 3.5. Diagrama de dispersión a partir de las coordenadas principales (CP1 y CP2)
obtenidas utilizando distancias de Dice entre cinco grupos genéticos de Moniliophthora
roreri a partir de cuatro marcadores moleculares de naturaleza binaria. Se superpone el
ARM (Árbol de Recorrido Mínimo).
Interpretación
Un 89,8% de la variabilidad total en marcadores morfológicos es explicado por el
gráfico construido con los dos primeros ejes del ACoorP. A nivel morfológico Gileri,
Co-East y Bolivar se separan de Co-Central y Co-West. La CP2 indicó que Bolivar y Co-
East son diferentes a Gileri. A nivel molecular, también se explicó en el plano de
análisis el mismo porcentaje de la variación total. Co-Central y Co-West vuelven a
separarse de Bolivar y Co-East aunque, desde la dimensión molecular, Gileri es más
parecido (se encuentra más cercano) a Co-Central que desde lo morfológico.
67
ANÁLISIS DE CORRESPONDENCIA SIMPLE Y MÚLTIPLE
68
multidimensionales se denomina Análisis de Correspondencia Múltiple (ACM). Para
este último enfoque se utilizan las conocidas tablas “BURT” que contienen los niveles
o modalidades de cada variable categorizada tanto en las filas como en las columnas
de la tabla y por tanto contienen todas las clasificaciones cruzadas a dos vías de las
variables originales.
El algoritmo del AC en cualquiera de los casos parte de una tabla de contingencia IJ
de proporciones respecto al gran total, P. Las sumas de proporciones filas y columnas
es,
r P1 y c P´1
de los puntos filas y columnas como desviaciones desde los centroides filas y
columnas respectivamente.
Realizando la descomposición por valor singular de Q , Q ADu B , se extraen los ejes
69
F Dr1/ 2 ADu y G Dc1/ 2 BDu
70
el uso de “curvas principales” a través de la técnica LOWESS de suavizado (aplicada
con respecto a cada dimensión del AC) para estimar el valor promedio de cada punto
sobre la curva.
ILUSTRACIÓN
0.2 Soltero-hijo
0.1
Japones
American
Eje 2
Casado
0.0
Soltero Casado-hijo
-0.1
Europeo
-0.2
-0.2 -0.1 0.0 0.1 0.2
Eje 1
71
Grande
1.6
Soltero-hijo
American
0.8
Ingreso1
Casado-hijo Familiar
Trabajo Hombre Alquila
Medio
Eje 2
Soltero
0.0
Dueño
Mujer
Japones
Ingreso2 Sport
Chico
-0.8 Europeo
Casado
-1.6
-1.2 -0.6 0.0 0.6 1.2
Eje 1
El ACM sugiere dependencia entre las modalidades soltero, alquila casa, un ingreso,
auto chico, sport las cuales se oponen al perfil caracterizado por las modalidades
casado con hijo, dueño de vivienda, 2 ingresos, auto grande, familiar, americano. En el
segundo eje se podría interpretar una diferenciación de este último grupo, por un
lado los de autos grandes americanos, casados con hijos y por otro las mujeres
casadas sin hijos con autos medianos, mas frecuentemente Europeos.
EJERCITACIÓN
EJERCICIO 1 (EMD)
72
segunda columna indica la población a la que pertenece, la tercera indica la región y el
resto de las columnas corresponden a marcadores genéticos del tipo AFLP. Estas
variables son del tipo binario, conteniendo 0 y 1, los cuales indican la
ausencia/presencia de cada marcador genético.
CONSIGNAS
1.1) ¿Cuánta variabilidad explica el plano formado por los dos primeros ejes? ¿Le
parece un porcentaje de la variabilidad total aceptable? ¿Por qué?
1.2) ¿Cuál es el número mínimo de ejes para explicar al menos un 50% de la
variabilidad genética observada?
1.3) Realice un gráfico de dispersión con los dos primeros ejes obtenidos donde se
observen los individuos coloreados según la región a la que pertenecen y
responder:
73
1.3.1) ¿Se observan diferencias genéticas entre los árboles pertenecientes a
distintas regiones?
1.3.2) ¿Qué eje/s elegiría para diferenciar las tres regiones?
1.3.3) ¿Los árboles de la región 3 son genéticamente más similares a los árboles
de la región 1 o a los árboles de la región 2? Justifique
1.3.4) Observe los árboles de las regiones 2 y 3, ¿en cuál región hay mayor
variabilidad genética?
1.4) Realice el mismo análisis pero esta vez a nivel de poblaciones, ¿cuánta
variabilidad explican los dos primeros ejes?
1.5) Realice un gráfico de dispersión con los dos primeros ejes obtenidos donde se
observen las poblaciones coloreadas según la región a la que pertenecen y
responda:
1.5.1) ¿Se observan diferencias genéticas entre las poblaciones pertenecientes
a distintas regiones?
1.5.2) Identifique la población de la región 2 que es genéticamente más similar
a las poblaciones de la región 1 que a las poblaciones de la región 2. Si observa el
gráfico realizado previamente a nivel de individuos, ¿podría identificar a los
individuos de ésta población?
RESPUESTAS
1.1 ) El plano formado por los dos primeros ejes explica un 11.6% de la
variabilidad total (8.1% del CP1 + 3.5% del CP2). Si bien este porcentaje no es
muy alto, cuando se trabaja con tantas variables (en nuestro caso, 244), poder
sintetizar un 11.6% de la variabilidad con dos variables resulta muy útil.
Cuantas más variables haya, más difícil será resumir la variabilidad total (salvo
que las variables estén muy correlacionadas entre sí).
74
1.2 ) El número mínimo de ejes para explicar al menos un 50% de la variabilidad
genética observada es 25.
Autovalores
Lambda Valor Proporción Prop Acum
1 1.692 0.081 0.081
2 0.739 0.035 0.116
3 0.647 0.031 0.147
4 0.555 0.027 0.174
5 0.495 0.024 0.198
6 0.439 0.021 0.219
7 0.411 0.020 0.238
8 0.402 0.019 0.258
9 0.379 0.018 0.276
10 0.374 0.018 0.294
11 0.352 0.017 0.310
12 0.345 0.017 0.327
13 0.328 0.016 0.343
14 0.322 0.015 0.358
15 0.317 0.015 0.373
16 0.313 0.015 0.388
17 0.304 0.015 0.403
18 0.289 0.014 0.417
19 0.288 0.014 0.430
20 0.281 0.013 0.444
21 0.276 0.013 0.457
22 0.265 0.013 0.470
23 0.262 0.013 0.482
24 0.254 0.012 0.494
25 0.246 0.012 0.506
26 0.243 0.012 0.518
27 0.235 0.011 0.529
28 0.230 0.011 0.540
75
EMD a nivel de individuos
Distancia: (Dice (sqrt(1-S)))
0.19
0.10
CP 2 (3.5%) 0.00
-0.10
-0.19
-0.19 -0.10 0.00 0.10 0.19
CP 1 (8.1%)
Nota: el formato del gráfico puede ser modificado mediante la ventana Herramientas
Gráficas de Infostat. En este caso se modificaron las escalas de los ejes de manera de
usar la misma escala para ambos. Tanto en los biplot como en estos gráficos, es
deseable utilizar la misma escala en ambos ejes, ya que de esta manera se puede
apreciar la variabilidad explicada por los mismos, sin distorsionar los resultados. Si
un eje explica menor variabilidad y se usa una escala mayor, a primera vista parecerá
que explica mayor o igual variabilidad que el otro eje, distorsionando los resultados.
Además se agregó una cuadrícula y se cambió el título y el nombre de las leyendas.
Para ver como se puede colorear cada grupo diferencialmente, leer más debajo de
este documento, en la parte de “Pasos en el Infostat”.
1.3.1) Sí, en el gráfico pueden observarse los tres grupos, lo cual indica que existen
diferencias genéticas entre los árboles de las tres regiones. Sin embargo hay un grupo
de árboles pertenecientes a la región 2 que no se diferencian de los árboles de la
región
1.3.2) Para diferenciar las tres regiones es necesario utilizar ambos ejes ya que la
región 1 puede diferenciarse de las otras dos sólo con el eje 1, pero para diferenciar
las regiones 2 y 3, es necesario el eje 2.
76
1.3.3) Los árboles de la región 3 son genéticamente más similares a los árboles de la
región 2 ya que se encuentran más cercanos en el gráfico y sólo se los puede
diferenciar por la CP2, que sólo explica un 3.5 % de la variabiliadd. A nivel de la CP1,
que explica un 8.1% de la variabilidad, no se los puede diferenciar.
1.3.4) La región 2 presenta mayor variabilidad genética ya que los individuos se
encuentran más dispersos en el gráfico, especialmente a nivel de la CP1.
0.16
CP 2 (10.5%)
0.00
-0.16
-0.32
-0.32 -0.16 0.00 0.16 0.32
CP 1 (24.2%)
1.5.1) Sí, es posible diferenciar a las tres regiones. Las poblaciones de la región 1
presentan valores mayores del CP1, a diferencia de la región 3, cuyas poblaciones
presentan los menores valores del CP1. Asímismo, la región 3 se diferencia de la
región 2 por presentar valores menores en la CP2.
77
1.5.2) La población de la región 2 que es genéticamente más similar a las poblaciones
de la región 1 es la población B (para saber cuál es debe hacer click sobre el punto en
el gráfico o seleccionar las series en la ventana de herramientas gráficas y hacer click
con el botón derecho, identificadores, visibles). En el gráfico realizado previamente a
nivel de individuos, es posible identificar a los individuos de ésta población ya que
también se observan individuos de la región 2 entre los individuos de la región 1.
PASOS EN INFOSTAT
78
Para que los individuos de los tres grupos aparezcan con distinto color en el gráfico, ir
a la pestaña particiones y poner “región” en color:
79
SALIDA DEL SOFTWARE
Autovalores
Lambda Valor Proporción Prop Acum
1 1.69 0.08 0.08
2 0.74 0.04 0.12
3 0.65 0.03 0.15
4 0.55 0.03 0.17
5 0.50 0.02 0.20
6 0.44 0.02 0.22
7 0.41 0.02 0.24
8 0.40 0.02 0.26
9 0.38 0.02 0.28
10 0.37 0.02 0.29
11 0.35 0.02 0.31
12 0.35 0.02 0.33
13 0.33 0.02 0.34
14 0.32 0.02 0.36
15 0.32 0.02 0.37
16 0.31 0.01 0.39
17 0.30 0.01 0.40
18 0.29 0.01 0.42
19 0.29 0.01 0.43
20 0.28 0.01 0.44
21 0.28 0.01 0.46
22 0.26 0.01 0.47
23 0.26 0.01 0.48
24 0.25 0.01 0.49
25 0.25 0.01 0.51
26 0.24 0.01 0.52
27 0.23 0.01 0.53
28 0.23 0.01 0.54
29 0.23 0.01 0.55
30 0.22 0.01 0.56
31 0.22 0.01 0.57
32 0.21 0.01 0.58
33 0.21 0.01 0.59
34 0.20 0.01 0.60
35 0.20 0.01 0.61
36 0.19 0.01 0.62
37 0.19 0.01 0.63
38 0.18 0.01 0.64
39 0.18 0.01 0.65
40 0.17 0.01 0.66
41 0.17 0.01 0.66
42 0.16 0.01 0.67
43 0.16 0.01 0.68
44 0.16 0.01 0.69
45 0.16 0.01 0.69
46 0.15 0.01 0.70
47 0.15 0.01 0.71
48 0.15 0.01 0.72
49 0.15 0.01 0.72
50 0.14 0.01 0.73
51 0.14 0.01 0.74
80
52 0.14 0.01 0.74
53 0.13 0.01 0.75
54 0.13 0.01 0.76
55 0.13 0.01 0.76
56 0.13 0.01 0.77
57 0.12 0.01 0.77
58 0.12 0.01 0.78
59 0.12 0.01 0.78
60 0.12 0.01 0.79
61 0.11 0.01 0.80
62 0.11 0.01 0.80
63 0.11 0.01 0.81
64 0.11 0.01 0.81
65 0.10 4.8E-03 0.82
66 0.10 4.7E-03 0.82
67 0.09 4.5E-03 0.83
68 0.09 4.5E-03 0.83
69 0.09 4.4E-03 0.83
70 0.09 4.3E-03 0.84
71 0.09 4.2E-03 0.84
72 0.09 4.1E-03 0.85
73 0.09 4.1E-03 0.85
74 0.08 4.0E-03 0.85
75 0.08 3.9E-03 0.86
76 0.08 3.9E-03 0.86
77 0.08 3.8E-03 0.87
78 0.08 3.8E-03 0.87
79 0.08 3.6E-03 0.87
80 0.07 3.4E-03 0.88
81 0.07 3.4E-03 0.88
82 0.07 3.3E-03 0.88
83 0.07 3.3E-03 0.89
84 0.07 3.2E-03 0.89
85 0.06 3.1E-03 0.89
86 0.06 3.0E-03 0.90
87 0.06 2.9E-03 0.90
88 0.06 2.9E-03 0.90
89 0.06 2.7E-03 0.91
90 0.06 2.7E-03 0.91
91 0.06 2.7E-03 0.91
92 0.05 2.6E-03 0.91
93 0.05 2.5E-03 0.92
94 0.05 2.5E-03 0.92
95 0.05 2.4E-03 0.92
96 0.05 2.3E-03 0.92
97 0.05 2.3E-03 0.93
98 0.05 2.3E-03 0.93
99 0.05 2.2E-03 0.93
100 0.05 2.2E-03 0.93
101 0.04 2.1E-03 0.93
102 0.04 2.0E-03 0.94
103 0.04 2.0E-03 0.94
104 0.04 1.9E-03 0.94
105 0.04 1.9E-03 0.94
106 0.04 1.9E-03 0.94
107 0.04 1.8E-03 0.95
108 0.04 1.8E-03 0.95
109 0.04 1.7E-03 0.95
110 0.04 1.7E-03 0.95
111 0.03 1.7E-03 0.95
112 0.03 1.6E-03 0.95
81
113 0.03 1.6E-03 0.96
114 0.03 1.5E-03 0.96
115 0.03 1.4E-03 0.96
116 0.03 1.4E-03 0.96
117 0.03 1.4E-03 0.96
118 0.03 1.4E-03 0.96
119 0.03 1.3E-03 0.96
120 0.03 1.3E-03 0.97
121 0.03 1.2E-03 0.97
122 0.03 1.2E-03 0.97
123 0.02 1.2E-03 0.97
124 0.02 1.1E-03 0.97
125 0.02 1.1E-03 0.97
126 0.02 1.1E-03 0.97
127 0.02 1.0E-03 0.97
128 0.02 1.0E-03 0.97
129 0.02 1.0E-03 0.98
130 0.02 9.9E-04 0.98
131 0.02 9.4E-04 0.98
132 0.02 9.3E-04 0.98
133 0.02 8.9E-04 0.98
134 0.02 8.7E-04 0.98
135 0.02 8.5E-04 0.98
207 Autovalores no mostrados
Variables:
edad = joven (Jov) menores de 30 años, mediana (Med) entre 30 y 50 años, mayor
(May) mayores de 50 años.
82
ocupac= ocupación; empleado/a (O-Emp), desocupado/a (O-Des), jubilado/a (O-Jub),
profesional (O-Pro), subempleado/a(O-Sub), ama de casa (O-Ama), indepediente (O-
Ind).
motivo= motivo de consulta; C-Far (uso de fármacos), C-Sus (uso de sustancias que
generan adición), C-Der (derivados de otros consultorios), C-Des (deseos de dejar de
beber), C-Alc (consumo de alcohol), C-EsA(estado de ánimo), C-Vio (violencia
familiar), C-Fis (síntomas físicos).
CONSIGNAS
2.3) Realice un gráfico donde se visualicen las dos dimensiones del AC simple de
la tabla decontingencia correspondiente al cruce de las variables “edad” y
“motivo de consulta” y observando el mismo responda:
2.3.1) ¿Hay diferencias respecto a los motivos de consulta de las personas
jóvenes, de edades medias y mayores?
2.3.2) ¿Por qué motivos consultaban mayoritariamente los pacientes
jóvenes (menores de 30 años)?
2.3.3) ¿Y las personas mayores?
83
RESPUESTAS
2.1)
2.1.1) Como se observa en la tabla de frecuencia absolutas, sólo 1 persona
menor de 30 años (Jov) consultó por Consumo de Fármacos.
2.1.2) Como se observa en la tabla de frecuencia absolutas 27 personas
consultaron por consumo de alcohol (19 de edad media, 6 mayores y 2
jóvenes)
2.1.3) Como se observa en la tabla de frecuencias relativas por columna (si en
la columnas se encuentra la variable motivo y en las filas la edad), del
total de personas que consultaron por consumo de alcohol, el 22%
corresponde a mayores de 50 años.
2.1.4) Como se observa en la tabla de frecuencia absolutas, en el estudio
participaron 70 pacientes de entre 30 y 50 años (Med).
2.1.5) Como se observa en la tabla de frecuencias relativas por fila (si en la
columnas se encuentra la variable motivo y en las filas la edad), del
total de pacientes mayores a 50 años que participaron del estudio, un
13% fueron derivados de otros consultorios?
2.3)
1.50
C-Fis
0.75
May C-Sus
C-Vio Jov.
C-Des
Eje 2
0.00 C-EsA
C-Alc
C-Der
Med.
C-Far
-0.75
-1.50
-1.50 -0.75 0.00 0.75 1.50
Eje 1
EDAD MOTIVO
84
Figura ejercicio 2.3: Biplot obtenido al realizar el AC simple de las variables “motivo
de consulta” y “edad”.
3.1) Sí, el gráfico sugiere que hay una asociación entre edad y motivo de consulta. Los
tres puntos correspondientes a las edades caen en distintos cuadraantes y lejos del
centro, asociados a diferentes motivos de consulta.
3.3) El gráfico sugiere que los mayores de 50 años consultaban por deseos de dejar
de beber (C-Des) y por síntomas físicos (C-Fis).
PASOS EN INFOSTAT
85
Para contestar algunas preguntas es necesario pedir la tabla de frecuencias absolutas
y los perfiles filas y columnas
86
SALIDA DEL SOFTWARE
Análisis de correspondencias
Frecuencias absolutas
En columnas:MOTIVO
En filas: EDAD
Coordenadas fila
Eje 1 Eje 2
Med. -0.05 -0.20
May -0.50 0.40
Jov. 1.03 0.27
87
OTROS EJERCICIOS
Ejercicio 3.3
Ejercicio 3.4
Realice un EMD sobre la matriz de distancias euclídeas de las variables
morfológicas de archivo CAVILA_prosopis.IDB2.
4.1) ¿Cuánta variabilidad explican los tres primeros ejes obtenidos? Compare con
la variabilidad explicada por los tres primeros ejes obtenidos de un ACP.
4.2) Grafique los resultados del EMD en un gráfico de dispersión identificando los 3
grupos (P. chilensis, P. flexuosa e híbridos) con distintos colores.
¿Es posible diferenciar los tres grupos en el espacio definido por las dos
primeros ejes? ¿Qué eje permite diferenciar mejor a los grupos? ¿Es posible
observar asociaciones entre los grupos y las variables? Discuta las similitudes
y diferencias con el biplot obtenido en el ejercicio 1 de la clase 2 (ACP).
88
CAPÍTULO IV
ANÁLISIS DE CONGLOMERADOS
89
ANÁLISIS DE CONGLOMERADOS
CONGLOMERADOS JERÁRQUICOS
90
clúster formado según el cálculo de distancia (entre observaciones individuales o
entre clústeres). Una característica de los métodos jerárquicos es que una vez que un
objeto es colocado en un conglomerado, su ubicación no cambia, es decir, en el
próximo agrupamiento no se lo vuelve a asignar a ningún grupo.
Dentro de los algoritmos de clasificación jerárquicos, se encuentra un gran número de
métodos, como el método del vecino más cercano (encadenamiento simple o simple
linkage), el método UPGMA (unweigthed pair-group arithmetic average method o
encadenamiento promedio) o el método de Ward.
Para entender cuál es la diferencia entre éstos métodos, veamos cómo funcionan
algunos de ellos. En el método de encadenamiento simple, primero se unen los dos
elementos más cercanos (menor distancia) y luego para decidir si otro elemento se
une a este grupo, se calcula la distancia entre el elemento y el clúster como el mínimo
de las distancias entre el elemento y cada componente del clúster. En cualquier etapa
del proceso en la cual es necesario evaluar la distancia entre dos clústeres (para
unirlos o no), la distancia entre clústeres se calcula en función de la distancia entre los
dos miembros más cercanos (la distancia mínima); la distancia entre dos grupos es la
distancia entre sus puntos más próximos (Vecino más cercano o nearest neighbor).
Por el contrario en el algoritmo denominado encadenamiento promedio, la distancia
entre clústeres se calcula como el promedio de las distancias entre un elemento de un
clúster y un elemento del otro clúster. El agrupamiento entre conglomerados se
realiza en función de la distancia promedio entre todos los pares de individuos de
cada grupo.
Estas formas diferentes de calcular la distancia entre clústeres durante el proceso de
aglomeración es la que marca las diferencias entre un algoritmo de clúster jerárquico
y otro. En el manual de InfoStat (Balzarini et al., 2008) se describen distintas
alternativas.
Todos los métodos jerárquicos que generan como output un dendrograma donde la
longitud de las ramas que conectan las entidades en análisis indica la magnitud de las
distancias entre ellas y lo van construyendo de forma jerárquica. En los pasos
sucesivos agrupa objetos cercanos entre sí y los une al conglomerado más cercano, de
esta manera forma un tercer conglomerado que incluye a ambos grupos. El proceso
91
de conglomeración continua hasta que se forma un solo conglomerado que integra a
todos los objetos.
El dendrograma es una representación o diagrama de los datos en forma de árbol
(Dendro hace referencia a árbol) que organiza los datos en subcategorías que se van
dividiendo hasta llegar al nodo siguiente, simbolizando las ramas de un árbol que se
van dividiendo sucesivamente.
555
337
67
75
521
517
522
336
507
240
202
156
70
41
0 2 4 6 8 10 12 14
Distancia
92
en el dendrograma mejor reflejan las distancias verdaderas (o evaluadas entre todos
los caracteres medidos) entre los objetos que se clasifican.
La determinación del número de grupos en el caso de estos métodos es una cuestión
controversial. Existen muchas propuestas, pero ninguna que podamos decir que es “la
forma” de determinar el número de clúster. Una propuesta es, por ejemplo, posicionar
una línea de corte a un valor de distancia del 75% del rango de distancias observadas.
La cantidad de cruces de las líneas que forman clústeres con la línea de corte, sería un
número de clústeres recomendado. El estadístico GAP y otros estadísticos como
Pseudo F, orientados a evaluar la variabilidad entre clústeres respecto a la
variabilidad dentro de clúster, suelen ser usados. Un buen número de clústeres es
aquel donde las distancias entre grupos son mayores que las distancias dentro de
grupos. Nunca debe olvidarse que el análisis de conglomerados es en una técnica
descriptiva y exploratoria y los resultados deben reportarse como tal. Distintos
agrupamientos pueden ser posibles para el mismo conjunto de datos.
CONGLOMERADO NO JERÁRQUICO
Otros métodos usados para clasificación no supervisada son los métodos no-
jerárquicos, como K-means, donde la clasificación de entidades depende de la relación
entre sumas de cuadrados entre y dentro de un número determinado de grupos, que
se hipotetiza a priori. En el método k-means el usuario decide formar k grupos o
conglomerados y el algoritmo evaluara múltiples particiones de los objetos en k
grupos tal que la distancia entre grupos sea máxima y dentro de grupos sea mínima.
La técnica fue diseñada para agrupar items dentro de una colección de k
conglomerados. El número de k grupos debe ser especificado “a priori” por el
investigador o ser determinada como parte de un procedimiento de agrupamiento.
Estos métodos utilizan la matriz de datos originales para construir el agrupamiento.
Comienza realizando una partición inicial de los individuos dentro de k grupos. Inicia
con un grupo de puntos semillas o centroides que forman el núcleo del clúster. La
asignación de ítems o individuos a los grupos se realiza mediante procesos que
optimicen el criterio de selección: disminución de la suma de cuadrados o varianza
dentro de grupos.
93
En el caso de conglomerados no jerárquicos, es común resumir el proceso de
conglomeración con un gráfico indicando la reducción en la función objetivo
(disminución de la variabilidad dentro de los grupos), en relación al número de
conglomerados (desde dos hasta el número indicado por el usuario). El número
recomendado de grupos es aquel que se asocia con una caída mayor de la función
respecto al número inmediato anterior.
Siempre que se realice un análisis de conglomerados sería bueno acompañar el
resultado que expresa qué objetos pertenecen a uno u otro conglomerado con una
tabla descriptiva conteniendo medidas resumen que muestren el valor de las
variables en cada conglomerado. De ésta manera señalar dónde están las mayores
diferencias entre conglomerados. Los gráficos de estrellas o de “tela de araña” como
se denominan en otros software son útiles para mostrar diferencias entre clústeres.
Podría mostrarse una estrella por conglomerado donde cada rayo de la estrella
represente una variable.
Procedimiento
En el Menú ESTADÍSTICA, comando Análisis Multivariado, InfoStat permite
implementar distintos procesos para agrupar objetos descriptos por un conjunto de
valores de varias variables. Los objetos generalmente representan las filas de la tabla
de datos. Ocasionalmente, estos procedimientos son usados para agrupar variables en
lugar de observaciones (es decir conglomerar columnas en lugar de filas). La ventana
“selector de variables” permite seleccionar las variables del archivo que se usarán en
el análisis e indicar una o más variables como criterio de clasificación con el objetivo
de resumir varios registros en un único caso. Al presionar el botón Aceptar aparece
otra ventana llamada Análisis de conglomerados la cual tiene tres solapas:
Jerárquicos, No jerárquicos y Medidas resumen. Cuando hay varios registros por
objeto a agrupar (por ej. Varias repeticiones de un tratamiento en un estudio
experimental) es posible indicar un criterio de clasificación de registros (por ejemplo,
tratamiento) y en la solapa Medidas de resumen, InfoStat permitirá escoger la medida
resumen usada para obtener el perfil que represente al objeto a agrupar, la medida
resumen más usada es la media.
En la solapa Jerárquicos y No jerárquicos, se puede elegir el tipo de método de
conglomeración usado. En el caso de los jerárquicos también debe seleccionarse el
94
tipo de distancia a utilizar. Para la selección de un métrica de distancia es importante
recordar la clasificación de las mismas según la naturaleza del dato. Por ejemplo, para
datos continuos se recomienda una distancia del tipo de Minkowski (Manhattan,
Euclidea, etc). Para datos binarios, la selección de un índice de similitud (S) como
emparejamiento simple, emparejamiento positivos, Jaccard, Dice y luego la
conversión del mismo a distancia utilizando una función como 1-S o raíz(1-S). Para
variables ordinales, la selección de una medida de similitud basada en coeficientes de
correlación. Para el caso de tener mezcla de tipos de variables, por ejemplo
cuantitativas y binarias, la distancia de Gower es recomendada.
ILUSTRACIÓN
95
Figura 4.2. Menú GENÉTICA. Comando Clasificación. Análisis de Conglomerados.
96
Análisis de conglomerados
Dice (sqrt(1-S))
A B C D E F G H
A 0,00
B 0,53 0,00
C 0,58 0,30 0,00
D 0,64 0,62 0,53 0,00
E 0,58 0,30 0,41 0,65 0,00
F 0,71 0,71 0,73 0,76 0,64 0,00
G 0,73 0,73 0,76 0,71 0,76 0,40 0,00
H 0,73 0,73 0,76 0,71 0,76 0,51 0,35 0,00
Matriz de distancias ultramétricas
A B C D E F G H
A 0,00
B 0,56 0,00
C 0,56 0,35 0,00
D 0,61 0,61 0,61 0,00
E 0,56 0,30 0,35 0,61 0,00
F 0,73 0,73 0,73 0,73 0,73 0,00
G 0,73 0,73 0,73 0,73 0,73 0,46 0,00
H 0,73 0,73 0,73 0,73 0,73 0,46 0,35 0,00
97
Interpretación
EJERCITACIÓN
Ejercicio 4.1
Base de datos: Clase4_CAVILA.IDB2
Descripción de los datos: La base contiene datos de lluvias anuales
Córdoba, Laboulaye, Marcos Juárez, Pilar, Río Cuarto, Villa Dolores y Villa María de
Rosario, Sauce Viejo y Venado Tuerto) y 3 en la provincia de Entre Ríos (en las
1980 y 2009. Los datos son gentileza de la Ing. Leticia Vicario (Vicario L., García C.M.,
98
región central de la Argentina”. Tecnologías y Ciencias del Agua. (2015) VI(1): 153-
167).
CONSIGNAS
5) Realice un gráfico de perfiles multivariados del tipo dot plot para los tres
grupos formados. ¿Se pueden observar diferencias entre grupos? Describa
dichas diferencias. Observando el dendrograma ¿qué grupos esperaría que
tengan un comportamiento más similar entre sí? ¿Estos dos grupos tienen un
comportamiento más similar entre sí en el diagrama de perfiles multivariados?
99
6) Realice un ACP e identifique en el biplot los tres grupos formados según el
Análisis de Conglomerados. Interprete.
RESPUESTAS
100
Promedio (Average linkage) Promedio (Average linkage)
Distancia: (Euclidea) Distancia: (Euclidea)
12 12
13 13
10 10
9 9
7 7
11 11
8 8
3 3
5 5
2 2
6 6
4 4
1 1
0.00 423.32 846.65 1269.97 1693.30 0.00 424.77 849.55 1274.32 1699.10
1. 2.
12
12
13
13
10
9 10
7 9
11 7
8
11
3
8
5
3
2
6 5
4 2
1 6
101
3) El análisis de conglomerados identificó los siguientes tres grupos: el grupo 1
está conformado por las estaciones de Río Cuarto, Laboulaye, Venado Tuerto,
Marco Juárez, el Trébol y Ceres; el grupo 2 por las estaciones de Villa María de
Río Seco, Pilar y Córdoba y por último, el grupo 3, conformado por las
estaciones de Sauce Viejo, Rosario, Paraná y Gualeguaychú. En la figura B se
puede observar una distancia de corte a la cual se separan los tres grupos,
1230.
SAUCE VIEJO
ROSARIO
PARANÁ
GUALEGUAYCHU
V.M.de R.S.
PILAR
CÓRDOBA
RÍO CUARTO
LABOULAYE
VENADO T.
M. JUAREZ
EL TRÉBOL
CERES
102
Herramientas gráficas y hacer click con el botón derecho del mouse en el nombre
de cada conglomerado, Conectores, Relleno/Color. Para que aparezca la línea que
indica la distancia de corte ir a Eje X y poner la distancia que se desee en “línea de
corte”.
103
4) La precipitación media del año 2009 en el grupo 1 (conformado por las
estaciones de Río Cuarto, Laboulaye, Venado Tuerto, Marco Juárez, el Trébol y
Ceres) es de 876.93, en el grupo 2 (conformado por las estaciones de Villa
María de Río Seco, Pilar y Córdoba) fue de 561.27 y en el grupo 3 (conformado
por las estaciones de Sauce Viejo, Rosario, Paraná y Gualeguaychú) de
1348.82.
Nota: para calcular medidas resumen para cada grupo, como por ejemplo la media,
primero es necesario guardar la clasificación lograda en el análisis de
conglomerados. Esto genera una nueva columna eb el archivo original que se llama
Conglomerado. Luego se debe ir a Estadísticas, Medidas resumen y elegir como
variable el año 2009 y como criterio de clasificación la nueva variable llamada
conglomerado.
1600
Grupo 1
Grupo 2
Grupo 3
1325
Precipitacion anual
1050
775
500
1980
1981
1982
1983
1984
1985
1986
1987
1988
1989
1990
1991
1992
1993
1994
1995
1996
1997
1998
1999
2000
2001
2002
2003
2004
2005
2006
2007
2008
2009
Año
Nota: Para pedir un gráfico de perfiles multivariados hay que ir a Gráficos, Diagrama
de Perfiles multivariados y en variables elegir las precipitaciones de todos los años) y
en perfiles la variable que se guardó del análisis de conglomerados: “Conglomerado”.
El formato del gráfico puede ser modificado mediante la ventana Herramientas
Graficas de Infostat. En este caso se quitaron los decimales en los ejes, se agregó una
cuadrícula y se cambió el formato de los números en el eje x. También se cambio el
grosor y el color de los conectores.
105
6) En la Figura D puede apreciarse el ordenamiento de las estaciones
pluviométricas en el plano definido por las dos primeras componentes
principales obtenidas del ACP realizado sobre los datos de lluvia anual entre
1980 y 2009. Los distintos colores corresponden a estaciones que pertenecen
a distintos conglomerados. Los dos primeros ejes obtenidos mediante el
análisis de componentes principales explican un 67,7% de la variabilidad
observada entre estaciones respecto a las medias pluviométricas anuales,
siendo el primer eje (CP1) el más importante para visualizar variabilidad entre
observaciones ya que explica un 53.8 % de la variabilidad total. Este eje está
asociado a mayores valores de precipitaciones medias anuales, en particular
de los años 2002 y 2009. Es decir, altos valores de CP1 indican mayores
precipitaciones anuales durante el período de estudio, en particular en los
años 2009, 2007 y 2000. Como se aprecia también en los análisis anteriores,
las estaciones del grupo 3 presentan valores más altos del CP1, indicando
condiciones de mayor humedad en dicha región, particularmente en los años
entre 2000 y 2009.
106
1500
1992
750
2003
2002
CP 2 (13.9%)
0 2000
2007
2009
-750
-1500
-1500 -750 0 750 1500
CP 1 (53.8%)
Grupo 1 Grupo 2
Grupo 3 Biplot(1,2) - Variables
6.
Figura D: Biplot resultante del ACP realizado sobre los datos de lluvia anual entre
1980 y 2009 de 13 estaciones pluviométricas de la región central de Argentina. Los
distintos colores corresponden a estaciones pertenecientes a distintos grupos
obtenidos mediante un Análisis de conglomerados.
107
PASOS EN INFOSTAT
108
Seleccionamos el método Average Linkeage, la distancia Euclídea y recuerden que en
este caso NO ESTANDARIZAMOS los datos. Elegir el núemro de conglomerados que
quieren y clickear en guardar clasificación.
Análisis de conglomerados
109
OTROS EJERCICIOS
Ejercicio 4.2
Los datos del archivo Ganado (se encuentra en datos de prueba de Infostat) contienen
datos sobre cabezas de ganado en los distintos departamentos de La Rioja.
a. Utilizando análisis de conglomerados no jerárquico, distancia Euclídea entre
objetos y estandarización de las variables, construya 2, 3, 4, 5, 6, 7, 8 y 9
conglomerados.
b. En la salida de esta corrida va a encontrar (entre otras cosas) un gráfico que
muestra una cantidad que mide heterogeneidad dentro de grupos vs el número de
conglomerados elegido. Interprete este gráfico y decida cual es un número
razonable de conglomerados para estas observaciones.
c. Una vez que tenga el número de conglomerados seleccionado, repita el cálculo para
ese número y guarde los identificadores de conglomerados (guardar clasificación).
d. Con el objeto para interpretar más fácilmente las características que asemejan y
diferencias los grupos conformados, realice un diagrama de perfiles multivariados
para las cabezas de ganado, clasificadas por conglomerados.
e. Una representación gráfica puede obtenerse mediante un análisis de conglomerados
jerárquico. Realice un análisis de conglomerados jerárquico (por el método de
encadenamiento promedio), utilizando nuevamente la distancia Euclídea y la
estandarización de variables y disponiendo asimismo que se identifique la misma
cantidad de conglomerados que en el punto ‘b’.
f. ¿Cómo reportaría estos resultados?
Ejercicio 4.3:
A veces interesa saber cómo se relacionan las variables entre sí. Es decir, qué
variables se parecen y que grupos forman cuanto se considera su correlación a lo
largo de los individuos u objetos. Realice un análisis de conglomerado jerárquico para
las variables (columnas) del ejercicio anterior y comente sus conclusiones. ¿Qué
medida de distancia utilizaría en este caso?
110
Ejercicio 4.4:
El archivo Mamíferos (se encuentra en datos de prueba de Infostat) contiene el
número de dientes según sean incisivos, colmillos, premolares y molares y según su
ubicación en el maxilar superior e inferior para distintos mamíferos. Construya un
dendrograma que refleje las relaciones de similitud entre mamíferos utilizando, como
medida de distancia entre ellos, la distancia Euclídea y como método de aglomeración
los siguientes:
a. Encadenamiento completo (complete linkage)
b. Encadenamiento promedio (average linkage)
c. Encadenamiento simple (single linkage)
111
CAPÍTULO V
112
ANÁLISIS DE CORRELACIONES CANÓNICAS
113
donde R 2 es el coeficiente de determinación de la regresión múltiple.
Si y es un vector de p variables , x es un vector de q variables y l1´y y l2 ´x son dos
combinaciones lineales, la correlación canónica entre dichas combinaciones es ,
Cov(l1´y, l2´x)
rl1´ y ,l2 ´ x corr (l1´y, l2´x)
Var (l1´y )Var (l2´x)
12 y
11 la matriz de varianzas covarianza del vector particionado y sea
21 22 x
u l1´y y v l2´x , luego se tienen que:
Var (u) l1´11l1
Var (v) l2´22l2
Cov(u, v) l1´12l2 y
l1´12l2
Corr (u, v)
l1´11l1 l2 ´22l2
Las correlaciones canónicas (al cuadrado) ordenadas de mayor a menor son los
1/ 2
autovalores (ordenados de mayor a menor) de la matriz 11 122212111
1/ 2
y los
vectores de coeficientes de las combinaciones lineales relacionadas a y , i.e. vectores
1/ 2
l1 , son obtenidos a partir de los autovectores de esa matriz, haciendo l1´ e1´11 . Los
114
Q ( R111R12 )( R22
1
R21 ) , donde Rij i,j=1,2 representan particiones de la matriz de
115
rotaciones de los ejes de representación que facilitan la interpretación de dichas
combinaciones.
InfoStat adiciona automáticamente a la tabla de datos los valores que asumen cada
una de las variables canónicas (score de cada observación sobre cada combinación
lineal definiendo una variable canónica). Las correlaciones entre las variables
originales y las variables canónicas pueden solicitarse desde el menú ANÁLISIS DE
CORRELACIÓN.
El ACC asume correlación del tipo lineal, otras correlaciones pueden pasar
desapercibidas y/o distorsionar el análisis.
La incorporación y eliminación de variables puede modificar sustancialmente el
análisis, al igual que la presencia de puntos influyentes. Técnicas de diagnóstico
comunes en el análisis de regresión pueden ser utilizadas para la identificación de
puntos influyentes.
No se requiere normalidad para obtener una correlación canónica, a menos que se
pretendan obtener errores estándares y pruebas de hipótesis para las correlaciones.
InfoStat produce automáticamente una serie de pruebas de hipótesis que establecen
que cada correlación canónica y todas las menores son cero en la población. La
prueba implementada usa la aproximación usual basada en el estadístico Chi
cuadrado, es importante que al menos uno de los dos conjuntos tenga una
distribución aproximadamente normal para que los niveles de probabilidad sean
válidos. En la salida se podrán observar, para cada una de las correlaciones canónicas
factibles de calcular, el coeficiente de correlación canónica (R), la proporción de la
varianza total explicada por cada par de variables canónicas (R2), el estadístico
(lambda), para probar la hipótesis de que dicha correlación y todas las menores son
iguales a cero en la población, los grados de libertad (gl) y los niveles de probabilidad
asociados a dicha prueba (valor p).
Para realizar un ACC en InfoStat, en Variables de la ventana Correlaciones canónicas
se deben señalar las variables que conforman el primer grupo (variables en el grupo 1
o variables dependientes) y las que conforman el segundo grupo (variables en el
grupo 2 o variables independientes). Cuando se Acepta, aparece otra ventana en la
cual se puede elegir utilizar las Variables en su escala original (usa matriz de
covarianzas) o Variables estandarizadas (usa matriz de correlación).
116
ILUSTRACIÓN
Matriz de correlación
Literatura Historia Lengua Matematica Fisica Contabilidad
Literatura 1.000 0.597 0.853 0.870 0.127 0.865
Historia 0.597 1.000 0.778 0.768 0.226 0.566
Lengua 0.853 0.778 1.000 0.982 0.166 0.760
Matemática 0.870 0.768 0.982 1.000 0.134 0.738
Física 0.127 0.226 0.166 0.134 1.000 0.347
Contabilidad 0.865 0.566 0.760 0.738 0.347 1.000
Correlaciones canónicas
L(1) L(2) L(3)
R 0.990 0.601 0.148
R² 0.980 0.361 0.022
Lambda 68.246 7.297 0.344
gl 9.000 4.000 1.000
p-valor 0.000 0.121 0.558
117
Literatura 0.271 1.879 -0.470
Historia 0.036 -0.066 -1.624
Lengua 0.731 -1.687 1.692
Matemática 0.845 1.223 0.261
Física -0.018 0.478 -0.976
Contabilidad 0.202 -1.578 -0.118
118
REGRESIÓN POR MÍNIMOS CUADRADOS PARCIALES
PLS (del inglés, Partial Least Squares) es un método estadístico multivariado que
permite relacionar dos matrices de datos, una que se supone como matriz de
variables dependientes y otro conformada por variables regresoras o predictoras
que se suponen pueden explicar a las dependientes o respuesta.
Tiene por objetivo descubrir y reportar la naturaleza de las relaciones de variables
predictoras con una o varias variables respuesta (i.e., una matriz de variables
respuestas). El método PLS permite describir Y a partir de X y su estructura de
variación común.
Es una técnica que generaliza y combina el ACP y el análisis de Regresión Lineal. Es
particularmente útil cuando se desea predecir un conjunto de variables dependientes
(Y) desde un conjunto relativamente grande de variables predictoras (X)
correlacionadas o multicolineales.
El análisis suele usarse en contextos donde el número de casos (n) es menor al
número de variables predictoras (p); situación donde la regresión por mínimos
cuadrados parciales (Ordinary Least Squares, OLS) no podría ser usada, aun siendo
que la variable respuesta fuese una única. Solo cuando hay más observaciones que
variables predictoras y no existe problema de multicolinealidad, la predicción de Y en
función de X puede realizarse eficientemente con un análisis de regresión lineal
múltiple.
PLS se usa cuando existe correlación entre las variables predictoras y/o existen más
predictoras que observaciones. El problema de la estimación en estos casos podría
resolverse combinando linealmente las predictoras con un ACP y luego
regresionando Y con un número reducido de CP. Pero hay que recordar que las CP
explican variación en X y nada nos dicen sobre la relación de Y con X. Por el contrario
la técnica PLS busca una solución óptima o de compromiso entre el objetivo de
explicar la máxima variación en X y encontrar las correlaciones de éstas con Y.
Para implementar una regresión PLS es necesario disponer de I observaciones o
casos descriptos por m variables dependientes (matriz de variables Y) y además n
predictores colectados sobre estos I casos en una matriz de datos I×n (matriz de
variables X).
119
ÁLGEBRA DEL ANÁLISIS
REPRESENTACIÓN GRÁFICA
Los resultados de PLS, son presentados a través de un “tri-plot”. Nos referimos a tri-
plot cuando se dispone de un gráfico biplot sobre el que además se grafican
covariables para explicar la asociación entre los marcadores filas y columnas de la
matriz Y, representados en el biplot. Así las tres dimensiones del análisis, es decir los l
casos, las m variables respuestas y las n variables predictoras medidas sobre los
mismos casos, serán representadas en un mismo plot.
ILUSTRACIÓN
120
variables, las variaciones debidas a la interacción tratamiento-ambiente. En el archivo
PLS se implementara la técnica para explicar la interacción Genotipo-Ambiente (en la
Campaña 01_02) de un ensayo de soja donde se evaluaron 3 genotipos en 7
ambientes. Las variables predictoras fueron las siguientes covariables ambientales:
Ra3 (radiación acumulada en el periodo de llenado de granos), %MD (indicador de
compactación de suelo), %pi (otro indicador de compactación de suelo), PrB2t
(profundidad del horizonte B2 texural) y MO (materia orgánica). En esta campaña
intervinieron 3 genotipos (A5520RG, A6040RG y DM4800RR) y 7 localidades
(Cavanagh, Totoras, Oliveros, Maizales, Bouquet, Rueda, y C.Gómez).
Para realizar el PLS entre Y (matriz que contiene términos de interacción entre 7
localidades y 3 genotipos) y la matriz X (conteniendo las covariables ambientales
antes descriptas), se ejecutaron los siguientes pasos: 1) Obtención de las matrices Y y
X. 2) Implementación de la rutina SVD para PLS de los datos en X e Y estandarizados.
Estadística descriptiva
Para obtener Y se usó ajusto un modelo de ANOVA con los efectos de genotipo y de
localidad. Al no introducir el efecto de la interacción GxE en el modelo, la misma queda
confundida en el error experimental, razón por la cual los residuos del modelo constituyen
una medida de interaccion (mas error) que será usada para conformar Y.
Cuadro 2. matriz Y
121
Cavanagh 8.56 -10.28 1.71
Maizales 4.93 7.92 -12.85
Oliveros -21.68 2.31 19.37
Rueda -0.81 17.51 -16.70
Totoras 3.99 -2.99 -1.00
Autovalores
Lambda Valor Proporción Prop Acum
1 276.64 0.60 0.60
2 184.83 0.40 1.00
3 0.00 0.00 1.00
Ambas matrices se usaron para construir el archivo de InfoStat denominado PLS (Cuadro
3). Se solicito la rutina SVD para PLS y la obtención del tri-plot ejecutados sobre esta nueva
tabla.
Cuadro 3. Tabla de datos necesaria para implantar la técnica PLS con el propósito de
correlacionar una matriz (73) de términos de interacción con otra matriz (75) de
covariables ambientales.
122
Para realizar el análisis PLS las columnas de Y deben ir como variables dependientes,
mientras que las filas como clasificatorias; las columnas de X como predictoras.
2.2
DM4800RR
Oliveros
1.1
Ra3 PrB2t
Maizales Bouquet
%Md
%pi
Totoras
Dim: 2
0.0
Cavanagh
A5520RG
Rueda
C.Gómez
-1.1
A6040RG
MO
-2.2
-2.2 -1.1 0.0 1.1 2.2
Dim: 1
Interpretación
123
Oliveros (correlación negativa entre el marcador de MO y el de la localidad Oliveros). Las
características de suelo distintas de la MO, no resultaron importantes para explicar las
interacciones en esta campaña. El cultivar A6040RG se desempeñó, relativos a los otros
dos cultivares, mejor en Rueda y en Oliveros; la interacción con Rueda se correlaciona
negativamente con Ra3. La segunda dimensión del tri-plot se asocia con las adaptaciones
mejores de DM4800 en Oliveros que presenta un menor contenido de MO que los otros
sitios.
EJERCITACIÓN
Variable
Pop Población de P. australis
Div.Gen (P) Porcentaje de loci polimórficos
Div.Gen (SW) Índice de Shannon Weaver
Div.Gen (Pn) Diversidad génica
Pp Precipitación
Tmedia Temperatura media anual
Tmax Temperatura máxima anual
Tmin Temperatura mínima anual
124
CONSIGNAS:
125
RESPUESTAS
1) Sí. Los resultados del ACC indican que existe una asociación entre la diversidad
genética de las poblaciones de P. australis y las condiciones ambientales de los
sitios donde se encuentran ya que el primer par de variables canónicas se
correlaciona significativamente (p=0.00078) con un coeficiente de correlación
de 0.95.
Correlaciones canónicas
L(1) L(2) L(3)
R 0.95 0.51 0.17
R² 0.89 0.26 0.03
Lambda 33.60 4.30 0.40
gl 12.00 6.00 2.00
p-valor 7.8E-04 0.64 0.82
126
Coeficientes de Correlación de Pearson entre el primer eje
canónico compuesto por indicadores de diversidad genética y sus
componentes.
Eje 1DG
Porcentaje de loci polimórficos
(P) 0.81
Indice de Shannon Weaver (SW) 0.99
Diversidad Génica (Pn) 0.92
Coeficientes de Correlación de Pearson entre el primer eje
canónico compuesto por indicadores ambientales y sus
componentes.
Eje 1Amb
Precipitación -0.29
Temperatura media -0.27
Temperatura maxima -0.34
Temperatura mínima -0.75
Nota: para obtener estos resultados debe guardar las variables canónicas al
realizar el ACC. Luego, se debe ir a Estadísticas, Análisis de Correlación,
Coeficientes de correlación y pedir la correlación entre las variables originales
y la variable canónica correspondiente. ¿Cómo sabemos cuál es variable
canónica correspondiente? Depende de cómo se pidió el ACC, es decir qué
variables se pusieron en el grupo 1 y qué variables se pusieron en el grupo 2. Si
se pusieron las de diversidad genética en el grupo 1, entonces se deben
correlacionar estas 3 variables con la Can1_1 y las variables ambientales con la
Can2_1.
127
128
4) El gráfico de dispersión obtenido entre las dos primeras variables canónicas
es
1.84
0.08
-0.81
-1.69
-1.74 -0.80 0.14 1.08 2.02
Eje Canónico Ambiental
Se observa una relación negativa entre ambas variables canónicas pero dado que
los indicadores ambientales están correlacionados negativamente con la variable
canónica correspondiente, se concluye que la diversidad genética se relaciona
positivamente con las variables ambientales. Es decir, sitios con mayor
precipitación y mayores temperaturas media, máxima y mínima presentan
poblaciones de P. australis con mayores niveles de diversidad genética. En
particular, la temperatura mínima es la variable ambiental que mayor asociación
presenta con la diversidad genética.
129
PASOS EN INFOSTAT
130
Seleccionamos estandarizar variables (son variables muy diferentes con varianzas
muy distintas) y guardar variables canónicas.
Correlaciones canónicas
Matriz de correlación
Div.Gen (P) Div.Gen. (SW) Div.Gen (Pn) Pp Tmedia Tmax Tmin
Div.Gen (P) 1.00 0.74 0.90 0.30 0.27 0.31 0.66
Div.Gen. (SW) 0.74 1.00 0.89 0.26 0.24 0.31 0.69
Div.Gen (Pn) 0.90 0.89 1.00 0.37 0.32 0.42 0.75
Pp 0.30 0.26 0.37 1.00 -0.23 0.50 0.20
Tmedia 0.27 0.24 0.32 -0.23 1.00 0.61 0.77
Tmax 0.31 0.31 0.42 0.50 0.61 1.00 0.60
Tmin 0.66 0.69 0.75 0.20 0.77 0.60 1.00
Correlaciones canónicas
L(1) L(2) L(3)
R 0.95 0.51 0.17
R² 0.89 0.26 0.03
Lambda 33.60 4.30 0.40
gl 12.00 6.00 2.00
p-valor 7.8E-04 0.64 0.82
Interpretar p-valor según manual de referencia
131
EJERCICIO 5.2 (PLS)
132
Variables
Fza Max P2 (N)
Area Total P2 (N.mm)
Instrumentales Fza Final P2 (N)
Area Total 7,9 (N.mm)
N Peaks 7,9
Hardeness/Force 2 B (N)
Resilence B (%)
Chewiness B (%)
N Peaks Acoustic B
Peaks Min Acoustic B (dBs)
PAM.1
______________________ _______________________________
Crujencia
Dureza
Sensoriales Crocancia
Jugosidad
Fundencia
CNSIGNAS:
133
3) ¿Cuántas variables latentes pueden construirse para modelar la relación y
cuántas deberían analizarse para visualizar las principales relaciones?
RESPUESTAS
P matriz que indica cómo combinar las 11 variables predictoras para generar
11 nuevas variables sintéticas que las representen.
U matriz conteniendo las nuevas variables sintéticas que surgieron de la
combinación de las variables en X
B matriz de coeficientes asociados a cada variable latente
W matriz que indica ponderaciones de las variables predictoras en las
variables latentes
Q matriz que indica ponderaciones de las variables dependientes en las
variables latentes
T matriz de variables latentes usadas para predecir Y
Beta-pls coeficientes de regresión PLS los que postmultiplicando X pueden ser
usados para predecir Y.
134
2) En la siguiente figura se presenta el triplot de la regresión PLS.
3.00
1.50 Dureza
Hardness/Force 2 B (N)
Chew iness (b) Peaks Min Acoustic B (dBs)
Factor 2 (17.1%)
-3.00
-3.00 -1.50 0.00 1.50 3.00
Factor 1 (45.9%)
Interpretación:
La Dureza y la Crocancia como características organolépticas correlacionadas
negativamente con la Fundencia del fruto de durazno, se correlacionaron
positivamente con las variables instrumentales hardeness/force 2 B (N), Area
Total 7,9 (N.mm), Area Total P2(N.mm) y Fza final P2 (N), variables estas que
alcanzaron mayores valores en las variedades Venus y 4B29. La variedad 4B12
con altos valores de fundencia (seguida por la variedad Carson) presentó baja
crocancia y menores valores para los parámetros reologicos mencionados.
También existe relación entre Crujencia y Numero de Peaks acoustic B, aunque
de menor magnitud que la observada entre Crocancia alta y baja Fundencia
con los parámetros reológicos mencionados anteriormente (capaz de explicar
135
el 17% de la estructura de covarianza común entre ambos tipos de variables).
Las relaciones descriptas en el espacio construido por los dos primeros ejes de
la regresión PLS explicaron un 63% de la estructura de covarianza común
entre ambos tipos de variables.
Nota: para obtener estos resultados debe guardar las variables latentes al realizar
el PLS. Luego, se debe ir a Estadísticas, Análisis de Correlación, Coeficientes de
correlación y pedir la correlación entre las variables originales y los factores de
interes. En este caso se pidió formato compacto, lista y se seleccionaron las
correlaciones de las variables latentes 1 y 2.
Coeficientes de correlación
Correlación de Pearson
Variable(1) Variable(2) n Pearson p-valor
Latente1 Latente2 74 0.00 >0.9999
Latente1 Fza Máx P2 (N) 74 -0.64 <0.0001
Latente1 Área Total P2 (N.mm) 74 -0.79 <0.0001
Latente1 Fza Final P2 (N) 74 -0.70 <0.0001
Latente1 Área Total 7,9(N.mm) 74 -0.81 <0.0001
Latente1 N° Peaks 7,9 74 0.47 <0.0001
Latente1 Hardness/Force 2 B (N) 74 -0.78 <0.0001
Latente1 resilence B (%) 74 -0.52 <0.0001
Latente1 Chewiness (b) 74 -0.67 <0.0001
Latente1 N°Peaks Acoustic B 74 -0.16 0.1626
Latente1 Peaks Min Acoustic B (dBs).. 74 0.08 0.5163
Latente1 PAM.1 74 0.10 0.4171
Latente1 Crujencia 74 -0.13 0.2792
Latente1 Dureza 74 -0.52 <0.0001
Latente1 Crocancia 74 -0.40 0.0004
Latente1 Jugosidad 74 0.19 0.1093
Latente1 Fundencia 74 0.61 <0.0001
136
Latente2 Fza Máx P2 (N) 74 -0.66 <0.0001
Latente2 Área Total P2 (N.mm) 74 -0.51 <0.0001
Latente2 Fza Final P2 (N) 74 -0.50 <0.0001
Latente2 Área Total 7,9(N.mm) 74 -0.42 0.0002
Latente2 N° Peaks 7,9 74 0.32 0.0059
Latente2 Hardness/Force 2 B (N) 74 0.54 <0.0001
Latente2 resilence B (%) 74 0.59 <0.0001
Latente2 Chewiness (b) 74 0.63 <0.0001
Latente2 N°Peaks Acoustic B 74 -0.08 0.5080
Latente2 Peaks Min Acoustic B (dBs).. 74 0.13 0.2718
Latente2 PAM.1 74 0.21 0.0728
Latente2 Crujencia 74 -0.23 0.0494
Latente2 Dureza 74 0.33 0.0045
Latente2 Crocancia 74 0.03 0.7875
Latente2 Jugosidad 74 -0.18 0.1233
Latente2 Fundencia 74 -0.08 0.5009
2
Latente2
-1
-2
-3
-4
-6 -5 -4 -3 -2 -1 0 1 2 3 4
Latente1
4B12 4B29
Andes Nec 1 (16B20) Andross
Carson Venus
137
PASOS EN INFOSTAT
138
Seleccionamos estandarizar variables (son variables muy diferentes con varianzas
muy distintas) y guardar tantas raíces como variables latentes haya (cantidad de
predictoras).
139
Salida del software
P
1 2 3 4 5 6 7 8 9 10 11
1 -0.42 -0.35 0.15 -0.27 0.01 0.18 -0.03 0.03 -0.09 0.13 0.75
2 -0.37 -0.34 0.08 -0.34 -0.01 -0.21 -0.42 -0.54 0.08 0.43 -0.20
3 -0.43 -0.29 -0.07 -0.09 -0.15 -0.34 0.04 0.16 -0.11 -0.78 -0.24
4 0.25 0.22 0.04 -0.68 0.55 0.03 -0.43 0.16 -0.26 -0.23 -0.09
5 -0.41 0.37 -0.10 0.03 1.1E-03 -0.14 -0.35 0.24 0.39 -0.13 0.25
6 -0.28 0.40 -0.08 -0.11 0.20 0.86 0.18 -0.57 -0.17 -0.09 -0.22
7 -0.35 0.43 -0.15 -2.3E-03 0.02 -0.37 0.28 0.33 -0.36 0.30 -0.16
8 -0.09 -0.05 -0.48 0.35 0.80 -0.06 0.05 -0.21 0.43 -0.04 0.10
9 0.04 0.09 0.76 -0.08 -0.30 -0.09 0.56 0.04 0.40 -0.06 0.01
10 0.05 0.14 -0.51 -0.63 -0.37 0.36 0.50 0.09 0.56 0.09 0.08
11 -0.34 -0.45 0.17 -0.08 0.19 0.31 0.20 0.39 0.02 0.14 -0.43
U
1 2 3 4 5 6 7 8 9 10 11
1 1.51 0.83 -1.76 -0.87 -1.52 -1.32 -1.16 -1.16 -0.49 0.49 -1.24
2 -2.77 0.65 1.62 1.15 -0.65 2.33 -1.82 1.36 1.77 -0.48 -0.96
3 -2.30 1.54 1.45 0.89 -0.49 0.89 -2.65 0.99 2.52 0.88 -1.98
4 -0.26 0.08 -0.61 1.36 -0.25 -0.36 -0.40 -0.26 0.19 0.35 -1.04
5 2.16 -0.71 -0.52 -1.15 1.61 -1.51 1.70 -0.79 -1.11 0.31 1.59
6 0.04 -1.19 -0.13 -0.31 0.65 -0.05 0.83 -0.08 -0.28 -0.45 0.62
7 0.95 0.40 0.24 -0.54 0.09 -1.03 -0.04 -1.00 0.52 -0.80 -0.21
8 -1.25 -0.06 0.15 0.90 0.15 0.31 -0.17 -0.08 -0.10 -0.18 0.20
9 0.06 -0.56 -0.12 -0.09 -0.61 0.33 -0.01 -0.61 -0.35 -1.32 0.17
10 1.36 -1.07 0.26 0.29 1.02 1.82 0.03 2.17 -0.78 0.56 0.83
11 0.77 -0.52 0.90 -0.02 1.54 -0.35 0.83 -0.18 0.33 -0.18 0.63
12 2.38 -1.00 -0.31 -1.27 1.38 -0.90 1.36 -0.37 -0.36 0.25 0.92
13 0.51 0.19 0.52 0.74 0.99 -0.65 -0.09 -0.01 0.58 0.26 -0.59
14 -1.24 -0.32 -0.53 0.92 -0.17 0.17 0.52 -0.74 -0.61 0.27 0.06
15 -0.73 0.25 0.16 0.06 0.14 1.24 -0.15 0.36 -0.06 0.38 -0.17
16 -0.45 -0.95 -0.42 0.04 -0.21 0.68 0.08 0.30 -0.92 -0.48 0.86
17 2.15 -0.25 -0.48 -1.41 0.28 -0.92 0.90 -1.08 0.10 -0.39 0.36
18 1.07 -1.20 0.47 -0.68 2.01 0.96 1.70 0.79 -1.33 0.41 2.44
19 -0.53 0.72 -0.13 -1.91 0.90 -2.29 1.39 -1.82 -0.34 -0.99 0.81
20 -0.80 -0.38 -1.51 -0.55 -0.80 -0.71 1.01 -1.17 -0.47 -0.79 -0.69
21 -1.95 1.09 0.29 1.17 -0.19 0.14 -0.83 0.21 0.76 0.18 -0.43
22 -1.62 0.84 0.68 0.23 -1.2E-03 1.20 -0.96 0.74 0.86 0.16 -0.92
23 -1.92 0.85 -1.37 0.07 0.59 -0.07 -0.11 1.60 -0.85 1.43 -0.03
24 -2.12 1.24 0.82 -0.03 0.83 -0.07 0.07 -0.26 0.84 0.15 1.01
25 0.95 -0.71 -1.39 -0.37 0.72 -1.32 1.17 -0.41 -1.31 0.50 0.85
26 -0.18 1.7E-04 -1.00 -0.48 -0.95 -1.53 0.31 -1.86 0.05 -1.26 -0.42
27 0.10 0.72 -0.73 0.84 -1.08 -0.12 -0.90 -0.14 0.36 0.39 -0.87
28 0.29 -0.25 1.15 0.28 0.47 0.94 0.02 0.42 0.91 -0.71 0.27
29 0.53 1.06 -0.45 -0.22 -1.42 -1.12 -0.86 -1.69 0.31 -0.72 -0.84
30 0.65 0.28 0.18 -0.03 0.40 0.40 -0.02 0.51 -0.07 0.70 0.72
31 1.40 -0.33 -0.17 -0.72 -1.10 0.23 -0.35 -0.63 0.47 -1.46 -0.39
32 2.77 -0.49 -0.41 -1.27 1.23 -0.82 1.26 -0.39 -0.72 0.45 1.42
33 2.02 0.17 -0.84 -0.62 -0.57 -0.44 -0.31 -0.54 -0.62 -0.09 -0.05
34 0.37 0.25 -1.82 1.25 -1.96 0.43 -1.49 0.49 -0.21 0.98 -1.41
35 -1.49 -0.36 0.07 1.13 -2.08 2.63 -1.89 1.60 1.15 -0.43 -1.40
36 0.50 0.42 -0.41 0.17 -1.86 0.36 -1.39 -0.29 0.67 -0.88 -1.48
37 0.93 0.15 -0.73 0.17 -0.82 0.28 -1.16 0.72 0.29 0.57 -1.04
38 1.11 -0.76 -0.01 0.04 0.60 1.25 0.10 1.64 -0.36 0.71 0.88
39 2.55 -0.24 -0.81 -0.48 1.57 -1.94 1.75 -1.19 -1.49 0.72 1.69
40 -1.73 2.53 0.95 -0.44 -1.07 -0.59 -1.14 -1.52 0.82 -0.99 -0.49
41 -0.92 1.17 0.11 0.99 0.33 -1.18 0.24 -0.68 -0.05 0.32 -0.18
42 -1.87 1.37 0.57 0.74 -0.68 0.63 -1.22 0.21 0.84 0.74 -1.62
43 0.09 0.80 0.49 -0.66 0.42 0.35 -0.04 0.44 -0.43 0.93 0.84
44 -1.37 1.46 0.73 0.13 -0.24 0.14 -0.46 -0.13 0.57 0.06 -0.09
45 -0.28 0.26 0.05 0.63 0.28 -0.34 0.60 -0.33 -0.67 -0.25 0.61
46 -3.03 1.69 1.24 1.81 -2.45 2.84 -3.09 1.90 2.49 0.39 -2.82
47 -2.35 0.76 0.71 0.75 -0.81 0.97 -0.97 0.99 0.80 -0.49 -0.78
48 -3.18 1.59 0.29 1.59 -1.72 2.28 -2.67 2.46 1.14 1.45 -1.69
49 0.50 0.32 0.97 -0.89 0.29 -0.09 0.28 -0.20 0.37 -0.70 0.37
50 -0.66 -0.15 -0.68 -0.10 -0.80 -0.30 0.43 -0.43 -0.32 -0.56 -0.09
51 0.93 0.09 0.58 -1.33 0.83 -0.63 1.12 -0.40 -0.13 -0.58 0.45
52 -0.50 0.38 0.30 1.45 -0.58 1.01 -1.00 1.35 0.67 0.65 -1.00
53 1.68 -0.74 0.03 -0.48 1.14 -1.25 1.79 -0.83 -1.07 -0.35 1.21
54 1.43 -0.77 -0.10 -0.71 0.86 -0.98 1.64 -0.79 -0.92 -0.14 1.36
55 0.10 -0.56 0.43 0.26 -0.17 0.81 -0.16 0.83 0.46 -0.08 -0.44
56 1.70 -0.52 -0.17 -1.06 -1.0E-03 -1.16 0.98 -1.31 -0.30 -0.80 0.25
57 1.30 0.34 0.51 0.37 1.03 -0.98 0.59 -0.32 0.03 0.11 -0.03
58 0.09 -1.53 1.27 0.35 0.12 1.89 0.67 1.19 0.09 -1.43 0.82
59 1.88 -0.43 -0.57 -1.21 0.48 -1.52 1.24 -1.06 -1.09 0.13 1.00
60 0.34 -0.21 0.38 0.12 0.76 0.76 0.01 1.40 -0.15 1.47 0.25
61 2.67 -0.91 -0.26 -0.89 1.55 -1.08 1.87 -0.13 -1.27 0.48 1.67
140
62 2.15 0.07 -0.18 -1.21 0.42 -1.12 0.81 -0.93 -0.82 -0.14 0.68
63 1.58 -0.86 -0.47 -1.43 -0.08 -0.93 1.00 -0.90 -0.87 -0.42 0.63
64 -0.31 -1.33 -0.74 -1.24 0.81 -0.99 1.16 -0.79 -1.98 0.47 1.99
65 0.41 -1.38 0.08 -0.52 0.80 0.12 0.94 0.37 -0.72 0.17 0.93
66 -1.63 -0.79 0.39 -1.21 0.01 -0.41 0.10 -0.04 0.42 -0.20 -0.01
67 0.39 0.33 -0.64 0.23 -0.50 -1.51 0.05 -1.29 0.03 0.02 -0.68
68 -1.11 0.29 0.30 -0.52 -0.97 -1.24 -0.69 -1.64 0.59 -0.51 -0.76
69 -0.67 -0.81 0.27 -0.51 -0.18 -0.09 -0.24 -0.19 0.38 -0.35 -0.33
70 -0.60 0.19 1.49 0.38 1.23 0.56 0.23 0.75 0.92 0.33 0.38
71 -0.92 -0.09 0.08 0.61 -0.84 0.69 -1.07 0.58 0.58 0.05 -1.24
72 -1.49 -1.47 -0.42 1.64 -0.05 2.47 -0.41 2.59 -0.44 0.96 0.04
73 -0.76 -0.45 0.38 0.53 0.16 -0.08 0.09 -0.04 0.48 -0.78 -0.58
74 -1.36 -1.03 -0.69 3.16 -0.81 1.89 -0.94 1.71 -0.31 0.54 -0.82
B
1 2 3 4 5 6 7 8 9 10 11
1 0.49 0.00 0.00 0.00 0.00 0.00 0.00 0.00 0.00 0.00 0.00
2 0.00 0.31 0.00 0.00 0.00 0.00 0.00 0.00 0.00 0.00 0.00
3 0.00 0.00 0.24 0.00 0.00 0.00 0.00 0.00 0.00 0.00 0.00
4 0.00 0.00 0.00 0.32 0.00 0.00 0.00 0.00 0.00 0.00 0.00
5 0.00 0.00 0.00 0.00 0.27 0.00 0.00 0.00 0.00 0.00 0.00
6 0.00 0.00 0.00 0.00 0.00 0.57 0.00 0.00 0.00 0.00 0.00
7 0.00 0.00 0.00 0.00 0.00 0.00 0.70 0.00 0.00 0.00 0.00
8 0.00 0.00 0.00 0.00 0.00 0.00 0.00 0.42 0.00 0.00 0.00
9 0.00 0.00 0.00 0.00 0.00 0.00 0.00 0.00 0.51 0.00 0.00
10 0.00 0.00 0.00 0.00 0.00 0.00 0.00 0.00 0.00 0.30 0.00
11 0.00 0.00 0.00 0.00 0.00 0.00 0.00 0.00 0.00 0.00 1.09
Matriz W
1 2 3 4 5 6 7 8 9 10 11
1 -0.33 -0.36 0.15 -0.25 0.07 0.15 0.15 -9.2E-05 -0.28 0.05 0.75
2 -0.29 -0.21 0.08 -0.38 -0.17 -0.28 -0.40 -0.44 0.13 0.45 -0.20
3 -0.34 -0.32 -0.15 -0.19 -0.11 -0.28 0.06 0.01 -0.05 -0.75 -0.24
4 0.26 0.24 0.19 -0.64 0.32 0.25 -0.37 0.11 -0.23 -0.22 -0.09
5 -0.52 0.44 -5.0E-03 0.15 -0.12 0.13 -0.48 0.22 0.33 -0.16 0.25
6 -0.35 0.30 -0.01 0.01 0.07 0.51 0.34 -0.59 -0.12 -0.07 -0.22
7 -0.38 0.34 -0.26 -0.19 0.24 -0.35 0.28 0.38 -0.32 0.32 -0.16
8 -0.04 -0.13 -0.16 0.09 0.84 -0.15 -0.04 -0.20 0.41 -0.05 0.10
9 -0.02 0.22 0.72 -0.19 -0.03 -0.26 0.41 0.05 0.39 -0.07 0.01
10 0.11 -0.02 -0.49 -0.49 -0.22 0.25 0.28 0.13 0.54 0.08 0.08
11 -0.26 -0.46 0.25 0.08 0.15 0.45 -0.01 0.45 0.12 0.18 -0.43
Matriz Q
1 2 3 4 5 6 7 8 9 10 11
1 -0.14 -0.51 0.05 0.07 -0.33 0.76 -0.08 0.47 -0.04 -0.42 0.02
2 -0.56 0.73 0.75 -0.06 0.26 0.22 -0.48 0.27 0.76 0.39 -0.20
3 -0.44 0.07 -0.35 0.79 -0.31 0.55 -0.56 0.76 -0.04 0.67 -0.49
4 0.20 -0.40 0.32 0.11 0.84 0.16 0.60 0.35 -0.23 0.10 0.69
5 0.66 -0.18 -0.45 -0.60 0.17 -0.19 0.28 0.02 -0.60 0.45 0.50
Matriz T
1 2 3 4 5 6 7 8 9 10 11
1 1.67 -0.29 -0.36 0.20 1.47 -0.38 -0.22 0.12 -0.11 -0.12 -0.13
2 -0.85 0.03 -0.32 1.55 1.24 0.29 -0.30 0.34 0.38 0.11 -0.07
3 -0.91 -2.27 -0.57 -0.56 1.34 -0.58 -0.17 -0.53 0.83 0.57 -0.54
4 0.33 -0.67 -0.72 1.09 1.07 0.35 0.32 -0.04 0.16 0.38 0.08
5 0.68 -0.34 -1.00 1.15 0.43 -0.33 0.22 -0.11 -0.02 -0.36 -0.18
6 -1.62 -1.10 -1.05 1.18 1.00 0.09 0.56 0.18 0.47 -0.74 -0.25
7 1.74 0.18 -0.76 1.33 1.22 -0.88 -0.05 -0.79 0.29 -0.24 0.12
8 -1.43 -0.40 -0.17 1.53 1.11 0.53 -0.48 0.78 0.33 -0.41 -0.12
9 0.28 0.14 -8.0E-04 1.65 1.67 0.30 -0.42 0.13 0.16 0.06 -0.05
10 2.42 0.26 -0.03 -0.39 1.93 -0.46 -0.41 0.24 -0.46 -0.05 0.10
11 0.82 -1.32 -0.59 1.32 1.30 0.04 0.39 0.10 0.02 0.24 0.21
12 1.18 -0.95 -1.69 -0.28 0.88 -0.07 0.97 -0.58 0.55 -0.01 -0.03
13 1.49 -0.93 -0.22 1.62 2.08 -0.72 0.30 -0.37 -0.23 -0.10 0.29
14 -2.06 0.23 -0.31 0.92 -0.09 1.92 -0.18 -1.48 -0.40 -0.41 0.13
15 -0.68 1.87 -0.43 -1.49 1.62 1.70 0.03 -0.45 -0.30 -0.50 -0.27
16 -1.73 -0.04 -0.30 -0.92 0.77 -0.19 -1.03 -0.86 0.69 0.41 0.04
17 1.86 0.43 -2.29 -1.37 -0.35 0.45 0.78 -0.46 0.57 0.18 0.10
18 0.18 0.86 -0.31 0.17 0.72 0.91 -0.31 -0.27 -0.35 0.31 0.20
19 -3.60 2.61 -0.90 0.34 -0.09 -1.03 0.10 0.21 -0.91 0.25 -4.1E-03
20 -3.18 2.54 -1.74 0.05 -0.59 0.84 1.29 -0.57 -0.94 0.25 -0.31
21 -1.32 1.07 -1.14 0.28 -0.76 -0.30 -0.66 -0.12 0.32 -0.36 0.12
22 -1.35 1.69 -0.48 -1.63 1.91 0.58 0.06 0.20 -0.24 -0.24 0.06
23 -4.43 4.43 -1.44 -0.08 0.72 -1.54 0.49 1.13 -0.32 0.91 0.05
24 -2.88 1.80 -2.07 -0.19 -0.97 0.53 -0.33 0.54 1.60 0.35 0.20
25 -1.16 0.09 -1.23 0.92 -0.10 -0.61 0.23 -0.13 -0.03 -0.35 0.28
26 -1.56 0.26 -1.65 0.08 -0.63 -0.17 0.17 -0.30 0.48 -2.5E-03 0.33
27 1.74 0.14 -1.45 0.32 -1.69 -0.01 -0.39 -0.32 -0.17 -0.23 -0.13
28 1.81 -0.42 -1.23 -0.69 -0.49 0.32 -0.16 0.36 -0.02 0.12 0.15
29 1.94 -0.12 -0.33 0.76 -0.60 -0.12 -0.91 -0.17 -0.59 0.19 0.11
30 1.83 0.22 -0.97 0.93 -1.29 0.07 -0.52 -0.09 -0.48 -0.06 -0.19
31 2.44 -0.38 -1.53 -2.06 -0.52 0.17 -0.19 0.70 0.14 0.02 -0.10
32 2.49 -0.14 -1.63 -0.67 -0.43 0.15 0.18 0.21 0.14 0.16 0.15
33 2.96 0.22 -0.53 -1.18 0.33 -0.15 -0.73 0.41 -0.46 -0.28 0.01
34 2.02 -0.48 -1.35 0.31 -1.30 0.14 -0.25 -0.03 -0.06 0.26 -4.0E-03
35 0.43 -1.17 -1.27 0.46 -1.30 0.53 -0.01 0.82 -0.22 0.23 0.02
36 2.55 0.04 -0.83 -0.66 -0.23 -0.31 -0.46 -0.15 -0.44 0.10 0.12
141
37 2.01 -0.45 -1.24 -1.19 0.21 -0.89 -0.10 -0.60 0.13 -0.01 -0.12
38 1.76 -0.18 -1.30 -0.96 -0.90 -0.35 -0.32 -0.12 -0.17 0.23 -0.13
39 1.97 -0.11 -0.80 0.39 -0.90 0.09 -0.49 0.09 -0.59 8.5E-05 1.9E-03
40 -0.41 3.02 1.98 -0.52 0.35 0.22 -1.15 0.57 0.53 -0.46 -0.11
41 -0.45 1.65 1.53 0.81 -0.56 -0.20 -0.15 -0.09 -0.03 -0.01 0.07
42 -1.04 0.83 2.14 -1.28 0.91 1.09 0.28 -0.03 -0.43 0.80 0.31
43 0.52 1.38 1.89 0.02 0.01 0.24 -0.40 -0.16 0.09 -0.03 0.15
44 -0.41 2.29 1.18 -0.03 -0.60 0.26 -0.24 -0.10 0.47 0.24 -0.03
45 0.01 1.96 1.55 -0.38 -0.21 0.02 -0.52 -0.46 0.41 0.33 -0.22
46 1.17 0.83 1.22 1.17 -0.94 0.45 0.33 -0.86 -0.06 0.15 -0.02
47 -1.61 1.80 1.24 0.45 -0.71 -0.93 -0.11 0.15 -0.01 -0.48 0.08
48 -1.10 1.40 1.21 0.91 -1.07 -0.46 -0.15 0.01 0.31 -0.34 -0.08
49 1.05 1.00 1.19 -1.03 -0.10 -0.47 -0.05 -0.49 0.22 -0.65 0.10
50 -1.56 1.29 0.41 0.22 -1.44 0.08 0.53 0.03 0.42 -1.20 -0.18
51 0.46 2.00 1.31 -0.95 0.37 -0.41 0.67 -0.35 -0.55 0.28 -0.12
52 1.79 0.06 1.09 0.50 -0.75 -0.37 0.28 -0.27 0.23 0.15 -0.13
53 1.14 -1.9E-03 1.74 0.97 -0.22 -0.19 0.26 -0.15 -0.46 0.26 -0.08
54 0.53 -0.49 1.14 0.63 -0.87 0.36 0.43 0.19 0.31 0.08 -0.08
55 0.60 -1.11 0.92 -0.77 -0.34 0.08 0.72 0.53 0.22 -0.25 0.06
56 1.23 -0.89 1.03 -0.42 -0.25 0.30 0.67 0.57 0.12 0.14 0.05
57 2.38 0.34 1.53 -1.08 0.57 -0.41 0.22 0.13 0.03 -0.26 -0.03
58 1.40 -0.25 1.50 1.37 -0.65 0.04 0.24 0.09 -0.17 0.29 0.28
59 0.72 -0.62 1.32 0.18 -0.51 -0.16 0.23 -0.09 0.07 0.24 0.09
60 0.50 -0.91 1.45 -0.42 -0.06 0.15 0.51 0.21 -0.03 0.07 -0.01
61 2.03 0.03 0.96 -0.32 -0.47 -0.49 0.43 -0.57 0.32 0.38 -0.08
62 2.17 0.51 1.66 -0.94 0.58 -0.05 0.01 0.37 0.08 -0.10 -0.13
63 0.20 -1.18 1.46 -0.04 -0.35 -0.01 0.46 0.09 -0.07 0.06 0.20
64 -5.01 -2.99 0.67 -0.45 -0.10 0.05 -1.26 -0.27 -0.45 0.19 0.22
65 -1.55 -2.24 1.02 -0.33 0.06 0.18 0.37 0.66 1.8E-03 -0.58 0.21
66 -5.46 -2.94 0.38 -1.68 -0.86 -1.01 0.23 -1.14 0.09 -0.10 0.10
67 0.30 -1.13 0.59 0.66 -0.51 0.12 0.42 0.45 0.23 0.16 5.0E-04
68 -2.57 -3.65 1.73 0.31 -0.05 -0.01 -0.36 -0.05 0.04 0.96 -0.56
69 -2.66 -3.48 -0.23 -1.07 -0.21 -0.28 -0.18 -0.03 -0.62 -0.49 0.31
70 0.03 -0.49 0.34 0.11 -0.37 0.23 0.41 0.49 0.19 0.05 -0.03
71 -0.85 -1.57 0.84 -1.11 0.59 0.05 0.23 0.69 0.17 -0.44 0.14
72 -2.05 -1.26 -0.84 0.17 -0.50 0.48 0.17 1.00 -0.29 0.22 -0.10
73 -1.26 -0.97 -0.54 -0.19 -0.03 -0.48 0.03 0.23 -1.01 -0.74 -0.50
74 -0.04 -1.57 -0.41 0.33 -0.47 0.63 -0.53 0.66 -0.13 0.25 -0.15
Betas-PLS
1 2 3 4 5
1 0.09 -0.33 -0.53 0.84 0.56
2 -0.27 0.22 0.01 -0.49 -0.22
3 -0.02 -0.26 -0.28 -0.10 -0.09
4 -0.10 0.06 -0.24 0.06 0.18
5 0.20 0.84 0.66 -0.44 -0.63
6 0.12 0.12 0.10 -0.11 -0.23
7 -0.33 -0.17 -0.18 0.17 0.24
8 -0.25 -0.12 -0.45 0.35 0.11
9 -0.24 0.12 -0.52 0.20 -0.05
10 0.01 -0.09 -0.15 -0.01 0.13
11 0.38 0.43 0.78 -0.21 -0.46
142
OTROS EJERCICIOS
Ejercicio 5.3
En el archivo CorrCan (datos de prueba de InfoStat) contiene los resultados de un
estudio realizado con alumnos del último año de la escuela secundaria, en el que se
deseaba conocer si las calificaciones en asignaturas de naturaleza cuantitativa como
Matemática, Física y Contabilidad se correlacionaban o no con las calificaciones
obtenidas en asignaturas de naturaleza no cuantitativa como Lengua, Literatura e
Historia.
Ejercicio 5.4
El archivo gimnasio.idb (archivo de datos de prueba de Infostat) contiene datos de un
estudio realizado en un gimnasio. Las tres primeras columnas del archivo
corresponden a variables físicas (peso, cintura y pulso) tomadas sobre un grupo de
20 individuos y las tres últimas son variables que miden el desempeño de la actividad
física de los mismos individuos (número de ejercicios continuados en la barra,
número de abdominales y número de saltos). Se puede decir que el desempeño en las
actividades se correlaciona con el físico del individuo?
Ejercicio 5.5
En el archivo vinos_PLS se presentan los resultados de un estudio realizado con 5
vinos, en el que se deseaba conocer si tres calificaciones subjetivas, dadas por una
escala hedónica de calidad (mayor valor, mayor calidad) y la opinión sobre si el vino
es más apropiado para acompañar carne o dulces, se pueden predecir a partir de
otros atributos del vino como son el precio, el contenido de azucares, el grado de
alcohol y la acidez del mismo.
143
¿Existe asociación entre las 4 predictoras con las apreciaciones subjetivas que se le
asignan a estos 5 vinos?
Ejercicio 5.6
El artículo en pdf que se adjunta en esta clase, corresponde a un estudio sobre
compuestos volátiles en vinos. El ejercicio que proponemos es identificar la
metodología estadística utilizada para el análisis del mismo, en particular la
aplicación de la regresión PLS y la forma de reporte de los resultados.
¿Usan un triplot para reportar los resultados?
¿Informan el modelo explicativo de Y derivado de la regresión PLS?
¿Para que podría servir ese modelo con futuros vinos?
144
CAPÍTULO VI
145
ANÁLISIS DISCRIMINANTE
MOTIVACIÓN
146
incidencia (mayor a un cierto umbral de incidencia que por conocimiento del
problema sabemos que es alto), y Grupo 2, aquellos con incidencia baja (menor al
umbral antes mencionado). Luego para cada uno de los n=40 casos o ambientes se
registran p variables climáticas (por ej., temperaturas máximas medias para un
determinado periodo que puede ser influyente para el desarrollo de la patología,
temperaturas mínimas medias en el mismo periodo, precipitación acumulada en el
periodo, velocidad del viento, etc).
El interés será construir una función discriminante para : 1) conocer cuál o cuáles de
las variables climáticas registradas tiene potencialidad para discriminar entre
ambientes de alta y de baja incidencia; es decir que variables tuvieron diferencias
significativas entre los dos grupos de ambientes, y 2) para construir un clasificador
tal que pueda ser usado para clasificar futuros casos (ambientes) en uno de los
grupos, es decir para predecir, dado los valores de las variables climáticas, si ese
nuevo ambiente tiene más probabilidad de presentar alta o baja incidencia de la
patología.
Fisher, al comienzo del siglo pasado, abordó el problema de reconocer las diferencias
multivariadas entre dos poblaciones desde una óptica univariada a través de la
construcción de una combinación lineal de las variables originales. Esta variable
sintética, es conocida como función discriminante lineal (FDL).
La FDL combina a las variables originales de manera lineal, es decir de la misma
manera que lo hace una componente principal. La diferencia radica en los
ponderadores de las variables o coeficientes de la combinación lineal. En el caso del
ACP, los ponderadores (elementos de los autovectores correspondientes a la
descomposición espectral de una matriz de varianzas-covarianzas) son tales que las
nuevas variables sintéticas (CP´s) son óptimas para explicar la VARIABILIDAD TOTAL
de la nube de puntos que representa las observaciones en el hiperespacio. Mientras
que los ponderadores de las variables originales en la FDL (elementos de los
autovectores correspondientes a la descomposición espectral del producto de dos
matrices, una que contiene varianzas-covarianzas entre grupos y otro con varianzas-
147
covarianzas dentro de grupos) son tales que la nueva variable sintética (FDL) es
óptima para explicar VARIABILIDAD ENTRE GRUPOS. Geométricamente la FDL puede
ser conceptualizada como el eje que atraviesa la nube de puntos en el hiperespacio de
manera tal que la proyección de los puntos sobre ese eje es la que muestra mayor
diferencia entre grupos. Luego, si los grupos no se diferencias en sus proyecciones
sobre el eje discriminante, no existirá la posibilidad de utilizar esa FDL para clasificar
futuras observaciones. Si, por el contrario, la diferenciación de los grupos sobre el eje
es importante, entonces la FDL puede usarse para clasificar futuras observaciones en
uno u otro grupo.
148
1 x1
2 x2
(n1 1) S1 (n2 1) S 2
Scomun
n1 n2 2
1
con y ( x1 x2 )´Scomun x
1 1
m ( x1 x2 )´Scomun ( x1 x2 )
2
SUPUESTOS
149
ANÁLISIS DISCRIMINANTE CANÓNICO
funciones discriminantes canónicas que separan los g grupos. Los ejes canónicos
yk lk ´x son variables no correlacionadas, pero no es requisito que sean ortogonales (
E 1H no es una matriz simétrica) por lo que éstas variables no representan una
simple rotación de los ejes coordenados como en el caso del Análisis de Componentes
Principales. Usando estos ejes canónicos es posible construir un espacio
discriminante o espacio canónico. El espacio canónico de mejor calidad para observar
las diferencias entre grupos es el conformado por el eje canónico 1 y el eje canónico 2.
Los autovalores de la matriz E 1H , que contiene las varianza-covarianzas entre (H) y
dentro (E) de grupos, expresados como proporción, indican en porcentaje de la
variabilidad entre grupos que puede ser descripta por cada eje. Estos autovalores son
usados para conocer con cuantos ejes canónicos o FDL será necesario trabajar para
identificar la mayor parte de la variabilidad multivariada entre grupos. La primera
función discriminante (asociada con el mayor de los autovalores, i , de E 1H ) realiza
150
Usualmente se reporta bajo el nombre de “estructura canónica total” a las
correlaciones simples entre las variables respuestas y las variables canónicas. Otra
forma útil de obtener una medida de la importancia de una variable respuesta a la
variable canónica es a través de la estandarización de los coeficientes de la
combinación lineal correspondiente. Es decir, los autovectores de la matriz E 1H que
son usados como vectores de pesos o coeficientes de las combinaciones lineales que
conforman los ejes canónicos pueden leerse directamente desde la FDL o luego de
estandarizar los datos. En caso de estandarizar, esta se realiza usando la matriz de
varianza-covarianza (promedio o común entre grupos). En este último caso los
coeficientes se vuelven independientes de las unidades de medidas de las variables y
por tanto pueden compararse directamente.
Así, observando los coeficientes por ejemplo de la primera FDL de los datos
estandarizados, es posible identificar las variables de mayor peso (con mayor valor
absoluto de coeficiente) en la discriminación realizada sobre el eje 1. En el caso que el
eje 2 se importante, en términos de la variabilidad explicada, igual lectura podrá
realizarse sobre este eje. Usualmente, si el interés radica en reportar una FDL, ésta se
construye con los autovectores de E 1H , así luego se usa con los datos sin
estandarizar. Los ejes canónicos de los datos estandarizados son, por el contrario,
usados cuando el propósito es comparar las variables respecto a su importancia
relativa para discriminar los grupos sobre el eje en estudio.
Las medias de los grupos de observaciones, en el espacio discriminante, es el vector
de medias de los casos sobre cada eje y también es conocida como centroide del
espacio discriminante.
La regla de clasificación más usada sugiere asignar una nueva observación,
llamémosla x 0 , en el grupo con centroide más cercano, en términos de distancia
r r
estadística, a x 0 . Luego, x 0 se deberá asignar a k si [l j ´(x0 xk )]2 [l j ´( x0 xi )]2
j 1 j 1
151
ERROR DE CLASIFICACIÓN
152
Cuando datos desde una población tienen más probabilidad de ocurrencia en la
muestra que datos desde otra población (supongamos que una población es
relativamente más grande que otra) una regla de clasificación podría tomar en cuenta
tales probabilidades conocidas a priori. La regla óptima debiera incorporar la
probabilidad de cada elemento u observación de ser seleccionada desde una
población o grupo en la muestra (probabilidad a priori). Reglas de clasificación que
incorporan la idea de una probabilidad a priori de pertenencia a un grupo impiden
clasificar una observación en un grupo “raro” o poco frecuente a menos que los datos
soporten dicha asignación fuertemente. En algunas aplicaciones, el costo de mal
clasificación no es el mismo para el error de clasificar mal en la población 1 que para
aquel producido al clasificar mal en la población 2. Por ejemplo, el costo de realizar
un mal préstamo podría no ser igual al costo de no realizar un buen préstamo. Por
ello, en esas situaciones la función discriminante óptima puede construirse
incorporando el costo de mala clasificación, errores costosos deben ser evitados. Las
reglas de clasificación se obtienen a través de la minimización del costo promedio o
costo esperado de mala clasificación.
ILUSTRACIÓN
153
conteniendo los ejes canónicos (coordenadas discriminantes) 1 y 2, InfoStat
sobrescribirá dichas columnas con los ejes obtenidos en el análisis presente). Luego
se seleccionó Gráfico. Al Aceptar se obtuvieron los siguientes resultados:
Variables de clasificación
Iris
Autovalores de Inv(E)H
Autovalores % % acumulado
32.19 99.12 99.12
0.29 0.88 100.00
154
La prueba de homogeneidad de matrices de covarianzas arrojó un valor p<0.001,
sugiriendo que no se cumple este supuesto y que una función discriminante
cuadrática podría ser mejor. Sin embargo, se continuó con el análisis ya que este
conjunto de datos ha sido ampliamente utilizado en la literatura para ejemplificar los
resultados del AD lineal. A partir de los autovalores de la expresión inv(E)H, se puede
concluir que el eje canónico 1 explica el 99.12% de la variación entre grupos. Como
hay tres grupos se generaron dos funciones discriminantes, o sea dos ejes canónicos,
el valor de cada observación sobre los cada eje canónico se adicionan a la tabla de
datos. La primera función discriminante canónica puede expresarse de la siguiente
manera:
F=-2.11-0.83(SepalLen)-1.53(SepalWid)+2.20(PetalLen)+2.81(PetalWid)
En esta función lineal de las cuatro variables seleccionadas, los coeficientes
responden a las distribuciones de cada variable. Si las variables tienen varianzas muy
distintas y/o existe alta co-variación entre pares de variables, la interpretación puede
ser engañosa, por eso conviene analizar la importancia relativa de cada variable, en la
discriminación de los grupos, usando la función con coeficientes estandarizados por
varianzas y covarianzas. A partir de la primera función discriminante estandarizada
por las covarianzas comunes puede verse que PetalLen es la variable más importante
para la discriminación sobre este eje. Observaciones (flores) con valores altos para
esta variable (pétalos más largos) aparecerán situadas a la derecha del gráfico de
dispersión de observaciones en el espacio discriminante (espacio formado por los
ejes canónicos) ya que el coeficiente es positivo (0.95).
Los centroides en el espacio discriminante o medias de las funciones por grupo,
muestran que el Grupo 1 se opone a los otros dos grupos en el eje canónico 1,
indicando que las diferencias en PetalLen permiten discriminar observaciones del
grupo 1 (menor longitud de pétalos) respecto a aquellas de los grupos 2 y 3. De igual
manera se pueden interpretar diferencias entre grupos usando el eje canónico 2. En
este ejemplo el eje 2 explica muy poca variación entre los grupos (el autovalor
asociado señala que el porcentaje de variación explicada sobre este eje es 0.88%). Por
ello se debe señalar la importancia relativa de los ejes canónicos.
La tabla de clasificación cruzada que se presenta al final de la salida (en filas se
representa el grupo al que pertenece la observación y en columnas el grupo al que es
asignada la misma observación al usar la función discriminante) señala que las 50
155
plantas del Grupo 1 fueron todas bien clasificadas, la tasa de error de clasificación en
este grupo es 0%. De los 50 individuos del Grupo 2, 48 fueron asignados bien y dos
fueron mal clasificados dentro del Grupo 3, la tasa de error es del 4%. Similar
interpretación se hace para el Grupo 3. La tasa de error aparente promedio es del 2%.
InfoStat adiciona automáticamente a la tabla de datos una columna que se llama
“Clasificación”, donde puede verse que los casos 71, 84 y 134 fueron aquellos mal
clasificados.
Para visualizar la discriminación entre grupos sugerida por el AD, se seleccionó
Gráfico en la ventana de AD. Esta opción produce automáticamente un diagrama de
dispersión con el eje canónico 1 y el eje canónico 2, particionado por el criterio de
clasificación, en este caso “especie”. Al gráfico se le agregaron las elipses de
predicción, las que se logran de la siguiente manera: seleccionar las tres series,
presionar el botón derecho y elegir “dibujar contornos”, esto habilita el submenú
“opciones del contorno”, que son: “contorno simple”, “elipse de predicción” y “elipse
de confianza”. Se marcaron además las tres observaciones erróneamente clasificadas.
4
Setosa Versicolor Virginica
2
71
Eje Canónico 2
0
134
84
-2
-4
-10 -5 0 5 10
Eje Canónico 1
Figura 1. Diagrama de dispersión de los dos primeros ejes canónicos obtenidos del
Análisis Discriminante Lineal para tres grupos de flores de la especie Iris. Elipses de
predicción (contornos de cada grupo). Casos mal clasificados por la función lineal
discrimínate lineal: 71, 84 y 134. Archivo: Iris.idb2.
156
4
Eje Canónico 2 2
-2
Setosa
Versicolor
Virginica
-4
-10 -5 0 5 10
Eje Canónico 1
Figura 2. Elipses de confianza para los centroides de cada grupo sobre el eje canónico 1
y 2 obtenidos a través del Análisis Discriminante Lineal para tres grupos de flores de la
especie Iris. Líneas de corte verticales indican los centroides de cada grupo sobre el eje
canónico 1. Archivo: Iris.idb2.
157
ÁRBOLES DE CLASIFICACIÓN Y REGRESIÓN (ALGORITMOS CART)
PROCEDIMIENTO
Inicialmente todos los objetos son considerados como pertenecientes al mismo grupo.
El grupo se separa en dos subgrupos a partir de una de las variables regresoras de
manera tal que la heterogeneidad, a nivel de la variable dependiente, sea mínima de
acuerdo a la medida de heterogeneidad seleccionada. Los dos subgrupos (nodos)
formados se separaran nuevamente si: 1) hay suficiente heterogeneidad para
producir una partición de observaciones y/o 2) el tamaño del nodo es superior al
mínimo establecido para continuar el algoritmo. El proceso se detiene cuando no se
cumple una de estas condiciones. En cada instancia de separación el algoritmo analiza
todas las variables regresoras y selecciona, para realizar la partición, aquella que
permite conformar grupos más homogéneos dentro y más heterogéneos entre ellos.
158
La medida de heterogeneidad dentro de los nodos (H) determina si el árbol será un
árbol de clasificación o uno de regresión. Los primeros se usan cuando la variable
dependiente que se quiere predecir es categorizada (sus valores son clases) y los
segundos cuando la variable dependiente es una variable continua. Para los arboles
de clasificación, una forma de calcular H es a través de la deviance, estadístico que
mide la heterogeneidad de las proporciones de las distintas clases en un grupo. Para
construir un árbol de regresión la medida de heterogeneidad más usada es la suma de
cuadrados dentro de grupo.
ILUSTRACIÓN
Realizaremos una ilustración usando el archivo Iris que fue analizado para introducir
análisis discriminante. En general cualquier problema que pueda abordarse por un
Análisis Discriminante, también podrá ser analizado desde la perspectiva de los
árboles de clasificación. Implementado sobre ese archivo el árbol de clasificación (o
de decisión) resultante es:
(n=150)
PetalLen(>2.450; n=100)
PetalLen(<=2.450; n=50)
PetalWid(<=1.750; n=54)
PetalWid(>1.750; n=46)
159
Cuadro 2. Resultados de un Árbol de Clasificación sobre el archivo de ejemplo de
InfoStat Irs.idb2 (Fisher, 1936)
Árboles de clasificación-regresión
H= Deviance (suma (ni*ln(pi))
Nodo Formación H Predicción n Setosa Versicolor Virginica p(Setosa) p(Versicolor) p(Virginica)
Raíz 150 50 50 50 0.33 0.33 0.33
1 PetalLen(<=2.450) 0.00 Setosa 50 50 0 0 1.00 0.00 0.00
2 PetalLen(>2.450) 138.63 Versicolor 100 0 50 50 0.00 0.50 0.50
2.1 PetalWid(<=1.750) 33.32 Versicolor 54 0 49 5 0.00 0.91 0.09
2.1.1 PetalLen(<=4.950) 9.72 Versicolor 48 0 47 1 0.00 0.98 0.02
2.1.2 PetalLen(>4.950) 7.64 Virginica 6 0 2 4 0.00 0.33 0.67
2.2 PetalWid(>1.750) 9.64 Virginica 46 0 1 45 0.00 0.02 0.98
Interpretación
160
EJERCITACIÓN
161
CONSIGNAS:
4.2) ¿Qué par de ambientes son los más diferentes respecto a su calidad de
agua? ¿Cómo los caracterizaría?
4.3) ¿Qué par de ambientes son muy parecidos respecto a su calidad de agua?
5) De las 14 muestras del ambiente Dique, cuántas fueron bien clasificadas con la
función discriminante? Cuántas fueron mal clasificadas? A qué ambiente se las
atribuyó erróneamente?
6) Y de las 13 muestras del ambiente Planta cuántas fueron mal clasificadas?
¿Qué tasa de error de clasificación para las muestras del ambiente Planta se
obtuvo?
7) Imagine que llega al laboratorio una muestra de agua que no se sabe a cuál de
los 5 ambientes pertenece. Se miden los 9 parámetros mencionados
anteriormente y utilizando la función discriminante obtenida se la clasifica.
¿cuál es la probabilidad de clasificarla erróneamente?
8) Ahora el objetivo es identificar un subconjunto de variables que, sin pérdida
significativa de capacidad discriminatoria entre ambientes, demande un
menor esfuerzo de medición. ¿Qué variable omitiría? Realice 9 ADLs con 8
variables cada uno (en cada ADL no incluya una variable) y realice una tabla
donde se presente el error de clasificación de las funciones discriminantes con
8 variables.
9) Calcule las distancias euclídeas entre los centroides de cada ambiente en el
espacio discriminante. ¿Cuáles son los ambientes más disímiles y cuáles los
más similares?
162
RESPUESTAS
Autovalores de Inv(E)H
Autovalores % % acumulado
6.80 79.20 79.20
0.97 11.28 90.47
0.69 8.00 98.47
163
Funciones discriminantes - datos estandarizados con las varianzas
comunes
1 2
LN_CT (NMP/100 ml) -0.63 -0.07
LN_CF(NMP/100 ml) 0.61 -0.50
LN_EC(UFC/100 ml) -0.60 -0.84
LN_EN(UFC/100ml) -0.08 0.68
T (ºC) -0.12 0.50
pH 0.39 0.20
OD(mg/l) -0.79 0.77
Cond (?s/seg) -1.19 0.83
Turb (NTU) -0.18 0.59
3) En la siguiente figura se muestra el biplot obtenido con los resultados del ADL.
7.50
Conductividad
OD
Enterococcus
Turbidez
3.75
T
Wierna
pH Vaq
Planta
Variables
Dique
0.00 Arenales
CT Variables
CF
-3.75
E. coli
-7.50
-7.50 -3.75 0.00 3.75 7.50
Eje Canónico 1
4.1) Se observa que las 9 variables utilizadas para caracterizar las muestras de
agua tienen potencialidad discriminatoria para diferenciar los ambientes respecto
a su calidad de agua.
164
4.2) Los ambientes Planta y Dique se ubican en extremos opuestos en el eje
canónico 1, permitiendo una clara diferenciación de los mismos. Las muestras
de agua de Planta presentan mayor conductivdad, oxígeno disuelto y
coliformes totales y menos coliformes fecales que el ambiente Dique.
4.3) Tanto los ambientes Wierna y Arenales como Dique y Vaq presentan
características similares y es más difícil diferenciarlos entre sí con los
parámetros medidos.
165
9) En la tabla siguiente se presentan las distancias euclídeas entre los centroides
de cada ambiente en el espacio discriminante:
8. Arenales Dique Planta Vaq Wierna
Arenales 0 9. 10. 11. 12.
Dique 4.23 0 13. 14. 15.
Planta 3.34 6.58 0 16. 17.
Vaq 3.03 1.3 5.75 0 18.
Wierna 1.16 3.76 4.5 2.46 0
Como se observó en el biplot, Dique y Planta son los ambientes más disímiles con
una distancia de 6.58 mientras que los más similares son Wierna y Arenales,
cuyos centroides presentan una distancia de 1.16 en el espacio discriminante.
Para calcular las distancias euclídeas entre ambientes pueden covertir dichos
resultados automáticamente en una tabla utilizando el último ícono a la
derecha que aparece en la Ventana resultados.
166
PASOS EN INFOSTAT
167
SALIDA DEL SOFTWARE
Análisis discriminante
Casos leidos 55
Variables
Variables de clasificación
Rio
168
Grupo n Rango ln(Det)
Arenales 13 9 38.32
Dique 14 9 31.31
Planta 13 9 47.09
Vaq 9 8
Wierna 6 5
Autovalores de Inv(E)H
Autovalores % % acumulado
6.80 79.20 79.20
0.97 11.28 90.47
0.69 8.00 98.47
0.13 1.53 100.00
169
EJERCICIO 5.2 (ÁRBOLES DE CLASIFICACIÓN)
170
CONSIGNAS:
RESPUESTAS
(n=22)
Temp(>64.5; n=18)
Temp(<=64.5; n=4)
Temp(<=71.0; n=10)
Temp(>71.0; n=8)
171
2) Valores de Temp ≤ 64.5 °F predicen la ocurrencia de defectos en los anillos con
una probabilidad de 1, es decir en los 4 lanzamiento anteriores cuando la
temperatura fue inferior a 64.5° hubo una falla de los anillos.
4) Si bien los resultados del nuevo análisis son similares a los anteriores, aportan
nueva información. Cuando las temperaturas fueron mayores a 64.5° F y
menores o iguales a 69.5° F, no se produjeron fallas en los anillos. Esto también
sucede cuando las temperaturas se ubicaron por encima de los 71° F. Mientras
que cuando la temperatura fue mayor a 69.5° F y menor o igual a 71° F y la
presión fue menores a 75 se produjo una falla de los anillos, mientras cuando la
presión fue mayor a dicho umbral dos de tres lanzamientos (p=0.67) no
presentaron defectos.
(n=22)
Temp(>64.5; n=18)
Temp(<=64.5; n=4)
Temp(<=71.0; n=10)
Temp(>71.0; n=8)
Temp(>69.5; n=4)
Temp(<=69.5; n=6)
172
Nodo Formación H Predicción n No Si p(No) p(Si)
Raiz 22 16 6 0.73 0.27
1 Temp(<=64.5) 0.00 Si 4 0 4 0.00 1.00
2 Temp(>64.5) 12.56 No 18 16 2 0.89 0.11
2.1 Temp(<=71.0) 10.01 No 10 8 2 0.80 0.20
2.1.1 Temp(<=69.5) 0.00 No 6 6 0 1.00 0.00
2.1.2 Temp(>69.5) 5.55 No 4 2 2 0.50 0.50
2.1.2.1 Pres(<=75.0) 0.00 Si 1 0 1 0.00 1.00
2.1.2.2 Pres(>75.0) 3.82 No 3 2 1 0.67 0.33
2.2 Temp(>71.0) 0.00 No 8 8 0 1.00 0.00
PASOS EN INFOSTAT
173
Inicialmente dejamos las opciones por defecto. Para realizar el punto 4 en el casillero
Mínimo tamaño del nodo para continuar la partición cambiar el 5 por 3.
174
SALIDA DEL SOFTWARE
Árboles de clasificación-regresión
CONSIGNAS:
175
Respuestas
(n=149)
Nota: para obtener una interpretación completa del análisis debe complementar la
información del árbol de regresión con la obtenida en la ventana de Resultados de
Infostat.
176
PASOS EN INFOSTAT
177
defecto que es 5. Otra opción para “podar” el árbol es colocar un umbral de
heterogeneidad. La primera opción es más sencilla de utilizar. En este ejemplo
utilizando un tamaño mínimo del nodo de 80 se logra podar el árbol rescatando las
relaciones más importantes en la determinación del rendimiento.
Árboles de clasificación-regresión
178
OTROS EJERCICIOS
Ejercicio 5.4
En el archivo SateliteC (datos de prueba de Infostat), están grabados los datos
correspondientes a las reflectancias en cada una de cuatro bandas de 72 píxeles para
los cuales se conoce la cobertura del suelo (verdad terrestre). El objetivo del estudio
es encontrar un criterio de separación de las distintas coberturas en función de las
reflectancias observadas. Esas reglas se podrán utilizar posteriormente en la
estimación de la cobertura vegetal de una región a partir de una imagen satelital.
d. Hacer un análisis discriminante lineal de estos datos
e. Interpretar el significado de la salida del programa.
f. ¿Cuáles son las coberturas más difíciles y más fáciles de separar?
g. ¿Cuáles son las bandas que separan las coberturas?
Ejercicio 5.5
El archivo Clase6_CT_2.idb2 contiene datos de un estudio realizado para la detección
de emails spam. El total de mails registrado es de n=4601 de los cuales 1813 son
spam. Las variables relevadas para utilizar en la predicción de correo spam son las
siguientes:
179
Ejercicio 5.6
El archivo cpus.idb2 contiene datos de un estudio realizado para evaluar la
performance de 209 computadoras con diferentes parámetros de configuración de
sus componentes (Ein-Dor y Feldmesser, 1987). Las variables observadas son las
siguientes:
name: fabricante y modelo de computadora
syct: número de ciclos por segundotiempo de ciclo en nanosegundos.
mmin: memoria principal mínima en kilobytes.
mmax: memoria principal máxima en kilobytes.
cach: tamaño de la caché en kilobytes.
chmin: número mínimo de canales.
chmax: número máximo de canales.
perf: rendimiento relativo.
estperf: rendimiento relativo estimado.
El objetivo del estudio es conocer que variables influyen en el rendimiento relativo y
relativo estimado. Realizar un árbol de regresión en cada uno de los dos casos.
Ein-Dor, P. y Feldmesser, J. 1987. Atributes of the performance of central processing units: a relative
performance prediction model, Communitaions of the ACM, 30: 308-317.
180
CAPÍTULO VII
181
USO DE INFORMACIÓN ESPACIAL EN EL ANÁLISIS MULTIVARIADO
182
que se obtuvieron las variables sintéticas (CPs). Los CPs pueden ser utilizados como
input de análisis espaciales univariados. Por ejemplo, se puede calcular un índice de
autocorrelación espacial, como el índice de Moran (Moran 1950) o construir un
semivariograma a partir de una variable sintética que resume una porción
importante de la varianza genética total. También se pueden construir mapas
sintéticos mediante la interpolación de los valores obtenidos. El proceso de
interpolación espacial consiste en la predicción de los valores de una variable
aleatoria sobre un conjunto de puntos definidos por una localización en el espacio
(Webster y Oliver 2001; Fortin y Dale 2009). Así, la interpolación de las variables
sintéticas obtenidas mediante la aplicación del ACP permite la confección de mapas
de la variabilidad estudiada, facilitando la visualización de los patrones espaciales.
Como notamos previamente, el ACP no incorpora la información espacial en el
análisis, ya que no ha sido desarrollado con el objetivo de detectar estructura
espacial. El uso de la información espacial a priori, es decir, dentro del criterio de
optimización de la TRD, fue desarrollado en el trabajo de Wartenberg (1985), quien
propuso un análisis espacial de correlación multivariada basándose en el ACP, el
índice de Moran y el uso de redes de conexión (vecindarios) entre unidades de
análisis. Esta idea fue desarrollada en el contexto de datos ecológicos por Thioulouse
et al. (1995), y en datos genéticos por Jombart et al. (2008), quien desarrolló
recientemente el ACP espacial (ACPe) para datos genéticos, basándose en una
modificación del ACP que optimiza la varianza genética y su autocorrelación espacial.
También Dray et al. (2008) se basaron en el trabajo de Wartenberg para desarrollar
el método MULTISPATI PCA para datos de vegetación y el cual ha sido utilizado en el
contexto de la agricultura de precisión para delimitar zonas homogéneas intra-lote
(Córdoba et al. 2013). ´
183
ANÁLISIS ESPACIALES A UTILIZAR A POSTERIORI DEL ACP (SOBRE LAS VARIABLES
SINTÉTICAS)
Uno de los índices más usados para medir autocorrelación espacial es el Índice de
Moran (Moran 1950). El cálculo del índice o coeficiente de Moran de autocorrelación
espacial en un espacio continuo requiere la definición de una matriz de ponderación
espacial y para obtener estos ponderadores se pueden seguir distintos
procedimientos, entre los que se destacan el uso de redes de conexión (Dray 2011).
Las redes de conexión o gráficos de vecindario se generan conectando individuos
vecinos en un mapa (Legendre y Legendre 1998). La triangulación de Delaunay es un
método recomendado para construir gráficos de vecindario cuando las entidades se
encuentran distribuidas en forma homogénea en el espacio. Sin embargo, puede
conectar a entidades periféricas que no deberían estar relacionadas. El gráfico de
Gabriel es un subconjunto del gráfico de Delaunay que no incluye las conexiones
periféricas (Figura 7.1). Las redes de conexión pueden ser adaptadas manualmente
pudiéndose excluir contactos entre puntos cercanos o incluir relaciones entre puntos
lejanos, siguiendo criterios biológicos.
184
Cuando trabajamos con variables sintéticas, tenemos un valor de CP1, por ejemplo,
en una zona, llamémosla i-ésima zona y se compara su valor con el valor promedio de
la variable (CP1) en las localizaciones de su vecindario. La expresión del índice es:
N i j Wi , j ( X i X )( X j X )
I
( i j Wi , j ) i ( X i X )2
185
normales y tienen la misma media y varianza. Estos últimos supuestos se conocen
como estacionariedad de primer y segundo orden. Una forma de corroborar que se
cumpla el supuesto de estacionariedad es realizando regresiones de la variable con
las coordenadas geográficas. En el caso de encontrar una relación significativa se
puede ajustar un modelo y trabajar con los residuos. De esta manera la tendencia
(cambios de la media) se remueve y la autocorrelación espacial se estudia en el
término aleatorio de la variable representado por los residuos.
Bajo este enfoque, un primer paso para analizar la presencia de
autocorrelación espacial en un conjunto de datos georreferenciados en un continuo es
construir un semivariograma empírico. La función semivariograma de un proceso
si s j h
1
2
Var Z si Z s j
suponen sobre un espacio continuo. Entre otros factores a tener en cuenta para
ajustar el semivariograma se encuentra el tamaño de muestra con el que se estima
cada semivarianza; comúnmente se recomienda que la estimación se realice con al
menos 30 pares de puntos. La distribución de los puntos en el espacio determinará
para qué lags ésto es posible.
Una vez construido el semivariograma empírico se puede modelar la gráfica
obtenida mediante el ajuste de semivariogramas teóricos. Existen distintos modelos
teóricos para funciones semivariogramas, entre los que se encuentran el lineal, el
esférico, el gaussiano y el exponencial. Cualquiera de los semivariogamas puede
caracterizarse mediante tres parámetros: el umbral, el rango y el efecto pepita
(Figura 7.2). El umbral es el valor de la asíntota superior del semivariograma y
representa la varianza de los datos estimada teniendo en cuenta la estructura
espacial. El rango es la distancia espacial a la cual el semivariograma alcanza o se
aproxima al umbral. Muchas veces, esta distancia se considera como la distancia a
partir de la cual las observaciones no están correlacionadas. Cuando el
semivariograma alcanza el umbral asintóticamente, el rango práctico es definido
como la distancia a la cual el semivariograma alcanza el 95% del umbral. El tercer
186
parámetro del semivariograma conocido como efecto pepita, representa la
componente de varianza que no está espacialmente estructurada (Schabenberger y
Gotway 2005).
UMBRAL
semivarianza
EFECTO PEPITA
RANGO
distancia
187
Figura 7.3: Mapa de un lote obtenido por interpolación (kriging) de la
CP1 de un PCA realizado sobre variables de suelo (conductividad
eléctrica a dos profundidades, elevación, profundidad de tosca y
rendimiento de soja.
188
producto de la autocorrelación (una versión generalizada de Moran) por la varianza
calculada con un PCA estándar (Dray et al., 2008; Couteron y Ollier, 2005). Este es un
método puramente descriptivo, basado en algebra lineal y en propiedades
geométricas y geográficas de los datos. No se basa en ningún modelo de ajuste y se
puede aplicar en cualquier tipo de variables (Saby et al., 2009).
Se simularon poblaciones de genotipos multilocus mediante el programa EASYPOP
2.01. Se obtuvieron 30 repeticiones de cada una de cinco situaciones o condiciones de
interés, con tres poblaciones de individuos genotipados con marcadores multilocus-
multialélicos. Los primeros 3 escenarios contemplan situacionesdonde las
poblaciones presentan EGE, bajo tres niveles diferentes de diferenciación genética:
baja (Fst=0.04), media (Fst=0.08) y alta (Fst=0.13). Estos escenarios se lograron
mediante la variación de las tasas de migración y suponiendo 20 loci por genotipo.
Las otras dos situaciones corresponden a escenarios sin EG, uno con 20 y otro con 30
loci. De cada población se eligieron individuos al azar para generar la EGE de tipo
parche y a cada individuo se les asignaron coordenadas espaciales bidimensionales.
Para generar escenarios con distinto número de marcadores aportando a la
variabilidad genética espacialmente estructurada, a partir de los archivos con
extensión .dat obtenidos de EASYPOP, se construyeron tablas base para cada nivel de
diferenciación. Éstas están compuestas por las siguientes columnas: coordenadas
geográficas de los individuos (primeras dos columnas), la población de origen
simulada (columna 3) y los genotipos simulados para 50 loci, de las cuales los
primeras 20 columnas corresponden a loci con EG y las 30 restantes corresponden a
los marcadores simulados sin EGE. Las tablas se denominaron mediante un nombre
compuesto por tres partes: “tipo.de.estructura_nivel.de.divergencia
_número.de.simulación”. El primer término de la denominación corresponde al tipo
de estructura espacial que se simula, en nuestro caso fue parche y la denominación
par. El segundo término de la denominación corresponde al nivel de divergencia, el
cual tiene tres niveles: b, m, a los cuales corresponden a baja, media y alta
diferenciación. El tercer término corresponde al número de repetición el cual varió
entre 001 y 030. A partir de éstas tablas base (en total 90 tablas correspondientes a 3
escenarios de divergencia con 30 repeticiones cada uno) se generaron los escenarios
finales mediante la lectura de las primeras 23, 33 o alternativamente 53 columnas
para hacer variar la proporción de loci con EGE. Así, se generaron nueve escenarios
189
con distinta proporción de loci con estructura espacial (se agregó un término a la
denominación del escenario correspondiente al nivel de loci sin EGE (ruido): r0, r10 y
r30) También se generó un escenario sin EGE que se denominó “se”. A continuación
se presentan los conjuntos de parámetros utilizados en EASYPOP para cada una de las
cinco condiciones mencionadas anteriormente y las rutinas en leguaje R usadas para
el análisis, tomando como ejemplo la repetición 001, diferenciación baja.
190
desde la web como desde un archivo .zip. La siguiente figura ilustra parte del menú
[R].
EJERCITACIÓN
EJERCICIO 7.1
191
CONSIGNAS:
192
RESPUESTAS
2) Se observa una pérdida de varianza comparada a ACP (2.22 vs. 2.07 para el eje
1 y 1.18 vs. 0.94 para el eje 2), pero una ganancia en la autocorrelación
espacial (0.47 vs. 0.58 para el eje 1 y 0.18 vs. 0.30 para el eje 2).
MULTISPATI-PCA
d = 0.2
P
A.L
MO
N
Eigenvalues
Rend
193
Nota: Esto puede observarse también en los autovectores de la ventana
Resultados.
3.2) Ninguna.
3.3) Se observa que incorporando la información espacial en el análisis
(usando MULTISPATI-PCA), la variable P pasa a ser importante en la
construcción de la CP1. Con el ACP el P era una variable que se proyectaba
en la CP2 y que se correlacionaba en forma positiva con Rend.
Los valores que toman las CP, tienen que analizarse en función de las variables
que presentaron mayor correlación con cada componente. En el caso de
MULTISPATI-PCA, las zonas con valores bajos de la CP1 (color naranja) se
caracterizan por altos niveles de P, mientras que las zonas que presentaron
valores altos de la CP1 (color verde) se caracterizan por valores altos de L+A,
MO y N. En el mapa de la segunda componente del MULTISPATI-PCA pueden
observar los sitios de mayor rendimiento se ubican en la zona central del lote
(color verde).
194
PASOS EN INFOSTAT
195
En las opciones de la red de vecindarios colocamos como distancia máxima el 10. Esto
significa que los puntos vecinos de un sitio dado son aquellos que se ubican hasta una
distancia euclidea de 10 metros. Las demás opciones se dejan por defecto.
Autvectores
Variable CS1 CS2
A.L 0.65 0.17
P -0.45 0.22
MO 0.45 -0.25
N 0.35 -0.28
Rend -0.22 -0.89
196
Cómo hacer el mapa de la CP1
Seleccionar los modelos a ajustar Exp, Sph, Gau y Ste. Colocar como dimensión de la
grilla de predicción 1 metro y en block colocar el 2. Las demás opciones se dejan por
defecto.
197
OTROS EJERCICIOS
Ejercicio 7.2
198
REFERENCIAS
Bivand, R., Altman, M., Anselin, L., Assunção, R., Berke, O., Andrew Bernat, Blanchet, G.,
Blankmeyer, E., Carvalho, M., Christensen, B., Chun, Y., Dormann, C., Dray, S.,
Halbersma, R., Krainski, E., Legendre, P., Lewin-Koh, N., Hongfei Li, J.M., Millo, G.,
Mueller, W., Ono, H., Peres-Neto, P., Piras, G., Reder, M., Tiefelsdorf, M. & Yu, D.
(2011) spdep: Spatial dependence: weighting schemes, statistics and models. R
package version 0.5-31.
Chambers, J. M., Cleveland, W. S., Kleiner, B., & Tukey, P. A. (1983). Graphical Methods
for Data Analysis. Belmont, CA: Wadsworth.
Córdoba, M., Bruno, C., Costa, J. & Balzarini, M. (2013) Subfield management class
delineation using cluster analysis from spatial principal components of soil
variables. Computers and Electronics in Agriculture, 97, 6-14.
Dray, S. & Dufour, A.B. (2007) The ade4 package: implementing the duality diagram
for ecologists. Journal of Statistical Software, 22, 1-20.
Dray, S., Saïd, S. & Débias, F. (2008) Spatial ordination of vegetation data using a
generalization of Wartenberg's multivariate spatial correlation. Journal of
Vegetation Science, 19, 45-56.
Fortin, M.-J. & Dale, M.R.T. (2009) Spatial Autocorrelation in Ecological Studies: A
Legacy of Solutions and Myths. Geographical Analysis, 41, 392–397.
Gabriel, K. R. (1981). Biplot display of multivariate matrices for inspection of data and
diagnosis. In V. Barnett (Ed.), Interpreting Multivariate Data. London: Wiley.
199
Gower J.C., Ross, G.J.S. (1969) Minimum spanning trees and single linkage cluster
analysis. Applied Statistics 18, 54-64.
Johnson R.A., and Wichern, D.W.(1988). Applied Multivariate Statistics Analysis, 2nd
Edition. Prentice-hall, New Jersey, 607 pp.
Moran, P.A.P. (1950) Notes on Continuous Stochastic Phenomena. Biometrika, 37, 17-
23.
Paradis, E., Claude, J. & Strimmer, K. (2004) APE: Analyses of Phylogenetics and
Evolution in R language. Bioinformatics, 20, 289-290.
Schabenberger, O. & Gotway, C.A. (2005) Statistical methods for spatial data analysis.
Chapman & Hall/CRC, Boca Raton.
Webster, R. & Oliver, M.A. (2001) Geostatistics for environmental scientists. John
Wiley & Sons, Chichester, England ; New York.
200