Anda di halaman 1dari 9

DEPARTAMENTO DE CIENCIAS MATEMATICAS Y FISICAS

UNIDAD 2 – PARTE 1

Técnicas de Análisis para la Reducción


de la Dimensión – Variables Métricas

Análisis Factorial Exploratorio (AFE) y


Análisis por Componentes Principales (ACP).

El análisis multivariante “AM” es la parte de la estadística y del análisis


de datos que estudia, analiza, representa e interpreta los datos que
resultan de observar más de una variable estadística sobre una muestra
de individuos. Las variables observables son homogéneas y
correlacionadas, sin que alguna predomine sobre las demás. La
información estadística en AM es de carácter multidimensional, por lo
tanto, la geometría, el cálculo matricial y las distribuciones
multivariantes juegan un papel fundamental.

Las técnicas multivariantes se clasifican según su objetivo si son de


dependencia, de interdependencia o si son causales. Las técnicas que se
verán en esta unidad estudian la interdependencia entre variables: el
AFE busca reducir y condensar la información de las variables, en su
esencia busca identificar las “variables latentes” o “constructos” que
generan la covariación de los datos y tendrá sentido si se cumple el
principio de parsimonia y de interpretabilidad.
El ACP es un método geométrico de carácter descriptivo cuyo objetivo es
descubrir la estructura subyacente en un conjunto de n individuos
estudiados bajo una serie de p variables cuantitativas.
Supongamos que tenemos n individuos medidos bajo una sola variable,
es fácil describir a estos individuos representándolos en un gráfico de
cajas o histograma; si fuesen dos las variables las representaríamos en
una recta, en un plano, incluso, si las variables fuesen 3 seguiría siendo
posible su representación en tres dimensiones. Estas representaciones
gráficas nos permiten observar geométricamente la estructura interna de
la nube de puntos pero si el número de variables es igual o superior a 4,
entonces la representación gráfica es imposible.
Este método nos permitirá transformar un conjunto de variables
originales en otro conjunto de variables llamadas “Componentes
Principales”, las que serán combinaciones lineales de las originales y se
caracterizarán por estar incorrelacionadas entre sí. En principio se
generaran p componentes principales, es decir, tantas como variables
originales.
Si se toman las variables originales y se calcula su matriz de
correlaciones, lo habitual es encontrar un alto grado de correlación entre
alguna de ellas, esto nos lleva a pensar que podríamos trabajar con un
conjunto de variables incorrelacionadas de menor dimensión. Así si las
variables originales están muy correlacionadas entre sí, es de esperar que
su información pueda expresarse a través de unas pocas componentes
principales, mientras que si las variables originales están muy poco
correlacionadas entre sí, el número de componentes principales será
similar al de variables originales.
Como medida de la cantidad de información incorporada en una
componente se utiliza su varianza explicada, es decir, cuanto mayor sea
su varianza mayor es la cantidad de información que lleva incorporada.
Por esta razón, se selecciona como primera componente la que tenga la
mayor varianza, mientras que, por el contrario la última es la de menor
varianza.
En general la extracción de componentes principales se efectúa sobre
variables tipificadas, para evitar posibles problemas derivados de las
distintas escalas de medida; aunque también es posible aplicar la técnica
sobre variables expresadas en desviaciones respecto de la media.

DEFINICIONES BASICAS ACP__________________


DATOS_______________________________________________________
Disponemos de una matriz Xnxp que contiene las medidas de p variables
tomadas sobre n individuos. Para simplificar el resto de la exposición
supondremos, sin pérdida de generalidad, que las columnas de X tienen
media cero, es decir que se le ha restado la media. Todas las variables tienen
el mismo papel, es decir, el conjunto no se divide en variables dependientes
e independientes como en el caso de la regresión.
El ACP _______________________________________________________
El Análisis por Componentes principales “ACP” consiste en encontrar
transformaciones ortogonales de las variables originales para conseguir un
nuevo conjunto de variables incorreladas, denominadas Componentes
Principales, que se obtienen en orden decreciente de importancia. Las
componentes son combinaciones lineales de las variables originales y se
espera que, solo unas pocas (las primeras) recojan la mayor parte de la
variabilidad de los datos, obteniéndose una reducción de la dimensión en
los mismos. Luego el propósito fundamental de la técnica consiste en la
reducción de la dimensión de los datos con el fin de simplificar el problema
en estudio.
Se trata de una técnica orientada a las variables, suponemos que las p
columnas de X generan un espacio p dimensional, de forma que los n
individuos pueden representarse en dicho espacio en lo que llamaremos una
hipernube. La transformación es, de hecho, una rotación en el espacio p-
dimensional. El espacio generado por las primeras q componentes es
entonces, un subespacio vectorial q-dimensional del espacio p-dimensional
original.
Cuando el valor de q es pequeño, por ejemplo 2, es posible una
representación gráfica directa de los individuos que nos ayudará a
interpretar las similitudes entre los mismos.
El ACP puede entenderse también como la búsqueda del subespacio de
mejor ajuste.
Una de las diferencias fundamentales con el Análisis Factorial es que el ACP
explica variabilidad en lugar de correlaciones, aunque para obtener una
reducción efectiva de la dimensión es necesario que las variables estén
correlacionadas. En otras palabras, si las variables están altamente
correlacionadas, tienen información común y la dimensión real de los datos
es menor que p.

En muchas ocasiones es difícil encontrar el significado de las componentes,


como variables compuestas, por lo que el uso principal de la técnica es la
reducción de la dimensión como paso previo a la aplicación de otros análisis
posteriores, por ejemplo, un diagrama de dispersión de las primeras
componentes con el objeto de encontrar “clusters” en los datos o con el objeto
de contrastar similitudes o diferencias entre los individuos.
El ACP es una técnica que no necesita que se especifique un modelo concreto
para explicar el “error”, en particular, no se hace ninguna suposición sobre
la distribución de probabilidad de las variables originales, aunque si se
supone que es normal multivariante es posible obtener algunos resultados
inferenciales adicionales.

OBTENCION DE COMPONENTES PRINCIPALES____________


La obtención de las CP puede realizarse por varios métodos alternativos:

1.- Buscando aquella combinación lineal de las variables que maximiza la


variabilidad. (Hottelling).

2.- Buscando el subespacio de mejor ajuste por el método de los mínimos


cuadrados. (Minimizando la suma de cuadrados de las distancias de cada
punto al subespacio). (Pearson).

3.- Minimizando la discrepancia entre las distancias euclídeas entre los


puntos calculadas en el espacio original y en el subespacio de baja
dimensión. (Coordenadas principales, Gower).

4.- Mediante regresiones alternadas (métodos Biplot).

Denotaremos con X1, … , Xp las variables originales y con Y1, … , Yp las


componentes. En principio, podemos obtener tantas componentes como
variables originales. X denotará la matriz de variables originales e Y el de
componentes. X es la matriz de datos originales, que supondremos centrada
por columnas, y S es la matriz de covarianzas entre las variables.

𝟏
𝑺= 𝑿′𝑿
𝒏−𝟏
Buscamos combinaciones lineales de las variables observadas que sean
incorreladas y con varianzas progresivamente decrecientes:

Donde Y es la matriz que contiene las puntuaciones de cada uno de los


individuos sobre las componentes y V es la matriz que contiene los
coeficientes de las combinaciones lineales en columnas. Y1 será aquella
componente que explique la mayor parte de la variabilidad, Y2 será ortogonal
a Y1 y explicará la mayor parte de la variabilidad restante y así
sucesivamente. Si la nube de n puntos que representan a las filas de la
matriz X está contenida en un subespacio de dimensión q < p será posible
reconstruir las posiciones de los n puntos a partir de las coordenadas de q
nuevos ejes y de las componentes de estos nuevos ejes. Por lo tanto, lo que
se intenta es ajustar la nube de n puntos por un subespacio vectorial de Rp
dotado de la distancia euclídiana ordinaria.
Se buscará la recta Fl que pasa por el origen y se ajusta lo mejor posible a
la nube. Sea v un vector unitario de esa recta, es decir, v tv = 1 Como cada
fila de X representa un punto de Rp, las n filas de vector Xv son las n
longitudes de las proyecciones de los puntos de la nube sobre F1. Para cada
punto, el cuadrado de la distancia al origen se descompone en el cuadrado
de su proyección sobre F1 y el cuadrado de su distancia a F1. Como las
distancias al origen están fijadas, minimizar la suma de cuadrados de las
distancias a F1 es equivalente a maximizar la suma de cuadrados de las
proyecciones.
Planteando el modelo será:

PROPIEDADES_________________________________
- La matriz de vectores propios V define un cambio de base del espacio Rp
en el que se ha representado la matriz de datos originales.

- Las q primeras columnas de V definen la proyección de los puntos en Rp


sobre el subespacio q-dimensional de mejor ajuste.

- Los elementos de V son los cosenos de los ángulos que forman las variables
originales y las componentes principales.

- Las coordenadas de los individuos en el nuevo sistema de referencia son Y


= X V.
- Las coordenadas de las primeras componentes principales permiten
interpretar las similaridades entre individuos con pérdida de información
mínima.

- El ACP utiliza la información redundante, a través de las correlaciones


entre las variables, para reducir la dimensión.

- La matriz de covarianzas entre las componentes es D.

- Las componentes principales son variables incorreladas y, por tanto, con


información independiente.

- Si se trabaja con datos brutos, la primera componente principal suele


mostrar la traslación de la nube de puntos con respecto al origen.

- Si las variables están centradas, las componentes se calculan a partir de


la matriz de covarianzas y las componentes estarán dominadas por las
variables con escala de medida mayores.

- Si se trabaja con datos estandarizados, las componentes principales se


obtienen de la diagonalización de la matriz de correlaciones. Se utilizarán
datos estandarizados cuando las escalas de medida de las variables sean
muy diferentes.

NÚMERO DE EJES A RETENER_______________________________


Hay varias metodologías alternativas para decidir sobre el número de ejes a
retener, tales como:

 Prueba de Anderson: Si los datos son normales, es posible realizar un


test para contrastar si las últimas (p-q) raíces son iguales a cero,
𝑝
𝑝 ∑𝑖=𝑞+1 𝜆𝑖
𝜒2 = −(𝑛 − 1) ∑𝑖=𝑞+1 𝐿𝑛(𝜆𝑖) + (𝑛 − 1)(𝑝 − 𝑞)𝐿𝑛( 𝑝−𝑞
)

Cuya distribución es 𝜒2 con (1/2)(p-q)(p-q+1) -1 grados de libertad.

 Gráfico de Sedimentación o Screen Plot: Gráfico de los valores propios.


Se seleccionan ejes hasta que se vea un decrecimiento brusco en la
magnitud de los valores propios.

 Criterio de la Media Aritmética. Se seleccionan las componentes cuya


varianza (valor propio) o inercia asociada a cada componente, exceda
de la media de las raíces características. Por tanto, se debe verificar
que:
p

λ i
λh  λ  i 1
p
p

λ j p
Si las variables originales están tipificadas j1
, por lo que la
media de la inercia es igual a 1; es decir, retener tantos ejes como
valores propios mayores que 1 halla.

 Seleccionar las componentes necesarias para explicar un determinado


porcentaje de la varianza.

INTERPRETACIÓN DE RESULTADOS_________________________
 Diagramas de dispersión que representan los valores de los individuos
en las primeras componentes principales.

 Interpretación de distancias en términos de similitud.

 Búsqueda de clusters (grupos) y patrones.

 Interpretación de las componentes utilizando las correlaciones con las


variables originales. Las posiciones de los individuos se interpretan
después en relación a la interpretación dada a las componentes.

DEFINICIONES BASICAS AFE__________________


Encontraremos similitudes entre el AFE y el ACP, pero difieren en sus
objetivos, sus características y también en su grado de formalización. El
análisis factorial exploratorio es adecuado cuando el objetivo del análisis
es identificar la estructura factorial que subyace bajo las variables
originales, esto es, los factores se seleccionan para explicar la
interrelación entre variables.

El AFE requiere de la elaboración de un modelo, el cual involucra la


formulación de hipótesis estadísticas y la aplicación de métodos de
inferencia.

Los resultados conseguidos con ambas técnicas son prácticamente


idénticos cuando hay más de 30 variables (Gorsuch, 1983) o cuando las
comunalidades de la mayoría de variables superan 0.60 (Hair, Black,
Babin, Anderson y Tatham, 2006).

DATOS_______________________________________________________
Disponemos de una matriz Xnxp que contiene las medidas de p variables
tomadas sobre n individuos, estas variables observables se usarán
tipificadas, es decir con media 0 y varianza 1.
Planteando el modelo será:

X 1  a11F1  a12 F2    a1q Fq  d1U1


X 2  a21F1  a22 F2    a2 q Fq  d 2U 2
...........................................................
X p  a p1 F1  a p 2 F2    a pq Fq  d pU p
Donde:

En términos matriciales el modelo será: X  AF  DU


Donde:
 La matriz F se llama Matriz Factorial.
 La matriz A es conocida como Matriz de Cargas Factoriales.
Contiene las correlaciones entre los factores y las variables
observadas.

El procedimiento para la aplicación del AFE debería contener la siguiente


secuencia:
1. Selección de las variables que conformarán la base de datos.

2. Cálculo de la matriz de correlaciones.

3. Valorar la pertinencia del modelo, para ello se aplicarán:


 El Contraste de Esfericidad de Bartlet, donde:
H0: Todos los coeficientes de correlación teóricos entre cada par de
variables son nulos. y
H1: Todos los coeficientes de correlación teóricos entre cada par de
variables son no nulos.
 La Medida de Adecuación Muestral de Kaiser, Meyer y Olkin KMO,
que indicará la capacidad de los datos de adecuarse a un modelo
de análisis factorial. Así, los valores cercanos a 1 manifiestan una
muy buena adecuación, mientras que valores inferiores a 0,5 no
son aceptables.
KMO  0.5: Inaceptable
0.5 < KMO  0.6: Bajo
0.6  KMO  0.7: Mediocre
0.8  KMO  0.8: Mediano
0.8  KMO  0.9: Bueno
0.9  KMO  1: Muy bueno
4. Extracción de los factores a partir de la matriz de correlaciones,
con la metodología más adecuada, por ejemplo:
 Componentes Principales
 Máxima Verosimilitud
 Mínimos Cuadrados: no ponderados o generalizados.

5. Rotación de los ejes (factores), si es pertinente, con el único objetivo


de simplificar o mejorar las interpretaciones.
 Rotaciones Ortogonales: Varimax y Quartimax
Al aplicar la rotación ortogonal queda garantizada la incorrelación
entre los factores, esto es: los ejes rotados siguen siendo
perpendiculares al igual que los originales.
 Rotaciones Oblicuas: Oblimin y Quartimin
La aplicación de una rotación oblicua implica que los ejes no son
ortogonales, es decir ya no son perpendiculares, por tanto, los
factores ya no están incorrelacionados.

6. Interpretación de la matriz de factores (rotados, si correspondiera).