Anda di halaman 1dari 31

Anlisis Factorial

Curso Anlisis de Anlisis Multivariado,


Sociologa,
Universidad Acadmia de Humanismo Cristiano.
30 de Noviembre, 2016

Qu es el Anlisis de Factorial?
El Anlisis de Factorial es una tcnica de anlisis multivariado que pertenece a
la familia de modelos de clases latentes. El cual es ampliamente utilizado en ciencias
sociales debido a que muchas cosas no podemos medirlas directamente (ej.
Inteligencia, actitudes polticas, status socioeconmico). Sin embargo estas variables
al no ser observables directamente, sino que se utilizan otras variables para medirlas,
es que se les denomina variables latentes (o subyacentes).
Algunas veces un concepto puede ser representado en una variable latente, pero
normalmente son multidimensionales razn por la poseen ms de una variable
latente.
Las variables latentes comnmente se denominan factores.
Importante:
Muchas veces ACP se confunde con AF, sin embargo esto es incorrecto. AF es
inferencial en el cual los tems son indicadores de la variable latente.

Una Variable Latente (VL) puede ser identificada como aquel concepto til y explicativo
para describir una parte de la realidad. No puede ser medida en s misma.
Una Variable Observada (VO) es aquella que puede ser medida y que es influenciada por
la VL.
Ejemplos de Variables Latentes (VL) y Variables Observadas (VO)?
1)

La Inteligencia es un constructo, no puede ser medido por s mismo. Es una concepto


til y explicativo, pero que en realidad no existe. Por lo tanto es una VL. Mientras
que los puntajes de pruebas pueden ser VO, ya que a mayor inteligencia alguien
debera tener mayores puntajes.

2)

La actitud poltica (izquierda, centro, derecha) sera una VL, donde podemos ubicar a
los individuos en esta escala donde unos estarn ms a la izquierda (derecha) que
otros. Mientras que indicadores (preguntas) que nos ayuden a construir esta escala
sern las VO. (Percepcin sobre: sistema de salud, educacin privada, tratados de
unin).

El inters es entonces intentar identificar variables observadas que ayuden a revelar algo
sobre el concepto subyacente (variable latente).

Ejemplo de un diagrama de Anlisis de Factorial para entender la estructura


subyacente de los datos
Factor Mayor

Factor A

Variable
X1

Variable
X2

Factor B

Variable
X3

Variable
Y1

Variable
Y2

Variable
Y3

Respecto a los modelos de Variable Latente


Los modelos de clases latentes estn relacionados a la regresiones lineales.
En un AF la relacin de regresin es entre variables latentes y variables observadas.
Adems en ambos casos existen suposiciones sobre los errores lo que permite realizar
inferencias.
En AF la esencia del problema radica en invertir la relacin de regresin para saber
respecto de la VL dado los valores de la VO. Por lo tanto, aprendemos de la VL
indirectamente.
La suposicin central aqu es que muchas VO dependen de una VL y que esta
dependencia genera correlacin entre las VO. De hecho, una correlacin entre dos VO
puede ser evidencia de existe una una fuente comn de influencia.
El objetivo de los modelos de variables latentes es entonnes explicar si las VO pueden ser
resumidas en una serie menor de VL.
Los modelos de VL pueden ser utilizados como exploratorios o confirmatorios.

El modelo lineal de un factor: Una regresin lineal

Variable
observada

Cargas
Factoriales

Factor o
variable
latente

Residuos

El modelo de factor lineal como podemos ver es semejante a un modelo regresin lineal
mltiple, dnde buscamos explicar la correlacin entre un conjunto de variables
manifiestas.
Las correlaciones espurias pueden ser explicadas por dependencia de otras variables?

Fijando el modelos
Anlisis Factorial

Matriz de Correlaciones en AF
Dado que en ciencias sociales normalmente trabajamos con variables donde las
unidades de medida son escogidas de forma arbitraria, y por lo tanto los anlisis van
a depender de la escala que hayamos escogido con anterioridad, es importante
estandarizar las variables presentes en un anlisis de componentes principales.
El objetivo del anlisis de factores es explicar las covarianzas o las correlaciones entre
las variables observadas.
La idea es ajustar un modelo factorial implica encontrar los valores de los parmetros
que acerquen lo ms posible los valores de la matriz de correlacin observada a los
valores predichos por el modelo.
Para ello debemos escoger un mtodo que
construya una distancia entre la matriz
observada y la predicha. Algunos mtros
son:
Mxima verosimilitud
Mnimo cuadrados ordinarios

Las cargas factoriales:


Se interpretan similarmente a las cargas de los componentes.
Dado que trabajamos con la matriz de correlaciones, las cargas factoriales pueden
interpretarse como la correlacin entre una variable y el factor latente. Por lo tanto
adquiere valores entre -1 y 1.
En el ejemplo vemos que el primer factor por lo tanto medira un promedio de
habilidades en 6 materias, mientras que un segundo factor lo hara diferenciando
entre habilidades de humanidades vs matemticas.

Comunalidades:
La comunalidad de una variable observada estandarizada es el coeficiente cuadrtico
de correlacin mltiple o la proporcin de la varianza explicada por los factores
comunes.
Estos muestra, por ejemplo, que el 49% de la varianza en las puntuaciones galicas se
explica por los dos factores comunes. Ejemplo. (0.562+ 0.432=0.49).
Entre ms larga la comunalidad demostrar que la variable observada estar mejor
asociada al factor.
La suma de la comunalidades es la varianza explicada
por el factor. Ejemplo. (281/6=47%).

Adecuacin del modelo y eleccin del nmero de factores.


El objetivo principal de AF es reducir la dimensionalidad del conjunto de datos,
manteniendo al mismo tiempo suficientes dimensiones para proporcionar una buena
representacin aproximada de los datos originales.
1)

Porcentaje de varianza explicado por los factores


1) A pesar que deseamos explicar la covarianza entre las VO ms que la
varianza, la proporcin de varianza explicada debe ser razonablemente alta.

2)

Matriz de correlaciones reproducidas


1) Comparar la matriz de correlacin reproducida respecto a la matriz observada
debe arrojar diferencias pequeas.

3)

Test de bondad de ajuste


1) Debemos fallar en el rechazo de la hiptesis nula (se buscan valores sobre
0.05). Sugiere que la matriz de covarianza es compatible con la solucin
obtenida.

Adecuacin del modelo y eleccin del nmero de factores.


Para escoger el nmero de factores hay que fijarse entonces en:
1.

Las comunalidades

2.

La discrepancia entre las matriz reproducida y la observada

3.

El test de bondad de ajuste

Rotacin de los ejes


La rotacin se utiliza para clarificar la estructura subyacente de los factores,
facilitando relativamente el patrn de interpretacin de las cargas.
La rotacin no altera el ajuste del modelo.
Tampoco cambia la matriz de correlaciones reproducida.
Las comunalidades no varan.

Cargas Factoriales No Rotadas vs Rotadas

Condiciones de aplicacin
Tamao Muestral

Mnimo 50 casos / Aceptado 200 a 300 / Ideal sobre 1000

Recomendaciones
Al menos 5-10 sujetos por variable
El nmero de variable no debe exceder de la mitad de los sujetos

Tipo de variables
Optimo variables continuas, Aceptadas ordinales
Relacin entre variables
Mnimo de 0,3
Funcin de las variables
Variables independientes pero interdependientes
Variables tericamente relacionadas con un concepto general

Anlisis de Componentes
Principales
vs
Anlisis Factorial

ACP vs AF: Objetivos en comn, pero procedimientos de logro diferentes.


Ambos mtodos buscan reducir la dimensionalidad de un conjunto de variables
observadas en componentes o factores (segn sea el caso)
ACP: busca encontrar los componentes que contengan la mayor cantidad de
varianza posible
FA: intenta igualar la matriz de correlaciones reconstruida con la matriz
observada
Ambas mtodos no funcionan si el conjunto de tems no tiene alta correlacin.
ACP: de los contrario los componentes sern similares a las variables originales
AF: Habr una baja correlacin que explicar.
ACP es un modelo descriptivo, mientras que AF es inferencial.
En ACP el primero componente siempre ser el mismo, sin importar la cantidad de
componentes extrados. Sin embargo, en AF, un modelo de un factor ser diferente un
modelo de dos factores.

Ejemplo de un
Anlisis Factorial

Ejemplo de una aplicacin de AF.


Supongamos que tenemos las notas de 100 alumnos, cada uno con 3 notas en
matemticas y 3 notas en lenguaje, donde la matriz de correlacin es la siguiente.
Mat1

Mat2

Mat3

Len1

Len2

Mat1

1.00

Mat2

0.90

1.00

Mat3

0.85

0.78

1.00

Len1

0.02

0.21

0.09

1.00

Len2

0.12

0.01

0.02

0.87

1.00

Len3

-0.10

0.12

0.11

0.86

0.76

Len3

1.00

Dado que un objetivo de AF es intentar encontrar una variable latente que permita dar
cuenta de la alta asociacin entre variables altamente correlacionadas, y que por lo tanto
explique los altos puntajes es que aplicaremos esta tcnica.

Una de las formas de identificar la


cantidad de factores presentes en un
anlisis es mediante el grafico
paralelo.
En el eje X se encuentran la cantidad
de factores posibles, mientras que el
eje Y se encuentra el valor propio para
cada factor principal.

De acuerdo a los datos generados,


estaramos en presencia de dos
factores.
Habilidades en matemticas
Habilidades en lenguajec

Ejemplo de un diagrama de Habilidades Acadmicas

Habilidad en Matemticas

Puntaje
Mat1

Puntaje
Mat2

Puntaje
Mat3

Habilidad en Lenguaje

Puntaje
Len1

Puntaje
Len2

Puntaje
Len3

Este diagrama de Habilidades Acadmicas es lo mismo que lo anterior?


Habilidad Acadmica

Habilidad en Matemticas

Puntaje
Mat1

Puntaje
Mat2

Puntaje
Mat3

Habilidad en Lenguaje

Puntaje
Len1

Puntaje
Len2

Puntaje
Len3

AF en R Studio

Siempre se recomienda analizar como se comportan los datos, para ellos se


realizar una matriz de correlaciones con el comando cor.
cor(data)
Muchas veces se tendr muchas variables, por lo que estudiar la matriz de
correlacin se vuelve complejo, debido a lo anterior se realizar el anlisis KMO.
KMO(data)

Se esperan normalmente valores superiores a 0.70

En un primer momento siempre realizamos un anlisis exploratorio


mediante el comando fa.parallel el cual proporcionar un grfico que
nos dice cual es la cantidad de factores a retener.

fa.parallel(data, fa="fa",fm="ml")

Esto podra ser complementado con un ScreePlot (grfico con la


informacin los eiguenvalues)

scree.plot(data)

Como evidenciamos, el grfico de valores


propios no dice que hay 4 factores con
eiguen values mayores a 1.
Por su parte, el anlisis paralelo nos dice
que son 5 los factores (donde cruzan las
lneas). Probremos el anlisis con 5
factores.

Posteriormente utilizamos el comando fa para realizar el anlisis


factorial.
fa(r=data, nfactors=xx, fm=ml)

1
2

Estadstico

Interpretacin

1 Valores propios

Se esperan valores mayores a 1

2 Varianza explicada

Cantidad de varianza explicada por


cada componente

3 Comunalidades

Indica el grado de asociacin entre


entre una variable observada y el
factor.

4 Cargas Factoriales

Indica la correlacin de cada una de


las variables con el factor.
Idealmente, se esperan valores
sobre 0.4

Anlisis Factorial

Curso Anlisis de Anlisis Multivariado,


Sociologa,
Universidad Acadmia de Humanismo Cristiano.
30 de Noviembre, 2016