Anda di halaman 1dari 36

Centro de Investigacin en Matemticas

Unidad Aguascalientes

Anlisis de Factores

Sergio Nava

1
Centro de Investigacin en Matemticas
Unidad Aguascalientes
Introduccin
Las ideas bsicas de Anlisis de Factores (AF) fueron sugeridas a principios del siglo
XX por Francis Galton y Charles Spearman entre otros, y originado principalmente
por los esfuerzos de los psiclogos por alcanzar un mejor entendimiento de la
inteligencia.

Qu es?
Factor: un constructo, una entidad hipottica, una variable latente, una variable
que no se observa directamente.
El anlisis factorial identifica variables subyacentes, o factores, que expliquen la
configuracin de las correlaciones dentro de un conjunto de variables
observadas.
Identifica la estructura subyacente en una matriz de datos.

2
Centro de Investigacin en Matemticas
Unidad Aguascalientes
Para qu sirve?
Condensar o resumir informacin, reducir el nmero de variables
Definir dimensiones, identificar la estructura de los datos
Ofrece evidencia de validez del constructo
Genera puntuaciones compuestas

3
Centro de Investigacin en Matemticas
Unidad Aguascalientes
Anlisis de factores vs Componentes Principales
El anlisis de factores (FA) es otra tcnica dirigida para las variables.

El anlisis de componentes principales (PCA) produce una transformacin


ortogonal de las variables y no depende de un modelo subyacente; en tanto
que el anlisis de factores s depende de un modelo estadstico razonable.

En el anlisis de factores el foco de inters es la explicacin de la estructura


de covarianza o de correlacin, o de ambas, entre las variables medidas,
mientras que en el PCA el inters se centra en la explicacin de la variabilidad
de las variables (varianza).

4
Centro de Investigacin en Matemticas
Unidad Aguascalientes
Anlisis de Factores
Uno de los objetivos bsicos del anlisis de factores es determinar si las p
variables respuesta exhiben patrones de relacin entre s, tales que las
variables se puedan dividir en, digamos, m sub-conjuntos, en el que cada uno
conste de un grupo de variables que tiendan a estar ms fuertemente
relacionadas con las dems variables dentro del conjunto que con las de los
otros subconjuntos.

5
Centro de Investigacin en Matemticas
Unidad Aguascalientes
Ejemplo 1 FA
Suponga que hemos tomado 20
medidas del cuerpo de una persona:
estatura, longitud del tronco y de
las extremidades, peso, etc.

Es intuitivo que todas estas medidas


no son independientes entre si.

Las dimensiones del cuerpo


humano dependen de ciertos
factores y si estos fuesen conocidos,
podramos prever las dimensiones
con un error pequeo.

6
Centro de Investigacin en Matemticas
Unidad Aguascalientes
Ejemplo 2 FA
Supongamos que estamos interesados
en estudiar el desarrollo humano en
los pases del mundo, y que
disponemos de muchas variables
econmicas, sociales y demogrficas,
en general dependientes entre s, que
estn relacionadas con el desarrollo
humano.
Podemos preguntarnos si el desarrollo
de un pas depende de un pequeo
nmero de factores tales que,
conocidos sus valores, podramos
prever el conjunto de las variables de
cada pas.

7
Centro de Investigacin en Matemticas
Unidad Aguascalientes
Ejemplo 3 FA
Supongamos que medimos, con distintas
pruebas, la capacidad mental de un
individuo para procesar informacin y
resolver problemas.

Podemos preguntarnos si existen unos


factores, no directamente observables, que
explican los resultados observados.

El conjunto de estos factores es lo que


llamamos inteligencia y es importante
conocer cuantas dimensiones tiene este
concepto.

8
Centro de Investigacin en Matemticas
Unidad Aguascalientes
Ejemplo 4 FA
l1 Espaol h1
Espaol = l1 f + h1
l2 Ciencias h2
Ciencias = l2 f + h2
Ingls = l3 f + h3 l3 Ingls h3
f
Matemticas = l4 f + h4
l4 Matemticas h4
Redaccin = l5 f + h5
l5 Redaccin h5
Msica = l6 f + h6
l6 Msica h6

9
Centro de Investigacin en Matemticas
Unidad Aguascalientes
x1 a11 f1 e1
x2 a21 f1 e2
x3 a31 f1 e3

f1

a11 a21 a31


x1 x2 x3

e1 e2 e3

10
Centro de Investigacin en Matemticas
Unidad Aguascalientes

x1 a11 f1 a12 f 2 e1
x2 a21 f1 a22 f 2 e2
x3 a31 f1 a32 f 2 e3

f1 f2

a12 a32
a22
a11 a21 a31

x1 x2 x3

e1 e2 e3
11
Centro de Investigacin en Matemticas
Unidad Aguascalientes

x1 a11 f1 e1
x2 a21 f1 a22 f 2 e2
x3 a32 f 2 e3

f1 f2

a22 a32
a11 a21

x1 x2 x3

e1 e2 e3
12
Centro de Investigacin en Matemticas
Unidad Aguascalientes

x1 a11 f1 e1
x2 a21 f1 a22 f 2 e2
x3 a31 f1 a32 f 2 e3

f1 f2

a22 a32
a11 a21 a31

x1 x2 x3

e1 e2 e3

13
Centro de Investigacin en Matemticas
Unidad Aguascalientes
1 = 11 1 + +1
2 = 21 1 + +2
3 = +32 2 + +3
4 = +42 2 + +4
5 = +52 2 + +5
6 = +63 3 + 6
f1 f2 f3

a11 a21 a32 a42 a52 a63

x1 x2 x3 x4 x5 x6

e1 e2 e3 e4 e5 e6
14
Centro de Investigacin en Matemticas
Unidad Aguascalientes
Planteamiento
Supongamos que tenemos p variables X1, X2, ..., Xp, las cuales tienen un
vector de medias y una matriz de varianzas y covarianzas .
Como estamos interesados en la estructura de covarianzas de las
variables, sin prdida de generalidad suponemos que = 0, y tomamos la
matriz de correlacin en lugar de la matriz de varianzas y covarianzas .
Dicho de otra forma suponemos que cada xi es una variable estandarizada,
es decir, = .
Ser conveniente tambin suponer que es de rango completo p.

15
Centro de Investigacin en Matemticas
Unidad Aguascalientes
Planteamiento (cont.)
El modelo de AF supone que hay m factores subyacentes (m<p) que
denotaremos por f1, f2, , fm, y cada variable observada es una combinacin
lineal de estos factores ms una variable residual, as que:

1 = 11 1 + 12 2 + + 1 + 1
2 = 21 1 + 22 2 + + 2 + 2

= 1 1 + 2 2 + + +

16
Centro de Investigacin en Matemticas
Unidad Aguascalientes
Planteamiento (cont.)
Otra suposicin que se suele hacer es que los factores fi tienen tambin
varianza unitaria.
A los se les llama los factores de carga o simplemente cargas de la
isima variable en el j simo factor comn.
Los son las variables residuales o tambin conocidas como factores
nicos o especficos.
Por razones obvias a los factores usualmente se les llama factores
comunes.

17
Centro de Investigacin en Matemticas
Unidad Aguascalientes
Planteamiento (continuacin)
Ahora bien, si denotamos a
= 1 , 2 , , ,
= 1 , 2 , , ,
= 1 , 2 , , ,

11 1
= ,
1

18
Centro de Investigacin en Matemticas
Unidad Aguascalientes
Planteamiento (continuacin)
Entonces podemos re-escribir

1 = 11 1 + 12 2 + + 1 + 1
2 = 21 1 + 22 2 + + 2 + 2

= 1 1 + 2 2 + + +
como
= +

19
Centro de Investigacin en Matemticas
Unidad Aguascalientes
Planteamiento (cont.)
En general se supone que la parte nica de cada variable est no
correlacionada con cada una de las otras o con su parte comn; esto es
1 0 0

0 2 0
=
0 0

, = .

20
Centro de Investigacin en Matemticas
Unidad Aguascalientes
Planteamiento (cont.)
Los factores comunes se suponen que tienen media 0 y varianza 1 y que son
mutuamente no correlacionados; esto es
= 0,
= .
Dadas todas estas suposiciones, podemos escribir la matriz de varianzas y
covarianzas de X en la forma

= + y.

21
Centro de Investigacin en Matemticas
Unidad Aguascalientes

= + y.
x1 x2 x3 x4 x5
x1 1.000 0.945 0.934 -0.051 -0.114

= x2
x3
0.945
0.934
1.000
0.776
0.776
1.000
-0.076
0.003
-0.114
-0.090
x4 -0.051 -0.076 0.003 1.000 0.695
x5 -0.114 -0.114 -0.090 0.695 1.000

x1 x2 x3 x4 x5
0.992 0.118
0.940 0.089 x1 0.998 0.942 0.939 -0.045 -0.120
0.929 0.153

0.992 0.940 0.929 -0.154 -0.227
0.118 0.089 0.153 0.910 0.891
= x2
x3
0.942 0.891 0.886 -0.064 -0.134
0.939 0.886 0.886 -0.004 -0.075
-0.154 0.910
-0.227 0.891 x4 -0.045 -0.064 -0.004 0.851 0.846
x5 -0.120 -0.134 -0.075 0.846 0.846

L L

22
Centro de Investigacin en Matemticas
Unidad Aguascalientes
No unicidad de los factores
Si m > 1, la matriz de cargas de los factores no es nica. Es decir, si existen L y
y de modo que
= + y
entonces
= + y
Para toda matriz ortogonal . (Recuerde que T es una matriz ortogonal si
TT=I.).
Entonces se concluye de que
P=(L T)(L T)+ y

23
Centro de Investigacin en Matemticas
Unidad Aguascalientes
No unicidad de los factores (cont.)
Por consiguiente, si L es una matriz de cargas, entonces LT tambin es una
matriz de cargas para cualquier matriz ortogonal T.
Este resultado tambin se puede ilustrar con el modelo del AF. Si
= + , entonces
= ()() +
= + (digamos)
Como consecuencia, si L es una matriz de cargas, entonces L*= LT tambin es
una matriz de cargas para cualquier matriz ortogonal T.

24
Centro de Investigacin en Matemticas
Unidad Aguascalientes
No unicidad de los factores (ejemplo)
Si = + y Entonces para toda matriz ortogonal . (Recuerde que T es una
matriz ortogonal si TT=I.). Entonces se concluye de que P=(L T)(L T)+ y
0.986 -0.166
0.166 0.986
0.986
-0.166
0.166
0.986 = 1.000
0.000
0.000
1.000 TT=I
0.992 0.118 0.998 -0.048
0.940 0.089 0.941 -0.068
0.929 0.153
0.986 -0.166
0.166 0.986 = 0.941 -0.004 LT
-0.154 0.910 -0.001 0.923
-0.227 0.891 -0.076 0.917

0.992 0.118
= + y 0.002 0.003 -0.005 -0.006 0.006
0.003 0.109 -0.110 -0.013 0.020
+
0.940 0.089
=
0.992 0.940 0.929 -0.154 -0.227
0.929 0.153 -0.005 -0.110 0.114 0.007 -0.015
0.118 0.089 0.153 0.910 0.891
-0.154 0.910 -0.006 -0.013 0.007 0.149 -0.151
-0.227 0.891 0.006 0.020 -0.015 -0.151 0.154

0.998 -0.048
P=(L T)(L T)+ y 0.002 0.003 -0.005 -0.006 0.006
0.003 0.109 -0.110 -0.013 0.020
+
0.941 -0.068
= 0.941 -0.004 0.998 0.941 0.941 -0.001 -0.076
-0.048 -0.068 -0.004 0.923 0.917
-0.005 -0.110 0.114 0.007 -0.015
-0.006 -0.013 0.007 0.149 -0.151
-0.001 0.923
-0.076 0.917 0.006 0.020 -0.015 -0.151 0.154
Centro de Investigacin en Matemticas
Unidad Aguascalientes
Descomposicin de la varianza
La varianza de cada variable xi puede

escribirse como
1= 2 + ,
=1

= +

y por lo tanto la varianza se divideen dos partes. La primer parte


2
=1
es la varianza explicada por los factores comunes y usualmente se le llama
comunalidad. El segundo trmino se llama varianza nica. La covarianza
entre y est dada por

.
=1
Centro de Investigacin en Matemticas
Unidad Aguascalientes
Descomposicin de la Varianza (cont.)
La matriz = + y es de vital importancia y de aqu se muestra que
los factores explican los trminos fuera de la diagonal de ya que y es
diagonal.

Tambin establece que encontrar las cargas de los factores es


equivalente a factorizar la matriz de varianzas y covarianzas de x , con la
condicin adicional de que los elementos de y deben ser no negativos.

27
Centro de Investigacin en Matemticas
Unidad Aguascalientes

f1 f2
Resultado
x1= 0.992f1 +0.118f2
x1 0.992 0.118
x2= 0.940f1 +0.089f2
x2 0.940 0.089
x3= 0.929f1 +0.153f2
x3 0.929 0.153
x4= -0.154f1 +0.910f2
x4 -0.154 0.910
x5= -0.227f1 +0.891f2
x5 -0.227 0.891

f2 f1
Simplificando
x1= 0.992f1
.910 .891
x2= 0.940f1 .992 .940 .929
x3= 0.929f1
x4= 0.910f2 x4 x5 x1 x2 x3
x5= 0.891f2

e4 e5 e1 e2 e3
Centro de Investigacin en Matemticas
Unidad Aguascalientes
Soluciones por computadora de las
ecuaciones del anlisis de factores
1.- Factores principales, con o sin iteracin.
2.- Factores cannicos de Rao.
3.- Factores alfa.
4.- Factores imgenes.
5.- Mxima verosimilitud.
6.- Anlisis de factores mediante mnimos cuadrados no
ponderados.
7.- Factores de Harris.

29
Centro de Investigacin en Matemticas
Unidad Aguascalientes

Criterios para seleccin de factores


Raz latente
Autovalores (eigen values) mayores a 1
Un autovalor explica la varianza de una variable

Porcentaje de varianza
La varianza explicada por los factores

Criterio de contraste de cada


Se observa la cada en la explicacin de la varianza por los factores

Criterio a priori
El investigador determina el nmero de factores
Centro de Investigacin en Matemticas
Unidad Aguascalientes

31
Centro de Investigacin en Matemticas
Unidad Aguascalientes

32
Centro de Investigacin en Matemticas
Unidad Aguascalientes

33
Centro de Investigacin en Matemticas
Unidad Aguascalientes
Rotacin de factores
Como se sugiri anteriormente, no hay una solucin nica para el anlisis
de factores. A continuacin se introducir la rotacin de factores como un
medio para obtener factores que son mas fcilmente interpretables.

34
Centro de Investigacin en Matemticas
Unidad Aguascalientes

35
Centro de Investigacin en Matemticas
Unidad Aguascalientes

Rotacin
Varimax: Esta rotacin consiste en encontrar la matriz de cargas de tal
forma que slo uno de los elementos de las cargas est cercano a 1 en
cada rengln, y que la mayora de los elementos en el rengln estn
cercanos a 0. El mtodo Varimax es el mtodo de rotacin ms
ampliamente usado.
Quartimax: Este mtodo de rotacin usualmente produce un factor
general. Despus de este primer factor general las cargas en los factores
restantes tienden a ser menor que en la rotacin varimax
Rotacin oblicua: En algunas aplicaciones es preferible permitir una
cantidad pequea de correlacin entre los factores. Los mtodos de
rotacin que permiten a los factores estar correlacionados se llaman
oblicuos . No hay un solo mtodo de rotacin oblicua que sea el ms
popular, y el uso de rotaciones oblicuas requiere una experiencia
considerable.

36