Anda di halaman 1dari 15

ANLISE DE COMPONENTES PRINCIPAIS E ANLISE FACTORIAL

1
Anlise Factorial
O propsito essencial da anlise factorial descrever, se possvel, a estrutura
de covarincias entre as variveis em termos de um n menor de variveis (no
observveis) chamadas factores. Por outras palavras, a anlise factorial estuda
os inter-relacionamentos entre as variveis, num esforo para encontrar um
conjunto de factores (em menor n que o conjunto de variveis originais) que
exprima o que as variveis originais partilham em comum.
ANLISE DE COMPONENTES PRINCIPAIS E ANLISE FACTORIAL
2
Basicamente o modelo de anlise factorial motivado pelo seguinte:
Suponhamos que as variveis podem ser agrupadas tendo em conta as
correlaes entre elas. Isto , todas as variveis de um dado grupo esto
fortemente correlacionadas entre si, mas tm correlaes relativamente
pequenas com variveis de outro grupo. concebvel que cada grupo de
variveis represente um factor, factor esse que responsvel pelas
correlaes observadas.
ANLISE DE COMPONENTES PRINCIPAIS E ANLISE FACTORIAL
3
Em geral o primeiro passo a dar neste tipo de anlise, consiste no exame das
relaes entre as variveis utilizando o coeficiente de correlao como medida
de associao entre cada par de variveis. A matriz de correlaes poder
permitir identificar subconjuntos de variveis que esto muito correlacionadas
entre si no interior de cada subconjunto, mas pouco associados a variveis de
outros subconjuntos. Neste caso a aplicao da anlise factorial permitir-nos-
concluir se possvel explicar este padro de correlaes atravs de um menor
n de variveis - os factores.
De forma resumida, podemos dizer que a anlise factorial uma tcnica
estatstica usada para identificar um nmero relativamente pequeno de factores
que podem ser usados para identificar relacionamentos entre um conjunto de
muitas variveis inter-relacionadas entre si.
ANLISE DE COMPONENTES PRINCIPAIS E ANLISE FACTORIAL
4
EXEMPLO:
Suponha que um director de uma fbrica de automveis pretende entender o
que leva um consumidor a escolher um modelo especfico de automvel, isto ,
quais os factores que levam os consumidores a escolher um modelo especfico
de automvel. Para isso foram consideradas as opinies de um conjunto de
consumidores acerca da importncia das seguintes variveis para a escolha de
um automvel:
CRB - custos de reparao baixos VC - variedade de cores disposio
EIA - espao interior amplo BC - bom consumo
FM - fcil de manejar DM - design moderno
BM - bom motor PRA - preo de revenda alto
C - confortvel AS - aparncia suave
FC - fcil de conduzir MA - modelo atraente
MG - mala grande FE - fcil de estacionar
ANLISE DE COMPONENTES PRINCIPAIS E ANLISE FACTORIAL
5
difcil avaliar 14 variveis separadamente ou desenvolver planos de aco
tendo em conta tantas variveis.
Em vez disso seria ideal saber como pensam os consumidores em termos de
dimenses (factores) mais gerais.
Para identificar estas dimenses foi aplicada a anlise factorial, cujos resultados
sugerem que as 14 variveis podem ser caracterizadas por
4 factores (I, II, III e IV) relacionados com
I conforto
II custo/eficincia
III estilo
IV facilidade de manipulao
ANLISE DE COMPONENTES PRINCIPAIS E ANLISE FACTORIAL
6
EIA
BC
CRB
VC
BM
AS
FC
DM
MA
FE
MG
PRA
FM
C
I
CRB
PRA
BM
BC
EIA
C
MG
VC
AS
DM
MA
FM
FC
FE
II
III
IV
ANLISE DE COMPONENTES PRINCIPAIS E ANLISE FACTORIAL
7
MODELO FACTORIAL (ORTOGONAL)
Seja X
T
=(X
1
, X
2
,...,X
p
) um vector aleatrio de mdia u
T
=(u
1
, u
2
,..., u
p
) e matriz de
covarincias E.
Modelo de anlise factorial:
X
1
-u
1
= l
11
F
1
+ l
12
F
2
+...+ l
1m
F
m
+c
1
X
2
-u
2
= l
21
F
1
+ l
22
F
2
+...+ l
2m
F
m
+c
2
.
X
p
-u
p
= l
p1
F
1
+ l
p2
F
2
+...+ l
pm
F
m
+c
p
em notao matricial: X - u = L F + c
(px1) (pxm) (px1)
ANLISE DE COMPONENTES PRINCIPAIS E ANLISE FACTORIAL
8
onde:
- l
ij
- loading (ou peso) da varivel X
i
no factor F
j
- L=

pm 1 p
m 1 11
l l
l l

. .

- matriz de loadings
- F
T
=| |
m 2 1
F F F - vector de variveis aleatrias no observveis
chamadas factores comuns
- c
T
=| |
m 2 1
c c c - vector de variveis aleatrias no observveis
chamadas factores especficos ou factores nicos
ANLISE DE COMPONENTES PRINCIPAIS E ANLISE FACTORIAL
9
Note que:
i) o factor especfico c
i
est associado apenas com a varivel X
i
;
ii) os p desvios X
1
-u
1
, X
2
-u
2
,..., X
p
-u
p
so expressos em termos de p+m
variveis no observveis: F
1
, F
2
,...,F
m
, c
1
, c
2
,..., c
p
.
Pressupostos:
- E(F) =

) E(F
) E(F
) E(F
m
2
1
.
=

0
0
0
.
- Cov(F) = E(FF
T
) = I =

1 0 0
0 1 0
0 0 1

. . .

os factores so
independentes entre si
ANLISE DE COMPONENTES PRINCIPAIS E ANLISE FACTORIAL
10
- E(c) =

) E(
) E(
) E(
p
2
1
.
=

0
0
0
.
- Cov(c) = E(cc
T
) = + =

v
v
v
p
2
1
0 0
0 0
0 0

. . .

matriz diagonal
- F e c so independentes
logo
Cov(c
i
, F
j
) = E(c
i
F
j
) - E(c
i
) E(F
j
) = 0, i=1,2,...p e j=1,2,...m
e
Cov(c, F) = E(c F
T
) =

) F , Cov( ) F , Cov( ) F , Cov(


) F , Cov( ) F , Cov( ) F , Cov(
) F , Cov( ) F , Cov( ) F , Cov(
m p 2 p 1 p
m 2 2 2 1 2
m 1 2 1 1 1

. . .

= 0
ANLISE DE COMPONENTES PRINCIPAIS E ANLISE FACTORIAL
11
Estrutura de covarincias para o modelo:
1. = Cov(X) = LL
T
+ +
i.e. Var(X
i
) =

especfica
varincia
i
h
2
i
+ + + + +
.

2
im
2
i2
2
i1
l l l
Cov(X
i
,X
k
) = l
i1
l
k1
+ l
i2
l
k2
+.+ l
im
l
km
2. Cov(X,F) = L
i.e. Cov(X
i
,F
j
) = l
ij
comunalidade
ANLISE DE COMPONENTES PRINCIPAIS E ANLISE FACTORIAL
12
Em que:
-
2
i
h comunalidade
|
poro da Var(X
i
) que pode ser atribuda aos factores comuns
explicada pelos factores comuns
que partilhada com todas as outras variveis
- +
i
varincia especifica
|
poro da Var(X
i
) que especfica de X
i
e que no est associada com
outras variveis
indica at que ponto os factores comuns falham na explicao da
varincia total da varivel
-
2
ij
l contribuio do factor F
j
para a varincia de X
i
ANLISE DE COMPONENTES PRINCIPAIS E ANLISE FACTORIAL
13
Ambiguidade associada ao modelo:
A matriz L de loadings determinada a menos de uma transformao
ortogonal.
Se L a matriz de loadings associada a um modelo factorial e T uma matriz
ortogonal (i.e., tal que TT
T
=I), ento a matriz L
*
= LT tambm uma matriz
admissvel para o modelo factorial:
X - u = LF + c =

F T T L
I
T
+ c = L
*
F
*
+ c
com
F
*
e c independentes
E(F
*
) = 0 e Cov(F
*
) = I
E(c) = 0 e Cov(c) = +
As comunalidades dadas na diagonal de LL
T
e de L
*
(L
*
)
T
no so afectadas
pela escolha de T.
ANLISE DE COMPONENTES PRINCIPAIS E ANLISE FACTORIAL
14
Mtodos de Estimao:
Dadas n observaes das p variveis correlacionadas X
1
, X
2
,...,X
p
, a anlise
factorial procura responder questo:
Ser que o modelo factorial ortogonal com um pequeno n de factores
representa adequadamente os dados?
Para tal, que tentar verificar a estrutura de covarincias do modelo.
Quando os elementos fora da diagonal principal da matriz amostral de
covarincias S forem muito pequenos, ou no caso da matriz amostral de
correlaes R forem prximos de zero, as variveis no esto relacionadas ou
esto pouco relacionadas e a anlise factorial no ser til.
ANLISE DE COMPONENTES PRINCIPAIS E ANLISE FACTORIAL
15
Nestas circunstncias os factores especficos tm um papel dominante e o
objectivo principal da anlise factorial determinar alguns factores comuns.
Por isso, uma vez calculada a matriz amostral de correlaes, se existirem
variveis no correlacionadas em nmero elevado dever ser testada a validade
de aplicao deste tipo de anlise.
ANLISE DE COMPONENTES PRINCIPAIS E ANLISE FACTORIAL
16
Existem vrios mtodos de estimao (ou de extraco de factores), de entre os
quais:
mtodo das componentes principais - principal components;
mtodo da mxima verosimilhana - maximum likelihood;
mtodo dos mnimos quadrados - unweighted least squares (ULS) e
generalized least squares (GLS);
principal-axes factoring;
mtodo alfa.
ANLISE DE COMPONENTES PRINCIPAIS E ANLISE FACTORIAL
17
Mtodo das componentes principais:
um mtodo para estimar L, que se baseia no seguinte:

T
C
T
2
1
C
2
1
CC P D PD
T
= =
.
onde:
| |
p 2 1
a a a P . = matriz ortogonal cujas colunas so os vectores
prprios de

=
p
2
1
0 0
0 0
0 0
D

. . .

=
p
2
1
2
1
0 0
0 0
0 0
D

. . .

i
i-simo maior valor prprio da matriz
a
i
vector prprio normalizado associada a
i
ANLISE DE COMPONENTES PRINCIPAIS E ANLISE FACTORIAL
18
As varincias especficas so nulas se so considerados tantos factores como
variveis. Mas desejvel ter m<p factores.
Um procedimento possvel quando os ltimos p-m valores prprios so
pequenos negligenciar a contribuio de
T
p p p
T
1 m 1 m 1 m
a a a a + +
+ + +
para .
Desprezando as ltimas colunas da matriz C, tem-se a matriz L:
C=| |
p 1
a a
p 1
L=| |
m 1
a a
m 1
, com m < p
= CC
T
=
T
p p p
T
1 m 1 m 1 m
T
m m m
T
1 1 1
a a a a a a a a + + + + +
+ + +

~ LL
T
+ +
onde

+ = =
= =
p
1 m j
2
ij i
m
1 j
2
ij i i i
a a Var(X )
ANLISE DE COMPONENTES PRINCIPAIS E ANLISE FACTORIAL
19
Soluo das componentes principais do modelo factorial:
| |
m m 2 2 1 1
a a a
~
= L i.e.
ij j ij
a l =
~

=
p

~
0 0
0
~
0
0 0
~
~
2
1

. . .

onde

=
=
m
1 j
2
ij ii
l s
~ ~
i

2
im
2
i2
2
i1
2
i
l l l h
~ ~ ~ ~
+ + + = soma dos quadrados da linha i de L

=
=
m
1 j
j
2
ij
a exactamente a comunalidade do modelo 1 da ACP
poro da Var(X
i
) explicada pelos factores comuns onde
2
a
~
ij j
2
ij
l = a
contribuio do j-simo factor comum para a Var(X
i
)
Nota: Usamos S estimativa de , mas tambm se pode fazer para R estimativa de p.
elementos da
diagonal de
T
L L - S
~ ~
ANLISE DE COMPONENTES PRINCIPAIS E ANLISE FACTORIAL
20
Escolha do n de factores:
Dado que o objectivo identificar m factores que expliquem a estrutura de
covarincias, devemos escolher m tal que, o que se despreza na matriz de
covarincias estimadas seja quase nulo, i.e.,
( ) 0
~ ~ ~
~ + +
T
L L - S matriz residual
Os elementos diagonais so nulos, mas se o que est fora da diagonal tambm
for prximo de zero, ento o valor de m considerado apropriado:
soma dos quadrados das
entradas de ( ) + +
~ ~ ~
T
L L - S
s
2
p 1 m
+ +
+

2

um valor baixo para a soma dos quadrados dos valores


prprios rejeitados implica um valor baixo para a soma
dos quadrados dos erros cometidos na aproximao
ANLISE DE COMPONENTES PRINCIPAIS E ANLISE FACTORIAL
21
proporo da varincia total amostral
explicada pelo j-simo factor
Outra maneira de determinar m:
R de factorial
anlise uma para
p
S de factorial
anlise uma para
s s
j
p
1 i
i
j
pp 22 11
j
s

=
+ + +

Escolhemos m, de modo a que uma proporo suficiente da varincia total amostral


seja explicada.
Outras regras:
valor prprio maior que 1 (anlise a partir de R)
scree-test
ANLISE DE COMPONENTES PRINCIPAIS E ANLISE FACTORIAL
22
Resumindo, a soluo apresentada por este mtodo escolhe para os m
factores as primeiras m componentes principais divididas pela raiz quadrada da
sua varincia
) Var(Y
Y Y
F
j
j
j
j
j
=

= j=1,,m
Estimando os loadings da seguinte maneira: l
ij
=
ij j
a
estamos a considerar o modelo
.

i
s especfico factores
dos estimativa
P iP P m im m 1 i1 i
F a F a F a X
c
+ + + + =
1
e portanto o modelo factorial estimado :
i
m
1 j
j ij i
F l X + =

=
, i = 1,,p com l
ij
=
ij j
a
ANLISE DE COMPONENTES PRINCIPAIS E ANLISE FACTORIAL
23
Neste modelo estimado, cada factor comum tem varincia unitria, e os factores
so no correlacionados.
Mais, os factores comuns so no correlacionados com os factores especficos.
No entanto, note-se que a covarincia entre c
i
e c
k

k i a a ) , Cov(
j
p
1 m j
kj ij k i
= =

+ =

Como estas covarincias no so necessariamente nulas, isto constitui uma


violao dos pressupostos originais do modelo.
ANLISE DE COMPONENTES PRINCIPAIS E ANLISE FACTORIAL
24
TABELA DE RESULTADOS
Anlise feita a partir da matriz de covarincias amostral S.
Loadings j
l
ij
= ij j
a Y
1
. Y
n
Soma dos quadrados por linha
Comunalidades h
i
X
1
11
a
1
.
1m m
a
2
1
m
1 j
2
1j j
h a =

i . . . .
X
p
p1
a
1
.
pm m
a
2
p
m
1 j
2
pj j
h a =

Soma dos quadrados por


coluna =
j

1
.
m
total em linha = total em coluna

1
+.+
m
=

=
m
1 j
2
1j j
a + .+

=
m
1 j
2
pj j
a
proporo da varincia
total amostral explicada
pelo j-simo factor

=
p
1 i
i
1

=
p
1 i
i
m

proporo da varincia total


explicada pelos m factores

=
=
p
1 i
i
m
1 j
j

ANLISE DE COMPONENTES PRINCIPAIS E ANLISE FACTORIAL


25
Este quadro de resultados, resume o essencial de uma aplicao da ACP ou da
Anlise Factorial (AF) pelo mtodo das componentes principais.
Apesar de ACP e AF se tratarem de duas tcnicas conceptualmente diferentes,
na prtica os resultados da ACP e da AF pelo mtodo das componentes
principais, podem ser resumidos na tabela anterior, sendo vlidas as
respectivas interpretaes.
Se a anlise feita a partir da matriz de correlaes R, o quadro o mesmo,
mas
j
e a
j
so extrados da matriz R.
ANLISE DE COMPONENTES PRINCIPAIS E ANLISE FACTORIAL
26
EXEMPLO
Consideremos novamente o exemplo (exerccio 6).
15 alunos de uma determinada escola foram classificados a 6 disciplinas
Na ACP identificaram-se 2 componentes principais, a reter:
1 Factor: Factor Geral de Inteligncia
2 Factor: Factor Matemtica / no Matemtica
Se aplicarmos a AF pelo mtodo das componentes principais, os factores
comuns podem ser obtidos dividindo as 2 componentes principais pela raiz
quadrada dos valores prprios:
3.87
X 0.42 X 0.39 X 0.44 X 0.44 X 0.41 X 0.33 Y
F
6 5 4 3 2 1 1
1
+ + + + +
=

=
1
1.55
X 0.39 X 0.45 X 0.31 X 0.3 X 0.42 X 0.53 Y
F
6 5 4 3 2 1 2
2
+ +
=

=
2
ANLISE DE COMPONENTES PRINCIPAIS E ANLISE FACTORIAL
27
As variveis podem-se escrever em funo dos factores da seguinte maneira:
1 2
0.66
1
0.65
1
F 0.53 1.55 F 0.33 3.87 X + + =
. .
2 2
0.52
1
0.81
2
F 0.42 1.55 F 0.41 3.87 X + + =
. .
.
1 2
0.49
1
0.83
6
F 0.39 1.55 F 0.42 3.87 X + =

. .
com

3
6
3
3
Y
6 i6 6
Y
3 i3 3 i
F a F a

+ + =
O quadro de resultados do slide 4 da seco anterior resume o essencial da AF
pelo mtodo das componentes principais.
Este exemplo ilustra bem o motivo pelo qual existe dificuldade na distino das
duas tcnicas.
ANLISE DE COMPONENTES PRINCIPAIS E ANLISE FACTORIAL
28
ESTIMAO DOS VALORES DOS FACTORES (FACTOR SCORES)
Ao contrrio do que se passa com a ACP, onde os scores das componentes
principais so determinados, os scores dos factores na AF tm de ser
estimados, isto resulta do facto de no modelo da AF existirem mais parmetros
a estimar do que valores observados.
Existem diversos mtodos para estimao dos scores dos factores, sendo os
mais usados:
Mtodo de Bartlet ou mtodo dos mnimos quadrados ponderados;
Mtodo de Thompson ou mtodo de regresso.
ANLISE DE COMPONENTES PRINCIPAIS E ANLISE FACTORIAL
29
Concluso:
a ACP procura resumir a informao presente num conjunto de variveis
correlacionadas atravs de um modelo matemtico concreto, bem definido
e conduz geralmente a uma nica soluo;
a AF procura encontrar a explicao, sobre a forma de um ou mais
factores latentes, para as relaes existentes entre as variveis e
passvel de vrias solues igualmente aceitveis.