Anda di halaman 1dari 37

Seminrio DEs/DEP

Algumas Tcnicas Estatsticas Multivariadas Parte I


Jorge Oishi

djoi@power.ufscar.br

Tcnicas Multivariadas
Tpicos abrangidos:
Anlise de Componentes Principais Anlise Fatorial Anlise Discriminante Anlise de Cluster Anlise de Correspondncia

djoi@power.ufscar.br

Tcnicas Multivariadas
Conceitos bsicos:
Anlise Multivariada todos os mtodos estatsticos que simultaneamente analisam mltiplas medidas sobre cada indivduo ou objeto sob investigao. Qualquer anlise de duas ou mais variveis, pode ser considerada anlise multivariada. Para ser considerada verdadeiramente como multivariada, todas as variveis devem ser aleatrias e inter-relacionadas, de modo que seus efeitos no podem ser interpretados de forma separada.
djoi@power.ufscar.br 3

Tcnicas Multivariadas
Estrutura dos dados

X1
Caso 1 Caso 2 ....

X2
x12 x22 ... xn2
djoi@power.ufscar.br

...
... ... ... ...

Xp
x1p x2p .. xnp
4

x11 x21 ... xn1

Caso n

Tcnicas Multivariadas
OBJETIVOS
Reduo dos dados ou simplificao estrutural:
O fenmeno sendo estudado representado o mais simplificado possvel sem o sacrifcio de informaes valiosas;

Ordenao e agrupamento:
Grupos de objetos ou variveis so criadas baseadas nas caractersticas mensuradas;

Investigao da dependncia entre variveis:


A natureza do relacionamento entre as variveis de interesse. Todas as variveis so mutuamente ou so uma ou mais variveis dependentes das outras? Como essa relao?
djoi@power.ufscar.br 5

Tcnicas Multivariadas
OBJETIVOS
Previso:
O relacionamento entre variveis deve ser determinado com o propsito de fazer previso dos valores de uma ou mais variveis com base na observao das outras variveis;

Construo e testes de hipteses:


Hipteses estatsticas, formuladas em termos de parmetros de populaes multivariadas podem ser testadas.

djoi@power.ufscar.br

Tcnicas Multivariadas
Variveis: dois tipos de classificaes:
Quanto a resposta:
Mtricas: discretas ou contnuas No mtricas: nominais ou ordinais

Quanto ao uso:
Dependentes ou respostas Independentes ou explanatrias

djoi@power.ufscar.br

Tcnicas Multivariadas
Classificao das Tcnicas Forma geral: Vetores de variveis: X (X1 ,, Xp )
~

Classificao das tcnicas depende:


Da dependncia ou independncias das variveis Do nmero de variveis dependentes Do tipo de escala (mtrica, no-mtrica)

djoi@power.ufscar.br

Tcnicas Multivariadas
Tcnica de Dependncia
aquela na qual uma varivel ou um conjunto de variveis identificado como varivel dependente a ser predita ou explicada por outras variveis independentes;

Tcnica de Interdependncia
aquela na qual nenhuma das variveis definida como dependente ou independente, mas o procedimento envolve a anlise simultnea de todas as variveis no conjunto.
djoi@power.ufscar.br 9

Tcnicas Multivariadas
Tcnicas de Dependncia
Podem ser classificadas por duas caractersticas:
O nmero de variveis dependentes, O tipo de escala das variveis.

Exemplos de tcnicas
Regresso Linear Mltipla MANOVA Anlise Discriminante Anlise de Correlao Cannica Anlise Conjunta
djoi@power.ufscar.br 10

Tcnicas Multivariadas
Tcnicas de Interdependncia
Depende da estrutura procurada:
Estrutura de variveis; Estrutura de casos; Estrutura de objetos (da matriz de dados).

Exemplos
Anlise Fatorial Anlise de Cluster Escalonamento Multidimensional Anlise de Correspondncias
djoi@power.ufscar.br 11

Tcnicas Multivariadas
(Y1 ,, Yr ) (X1 ,, X s ) onde r s p
Se Y1: mtrica e Xi todas mtricas Regresso Linear Mltipla; Se Y1: no-mtrica e Xi todas mtricas Anlise Discriminante Mltipla; Se Y1: mtrica e Xi todas no mtricas ANOVA; Se Y1: mtrica ou no-mtrica e Xi todas no mtricas Anlise Conjunta;
djoi@power.ufscar.br 12

Tcnicas Multivariadas
(Y1 ,, Yr ) (X 1 ,, X s )
Se Yi: todas mtricas e Xi todas no-mtricas MANOVA; Se Yi: mtricas ou no-mtrica e Xi mtricas ou no-mtricas Anlise de Correlao Cannica;
djoi@power.ufscar.br 13

Anlise de Componentes Principais


Pearson (1901) e Hotelling (1933)
O objetivo principal a obteno de um pequeno nmero de combinaes lineares (componentes principais) de um conjunto de variveis, que retenham o mximo possvel da informao contida nas variveis originais.
Reduo dos dados originais Facilitar a interpretao atravs da descoberta de relacionamentos no suspeitos previamente.
djoi@power.ufscar.br 14

Anlise de Componentes Principais


A anlise de componentes principais substitui um conjunto de variveis correlacionadas por um conjunto de novas variveis nocorrelacionadas, sendo essas combinaes lineares das variveis iniciais e colocadas em ordem decrescente por suas varincias Var CP1 > Var CP2 > .... > Var CPp

djoi@power.ufscar.br

15

Anlise de Componentes Principais


Algebricamente, componentes principais so combinaes lineares particulares das p variveis aleatrias X1, X2, ..., Xp; Geometricamente, essas combinaes lineares representam a relao de um novo sistema de coordenadas obtido por deslocamento e rotao do sistema original com X1, X2, ..., Xp como eixos; Os novos eixos representam as direes com variabilidade mxima e fornecem uma descrio mais simples e mais parcimoniosa da estrutura de covarincia;

Os componentes principais dependem da matriz de correlao (r) ou da matriz de covarincias () de X1, X2, ..., Xp. O seu desenvolvimento no necessita da suposio de normalidade.

djoi@power.ufscar.br

16

Anlise de Componentes Principais


Exemplos:
Aplicao na confiabilidade de sistemas complexos reduo no conjunto de variveis originais (peas) para trs variveis (componentes principais) e no final o estudo mostrou que bastava apenas o primeiro deles. Anlise de componentes principais em imagens multi-temporais de satlites para estudo de vulnerabilidade perda de solo no semi-rido nordestino. Basicamente foi utilizada a ACP para reunir as informaes de duas imagens para compor duas outras, no correlacionadas entre si, com melhores propriedades interpretativas.

djoi@power.ufscar.br

17

Anlise de Componentes Principais

djoi@power.ufscar.br

18

Anlise de Componentes Principais

djoi@power.ufscar.br

19

Anlise de Componentes Principais

djoi@power.ufscar.br

20

Anlise de Componentes Principais

djoi@power.ufscar.br

21

Anlise de Componentes Principais


Seleo do nmero de componentes
Kaiser ou Mtodo da Raiz Latente: autovalores maiores que 1 (Johnson = 0,7); Scree test grfico dos autovalores.

djoi@power.ufscar.br

22

Anlise de Componentes Principais


Aps a seleo dos componentes, a elaborao do grficos dos dois primeiros componentes pode ser muito til para entender a relao entre as variveis e os componentes; Se apenas os dois primeiros componentes explicarem mais de 80 ou 90% da variabilidade total das variveis originais isto significa que o fenmeno sob estudo pode ser muito simplificado; No primeiro exemplo, de 80 variveis originais apenas trs componentes explicam quase tanto quanto os 80 e, no final, apenas o primeiro componente j foi suficiente para o objetivo do trabalho.
djoi@power.ufscar.br 23

Anlise Fatorial
Spearman (1904), Pearson e Hotelling (1933) Objetivo
Analisar as inter-relaes entre um grande nmero de variveis em termos de poucas, mas no observveis, variveis chamadas fatores. Verificar se possvel descrever um conjunto de p variveis em um conjunto menor de ndices ou fatores que explicam tanto sobre o fenmeno, que o conjunto original. Surgiu da tentativa de definir e medir constructos, tais como Inteligncia, Amor, etc.
djoi@power.ufscar.br 24

Anlise Fatorial
Raciocnio: suponha que variveis possam ser agrupadas segundo suas correlaes, isto , que todas as variveis dentro de um grupo sejam altamente correlacionadas entre si, mas tenham correlaes muito baixas com as variveis de outros grupos. A idia por trs da Anlise Fatorial que cada grupo de variveis representa um constructo bsico, que o responsvel pelas correlaes observadas nas respostas.

djoi@power.ufscar.br

25

Anlise Fatorial
Dados as variveis: X1, X2,..., Xp Existem F1, F2, ..., Fm, onde m < p tal que
X1 = a11F1 + a12F2 + + a1mFm + 1 X2 = a21F1 + a22F2 + + a2mFm + 2 Xp = ap1F1 + ap2F2 + + apmFm + p ?

djoi@power.ufscar.br

26

Anlise Fatorial
De forma visual, os dados originais formam uma nuvem de pontos num espao de pdimensional. A transformao de X em F permite transportar os pontos do espao pdimensional para um espao m-dimensional com menos dimenses, e portanto mais fcil de interpretar. Por isso importante que m no seja maior que 2 ou 3.
djoi@power.ufscar.br 27

Anlise Fatorial
Na Anlise Fatorial so calculados os coeficientes aij denominados de cargas fatoriais e os Fatores Fi. Suposies: Fi e i so variveis com mdias 0 e varincia 1; aij2: proporo da varincia de Xi que devido ao fator Fi chamada de Comunalidade de Xi.
djoi@power.ufscar.br 28

Anlise Fatorial
No existe uma soluo nica para a AF de um conjunto de dados, mas apenas dois princpios bsicos que se deve ter em conta:
Princpio

de Parcimnia: Tem-se que explicar as correlaes entre as variveis observadas utilizando o menor nmero de fatores possvel.
Interpretabilidade:

Deseja-se que os fatores tenham um significado no contexto estudado, guardando em si mesmos uma coerncia lgica.
djoi@power.ufscar.br 29

Anlise Fatorial
H dois tipos de aplicao e de entendimento da AF:
Anlise fatorial Exploratria: mais antiga buscar dimenses subjacentes, para saber o que mais importante ou mais significativo de um conjunto de variveis. Analise fatorial Confirmatria: se desenha uma estrutura dos fatores e em seguida, busca-se a confirmao desta, estudando as variveis observadas. (uso em modelagem de comportamento).
djoi@power.ufscar.br 30

Anlise Fatorial
Mtodos de extrao dos fatores
Componentes Principais Fator Principal com vrias alternativas:
Mtodo do Eixo Principal Mtodo do Centride Mxima Verossimilhana Comunalidades

djoi@power.ufscar.br

31

Anlise Fatorial
Entrada dos dados para anlise:
Matriz dos dados brutos Matriz de correlaes

Sadas:
Autovalores Matriz de cargas fatoriais sem rotao Rotao dos fatores: ortogonais e obliquas Coeficientes fatoriais
djoi@power.ufscar.br 32

Anlise Fatorial
Rotaes ortogonais
Varimax Quartimax Equamax

Rotaes Obliquas
Oblimin Promax

djoi@power.ufscar.br

33

Fator II NO Rodado
Fator rodado II
V1 V2

Rotao ortogonal

Fator I NO Rodado
V4 V5 V3

Fator rodado I

djoi@power.ufscar.br

34

Fator II NO Rodado
Fator rodado ortog. II Fator rodado II oblquo
V1 V2

Rotao oblqua

Fator I NO Rodado
V4 V5 Fator rodado ortog. I V3 Fator rodado I Oblquo

djoi@power.ufscar.br

35

Total Variance Explained Initial Eigenvalues % of Variance Cumulative % 32,769 32,769 12,113 44,883 9,639 54,522 7,823 62,344 6,528 68,872 5,792 74,664 5,094 79,758 4,743 84,502 3,828 88,330 2,879 91,209 2,539 93,748 2,045 95,793 1,881 97,674 1,344 99,017 ,983 100,000 Extraction Sums of Squared Loadings Total % of Variance Cumulative % 4,915 32,769 32,769 1,817 12,113 44,883 1,446 9,639 54,522 1,173 7,823 62,344 Rotation Sums of Squared Loadings Total % of Variance Cumulative % 3,122 20,810 20,810 2,786 18,575 39,385 2,114 14,096 53,481 1,330 8,864 62,344

Component 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15

Total 4,915 1,817 1,446 1,173 ,979 ,869 ,764 ,712 ,574 ,432 ,381 ,307 ,282 ,202 ,147

Extraction Method: Principal Component Analysis.

djoi@power.ufscar.br

36

24 2 27 38 23 1 45 0 4 44 -1 2 17 35 5 46 1 28 13 16 11 19 26 37 31 20 42 18 43 40 6 10 29 3914 2141 25 8 12 15 32 36 229

34 33 30 3 7 48 47

-2

-3 -3 -2 -1 0 1 2

REGR factor score 2 for analysis


djoi@power.ufscar.br

1
37