Anda di halaman 1dari 16

ANLISE MULTIVARIADA APLICADA AS CINCIAS AGRRIAS

PS-GRADUAO EM AGRONOMIA CINCIA DO SOLO: CPGA-CS

ANLISE DE VARIVEIS CANNICAS


Carlos Alberto Alves Varella1

NDICE
INTRODUO ..................................................................................................................... 2
DIMENSIONALIDADE DAS VARIVEIS CANNICAS................................................ 2
Teste de dimensionalidade ................................................................................................. 3
VETORES CANNICOS...................................................................................................... 4
PORCENTAGEM DE VARIAO ..................................................................................... 5
EXEMPLO DE APLICAO............................................................................................... 5
Quadro 1. Valores observados das variveis X1 e X2 com cinco repeties...................... 5
Procedimento CANDISC para anlise de variveis cannicas .......................................... 6
Descrio dos comandos utilizados.................................................................................... 7
Interpretao dos resultados do SAS.................................................................................. 7
Escores das variveis cannicas....................................................................................... 14
Quadro 2. Arquivo can temporrio gravado na biblioteca WORK do SAS.................. 14
Grficos de disperso ....................................................................................................... 15
Quadro 3. Matriz de significncia das distncias de Mahalanobis entre tratamentos...... 15
Figura 1. Disperso dos escores das duas primeiras variveis cannicas. ....................... 15
BIBLIOGRAFIA.................................................................................................................. 16

1
Professor. Universidade Federal Rural do Rio de Janeiro, IT-Departamento de Engenharia, BR 465 km 7 - CEP 23890-000 Seropdica
RJ. E-mail: varella@ufrrj.br.

INTRODUO
A anlise de variveis cannicas uma tcnica da estatstica multivariada que permite a
reduo da dimensionalidade de dados, semelhante a componentes principais e correlaes
cannicas. Essa tcnica especialmente empregada em anlises discriminantes realizadas a
partir de amostras com observaes repetidas. A anlise tambm pode ser utilizada para
representar vrias populaes em um subespao de menor dimenso. A anlise procura, com
base em um grande nmero de caractersticas originais correlacionadas, obter combinaes
lineares dessas caractersticas denominadas variveis cannicas de tal forma que a correlao
entre essas variveis seja nula (KHATTREE & NAIK, 2000). A utilizao dessa tcnica
permite capturar o efeito simultneo de caractersticas originais e com isso pode capturar
variaes no percebidas quando do uso de caractersticas originais isoladamente.
importante observar que a primeira varivel cannica a funo discriminante linear de
Fisher. Variveis cannicas so funes discriminantes timas, ou seja, maximizam a
variao entre tratamentos em relao variao residual. A variao de tratamentos, nesta
anlise, expressa por uma matriz denominada H, composta pela soma de quadrados e
produtos de tratamentos; a variao residual expressa pela matriz E, composta pela soma de
quadrados e produtos do resduo. As matrizes H e E so obtidas de uma anlise de varincia
multivariada: MANOVA.
DIMENSIONALIDADE DAS VARIVEIS CANNICAS
A dimensionalidade o nmero de variveis cannicas obtidas na anlise. Pode ser
entendida como o nmero de razes no nulas da Equao1.
(1)
A dimensionalidade, portanto, a ordem do hiperplano gerado pelas diferentes mdias de
tratamentos. A dimensionalidade, em termos das mdias populacionais, o nmero de
autovalores no nulos da matriz da Equao 2.
= E 1 H = ne 1 H

em que,

E
H

= matriz determinante;
= matriz de soma de quadradros e produtos de resduo;
= matriz de soma de quadrados e produtos de tratamentos;
2

(2)

ne

= nmero de graus de liberdade do ressuo;


= matriz de covarincia.

Teste de dimensionalidade
Quando a dimensionalidade igual a zero (d=0) as mdias so coincidentes, se d=1 as
mdias so colineares e se d=2 as mdias so perpendiculares, isto independentes. Numa
anlise de varincia varinica multivariada com k tratamentos, usualmente testamos a
hiptese:
A hiptese que testamos se os vetores de mdias so iguais. Esta hiptese equivalente
ao teste de que no h diferena entre os vetores de mdias de tratamentos, isto :

Se H0 verdadeira, conclumos que os vetores

so idnticos. Ento H0

verdadeira implica em d=0.


Se H0 rejeitada, de importncia se determinar a real dimensionalidade d, onde d=0, ... ,
t. Se d=t no h nenhuma restrio sobre os vetores de mdias, e d<t ocorre se e somente se
houver exatamente s=t-d relaes linearmente dependentes entre os k vetores de mdias.
Em qualquer caso tem-se que:

em que,

d
p
q
t

=
=
=
=

dimensionalidade das variveis cannicas;


nmero de variveis originais;
nmero de graus de liberdade de tratamentos;
nmero de vetores de mdias linearmente independentes.

Considerando-se que em uma anlise de varincia multivariada o nmero de variveis


estudas normalmente maior que nmero de tratamentos, a regra acima significa que: o
nmero de variveis cannicas ser no mximo igual ao nmero de graus de liberdade de
tratamentos.
Quando trabalhamos com dados observados, um autovalor pode ser muito pequeno sem
propriamente ser nulo. Assim um teste de verificao da dimensionalidade torna-se
necessrio. A aproximao mais adequada, nesse caso, segundo REGAZZI (2000), aquela
proposta por BARTLETT (1947). O teste feito sequencialmente para d=0, d=1, etc, at que
um resultado no significativo aparea. Se at d-1 se obtiver resultados significativos, mas em

d no, infere-se que a dimensionalidade d. A estatstica proposta por BARTLETT (1947)


obtida atravs da Equao 3.

(3)
Na Equao 3, j com j=1, 2, ... , p, so autovalores da matriz . A estatstca
assintoticamente tem distribuio qui-quadrada

com

VETORES CANNICOS
Vetores cannicos so os autovetores j associados aos autovalores j no nulos da matriz
determinante . Seja dessa maneira, Lj o autovetor associado ao autovalor j, onde Lj
normalizado de modo que:

Ento L o j-simo vetor cannico obtido na anlise.


A projeo de um ponto X (observaes) sobre o hiperplano estimado pode ser
representada em termos de coordenadas cannicas d-dimensional
As mdias cannicas dos k tratamentos so:

As mdias cannicas representam a projeo do grupo de mdias sobre o hiperplano


estimado e podem ser usadas para estudar as diferenas entre grupos (tratamentos). O vetor Lj
o vetor cannico para a j-sima varivel cannica.

em que,
=
=
=

j-sima varivel cannica;


j-simo vetor cannico;
vetor de caractersticas originais.

PORCENTAGEM DE VARIAO
A porcentagem de variao entre tratamentos explicada pelas primeiras d variveis
cannicas o resultado da diviso da soma dos autovalores d pela soma dos autovalores p,
isto :

em que,
=
=
=

porcentagem de variao explicada pelas primeiras d variveis


cannicas;
nmero de variveis cannicas;
nmero de variveis originais.

EXEMPLO DE APLICAO
Neste exemplo as anlises sero realizadas com o procedimento CANDISC do
programa computacional SAS (SAS, 2007).
Vamos estudar o caso em que temos k tratamentos com p variveis e r repeties em um
delineamento estatstico inteiramente casualizado. Neste caso a varincia total decomposta
como segue:
em que,
A
H
E

=
=
=

matriz de totais;
matriz de tratamentos;
matriz de resduos.

A, H, e E so matrizes de dimenses p x p de somas de quadrados e produtos.


No Quadro 1 esto os valores observados das variveis X1 e X2 provenientes de um
delineamento estatstco inteiramente casualizado com trs tratamentos e cinco repeties.
Quadro 1. Valores observados das variveis X1 e X2 com cinco repeties
Tratamentos
Repetio
X1
X2
1

4,63

0,95

4,38

0,89

4,94

1,01

4,96

1,23

4,48

0,94

6,03

1,08

5,96

1,05

6,16

1,08

6,33

1,19

6,08

1,08

4,71

0,96

4,81

0,93

4,49

0,87

4,43

0,82

4,56

0,91

Procedimento CANDISC para anlise de variveis cannicas


O exerccio abaixo exemplifica o uso do procedimento CANDISC do programa
computacional SAS para fazer anlise de variveis cannicas dos dados apresentados no
Quadro 1.
data exemplo;
title 'Exemplo de Anlise de Variveis Cannicas DIC';
input trat rep X1 X2;
cards;
1 1 4.63 0.95
1 2 4.38 0.89
1 3 4.94 1.01
1 4 4.96 1.23
1 5 4.48 0.94
2 1 6.03 1.08
2 2 5.96 1.19
2 3 6.16 1.08
2 4 6.33 1.19
2 5 6.08 1.08
3 1 4.71 0.96
3 2 4.81 0.93
3 3 4.49 0.87
3 4 4.43 0.82
3 5 4.56 0.91
;
proc candisc data=exemplo out=can all;
class trat;
var X1 X2;
run;
proc plot;
plot can2*can1 = trat / vpos=20;
run;

Descrio dos comandos utilizados


data nome do arquivo que ser utilizado na anlise;
title ttulo do cabealho da anlise;
input define as variveis em ordem de apresentao no arquivo;
cards o arquivo de dados;
proc candisc o procedimento do SAS que realiza a anlise de variveis cannicas;
out nome do arquivo para armazenar resultados da anlise;
all ativa todas as funes de impresso;
class define a fonte de variao, no caso tratamentos;
var so as variveis independentes, neste caso X1 e X2;
run processa os comandos anteriores;
proc plot ajusta diversos parmetros para plotagem de grficos;
plot define variveis para plotagem;
=trat plota a disperso em funo de tratamentos;
vpos=20 localiza o grfico na posio central.
Interpretao dos resultados do SAS
Exemplo de Anlise de Variveis Cannicas DIC
21:59 Thursday, March 28, 2007

16

The CANDISC Procedure O Procedimento CANDISC


Observations
Variables
Classes (trat)

15
2
3

DF Total
DF Within Classes
DF Between Classes

14 GL total
12 GL de resduo
2 GL de tratamentos

Class Level Information Probabilidades a priori


Variable
Name
Frequency

trat
1
2
3

_1
_2
_3

5
5
5

Weight
5.0000
5.0000
5.0000

Proportion
0.333333
0.333333
0.333333

Exemplo de Anlise de Variveis Cannicas DIC


17
21:59 Thursday, March 28, 2007
The CANDISC Procedure
Within-Class SSCP Matrices
trat = 1
Variable
X1
X2

X1

X2

0.2784800000
0.1145400000

0.1145400000
0.0711200000

-----------------------------------------------------------------------------------

trat = 2
Variable
X1
X2

X1

X2

0.0806800000
0.0072600000

0.0072600000
0.0145200000

----------------------------------------------------------------------------------trat = 3
Variable
X1
X2

X1

X2

0.0988000000
0.0294000000

0.0294000000
0.0118800000

Exemplo de Anlise de Variveis Cannicas DIC

18
21:59

Thursday, March 28, 2007


The CANDISC Procedure
Pooled Within-Class SSCP Matrix Matriz E resduo
Variable

X1

X1
X2

X2

0.4579600000
0.1512000000

0.1512000000
0.0975200000
Matriz H tratamentos

Between-Class SSCP Matrix


Variable

X1

X1
X2

X2

7.247640000
0.870100000

0.870100000
0.127853333

Total-Sample SSCP Matrix


Variable
X1
X2

Matriz A total

X1

X2

7.705600000
1.021300000

1.021300000
0.225373333

Neste caso como o delineamento estatstico inteiramente casualiuzado (DIC) temos que:

Exemplo de Anlise de Variveis Cannicas DIC

19
21:59

Thursday, March 28, 2007


The CANDISC Procedure
Within-Class Covariance Matrices Matrizes Cov dentro de trat
trat = 1,
Variable
X1
X2

DF = 4

X1

X2

0.0696200000
0.0286350000

0.0286350000
0.0177800000

-----------------------------------------------------------------------------------

trat = 2,
Variable
X1
X2

DF = 4

X1

X2

0.0201700000
0.0018150000

0.0018150000
0.0036300000

----------------------------------------------------------------------------------trat = 3,
Variable
X1
X2

DF = 4

X1

X2

0.0247000000
0.0073500000

0.0073500000
0.0029700000

Exemplo de Anlise de Variveis Cannicas DIC


21:59 Thursday, March 28, 2007

20

The CANDISC Procedure


Pooled Within-Class Covariance Matrix,
Variable
X1
X2

DF = 12 Resduo

X1

X2

0.0381633333
0.0126000000

0.0126000000
0.0081266667

Between-Class Covariance Matrix,


Variable
X1
X2

DF = 2 Tratamentos

X1

X2

0.7247640000
0.0870100000

0.0870100000
0.0127853333

Total-Sample Covariance Matrix,


Variable
X1
X2

DF = 14 Total

X1

X2

0.5504000000
0.0729500000

0.0729500000
0.0160980952

Exemplo de Anlise de Variveis Cannicas DIC


21:59 Thursday, March 28, 2007
The CANDISC Procedure
Within-Class Correlation Coefficients

21

Pr > |r|

trat = 1
Variable

X1

X2

X1

1.00000

0.81389 Correlao
0.0936 Significncia

X2

0.81389

1.00000
0.0936

trat = 2
Variable

X1

X2

X1

1.00000

0.21211 Correlao
0.7320 Significncia

X2

0.21211

1.00000
0.7320

trat = 3
Variable

X1

X2

X1

1.00000

0.85814 Correlao
0.0628 Significncia

X2

0.85814

1.00000
0.0628

Exemplo de Anlise de Variveis Cannicas DIC


21:59 Thursday, March 28, 2007

22

The CANDISC Procedure


Pooled Within-Class Correlation Coefficients
Variable

X1

X2

X1

1.00000

0.71547
0.0060

X2

0.71547
0.0060

1.00000

Between-Class Correlation Coefficients


Variable

Pr > |r|

X1

X2

X1

1.00000

0.90389
0.2814

X2

0.90389
0.2814

1.00000

Total-Sample Correlation Coefficients


Variable

Pr > |r|

X1

X2

X1

1.00000

0.77499
0.0007

X2

0.77499
0.0007

1.00000

10

Pr > |r|

Exemplo de Anlise de Variveis Cannicas DIC


21:59 Thursday, March 28, 2007

23

The CANDISC Procedure


Simple Statistics
Total-Sample
Standard
Variable

Sum

Mean

Variance

X1

15

76.95000

5.13000

0.55040

X2

15

15.13000

1.00867

0.01610

Deviation
0.7419
0.1269

----------------------------------------------------------------------------------trat = 1
Standard
Variable

Sum

Mean

Variance

X1

23.39000

4.67800

0.06962

Deviation
0.2639
X2
5
5.02000
1.00400
0.01778
0.1333
----------------------------------------------------------------------------------trat = 2
Standard
Variable

Sum

Mean

Variance

X1

30.56000

6.11200

0.02017

X2

5.62000

1.12400

0.00363

Deviation
0.1420
0.0602
----------------------------------------------------------------------------------trat = 3
Standard
Variable

Sum

Mean

Variance

X1

23.00000

4.60000

0.02470

X2

4.49000

0.89800

0.00297

Deviation
0.1572
0.0545

11

Exemplo de Anlise de Variveis Cannicas DIC


21:59 Thursday, March 28, 2007

25

The CANDISC Procedure


Pairwise Squared Distances Between Groups
2
_
_
-1 _
_
D (i|j) = (X - X )' COV
(X - X )
i
j
i
j
Squared Distance to trat
From trat

1
2
3

0
85.37718
1.78287

85.37718
0
78.72086

1.78287
78.72086
0

F Statistics, NDF=2, DDF=11 for Squared Distance to trat


From trat

1
2
3

0
97.82801
2.04287

97.82801
0
90.20099

2.04287
90.20099
0

Prob > Mahalanobis Distance for Squared Distance to trat


From trat

1
2
3

1.0000
<.0001
0.1760

<.0001
1.0000
<.0001

0.1760
<.0001
1.0000

Exemplo de Anlise de Variveis Cannicas DIC


21:59 Thursday, March 28, 2007

26

The CANDISC Procedure


Univariate Test Statistics
F Statistics,

Num DF=2,

Den DF=12

Total
Pooled
Between
Standard Standard Standard
Variable Deviation Deviation Deviation

R-Square

R-Square
/ (1-RSq)

F Value

X1
X2

0.9406
0.5673

15.8259
1.3110

94.96
7.87

0.7419
0.1269

0.1954
0.0901

0.8513
0.1131

Average R-Square
Unweighted
Weighted by Variance

12

0.7539318
0.9299607

Pr > F
<.0001
0.0066

Multivariate Statistics and F Approximations MANOVA


S=2
Statistic
Wilks' Lambda
Pillai's Trace
Hotelling-Lawley Trace
Roy's Greatest Root

M=-0.5

N=4.5

Value

F Value

Num DF

Den DF

Pr > F

0.03142928
1.21304168
23.03901513
22.69629642

25.52
9.25
61.97
136.18

4
4
4
2

22
24
12.235
12

<.0001
0.0001
<.0001
<.0001

NOTE: F Statistic for Roy's Greatest Root is an upper bound.


NOTE: F Statistic for Wilks' Lambda is exact.
Exemplo de Anlise de Variveis Cannicas DIC
21:59 Thursday, March 28, 2007

27

The CANDISC Procedure

1
2

Canonical
Correlation

Adjusted
Canonical
Correlation

0.978672
0.505215

0.977020
.

Approximate
Standard
Error
0.011279
0.199045

Squared
Canonical
Correlation
0.957799
0.255242

Test of H0: The canonical

correlations in the
Eigenvalues of Inv(E)*H

current row and all that

follow are zero


= CanRsq/(1-CanRsq)

Eigenvalue Difference Proportion Cumulative Ratio

Likelihood Approximate
F Value Num DF Den DF Pr > F

1
2

25.52
4.11

22.6963
0.3427

22.3536
0.0149

0.9851
1.0000

0.0314
0.7447

4
1

22
12

Exemplo de Anlise de Variveis Cannicas DIC


21:59 Thursday, March 28, 2007

<.0001
0.0654
28

The CANDISC Procedure


Total Canonical Structure
Variable
X1
X2

Can1

Can2

0.987661
0.666459

0.156610
0.745541

Between Canonical Structure


Variable
X1
X2

Can1

Can2

0.996667
0.865977

0.081583
0.500084

Pooled Within Canonical Structure


Variable
X1
X2

13

Can1

Can2

0.832256
0.208132

0.554392
0.978101

Exemplo de Anlise de Variveis Cannicas DIC


21:59 Thursday, March 28, 2007

29

The CANDISC Procedure


Total-Sample Standardized Canonical Coefficients
Variable
X1
X2

Can1

Can2

5.316720535
-1.116842127

-1.131352800
1.676610061

Pooled Within-Class Standardized Canonical Coefficients


Variable
X1
X2

Can1

Can2

1.399999146
-0.793525275

-0.297907882
1.191244875

Raw Canonical Coefficients Vetores cannicos


Variable
X1
X2

Can1

Can2

7.16645900
-8.80246974

-1.52496137
13.21432007

Class Means on Canonical Variables Mdias cannicas


trat

Can1

Can2

1
2
3

-3.198161274
6.022244556
-2.824083283

0.627615714
0.026539512
-0.654155226

Escores das variveis cannicas


O Quadro 2 o arquivo can definido em out=can. Este arquivo fica armazenado na
biblioteca (library) denominada WORK e deve ser exportado para o formato Excel xls antes
de se fechar o programa. Os arquivos gravados na biblioteca WORK so temporrios e so
apagados pelo SAS quando o programa fechado.
Quadro 2. Arquivo can temporrio gravado na biblioteca WORK do SAS
trat
1
1
1
1
1
2
2
2
2
2
3
3
3
3
3

rep
1
2
3
4
5
1
2
3
4
5
1
2
3
4
5

X1
4.63
4.38
4.94
4.96
4.48
6.03
5.96
6.16
6.33
6.08
4.71
4.81
4.49
4.43
4.56

14

X2
0.95
0.89
1.01
1.23
0.94
1.08
1.19
1.08
1.19
1.08
0.96
0.93
0.87
0.82
0.91

Can1
-3.06682
-4.33028
-1.37336
-3.16658
-4.05376
5.821904
4.35198
6.753543
7.00357
6.180227
-2.58153
-1.60081
-3.36592
-3.35579
-3.21637

Can2
-0.01276
-0.42438
0.307362
3.184013
0.083842
-0.42984
1.130479
-0.62809
0.566243
-0.50609
-0.00261
-0.55154
-0.85641
-1.42563
-0.43458

Grficos de disperso
Os grficos para d=1 ou d=2 envolverndo as mdias cannicas podem representar uma
ajuda importante na discriminao de tratamentos. A Figura 1 ilustra o grfico de disperso
entre tratamentos representado pelos escores das duas primeiras variveis cannicas. Observase que o efeito conjunto das variveis X1 e X2 pode capturar a variao entre os tratamentos 2
e os demais (1 e 3). Contudo a anlise no foi capaz de capturar a varincia entre 1 e 3. Dessa
forma podemos concluir que apenas essas caractersticas (X1, X2) no so suficientes para
discriminar os indivduos dessa populao em trs grupos diferentes. A interpretao da
anlise depende do fenmeno analisado, e a experincia do pesquisador fator importante.
Podemos tambm observar no Quadro 3 que no houve diferena siginificativa entre as
distncia de Mahalanobis entre os tratamentos 1 e 3, indicando que a separao desses
indivduos no possvel.
Quadro 3. Matriz de significncia das distncias de Mahalanobis entre tratamentos
Prob > Mahalanobis Distance for Squared Distance to trat
From trat
1
2
3

1.0000
<.0001
0.1760

<.0001
1.0000
<.0001

0.1760
<.0001
1.0000

Figura 1. Disperso dos escores das duas primeiras variveis cannicas.

15

BIBLIOGRAFIA
FISHER, R.A. The use of multiple measurements in taxonomic problems. Annals of
Eugenics, v.7, p.179-188, 1936.
JOHNSON, R. A.; WICHERN, D. W. Applied multivariate statistical analysis. 4th ed.
Upper Saddle River, New Jersey: Prentice-Hall, 1999, 815 p.
KHATTREE, R. & NAIK, D.N. Multivariate data reduction and discrimination with SAS
software. Cary, NC, USA: SAS Institute Inc., 2000. 558 p.
KHOURY JR, J.K. Desenvolvimento e avaliao de um sistema de viso artificial para
classificao de madeira serrada de eucalipto. 2004. 101 f. Tese (Doutorado em
Engenharia Agrcola) Universidade Federal de Viosa, Viosa, 2004.
REGAZZI, A.J. Anlise multivariada, notas de aula INF 766, Departamento de Informtica da
Universidade Federal de Viosa, v.2, 2000.
VARELLA, C.A.A. Estimativa da produtividade e do estresse nutricional da cultura do
milho usando imagens digitais. 2004. 92 f. Tese (Doutorado em Engenharia Agrcola)
Universidade Federal de Viosa, Viosa, 2004.
SAS. Online doc version 8. Disponvel em: http://v8doc.sas.com/sashtml/. Acesso em 14
mar. 2007.
BARTLETT, M.S. Multivariate Analysis. J.R. Statist. Soc., Serie B, v.9, p.176-197, London,
1947.

16