Anda di halaman 1dari 10

Análise de Covariância

Paulo Henrique S. Guimarães

Introdução

Um dos grandes desafios de qualquer pesquisar no estudo de qualquer


experimento é obter estimativas das médias dos tratamentos avaliados com a maior
precisão possível. Uma maior precisão pode ser conseguida utilizando-se um maior
número de repetições, porém isto nem sempre é viável, por questões econômicas, físicas
e geralmente há um limite do número de repetições que podem ser utilizadas. Uma
segunda alternativa para reduzir o erro padrão da média que é dado pelo desvio padrão
amostral dividido pela raiz quadrada do número de repetições, é tentar diminuir o
desvio padrão do resíduo ou erro experimental. Este, por sua vez, depende de uma série
de fatores, como por exemplo, a heterogeneidade do solo, devido a problemas de
adubação, fertilidade, irrigação, dentre vários outros. Uma parte deste erro é inerente à
variabilidade entre parcelas, que pode ser reduzida pelo controle local. Entretanto,
mesmo utilizando delineamentos que possibilitam um eficiente controle local, não é
possível eliminá-lo por completo. Nesta situação esta heterogeneidade vai contribuir
para aumentar a variância do erro e, consequentemente a precisão do experimento
conduzido será comprometida.
Uma alternativa interessante para tentar amenizar o problema da falta de
precisão do experimento poderia ser a utilização da covariância para tentar diminuí-lo,
por intermédio do ajustamento das médias em função das pequenas diferenças que
acontecem em certos fatores dentro do bloco. Para isto, é necessário medir a variável
adicional (denominada aqui de covariável) que pode estar linearmente relacionada à
variável de interesse do pesquisador no presente experimento. Desta forma é possível
proceder a uma análise de covariância ou ANCOVA, em que na maioria das suas
aplicações é o controle do erro experimental e ajustamento de médias dos tratamentos.
Análise de Covariância

A análise de covariância é uma técnica que tem por finalidade utilizar uma ou
mais variáveis auxiliares ou covariáveis (X) para complementar o controle local ou até
mesmo substituí-lo em alguns casos. Por exemplo, em um experimento de competição
de inseticidas para controle de uma praga de determinada cultura, podemos formar os
blocos de acordo com a infestação inicial das diferentes parcelas. As vezes não se
consegue formar blocos homogêneos e, então, pode-se utilizar os dados de infestação
inicial de cada parcela como uma variável auxiliar (covariável) na interpretação dos
dados de produção final.
A ANCOVA é usada para testar efeitos principais e de interações de variáveis
categóricas sobre uma variável dependente contínua, mediante controle dos efeitos de
outras variáveis contínuas (covariáveis) sobre a variável dependente. A estratégia da
ANCOVA consiste em gerar um modelo de regressão usando as covariáveis para
predizer a variável dependente e uma análise de variância sobre os resíduos da
regressão, para checar se as variáveis categóricas continuam significativamente
relacionadas à variável dependente, após remoção da variação devida às covariáveis
(WILDT e OLLI, 1978).
Nos modelos lineares quando as variáveis independentes são quantitativas, os
modelos lineares são denominados modelos de regressão; quando são qualitativas,
denominam-se modelos de análise de variância (ANOVA). Já quando existem varáveis
independentes quantitativas e qualitativas, os modelos são denominados modelos de
covariância (ANCOVA). O modelo de covariância é, na verdade, uma combinação das
técnicas de análise de variância e de análise de regressão.
Os modelos de covariância é uma instância dos modelos lineares em que
variáveis explicativas podem ser de natureza quantitativa e qualitativa. Os modelos de
covariância também devem atender a algumas suposições, tais como os modelos de
regressão tradicionais; são elas: (i) os erros devem ser aproximadamente normais e com
variância constante (homocedásticos); e (ii) o relacionamento entre as variáveis deve ser
linear. Deve-se, também, proceder com uma análise cuidadosa de outliers (ou valores
atípicos) com vistas a sua remoção do banco de dados, já que estes podem distorcer o
modelo final.
A análise de covariância será útil na condução de experimentos quando ajustar
médias de tratamentos para o valor que deveria ser obtido se caso não tivessem ocorrido
diferenças no valor da covariável e também na redução do erro experimental, o que
consequentemente implicaria no aumento da precisão para a comparação entre médias
dos tratamentos.
É importante ressaltar que a covariância só poderá ser usada se a covariável não
for afetada pelos tratamentos que estão sendo aplicados. Contudo, se for um
experimento de avaliação de níveis de fertilizantes utilizando apenas uma cultivar e
havendo diferenças na ocorrência do patógeno, é porque são devidas ao acaso. Neste
caso, pode-se reduzir a contribuição desta diferença via uma análise de covariância.
Steel e Torrie (1980) levantaram algumas suposições acerca do uso da análise de
covariância, em que citaram:
Os x’s são fixos, medidos sem o erro e independente dos tratamentos. Isto
implica que as inferências obtidas só se aplicam aqueles valores de x observados
naquele experimento. Eles devem ter sido obtidos com uma boa precisão. A condição de
independência dos tratamentos exige que os valores de x obtidos não sejam afetados
pelos tratamentos, como já mencionado várias vezes. A análise de variância do caráter x
fornece informação a este respeito;
A regressão de x e y, após a remoção das diferenças entre blocos e tratamentos, é
linear e independente dos tratamentos e blocos. Esta suposição implica que o efeito de x
é no sentido de aumentar ou de diminuir o valor de y por uma constante (b) multiplicada

pelo desvio xi − x . Assume-se, assim, que a regressão de x em y é estável. Isto fica


claro, pois não é colocado nenhum subscrito em b para se referir a um bloco ou
tratamento específico;
O resíduo é normalmente distribuído com média zero e variância comum. Esta
suposição é necessária para que a validade dos testes estatísticos seja confirmada.
Para exemplificar tudo que já foi dito acima e melhor entendimento dos
conceitos será apresentado uma aplicação da ANCOVA.

Aplicação – Análise de Covariância

Considere o exemplo de um ensaio de controle de pragas do feijoeiro, realizado


pelo engenheiro agrônomo João Ferreira Amaral citado por Pimentel - Gomes (2009).
Neste experimento, com 8 blocos casualizados, foram utilizados 5 tratamentos:
testemunha, Disyston, Ekatin, Keltane e Diazinon. Além da produção Y, em g/parcela,
determinou-se o número de plantas (stand) de cada parcela (X), como se vê na Tabela 1.

Código Latex – Está no final


Tabela 1 – Dados de produção (Y) e de número de plantas por parcela (X), em
ensaio de feijoeiro.
Testemunha Disyston Ekatin Keltane Diazinon Totais de blocos
1° bloco X 9 7 9 6 8 39
1° bloco Y 74 58 118 41 95 386
2° bloco X 9 8 9 9 8 43
2° bloco Y 51 67 48 38 41 245
3° bloco X 8 5 9 8 9 39
3° bloco Y 95 40 49 77 39 300
4° bloco X 9 8 9 9 9 44
4° bloco Y 62 58 64 92 114 390
5° bloco X 9 6 8 7 6 36
5° bloco Y 60 29 67 57 35 248
6° bloco X 9 8 8 7 8 40
6° bloco Y 47 64 51 77 49 288
7° bloco X 6 9 8 8 9 40
7° bloco Y 14 55 15 59 39 182
8° bloco X 8 8 9 8 9 42
8° bloco Y 19 47 29 32 100 227
Totais de tratamentos de X X 67 59 69 62 66 323
Totais de tratamentos de Y Y 422 418 441 473 512 2266

Código Latex está no outro arquivo.


Tabela 2 – Modelo de análise de Covariância entre as variáveis independentes x e
dependente y, considerando o delineamento em blocos casualizados.
SP SP SP
FV GL xx xy Yy GL QMy

Blocos r-1 Bxx Bxy Byy

Tratamentos t-1 Txx Txy Tyy

Erro (r – 1) (t – 1) Exx Exy Eyy (r – 1) (t – 1) – 1 (1) Eyy - (Exy)/ Sxx

Tratamentos + r(t – 1) Sxx Sxy Syy (2) Syy – (Sxy)/ Sxx


Erro ajustado r(t – 1) – 1

Trat. ajustado t–1 (1) – (2)

O modelo estatístico a ser adotado nesta análise é:

Yij = m + ti + rj + b( xij − x) + eij ' , em que:


Yij é a produção Y (feijão) – variável dependente, obtida no tratamento i e

bloco j;

ti é o efeito do tratamento (i = 1,2,3,4,5);

rj é o efeito de bloco j (j = 1,2, ..., 8);


b é o coeficiente de regressão linear entre x e y;
xij é o número de plantas (feijões), variável independente, obtida no tratamento
i e bloco j;
x é a média da variável independente x;
eij é o erro experimental.
Veja que no modelo, em relação ao que seria utilizado sem a covariância, isto é,

com b = 0, foi acrescentado somente b( xij − x ) . Este componente na análise sem


covariância é incluído no erro, diminuindo a precisão. Com a covariância,
especialmente quando há grande variação na covariável e os dois caracteres x e y estão

associados ( β ≠ 0) , reduz-se a estimativa do componente eij ' , melhorando a precisão


experimental.
Para começar a análise do experimento do controle de pragas do feijoeiro, pode-
se proceder da forma usual. Porém é preciso fazer cálculos análogos para os produtos
XY e para a variável X. Logo se tem:

 ( ΣY
) 2
SQTotal Y( ) =
YΣ −2  ∴
 N
2
(2266)
SQTotal Y( ) =152.752− ∴
40
SQTotal Y( ) =24.383,10.

(ΣX) 2
SQTotal X( ) =
XΣ −  ∴ 2

 N
(323) 2
SQTotal X( ) =2.653− ∴
40
SQTotal X( ) =44,78.
(ΣY)(Σ 
X)
SPTotal XY =Σ −
( ) XY  ∴
 N
(323)(2266)
( ) =
SQTotal XY 18.657− ∴
40
( ) =
SQTotal XY 359,05.
Para tratamentos tem-se:
 1  1
SQT (Y ) =  [422 2+ ...+ 512 2]−   (2266) ∴
2

 8  40
SQT (Y ) = 776,10.
 1  1
SQT ( X ) =  [67 2 + ...+ 66 2]−   (323) ∴
2

 8  40
SQT ( X ) = 8,16.
1  1  
SP T( XY)=   [(67)(422) ...+ (66)(512)]
+ − (323)(2266

8  40  
SQ T( XY)= 12, 43.
Calculando as estimativas do coeficiente de regressão (b estimado) e coeficiente
de correlação (r).

ˆb = R( xy) 302, 37
= 11, 02.=
R( x2 ) 27, 44
R( xy) 302, 37
r= = 0, 457. =
R( x ) R( y ) (27, 44)(15.931, 50)
2 2

Soma de quadrados da regressão linear:

(302, 37)2
SQ RL= = 91.
3.331,
27, 44
Soma de quadrados do resíduo ajustada para a regressão:

SQRL = 15.931,50− 3.331,91= 12.599,59.


O quadrado residual é dado por:
12.599,59
s2 = = 466,65.
27
Portanto:

[ R '(xy )∴]
2

SQ (Trat . +Re síduo ) *= R '( y 2)−


R '(x 2 )
(314,80) 2
= 16.707,60− = 13.923,92.
35,60
A soma de quadrados (ajustada) para tratamentos será então:

SQ (Trat . +Re síduo ) *− SQR e s .*∴


= 13.923,92− 12.599,59= 1.324,33.

com 4 graus de liberdade. O quadrado médio (ajustado) para tratamentos será:

1.324,33
QMT * = = 331,08.
4

QMT * 331,08
F= 2
= = 0,709.
s 466,65
Somas de quadrados e produtos

GL y2 xy x2
FV GL SQ QM F
Blocos 7 7.675,50 44,25 9,18

Tratamentos 4 776,10 12,43 8,16

Resíduo 28 15.931,50 302,37 27,44 27 12.599,59 466,65

Total 39 24.383,10 359,05 44,78

Trat. + Resíduo 32 16.707,60 314,80 35,60 31 13.923,92 0,709


Trat.(ajustado) 4 1.324,33 331,08

QMT(x) = 8,16 / 4 = 2,04.

Verifica-se, pois, não foi significativo o efeito de tratamentos, mesmo com o uso
da covariância, embora este tenha dado um valor de F mais elevado do que se obteria se
a aplicação (0,709 em lugar de 0,487).
As médias ajustadas para os tratamentos, encontradas pela fórmula

Yˆi =Yi −b ˆX(−


i X ) foram:

Médias de tratamentos
Originais Ajustadas
Tratamentos
Yi Xi Yˆi =Yi −b ˆX(−
i X )
Testemunha 52,250 7,375 59,96
Disyston 55,125 8,625 49,06
Ekatin 59,125 7,750 62,71
Keltane 64,000 8,250 62,07
Diazinon 52,750 8,375 49,44

O ajustamento das médias de tratamentos de acordo com os valores de X (stand)


só se justifica, em geral, se as diferenças de stand não são devidas aos próprios
tratamentos. Isto pode ser verificado por intermédio de uma análise de variância dos
valores de X, como na tabela abaixo:

FV GL SQ QM F
Blocos 7 9,18 1,31
Tratamentos 4 8,16 2,04 2,08
Resíduos 28 27,44 0,98

Verifica-se ao nível de 5% de probabilidade (F = 2,71), que não é significativo o


valor observado.

Considerações Finais

A análise de covariância, apesar não ser muito utilizada pelos pesquisadores,


pode ser bastante útil em análises em que se busca reduzir o efeito residual do
experimento, devido a alta variabilidade entre parcelas, além tentar sanar o problema da
falta de uniformidade nas condições experimentais.

Referências

COCHRAN, W. G. Analysis of covariance: its nature and uses. Biometrics, 13: 261 –
81, 1957.

KEMPTHORNE, WALTER T. Experimental design. Nova York: Macmillan, 1995.

PIMENTEL – GOMES, F. A estatística moderna na pesquisa agropecuária. 3°ed.


Piracicaba, SP: Potafós, 1987.

RAMALHO, M. A P.; FERREIRA, D. F., OLIVEIRA, A. C. Experimentação em


genética e melhoramento de plantas. Lavras: Editora UFLA, 2000. 303p.

Steel, R.G.D., and J.H. Torrie. 1980. Principles and Procedures of Statistics: A
Biometrical Approach (2nd Ed.). McGraw-Hill Inc., New York.

WILDT, Albert R; AHTOLA, Olli. Analysis of covariance. Beverly Hills: SAGE,


1978 93 p. (Sage university papers. Series: Quantitative applications in the social
sciences ; 12).