Anda di halaman 1dari 26

VIII

ANÁLISE DE REGRESSÃO

8.1)INTRODUÇÃO

Vimos que dentro da classe dos experimentos fatoriais encontramos aqueles cujos
níveis de um fator ( ou mais ) são quantidades e que por isto , regressão deve ser uma das
técnicas empregada na sua análise; na discussão sobre aditividade dos tratamentos no
capítulo 1, citamos a análise de covariância como uma técnica que pode corrigir em parte
os danos causados pela não aditividade. Como análise de covariância é também uma
aplicação de regressão na análise de experimentos, daremos, nesta seção, uma revisão
geral sobre esta importante técnica e veremos como ela pode ser utilizada na análise de
experimentos.
Para iniciar a revisão vejamos um exemplo discutido por Snedecor(1974).
Pesquisadores estavam interessados em relacionar a quantidade de fósforo no milho com
fósforo no solo; no estudo feito, a concentração de fósforo inorgânico ( X 1 ) e fósforo
orgânico ( X 2 ) no solo foram determinados quimicamente. A quantidade de fósforo nas
plantas que cresceram nestes solos também foi medida e os dados obtidos deste estudo,
em ppm, seguem abaixo.

FOSFORO
NA FOSFORO FÓSFORO
AMOSTRA PLANTA INORGANICO ORGANICO

1 64 0.4 53
2 60 0.4 23
3 71 3.1 19
4 61 0.6 34
5 54 4.7 24
6 77 1.7 65
7 81 9.4 44
8 93 10.1 31
9 93 11.6 29
10 51 12.6 58
11 76 10.9 37
12 96 23.1 46
13 77 23.1 50
14 93 21.6 44
15 95 23.1 56
16 54 1.9 36
17 168 26.8 58
18 99 29.9 51

Antes de aplicar uma técnica, devemos conhecer melhor os dados mediante gráficos
entre Y e X 1 e entre Y e X 2 e correlações e outras estatísticas descritivas.
ESTATÍSTICAS DESCRITIVAS

VARIAVEL MEDIA ERRO PADRAO MINIMO MAXIMO


Y 81.28 27.00 51.00 168.00
X1 11.94 10.15 0.40 29.90
X2 42.11 13.62 19.00 65.00
Há uma fraca associação entre Y e X1 e X 2 e as correlações não são altas : 0.69 e 0.35
respectivamente; aparentemente existe um ponto suspeito no conjunto dos dados. Outras
estatísticas descritivas devem também examinadas nesta fase .
Como iniciar o estudo? Quais perguntas são feitas numa pesquisa como esta? O
interesse aqui é explorar alguma relação entre fósforo na planta com o fósforo no solo e um
dos caminhos é mediante um modelo estatístico que relaciona Y com X1 e X 2 da forma:
Yi = β 0 + β1Xi1 + β 2 Xi2 + ε i
onde i diz respeito à amostra ou observação i (i=1,2,...,18). Este modelo é aplicado a cada
observação do estudo, isto é, são 18 equações para o exemplo que esta sendo estudado. O
que significa os símbolos desta equação? Y é variável resposta, X1 e X 2 são as variáveis
explicativas ; β1 (beta 1) quantifica a influencia de X1 no valor de Y e β 2 o mesmo em
relação a X 2 , a influência de X1 é negativa se o valor de β1 é negativo e positiva caso
contrário. Os betas são chamados de coeficientes de regressão; X1 e X 2 também são
chamadas de variáveis independentes e Y de variável dependente. Esta equação é
chamada de equação de regressão linear múltipla de Y sobre X1 e X 2 (falaremos de
β 0 e ε i mais adiante).
É evidente que esta é uma equação das mais simples e está longe de estabelecer
uma lei entre Y e X1 e X 2 ; mas o objetivo não é este, e sim, verificar se existe uma
relação entre Y e X1 e X 2 (dentro do intervalo de estudo de X1 e X 2 ) avaliada por esta
equação (outras equações mais complicadas podem ser também utilizadas); logo,
admitimos que esta equação é uma representação aproximada de Y em função de X1 e
X 2 . Isto significa que existe uma diferença entre o valor observado de Y e o valor
calculado pela equação, para valores conhecidos de X1 e X 2 . Esta diferença é representada
por ε i , denominado erro , um erro de fato, por que não conhecemos a equação verdadeira
(ou seja, ε i cobre nossa ignorância em relação ao que realmente se passa no sistema solo-
2
planta); como é imprevisível , ε i é uma variável aleatória com média zero e variância σ
e distribuição normal, propriedades frequentes das variáveis aleatórias que representam
erros. Suponha que não exista fósforo no solo, então X1 =0 e X 2 =0 e portanto Y= β 0 ;
poucos são os estudos em que todas as todas as variáveis explicativas podem ser zero
simultaneamente, entretanto, como na teoria geral de análise de regressão, não se pode
impor restrições aos valores das variáveis , este parâmetro deve fazer parte do modelo. β 0
é conhecido como intercepto e na maioria dos estudos não há interesse inferêncial sobre
ele. Para explicar a origem do nome intercepto vejamos a equação Yi = β 0 + β1 X i1 ; esta é
a equação da reta e se β1 = 0 então y i = β 0 ou seja, β 0 é o ponto onde a reta intercepta o
eixo dos y. Evidentemente um estudo de regressão pode ter p ≥ 1 variáveis explicativas
e assim o modelo passa a ser
Yi = β 0 + β1Xi1 + β 2 Xi2 + ... + β p Xip + ε i .
Certamente, pode também haver mais de uma variável resposta .

8.2)INFERÊNCIAS

A pergunta a seguir é: Quais são os valores de β 0 , β1 , β 2 ,..., β p e σ 2 ?


Precisamos de estimativas destes parâmetros e para isto usamos o método dos quadrados
mínimos . Seguindo nosso exemplo,
ε i = (Yi − β 0 − β1 X i1 − β 2 X i 2 )
ε i2 = (Yi − β 0 − β1Xi1 − β 2 Xi2)2
∑ εi2 = ∑ (Yi − β 0 − β1Xi1 − β 2 Xi2)2
i i
O método dos quadrados mínimos consiste em se calcular os valores de β 0 , β1 e β 2 tal
que ∑ ε i2 (soma dos quadrados dos erros) seja a menor possível(mínima); utilizando o
i
SAS a solução é a seguinte: βˆ 0 = 56.25 , βˆ 1 = 1.79 e βˆ 2 = 0.09 . Qual a interpretação
diante destes resultados? A cada aumento de 1 ppm de fósforo inorgânico no solo ,
mantendo-se fixa a quantidade de fósforo orgânico, a quantidade estimada de fósforo na
planta aumenta de 1.79 ppm; esta interpretação tem limitações no mundo real por que nem
sempre no sistema solo-planta(ou outros) é possível fixar o valor de uma variável e variar a
outra. Como a escala é a mesma (ppm), acreditamos que a influência do fósforo orgânico
é bem menor do que o inorgânico.
Conhecidas as estimativas , surgem outras perguntas: Podemos confiar nelas? Ou o
modelo é aceitável ? Para responder estas e outras perguntas utilizamos a análise de
variância, os testes estatísticos e os intervalos de confiança. A análise de variância
forneceu os seguintes resultados:
Fontes de GL Soma de Quadrado
variação quadrados médio F Pr > F

Regressão 2 5975.67 2987.83 6.99 0.0072


Erro 15 6413.94 427.60
Total 17 12389.61
2
Com estes dados podemos concluir que a estimativa de σ é 427.60, com 15 graus de
liberdade( comumente diz-se que σ̂ =427.60 ou QM do erro). Supondo que os dados tem
2

distribuição normal, o teste F é para testar a seguinte hipótese:


H 0 : β1 = 0 e β 2 = 0 ( X1 e X 2 não explicam a variabilidade de Y)
H a : β1 ≠ 0 ou β 2 ≠ 0
Adotando um nível de significância de 5%, a hipótese nula é rejeitada desde que o valor de
F (F=6.99) caiu na região de rejeição (o valor de F com 2 e 15 GL , a 5% , é 3.68) . Assim,
concluímos que as duas variáveis ( X1 e X 2 ) ou uma delas esta influenciando no valor de
Y e saberemos qual afirmação é correta com os testes para cada beta. Nesta fase,
aplicamos o teste t de Student , para testar a seguinte hipótese:
H 0 :β j = 0 ( X j não tem influência sobre y)
H a :β j ≠ 0 , j=1,2.

Parâmetros Estimativas Erro valor de t Pr > |t|


padrão
β1 1.79 0.56 3.21 0.0058
β2 0.09 0.41 0.21 0.8374

Na tabela acima , está o erro padrão de cada estimativa; quanto menor o erro padrão mais
estável é a estimativa e portanto, mais confiável. O valor de t é dado pela fórmula
βˆ j
t=
erro padrão de βˆ j
Como o valor de t para β̂1 (3.21) é significativo a 5% e para β̂ 2 (0.21) não é , concluímos
neste primeiro estudo que a variável X1 está influenciando Y e que X 2 não está. O
intervalo de confiança a 95% para cada beta esta na tabela abaixo.
Parâmetro Intervalo a 95%
β1 0.60310 2.97644
β2 -0.79778 0.97108
O intervalo de confiança é dado pela fórmula
β̂j ± (erro padrão) tα
tα é o valor de t da tabela de t de Student, com α =0.05 e 15 graus de liberdade(gl), isto
é, tα =2.131.
Observe que o intervalo de confiança para β 2 contem o valor 0(zero). É evidente que
quanto menor o intervalo , mais confiável ele é e que o erro padrão é decisivo para esta
qualificação.
Mesmo que X1 e X 2 fossem importantes para Y, podemos questionar se esta
explicação foi satisfatória no seguinte sentido: da variabilidade total de Y , quanto foi
2
explicada pelas duas variáveis? Esta informação é dada pelo conhecido R , obtido pela
fórmula
SQ Re g 5975.67
R2 = = = 0.48 ou 48%
SQ Total 12389.61
Dizemos então que 48% da variabilidade total foi explicada por X1 e X 2 . Isto é
aceitável? Ou seja, o modelo é aceitável? Não existe uma outra variável importante? Não
existe outra equação melhor que esta?
Conhecido as estimativas dos betas , pode-se estimar os valores de Y pela equação
de regressão
Ŷi = 56.25 + 1.79X i1 + 0.09X i 2 ;
como conhecemos os valores observados de Y, a diferença ( Ŷi − Yi ) é o erro estimado (ou
resíduo), e assim temos a seguinte tabela:

Obs Yi ˆi
Y Resíduo

1 64 61.56 2.44
2 60 58.96 1.04
3 71 63.45 7.55
4 61 60.27 0.73
5 54 66.74 -12.74
6 77 64.93 12.07
7 81 76.89 4.11
8 93 77.01 15.99
9 93 79.52 13.47
10 51 83.83 -32.83
11 76 78.97 -2.97
12 96 101.58 -5.58
13 77 101.93 -24.93
14 93 98.72 -5.72
15 95 102.45 -7.57
16 54 62.77 -8.77
17 168 109.24 58.75
18 99 114.18 -15.18

8.3)VALIDAÇÃO

Perguntamos se o modelo era bom; pelo exame dos resíduos concluímos que o
modelo não é tão bom pois alguns são elevados (um deles é o da observação 17, igual a
58.75). O que é um erro grande ou não, será discutido mais adiante. Aproveitando esta
2
tabela, vamos completar o significado de R ; mediante desenvolvimento algébrico,
2
sabemos que R = R é o coeficiente de correlação entre o valor observado e o valor
estimado pela equação de regressão ( R = Corr (Y, Ŷ) ). Se o modelo fosse perfeito, os erros
2
estimados seriam zero e a correlação( R ) seria 1, assim como R . Um gráfico entre
Y e Ŷ ajuda a formar nosso julgamento:

A linha em azul representa o gráfico se Ŷ x Y se Ŷ fosse igual a Y e os pontos


em cruz, o gráfico entre Ŷ e Y . Se o modelo fosse perfeito, os pontos em vermelho
ficariam sobre a linha azul.
A metodologia usada assumiu que o modelo é correto, variância é homogênea, as
observações são independentes e erros tem distribuição normal; assume ainda , que não
existe medidas discrepantes(ao examinar os dados , suspeitamos da observação 17).
Precisamos saber de fato se estas assunções podem ser aceitas e se existem medidas
discrepantes. Com o avanço dos computadores a análise de regressão passa pela fase de
validação; este assunto é extenso e vamos colocar aqui o essencial.
O modelo é correto? Sabemos que o modelo é uma aproximação da realidade e o
melhor que podemos fazer é avaliar se a aproximação é aceitável. Com a auxílio dos
gráficos , pode-se examinar a relação entre a variável resposta e as variáveis explicativas :
é linear, quadrática , exponencial, etc. Os gráficos iniciais já foram feitos, evidenciando
uma relação linear razoável em relação a X1 , mas fraca em relação a X 2 . Entretanto, os
gráficos podem não mostrar o bastante e ainda sofre a influência da escala. Existe um teste
estatístico para avaliar a especificação do modelo (teste de White) que o PROC REG do
SAS possui; para este primeiro estudo não houve rejeição do modelo
A variância dos dados é homogênea ? Para ir adiante, vamos tornar preciso o
significado de variância homogênea em regressão. A observação 1 tem os seguintes
valores: Y1 = 64 , X11 = 0.40 e X12 = 53 . Se fixássemos os pontos X11 = 0.40 e
X12 = 53 , e pudéssemos fazer muitas observações neste ponto , poderíamos falar da
distribuição de Y quando X11 = 0.40 e X12 = 53 . A média desta distribuição seria
Y1 = β 0 + β1X11 + β 2 X12 e variância σ 2 ; estendendo este raciocínio para todas
as observações, temos que para cada par de valores X1i e X 2i existe uma distribuição de
Y com a média Yi = β 0 + β1X i1 + β 2 X i 2 e com variância σ 2 , constante.; esta é a variância
da qual estamos falando e que admitimos igual para todos os pares de pontos. Este é o
significado da variância homogênea dos dados. Como avaliar esta pressuposição? Pela
origem dos dados e por meio de gráficos entre e ε̂ E Ŷ (valores estimados pela
regressão e os erros estimados).

O gráfico não contém sintomas de heterogeneidade das variâncias mas ele não é
conclusivo; novamente observamos que a obs 17 não acompanha as outras.
Aproveitando a explicação sobre variância homogênea, vamos tratar de outros dois
tipos de intervalos de confiança. Vimos que para cada conjunto de valores das variáveis
explicativas ( X i1, X i 2 ,..., X ip ), pressupõe-se uma distribuição dos valores de Y, com
média ( β0 + β1X i1 + β 2 X i 2 + ... + β p X ip ) - que depende dos valores dos valores das
2
variáveis explicativas - e variância σ ; num estudo de regressão, na sua maioria, tem-se
apenas um valor de Y de cada distribuição, como no exemplo do fósforo onde temos 18
observações , cada uma representando uma distribuição. Vamos supor que o pesquisador
deseje estimar a quantidade de fósforo na planta quando X1 = 15 e X 2 = 55; certamente
existe uma distribuição de Y para X1 = 15 e X 2 = 55 e duas formas de estimativas
são frequentemente confundidas: o pesquisador deseja estimar a média de Y da
distribuição ou estimar um valor de um individuo da população ? Ocorre que a estimativa
é a mesma em ambos casos: Ŷ(15;55) = βˆ 0 + βˆ 1 (15) + βˆ 2 (55) = 87.86 . Entretanto, há uma
diferença : se a estimativa é de uma média, então a variância é menor assim como também
o intervalo de confiança .Para a média o intervalo é 73.27----102.45, e para um valor
individual é 41.44---134.29. Para o estudo em questão os intervalos são os seguintes:

Obs X1 X2 Y ˆ
Y ERRO L1 L2 M1 M2

1 0.40 53.00 64.00 61.56 2.44 12.03 111.1 38.97 84.15


2 0.40 23.00 60.00 58.96 1.04 10.90 107.0 39.79 78.13
3 3.10 19.00 71.00 63.45 7.55 14.66 112.2 42.52 84.37
4 0.60 34.00 61.00 60.27 0.73 13.43 107.1 44.41 76.13
5 4.70 24.00 54.00 66.74 -12.7 19.27 114.2 49.10 84.39
6 1.70 65.00 77.00 64.93 12.07 11.68 118.2 35.05 94.80
7 9.40 44.00 81.00 76.89 4.11 31.42 122.4 65.73 88.04
8 10.10 31.00 93.00 77.01 15.99 30.84 123.2 63.25 90.78
9 11.60 29.00 93.00 79.53 13.47 32.83 126.2 64.09 94.96
10 12.60 58.00 51.00 83.83 -32.8 36.51 131.1 66.63 101.0
11 10.90 37.00 76.00 78.97 -2.97 33.50 124.4 67.80 90.13
12 23.10 46.00 96.00 101.6 -5.58 54.72 148.4 85.68 117.5
13 23.10 50.00 77.00 101.9 -24.9 55.14 148.7 86.22 117.6
14 21.60 44.00 93.00 98.72 -5.72 52.17 145.3 83.75 113.7
15 23.10 56.00 95.00 102.4 -7.45 55.26 149.6 85.60 119.3
16 1.90 36.00 54.00 62.77 -8.77 16.27 109.3 47.95 77.59
17 26.80 58.00 168.0 109.2 58.76 60.97 157.5 89.56 128.9
18 29.90 51.00 99.00 114.2 -15.2 65.08 163.3 92.53 135.8

L1 e L2 são os limites do intervalo de confiança para um valor individual no ponto X1i e


X 2i e M1 e M2 são os limites do intervalo de confiança para a média da distribuição de Y
para X 1i e X 2i conhecidos.
As observações são independentes se o valor de uma observação não recebe
influencia de outra ; por exemplo , se a variável Y é o peso do animal e X sua idade em
semanas, é evidente que estas observações não são independentes. No caso do fósforo , não
há evidencia contrária a independência.
A distribuição normal dos dados pode ser avaliada por testes estatísticos e por
gráficos. Pelos testes estatísticos temos os seguintes resultados sobre a distribuição dos
erros estimados:

Testes para Normalidade dos erros

Testes --Estatística--- -- ---p Value------

Shapiro-Wilk W 0.88747 Pr < W 0.0349 (**)


Kolmogorov-Smirnov D 0.149696 Pr > D >0.1500
Cramer-von Mises W-Sq 0.091156 Pr > W-Sq 0.1397
Anderson-Darling A-Sq 0.641523 Pr > A-Sq 0.0828

Pelo teste de Shapiro-Wilk, rejeita-se normalidade ( se α = 0.05 ).


A presença de medidas discrepantes é verificada por gráficos, principalmente
entre os erros estimados e os valores estimados pela equação de regressão, como segue. no
próximo gráfico entre Ŷi e ε̂ i , visto anteriormente. Já vimos que a observação 17 é uma
medida discrepante porque ela deve pertencer a uma outra população e isto pode ser
verificado pelo gráfico . O que fazer? Neste caso vamos retirá-la do estudo e repetir a
análise .

Analise da Variancia sem a obs 17

FV GL SQ QM F Pr > F

Regressão 2 2325.18 1162.59 7.75 0.0054


Erro 14 2101.29 150.09
Total 16 4426.47

R 2 = 0.53

Parâmetro Estimativa Erro t Pr > |t|

β0 66.47 9.85 6.75 <.0001


β1 1.30 0.34 3.76 0.0021
β2 -0.11 0.25 -0.45 0.6619

R 2 ajustado(Adj R-Sq) que aparece nos aplicativos é um valor de R 2 corrigido para


diminuir o efeito do número de variáveis explicativas sobre seu valor e é dado por:
n − 1
R 2 (ajustado)= 1 − (1 − R 2 )
n − p

Parâmetro 95% Intervalo de confiança (PARA OS BETAS)


( 95%)
β1 0.56 2.03
β2 -0.64 0.42

Testes para r Normalidade dos erros

Teste Estatistica -----p Valor-----

Shapiro-Wilk W 0.953534 Pr < W 0.5148


Kolmogorov-Smirnov D 0.132437 Pr > D >0.1500
Cramer-von Mises W-Sq 0.057692 Pr > W-Sq >0.2500
Anderson-Darling A-Sq 0.337393 Pr > A-Sq >0.2500
ANALISE DA REGRESSAO(sem obs 17)

Obs X1 X2 Y Y_P ERRO IND2 IND1 M2 M1

1 0.40 53.00 64.00 61.10 2.90 31.57 90.62 47.63 74.56


2 0.40 23.00 60.00 64.43 -4.43 35.69 93.17 52.79 76.06
3 3.10 19.00 71.00 68.36 2.64 39.20 97.51 55.73 80.98
4 0.60 34.00 61.00 63.46 -2.46 35.51 91.42 53.92 73.00
5 4.70 24.00 54.00 69.86 -15.9 41.53 98.20 59.27 80.46
6 1.70 65.00 77.00 61.44 15.56 29.67 93.22 43.57 79.31
7 9.40 44.00 81.00 73.71 7.29 46.57 100.8 66.94 80.48
8 10.10 31.00 93.00 76.05 16.95 48.52 103.6 67.84 84.27
9 11.60 29.00 93.00 78.21 14.79 50.37 106.1 69.00 87.43
10 12.60 58.00 51.00 76.28 -25.3 47.91 104.6 65.59 86.97
11 10.90 37.00 76.00 76.42 -0.42 49.29 103.5 69.68 83.16
12 23.10 46.00 96.00 91.16 4.84 62.92 119.4 80.80 101.5
13 23.10 50.00 77.00 90.72 -13.7 62.46 119.0 80.34 101.1
14 21.60 44.00 93.00 89.45 3.55 61.45 117.4 79.78 99.12
15 23.10 56.00 95.00 90.05 4.95 61.49 118.6 78.85 101.3
16 1.90 36.00 54.00 64.92 -10.9 37.18 92.66 56.04 73.80
17 26.80 58.00 . 94.60 . 65.23 124.0 81.49 107.7
18 29.90 51.00 99.00 99.38 -0.38 69.51 129.2 85.17 113.6

O estudo nos resultados da análise sem a obs 17, indica que esta observação deve
ser retirada . Quais as diferenças entre as duas análises?
Erro R2
Com a obs 17 427.60 0.48
Sem a obs 17 150.09 0.52

Parâmetro intervalo a 95% (com obs 17) intervalo a 95% (com obs 17)

β1 0.60310 2.97644 0.55503 2.02535


β2 -0.79778 0.97108 0.64421 0.42214

Embora o R 2 tenha aumentado pouco, o erro diminuiu em 65% , os intervalos de confiança


são menores e os testes para normalidade dos erros não foram significativos.

8.4)INFLUENCIA DOS DADOS

Modernamente existe um exame mais detalhado sobre medidas discrepantes,


denominado análise da influencia. ou diagnóstico da regressão . Consiste no exame da
influencia de cada observação nos resultados da análise de regressão e por meio de alguns
valores, colocá-la ou não sob suspeita; os passos deste estudo são os seguintes:
1)Calcular as estimativas com todas as observações;
2)Retirar cada uma das observações dos dados e recalcular as estimativas;
3)Examinar os impactos.
A literatura sobre o assunto e os aplicativos de estatística usam alguns termos e
fórmulas, cujos valores refletem o impacto da observação sobre determinadas inferências
fornecidas pela regressão .Seguem algumas delas.
1) COVRATIO i : mede a influencia da observação i na estimativa das de variâncias e
covariâncias dos betas.
2) DFFITSi : mede a influencia da observação i na estimativa de Yi .
3) DFBETASij : mede a influencia da observação i na estimativa de β j .
As definições i de cada uma seguem.
Se p é o número de variáveis explicativas e n é o número de observações, então a
observação i é considerada influente se
3(p + 1)
1) | COVRATIOi − 1 | >
n

p +1
2) | DFFITSi | > 2
n
então a observação i é influente para Ŷi .

2
3)| DFBETASij | >
n
então a observação i foi influente para estimar β j .
O que significa a obs i ser influente para, por exemplo, estimar β j ? Com todos os
dados do estudo β̂ j tem um valor mas retirando-a β̂ j tem um valor diferente. A teoria
sobre esse assunto encontra-se em Belsley at al (1980). Vamos exercitá-los no exemplo
onde n=18 , p=2. A análise forneceu os seguintes resultados:

Dependent Variable: Y FOSFORO NA PLANTA

Cov --------DFBETAS--------
Obs Ratio DFFITS Intercept X1 X2

1 1.6617 0.0793 -0.0231 -0.0637 0.0560


2 1.5160 0.0261 0.0229 -0.0080 -0.0144
3 1.5337 0.2176 0.2105 -0.0110 -0.1622
4 1.4124 0.0141 0.0073 -0.0090 -0.0009
5 1.3361 -0.2882 -0.2696 0.0197 0.1968
6 2.0005 0.7229 -0.3830 -0.5202 0.6256
7 1.3031 0.0520 0.0064 -0.0177 0.0143
8 1.1902 0.2643 0.2226 0.0451 -0.1693
9 1.2705 0.2554 0.2202 0.0818 -0.1888
10 0.7479 -0.7886 0.4235 0.2617 -0.6278
11 1.3086 -0.0375 -0.0235 -0.0028 0.0133
12 1.3905 -0.1085 -0.0083 -0.0795 0.0182
13 0.9899 -0.5040 0.0613 -0.3215 -0.0278
14 1.3666 -0.1030 -0.0180 -0.0735 0.0249
15 1.3972 -0.1566 0.0613 -0.0703 -0.0574
16 1.3313 -0.1565 -0.0722 0.0995 -0.0010
17 0.0540 2.6757 -1.0570 1.5146 0.8041
18 1.4017 -0.4709 0.0433 -0.3844 0.0429
São valores suspeitos aqueles que:
COVRATIO < 0.5 ou > 1.5
DFFITS >0.817 ;
DFBETAS > 0.471.
As observações suspeitas estão em negrito na tabela anterior.
Examinando as 3 análises , com todos os dados, sem a obs 17 e sem as obs 6 e 17,
optamos pela análise sem a obs 17 mas com a obs 6. Isto porque o ganho nos resultados
sem a obs 6, foi muito pequeno. Alem disto, o erro era 427.60 com todos os dados, 150.09
sem a obs 17 e 157.26 sem as obs 6 e 17. Após a retirada de observações discrepantes, é
recomendado repetir os procedimentos que verificam as pressuposições; por exemplo, sem
a obs 17, normalidade pode ser aceita. Mas qual o caminho a tomar se alguma
pressuposição não ocorre?
(1)Variância heterogênea e não normalidade: transformação de variáveis (resposta ou
explicativa).
(2)Dados correlacionados: mudar o método de estimação.
(3)Modelo incorreto: pesquisar para obter um modelo melhor.
Um caminho para (1) é a transformação estabilizadora da variância; as
transformações mais conhecidas são Y , log(Y) , 1Y e arcsen( p ) (quando p é uma
proporção). Estas transformações também são úteis para se aproximar da normalidade.
Uma transformação bem conhecida é a de Box e Cox(1964); se Y é a variável
resposta e Z a variável transformada , então:
Y λ −1
Z= , para Y > 0 e λ ≠ 0
λ
Z = log(Y) , para Y > 0 e λ = 0
Segundo Box e Cox existe uma transformação de Y , que depende de λ , tal que o modelo
para Z é linear, as variâncias são homogeneas e a distribuição é normal. O valor de λ
não é conhecido e ele tem que ser estimado a partir dos dados. Frequentemente o valor de
λ está entre -2 e 2 e assim o que se faz na prática é transformar a variável resposta para
muitos valores de λ neste intervalo e escolher o melhor. Seguindo essas operações para o
nosso exemplo, λ =-0.5 é o melhor valor com a obs 17 isto é:
Y −0.5 − 1
Zi =
− 0.5
2
Sem a obs 17 o melhor valor é λ =2 ; no primeiro caso R =52% e no segundo
R 2 =56%. O que significam estas duas transformações? Essencialmente temos que a
variável transformada Z é: :
1)Para λ = −0.5 (com todos os dados)
1
Z = Y −1 / 2 = 1 / 2 = β0 + β1X i1 + β 2 X i 2 + ε i
Y
ou

1
Yi1 / 2 = Yi = ou
β 0 + β1X i1 + β 2 X i 2 + ε i
2
 1 
Yi =  
β
 0 + β X
1 i1 + β X
2 i2 + ε 

2)Para λ = 2 (sem a obs 17)

Yi2 = β 0 + β1Xi1 + β 2 Xi2 + ε i .


Yi = (β 0 + β1Xi1 + β 2 Xi2 + ε )1 / 2
Neste caso , retirando a obs 17, não há necessidade de transformações Devemos
considerar a transformação de Box e Cox como uma técnica exploratória e não
confirmatória . Não há procedimento automático para se estimar o valor de λ .
Outro caminho é descobrir outra variável importante ou que faça sentido sua
presença no modelo; por exemplo, vamos ver a performance do modelo; como no solo é
esperado uma interação entre os dois tipos de fósforo, vamos trabalhar com o modelo
Yi = β 0 + β1X i1 + β 2 X i 2 + β12 X i1X12 + ε i
onde Xi1X 12 é a interação entre as duas variáveis explicativas. Os resultados foram os
seguintes:

FV GL SQ QM F Pr > F

Regressão 3 2951.73 983.91 8.67 0.0020


Error 13 1474.74 113.44
Total 16 4426.47

R 2 =0.67
R 2 (ajustado)=0.59

Parâmetro Estimativa Erro t Pr > |t|

β0 45.92 12.24 3.75 0.0024


β1 5.30 1.73 3.06 0.0091
β2 0.33 0.29 1.15 0.2717
β12 -0.08 0.04 -2.35 0.0352

Intervalo de
Parâmetro confiança(95%)
β1 1.56 9.05

β2 -0.29 0.94

β12 -0.16 -0.01


Dep Var Predicted
Obs Y Value Residual

1 64.0000 63.6582 0.3418


2 60.0000 54.8204 5.1796
3 71.0000 63.6994 7.3006
4 61.0000 58.5566 2.4434
5 54.0000 69.3460 -15.3460
6 77.0000 67.0671 9.9329
7 81.0000 75.8367 5.1633
8 93.0000 83.6379 9.3621
9 93.0000 89.0018 3.9982
10 51.0000 71.0422 -20.0422
11 76.0000 82.3532 -6.3532
12 96.0000 95.2279 0.7721
13 77.0000 88.8618 -11.8618
14 93.0000 95.9393 -2.9393
15 95.0000 79.3126 15.6874
16 54.0000 62.1188 -8.1188
17 . 77.9223 .
18 99.0000 94.5200 4.4800

Como ainda existe um erro relativamente grande, se retirarmos a obs 10 temos os seguintes
resultados:

FV DF SQ QM F Pr > F

Regressão 3 2786.31 928.77 11.53 0.0008


Error 12 966.70 80.56
Total 15 3753.00

R 2 =0.74
R 2 (ajustado)=0.68

Intervalo de
Parâmetro Estimativa Erro t Pr > |t| confiança(95%)

β1 4.39 1.51 2.91 0.0130 1.11 7.67

β2 .40 0.24 1.66 0.1236 -0.13 0.93

β12 -0.07 0.03 -2.14 0.0537 -0.13 0.0012


Obs Y Ŷ Erro

1 64 67.3 -3.2853
2 60 56.0 3.9772
3 71 63.0 7.9937
4 61 60.6 0.4155
5 54 68.5 -14.5038
6 77 71.9 5.0398
7 81 77.4 3.5419
8 93 81.9 11.1117
9 93 86.1 6.8605
10 . 76.3 .
11 76 81.9 -5.9013
12 96 95.8 0.1352
13 77 91.4 -14.4212
14 93 95.8 -2.8280
15 95 84.7 10.2441
16 54 63.9 -9.9475
17 . 84.7 .
18 99 97.4 1.5674

Nesta síntese sobre regressão, não houve incentivo à utilização de fórmulas


considerando que os aplicativos de estatística ,como o SAS(e outros), fornecem os
resultados relevantes para a análise; importante é reconhecer as limitações da técnicas,
como superar os obstáculos e compreender os diferentes resultados.
Com esta síntese sobre regressão, podemos então aplicá-la na análise de
experimentos.
IX
ANÁLISE DE COVARIÂNCIA

9.1 INTRODUÇÃO

O planejamento de um experimento tem que conter os componentes que propiciam


a comparação não viesada de tratamentos e é orientado pela identificação da estrutura de
parcelas homogêneas que o pesquisador possui ou que as circunstancias experimentais
determinam e pela observância dos princípios da experimentação : o controle
local(blocagem) a repetição e a casualização; o estudo levando em conta estes pontos, dá
origem aos delineamentos experimentais. Entretanto, em alguns experimentos, apesar de
todos os cuidados, há uma ou mais características que agem sobre o sistema, aumentando o
erro experimental e viesando a comparação de tratamentos; vamos ilustrar com alguns
exemplos.
No capítulo I , explicamos em detalhes um experimento para testar 5 raças de
bactérias no combate ao nematóide que ataca a soja e vimos que na construção do sistema
havia 30 vasos iguais com a mesma quantidade de terra esterilizada, infestada
posteriormente por nematóides; o desejável é que a quantidade de nematóide seja a mesma
por parcela e assim qualifica-las com um conjunto homogêneo, mas sabemos que isto é
impossível. Com exceção deste fato, o delineamento será completamente casualizado, mas
certamente as 30 parcelas não mais constituem um conjunto homogêneo e isto inflacionará
o erro experimental; por outro lado, se uma raça de bactéria for alocada a uma parcela com
pequena população de nematóide , seu efeito poderá ser grande, mesmo que ela seja menos
eficiente que outra, ocasionando um viéz na comparação. Continuando o processo, o
pesquisador coletou uma amostra de cada parcela e estimou a população de nematóide
antes de aplicar os tratamentos.
Em experimentos para testar diferentes dietas em animais , os pesos dos animais
antes de começar o experimento devem ser próximos ; entretanto, se isto não ocorrer,
animais maiores vão pesar mais no final do experimento, talvez não por causa da dieta que
ele recebeu, podendo então viezar as comparações de tratamentos e aumentar o erro
experimental. Em ambos casos, a técnica estatística aplicada para corrigir estes desvios é a
análise de covariância e no primeiro exemplo, a variável quantidade inicial de nematóide e
no segundo, a variável peso inicial de cada animal, são chamadas de covariáveis.
A análise de covariância em experimentos tem como objetivos diminuir o erro
experimental e retirar o vies da comparação de tratamentos, causados pela influencia
de uma covariável que age sobre as parcelas afetando a aditividade dos tratamentos; os
detalhes da técnica vão ser explicados por meio de um delineamento em blocos ao acaso ,
entretanto, ela é válida para qualquer delineamento experimental. Como vimos
anteriormente, o modelo estatístico para análise de variância é
yij = µ + bj + ti + εij ,onde µ é uma média geral, bj é o efeito de blocos,
ti é o efeito do tratamento i e εij é o erro experimental. Se xij é o valor da covariável
X na repetição j do tratamento i do experimento e x é a média de X no experimento, então
o modelo de análise de covariância é
yij = µ + bj + ti + β(xij − x) + eij ,
onde β é o coeficiente de regressão . Considerando que β é diferente de zero , vemos que
β(xij − x) era uma parte do erro εij no modelo de análise de variância, ou seja, estava
inflacionando o erro experimental. As médias dos tratamentos i e k pelo modelo de
análise de covariância são:
yi = µ + ti + β(xi − x)
yk = µ + tk + β(xk − x)
Os erros eij tem média zero e não entra nos cálculos. A diferença entre as médias dos
tratamentos i e k é então
yi − yk = ti − tk + β(xi − xk)
e assim a diferença entre os efeitos dos tratamentos é dada por
ti − tk = yi − yk − β(xi − xk) ou
ti − tk =(yi − β xi) − (yk − β xk)
Como vimos , o importante em experimentos é a comparação dos efeitos dos tratamentos,
isto é, ti − tk . Se nas parcelas alocadas para o tratamento i, a covariável tem valores
maiores do que aqueles observados nas parcelas que receberam o tratamento k e β é
positivo, então xi é maior do que xk é a diferença ti − tk será corrigida por
β(xi − xk), retirando o viéz da comparação, compensando aquele que foi prejudicado
e penalizando o que foi beneficiado. A tabela da análise de covariância, fica assim:

FV GL
Blocos r-1
Tratamentos v-1
Covariável 1
Erro (v-1(r-1)-1
Total vr-1

9.2 EXEMPLO 1

Para consolidar as idéias , vamos trabalhar um exemplo retirado do livro de Cochran e


Cox(1968); o objetivo do experimento foi comparar 8 tratamentos químicos para combater
nematóides da aveia e o delineamento em blocos ao acaso generalizados, com 4 blocos de
16 parcelas, 8 para os tratamentos e 4 para o controle(tratamento1). As variáveis
observadas foram o número de cistos antes(X) e depois do experimento(Y). Os dados são
os seguintes:

X=CISTOS ANTES
Y=CISTOS DEPOIS
Y1=DIFERENCA ENTRE DEPOIS E ANTES ;
DADOS DE UM EXPERIMENTO COM NEMATOIDE

Obs BLOCO TRAT REP X Y Y1

1 1 1 1 269 466 197


2 1 3 1 283 280 -3
3 1 4 1 252 398 146
4 1 6 1 212 386 174
5 1 8 1 138 194 56
6 1 1 2 100 219 119
7 1 1 3 197 421 224
8 1 7 1 263 379 116
9 1 9 1 282 372 90
10 1 2 1 230 256 26
11 1 1 4 216 708 492
12 1 5 1 145 304 159
13 2 7 1 95 199 104
14 2 9 1 127 166 39
15 2 3 1 80 142 62
16 2 1 1 134 590 456
17 2 2 1 107 236 129
18 2 4 1 89 332 243
19 2 6 1 41 176 135
20 2 1 2 74 137 63
21 2 1 3 88 356 268
22 2 1 4 25 212 187
23 2 5 1 42 308 266
24 2 8 1 62 221 159
25 3 2 1 124 268 144
26 3 1 1 211 505 294
27 3 8 1 194 433 239
28 3 3 1 222 408 186
29 3 1 2 102 363 261
30 3 5 1 193 561 368
31 3 9 1 128 311 183
32 3 4 1 42 222 180
33 3 7 1 162 365 203
34 3 1 3 191 563 372
35 3 6 1 107 415 308
36 3 1 4 67 338 271
37 4 3 1 193 292 99
38 4 1 1 209 352 143
39 4 2 1 109 132 23
40 4 6 1 153 454 301
41 4 1 2 29 254 225
42 4 5 1 9 92 83
43 4 9 1 17 28 11
44 4 1 3 19 106 87
45 4 8 1 23 80 57
46 4 4 1 19 114 95
47 4 1 4 44 268 224
48 4 7 1 48 298 250

]
As médias dos tratamentos para X, Y e Y1=Y-X, estão na tabela abaixo:
TRAT X Y Y1
1 123,43 366,12 242,68
2 142,50 223,00 80,50
3 194,50 280,50 86,00
4 100,50 266,50 166,00
5 97,25 316,25 219,00
6 128,25 357,75 229,50
7 142,00 310,25 168,25
8 104,25 232,00 127,75
9 138,50 219,25 80,75

A variável resposta é Y e evidentemente X não foi influenciada pelos tratamentos mas


poderá influenciar os efeitos dos tratamentos ; a análise de variância para X e Y ,estão a
seguir,

Variável X CISTOS ANTES

Source DF SQ QM F Pr > F

BLOCO 3 159617.41 53205.80 15.78 <.0001


TRAT 8 29141.72 3642.71 1.08 0.3987
Error 36 121408.77 3372.46
Total 47 310167.91

CV= 45.20

Variável Y CISTOS DEPOIS

FV GL SQ QM F Pr > F

BLOCO 3 289426.50 96475.50 6.38 0.0014


TRAT 8 157447.91 19680.98 1.30 0.2743
Error 36 544690.25 15130.28
Total 47 991564.66

CV = 40.21

O teste F não foi significativo em ambas variáveis. Qual o significado da análise da variável
X, população de nematoides antes da aplicação dos tratamentos ? A significância para
tratamentos indicaria que alguns deles teriam sido beneficiados enquanto outros
prejudicados pelas diferentes populações de nematóides, entretanto, a não significância não
implica que isto não ocorreu., isto é, não houve influencia da covariável nos efeitos dos
tratamentos. Por outro lado, o teste F também não foi significativo para a variável resposta
Y, embora as médias dos tratamentos sejam bastante diferentes, sugerindo isto que o erro
experimental esteja acima do esperado. Vamos então ver como fica a análise de
covariância:
FV GL SQ QM F Pr > F

BLOCO 3 110054.67 36684.89 5.14 0.0047


TRAT 8 237190.46 29648.80 4.16 0.0014
COV 1 295085.66 295085.66 41.38 <.0001
Erro 35 249604.58 7131.55
Total 47 991564.66

Aqui observamos que o teste F foi significativo para tratamentos e para a covariavel, com
β̂ =1.559; nota-se que o erro experimental de 15130.28, passou para 7131.55, uma redução
de 47%. Se a influência da covariável não fosse significativa, aceitaríamos a hipótese nula
de que β = 0 e não haveria análise de covariância. Para facilitar a comparação entre os
efeitos dos tratamentos, define-se a média ajustada do tratamento i como sendo:
Yaj,i = Yi − ˆ
β(Xi − X),
isto é, se a media de X nas parcelas que receberam o tratamento i( Xi) fosse igual a média
de X( X ) no experimento, então não haveria ajustamento. O desejável seria que todas a
medias Xi fossem iguais a X , situação esta que dispensaria a análise de covariância. O
quadro com as médias de Y , X e as médias ajustadas é o seguinte:

TRAT X Y Yaj Y1

1 123,43 366,12 373.95 242,68


2 142,50 223,00 201.10 80,50
3 194,50 280,50 177.54 86,00
4 100,50 266,50 310.08 166,00
5 97,25 316,25 364.90 219,00
6 128,25 357,75 358.07 229,50
7 142,00 310,25 289.13 168,25
8 104,25 232,00 269.74 127,75
9 138,50 219,25 203.59 80,75

Um exame nas médias originais e ajustadas evidencia quais tratamentos foram


beneficiados ou prejudicados por X, lembrando que neste experimento, quanto menor é a
média, melhor é o tratamento.
No quadro de médias aparece a variável Y1=Y-X, cuja análise da variância tem
sido usada com substituta da análise da covariância; isto seria correto se β = 1 , por que
então
yij = µ + bj + ti + (xij − x) + eij ou
yij − xij = (µ − x) + bj + ti + eij ou
yij − xij = µ* + bj + ti + eij
que é o modelo para blocos ao acaso para a diferença entre Y e X . Para decidir qual usar , a
análise de covariância ou a diferença, aplica-se o teste de hipótese H0 : β = 1 ,
Ha : β ≠ 1. O erro padão de β̂ é 0.242363 e assim o valor de t é
1.559 − 1
t = = 2.31 ;
0.242363
com 35 gl para o erro , H 0 é rejeitada e β não é 1. A análise de Y1 apresenta os
seguintes resultados:

FV GL SQ QM F Pr > F

BLOCO 3 97297.7500 32432.5833 4.06 0.0139


TRAT 8 205033.5625 25629.1953 3.21 0.0075
Erro 36 287543.9375 7987.3316
Total 47 589875.2500

TRAT X Y Y1
Yaj
1 123,43 366,12 373.95 242,68
2 142,50 223,00 201.10 80,50
3 194,50 280,50 177.54 86,00
4 100,50 266,50 310.08 166,00
5 97,25 316,25 364.90 219,00
6 128,25 357,75 358.07 229,50
7 142,00 310,25 289.13 168,25
8 104,25 232,00 269.74 127,75
9 138,50 219,25 203.59 80,75

Os dois resultados são bastante diferentes, evidenciando a necessidade da análise de


covariância.
O modelo de análise prescrito, entretanto, é válido se outra condição ocorrer: que a
relação entre Y e X seja linear. Um gráfico entre Y e X , como o que segue, pode
evidenciar esta relação.
Observa-se que Y aumenta com X e assim a condição existe.
Situações particulares podem ocorrer como o caso em que a covariável tem
influencias diferentes para cada tratamento, isto é, um beta( β ) para cada tratamento,
implicando na mudança do modelo:
yij = µ + bj + ti + β i(xij − x) + eij
O teste de hipótese H 0 : β 1 = β 2 = ... = β 9 = β
Ha : β k ≠ β m
ajuda na tomada de decisão. Os resultados da análise do novo modelo são os seguintes:

trat Beta Erro t Pr > |t|


1 1.717 0.336 5.11 <.0001
2 1.145 0.982 1.17 0.2541
3 1.203 0.673 1.79 0.0850
4 1.412 0.545 2.59 0.0152
5 1.790 0.661 2.71 0.0117
6 1.836 0.784 2.34 0.0268
7 0.844 0.622 1.36 0.1866
8 1.459 0.742 1.97 0.0596
9 1.492 0.529 2.82 0.0089

Aplicando-se o teste F , a hipótese nula é aceita e o modelo com um beta para todos os
tratamentos é o recomendado.

FV GL SQ QM F Pr > F

Hipótese 8 22331.7814 2791.4727 0.33 0.9462


Error 27 227272.8044 8417.5113
Outra situação é a existência de mais de uma covariável, por exemplo, X e W; o
modelo seria então:
y ij = µ + bj + ti + β 1(xij − x) + β 2(Wij − W) + eij .
Os passos para a análise são os mesmos que vimos para o modelo com uma covariável.

9.3 EXEMPLO 2

Este exemplo foi retirado do livro de Snedecor, pg 422; trata-se de um experimento


para testar 2 remédios para tratamento de uma doença de pele. Antes de aplicar os
tratamentos, a intensidade da doença foi avaliada por um índice (X). Os resultados foram os
seguintes:

Obs drug x y

1 a 11 6
2 a 8 0
3 a 5 2
4 a 14 8
5 a 19 11
6 a 6 4
7 a 10 13
8 a 6 1
9 a 11 8
10 a 3 0
11 d 6 0
12 d 6 2
13 d 7 3
14 d 8 1
15 d 18 18
16 d 8 4
17 d 19 14
18 d 8 9
19 d 5 1
20 d 15 9
21 f 16 13
22 f 13 10
23 f 11 18
24 f 9 5
25 f 21 23
26 f 16 12
27 f 12 5
28 f 12 16
29 f 7 1
30 f 12 20

O tratamento f é o placebo. As médias são as seguintes e o gráfico entre y e x seguem.


X y
drug Mean Mean

a 9.3 5.3
d 10.0 6.1
f 12.9 12.3
Certamente o placebo foi aplicado nas pessoas que estavam mais atacadas pela doença e há
uma relação linear entre y e x.

As análises de variância para y e x foram as seguintes:

Variável Y:

FV GL SQ QM F Pr > F

drug 2 293.60 146.80 3.98 0.0305


Erro 27 995.10 36.86
Total 29 1288.70

Covariável X:

FV DF SQ QM F Pr > F

drug 2 72.87 36.43 1.66 0.2092


Erro 27 593.00 21.96
Total 29 665.87

Um exame dos resultados nos leva a uma análise de covariância:

FV GL SQ QM F Pr > F

drug 2 68.55 34.28 2.14 0.1384


x 1 577.90 577.90 36.01 <.0001
Error 26 417.20 16.05
Total 29 1288.70
Beta= 0.99

drug media ajustada

a 6.7149635
d 6.8239348
f 10.1611017

X y
drug Mean Mean

a 9.3 5.3
d 10.0 6.1
f 12.9 12.3
Pelos resultados as análise da covariância, as conclusões vão mudar.
Existem algumas aplicações para a análise de covariância onde a covariável é de
outra natureza. Suponha que houve uma pequena inundação no experimento e algumas
parcelas foram inundadas ; pode-se definir como X uma covariável que tem valor 1 nas
parcelas inundadas e 0 nas outras e assim, mediante a análise de covariância, retirar
parcialmente o efeito da inundação. Também o modelo de regressão pode ser quadrático,
como por exemplo:
yij = µ + bj + ti + β1(xij − x) + β 2(xij − x)2 + eij