Anda di halaman 1dari 108

Regresso Linear Simples

Introduo
Anlise de regresso uma metodologia estatstica que utiliza a relao entre duas ou
mais variveis quantitativas (ou qualitativas) de tal forma que uma varivel pode ser
predita a partir da outra ou outras. Exemplos:
A populao de bactrias pode ser predita a partir da relao entre
populao e o tempo de armazenamento.
Concentraes de solues de protena de arroz integral e absorbncias
1
mdias corrigidas.
Relao entre textura e aparncia.
Temperatura usada num processo de desodorizao de um produto e cor do
produto final.
A porcentagem de acerto ou, ento, bytes transferidos, podem estar
relacionados com o tamanho da cache (bytes), para um determinado tipo de
pr-carregamento.
A anlise de regresso, assim como a anova, tambm representa os dados
Nmero de acessos ao disco (disk I/O) e o tempo de processamento para
vrios programas.
A performance de um procedimento remoto foi comparado em dois
sistemas operacionais: UNIX e ARGUS. A mtrica utilizada foi o tempo
total transcorrido, o qual foi avaliado para vrios tamanhos de arquivos de
dados.
2
A anlise de regresso, assim como a anova, tambm representa os dados
atravs de um modelo linear aditivo, onde o modelo inclui um componente
sistemtico e um aleatrio.
(1) X f Y + = ) (
f descreve a relao entre X e Y. so os erros aleatrios. Y = varivel resposta ou dependente;
X = varivel independente, concomitante, covarivel ou varivel preditora.
Cenrio
Estamos interessados na relao entre duas variveis, as quais chamaremos de X e Y.
Observamos pares de valores X e Y em cada amostra ou unidade experimental, e vamos usa-
los para dizer alguma coisa sobre a relao.
O caso mais simples de regresso quando temos duas variveis e a relao
entre elas pode ser representada por uma linha reta Regresso linear
simples.
3
Como sabemos os dados podem ser obtidos a partir de duas situaes:
1) dados experimentais: as observaes X e Y so planejadas como o resultado de um
experimento, exemplo:
X = tamanhos de cache e Y = porcentagem de acerto
X= doses de starter (microorganismos [bactrias lcticas]) , Y= tempo de maturao do salame
tipo italiano.
Nesse exemplo, os valores de X esto sob controle do pesquisador, ou seja, ele escolheu as doses
e observou o resultado, Y.
2) dados observacionais: observa-se os valores de X e Y, nenhuma delas sob controle, exemplo:
populao de coliformes e populao de staphilococus;
4
populao de coliformes e populao de staphilococus;
mdia das alturas de plantas numa rea e produo.
O tempo para criptografar um registro com k-byte usando uma tcnica para este fim foi
avaliado. X = tamanhos de registros tomados aleatoriamente e Y = tempo.
Problema prtico: os valores observados de Y (e algumas vezes
de X) no so exatos. Devido a variaes biolgicas, de
amostragem e de preciso das medidas e outros fatores, s
podemos observar valores de Y (e possivelmente de X) com algum
erro. Assim, com base numa amostra de valores (X,Y) a exata
relao entre X e Y mascarada pelos erros aleatrios.
X Fixo vs Aleatrio:
5
Dados experimentais: Geralmente X (doses, tempo, tamanho
da cache) determinado pelo pesquisador X fixo. Y est
sujeito variaes fsicas, biolgicas, tipos de objetos numa
pgina da Web, usurios, de amostragem, de medidas Y
uma varivel aleatria.
Dados observacionais: geralmente X e Y so variveis
aleatrias.
A distribuio normal bivariada
Com dados observacionais, geralmente X e Y so v. a. e, de
alguma forma, relacionadas.
Lembrete: uma distribuio de probabilidades d uma descrio
formal (matemtica) dos valores possveis da populao que
podem ser observados para a varivel. Quando temos duas
6
podem ser observados para a varivel. Quando temos duas
variveis a distribuio denominada bivariada. A f
XY
(x,y)
descreve como os valores de X e Y se comportam conjuntamente.
A distribuio normal freqentemente uma descrio razovel
de uma populao com medidas contnuas. Quando X e Y so v.
a. contnuas, uma suposio razovel que ambas sejam
normalmente distribudas. Entretanto, espera-se que elas se
distribuam conjuntamente.
A distribuio normal bivariada uma distribuio de probabilidades com uma funo densidade
de probabilidade f(x,y) para X e Y, tal que:
X e Y apresentam, cada uma, distribuio normal com mdias
X
e
Y
, e varincias
2
X
e
2
Y
,
respectivamente;
o relacionamento entre X e Y medido pela quantidade
XY
tal que -1
XY
1.

XY
o coeficiente de correlao entre as variveis aleatrias X e Y e mede a associao linear
entre elas.
perfeita negativa correlao
perfeita positiva correlao
XY
XY
1
1
=
=

7
nula correlao
XY
0 =
Objetivo: com os dados observados (X
i
,Y
i
), desejamos quantificar o grau de associao. Para
isso estimamos
XY.
Comparao entre os modelos de regresso e correlao
Dois modelos:
X fixo: ajusta-se um modelo para a mdia da v. aleatria Y como uma funo de X fixo (linha reta).
Estima-se os parmetros do modelo para caracterizar o relacionamento.
X aleatrio: caracteriza-se o relacionamento (linear) entre X e Y atravs da correlao entre elas e
estima-se o parmetro de correlao.
Sutileza: em situaes onde X uma varivel aleatria, muitos investigadores desejam
ajustar um modelo de regresso tratando X como fixo. Isto porque, embora o coef. de
correlao descreve o grau de associao entre X e Y, ele no caracteriza o
relacionamento atravs de um modelo de regresso.
Exemplo: um pesquisador pode desejar estimar a produo com base na mdia de
alturas de plantas da unidade experimental. O coef. de correlao no permite isso.
Ele, ento, prefere ajustar um modelo de regresso, mesmo X sendo aleatrio.
Isso legtimo? Se tomarmos cuidado na
interpretao, sim.
8
Se X e Y so variveis aleatrias, e ns ajustarmos um modelo de regresso para
caracterizar o relacionamento, tecnicamente, todas as anlises posteriores so
consideradas como sendo condicionais aos valores de X presentes no estudo.
Isto significa que ns consideramos X fixo, embora ele no seja. Entretanto,
vlido fazer-se previses. Dado (condicional) que se observa um particular
valor de altura de planta, ele quer obter o melhor valor para produo. O
pesquisador no est dizendo que ele pode controlar as alturas e, assim,
influenciar as produes.
Vale para os dados da amostra.
Causalidade versos correlao
Pesquisadores freqentemente so tentados a inferir uma relao de causa e efeito entre X e Y
quando eles ajustam um modelo de regresso ou realizam uma anlise de correlao. Uma
associao significativa entre X e Y em ambas as situaes no necessariamente implica numa
relao de causa e efeito.
Exemplo: (Box, Hunter & Hunter, Statistics for Experimenters, p.8) O grfico mostra a populao
de Oldemberg, Alemanha, no fim de cada um dos 7 anos (Y) contra o nmero de cegonhas
(pssaros) naquele ano (X).
Interpretao: existe associao
entre X e Y.
9
entre X e Y.
Freqentemente, quando duas v. X e
Y parecem estar fortemente
associadas, pode ser porque X e Y
esto, de fato, associadas com uma
terceira varivel, W. No exemplo, X
e Y aumentam com W = tempo.
Correlao no necessariamente implica em causalidade
Construo de Modelos de Regresso
I. Seleo das variveis preditoras
II. Escolha do modelo de regresso
III. Abrangncia do modelo
i. O problema, em estudos observacionais, escolher um conjunto de
variveis que podem ou devem ser includas no modelo;
10
variveis que podem ou devem ser includas no modelo;
ii. Pode-se usar um modelo terico; Usar aproximaes por modelos
polinomiais;
iii. Geralmente necessrio restringir a abrangncia do modelo para
alguns valores ou regio da(s) varivel(is) preditora(s).
Modelo de regresso linear simples
(Sem especificao da distribuio de
probabilidades para o erro)
Considere o modelo com uma varivel preditora e que a funo de regresso linear. O modelo
dado por:
11
n 1,2,..., i =
+ + =
i i i
X Y
1 0
(2)
Onde:
Y
i
o i-simo valor da varivel resposta;

0
e
1
so os parmetros (coeficientes de regresso);
X
i
o i-simo valor da varivel preditora ( uma constante conhecida, fixo).

i
o termo do erro aleatrio com E(
i
)=0 e
2
(
i
)=
2;

i
e
j
no so correlacionados (
i
,
j
)=0 para todo i,j; i j; (covarincia nula).
i=1,2,...,n.
Covarincia (o resultado em qualquer experimento no tem
efeito no termo do erro de qualquer outro experimento)
12
Os dados so usados para estimar
0
e
1
, isto , ajustar o modelo aos dados, para:
quantificar a relao entre Y e X;
usar a relao para predizer uma nova resposta Y
0
para um dado valor de X
0
(no includo no
estudo);
calibrao ou capacidade de predio de novas observaes, pode ser feita usando uma nova
amostra e comparando os valores estimados com os observados.
- dado um valor de Y
0
, para o qual o correspondente valor de X
0
desconhecido,
estimar o valor de X
0
.
efeito no termo do erro de qualquer outro experimento)
Caractersticas do modelo:
nados correlacio so no Y e Y
constante varincia X Y
X X E E(Y
X v.a.(Y uma Y
j i
i i i i
2
i i i i i
i i i i
. 4
) ( ) ( ) ( ) ( . 3
) ( ) . 2
) . 1
2 2
1 0
2
1 0 1 0
1 0



= == = = == = + ++ + + ++ + = == =
+ ++ + = == = = == = + ++ + + ++ + = == =
+ ++ + + ++ + = == =
aleatrio
constante
13
O modelo de regresso (2) mostra que as respostas Y
i
so oriundas de uma
distribuio de probabilidades com mdia E(Y
i
) =
0
+
1
X
i
e cujas varincias so
2
,
a mesma para todos os valores de X. Alm disso, quaisquer duas respostas Y
i
e Y
j
no
so correlacionadas.
14
A figura mostra a distribuio de Y para vrios valores de X. Mostra onde cai a observao Y
1
.
Mostra que o erro a diferena entre Y
1
e E(Y
1
). Observe que as distribuies de
probabilidade apresentam a mesma variabilidade.
Resumo da situao: para qualquer valor X
i
, a mdia de Y
i

i
=
0
+
1
X
i
. As mdias esto
sobre a linha reta para todos os valores de X. Devido aos erros aleatrios, os valores de Y
i
se
distribuem ao redor da reta.
15
Outro exemplo.
44,45
42,10
44,68
46,99
46,26
48,82
Porcentagem de acerto
16
50,66
47,68
52,44
53,21
51,85
55,38
E(Y)=27,836+0,00006423X
Mdia:
Para X
i
=300.000 bytes observou-se Y
i
=46,26. O valor estimado
dado por: 27,836+0,00006423(300.000)=47,11, portanto, o valor do
termo do erro
i
=46,26-47,11=-0,845.
17
Significado dos parmetros do modelo de regresso linear simples

x=1
y
y
i
=
0
+
1
xi
x
y

=
1

18

0
x x+1
x
=
1

0
(intercepto); quando a regio experimental inclui X=0,
0
o valor da mdia da distribuio
de Y em X=0, cc, no tem significado prtico como um termo separado (isolado) no modelo;
1
(inclinao) expressa a taxa de mudana em Y, isto , a mudana em Y quando ocorre a
mudana de uma unidade em X. Ele indica a mudana na mdia da distribuio de probabilidade
de Y por unidade de acrscimo em X.
Exemplo: os dados abaixo indicam o nmero de bytes transferidos (Y) e o
tamanho da cache (X).
Equao de regresso:
x 649 27 10 763 4 y
7
, . ,

=
Faa o grfico dos pontos e da reta
19
Faa o grfico dos pontos e da reta
ajustada. Voc acha que o modelo
adotado razovel?
y=4,763e7-27,649*x+eps
B
Y
T
E
S

T
R
A
N
S
F
E
R
I
D
O
S
3,4e7
3,6e7
3,8e7
4e7
4,2e7
4,4e7
4,6e7
20
TAMANHO DA CACHE
B
Y
T
E
S

T
R
A
N
S
F
E
R
I
D
O
S
3e7
3,2e7
2,2e5 2,6e5 3e5 3,4e5 3,8e5 4,2e5
O que significa o coeficiente angular neste caso? E o coeficiente
linear?
Faa uma predio para o nmero de bytes transferidos para tamanho
de cache igual a 270.000 bytes.
Exemplo: os dados abaixo indicam o valor y do aluguel e a idade x de 5 casas.
x 10 13 5 7 20
y 4 3 6 5 2
Equao de regresso:
x y 261 , 0 87 , 6 =
Faa o grfico dos pontos e da reta ajustada. Voc acha que o modelo adotado razovel?
O que significa o coeficiente
21
O que significa o coeficiente
angular neste caso? E o coeficiente
linear?
Faa uma previso para o valor do
aluguel para idade de 13 anos.
Observaes:
um modelo de regresso pode conter duas ou mais variveis preditoras (X
1
, X
2
,...,X
p-1
);
o modelo de regresso no precisa ser uma linha reta:
+ + + =
2
2 1 0
X X Y
Chama-se modelo quadrtico ou de 2
0
grau, cuja figura uma parbola. Esse modelo, embora no
seja uma linha reta, continua sendo um modelo linear nos parmetros. O mtodo que ser discutido
para o modelo de regresso linear simples aplica-se diretamente aos demais modelos lineares nos
parmetros.
22
Outro exemplo: o tempo de coleta de lixo (garbage collection time) para um
particular algoritmo foi mensurado para diversos valores de heap size.
Scatterplot (GARBAGE.STA 10v*10c)
y=1321,483-2,208*x+0,001*x^2+eps
G
A
R
B
A
G
E

C
O
L
L
E
C
T
I
O
N

T
I
M
E
400
500
600
23
HEAP SIZES
G
A
R
B
A
G
E

C
O
L
L
E
C
T
I
O
N

T
I
M
E
0
100
200
300
400 600 800 1000 1200 1400 1600
Modelo no linear nos parmetros. Exemplo: modelo de crescimento logstico, onde X o
tempo.

+ =
+
X
e
Y
3
2
1
1
necessrio estudar mtodos para modelos no lineares.
24
Exemplo computao: modelo potncia, y=bx
a
, onde X a velocidade do processador e Y
a taxa I/O.
Modelos de regresso alternativos
As vezes torna-se conveniente (p.e. facilidade de clculos) escrever o modelo de
regresso linear (2) de forma diferente, embora equivalentes. Seja X
0
uma
varivel dummy identicamente igual a 1. Ento, temos o modelo que associa
uma varivel X a cada parmetro do modelo:
1
1 1 0 0
+ + =
0 i i
X onde X X Y
Uma outra alternativa usar para a v. preditora os desvios (X
i
-Mdia(X)) ao invs
de X . Para no modificarmos o modelo (2), escrevemos:
25
de X
i
. Para no modificarmos o modelo (2), escrevemos:
X
X X Y
X X X Y
1 0 0
i i 1 0 i
i 1 i 1 0 i



+ =
+ + =
+ + + =
*
*
) (
) (
Estimao da funo de regresso
Denotamos as observaes (X
i
,Y
i
) para a primeira repetio como (X
1
,Y
1
), para a segunda como
(X
2
,Y
2
), e para a i-sima como (X
i
,Y
i
), com i=1,2,..,n.
Exemplo: uma pesquisadora est estudando o comportamento de Staphilococcus aureus (Y) em
frango, mantido sob condies de congelamento domstico (-18
o
C) ao longo do tempo (X) (dias).
Tempo 0 7 14 21 28 35
Populao 3,114 3,568 2,845 3,079 2,699 2,663
Notao: temos n=6 observaes. O tamanho da populao (ufc/cm
2
) dado em log .
26
Notao: temos n=6 observaes. O tamanho da populao (ufc/cm
2
) dado em log
10
.
Mtodo dos mnimos quadrados
Para observaes (X
i
,Y
i
) i=1,..,n, temos o modelo
n 1,.., i X Y
i i i
= + + =
1 0
Desejamos ajustar o modelo, estimando os parmetros
0
e
1
.
O mtodo de mnimos quadrados considera os desvios de Y
i
em relao ao seu valor esperado
(E(Y
i
)):
) (
1 0 i i
X Y + ++ +
Elevando-se ao quadrado esses desvios e aplicando-se o somatrio, temos o critrio Q
( ) (10) X Y Q
n
i
i i
=
=
1
2
1 0

De acordo com o mtodo de mnimos quadrados, os estimadores de
0
e
1
so os valores b
0
e
b
1
, respectivamente, que minimizam o critrio Q para a amostra (X
1
,Y
1
),..,(X
n
,Y
n
).
5,5
6,5
e
3
27
IDADE
V
A
L
O
R
1,5
2,5
3,5
4,5
2 6 10 14 18 22
e
5
e
2
e
1

=
=
n
i i i
Q
n
i
i i
Q
X Y X
X Y
1 0
1
1 0
) ( 2
) ( 2
0

Estimadores de mnimos quadrados


Os valores de
0
e
1
que minimizam o critrio Q podem ser obtidos diferenciando-se (10) em
relao a
0
e
1
, portanto, obtemos:
28
Iguala-se a zero as derivadas parciais, usando b
0
e b
1
para denotar valores particulares de

0
e
1
que minimizam Q.

=
i
i i i
X Y X
1
1 0
) ( 2
1

0 ) (
0 ) (
: obtemos , expandindo e ndo simplifica
0 ) ( 2
0 ) ( 2
1
1 0
1
1 0
1
1 0
1
1 0
=
=
=
=

=
=
=
=
n
i
i i i
n
i
i i
n
i
i i i
n
i
i i
X b b Y X
X b b Y
X b b Y X
X b b Y
29
0
0
1
2
1
1
0
1
1
1 0
1
1
=
=


= = =
= =
=
n
i
i
n
i
i
n
i
i i
n
i
i
n
i
i
i
X b X b Y X
X b nb Y
Da, obtemos o sistema de equaes normais, dado por:


= = =
= =
+ =
+ =
n
i
i
n
i
n
i
i i i
n
i
i
n
i
i
X b X b Y X
X b nb Y
1
2
1
1
1
0
1 1
1 0
Fazendo-se as derivadas
parciais de segunda ordem,
indicar que um mnimo foi
encontrado com os estimadores
b
0
e b
1
.
As equaes normais podem ser resolvidas simultaneamente para b
0
e b
1
(estimadores pontuais):
( ) X b Y X b Y b
b
i i n
X X
Y Y X X
i
i i
1 1
1
0
) (
) )( (
1
2
= =


Outra forma de escrevermos:
30
( )
n
X
2
n
Y X
1
2
X
XY
b

Exemplo: a pesquisadora deseja encontrar o modelo de regresso da


porcentagem de acertos sobre o tamanho da cache.
Tamanho da
cache (X)
Porcentagem
de acertos (Y)
) ( X X
i
) ( Y Y
i
)( ( Y X X
i i

2
) ( X X
i

2
) ( Y Y
i

31
Total = 3900000 584,52
0
0 2408500 37500000000 181,438
Mdia = 325000 48,71
845 27 325000 0000642 0 71 48 X b Y
0000642 0 b
1
0 3750000000
2408500
X X
Y Y X X
1
2
i
i i
, ) )( , ( , b
,
0
) (
) )( (
= = =
= =


Assim, estimamos que a porcentagem de acerto da cache
aumenta cerca de 0,00006 % para cada byte do tamanho da
32
aumenta cerca de 0,00006 % para cada byte do tamanho da
cache.
33
Sada do Statistica:
34
Tempo (X) Populao (Y)
) ( X X
i
) ( Y Y
i
) )( ( Y Y X X
i i

2
) ( X X
i

2
) ( Y Y
i

0 3,114 -17,5 0,119 -2,088 306,250 ,014
7 3,568 -10,5 0,573 -6,020 110,250 ,329
14 2,845 -3,5 -0,150 0,524 12,250 ,022
21 3,079 3,5 0,084 0,295 12,250 ,007
28 2,699 10,5 -0,296 -3,105 110,250 ,087
35 2,663 17,5 -0,332 -5,805 306,250 ,110
Exemplo: a pesquisadora deseja encontrar o modelo de regresso do tempo
sobre a populao de bactrias.
35
35 2,663 17,5 -0,332 -5,805 306,250 ,110
Total = 105 17,968
0
0 -16,199 857,5 0,569
Mdia = 17,5 2,9947
3,32545 ) 5 , 17 )( 0189 , 0 ( 9947 , 2 b
-0,018890
1 0
5 , 857
199 , 16
) (
) )( (
1
2
= = =
= =


X b Y
b
X X
Y Y X X
i
i i
Assim, estimamos que o tamanho da populao de bactrias diminui cerca
de 0,0189 ufc/cm
2
para cada dia.
36
Regression Summary for Dependent Variable: POP
R= ,73274116 R= ,53690961 Adjusted R= ,42113702
F(1,4)=4,6376 p<,09760 Std.Error of estimate: ,25686
St. Err. St. Err.
BETA of BETA B of B t(4) p-level
Intercpt 3,325238 ,185902 17,88708 ,000057
TEMPO -,732741 ,340254 -,018890 ,008772 -2,15351 ,097596
Sada do STATISTICA:
Propriedades dos estimadores de mnimos quadrados
Teorema de Gauss-Markov: Se as pressuposies do modelo de regresso linear (2) forem
atendidas, os estimadores de mnimos quadrados b
0
e b
1
so no tendenciosos (unbised) e com
varincia mnima, entre todos os estimadores lineares no tendenciosos. Primeiro, o teorema
diz que:
E(b
0
)=
0
e E(b
1
)=
1
.
Segundo, o teorema diz que os estimadores b
0
e b
1
so mais precisos (isto , as suas distribuies
amostrais tem menor variabilidade) do que quaisquer outros estimadores pertencentes a classe
dos estimadores no tendenciosos que so funes lineares das observaes Y
1
, Y
2
,...,Y
n
. Os
estimadores b e b so tais funes lineares das observaes. Considere, por exemplo, b ,
(Demonstrao adiante)
37
estimadores b
0
e b
1
so tais funes lineares das observaes. Considere, por exemplo, b
1
,

=
=

2
2 2
) (
) (
) (
) (
) (
) )( (
1
X X
X X
i
i i
X X
Y X X
X X
Y Y X X
i
i
i
i i
i
i i
k
Y k b
Como k
i
so constantes (pois X
i
so constantes conhecidas), b
1
uma combinao linear
de Y
i
e, assim, um estimador linear. Da mesma forma, b
0
tambm um estimador
linear. Entre todos os estimadores lineares no tendenciosos, b
0
e b
1
tem menor
variabilidade (demonstrao adiante) em repetidas amostras nas quais os nveis de X so
constante.
Estimao pontual da resposta mdia
Estimao da funo de regresso
A mdia do modelo de regresso linear dada por:
X Y E
1 0
) ( + =
Estima-se a funo de regresso por:
X b b Y
1 0

+ =
Onde Y (chapu) o valor estimado da funo no nvel X da varivel preditora.
38
Onde Y (chapu) o valor estimado da funo no nvel X da varivel preditora.
A resposta mdia (E(Y)), corresponde a mdia da distribuio de probabilidade de Y no nvel X
da varivel preditora. Pode-se demonstrar, como uma extenso do teorema de Gauss-Markov
que Y (chapu) um estimador no tendencioso de E(Y), com varincia mnima dentro da
classe dos estimadores lineares no tendenciosos. Temos:
n 1,2,..., i X b b Y
i i
= + =
1 0

como sendo o valor ajustado para o i-simo caso.


Exemplo: para os dados de porcentagem de acerto na cache, os
valores estimados da funo de regresso so dados por:
X 0000642 0 83633 27 Y , ,

=
Suponha que estejamos interessados na porcentagem mdia
de acerto na cache para X=300.000 bytes (muitas amostras
com 300.000 bytes sob as mesmas condies que a equao
foi estimada); a estimativa pontual vale:
39
10 47 300000 0000642 0 83633 27 y , ) ( , ,

= + =
Valores ajustados dos dados da amostra so obtidos
substituindo-se os correspondentes valores da varivel preditora
X na funo de regresso.
Sada do Statistica:
40
Suponha que estejamos interessados na populao mdia (muitas amostras com 21 dias de
armazenamento sob as mesmas condies que a equao foi estimada) de bactrias para
X=21 dias de armazenamento; a estimativa pontual vale:c
926 2 21 019 0 325 3 y , ) ( , ,

= =
Valores ajustados dos dados da amostra so obtidos substituindo-se os correspondentes valores
da varivel preditora X na funo de regresso.
Sada do STATISTICA:
Predicted & Residual Values (staphilo.sta)
X Y 019 , 0 325 , 3

=
Exemplo: para os dados de staphilococcus aureus em frango, os valores estimados da funo de
regresso so dados por:
41
Predicted & Residual Values (staphilo.sta)
Dependent variable: POP
Observed Predictd Standard Standard Std.Err. Mahalns. Cook's
Value Value Residual Pred. v. Residual Pred.Val Distance Distance
1 3,114000 3,325238 -,211238 1,33631 -,822385 ,185902 1,785714 ,781146
2 3,568000 3,193010 ,374990 ,80178 1,459902 ,139567 ,642857 ,633439
3 2,845000 3,060781 -,215781 ,26726 -,840072 ,109264 ,071429 ,095181
4 3,079000 2,928552 ,150448 -,26726 ,585718 ,109264 ,071429 ,046269
5 2,699000 2,796324 -,097324 -,80178 -,378898 ,139567 ,642857 ,042668
6 2,663000 2,664095 -,001095 -1,33631 -,004263 ,185902 1,785714 ,000021
Minimum 2,663000 2,664095 -,215781 -1,33631 -,840072 ,109264 ,071429 ,000021
Maximum 3,568000 3,325238 ,374990 1,33631 1,459902 ,185902 1,785714 ,781146
Mean 2,994667 2,994667 ,000000 -,00000 ,000000 ,144911 ,833333 ,266454
Median 2,962000 2,994667 -,049209 0,00000 -,191581 ,139567 ,642857 ,070725
Modelo alternativo
Quando o modelo utilizado :
i i
X X Y + + = ) (
1
*
0
O estimador b
1
de
1
permanece o mesmo. O estimador de
Y X b X b Y X b b b
: por dado X
*
= + = + =
+ =
1 0
*
0
) (

42
Y X b X b Y X b b b
*
0
= + = + =
1 1 1 0
) (
Temos:
) (

1
X X b Y Y + ++ + = == =
Exemplo: para os dados de staphilococcus aureus em frango
obter o valor ajustado para X
1
=0 dia de armazenamento..
Exemplo: obter o valor ajustado para X=300.000 bytes de
cache..
Resduos
O i-simo resduo a diferena entre o valor Y
i
e o
correspondente valor ajustado Y (chapu)
i
.
i i i
Y Y e

=
Vemos que o resduo para o primeiro caso, exemplo de
pop. de Staphilococcus, sada do statistica, dado por:
43
pop. de Staphilococcus, sada do statistica, dado por:
-,211238 3,325238 - 3,114000 Y Y e = = =
1 1 1

Exemplo: para os dados de porcentagem de acerto na cache, o resduo para o


primeiro caso vale:
0,564 43,886 - ,

= = = 45 44 Y Y e
1 1 1
) E(Y Y
i i i
=
Os resduos so extremamente teis para verificar se um determinado modelo de regresso
apropriado para os dados. Este assunto ser tratado mais adiante neste curso.
Distino:
o desvio de Y
i
da verdadeira equao de regresso (desconhecida)
e assim desconhecido.
i i i
Y Y e

= o desvio de Y
i
do valor ajustado Y
i
(chapu) na equao de regresso
estimada, portanto, conhecido.
0,45
44
Regression
95% confid.
TEMPO
R
e
s

d
u
o
s
-0,30
-0,15
0,00
0,15
0,30
-5 0 5 10 15 20 25 30 35 40
para os dados de
staphilococcus aureus
em frango
Raw residuals vs. TAMANHOC
Raw residuals = -,0000 + 0,0000 * TAMANHOC
Correlation: r = ,00000
R
E
S

D
U
O
S
0
1
2
3
45
Regression
95% confid.
TAMANHO DA CACHE
R
E
S

D
U
O
S
-3
-2
-1
0
2,2e5 2,6e5 3e5 3,4e5 3,8e5 4,2e5
Propriedades do modelo ajustado:
A) STATISTIC do a (Veja sad

Y 3.
MQO) de mtodo do (condio mnima e .
A) STATISTIC do a (Veja said ) normal equao primeira a devido (
) ( .
n
i
n
1 i
2
i
Y
2
0 X b nb Y X b b Y e 1
n
i
n
1 i
i 1 0 i i 1 0 i i
=
= = =


=
=
X b b Y
1 0

+ ++ + = == =
46
) ) Y ; X ( ponto pelo passa sempre regresso de linha (
) X X (para ) ( ) ( b Y Y

.
s) (ponderado Y

.
s) (ponderado X .
1
n
1 i
i
n
1 i
i
1 i
i
a
Y X X b Y X X 6
0 e 5
0 e 4
1
i
i
1 i
i
= = + = + =
=
=


=
=
= =
Estimao da varincia (
2
)
A varincia,
2
, dos erros,
i
, no modelo de regresso (2) precisa ser estimado para obter uma
indicao da variabilidade da distribuio de probabilidade de Y. Necessrio para inferncias.
Lembrete: a varincia de cada observao Y
i
para o nosso modelo de regresso
2
, a mesma de
cada
i
.
Precisamos calcular a soma de quadrados de desvios, considerando que cada Y
i
vem de diferentes
distribuies de probabilidade com diferentes mdias que dependem do nvel de X
i
; as mdias so
estimadas por Y
i
(chapu). Assim os desvios so os resduos:
i i i
Y Y e

=
47
A soma de quadrados do erro (resduo), SQE, dada por:

= =
= =
n
i
i
n
i
i i
e Y Y SQE
1
2
1
2
)

(
Dois graus de liberdade so perdidos para estimar os parmetros
0
e
1
. O quadrado mdio do
erro dado por (QME):
2
=
n
SQE
QME
Temos que o QME um estimador no tendencioso de
2
(prova adiante) pois
2
) ( = QME E
Exemplo: para os dados de Staphilococcus aureus em frango, temos:
X) qualquer para Y de o distribui da padro (Desvio
padro) (desvio ufc , ,
varincia) da a (Estimativ , / , QME
assim liberdade, de graus 2 - 6
,
2567 0 0659 0 de Estimativa
0659 0 4 2639 0
4 com
2639 0 SQE
= =
= =
=
=

Exemplo: para os dados de tamanho de cache, temos:


48
Exemplo: para os dados de tamanho de cache, temos:
X) qualquer para Y de o distribui da padro (Desvio
padro) (desvio % 6043 , 1 57385 , 2
57385 , 2 10 / 7385 , 25 QME
assim liberdade, de graus 10 2 - 12
7385 , 25
=
= =
=
=
de Estimativa
com
SQE
Modelo de regresso com erros normais
Para construir intervalos de confiana e fazer testes de hipteses ns devemos
considerar alguma distribuio de probabilidade para os
i
. Uma distribuio
que tem um apelo prtico e terico bastante grande a distribuio normal e
que ser utilizada neste curso.
O modelo de regresso dado por:
n 1,.., i X Y
i i i
= + + =
1 0
49
n 1,.., i X Y
i i i
= + + =
1 0
Y
i
o i-simo valor observado da varivel resposta;

0
e
1
so os parmetros;
X
i
o i-simo valor da varivel preditora ( uma constante
conhecida, fixo).

i
o termo do erro aleatrio, independentes com distribuio
N(0,
2
).
Como assumimos para o modelo de regresso que os erros so normalmente distribudos, a
suposio que os erros
i
no so correlacionados, feita no modelo inicial, transforma-se na
suposio de independncia no modelo com distribuio normal.
Independentes: no sentido que eles no so relacionados de qualquer modo, por exemplo, so
provenientes de diferentes cpus, diferentes indivduos, diferentes animais, etc. Os registros
num banco de dados so independentes.
50
O modelo implica que Y
i
so variveis aleatrias independentemente distribudas segundo uma
normal com mdia E(Y
i
)=
0
+
1
X
i
e varincia
2
. Para cada valor X
i
, podemos pensar em todos
os valores possveis de Y
i
e sobre a sua variabilidade. Esta suposio diz que, seja qual for o
valor de X
i
, a variabilidade nos possveis valores de Y a mesma.
Para cada valor X
i
, podemos pensar que todos os valores assumidos por Y podem ser bem
representados por uma distribuio normal.
Estimao dos parmetros pelo mtodo da mxima
verossimilhana
Como foi especificado uma distribuio de probabilidades para os erros podemos obter
estimadores para
0
,
1
e
2
pelo MMV.
O mtodo de mxima verossimilhana determina como estimativas de mxima verossimilhana,
os valores de
0
,
1
e
2
os quais produzem o maior valor para a verossimilhana.
Em geral, a densidade de uma observao Y
i
para o modelo de regresso com erros normais,
utilizando o fato de que E(Y)= + X e varincia
2
dada por :
51
utilizando o fato de que E(Y
i
)=
0
+
1
X
i
e varincia
2
dada por :
( ) [ ]
2
2
1
2
1 1 0
exp



i i
X Y
i
f

=
A funo de verossimilhana para n observaes Y
1
, Y
2
,...,Y
n
, o produto das densidades
individuais ( a conjunta). Como a varincia
2
dos erros desconhecida, a conjunta uma funo
de trs parmetros,
0
,
1
e
2
:
[ ]
(

=
=

=
=
n
i
i i
) (
i i
n
i
) X (Y
X Y L
n/
1
2
1 0
2
1
2
1
2
1 0
2
1
1
) 2 (
1
2
1 0
2 2 2
2 2 / 1 2
exp
) ( exp ) , , (

Devemos encontrar valores de
0
,
1
e
2
que maximizam a funo de verossimilhana L,
calculando-se as derivadas parciais de L com respeito a
0
,
1
e
2
e igualando cada derivada
parcial a zero e resolvendo o sistema de equaes obtido. Podemos trabalhar com log
e
L ao invs de
L, pois ambos so maximizadas para os mesmos valores de
0
,
1
e
2
:

=
2
1
2
) ( log 2 log log
n n
X Y L
52

=
2
1 0
2
1
2
2 2
) ( log 2 log log
2
i i e
n
e
n
e
X Y L

As derivadas parciais do logaritmo da funo de verossimilhana, so dadas por:

+ =

2
1 0
4 2 2
1 0
2
1
1 0
2
0
) (
2
1
2
) (log
) (
1 ) (log
) (
1 ) (log
i i
e
i i i
e
i i
e
X Y
n L
X Y X
L
X Y
L






Agora, fazemos as derivadas parciais iguais a zero, substituindo
0
,
1
e
2
pelos estimadores
2
1 0

e
Obtemos:
2 )

(
1 0
1 0

0 )

(
0 )

(
2
1 0




=
=
=

n
X Y
i i i
i i
i i
X Y X
X Y
As duas primeiras equaes so idnticas as equaes normais encontradas pelo mtodo de
53
As duas primeiras equaes so idnticas as equaes normais encontradas pelo mtodo de
mnimos quadrados. O MMV produz um estimador viesado para
2
.
Parmetro Estimador de mxima verossimilhana
0

0 0

b =
1

1 1

b =
2

n
Y Y
i i
=

2
)

(
2

Os estimadores de
0
, e
1
so os mesmos do mtodo de mnimos quadrados. O estimador de
mxima verossimilhana de
2
viesado,ou seja,.
n
1 n
E
2
2

) (
) (

=
Comentrios:
1) como os estimadores de mxima verossimilhana de
0
,e
1
so os mesmos do mtodo
de mnimos quadrados, eles tem as mesmas propriedades de todos os estimadores de
mnimos quadrados:
a) so no viesados;
b) tem varincia mnima entre todos os estimadores lineares no tendenciosos;
alm disso, os estimadores de mxima verossimilhana b
0
e b
1
para o modelo de
regresso com erros normais tem outras propriedades desejveis:
c) so consistentes;
0 ) |

(| lim > = 0 P
54
d) so suficientes;
*** Fazer lista de exerccios nmero 1.
0 ) |

(| lim > =

0 P
n
. de depende no )

| (

= y f
Y
Inferncia na anlise de regresso
Intervalos de confiana
Testes de hipteses:
55
Assumimos o modelo: n 1,.., i X Y
i i i
= + + =
1 0

0
e
1
so os parmetros;
X
i
so constantes conhecidas, fixas.

i
so independentes com distribuio N(0,
2
).
(3)
Inferncias para
1
encontrar intervalos de confiana para
1
fazer testes de hipteses com relao a
1
, por exemplo:
0 :
0 :
1
1 0

a
H
H
No h associao
entre X e Y.
Para realizar inferncias sobre
1
, precisamos conhecer a distribuio amostral de b
1
, o estimador
pontual de
1
.
56
1
Distribuio amostral de b
1
O estimador pontual dado por:


2
) (
) )( (
1
X X
Y Y X X
i
i i
b
A distribuio amostral de b
1
refere-se aos diferentes valores de b
1
que seriam obtidos com
muitas amostras para um mesmo nvel da varivel preditora X (constante).
Normalidade: a normalidade da distribuio amostral de b
1
segue do fato de que b
1
uma
combinao linear dos Y
i
.Os Y
i
so independentes, com distribuio normal. Uma combinao linear
de variveis aleatrias independentes, com distribuio normal, tambm tem distribuio normal.
b
1
como combinao linear de Y
i
.


2
2
2
) (
) ( ) (
1
) (
) ( ) (
1
) (
) )( (
1
X X
X X Y Y X X
X X
Y X X Y X X
X X
Y Y X X
i
i i i
i
i i i
i
i i
b
b
b
Mdia:
( (( ( ) )) )
X k k b E
X k k b E
X k b E
Y E k Y k E b E
i i i
i i i
i i
i i i i
1 0 1
1 0 1
1 0 1
1
) (
) (
) ( ) (
) ( ) (



+ ++ + = == =
+ ++ + = == =
+ ++ + = == =
= == = = == =




57

=
=

2
2
) (
) (
1
) (
) (
1
) (
1
X X
X X
i
i i
X X
Y X X
X X
i
i
i
i i
i
k
Y k b
b
Portanto, k
i
so funes de X
i
que so valores
fixos.
viesado) (no b E
X k k b E
i i i
1 1
1 0 1
) (
) (


= == =
+ ++ + = == =

Pois,
) (Demonstre X k
k
i i
i
1
0
= == =
= == =


Varincia:
( )
( ) [ ]
[ ]
( )

=
(
(

=
2
2
2
2
2
2
2
2
2
1
1
X X
k
X X
X X
k
X X
X X
k
i
i
i
i
i
i
i
i
( )
( )

=
=
=
= =


2
1
2
1
2
2 2
1
2
2 2
1
2
2 2 2
1
2
) (
) (
) (
) ( ) (
X X
i
i
i i i i
i
b
k b
k b
Y k Y k b




58
Podemos estimar a varincia da distribuio amostral de b
1
substituindo
2
pelo quadrado mdio
residual (QME). O estimador s
2
(b
1
) um estimador no tendencioso de
2
(b
1
).
( )

2
) (
1
2
X X
QME
i
b s
Na seo propriedades dos estimadores de mnimos quadrados dissemos que b
1
tem a
menor varincia entre todos os estimadores lineares no tendenciosos da forma

=
i i
Y c
1

: o tendencios no
1

1 1 0 1 0 1
) ( ) ( ) ( )

( = + = + = = =
i i i i i i i i i
X c c X c Y E c Y c E E
Restries:

= = 1 0
i i i
X c e c
Nota:
c
i
so constantes arbitrrias
1 1
b =

59

= = 1 0
i i i
X c e c
:

1
de Varincia

= = =
2 2 2 2 2 2
1
2
) ( )

(
i i i i
c c Y c
Seja c
i
=k
i
+ d
i
, onde k
i
so como anteriormente e os d
i
so constantes arbitrrias.
Ento:
( )

+ + = +
i i i
i
i i
d k d k d k 2 ) (
2
2
2
2
2

Zero (Verifique)
) (
1
2
b
Finalmente, temos:

+ =
2 2
1
2
1
2
) ( )

(
i
d b
Observamos que a menor varincia do estimador ( ) obtida quando .Isto
ocorre quando todos os d
i
=0, isto implica que c
i
k
i
. Assim, o estimador de mnimos
quadrados b
1
tem varincia mnima entre todos os estimadores lineares no tendenciosos.
Distribuio amostral de (b
1
-
1
)/s(b
1
)
Como b
1
tem distribuio normal, sabemos que a estatstica padronizada (b
1
-
1
)/(b
1
) uma
varivel aleatria com distribuio normal padro. Para estimar (b
1
) usamos s(b
1
) e, assim
precisamos conhecer a distribuio da estatstica (b
1
-
1
)/s(b
1
) [estatstica studentizada].
1


= == = 0
2
i
d
60
Teorema:
2) - t(n ~
b s
b
) (
1
1 1

Demonstrao:
Podemos escrever a estatstica como:
) (
) (
) (
1
1
1
1 1
b
b s
b
b

O numerador uma varivel normal padro z. Para o denominador, temos:


para o modelo (3)
) 2 (
) 2 ( ) (
) (
2
) 2 (
2 2
2
2
2
) (
2
2
) (
1
2
1
2
~

= = =

=
n
n
SQE QME
b
b s
n
n
SQE
X
i
X
X
i
X
QME



Portanto,
) 2 (
) 2 (
2
1
1 1
~
) (

n
n
z
b s
b

Teorema: para o modelo (3),


SQE/
2
distribudo como

2
com n-2 gl e
independente de b
0
e b
1
.
61
Como z e
2
so independentes pois z uma funo de b
1
e b
1
independente de SQE/
2
~
2
.
Assim (A definio est no apndice):
). 2 ( ~
) (
1
1 1


n t
b s
b
Agora podemos fazer inferncias sobre
1
.
Intervalo de confiana para
1
Desde que (b
1
-
1
)/s(b
1
) tem distribuio t,podemos fazer a seguinte afirmao probabilstica:
= 1 )} 2 ; 2 / 1 ( ) ( / ) ( ) 2 ; 2 / ( {
1 1 1
n t b s b n t P
62
/2=0,25 /2=0,25 1-=0,50
t=1 t=-1
t(/2;n-2) representa o (/2)100 percentil da distribuio t com n-2 g.l.
t(/2;n-2) = - t(1-/2;n-2) (devido a simetria da distribuio t)
Rearranjando as desigualdades obtemos:
. 1 )) ( ) 2 ; 2 / 1 ( ) ( ) 2 ; 2 / 1 ( (
1 1 1 1 1
= == = + ++ + b s n t b b s n t b P
O intervalo de confiana dado por:
) ( ) 2 ; 2 / 1 (
1 1
b s n t b
Exemplo: considere os dados de populao de Staphilococcus aureus, a pesquisadora deseja
encontrar o intervalo para com confiana de 95%.
63
encontrar o intervalo para
1
com confiana de 95%.
0623 , 0 0434 , 0
) 008772 , 0 ( 776 , 2 019 , 0 ) 008772 , 0 ( 776 , 2 019 , 0
776 , 2 ) 4 ; 975 , 0 (
008772 , 0 ) (
0000769 , 0 ) (
1
1
1
5 , 857
0659 , 0
) (
1
2
2

+
=
=
= =

t
b s
b s
X X
QMR
Muito importante
Usar software
Interpretao: estimamos que a populao de Staphilococcus cresce entre -0,0434 e
0,0623 unidade/dia.
Exemplo: considere os dados de porcentagem de acerto na
cache, a pesquisadora deseja encontrar o intervalo para
1
com
confiana de 95%.
228 2 10 975 0 t
0000083 0 b s
68635 0000000000 0 b s
1
0 3750000000
5738 2
X X
QMR
1
2
2
, ) ; , (
, ) (
, ) (
,
) (
=
=
= =

Usar software
64
0000827 0 0000457 0
0000083 0 228 2 0000642 0 0000083 0 228 2 0000642 0
228 2 10 975 0 t
1
1
, ,
) , ( , , ) , ( , ,
, ) ; , (

+
=

Muito importante
Usar software
Interpretao: estimamos que a porcentagem de acertos
aumenta entre 0,0000457 e 0,0000827 % por byte do
tamanho da cache.
Teste de hipteses para
1
Teste bilateral
Vimos que (b
1
-
1
)/s(b
1
) tem distribuio t
(n-2)
.O teste de hiptese
sobre
1
pode ser feito de maneira padro usando a distribuio de
Student.
65
0 :
0 :
1
1 0

a
H
H
Hipteses:
Exemplo: a pesquisadora deseja saber se existe regresso linear
entre a porcentagem de acertos na cache e o tamanho da cache,
ou seja, se
1
0 ou no.
[Como o intervalo de confiana construdo anteriormente no
inclui o valor 0 (o valor da hiptese nula), devemos rejeitar a
hiptese nula (H
0
). Isto vlido quando o teste bilateral].
66
Teste estatstico formal:
[Como o intervalo de confiana construdo anteriormente inclui o
valor 0 (o valor da hiptese nula), devemos aceitar a hiptese nula
(H
0
)].
Exemplo: a pesquisadora deseja saber se existe regresso linear
entre populao de bactrias e o tempo de armazenamento, ou
seja, se
1
0 ou no.
67
0
*
0
*
H se - rejeita ), 2 ; 2 / 1 ( | |
H se - rejeita no ), 2 ; 2 / 1 ( | |
>

n t t Se
n t t Se

Critrio do teste: estamos controlando a probabilidade de erro


tipo I ().
) (
*
1
1 1
b s
b
t

=
Teste estatstico formal:
Exemplo: para os dados de porcentagem de acerto na cache,
com =0,05, b
1
=0,0000642 e s(b
1
)=0,0000083, temos:
,735
,
,
*
7 t
0000083 0
0 0000642 0
= =

O valor de t de tabela vale: t(0,975;10)=2,228, como |7,735| maior
do que 2,228 rejeita-se a hiptese nula e conclumos que existe uma
associao linear entre a porcentagem de acertos na cache e o
68
associao linear entre a porcentagem de acertos na cache e o
tamanho da cache.
Exemplo: para os dados de populao de Staphilococcus
aureus, com =0,05, b
1
=-0,019 e s(b
1
)=0,008772, temos:
2,166 t = =

008772 , 0
0 019 , 0 *
O valor de t de tabela vale: t(0,975;4)=2,776, como |-2,166| menor
do que 2,776 aceita-se a hiptese nula e conclumos que no existe
uma associao linear entre a populao de Staphilococcus aureus e
69
o tempo de armazenamento.
Valor p: o menor valor de para o qual rejeitamos a hiptese
nula. Se o pesquisador fixar =0,05, ento, para um valor p 0,05
no rejeita-se H
0
, caso contrrio, rejeita-se H
0
. Formalmente fica:
Valor p tambm denominado de nvel descritivo ou nvel de
significncia observado.
p valor t t P ) (
*
= >
Sada do Statistica: dados de porcentagem de acertos na cache. As
diferenas verificadas so devidas s aproximaes nos clculos.
70
* * Com o uso do Statistica, para os dados de porcentagem de
acerto na cache, encontrar a probabilidade de se rejeitar a
hiptese nula, quando ela verdadeira.
000016 , 0 ,000008 0 ,000008 0 ) 7525 , 7 ( ) 7525 , 7 (
000015 , 0 ) 7525 , 7 | (|
+ > + <
= >
t p t P
t P
71
000016 , 0 ,000008 0 ,000008 0 ) 7525 , 7 ( ) 7525 , 7 ( + > + < t p t P
Ateno: verificar se o software d o valor p para o teste uni
ou bilateral
Sada do Statistica: dados de populaes de Staphilococcus a diferena verificada entre -2,166 e -
2,15351 devido aproximaes nos clculos.
72
* * Com o uso do Statistica, encontrar a probabilidade de se rejeitar a hiptese nula, quando ela
verdadeira.
09624 , 0 04812 , 0 04812 , 0 ) 166 , 2 ( ) 166 , 2 (
0962 , 0 ) 166 , 2 | (|
= == = + ++ + = == = > >> > + ++ + < << <
= == =
t p t P
t P
Ateno: verificar se o
software d o valor p para
o teste uni ou bilateral
Teste unilateral:
0 :
0 :
1
1 0
<

a
H
H
O pesquisador deseja, por exemplo, testar se
1
negativo,
controlando o nvel de significncia =0,05.
Regra de deciso:
*
H se - rejeita no t ), n ; ( t Se 2
73
0
*
0
*
H se - rejeita t
H se - rejeita no t
), n ; ( t Se
), n ; ( t Se
2
2
<

Exemplo: para os dados de Staphilococcus temos, para =0,05,


t(0.05;4)=-2,132. Como t*=-2,166, rejeita-se a hiptese de
nulidade, portanto
1
negativo.
( )
*
t t P p < = Valor
Nas publicaes, indicar o nvel descritivo juntamente com o valor
da estatstica teste. Podemos realizar o teste estatstico para
qualquer nvel de significncia , comparando o nvel descritivo
com o valor desejado de .
Comentrio: pode-se testar as seguintes hipteses:
74
10 1
10 1 0
:
:



= == =
a
H
H
Onde
10
um valor diferente de zero.
A estatstica teste dada por:
( )
1
10 1
b s
b
t

=
Critrio do teste:
Se |t
*
| t(1- /2;n-2) no se rejeita H
0
75
0
Se |t
*
| > t(1- /2;n-2) rejeita-se H
0
Inferncias para
0
S tem interesse quando os nveis de X incluem X=0 (o que raro).
Distribuio amostral de b
0
O estimador pontual b
0
dado por:
X b Y b
1 0
=
A distribuio amostral de b
0
refere-se aos valores diferentes de b
0
que seriam obtidos com
diferentes amostras para o mesmo valor de X (constante).
A distribuio amostral de b
0
normal
76
Mdia:
0 0
) ( = b E
Varincia:
|

\
|

+ =

2
2
) (
1
2
0
2
) (
X X
X
n
i
b
A normalidade verificada pois b
0
uma combinao linear das observaes Y
i
.
Um estimador para
2
(b
0
) obtido substituindo-se
2
pelo seu estimador pontual, QME.
Distribuio amostral de (b
0
-
0
)/s(b
0
)
Teorema:
) 2 ( ~
) (
0
0 0

n t
b s
b
podemos usar a distribuio t para construir
os IC e fazer os testes de hipteses.
(Demonstrao prxima pgina)
(cqd).
) (
) ( ) ( ) ( ) (
0


=
+ = =
= =
1 1 0 1
1 1 0
X X b E X Y
X b E Y E X b Y E b E
Demonstrao:
77
(cqd).
0
=
Intervalo de confiana para
0
) ( ) 2 ; 2 / 1 (
0 0
b s n t b
Exemplo: para os dados de Staphilococcus, como temos tempo=0 (X=0), podemos estar
interessados em encontrar o IC para
0
.
1858 , 0 ) (
0,0345
6
1
0659 , 0
) (
) (
5 , 857
5 , 17
2
2
1
0
2
2
=
=
(

+ =
(
(

+ =

b s
X X
X
QME b s
i
n
78
8410 , 3 8094 , 2
) 1858 , 0 ( 776 , 2 3252 , 3 ) 1858 , 0 ( 776 , 2 3252 , 3
776 , 2 ) 4 ; 975 , 0 (
1858 , 0 ) (
0
0
0

+
=
=

t
b s
Como o intervalo de confiana no inclui o valor zero (0), rejeitamos a hiptese:
0 :
0 :
0
0 0

a
H
H
Estimao intervalar para E(Y
h
)
Freqentemente, numa anlise de regresso, deseja-se estimar a
mdia de uma ou mais distribuies de probabilidade de Y.
Exemplo: No estudo da relao entre o tamanho da cache (X) e
porcentagem de acerto (Y), a porcentagem mdia de acerto para
tamanhos maiores de cache pode ser de interesse. Outro exemplo,
um agrnomo pode estar interessado na produo mdia para
diversas doses de um nutriente, com o objetivo de encontrar a dose
tima.
79
tima.
X
h
representa o nvel da varivel preditora para a qual se deseja
estimar a resposta mdia.
A resposta mdia para X=X
h
representada por: E(Y
h
)
h h
X b b Y
1 0

+ =
Sabemos que o estimador pontual de E(Y
h
) dado por:
h
Y

Distribuio normal: para o modelo de regresso com erros normais, a


distribuio amostral de Y(chapu)
h
normal. A normalidade segue
diretamente do fato que Y(chapu) , assim como b e b , uma combinao
Distribuio amostral de Y(chapu)
h
Diferentes valores de Y(chapu)
h
que seriam obtidos se repetidas amostras
fossem selecionadas, para X constante, e calculando Y(chapu)
h
para cada
amostra.
80
diretamente do fato que Y(chapu)
h
, assim como b
0
e b
1
, uma combinao
linear das observaes Y
i
.
Mdia
) ( ) ( ) ( ) ( )

(
1 0 1 0 1 0 h h h h h
Y E X b E X b E X b b E Y E = + = + = + =
Varincia
Para obter
2
(Y(chapu)
h
), primeiro mostraremos que b
1
e no so correlacionados e sob o
modelo de regresso com erros normais, independentes:
0 ) ; (
1
= Y b
Definimos:
2
) (
1

= = =


X X
X X
i i i 1 i n
i
i
k Y k b Y Y
Atravs do teorema A.32 (Neter et al., pgina 668, 1996) com a
i
=1/n e c
i
=k
i
e lembrando que
Y so variveis aleatrias independentes:
Y
81
Y
i
so variveis aleatrias independentes:

= = = 0 ) ( ) ( ) ; (
2
2
1
1 i n i i n
k Y k b Y


Para a demonstrao da varincia de Y(chapu)
h
vamos utilizar o modelo:
i i i
X X Y + + = ) (
1
*
0
(
(

+ =

+ =
= =

=
+ =
+ =

2
2
2 2
2
2
2
2
) (
1
2 2
) (
2 2
) (
2
) (
1
2
n 1
1
2 2 2 2
1
2 2
)

(
) ( )

(
) ( ) (
) constantes X e X tes; independen so b e Y (
) ( ) ( ) ( )

(
)) ( ( )

(
X X
X X
h n h
n n
Y
X X
h h
h h
h
i
i
h
Y
X X Y
Y b
b X X Y Y
X X b Y Y

82
(

+ =

2
) (
) (
1
2 2
)

(
X X
X X
n h
i
h
Y
Distribuio amostral de
) 2 ( ~
)

(
) (

n t
h
h h
Y s
Y E Y
Intervalo de confiana para E(Y
h
)
)

( ) 2 ; 2 / 1 (

h h
Y s n t Y
)

( / )) (

(
h h h
Y s Y E Y
Exemplo: vamos encontrar um intervalo com confiana de 95% para E(Y
h
) para tamanho de
cache X=300.000 bytes. Temos:
[ ]
5073263 0 228 2 10 47 Y E 5073263 0 228 2 10 47
228 2 10 975 0 t
5073263 0 Y s
25738 0 5738 2 Y s
10 47 300000 0000642 0 83633 27 Y
300000
h
0 3750000000
325000 300000
12
1
h
2
300000
2
) , ( , , ) ( ) , ( , ,
, ) ; , (
, )

(
, , )

(
, ) ( , ,

) (

+
=
=
= + =
= + =

83
2303 48 Y E 9697 45
300000
, ) ( ,
Interpretao: temos 95% de confiana que a porcentagem mdia de acertos, com 300.000 bytes
de tamanho de cache, est entre 45,9697 e 48,2003%. Um intervalo com boa preciso.
Exerccio: encontrar o intervalo com confiana de 95% para E(Y
h
) para tamanho de cache
X=200.000. Compare as amplitudes dos intervalos.
Exemplo: para os dados de populao de bactrias, vamos encontrar um intervalo com
confiana de 95% para E(Y
h
) para tempo X=14 dias. Temos:
[ [[ [ ] ]] ]
3619 , 3 ) ( 7561 , 2
) 1091 , 0 ( 776 , 2 059 , 3 ) ( ) 1091 , 0 ( 776 , 2 059 , 3
776 , 2 ) 4 ; 975 , 0 (
1091 , 0 )

(
0119 , 0 0659 , 0 )

(
059 3 ) 14 ( 019 , 0 325 , 3

14
5 , 857
) 5 , 17 14 (
6
1
2
14
2

+ ++ +
= == =
= == =
= == = + ++ + = == =
= == = = == =

Y E
Y E
t
Y s
Y s
, Y
h
h
84
3619 , 3 ) ( 7561 , 2
14
Y E
Interpretao: temos 95% de confiana que a populao mdia de bactrias, com 14 dias de
armazenamento, est entre 2,7561 e 3,3619 ufc (em log base e).
Exerccio: encontrar o intervalo com confiana de 95% para E(Y
h
) para tempo X=0.
Compare as amplitudes dos intervalos.
Predio de uma nova observao
Exemplo: 1) a pesquisadora deseja predizer a porcentagem de acertos
na cache para um tamanho de cache igual a 375.000 bytes; 2) a
pesquisadora deseja predizer a populao de bactrias para um tempo
especfico igual a 15 dias.
Portanto, desejamos predizer uma nova observao, Y, vista como
resultado de um novo ensaio, independente dos ensaios nos quais
anlise de regresso foi feita.
85
anlise de regresso foi feita.
Notao: denotamos o nvel de X para o novo ensaio como X
h
e a
nova observao em Y como Y
h(novo)
. Assumimos que o modelo de
regresso continua vlido para a nova observao.
A diferena entre estimar uma resposta mdia, E(Y
h
) e fazer a
predio de uma nova observao, Y
h(novo)
, que no primeiro caso
estimamos a mdia da distribuio de Y. Agora, vamos predizer uma
resposta individual da distribuio de Y.
Intervalo de predio para Y
h(novo)
Os limites de predio para uma nova observao Y
h(nova)
para um dado X
h
so obtidos atravs do
do seguinte teorema :
) 2 ( ~
) (

) (

n t
pred s
Y Y
h novo h
Isto para o modelo de regresso com erros normais.
Note que a estatstica usa Y(chapu)
h
no numerador ao invs de E(Y
h
). O desvio padro estimado,
s(pred), obtido como segue:
A diferena no numerador, Y
h(novo)
- Y(chapu)
h
, pode ser visto como um erro de predio, com
86
A diferena no numerador, Y
h(novo)
- Y(chapu)
h
, pode ser visto como um erro de predio, com
Y(chapu)
h
sendo a melhor estimativa pontual do valor da nova observao, Y
h(novo)
. A varincia
desse erro pode ser obtida considerando que a nova observao e as n observaes, sobre as quais
Y(chapu)
h
est baseada, so independentes. Considerando o teorema A.31b (Neter et. Al., pgina
668, 1996), temos:
(

+ + =
+ =
+ = + = =

2
2
) (
) (
1
2 2
2 2 2
) (
2
) (
2 2
1 ) (
)

( )) (
)

( )

( ) ( )

( ) (
X X
X X
n
2
h
h h novo h h novo h
i
h
QME pred s
o) tendencios no (estimador Y s QME pred s
Y Y Y Y Y pred
) ( ) 2 ; 2 / 1 (

pred s n t Y
h

O intervalo fica:
Exemplo: suponha que um novo tamanho de cache seja X
h
=375000 bytes,e que a pesquisadora
deseja construir um intervalo de predio com 95% de confiana para Y
375000(novo)
.
[ ]
9599 2 3861 0 5738 2 pred s
228 2 10 975 0 t
5738 2 QME
3861 0 5738 2 Y s
91133 51 375000 0000642 0 83633 27 Y
2
0 3750000000
325000 375000
12
1
375000
2
375000
2
, , , ) (
, ) ; , (
,
, , )

(
, ) ( , ,

) (
= + =
=
=
= + =
= + =

87
7445 55 Y 0782 48
720436 1 228 2 91133 51 Y 720436 1 228 2 91133 51
720436 1 pred s
novo 375000
novo 375000
, ,
) , ( , , ) , ( , ,
, ) (
) (
) (

+
=
Interpretao: podemos afirmar com 95% de confiana que o valor predito de porcentagem de
acertos, para tamanho de cache igual a 375000 bytes, est entre 48,0782 e 55,7445%.
O intervalo de predio similar ao intervalo de estimao, a diferena conceitual. Um intervalo
de estimao uma inferncia sobre um parmetro e um intervalo que procura conter o valor do
parmetro. O intervalo de predio, por outro lado, um conhecimento formal sobre um valor de
uma varivel aleatria, a nova observao Y
h(novo)
.
Exemplo: suponha que um novo tempo de armazenamento seja X
h
=15 dias,e que a pesquisadora
deseja construir um intervalo de predio com 95% de confiana para Y
15(novo)
.
[ ]
0774 , 0 0115 , 0 0659 , 0 ) (
776 , 2 ) 4 ; 975 , 0 (
0659 , 0
0115 , 0 0659 , 0 )

(
040 , 3 ) 15 ( 019 , 0 325 , 3

2
5 , 857
) 5 , 17 15 (
6
1
15
2
15
2
= + =
=
=
= + =
= =

pred s
t
QME
Y s
Y
88
8123 , 3 2677 , 2
) 2782 , 0 ( 776 , 2 040 , 3 ) 2782 , 0 ( 776 , 2 040 , 3
2782 , 0 ) (
) ( 15
) ( 15

+
=
novo
novo
Y
Y
pred s
Interpretao: podemos afirmar com 95% de confiana que o valor predito de populao de
bactrias, para tempo igual a 15 dias, est entre 2,2677 e 3,8123 ufc/cm
2
.
Faixa de confiana para a equao de regresso
til para verificar o ajuste da equao de regresso.
A faixa de confiana (1-) para a equao da reta correspondente ao modelo de regresso com
erros normais tem dois limites para qualquer nvel de X
h
, cujos valores so dados por:
+ =
=

1 0
2

) 2 , 2 ; 1 ( 2
)

h h
h h
X b b Y
n F W
Y Ws Y

Distribuio de F,
com 2 gl no
numerador e n-2 no
89
(

+ =
+ =

2
2
) (
) (
1
2
1 0
)

X X
X X
n h
h h
i
h
QME Y s
X b b Y
Calcula-se os valores dos limites para diversos nveis de X
h
e aps faz-se o grfico.
numerador e n-2 no
denominador, com
grau de confiana 1-

Scatterplot (CACHE.STA 9v*12c)


y=27,836+6,423e-5*x+eps
P
O
R
C
E
N
T
A
G
E
M

D
E

A
C
E
R
T
O
46
48
50
52
54
56
58
90
TAMANHO DA CACHE
P
O
R
C
E
N
T
A
G
E
M

D
E

A
C
E
R
T
O
40
42
44
46
2,2e5 2,6e5 3e5 3,4e5 3,8e5 4,2e5
Percebe-se que os valores da linha de regresso so estimados com boa
preciso.
91
Anlise de varincia da regresso
importante para anlise de regresso linear mltipla e outros modelos lineares. Para anlise de
regresso linear simples no traz nenhuma novidade.
Partio da soma de quadrados total
)

( )

(
i i i i
Y Y Y Y Y Y + =
Desvio
total
Desvio da
equao
ajustada em
torno da mdia
Desvio em
torno da
equao
ajustada
Y
92
X
Y
X
i
Y
i

T
R
E
Demonstrao:
( )
( )



= = =
= = =
=
= =
+ =
= =
+ +
+ +
+ =
n n n
n
i
n
i
i i i i i
n
i
i i i
n
i
n
i
n
i
i i i i i i
n
i
i i i i i i
n
i
i i i
n
i
Y Y Y Y Y Y
Y Y Y Y Y Y Y Y Y Y
Y Y Y Y Y Y Y Y
Y Y Y Y Y Y Y Y
Y Y Y Y Y Y
2 2 2
1 1 1
1 1 1
2 2
1
2 2
1
2
1
2
)

( )

( ) (
0 )

( 2 )

2 )

)(

( 2
)

)(

( 2 )

( )

(
)

)(

( 2 )

( )

(
)

( )

( ) (
93
Soma de quadrados total:
Soma de quadrados do erro (ou resduo):

=
=
n
i
i i
Y Y SQE
1
2
)

(
Soma de quadrados da regresso:

=
=
n
i
i
Y Y SQR
1
2
)

=
=
n
i
i
Y Y SQT
1
2
) (

= = =
+ =
i i
i i i
i
Y Y Y Y Y Y
1 1
2 2
1
2
)

( )

( ) (
(Parte da variabilidade de Y
i
que est associada com a regresso)
Graus de liberdade
A SQT tem n-1 graus de liberdade; um grau de liberdade perdido devido a restrio de que a soma
dos desvios em torno da mdia zero. De outra forma: um grau de liberdade perdido porque a
mdia da amostra usada para estimar a mdia populacional.
A SQE tem n-2 graus de liberdade. Dois graus de liberdade so perdidos pois dois parmetros so
estimados para obter Y(chapu)
i
.
A SQR tem 1 grau de liberdade. Dois g.l. esto associados com a regresso (2 parmetros); um deles
perdido devido a restrio:
Os graus de liberdade so aditivos: (n-1)=1+(n-2)
. 0 )

( = == =

Y Y
i
94
Os graus de liberdade so aditivos: (n-1)=1+(n-2)
Quadrados mdios
A soma de quadrados dividida pelos graus de liberdade chamada de quadrado mdio.
1
SQR
QMR =
) 2 (
=
n
SQE
QME
) 1 (
=
n
SQT
QMT
Tabela da anlise de varincia
Tabela da anlise de varincia para regresso linear simples
Causas de variao Soma de quadrados Graus de liberdade Quadrado mdio
Regresso SQR 1 SQR/1
Erro SQE n-2 SQE/(n-2)
Total SQT n-1
Tabela modificada (soma de quadrados total no corrigida)
Baseado no fato de que:

= =
2 2
2
) (
i i
Y n Y Y Y SQT
95


=
2
i
Y SQTNC
Tabela da anlise de varincia para regresso linear simples
Causas de variao Soma de quadrados Graus de liberdade Quadrado mdio
Regresso SQR 1 SQR/1
Erro SQE n-2 SQE/(n-2)
Total SQT n-1
Correo para a mdia SQ(devido a mdia)=
2
Y n 1
Total no corrigido SQTNC=

2
i
Y n
Exerccio: obtenha para os dados de pop. de Staphilococcus a SQR e o QMR.
Esperanas dos quadrados mdios
Para realizar inferncias na anlise de varincia, precisamos conhecer as esperanas dos
quadrados mdios. Os valores esperados dos quadrados mdios a mdia de suas distribuies
amostrais e nos mostram o que est sendo estimado pelo quadrado mdio.
Teorema 2.11 (pgina 49, Neter et al., 1996) diz que: ) 2 ( ~ /
2 2
n SQE
(para o modelo com erros com distribuio normal).
Exerccio: obtenha para os dados de porcentagem de acertos na cache a SQR e o QMR.
96
Das propriedades da distribuio de
2
(apndice) temos:
imparcial) estimador QME (O QME E E
n E
n
SQE
SQE
2
2
) ( ) (
2 ) (
2

= == = = == =
= == =

Para encontrar a E(QMR), partimos de:
2
2
1
) (

= X X b SQR
i
Sabemos que a varincia de uma varivel aleatria dada por:
(para o modelo com erros com distribuio normal).
( )
( )
( )
( )

+ =

+ =

=
+ =
=
=
=

2 2 2
2
i
2
1 X X
2
i
2
1
2
1 X X
2
1
X X 1
2
1 1
2
1
2
1 1
2
X X SQR E
X X SQR E
X X b E SQR E
b E
b
b E
b E b E b
2
i
2
2
i
2
2
i
2
) ( ) (
) ( ) (
) ( ) ( ) (
) (
) (
) (
)) ( ( ) ( ) (

97

+ = =

+ =
2
i
2
1
2
1
SQR
i 1
X X QMR E E
X X SQR E
) ( ) ( ) (
) ( ) (


Teste F para
1
Na anlise de varincia testa-se as seguintes hipteses:
0 :
0 :
1
1 0

a
H
H
A estatstica utilizada para testar essas hipteses dada por:
QME
QMR
F =
*
Para estabelecer uma regra de deciso do teste de hipteses devemos conhecer a
distribuio amostral de F
*
.
Valores altos de F
*
favorecem H
a
; F
*
=1 favorece H
0
; um teste unilateral.
Distribuio amostral de F
*
Vamos considerar a distribuio amostral de F
*
quando a hiptese nula for verdadeira, isto ,
sob H
0
.
Teorema de Cochran: se as n observaes Y
i
so identicamente distribudas de acordo com
uma distribuio normal com mdia e varincia
2
e a soma de quadrados total
decomposta em k somas de quadrados SQ
r
, cada uma com gl
r
graus de liberdade, ento, os
termos SQ
r
/
2
, so variveis independentemente distribudas como
2
com gl
r
graus de
liberdade se:

= == =
= == =
k
i
r
n gl
1
1
98

= == = i 1
Na tabela da ANOVA a SQT foi decomposta em duas somas de quadrados (SQR e SQE) e os
seus graus de liberdade so aditivos.
Sob H
0
, de modo que os Y
i
tem distribuio normal com a mesma mdia =0 e mesma
varincia
2
, SQE/
2
e SQR/
2
so variveis independentemente distribudas como
2
.
Podemos escrever F
*
como:
) 2 (
) 2 (
1
) 1 (
) 2 ( 1 ) 2 /(
*
2 2
2 2
1



= == = = == = = == = = == =
n
n
n n SQE QME
QMR
SQE SQR
SQR
F


Assim, sob H
0
, F
*
o quociente entre duas variveis independentes com distribuio de
2
,
portanto, a estatstica F
*
uma varivel aleatria com distribuio F(1,n-2) (apndice-
distribuio F).
Quando rejeita-se H
0
,pode-se mostrar que F
*
segue uma distribuio de F no central.
Regra de deciso do teste de hipteses:
0
0
H
H reje
se rejeita ) n , ; ( F F
se ita no ) n , ; ( F F
*
*
>

2 1 1
2 1 1

Sada do STATISTICA: dados de porcentagem de acerto na cache.


99
F(95%;1,10)=4,96, portanto, F
*
> F e, assim, rejeita-se a hiptese nula.
Concluso: existe uma associao linear entre porcentagem de acerto e o tamanho da cache.
Mesmo resultado do teste t.
Sada do STATISTICA: dados de populao de Staphilococcus.
100
F(95%;1,4)=7,71, portanto, F
*
< F e, assim, no
rejeita-se a hiptese nula.
Concluso: no existe uma associao linear entre pop. e o
tempo de armazenamento. Mesmo resultado do teste t.
Teste geral para o modelo linear
Trs etapas:
1) Modelo completo
Este modelo considerado adequado para os dados e chama-se modelo completo ou sem
restrio (superparametrizado). No caso de regresso linear simples temos:
i i i
X Y + + =
1 0
Modelo completo
101
A soma de quadrados do erro do modelo completo (SQE(C)), dada por:
[ [[ [ ] ]] ] SQE Y Y X b b Y C SQE
i i i i
= == = = == = + ++ + = == =

2
2
1 0
)

( ) ( ) (
2) Modelo reduzido
Vamos considerar as hipteses:
0 :
0 :
1
1 0

a
H
H
Modelo reduzido:
i i
Y + =
0
Sob H
0
A soma de quadrados do erro do modelo reduzido (SQE(R)), dada por:
[ [[ [ ] ]] ] SQTotal Y Y b Y R SQE
i i
= == = = == = = == =

2
2
0
) ( ) (
3) Teste estatstico
Devemos comparar as duas somas de quadrados dos erros.
) ( ) ( R SQE C SQE
Sempre
Exerccio: encontre o estimador de
0
pelo mtodo de mnimos quadrados.
102
Mais parmetros
Concluso: se a SQE(C) no muito menor do que a SQE(R), indica que o modelo reduzido
adequado, isto , no rejeita-se H
0
.
O teste estatstico dado por:
) , ; 1 ( ~
) ( ) ( ) ( *
c c r gl
C SQE
gl gl
C SQE R SQE
gl gl gl F F
c c r
=

Deciso:
0 c c r
H se aceita gl gl gl F F
>
) , ; 1 (
*

103
0 c c r
H se rejeita gl gl gl F F > ) , ; 1 (
*

Exerccio: para os dados de porcentagem de acertos na cache, verifique a as hipteses:


0 :
0 :
1
1 0

a
H
H
. ,
* *
,
, , , ,
*
10 60 F
57385 2
6899 154
10
7385 25
10 11
7385 25 4284 180
= = =

Exerccio: para os dados de pop. de staphilococcus,


verifique se as hipteses:
0 :
0 :
1
1 0

a
H
H
104
. ,
,
, , , ,
* NS
065977 0
305977 0
4
263908 0
4 5
263908 0 569885 0
64 4 F = = =

Medidas descritivas do grau de associao linear


entre X e Y.
Coeficiente de determinao (r
2
)
1 0
1
2
2

= =
r
r
SQT
SQE
SQT
SQR
Interpretao: o quanto da variabilidade total dos dados explicada pelo modelo de regresso.
Quanto maior o r
2
mais a variao total de Y reduzida pela introduo da v. preditora X no modelo.
Y
105

X b b Y
1 0

+ =
r
2
=1
Y
X
Y

r
2
=0
Y Y

A varivel preditora X responsvel por toda


a variao nas observaes Y
i
.
A v. X no ajuda na reduo da
variao de Y
i
com a Reg. Linear

Coeficiente de correlao (r)


1 1
2

=
r
r r
Exemplo: para os dados de porcentagem de acertos na cache, temos:
106
Exemplo: para os dados de populao de Staphilococcus, temos:
Interpretaes errneas dos coeficientes de determinao e
correlao:
1) Um alto coeficiente de correlao indica que predies teis
podem ser feitas. Isto no necessariamente correto. Observe
se as amplitudes dos intervalos de confiana so grandes, isto
, no so muito precisos.
107
, no so muito precisos.
2) Um alto coeficiente de correlao indica que a equao de
regresso estimada est bem ajustada aos dados. Isto tambm
no necessariamente correto (veja figura a seguir).
3) Um coeficiente de correlao prximo de zero indica que X
e Y no so correlacionadas. Idem (veja figura a seguir).

108
Tem um alto valor de r; o ajuste de
uma equao de regresso linear
no adequada
Tem um baixo valor de r;
porm existe uma forte relao
entre X e Y.
*** Fazer lista de exerccios nmero 2.

Anda mungkin juga menyukai