Anda di halaman 1dari 5

Anlise de Regresso Linear Simples

A anlise de regresso linear simples estuda a relao entre uma varivel chamada
dependente e uma varivel chamada independente. O modelo estatstico que representa esta
relao chamado de Modelo de Regresso Linear Simples.
Antes de introduzirmos o modelo de regresso, apresentaremos algumas ferramentas
descritivas para avaliar a relao entre duas variveis.
Diagrama de Disperso um mtodo grfico utilizado para visualizar se existe ou no
alguma relao entre as variveis. Considere os dados do tipo:
( x1 , y1 ), ( x2 , y2 ),...., ( xi , yi ),....., ( xn , yn )

500

1000 1500

2000 2500 3000

O Diagrama de Disperso pode apresentar as seguintes formas:

10

20

30

40

50

60

No primeiro caso existe uma forte correlao negativa, no segundo caso existe uma forte
correlao positiva, e no terceiro caso parece no haver correlao entre as variveis.
A idia de utilizar o grfico apenas para ter uma idia sobre o comportamento das variveis.
Entretanto, necessrio um coeficiente que possa medir este grau de associao. Um coeficiente
muito utilizado chamado de Coeficiente de Correlao de Pearson, e dado por:
n

( x x )( y y )
i 1

(x x) ( y y)
i 1

i 1

1
1
xi e y yi .

n i 1
n i 1
Este coeficiente assume apenas valores entre -1 e 1.
1 Significa uma correlao perfeita positiva entre as duas variveis.
1 Significa uma correlao negativa perfeita entre as duas variveis - Isto , se uma
aumenta, a outra sempre diminui.
0 Significa que as duas variveis no dependem linearmente uma da outra.
Onde x

O Modelo de Regresso Linear Simples


Um modelo estatstico de regresso, considerando uma varivel aleatria Y (dependente
ou resposta) relacionada com uma varivel X (independente ou covarivel), pode ser dado pela
seguinte relao:
Y f (X )
O caso mais simples de regresso quando temos duas variveis e a relao entre elas
pode ser representada por uma linha reta Regresso linear simples.
Linear: indica que os parmetros entram no modelo de uma forma direta, e no de uma
forma mais complicada. Para o delineamento inteiramente casualizado, as observaes so
representadas pelo modelo:

Yi 0 1 X i i

Onde,
0 (coeficiente linear) e 1 (coeficiente angular)
estimar).
i o erro aleatrio.

so os parmetros do modelo (a

Exemplos:
1. Relao entre o peso e a altura de um homem adulto (X: altura; Y: peso)
2. Relao entre o preo do vinho e o montante da colheita em cada ano (X: montante da
colheita; Y: preo do vinho)
3. Relao entre a quilometragem de um carro usado e o seu preo de venda (X:
quilometragem do carro; Y: preo de venda)
4. A populao de bactrias pode ser predita a partir da relao entre populao e o tempo
de armazenamento;
5. Relao entre concentraes de solues de protena de arroz integral e absorbncias
mdias corrigidas.
6. Relao entre textura e aparncia.
7. Relao entre temperatura usada num processo de desodorizao de um produto e cor do
produto final.
8. A altura dos filhos podem ser preditas a partir da altura dos pais.
O interesse estimar os parmetros do modelo de regresso para assim poder caracterizar a
relao entre as variveis do modelo.
Mtodo de Mnimos Quadrados
O principio dos mnimos quadrados considera estimar os parmetros desconhecidos do
modelo 0 e 1 pelos valores que minimizam a soma de quadrados dos erros, dada por,
n

i 1

i 1

SSE i2 ( yi 0 1 xi ) 2
Para encontrar os valores que minimizam a equao acima, preciso deriv-la em relao
aos seus parmetros, e igual-la a zero, ou seja, resolver o sistema de equaes:

d(SSE) n
d 2(yi 0 1xi ) 0
0 i 1

d (SSE) n
2( yi 0 1xi )xi 0
d1 i1

( )1
(2)

De (1), temos que


n

i 1

i 1

yi n 0 1 xi 0

y 0 1 x 0
y x
0

De (2), temos que,

( n)

i 1

i 1

xi yi 0 xi 1 xi2 0
n

x y
i 1

i 1

i 1

i 1

( y 1 x ) xi 1 xi2 0

2
2
xi yi nx y 1nx 1 xi 0

i 1

i 1

2
2
xi yi nx y 1 xi nx
i 1
i 1

xi yi nx y

1 i 1n
2
2
xi nx
i 1

Assim, a reta de regresso estimada fica dada por:


y 0 1 x

Exemplo: Queremos estudar a relao entre a quilometragem de um carro usado e o seu preo
de venda.

Estimando os parmetros do modelo de regresso, temos:

Assim, a reta de regresso estimada fica dada por:

y 2934 38,56 x

Para um carro que tenha andado 20000 Km, por exemplo, a equao sugere o preo:
y 2934 38,56 20 2162,8 Dezenas de Euros.
O coeficiente de regresso estimado 1 (estimativa de 1 ), estima o efeito sobre o valor mdio
da varivel dependente Y de uma alterao unitria da varivel independente X. Assim, em
mdia, por cada 1000 km que o carro tenha andado, o preo de venda baixa 38,56 dezenas de
Euros.
Observao: 0 2934 no pode ser interpretado como sendo o preo previsto para um carro
novo, 0 km, pois este valor de quilometragem encontra-se fora do mbito dos dados.
Qualidade do Ajustamento - Coeficiente de determinao R 2
Disperso em torno de y - Variao total:
n

SST ( yi y ) 2 (Soma dos quadrados totais)


i 1

Disperso em torno da reta de regresso - Variao no explicada:


n

SSE ( yi yi ) 2 (Soma dos quadrados dos resduos)


i 1

Disperso do modelo de regresso - Variao explicada:


n

SSR ( yi y ) 2 (Soma dos quadrados da regresso)


i 1

O ajustamento ser tanto melhor quanto menor for o valor de SSE relativamente ao valor
de SST.
O quociente entre SSR e SST d-nos uma medida da proporo da variao total que
explicada pelo modelo de regresso. A esta medida d-se o nome de coeficiente de determinao
( R 2 ).

R2

SSR
SSE
1
SST
SST

Note que:
0 R2 1
R 2 1 (prximo de 1) significa que grande parte da variao de Y explicada linearmente
pela varivel independente.
R 2 0 (prximo de 0) significa que grande parte da variao de Y no explicada
linearmente pela varivel independente.
Este coeficiente pode ser utilizado como uma medida da qualidade do ajustamento, ou como
medida da confiana depositada na equao de regresso como instrumento de previso:
R 2 0 Modelo linear muito pouco adequado.
R 2 1 Modelo linear bastante adequado.
Para os dados, podemos calcular R 2 por meio da seguinte frmula:
n

R2

0 yi 1 xi yi ny 2
i 1

i 1

2
2
yi ny

i 1