Anda di halaman 1dari 19

C

ap .

Análise de 1
Regressão

1.1 Introdução

Análise de regressão é uma técnica de modelagem utilizada para analisar a relação entre
uma variável dependente (Y) e uma ou mais variáveis independentes X1, X2, X3,..., Xn.
O objetivo dessa técnica é identificar (estimar) uma função que descreve, o mais
próximo possível, a relação entre essas variáveis e assim podermos predizer o valor que
a variável dependente (Y) irá assumir para um determinado valor da variável
independente X.
Exemplos de relação entre variáveis são o consumo em relação à taxa de
inflação; a produção de leite e temperatura ambiente; a resistência de um material e sua
composição química; o número de peças com defeitos e a experiência; receita e gasto
com publicidade e etc.
O modelo de regressão poderá ser escrito genericamente como:
Y = f ( X 1, X 2, X 3,..., Xn ) + ε ,

onde o termo ε representa uma perturbação aleatória na função, ou o erro da


aproximação. O número de variáveis independentes varia de uma aplicação para outra,
quando se tem apenas uma variável independente chama-se Modelo de Regressão
Simples, quando se tem mais de uma variável independente chama-se de Modelo de
Regressão Múltipla. A forma da função f ( .) também varia, podendo ser representada
por um modelo linear, polinomial ou até mesmo uma função não linear.
A figura abaixo mostra um modelo linear para representar a relação entre a
produção de leite e o índice pluviométrico de um município.

Produção de Leite x índice


Pluviométrico y = 0.8x + 8.9
R2 = 0.7853
35
30
25
20
20 22 24 26 28 30

Prof. Cláudio Serra, Esp. 1


Por sua vez, os dados somente de exportação de carne de frango poderão ser
representados por um modelo polinomial conforme é mostrado na figura abaixo.

Exportações de carne de frango

y = 1.5329x3 - 25.198x2 + 157.04x + 79.16


2,500
R2 = 0.9914
2,000

1,500

1,000

500

-
1 2 3 4 5 6 7 8 9 10 11 12 13 14 15

1.2 Regressão Linear Simples

Este modelo é utilizado quando existe uma relação linear entre a variável independente
e a variável dependente (neste caso apenas uma). A função que expressa esse modelo
será dada pela forma abaixo:
34
32
Yi = b0 + b1 X i + ε ,
30
28
26
24
22
20
20 22 24 26 28 30

O gráfico acima é uma representação desse modelo. Verifica-se pelo mesmo que
nem todos os pontos tocam a reta, e essa diferença é o erro (ε ), que pode ter sido
ocasionado por um erro de leitura dos dados; uma venda abaixo do preço real de
mercado; uma produção abaixo do esperado por uma estiagem não comum; retração do
consumo por uma subida inesperada na taxa de juros; e assim vai.
Mas supõe-se que em média esses erros tendem a se anular, ou seja:
E( ε i ) = 0
Uma vez escolhido o modelo de regressão, deve-se estimar seus parâmetros, neste
caso os coeficientes da equação da reta, b0 , b1 . Isso pode ser feito a partir da aplicação
do Método dos Mínimos Quadrados.
Tirando a média sobre a equação acima, temos:
Y = b0 + b1 X
uma vez que a média dos erros é zero.

Prof. Cláudio Serra, Esp. 2


Subtraindo as duas equações temos:
Yi −Y = (b0 − b0 ) + (b1 )( X i − X ) + εi

Chamando de y e x as diferenças centradas nas médias, (Yi −Y ) e ( X i − X )


respectivamente, temos que:
y i = b1 xi + ε i

ou ainda,
ε i = y i − b1 xi

Fazendo a soma dos quadrados dos erros,


∑ ( ε i ) = ∑ ( yi − b1 xi )
2 2

∑(ε ) = ∑ y i2 − ∑ 2b1 xi y i + ∑ b12 xi2


2
i

como b1 é uma constante,


∑ ( ε i ) = ∑ yi2 − 2b1 ∑ xi yi + b12 ∑ xi2
2

Como o objetivo é estimar uma equação que minimize os erros, devemos então derivar
a equação acima em relação a b1 e igualar a zero. E como não se tem os verdadeiros
valores e sim uma amostra , ou seja o valor a ser determinado é um estimador do
verdadeiro valor populacional, a nova nomenclatura para b1 será b̂1 . Com isso temos:
0 = −2∑xi y i + 2bˆ1 ∑xi2

Que pode ser reescrita como:

bˆ1 =
∑ xi y i
∑xi2
E o estimador b̂o , pode ser calculado a partir de:
bˆo = Y − bˆ1 X

Sendo que a equação de estimativa será dada por:


Yˆ = bˆo + bˆ1 X

Prof. Cláudio Serra, Esp. 3


Exemplo 1 – Regressão Linear Simples

Em uma determinada região do país foram coletados os índices pluviométricos e


a produção de leite do tipo c. Sabendo- Produção de Leite Índice
se que existe uma previsão para o Anos C (1.000.000 pluviométrico
próximo ano de um índice litros) (mm)
pluviométrico de 24mm determine 1970 26 23
então a produção de leite dessa região. 1971 25 21
1972 31 28
1973 29 27
1974 27 23
1975 31 28
1976 32 27
1977 28 22
1978 30 26
1979 30 25
Resolução

Y X y x y2 x2 xy
1970 26 23 -2.9 -2 8.41 4 5.8
1971 25 21 -3.9 -4 15.21 16 15.6
1972 31 28 2.1 3 4.41 9 6.3
1973 29 27 0.1 2 0.01 4 0.2
1974 27 23 -1.9 -2 3.61 4 3.8
1975 31 28 2.1 3 4.41 9 6.3
1976 32 27 3.1 2 9.61 4 6.2
1977 28 22 -0.9 -3 0.81 9 2.7
1978 30 26 1.1 1 1.21 1 1.1
1979 30 25 1.1 0 1.21 0 0
Soma 289 250 0 0 48.9 60 48
Média 28.9 25 0 0 4.89 6 4.8

bˆ1 =
∑xi y i , assim bˆ = 48 = 0.8
∑xi2 1
60

e bˆo = Y − bˆ1 X , que bˆo = 28 ,9 − 0.8.25 = 8,9

Assim a equação pode ser escrita como:

Yˆ = 8.9 + 0.8 X

Prof. Cláudio Serra, Esp. 4


Mas será que a equação do exemplo foi bem estimada, ou melhor, será que ela
representa bem a relação entre as variáveis? Uma maneira de avaliar é através da
diferença entre os valores amostrais reais (Y) e os valores estimados ( Yˆ ), essa
diferença damos o nome de resíduo. Continuando o exemplo,

Continuação do exemplo 1

Y X y x y2 x2 xy Yˆ Y- Yˆ (Y- Yˆ )2
1970 26 23 -2.9 -2 8.41 4 5.8 27.3 -1.3 1.69
1971 25 21 -3.9 -4 15.21 16 15.6 25.7 -0.7 0.49
1972 31 28 2.1 3 4.41 9 6.3 31.3 -0.3 0.09
1973 29 27 0.1 2 0.01 4 0.2 30.5 -1.5 2.25
1974 27 23 -1.9 -2 3.61 4 3.8 27.3 -0.3 0.09
1975 31 28 2.1 3 4.41 9 6.3 31.3 -0.3 0.09
1976 32 27 3.1 2 9.61 4 6.2 30.5 1.5 2.25
1977 28 22 -0.9 -3 0.81 9 2.7 26.5 1.5 2.25
1978 30 26 1.1 1 1.21 1 1.1 29.7 0.3 0.09
1979 30 25 1.1 0 1.21 0 0 28.9 1.1 1.21
Soma 289 250 0 0 48.9 60 48 289 0 11
Média 28.9 25 0 0 4.89 6 4.8 28.9 0 1

Podemos perceber que as diferenças (Y- Yˆ ) são relativamente pequenas. Uma análise
mais cuidadosa pode ser feita através da aplicação de testes estatísticos, nesse caso
ANOVA (teste de variância) e teste t-Student.
Começaremos pela ANOVA, para tanto vamos precisar montar a tabela abaixo:

Tabela ANOVA
Soma dos Quadrados Graus de Liberdade (g.l.) Quadrados Médios (QM) Teste F
SQE= bˆ1 ∑ xi
2 2
1 SQE/g.l. SQEmed/SQRmed

∑ (Y − Ŷ )
2
SQR= n-2 SQR/g.l.

SQT= ∑ y
2
i n-1 SQE/g.l + SQR/g.l.
Obs: O grau de liberdade em relação ao SQE é devido a termos apenas uma variável independente; Em
relação a SQT, os graus devem ser iguais a variância amostral, ou seja, n-1 (onde n é o número da
elementos da amostra); E o grau de liberdade para SQR seria dado pela diferença entre este, ou seja n-2.

Onde,
Soma dos quadrados dos totais de y centrado
SQT = ∑ y i2

Soma dos quadrados explicados


SQE = ∑ Yˆi 2 = ∑ bˆ1 xi2 = bˆ1 ∑ xi2
2 2

Prof. Cláudio Serra, Esp. 5


Soma dos quadrados dos resíduos
(
SQR = ∑ Y −Ŷ ) 2

Um outro parâmetro utilizado constantemente é o coeficiente de determinação, R 2,


que explica percentualmente a relação entre as variáveis do problema.

SQE
R2 =
SQT

Continuação do exemplo 1 - ANOVA

Tabela ANOVA
Soma dos Quadrados Graus de Liberdade (g.l.) Quadrados Médios (QM) Teste F
SQE=38.4 1 38.4 27.83
SQR=11.0 8 1.38
SQT=49.4 7 7.06

Agora que já temos o valor de F, precisamos testar a hipótese nula que as variâncias são
diferentes, ou seja,
Ho = 1≠ 2

Adotaremos um nível de significância () de 5%. Com esse valor e os números de


graus de liberdade, acha-se na tabela um valor crítico de 5.32.

Como o F calculado é maior que o F crítico então se rejeita a hipótese Ho, o que
também quer dizer que as variâncias são iguais, e conseqüentemente o modelo de
regressão é válido.

Prof. Cláudio Serra, Esp. 6


Exemplo 2 – Resolução do Exemplo 1 via Excel

Resolução

A variável dependente (Y) será o índice


Produção de Leite x índice
pluviométrico, sendo a produção de leite Pluviométrico
tipo c a variável independente (X).
35
O gráfico dos dados do exemplo 1
30
pode ser visto ao lado. Pelo gráfico o 25
ajuste linear pode ser possível, mas talvez 20
20 22 24 26 28 30
um ajuste polinomial seria mais indicado,
mas de qualquer forma, será testado um
ajuste linear.
Será utilizada a ferramenta Regressão do
software Excel, que pode ser acionado pelo
seguinte caminho: Ferramenta ⇒ Análise de
Dados ⇒ Regressão.
Em “Intervalo Y de entrada:” devemos
selecionar na planilha o conjunto de células da
variável dependente. Por sua vez, em “Intervalo X
de entrada:” devemos selecionar na planilha o
conjunto de células da variável independente.
Nesta janela, também podemos selecionar as
opções relativas aos resíduos.
Uma vez selecionado as células, basta clicar no botão de “Ok” que serão gerados
os dados na planilha.

Para o exemplo em questão, podemos destacar das tabelas geradas, as seguintes


informações:

Na estatística padrão: R-quadadro = 0.7852


Na Anova: gl ⇒ total =9 F=29.25

Prof. Cláudio Serra, Esp. 7


E por fim: Interseção ⇒ 8.9 Variável X1 ⇒ 0.8
Assim a equação do modelo poderá ser escrita como:

Yˆ = 8.9 + 0.8 X 1i

O resultado é mostrado graficamente abaixo. Então para um índice de 24mm a


produção de leite seria de 28.1 milhões de litros de leite.
É importante ressaltar que o ajuste não foi tão bom, seria importante verificar
um novo modelo.

Uma outra maneira de fazer essa análise, porém sem as mesmas informações
seria utilizar o recurso de Adicionar Linha de Tendência... No menu Gráfico da barra de
menu do Excel.
Selecionado o modelo Linear, clicamos na aba “Opções” e marcamos as opções:
Exibir equação no gráfico e Exibir valor do R-quadrado no gráfico.

Não se esqueça, para inserir uma


Linha de tendência o gráfico deve
estar selecionado previamente.

Produção de Leite x índice


Pluviométrico y = 0.8x + 8.9
R2 = 0.7853
35
30
25
20
20 22 24 26 28 30

Prof. Cláudio Serra, Esp. 8


Exemplo 2 – Série Temporal da Produção de Carne de Frango no
Brasil (1989-2003)

De acordo com a Associação Brasileira de Exportadora dos Produtores e


Exportadores de Frango, ABEF, a produção brasileira de carne de frango (em
mil toneladas) para o mercado interno e externo no período de 1989 a 2003 é
dada pela tabela abaixo:

Ano Mercado Interno Exportação Total


1989 1,811 244 2,055
1990 1,968 299 2,267
1991 2,200 322 2,522
1992 2,351 372 2,727
1993 2,710 433 3,143
1994 2,930 481 3,411
1995 3,617 429 4,050
1996 3,483 569 4,052
1997 3,812 649 4,461
1998 4,262 612 4,875
1999 4,755 771 5,526
2000 5,070 907 5,977
2001 5,486 1,249 6,736
2002 5,917 1,600 7,517
2003 5,921 1,922 7,843

Fonte: ABEF - Associação Brasileira dos Produtores e Exportadores de Frangos


(www.abef.com.br).

Resolução
O primeiro passo para avaliar se os dados podem ser ajustados por um modelo
linear é plotar suas variáveis em um gráfico.

Prod.de carne de frango

10,000
8,000
6,000
4,000
2,000
-
0 5 10 15 20

Pelo gráfico percebe-se uma tendência que a relação entre a produção de carne
de frango (variável dependente, Y) e o tempo (variável independente, X) seja

Prof. Cláudio Serra, Esp. 9


dado por uma equação linear. Para determinar essa equação será utilizado o
software Excel.

No Excel será utilizada a ferramenta Regressão que é um módulo do Suplemento


Análise de Dados.

Acionando-se essa ferramenta, o passo seguinte será preencher a caixa de


diálogo da Regressão conforme os
dados.
Onde na opção Intervalo Y de
Entrada deverá ser colocado o valor
da variável dependente, e na opção
Intervalo X de Entrada, deverá ser
colocado os valores da variável
independente.

Prof. Cláudio Serra, Esp. 10


Após o preenchimento das caixas de diálogo basta pressionar o botão de Ok, e o
resultado aparecerá em uma nova planilha. A figura abaixo mostra o resultado
para o exemplo em questão.

Dessa planilha se destacam os seguintes valores:

Na estatística padrão: R-quadadro = 0.9687


Na Anova: gl ⇒ total =14 F=403.251
E por fim: Interseção ⇒ 1146,99 Variável X⇒ 416,30

Assim a equação do modelo poderá ser escrita como:

Yˆ = 1146,99 + 416,30 X 1i

Pode-se agora plotar os dados dos valores verdadeiros com os valores do


modelo.
Também se pode fazer prognóstico para valores futuros. Por exemplo, para o
ano de 2004 o modelo prevê uma produção de 7.807 toneladas de carne de
frango.

Regressão
Linear
10000.00
8000.00 Prod.Carne e
Frango
6000.00
4000.00
2000.00
0.00
1

13
11

15

Prof. Cláudio Serra, Esp. 11


Uma outra maneira de fazer essa análise, porém sem as mesmas informações
seria utilizar o recurso de Adicionar Linha de Tendência... no Menu Gráfico da
barra de menu do Excel.
Selecionado o modelo Linear, clica-se na aba Opções e marca-se as
opções: Exibir equação no gráfico e Exibir valor do R-quadrado no gráfico.

Não se esqueça, para inserir uma


Linha de tendência o gráfico deve
estar selecionado previamente.

Produção brasileira de carne de frango – milhões de toneladas


9

8 y = 416.3x + 1147
R2 = 0.9688
7

4
Milhões de toneladas

2
1989 1990 1991 1992 1993 1994 1995 1996 1997 1998 1999 2000 2001 2002 2003
Fonte: ABEF (www.abef.com.br). Ano

Prof. Cláudio Serra, Esp. 12


1.3 Regressão Linear Múltipla

Em algumas situações mais do que uma variável independente (X1,X2,...,Xn)


pode ser necessária para predizer o valor da variável independente (Y). O modelo
matemático para esse caso é dado abaixo:

Yi = b0 + b1 X i + b2 X 2i + ... + bk X ki + ε i

Que para as n observações poderá se escrito da forma:

Y1 = b0 + b1 X 1 + b2 X 21 + ... + bk X k 1 + ε1
Y2 = b0 + b1 X 2 + b2 X 22 + ... + bk X k 2 + ε 2
... ... ... ... ... ... ...
Yn = b0 + b1 X n + b2 X 2 n + ... + bk X kn + ε n

Que forma na realidade um sistema linear, que podermos escrever na forma de


matriz como:

Prof. Cláudio Serra, Esp. 13


Y1  1 X1 X2 Xk1  b1  ε 1
Y   1 X X X  b  ε 
2   2 2 k2  2   2 
= .+
 .  . . . .   .   .  . .
      
Y 3  1 Xn X2n Xk   bkn  ε k
Que escrevendo ainda em outra em sua forma mais compacta temos:
Y = bX + ε

O estimador para b será dado por:

bˆ = ( X ' X ) ( X 'Y )
−1

Pela equação acima, há necessidade que o produto X’X, tenha uma matriz
inversa, o que implica na condição obrigatória que nenhuma coluna da matriz X seja
combinação linear das outras.

Prof. Cláudio Serra, Esp. 14


Exemplo 3 – Manutenção do caminhão

Uma agroindústria quer saber o custo de manutenção de seus caminhões durante


o corrente ano, para tanto foram coletadas informações de quilometragem e
tempo do caminhão. A tabela abaixo nos mostra esses valores.

Custo de Quilometragem
Manutenção (x1000)

832 6
73 7
647 9
553 11
Resolução 467 13
373
Nesse caso será feito diretamente análise sem plotar o gráfico. O procedimento
15
283⇒ Regressão. No campo
no software Excel é: Ferramenta ⇒ Análise de Dados 17
Intervalo X de Entrada deve ser preenchida com a faixa de valores das variáveis
independentes, que nesse caso são a quilometragem189
e o tempo do caminhão. 18
96 19
Da planilha de resultados se destacam os seguintes valores:

Na estatística padrão: R-quadadro = 0.99


Erro padrão: 2.106
Na Anova: gl ⇒ total =8 F=56501.23
E por fim: Interseção ⇒ 17.73 Variável X1⇒ 4.06 e X2⇒ 98.507
Assim a equação do modelo poderá ser escrita como:

Yˆ = 17.73 + 4.06 X1i + 98.507 X 2i

Prof. Cláudio Serra, Esp. 15


Assim para um caminhão com 5 anos com quilometragem de 10.000 milhas, o
custo de manutenção será de $550.89.

1.4 Regressão Não Linear

Nem sempre a relação entre a variável independente (X) e a variável dependente


(Y) possui uma relação linear, em certos casos essa relação é não-linear.
A figura abaixo mostra algumas dessas formas. Nesses casos, pode-se através de
mudanças de variáveis resolver o problema utilizando basicamente as equações já
mencionadas nesse material. Para os interessados nesses procedimentos sugere-se a
leitura das referências indicadas no final do texto.
Para efeito de demonstração da Regressão-Linear será utilizado o Excel através
do seu recurso de Tendência, todavia conforme já mencionado, esse não dá informações
estatísticas sobre o ajuste.

Exemplo 4 – Série Temporal da Produção de Carne de Frango no


Brasil (1989-2003)

De acordo com a Associação Brasileira de Exportadora dos Produtores e


Exportadores de Frango, ABEF, a produção brasileira de carne de frango (em
mil toneladas) para o mercado interno e externo no período de 1989 a 2003 é
dada pela tabela abaixo:

Prof. Cláudio Serra, Esp. 16


Ano Mercado Interno Exportação Total
1989 1,811 244 2,055
1990 1,968 299 2,267
1991 2,200 322 2,522
1992 2,351 372 2,727
1993 2,710 433 3,143
1994 2,930 481 3,411
1995 3,617 429 4,050
1996 3,483 569 4,052
1997 3,812 649 4,461
1998 4,262 612 4,875
1999 4,755 771 5,526
2000 5,070 907 5,977
2001 5,486 1,249 6,736
2002 5,917 1,600 7,517
2003 5,921 1,922 7,843

Fonte: ABEF - Associação Brasileira dos Produtores e Exportadores de Frangos


(www.abef.com.br).

Resolução
Nesse exemplo será avaliada somente a produção para o mercado externo, o
gráfico que representa essa produção ao longo do ano pode ser visto logo
abaixo.

Produção para o mercado interno de carne de


frango

2,500

2,000

1,500
Dados reais
1,000

500

-
1 2 3 4 5 6 7 8 9 10 11 12 13 14 15

Analisando o gráfico acima, verifica-


se que o ajuste linear talvez não seja o
melhor modelo para representar esses
dados. Assim, escolhe-se dentre os
prováveis o modelo polinomial de 3o
grau.

Prof. Cláudio Serra, Esp. 17


Além disso, na aba Opções marca-se as caixas Exibir equação no gráfico e
Exibir valor de R-quadrado no gráfico.

Com isso feito o resultado pode ser visto na figura seguinte. Repare na qualidade
do ajuste, o valor do coeficiente de determinação foi de 0.99.

Produção para o mercado interno de carne de


frango

2,500

2,000 y = 1.5329x3 - 25.198x2 + 157.04x + 79.16


R2 = 0.9914
1,500 Dados reais
1,000 Ajuste Polinomial

Assim, pode-se então 500

estimar a produção para o -


1 2 3 4 5 6 7 8 9 10 11 12 13 14 15
mercado externo de carne
de frango para 2004. O
valor previsto por esse modelo é dá ordem de 2419.87, pelo site da ABEF
(www.abef.com.br) verificou-se que essa associação previa 2115, e a exportação
real em 2004 foi de 2470.

Prof. Cláudio Serra, Esp. 18


Rebanho bovino brasileiro – efetivo por estado
(Mil cabeças)
Regiões 1990 1991 1992 1993 1994 1995

Norte 13,317 15,362 15,847 17,067 17,966 19,183


RO 1,719 2,826 2,774 3,286 3,470 3,928
AC 400 404 409 445 465 471
AM 637 648 640 689 747 806
RR - 346 349 - 286 282
PA 6,182 6,626 6,990 7,435 7,539 8,058
AP 70 71 62 73 86 93
TO 4,309 4,441 4,624 5,139 5,374 5,544

Nordeste 26,190 26,669 26,912 22,527 22,825 23,174


MA 3,900 3,949 3,931 4,020 4,102 4,162
PI 1,974 2,046 2,029 1,982 2,054 2,135
CE 2,621 2,625 2,602 2,098 2,186 2,266
RN 956 966 930 566 646 722
PB 1,345 1,315 1,320 859 975 1,054
PE 1,966 1,952 1,923 1,271 1,349 1,362
AL 891 961 959 802 822 834
SE 1,030 1,047 1,058 908 815 797
Prof. Cláudio Serra, Esp. 19
BA 11,505 11,808 12,160 10,022 9,877 9,841