Yi 0 1 X i1 ... p 1 X i , p 1 i
1) Modelo polinomial:
Yi 0 1 X i1 2 X i
2
i1
log10 Yi 0 1 X i1 2 exp( X i 2 ) i
Os modelos lineares, podem ser escritos, na forma:
Yi f (X i , ) i
Onde Xi o vetor de observaes das variveis preditoras para o i-simo
caso:
1
X
i1
Xi
X i , p 1
o vetor dos parmetros, e f(Xi,) representa o valor esperado E(Yi), o qual
para o modelo linear :
'
f ( X i , ) Xi
Yi f ( Xi , ) i
f(Xi, ) uma funo no linear; os erros, i, tem mdia zero, varincia
constante, e no so correlacionados. Assume-se que os erros apresentam
distribuio normal, so independentes e com varincia constante. o vetor
de parmetros do modelo.
Dois exemplos de modelos no lineares.
1) Modelo exponencial
Yi 0 exp( 1 X i ) i (1)
f
0
exp( 1X)
f
1
0 Xexp( 1X)
Yi 0 1 exp( 2 X i ) i
(2)
Veja figura.
Scatterplot
y:=100-50*exp(-2*x)
110
100
E(X)
90
80
70
60
50
0,0
0,5
1,0
1,5
2,0
2,5
3,0
3,5
2) Modelo logstico
Yi
0
1 1 exp( 2 X i )
(3)
0
1 1 exp( 2 X i )
f ( X, )
y:=10/(1+20*exp(-2*x))
12
10
E(Y)
8
6
4
2
0
-2
-0,5
0,0
0,5
1,0
1,5
X
2,0
2,5
3,0
3,5
O modelo logstico
muito usado para
variveis qualitativas.
Exemplo: acertos na
cache (acerta/no
acerta). Neste caso, os
erros no tem mais
distribuio normal
com varincia
constante.
Yi f ( X i , ) i
X i1
X
i2
Xi .
( q x 1)
.
X iq
(4)
0
1
.
(p x 1)
.
p 1
Exemplo
Um administrador de um hospital deseja ajustar um modelo de regresso para
estimar o tempo de recuperao depois que o paciente saiu do hospital devido
a uma doena grave. A varivel preditora o nmero de dias que o paciente
ficou hospitalizado (X), e a varivel resposta um ndice de prognstico para
o tempo de recuperao (Y), onde, valores grandes indicam um bom
prognstico. A seguir temos os dados e o diagrama de disperso:
10
Prognstico (ndice)
Yi
54
50
45
37
35
25
20
16
18
13
8
11
8
4
6
11
Scatterplot
60
Prognstico (ndice)
50
40
30
20
10
0
-10
10
20
30
40
50
60
70
Dias hospitalizado
Yi 0 exp( 1 X i ) i
Onde os i so os termos dos erros, independentes, com distribuio normal de
mdia 0 (zero) e varincia 2 (constante). Precisamos estimar os parmetros 0
e 1 .
12
Q (Yi f ( X i , )) 2
(5)
i 1
13
f ( X , ) 0 exp( 1 X )
Q (Yi 0 exp( 1 X i ))
i 1
1
1
L( , 2 )
exp
2 2
( 2 2 ) n / 2
exp(
X
)
i 0
1 i
i 1
14
Yi f ( X i , ) i
Precisamos minimizar o critrio Q
n
Q (Yi f ( X i , )) 2
i 1
k i 1
15
f ( X i , )
Yi
i 1
k
i 1
f ( X i , )
f ( X i , g)
(6)
g p -1
16
f ( X i , ) 0 exp( 1 X i )
Y exp( g X ) g exp(2 g X ) 0
Y X exp( g X ) g X exp(2 g X ) 0
i
17
18
f ( X i , )
f (Xi , ) f (Xi , g )
k 0
k
( 0)
p 1
( k g k( 0) )
(7)
g(0 )
Aqui g(0) o vetor dos valores iniciais dos parmetros. Observe que as
derivadas, assim como a f, so avaliadas em k=gk(0).
Fazendo-se:
f i 0 f ( X i , g (0) )
k( 0 ) ( k g k( 0 ) )
f ( X i , )
Dik( 0 )
(7.A)
g ( 0 )
19
f ( X i , ) f i ( 0 ) Dik( 0 ) k( 0 )
(8)
k 0
Yi f ( X i , ) i
dada por:
p 1
Yi f i ( 0 ) Dik( 0 ) k( 0 ) i
(9)
k 0
Passando fi(0) para o lado esquerdo e, denotando a diferena Yi- fi(0) por Yi(0),
p 1
temos:
Yi ( 0 ) Dik( 0 ) k( 0 ) i
i 1,2,...,n
(10)
k 0
20
Y ( 0 ) D( 0 )( 0 )
Y( 0)
nx1
Y1 f1( 0 )
( 0)
Yn f n
D( 0 )
nxp
(11)
( 0)
( 0)
Dn 0 ... Dn , p 1
21
0( 0 )
.
(0)
( p x 1)
.
.
(0)
p 1
1
.
.
( n x 1)
.
n
Y X
A matriz D faz o papel da matriz X:
DX
Podemos, portanto, estimar os parmetros (0) pelo mtodo de mnimos
quadrados ordinrios:
22
g k(1) g k( 0) bk( 0)
Onde gk(1) representa a estimativa corrigida de k no fim da primeira iterao.
Na forma matricial, temos:
g(1) g ( 0) b ( 0)
(11.A)
Neste ponto, ns podemos verificar se os coeficientes de regresso corrigidos
representam uma melhoria na direo apropriada. Denotaremos o critrio Q,
calculado nos coeficientes de regresso iniciais g(0), por SQE(0), ou seja,
SQE
(0)
(Yi f ( Xi , g )) (Yi f i ( 0) ) 2
i 1
(0)
i 1
23
SQE
(1)
(1)
i 1
Se o algoritmo de Gauss-Newton est na direo correta, SQE (1) dever ser menor
do que SQE(0), pois os coeficientes de regresso no passo (1) devero ser melhores.
O mtodo de Gauss-Newton repete o procedimento como foi descrito, com g(1)
sendo, agora, usado como valores iniciais. Isto resulta num novo conjunto de
estimativas corrigidas, representadas por g(2), e teremos um novo critrio SQE(2). O
processo iterativo continua at que as diferenas entre sucessivas estimativas dos
coeficientes g(s+1)-g(s) e/ou a diferena entre sucessivas soma de quadrados de erros
SQE(s-1)-SQE(s) tornam-se desprezveis. As estimativas finais dos coeficientes de
regresso so representadas por g e a soma de quadrado dos erros por SQE.
24
indice;
54.000
50.000
45.000
37.000
35.000
25.000
20.000
16.000
18.000
13.000
8.000
11.000
8.000
4.000
6.000
ln Y ln 0 1 X
25
Output do SAS:
Non-Linear Least Squares Iterative Phase
Method: Gauss-Newton
Iter
A
B
Sum of Squares
0
56.664600
-0.037970
56.086713
1
58.557844
-0.039533
49.463830
2
58.605484
-0.039585
49.459304
3
58.606531
-0.039586
49.459300
4
58.606565
-0.039586
49.459300
NOTE: Convergence criterion met.
Non-Linear Least Squares Summary Statistics
Source
DF Sum of Squares
Mean Square
Regression
Residual
Uncorrected Total
2
13
15
12060.540700
49.459300
12110.000000
6030.270350
3.804562
(Corrected Total)
14
3943.333333
Parameter
A
B
Estimate
Asymptotic
Std. Error
58.60656517
-0.03958645
1.4721603058
0.0017112939
Asymptotic 95 %
Confidence Interval
Lower
Upper
55.426158088 61.786972243
-0.043283475 -0.035889427
26
Scatterplot
y:=58,6065*exp(-0,03959*x)
110
90
ndice
70
50
30
10
-10
-10
10
20
30
40
50
60
70
Dias
SQErro
49, 4593
r 2 1 SQTotal
0,9875 98,78%
Corrigdo
3943,333
27
Yi 0 exp( 1 X i ) i
log Yi log 0 1 X i
Yi ' 0 1 X i i
onde :
Yi ' log Yi
0 log 0
1 1
28
b0=4,0371
b1=-0,03797
g 0( 0) exp(b0 ) 56,6646
g1( 0) b1 0,03797
29
f ( X, ) 0 exp( 1 X i )
(12)
para cada caso, utilizando os valores iniciais. Por exemplo, para o primeiro
caso, onde X1=2, obtemos:
f(0) =
52.520821
46.866338
/* valores iniciais */
43.439088
38.76236
33.300409
27.542208
21.11386
17.462918
15.58283
13.387075
10.262533
7.8672587
7.574139
5.8063357
4.8023226
g00=56.6646; g10=-0.03797;
X2=X[1:15,2];
/* funcao de regresso
*/
f=g00*exp(g10*X2);
30
Y =
(0)
1.4791792
3.133662
1.5609122
-1.76236
1.6995911
-2.542208
-1.11386
-1.462918
2.4171698
-0.387075
-2.262533
3.1327413
0.425861
-1.806336
1.1976774
Y0=Y-f;
/* soma de quadrados do erro no
passo zero */
SQE0=Y0`*Y0;
31
D(0) =
0.9268718
0.8270832
0.7666001
0.6840666
0.5876757
0.4860567
0.3726111
0.3081804
0.2750011
0.2362511
0.1811101
0.138839
0.1336662
0.1024685
0.08475
105.04164
234.33169
304.07361
387.6236
466.20573
523.30196
548.96035
541.35047
529.81623
508.70884
461.81398
409.09745
401.42937
348.38014
312.15097
32
1.893244
-0.001563
b0=inv(D0`*D0)*D0`*Y0;
0,001563
0,03797
58,5578
- 0,03953
33
*/
SQE
(1)
(1) 2
(Yi f i )
i 1
= 49.46383
f1=g1[1,1]*exp(g1[2,1]*X2);
Y1=Y-f1;
/* soma de quadrados do erro na iteracao 1 */
SQE1=Y1`*Y1;
Observe que houve uma reduo nas somas de quadrados dos resduos.
Continuao do exerccio: Faa as prximas trs iteraes, verifique se foi
encontrado o critrio de convergncia ((SQE(s)-SQE(s-1)) <0,0001) e escreva o
modelo.
34
proc iml;
reset print;
Y={54, 50, 45, 37, 35, 25, 20, 16, 18, 13, 8, 11, 8, 4, 6};
X={1 2, 1 5, 1 7, 1 10, 1 14, 1 19, 1 26, 1 31, 1 34, 1 38, 1 45, 1 52, 1 53, 1 60, 1 65};
YT=log(Y);
XLX=X`*X;
XLXinv=inv(xlx);
b=XLXinv*x`*yt;
/* valores iniciais */
g00=56.6646; g10=-0.03797;
X2=X[1:15,2];
f=g00*exp(g10*X2);
Y0=Y-f;
/* soma de quadrados do erro no passo zero */
SQE0=Y0`*Y0;
/* derivadas parciais calculadas em g(0)
*/
D0_0=exp(g10*X2);
D1_0=g00*X2#exp(g10*X2);
D0=D0_0||d1_0;
b0=inv(D0`*D0)*D0`*Y0;
/* novas estimativas corrigidas - iteracao 1 */
g0=g00//g10;
g1=g0+b0;
f1=g1[1,1]*exp(g1[2,1]*X2);
/* residuos da iteracao 1 */
Y1=Y-f1;
/* soma de quadrados do erro na iteracao 1 */
SQE1=Y1`*Y1;
/*********************fim da iteracao 1 ****************/
35
*/
D0_1=exp(g1[2,1]*X2);
D1_1=g1[1,1]*X2#exp(g1[2,1]*X2);
D1=D0_1||d1_1;
/* estimativas corrigidas na iteracao 2 */
b1=inv(D1`*D1)*D1`*Y1;
/* novas estimativas corrigidas - iteracao 2 */
g2=g1+b1;
f2=g2[1,1]*exp(g2[2,1]*X2);
/* residuos da iteracao 2
*/
Y2=Y-f2;
/* soma de quadrados do erro na iteracao 2 */
SQE2=Y2`*Y2;
/***********fim da iteracao 2 *******************/
36
*/
*/
*/
*/
37
Comentrios:
1) A escolha das estimativas iniciais no mtodo de Gauss-Newton muito
importante, pois uma m escolha pode resultar num nmero muito grande de
iteraes at convergir; pode convergir num mnimo local, ou, mesmo, no
convergir. Bons valores iniciais pode levar a um mnimo global, quando existir
vrios mnimos locais.
SQE
b(0)
b(1)
38
39
Estimativa de 2
SQE
QME
n p
(Y Y )
i
n p
(Y f ( X , g))
n p
E( g)
(13)
40
41
42
gk k
~ t ( n p ) k 0,1,2,..., p - 1
s( gk )
(14)
Onde t(n-p) a varivel com distribuio t com (n-p) graus de liberdade. De (14)
obtemos:
g k t (1 / 2; n p ) s( g k )
t (0.975;13) 2,160
g1 0,03959
s( g1 ) 0,00171
0,0433 1 0,0359
43
Teste de hipteses
H0 : k k0
Ha : k k0
gk k 0
t
s( gk )
*
Regra de deciso:
H 0 : 0 54
H a : 0 54
44
t*
O valor p :
58,6065 54
3,13
1,472
45