2009
Orientador
Prof. Dr. Mrio Javier Ferrua Vivanco
Co-orientador
Prof. Dr. Fortunato Silva de Menezes
LAVRAS
MINAS GERAIS-BRASIL
2009
CDD 536.73
UFLA
UFLA
UFSJ
LAVRAS
MINAS GERAIS - BRASIL
" If you have an apple and I have an apple and we exchange apples
then you and I still have one apple.
But if you have an idea and I have an idea and we exchange these ideas,
then each of us will have two ideas."
George Bernard Shaw
AGRADECIMENTOS
SUMRIO
LISTA DE TABELAS . . . . . . . . . . . . . . . . . . . .
LISTA DE FIGURAS . . . . . . . . . . . . . . . . . . . .
ii
RESUMO . . . . . . . . . . . . . . . . . . . . . . . .
iii
ABSTRACT . . . . . . . . . . . . . . . . . . . . . . .
iv
INTRODUO . . . . . . . . . . . . . . . . . . .
REFERENCIAL TERICO . . . . . . . . . . . . . .
2.1
Modelos . . . . . . . . . . . . . . . . . . . . . .
2.2
Informao . . . . . . . . . . . . . . . . . . . . .
2.2.1
A informao de Kullback-Leibler . . . . . . . . . . . . .
15
2.2.2
Entropia . . . . . . . . . . . . . . . . . . . . . .
18
18
21
2.2.3
A funo de verossimilhana . . . . . . . . . . . . . . .
32
2.2.4
35
39
3.1
40
3.2
42
3.3
49
51
4.1
Os dados . . . . . . . . . . . . . . . . . . . . . .
51
4.2
51
4.3
60
4.4
62
4.4.1
62
4.4.2
64
CONCLUSES . . . . . . . . . . . . . . . . . . .
66
ESTUDOS FUTUROS . . . . . . . . . . . . . . . . .
67
REFERNCIAS BIBLIOGRFICAS
ANEXOS
. . . . . . . . . . . . .
68
. . . . . . . . . . . . . . . . . . . . . . . .
70
LISTA DE TABELAS
65
72
73
LISTA DE FIGURAS
Representao grca das distribuies Gama(4,4) - linha contnua - e Weibull(2,20) - linha pontilhada . . . . . . . . . . . . . .
29
Representao grca das distribuies Gama(4,4) - linha contnua - e Inversa Gaussiana(16,64) - linha pontilhada . . . . . . . .
29
29
29
76
ii
RESUMO
Emiliano, Paulo Csar. Fundamentos e Aplicaes dos Critrios de Informao: Akaike e Bayesiano. 2009. 92p. Dissertao (Mestrado em Estatstica e
Experimentao Agropecuria) - Universidade Federal de Lavras, Lavras. *
Objetivou-se com este estudo apresentar os fundamentos do critrio de informao
de Akaike (AIC) e do critrio de informao Bayesiano (BIC), amplamente utilizados na seleo de modelos, e geralmente pouco entendidos. A seleo de modelos
de vital importncia em estudos cientcos, devendo portanto estar embasada em
princpios cientcos concretos, como a parcimnia. O AIC e o BIC so critrios
que penalizam a verossimilhana, para que um modelo mais parcimonioso seja
selecionado. Estes critrios baseiam-se nos conceitos de informao e entropia,
que so fundamentais para o completo entendimento dos mesmos. Procurou-se
explicar tais conceitos para que o entendimento desses critrios fosse completo.
Tambm foram dadas duas aplicaes do AIC e BIC, em regresso e na seleo
de modelos normais. Os resultados obtidos ao utilizar-se os dois critrios foram
os mesmos para as duas aplicaes feitas, e embora os mesmos modelos tenham
sido selecionados, o AIC e o BIC no necessariamente proporcionam os mesmos
resultados.
Palavras-chave: Critrio de Informao de Akaike, Entropia, Critrio de Informao de Schwarz, Informao de Kullback-Leibler, Seleo de Modelos.
Comit Orientador: Mrio Javier Ferrua Vivanco - UFLA (Orientador), Fortunato Silva de
Menezes (Co-orientador)
iii
ABSTRACT
Emiliano, Paulo Csar. Fundamentals and Applications Criteria for Information: Akaike and Bayesian. 2009. 92p. Dissertation (Master in Statistics and
Agricultural Experimentation ) Federal University of Lavras, Lavras.*
This study presented the foundations of the Akaike Information Criterion (AIC)
and the Bayesian Information Criterion. (BIC), largely used in the selection of
models, and usually little understood. The selection of models is essential in scientic studies, consequently, it should be based on solid scientic foundations, as
the parsimony. The AIC and BIC are criteria that punish the likelihood, so that
a more parsimonious model is selected. These criteria are based on concepts of
information and entropy, that are fundamental for their complete understanding. It
was tried to explain such concepts in order to make the understanding of these criteria complete and clear. Two applications of AIC and BIC were Also given, both
in regression and in the selection of normal models. The results obtained when
using the two methods were the same for the two done applications. But although
the same models have been selected -AIC and BIC- they do not necessarily provide
the same results.
Key-words: Akaike Information Criterion, Bayesian Information Criterion, Entropy, Kullback-Leibler Information, Model Selection.
Guindance Committee: Mrio Javier Ferrua Vivanco - UFLA. (Adviser), Fortunato Silva de
Menezes - UFLA. (Co-Adviser)
iv
INTRODUO
Muitas pessoas tm o dom da cincia, so cientistas e tentam entender os fenmenos que h muito intrigam os homens. Porm, a maioria da populao no estuda estes fenmenos, seja porque os acha complicados demais ou porque no tm
acesso informao para entend-los. Cabe, pois, aos cientistas levar a informao
e explicar os fenmenos a estas pessoas da forma mais simples possvel.
Em geral um fenmeno em estudo pode ser explicado atravs de um modelo.
Os modelos so os principais instrumentos utilizados na estatstica. Eles so uma
verso simplicada de algum problema ou situao da vida real e destinam-se a
ilustrar certos aspectos do problema, sem contudo, se ater a todos os detalhes.
Geralmente os fenmenos observados so muito complexos e impraticvel
descrever tudo aquilo que observado com total exatido. Dicilmente conseguese traduzir em simbologias e frmulas matemticas aquilo que visto com perfeita
exatido. Se isto for possvel, deve-se ao fato do fenmeno ser perfeitamente
conhecido e um modelo determinstico o explica. Um modelo determinstico
estabelecido quando tudo relacionado ao fenmeno em estudo conhecido, e por
isso ele , exatamente o mecanismo de gerao dos dados obtidos no estudo.
Mas em situaes prticas o total conhecimento do fenmeno no acontece,
o que torna impossvel descrever o mesmo atravs de um modelo determinstico.
Faz-se uso ento dos modelos estatsticos, aqueles em que h uma parte sistemtica e outra parte aleatria, como por exemplo, os modelos lineares generalizados.
Neste tipo de modelo, no se pode determinar quais dados sero obtidos antecipadamente, mas o conjunto do qual os resultados so obtidos usualmente conhecido. Ao se aproximar um fenmeno por um modelo probabilstico, haver perda
de informao ao fazer-se tal modelagem, sendo que esta perda deve ser mnima
REFERENCIAL TERICO
Nesta seo, sero apresentados alguns conceitos que sero teis para atingir
o objetivo proposto neste trabalho.
2.1
Modelos
Em estudos nas mais diversas reas, tais como cincias sociais, epidemiologia,
zootecnia, etc, h vrios aspectos que so no determinsticos. Assim sendo, modelos puramente matemticos no so adequados para modelar esse tipo de estudo.
Um caminho para a modelagem de fenmenos no determinsticos so os modelos
probabilsticos.
De acordo com Stevenson (2001), um modelo uma verso simplicada de
algum problema ou situao da vida real destinado a ilustrar certos aspectos do
mesmo sem levar em conta todos os detalhes. Alm disso, o modelo permite checar
se sua forma funcional est representando bem o fenmeno em estudo, sem porm
deixar de levar em conta o conhecimento do pesquisador acerca do assunto.
Para fenmenos complexos* , bastante raro ter s um modelo plausvel, mas
vrios para escolher um dentre eles. Em tais situaes, a seleo do modelo se
torna um problema fundamental. Porm Ghosh & Samanta (2001), armam que
para muitos cientistas, modelos so sinnimos de paradigmas. Assim, o problema
de escolher um modelo s aparece quando aquela cincia estiver nas encruzilhadas. Por exemplo, quando fsicos tinham que escolher entre a gravitao na Teoria
Clssica de Newton e a gravitao na Teoria da relatividade de Einstein.
Na estatstica clssica, normalmente a seleo de modelos feita na fase de
anlise exploratria dos dados. Uma anlise cuidadosa de dados deve sempre con* Aqueles
em que h muitas variveis interferindo no modelo, sendo estas muitas das vezes
desconhecidas
2- Trabalhando Hipteses
A seleo de modelos traduz-se em testar para os dados em mos uma srie de
modelos plausveis.
3- O poder da evidncia
D uma indicao de qual modelo o melhor entre os modelos testados, e o poder
do teste para cada modelo.
Conforme Mazerolle (2004), seria ingnuo esperar que os melhores resultados
incluam todas as variveis no modelo. Isto viola o princpio cientco fundamentado na parcimnia, que requer que dentre todos os modelos que expliquem bem
os dados, deve-se escolher o mais simples. Assim, deve-se conciliar um modelo
mais simples, mas que explique bem o fenmeno em estudo.
Segundo Konishi & Kitagawa (2008), uma vez que o conjunto de possveis
modelos foi selecionado, a anlise matemtica permite determinar o melhor destes
modelos. O signicado de melhor controverso. Uma boa tcnica de seleo
de modelos equilibrar qualidade do ajuste e complexidade. Modelos mais complexos podero melhor adaptar sua forma para ajustar-se aos dados (por exemplo,
um polinmio de quinta-ordem pode ajustar exatamente seis pontos), mas muitos
parmetros podem no representar nada til ou explicvel.
De acordo com Mazerolle (2004), a qualidade do ajuste geralmente determinada usando-se razo de verossimilhanas ou uma aproximao dela, conduzindo
a um teste qui-quadrado. A complexidade geralmente medida contando o nmero de parmetros inclusos no modelo. Entretanto, antes de se construir modelos
(por exemplo, um modelo de regresso linear ou qualquer outro modelo generalizado) deve-se ter em mente que no existem modelos verdadeiros. Tem-se apenas
modelos aproximados da realidade. O que se faz ento minimizar a perda de
informaes. George Box fez uma famosa armativa acerca disso: Todos os modelos so errados, mas alguns so teis1 .
2.2
Informao
A palavra informao vem do latim informare, dar forma, pr em forma
ou aparncia, criar, representar, apresentar, criar uma idia ou noo, algo que
colocado em forma, em ordem. Como se pode ver, informao um termo
altamente polissmico (que tem vrios signicados) (Ribeiro, 2008).
Segundo Ribeiro (2008), a teoria da informao um ramo do conhecimento
humano cujos objetivos envolvem a conceituao matemtica do termo informao
e a construo de modelos capazes de descrever os processos de comunicao. O
artigo A Mathematical Theory of Communications, publicado por Claude Shannon em 1948, lanou as bases para a moderna teoria das comunicaes Shannon
(1948), apud Ribeiro, (2008). Qualquer processo de comunicao envolve transferncia de informao entre dois ou mais pontos. Segundo Fernandes & Azevedo
(2006), o problema fundamental das comunicaes o de reproduzir em um ponto,
exatamente ou aproximadamente, uma mensagem selecionada em um outro ponto.
De acordo com Shannon (1948) apud Ribeiro (2008), um sistema de comunicao consiste de 5 partes:
1- Uma fonte de informao que produz uma mensagem ou seqncia de mensagens a serem comunicadas ao terminal receptor;
2- Um transmissor (codicador) que opera na mensagem de modo que esta
possa ser transmitida sobre o canal;
3- Um canal que o meio pelo qual a informao ser transmitida. Este meio
1
Traduo nossa. All models are wrong but some are useful(Draper & Smith, 1998)
Se, por exemplo, houver o evento X=O sol nasce, a resposta pergunta O
sol nascer hoje? no traz nenhuma informao; entretanto, se fez a pergunta O
Cruzeiro ser o campeo mundial de 2009? Como isso pouco provvel, uma
resposta positiva a essa pergunta oferece uma quantidade de informao muito
maior que divulgar uma resposta negativa. Assim, eventos improvveis contm
mais informaes do que os eventos mais provveis (Ribeiro, 2008).
De acordo com Fernandes & Azevedo (2006), a teoria da informao de Shannon apropriada para medir incerteza sobre um espao desordenado, isto , ela
til para analisar variveis qualitativas nominais, tais como sexo, raa, etc., pois
no possvel uma ordenao dos seus resultados. Neste sentido no possvel
denir uma distncia entre os elementos do espao, tais como a distncia entre o
sexo masculino e o sexo feminino.
A noo de distncia, acima referida, pode ser entendida a partir da seguinte
denio (Domingues, 1982):
Denio 2.1 Dado um conjunto M = seja d : M M R+ e indique-se
por d(x, y) a imagem de um par genrico (x, y) M M , atravs da funo d.
Diz-se que d uma distncia sobre M se as seguintes condies se vericam:
d(x, y) = 0 x = y, x, y M
(2.1)
(2.2)
(2.3)
10
formao foi criada por Fisher, para medir incerteza sobre um espao ordenado,
isto , a informao de Fisher pode ser usada para variveis qualitativas ordinais
que permitem uma ordenao dos seus resultados (tais como conceitos nais em
uma disciplina, peso de pessoas, etc.). Para informao sobre valores de parmetros contnuos, como as alturas de pessoas, a informao de Fisher usada, j que
tamanhos estimados tm uma distncia bem denida.
Conforme Bolfarine & Sandoval (2000), a informao de Fisher assim denida:
Denio 2.2 A quantidade
IF () = E
log (f (X|))
log L (|X)
= nIF () ,
em que log L (X|) a funo de log verossimilhana, que ser denida em 2.21.
Sabendo como a informao gerada, como se pode medir quanta informao produzida? Como quanticar uma determinada mensagem recebida? Com
propsito de responder estas perguntas considere-se a situao abaixo descrita em
Silva (2008):
Exemplo
11
Probabilidade
Limpo
0.65
Nublado
0.20
Chuvoso
0.10
Nevoeiro
0.05
Cdigo
Limpo
00
Nublado
01
Chuvoso
10
Nevoeiro
11
=
i=1
2
gi
1=
fi
(fi gi )2
.
fi
i=1
f (x)
g (x)
dx.
I (g; f ) =
g (x)
f (x)
1 g (x) dx.
13
(2.4)
u (t(x))g (x) dx =
g (x)
g (x) dx,
f (x)
(2.5)
g (x)
.
f (x)
|g (x) f (x)|dx.
I (g; f ) = Eg log
g (X)
f (X)
g (x) log
g (x)
f (x)
dx,
(2.6)
=
=
L Hospital
lim
1 g (x) dx
g (x)
f (x)
g (x) lim
1 g (x) dx
g (x)
f (x)
g (x) lim
g (x) ln
g (x)
f (x)
g (x)
f (x)
g (x)
f (x)
ln
dx
g (x)
f (x)
dx
dx = I (g; f ) .
Alm disso, se em (2.5), tomar-se u(x) = log(x) encontrar-e- tambm a informao de Kullback-Leibler, isto , ela um caso especial da divergncia. De fato:
D (g; f ) =
2.2.1
g (x)
g (x) dx =
f (x)
log
g (x)
g (x) dx = I (g; f ) .
f (x)
A informao de Kullback-Leibler
1
pi
15
= log (pi ) ,
(2.7)
1
M,
1
p(si ) ,
bits
p(ai ) = 1.
i=1
1
A ocorrncia do smbolo ai signica a gerao de I(ai ) = log2 p(ai ) bits de
16
informao.
Como exemplo considere o arremesso de uma moeda em que P (cara) =
1
4
3
P (coroa) = 4 . Assim o contedo da informao :
I (cara) = log2
1
4
3
4
= 0, 41bits.
I(X) = K
pi log pi
i=1
A funo H =
2.2.2
Entropia
18
dQ
T
.
rev
Wi
Wj
(2.8)
p(x)
q(x)
20
(2.9)
Conforme Nussenzveig (1981), como fundador da Mecnica Estatstica (Huang, 1987), Boltzmann props sucessivas explicaes para o fenmeno do calor,
baseadas em uma abordagem probabilstica.
Segundo Halliday et al. (1996), medida que um sistema torna-se mais desorganizado a nvel molecular, as posies das suas molculas tornam-se menos
previsveis e a sua entropia aumenta . Por isso, a entropia da fase slida mais
baixa do que a das outras fases pois, nos slidos, as molculas oscilam em torno
de posies de equilbrio, no podendo mover umas relativamente s outras e, em
qualquer momento, as suas posies so previsveis com uma certa preciso. Na
fase gasosa as molculas movem-se ao acaso, colidindo umas com as outras, mudando de direo, o que torna extremamente difcil prever, com alguma preciso, o
estado microscpico ou congurao molecular de um gs. Associado a este caos
molecular est um elevado valor da entropia.
2.2.2.2
Segundo Chakrabarti & Chakrabarty (2007), um dos desdobramentos mais ricos e polmicos do conceito probabilstico de entropia desenvolvido por Boltzmann foi sua extenso ao campo da Teoria da Informao. Quando a informao
de ordem j transmitida, a informao transportada Ij = log2 Pj bits, conforme a expresso (2.7), mas em geral transmiti-se no somente um smbolo, e sim
um conjunto deles (mensagem). Assim, tem-se a informao mdia associada aos
n smbolos transportados.
Para medir a quantidade de informao, Shannon criou o conceito estatstico
de entropia, que diferente do conceito homnimo encontrado em termodinmica.
Porque esta denominao foi escolhida? Segundo Vicki (2007) ao que parece,
foi o matemtico norte-americano de origem hngara, John Von Neumann, quem
21
sugeriu este termo. Teria dito, ironicamente, deve cham-la de entropia por
duas razes: primeiro, porque essa mesma funo matemtica j utilizada em
termodinmica, com esse nome; segundo, e mais importante, porque pouca gente
sabe realmente o que entropia e, se usar esse termo numa discusso, sair sempre
ganhando.
De acordo Mackay (2005) a entropia denida como :
Denio 2.5 A mdia ponderada das auto-informaes por sua probabilidade
de ocorrncia o que chamamos de entropia, isto :
n
pi Ipi =
H(X) =
i=1
pi log pi
(2.10)
i=1
H(X) =
pi log pi = E [log pi ] .
i=1
Este conceito de entropia til para medir a quantidade de informao transmitida por uma fonte.
Segundo Wiener (1970) apud Martins (1995), referindo-se a uma sugesto de
J. Von Neumann e abstraindo o sinal de negativo, N. Wiener props uma extenso
do conceito para distribuies contnuas, e deniu:
Denio 2.6 Seja uma varivel aleatria X, contnua, real e centrada (mdia
zero) com uma funo de densidade de probabilidade g (x). A entropia denida
por
HE = log
g (x)
f (x)
22
(2.11)
23
1
= 1bit;
2
1
= 2bits;
4
1
= 3bits;
8
1
= 3bits.
8
pi log pi = 1
1
1
1
1
+ 2 + 3 + 3 = 1, 75bit,
2
4
8
8
ou seja, 1,75 smbolos por bits. Pode-se codicar cada um dos quatro smbolos
por um nmero de dgitos binrios igual sua quantidade de informao. Por
exemplo:
A = 0;
C = 10;
G = 110;
T = 111.
24
14
8
Um cdigo como o exemplicado acima chamado de cdigo de ShannonFano (Cover & Thomas, 1991). Esse cdigo tem a propriedade de que pode ser
decodicado sem precisar de espaos entre os smbolos.
Com o conceito de entropia pode-se denir a quantidade de informao transmitida e os limites timos de compresso dessa informao (Mackay, 2005). Em
1948, o cabo eltrico de banda mais larga ento existente podia transmitir 1.800
conversas telefnicas simultneas. Vinte e cinco anos mais tarde, um cabo telefnico podia transmitir 230.000 conversas simultneas. Hoje, uma nova bra tica
com a espessura de um cabelo humano, pode comportar 6, 4 milhes de conversas.
No entanto, mesmo com esta largura de banda, os limites tericos de capacidade
de canal determinados por Shannon esto muito aqum dos praticados. Os engenheiros sabem que ainda h muito que melhorar.
Sejam Xn = {x1 , x2 , ..., xn } um conjunto de n observaes independentes
amostradas aleatoriamente de uma distribuio (modelo) de probabilidades desconhecida g(x) (verdadeiro modelo, do qual retiramos nossos dados), e seja f (x) um
modelo arbitrrio especicado. O que se quer avaliar a qualidade do ajuste ao se
aproximar o modelo g(x) pelo modelo f (x).
A informao de Kullback-Leibler quantica essa perda de informaes (Konishi & Kitagawa, 2008):
Denio 2.7 A Informao de Kullback-Leibler denida por:
+
g (y)
f (y)
g (y) log
g (y)
f (y)
dy (2.12)
(2.13)
ou equivalentemente
+
I (g; f ) =
(2.14)
g (x) ln (g (x)) dx
I (f2 , g) =
g (x) ln (g (x)) dx
26
Logo
I (f1 , g) I (f2 , g) =
g (x) ln (g (x)) dx
g (x) ln (g (x)) dx
ln (f (x)) g (x) dx =
ln (f (x)) dG (x) .
(2.16)
27
g1 (x) =
44 (4)
x41 e 4 =
1 3 x
x e 4
1536
x20
5
20 201 ( x )20
x
e 2
= 18 x19 e 220
220
2
1
1
g2 (x) = e(ln x2)/22 = e(ln x2)/4
2 x
x 2 2
x
64
64 1/2 { 216 ( 16 2+ 16 )} 4 2 3/2 {2( x 2+ 16 )}
x
16
x
=
g3 (x) =
e
x
e
2x3
g4 (x) =
[(4 + 10)/2]
(4/2) (10/2)
2
5
(7)
(2) (5)
24
2
x 1+ x
5
5
4
10
4/2
x (1 + (2/5) x)14/2
7
28
FIGURA 3: Representao das distribuies Gama(4,4) - linha contnua - e Lognormal(2,2) - linha pontilhada
29
g (x)
g1 (x)
x3 e 4
ln
1536
1
1536
x3 e 4
1536
x3 e 4
ln
1536
dx
x3 e 4 ln (1536) + 3 ln (x)
20
5 19 x20
x e 2
218
dx
x
dx
4
(I)
1
1536
x3 e 4
ln
5
218
+ 19 ln (x)
x20
220
dx
(2.17)
(II)
=
=
g (x)
g2 (x)
x3 e 4
ln
1536
1
1536
x3 e 4
1536
dx
x3 e 4
ln
1536
x3 e 4 ln (1536) + 3 ln (x)
1
e(ln x2)/4 dx
2 x
x
dx
4
(III)
1
1536
x3 e 4
ln x 1
ln 2
+
4
2
dx .
(2.18)
(IV )
Novamente, efetuando as integraes e os clculos necessrios em (2.18) e notando que (I) = (III) obtm-se (III) = 3, 40970 e (IV ) = 2, 73735, assim
I (g, g2 ) = 3, 40970 2, 73735 = 0, 67235.
30
I (g, g3 ) = g (x) ln
x
x3 e 4
x3 e 4
x3 e 4
dx
=
ln
ln
1536
1536
1536
=
1
1536
4 2 {2( x 2+ 16 )}
16
x
dx
xe
x3 e 4 ln (1536) + 3 ln (x)
x
dx
4
(V )
1
1536
3 x
4
x e
ln
4 2
+ ln (x)
x
32
+4
8
x
dx (2.19)
(V I)
Novamente, efetuando as integraes e os clculos necessrios em (2.19) e notando que (I) = (V ) obtm-se (V ) = 3, 40970 e (V I) = 3, 34962 e assim
I (g, g3 ) = 3, 40970 3, 34962 = 0, 06008.
Para g4 (x) tem-se
I (g, g4 ) = g (x) ln
g (x)
g4 (x)
=
=
1
1536
1
1536
x3 e 4
x3 e 4
ln
dx
1536
1536
x3 e 4
ln
1536
24
2
x 1+ x
5
5
x3 e 4 ln (1536) + 3 ln (x)
dx
x
dx
4
(V II)
x3 e
x
4
ln
24
5
2
+ ln (x) 7 ln 1 + x
5
dx (2.20)
(V III)
Novamente, efetuando as integraes e os clculos necessrios em (2.20) e notando que (I) = (V II) obtm-se (V II) = 3, 40970 e (V III) = 2, 33585 e
assim I (g, g4 ) = 3, 40970 (2, 33585) = 5, 74555.
31
K-L informao
Posio
Weibull(2,20)
0,0462
Lognormal(2,2)
0,67235
Inversa Gausssiana(16,64)
0,06008
F(4,10)
5,74555
2.2.3
A funo de verossimilhana
O mtodo mais importante de achar estimativas o mtodo de mxima verossimilhana, introduzido por R. A. Fisher. Conforme Bolfarine & Sandoval (2000)
a funo de verossimilhana denida como:
32
Denio 2.8 Seja {X1 , X2 , ..., Xn } uma amostra aleatria independente e identicamente distribuda, de tamanho n da varivel aleatria X com funo de densidade g (x|), com , em que o espao paramtrico. A funo de
verossimilhana de correspondente amostra aleatria observada dada por:
n
L (; X1 , X2 , ..., Xn ) =
i=1
33
(2.22)
Como a funo de verossimilhana L (; x1 , x2 , ..., xn ) e a funo log verossimilhana logL (; x1 , x2 , ..., xn ) assumem mximo para o mesmo valor, muitas das vezes prefervel trabalhar com a funo log verossimilhana, por esta
ser bem menos complicada de trabalhar e encontrar os pontos crticos. A funo
S = logL (; x1 , x2 , ..., xn ) chamada funo suporte ( Cramr, 1973).
Segundo Konishi & Kitagawa (2008), os estimadores de mxima verossimilhana tm muitas propriedades da teoria das grandes amostras que torna o seu
resultado mais atrativo. So elas:
Os estimadores so assintoticamente consistentes, o que signica que quanto
maior o tamanho da amostra, mais prximos os valores das estimativas estaro dos verdadeiros valores. Formalmente tem-se:
Denio 2.10 Um estimador do parmetro um estimador consistente
se: lim P
n
= 0, para qualquer
> 0.
n N
0, E
2 ln (X, )
2
Os estimadores de mxima verossimilhana so tambm estatsticas sucientes, isto , so estatsticas que condensam os de tal forma que no so
perdidas informaes acerca de . Tal conceito pode assim ser formalizado:
Denio 2.11 Sejam X1 , X2 , . . . , Xn uma amostra aleatria de densidade
f (; ) . Uma estatstica S = s(X1 , X2 , . . . , Xn ) dita ser uma estatstica
suciente se e s se a distribuio condicional de X1 , X2 , . . . , Xn ) dado
S = s no depender de para qualquer valor de s S.
Ele tambm tem a propriedade da invarincia, que pode ser formalizada
como:
Denio 2.12 Seja = (X1 , X2 , . . . , Xn ) um estimador de mxima
verossimilhana de com funo de densidade f (; ), sendo unidimensional. Se () uma funo inversvel, ento o estimador de mxima verossimilhana de () .
Estas so excelentes propriedades da teoria das grandes amostras.
Uma outra propriedade, que no necessariamente estes estimadores tm, o
no-enviesamento. Um estimador no-viesado se sua esperana igual ao valor
estimado. Formalmente tem-se:
Denio 2.13 Um estimador do parmetro um estimador no viesado
quando a sua distribuio amostral est centrada no prprio parmetro, isto ,
E = .
2.2.4
tem-se
Eg ln f x|
ln f x| g (x) dx =
ln f x| dG (x) .
(2.23)
Tendo como base estimadores de mxima verossimilhana, deseja-se encontrar um bom estimador para (2.23). Segundo Konishi & Kitagawa (2008), uma
estimativa da funo suporte esperada, pode ser obtida substituindo a distribuio
de probabilidade desconhecida G na equao (2.23) por uma funo de distribuio emprica G baseada nos dados X. Isto pode ser entendido nas denies feitas
a seguir.
Denio 2.14 Sejam X = {x1 , x2 , ..., xn } os dados observados de uma distribuio G(x). A funo de distribuio emprica G a funo de densidade
1
acumulada que d de probabilidade para cada Xi . Formalmente,
n
Gn (x) =
1
n
I (Xi x)
i=1
em que
1, se Xi x
I (Xi x) =
0, se X x.
i
36
(2.24)
V ar Gn (x) =
G (x) (1 G (x))
n
xdG (x),
(x )2 dG (x),
A varincia 2 =
A mediana m = G1
1
2
Um funcional da forma
contnuo,
u (xi ) g (xi ).
T G =
u (x)dG (x) =
i=1
1
g (xi ) u (xi ) =
n
u (xi )
(2.25)
i=1
37
1
n
para cada
T G =
1
xdG (x) =
n
xi = x,
i=1
log f x| dG (x)
n
g xi | log f (xi )
=
i=1
1
n
log f xi | .
38
(2.26)
i=1
, (3.1)
= 2
(3.2)
i=1
Alguns critrios comuns na literatura tambm podem ser utilizados para seleo de modelos. Esses critrios levam em considerao a complexidade do modelo
no critrio de seleo. So critrios que essencialmente, penalizam a verossimilhana, utilizando o nmero de variveis do modelo e, eventualmente o tamanho
da amostra. Esta penalizao feita subtraindo-se do valor da verossimilhana
39
3.1
40
(3.3)
= tr (Ip ) = p,
(3.4)
(3.5)
3.2
P [A B]
P [B]
Bj
j=1
43
e P [Bj ] > 0, para j = 1, 2, . . . , n, ento para todo A A, tal que P [A] > 0,
tem-se:
P [A|Bk ] P [Bk ]
P [Bk |A] =
(3.6)
P [A|Bk ] P [Bk ]
j=1
fi (xn |i ) i (i ) di .
(3.7)
Essa quantidade pode considerada como a verossimilhana para o i-simo modelo e ser referida como verossimilhana marginal dos dados.
Sendo P (Mi ) a distribuio a priori do i-simo modelo, por (3.6) a distribuio
a posteriori ser (Burnham & Anderson, 2002):
P (Mi |xn ) =
pi (xn ) P (Mj )
n
(3.8)
pj (xn ) P (Mj )
j=1
Segundo Paulino et al. (2003), a probabilidade a posteriori indica a probabilidade dos dados serem gerados do i-simo modelo quando os dados xn so
observados. Se um modelo est sendo selecionado de r modelos, seria natural
adotar o modelo que tem a maior probabilidade a posteriori. Esse princpio mostra
que o modelo que maximiza o numerador pj (xn ) P (Mj ) deve ser selecionado,
pois todos os modelos compartilham do mesmo denominador em (3.8). Se as dis44
fi (xn |i ) i (i ) di
2logfi xn |i + ki logn
(3.9)
em que i o estimador de mxima verossimilhana para o ki -simo vetor paramtrico i do modelo fi (xn |i ).
Conseqentemente, dos r modelos avaliados usando o mtodo de mxima verossimilhana, o modelo que minimizar o valor do BIC o melhor modelo para os
dados.
Assim, sob a suposio de que todos os modelos tm distribuio de probabilidades a priori iguais, a probabilidade posteriori, obtida usando a informao do
dados, serve para contrastar os modelos e ajuda na identicao do modelo que
gerou os dados.
Sejam M1 e M2 dois modelos que quer-se comparar. Para cada modelo tem-se
as verossimilhanas marginais pi (xn ), as prioris P (Mi ) e as posterioris P (Mi |xn )
com i = {1, 2}, assim, a razo posteriori em favor do modelo M1 versus o mo-
45
delo M2 :
p1 (xn )P (M1 )
n
P (M1 |xn )
=
P (M1 |xn )
pj (xn )P (Mj )
j=1
p2 (xn )P (M2 )
n
p1 (xn ) P (M1 )
.
p2 (xn ) P (M2 )
pj (xn )P (Mj )
j=1
A razo
p1 (xn )
p2 (xn )
(3.10)
(3.11)
46
Assim,
q()
=
= 0 e a expanso de q () em torno de :
q () = q
+ ...,
Jq
(3.12)
em que
Jq =
2 q ()
T
(3.13)
=
exp {nq () d}
p
(2) /2
p/ exp nq
p/
2
(n) 2 Jq
(3.14)
fi (xn |) () d
exp { ()} () d,
(3.15)
2
47
+ ...,
(3.16)
() = +
()
+ ...,
(3.17)
p(xn ) = exp +
d(3.18)
J ()
1/
p/ p/
2
2n 2 J
d = (2)
(3.19)
,
n.
Para n grande,
p(xn ) exp
1/
p
p
2
(2) /2 n /2 J
(3.20)
f (xn |) () d
+ p log n + log J
(3.21)
p log (2) 2 log
48
(3.22)
em que f (xn |) o modelo escolhido, p o nmero de parmetros a serem estimados e n o nmero de observaes da amostra.
3.3
ria dessas consideraes so feitas por Burnahm & Anderson(2002), e tambm esto no website desses autores, onde esto disponveis outras consideraes acerca
destes mtodos.
Tanto o AIC quanto o BIC fundamentam-se na verossimilhana, impondo
entretanto diferentes penalizaes;
O AIC e o BIC servem para comparar modelos encaixados, mas podem ser
aplicados tambm em modelos no encaixados;
Para n > 8, o valor do AIC para um determinado modelo ser sempre menor
que o valor do BIC, mas os resultados no necessariamente o sero;
O AIC e o BIC servem para comparar quaisquer quantidade de modelos, e
no somente dois, como muitos pensam;
O AIC e o BIC so critrios assintticos e j existem correes para estes;
O AIC e o BIC servem para estudar estruturas de covarincias;
49
50
4.1
Os dados
Para a realizao desse trabalho foram avaliados dois conjuntos de dados dis-
tintos.
O primeiro conjunto de dados disponibilizado em Triola (1999), e encontrase no anexo A. Foram extradas duas amostras de confeitos M&M, pesados os
de cores vermelha e amarela. A varivel resposta foi o peso em gramas de cada
elemento amostral. Utilizando o AIC e o BIC desejou-se testar se os pesos dos
confeitos amarelos e vermelhos seguem a mesma distribuio.
O segundo conjunto de dados foi obtido de Rawlings et al. (1998). Trata-se
de um estudo das caractersticas que inuenciam a produo area de biomassa
na grama de pntano. Foram amostrados trs tipos de vegetao Spartina, em trs
localidades (Oak Island, Smith Island, and Snows Marsh). Em cada localidade,
cinco amostras aleatrias do substrato de terra de cada tipo de vegetao foram
coletadas, totalizando 45 amostras.
Foram analisadas 14 caractersticas fsico-qumicas da terra durante vrios meses, porm os dados usados nesse estudo envolvem s a amostragem de setembro,
em que foram analisadas as variveis: salinidade (Sal), pH (pH), potssio (K) em
ppm, sdio (Na) em ppm , zinco (Zn) em ppm e a varivel resposta foi a biomassa
area em gm2 . O propsito do estudo foi utilizar regresso linear mltipla para
relacionar a produo de biomassa com as cinco variveis estudadas.
4.2
dos de uma distribuio normal tem mesma mdia e varincia; ou mesma mdia
51
(4.1)
2
2
1 = 2 e 1 = 2 ou
(4.2)
2
2
1 = 2 e 1 = 2 = 2 ou
(4.3)
2
2
1 = 2 = e 1 = 2
(4.4)
Tem-se que
2
f y1 |1 , 1 =
1
2
21
exp
1
2
yi 1
1
, i = 1, 2, . . . , n,
e
1
2
f y2 |2 , 2 =
2
22
exp
1
2
yi 2
2
, i = n + 1, n + 2, . . . , n + m,
=
i=1
yi 1
exp
2
21
21
1
n+m
i=n+1
52
1
2
22
exp
yi 1
22
L()= log
i=1
yi 1
1
21
n
n
2
= log 21
2
1
2
e
2
n+m
i=n+1
2
21
1
2
yi 2
2
22
n+m
(yi 1 )2
i=1
e
2
m
2
log 22
2
(yi 2 )2
i=n+1
(4.5)
2
22
2
2
em que = 1 , 2 , 1 , 2 .
Sero obtidas as situaes descritas em (4.1), (4.2) (4.3), e (4.4). Ser feita
agora a derivao dos critrios de Akaike e Schwarz para cada uma delas.
2
2
Caso 1: 1 = 2 = e 1 = 2 = 2
2
2
Para o caso descrito em (4.1), ou seja, 1 = 2 = e 1 = 2 = 2 existem
n
L () = log 2 2
2
n+m
(yi )2
i=1
2 2
m
log 2 2
2
n+m
1
L () =
log 2 2 2
2
2
(yi )2
i=n+1
2 2
n+m
(yi )2 ,
(4.6)
i=1
sendo = , 2 .
Maximizando (4.6) tem-se:
L =
n+m
log 2 2 + 1 ,
2
53
(4.7)
em que
1
n+m
n+m
yi
(4.8)
(yi )2 .
(4.9)
i=1
e
2
2 =
1
n+m
n+m
i=1
+ 2 (k)
(4.10)
n+m
log 2 2 + 1
2
+ 2(2) = (n + m) log 2 2 + 1 + 4
(4.11)
BIC = 2 log L
+ (k) log n
(4.12)
BIC1 = 2
(4.13)
2
2
Caso 2: 1 = 2 e 1 = 2
2
2
Se todos os parmetros so desconhecidos tem-se ento = 1 , 2 , 1 , 2
L () = L
2
2
1 , 2 , 1 , 2
n
1
2
= log 21 2
2
21
1
m
2
log 22 2
2
22
(yi 1 )2
i=1
n+m
(yi 2 )2
(4.14)
i=n+1
Logo,
n
(yi 1 )2
n
2
L = log 2 1 i=1
2
2
21
(yi 2 )2
m
i=n+1
2
log 22
,(4.15)
2
2 2
2
2
2
e 1 , 2 , 1 e 2 so dados por respectivamente por (4.16), (4.17), (4.18) e (4.19).
1 =
1
n
2 =
1
m
2
1 =
2
2 =
1
n
1
m
yi
i=1
n+m
(4.16)
yi
(4.17)
i=n+1
n
(yi 1 )2
(4.18)
(yi 2 )2 .
(4.19)
i=1
n
i=1
55
(yi 1 )2
2
AIC2 =n log 2 1 + i=1
2
+m log 2 2 +
2
1
2
AIC2 = n log 2 1 +
2
n 1
2
1
(yi 2 )2
i=n+1
2
2
2
+ m log 2 2 +
2
m2
2
2
+2(4)
+8
2
2
AIC2 = (n + m) log (2) + n log 1 + m log 2 + (n + m) + 8
2
2
AIC2 = (n + m) (log (2) + 1) + n log 1 + m log 2 + 8
(4.20)
BIC2
(4.21)
(yi 1 )2
n
2
= 2 log 2 1 i=1
2
2
21
m
(yi 2 )
m
i=n+1
2
+ 4 log n
log 22
2
2 2
2
56
2
BIC2 = n log 2 1 +
2
n1
2
1
2
+ m log 2 2 +
2
m2
2
2
+ 4 log n
2
2
BIC2 = (n + m) log (2) + n log 1 + m log 2 + (n + m) + 4 log n
2
2
BIC2 = (n + m) (log (2) + 1) + n log 1 + m log 2 + 4 log n
(4.22)
2
2
Caso 3: 1 = 2 e 1 = 2 = 2
2
2
No caso em que 1 = 2 1 = 2 = 2 , tem-se trs parmetros desconhe-
L() =
n+m
1
log 2 2 2
2
2
n+m
(yi 1 )2 +
i=1
(yi 2 )2 (4.23)
i=n+1
em que = 1 , 2 , 2 .
A funo suporte estimada dada por
L =
m+n
log 2 2 + 1
2
(4.24)
yi
i=1
1 =
(4.25)
n
n+m
yi
2 =
2 =
1
(n + m)
i=n+1
(4.26)
n+m
(yi 1 )2 +
i=1
(yi 2 )2
i=n+1
57
(4.27)
m+n
log 2 2 + 1
2
+23
AIC3 = (m + n) log 2 2 + 1 + 6
(4.28)
+ (k) log n,
(4.29)
m+n
log 2 2 + 1
2
+ 3 log n
E assim
BIC3 = (n + m) log 2 + (n + m) (log 2 + 1) + 3 log n
(4.30)
2
2
Caso 4: 1 = 2 = e 1 = 2
2
2
2
2
Neste caso tem-se 3 parmetros desconhecidos , 1 , e 2 , e = , 1 , 2 .
n
2
L()= log 21
2
(yi )2
i=1
2
21
n+m
m
2
log 22
2
58
(yi )2
i=n+1
2
22
.(4.31)
E assim
L =
(n + m)
n
m
2
2
(log 2 + 1) log 1 log 2
2
2
2
(4.32)
Sendo que
2
1 =
2
2
1
n
1
=
m
(yi )2
(4.33)
i=1
n+m
(yi )2
(4.34)
i=n+1
(4.35)
n
m
(n + m)
2
2
(log 2 + 1) log 1 log 2 + 2 3
2
2
2
2
2
AIC4 = (n + m) (log 2 + 1) + n log 1 + m log 2 + 6
(4.36)
59
+ (k) log n,
(4.37)
(n + m)
n
m
2
2
(log 2 + 1) log 1 log 2
2
2
2
+ 3 log n,
4.3
(4.38)
f (Y |X1 , . . . , Xm ) = 2
1
2 2
1
exp 2 Y 0
2
2
j Xj .
j=1
L 0 , 1 , . . . , m , 2 =
60
L , 2
n
1
= log 2 2 2
2
2
Yi 0
i=1
j Xij ,
(4.39)
j=1
lineares
X T X = X T Y ,
em que
1
2
.
.
.
m
1 X11
...
X1m
1 X21 X2m
,X =
.
.
.
..
.
.
.
.
.
.
.
1 Xn1 . . . Xnm
Y1
Y2
, e Y =
. .
.
.
Yn
1
n
Yi 0 + 1 Xi1 + . . . + m Xim
(4.40)
i=1
61
por:
AIC = n (log 2 + 1) + n log d (X1 , . . . , Xm ) + 2 (m + 2) .
(4.42)
Na regresso mltipla, nem todas as variveis explicativas necessariamente inuenciaro signicativamente a varivel resposta. Um modelo estimado com um
grande nmero de variveis explicativas desnecessrias pode ser instvel. Selecionando o modelo com o menor AIC para todas as diferentes possveis combinaes
da varivel explicativa, espera-se obter um modelo razovel, que equilibre a qualidade do ajuste e a complexidade.
O BIC para este modelo, conforme (3.22), ser dado por
BIC = n (log 2 + 1) + n log d (X1 , . . . , Xm ) + 2 (m + 2) log n.
4.4
4.4.1
2
2
Para o caso em que 1 = 2 = e 1 = 2 = 2 foi obtido:
= 0.9138936
2 = 0.0009435844
L = 97.00677,
AIC1 = 190.0135
BIC1 = 186.3132,
2
2
Para o segundo caso, em que 1 = 2 e 1 = 2 tem-se:
1 = 0.9172692
62
(4.43)
2 = 0.9097143
2
1 = 0.001099581
2
2 = 0.0007188707
L = 97.87383
AIC2 = 187.7477
BIC2 = 180.3471.
2
2
Para o terceiro caso, em que 1 = 2 e 1 = 2 = 2 tem-se:
1 = 0.9172692
2 = 0.9097143
2 = 0.0009294766
L = 97.36078
AIC3 = 188.7216
BIC3 = 183.1711.
2
2
Para o quarto caso, em que 1 = 2 = e 1 = 2 tem-se:
= 0.9128487670
2
1 = 0.001119122
2
2 = 0.0007188707
L = 97.64484
AIC4 = 189.2897
BIC4 = 183.7392.
Comparando-se os valores do AIC , obtidos (AIC1 , AIC2 , AIC3 , AIC4 ), v2
2
se que deve-se selecionar o modelo 1, em que 1 = 2 = e 1 = 2 = 2 ,
ou seja, pelo critrio de Akaike, mais provvel que os pesos dos M&M tenham
distribuio normal, com mesma mdia e mesma varincia.
63
4.4.2
64
2
426021.44
421487.01
170679.44
408179.80
394486.72
259921.99
168961.07
403264.55
392962.59
190594.81
150140.21
145514.93
166880.94
394351.87
249136.22
242819.41
148179.33
145253.20
154797.34
392958.57
180423.99
185562.41
144694.09
148217.11
143803.24
242818.98
144121.58
138517.20
139832.73
180079.53
143070.72
797841.82
65
log(L())
355.50
355.26
334.92
354.54
353.77
344.39
334.69
354.27
353.69
337.41
332.04
331.33
334.42
353.76
343.43
342.85
331.74
331.29
332.72
353.69
336.17
336.80
331.21
331.75
331.07
342.85
331.12
330.22
330.44
336.13
330.95
369.62
AIC
715.01
716.52
675.84
715.08
713.54
694.77
677.39
716.54
715.37
682.81
672.07
670.67
676.83
715.53
694.86
693.71
673.48
672.58
675.45
717.37
682.34
683.61
672.41
673.49
672.13
695.71
674.23
672.45
672.87
684.26
673.90
753.24
BIC
718.62
721.94
681.26
720.50
718.96
700.19
684.62
723.76
722.60
690.04
679.30
677.89
684.06
722.76
702.09
700.93
682.52
681.62
684.48
726.40
691.38
692.64
681.44
682.53
681.17
704.74
685.07
683.29
683.71
695.10
684.74
765.89
CONCLUSES
66
ESTUDOS FUTUROS
Avaliar via simulao via Monte Carlo os desempenhos dos critrios AIC e
BIC;
Comparar o AIC e o BIC com um terceiro e recente mtodo, a Medida L;
Aplicao e comparao do AIC e BIC em sries temporais, onde estes so
amplamente utilizados;
Avaliar a utilizao desses critrios em dados censurados, em que a verossimilhana no pode ser calculada (somente a verossimilhana parcial).
67
REFERNCIAS BIBLIOGRFICAS
AKAIKE, H. A new look at the statistical model identication. IEEE
Transactions on Automatic Control, Boston, v.19, n.6, p.716723, Dec. 1974.
ASH, R.B. Information theory. Illinois: Academic, 1965. 339p.
BOLFARINE, H.; SANDOVAL, M.C. Introduo inferncia estatstica. So
Paulo: Sociedade Brasileira de Matemtica, 2000. 125p.
BURNHAM, K.P.; ANDERSON, D.R. Model selection and multimodel
inference: a pratical information-theoretic approach. New York: Springer, 2002.
488p.
BURNHAM, K.P.; ANDERSON, D.R. Multimodel inference: understanding aic
and bic in model selection. Sociological Methods and Research, Beverly Hills,
v.33, n.2, p.261304, May 2004.
CHAKRABARTI, C.G.; CHAKRABARTY, I. Boltzmann entropy : probability
and information. Romanian Journal of Physics, Bucharest, v.52, n.5-6,
p.525528, Jan. 2007.
COVER, T.M.; THOMAS, J.A. Elements of information theory. New York: J.
Wiley, 1991. 542p.
CRAMR, H. Elementos da teoria de probabilidade e algumas de suas
aplicaes. So Paulo: Mestre Jou, 1973. 330p.
DOMINGUES, H.H. Espaos mtricos e introduo topologia. So Paulo:
Atual, 1982. 183p.
DRAPER, N.R.; SMITH, H. Applied regression analysis. 3. ed. New York: J.
Wiley, 1998. 706p.
FERNANDES, R. de M.S.; AZEVEDO, T. de S. Teoria da informao e suas
aplicaes em compresso e aleatoriedade. Rio de Janeiro: PESC - COPPE,
2006. Notas de aula. Disponvel em:
<http://www.ravel.ufrj.br/arquivosPublicacoes/cos702_Rafael_Tiago.pdf>.
Acesso em: 20 jul. 2008.
FERREIRA, D.F. Estatstica bsica. Lavras: UFLA, 2005. 664p.
GARBI, G.G. O romance das equaes algbricas: a histria da lgebra. So
Paulo: Makron Books, 1997. 253p.
68
69
70
ANEXOS
ANEXO
Pginas
ANEXO A:
ANEXO B:
ANEXO C:
ANEXO D:
71
ANEXO A
TABELA 2: Dados utilizados no estudo de pesos (em gramas) de uma amostra de
confeitos M&M.
Observao
1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
21
22
23
24
25
26
Amarelo
0.906
0.978
0.926
0.868
0.876
0.968
0.921
0.893
0.939
0.886
0.924
0.910
0.877
0.879
0.941
0.879
0.940
0.960
0.989
0.900
0.917
0.911
0.892
0.886
0.949
0.934
72
Vermelho
0.870
0.933
0.952
0.908
0.911
0.908
0.913
0.983
0.920
0.936
0.891
0.924
0.874
0.908
0.924
0.897
0.912
0.888
0.872
0.898
0.882
ANEXO B
TABELA 3:Dados utilizados no estudo das caractersticas que inuenciam a produo area de biomassa na grama de pntano.
Y
SAL
676
33
516
35
1052
32
868
30
1008
33
436
33
544
36
680
30
640
38
492
30
984
30
1400
37
1276
33
1736
36
1004
30
396
30
352
27
328
29
392
34
236
36
392
30
268
28
252
31
236
31
340
35
2436
29
2216
35
2096
35
1660
30
2272
30
824
26
1196
29
...continua...
pH
5.00
4.75
4.20
4.40
5.55
5.05
4.25
4.45
4.75
4.60
4.10
3.45
3.45
4.10
3.50
3.25
3.35
3.20
3.35
3.30
3.25
3.25
3.20
3.20
3.35
7.10
7.35
7.45
7.45
7.40
4.85
4.60
K
1441.67
1299.19
1154.27
1045.15
521.62
1273.02
1346.35
1253.88
1242.65
1281.95
553.69
494.74
525.97
571.14
408.64
646.65
514.03
350.73
496.29
580.92
535.82
490.34
552.39
661.32
672.15
528.65
563.13
497.96
458.38
498.25
936.26
894.79
73
Na
35185.5
28170.4
26455.0
25072.9
31664.2
25491.7
20877.3
25621.3
27587.3
26511.7
7886.5
14596.0
9826.8
11978.4
10368.6
17307.4
12822.0
8582.6
12369.5
14731.9
15060.6
11056.3
8118.9
13009.5
15003.7
10225.0
8024.2
10393.0
8711.6
10239.6
20436.0
12519.9
Zn
16.4524
13.9852
15.3276
17.3128
22.3312
12.2778
17.8225
14.3516
13.6826
11.7566
9.8820
16.6752
12.3730
9.4058
14.9302
31.2865
30.1652
28.5901
19.8795
18.5056
22.1344
28.6101
23.1908
24.6917
22.6758
0.3729
0.2703
0.3205
0.2648
0.2105
18.9875
20.9687
Continuao da TABELA 3.
Y
1960
2080
1764
412
416
504
492
636
1756
1232
1400
1620
1560
SAL
25
26
26
25
26
26
27
27
24
27
26
28
28
pH
5.20
4.75
5.20
4.55
3.95
3.70
3.75
4.15
5.60
5.35
5.50
5.50
5.40
K
941.36
1038.79
898.05
989.87
951.28
939.83
925.42
954.11
720.72
782.09
773.30
829.26
856.96
74
Na
18979.0
22986.1
11704.5
17721.0
16485.2
17101.3
17849.0
16949.6
11344.6
14752.4
13649.8
14533.0
16892.2
Zn
23.9841
19.9727
21.3864
23.7063
30.5589
26.8415
27.7292
21.5699
19.6531
20.3295
19.5880
20.1328
19.2420
ANEXO C
Derivao do vis da Funo suporte
O estimador de o vetor de parmetros p-dimensional que maximiza a
funo (2.21). Tal estimador obtido somo soluo de (2.22). Isto , deve-se
achar a soluo de
L ()
=
n
i=1
log f (Xi |) = 0
EG(Xn )
i=1
log f (Z|) =
g (z)
log f (z|) dz = 0,
(6.1)
, (6.2)
(6.3)
75
= EG(xn )
i=1
= 0
(6.4)
76
(0 )
i
(0)
i i
= (0 ) +
i=1
1
2
p
(0)
i i
2 (0 )
+ ...,
i j
(0)
j j
i=1 j=1
T
em que = 1 , 2 , . . . p
de (6.1) tem-se
(0 )
= EG(Z)
i
(0)
(0) T
(0)
e 0 = 1 , 2 . . . p
log f (Z|)
i
(6.5)
. Como 0 soluo
= 0, i = 1, 2, . . . , p.
0
1
0
2
J (0 ) 0 ,
2 log f (Z|)
T
g (z)
2 log f (Z|)
T
dz, (6.6)
0
2 log f (Z|)
a b
=
0
77
g (z)
2 log f (Z|)
a b
dz
0
T
n
EG(Xn ) 0 J ( 0 ) 0
2
n
E
tr J 0 0 0
2 G(Xn )
n
tr J 0 EG(Xn ) 0 0
2
(6.7)
1
J ( 0 )1 I ( 0 ) J ( 0 )1 ,
n
(6.8)
(6.9)
g (z)
dz.
(6.10)
L = L()+
1
+
2
78
2L
T
+. . . . (6.11)
L
Em (6.11), satisfaz a equao
L ()
= 0.
2
2
1 log f Xn |
1 L
=
converge em probabilidade
Tem-se que
n T
n
T
para J ( 0 ) quando n , isto vem do fato de que converge para 0 e pode
ser provado utilizando-se da lei dos grandes nmeros.
Assim, tem-se de (6.11) que
mxima verossimilhana dado como soluo de
L ( 0 ) L
n
0
2
J ( 0 ) 0 .
T
n
EG(Xn ) 0 J ( 0 ) 0
2
n
E
tr J ( 0 ) 0 0
2 G(Xn )
n
tr J ( 0 ) EG(Xn ) 0 0
2
1
tr I ( 0 ) J ( 0 )1
2
(6.12)
79
ANEXO D
Funo suporte para modelos normais.
Tem-se de (4.5) que de forma geral
n
n
2
L() = log 21
2
(yi 1 )2
i=1
2
21
n+m
m
2
log 22
2
(yi 2 )2
i=n+1
2
22
Desse modo, sero feitas aqui as derivaes para os estimadores de mxima verossimilhana para os quatro casos descritos em (4.1), (4.2), (4.3), e (4.4).
2
2
Caso 1: 1 = 2 = e 1 = 2 = 2
Para este caso, tem-se por (4.6)
n+m
1
log 2 2 2
2
2
L () =
n+m
(yi )2 ,
(6.14)
i=1
sendo = , 2 .
L , 2
L , 2
=0e
= 0.
2
2 , tem-se:
Derivando (4.6) em relao a
, 2
2
n+m log 2 2
2
=
n+m
(yi )2
i=1
=0
L , 2
n+m
1
=
+
2
2 2
2 ( 2 )2
1
2
1
2 2
n+m
1
+ 2
2
2
n+m
2
(yi )
i=1
2 =
1
(n + m)
n+m
(yi )2 = 0
i=1
1
= 0 = 2
2
n+m
(yi )2 =
i=1
n+m
2
n+m
(yi )2 .
(6.15)
i=1
n+m log 2 2
2
80
1
2 2
m
i=1
(yi )2
=0
1
2
2 2
n+m
(yi ) (1) = 0 =
i=1
(yi ) = 0
i=1
n+m
n+m
(yi ) = 0
i=1
n+m
yi =
i=1
= =
i=1
1
n+m
n+m
yi .
i=1
n+m
yi .
(6.16)
i=1
n+m
1
log 2 2 2
2
2
n+m
(yi )2
i=1
1
n+m
log 2 2 2 (n + m) 2
2
2
n+m
n+m
L =
log 2 2
2
2
L =
2
2
Caso 2: 1 = 2 e 1 = 2
Nesse caso, tem-se por (4.14)
L () = L
n
1
2
= log 21 2
2
21
2
2
1 , 2 , 1 , 2
1
m
2
log 22 2
2
22
(yi 1 )2
i=1
n+m
(yi 2 )2
(6.17)
i=n+1
n+m
n
2
n log 21
2
(yi 1 )
i=1
2
21
m
2
log 22
2
1
81
(yi 2 )
22
i=n+1
= 0,
Obtendo assim
2
2
21
(yi 1 ) (1) = 0 =
i=1
(yi 1 ) = 0 =
i=1
yi =
i=1
1
i=1
yi
1 =
i=1
(6.18)
n+m
n
2
n log 21
2
(yi 1 )
i=1
2
21
m
2
log 22
2
(yi 2 )2
i=n+1
22
=0
2
E assim
2
2
22
n+m
n+m
(yi 2 ) (1) = 0 =
i=n+1
n+m
(yi 2 ) = 0 =
i=n+1
n+m
yi =
i=n+1
2
i=n+1
Assim, o estimador de 2 ,
n+m
yi
2 =
i=n+1
2
Derivando (6.32) em relao a 1 e igualando a zero, tem-se
L ()
2 =0
1
82
(6.19)
2
log 21
2
(yi 1 )
i=1
2
21
(yi 2 )2
i=n+1
22
n+m
m
2
log 22
2
= 0,
2
1
n
2
21
2
2 1
(yi 1 )2 = 0 = n =
2
i=1
2
1 i=1
(yi 1 )2
2
Finalmente obtm-se o estimador de 1 , dado por
2
1
1
=
n
(yi 1 )2
(6.20)
i=1
2
Nota-se que o estimador de 1 depende do estimador de 1 , expresso por (6.18).
2
Derivando (6.32) em relao a 2 e igualando a zero, tem-se
n+m
n
2
2
(yi 2 )
(yi 1 )
n
m
i=n+1
i=1
2
2
log 21
log 22
2
2
2
2
22
22
=0
2
1
m
2
22
n+m
1
2
2 2
(yi 2 )2 = 0 =
2
i=n+1
1
m
=
2
2
22
n+m
(yi 2 )2
i=n+1
2
E assim, obtm-se o estimador de 2 , dado por
2
2 =
1
m
n+m
(yi 2 )2 .
(6.21)
i=n+1
2
O estimador de 2 depende do estimador de 2 que dado pela frmula (6.19).
Substituindo (6.18), (6.19), (6.20) e (6.21) em (6.17) tem-se:
n
(yi 1 )2
n
2
L = log 2 1 i=1
2
2
21
(yi 2 )2
m
i=n+1
2
log 22
2
2 2
2
83
.(6.22)
2
2
Caso 3: 1 = 2 e 1 = 2 = 2
2
2
Sob a premissa de que 1 = 2 e 1 = 2 = 2 tem-se de (4.5):
n
n
L () = log 2 2
2
n+m
(yi 1 )2
i=1
2 2
m
log 2 2
2
(yi 2 )2
i=n+1
2 2
Da
L() =
n+m
1
log 2 2 2
2
2
n+m
(yi 1 )2 +
i=1
(yi 2 )2 (6.23)
i=n+1
L ()
L ()
L ()
= 0,
= 0, e
= 0.
2
1
2
Derivando (6.23) em relao a 2 , tem-se
Am de maximizar (6.23), faa-se
L()
=
2
n+m
1
log 2 2 2
2
2
n+m
(yi 1 )2+
i=1
(yi 2 )2
i=n+1
= 0,
e assim
n+m
2 2
n+m
(yi 1 )2 +
2 2
i=1
(yi 2 )2 = 0
i=n+1
(n + m) =
n+m
(yi 2 )2
(yi 1 ) +
i=1
i=n+1
1
(n + m)
n+m
(yi 1 )2 +
i=1
(yi 2 )2
(6.24)
i=n+1
V-se assim que a estimador de 2 depende da estimador de 1 e 2 . Tais estimadores sero encontradas abaixo:
84
L()
=
1
n+m
1
log 2 2 2
2
2
n+m
2
(yi 2 )2
(yi 1 ) +
i=1
i=n+1
= 0.
Assim
n
2
2 2
(yi 1 ) (1) = 0 =
i=1
(yi 1 ) =0 =
i=1
yi =n1 .
i=1
yi
1 =
i=1
(6.25)
1
n+m
log 2 2 2
2
2
n+m
(yi 1 )2+
i=1
(yi 2 )2
i=n+1
=0.
Assim
2
2 2
n+m
n+m
(yi 2 ) (1) = 0 =
i=n+1
n+m
(yi 2 ) =0 =
i=n+1
yi =n2 .
i=n+1
yi
2 =
i=n+1
(6.26)
m+n
1
log 2 2
2
2 2
85
(yi 1 )2 +
i=1
(yi 2 )2
i=n+1
L =
m+n
1
log 2 2
n 2 + m 2
2
2
2
L =
m+n
log 2 2 + 1
2
n
2
L()= log 21
2
(yi )2
i=1
2
21
n+m
m
2
log 22
2
(yi )2
i=n+1
2
22
(6.27)
n
2
L = log 2 1
2
(yi )2
i=1
2
21
n+m
m
2
log 2 2
2
(yi )2
i=n+1
2
22
da vem que
L
n
m
n+m
2
2
log 2 log 1 log 2
2
2
2
n
m+n
1
1
(yi )2
(yi )2
2
2
21 i=1
22 i=n+1
e nalmente
L =
n
m
(n + m)
2
2
(log 2 + 1) log 1 log 2
2
2
2
(6.28)
Deve-se agora encontrar o valor da funo suporte maximizada; para isto, deriva-se
(6.27) em relao a cada parmetro para se encontrar as estimativas dos parmetros.
86
2
Derivando em relao a 1 e igualando a zero
n log 2 2
(yi )
L ()
2 = 0, tem-se:
1
n+m
m
2
log 22
2
i=1
2
21
(yi )
22
i=n+1
= 0,
2
1
Desse modo
n
2
21
2
2 1
(yi ) = 0 =
2
i=1
2
21
(yi )2 =
i=1
n
2
2
Assim o estimador de 1 dado por
2
1
1
=
n
(yi )2
(6.29)
i=1
2
Derivando (6.27) em relao a 2 e igualando-se a zero tem-se:
n+m
n
2
2
(yi )
(yi )
n
m
i=n+1
i=1
2
2
log 21
log 22
2
2
2
2
21
22
=0
2
2
Assim
m
2
22
n+m
1
2
2 2
(yi )2 = 0 =
i=n+1
1
2
22
n+m
(yi )2 =
i=n+1
m
2
2
E assim obtm-se o estimador de 2 dado por:
2
2 =
1
m
n+m
(yi )2
i=n+1
87
(6.30)
Fazendo-se
L ()
= 0 em (6.27) tem-se:
(yi )
2
n log 21
2
n+m
i=1
2
21
m
2
log 22
2
(yi )
22
i=n+1
=0
Desse modo
1
2
21
(yi ) (1)
n+m
1
2
22
i=1
(yi ) (1) = 0
2
i=n+1
1
2
1
(yi ) =
i=1
1
2
2
n+m
(yi )
(6.31)
i=n+1
2
2
Substituindo os estimadores de 1 e 2 , obtidos em (6.29) e (6.30) em (6.31)
tem-se:
1
n
1
n
(yi )2
1
m
i=1
i=1
n+m
(yi ) =
n+m
(yi
(yi )
)2 i=n+1
i=n+1
n+m
2
(yi )
i=n+1
n+m
2
(yi )
(yi ) = m
i=1
i=1
(yi )
i=n+1
n+m
(yi )
n
i=1
n+m
2
(yi ) + m
i=n+1
yi
i=1
n+m
i=1
i=n+1
(yi )2 = 0
(yi )
i=n+1
2
yi 2yi + 2 +
88
i=1
n+m
n+m
yi
+m
i=n+1
2
yi 2yi + 2 = 0
i=n+1
i=1
n+m
n+m
2
yi 2
yi n
n
i=1
i=n+1
yi + m2 +
i=n+1
(P )
n+m
n+m
yi
+m
i=n+1
n
2
yi
i=n+1
yi + n2 = 0
i=1
i=1
(Q)
n+m
2
yi 2
yi n
i=n+1
i=1
n
yi + m2 = n
i=1
i=1
yi n2
yi +mn2
yi
i=1
i=n+1
n+m
yi
i=n+1
n+m
2n
n+m
n+m
i=n+1
2
yi +2n2 2
i=n+1
2
yi
n+m
yi n2 m3
i=n+1
n+m
yi m
i=1
i=n+1
n
2m
n+m
yi + n2 = m
n+m
yi m2
i=n+1
i=n+1
n+m
yi
i=n+1
i=1
yi + mn2
yi
i=1
2
yi 2
i=1
2
yi + 2m2 2
i=1
n
2
yi
yi nm2 3
i=1
0=(P )+(Q) = n
yi
i=1
n+m
n+m
2
yi
i=n+1
2n
n+m
yi
i=1
yi +
mn2
i=n+1
n+m
n+m
2
2 2
2
3+m
n
yi + 2n
yi n m
yi
i=n+1
i=n+1
i=n+1
n
n+m
n+m
n
2
2m
yi
yi + mn2
yi m2
yi
i=1
i=n+1
i=n+1
i=1
n
+ 2m2 2
yi nm2 3
i=1
yi
i=1
n
89
2
yi
i=1
nm2 + n2 m 3 + 2m2
n+m
yi + mn
i=1
+ m2
2
yi 2m
i=1
n
+n
n+m
yi
i=1
i=n+1
n+m
yi
i=n+1
n+m
i=1
n+m
i=n+1
yi 2 +
yi + mn
yi
i=n+1
2
yi + m
n+m
i=n+1
yi 2n
yi
i=1
yi + 2n2
i=1
n+m
yi n 2
i=n+1
2
yi
i=n+1
2
yi = 0
i=1
2m2
3
n+m
i=1
n+m
yi + 2n2
yi + mn
i=n+1
yi + mn
i=n+1
yi
i=1
nm (m + n)
n
m2
2
yi 2m
i=1
n+m
i=1
n+m
yi 2n
yi
yi n2
yi
i=n+1
i=1
n+m
2
yi
i=n+1
i=n+1
nm (m + n)
n
n+m
yi
n
i=1
2
yi + m
i=n+1
n+m
yi
2
yi
i=1
i=n+1
=0
nm (m + n)
Da segue que
n+m
n+m
yi
2n
yi
yi
n (m + n) (m + n) m (m + n) (m + n)
2m
yi
i=n+1
i=1
3 + 2
2
m yi
i=1
+
+
n (m + n)
1
nm (m + n)
i=n+1
n+m
yi
i=1
yi
i=n+1
n+m
n+m
yi
i=1
yi
Sejam
90
m (m + n)
n+m
i=n+1
n+m
i=n+1
2
yi + m
yi
i=1
2
+
n (m + n)
i=1
m (m + n)
n
2
yi
yi
i=n+1
2
n
yi
i=n+1
i=1
= 0 (6.32)
w=
n
m+n
m
,
m+n
n+m
n
i=1
, 2 =
yi
yi
1 =
, v=
i=n+1
n+m
2
yi
s2 = i=1
1
2
yi
i=n+1
, s2 =
2
(6.33)
3 + 2(2v1
+
w
m
v2 2w2 w1 ) +
n+m
2
yi
i=n+1
w
1
m
n+m
2
yi +
i=n+1
v
2
n
v
n
n
2
yi + 2v1 2 + 2w1 2
i=1
n
2
yi
=0
i=1
3 + 2 1
m+m+n
m+n
m+n+n
m+n
m
n
1+
2
m+n
m+n
n
m
+
+ vs2 + ws2 1 ws2 + v2 s2 = 0
1
2
2
1
m+n m+n
3 + 2 1 1 +
+ 21 2
3 + 2 (1 (1 + v) (1 + w) 2 ) + 21 2 + vs2 + ws2
1
2
1 ws2 + v2 s2 = 0
2
1
91
Fazendo
A = (1 (1 + v) + (1 + w) 2 )
(6.34)
B = 21 2 + vs2 + ws2
1
2
2
C = 1 ws2 + v2 s2
1
(6.35)
(6.36)
q
+
2
q
2
p
3
92
q
2
q
2
p
3