Inferencia Apostila

Inferncia Estatstica
James Dean Oliveira dos Santos Jr.
May 20, 2015
Contents
1 Introduo
1.1
Notaes . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
1.2
Famlias de Distribuies e abordagens paramtrica e no paramtrica
1.2.1
1.3
1.4
Famlia Exponencial
Inferncia
. . . . . . . . . . . . . . . . . . . . .
. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
1.3.1
Inferncia Frequentista ou Bayesiana?
. . . . . . . . . . .
10
1.3.2
Isto tudo? . . . . . . . . . . . . . . . . . . . . . . . . . .
14
Exerccios . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
14
2 Estatsticas
17
2.1
Introduo . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
17
2.2
Sucincia . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
18
2.3
Estatsticas sucientes minimais . . . . . . . . . . . . . . . . . . .
23
2.4
Estatsticas ancilares e estatsticas completas
. . . . . . . . . . .
26
2.5
Exerccios . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
31
3 Estimao Pontual
35
3.1
Estimador, Estimativa e Bons Estimadores
3.2
Estimao Pontual Frequenstista
3.3
3.4
. . . . . . . . . . . .
35
. . . . . . . . . . . . . . . . . .
37
3.2.1
Mtodo dos Momentos . . . . . . . . . . . . . . . . . . . .
37
3.2.2
Mtodo da Mxima Verossimilhana . . . . . . . . . . . .
41
3.2.3
Melhores Estimadores No-Viesados
. . . . . . . . . . . .
48
Estimao Pontual Bayesiana . . . . . . . . . . . . . . . . . . . .
60
3.3.1
. . . . . . . . . . . . . . . . . . . . .
62
Exerccios . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
64
Estimador de Bayes
4 Testes de Hipteses Paramtricos

4.1
67
Testes de Hipteses Frequentistas . . . . . . . . . . . . . . . . . .
69
4.1.1
Construo de um Teste Frequentista
. . . . . . . . . . .
69
4.1.2
Teste da Razo de Verossimilhanas
. . . . . . . . . . . .
77
4.1.3
Teste de Neyman-Pearson . . . . . . . . . . . . . . . . . .
83
4.1.4
Testes Uniformemente Mais Poderosos . . . . . . . . . . .
86
4.2
P-valores
. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
4.3
Testes de Hipteses Bayesianos
94
. . . . . . . . . . . . . . . . . . .
95
4.3.1
Fatores de Bayes . . . . . . . . . . . . . . . . . . . . . . .
95
4.3.2
Hipteses Precisas
97
. . . . . . . . . . . . . . . . . . . . . .
5 Estimao Intervalar
99
4
5.1
Introduo . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
5.2
Intervalos de Conana
5.3
99
. . . . . . . . . . . . . . . . . . . . . . . 100
5.2.1
Mtodo da Inverso
. . . . . . . . . . . . . . . . . . . . . 101
5.2.2
Mtodo da Quantidade Pivotal . . . . . . . . . . . . . . . 103
5.2.3
Avaliando Intervalos
. . . . . . . . . . . . . . . . . . . . . 104
Exerccios . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 104
6 Teoria para Grandes Amostras
105
6.1
Funo Escore e Informao de Fisher
6.2
Consistncia dos EMV . . . . . . . . . . . . . . . . . . . . . . . . 107
6.3
Testes Assintticos . . . . . . . . . . . . . . . . . . . . . . . . . . 110
. . . . . . . . . . . . . . . 105
Prefcio
Este material est sendo construdo para servir como base para alunos do
Mestrado em Matemtica da Universidade Federal do Amazonas.
Em geral,
estas notas so atualizadas sempre que o autor tem a oportunidade de ministrar

o curso. A verso anterior continha muitos erros grosseiros, especialmente com
relao escrita e notao. Alm disso, alguns resultados pareciam costurados
e com falta de coeso.
Esta verso est tentando corrigir estes erros. Ela passar por diversas modicaes, especialmente estruturais, ao longo deste ano.
Assim, fortemente
recomendado que este material no seja utilizado como nica fonte de estudo.
Vale ressaltar tambm que muitos os jarges estatsticos so desconhecidos

por alunos de outras reas. Deste modo, este material tenta suprir essas decincias.
Qualquer dvida ou crtica poder ser reportada atravs do e-mail james@ufam.edu.br.
Manaus, 08 de Fevereiro de 2014.
Chapter 1
Introduo
1.1 Notaes
Ao longo deste texto, uma varivel aleatria sempre ser representada por letras maisculas, enquanto que seus respectivos valores observados sero representados por letras minsculas. A exceo ocorre na notao dos parmetros,
que sempre sero representados por letras gregas minsculas
1 mesmo se forem
considerados aleatrios. Em alguns momentos, letras gregas minsculas sero

utilizadas no lugar de funes de variveis aleatrias, mas isto car claro no
contexto.
As funes densidade ou de probabilidade sero designadas por letras minsculas e suas respectivas funes de distribuio sero representadas pelas suas
respectivas letras maisculas. Por exemplo,
f (x|) = ex ,
onde
x, > 0
a densidade da distribuio exponencial e sua funo de dis-
tribuio dada por
F (x|) = 1 ex ,
onde
> 0.
A funo de probabilidade da distribuio Poisson
f (x|) =
1 Esta
e x
,
x!
conveno bastante aceita na literatura

5
onde
x = 0, 1, 2, . . .
> 0,
e sua funo de distribuio
F (x|) =
x
X
e y
y!
y=0
onde
> 0.
Optou-se por esta notao para manter a uniformidade dos di-
versos teoremas que valem tanto para o caso discreto quanto para o contnuo.
Tradicionalmente, funes de probabilidade de uma varivel aleatria discreta
so descritas como
P (X = x).
Por exemplo, a funo de probabilidade da
distribuio Poisson dada por
P (X = x|) =
onde
> 0.
e x
,
x!
A mudana de notao foi proposta para evitar a descrio de
funes de probabilidade da forma,
P ( = |x),
que faz sentido no contexto bayesiano mas no comum nos textos que tratam
especicamente desta tipo de inferncia. Contudo, a notao
P (X = x)
ainda
ser utilizada em alguns casos quando houver a necessidade real de explicitar o

evento aleatrio em questo.
Sob o ponto de vista no paramtrico, funes de densidade, probabilidade e

distribuio sero apresentadas sem a condicioanl sobre o parmetro. Exemplos:
f (x)
F (x).
Sob o ponto de vista baysiano, a mesma notao ser utilizada
para representar a distribuio marginal de
X,
como por exemplo
Z
f (x) =
f (x|)dF ().
Quando necessrio, o suporte de uma varivel aleatria ser denotado por

sua verso caligrca. Por exemplo, os suportes de
um vetor aleatrio
X.
X = {X1 , . . . , Xn }
sero
Y.
Para
tambm ser utilizada a mesma notao
Uma exceo ocorrer com o conjunto com todos os valores possveis do
parmetro que, independente de ser aleatrio ou no, sempre ser representado

por sua respectiva letra grega maiscula. Por exemplo, o conjunto dos possveis
valores de
representado por
A seguintes notaes sero utilizadas para designar certas estatsticas:
Mdia amostral:
=
X
n
X
Xi
i=1
(1.1)
Varincia amostral:
S2 =
n
X
2
(Xi X)
i=1
Estatsticas de ordem:
n1
(1.2)
X1 , X2 , . . . , Xn a i-sima esi-simio valor da amostra orparticular, X(1) = min{X1 , . . . , Xn } e
para uma coleo
tatstica de ordem, denotada por

denada em ordem crescente.
X(i) ,
Em
X(n) = max{X1 , . . . , Xn }
1.2 Famlias de Distribuies e abordagens paramtrica

e no paramtrica
Sob o ponto de vista estatstico, a amostra
funo de distribuio
X1 , . . . , Xn
proveniente de uma
(desconhecida), suposta pertencer uma famlia
funes de distribuio. Considerando
de
como sendo o conjunto com todas as
funes de distribuio, um primeiro desao seria identicar qual funo em
foi a geradora da amostra.
A busca por um bom modelo dentro de
que capture a informao contida
na amostra pode, dependendo do contexto, ser uma tarefa rdua. Em vez disso,
usual procurar por um modelo que explique bem a amostra dentro de um
subconjunto de
F .
O modo como este subconjunto gera duas abordagens (no
mutualmente exclusivas): a paramtrica e a no paramtrica.
A abordagem paramtrica supe que a funo de distribuio est completamente especicada por certa quantidade, no observvel, denominada parmetro.
Usualmente, parmetros so representados letras gregas e neste material a letra
ser utilizada sempre que possvel para se referir ao de interesse. Sem maiores
prejuzos s especicidades das inferncias frequentista e bayesiana, pode-se

dizer que a distribuio de
distribuio de
X|
depende do conhecimento prvio de
ou seja, a
conhecida.
F (.|), o conjunto de todos os valores possveis

F (.|) seja uma funo de distribuio denominado espao paramtrico. Por exemplo, se X1 , . . . , Xn uma coleo de
variveis aleatrias independentes com distribuio Poisson( ), ento o espao
paramtrico ser = (0, ).
Uma vez xado o modelo
do parmetro que permitem que
A famlia
dita ser paramtrica se apenas o conhecimento de
para especicar a funo de distribuio, ou seja
F = {F (.|) : }.
7
necessrio
Deste modo, a abordagem paramtrica substitui o problema de lidar com

dentro do espao de todas as funes de distribuio para lidar com
2 tenta contemplar um amplo conjunto de
A abordagem no paramtrica
funes de distribuio com restries brandas, como por exemplo, o conjunto

de todas as variveis aleatrias com varincia nita, dado por
Z
F (.) F :
1.2.1
x dF (x) < .
Famlia Exponencial
A famlia exponencial uma importante famlia paramtrica.
Denio 1.1. Uma famlia de densidades/funes de probabilidade denominada exponencial se existir a decomposio
f (x|) = h(x)c() exp
k
X
!
wi ()ti (x) ,
(1.3)
i=1
onde h(x) 0 e t1 (x), . . . , tk (x) so funes reais de x que no podem depender

de e c() e w1 (), . . . , wk () so funes reais de que no podem depender
de x.
Exemplo 1.1 (Famlia exponencial: binomial).
Seja
X| Binomial(n, ).
Ento,

n
n x
(1 )nx =
(1 )n ex log()x log(1)
x
x

n
=
(1 )n ex log( 1 ) .
x

h(x) = nx , t(x) = x, c() = (1 )n e w() = log(/(1 )),
p(x|) =
Fazendo
temos
que a distribuio binomial pertence a famlia exponencial. Note que, se

desconhecido, a distribuio deixa de pertencer famlia exponencial.
Exemplo 1.2 (Famlia exponencial: normal).
Seja
for
X|, 2 Normal(, 2 ).
Temos que

1
2
f (x|, ) =
exp 2 (x )
2
2 2

1
2
x2
x
=
exp 2 exp 2 + 2 .
2
2
2 2
2
2 difcil denir formalmente o conceito de abordagem no paramtrica. Contudo, a

denio dada aqui ser suciente para apresentar as diferentes metodologias de modo satisfatrio.
8
h(x) = I(x R) = 1, c(, 2 ) = (2 2 )1/2 e

t2 (x) = x, w1 (, 2 ) = 1/2 2 e w2 (, 2 ) = /2 2 , temos
Fazendo
/2 2
que
famlia exponencial.
t1 (x) = x2 ,
X pertence
Denio 1.2. Se = w(), a decomposio dada na Denio 1.1 pode ser

reescrita como
k
X
f (x|) = h(x)c () exp
!
i ti (x) ,
(1.4)
i=1
onde
1
c ()
k
X
Z
h(x) exp
=
X
!
i ti (x) dx.
i=1
Esta nova decomposio denominada forma cannica e denominado

parmetro cannico.
1.3 Inferncia
Considere uma distribuio de probabilidade
amostra
X1 , . . . , Xn .
Em geral, a distribuio
P,
P
responsvel pela gerao da

desconhecida e o objetivo da
inferncia estatstica utilizar a amostra observada para fazer alguma conjectura

sobre
P.
A inferncia pode ser dividida em trs grandes problemas:
Estimao pontual: neste problema, existe interesse em fazer inferncias

sobre alguma quantidade proveniente do modelo
querer estimar a mdia de
P,
P.
Por exemplo, pode-se
denida por
Z
(P ) =
xdP.
Estimao por regies: neste problema, existe o interesse em encontrar

uma regio
na qual pode-se fazer a inferncia
A, onde representa
A for um intervalo na
alguma quantidade de interesse. Em particular, se
reta o problema conhecido como estimao intervalar.
Testes de hipteses: neste problema, existe alguma hiptese do tipo

e o objetivo determinar se aceitamos ou no esta hiptese.
9
Em relao ao mtodo, existem duas principais abordagens para fazer inferncias: frequentista e bayesiana.
1.3.1
Inferncia Frequentista ou Bayesiana?
As inferncias frequentista e bayesiana so baseadas em interpretaes distintas

de probabilidade. Primeiramente, considere a probabilidade frequentista.
Denio 1.3 (Probabilidade Frequentista). Suponha que um mesmo experimento repetido um grande nmero de vezes sob condies idnticas. Ento
a probabilidade de um evento equivalente a sua frequncia relativa. Esta probabilidade denominada frequentista.
Os resultados da inferncia frequentista baseiam suas propriedades em termos de frequncias relativas: se o experimento for replicado innitas vezes, a
melhor estratgia a que possui bom desempenho na maioria das vezes.
Exemplo 1.3.
Seja
X1 , . . . , Xn
uma amostra de vaiid com
e considere o problema de estimar o valor de
Xi | Bernoulli()
sob o ponto de vista frequentista.
Neste caso, considere a varivel aleatria
T =
n
X
Xi
i=1
Observe que
E[T |] =
n
X
i=1

E

Xi
1
= E

n
n
n
X
i=1
!

Xi = .

Uma ilustrao de uma possvel funo de probabilidade para

10
dada abaixo.
f(t )
Note que os valores de
com maior probabilidade esto prximos de
suponha que foi observada a amostra
t=
x = {x1 , . . . , xn }
n
X
xi
i=1
Agora,
e calculado
(1.5)
Se innitas amostras tivessem sido retiradas e, para cada uma fosse associada
seu respectivo valor de
t,
ento os valores da sequncia
frequncia relativa seriam aqueles prximos de
t1 , t2 , . . .
com maior
Portanto, associar o valor
obtido a partir da amostra observada com o valor de
uma estratgia com
bons resultados na maioria das vezes.
A inferncia bayesiana baseada na probabilidade pessoal, ou subjetiva.
Denio 1.4 (Probabilidade Subjetiva). A probabilidade proveniente de

um julgamento pessoal sobre a ocorrncia de certo evento denominada probabilidade subjetiva.
Na inferncia bayesiana a incerteza sobre a quantidade
atravs de uma distribuio de probabilidade
f ()
quanticada
denominada
priori.
Esta
quanticao feita de modo pessoal, traduzindo o grau de crena do indivduo

em relao aos valores possveis de
Em seguida, uma amostra de
X|
ob-
servada. A atualizao das crenas do indivduo em conjunto com as evidncias

11
da amostra feita atravs do Teorema de Bayes
f (|x) =
|x
A distribuio de
Exemplo 1.4.
Seja
f (x|)f ()
.
f (x)
denominada
X1 , . . . , Xn
posteriori.
e considere o problema de estimar o valor de

Como sabido que
sobre
Xi | Bernoulli()
sob o ponto de vista bayesiano.
(0, 1) e considerando que no existem outras informaes
disponveis, razovel assumir inicialmente que
Uniforme(0, 1).
Isto implica que, sem analisar qualquer amostra, voc cr que cada subintervalo
de
(0, 1)
com o mesmo comprimento possui a mesma chance de representar seu
conhecimento sobre
A distribuio de
f (|x) f (x|) f () =
n
Y
aps observar a amostra
seria
f (xi |) f ()
i=1
n
Y
xi (1 )1xi 1 =
Pn
i=1
xi
(1 )n
Pn
i=1
xi
i=1
Reconhecendo a ltima expresso acima como o ncleo de uma densidade beta,
Pn
i=1 xi + 1, n
i=1 xi + 1). A gura abaixo mostra
um exemplo com a densidade (subjetiva) de antes e depois da amostra x ter
tem-se que
|x
Pn
Beta(
sido observada. Perceba como os dados modicaram a probabilidade subjetiva

em relao
.
12
f( x)
Densidade Beta
Densidade Uniforme

Ao observar o grco acima, pode-se notar que a densidade subjetiva sobre
a posteriori
est concentrada em torno da mdia, sendo esta um nmero que
pode estimar (representar)
Assim, uma estimativa pontual para
Pn
E[|x] =
xi + 1
.
n+2
i=1
Neste ponto, importante ressaltar que, embora as duas inferncias citadas

acima sirvam para resolver os mesmos problemas, a interpretao dos resultados
diferente. Por este motivo, nestas notas de aula, comparaes sobre performances entre inferncias sero evitadas.
Do que foi discutido acima, pode-se
notar que existe um ponto em comum entre as duas inferncias: ambas utilizam
X1 , . . . , Xn proveniente de um modelo f (.|). No

f (.|) foi utilizado para encontrar a distribuio de
a informao de uma amostra

caso frequentista, o modelo
e no caso bayesiano o modelo foi utilizado em conjunto com a distribuio
priori
para encontrar a distribuio
a posteriori
de
Este modelo denomi-
nado verossimilhana.
Denio 1.5. Seja X1 , . . . , Xn uma amostra de variveis aleatrias com densidade/funo de probabilidade conjunta dada por
f (x|).
A funo L : [0, )
L() = f (x|)
13
denominada funo de verossimilhana. Em particular, se X1 , . . . , Xn forem

variveis independentes, tem-se que
L() =
n
Y
f (xi |).
i=1
Falar em que momento retornaremos a discursar sobre o papel da verossimilhana.
1.3.2
Isto tudo?
Os Exemplos 1.3 e 1.4 mostraram a anlise do mesmo modelo paramtrico sob

o ponto de vista frequentista e o bayesiano. Naturalmente, existem os mesmos
pontos de vista para modelagens no paramtricas. Entender as diferenas entre
cada metodologia o objetivo destas notas de aula. Contudo, a cincia no se
limita a pontos de vista isolados. Existem situaes nas quais solues frequentistas so utilizadas em tcnicas bayesianas e vice-e-versa, alm de situaes nas
quais parte do modelo paramtrico e a outra parte no paramtrica.
1.4 Exerccios
1.1.
Seja
X1 , . . . , Xn
uma amostra de variveis aleatrias independentes com
k
X
!
wi ()ti (x) .
i=1
Prove que a distribuio conjunta da amostra pertence famlia exponencial.
1.2.
Seja
uma varivel aleatria com funo densidade/probabilidade dada
por
f (x|) = h(x)c? () exp (x) .

Considere ainda que o espao paramtrico
aberto.
(a) Prove que
MX (s) =
c? ()
.
c? ( + s)
(b) Prova que
E(X) =
14
d
log c? ().
d
1.3.
Prove que as seguintes distribuies pertencem famlia exponencial e
encontre sua forma cannica:
1. Distribuio gama, com densidade dada por
f (x|, ) =
com
1
x
exp{x},
()
x, , > 0.
2. Distribuio beta, com densidade dada por
f (x|, ) =
com
0 < x < 1, > 0
x1 (1 x)1
,
B(, )
> 0.
3. Distribuio Poisson, com funo de probabilidade dada por
e x
,
x!
f (x|) =
>0
onde
x = 0, 1, 2, . . ..
4. Distribuio binomial negativa (com
conhecido), com funo de proba-
bilidade dada portanto
f (x|) =
com
0<<1
x = 0, 1, 2, . . .
Seo 1.3.1
1.4. (Fcil)
dentes com

r+x1 r
(1 )x ,
x
Seja X1 , . . . , Xn
Xi | Poisson().
Pn
Xi | Poisson(n).
(a) Mostre que
T =
(b) Mostre que
E[T /n|] = .
i=1
uma amostra de variveis aleatrias indepen-
(c) Baseado no item anterior, se retirarmos innitas amostras de tamanho

que podemos esperar ao observar
(d) Considere a amostra observada
T /n?
x = {11, 10, 4, 13, 7}.

5
X xi
t
=
.
5
5
i=1
O que este resultado representa?
15
Calcule
n,
1.5.
X1 , . . . , Xn
(Fcil) Seja
(a) Considere que a informao

como
Exponencial(1).
a priori
sobre
pode ser expressada atravs
Encontre a distribuio
(b) Considere a amostra observada
Xi | Poisson().
a posteriori
x = {11, 10, 4, 13, 7}.
de
Quanto vale
E[|x]?
O que este resultado representa?
1.6.
(Mdio) Seja
X1 | Exponencial().
Considere a seguinte hiptese:
1.
(a) Se a hiptese verdadeira, mostre que, para qualquer
a>0
P (X a|) 1 ex .
(b) Se a hiptese verdadeira, encontre o valor de
tal que
P (X a|) 0, 95.
(c) Considere a inferncia Rejeita-se a hiptese quando
a.
x observado maior que
Se retirarmos innitas amostras de tamanho 1 e observarmos quantas
vezes ocorreu
x > a,
qual a proporo de amostras nas quais a hiptese
verdadeira, mas rejeitada?

(d) Observa-se
x = 17.
Neste caso deve-se rejeitar a hiptese?
Interprete a
deciso.
1.7.
(Mdio)Seja
X1 |
Exponencial(). Considere a seguinte hiptese:
1.
(a) Considere a informao
a priori Exponencial(log(2)).
Calcule a prob-
abilidade
P ( 1).
Interprete este resultado.
(b) Mostre que a distribuio
(c) Observa-se
x = 17.
a posteriori
|x Gama(2, x + log(2)).
Calcule
P ( 1|x).
Compare esta probabilidade com a obtida no item
sultado.
16
(a).
Interprete este re-
Chapter 2
Estatsticas
2.1 Introduo
Seja
X1 , . . . , Xn
uma amostra de varveis aleatrias com
o problema de fazer inferncias sobre alguma quantidade

que a amostra carrega informao sobre
de
Xi F (.) e considere
(F ). razovel crer
(.), uma vez que ela foi gerada a partir
F (.).
Denio 2.1. O conjunto X n representa o espao de todas as amostras possveis de tamanho n e denominado espao amostral.
Torna-se necessrio criar um mecanismo que retire informaes relevantes

da amostra, de modo a facilitar o processo de inferncia. Tais mecanismos so
estatsticas.
Denio 2.2. Qualquer funo T : X n Rn T Rm denominada
estatstica.
denominados
Informalmente, uma estatstica
qualquer funo da amostra. imediato
que estatsticas so variveis aleatrias e suas distribuies so denominadas
distribuies amostrais.
X = {X1 , . . . , Xn }, ser
T funo de X e, em
caso contrrio, ser utilizada simplesmente a notao T . De modo anlogo, para
a amostra observada x = {x1 , . . . , xn } sero utilizadas as notaes T (x) ou t.
utilizada a notao
Para uma amostra aleatria
T (X)
se for relevante ressaltar que
As estatsticas procuram sumarizar a informao da amostra. Uma das principais caractersticas de uma estatstica o particionamento do espao amostral,
17
que pode gerar a reduo da informao da amostra.
Exemplo 2.1.
X1 Gama(1, ).
n
n
X
=
R
. Considere a estatstica T (X) =
+
Pn
i=1 Xi . A distribuio amostral de T uma Gama(n, ) e T = R+ . A estatstica T reduziu a informao da amostra, de dimenso n, para uma informao
escalar.

Seja
X1 , . . . , Xn
O espao amostral o conjunto
Em princpio, sempre possvel gerar uma estatstica com dimenso menor

que o tamanho da amostra. Neste captulo sero apresentados alguns conceitos
sobre a qualidade destas redues para algumas estatsticas.
2.2 Sucincia
T tal
X|T (X)
X|T (X)
Considere que existe uma estatstica
que
sentido de que a distribuio de
no depende de
no depende de
).
(no
Este tipo de
estatstica denominada suciente.
Denio 2.3. Uma estatstica
T (X) dita ser suciente para se a dis-
tribuio X|T (X) no depende de .
Exemplo 2.2.
X1 , . . .P
, Xn uma amostra iid de X1 Poisson(). Conn
T (X) = i=1 Xi . Sabendo que T (X) Poisson(n), tem-se
Seja
sidere a estatstica
que
f (x, T (x))
f (T (x))
n
e
(n)t
= f (x)
t!
Qn xi
e /xi !
= t! i=1n
e
(n)t
Qn
Pn
t!
xi
i=1 1/xi !
i=1
= t!
= t Qn
.
(n)t
n i=1 xi !
f (x|T (x)) =
logo,
T (X) =
Pn
i=1
Xi
Exemplo 2.3 (Estatstica Suciente Trivial).

para
uma estatstica suciente.
A amostra sempre suciente
De fato, note que
f (x|x, ) =
f (x, x|)
= 1.
f (x|)
18
Avaliar se uma estatstica suciente atravs da Denio 2.3 pode ser uma
tarefa rdua. O teorema a seguir uma importante ferramenta para a busca de
estatsticas sucientes.
Teorema 2.4 (Critrio da Fatorao). Seja X uma amostra aleatria cuja

distribuio depende de . Ento, T (X) um estatstica suciente para se e
somente se existem funes h(x) e g(T (X), ) tais que
f (x|) = h(x)g(T (x), ).
Proof.
Ser demonstrado apenas o caso discreto.
(2.1)
T (X)
Primeiro, seja
uma
estatstica suciente. Ento
f (x|) = f (x, T (x)|)

= f (x|T (x), )f (T (x)|)
e como
suciente,
= f (x|T (x))f (T (x)|)
(2.2)
A decomposio (2.1) pode ser obtida fazendo
f (t|).
h(x) = f (x|t)
g(T, ) =
Agora, suponha que a decomposio (2.1) verdadeira para alguma
estatstica
T.
Ento,
f (x, T (x)|)
f (T (x)|)
f (x|)
=P
f (x|T (x), ) =
yX n :T (y)=T (x)
=P
=P
Portanto, como
X|T (X)
f (y|)
h(x)g(T (x), )
yX n :T (y)=T (x) h(y)g(T (y), )
h(x)
yX n :T (y)=T (x)
no depende de
h(y)
tem-se que
T (X)
suciente para
Corolrio 2.5. Considere a decomposio

f (x|) = h(x)g(t, ).
Ento, f (t|) g(t, ).
Corolrio 2.6. Se
T uma estatstica suciente e T = T (U (X)), ento U
tambm suciente.
19
Corolrio 2.7. Se T uma estatstica suciente e g 1:1, ento g(T) tambm

suciente.
Exemplo 2.4.
Seja
X1 , . . . , Xn uma amostra de vaiid com Xi Exponencial(),
cuja densidade conjunta dada por
f (x|) = n e
h(x) = 1
suciente para .
Fazendo
g(T (x), ) = n e
Pn
i=1
i=1
xi
xi
, tem-se que
T (X) =
g(t, ), pode-se notar

Gama(n, ), dada por
Observando a forma de
proporcional densidade da distribuio
f (t|) =
Portanto, pelo Corolrio 2.5 tem-se
Exemplo 2.5.
Pn
Seja
n n1 t
t
e .
(n)
Pn
que
i=1 Xi Gama(n, ).
Pn
i=1
Xi
que esta
X1 , . . . , Xn uma amostra de vaiid com Xi Uniforme(0, ),
cuja densidade conjunta
n
1 Y
I(xi ).
f (x|) = n
i=1
O produtrio acima igual a um se e somente se todas as observaes forem
menores ou iguais que
seja menor que
Para que isto ocorra, basta que a maior das observaes
Assim,
1
I(x(n) ),
n
g(t, ) = f (x|), tem-se que T (X) = X(n)
f (x|) =
e, fazendo
para
X(n)
h(x) = 1
suciente
Fica como exerccio ao leitor mostrar que a distribuio amostral de
fX(n) (t|) = nf (t|)n1 =

o que implica que
n n1
t
I(0 < t ),
n
X(n) / Beta(n, 1).
Existem situaes nas quais existe mais de uma estatstica suciente para o
mesmo parmetro, ou uma estatstica suciente est associada a dois ou mais
parmetros.
Em ambos os casos, dizemos que a estatstica conjuntamente
suciente para o(s) parmetro(s).
Exemplo 2.6.
Seja
X1 , . . . , Xn
Xi
Gama(, ).
Ento,
!1
n
n
Y
Y
Pn
1 xi
n n
f (x|) =
xi e
= ()
xi
e i=1 xi .
()
i=1
i=1
Qn
Pn
Assim, T (X) = { i=1 Xi ,
i=1 Xi } uma estatstica suciente bidimensional
Qn
para (alternativamente, tambm correto dizer que T1 (X) =
i=1 Xi e
Pn
T2 (X) = i=1 so estatsticas conjuntamente sucientes para ).

20
Exemplo 2.7.
Fazendo
Seja
= (, )
X1 , . . . , Xn uma amostra de vaiid com X1 Normal(, 2 ).

tem-se,
(
)
n/2
n
1 X
(xi )2
1
exp 2
exp
f (x|) =
(xi )2
2
2
2
2
2
2
i=1
i=1

n/2
o
n n
n
1
1
exp 2 (
x )2 exp
s2 ,
=
2
2
2 2
n
Y
onde foi utilizada a identidade
n
n
X
X
(xi )2 =
(xi x
)2 + n(
x )2 = (n 1)s2 + n(
x )2 .
i=1
(2.3)
i=1
Assim, a estatstica
S2}
{X,
tando que
so conjuntamente sucientes para
{, 2 }.
No-
n n
o
1 exp 2 (
x )2
2
proporcional densidade de uma Normal(,
/n), cuja densidade dada por
n n
o
n
f (
x|, 2 ) =
x )2 .
exp 2 (
2
2 2
Pode-se ainda observar que
f (x|) =

n 1/2
o 1 n1
n n
2
n1 2
2
exp
(
x
s
.
exp
2 2
2 2
2 2
2 2
A ltima parcela do produto acima proporcional densidade da distribuio

Gama((n
1)/2,(n 1)/2 2 ),
f (s2 2) =
n1
2 2
cuja densidade dada por
n1
2

n1
n1 2
1
(s2 ) 2 1 exp
s
,
(n 1)
2 2
tem-se que a densidade conjunta da amostra pode ser reescrita como
f (x|) = h(x)g1 (
x, )g2 (s2 , 2 ),
g1 (
x, ) a densidade da
2
Gama((n 1)/2,(n 1)/2 ) e
onde
Normal(,
h(x) =
/n), g2 (s2 , 2 )
(n 1)
.
(s2 )0,5(n1)
Portanto, pelo Corolrio 2.5 temos que

21
a densidade da
Normal(, 2 /n),
X
S 2 Gama((n 1)/2, (n 1)/2 2 )
S2
so independentes.
Fica como exerccio para o leitor mostrar que
(n 1)
S2
2n1 .
2
Em alguns exemplos acima, a amostra proveniente de uma distribuio na

famlia exponencial.
Abaixo segue um importante teorema relacionando esta
famlia com as estatsticas sucientes.
Teorema 2.8. Se
X1 , . . . , Xn so vaiid provenientes de uma distribuio na
famlia exponencial, ento
T (X) =
( n
X
T1 (xi ), . . . ,
i=1
n
X
)
Tk (xi )
i=1
suciente para .
Proof.
Segue diretamente da Proposio
??.
possvel estender a noo de estatstic suciente para a abordagem no

paramtrica.
Denio 2.9. Seja X = {X1 , . . . , Xn } uma amostra aleatria com X F (.).

Uma estatstica dita ser suciente para F se a distribuio X|T (X) no
depende de F (.).
Exemplo 2.8.
conjunto
vezes que ocorreu
na amostra
FD a famlia de todas as distribuies cujo suporte um

T (X) = {nz (X), z Z}, onde nz (X) o nmero de
o valor z na amostra X (tambm denominado frequncia de
Por ltimo, seja X uma amostra de vaiid com X1 F FD .
Seja
D Z.
X ).
Seja
Ento
f (x) =
n
Y
f (xi ) =
i=1
Portanto, pelo Critrio da Fatorao,
f (z)nz (x) .
zD
T (X) = {nz (X), z Z}
suciente para
F.

O exemplo acima tem uma importante implicao: a frequncia dos valores
de uma amostra sempre suciente para o modelo
F.
2.7, temos que as frequncias relativas, denidas por

sucientes para
F.
22
Utilizando o Corolrio
nz (X)/n
tambm so
Exemplo 2.9.
Seja
X1 , . . . , Xn
uma amostra iid de
X1 F .
Seja
T = {X(1) , . . . , X(n) },
onde
X(i)
a i-sima coordenada de
denadas de
so denominadas
ordem so sucientes para

o caso no qual
F.
ordenado em ordem crescente (as coor-
estatsticas de ordem ).
Ora, as estatsticas de
Para mostrar este fato, ser considerado apenas
uma varivel discreta. Neste caso,
f (x|T (x)) =
f (x1 , . . . , xn , T (x))
.
f (T (x))
Note que o numerador acima diferente de zero apenas quando alguma permutao de
igual
t.
Como as variveis so iid, todas as permutaes tem a
mesma probabilidade. Assim,
f (x1 , . . . , xn , T (x)) =
1
f (t)
n!
f (x|T (x)) =
o que mostra que
suciente para
1
,
n!
F.
2.3 Estatsticas sucientes minimais

Para um mesmo problema podem existir diversas estatsticas sucientes, como
ser ilustrado no Exemplo 2.10.
interessante que a informao da amostra
possa ser sumarizada em poucos valores, o que implica em procurar pela estatstica suciente com a menor dimenso possvel. Tais estatsticas so denominadas
minimais.
Denio 2.10. Uma estatstica suciente
T (X) denominada minimal se,

para qualquer outra estatstica suciente T 0 (X), T (X) funo de T 0 (X).
Exemplo 2.10.
e
> 0.
Seja
X1 , . . . , Xn uma amostra de vaiid com X1 Uniforme(, )
A densidade conjunta da amostra dada por
n
Y
1
I( xi )
f (x|) =
2
i=1
23
Considere as seguintes fatoraes:
f (x|) =
n
1 Y
I( x(i) ),
(2)n i=1
1
I( x(1) )I(x(n) ),
(2)n
1
f (x|) =
I(max |Xi | )
i
(2)n
f (x|) =
T1 = {X(1) , . . . , X(n) } suT2 = {X(1) , X(n) } suciente para

T3 = max{|X1 |, . . . , |Xn |} suciente para . Clara-
Na primeira fatorao temos que a estatstica

ciente para
Na segunda, a estatstica
e na ltima, a estatstica
mente,
T3
uma estatstica suciente com a menor reduo possvel, bastando
mostrar que
T3
minimal. Por outro lado, pela Denio 2.10
T1
no poderia
ser minimal. De forma anloga,
T3 = max{|X1 |, . . . , |Xn |} = max{|X(1) |, |X(n) |} = T3 (T2 (X)),

logo
T2
no poderia ser minimal.
O seguinte Teorema til descobrir se uma estatstica suciente minimal.
Teorema 2.11. Suponha que existe uma funo
T (X) tal que, para cada par

de amostras x e y , a razo f (x|)/f (y|) constante como funo de se e
somente se T (x) = T (y). Ento T (X) uma estatstica suciente minimal.
Proof.
A prova ser dada apenas para o caso discreto. Primeiro, para qualquer
estatstica
T,
temos que
f (x|) = f (x|)
f (T (x)|)
f (T (x)|)
f (x|)
= f (T (x)|) P
f (y|)
1
f (y|)
.
f (x|)
yX n :T (y)=T (x)
= f (T (x)|)
yX n :T (y)=T (x)
Agora, se as condies do Teorema 2.11 esto satisfeitas para a estatstica

ento para todo
T (x) = T (y)
a razo
o termo
yX n :T (y)=T (x)
f (x)|/f (y|)
no depende de
1
f (y|)
:= h(x).
f (x|)
24
T,
Assim,
constante em relao
o que implica em
f (x|) = f (T (x)|)h(x).
Logo, pelo Teorema 2.4, temos que
suciente.
W outra estatstica suciente,

W (x) = W (y). Ento, pelo Teorema 2.4,
Agora, seja
em
com o ponto
(x, y)
implicando
f (x|)
h(x)g(w(x), )
h(x)
=
=
,
f (y|)
h(y)g(w(y), )
h(y)
logo, a razo constante em
e, pelas condies do Teorema 2.11 tem-se que
T (x) = T (y).
Ento, para qualquer
nico elemento
T T,
o que implica
W W = {W (x) : x X n }
em T : W T .
Exemplo 2.11 (Estatstica minimal para a normal).

amostra aleatria de
X1 Normal(, 2 ).

f (x|) =
1
2 2
n2
Seja
existe um
X1 , . . . , Xn uma
Sabe-se que

n
n1 2
2
exp 2 (
x )
s ,
2
2 2 x
S 2 } uma estatstica suciente para . Considere agora duas

T = {X,
X
amostras, x e y . Ento

f (x|)
n
n1 2
2
= exp 2 [(
x )2 (
y )2 ]
[s
s
]
y
f (y|)
2
2 2 x

1
= exp 2 n(
x )2 n(
y )2 + (n 1)(s2x s2y )
2
(
"
#)
n
n
X
X
1
2
2
2
2
2
2
= exp 2 n(
x ) n(
y ) + (
xi n
x
yi + n
y )
2
i=1
i=1
#)
(
"
n
n
X
X
1
2
2
yi )
xi
= exp 2 2n(
x y) + (
2
i=1
i=1
logo,
Pn
Pn
se e somente se x
= y e se i=1 x2i = i=1 yi2 ,
P
n
2
2
o que implica qye {X,

i=1 Xi } suciente minimal para (, ). Fica como
exerccio a demonstrao de que T tambm uma estatstica suciente minimal
2
para = (, ).
A razo acima no depender de
Exemplo 2.12 (Estatstica minimal para a uniforme).

vaiid com
Xi Uniforme(0, ),
Sejam
cuja densidade conjunta dada por
f (x|) = n I(x(n) ).
25
X1 , . . . , Xn
Pelo Teorema 2.4,

amostras
y.
X(n)
uma estatstica suciente para
Considere duas
Ento,
I(x(n) )
f (x|)
=
.
f (y|)
I(y(n) )
Sem perda de generalidade, assuma que
tante
c>0
tal que
x(n) = y(n) + c.
x(n) > y(n) .
Ento, existe uma cons-
A razo das indicadoras como funo de
I(y(n) + c )
=
I(y(n) )
1,
0,
y(n) + c
,
y(n) < y(n) + c
nesta situao. Pode-se chegar na mesma

x(n) < y(n) . Assim, para razo ser constante necessrio que
e, portanto, X(n) uma estatstica suciente minimal para .
e a razo no constante em
concluso se
x(n) = y(n) ,
Exemplo 2.13.
Seja
X1 , . . . , Xn
que as estatsticas de ordem so sucientes para
{X(1) , . . . , X(n) }
F.
X1 F .
Para mostrar que
J vimos
T (X) =
tambm minimal, considere a razo
f (x(1) , . . . , x(n) )
f (x)
=
.
f (y)
f (y(1) , . . . , y(n) )
T (x) = T (y) ento a razo
F F , o nico modo da ra ao
Se
constante em relao a
f.
Alm disso, como
f (x(1) , . . . , x(n) )
f (y(1) , . . . , y(n) )
ser constante em relao a um
qualquer fazer
T (x) = T (y).
2.4 Estatsticas ancilares e estatsticas completas

Existem estatsticas que no carregam informao sobre
denominadas
ancilares.
Tais estatsticas so
Denio 2.12. Uma estatstica dita ser ancilar para se sua distribuio
no depende de .
Estatsticas ancilares so importantes para inferncia estatstica, como ser

observado ao longo do texto. Abaixo, seguem alguns exemplos.
26
Exemplo 2.14.
Seja
No Exemplo 2.7 mostrou-se que

2
Normal ,
X
n
e
S 2 Gama((n 1)/2, (n 1)/2 2 ).

Como a distribuio de
ancilar para
S2
no depende de
Considere que
tem-se que esta uma estatstica
conhecido. Ento

X
Normal(0, 1)
n
Tambm foi
n1 2
S Gama((n 1)/2, 1/2) 2n1 .
2
e S 2 so independentes. Portanto,
mostrado que X

X
n
tn1 .
S
T =
Como
conhecido, temos que
pende de
2 ,
logo,
uma estatstica cuja distribuio no de-
ancilar. Este resultado ser muito utilizado posterior-
mente.
Exemplo 2.15.
(Y1 , X1 ), . . . , (Yn , Xn ) uma amostra de variveis aleatrias

Yi |xi Normal(0 + 1 xi , 2 ). Neste caso, tem-se que
Seja
independentes com
E[Yi |xi ] = 0 + 1 xi ,
ou seja, o valor mdio de
Yi uma funo linear de xi .
Este modelo denominado
0
X,
regresso linear simples e um dos objetivos principais fazer inferncias sobre

e
1 .
Note que o vetor
considerado xado. Como justicativa para xar
X f (.|), onde so parmetros no relacionados

X ancilar em relao a estes parmetros. Assim,
feita a suposio de que

com
0 , 1
2 ,
ou seja,
f (y, x|0 , 1 , 2 , ) = f (y|x, 0 , 1 , 2 , )f (x|0 , 1 , 2 , )

= f (y|x, 0 , 1 , 2 )f (x|),
logo, dado
x,
a distribuio de
Y |x
suciente para
e, neste caso, a
informao ancilar de fundamental importncia para fazer inferncias para

e
1 .
Exemplo 2.16.
0
Posto uma transformao na qual o valor da varivel
substitudo por sua respectiva posio na amostra ordenada.

considere as observaes
x = (3, 1; 5, 2; 2, 7; 7, 8).
Ento
27
Por exemplo,
x(1)
x(2)
x(3)
x(4)
2,7
3,1
5,2
7,8
Amostra ordenada
Posio
assim, o vetor de postos ser

vaiid com
Xi F ,
F
X.
onde
vetor com os postos de
r = (2, 3, 1, 4).
Seja
X1 , . . . , Xn
uma amostra de
R o
x, R pode
de {1, . . . , n}.
uma funo de distribuio contnua. Seja

Como a amostra iid, condicionado
assumir, com igual probabilidade, qualquer permutao possvel

Ento,
Z
p(r) =
Como
p(r|x)f (x)dx =
1
n!
Z
f (x)dx =
1
.
n!
R no depende de F , tem-se que R uma estatstica ancilar.
Muitos testes
no paramtricos so construdos utilizando esta estatstica.
T , deseja-se que a amostra X seja decomposta

e U ancilar para .
Contudo, nem sempre possvel garantir que T independente de U . De fato, a
Ao se utilizar uma estatstica
em
{T, U },
onde
contm toda a informao sobre
maioria das estatsticas incapaz de separar a parte informativa da amostra da

parte ancilar. A prxima denio mostra um conjunto particular de estatsticas
que consegue tal separao.
Denio 2.13. Seja FT a famlia de distribuies da estatstica suciente T .
Esta famlia denominada completa se para qualquer funo real g tem-se que
E(g(T )) = 0 para todo implica que g(T ) nula em quase toda parte. Neste
caso, a estatstica denominada completa.
Conforme anunciado anteriormente, uma das vantagens de uma estatstica

completa a capacidade de separar a informao sobre
de qualquer estatstica
ancilar, como mostra o teorema abaixo.
Teorema 2.14 (Teorema de Basu). Estatsticas sucientes completas so independentes de quaisquer estatsticas ancilares.
Proof.
A demonstrao ser feita apenas para o caso contnuo (o caso discreto
anlogo). Sejam
Como
uma estatstica ancilar e uma estatstica completa para
ancilar, a funo de probabilidade
T suciente, teremos
g(t) = f (u|t) f (u). Ento
disso, como
que
f (u|t)
f (u)
no depende de
. Alm
. Faa
tambm no depende de
Z
E[g(T )|] = ET | [f (u|T )] ET | [f (u)] =
= f (u) f (u) = 0, .
28
f (u|t)f (t|)dt f (u)
Como
g(t) = 0
completa, tem-se que
em quase toda parte e
g(t) = 0 f (u|t) = f (u) = 0 f (u|t) = f (u),

logo
independente de
U.
Exemplo 2.17 (Estatstica completa para a Uniforme(0,)).
Seja X uma
X1 Uniforme(0, ). Sabe-se que T = X(n)
suciente para (Exemplo 2.5) e que T / Beta(n, 1). Ser mostrado que X(n)
completa. Primeiro, se inf < a() < b() < inf so funes diferenciveis,
amostra aleatria de vaiid com
tem-se que
d
d
b()
f (x|)dx = f (b()|)
a()
d
d
b() f (a()|) a() +
d
d
b()
a()
d
f (x|)dx.
d
(2.4)
Para uma funo
g(t)
qualquer
Z
n n1
n
d
g(t) n t
dt = g() +
ng(t)tn1 n dt
d
0
0
Z
n
n n
n
n
= g()
g(t)tn1 dt = g() E[g(T )].
0 n
d
d
E[g(T )] =
d
d
Agora, suponha que

se reduz a
g() = 0
E(g(T )) = 0. Ento d/dE[g(T )] = 0 e

> 0. Portanto, T completa.
a equao acima
para todo
Antes de mostrarmos mais alguns exemplos, consideremos o seguinte Teorema.
Lema 2.15 (Lei do Cancelamento de Lerch). Sejam f1 (t) > 0 e f2 (t) > 0
funes reais positivas e contnuas com domnio em R+ , onde
fi (x)etx dx <
(ou seja, existe a transformada de Laplace). Ento, se

Z
f1 (t)est dt =
f2 (t)est dt f1 (t) = f2 (t).
(2.5)
O Teorema 2.15 apresenta a unicidade da transformada de Laplace.

particular, se
Em
g(x)etx dx = 0,
0
o teorema implica em
g(x) = 0
para todo
x.
Portanto, este resultado pode
ser utilizado para mostrar que uma estatstica completa, conforme pode-se
vericar nos dois exemplos a seguir.
1 Este
resultado conhecido como Regra de Leibnitz

29
Exemplo 2.18 (Exponencial).

X1 Exponencial(1/).
Seja
X1 , . . . , Xn
A densidade conjunta de
dada por
f (x|) = n exp {n
x} ,
o que implica, pelo Teorema 2.4. Utilizando o Corolrio 2.5, pode-se mostrar
que
Gama(n, n).
X
Assim, para qualquer
=
E[g(X)]
g(
x) ,
tem-se que
n n1
x
exp {n
x} d
x
(n)
g(
x)n x
n1
exp {n
x} d
x.
(n)
g(
x)
0
=
0
Assim, a integral acima a transformada de Laplace da funo
c(t) = g(t)
Se
= 0,
E[g(X)]
n n1
t
.
(n)
ento a existe a transformada de Laplace da funo
pela Lei do Cancelamento de Lerch, tem-se que

qualquer
x
,
ento
todo
c(
x) = 0,
c(
x)
e,
o que ocorre, para
n e , apenas quando g(
x) = 0. Por outro lado, se g(
x) = 0 para
= 0. Portanto, E[g(X)]
= 0 se e somente se g(
E[g(X)]
x) = 0
uma estatstica completa.
X
todo
para
O Teorema abaixo nos d condies necessrias para que um membro da

famlia exponencial tenha uma estatstica completa.
Teorema 2.16 (Estatstica completa na famlia exponencial). Sejam X1 , . . . , Xn

vaiid de uma fd ou fp da forma
k
X
wj ()tj (x) ,
(2.6)
j=1
Ento, a estatstica T (X) = ( ni=1 T1 (Xi ), . . . , ni=1 Tk (Xi )) completa se

{w1 (), . . . , wk () : } contm um conjunto aberto em Rk .
P
Proof.
Uma demonstrao deste teorema pode ser encontrada em Brown (1986,
Theorem 2.12) e utiliza a unicidade da transformada de Laplace.
No Teorema 2.16, a restrio que

conjunto aberto em
Rk
{w1 (), . . . , wk () : }
contenha um
necessria para garantir a unicidade da transformada
de Laplace. Os dois exemplos abaixo mostram que esta restrio necessria.

30
Exemplo 2.19.
X1 Normal(, 2 ).Note
(
)

n2
n
1
1 X
2
f (x|) =
exp 2
(xi )
22
2 i=1
(
)
n2

n
1 X 2 n
1
x 1
exp 2
=
x +
22
2 i=1 i
2
(
)

n2

n
1
1
1 X 2 n
x
x +
=
exp
exp 2
22
2
2 i=1 i
Seja
X1 , . . . , Xn
vaiid com
que,
X pertence famlia exponencial. Como T =

2
2 1
, : R} possui
i=1 Xi ), cuja dimenso 2, e como o conjunto {
dimenso 1, tem-se que as condies do Teorema 2.16 no esto satisfeitas.
Pn
De fato, nestas condies possvel encontrar uma funo g(
x, i=1 x2i ) no
o que implica que a distribuio de
(X,
Pn
nula cuja esperana nula. Por exemplo, pelo Exemplo 2.7 sabemos que
Normal(,
/n).
Assim,
2
2 ] = V ar(X)
+ E(X)
2 = + 2 = 2 1 + n
E[X
n
n
e
" n
X
#
Xi2
= nE[X12 ] = n(V ar(X1 ) + E(X1 )2 ) = 2n2 .
i=1
Fazendo
g(t) =
pode-se notar que
que
n
1 X 2
X
X
n+1
2n i=1 i
no nula para todo
T,
mas
E[g(T )] = 0,
o que implica
no completa.
Exemplo 2.20.
Seja
X1
Binomial(2, ), onde
= {1/4, 3/4}.
Ora,
X1
suciente, pertence famlia exponencial e ca como exerccio mostrar que as

condies do Teorema 2.16 no esto satisfeitas.
completa, considere
g(0) = g(2) = 3
g(1) = 5.
Para mostrar que
X1
no
Ento
E[g(T )] = g(0)(1 )2 + 2g(1)(1 ) + g(2)2

= 162 16 + 3 = 0
para
Logo,
X1
no completa.
O teorema a seguir mostra que estatsticas sucientes completas so minimais.
Teorema 2.17. Se T suciente e completa, ento T tambm minimal.

31
Proof.
Seja
uma estatstica suciente e completa e seja
minimal. Ento, por denio,
T = f (T )
T0
uma estatstica
f.
para alguma funo real
Construa
g(T 0 ) = E[T |T 0 ]
(a funo
acima no depende de
porque
suciente). Ento
E[g(T 0 )] = E[E[T |T 0 ]] = E[T ]

e
E[T g(T 0 )] = E[T ] E[g(T 0 )] = 0.

T g(T 0 ) = T g(f (T )), o que implica o termo na primeira esperana
funo da estatstica completa T e, portanto,
Contudo,
acima
E[T g(T 0 )] = 0 T g(T 0 ) = 0,

T = g(T 0 ) em quase toda a parte. Como T 0 = f (T ) para algum T e T = g(T 0 ),
f 1 . Como transformaes 1:1 de estatsticas minimais so
minimais (ver Exerccio 2.13), tem-se que T deve ser minimal.
tem-se que existe
2.5 Exerccios
Seo 2.1
2.1. Seja X1 , X2 uma amostra de vaiid com X1 |
T1 = X1 /X2 e T2 = max X1 , X2 duas estatsticas.
(a) Encontre a distribuio amostral de
T1
Uniforme(0, ) e sejam
T2 .
(b) Qual destas duas estatsticas voc utilizaria para realizar inferncias sobre
Justique sua resposta.
Seo 2.2
2.2.
|X1 |
Seja
X1
uma nica observao com
X1
Normal(0,
).
A estatstica
suciente?
2.3.
Seja
X1 , . . . , Xn
uma amostra de variveis independentes com densidades
f (xi |) = exp{i xi }I(xi i).

Prove que
T = min{X1 , X2 /2, . . . , Xn /n}

32
2.4.
Seja
X1 , . . . , Xn
uma amostra de variveis independentes com densidades
f (xi |) =
> 0.
onde
2.5.
Seja
1
I(i( 1) < xi < i( + 1)).
2i
Ache uma estatstica suciente bidimensional para
X1 , . . . , Xn
uma amostra de vaiid com densidade
f (x|, ) =
<x<
(, ).
onde
para
2.6.
Seja
> 0.
X1 , . . . , Xn
1
exp{(x )/},
Encontre uma estatstica suciente bidimensional
Xi
(, ).
uma estatstica suciente bidimensional para
2.7.
Gama(, ). Encontre
(X, Y ) um vetor aleatrio com distribuio uniforme no retngulo de

(1 , 2 ) e canto superior direito (3 , 4 ) (ou seja 1 < 3 e
Seja (X1 , Y1 ), . . . , (Xn , Yn ) uma amostra aleatria desta distribuio.
uma estatstica 4-dimensional para = {1 , 2 , 3 , 4 }.
Seja
canto inferior esquerto
2 < 4 ).
Encontre
2.8.
Prove o Corolrio 2.6.
2.9.
Termine o Exemplo 2.7, mostrando que
(n 1)
2.10.
Seja
X1 , . . . , Xn
uma amostra de vaiid com densidade

f (x|, ) =
com
S2
2n1 .
2
2x3
21
(x )2
exp
2x2

,
R, x, > 0 (essa distribuio denominada gaussiana inversa).
o Corolrio 2.5 para mostrar que
(a)
Gaussiana
X
Inversa(, n)
(b)

n
X
1
1
n 1 n
T =
Gama
,
Xi
2
2
X
i=1
(c)
so independentes.
(d)
so independentes.
33
Utilize
Seo 2.3
2.11. Mostre que a estatstica suciente encontrada no Exerccio 2.5 minimal.
2.12.
Seja
X1 , . . . , Xn
uma estatstica suciente minimal para
2.13.
g
Prove que, se
X1 Bernoulli().
uma estatstica suciente minimal e
uma funo 1:1, ento
Encontre
.
W = g(T ),
onde
minimal. Utilize este resultado para terminar o
Exemplo 2.11.
2.14.
Seja
FD
a famlia de distribuies com suporte
frequncias so estatsticas sucientes minimais para
2.15.
Seja
F = {F1 , F2 }.
D Z.
Prove que as
F.
Isto implica que os dados podem vir exclusivamente
de dois modelos. Podemos transformar a escolha entre os dois modelos em um

problema paramtrico. Seja
modelo e que vale
se
F2
um parmentro que vale
se
F1
for o verdadeiro
for o verdadeiro modelo. Ento
f (x|) = f1 (x)I(=1) f2 (x)I(=2)
(a) Notando que
I( = 2) = 1I( = 1), prove que a razo de verossimilhanas

T (X) =
f1 (X)
f2 (X)
uma estatstica suciente minimal para

(b) Generalize o resultado quando
F = {F1 , . . . , Fk }.
Seo 2.4
2.16. Utilize os Teoremas 2.16 e 2.17 para provar que,
X1 , . . . , Xn uma
k -paramtricas
k
com {w1 (), . . . , wk () : } contendo um conjunto aberto em R , ento existe uma estatstica suciente completa e minimal para .
se
amostra de vaiid pertencentes famlia de distribuies exponenciais
2.17.
Seja
X1 , . . . , Xn uma amostra de vaiid com funo de probabilidade dada
por
f (x|) = (1 )x1 ,
onde
x = 1, 2, . . . ,
.
0 < < 1.
Encontre uma estatstica suciente completa e
minimal para
2.18.
Para cada uma das densidades abaixo, seja
X1 , . . . , Xn
uma amostra de
vaiid. Encontre uma estatstica suciente completa e minimal para

caso.
34
em cada
(a)
f (x|) =
2x
I(0
(b)
f (x|) =
, com
(1+x)1+
(c)
f (x|) =
log x
1 , com
< x < ),
com
> 0.
x, > 0.
x (0, 1)
> 1.
Classicar depois...
2.19. Para cada distribuio a seguir, encontre sua estatstica suciente e sua
respectiva distribuio
1. Poisson()
2. Gama(5, )
3. Uniforme(0, )
4. Pareto(, )
5. Exponencial deslocada:
f (x|, ) = exp{(x )}, x > , > 0,
<.
2.20.
Seja
X1 , . . . , Xn uma amostra iid com distribuies dadas abaixo.
Utilize
o critrio da fatorao para mostrar que
f (x|) = e(x)
Pn I(x > )I( R)I( > 0), ento
PnX(1)
Exponencial(n) e
(X
X
)
Gama
(n,
)
e
X
e
i
(1)
(1)
i=1
i=1 (Xi X(1)
(a) Se
so independentes.
Pn
Pn
X Gama(,P
), ento i=1 Xi Gama(n, ), X/ i=1 Xi Dirichlet(, . . . , )
P
n
n
e
i=1 Xi e X/
i=1 Xi so independentes.
Pn
Pn
Se X|, Binomial(, ), ento
i=1 Xi Binomial(n, ) e X1 , . . . , Xn |
i=1
Hipergeomtrica multivariada(), cuja f p dada por

Qn
n
X
i=1 xi
I( x(n) )
p(x|,
xi ) =
n
(b) Se
(c)
Pn
i=1
2.21.
Seja
a estatstica
2.22.
Seja
i=1
xi
X1 , . . . , Xn uma amostra aleatria com Xi f (x ). Mostre

T (X) = (X(2) X(1) , . . . , X(n) X(n1) ) ancilar para .
X1 Bernoulli(),
com
= {1/4, 3/4}.
(a) Mostre que
X1
no satisfaz as condies do Teorema 2.16
(b) Mostre que
X1
completa.
35
que
36
Chapter 3
Estimao Pontual
3.1 Estimador, Estimativa e Bons Estimadores
Considere a amostra
X1 , . . . , Xn F (.|).
O problema da estimao pontual
encontrar alguma estatstica para representar uma funo de
Denio 3.1. Qualquer estatstica cujo objetivo estimar () denominada

estimador para () e seu valor observado denominado estimativa de ().
A noo de bom estimador est associada com a proximidade da varivel

aleatria
com a quantidade
().
Esta noo motiva o uso de uma funo
de perda, na qual tem-se perda zero sempre que
igual a
e tem-se perda
positiva em caso contrrio .
Denio 3.2. Considere um estimador
T (X) para o parmetro . Ento,

uma funo de perda qualquer funo L : X n [0, ) que satisfaz

L(T (X), ) =
A quantidade
L(T (X), )
0, T (X) =
> 0, caso contrrio.
uma varivel aleatria para cada valor de
xado. Na Teoria da Deciso, a qualidade do estimador
medida atravs do
valor esperado da perda, denominado funo risco.
1 Na Teoria da Deciso a funo de perda tambm pode ser negativa, implicando que existe
ganho no lugar de perda. Contudo, para os objetivos destas notas, a Denio 3.2 ser
suciente
37
Denio 3.3. A funo risco do estimador T dada por

R() = EX| [L(T (X), )]
Exemplo 3.1 (O Erro Quadrtico Mdio).
(3.1)
Considere a funo de perda
quadrtica
L(T, ) = (T )2 .
(3.2)
Sua respectiva funo de risco, denominada Erro Quadrtico Mdio,
R() = ET | [(T )2 ].
Doravante, esta funo ser denotada por
EQMT ().
Esta funo de risco pode
ser decomposta como segue:
EQMT () = ET | [(T )2 ] = ET | [(T E(T |))2 ]

= ET | [(T E(T |))2 + (E(T |) )2 2(T E(T |))(E(T |) T )]
= ET | [(T E(T |))2 ] + (E(T |) )2
= V arT | [(T ] + (Vis())2
onde Vis()
= E(T |) .
A funo risco mede a perda esperada do estimador para cada valor de
Considere ento dois estimadores, T1 e T2 , com funes de risco

R1 () e R2 (). Sob o ponto de vista da inferncia frequentista, se
R1 () < R2 () para todo , ento, em mdia, o estimador T1 produz
uma perda menor que o estimador T2 e, por este critrio, melhor utilizar T1
xado.
dadas por
como estimador. Sob o ponto de vista da inferncia bayesiana, um estimador

avaliado atravs do risco de bayes.
Denio 3.4. O risco de bayes do estimador T dado por

Z
rT =
R()()d.
No risco de Bayes, a funo risco ponderada pelo peso de

Assim, considerando a informao dada
a priori,
dado pela priori.
ser prefervel o estimador
T1 e T2 com
R1 () < R2 () para todo
de um estimador T tal que
com menor risco de Bayes. Considere novamente dois estimadores

funes de risco dadas por
R1 ()
R2 ().
ento, se
, ento rT1 < rT2 . Portanto, a existncia

RT () RT 0 () para todo importante para
as duas inferncias. Isto
motiva a denio de estimadores admissveis.
Denio 3.5. Um estimador
T com funo de risco RT () dito ser inadmissvel se existe outro estimador T 0 com funo de risco RT 0 () satisfazendo
RT 0 () RT (), .
Em caso contrrio o estimador T dito ser admissvel.

38
3.2 Estimao Pontual Frequenstista

Na estimao frequentista, a qualidade de um estimador est associada com sua
respectiva funo de risco. Dentre as possvesi funes de risco, o erro quadrtico
mdio a mais utilizada. No Exemplo 3.1, foi mostrado que
EQMT () = V ar(T ) + Vis()2 ,

p = E(T ) denominado vis, ou vcio, de um estiV ar(T ) recebe o nome de erro-padro do estimador T . O
onde a funo Vis()

mador e a funo
problema de encontrar um estimador admissvel para um problema pode ser

uma tarefa rdua. Em vez disto, a maioria dos resultados clssicos da inferncia
frequenstista so baseados na classe de estimadores no viciados.
Denio 3.6. Um estimador
T dito ser no viciado (ou no viesado) se

VisT () = 0, o que implica em E(T ) = . Um estimador est na classe de
estimadores no viciados se ele for no viciado.
Para qualquer estimador
na classe de estimadores no viciados, tem-se
que
EQMT () = V ar(T ),
Isto motiva a denio de um melhor estimador dentro desta classe.
Denio 3.7. Dizemos que T o melhor estimador no viciado de varincia

uniformemente mnima (ENVVUM) se
V ar(T ) V ar(T 0 ), .
para qualquer estimador T 0 no viciado.

Nesta seo so apresentados dois mtodos para encontrar estimadores: o
mtodo dos momentos e o mtodo da mxima verossimilhana.
Tambm so
apresentados alguns resultados que asseguram a existncia de um ENVVUM.

Como ltima nota, na inferncia frequenstista comum o uso da notao
onde
(X)
uma estatstica, para designar um estimador para
Esta notao
foi utilizada nestas notas de aula.
3.2.1
Mtodo dos Momentos
Primeiro ser considerado o problema de estimar o

varivel aleatria
dado por
E[X k ] = (k) .
39
k -simo
momento de uma
Denio 3.8. Seja
X1 , . . . , Xn uma amostra de vaiid. O k -simo momento
amostral dado por
T (k) =
n
X
Xk
i
i=1
Teorema 3.9. Seja X1 , . . . , Xn uma amostra de vaiid. Ento:

(a) T (k) um estimador no viciado para (k) (apenas se E[X k ] < );
(b) O erro quadrtico mdio de T (k)
EQMT ((k) ) = V ar[T (k) ] =
Proof.
V ar(X k )
;
n
Exerccio 3.2.
Portanto, os momentos amostrais so uma escolha interessante para estimar

os momentos de uma varivel aleatria.
Exemplo 3.2.
Seja X1 , . . . , Xn uma amostra de vaiid com X1 Poisson().

, uma escolha interessante
E[X] = , o primeiro momento amostral, X
estimar . Pelo Teorema 3.9 tem-se que
Como
para
= V ar[X1 ] = .
V ar[X]
EQMX()=
n
n
Observe que o erro quadrtico mdio do estimador decresce com o aumento do
tamanho da amostra.
Em geral, possvel obter expresses do tipo

se pensar em construir o estimador
= (T
(k)
).
= ((k )).
Portanto, pode-
Este o princpio bsico do
mtodo dos momentos.
Denio 3.10 (Mtodo dos Momentos). Seja X1 , . . . , Xn uma amostra de

variveis iid com X1 f (.|) e dim() = m. Suponha que o sistema abaixo
(1) = 1 ()
.. ..
.=.
(m) = m (),
possui uma soluo nica. O mtodo dos momentos consiste em substituir, no

sistema acima, cada momento da varivel aleatria pelo seu respectivo momento
amostral, criando o sistema
T (1) = 1 ()
.. ..
.=.
T (n) = m ().
40
Seja o vetor soluo deste novo sistema. As coordenadas de so denominadas estimadores de momentos para .
O mtodo dos momentos uma ferramenta relativamente simples para encontrar estimadores. Existem situaes nas quais outros estimadores no esto
disponveis, ou so necessrios estimativas iniciais para construir novos estimadores. Em ambos os casos o mtodo dos momento til.
Quando
dim() = 2 o estimadores via mtodo dos momentos podem ser obtiT (2) por S 2 no sistema. O motivo dado na seguinte proposio.
dos trocando
Proposio 3.11. Seja
V ar[X1 ] = 2 . Ento:
X1 , . . . , Xn uma amostra de vaiid com E[X1 ] = e
(a) Os sistemas

E[X]
E[X 2 ]

=
2 + 2

,
E[X]
V ar[X]

=
so equivalentes.
(b) S 2 no viciado para 2
Proof.
(a) Basta notar que existe a transformao 1:1
1 0
1

E[X]
E[X 2 ]

=

.
(b)
E(S ) =
=
=
=
!
!
n
n
1X
1X 2
n
n
2
2
E
E
(Xi X)
=
X X
n1
n i=1
n1
n i=1 i

n
2)
E(X 2 ) E(X
n1

n
+ E(X)
2
V ar(X) + E(X)2 V ar(X)
n1

n
1
= n
V ar(X) V ar(X)
V ar(X) V ar(X)
n1
n1
n
= V ar(X) = 2 .
Exemplo 3.3.
Seja
X1 , . . . , Xn
uma amostra iid de
X1
com verossimilhana dada por
L() =
n
Y
f (xi |) =
i=1
41
n n o
1
exp
x
.
n
Exponencial(1/),
Como
n n
1 n1
x
exp{n
x},
(n)
Gama(n, n/). Como dim() = 1, o sistema
pelo Corolrio 2.5 tem-se que X
L()
do mtodo dos momentos
=
X
e, portanto, tem-se que
= X
o estimador para
obtido via mtodo dos
momentos. Este estimador no viciado e sua varincia
= .
V ar()
n
Novamente, o erro quadrtico deste estimador diminui com o aumento do tamanho
da amostra.
No exemplo acima, pde-se construir um estimador no viesado atravs do

mtodo dos momentos.
Alm disso, o estimador
tambm funo da es-
tatstica suciente. O prximo exemplo mostra que os estimadores obtidos via

mtodo dos momentos no necessariamente so estatsticas sucientes.
Exemplo 3.4.
Seja
X1 , X2
Como
E[X] =
o estimador para
Xi
Uniforme(0, ).
,
2
.
obtido via mtodo dos momentos = 2X
Pode-se mostrar
que
f (
x|) =
onde
0 < x
.
2
{min{, 2
x max{0, 2
x }}} ,
2
Como no possvel obter a expresso acima atravs do
Corolrio 2.5, tem-se que o estimador de momentos no uma estatstica suciente para
Uma crtica mais severa ao mtodo do momentos que estes podem produzir estimativas que no esto no espao paramtrico, como mostra o exemplo
abaixo.
Exemplo 3.5.
Seja
X1 , . . . , Xn uma amostra de vaiid com X1 Binomial(, ),

= (, ) {1, 2, 3, . . .} (0, 1). Sabe-se que
onde o espao paramtrico
E(X1 ) = ,
V ar(X1 ) = (1 ).
Assim, os estimadores obtidos via mtodo dos momentos para
X
,
=
X S2
42
(, )
so
S2.
= X
ser um nmero natural. Alm disso, no existe
0 1 e que > 0. De fato, considere a seguinte amostra:
x = {0, 0, 1, 2, 3}. Neste caso, x
= 1, 2 e S 2 = 1, 7, o que produz = 2, 4 e
= 0, 5.

Pode-se notar que dicilmente
garantia de que
3.2.2
Seja
Mtodo da Mxima Verossimilhana
a probabilidade de sair cara em certa moeda e seja X
o nmero de caras em
X Binomial(5, ).
= {0, 1; 0, 2; . . . ; 0, 9}. Ao observar x,
5 lanamentos. O modelo apropriado para esta situao

Suponha que o espao paramtrico
tem-se a seguinte verissimilhana

5 x
L() = f (x|) =
(1 )5x .
x
Considere que
x = 3.
Os valores possveis para esta funo de verossimilhana
so dados abaixo:
L()
.1
.2
.3
.4
.5
.6
.7
.8
.9
0,0081
0,0512
0,1323
0,2304
0,3125
0,3456
0,3087
0,2048
0,0729
Os possveis valores da funo de verossimilhana podem ser interpretados da

seguinte forma: se
for o verdadeiro valor do parmetro
ento, em innitas
repeties do experimento, a probabilidade de observar a amostra
L(0 ).
Ao realizar um experimento, espera-se observar uma amostra tpica. Neste
maxi = 0, 6 como estimador para . Este
caso, interessante adotar a estratgia de procurar qual valor de

miza
L().
No caso acima, pode-se adotar
o princpio do mtodo da estimao via maximizao da funo de verossimilhana.
L() para todo denomDenio 3.12. O valor tal que L()
inado estimador de mxima verossimilhana (EMV) para .
Os estimadores de mxima verossimilhana possuem algumas vantagens em

relao aos estimadores obtidos via mtodo dos momentos.
Algumas destas
propriedades so dadas abaixo.
Proposio 3.13 (Propriedades do EMV). Seja o estimador de mxima
verossimilhana para . Ento:
43
1. .
2. Se uma estatstica suciente, ento ele tambm minimal.
Proof.
As demonstraes seguem abaixo:
1. Imediato da Denio 3.12.
2. Se
qualquer estatstica suciente. Ento, pelo Teorema 2.4,
L() = h(x)g(t, ) g(t, ).
L() depende de x somente atravs da estatstica

escrito como funo de qualquer
tambm for suciente, ento pela
Portanto, se
Logo, a maximizao de
suciente
T (x),
o que implica que
estatstica suciente.
Denio 2.10 ele tambm ser minimal.
Exemplo 3.6 (EMV para a Uniforme(0, )).

de vaiid com
X1 Uniforme(0, ).
L() =
n
Y
i=1
f (xi |) =
n
Y
1
i=1
Seja
X1 , . . . , Xn uma amostra
Sua funo de verossimilhana dada por
I(0 < xi ) =
1
I(0 < x(n) ),
n
O grco desta funo de verossimilhana dado abaixo

44

X(n)
L()
Ao notar que a verossimilhana montona decrescente a partir do ponto

valendo 0 em caso contrrio, conclui-se que
comum maximizar
log L()
= X(n)
no lugar de
EMV para
x(n) ,
Uma vez que o logaritmo
uma funo montona crescente, o mesmo valor em
maximizar as duas
funes. Esta transformao facilita tanto a obteno de estimadores em sua

forma analtica quanto na estabilidade de mtodos numricos. O logaritmo da
funo de verossimilhana ser denotado por
l().
Exemplo 3.7 (EMV para o modelo Poisson).

aleatria de
X Poisson().
L() =
n
Y
i=1
Seja
Sua funo de verossimilhana dada por
f (xi |) =
n
Y
e xi
i=1
45
xi !
en
= Qn
Pn
i=1
i=1
xi !
xi
logo,
l() =
n
X
xi log() n
i=1
Pn
xi
d
l() = 0 i=1 n = 0 = x
P
n
d2
n
i=1 xi
l()|
=
= < 0,
=
2
d2
x
portanto,
= X
o EMV para
e sua varincia dada por
= V ar(X)
= V ar(X1 ) = .
V ar()
n
n
Exemplo 3.8 (EMV para o modelo normal).

Ento
l()
Sejam
X1 , . . . , sXn Normal(, 2 ).
n
n1 2
n
log( 2 ) 2 (
x )2
S .
2
2
2 2
Para encontrar os pontos crticos e mostrar que estes so pontos de mximos

deve-ses:
1. Encontrar as derivadas parciais e encontrar os pontos crticos
2. Mostrar que pelo menos uma das derivadas parciais de segunda ordem,
aplicadas em
negativa.
3. O determinante da matriz Hessiana deve ser positivo.
Pontos crticos:
l() = 0 2 (
x ) = 0
=X
n
1
l() = 0 2 +
((n 1)S 2 + n(
x
)) = 0
2
2
(2 2 )2
n1 2
S
2 =
n
Derivadas de segunda ordem:
2
X
l()|= = 2 < 0
2
2
n
(n 1)S 2
n
n
l()|= =
=
2 3
2
2
2
2
2
3
2
2
( )
2(
)
(
)
2(
)
(
)
n
=
<0
(2
2 )2
2
| =0
2 =
46
Determinante da matriz Hessiana:

n2

0
Portanto,
(n 1)S 2 /n)
(X,
0
2(n2 )2
n2
2(2 )3
(, 2 ).
o EMV para
= (). A
para obter o EMV
Existem situaes nas quais deseja-se estimar alguma funo

prxima proposio mostra que basta conhecer o EMV para
de
Teorema 3.14 (Invarincia dos EMVs). Seja o EMV para e seja
EMV para .
(), onde uma funo real. Ento = ()
Proof.
Por didtica, ser demonstrado primeiro o caso no qual
uma funo
1:1. Neste caso, tem-se
L() = L( 1 ())
e pode-se denir a verossimilhana em funo de
como
L? () = L( 1 ()) = L().
Se
o EMV para
,
= ()
e fazendo
(3.3)
tem-se que
= L( 1 ())
= L? (),
L? () = L() L()
para todo
No caso de
Portanto,
EMV para
no ser uma funo 1:1, no possvel denir a verossimilhanca
em (3.3). Para contornar este problema, considere o conjunto
= ()}.
Naturalmente, a coleo de conjuntos
uma partio de
= { :
forma
para todo
Dena a funo de verossimilhana de
como
L? () = sup L().
(3.4)
A funo acima denominada funo de verossimilhana induzida e garante que
L? ()
o maior valor possvel
xado. Note agora que
!
?
sup L () = sup
sup L()
= sup L() = L(),
o EMV para . Mas, pertence a um nico conjunto, denotado aqui
por
= { : = ()}. Portanto, como todos os valores de
levam
, o estimador de mxima verossimilhanca para = ()
.
ao mesmo valor
onde
47
A invarincia dos estimadores de mxima verossimilhana uma ferramenta

importante para construir novos estimadores. Abaixo seguem dois exemplos que
utilizam esta propriedade.
Exemplo 3.9 (Chances).
Seja
X1 , . . . , Xn
X1
Bernoulli(). A funo de verossimilhana dada por
L() =
n
Y
f (xi |) =
i=1
n
Y
xi (1 )1xi =
Pn
i=1
xi
(1 )n
Pn
i=1
xi
(3.5)
i=1
A funo de log-verossimilhana dada por
l() =
n
X
xi log() + (n
n
X
i=1
xi ) log(1 ).
i=1
Como a funo acima duas vezes diferencivel, pode-se chegar concluso de

que
= X
o EMV para
A funo
=
denominada
chance
dos para o parmetro
(3.6)
e existem alguns procedimentos estatsticos que so volta-
Observe que
= /(1 + ),
logo, a verossimilhana em
(3.5) poderia ser escrita como

L() =
1+
Pni=1 xi
1
1+
nPni=1 xi
,
e, atravs das aplicaes de clculo, pode-se encontrar o EMV para

tivamente, como o EMV para
Alterna-
j conhecido, pode-se utilizar diretamente o
Teorema 3.14 para mostrar que
=
o EMV para
X
,
1X
Exemplo 3.10 (Probabilidades na binomial).
Seja X1 , . . . , Xn uma amostra

X1 Binomial(2, ). A funo de verossimilhana dada por
" n #
n
Y
Y 2
Pn
Pn
L() =
f (xi |) =
i=1 xi (1 )2n i=1 xi ,
xi
i=1
i=1
de vaiid com
e a funo de log-verossimilhana dada por
n
X
X
n
2
l() =
log
+
xi log() +
xi
i=1
i=1
48
2n
n
X
i=1
!
xi
log(1 ).
A funo acima duas vezes diferencivel e o EMV dado por
.
= X/2
Considere o problema de estimar
= f (1|) = 2(1 ),
com
(0, 1/4].
como a funo acima no 1:1, no possvel escrever a
. De fato, para cada ,
0, 5 0, 5 1 2. Para ns de maximizao, pode-se

verossimilhana de
pode assumir os valores

denir a verossimilhana
induzida

1 1p
1 1p
L? () = max L
1 2 , L
1 2
+
2 2
2 2
e a maximizao desta verossimilhana conduzir ao EMV de
Contudo,
pode-se utilizar diretamente o Teorema 3.14 para mostrar que

X
X
=2
1
2
2
o EMV para
Embora os estimadores de mxima verossimilhana sejam preferveis aos estimadores obtidos via mtodo dos momentos, existem situaes nas quais estes
primeiros no produzem resultados satisfatrios. Os exemplos abaixo ilustram
os problemas que podem ocorrer com os estimadores de mxima verossimilhana.
Exemplo 3.11 (Inexistncia do EMV - I).

aleatria com
X1 Uniforme(0, ),
L() =
X1 , . . . , Xn
1
I(x(n) ),
n
(0, ]. Foi mostrado
X o intervalo
X(n) . Por outro lado,
onde o suporte de
EMV para
Seja
uma amostra
com funo de verossimilhana dada por
no Exemplo 3.6 que o
a verossimilhana poderia ter sido denida
como
1
I(x(n) < ),
n
onde o suporte de X o intervalo (0, ). Observe que a diferena entre as duas
uniformes est na possibilidade de x(n) = , logo, as duas so equivalentes exceto
L() =
este conjunto, que tem medida nula. Entretanto, a segunda uniforme denida
no possui um ponto de mximo.
Exemplo 3.12 (Innitos EMV).
Sejam
X1 , . . . , Xn variveis aleatrias inX1 Uniforme( 1, + 1). A
dependentes e identicamente distribudas com

funo de verossimilhana dada por
L() = 2n
n
Y
I( 1 < xi < + 1) = 2n I(x(n) 1 < < x(1) + 1).
i=1
Neste caso, a verossimilhana atingir o seu mximo para qualquer
(X(n) 1, X(1) + 1).

49
no intervalo
Exemplo 3.13.
com
n = 1, 2, . . ..
Seja
X1 , . . . , Xn uma amostra aleatria com X1 Binomial(, 1/2),

Neste caso,
Exemplo 3.14 (Complexidade aumentando com n).

com
X1 Cauchy(, 1),
Sejam
X1 , . . . , Xn vaiid
cuja densidade dada por

1
f (x|) = (1 + (x )2 )
Ento, a funo de log-verossimilhana
l() = n log
n
X

log 1 + (xi )2 ) ,
i=1
e
X 2(xi )
d
l() = 0
=0
d
1 + (xi )2
i=1
Pn
Q
2 i=1 (xi ) i6=j [1 + (xj )2 ]
Qn
=0
2
i=1 [1 + (xi ) ]
n
X
Y
(xi ) [1 + (xj )2 ] = 0.
i=1
i6=j
Como o polinmio da ltima equao de ordem
2n 1
2n 1,
temos que existem
razes. Assim, o nmero de pontos crticos crescem com o tamanho da
amostra, tornando a obteno do EMV trabalhosa. Entretanto, este estimador
ainda possui propriedades interessantes (ver Bai and Fu (1987)).
3.2.3
Seja
Melhores Estimadores No-Viesados
C = {T : E(T ) = ()}
a classe de estimadores no-viesados para
().
Foi discutido anteriormente, na Seo 3.1 que a minimizao do erro quadrtico

mdio nesta classe implica em encontrar o estimador no viesado para
() com
menor varincia. Estes estimadores so o alvo de discusso desta seo.
Denio 3.15 (ENVVUM). O estimador T 0 , no viesado para () dito
ser o melhor estimador no viesado com varincia uniformemente mnima (ENVVUM)

para () se V ar(T 0 ) V ar(T ) qualquer outro estimador T no viesado e para
todo .
Mesmo na classe reduzida dos estimadores no viesados, a obteo de um
ENVVUM pode ser uma tarefa rdua. Suponha que possvel encontrar uma
cota inferior para a varincia dos estimadores em
C.
Ento, se existe um es-
timador no viesado cuja a varincia atinge a cota inferior, este estimador

um ENVVUM para
().
O teorema a seguir apresenta a cota inferior para a
varincia para um subconjunto de estimadores em

50
C.
Teorema 3.16 (Limite Inferior de Cramr-Rao). Seja X1 , . . . , Xn uma amostra

de variveis aleatrias com densidade conjunta dada por f (x|), com = (, )
e seja T (X) qualquer estimador satisfazendo
Z
d
E(T (X)) =
d
[T (x)f (x|)] dx
(3.7)
e
V ar[T (X)] < .
Ento,
(3.8)
2
d
d E[T ]
V ar(T (X))
E
2 .
log f (X|)
(3.9)
Estes resultados tambm so vlidos para variveis aleatrias discretas.

Proof.
Para duas variveis aleatrias
quaisquer com segundo momento
nito, sabe-se que
Cov(X, Y )
1 p
1,
V ar(X)V ar(Y )
o que implica em
Cov(X, Y )2
.
V ar(Y )
V ar(X)
Considerando a Equao (3.7) verdadeira para qualquer
(3.10)
T,
tem-se que
d
d
E(T ) =
T (x)f (x|)dx =
T (x)f (x|)dx
d
d

Z
f (x|)
= T (x)
f (x|)
dx, e como (log g(x))0 = g(x)0 /g(x)
f (x|)

Z
= T (x)
log f (x|) f (x|)dx

= E T (X) log f (X|) .
Em especial, ao fazer
T = 1,
0=
tem-se
d
E(1) = E
d
log f (X|) .
Com o resultado acima, mostra-se que

V ar
log f (X|)
2 !
2
log f (X|)
E
log f (X|)

2 !
log f (X|)
=E
=E
51
Considerando a Equao (3.10) com
X =T
Y = log(f (X|))/,
tem-se
que
2
2
Cov T,
Cov T,
log f (X|)
log f (X|)

=
V ar(T )
2
V ar
log f (X|)
log f (X|)
E

2

log f (X|) E (T (X)) E

f (X|)
E T (X)

=
2
E
log f (X|)
2
d
E(T )
d
= h
2 i
E
log f (X|)
Corolrio 3.17. Seja
X1 , . . . , Xn uma amostra de vaiid com densidade (ou

funo de probabilidade) conjunta dada por f (x|). Se as condies do Teorema
3.16 estiverem satisfeitas, ento

V ar(T )
nE
Proof.
2
d
d E(T )
2 i
log f (X1 |)
Exerccio.
Corolrio 3.18. Seja
X1 , . . . , Xn uma amostra de vaiid com densidade (ou

funo de probabilidade) conjunta dada por f (x|). Se as condies do Teorema
3.16 estiverem satisfeitas, e se T for no viesado para , ento
1
V ar(T )
n
Proof.
( "
2 #)1
E
log f (X1 |)
Exerccio.
Para a aplicao do Teorema 3.16 necessria a troca da ordem dos operadores derivada e integral(ou somatrio).
Esta troca sempre possvel na
famlia de distribuies exponenciais (ver Exerccio
Exemplo 3.15 (ENVVUM para Poisson).

de vaiid com
X1 Poisson().
??).
Seja
X1 , . . . , Xn
Ento
x1
d
e
d
log f (x1 |) =
log
d
d
x1 !
d
=
[ + x1 log log(x1 !)]
d
x1
= 1 +
52
uma amostra
"
E
"
2 #
2 #

X1
d
X1
X2
log f (X1 |)
=E
1 +
= E 1 + 21 2
d
=1+
=
E(X1 )
E(X12 )
2
2
1
,
Como a Poisson pertence famlia de distribuies exponenciais, as condies

do Corolrio 3.18 esto satisfeitas e uma cota inferior para a varincia dos
estimadores no viesados para
V ar(T )
.
n
Contudo, no Exemplo 3.7 foi mostrado que
= .
V ar(X)
n
Como a varincia de
ENVVUM para
X
.
atinge o limite inferior de Cramr-Rao, conclui-se que
O prximo resultado til para os clculos envolvidos na aplicao do Teorema 3.16.
Lema 3.19. Se f (x|) satisfaz

d
E
d
Z

log f (X|) =
f (x|) f (x|) dx,
ento,

E
2 !
2

f (X|)
= E
log
f
(X|)
.
Dentre as distribuies que satisfazem as condies deste lema esto aquelas na

famlia de distribuies exponenciais.
Exemplo 3.16.
Seja
X1 , . . . , Xn uma amostra de vaiid com X1 Normal(, ).

=
Para manter a consonncia com a notao do Teorema 3.16, considere
(, ).
Como a normal pertence famlia de distribuies exponenciais, ento
as condies do Corolrio 3.18 esto satisfeitas. Notando que

1
1
log f (x1 |) =
log
exp (x1 )2
2
2

1
1
1
=
log 2 log (x1 )2
2
2
2
1
1
= + 2 (x1 )2
2 2
53
e que
2
1
1
log f (x1 |) = 2 3 (x1 )2
2
logo, pelo Lema 3.19, tem-se que

E
log f (X1 |)
2 !

2
log
f
(X
|)
1
2
1
1
3 (x1 )2
2
2
= E
= E
=
1
.
22
Portanto, uma cota inferior para os estimadores no viesados para
V ar(T )
dada por
2
.
n
Entretanto, at o presente momento, no foi encontrado um estimador para

que tenha varincia igual ao limite inferior de Cramr-Rao.
O Exemplo 3.16 mostra, mesmo obtendo o limite inferior de Cramr-Rao,

ainda existe o problema de procurar o estimador no viesado que possui varincia com valor correspondente. Contudo, existem situaes nas quais no existe
estimador no viesado cuja varincia igual ao limite inferior de Cramr-Rao.
O seguinte corolrio apresenta um mtodo para encontrar estimadores que satisfazem o limite inferior de Cramr-Rao.
Corolrio 3.20. Seja X1 , . . . , Xn uma amostra de viid de f (x|), onde f satisfaz as condies do Teorema 3.16. Se T um estimador no viesado para (),
ento T atinge o limite inferior de Cramr-Rao se e somente se
a()[T ()] =
l()
para alguma funo a().

Proof.
Exerccio.
Exemplo 3.17 (ENVVUM para Bernoulli).

de vaiid com
X1
Bernoulli().
Seja
Como a distribuio Bernoulli pertence

54
famlia exponencial, as condies do Teorema 3.16 esto satisfeitas. Como
n
Y
d
d
xi (1 )1xi
l() =
log
d
d
i=1
!
=
Pn

Pn
d
log i=1 xi (1 )n i=1 xi
d
!
n
n
X
d X
xi log() + (n
xi ) log(1 )
d i=1
i=1
Pn
Pn
n i=1 xi
xi
= i=1
1
" n
!#
n
X
X
1
=
xi (1 ) n
xi
(1 ) i=1
i=1
n
(
x )
=
(1 )
logo, pelo Corolrio 3.20,
o estimador no viesado para
que atinge o limite

.
inferior de Cramr-Rao, sendo, portanto, o ENVVUM para
Exemplo 3.18 (Concluso do Exemplo 3.16).
Seja X1 , . . . , Xn uma amostra

X1 Normal(, ), com = (, ). Ento,
)!
(

n2
n
1
1 X
2
l() =
log
(xi )
exp
2
2 i=1
!
n
d
n
n
1 X
=
log(2) log
(xi )2
d
2
2
2 i=1
de vaiid com
n
n
1 X
+ 2
(xi )2
2 2 i=1
Atravs da equao acima, possvel mostrar que
l() = 2
!
n
1X
2
(xi ) ,
n i=1
logo, pelo Corolrio 3.20,
1X
(Xi )2
T =
n i=1
no viesado para
Contudo, como
e sua varincia atinge o limite inferior de Cramr-Rao.
desconhecido,
existe estimador no viesado para
T no uma estatstica
cuja varincia atinge o
e, portanto, no
limite inferior de
Cramr-Rao.
A partir do Corolrio 3.20 pode-se notar que a coleo de estimadores no

viesados que atingem o limite inferior de Cramr-Rao muito restrita. O prximo teorema mostra que, se existe um estimador no viesado para
55
(),
ento
possvel melhor-lo, isto , obter outro estimador no viesado com uma varincia menor.
Teorema 3.21 (Rao-Blackwell). Seja W qualquer estimador no viesado para

() e seja T uma estatstica suciente para . Dena (T ) = E(W |T ). Ento
E(T ) = () e V ar((T )) V ar(W ) para todo .
Proof.
Primeiro, como
suciente, tem-se que
(T ) = E(W |T )
funo
apenas da amostra, sendo portanto uma estitistica. Alm disso,
E[(T )] = E[E(W |T )] = E[W ],

logo,
(T )
um estimador no viesado para
().
Por ltimo,
V ar(W ) = V ar[E(W |T )] + E[V ar(W |T )]

= V ar(T ) + E[V ar(W |T )] V ar(T ).
concluindo a demonstrao.
Exemplo 3.19 (Melhorando um estimador).

de vaiid com
L() =
X1 Binomial(2, ).
n
Y
2
i=1
tem-se que
xi
Pn
i=1
"
xi (1 )2xi =
n
Y
2
i=1
Xi
Seja
Como
xi
#
(1 )2n
= () = f (1|) = 2(1 ).
W
a ferquncia relativa do resultado 1 na amostra, ou seja
W =
n
X
I(Xi = 1)
.
n
i=1
Note que
n
X
E[I(Xi = 1)]
E[W ] =
= E[I(X1 = 1)] = f (1|) = ,
n
i=1
56
Considere o problema
de encontrar um estimador no viesado para
Seja
Pni=1
logo,
no viesado para
Como
"
#
n
X
I(Xi = 1)
E[W |T = t] = E
|T = t = E [I(X1 = 1)|T = t] = f (1|t, )
n
i=1
Pn
P (X1 = 1, i=1 Xi = t|)
P (X1 = 1, T = t|)
=
=
P (T = t|)
P (T = t|)
Pn
P (X1 = 1|)P ( i=2 Xi = t 1|)
=
P (T = t|)

2(n1) t1
2(1 ) t1 (1 )2(n1)t+1

=
2n t
2nt
t (1 )

2n
t
t
=
2
1
,
2n 1
2n
2n
logo, aplicando o Teorema 3.21, tem-se que
2n
2
(T ) =
2n 1

X
X
1
2
2
W
(compare o estimador
este exemplo com o estimador obtido no Exemplo 3.10).
um estimador no viesado com varincia menor que
At este momento foram discutidas tcnicas para:
1. Identicar se existe um ENVVUM atravs do Teorema do limite inferior

de Cramr-Rao
2. Melhorar um estimador no viesado atravs do Teorema de Rao-Blackwell.
Os prximos resultados mostraro que:
1. Se existe um ENVVUM ele nico.

2. Estimadores no viesados baseados unicamente em estststicas sucientes
completas so ENVVUM.
Teorema 3.22 (Unicidade do ENVVUM). Se
no-viesado para (), ento ele nico.

Proof.
Suponha que
V ar(W )
T um melhor estimador
so dois ENVVUMs para para
e o estimador
H=
1
(T + W )
2
57
().
Ento,
V ar(T ) =
().
tambm um estimador no viesado para

quaisquer
Utilizando o fato de que, para
com varincias nitas,
Cov(X, Y )
p
V ar(X)V ar(X)
mostra-se que
1
V ar(T + W )
4
1
1
= V ar(T ) + V ar(W ) +
4
4
1
1
V ar(T ) + V ar(W ) +
4
4
= V ar(T )
V ar(H) =
Mas, como
um ENVVUM, necessrio que
para que ocorra a igualdade necessrio que

existem
a()
b()
1
Cov(T, W )
2
1p
V ar(T )V ar(W )
2
V ar(H) = V ar(T ).
Entretanto,
seja funo linear de
W.
Logo,
tais que
T = a()W + b().
Neste caso,
Cov(T, W ) = Cov(a()W + b(), T )

= a()Cov(W, T )
= a()V ar(T ).
Contudo, como
que implica em
T e W possuem a mesma varincia, Cov(T, W ) = V ar(T ),

a() = 1. Alm disso, W no viesado, logo
E(W ) = E(T ) + b() = E(T )

faz com que
b() = 0.
Portanto,
W =T
o nico ENVVUM.
O prximo Teorema d as condies necessrias e sucientes para que um
()
estimador para
seja o ENVVUM.
Teorema 3.23. Seja T um estimador no viesado para (). Ento T ser o
melhor estimador no-viesado se e somente se ele for no correlacionado com

todos os estimadores no viesados para 0.
Proof. ()Se T
o ENVVUM para
(), ento para qualquer estimador W
viesado para zero o estimador
H = T + aW
no viesado para
().
Disto, tem-se que
V ar(H) = V ar(T ) + a2 V ar(W ) + 2aCov(T, W ),

58
no
A funo acima duas vezes diferencivel em

minimizada em
a=
e o menor valor da varincia de
e pode-se mostrar que
V ar(H)
Cov(T, W )
,
V ar(W )
dado por
Cov(T, W )
V ar(H) = V ar(T ) +
V ar(W )
Cov(T, W )2
= V ar(T )
V ar(W )
2
Cov(T, W )
V ar(W ) + 2
V ar(W )

Cov(T, W )
o que implica em
V ar(H) V ar(T ).
Mas, como
de
T,
H no pode ser menor que a varincia

V ar(H) = V ar(T ), o que implica em Cov(T, W ) = 0.
ENVVUM, a varincia de
logo, tem-se que
() Suponha que T um estimador no viesado para (). Suponha ainda

T no correlacionado com todos os estimadores no viesados para 0. Seja
H outro estimador no viesado para (). Ento, fazendo H = T + (H T ),
tem-se que E(H T ) = 0 e
que
V ar(H) = V ar(T ) + V ar(H T ) + Cov(T, H T ) = V ar(T ) + V ar(H T ).

Como
V ar(H T ) 0, sempre verdade que V ar(H) V ar(T ) para qualquer

(). Portanto, T o ENVVUM para ().
no viesado para
O Teorema 3.23 mostra que um estimador o ENVVUM se e somente se

ele for no correlacionado com qualquer estimador no viesado para zero. Na
prtica, impossvel vericar se um estimador no viesado qualquer atende este
pr-requesito. Reconsidere ento que uma estatstica T completa se E[g(T )] =
0 implica em g(T ) = 0 em quase toda parte. Em outras palavras, o estimador
g(T (X)) = 0 o nico no viesado para 0 baseado em T . Isto motiva o seguinte
teorema.
Teorema 3.24 (Lehmann-Sche). Seja
T uma estatstica suciente completa para e seja (T ) qualquer estimador no viciado para (). Ento (T )
o ENVVUM para ().
Proof.
Seja
()
(). Como T suciente,

(T ) = E[W |T ] no viciado para
qualquer estimador no viciado para
pelo Teorema de Rao-Blackwell, o estimador

e
V ar((T )) V ar(W ).
Mas, como
completa,
E[(T ) (T )] = 0 (T ) = (T ).
Portanto,
(T )
ENVVUM para
().
59
Corolrio 3.25. Seja h(X) qualquer estimador no viesado para (). Se T
uma estatstica suciente completa, ento (T ) = E[h(X)|T ] ENVVUM para

().
O Corolrio 3.25 utiliza o Teorema de Rao-Blackwell (Teorema 3.21) e o
Teorema de Lehmann-Sche para mostrar que estimadores no viciados baseados em estatstica suciente completas so os melhores estimadores no viesados
com varincia uniformemente mnima.
Exemplo 3.20 (ENVVUM para o zero da Poisson).

amostra de vaiid com
X1
Seja
X1 , . . . , Xn uma
Poisson() e considere o problema de encontrar o
ENVVUM para
() = f (0|).
Para tanto, considere o estimador
W (X) =
que no viesado para
().
1X
I(Xi = 0),
n i=1
Como a distribuio Poisson pertence famlia
de distribuies exponenciais, tem-que
T (X) =
Pn
i=1
Xi
uma estatstica su-
ciente completa. Ento,
E[W |T = t] = E[I(X1 = 0)|T = t] = P (X1 = 0|
n
X
Xi = t)
i=1
Pn
Pn
P (X1 = 0, i=1 Xi = t)
P (X1 = 0, i=2 Xi = t)
Pn
Pn
=
=
P ( i=1 Xi = t)
P ( i=1 Xi = t)
Pn
P (X1 = 0)P ( i=2 Xi = t)
Pn
=
P ( i=1 Xi = t)
n
e
[n]t
e(n1) [(n 1)]t
=e
t!
t!

t
n1
=
,
n
f (0|)

T
n1
(T ) = E[W |T ] =
.
n
portanto, pelo Corolrio 3.25, o ENVVUM para
Consideraes sobre o ENVVUM

Neste ponto, importante rediscutir alguns aspectos sobre a estimao pontual.
Primeiro, o objetivo da estimao pontual entregar um valor prximo de
60
na
maioria das vezes. Esta noo de proximidade pode ser realizada pela escolha
de uma funo de perda.
em mente que valores de
Ao escolher a perda quadrtica, o usurio deve ter
distantes de
so penalizados de forma quadrtica.
Logicamente, esta escolha possui apelo da decomposio
EQMT () = V ar(T ) + Vis()2 .

Tanto o vis do estimador quanto sua varincia so caractersticas fceis de
interpretar como ao se escolher um estimador, espera-se que ele esteja prximo
do parmetro e que sua variabilidade seja baixa. Menos fcil de interpretar o
balano entre vis e varincia. Como o objetivo minimizar o erro quadrtico
mdio, talvez seja mais interessante escolher um estimador viesado com uma
varincia menor. A escolha de busca pelo melhor estimador dentro da classe de
estimadores no viesados pode levar a estimadores que no minimizam o erro
quadrtico mdio. Como ilustrao, considere o exemplo abaixo.
Exemplo 3.21 (Estimadores para Varincia).

de vaiid com
X1
Normal(,
).
distribuies exponenciais e as estatsticas

pletas.
Seja
A distribuio normal est na famlia de
Pn
Na Proposio 3.11 foi mostrar que
i=1
2
Xi2
so sucientes e com-
no viesado para
2 .
Note
que
X
1 X
2= 1
2 2Xi X)
(Xi X)
(X 2 + X
n 1 i=1
n 1 i=1 i
!
!
n
n
2
X
X
1
n
X
i
2
2
2
=
X nX
=
X
,
n 1 i=1 i
n 1 i=1 n
S2 =
logo, como
S2
baseado em uma estattica suciente e completa, tem-se que
ENVVUM para
e seu erro quadrtico mdio
EQMS 2 ( 2 ) = V ar(S 2 ).
No Exemplo 2.7 foi deixado como exerccio mostrar que
n1 2
S 2n1 .
2
A varincia da distribuio
2n1
2(n 1),
logo

2 n 1 2
V ar(S ) = V ar
S
n 1 2

4
n1 2
V
ar
S
=
(n 1)2
2
4
=
.
2(n 1)
2
61
S2
2 ,
Considere agora o EMV para
obtido no Exemplo 3.8, e reproduzido abaixo:
2 =
O valor esperado de
1X
2 = n 1 S2.
(Xi X)
n i=1
n
E[
2 ] =
n1 2
n1
E(S 2 ) =
,
n
n
sendo, portanto, um estimador viesado para
V ar(
2 ) =
n1
n
2
2 .
Alm disso,
V ar(S 2 ) =
n1 4
.
2n2
Com os resultados acima, tem-se que
EQM 2 ( 2 ) = V ar(
2 ) + (E(
2 ) 2 )2

2
n1 4
n1 2
2
=
2n2
n

4
n1
= 2
+1
n
2
4 (n + 1)
=
,
2n2
logo,
EQMS 2 ( 2 )
4
2n2
=
EQM 2 ( 2 )
2(n 1) 4 (n + 1)
n2
= 2
> 1.
n 1
Por tanto, se o critrio para escolha do melhor estimador for o erro quadrtico
mdio,
a melhor escolha, mesmo sendo o estimador
S2
o ENVVUM para
3.3 Estimao Pontual Bayesiana

Na inferncia bayesiana uma estimativa pontual para
rizar a informao subjetiva sobre
pela distribuio
a posteriori.
tem o objetivo de suma-
aps a observao dos dados, representada
Antes de discutir alguns mtodos de estimao,
importante discutir como o processo de atualizao da informao atravs do

Teorema de Bayes preserva algumas boas caractersticas estudadas no Captulo
2.
62
Teorema 3.26. Seja X1 , . . . , Xn uma amostra de variveis aleatrias com dis-
tribuio conjunta representa por f (x|) e seja f () a distribuio a priori

para . Ento, para qualquer estatstica suciente minimal T , a distribuio a
posteriori de escrita como funo da amostra atravs de T .
Proof.
Seja
T0
uma estatstica suciente qualquer. Pelo Teorema do Critrio da
Fatorao (Teorema 2.4) tem-se que
f (x)| = h(x)g(T (x), ).

Ento,
f (|x) h(x)g(T (x), )f () g(t|)f (),

logo, a distribuio
a posteriori
funo da amostra atravs de
Portanto, inferncias baseadas na distribuio
T 0.
a posteriori sempre so baseadas
em estatsticas sucientes.
Uma vez que
aleatrio, utilizamos estimadores bayesianos para represen-
tar um valor tpico de
Exemplos de estimadores so:
max f (|x)
E|x (|x)
Mediana(|x).
Note que todos os estimadores acima realmente so estatsticas (no dependem

de termos desconhecidos). O primeiro recebe o nome de mximo posteriori
(MAP). Na seo
?? vimos que estimadores baseados em estatsticas sucientes
possuem boas propriedades. Uma das vantagens de utilizarmos a distribuio

a posteriori para realizar inferncias e que ela sempre baseada em estatisticas
sucientes.
Proposio 3.27. Seja
T (X) uma estatistica suciente para . Ento |x e

|T (x) tem a mesma distribuio.
Proof.
Exerccio.
Vimos anteriormente que um estimador podia ser avaliado por uma funo
de perda. No caso frequentista o EQM foi utilizado e a avaliao de seu valor
sob
era recomendada.
A denio abaixo mostra um anlogo bayeisano ao
EQM
63
Denio 3.28 (EQMP). Seja T (X) um estimador para h(). Erro quadrtico
mdio da posteriori deste estimador
E|x [(T (x) h())2 ].
Exemplo 3.22.
Notemos que o EQMP pode ser reescrito como
E|x [(T (x) h())2 ] = (T (x) E|x (h()))2 + E|x [h() E|x (h())]2 .
Consideremos
X1 , . . . , Xn | Normal(, 1)
Normal(, 1)
e seja
h() = .
Ento,
EQM P (T, ) = (T E|x ())2 + E|x [ E|x ()]2 .

Claramente, o estimador
que minimiza o EQMP dado por
T = E|x ().
Notando que
n
1
)2 ( )2
f (|x) exp ( x
2
2
teremos que

n+1
n
x+
exp
(
) ,
2
n+1
1
) e o estimador que minimiza
|x Normal(n
x/(n+1)+/n+1, n+1
o EQMP ser
T (X) = n
+
.
n+1 n+1
Por ltimo, suponha que queremos realizar alguma inferncia em relao
= h(). Ento, devemos utilizar nosso conhecimento

calcular f (|x) baseado da distribuio de |x.
de probabilidade para
Exemplo 3.23.
ncias sobre
Seja X| Bernoulli() e suponha que queremos fazer infer = /(1 ). Copnsiderando a conjugada Beta(1, 1), teremos
f (|x)
logo
|x Beta(
Pn
i=1
Pn
xi + 1, n
i=1
Pn
xi
i=1
(1 )n
xi + 1)
Pn
i=1
xi
"
f (|x) =
Pn
i=1
xi
n
n
X
X
B(
xi + 1, n
+1)(1 + )n+2
i=1
3.3.1
#1
.
i=1
Estimador de Bayes
Na seo XXX havamos denido uma funo de perda como sendo uma funo
T estava de . Em especial, deni(T )2 e seu respectivo valor esperado
que media o quo distante um estimador

mos a perda quadrtica como sendo
foi denominado Erro Quadrtico Mdio - e sob esta medida, realizamos nossa
discusso sobre estimadores pontuais na inferncia clssica.
64
Poderamos ter desenvolvido a inferncia pontual a partir de outra funo

de perda, obtendo assim resultados diferentes. Assim, seja
T,
de perda associada ao estimador
P(T, )
.
uma funo
com o objetivo de estimar
Denio 3.29. Denimos como risco de T o valor esperado

R(T, ) = EX| [P(T, )].
Assim, por exemplo, o EQM o risco do estimador
(3.11)
associado a perda
quadrtica. Se voltarmos Seo XXX, lembraremos que o EQM podia variar

para cada valor de
Aqui, podemos marginalizar o efeito de
gerando a
seguinte denio.
Denio 3.30. Considere a funo de perda

Bayes de T como sendo a funo
P(T, ). Denimos o risco de
BR(T ) = E [R(T, )].
O estimador com o menor risco prefervel.
(3.12)
Isto nos motiva seguinte
denio.
Denio 3.31. O estimador T que minimiza BR(T ) denominado estimador
de Bayes.
Dentre todos os estimadores, o estimador de Bayes aquele com o menor

risco, sendo assim um candidato natural a sumarizar a varivel
Proposio 3.32. Suponha que a funo de perda P(T, ) contnua em T e

que podemos trocar a ordem das esperanas. Ento, igual a
argmaxT E|x [P(T, )]
o estimador de Bayes.
Proof.
Notemos que
BR(T ) = E EX| [P(T, )] = EX, P(T, )

Z Z
Z Z
P(T, )f (x|)f ()dxd =
P(T, )f (|x)df (x)dx
= EX E|X [P(T, )].
Mas, para todo
T,
a relao abaixo verdadeira
E|X P(T, ) E|X P(T 0 , ) EX E|X P(T, ) EX E|X P(T 0 , ),

logo, o valor de
que maximiza
E|x P(T, )
65
tamb maximiza
BR(T ).
3.4 Exerccios
Seo 3.1
3.1. Seja X1 Geometrica().
no viesado para
Mostre que
T (X) = I(X = 0)
um estimador
Encontre o vis e a varincia deste estimador e discuta
sobre sua qualidade em termo de erro quadrtico mdio.
Seo 3.2.1
3.2. Demonstre o Teorema 3.9.
3.3.
Quando a distribuio tem dois parmetros, comum encontrar o esti-
mador de momentos resolvendo o sistema
= E(X)
X
S 2 = V ar(X)
Pn
2
i=1 (Xi X) /(n 1). Encontre o estimador via mtodo dos
momentos (utilizando o sistema acima quando for possvel) para as seguintes
onde
S2 =
distribuies:
(a) Poisson:
P (X = x|) = e x /x!, x = 0, 1, 2, . . . ,
(b) Uniforme:f (x|, )

(c) Pareto:
(d) Beta:
>0
= ( )1 , < x < , > .
f (x|, ) = /x+1 , x > , , > 0
f (x|, ) = x1 (1 x)1 /B(, ), 0 < x < 1, , > 0.
(e) Gama:
f (x|, ) = x1 ex /(), x, , > 0.
f (x|, ) = .5 (.5( + 1))( + (x )2 ).5(+1) /(.5), x R,

R e > 2.

x
x
Binomial: P (X = x|, ) =
, x = 0, . . . , e 0 < < 1.
x (1 )
1
2
Lognormal: f (x|, ) = ( 2 2 x)
exp{.5(log(x) )2 / 2 }, x, 2 > 0
e R.
(f ) t-Student:
(g)
(h)
Seo 3.2.2
3.4. Seja X1 , . . . , Xn uma amostra de vaiid com densidade
f (x|) =
onde
x < .
66
,
x2
1. Encontre uma estatstica suciente de dimenso um para
2. Encontre um estimador para
utilizando o mtodo dos momentos.
3. Encontre um estimador para
utilizando o mtodo da mxima verossim-
ilhana
3.5.
Seja
X1 , . . . , Xn
tre um estimador no viciado para
mtodo da mxima verossimilhana.
X1 Uniforme(0, ).
Encon-
utilizando o mtodo dos momentos e o

Qual destes estimador melhor?
Justi-
que.
3.6.
Seja
X1 , . . . , Xn
uma amostra de vaiid com funo distribuio dada por
F (x|, ) =
0,

x
1,
x<0
, 0x
x>
(a) Encontre uma estatstica suciente bidimensional para

(b) Encontre o EMV para
3.7.
Seja
X1 , . . . , Xn uma amostra de vaiid com distribuio Gaussiana inversa,
cuja densidade

f (x|, ) =
Encontre o EMV para
2x3
1/2
2
exp 2 (x ) .
2 x
Seo 3.2.3
3.8. Demonstre os Corolrios 3.17 e 3.18.
3.9.
Prove que, se existe uma estatstica suciente completa e se existe o EMV
= ()
com E[]
3.10.
ento
ENVVUM para
Para cada uma das densidades abaixo, seja
vaiid. Encontre o ENVVUM para
f (x|) = 1 I(0 < x )I(r < n).
(b)
f (x|) = exp{x + }I(x ).

Seja
X1 , X2
X3
X1 , . . . , Xn
uma amostra de
r .
(a)
3.11.
().
> 0.
67
Uniforme(, 2) com
1. Encontre um estimador no viciado para
a partir do estimador obtido
via mtodo dos momentos.

2. Encontre um estimador no viciado para
a partir do estimador de mx-
ima verossimilhana.
3. Qual destes estimadores pode ser melhorado atravs do Teorema de RaoBlackwell?
3.12.
Seja
X1 , . . . , Xn uma
(1 ).
amostra de vaiid com
X Bernoulli().
Encontre
X Normal(, 1).
Encontre
o ENVVUM para
3.13.
Seja
X1 , . . . , Xn
2 .
o ENVVUM para
68
Chapter 4
Testes de Hipteses
Paramtricos
Considerando-se a amostra
X1 , . . . , Xn
F (.|), foi discu (). Entretanto,
proveniente do modelo
tido no captulo anterior o problema da estimao pontual de
existem diversos problemas nos quais o objetivo da inferncia levantar evidncias sobre a veracidade de alguma suposio sobre
F (.).
Tais suposies so
denominada hipteses.
Denio 4.1. Qualquer suposio sobre F (.|) denominada hiptese.

Exemplo 4.1.
X1 , . . . , Xn
Seja
uma amostra de variveis aleatrias. Ao menos
que existam razes fsicas claras, considerar que estas variveis so iid uma
hiptese.
Exemplo 4.2.
Seja
X1 , . . . , Xn uma amostra de vaiid com X1 | Normal(, 1).
Considere as seguintes hipteses:
1.
= 0
- ou seja, os dados so provenientes de uma distribuio normal
padro.
2.
> 0
- os dados so provenientes de alguma distribuio normal com
mdia positiva.
Podem existir um nmero diferente de hipteses para o mesmo problema.

comum identicar a i-sima hiptese por
exemplos:
69
Hi , com i = 0, 1, 2, . . ..
Seguem alguns
H1 : = 0.
H2 : > 0.
H3 : X1 , . . . , Xn Normal(, 2 )
H4 : X1 , . . . , Xn
para algum par
(, 2 )
desconhecido.
uma amostra de variveis aleatrias independentes.
Sob o ponto de vista paramtrico, hipteses so suposies sobre os parmetros da distribuio
F (.|),
onde apenas
desconhecido.
Nesta abordagem,
existem dois tipos importantes de hipteses (Cox & Hinkley):
Hipteses simples: so hipteses sobre o valor exato de um parmetro.

Exemplos:
H0 : = 0 ; H1 : { = 0 } { = 0 }.
O objetivo de uma
hiptese simples identicar completamente a distribuio em estudo.
Hipteses compostas: so hipteses sobre uma possvel regio do espao

paramtrico. Exemplos:
H0 : 0 ; H1 : { 0 } { 0 }.
Os testes de hipteses so procedimentos que utilizam uma amostra para

decidir se certa hiptese verdadeira ou falsa.
H0 : 0 ,
onde
0 ,
Ao considerar uma hiptese
aps observar os dados existem duas decises:
1. Deciso 1: aceitar a hiptese
H0
como verdadeira.
2. Deciso 2: aceitar a hiptese
H0
como falsa.
Note que estas decises so estatsticas, uma vez que elas so baseadas na
amostra.
Denio 4.2 (Teste de Hipteses). Um teste de hipteses (tambm chamado

de regra de deciso) qualquer estatstica D : X n {0, 1}. Se D(X) = 1,
toma-se a deciso de rejeitar H0 e se D(X) = 0, toma-se a deciso de no
rejeitar H0 .
Portanto, um teste de hipteses uma estatstica que toma a deciso de rejeitar
ou no uma hiptese. Os erros de deciso so classicados como:
1. Erro Tipo I: rejeitar
H0
quando
H0
verdadeira.
2. Erro Tipo II: aceitar
H0
quando
H0
falsa.
70
impossvel evitar um dos erros acima sem aumentar as chances de cometer

o outro.
Por exemplo, se
D(x) = 0
para todo
ser rejeitada e o erro tipo I nunca ocorrer.

erro tipo II ocorrer sempre que
H0
for falsa.
x Xn
a hiptese
H0
nunca
Contudo, esta postura far o

Para racionalizar o processo de
deciso, possvel associar uma funo de perda para cada valor da estatstica
de teste, na qual obtm-se perda zero sempre que a deciso correta for tomada.
Classicamente, as funes de perda associadas aos testes de hipteses so do
tipo

L(, D(X) = 1) =
e

L(, D(X) = 0) =
onde
c1
c2
0,
c1 ,
se
c2 ,
0,
se
se
se
c0
0
c0
0
so as perdas ao se tomar a deciso errada. A funo risco deste
estimador dada por

R() = E[L(, D)|] =
Se
c1 = c2 = 1,
c1 P (D(X) = 1|),
c2 P (D(X) = 0|),
0
c0
a funo de perda correspondente denominada perda zero-um
e o seu respectivo risco dado por
P (D(X) = 1|),
P (D(X) = 0|),
R() = E[L(, D)|] =
0
c0
Assim como discutido no Captulo 3, tanto sob o ponto de vista frequentista

quanto o bayesiano razovel encontrar uma estatstica de teste
admissvel.
Na Seo 4.1 so discutidas a abordagem frequentista para o problema de testes

de hipteses e so apresentados os mtodos da razo de verossimilhanas e o teste
uniformemente mais poderoso. Devo colocar um texto sobre os teste bayesianos
aqui no futuro.
4.1 Testes de Hipteses Frequentistas

4.1.1
Construo de um Teste Frequentista
Considere o problema de testar a hiptese

ser denominada
hiptese nula.
H0 : 0 .
Doravante,
H0
A construo geral de um teste de hipteses
frequentista possui os seguintes passos:

71
1. Encontre uma estatstica
cuja distribuio conhecida se
dadeira e que valores elevados (muito pequenos) de
H0
for ver-
sejam raros se
H0
for verdadeira.
2. Seja
o valor observado desta estatstica.
3. Rejeite a hiptese
ou igual a
4. No rejeite
igual a
H0 se a probabilidade de observar um valor maior(menor)

H0 (isto , se H0 fosse verdadeira).
for pequena sob
H0
se a probabilidade de observar um valor maior(menor) ou
for alta sob
A estatstica
H0 .
denominada
estatstica de teste.
Tal estatstica escolhida
de modo que possvel distinguir quais so seus valores usuais se
H0
for ver-
a deciso de rejeitar a hiptese H0 tomada somente

se existirem evidncias para isso.
Exemplo 4.3. Seja X1 , . . . , X5 uma amostra de vaiid com X1 Bernoulli(),
dadeira. Portanto,
com
= {1/4, 3/4}
e considere a hiptese nula
H0 : =
1
.
4
P5
T = i=1 Xi suciente para . Alm disso,
qualquer (0, 1), T Binomial(5, ). Em particular, sob

1
.
T |H0 Binomial 5,
4
Foi discutido no Captulo 2 que

sabido que, para
H0
A tabela abaixo apresenta a funo de probabilidae de
t
f (t|1/4)
0,3955
0,2637
0,0879
0,0146
0,0010
so menos frequentes sob
disso, neste problema especco, um valor alto de

quando
H0
Se
falsa.
t = 5
Se
H0 .
Alm
mais provvel de ocorrer
H0
para valores de
verdadeira:
a probabilidade de observar um valor maior ou igual 5 de
t=5
seria um resultado entre 1000. Considerando este
resultado incomum de se observar quando
Considere ento a regra de rejeitar
H0
0,001. Portanto,
rejeitar
H0
sob
0,2373
Pode-se notar que os valores elevados de
elevados. Supondo
H0
verdadeira, opta-se por
H0 .
t = 4 a probabilidade de observar um valor maior ou igual a 4 de 0,015.
Portanto, este corresponderia a 15 resultados entre 1000. Considerando

isto incomum sob a hiptese nula, opta-se por rejeitar
72
H0 .
Se
t = 3
a probabilidade de observar um valor maior ou igual a 3 de
0,1035. Portanto, este corresponderia a 1 resultado entre 10. Este resultado no parece ser to incomum quando a hiptese nula verdadeira, o
que levaria a deciso de no rejeitar
H0 .
Utilizando a discusso acima, pode-se construir o seguinte teste: rejeite

o valor de
observado for maior ou igual a
H0
4.
se
No que foi discutido at aqui, pode-se notar que a deciso sobre rejeitar ou
no uma hiptese baseada na estatstica de teste. Ento, sem perda de generalidade, um teste de hipteses
onde
D(X)
uma estatstica de teste.
acima seria
pode ser escrito como

D(T ) =
Uma estatstica de teste
D(X) = D(T (X)),
Por exemplo, o teste descrito no exemplo
1,
0,
T 4
T <4
cria os conjuntos
R = {x X n : D(T (x)) = 1}
e
A = Rc
denominado
que formam uma partio do espao amostral.
O conjunto
regio de rejeio e o conjunto A denominado regio de aceitao.
Idealmente, a regio de rejeio composta por todas as amostras que do

evidncias de que a hiptese
H0
falsa. Note que
P (X R| 0 ) = P (D(X) = 1| 0 )
a probabilidade da hiptese
H0
ser rejeitada quando ela verdadeira, ou seja,
a probabilidade de ocorrer o Erro Tipo I.
Exemplo 4.4 (Concluso do Exemplo 4.3).

valores elevdos da estatsta
Anteriormente, foi discutido que
levam a deciso de rejeitar a hiptese nula. Con-
sidere os seguintess testes:
1,
0,
T 5
,
T <5
1,
0,
T 4
,
T <4
1,
0,
T 3
.
T <3
D1 (T ) =
D2 (T ) =
e
D3 (T ) =
A probabilidade de cometer o Erro Tipo I em cada teste 0,001, 0,015 e 0,1035.

O teste pode ser escolhido de acordo com o estas probabilidades de erro.
73
Considere novamente a funo risco da perda 0-1, dada por

R() = E[L(, D)|] =
P (X R|), 0 P (Erro
P (X A|), c0 P (Erro
Como os testes freqeuntistas so criados para rejeitar
H0
Tipo I)
Tipo II)
apenas quando houver
evidncias para tal, importante que a probabilidade do Erro Tipo I esteja

controlada.
Denio 4.3 (Tamanho do Teste). Seja R a regio de rejeio de um teste.

Este teste dito ter tamanho se
= sup P (X R|).
0
Denio 4.4 (Nvel do Teste). Seja

Este teste dito ser de nvel se
R a regio de rejeio de um teste.
sup P (X R|).
0
O nvel de um teste tambm denominado nvel de signicncia do teste.

A noo de nvel importante no caso de variveis aleatrias discretas, nas
quais nem sempre possvel conseguir um teste com o tamanho desejado.
objetivo do nvel (ou do tamanho) de um teste limitar a maior probabilidade

de cometer o Erro Tipo I. Naturalmente, um teste de tamanho
um teste de nvel de signicncia
de tamanho
tambm ser
No cotidiano, comum reportar um teste
como sendo um teste de nvel de signicncia
100%
Exemplo 4.5 (Teste normal com varincia conhecida).
Seja X1 , . . . , Xn
X1 | Normal(, 2 ), onde 2 conhecido, e considere
uma estatstica suciente
a hiptese H0 : = 0. J foi mostrado que X
completa para e que ,

2
Normal ,
X|
,
n
uma amostra de vaiid de
e que
Z=
Sob
H0
(ou seja, se
H0

X
n
Normal(0, 1)
verdadeira) tem-se que

2
X|H0 Normal 0,
,
n
Assim, valores observados da estatsca
de que a hiptese
H0
muito afastados de zero do evidncia
falsa. Considerando que, sob
H0 , X
de zero, pode-se propor a seguinte regio de rejeio:
R = {x Rn : |
x| > t}.
74
simtrica em torno
Considere que o tamanho desejdo do teste

de
t>0
Ento, pode-se encontrar o valor
tal que
> t|).
= sup P (|X|
0
Em detalhes,
> t|) = P (|X|

> t| = 0)
= sup P (|X|
0
> t| = 0) + P (X
< t| = 0)
= P (X
t
t
X
X
= P( n
> n
| = 0) + P ( n
< n
| = 0)

t
= P Z > n(t )| = 0 + P Z < n

| = 0

n
n
=P Z>
t| = 0 + P Z <
t| = 0 , ( mas como Z simtrica

n
n
t| = 0 + P Z >
t| = 0
=P Z>

n
= 2P Z >
t| = 0 ,
o que implica em

P
Seja
n
t
Z>

=
.
2
o valor da distribuio Normal(0,1) tal que
z/2 =
nt t
P (Z > z ) = .
H0 : = 0
com tamanho
>
1, |X|

0, |X|
z/2
n
z/2
n
Exemplo 4.6 (Problema do sono).
Ento ,
1
.
nz/2
Portanto, um teste para a hiptese
=
D(X)
em torno de zero)
Um experimento foi conduzido para ver-
icar se um novo sonfero auxiliava no tratamento da insnia.

foram submetidos a duas baterias de testes.
Dez pacientes
Na primeira, eles tomavam um
placebo e as suas horas de sono foram registradas.
Na segunda bateria eles
tomavam o sonfero e suas horas foram registradas. No nal, a diferena entre

as horas de sono com o sonfero e as horas de sono com o placebo foi registrada.
O banco de dados resultante
0,7
1 Os
-1,6
-0,2
-1,2
-0,1
3,4
3,7
0,8
0,0
2,0
valores de z para qualquer valor de podem ser obtidos no R atravs do comando
qnorm(gama,lower.tail=F).
75
Seja
que
Xi a diferena entre as horas de sono do i-simo paciente. Suponha ainda

X1 , . . . , X10 uma amostra de vaiid com Xi Normal(, 1, 762 ) (em outro
momento vamos lidar com a varincia desconhecida). Suponha que o interesse

testas se existe difenrea entre o sonfero e o placebo. Isto pode ser escrito
como
H0 : = 0.
De fato, se a
=0
ento a probabilidade da diferena ser positiva de 50%, o
que implica que o novo sonfero bom em 50% das vezes e neste caso, no tomar
nada tem o mesmo efeito e mais barato! Considere um teste de tamanho 5%
(ou seja, a maior probabilidade de cometer o Erro Tipo I de 0,05).
Como
discutido no exemplo anterior, um teste para esta situao
>
1, |X|

0, |X|
=
D(X)
1,76
z
10 0,05/2
1,76
z0,05/2
10
Consultando o computador (ou uma tabela normal), possvel obter o valor
z0,05/2 1, 96.
O teste se torna
=
D(X)
A mdia amostral dos dados
para rejeitar
H0 ,
> 1, 09
|X|
1, 09
|X|
1,
0,
x
= 0, 75.
Logo, no existem evidncias sucientes
ou seja, utilizando um teste com nvel de signicncia de 5%
no existem evidncias para dizer que mdia da diferena entre as horas de sono
nula. Voltaremos a este problema posteriormente.
Exemplo 4.7.
onde
Seja
X1 , . . . , Xn uma amostra de vaiid com X1 Normal(, 2 ),
conhecido. Considere a hiptese nula
H0 : 0 .
para algum
xado. Note que esta hiptese pode ser escrita como
H0 : 0 = [0 , ).
Sabe-se que
o ENVVUM para
evidncias de que
H0
Portanto, valores pequenos de
do
no verdadeira. Pode-se construir a seguinte regio de
rejeio
R = {x Rn : x
< t}.
Pode-se decidir o valor de
t apropriado xando o tamanho do teste em .
caso,

t
X
= sup P (X < t|) = sup P

n
< n
|
0
0

t
t
= sup P Z < n
| = sup FZ
n
.
0
0
76
Neste
onde
Z=
)/ Normal(0, 1).
n(X
Como a funo de distribuio de uma
varivel aleatria contnua montoma crescente, fcil notar que
)/)
montona decrescente em
Assim, para
0 > 00
FZ ( n(t
tem-se que
FZ ( n(t 00 )/) < FZ ( n(t 0 )/)

logo

sup FZ
0
o que implica em
t
n
= FZ
z
= FZ
t 0
n
t 0
n

.
R tal que P (Z > z ) = . Ento

t 0
t 0
= FZ
1=P Z > n
,
n
o valor em
z1 =
t 0
n
t = 0 + z1 .
Portanto, um teste de tamanho
=
D(X)
para a hiptese em questo
0 +
1, X
> 0 +
0, X
z1
n
z1
n
Exemplo 4.8 (Continuao do Problema do sono).

4.6, no qual
onde
Seja
Xi
X1 , . . . , X10
Considere o Exemplo
X1
Normal(, 1, 76
),
a diferena entre as horas de sono com o sonfero e o placebo. Con-
sidere a hiptese
H0 : 0,
ou seja, a diferena mdia no negativa, mostrando que existe um efeito igual
ou maior nas horas de sono ao utilizar o sonfero. Considerando um teste de
nvel de signicncia 5%, tem-se
z10,05 1, 64
Utilizando o exemplo anterior, um teste de nvel(tamanho) de signicncia 5%
=
D(X)
Como
x
= 0, 75
o teste no rejeita
0, 915
1, X
> 0, 915
0, X
H0 .
Isto implica que no existem evidncias
para dizer que o efeito do sonfero inferior ao placebo.
2 Note que o supremo existe porque o intervalo [ , ) fechado no limite inferior. Se a

0
hiptese nula fosse H0 : > 0 no seria possvel encontrar um teste de tamanho . Na
prtica, a hiptese nula sempre carrega o sinal de igualdade para evitar este problema.
77
Existem problemas nos quais impossvel denir um teste de um determinado tamanho
conforme ilustra o seguinte exemplo.
Exemplo 4.9 (Teste para de uma Binomial).

X1
aleatrias iid com
= 1/2.
Sabe-se que
i=1
completa para
verdadeira, a distribuio de
Pn
X1 , . . . , X10 variveis
H0 :
hiptese de que H0
Sejam
Bernoulli() e considere o problema de testar
Xi Binomial(10, 0, , 5),
Sob a
pode ser obtida a partir da distribuio de
conforme mostra a tabela abaixo.
p(
x)
p(
x)
0,0
0,001
0,6
0,205
0,1
0,010
0,7
0,117
0,2
0,044
0,8
0,044
0,3
0,117
0,9
0,010
0,4
0,205
0,001
0,5
0,246
Valores muito baixos ou muito altos de
do indcios de que
6= 1/2,
logo
natural construir uma regio de rejeio do tipo
R = {x {0, 1}10 : x
>a
para
a > 0, 5,
onde a simetria indica que
ou
x
< 1 a},
pode estar igualmente afastado de
1/2 tanto pela direita quanto pela esquerda. Considerando as possibilidades de

valores para
considere as seguintes regies de rejeio:
R = {x {0, 1}10 : x
> 0, 9
ou
x
< 0, 1}.,
com tamanho 0,002
R = {x {0, 1}10 : x
> 0, 8
ou
x
< 0, 2}.,
com tamanho 0,022
R = {x {0, 1}10 : x
> 0, 7
ou
x
< 0, 3}.,
com tamanho 0,055
A natureza discreta da estatstica de teste permite encontrar testes de tamanhos

0,002, 0,022 e 0,055 mas no um teste de tamanhos 0,05 ou 0,03. Um teste cuja
regio de rejeio dada por
R1 = {x {0, 1}10 : x
> 0, 8
ou
x
< 0, 2},
um teste de nvel 0,05. Um teste com regio de rejeiio
x
> .9
0, 05.
ou
x
< 1}
R2 = {x {0, 1}10 :
tambm condiz com um teste de nvel de signicncia de
Na seo anterior, discutimos que um teste de hipteses necessita de uma

estatstica de teste cuja distribuio seja conhecida (pelo menos aproximadamente) sob a hiptese
H0 .
As regies das caudas da distribuio estatstica de

78
teste serviro de base para a construo da regio de deciso, que nada mais
do que a partio do espao amostral que nos leva a deciso de rejeitar
H0 .
Os limites desta regio so construdos baseados em um nvel de signicncia,

que nada mais do que a maior rea que esta regio pode ter. Notemos ento
que a base de todo teste de hipteses a estatstica de teste. Encontrar tais
estatsticas o objetivo desta seo.
4.1.2
Teste da Razo de Verossimilhanas
Considere a
H0 : 0 .
Seja
0 ,
o valor em
tal que
sup L() = L(0 ).
(4.1)
0
O valor
a hiptese
quando
. Se L(0 ) estiver
de 0 est prximo do
pode ser interpretado como sendo o valor mais verossmil de
H0
verdadeira.
Agora, seja
o EMV para
, ento o valor mais verossmil

L()
valor mais verossmil de , dando evidncias de que H0 verdadeira.
prximo do valor de
Portanto,
valores pequenos da estatstica
(X) =
do evidncias de que
H0
sup0 L()
L(0 )
,
=
sup L()
L()
(4.2)
falsa.
Denio 4.5. Considere a hiptese
H0 : 0 . O teste para esta

hiptese que utiliza a estatstica (X) denida na Equao (??) e que possui
regio de rejeio dada por R = {x X n : (x) k} para algum valor de
0 < k < 1 xado denominado Teste da Razo de Verossimilhanas (TRV).
Em geral, o valor de
da regio de rejeio dada na Denio 4.5 escolhido
de modo a satisfazer
sup P ((X) < k|),

0
para o nvel de signicncia
Exemplo 4.10.
Seja
xado.
X1 Exponencial(1/),
f (x|) =
com
x, > 0
cuja densidade
1 x/
e
,
e considere a hiptese
H0 : = 1.
79
Ser encontrado um teste da razo de verossimilhanas para
H0
com tamanho
xado. Primeiro, tem-se que
log f (x1 |) = log()

logo, fcil mostrar que o EMV para
valor possvel para
0 = 1
1, logo
do TRV
(X1 ) =
= X1 .
x
,
Sob a hiptese nula, o nico
o EMV sob esta hiptese. A estatstica
L(0 )
= X1 eX1 +1
L()
e a regio de rejeio deste teste dada por
R = {X1 > 0 : X1 eX1 +1 < k},

para algum
k (0, 1).
O valor de
escolhido de tal forma que
= sup P ((X1 ) k|) = P ((X1 ) < k| = 1).

0
Notando que, dado
= 1,
tem-se que
Z
P ((X1 ) < k|) = E {I((X1 ) k)} =
f (x1 |)dx.
{x>0:xex+1 <k}
(x).
A Figura 4.1 mostra o esboo do grco de

qualquer
xado existem
c1
c2
Pode-se perceber que, para
tais que
{(x) k} {x c1 } {x c2 }
logo,
Z
f (x1 |)dx =
=
{x>0:xex+1 <k}
f (x1 |)dx
{xc1 }{xc2 }
c1
c2
= P (X1 c1 ) + P (X1 c2 ) = 1 e
+e
c1 e c2 que satisfazem a igualdade acima. Portanto, o

que rejeita H0 se (x1 ) k pode ser reescrito sem perda de
generalidade como um teste que rejeita H0 se x1 c1 ou x1 c2 . Por exemplo,
tomando c1 e c2 como sendo os valores que satisfazem
e quaisquer valores de
teste de tamanho
P (X1 c1 ) =
P (X1 c1 ) =
tem-se que

c1 = log 1
2
80
1
k
(X1)
c1
c2
X1
Figure 4.1:
c2 = log
sendo o respectivo TRV de nvel

D(x1 ) =
1,
0,
se

2
dado por
x1 log(1 /2)
ou
x2 log(/2)
c.c.
Teorema 4.6. Se T uma estatstica suciente para e se ? (T ) e (X) so
estatsticas do TRV baseadas nas distribuies de T e X respectivamente, ento

? (T (X)) = (X) para todo X X n .
Proof.
Pelo Corolrio 2.5, existem funes
h(x)
g(t, )
tais que
f (x|) = h(x)g(t|),
onde
T.
g(t|)
a densidade (ou funo de probabilidade) da estatstica suciente
Seja
L? () = g(t|),
a verossimilhana da estatstica suciente. Ento,
sup0 L()
sup0 f (x|)
sup0 h(x)g(t|)
=
=
sup L()
sup f (x|)
sup h(x)g(t|)
sup0 g(t|)
sup0 L? ()
=
=
= ? (t).
sup g(t|)
sup L? ()
(x) =
81
Note que, pelo Teorema 4.6,
P ((X) k|) = P ((T ) k|),

para qualquer
suciente. Portanto, um TRV sempre pode ser construdo em
funo de uma estatstica suciente.
Exemplo 4.11.
de vaiid com
H0 : 0 utilizando o
H0 , devemos maximizar a
(Ainda no corrigi este exemplo)Seja
X1
Exponencial(). Queremos testar
TRV. Sabemos que o EMV para
.
= 1/X
Sob
seguinte verossimilhana
L() = n eX I( 0 ).
Notemos que o ncleo da distribuio acima corresponde ao ncleo da dis-
, logo:
tribuio Gama(n, nX)
Se
0 < 1/X
.
1/X
Se
A partir dos dois itens acima, temos que
Se
a funo
0 1/X
0 = 0 .
atingido em
,
0 < 1/X
,
1/X
a funo possui uma nica moda no ponto
montona descrescente em
0 =
1
I
X
0 <
logo
0 =
e seu mximo ser
+0 I 0
a estatstica do TRV ser igual a um. Em caso contrrio,
!n
n
o
L(0 )
0
0 )
(X) =
=
exp nX(
L()
n

exp nX
0+n
= 0 X
A Figura 4.2 mostra o grco de
.
(X) em funo de X
A partir desta, podemos
notar que as seguintes regies so equivalentes:
R+ : X
> c}
R = {X Rn+ : (X) < k} {X
Fixando um nvel de signicncia
Pn
vamos encontrar o valor de
c.
i=1 Xi Gama(n, ), logo X Gama(n, n). Notando que
parmetro de escala, temos que G = X Gama(n, n). Sob H0 , teremos
mos que,
> c| 0
sup P (X R|H0 ) = sup P X
0
= sup P (G > c) = P (G > c0 ) = 1 P (G c0 ) .

0
82
Sabe-
1/
1
(X)
k
1 0
c
X
Figure 4.2:
(X)
vista como funo de
tado no Exemplo 4.11.
83
para o TRV da exponencial apresen-
Seja
o valor da distribuio
G Gama(n, n)
tal que
P (G c0 ) = 1 c =
Portanto, o TRV de nvel
P (G g ) = .
Ento
g1
.
0
possui regio de rejeio
> g1 /0 }.
R = {X Rn+ : X
Exemplo 4.12 (Teste t Bilateral).
(Ainda no corrigi este exemplo)Sejam
X1 , . . . , Xn vaiid com X1 | Normal(, 2 ). Consideremos a hiptese H0 :

= 0 . Sabemos que = (X,
2 ), onde
2 = (n 1)S 2 /n. Sob H0 , temos que
0 = (0 , 02 ), onde
n
1X
(Xi 0 )2 .
02 =
n i=1
Assim,

Pn
(1/02 )n/2 exp 21 2 i=1 (Xi 0 )2
L(0 )
o
n
=
(X) =
L()
(1/
2 )n/2 exp (n1)
2
Lembrando que

2 n/2
02
i (Xi 0 )
2
2
i (Xi X) + n(X 0 ) , a regio de rejeio
ser dada por
(
n
R = {X R : (X) < k1 }
XR :
2
02
n/2
< k1
2
2/n
XR :
< k2 , onde k2 = k1
0 )2
2 + (X
)
(
1
n
< k2
XR :
2
0)
1 + (X
2

0 )2
(X
1 k2
n 1 k2
XR :
<
, fazendo k3 =
,
k2
2
k2

0 )
(X
> k3 .
X Rn :

O clculo das constantes
k1 , k2
k3
foram realizados para que o leitor acompan-
hasse as contas. Na prtica, a expresso que levou a estas constantes irrelevante. Antes de darmos a forma nal de nossa estatstica de teste, sabemos que
S2
so independentes. Sabemos ainda que
0 )/ 2 Normal(0, 1),
n(X
que
S 2 Gama
n1 n1
,
2
2 2
84
2
n 1 S2
=
2n1 ,
2
n 2
0 )/ X
0 )
0
(X
(X
= q
= n
tn1 .
S
1 / 2
/ n 1
S
Assim,

R

0 )
(X
> k3 X Rn

XR :

A estatstica

0
X

> k4 .
: n
S
0 )/S ser nossa estatstica de teste. Seja t o

n(X
T t( n 1) tal que P (T t ) = . Fixando o nvel de
, e lembrando que a distribuio t simtrica em torno de
T =
valor da distribuio
signicncia em
zero, teremos
= P (X R|H0 ) = P (|T | > k4 )

= P (T > k4 ) + P (T < k4 ) = 2P (T < k4 )
logo
/2 = P (T < k4 ) k4 = t/2 . Notando

dada por
que
t/2 = t1/2 .
Assim a
regio de rejeio do TRV de nvel
R = {X R : |T | > t1/2 }.
Este teste denominado
4.1.3
Teste t Bilateral.
Teste de Neyman-Pearson
At este momento foi discutido o problema de rejeitar ou no a hiptese

Existem situaes nas quais existe o interesse em determinar se a hiptese
H0 .
H0
prefervel em relao a outra hiptese. Ento, considere o problema de testar
H0 : = 0
contra a hiptese
H1 : = 1 .
Novamente, possvel considerar a razo
(x) =
L(0 )
,
L(1 )
H0 verossmil comparada
(x) existem evidncias de que H0 prefervel
pequenos existem evidncias de que H0 no
como uma estatstica adequada para medir o quo

com
H1 .
Para valores elevados de
em relao
H1
e para valores
prefervel em relao
H1 .
(4.3)
Esta a base do Teste de Neyman-Pearson.

85
Denio 4.7 (Teste de Neyman-Pearson). Considere as hipteses
= 0 contra H1 : = 1 . O teste com estatstica de teste dada por
H0 :
L(0 )
,
L(1 )
(X) =
e com regio de rejeio R = {x X n : (x) < k} tal que

P ((X) < k| = 0 ) =
denominado Teste de Neyman-Pearson (TNP) de tamanho .
Exemplo 4.13.
Seja
X1 Gama(, 1)
e considere as hipteses
H0 : = 1,
contra
H0 : = 2.
A estatstica do TNP
(X1 ) =
eX1
1
L(1)
=
=
,
X
1
L(2)
X1 e
X1
cuja regio de rejeio
R = {x1 > 0 : x1
1 < k}.
Fixando
tem-se que
= P ((X1 ) < k| = 1) = P (X11 < k| = 1)

= P (X1 > k| = 1) = exp(k),
logo
k = log().
Portanto, o TNP de nvel
rejeita
H0
se
X1 > log().
Teorema 4.8. Se T uma estatstica suciente para e se ? (T ) e (X) so
estatsticas do TNP baseadas nas distribuies de T e X respectivamente, ento
? (T (X)) = (X) para todo X X n .
Proof.
Anloga demonstrao do Teorema 4.6.
Exemplo 4.14.
as hipteses
Sejam
H0 : = 0
X1 , . . . , Xn vaiid com X1 Poisson() e consideremos

e H1 : = 1 , com 1 > 0 . A estatstica do TNP ser
Pn
L(0 )
en0 0 i=1 i
Pn
(X) =
=
= en(0 1 )
i=1 xi
L(1 )
n
1
e
1
86
0
1
Pni=1 xi
= (T ),
onde
T =
Pn
i=1
Xi
uma estatstica suciente. Assim,
R = {t N : (t) < k} =
( n
X
xi N : e
n(0 1 )
i=1
0
1
t
<k

0
t N : n(0 1 ) + t log
< k1
1

0
= t N : t log
< k2
(notando que log(0 /1 ) < 0)
1
=
= {t N : t > k3 } .
Sob
H0 ,
sabe-se que
Pn
i=1
Xi
Poisson(n0 ) e
k3
pode ser encontrado resol-
vendo (numericamente)
P (T > k3 | = 0 ) = .
Contudo, como
T discreto,
xados.
a expresso acima possui soluo apenas para
alguns valores de
importante notarmos que a deciso de aceitar/rejeitar a hiptese nula no

TNP no necessariamente implica na rejeio/aceitao da hiptese alternativa.
Considere o seguinte exemplo.
Exemplo 4.15.
Seja
X1 , . . . , Xn uma amostra de vaiid com Xi | Normal(, 1)
e Considere as hipteses
H0 : = 0
contra
H1 : = 10.
A estatstica do TNP dada por
(x) =
L(0 )
e2nx(0 1 ) = (
x).
L(1 )
A regio de rejeio para o TNP com um nvel de signicncia de 5%
R = {
xR:
n
x > 1, 64}.
n = 50, foi observado x

= 3. Ento
3 50 = 2, 12 > 1, 64, logo deve-se tomar a deciso de rejeitar H0 . Entretanto,

x
= 2 est mais prximo de 0 do que 10, fazendo com que a hiptese H0 ainda
seja mais prefervel do que H1 . Este exemplo ilustra uma situao na qual
rejeitar H0 no implica em aceitar H1 como verdadeira.

Suponha que, em uma amostra de tamanho
87
4.1.4
Testes Uniformemente Mais Poderosos
Considere um teste
H0 : 0
arbitrrio para testar
contra
H1 : c0 .
A tabela abaixo sumariza os dois tipos de erros que podem ser cometidos ao
realizar o teste.
Deciso
Aceitar
H0
Rejeitar
Deciso
H0
Verdade
H1
Fixar um nvel de signicncia
H0
Erro
correta
Tipo I
Erro
Deciso
Tipo II
correta
, garante que a maior probabilidade do teste

, atravs da relao
cometer o Erro Tipo I menor ou igual a
P (Erro
Tipo I)
sup P (X R|) .
0
Por outro lado, tem-se a seguinte relao
P (Erro
Tipo II)
sup P (X Rc |) = 1 inf c P (X R|)

0
c0
P (X R|)
Assim, a funo
avaliada em
est relacionada com os dois tipos
de erro. Com o objetivo de procurar por um teste de minimize o risco da perda

zero-um, considere a seguinte denio
Denio 4.9. Seja

funo
D um teste de hipteses com regio de rejeio R. A

() = P (X R|)
(4.4)
denominada funo poder.
Exemplo 4.16.
Seja
X1 , . . . , Xn uma amostra de vaiid com X1 Exponencial()
e considere as hipteses
H0 : = 1
contra
H1 : 6= 1.
O EMV para
= X
e o EMV para
sob
0 = 1.
Como
T =X
uma estatstica suciente, a estatstica para o TRV dada por
(t) = tn ent+n .
e, notando que o grco de
(t)
(4.5)
semelhante ao da Figura 4.1, tem-se que
R = {
x R+ : c1 X
88
ou
c2 , c2 < c1 }.
X
Sabe-se que
Gama(n, n),
X
Gama(n, n). Fazendo g
H0 , X
G Gama(n, n), a regio de rejeio de
e, sob
o nmero tal que
P (G g ) =
pode ser
um teste de tamanho
onde
dada
por
R+ : X
g/2
R1 = {X
ou
g1/2 },
X
o que implica que a funo poder deste teste ser
g/2 |) + P (X
g1/2 |)
1 () = P (X R1 |) = P (X
= P (G g/2 ) + P (G g1/2 ).
Considere agora a X(1) Exponencial(n) e suponha que valores extremos
X(1) do evidncias de que H0 falsa. Notando que X(1) Exponencial(n),
sob H0 tem-se que X(1) Exponencial(n). Seja h o nmero tal que P (H
h ) = , onde H Exponencial(n). Ento, uma regio de rejeio para este
novo teste de nvel
de
R2 = {X(1) R+ : X(1) h/2
ou
X(1) h1/2 }.
A funo poder deste teste ser
2 () = P (X R1 |) = P (X(1) h/2 |) + P (X(1) h1/2 |)

= P (H h/2 ) + P (H h1/2 )
= 1 enh/2 + enh1/2 .
A Figura 4.3 mostra a funo poder dos dois testes. Por construo, pode-se
notar que a funo poder dos dois testes a mesma no espao da hiptese nula
(
= 1).
Contudo fora do espao da hiptese nula, a funo poder do teste 1
maior que a do teste 2 para todo
Portanto, para todo
o teste 1 possui um
menor erro tipo II .
Em geral, um teste frequentista construdo para atender um certo nvel

de signicncia, implicando que a maior probabilidade de cometer o Erro Tipo
I est controlada. Ao xar o nvel de signicncia, a busca pelo melhor teste
passa a ser a busca pelo teste que possui a menor probabilidade do Erro Tipo
II para todo
c0 .
Sejam
1 ()
2 ()
duas funes poder de dois testes de
mesmo nvel. Ento, o teste 1 prefervel ao teste 2 se
1 1 () 1 2 (), c0 1 () 2 (), c0
Denio 4.10 (TUMP). Seja C a classe de testes de nvel para testar as
hipteses H0 : 0 contra H1 : c0 . Um teste na classe C com funo

poder () um teste uniformemente mais poderoso (TUMP) nesta classe se
() 0 () com c0 , onde 0 () funo poder de qualquer outro teste em
C.
89
1
Poder
1()
2()
Figure 4.3: Funes poder de dois testes para testar se

amostra iid
Xi Exponencial().
90
H0 : = 1
para uma
Teorema 4.11. Considere as hipteses H0 : = 0 contra H1 : = 1 . Ento,

dentre os testes de tamanho :
(a) Qualquer TNP com tamanho um TUMP.

(b) Se existe um TNP de tamanho , ento todo TUMP de nvel um TNP
de nvel , exceto talvez em um conjunto de medida nula.
Proof.
Seja D (X) um TNP de tamanho com regio de rejeio R = {x

X n : (x) < k} e funo poder () e considere outro teste D(X) de tamanho
com regio de rejeio R e funo poder (). A funo D (x) D(x) pode
assumir os seguintes resultados:
D (x)
0
D(x)
-1
Note que
D (x) D(x) = 1 (x) < k

Por outro lado, se
L(0 )
< k kL(1 ) L(0 ) > 0.
L(1 )
dN P (x) d0 (x) = 1,
kL(1 ) L(0 ) < 0.
ento
(x) > k ,
o que implica que
Deste modo, teremos sempre que
D (x) D(x) = 1 (x) > k

Portanto, para qualquer
L(0 )
> k kL(1 ) L(0 ) < 0.
L(1 )
x X n,
(D (x) D(x))(kL(1 ) L(0 )) 0,

e
Z
0
(D (x) D(x))(kL(1 ) L(0 ))dx
(4.6)
Z
=
[kD (x)L(1 ) D (x)L(0 ) kD(x)kL(1 ) + D(x)L(0 )] dx
= kP ((X) < k|1 ) P ((X) < k|0 ) k [P (X R|1 ) + P (X R|0 )]

= (0 ) (0 ) + k [ (1 ) (1 )] .
Assim:
(a) Como todos os testes possuem tamanho
a Equao (4.6) se reduz a
k [ (1 ) (1 )] 0 (1 ) (1 ),
o que mostra que qualquer TNP de tamanho
91
um TUMP.
() e regio crtica R um
(a), qualquer TNP de tamanho tambm
, logo (1 ) = (1 ). Pela Equao (4.6), tem-se
(b) Considere agora que o teste com funo poder

TUMP de nvel
Pela letra
um TUMP de tamanho
que
0 (0 ) (0 ) = (0 ) (0 ) .
Como
(0 )
(0 ) , tem-se que (0 ) = , fazendo

. Alm disso, como (0 ) = (0 ),
com que
este teste tenha tamanho
tem-se a
igualdade na Equao (4.6). Entretanto, a integral de uma funo positiva
L(0 ) kL(1 ) no nula,

D (x) = D(x) para todo x X n , o
ser nula somente se a funo for nula. Como

o integrando ser nulo somente se
que ocorre somente se as regies crticas de ambos os testes forem iguais,
R = {x X n : (x) < k}. Assim, se existe um

, todo TUMP de nvel um TNP de tamanho .
mostrando que
tamanho
TNP de
uma coleo innita,

H0 : = 0 contra H1 : =
Embora este resultado seja interessante, em geral

fazendo com que no seja interessante testar
1 .
Vamos tentar expandir nossa noo de TUMP para hipteses compostas.
Primeiro, denamos a famlia de razo de verossimilhanas montona.
Denio 4.12 (Razo de Verossimilhanas Montona). Uma famlia de

funes densidade/funes de probabilidade das varivel aleatria T possui razo
de verossimilhana montona (RVM) se, para 2 > 1 a funo f (t|2 )/f (t|1 )
montona em t no conjunto {t : f (t|1 ) > 0 ou f (t|2 ) > 0} (se c > 0, ento
ser considerado que c/0 = ).
Teorema 4.13 (Karlin-Rubin). Considere que deseja-se testar a hiptese

H0 : 0
contra
H1 : > 0 ,
e que T uma estatstica suciente para cuja famlia de densidades/funes

de probabilidade possui RVM no decrescentes. Ento, para qualquer t0 , o teste
que rejeita H0 se e somente se T > t0 um TUMP de nvel , onde = P (T >
t0 |0 ).
Proof.
Considere inicialmente as hipteses
H00 : = 00
contra
H10 : = 10 ,
onde
00
qualquer ponto no espao da hiptese nula e
0
na hiptese alternativa (ou seja, 0
densidade/probabilidade de T e seja
0 e 10
k = inf
tT
g(t|10 )
,
g(t|00 )
92
> 0 ).
10
qualquer ponto
Seja
g(t|)
a funo
onde
T = {t : t > t0
g(t|00 ) > 0
decrescente,
T > t0
ou
g(t|10 ) > 0}.
Como
possui RVM no
g(t|00 )
g(t|10 )
>k
< k? ,
0
g(t|0 )
g(t|10 )
k ? = 1/k > 0. Assim, pelo Corolrio 4.8, este teste um TUMP para
0
H0 : = 00 contra H10 : = 10 . Para determinar o nvel deste teste, considere
novamente que a famlia de T possui RVM no decrescente e, portanto,
com
g(t|0 )
1 g(t|0 ) g(t|00 ) P (T > t0 |0 ) P (T > t0 |)
g(t|00 )
(0 ) (00 ),
Como
= (0 ) = P (T > t0 |0 ) P (T > t0 |00 ) = ()00 ),

tem-se que o TUMP encontrado um teste de nvel
00 0 e 10 > 0 , tem-se que o

H0 : 0 contra H1 : > 0 .
vlido para qualquer
para as hipteses
Como o resultado
teste um TUMP de nvel
Pode-se mostrar, sob as mesmas condies do Teorema 4.13 que o teste que
rejeita
H0 : 0
se e somente se
T < t0
um TUMP de nvel
= P (T <
t0 |0 ).
importante notar que no necessrio encontrar a distribuio da estatstica suciente para vericar se esta possui RVM. De fato, se
2 > 1 , pelo critrio
da fatorao
L(2 )
h(x)g(t|2 )
=
,
L(1 )
h(x)g(t|1 )
onde
g(t|)
a funo densidade/de probabilidade de
Exemplo 4.17.
onde
02
Seja
T.
X1 , . . . , Xn uma amostra de vaiid com Xi | Normal(, 02 ),
conhecido'e considere as hipteses
H0 : 0 ,
contra
H1 : > 0 .
Fixando
2 > 1 ,
tem-se que
L(2 )
exp
L(1 )

n
x
)
2
1
02
que montona crescente na estatstica suciente

D(
x) =
um TUMP de nvel
1,
0,
= P (T > t0 |0 ).
93
se
se
.
X
Ento, o teste
x
> t0
x
t0
Corolrio 4.14. Seja X1 , . . . , Xn uma amostra de vaiid com

f (x|) = h(x)a()ew()t(x) .
Ento, se w() uma funo montona no decrescente, ento T =

tem RVM no decrescente.
Exemplo 4.18.
Seja
X1 , . . . , Xn
Pn
i=1
T (Xi )
uma amostra de vaiid com densidade dada
por
f (x|) = x1 ,
onde
x (0, 1)
> 0.
Considere as hipteses
H0 : 0
contra
H1 : < 0 .
Note que
"
#
( n
)
n
Y
X
1
n
f (x|) =
exp
log xi ,
x
i=1 i
i=1
logo,
pertence famlia exponencial e, como
T =
w() =
Pn
montona crescente
i=1 log(Xi ) tem RMV no decrescente. Portanto, o

teste cuja regio de rejeio dada por
em
a estatstica
(
R=
xX :
n
X
)
log xi < t0
i=1
um TUMP de nvel
= P (T < t0 |0 )
Exemplo 4.19 (No existncia de um TUMP).

X1 Normal(, 1). Consideremos o problema de
tra H1 : 6= 0 . A estatstica suciente para
Normal(, 1/n). Tomando 2 > 1 , temos que
X1 , . . . , Xn vaiid com
H0 : = 0 con-
Sejam
testar
,
X
cuja distribuio
2
2
t
1
g(t|2 )
= e n (2 1 ) e 2n (2 1 ) ,
g(t|1 )
possui RVM no decrescente. Consideremos o seguinte grupo de hipteX

H01 : 0 contra H11 : > 0 e H02 : 0 contra H12 : < 0 . Pelo
Teorema 4.13 o TUMP de nvel para o primeiro grupo de hipteses tem funo
logo,
ses:
poder dada por
> t1 |),
1 () = P (X
enquanto que o TUMP de nvel
para o segundo grupo de hipteses tem funo
poder dada por
< t2 |).
2 () = P (X
94
2()
Poder
1()
Figure 4.4: Funo poder para os testes do Exemplo 4.19. As funes
2 ()
correspondem ao TUMP para as hipteses
corresponde funo funo poder

de nvel
().
H01
H02 .
1 ()
A parte negritada
A linha tracejada apresenta um teste
com regio de rejeio baseada em
R.
Sob suas respectivas hipteses alternativas, estes so os testes com maior poder.
Notando que
H0 = H01 H02
H1 = H11 H12 ,
se existir um TUMP para
estas hipteses, sua funo poder sob o espao da hiptese alternativa deveria
ser
() = 1 ()I( 0 ) + 2 ()I( 0 ).
A Figura 4.19 mostra um esboo destas trs funes poder.
regio de rejeio correspondente a funo
()
seria
Notemos que a
R = {x Rn : (x) <
k1 ou (x) > k2 } e o teste teria nvel 2 (linha negritada). Poderamos fazer

1 (0 ) = 1 e 2 (0 ) = 2 onde 1 + 2 = , mas isto resultaria em uma funo
poder menor que () (linha pontilhada). Para concluir, lembremos que, pelo
Teorema 4.11, se o teste encontrado fosse um TUMP, a regio R encontrada
deveria corresponder a regio de um TNP. Portanto, no existe TUMP para
este problema.
95
4.2 P-valores
Denio 4.15. Um p-valor uma estatstica 0 p(x) 1 cuja valores pequenos do evidncias contra H0 . Um p-valor dito ser vlido se, para todo
0 e 0 1,
P (p(X) |) .
Sob a hiptese nula, a probabilidade de se obter
a
(4.7)
p-valor menor que igual

H0 falsa.
Portanto, valores baixos desta estatstica do evidncias de que
comum realizar decises sobre
H0
utilizando
p-valores,
comparando-os com
escalas. Por exemplo:
p-valor
<0,01
0,01 -0,05
0,05 - 0,1
>0,1
Os
p-valores
Evidncia
Evidncia muito forte contra
H0
H0
contra H0
Evidncia forte contra

Evidncia fraca
H0
Pouca ou nenhuma evidncia contra
esto relacionados com o maior nvel de signicncia que pode
ser obtido pelo valor de uma estatstica observada, como mostra o seguinte
teorema.
Teorema 4.16. Seja
T (X) uma estatstica cuja valores muito baixos do evidncias de que H0 falsa. Ento, para cada x X dena
p(x) = sup P (T (X) T (x)|).
(4.8)
Ento, p(X) um p-valor vlido.

Proof.
Faremos apenas o caso contnuo. Seja
00
o valor em
tal que
P (T (X) t(x)|) P (T (X) t(x)|00 ),

0 . Lembrando que F Uniforme(0, 1).
X Y . Teremos que

P (p(Y) |) = P sup P (T (X) T (Y)|) |
para todo
Para no causar
confuso, faamos
= P (P (T (X) T (Y)|00 ) |) = P (F (T (Y)|00 ) |)

= F (F 1 (|00 )|) F (F 1 (|00 )|00 ) =
Naturalmente, uma demonstrao anloga pode ser feita para mostrar que,
se valores elevados da estatstica
sup0 P (T (X) > T (x)|)
levam a rejeio de
H0 ,
ento
tambm um p-valor vlido (Exerccio).

96
p(x) =
Teorema 4.17. Seja T (X) uma estatstica com distribuio simtrica em torno
de zero, cuja valores extremos do evidncias contra H0 . Dena
p(x) = sup P (T (X) |T (x)||).
(4.9)
Ento, p(x) um p-valor vlido.

Quando a distribuio da estatstica no simtrica, existem algumas propostas, como mostra a proposio abaixo.
Proposio 4.18. Seja
T (X) uma estatstica cuja valores extremos do evidncias contra H0 . Ento, os seguintes p-valores so vlidos:
(a) pF (x) = 2 min{P (T (X) < t(x)), P (T (X) > t(x))}

(b) pC (x) = P (T (X) < t(x)|x < M ) + P (T (X) > t(x)|x > M ), onde M
arbitrrio (em geral, usa-se a mediana)
(c) pL (x) = P (f (X|) f (x|)).
4.3 Testes de Hipteses Bayesianos

Consideremos o seguinte grupo de hipteses:
1 .
Observamos a amostra
mais provvel.
1 |x).
H0 : 0
contra
H1 :
e gostaramos de saber qual destas hipteses
Isto pode ser feito com o clculo de
P ( 0 |x)
e de
P (
Este o modo mais simples para vericar o quo provvel uma hiptese
composta.
Denio 4.19. Seja a0 um valor em (0, 1) tal que, se P ( 0 |x) a0 ,

ento aceitamos H0 . O valor a0 denomindo nvel de aceitao.
Exemplo 4.20.
Infelizmente, para
contnuo, no possvel calcular a probabilidade pos-
teriori de hipteses simples, pois
4.3.1
P ( = 0 |x) = 0.
Fatores de Bayes
Consideremos
H0 : 0
contra
H1 : 1 .
Podemos desenvolver um
raciocnio anlogo ao construdo no TRV, no qual valores elevados da razo da

97
verossimilhana sob a hiptese nula nos levam a aceitao de
H0 .
Como
aleatrio, podemos escrever
f (x| 0 )
.
f (x| 0 )
A razo acima dene o fator de Bayes.
Denio 4.20. O fator de Bayes dado por

B01 (x) =
Notemos que, se
P ( 0 |x) P ( 1 )
.
P ( 1 |x) P ( 0 )
P ( 0 ) = P ( 1 ),
com
1 = {1 }
(4.10)
0 = {0 },
o fator de Bayes se transforma na estatstica do TNP. Alm disso, a razo das

prioris elimina parcialmente o efeito destas, fazendo destes uma alternativa mais
objetiva. Alm disso, se denirmos
f ()
f ()d
i
fi () = R
e
Z
mi (x) =
f (x|)fi ()d,
i
poderemos observar que
P ( 0 |x) P ( 1 )
P ( 1 |x) P ( 0 )
R
f (x|)f0 ()d
m0 (x)
= R0
=
.
m1 (x)
f
(x|)f
()d
1
1
B01 (x) =
As funes
H0
(se
H0
fi () mi (x)
podem ser interpretadas como priori e preditiva do sob
for verdadeira, ento
H0c
tem probabilidade zero).
Jereys desenvolveu a seguinte escala para julgar a evidncia sobre
H0
trazida pelos dados:
Fator
Evidncia
<1/2
Contra
1/2 a 3/4
H0
Fraca
3/4 a 10/11
Subtancial
10/11 a 30/31
30/31 a 100/101
>100/101
Forte
Muito forte
Decisiva
Claramente, tal escala subjetiva, mas pode servir como base para comparaes.
Exemplo 4.21.
98
4.3.2
Hipteses Precisas
99
100
Chapter 5
Estimao Intervalar
5.1 Introduo
O problema de estimao por regies encontrar um conjunto
seja possvel fazer a inferncia de que
C(x).
C(x)
O conjunto aleatrio
tal que
C(X)
denominado estimador por regio. Em princpio, considere a funo de perda 0-
c1
para comparar o desempenho entre estimadores por regies. Neste contexto,
tal funo de perda dada por

L(, C(X)) =
c1 ,
/ C(X)
0, C(X)
e o risco associado
R() = P (
/ C(X)|)
e o objetivo torna-se encontrar intervalos com o menor valor de
R()
para todo
Observe que isto sempre pode ser atingido tomando
C(X) = ,
que no til, pois s arma o bvio. Assim, tambm desejvel que o volume
de
C(X)
seja o menor possvel, o que leva a construo da seguinte funo de
perda:

L(, C(X)) =
onde
c2
c2 Volume(C(X)) + c1 ,
/ C(X)
,
c2 Volume(C(X)),
C(X)
custo associado por adicionar a restrio do volume de
C(X).
O risco
associado a esta funo de perda
R() = E [(c2 Volume(C(X)) + c1 ) I (

/ C(X)) + c2 Volume(C(X))I ( C(X))]
= c2 E[Volume(C(X)|)] + c1 P (
/ C(X)|).
101
c1 = c2 = 1. Neste captulo ser discutido o

C(x) um intervalo. Considere ento a denio
Em geral, assumido que

problema no qual o conjunto
de estimador intervalar.
Denio 5.1. Uma estimativa intervalar de um parmetro qualquer par

de estatsticas L, U satisfazendo L(x) U (x) para todo x X n , tal que, para
um valor x, a inferncia L(x) U (x) possa ser realizada. O intervalo
aleatrio [L(X), U (X)] denominado estimador intervalar.
L(X) = produzindo um
U (X) = produzindo o intervalo
Sem perda de generalidade, pode-se fazer

tervalo do tipo
tipo
(, U (X)),
ou fazer
indo
[L(X), ).
5.2 Intervalos de Conana

A qualidade de um estimador intervalar frequentista avaliada pela funo risco
R() = E[Comprimento(C(X))|] + P (
/ C(X)|).
A segunda parcela desta soma denominada probabilidade de cobertura.
Denio 5.2. Seja [L(X), U (X)] um estimdor intervalar para . A probabilidade P ( [L(X), U (X)]|) denominada probabilidade de cobertura.
Exemplo 5.1.
Seja X1 , . . . , Xn uma amostra de vaiid com X1 Uniforme(

a, + a) com a > 0 conhecido e > 0. Considere os intervalos do tipo [Xi
a, Xi + a], para i = 1, . . . , n. sempre cobre . De fato, notemos que
P (X1 a < < X1 + a) = P ( a < X1 < + a) = 1.
Exemplo 5.2.
o intervalo
Sejam X1 , . . . , Xn vaiid com Xi Normal(, 1). Consideremos

1, X
+ 1]. Podemos fazer a inferncia de que est neste
[X
intervalo? Vejamos:
1< <X
+ 1) = P (1 < X
< 1) =
P (X
= ( n) ( n) = 2( n) 1.
A funo acima montona crescente em
n,
sendo o seu mnimo igual a 0,68.
Assim, este intervalo tem no mnimo uma probabilidade 0,64 de cobrir o valor de
Com
n = 4 temos uma probabilidade de 0,95,

.
seja bastante razovel para estimar
102
fazendo com que este intervalo
Nos exemplos acima vimos que um intervalo razovel deveria cobrir o valor
de
com uma probabilidade alta. Este conceito nos leva a seguinte denio.
Naturalmente, a probabilidade acima pode depender de
conforme mostra
o seguinte exemplo.
Exemplo 5.3.
Seja
X1 Exponencial().
(0, X1 ] :
Vamos calcular a probabilidade de
cobertura do intervalo
P (0 < < X1 ) = P (X1 / > 1) = e .

Assim, a probabilidade de cobertura deste intervalo depende de
no sabemos o valor de
theta.
Como
a probabilidade de cobertura no muito til. Uma
estratgia defensiva calcular a menor probabilidade de cobertura variando o

valor de
em
Neste caso, como a funo a probabilidade montona decrescente
existe a probabilidade desta ser cada vez menor, tornando este intervalo
desinteressante.
Vimos no exemplo acima que a probabilidade de cobertura pode depender

de
comum ento procurarmos qual a menor probabilidade de cobertura
que um dado intervalo pode assumir, variando
dentro do espao paramtrico.
Isto no motiva seguinte denio.
Denio 5.3. Para um estimador intervalar [L(X), U (X)] para , denimos

a quantidade como sendo inf P ( [L(X), U (X)]|). Esta quantidade
denominada coeciente (ou nvel) de conana.
Exemplo 5.4.
No exemplo anterior, temos que
lim P (X1 / > 1) = 0,
logo, a este intervalo possui um nvel de conana igual a zero, no sendo um
intervalo interessante.
Por ltimo, estimadores intervalares com seus respectivos nveis de conana

so denominados intervalos de conana.
5.2.1
Mtodo da Inverso
Considere um teste de hipteses de tamanho
para testar
H0 : = 0 .
regio de aceitao deste teste se constitui de um conjunto do espao amostral

que nos d evidncias de que
= 0 .
Se mostrarmos que este conjunto contm
teremos encontrado uma regio de conana para

103
de nvel de conana
1 .
No mais, se mostrarmos que este resultado vlido para
ento teremos encontrado um intervalo de conana
1 para .
arbitrrio,
Consideremos
ento o seguinte Teorema.
Teorema 5.4. Para cada 0 0 seja A(0 ) a regio de aceitao do teste de

nvel para a hiptese H0 : = 0 . Para cada ponto x da amostra dena o
conjunto
C(x) = {0 : x A(0 )}.
Ento o conjunto C(X) um conjunto de conana 1 . Alternativamente,

seja C(x) um conjunto de conana 1 . Para cada 0 dena
A(0 ) = {x : 0 C(x)}.
Ento A(0 ) a regio de aceitao de um teste de nvel .

Proof.
Considere a hiptese
teste de nvel
Seja ainda
H0 : = 0 e seja R(0 ) a regio de rejeio de um

A(0 ) a regio de aceitao deste teste. Notemos
que
P (X
/ A(0 )) P (X A(0 )) 1 .
Agora, notemos que
P (0 C(X)) = P (X A(0 )) 1 ,
e, como
arbitrrio, temos que
um intervalo de conana
1 .
P ( C(x)) 1 , o que mostra que C(X)

Agora, seja C(X) um intervalo com 1 de
conana. Notemos que
P (X R|0 ) = P (X
/ A(0 )) = P (0
/ C(X)) ,
logo,
A(0 )
a regio de aceitao de um teste de nvel
Exemplo 5.5.
Seja
para
H0 : = 0 .
(Y1 , x1 ), . . . , (Yn , xn ) uma amostra aleatria com Yi Normal(xi , 1).
Temos que
n
X
f (y|) exp{ (yi xi )2 }.
i=1
= Pn xi yi / Pn x2 . Notemos que Normal(, 1/ Pn x2 ).

O EMV para
i=1
i=1 i
i=1 i
A estatstica do T RV para H0 : = 0
X
= exp{.5(
()
x2i )( 0 )2 },
i
sX
R = { : |
x2i ( 0 )| > z1/2 },
logo, a regio crtica do TRV de nvel
i
104
o que implica que a regio de aceitao
A(0 ) = { : z1/2
sX
x2i ( 0 ) z1/2 }.
1
X
X
= [ z1/2 /sqrt
C()
x2i , + z1/2 /sqrt
x2i ].
Assim, um intervalo de conana
i
Alm disso, se observarmos o intervalo
plo, a hiptese de que
sobre
=0
[2, 2],
ento, no rejeitamos, por exem-
(ou seja, de que a varivel
no exerce inuncia
Y ).
5.2.2
Mtodo da Quantidade Pivotal
Comecemos com a seguinte denio.
Denio 5.5. Seja X| uma varivel aleatria. A varivel aleatria Q(X, )

uma quantidade pivotal se sua distribuio no depende de .
Consideremos a quantidade
Y = Q(X|).
Consideremos que
P (a < Y < b) = 1 = .
Ora, como
no depende de
se for possvel inverter
Q (considerando como
1. Este mtodo
argumento) ser possvel encontrar um intervalo de conana

denominado mtodo da quantidade pivotal.
Exemplo
5.6.
P
Sejam X1 , . . . , Xn vaiid com Xi Exponencial(). Temos que

n
X
Gama
(n, P
1) uma quantidade pivotal invertvel. Assim, fazendo
i=1 i
n
o valor tal que P (
i=1 X i < g ) = , teremos
1 = P (g/2 <
n
X

Xi < g/2 ) = P
i=1
logo,
[g/2 /
Pn
i=1
Xi , g1/2 /
A monotonicidade de
Pn
em
i=1
Xi ]
g1/2
g/2
Pn
< < Pn
i=1 Xi
i=1 Xi
um intervalo de conana
1 .
necessria para a obteno de um intervalo.
Contudo, sem esta, sempre possvel obter uma regio de conana.
Exemplo 5.7.
X1 , . . . , Xn |, cuja T a estatstica
FT Uniforme(0, 1), temos que FT
Consideremos a amostra iid
suciente (unidimensional) para
Como
uma quantidade pivotal. Assim,
P (/2 < FT (t|) < 1 /2) = 1

105
e o conjunto
A() = {t : /2 < FT (t|) < 1 /2}

um conjunto de conana
5.2.3
1 .
Avaliando Intervalos
Na seo anterior encontramos mostramos alguns mtodos para encontrar intervalos de conana. Nesta seo mostraremos como avaliar o intervalo encontrado. Consideremos o seguinte exemplo.
Exemplo 5.8.
a>0
X1 , . . . , Xn vaiid com X1 Uniforme( a, + a) com

> 0. Ento, o intervalo [X1 a, X1 + a] sempre cobre .
Sejam
conhecido e
De fato, notemos que
P (X1 a < < X1 + a) = P ( a < X1 < + a) = 1.

O intervalo
[X(1) + a, X(n) a]
tambm sempre cobre
Contudo, o segundo
intervalo menor que o primeiro.
A partir do exemplo acima, podemos notar que existem intervalos de comprimentos diferentes com a mesma probabilidade de cobertura. Nestes casos,
natural escolher o intervalo com o menor comprimento. Dependendo da complexidade do conjunto de conana, encontrar o menor conjunto pode ser uma
tarefa complicada, mesmo que numericamente. O Teorema abaixo mostra uma
situao na qual fcil encontrar o intervalo de comprimento timo.
Teorema 5.6. Seja f uma densidade unimodal. Se o intervalo [a, b] satisfaz

(a)
Rb
a
f (x)dx = 1
(b) f (a) = f (b) > 0

(c) a x b, onde x a moda de f ,
ento [a, b] o menor de todos os intervalos que satisfaz (a)
5.3 Exerccios
106
Chapter 6
Teoria para Grandes

Amostras
Na teoria para grandes amostras (ou teoria assinttica) so estudados os problemas de inferncia quando o tamanho da amostra tende ao innito.
Neste
contexto, a Lei Forte dos Grandes Nmeros e o Teorema Central do Limite

possuem papis importantes.
6.1 Funo Escore e Informao de Fisher

Os resultados desta seo sero dados para
dem ser obtidos para
escalar. Resultados anlogos po-
sendo um vetor de dimenso
2.
Considere
L()
uma
funo real contnua.
Denio 6.1. Seja X1 , . . . , Xn uma amostra vaiid de X1 f (.|). A funo

U (x|) =
d
d
log f (x|) =
l()
d
d
(6.1)
denominada Funo Escore e a funo

"
IF () = E
2 #
d
log f (x|)
d
denominada Informao de Fisher.

Considere as seguintes condies de regularidade:
107
(6.2)
(a) As derivadas
d
f (x|)
d
e
d2
f (x|)
d2
existem em quase toda a parte e existem
H1 (x)
H2 (x)
tais que

d

f (x|) H1 (x)
d

e

2

d

d2 f (x|) H2 (x),
com
(b)
R
R
U (x|)
Hi (x)dx < .
e
d2
d 2 l() existem em quase toda a parte.
A condio (a) implica que possvel utilizar o Teorema da Convergncia

Dominada para a troca de integrais(somatrios) com derivadas. A condio
(b)
ser discutida posteriormente. Considere agora a seguinte proposio.
Proposio 6.2. Sob as condies de regularidade

E[U (X|)] = 0
(6.3)
e

IF () = E
Proof.

E

d2
log
f
(X
|)
1
d2
(6.4)
Note que
Z

Z
d
d
d
log f (X1 |) =
log f (x1 |) f (x1 |)dx1 =
f (x1 |)dx1
d
R d
R d
Z
d
=
f (x1 |)dx1 = 0
d R
logo,
n
X

d
E [U (X|)] =
E
log f (X1 |) = 0.
d
i=1
108
Agora, note que

E
Z

d
d2 log f (X1 |)
1
d
=
f
(x
|)
f (x1 |)dx1
1
d2
R d f (x1 |) d
#

2
Z "
1
d
1
d2
=
f (x1 |) f (x1 |)dx1

f (x1 |) +
f (x1 |)2 d
f (x1 |) d2
R
#
2
Z "
d
1
d2
=
f (x1 |) f (x1 |)dx1

l() +
d
f (x1 |) d2
R
2
Z
Z
d2
d
f (x1 |)dx1
=
l() f (x1 |)dx1 +
2
d
R d
R
"
#
2
d
= E
l()
d
Pela Lei Forte dos Grandes Nmeros,
1 X 2
q.c.
log f (Xi |) IF (),
n i=1 2
e, pelo Teorema Central do Limite,
1
D
U (X|) N (0, IF ())
n
quando
n .
6.2 Consistncia dos EMV

Gostaramos que o aumento do tamanho da amostra gerasse melhorias no estimador, no sentido de que este deveria se aproximar cada vez mais do parmetro
de interesse.
Um estimador com esta propriedade denominado consistente.
Para formalizar esta noo, considere que um estimador qualquer, denotado
T , calculado cada vez que um novo valor observado, gerando a sequncia

T1 = T (X1 ), T2 = T (X1 , X2 ),...,Tn = T (X1 , . . . , Xn ).
por
Denio 6.3. A sequncia de estimadores T1 , T2 , . . . , Tn uma sequncia de

estimadores consistente para se, para todo > 0 e para todo , Tn
quando n .
P
Pela denio acima, podemos notar que consistncia uma propriedade de

sequncias innitas de estimadores. Dizer que o estimador
xo, consistente um abuso de linguagem.
109
Tn ,
para qualquer
Em geral, podemos utilizar o EQM de

consistente para
Portanto, se o EQM de
consistente para
Exemplo 6.1.
para vericar se este um estimador
V ar(T (X)) + vcio2

E(T (X) )2
=
.
2
2
P (|Tn (X) | )
De fato, pela Desigualdade sde Tchebchev,
Seja
J foi mostrado que
tende a zero com o aumento da amostra, temos que
.
e
=X
2 = (n 1)S 2 /n so os EMV para e 2 . Alm
disso,
=
E(X)
e
=
V ar(X)
2
,
n
logo
lim EQMX (, 2 ) = lim
n
portanto,
consistente. Para
E(
2 ) =
2,
2 + ( )2
n

= 0,
tem-se que
n1 2
n1
E(S 2 ) =
n
n
V ar(
2 ) =
n1
n
2
V ar(S 2 ) = 2 4
n1
,
n2
logo,
lim EQM 2 ( ) = lim
portanto,
4n

2 !
n1 2
1
2
+
= 0,
n2
n
tambm consistente.
Discutiremos agora um conjunto de condies sucientes para que o EMV
seja consistente. Primeiro, considere a expanso em sries de Taylor da log
verossimilhana em torno de
d
1
d2
l()= + ( )2 2 l()=
d
2
d
2
1
+ ( )U (x|) + ( )2 d l()
= l()
=
=
2
d2
2
1 ( )2 l()
= l()
=
2
2
+ ( )
l() l()
110
logo,

exp 1 ( )2 nIF ()
,
L() L()
2
mostrando que a verossimilhana se aproxima de uma densidade normal.
O Teorema abaixo d as condies sucientes para convergncia em distribuio dos EMVs para a distribuio normal.
Teorema 6.4. Sejam X1 , X2 , . . . , Xn vaiid com X1 f (.|), R satisfazendo as condies de regularidade (a) e (b). Suponha ainda que
1. 0 < IF () <

2. E suph:|h|
2 l( + h)
2
Ento

2
2 l()
0 quando 0.
n( ) N (0, IF ()1 ),
onde o o EMV de .
Proof.
Seja
(u) = log f (X| + u/ n) log f (x|).

u que
maximiza (u) equivalente ao
0 (, + u/ n) a expano de l( + u/ n)
de
Notemos ento que o valor de

maximiza
L().
Para
de Taylor em torno
valor que
em sries
u
u2 2
log f (x| + u/ n) = log f (x|) +
log f (x|) +
log f (x|0 ),
2n 2
n
o que gera a seguinte expresso para
(u)
u
u2 2
(u) = U (x|) +
log f (x|0 ).
2n 2
n
Agora, notemos que
u
(u) = U (x|) +
n
u
= U (x|) +
n
u2 2
u2 2
log f (x|0 )
log f (x|)
2
2n
2n 2

u2 2
2
u2 2
0
log
f
(x|
)
log
f
(x|)
+
log f (x|)
2
2
2n
2n 2
(6.5)
Fazendo
An =
1
n

2
2
0
log
f
(x|
)
log
f
(x|)
,
2
2
111

0 = + h com h u/ n,

n

1 X 2
2
An
log f (Xi | + h) 2 log f (Xi |)

2
n i=1

n
2

1X
2

log
f
(X
|
+
h)
log
f
(X
|)
sup
i
i

2
2
n i=1 {h:|h| un }
temos que, para
0, n ,
logo,
q.c.
|An | 0.
Reescrevendo a Equao (6.5), temos
!
n
u2
1 X 2
log f (Xi |) + I() + An
2
n i=1
2
u
u2
u2
(u) = U (X|) I() +
2
2
n
Os dois ltimos termos convergem rapidamente para
quando
n .
Para
|u| K ,
e o mximo de
(
u),
u
u2
(u) = U (X|) I() + op (1)
2
n
(u) obtido em u
= U (X|)/ nI(). Lembrando
que
=
L()
teremos
U (X|)
= + = +
nI()
n
e, como
D
U (X|)/ n N (0, I()), temos que

D
n N (0, I()1 ).
(6.6)
6.3 Testes Assintticos

Existem alguns testes que foram planejados para serem utilizados para uma
grande variedade de famlias de distribuies quando o tamanho da amostra
grande. Nestes casos, certas estatsticas possuem distribuio (aproximada)
conhecida sob a hiptese nula.
Consideremos o problema de testar
= q.
dim()
(1) Estatstica de Wald:

e
I()
H0 : = 0
contra
H1 : 6= 0 ,
onde
As seguintes estatsticas so usualmente utilizadas:
0 )
W = n( 0 )T I()(
onde
a Matriz de Informao de Fisher aplicada em
(2) Estatstica de Wilks:
= 2 log (X) = 2 log L()/L()

112
o EMV de
(3) Estatstica Escore (ou de Rao):
R = U (X|0 )T I 1 (0 )U (X|0 )/n.
As trs estatsticas acima convergem em distribuio para uma
2q .
Antes
de demonstrar este resultado, convm enunciarmos uma verso multivariada do

Teorema 6.4.
Teorema 6.5. Sejam
X1 , X2 , . . . , Xn vaiid com X1 f (.|), Rq satis-
fazendo as verses multivariadas das condies de regularidade (a) e (b) dadas

na Seo 6.2. Suponha ainda que
1. I() positiva denida.

2. E suph:||h||
T l( + h)
Ento
2
T
o

l() 0 quando 0.
n( ) N (0, I 1 ()).
D
Proposio 6.6. As estatsticas de Wald, Wilks e Rao convergem em distribuio

para 2q .
Proof.
Suponha que
H0
verdadeira. Ento,
(1) Estatstica de Wald: pela Lei Fraca dos Grandes Nmeros,
.
I()
Uti-
lizando o Teorema de Slutsky e o Teorema 6.5, temos que
n( ) N (0, I 1 ()),
e que implica que a estatstica de Wald converge em distribuio para
2q .
(2) Estatstica de Wilks: considere a seguinte expanso em sries de Taylor de

segunda ordem em torno de

1
n( 0 )T
log L() |=0
n

2
n
1
+ ( 0 )T
log
L()
|
=0 ( 0 ).
2
n T
= log L(0 ) +
log L()
(6.7)
Agora, considere a seguinte expanso em sries de Taylor de primeira ordem

em torno de

1
1
log L() |=0 =

log L() =
n
n

1 2

log
L()
n( 0 )
=
T
n
113
(6.8)
O primeiro termo depois do colchete acima igual a zero e o segundo

converge em probabilidade para o simtrico ltimo termo da Equao 6.7.
Unindo as Equaes 6.7 e 6.8 teremos
2 log
L(0 )
= ( 0 )T I(0 )( 0 ),
L()
logo, a estatstica de Wilks assintoticamente equivalente estatisitica de

Wald.
(3) Estatstca Escore: temos que
U (X|) =
n
X
log f (Xi |),
i=1
e que
E[U (X|0 )] = 0, V ar[U (X|0 )] = I(0 )n,

D
logo, pelo TCL, U (X|0 )/ n N (0, I(0 )) e a estatstica Escore converge
2
em distribuio para uma q .
Ver Bai and Fu (1987)
114
Bibliography
Z. D. Bai and J. C. Fu. On the maximum-likelihood estimator for the location
The Canadian Journal of Statistics / La

Revue Canadienne de Statistique, 15(2):pp. 137146, 1987.
parameter of a cauchy distribution.
P.J. Bickel and K.A. Doksum.
Topics.
Mathematical Statistics: Basic Ideas And Selected
Number v. 1 in Mathematical Statistics: Basic Ideas and Selected
Topics. Pearson Prentice Hall, 2006. ISBN 9780132306379.

G. Casella.
Statistical Inference.
Duxbury Advanced Series. Duxbury Thomson
Learning, 2002. ISBN 9780495391876.

D.R. Cox.
Principles of Statistical Inference. Cambridge University Press, 2006.
ISBN 9780521685672.
D.R. Cox and D.V. Hinkley.
Theoretical Statistics.
Chapman and Hall, 1979.
ISBN 9780470181447.
B.R. James.
Probabilidade: um curso em nvel intermedirio.
Projeto Euclides.
Instituto de Matemtica Pura e Aplicada, 2008. ISBN 9788524401015.

E. L. Lehmann. An interpretation of completeness and basu's theorem.
of the American Statistical Association, 76(374):pp. 335340, 1981.
Journal
The Bayesian Choice: From Decision-Theoretic Foundations to Computational Implementation (Springer Texts in Statistics) by.
Christian P Robert.
Springer-Verlag New York, 2001.

Wei-Kei Shiue, Lee J. Bain, and Max Engelhardt.
Test of equal gamma-
distribution means with unknown and unequal shape parameters.
metrics, 30(2):pp. 169174, 1988.

L. Wasserman.
Techno-
All of Statistics: A Concise Course in Statistical Inference.
Springer Texts in Statistics. Springer, 2010.
115

Inferencia Apostila

Diunggah oleh

Informasi Dokumen

Hak Cipta

Format Tersedia

Bagikan dokumen Ini

Bagikan atau Tanam Dokumen

Opsi Berbagi

Apakah menurut Anda dokumen ini bermanfaat?

Apakah konten ini tidak pantas?

Hak Cipta:

Format Tersedia

Inferencia Apostila

Diunggah oleh

Hak Cipta:

Format Tersedia

Inferncia Estatstica

James Dean Oliveira dos Santos Jr.

May 20, 2015

Famlias de Distribuies e abordagens paramtrica e no paramtrica

Inferncia Frequentista ou Bayesiana?

Estatsticas sucientes minimais . . . . . . . . . . . . . . . . . . .

Estatsticas ancilares e estatsticas completas

Estimador, Estimativa e Bons Estimadores

Estimao Pontual Frequenstista

Mtodo dos Momentos . . . . . . . . . . . . . . . . . . . .

Mtodo da Mxima Verossimilhana . . . . . . . . . . . .

Melhores Estimadores No-Viesados

Estimao Pontual Bayesiana . . . . . . . . . . . . . . . . . . . .

4 Testes de Hipteses Paramtricos

Testes de Hipteses Frequentistas . . . . . . . . . . . . . . . . . .

Construo de um Teste Frequentista

Teste da Razo de Verossimilhanas

Testes Uniformemente Mais Poderosos . . . . . . . . . . .

Testes de Hipteses Bayesianos

Mtodo da Quantidade Pivotal . . . . . . . . . . . . . . . 103

6 Teoria para Grandes Amostras

Funo Escore e Informao de Fisher

Consistncia dos EMV . . . . . . . . . . . . . . . . . . . . . . . . 107

Testes Assintticos . . . . . . . . . . . . . . . . . . . . . . . . . . 110

estas notas so atualizadas sempre que o autor tem a oportunidade de ministrar

Vale ressaltar tambm que muitos os jarges estatsticos so desconhecidos

Qualquer dvida ou crtica poder ser reportada atravs do e-mail james@ufam.edu.br.

Manaus, 08 de Fevereiro de 2014.

considerados aleatrios. Em alguns momentos, letras gregas minsculas sero

a densidade da distribuio exponencial e sua funo de dis-

tribuio dada por

A funo de probabilidade da distribuio Poisson

conveno bastante aceita na literatura

e sua funo de distribuio

Optou-se por esta notao para manter a uniformidade dos di-

Por exemplo, a funo de probabilidade da

distribuio Poisson dada por

A mudana de notao foi proposta para evitar a descrio de

funes de probabilidade da forma,

ser utilizada em alguns casos quando houver a necessidade real de explicitar o

Sob o ponto de vista no paramtrico, funes de densidade, probabilidade e

Sob o ponto de vista baysiano, a mesma notao ser utilizada

para representar a distribuio marginal de

como por exemplo

Quando necessrio, o suporte de uma varivel aleatria ser denotado por

tambm ser utilizada a mesma notao

Uma exceo ocorrer com o conjunto com todos os valores possveis do

parmetro que, independente de ser aleatrio ou no, sempre ser representado

A seguintes notaes sero utilizadas para designar certas estatsticas:

X1 , X2 , . . . , Xn a i-sima esi-simio valor da amostra orparticular, X(1) = min{X1 , . . . , Xn } e

para uma coleo

tatstica de ordem, denotada por

1.2 Famlias de Distribuies e abordagens paramtrica

(desconhecida), suposta pertencer uma famlia

funes de distribuio. Considerando

como sendo o conjunto com todas as

funes de distribuio, um primeiro desao seria identicar qual funo em

foi a geradora da amostra.

A busca por um bom modelo dentro de

que capture a informao contida

O modo como este subconjunto gera duas abordagens (no

mutualmente exclusivas): a paramtrica e a no paramtrica.

prejuzos s especicidades das inferncias frequentista e bayesiana, pode-se

depende do conhecimento prvio de

Estatsticas sucientes minimais . . . . . . . . . . . . . . . . . . .

funes de distribuio, um primeiro desao seria identicar qual funo em

prejuzos s especicidades das inferncias frequentista e bayesiana, pode-se

para especicar a funo de distribuio, ou seja

2 difcil denir formalmente o conceito de abordagem no paramtrica. Contudo, a

Denio 1.2. Se = w(), a decomposio dada na Denio 1.1 pode ser

Denio 1.4 (Probabilidade Subjetiva). A probabilidade proveniente de

quanticao feita de modo pessoal, traduzindo o grau de crena do indivduo

sido observada. Perceba como os dados modicaram a probabilidade subjetiva