Anda di halaman 1dari 119

Inferncia Estatstica

James Dean Oliveira dos Santos Jr.

May 20, 2015

Contents
1 Introduo

1.1

Notaes . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .

1.2

Famlias de Distribuies e abordagens paramtrica e no paramtrica

1.2.1

1.3

1.4

Famlia Exponencial

Inferncia

. . . . . . . . . . . . . . . . . . . . .

. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .

1.3.1

Inferncia Frequentista ou Bayesiana?

. . . . . . . . . . .

10

1.3.2

Isto tudo? . . . . . . . . . . . . . . . . . . . . . . . . . .

14

Exerccios . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .

14

2 Estatsticas

17

2.1

Introduo . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .

17

2.2

Sucincia . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .

18

2.3

Estatsticas sucientes minimais . . . . . . . . . . . . . . . . . . .

23

2.4

Estatsticas ancilares e estatsticas completas

. . . . . . . . . . .

26

2.5

Exerccios . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .

31

3 Estimao Pontual

35

3.1

Estimador, Estimativa e Bons Estimadores

3.2

Estimao Pontual Frequenstista

3.3

3.4

. . . . . . . . . . . .

35

. . . . . . . . . . . . . . . . . .

37

3.2.1

Mtodo dos Momentos . . . . . . . . . . . . . . . . . . . .

37

3.2.2

Mtodo da Mxima Verossimilhana . . . . . . . . . . . .

41

3.2.3

Melhores Estimadores No-Viesados

. . . . . . . . . . . .

48

Estimao Pontual Bayesiana . . . . . . . . . . . . . . . . . . . .

60

3.3.1

. . . . . . . . . . . . . . . . . . . . .

62

Exerccios . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .

64

Estimador de Bayes

4 Testes de Hipteses Paramtricos


4.1

67

Testes de Hipteses Frequentistas . . . . . . . . . . . . . . . . . .

69

4.1.1

Construo de um Teste Frequentista

. . . . . . . . . . .

69

4.1.2

Teste da Razo de Verossimilhanas

. . . . . . . . . . . .

77

4.1.3

Teste de Neyman-Pearson . . . . . . . . . . . . . . . . . .

83

4.1.4

Testes Uniformemente Mais Poderosos . . . . . . . . . . .

86

4.2

P-valores

. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .

4.3

Testes de Hipteses Bayesianos

94

. . . . . . . . . . . . . . . . . . .

95

4.3.1

Fatores de Bayes . . . . . . . . . . . . . . . . . . . . . . .

95

4.3.2

Hipteses Precisas

97

. . . . . . . . . . . . . . . . . . . . . .

5 Estimao Intervalar

99
4

5.1

Introduo . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .

5.2

Intervalos de Conana

5.3

99

. . . . . . . . . . . . . . . . . . . . . . . 100

5.2.1

Mtodo da Inverso

. . . . . . . . . . . . . . . . . . . . . 101

5.2.2

Mtodo da Quantidade Pivotal . . . . . . . . . . . . . . . 103

5.2.3

Avaliando Intervalos

. . . . . . . . . . . . . . . . . . . . . 104

Exerccios . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 104

6 Teoria para Grandes Amostras

105

6.1

Funo Escore e Informao de Fisher

6.2

Consistncia dos EMV . . . . . . . . . . . . . . . . . . . . . . . . 107

6.3

Testes Assintticos . . . . . . . . . . . . . . . . . . . . . . . . . . 110

. . . . . . . . . . . . . . . 105

Prefcio
Este material est sendo construdo para servir como base para alunos do
Mestrado em Matemtica da Universidade Federal do Amazonas.

Em geral,

estas notas so atualizadas sempre que o autor tem a oportunidade de ministrar


o curso. A verso anterior continha muitos erros grosseiros, especialmente com
relao escrita e notao. Alm disso, alguns resultados pareciam costurados
e com falta de coeso.

Esta verso est tentando corrigir estes erros. Ela passar por diversas modicaes, especialmente estruturais, ao longo deste ano.

Assim, fortemente

recomendado que este material no seja utilizado como nica fonte de estudo.

Vale ressaltar tambm que muitos os jarges estatsticos so desconhecidos


por alunos de outras reas. Deste modo, este material tenta suprir essas decincias.

Qualquer dvida ou crtica poder ser reportada atravs do e-mail james@ufam.edu.br.

Manaus, 08 de Fevereiro de 2014.

Chapter 1

Introduo
1.1 Notaes
Ao longo deste texto, uma varivel aleatria sempre ser representada por letras maisculas, enquanto que seus respectivos valores observados sero representados por letras minsculas. A exceo ocorre na notao dos parmetros,
que sempre sero representados por letras gregas minsculas

1 mesmo se forem

considerados aleatrios. Em alguns momentos, letras gregas minsculas sero


utilizadas no lugar de funes de variveis aleatrias, mas isto car claro no
contexto.

As funes densidade ou de probabilidade sero designadas por letras minsculas e suas respectivas funes de distribuio sero representadas pelas suas
respectivas letras maisculas. Por exemplo,

f (x|) = ex ,
onde

x, > 0

a densidade da distribuio exponencial e sua funo de dis-

tribuio dada por

F (x|) = 1 ex ,
onde

> 0.

A funo de probabilidade da distribuio Poisson

f (x|) =
1 Esta

e x
,
x!

conveno bastante aceita na literatura


5

onde

x = 0, 1, 2, . . .

> 0,

e sua funo de distribuio

F (x|) =

x
X
e y

y!

y=0
onde

> 0.

Optou-se por esta notao para manter a uniformidade dos di-

versos teoremas que valem tanto para o caso discreto quanto para o contnuo.
Tradicionalmente, funes de probabilidade de uma varivel aleatria discreta

so descritas como

P (X = x).

Por exemplo, a funo de probabilidade da

distribuio Poisson dada por

P (X = x|) =
onde

> 0.

e x
,
x!

A mudana de notao foi proposta para evitar a descrio de

funes de probabilidade da forma,

P ( = |x),
que faz sentido no contexto bayesiano mas no comum nos textos que tratam
especicamente desta tipo de inferncia. Contudo, a notao

P (X = x)

ainda

ser utilizada em alguns casos quando houver a necessidade real de explicitar o


evento aleatrio em questo.

Sob o ponto de vista no paramtrico, funes de densidade, probabilidade e


distribuio sero apresentadas sem a condicioanl sobre o parmetro. Exemplos:

f (x)

F (x).

Sob o ponto de vista baysiano, a mesma notao ser utilizada

para representar a distribuio marginal de

X,

como por exemplo

Z
f (x) =

f (x|)dF ().

Quando necessrio, o suporte de uma varivel aleatria ser denotado por


sua verso caligrca. Por exemplo, os suportes de
um vetor aleatrio

X.

X = {X1 , . . . , Xn }

sero

Y.

Para

tambm ser utilizada a mesma notao

Uma exceo ocorrer com o conjunto com todos os valores possveis do

parmetro que, independente de ser aleatrio ou no, sempre ser representado


por sua respectiva letra grega maiscula. Por exemplo, o conjunto dos possveis
valores de

representado por

A seguintes notaes sero utilizadas para designar certas estatsticas:

Mdia amostral:

=
X

n
X
Xi
i=1

(1.1)

Varincia amostral:

S2 =

n
X
2
(Xi X)
i=1

Estatsticas de ordem:

n1

(1.2)

X1 , X2 , . . . , Xn a i-sima esi-simio valor da amostra orparticular, X(1) = min{X1 , . . . , Xn } e

para uma coleo

tatstica de ordem, denotada por


denada em ordem crescente.

X(i) ,

Em

X(n) = max{X1 , . . . , Xn }

1.2 Famlias de Distribuies e abordagens paramtrica


e no paramtrica
Sob o ponto de vista estatstico, a amostra
funo de distribuio

X1 , . . . , Xn

proveniente de uma

(desconhecida), suposta pertencer uma famlia

funes de distribuio. Considerando

de

como sendo o conjunto com todas as

funes de distribuio, um primeiro desao seria identicar qual funo em

foi a geradora da amostra.

A busca por um bom modelo dentro de

que capture a informao contida

na amostra pode, dependendo do contexto, ser uma tarefa rdua. Em vez disso,
usual procurar por um modelo que explique bem a amostra dentro de um
subconjunto de

F .

O modo como este subconjunto gera duas abordagens (no

mutualmente exclusivas): a paramtrica e a no paramtrica.

A abordagem paramtrica supe que a funo de distribuio est completamente especicada por certa quantidade, no observvel, denominada parmetro.
Usualmente, parmetros so representados letras gregas e neste material a letra

ser utilizada sempre que possvel para se referir ao de interesse. Sem maiores

prejuzos s especicidades das inferncias frequentista e bayesiana, pode-se


dizer que a distribuio de
distribuio de

X|

depende do conhecimento prvio de

ou seja, a

conhecida.

F (.|), o conjunto de todos os valores possveis


F (.|) seja uma funo de distribuio denominado espao paramtrico. Por exemplo, se X1 , . . . , Xn uma coleo de
variveis aleatrias independentes com distribuio Poisson( ), ento o espao
paramtrico ser = (0, ).
Uma vez xado o modelo

do parmetro que permitem que

A famlia

dita ser paramtrica se apenas o conhecimento de

para especicar a funo de distribuio, ou seja

F = {F (.|) : }.
7

necessrio

Deste modo, a abordagem paramtrica substitui o problema de lidar com


dentro do espao de todas as funes de distribuio para lidar com

2 tenta contemplar um amplo conjunto de

A abordagem no paramtrica

funes de distribuio com restries brandas, como por exemplo, o conjunto


de todas as variveis aleatrias com varincia nita, dado por

Z
F (.) F :

1.2.1

x dF (x) < .

Famlia Exponencial

A famlia exponencial uma importante famlia paramtrica.

Denio 1.1. Uma famlia de densidades/funes de probabilidade denominada exponencial se existir a decomposio
f (x|) = h(x)c() exp

k
X

!
wi ()ti (x) ,

(1.3)

i=1

onde h(x) 0 e t1 (x), . . . , tk (x) so funes reais de x que no podem depender


de e c() e w1 (), . . . , wk () so funes reais de que no podem depender
de x.

Exemplo 1.1 (Famlia exponencial: binomial).

Seja

X| Binomial(n, ).

Ento,

 
 
n
n x
(1 )nx =
(1 )n ex log()x log(1)
x
x
 

n
=
(1 )n ex log( 1 ) .
x

h(x) = nx , t(x) = x, c() = (1 )n e w() = log(/(1 )),
p(x|) =

Fazendo

temos

que a distribuio binomial pertence a famlia exponencial. Note que, se


desconhecido, a distribuio deixa de pertencer famlia exponencial.

Exemplo 1.2 (Famlia exponencial: normal).

Seja

for

X|, 2 Normal(, 2 ).

Temos que


1
2
f (x|, ) =
exp 2 (x )
2
2 2




1
2
x2
x
=
exp 2 exp 2 + 2 .
2
2

2 2
2

2 difcil denir formalmente o conceito de abordagem no paramtrica. Contudo, a


denio dada aqui ser suciente para apresentar as diferentes metodologias de modo satisfatrio.
8

h(x) = I(x R) = 1, c(, 2 ) = (2 2 )1/2 e


t2 (x) = x, w1 (, 2 ) = 1/2 2 e w2 (, 2 ) = /2 2 , temos

Fazendo

/2 2

que

famlia exponencial.

t1 (x) = x2 ,
X pertence


Denio 1.2. Se = w(), a decomposio dada na Denio 1.1 pode ser


reescrita como

k
X

f (x|) = h(x)c () exp

!
i ti (x) ,

(1.4)

i=1

onde
1

c ()

k
X

Z
h(x) exp

=
X

!
i ti (x) dx.

i=1

Esta nova decomposio denominada forma cannica e denominado


parmetro cannico.

1.3 Inferncia
Considere uma distribuio de probabilidade
amostra

X1 , . . . , Xn .

Em geral, a distribuio

P,
P

responsvel pela gerao da


desconhecida e o objetivo da

inferncia estatstica utilizar a amostra observada para fazer alguma conjectura


sobre

P.

A inferncia pode ser dividida em trs grandes problemas:

Estimao pontual: neste problema, existe interesse em fazer inferncias


sobre alguma quantidade proveniente do modelo
querer estimar a mdia de

P,

P.

Por exemplo, pode-se

denida por

Z
(P ) =

xdP.

Estimao por regies: neste problema, existe o interesse em encontrar


uma regio

na qual pode-se fazer a inferncia

A, onde representa
A for um intervalo na

alguma quantidade de interesse. Em particular, se

reta o problema conhecido como estimao intervalar.

Testes de hipteses: neste problema, existe alguma hiptese do tipo


e o objetivo determinar se aceitamos ou no esta hiptese.
9

Em relao ao mtodo, existem duas principais abordagens para fazer inferncias: frequentista e bayesiana.

1.3.1

Inferncia Frequentista ou Bayesiana?

As inferncias frequentista e bayesiana so baseadas em interpretaes distintas


de probabilidade. Primeiramente, considere a probabilidade frequentista.

Denio 1.3 (Probabilidade Frequentista). Suponha que um mesmo experimento repetido um grande nmero de vezes sob condies idnticas. Ento
a probabilidade de um evento equivalente a sua frequncia relativa. Esta probabilidade denominada frequentista.

Os resultados da inferncia frequentista baseiam suas propriedades em termos de frequncias relativas: se o experimento for replicado innitas vezes, a
melhor estratgia a que possui bom desempenho na maioria das vezes.

Exemplo 1.3.

Seja

X1 , . . . , Xn

uma amostra de vaiid com

e considere o problema de estimar o valor de

Xi | Bernoulli()

sob o ponto de vista frequentista.

Neste caso, considere a varivel aleatria

T =

n
X
Xi
i=1

Observe que

E[T |] =

n
X
i=1


E


Xi
1
= E

n
n

n
X
i=1

!


Xi = .

Uma ilustrao de uma possvel funo de probabilidade para


10

dada abaixo.

f(t )

Note que os valores de

com maior probabilidade esto prximos de

suponha que foi observada a amostra

t=

x = {x1 , . . . , xn }
n
X
xi
i=1

Agora,

e calculado

(1.5)

Se innitas amostras tivessem sido retiradas e, para cada uma fosse associada
seu respectivo valor de

t,

ento os valores da sequncia

frequncia relativa seriam aqueles prximos de

t1 , t2 , . . .

com maior

Portanto, associar o valor

obtido a partir da amostra observada com o valor de

uma estratgia com

bons resultados na maioria das vezes.

A inferncia bayesiana baseada na probabilidade pessoal, ou subjetiva.

Denio 1.4 (Probabilidade Subjetiva). A probabilidade proveniente de


um julgamento pessoal sobre a ocorrncia de certo evento denominada probabilidade subjetiva.
Na inferncia bayesiana a incerteza sobre a quantidade
atravs de uma distribuio de probabilidade

f ()

quanticada

denominada

priori.

Esta

quanticao feita de modo pessoal, traduzindo o grau de crena do indivduo


em relao aos valores possveis de

Em seguida, uma amostra de

X|

ob-

servada. A atualizao das crenas do indivduo em conjunto com as evidncias


11

da amostra feita atravs do Teorema de Bayes

f (|x) =

|x

A distribuio de

Exemplo 1.4.

Seja

f (x|)f ()
.
f (x)

denominada

X1 , . . . , Xn

posteriori.

uma amostra de vaiid com

e considere o problema de estimar o valor de


Como sabido que
sobre

Xi | Bernoulli()

sob o ponto de vista bayesiano.

(0, 1) e considerando que no existem outras informaes

disponveis, razovel assumir inicialmente que

Uniforme(0, 1).

Isto implica que, sem analisar qualquer amostra, voc cr que cada subintervalo
de

(0, 1)

com o mesmo comprimento possui a mesma chance de representar seu

conhecimento sobre

A distribuio de

f (|x) f (x|) f () =

n
Y

aps observar a amostra

seria

f (xi |) f ()

i=1
n
Y

xi (1 )1xi 1 =

Pn

i=1

xi

(1 )n

Pn

i=1

xi

i=1

Reconhecendo a ltima expresso acima como o ncleo de uma densidade beta,

Pn
i=1 xi + 1, n
i=1 xi + 1). A gura abaixo mostra
um exemplo com a densidade (subjetiva) de antes e depois da amostra x ter

tem-se que

|x

Pn

Beta(

sido observada. Perceba como os dados modicaram a probabilidade subjetiva


em relao

.
12

f( x)

Densidade Beta

Densidade Uniforme


Ao observar o grco acima, pode-se notar que a densidade subjetiva sobre

a posteriori

est concentrada em torno da mdia, sendo esta um nmero que

pode estimar (representar)

Assim, uma estimativa pontual para

Pn
E[|x] =

xi + 1
.
n+2

i=1

Neste ponto, importante ressaltar que, embora as duas inferncias citadas


acima sirvam para resolver os mesmos problemas, a interpretao dos resultados
diferente. Por este motivo, nestas notas de aula, comparaes sobre performances entre inferncias sero evitadas.

Do que foi discutido acima, pode-se

notar que existe um ponto em comum entre as duas inferncias: ambas utilizam

X1 , . . . , Xn proveniente de um modelo f (.|). No


f (.|) foi utilizado para encontrar a distribuio de

a informao de uma amostra


caso frequentista, o modelo

e no caso bayesiano o modelo foi utilizado em conjunto com a distribuio

priori

para encontrar a distribuio

a posteriori

de

Este modelo denomi-

nado verossimilhana.

Denio 1.5. Seja X1 , . . . , Xn uma amostra de variveis aleatrias com densidade/funo de probabilidade conjunta dada por
f (x|).

A funo L : [0, )
L() = f (x|)
13

denominada funo de verossimilhana. Em particular, se X1 , . . . , Xn forem


variveis independentes, tem-se que
L() =

n
Y

f (xi |).

i=1

Falar em que momento retornaremos a discursar sobre o papel da verossimilhana.

1.3.2

Isto tudo?

Os Exemplos 1.3 e 1.4 mostraram a anlise do mesmo modelo paramtrico sob


o ponto de vista frequentista e o bayesiano. Naturalmente, existem os mesmos
pontos de vista para modelagens no paramtricas. Entender as diferenas entre
cada metodologia o objetivo destas notas de aula. Contudo, a cincia no se
limita a pontos de vista isolados. Existem situaes nas quais solues frequentistas so utilizadas em tcnicas bayesianas e vice-e-versa, alm de situaes nas
quais parte do modelo paramtrico e a outra parte no paramtrica.

1.4 Exerccios
1.1.

Seja

X1 , . . . , Xn

uma amostra de variveis aleatrias independentes com

k
X

f (x|) = h(x)c() exp

!
wi ()ti (x) .

i=1
Prove que a distribuio conjunta da amostra pertence famlia exponencial.

1.2.

Seja

uma varivel aleatria com funo densidade/probabilidade dada

por

f (x|) = h(x)c? () exp (x) .


Considere ainda que o espao paramtrico

aberto.

(a) Prove que

MX (s) =

c? ()
.
c? ( + s)

(b) Prova que

E(X) =

14

d
log c? ().
d

1.3.

Prove que as seguintes distribuies pertencem famlia exponencial e

encontre sua forma cannica:

1. Distribuio gama, com densidade dada por

f (x|, ) =
com

1
x
exp{x},
()

x, , > 0.

2. Distribuio beta, com densidade dada por

f (x|, ) =
com

0 < x < 1, > 0

x1 (1 x)1
,
B(, )

> 0.

3. Distribuio Poisson, com funo de probabilidade dada por

e x
,
x!

f (x|) =
>0

onde

x = 0, 1, 2, . . ..

4. Distribuio binomial negativa (com

conhecido), com funo de proba-

bilidade dada portanto

f (x|) =
com

0<<1

x = 0, 1, 2, . . .

Seo 1.3.1
1.4. (Fcil)
dentes com



r+x1 r
(1 )x ,
x

Seja X1 , . . . , Xn
Xi | Poisson().

Pn

Xi | Poisson(n).

(a) Mostre que

T =

(b) Mostre que

E[T /n|] = .

i=1

uma amostra de variveis aleatrias indepen-

(c) Baseado no item anterior, se retirarmos innitas amostras de tamanho


que podemos esperar ao observar
(d) Considere a amostra observada

T /n?

x = {11, 10, 4, 13, 7}.


5

X xi
t
=
.
5
5
i=1
O que este resultado representa?
15

Calcule

n,

1.5.

X1 , . . . , Xn

(Fcil) Seja

uma amostra de vaiid com

(a) Considere que a informao


como

Exponencial(1).

a priori

sobre

pode ser expressada atravs

Encontre a distribuio

(b) Considere a amostra observada

Xi | Poisson().

a posteriori

x = {11, 10, 4, 13, 7}.

de

Quanto vale

E[|x]?

O que este resultado representa?

1.6.

(Mdio) Seja

X1 | Exponencial().

Considere a seguinte hiptese:

1.

(a) Se a hiptese verdadeira, mostre que, para qualquer

a>0

P (X a|) 1 ex .
(b) Se a hiptese verdadeira, encontre o valor de

tal que

P (X a|) 0, 95.
(c) Considere a inferncia Rejeita-se a hiptese quando

a.

x observado maior que

Se retirarmos innitas amostras de tamanho 1 e observarmos quantas

vezes ocorreu

x > a,

qual a proporo de amostras nas quais a hiptese

verdadeira, mas rejeitada?


(d) Observa-se

x = 17.

Neste caso deve-se rejeitar a hiptese?

Interprete a

deciso.

1.7.

(Mdio)Seja

X1 |

Exponencial(). Considere a seguinte hiptese:

1.

(a) Considere a informao

a priori Exponencial(log(2)).

Calcule a prob-

abilidade

P ( 1).
Interprete este resultado.
(b) Mostre que a distribuio
(c) Observa-se

x = 17.

a posteriori

|x Gama(2, x + log(2)).

Calcule

P ( 1|x).
Compare esta probabilidade com a obtida no item
sultado.

16

(a).

Interprete este re-

Chapter 2

Estatsticas
2.1 Introduo
Seja

X1 , . . . , Xn

uma amostra de varveis aleatrias com

o problema de fazer inferncias sobre alguma quantidade


que a amostra carrega informao sobre
de

Xi F (.) e considere
(F ). razovel crer

(.), uma vez que ela foi gerada a partir

F (.).

Denio 2.1. O conjunto X n representa o espao de todas as amostras possveis de tamanho n e denominado espao amostral.

Torna-se necessrio criar um mecanismo que retire informaes relevantes


da amostra, de modo a facilitar o processo de inferncia. Tais mecanismos so

estatsticas.
Denio 2.2. Qualquer funo T : X n Rn T Rm denominada
estatstica.
denominados

Informalmente, uma estatstica

qualquer funo da amostra. imediato

que estatsticas so variveis aleatrias e suas distribuies so denominadas

distribuies amostrais.

X = {X1 , . . . , Xn }, ser
T funo de X e, em
caso contrrio, ser utilizada simplesmente a notao T . De modo anlogo, para
a amostra observada x = {x1 , . . . , xn } sero utilizadas as notaes T (x) ou t.
utilizada a notao

Para uma amostra aleatria

T (X)

se for relevante ressaltar que

As estatsticas procuram sumarizar a informao da amostra. Uma das principais caractersticas de uma estatstica o particionamento do espao amostral,
17

que pode gerar a reduo da informao da amostra.

Exemplo 2.1.

X1 Gama(1, ).
n
n
X
=
R
. Considere a estatstica T (X) =
+
Pn
i=1 Xi . A distribuio amostral de T uma Gama(n, ) e T = R+ . A estatstica T reduziu a informao da amostra, de dimenso n, para uma informao
escalar.

Seja

X1 , . . . , Xn

uma amostra de vaiid com

O espao amostral o conjunto

Em princpio, sempre possvel gerar uma estatstica com dimenso menor


que o tamanho da amostra. Neste captulo sero apresentados alguns conceitos
sobre a qualidade destas redues para algumas estatsticas.

2.2 Sucincia
T tal
X|T (X)

X|T (X)

Considere que existe uma estatstica

que

sentido de que a distribuio de

no depende de

no depende de

).

(no

Este tipo de

estatstica denominada suciente.

Denio 2.3. Uma estatstica

T (X) dita ser suciente para se a dis-

tribuio X|T (X) no depende de .

Exemplo 2.2.

X1 , . . .P
, Xn uma amostra iid de X1 Poisson(). Conn
T (X) = i=1 Xi . Sabendo que T (X) Poisson(n), tem-se

Seja

sidere a estatstica
que

f (x, T (x))
f (T (x))
 n
e
(n)t
= f (x)
t!
Qn xi
e /xi !
= t! i=1n
e
(n)t
Qn
Pn
t!
xi
i=1 1/xi !
i=1
= t!
= t Qn
.
(n)t
n i=1 xi !

f (x|T (x)) =

logo,

T (X) =

Pn

i=1

Xi

Exemplo 2.3 (Estatstica Suciente Trivial).


para

uma estatstica suciente.

A amostra sempre suciente

De fato, note que

f (x|x, ) =

f (x, x|)
= 1.
f (x|)
18

Avaliar se uma estatstica suciente atravs da Denio 2.3 pode ser uma
tarefa rdua. O teorema a seguir uma importante ferramenta para a busca de
estatsticas sucientes.

Teorema 2.4 (Critrio da Fatorao). Seja X uma amostra aleatria cuja


distribuio depende de . Ento, T (X) um estatstica suciente para se e
somente se existem funes h(x) e g(T (X), ) tais que
f (x|) = h(x)g(T (x), ).

Proof.

Ser demonstrado apenas o caso discreto.

(2.1)

T (X)

Primeiro, seja

uma

estatstica suciente. Ento

f (x|) = f (x, T (x)|)


= f (x|T (x), )f (T (x)|)

e como

suciente,

= f (x|T (x))f (T (x)|)

(2.2)

A decomposio (2.1) pode ser obtida fazendo

f (t|).

h(x) = f (x|t)

g(T, ) =

Agora, suponha que a decomposio (2.1) verdadeira para alguma

estatstica

T.

Ento,

f (x, T (x)|)
f (T (x)|)
f (x|)
=P

f (x|T (x), ) =

yX n :T (y)=T (x)

=P
=P
Portanto, como

X|T (X)

f (y|)

h(x)g(T (x), )
yX n :T (y)=T (x) h(y)g(T (y), )
h(x)
yX n :T (y)=T (x)

no depende de

h(y)

tem-se que

T (X)

suciente para

Corolrio 2.5. Considere a decomposio


f (x|) = h(x)g(t, ).

Ento, f (t|) g(t, ).

Corolrio 2.6. Se

T uma estatstica suciente e T = T (U (X)), ento U

tambm suciente.

19

Corolrio 2.7. Se T uma estatstica suciente e g 1:1, ento g(T) tambm


suciente.

Exemplo 2.4.

Seja

X1 , . . . , Xn uma amostra de vaiid com Xi Exponencial(),

cuja densidade conjunta dada por

f (x|) = n e
h(x) = 1
suciente para .

Fazendo

g(T (x), ) = n e

Pn

i=1

i=1

xi

xi

, tem-se que

T (X) =

g(t, ), pode-se notar


Gama(n, ), dada por

Observando a forma de

proporcional densidade da distribuio

f (t|) =
Portanto, pelo Corolrio 2.5 tem-se

Exemplo 2.5.

Pn

Seja

n n1 t
t
e .
(n)
Pn
que
i=1 Xi Gama(n, ).

Pn

i=1

Xi

que esta

X1 , . . . , Xn uma amostra de vaiid com Xi Uniforme(0, ),

cuja densidade conjunta

n
1 Y
I(xi ).
f (x|) = n
i=1
O produtrio acima igual a um se e somente se todas as observaes forem
menores ou iguais que
seja menor que

Para que isto ocorra, basta que a maior das observaes

Assim,

1
I(x(n) ),
n
g(t, ) = f (x|), tem-se que T (X) = X(n)
f (x|) =

e, fazendo
para

X(n)

h(x) = 1

suciente

Fica como exerccio ao leitor mostrar que a distribuio amostral de

fX(n) (t|) = nf (t|)n1 =


o que implica que

n n1
t
I(0 < t ),
n

X(n) / Beta(n, 1).

Existem situaes nas quais existe mais de uma estatstica suciente para o
mesmo parmetro, ou uma estatstica suciente est associada a dois ou mais
parmetros.

Em ambos os casos, dizemos que a estatstica conjuntamente

suciente para o(s) parmetro(s).

Exemplo 2.6.

Seja

X1 , . . . , Xn

uma amostra de vaiid com

Xi

Gama(, ).

Ento,

!1
n
n
Y
Y
Pn
1 xi
n n
f (x|) =
xi e
= ()
xi
e i=1 xi .
()
i=1
i=1
Qn
Pn
Assim, T (X) = { i=1 Xi ,
i=1 Xi } uma estatstica suciente bidimensional
Qn
para (alternativamente, tambm correto dizer que T1 (X) =
i=1 Xi e
Pn
T2 (X) = i=1 so estatsticas conjuntamente sucientes para ).

20

Exemplo 2.7.
Fazendo

Seja

= (, )

X1 , . . . , Xn uma amostra de vaiid com X1 Normal(, 2 ).


tem-se,

(
)
  n/2
n
1 X
(xi )2
1

exp 2
exp

f (x|) =
(xi )2
2
2
2
2

2
2
i=1
i=1


 n/2
o
n n
n

1
1
exp 2 (
x )2 exp
s2 ,
=
2
2
2 2
n
Y

onde foi utilizada a identidade

n
n
X
X
(xi )2 =
(xi x
)2 + n(
x )2 = (n 1)s2 + n(
x )2 .
i=1

(2.3)

i=1

Assim, a estatstica

S2}
{X,

tando que

so conjuntamente sucientes para

{, 2 }.

No-

n n
o
1 exp 2 (
x )2
2

proporcional densidade de uma Normal(,

/n), cuja densidade dada por

n n
o
n
f (
x|, 2 ) =
x )2 .
exp 2 (
2
2 2

Pode-se ainda observar que

f (x|) =



 n 1/2
o  1  n1
n n
2
n1 2
2
exp

(
x

s
.
exp

2 2
2 2
2 2
2 2

A ltima parcela do produto acima proporcional densidade da distribuio


Gama((n

1)/2,(n 1)/2 2 ),
f (s2 2) =

n1
2 2

cuja densidade dada por

 n1
2



n1
n1 2
1
(s2 ) 2 1 exp
s
,
(n 1)
2 2

tem-se que a densidade conjunta da amostra pode ser reescrita como

f (x|) = h(x)g1 (
x, )g2 (s2 , 2 ),
g1 (
x, ) a densidade da
2
Gama((n 1)/2,(n 1)/2 ) e

onde

Normal(,

h(x) =

/n), g2 (s2 , 2 )

(n 1)
.
(s2 )0,5(n1)

Portanto, pelo Corolrio 2.5 temos que


21

a densidade da

Normal(, 2 /n),
X
S 2 Gama((n 1)/2, (n 1)/2 2 )

S2

so independentes.

Fica como exerccio para o leitor mostrar que

(n 1)

S2
2n1 .
2

Em alguns exemplos acima, a amostra proveniente de uma distribuio na


famlia exponencial.

Abaixo segue um importante teorema relacionando esta

famlia com as estatsticas sucientes.

Teorema 2.8. Se

X1 , . . . , Xn so vaiid provenientes de uma distribuio na

famlia exponencial, ento

T (X) =

( n
X

T1 (xi ), . . . ,

i=1

n
X

)
Tk (xi )

i=1

suciente para .
Proof.

Segue diretamente da Proposio

??.

possvel estender a noo de estatstic suciente para a abordagem no


paramtrica.

Denio 2.9. Seja X = {X1 , . . . , Xn } uma amostra aleatria com X F (.).


Uma estatstica dita ser suciente para F se a distribuio X|T (X) no
depende de F (.).

Exemplo 2.8.
conjunto

vezes que ocorreu

na amostra

FD a famlia de todas as distribuies cujo suporte um


T (X) = {nz (X), z Z}, onde nz (X) o nmero de
o valor z na amostra X (tambm denominado frequncia de
Por ltimo, seja X uma amostra de vaiid com X1 F FD .

Seja

D Z.
X ).

Seja

Ento

f (x) =

n
Y

f (xi ) =

i=1
Portanto, pelo Critrio da Fatorao,

f (z)nz (x) .

zD

T (X) = {nz (X), z Z}

suciente para

F.


O exemplo acima tem uma importante implicao: a frequncia dos valores

de uma amostra sempre suciente para o modelo

F.

2.7, temos que as frequncias relativas, denidas por


sucientes para

F.
22

Utilizando o Corolrio

nz (X)/n

tambm so

Exemplo 2.9.

Seja

X1 , . . . , Xn

uma amostra iid de

X1 F .

Seja

T = {X(1) , . . . , X(n) },
onde

X(i)

a i-sima coordenada de

denadas de

so denominadas

ordem so sucientes para


o caso no qual

F.

ordenado em ordem crescente (as coor-

estatsticas de ordem ).

Ora, as estatsticas de

Para mostrar este fato, ser considerado apenas

uma varivel discreta. Neste caso,

f (x|T (x)) =

f (x1 , . . . , xn , T (x))
.
f (T (x))

Note que o numerador acima diferente de zero apenas quando alguma permutao de

igual

t.

Como as variveis so iid, todas as permutaes tem a

mesma probabilidade. Assim,

f (x1 , . . . , xn , T (x)) =

1
f (t)
n!

f (x|T (x)) =
o que mostra que

suciente para

1
,
n!

F.

2.3 Estatsticas sucientes minimais


Para um mesmo problema podem existir diversas estatsticas sucientes, como
ser ilustrado no Exemplo 2.10.

interessante que a informao da amostra

possa ser sumarizada em poucos valores, o que implica em procurar pela estatstica suciente com a menor dimenso possvel. Tais estatsticas so denominadas

minimais.

Denio 2.10. Uma estatstica suciente

T (X) denominada minimal se,


para qualquer outra estatstica suciente T 0 (X), T (X) funo de T 0 (X).

Exemplo 2.10.
e

> 0.

Seja

X1 , . . . , Xn uma amostra de vaiid com X1 Uniforme(, )

A densidade conjunta da amostra dada por

n
Y
1
I( xi )
f (x|) =
2
i=1
23

Considere as seguintes fatoraes:

f (x|) =

n
1 Y
I( x(i) ),
(2)n i=1

1
I( x(1) )I(x(n) ),
(2)n
1
f (x|) =
I(max |Xi | )
i
(2)n

f (x|) =

T1 = {X(1) , . . . , X(n) } suT2 = {X(1) , X(n) } suciente para


T3 = max{|X1 |, . . . , |Xn |} suciente para . Clara-

Na primeira fatorao temos que a estatstica


ciente para

Na segunda, a estatstica

e na ltima, a estatstica
mente,

T3

uma estatstica suciente com a menor reduo possvel, bastando

mostrar que

T3

minimal. Por outro lado, pela Denio 2.10

T1

no poderia

ser minimal. De forma anloga,

T3 = max{|X1 |, . . . , |Xn |} = max{|X(1) |, |X(n) |} = T3 (T2 (X)),


logo

T2

no poderia ser minimal.

O seguinte Teorema til descobrir se uma estatstica suciente minimal.

Teorema 2.11. Suponha que existe uma funo

T (X) tal que, para cada par


de amostras x e y , a razo f (x|)/f (y|) constante como funo de se e
somente se T (x) = T (y). Ento T (X) uma estatstica suciente minimal.

Proof.

A prova ser dada apenas para o caso discreto. Primeiro, para qualquer

estatstica

T,

temos que

f (x|) = f (x|)

f (T (x)|)
f (T (x)|)
f (x|)

= f (T (x)|) P

f (y|)
1
f (y|)
.
f (x|)

yX n :T (y)=T (x)

= f (T (x)|)

yX n :T (y)=T (x)

Agora, se as condies do Teorema 2.11 esto satisfeitas para a estatstica


ento para todo

T (x) = T (y)

a razo

o termo

yX n :T (y)=T (x)

f (x)|/f (y|)

no depende de

1
f (y|)
:= h(x).
f (x|)
24

T,

Assim,

constante em relao

o que implica em

f (x|) = f (T (x)|)h(x).
Logo, pelo Teorema 2.4, temos que

suciente.

W outra estatstica suciente,


W (x) = W (y). Ento, pelo Teorema 2.4,

Agora, seja
em

com o ponto

(x, y)

implicando

f (x|)
h(x)g(w(x), )
h(x)
=
=
,
f (y|)
h(y)g(w(y), )
h(y)
logo, a razo constante em

e, pelas condies do Teorema 2.11 tem-se que

T (x) = T (y).

Ento, para qualquer

nico elemento

T T,

o que implica

W W = {W (x) : x X n }
em T : W T .

Exemplo 2.11 (Estatstica minimal para a normal).


amostra aleatria de

X1 Normal(, 2 ).


f (x|) =

1
2 2

 n2

Seja

existe um

X1 , . . . , Xn uma

Sabe-se que


n
n1 2
2
exp 2 (
x )
s ,
2
2 2 x

S 2 } uma estatstica suciente para . Considere agora duas


T = {X,
X
amostras, x e y . Ento


f (x|)
n
n1 2
2
= exp 2 [(
x )2 (
y )2 ]
[s

s
]
y
f (y|)
2
2 2 x



1 
= exp 2 n(
x )2 n(
y )2 + (n 1)(s2x s2y )
2
(
"
#)
n
n
X
X
1
2
2
2
2
2
2
= exp 2 n(
x ) n(
y ) + (
xi n
x
yi + n
y )
2
i=1
i=1
#)
(
"
n
n
X
X
1
2
2
yi )
xi
= exp 2 2n(
x y) + (
2
i=1
i=1

logo,

Pn
Pn
se e somente se x
= y e se i=1 x2i = i=1 yi2 ,
P
n
2
2

o que implica qye {X,


i=1 Xi } suciente minimal para (, ). Fica como
exerccio a demonstrao de que T tambm uma estatstica suciente minimal
2
para = (, ).


A razo acima no depender de

Exemplo 2.12 (Estatstica minimal para a uniforme).


vaiid com

Xi Uniforme(0, ),

Sejam

cuja densidade conjunta dada por

f (x|) = n I(x(n) ).
25

X1 , . . . , Xn

Pelo Teorema 2.4,


amostras

y.

X(n)

uma estatstica suciente para

Considere duas

Ento,

I(x(n) )
f (x|)
=
.
f (y|)
I(y(n) )
Sem perda de generalidade, assuma que
tante

c>0

tal que

x(n) = y(n) + c.

x(n) > y(n) .

Ento, existe uma cons-

A razo das indicadoras como funo de

I(y(n) + c )
=
I(y(n) )

1,
0,

y(n) + c
,
y(n) < y(n) + c

nesta situao. Pode-se chegar na mesma


x(n) < y(n) . Assim, para razo ser constante necessrio que
e, portanto, X(n) uma estatstica suciente minimal para .


e a razo no constante em
concluso se

x(n) = y(n) ,

Exemplo 2.13.

Seja

X1 , . . . , Xn

uma amostra de vaiid com

que as estatsticas de ordem so sucientes para

{X(1) , . . . , X(n) }

F.

X1 F .

Para mostrar que

J vimos

T (X) =

tambm minimal, considere a razo

f (x(1) , . . . , x(n) )
f (x)
=
.
f (y)
f (y(1) , . . . , y(n) )
T (x) = T (y) ento a razo
F F , o nico modo da ra ao
Se

constante em relao a

f.

Alm disso, como

f (x(1) , . . . , x(n) )
f (y(1) , . . . , y(n) )
ser constante em relao a um

qualquer fazer

T (x) = T (y).

2.4 Estatsticas ancilares e estatsticas completas


Existem estatsticas que no carregam informao sobre
denominadas

ancilares.

Tais estatsticas so

Denio 2.12. Uma estatstica dita ser ancilar para se sua distribuio
no depende de .

Estatsticas ancilares so importantes para inferncia estatstica, como ser


observado ao longo do texto. Abaixo, seguem alguns exemplos.
26

Exemplo 2.14.

Seja

X1 , . . . , Xn uma amostra de vaiid com X1 Normal(, 2 ).

No Exemplo 2.7 mostrou-se que



2
Normal ,
X
n
e

S 2 Gama((n 1)/2, (n 1)/2 2 ).


Como a distribuio de
ancilar para

S2

no depende de

Considere que

tem-se que esta uma estatstica

conhecido. Ento


X
Normal(0, 1)
n

Tambm foi

n1 2
S Gama((n 1)/2, 1/2) 2n1 .
2
e S 2 so independentes. Portanto,
mostrado que X

X
n
tn1 .
S

T =
Como

conhecido, temos que

pende de

2 ,

logo,

uma estatstica cuja distribuio no de-

ancilar. Este resultado ser muito utilizado posterior-

mente.

Exemplo 2.15.

(Y1 , X1 ), . . . , (Yn , Xn ) uma amostra de variveis aleatrias


Yi |xi Normal(0 + 1 xi , 2 ). Neste caso, tem-se que

Seja

independentes com

E[Yi |xi ] = 0 + 1 xi ,
ou seja, o valor mdio de

Yi uma funo linear de xi .

Este modelo denominado

0
X,

regresso linear simples e um dos objetivos principais fazer inferncias sobre


e

1 .

Note que o vetor

considerado xado. Como justicativa para xar

X f (.|), onde so parmetros no relacionados


X ancilar em relao a estes parmetros. Assim,

feita a suposio de que


com

0 , 1

2 ,

ou seja,

f (y, x|0 , 1 , 2 , ) = f (y|x, 0 , 1 , 2 , )f (x|0 , 1 , 2 , )


= f (y|x, 0 , 1 , 2 )f (x|),
logo, dado

x,

a distribuio de

Y |x

suciente para

e, neste caso, a

informao ancilar de fundamental importncia para fazer inferncias para


e

1 .

Exemplo 2.16.

0


Posto uma transformao na qual o valor da varivel

substitudo por sua respectiva posio na amostra ordenada.


considere as observaes

x = (3, 1; 5, 2; 2, 7; 7, 8).
Ento
27

Por exemplo,

x(1)

x(2)

x(3)

x(4)

2,7

3,1

5,2

7,8

Amostra ordenada
Posio

assim, o vetor de postos ser


vaiid com

Xi F ,

F
X.

onde

vetor com os postos de

r = (2, 3, 1, 4).

Seja

X1 , . . . , Xn

uma amostra de

R o
x, R pode
de {1, . . . , n}.

uma funo de distribuio contnua. Seja


Como a amostra iid, condicionado

assumir, com igual probabilidade, qualquer permutao possvel


Ento,

Z
p(r) =
Como

p(r|x)f (x)dx =

1
n!

Z
f (x)dx =

1
.
n!

R no depende de F , tem-se que R uma estatstica ancilar.

Muitos testes

no paramtricos so construdos utilizando esta estatstica.

T , deseja-se que a amostra X seja decomposta


e U ancilar para .
Contudo, nem sempre possvel garantir que T independente de U . De fato, a
Ao se utilizar uma estatstica

em

{T, U },

onde

contm toda a informao sobre

maioria das estatsticas incapaz de separar a parte informativa da amostra da


parte ancilar. A prxima denio mostra um conjunto particular de estatsticas
que consegue tal separao.

Denio 2.13. Seja FT a famlia de distribuies da estatstica suciente T .

Esta famlia denominada completa se para qualquer funo real g tem-se que
E(g(T )) = 0 para todo implica que g(T ) nula em quase toda parte. Neste
caso, a estatstica denominada completa.

Conforme anunciado anteriormente, uma das vantagens de uma estatstica


completa a capacidade de separar a informao sobre

de qualquer estatstica

ancilar, como mostra o teorema abaixo.

Teorema 2.14 (Teorema de Basu). Estatsticas sucientes completas so independentes de quaisquer estatsticas ancilares.
Proof.

A demonstrao ser feita apenas para o caso contnuo (o caso discreto

anlogo). Sejam

Como

uma estatstica ancilar e uma estatstica completa para

ancilar, a funo de probabilidade

T suciente, teremos
g(t) = f (u|t) f (u). Ento
disso, como

que

f (u|t)

f (u)

no depende de

. Alm
. Faa

tambm no depende de

Z
E[g(T )|] = ET | [f (u|T )] ET | [f (u)] =
= f (u) f (u) = 0, .
28

f (u|t)f (t|)dt f (u)

Como

g(t) = 0

completa, tem-se que

em quase toda parte e

g(t) = 0 f (u|t) = f (u) = 0 f (u|t) = f (u),


logo

independente de

U.

Exemplo 2.17 (Estatstica completa para a Uniforme(0,)).

Seja X uma
X1 Uniforme(0, ). Sabe-se que T = X(n)
suciente para (Exemplo 2.5) e que T / Beta(n, 1). Ser mostrado que X(n)
completa. Primeiro, se inf < a() < b() < inf so funes diferenciveis,

amostra aleatria de vaiid com

tem-se que

d
d

b()

f (x|)dx = f (b()|)
a()

d
d
b() f (a()|) a() +
d
d

b()

a()

d
f (x|)dx.
d
(2.4)

Para uma funo

g(t)

qualquer

Z
n n1
n
d
g(t) n t
dt = g() +
ng(t)tn1 n dt

d
0
0
Z
n
n n
n
n
= g()
g(t)tn1 dt = g() E[g(T )].

0 n

d
d
E[g(T )] =
d
d

Agora, suponha que


se reduz a

g() = 0

E(g(T )) = 0. Ento d/dE[g(T )] = 0 e


> 0. Portanto, T completa.

a equao acima

para todo

Antes de mostrarmos mais alguns exemplos, consideremos o seguinte Teorema.

Lema 2.15 (Lei do Cancelamento de Lerch). Sejam f1 (t) > 0 e f2 (t) > 0
funes reais positivas e contnuas com domnio em R+ , onde

fi (x)etx dx <

(ou seja, existe a transformada de Laplace). Ento, se


Z

f1 (t)est dt =

f2 (t)est dt f1 (t) = f2 (t).

(2.5)

O Teorema 2.15 apresenta a unicidade da transformada de Laplace.


particular, se

Em

g(x)etx dx = 0,

0
o teorema implica em

g(x) = 0

para todo

x.

Portanto, este resultado pode

ser utilizado para mostrar que uma estatstica completa, conforme pode-se
vericar nos dois exemplos a seguir.

1 Este

resultado conhecido como Regra de Leibnitz


29

Exemplo 2.18 (Exponencial).


X1 Exponencial(1/).

Seja

X1 , . . . , Xn

A densidade conjunta de

uma amostra de vaiid com

dada por

f (x|) = n exp {n
x} ,
o que implica, pelo Teorema 2.4. Utilizando o Corolrio 2.5, pode-se mostrar
que

Gama(n, n).
X

Assim, para qualquer

=
E[g(X)]

g(
x) ,

tem-se que

n n1
x

exp {n
x} d
x
(n)
g(
x)n x
n1
exp {n
x} d
x.
(n)

g(
x)
0

=
0

Assim, a integral acima a transformada de Laplace da funo

c(t) = g(t)
Se

= 0,
E[g(X)]

n n1
t
.
(n)

ento a existe a transformada de Laplace da funo

pela Lei do Cancelamento de Lerch, tem-se que


qualquer

x
,

ento

todo

c(
x) = 0,

c(
x)

e,

o que ocorre, para

n e , apenas quando g(
x) = 0. Por outro lado, se g(
x) = 0 para
= 0. Portanto, E[g(X)]
= 0 se e somente se g(
E[g(X)]
x) = 0
uma estatstica completa.
X

todo
para

O Teorema abaixo nos d condies necessrias para que um membro da


famlia exponencial tenha uma estatstica completa.

Teorema 2.16 (Estatstica completa na famlia exponencial). Sejam X1 , . . . , Xn


vaiid de uma fd ou fp da forma

f (x|) = h(x)c() exp

k
X

wj ()tj (x) ,

(2.6)

j=1

Ento, a estatstica T (X) = ( ni=1 T1 (Xi ), . . . , ni=1 Tk (Xi )) completa se


{w1 (), . . . , wk () : } contm um conjunto aberto em Rk .
P

Proof.

Uma demonstrao deste teorema pode ser encontrada em Brown (1986,

Theorem 2.12) e utiliza a unicidade da transformada de Laplace.

No Teorema 2.16, a restrio que


conjunto aberto em

Rk

{w1 (), . . . , wk () : }

contenha um

necessria para garantir a unicidade da transformada

de Laplace. Os dois exemplos abaixo mostram que esta restrio necessria.


30

Exemplo 2.19.

X1 Normal(, 2 ).Note
(
)

 n2
n
1
1 X
2
f (x|) =
exp 2
(xi )
22
2 i=1
(
)
 n2

n
1 X 2 n
1
x 1
exp 2
=
x +

22
2 i=1 i

2
(
)

 n2
 
n
1
1
1 X 2 n
x
x +
=
exp
exp 2
22
2
2 i=1 i

Seja

X1 , . . . , Xn

vaiid com

que,

X pertence famlia exponencial. Como T =


2
2 1
, : R} possui
i=1 Xi ), cuja dimenso 2, e como o conjunto {
dimenso 1, tem-se que as condies do Teorema 2.16 no esto satisfeitas.
Pn
De fato, nestas condies possvel encontrar uma funo g(
x, i=1 x2i ) no
o que implica que a distribuio de

(X,

Pn

nula cuja esperana nula. Por exemplo, pelo Exemplo 2.7 sabemos que
Normal(,

/n).

Assim,

2
2 ] = V ar(X)
+ E(X)
2 = + 2 = 2 1 + n
E[X
n
n
e

" n
X

#
Xi2

= nE[X12 ] = n(V ar(X1 ) + E(X1 )2 ) = 2n2 .

i=1
Fazendo

g(t) =
pode-se notar que
que

n
1 X 2
X
X
n+1
2n i=1 i

no nula para todo

T,

mas

E[g(T )] = 0,

o que implica

no completa.

Exemplo 2.20.

Seja

X1

Binomial(2, ), onde

= {1/4, 3/4}.

Ora,

X1

suciente, pertence famlia exponencial e ca como exerccio mostrar que as


condies do Teorema 2.16 no esto satisfeitas.
completa, considere

g(0) = g(2) = 3

g(1) = 5.

Para mostrar que

X1

no

Ento

E[g(T )] = g(0)(1 )2 + 2g(1)(1 ) + g(2)2


= 162 16 + 3 = 0
para

Logo,

X1

no completa.

O teorema a seguir mostra que estatsticas sucientes completas so minimais.

Teorema 2.17. Se T suciente e completa, ento T tambm minimal.


31

Proof.

Seja

uma estatstica suciente e completa e seja

minimal. Ento, por denio,

T = f (T )

T0

uma estatstica

f.

para alguma funo real

Construa

g(T 0 ) = E[T |T 0 ]
(a funo

acima no depende de

porque

suciente). Ento

E[g(T 0 )] = E[E[T |T 0 ]] = E[T ]


e

E[T g(T 0 )] = E[T ] E[g(T 0 )] = 0.


T g(T 0 ) = T g(f (T )), o que implica o termo na primeira esperana
funo da estatstica completa T e, portanto,

Contudo,
acima

E[T g(T 0 )] = 0 T g(T 0 ) = 0,


T = g(T 0 ) em quase toda a parte. Como T 0 = f (T ) para algum T e T = g(T 0 ),
f 1 . Como transformaes 1:1 de estatsticas minimais so
minimais (ver Exerccio 2.13), tem-se que T deve ser minimal.

tem-se que existe

2.5 Exerccios
Seo 2.1
2.1. Seja X1 , X2 uma amostra de vaiid com X1 |
T1 = X1 /X2 e T2 = max X1 , X2 duas estatsticas.
(a) Encontre a distribuio amostral de

T1

Uniforme(0, ) e sejam

T2 .

(b) Qual destas duas estatsticas voc utilizaria para realizar inferncias sobre

Justique sua resposta.

Seo 2.2
2.2.

|X1 |

Seja

X1

uma nica observao com

X1

Normal(0,

).

A estatstica

suciente?

2.3.

Seja

X1 , . . . , Xn

uma amostra de variveis independentes com densidades

f (xi |) = exp{i xi }I(xi i).


Prove que

T = min{X1 , X2 /2, . . . , Xn /n}


32

uma estatstica suciente para

2.4.

Seja

X1 , . . . , Xn

uma amostra de variveis independentes com densidades

f (xi |) =
> 0.

onde

2.5.

Seja

1
I(i( 1) < xi < i( + 1)).
2i

Ache uma estatstica suciente bidimensional para

X1 , . . . , Xn

uma amostra de vaiid com densidade

f (x|, ) =
<x<
(, ).

onde
para

2.6.

Seja

> 0.

X1 , . . . , Xn

1
exp{(x )/},

Encontre uma estatstica suciente bidimensional

Xi
(, ).

uma amostra de vaiid com

uma estatstica suciente bidimensional para

2.7.

Gama(, ). Encontre

(X, Y ) um vetor aleatrio com distribuio uniforme no retngulo de


(1 , 2 ) e canto superior direito (3 , 4 ) (ou seja 1 < 3 e
Seja (X1 , Y1 ), . . . , (Xn , Yn ) uma amostra aleatria desta distribuio.
uma estatstica 4-dimensional para = {1 , 2 , 3 , 4 }.

Seja

canto inferior esquerto

2 < 4 ).
Encontre

2.8.

Prove o Corolrio 2.6.

2.9.

Termine o Exemplo 2.7, mostrando que

(n 1)

2.10.

Seja

X1 , . . . , Xn

uma amostra de vaiid com densidade


f (x|, ) =
com

S2
2n1 .
2

2x3

 21

(x )2
exp
2x2



,

R, x, > 0 (essa distribuio denominada gaussiana inversa).

o Corolrio 2.5 para mostrar que

(a)

Gaussiana
X

Inversa(, n)

(b)




n 
X
1
1
n 1 n
T =
Gama
,
Xi
2
2
X
i=1
(c)

so independentes.

(d)

so independentes.

33

Utilize

Seo 2.3
2.11. Mostre que a estatstica suciente encontrada no Exerccio 2.5 minimal.
2.12.

Seja

X1 , . . . , Xn

uma amostra de vaiid com

uma estatstica suciente minimal para

2.13.
g

Prove que, se

X1 Bernoulli().

uma estatstica suciente minimal e

uma funo 1:1, ento

Encontre

.
W = g(T ),

onde

minimal. Utilize este resultado para terminar o

Exemplo 2.11.

2.14.

Seja

FD

a famlia de distribuies com suporte

frequncias so estatsticas sucientes minimais para

2.15.

Seja

F = {F1 , F2 }.

D Z.

Prove que as

F.

Isto implica que os dados podem vir exclusivamente

de dois modelos. Podemos transformar a escolha entre os dois modelos em um


problema paramtrico. Seja
modelo e que vale

se

F2

um parmentro que vale

se

F1

for o verdadeiro

for o verdadeiro modelo. Ento

f (x|) = f1 (x)I(=1) f2 (x)I(=2)

(a) Notando que

I( = 2) = 1I( = 1), prove que a razo de verossimilhanas


T (X) =

f1 (X)
f2 (X)

uma estatstica suciente minimal para


(b) Generalize o resultado quando

F = {F1 , . . . , Fk }.

Seo 2.4
2.16. Utilize os Teoremas 2.16 e 2.17 para provar que,

X1 , . . . , Xn uma
k -paramtricas
k
com {w1 (), . . . , wk () : } contendo um conjunto aberto em R , ento existe uma estatstica suciente completa e minimal para .
se

amostra de vaiid pertencentes famlia de distribuies exponenciais

2.17.

Seja

X1 , . . . , Xn uma amostra de vaiid com funo de probabilidade dada

por

f (x|) = (1 )x1 ,
onde

x = 1, 2, . . . ,
.

0 < < 1.

Encontre uma estatstica suciente completa e

minimal para

2.18.

Para cada uma das densidades abaixo, seja

X1 , . . . , Xn

uma amostra de

vaiid. Encontre uma estatstica suciente completa e minimal para


caso.
34

em cada

(a)

f (x|) =

2x
I(0

(b)

f (x|) =

, com
(1+x)1+

(c)

f (x|) =

log x
1 , com

< x < ),

com

> 0.

x, > 0.

x (0, 1)

> 1.

Classicar depois...
2.19. Para cada distribuio a seguir, encontre sua estatstica suciente e sua
respectiva distribuio

1. Poisson()
2. Gama(5, )
3. Uniforme(0, )
4. Pareto(, )
5. Exponencial deslocada:

f (x|, ) = exp{(x )}, x > , > 0,

<.

2.20.

Seja

X1 , . . . , Xn uma amostra iid com distribuies dadas abaixo.

Utilize

o critrio da fatorao para mostrar que

f (x|) = e(x)
Pn I(x > )I( R)I( > 0), ento
PnX(1)
Exponencial(n) e
(X

X
)

Gama
(n,
)
e
X
e
i
(1)
(1)
i=1
i=1 (Xi X(1)

(a) Se

so independentes.

Pn
Pn
X Gama(,P
), ento i=1 Xi Gama(n, ), X/ i=1 Xi Dirichlet(, . . . , )
P
n
n
e
i=1 Xi e X/
i=1 Xi so independentes.
Pn
Pn
Se X|, Binomial(, ), ento
i=1 Xi Binomial(n, ) e X1 , . . . , Xn |
i=1
Hipergeomtrica multivariada(), cuja f p dada por

Qn

n
X
i=1 xi
 I( x(n) )
p(x|,
xi ) =
n

(b) Se

(c)

Pn

i=1

2.21.

Seja

a estatstica

2.22.

Seja

i=1

xi

X1 , . . . , Xn uma amostra aleatria com Xi f (x ). Mostre


T (X) = (X(2) X(1) , . . . , X(n) X(n1) ) ancilar para .
X1 Bernoulli(),

com

= {1/4, 3/4}.

(a) Mostre que

X1

no satisfaz as condies do Teorema 2.16

(b) Mostre que

X1

completa.

35

que

36

Chapter 3

Estimao Pontual
3.1 Estimador, Estimativa e Bons Estimadores
Considere a amostra

X1 , . . . , Xn F (.|).

O problema da estimao pontual

encontrar alguma estatstica para representar uma funo de

Denio 3.1. Qualquer estatstica cujo objetivo estimar () denominada


estimador para () e seu valor observado denominado estimativa de ().

A noo de bom estimador est associada com a proximidade da varivel


aleatria

com a quantidade

().

Esta noo motiva o uso de uma funo

de perda, na qual tem-se perda zero sempre que

igual a

e tem-se perda

positiva em caso contrrio .

Denio 3.2. Considere um estimador

T (X) para o parmetro . Ento,


uma funo de perda qualquer funo L : X n [0, ) que satisfaz

L(T (X), ) =

A quantidade

L(T (X), )

0, T (X) =
> 0, caso contrrio.

uma varivel aleatria para cada valor de

xado. Na Teoria da Deciso, a qualidade do estimador

medida atravs do

valor esperado da perda, denominado funo risco.

1 Na Teoria da Deciso a funo de perda tambm pode ser negativa, implicando que existe
ganho no lugar de perda. Contudo, para os objetivos destas notas, a Denio 3.2 ser
suciente
37

Denio 3.3. A funo risco do estimador T dada por


R() = EX| [L(T (X), )]

Exemplo 3.1 (O Erro Quadrtico Mdio).

(3.1)

Considere a funo de perda

quadrtica

L(T, ) = (T )2 .

(3.2)

Sua respectiva funo de risco, denominada Erro Quadrtico Mdio,

R() = ET | [(T )2 ].
Doravante, esta funo ser denotada por

EQMT ().

Esta funo de risco pode

ser decomposta como segue:

EQMT () = ET | [(T )2 ] = ET | [(T E(T |))2 ]


= ET | [(T E(T |))2 + (E(T |) )2 2(T E(T |))(E(T |) T )]
= ET | [(T E(T |))2 ] + (E(T |) )2
= V arT | [(T ] + (Vis())2
onde Vis()

= E(T |) .

A funo risco mede a perda esperada do estimador para cada valor de

Considere ento dois estimadores, T1 e T2 , com funes de risco


R1 () e R2 (). Sob o ponto de vista da inferncia frequentista, se
R1 () < R2 () para todo , ento, em mdia, o estimador T1 produz
uma perda menor que o estimador T2 e, por este critrio, melhor utilizar T1
xado.

dadas por

como estimador. Sob o ponto de vista da inferncia bayesiana, um estimador


avaliado atravs do risco de bayes.

Denio 3.4. O risco de bayes do estimador T dado por


Z
rT =

R()()d.

No risco de Bayes, a funo risco ponderada pelo peso de


Assim, considerando a informao dada

a priori,

dado pela priori.

ser prefervel o estimador

T1 e T2 com
R1 () < R2 () para todo
de um estimador T tal que

com menor risco de Bayes. Considere novamente dois estimadores


funes de risco dadas por

R1 ()

R2 ().

ento, se

, ento rT1 < rT2 . Portanto, a existncia


RT () RT 0 () para todo importante para

as duas inferncias. Isto

motiva a denio de estimadores admissveis.

Denio 3.5. Um estimador

T com funo de risco RT () dito ser inadmissvel se existe outro estimador T 0 com funo de risco RT 0 () satisfazendo
RT 0 () RT (), .

Em caso contrrio o estimador T dito ser admissvel.


38

3.2 Estimao Pontual Frequenstista


Na estimao frequentista, a qualidade de um estimador est associada com sua
respectiva funo de risco. Dentre as possvesi funes de risco, o erro quadrtico
mdio a mais utilizada. No Exemplo 3.1, foi mostrado que

EQMT () = V ar(T ) + Vis()2 ,


p = E(T ) denominado vis, ou vcio, de um estiV ar(T ) recebe o nome de erro-padro do estimador T . O

onde a funo Vis()


mador e a funo

problema de encontrar um estimador admissvel para um problema pode ser


uma tarefa rdua. Em vez disto, a maioria dos resultados clssicos da inferncia
frequenstista so baseados na classe de estimadores no viciados.

Denio 3.6. Um estimador

T dito ser no viciado (ou no viesado) se


VisT () = 0, o que implica em E(T ) = . Um estimador est na classe de
estimadores no viciados se ele for no viciado.

Para qualquer estimador

na classe de estimadores no viciados, tem-se

que

EQMT () = V ar(T ),
Isto motiva a denio de um melhor estimador dentro desta classe.

Denio 3.7. Dizemos que T o melhor estimador no viciado de varincia


uniformemente mnima (ENVVUM) se

V ar(T ) V ar(T 0 ), .

para qualquer estimador T 0 no viciado.


Nesta seo so apresentados dois mtodos para encontrar estimadores: o
mtodo dos momentos e o mtodo da mxima verossimilhana.

Tambm so

apresentados alguns resultados que asseguram a existncia de um ENVVUM.


Como ltima nota, na inferncia frequenstista comum o uso da notao
onde

(X)

uma estatstica, para designar um estimador para

Esta notao

foi utilizada nestas notas de aula.

3.2.1

Mtodo dos Momentos

Primeiro ser considerado o problema de estimar o


varivel aleatria

dado por

E[X k ] = (k) .
39

k -simo

momento de uma

Denio 3.8. Seja

X1 , . . . , Xn uma amostra de vaiid. O k -simo momento

amostral dado por

T (k) =

n
X
Xk
i

i=1

Teorema 3.9. Seja X1 , . . . , Xn uma amostra de vaiid. Ento:


(a) T (k) um estimador no viciado para (k) (apenas se E[X k ] < );
(b) O erro quadrtico mdio de T (k)
EQMT ((k) ) = V ar[T (k) ] =

Proof.

V ar(X k )
;
n

Exerccio 3.2.

Portanto, os momentos amostrais so uma escolha interessante para estimar


os momentos de uma varivel aleatria.

Exemplo 3.2.

Seja X1 , . . . , Xn uma amostra de vaiid com X1 Poisson().


, uma escolha interessante
E[X] = , o primeiro momento amostral, X
estimar . Pelo Teorema 3.9 tem-se que

Como
para

= V ar[X1 ] = .
V ar[X]
EQMX()=

n
n
Observe que o erro quadrtico mdio do estimador decresce com o aumento do

tamanho da amostra.

Em geral, possvel obter expresses do tipo


se pensar em construir o estimador

= (T

(k)

).

= ((k )).

Portanto, pode-

Este o princpio bsico do

mtodo dos momentos.

Denio 3.10 (Mtodo dos Momentos). Seja X1 , . . . , Xn uma amostra de


variveis iid com X1 f (.|) e dim() = m. Suponha que o sistema abaixo
(1) = 1 ()

.. ..
.=.
(m) = m (),

possui uma soluo nica. O mtodo dos momentos consiste em substituir, no


sistema acima, cada momento da varivel aleatria pelo seu respectivo momento
amostral, criando o sistema
T (1) = 1 ()

.. ..
.=.
T (n) = m ().
40

Seja o vetor soluo deste novo sistema. As coordenadas de so denominadas estimadores de momentos para .
O mtodo dos momentos uma ferramenta relativamente simples para encontrar estimadores. Existem situaes nas quais outros estimadores no esto
disponveis, ou so necessrios estimativas iniciais para construir novos estimadores. Em ambos os casos o mtodo dos momento til.

Quando

dim() = 2 o estimadores via mtodo dos momentos podem ser obtiT (2) por S 2 no sistema. O motivo dado na seguinte proposio.

dos trocando

Proposio 3.11. Seja

V ar[X1 ] = 2 . Ento:

X1 , . . . , Xn uma amostra de vaiid com E[X1 ] = e

(a) Os sistemas


E[X]
E[X 2 ]


=

2 + 2


,

E[X]
V ar[X]


=

so equivalentes.
(b) S 2 no viciado para 2
Proof.

(a) Basta notar que existe a transformao 1:1

1 0
1



E[X]
E[X 2 ]


=


.

(b)

E(S ) =
=
=
=

!
!
n
n
1X
1X 2
n
n
2
2

E
E
(Xi X)
=
X X
n1
n i=1
n1
n i=1 i

n 
2)
E(X 2 ) E(X
n1

n 
+ E(X)
2
V ar(X) + E(X)2 V ar(X)
n1



n 
1
= n
V ar(X) V ar(X)
V ar(X) V ar(X)
n1
n1
n

= V ar(X) = 2 .

Exemplo 3.3.

Seja

X1 , . . . , Xn

uma amostra iid de

X1

com verossimilhana dada por

L() =

n
Y

f (xi |) =

i=1
41

n n o
1
exp
x
.
n

Exponencial(1/),

Como

 n n

1 n1
x

exp{n
x},

(n)
Gama(n, n/). Como dim() = 1, o sistema
pelo Corolrio 2.5 tem-se que X
L()

do mtodo dos momentos

=
X
e, portanto, tem-se que

= X

o estimador para

obtido via mtodo dos

momentos. Este estimador no viciado e sua varincia

= .
V ar()
n
Novamente, o erro quadrtico deste estimador diminui com o aumento do tamanho

da amostra.

No exemplo acima, pde-se construir um estimador no viesado atravs do


mtodo dos momentos.

Alm disso, o estimador

tambm funo da es-

tatstica suciente. O prximo exemplo mostra que os estimadores obtidos via


mtodo dos momentos no necessariamente so estatsticas sucientes.

Exemplo 3.4.

Seja

X1 , X2

uma amostra de vaiid com

Como

E[X] =
o estimador para

Xi

Uniforme(0, ).

,
2

.
obtido via mtodo dos momentos = 2X

Pode-se mostrar

que

f (
x|) =
onde

0 < x
.

2
{min{, 2
x max{0, 2
x }}} ,
2

Como no possvel obter a expresso acima atravs do

Corolrio 2.5, tem-se que o estimador de momentos no uma estatstica suciente para

Uma crtica mais severa ao mtodo do momentos que estes podem produzir estimativas que no esto no espao paramtrico, como mostra o exemplo
abaixo.

Exemplo 3.5.

Seja

X1 , . . . , Xn uma amostra de vaiid com X1 Binomial(, ),


= (, ) {1, 2, 3, . . .} (0, 1). Sabe-se que

onde o espao paramtrico

E(X1 ) = ,
V ar(X1 ) = (1 ).
Assim, os estimadores obtidos via mtodo dos momentos para

X
,
=
X S2
42

(, )

so

S2.
= X
ser um nmero natural. Alm disso, no existe
0 1 e que > 0. De fato, considere a seguinte amostra:
x = {0, 0, 1, 2, 3}. Neste caso, x
= 1, 2 e S 2 = 1, 7, o que produz = 2, 4 e
= 0, 5.

Pode-se notar que dicilmente
garantia de que

3.2.2

Seja

Mtodo da Mxima Verossimilhana

a probabilidade de sair cara em certa moeda e seja X

o nmero de caras em

X Binomial(5, ).
= {0, 1; 0, 2; . . . ; 0, 9}. Ao observar x,

5 lanamentos. O modelo apropriado para esta situao


Suponha que o espao paramtrico
tem-se a seguinte verissimilhana

 
5 x
L() = f (x|) =
(1 )5x .
x
Considere que

x = 3.

Os valores possveis para esta funo de verossimilhana

so dados abaixo:

L()

.1

.2

.3

.4

.5

.6

.7

.8

.9

0,0081

0,0512

0,1323

0,2304

0,3125

0,3456

0,3087

0,2048

0,0729

Os possveis valores da funo de verossimilhana podem ser interpretados da


seguinte forma: se

for o verdadeiro valor do parmetro

ento, em innitas

repeties do experimento, a probabilidade de observar a amostra

L(0 ).

Ao realizar um experimento, espera-se observar uma amostra tpica. Neste

maxi = 0, 6 como estimador para . Este

caso, interessante adotar a estratgia de procurar qual valor de


miza

L().

No caso acima, pode-se adotar

o princpio do mtodo da estimao via maximizao da funo de verossimilhana.

L() para todo denomDenio 3.12. O valor tal que L()

inado estimador de mxima verossimilhana (EMV) para .

Os estimadores de mxima verossimilhana possuem algumas vantagens em


relao aos estimadores obtidos via mtodo dos momentos.

Algumas destas

propriedades so dadas abaixo.

Proposio 3.13 (Propriedades do EMV). Seja o estimador de mxima

verossimilhana para . Ento:

43

1. .

2. Se uma estatstica suciente, ento ele tambm minimal.

Proof.

As demonstraes seguem abaixo:

1. Imediato da Denio 3.12.

2. Se

qualquer estatstica suciente. Ento, pelo Teorema 2.4,

L() = h(x)g(t, ) g(t, ).

L() depende de x somente atravs da estatstica


escrito como funo de qualquer
tambm for suciente, ento pela
Portanto, se

Logo, a maximizao de
suciente

T (x),

o que implica que

estatstica suciente.

Denio 2.10 ele tambm ser minimal.

Exemplo 3.6 (EMV para a Uniforme(0, )).


de vaiid com

X1 Uniforme(0, ).

L() =

n
Y
i=1

f (xi |) =

n
Y
1
i=1

Seja

X1 , . . . , Xn uma amostra

Sua funo de verossimilhana dada por

I(0 < xi ) =

1
I(0 < x(n) ),
n

O grco desta funo de verossimilhana dado abaixo


44


X(n)
L()

Ao notar que a verossimilhana montona decrescente a partir do ponto


valendo 0 em caso contrrio, conclui-se que

comum maximizar

log L()

= X(n)

no lugar de

EMV para

x(n) ,


Uma vez que o logaritmo

uma funo montona crescente, o mesmo valor em

maximizar as duas

funes. Esta transformao facilita tanto a obteno de estimadores em sua


forma analtica quanto na estabilidade de mtodos numricos. O logaritmo da
funo de verossimilhana ser denotado por

l().

Exemplo 3.7 (EMV para o modelo Poisson).


aleatria de

X Poisson().
L() =

n
Y
i=1

Seja

X1 , . . . , Xn uma amostra

Sua funo de verossimilhana dada por

f (xi |) =

n
Y
e xi
i=1
45

xi !

en
= Qn

Pn

i=1

i=1

xi !

xi

logo,

l() =

n
X

xi log() n

i=1

Pn
xi
d
l() = 0 i=1 n = 0 = x

P
n
d2
n
i=1 xi
l()|
=

= < 0,

=
2

d2
x

portanto,

= X

o EMV para

e sua varincia dada por

= V ar(X)
= V ar(X1 ) = .
V ar()
n
n

Exemplo 3.8 (EMV para o modelo normal).


Ento

l()

Sejam

X1 , . . . , sXn Normal(, 2 ).

n
n1 2
n
log( 2 ) 2 (
x )2
S .
2
2
2 2

Para encontrar os pontos crticos e mostrar que estes so pontos de mximos


deve-ses:

1. Encontrar as derivadas parciais e encontrar os pontos crticos

2. Mostrar que pelo menos uma das derivadas parciais de segunda ordem,
aplicadas em

negativa.

3. O determinante da matriz Hessiana deve ser positivo.

Pontos crticos:

l() = 0 2 (
x ) = 0
=X

n
1
l() = 0 2 +
((n 1)S 2 + n(
x
)) = 0
2

2
(2 2 )2
n1 2
S

2 =
n
Derivadas de segunda ordem:

2
X
l()|= = 2 < 0
2

2
n
(n 1)S 2
n
n
l()|= =

=
2 3
2
2
2
2
2
3
2
2
( )
2(
)
(
)
2(
)
(
)
n
=
<0
(2
2 )2
2
| =0
2 =
46

Determinante da matriz Hessiana:


n2

0
Portanto,

(n 1)S 2 /n)
(X,

0
2(n2 )2

n2
2(2 )3

(, 2 ).

o EMV para

= (). A
para obter o EMV

Existem situaes nas quais deseja-se estimar alguma funo


prxima proposio mostra que basta conhecer o EMV para
de

Teorema 3.14 (Invarincia dos EMVs). Seja o EMV para e seja

EMV para .
(), onde uma funo real. Ento = ()

Proof.

Por didtica, ser demonstrado primeiro o caso no qual

uma funo

1:1. Neste caso, tem-se

L() = L( 1 ())
e pode-se denir a verossimilhana em funo de

como

L? () = L( 1 ()) = L().
Se

o EMV para

,
= ()

e fazendo

(3.3)

tem-se que

= L( 1 ())
= L? (),

L? () = L() L()
para todo

No caso de

Portanto,

EMV para

no ser uma funo 1:1, no possvel denir a verossimilhanca

em (3.3). Para contornar este problema, considere o conjunto

= ()}.

Naturalmente, a coleo de conjuntos

uma partio de

= { :
forma

para todo

Dena a funo de verossimilhana de

como

L? () = sup L().

(3.4)

A funo acima denominada funo de verossimilhana induzida e garante que

L? ()

o maior valor possvel

xado. Note agora que

!
?

sup L () = sup

sup L()

= sup L() = L(),

o EMV para . Mas, pertence a um nico conjunto, denotado aqui

por
= { : = ()}. Portanto, como todos os valores de
levam
, o estimador de mxima verossimilhanca para = ()
.
ao mesmo valor
onde

47

A invarincia dos estimadores de mxima verossimilhana uma ferramenta


importante para construir novos estimadores. Abaixo seguem dois exemplos que
utilizam esta propriedade.

Exemplo 3.9 (Chances).

Seja

X1 , . . . , Xn

uma amostra de vaiid com

X1

Bernoulli(). A funo de verossimilhana dada por

L() =

n
Y

f (xi |) =

i=1

n
Y

xi (1 )1xi =

Pn

i=1

xi

(1 )n

Pn

i=1

xi

(3.5)

i=1

A funo de log-verossimilhana dada por

l() =

n
X

xi log() + (n

n
X

i=1

xi ) log(1 ).

i=1

Como a funo acima duas vezes diferencivel, pode-se chegar concluso de


que

= X

o EMV para

A funo

=
denominada

chance

dos para o parmetro

(3.6)

e existem alguns procedimentos estatsticos que so volta-

Observe que

= /(1 + ),

logo, a verossimilhana em

(3.5) poderia ser escrita como


L() =

1+

Pni=1 xi 

1
1+

nPni=1 xi
,

e, atravs das aplicaes de clculo, pode-se encontrar o EMV para


tivamente, como o EMV para

Alterna-

j conhecido, pode-se utilizar diretamente o

Teorema 3.14 para mostrar que

=
o EMV para

X
,
1X

Exemplo 3.10 (Probabilidades na binomial).

Seja X1 , . . . , Xn uma amostra


X1 Binomial(2, ). A funo de verossimilhana dada por
" n  #
n
Y
Y 2
Pn
Pn
L() =
f (xi |) =
i=1 xi (1 )2n i=1 xi ,
xi
i=1
i=1

de vaiid com

e a funo de log-verossimilhana dada por

n
X

  X
n
2
l() =
log
+
xi log() +
xi
i=1
i=1
48

2n

n
X
i=1

!
xi

log(1 ).

A funo acima duas vezes diferencivel e o EMV dado por

.
= X/2

Considere o problema de estimar

= f (1|) = 2(1 ),
com

(0, 1/4].

como a funo acima no 1:1, no possvel escrever a

. De fato, para cada ,

0, 5 0, 5 1 2. Para ns de maximizao, pode-se


verossimilhana de

pode assumir os valores


denir a verossimilhana

induzida

 
 

1 1p
1 1p
L? () = max L
1 2 , L
1 2

+
2 2
2 2
e a maximizao desta verossimilhana conduzir ao EMV de

Contudo,

pode-se utilizar diretamente o Teorema 3.14 para mostrar que



X
X

=2
1
2
2
o EMV para

Embora os estimadores de mxima verossimilhana sejam preferveis aos estimadores obtidos via mtodo dos momentos, existem situaes nas quais estes
primeiros no produzem resultados satisfatrios. Os exemplos abaixo ilustram
os problemas que podem ocorrer com os estimadores de mxima verossimilhana.

Exemplo 3.11 (Inexistncia do EMV - I).


aleatria com

X1 Uniforme(0, ),

L() =

X1 , . . . , Xn

1
I(x(n) ),
n
(0, ]. Foi mostrado

X o intervalo
X(n) . Por outro lado,

onde o suporte de
EMV para

Seja

uma amostra

com funo de verossimilhana dada por

no Exemplo 3.6 que o

a verossimilhana poderia ter sido denida

como

1
I(x(n) < ),
n
onde o suporte de X o intervalo (0, ). Observe que a diferena entre as duas
uniformes est na possibilidade de x(n) = , logo, as duas so equivalentes exceto
L() =

este conjunto, que tem medida nula. Entretanto, a segunda uniforme denida

no possui um ponto de mximo.

Exemplo 3.12 (Innitos EMV).

Sejam

X1 , . . . , Xn variveis aleatrias inX1 Uniforme( 1, + 1). A

dependentes e identicamente distribudas com


funo de verossimilhana dada por

L() = 2n

n
Y

I( 1 < xi < + 1) = 2n I(x(n) 1 < < x(1) + 1).

i=1
Neste caso, a verossimilhana atingir o seu mximo para qualquer

(X(n) 1, X(1) + 1).


49

no intervalo


Exemplo 3.13.
com

n = 1, 2, . . ..

Seja

X1 , . . . , Xn uma amostra aleatria com X1 Binomial(, 1/2),




Neste caso,

Exemplo 3.14 (Complexidade aumentando com n).


com

X1 Cauchy(, 1),

Sejam

X1 , . . . , Xn vaiid

cuja densidade dada por


1
f (x|) = (1 + (x )2 )
Ento, a funo de log-verossimilhana

l() = n log

n
X


log 1 + (xi )2 ) ,

i=1
e

X 2(xi )
d
l() = 0
=0
d
1 + (xi )2
i=1
Pn
Q
2 i=1 (xi ) i6=j [1 + (xj )2 ]
Qn

=0
2
i=1 [1 + (xi ) ]
n
X
Y

(xi ) [1 + (xj )2 ] = 0.
i=1

i6=j

Como o polinmio da ltima equao de ordem

2n 1

2n 1,

temos que existem

razes. Assim, o nmero de pontos crticos crescem com o tamanho da

amostra, tornando a obteno do EMV trabalhosa. Entretanto, este estimador

ainda possui propriedades interessantes (ver Bai and Fu (1987)).

3.2.3

Seja

Melhores Estimadores No-Viesados

C = {T : E(T ) = ()}

a classe de estimadores no-viesados para

().

Foi discutido anteriormente, na Seo 3.1 que a minimizao do erro quadrtico


mdio nesta classe implica em encontrar o estimador no viesado para

() com

menor varincia. Estes estimadores so o alvo de discusso desta seo.

Denio 3.15 (ENVVUM). O estimador T 0 , no viesado para () dito

ser o melhor estimador no viesado com varincia uniformemente mnima (ENVVUM)


para () se V ar(T 0 ) V ar(T ) qualquer outro estimador T no viesado e para
todo .
Mesmo na classe reduzida dos estimadores no viesados, a obteo de um
ENVVUM pode ser uma tarefa rdua. Suponha que possvel encontrar uma
cota inferior para a varincia dos estimadores em

C.

Ento, se existe um es-

timador no viesado cuja a varincia atinge a cota inferior, este estimador


um ENVVUM para

().

O teorema a seguir apresenta a cota inferior para a

varincia para um subconjunto de estimadores em


50

C.

Teorema 3.16 (Limite Inferior de Cramr-Rao). Seja X1 , . . . , Xn uma amostra


de variveis aleatrias com densidade conjunta dada por f (x|), com = (, )
e seja T (X) qualquer estimador satisfazendo
Z

d
E(T (X)) =
d

[T (x)f (x|)] dx

(3.7)

e
V ar[T (X)] < .

Ento,

(3.8)

2
d
d E[T ]

V ar(T (X))
E

2  .
log f (X|)

(3.9)

Estes resultados tambm so vlidos para variveis aleatrias discretas.


Proof.

Para duas variveis aleatrias

quaisquer com segundo momento

nito, sabe-se que

Cov(X, Y )
1 p
1,
V ar(X)V ar(Y )
o que implica em

Cov(X, Y )2
.
V ar(Y )

V ar(X)

Considerando a Equao (3.7) verdadeira para qualquer

(3.10)

T,

tem-se que

d
d

E(T ) =
T (x)f (x|)dx =
T (x)f (x|)dx
d
d



Z

f (x|)
= T (x)
f (x|)
dx, e como (log g(x))0 = g(x)0 /g(x)

f (x|)


Z

= T (x)
log f (x|) f (x|)dx




= E T (X) log f (X|) .

Em especial, ao fazer

T = 1,
0=

tem-se

d
E(1) = E
d

log f (X|) .

Com o resultado acima, mostra-se que


V ar

log f (X|)

2 !  
2

log f (X|)
E
log f (X|)


2 !

log f (X|)

=E

=E

51

Considerando a Equao (3.10) com

X =T

Y = log(f (X|))/,

tem-se

que

2
2

Cov T,
Cov T,
log f (X|)
log f (X|)

 =
V ar(T )
2 

V ar
log f (X|)
log f (X|)
E


 2
 

log f (X|) E (T (X)) E


f (X|)
E T (X)


=
2

E
log f (X|)
2
d
E(T )
d
= h
2 i

E
log f (X|)

Corolrio 3.17. Seja

X1 , . . . , Xn uma amostra de vaiid com densidade (ou


funo de probabilidade) conjunta dada por f (x|). Se as condies do Teorema
3.16 estiverem satisfeitas, ento

V ar(T )
nE

Proof.

2
d
d E(T )

2 i
log f (X1 |)

Exerccio.

Corolrio 3.18. Seja

X1 , . . . , Xn uma amostra de vaiid com densidade (ou


funo de probabilidade) conjunta dada por f (x|). Se as condies do Teorema
3.16 estiverem satisfeitas, e se T for no viesado para , ento
1
V ar(T )
n

Proof.

( "
2 #)1

E
log f (X1 |)

Exerccio.

Para a aplicao do Teorema 3.16 necessria a troca da ordem dos operadores derivada e integral(ou somatrio).

Esta troca sempre possvel na

famlia de distribuies exponenciais (ver Exerccio

Exemplo 3.15 (ENVVUM para Poisson).


de vaiid com

X1 Poisson().

??).

Seja

X1 , . . . , Xn

Ento

  x1 
d
e
d
log f (x1 |) =
log
d
d
x1 !
d
=
[ + x1 log log(x1 !)]
d
x1
= 1 +

52

uma amostra

"
E

"
2 #
2 #


X1
d
X1
X2
log f (X1 |)
=E
1 +
= E 1 + 21 2
d

=1+
=

E(X1 )
E(X12 )
2
2

1
,

Como a Poisson pertence famlia de distribuies exponenciais, as condies


do Corolrio 3.18 esto satisfeitas e uma cota inferior para a varincia dos
estimadores no viesados para

V ar(T )

.
n

Contudo, no Exemplo 3.7 foi mostrado que

= .
V ar(X)
n
Como a varincia de

ENVVUM para

X
.

atinge o limite inferior de Cramr-Rao, conclui-se que

O prximo resultado til para os clculos envolvidos na aplicao do Teorema 3.16.

Lema 3.19. Se f (x|) satisfaz




d
E
d

 Z




log f (X|) =
f (x|) f (x|) dx,

ento,

E

2 !
 2


f (X|)
= E
log
f
(X|)
.

Dentre as distribuies que satisfazem as condies deste lema esto aquelas na


famlia de distribuies exponenciais.

Exemplo 3.16.

Seja

X1 , . . . , Xn uma amostra de vaiid com X1 Normal(, ).


=

Para manter a consonncia com a notao do Teorema 3.16, considere

(, ).

Como a normal pertence famlia de distribuies exponenciais, ento

as condies do Corolrio 3.18 esto satisfeitas. Notando que





1
1
log f (x1 |) =
log
exp (x1 )2

2
2



1
1
1
=
log 2 log (x1 )2

2
2
2
1
1
= + 2 (x1 )2
2 2
53

e que

2
1
1
log f (x1 |) = 2 3 (x1 )2
2

logo, pelo Lema 3.19, tem-se que


E

log f (X1 |)

2 !


2
log
f
(X
|)
1
2

1
1
3 (x1 )2
2
2

= E
= E
=

1
.
22

Portanto, uma cota inferior para os estimadores no viesados para

V ar(T )

dada por

2
.
n

Entretanto, at o presente momento, no foi encontrado um estimador para


que tenha varincia igual ao limite inferior de Cramr-Rao.

O Exemplo 3.16 mostra, mesmo obtendo o limite inferior de Cramr-Rao,


ainda existe o problema de procurar o estimador no viesado que possui varincia com valor correspondente. Contudo, existem situaes nas quais no existe
estimador no viesado cuja varincia igual ao limite inferior de Cramr-Rao.
O seguinte corolrio apresenta um mtodo para encontrar estimadores que satisfazem o limite inferior de Cramr-Rao.

Corolrio 3.20. Seja X1 , . . . , Xn uma amostra de viid de f (x|), onde f satisfaz as condies do Teorema 3.16. Se T um estimador no viesado para (),
ento T atinge o limite inferior de Cramr-Rao se e somente se
a()[T ()] =

l()

para alguma funo a().


Proof.

Exerccio.

Exemplo 3.17 (ENVVUM para Bernoulli).


de vaiid com

X1

Bernoulli().

Seja

X1 , . . . , Xn uma amostra

Como a distribuio Bernoulli pertence


54

famlia exponencial, as condies do Teorema 3.16 esto satisfeitas. Como

n
Y
d
d
xi (1 )1xi
l() =
log
d
d
i=1

!
=

 Pn

Pn
d
log i=1 xi (1 )n i=1 xi
d
!

n
n
X
d X
xi log() + (n
xi ) log(1 )
d i=1
i=1
Pn
Pn
n i=1 xi
xi
= i=1

1
" n
!#
n
X
X
1
=
xi (1 ) n
xi
(1 ) i=1
i=1
n
(
x )
=
(1 )

logo, pelo Corolrio 3.20,

o estimador no viesado para

que atinge o limite


.


inferior de Cramr-Rao, sendo, portanto, o ENVVUM para

Exemplo 3.18 (Concluso do Exemplo 3.16).

Seja X1 , . . . , Xn uma amostra


X1 Normal(, ), com = (, ). Ento,
)!
(

 n2
n
1

1 X
2
l() =
log
(xi )
exp

2
2 i=1
!
n
d
n
n
1 X
=
log(2) log
(xi )2
d
2
2
2 i=1

de vaiid com

n
n
1 X
+ 2
(xi )2
2 2 i=1

Atravs da equao acima, possvel mostrar que

l() = 2

!
n
1X
2
(xi ) ,
n i=1

logo, pelo Corolrio 3.20,

1X
(Xi )2
T =
n i=1
no viesado para
Contudo, como

e sua varincia atinge o limite inferior de Cramr-Rao.

desconhecido,

existe estimador no viesado para

T no uma estatstica
cuja varincia atinge o

e, portanto, no
limite inferior de

Cramr-Rao.

A partir do Corolrio 3.20 pode-se notar que a coleo de estimadores no


viesados que atingem o limite inferior de Cramr-Rao muito restrita. O prximo teorema mostra que, se existe um estimador no viesado para
55

(),

ento

possvel melhor-lo, isto , obter outro estimador no viesado com uma varincia menor.

Teorema 3.21 (Rao-Blackwell). Seja W qualquer estimador no viesado para


() e seja T uma estatstica suciente para . Dena (T ) = E(W |T ). Ento
E(T ) = () e V ar((T )) V ar(W ) para todo .

Proof.

Primeiro, como

suciente, tem-se que

(T ) = E(W |T )

funo

apenas da amostra, sendo portanto uma estitistica. Alm disso,

E[(T )] = E[E(W |T )] = E[W ],


logo,

(T )

um estimador no viesado para

().

Por ltimo,

V ar(W ) = V ar[E(W |T )] + E[V ar(W |T )]


= V ar(T ) + E[V ar(W |T )] V ar(T ).
concluindo a demonstrao.

Exemplo 3.19 (Melhorando um estimador).


de vaiid com

L() =

X1 Binomial(2, ).

n  
Y
2
i=1

tem-se que

xi

Pn

i=1

"
xi (1 )2xi =

n  
Y
2

i=1

Xi

Seja

X1 , . . . , Xn uma amostra

Como

xi

#
(1 )2n

uma estatstica suciente para

= () = f (1|) = 2(1 ).
W

a ferquncia relativa do resultado 1 na amostra, ou seja

W =

n
X
I(Xi = 1)
.
n
i=1

Note que

n
X
E[I(Xi = 1)]
E[W ] =
= E[I(X1 = 1)] = f (1|) = ,
n
i=1
56

Considere o problema

de encontrar um estimador no viesado para

Seja

Pni=1

logo,

no viesado para

Como

"

#
n
X
I(Xi = 1)
E[W |T = t] = E
|T = t = E [I(X1 = 1)|T = t] = f (1|t, )
n
i=1
Pn
P (X1 = 1, i=1 Xi = t|)
P (X1 = 1, T = t|)
=
=
P (T = t|)
P (T = t|)
Pn
P (X1 = 1|)P ( i=2 Xi = t 1|)
=
P (T = t|)

2(n1) t1
2(1 ) t1 (1 )2(n1)t+1

=
2n t
2nt
t (1 )
 

2n
t
t
=
2
1
,
2n 1
2n
2n
logo, aplicando o Teorema 3.21, tem-se que

2n
2
(T ) =
2n 1

 

X
X
1
2
2
W

(compare o estimador

este exemplo com o estimador obtido no Exemplo 3.10).

um estimador no viesado com varincia menor que

At este momento foram discutidas tcnicas para:

1. Identicar se existe um ENVVUM atravs do Teorema do limite inferior


de Cramr-Rao
2. Melhorar um estimador no viesado atravs do Teorema de Rao-Blackwell.

Os prximos resultados mostraro que:

1. Se existe um ENVVUM ele nico.


2. Estimadores no viesados baseados unicamente em estststicas sucientes
completas so ENVVUM.

Teorema 3.22 (Unicidade do ENVVUM). Se

no-viesado para (), ento ele nico.


Proof.

Suponha que

V ar(W )

T um melhor estimador

so dois ENVVUMs para para

e o estimador

H=

1
(T + W )
2
57

().

Ento,

V ar(T ) =

().

tambm um estimador no viesado para


quaisquer

Utilizando o fato de que, para

com varincias nitas,

Cov(X, Y )

p
V ar(X)V ar(X)

mostra-se que

1
V ar(T + W )
4
1
1
= V ar(T ) + V ar(W ) +
4
4
1
1
V ar(T ) + V ar(W ) +
4
4
= V ar(T )

V ar(H) =

Mas, como

um ENVVUM, necessrio que

para que ocorra a igualdade necessrio que


existem

a()

b()

1
Cov(T, W )
2
1p
V ar(T )V ar(W )
2
V ar(H) = V ar(T ).

Entretanto,

seja funo linear de

W.

Logo,

tais que

T = a()W + b().
Neste caso,

Cov(T, W ) = Cov(a()W + b(), T )


= a()Cov(W, T )
= a()V ar(T ).
Contudo, como
que implica em

T e W possuem a mesma varincia, Cov(T, W ) = V ar(T ),


a() = 1. Alm disso, W no viesado, logo

E(W ) = E(T ) + b() = E(T )


faz com que

b() = 0.

Portanto,

W =T

o nico ENVVUM.

O prximo Teorema d as condies necessrias e sucientes para que um

()

estimador para

seja o ENVVUM.

Teorema 3.23. Seja T um estimador no viesado para (). Ento T ser o

melhor estimador no-viesado se e somente se ele for no correlacionado com


todos os estimadores no viesados para 0.
Proof. ()Se T

o ENVVUM para

(), ento para qualquer estimador W

viesado para zero o estimador

H = T + aW
no viesado para

().

Disto, tem-se que

V ar(H) = V ar(T ) + a2 V ar(W ) + 2aCov(T, W ),


58

no

A funo acima duas vezes diferencivel em


minimizada em

a=
e o menor valor da varincia de

e pode-se mostrar que

V ar(H)

Cov(T, W )
,
V ar(W )

dado por

Cov(T, W )
V ar(H) = V ar(T ) +
V ar(W )
Cov(T, W )2
= V ar(T )
V ar(W )

2

Cov(T, W )
V ar(W ) + 2
V ar(W )


Cov(T, W )

o que implica em

V ar(H) V ar(T ).
Mas, como
de

T,

H no pode ser menor que a varincia


V ar(H) = V ar(T ), o que implica em Cov(T, W ) = 0.

ENVVUM, a varincia de

logo, tem-se que

() Suponha que T um estimador no viesado para (). Suponha ainda


T no correlacionado com todos os estimadores no viesados para 0. Seja
H outro estimador no viesado para (). Ento, fazendo H = T + (H T ),
tem-se que E(H T ) = 0 e
que

V ar(H) = V ar(T ) + V ar(H T ) + Cov(T, H T ) = V ar(T ) + V ar(H T ).


Como

V ar(H T ) 0, sempre verdade que V ar(H) V ar(T ) para qualquer


(). Portanto, T o ENVVUM para ().

no viesado para

O Teorema 3.23 mostra que um estimador o ENVVUM se e somente se


ele for no correlacionado com qualquer estimador no viesado para zero. Na
prtica, impossvel vericar se um estimador no viesado qualquer atende este
pr-requesito. Reconsidere ento que uma estatstica T completa se E[g(T )] =
0 implica em g(T ) = 0 em quase toda parte. Em outras palavras, o estimador
g(T (X)) = 0 o nico no viesado para 0 baseado em T . Isto motiva o seguinte
teorema.

Teorema 3.24 (Lehmann-Sche). Seja

T uma estatstica suciente completa para e seja (T ) qualquer estimador no viciado para (). Ento (T )
o ENVVUM para ().

Proof.

Seja

()

(). Como T suciente,


(T ) = E[W |T ] no viciado para

qualquer estimador no viciado para

pelo Teorema de Rao-Blackwell, o estimador


e

V ar((T )) V ar(W ).
Mas, como

completa,

E[(T ) (T )] = 0 (T ) = (T ).
Portanto,

(T )

ENVVUM para

().
59

Corolrio 3.25. Seja h(X) qualquer estimador no viesado para (). Se T

uma estatstica suciente completa, ento (T ) = E[h(X)|T ] ENVVUM para


().
O Corolrio 3.25 utiliza o Teorema de Rao-Blackwell (Teorema 3.21) e o
Teorema de Lehmann-Sche para mostrar que estimadores no viciados baseados em estatstica suciente completas so os melhores estimadores no viesados
com varincia uniformemente mnima.

Exemplo 3.20 (ENVVUM para o zero da Poisson).


amostra de vaiid com

X1

Seja

X1 , . . . , Xn uma

Poisson() e considere o problema de encontrar o

ENVVUM para

() = f (0|).
Para tanto, considere o estimador

W (X) =
que no viesado para

().

1X
I(Xi = 0),
n i=1

Como a distribuio Poisson pertence famlia

de distribuies exponenciais, tem-que

T (X) =

Pn

i=1

Xi

uma estatstica su-

ciente completa. Ento,

E[W |T = t] = E[I(X1 = 0)|T = t] = P (X1 = 0|

n
X

Xi = t)

i=1

Pn
Pn
P (X1 = 0, i=1 Xi = t)
P (X1 = 0, i=2 Xi = t)
Pn
Pn
=
=
P ( i=1 Xi = t)
P ( i=1 Xi = t)
Pn
P (X1 = 0)P ( i=2 Xi = t)
Pn
=
P ( i=1 Xi = t)
 n
e
[n]t
e(n1) [(n 1)]t

=e
t!
t!

t
n1
=
,
n
f (0|)

T
n1
(T ) = E[W |T ] =
.
n

portanto, pelo Corolrio 3.25, o ENVVUM para

Consideraes sobre o ENVVUM


Neste ponto, importante rediscutir alguns aspectos sobre a estimao pontual.
Primeiro, o objetivo da estimao pontual entregar um valor prximo de
60

na

maioria das vezes. Esta noo de proximidade pode ser realizada pela escolha
de uma funo de perda.
em mente que valores de

Ao escolher a perda quadrtica, o usurio deve ter

distantes de

so penalizados de forma quadrtica.

Logicamente, esta escolha possui apelo da decomposio

EQMT () = V ar(T ) + Vis()2 .


Tanto o vis do estimador quanto sua varincia so caractersticas fceis de
interpretar como ao se escolher um estimador, espera-se que ele esteja prximo
do parmetro e que sua variabilidade seja baixa. Menos fcil de interpretar o
balano entre vis e varincia. Como o objetivo minimizar o erro quadrtico
mdio, talvez seja mais interessante escolher um estimador viesado com uma
varincia menor. A escolha de busca pelo melhor estimador dentro da classe de
estimadores no viesados pode levar a estimadores que no minimizam o erro
quadrtico mdio. Como ilustrao, considere o exemplo abaixo.

Exemplo 3.21 (Estimadores para Varincia).


de vaiid com

X1

Normal(,

).

distribuies exponenciais e as estatsticas


pletas.

Seja

X1 , . . . , Xn uma amostra

A distribuio normal est na famlia de

Pn

Na Proposio 3.11 foi mostrar que

i=1
2

Xi2

so sucientes e com-

no viesado para

2 .

Note

que

X
1 X
2= 1
2 2Xi X)

(Xi X)
(X 2 + X
n 1 i=1
n 1 i=1 i
!
!
n
n
2
X
X
1
n
X
i
2
2
2

=
X nX
=
X
,
n 1 i=1 i
n 1 i=1 n

S2 =

logo, como

S2

baseado em uma estattica suciente e completa, tem-se que

ENVVUM para

e seu erro quadrtico mdio

EQMS 2 ( 2 ) = V ar(S 2 ).
No Exemplo 2.7 foi deixado como exerccio mostrar que

n1 2
S 2n1 .
2
A varincia da distribuio

2n1

2(n 1),

logo


2 n 1 2
V ar(S ) = V ar
S
n 1 2


4
n1 2
V
ar
S
=
(n 1)2
2
4
=
.
2(n 1)
2

61

S2

2 ,

Considere agora o EMV para

obtido no Exemplo 3.8, e reproduzido abaixo:

2 =
O valor esperado de

1X
2 = n 1 S2.
(Xi X)
n i=1
n

E[
2 ] =

n1 2
n1
E(S 2 ) =
,
n
n

sendo, portanto, um estimador viesado para

V ar(
2 ) =

n1
n

2

2 .

Alm disso,

V ar(S 2 ) =

n1 4
.
2n2

Com os resultados acima, tem-se que

EQM 2 ( 2 ) = V ar(
2 ) + (E(
2 ) 2 )2

2
n1 4
n1 2
2
=

2n2
n


4

n1
= 2
+1
n
2
4 (n + 1)
=
,
2n2
logo,

EQMS 2 ( 2 )
4
2n2
=

EQM 2 ( 2 )
2(n 1) 4 (n + 1)
n2
= 2
> 1.
n 1
Por tanto, se o critrio para escolha do melhor estimador for o erro quadrtico
mdio,

a melhor escolha, mesmo sendo o estimador

S2

o ENVVUM para

3.3 Estimao Pontual Bayesiana


Na inferncia bayesiana uma estimativa pontual para
rizar a informao subjetiva sobre
pela distribuio

a posteriori.

tem o objetivo de suma-

aps a observao dos dados, representada

Antes de discutir alguns mtodos de estimao,

importante discutir como o processo de atualizao da informao atravs do


Teorema de Bayes preserva algumas boas caractersticas estudadas no Captulo
2.
62

Teorema 3.26. Seja X1 , . . . , Xn uma amostra de variveis aleatrias com dis-

tribuio conjunta representa por f (x|) e seja f () a distribuio a priori


para . Ento, para qualquer estatstica suciente minimal T , a distribuio a
posteriori de escrita como funo da amostra atravs de T .
Proof.

Seja

T0

uma estatstica suciente qualquer. Pelo Teorema do Critrio da

Fatorao (Teorema 2.4) tem-se que

f (x)| = h(x)g(T (x), ).


Ento,

f (|x) h(x)g(T (x), )f () g(t|)f (),


logo, a distribuio

a posteriori

funo da amostra atravs de

Portanto, inferncias baseadas na distribuio

T 0.

a posteriori sempre so baseadas

em estatsticas sucientes.

Uma vez que

aleatrio, utilizamos estimadores bayesianos para represen-

tar um valor tpico de

Exemplos de estimadores so:

max f (|x)
E|x (|x)

Mediana(|x).

Note que todos os estimadores acima realmente so estatsticas (no dependem


de termos desconhecidos). O primeiro recebe o nome de mximo posteriori
(MAP). Na seo

?? vimos que estimadores baseados em estatsticas sucientes

possuem boas propriedades. Uma das vantagens de utilizarmos a distribuio


a posteriori para realizar inferncias e que ela sempre baseada em estatisticas
sucientes.

Proposio 3.27. Seja

T (X) uma estatistica suciente para . Ento |x e


|T (x) tem a mesma distribuio.

Proof.

Exerccio.

Vimos anteriormente que um estimador podia ser avaliado por uma funo
de perda. No caso frequentista o EQM foi utilizado e a avaliao de seu valor
sob

era recomendada.

A denio abaixo mostra um anlogo bayeisano ao

EQM
63

Denio 3.28 (EQMP). Seja T (X) um estimador para h(). Erro quadrtico
mdio da posteriori deste estimador
E|x [(T (x) h())2 ].

Exemplo 3.22.

Notemos que o EQMP pode ser reescrito como

E|x [(T (x) h())2 ] = (T (x) E|x (h()))2 + E|x [h() E|x (h())]2 .
Consideremos

X1 , . . . , Xn | Normal(, 1)

Normal(, 1)

e seja

h() = .

Ento,

EQM P (T, ) = (T E|x ())2 + E|x [ E|x ()]2 .


Claramente, o estimador

que minimiza o EQMP dado por

T = E|x ().

Notando que

n
1
)2 ( )2
f (|x) exp ( x
2
2
teremos que


n+1
n
x+
exp
(
) ,
2
n+1

1
) e o estimador que minimiza
|x Normal(n
x/(n+1)+/n+1, n+1

o EQMP ser

T (X) = n

+
.
n+1 n+1

Por ltimo, suponha que queremos realizar alguma inferncia em relao

= h(). Ento, devemos utilizar nosso conhecimento


calcular f (|x) baseado da distribuio de |x.

de probabilidade para

Exemplo 3.23.
ncias sobre

Seja X| Bernoulli() e suponha que queremos fazer infer = /(1 ). Copnsiderando a conjugada Beta(1, 1), teremos

f (|x)
logo

|x Beta(

Pn

i=1

Pn

xi + 1, n

i=1

Pn

xi

i=1

(1 )n
xi + 1)

Pn

i=1

xi

"
f (|x) =

Pn

i=1

xi

n
n
X
X
B(
xi + 1, n
+1)(1 + )n+2
i=1

3.3.1

#1
.

i=1

Estimador de Bayes

Na seo XXX havamos denido uma funo de perda como sendo uma funo

T estava de . Em especial, deni(T )2 e seu respectivo valor esperado

que media o quo distante um estimador


mos a perda quadrtica como sendo

foi denominado Erro Quadrtico Mdio - e sob esta medida, realizamos nossa
discusso sobre estimadores pontuais na inferncia clssica.
64

Poderamos ter desenvolvido a inferncia pontual a partir de outra funo


de perda, obtendo assim resultados diferentes. Assim, seja

T,

de perda associada ao estimador

P(T, )
.

uma funo

com o objetivo de estimar

Denio 3.29. Denimos como risco de T o valor esperado


R(T, ) = EX| [P(T, )].

Assim, por exemplo, o EQM o risco do estimador

(3.11)

associado a perda

quadrtica. Se voltarmos Seo XXX, lembraremos que o EQM podia variar


para cada valor de

Aqui, podemos marginalizar o efeito de

gerando a

seguinte denio.

Denio 3.30. Considere a funo de perda


Bayes de T como sendo a funo

P(T, ). Denimos o risco de

BR(T ) = E [R(T, )].

O estimador com o menor risco prefervel.

(3.12)

Isto nos motiva seguinte

denio.

Denio 3.31. O estimador T que minimiza BR(T ) denominado estimador

de Bayes.

Dentre todos os estimadores, o estimador de Bayes aquele com o menor


risco, sendo assim um candidato natural a sumarizar a varivel

Proposio 3.32. Suponha que a funo de perda P(T, ) contnua em T e


que podemos trocar a ordem das esperanas. Ento, igual a
argmaxT E|x [P(T, )]
o estimador de Bayes.
Proof.

Notemos que

BR(T ) = E EX| [P(T, )] = EX, P(T, )


Z Z
Z Z
P(T, )f (x|)f ()dxd =
P(T, )f (|x)df (x)dx
= EX E|X [P(T, )].
Mas, para todo

T,

a relao abaixo verdadeira

E|X P(T, ) E|X P(T 0 , ) EX E|X P(T, ) EX E|X P(T 0 , ),


logo, o valor de

que maximiza

E|x P(T, )
65

tamb maximiza

BR(T ).

3.4 Exerccios
Seo 3.1
3.1. Seja X1 Geometrica().
no viesado para

Mostre que

T (X) = I(X = 0)

um estimador

Encontre o vis e a varincia deste estimador e discuta

sobre sua qualidade em termo de erro quadrtico mdio.

Seo 3.2.1
3.2. Demonstre o Teorema 3.9.
3.3.

Quando a distribuio tem dois parmetros, comum encontrar o esti-

mador de momentos resolvendo o sistema

= E(X)
X
S 2 = V ar(X)

Pn

2
i=1 (Xi X) /(n 1). Encontre o estimador via mtodo dos
momentos (utilizando o sistema acima quando for possvel) para as seguintes

onde

S2 =

distribuies:

(a) Poisson:

P (X = x|) = e x /x!, x = 0, 1, 2, . . . ,

(b) Uniforme:f (x|, )


(c) Pareto:
(d) Beta:

>0

= ( )1 , < x < , > .

f (x|, ) = /x+1 , x > , , > 0

f (x|, ) = x1 (1 x)1 /B(, ), 0 < x < 1, , > 0.

(e) Gama:

f (x|, ) = x1 ex /(), x, , > 0.

f (x|, ) = .5 (.5( + 1))( + (x )2 ).5(+1) /(.5), x R,


R e > 2.

x
x
Binomial: P (X = x|, ) =
, x = 0, . . . , e 0 < < 1.
x (1 )

1
2
Lognormal: f (x|, ) = ( 2 2 x)
exp{.5(log(x) )2 / 2 }, x, 2 > 0
e R.

(f ) t-Student:

(g)
(h)

Seo 3.2.2
3.4. Seja X1 , . . . , Xn uma amostra de vaiid com densidade
f (x|) =
onde

x < .
66

,
x2

1. Encontre uma estatstica suciente de dimenso um para

2. Encontre um estimador para

utilizando o mtodo dos momentos.

3. Encontre um estimador para

utilizando o mtodo da mxima verossim-

ilhana

3.5.

Seja

X1 , . . . , Xn

uma amostra de vaiid com

tre um estimador no viciado para

mtodo da mxima verossimilhana.

X1 Uniforme(0, ).

Encon-

utilizando o mtodo dos momentos e o


Qual destes estimador melhor?

Justi-

que.

3.6.

Seja

X1 , . . . , Xn

uma amostra de vaiid com funo distribuio dada por

F (x|, ) =

0,
 
x

1,

x<0
, 0x
x>

(a) Encontre uma estatstica suciente bidimensional para


(b) Encontre o EMV para

3.7.

Seja

X1 , . . . , Xn uma amostra de vaiid com distribuio Gaussiana inversa,

cuja densidade


f (x|, ) =
Encontre o EMV para

2x3

1/2

2
exp 2 (x ) .
2 x

Seo 3.2.3
3.8. Demonstre os Corolrios 3.17 e 3.18.
3.9.

Prove que, se existe uma estatstica suciente completa e se existe o EMV

= ()
com E[]

3.10.

ento

ENVVUM para

Para cada uma das densidades abaixo, seja

vaiid. Encontre o ENVVUM para

f (x|) = 1 I(0 < x )I(r < n).

(b)

f (x|) = exp{x + }I(x ).


Seja

X1 , X2

X3

X1 , . . . , Xn

uma amostra de

r .

(a)

3.11.

().

uma amostra de vaiid com

> 0.
67

Uniforme(, 2) com

1. Encontre um estimador no viciado para

a partir do estimador obtido

via mtodo dos momentos.


2. Encontre um estimador no viciado para

a partir do estimador de mx-

ima verossimilhana.
3. Qual destes estimadores pode ser melhorado atravs do Teorema de RaoBlackwell?

3.12.

Seja

X1 , . . . , Xn uma
(1 ).

amostra de vaiid com

X Bernoulli().

Encontre

X Normal(, 1).

Encontre

o ENVVUM para

3.13.

Seja

X1 , . . . , Xn
2 .

uma amostra de vaiid com

o ENVVUM para

68

Chapter 4

Testes de Hipteses
Paramtricos
Considerando-se a amostra

X1 , . . . , Xn

F (.|), foi discu (). Entretanto,

proveniente do modelo

tido no captulo anterior o problema da estimao pontual de

existem diversos problemas nos quais o objetivo da inferncia levantar evidncias sobre a veracidade de alguma suposio sobre

F (.).

Tais suposies so

denominada hipteses.

Denio 4.1. Qualquer suposio sobre F (.|) denominada hiptese.


Exemplo 4.1.

X1 , . . . , Xn

Seja

uma amostra de variveis aleatrias. Ao menos

que existam razes fsicas claras, considerar que estas variveis so iid uma

hiptese.

Exemplo 4.2.

Seja

X1 , . . . , Xn uma amostra de vaiid com X1 | Normal(, 1).

Considere as seguintes hipteses:

1.

= 0

- ou seja, os dados so provenientes de uma distribuio normal

padro.
2.

> 0

- os dados so provenientes de alguma distribuio normal com

mdia positiva.

Podem existir um nmero diferente de hipteses para o mesmo problema.


comum identicar a i-sima hiptese por
exemplos:
69

Hi , com i = 0, 1, 2, . . ..

Seguem alguns

H1 : = 0.
H2 : > 0.
H3 : X1 , . . . , Xn Normal(, 2 )
H4 : X1 , . . . , Xn

para algum par

(, 2 )

desconhecido.

uma amostra de variveis aleatrias independentes.

Sob o ponto de vista paramtrico, hipteses so suposies sobre os parmetros da distribuio

F (.|),

onde apenas

desconhecido.

Nesta abordagem,

existem dois tipos importantes de hipteses (Cox & Hinkley):

Hipteses simples: so hipteses sobre o valor exato de um parmetro.


Exemplos:

H0 : = 0 ; H1 : { = 0 } { = 0 }.

O objetivo de uma

hiptese simples identicar completamente a distribuio em estudo.

Hipteses compostas: so hipteses sobre uma possvel regio do espao


paramtrico. Exemplos:

H0 : 0 ; H1 : { 0 } { 0 }.

Os testes de hipteses so procedimentos que utilizam uma amostra para


decidir se certa hiptese verdadeira ou falsa.

H0 : 0 ,

onde

0 ,

Ao considerar uma hiptese

aps observar os dados existem duas decises:

1. Deciso 1: aceitar a hiptese

H0

como verdadeira.

2. Deciso 2: aceitar a hiptese

H0

como falsa.

Note que estas decises so estatsticas, uma vez que elas so baseadas na
amostra.

Denio 4.2 (Teste de Hipteses). Um teste de hipteses (tambm chamado


de regra de deciso) qualquer estatstica D : X n {0, 1}. Se D(X) = 1,
toma-se a deciso de rejeitar H0 e se D(X) = 0, toma-se a deciso de no
rejeitar H0 .
Portanto, um teste de hipteses uma estatstica que toma a deciso de rejeitar
ou no uma hiptese. Os erros de deciso so classicados como:

1. Erro Tipo I: rejeitar

H0

quando

H0

verdadeira.

2. Erro Tipo II: aceitar

H0

quando

H0

falsa.

70

impossvel evitar um dos erros acima sem aumentar as chances de cometer


o outro.

Por exemplo, se

D(x) = 0

para todo

ser rejeitada e o erro tipo I nunca ocorrer.


erro tipo II ocorrer sempre que

H0

for falsa.

x Xn

a hiptese

H0

nunca

Contudo, esta postura far o


Para racionalizar o processo de

deciso, possvel associar uma funo de perda para cada valor da estatstica
de teste, na qual obtm-se perda zero sempre que a deciso correta for tomada.
Classicamente, as funes de perda associadas aos testes de hipteses so do
tipo


L(, D(X) = 1) =
e


L(, D(X) = 0) =

onde

c1

c2

0,
c1 ,

se

c2 ,
0,

se

se

se

c0
0
c0
0

so as perdas ao se tomar a deciso errada. A funo risco deste

estimador dada por


R() = E[L(, D)|] =
Se

c1 = c2 = 1,

c1 P (D(X) = 1|),
c2 P (D(X) = 0|),

0
c0

a funo de perda correspondente denominada perda zero-um

e o seu respectivo risco dado por

P (D(X) = 1|),
P (D(X) = 0|),

R() = E[L(, D)|] =

0
c0

Assim como discutido no Captulo 3, tanto sob o ponto de vista frequentista


quanto o bayesiano razovel encontrar uma estatstica de teste

admissvel.

Na Seo 4.1 so discutidas a abordagem frequentista para o problema de testes


de hipteses e so apresentados os mtodos da razo de verossimilhanas e o teste
uniformemente mais poderoso. Devo colocar um texto sobre os teste bayesianos
aqui no futuro.

4.1 Testes de Hipteses Frequentistas


4.1.1

Construo de um Teste Frequentista

Considere o problema de testar a hiptese


ser denominada

hiptese nula.

H0 : 0 .

Doravante,

H0

A construo geral de um teste de hipteses

frequentista possui os seguintes passos:


71

1. Encontre uma estatstica

cuja distribuio conhecida se

dadeira e que valores elevados (muito pequenos) de

H0

for ver-

sejam raros se

H0

for verdadeira.
2. Seja

o valor observado desta estatstica.

3. Rejeite a hiptese
ou igual a

4. No rejeite
igual a

H0 se a probabilidade de observar um valor maior(menor)


H0 (isto , se H0 fosse verdadeira).

for pequena sob

H0

se a probabilidade de observar um valor maior(menor) ou

for alta sob

A estatstica

H0 .

denominada

estatstica de teste.

Tal estatstica escolhida

de modo que possvel distinguir quais so seus valores usuais se

H0

for ver-

a deciso de rejeitar a hiptese H0 tomada somente


se existirem evidncias para isso.
Exemplo 4.3. Seja X1 , . . . , X5 uma amostra de vaiid com X1 Bernoulli(),

dadeira. Portanto,

com

= {1/4, 3/4}

e considere a hiptese nula

H0 : =

1
.
4

P5
T = i=1 Xi suciente para . Alm disso,
qualquer (0, 1), T Binomial(5, ). Em particular, sob


1
.
T |H0 Binomial 5,
4

Foi discutido no Captulo 2 que


sabido que, para

H0

A tabela abaixo apresenta a funo de probabilidae de

t
f (t|1/4)

0,3955

0,2637

0,0879

0,0146

0,0010

so menos frequentes sob

disso, neste problema especco, um valor alto de


quando

H0

Se

falsa.

t = 5

Se

H0 .

Alm

mais provvel de ocorrer

H0

para valores de

verdadeira:

a probabilidade de observar um valor maior ou igual 5 de

t=5

seria um resultado entre 1000. Considerando este

resultado incomum de se observar quando

Considere ento a regra de rejeitar

H0

0,001. Portanto,
rejeitar

H0

sob

0,2373

Pode-se notar que os valores elevados de

elevados. Supondo

H0

verdadeira, opta-se por

H0 .

t = 4 a probabilidade de observar um valor maior ou igual a 4 de 0,015.

Portanto, este corresponderia a 15 resultados entre 1000. Considerando


isto incomum sob a hiptese nula, opta-se por rejeitar
72

H0 .

Se

t = 3

a probabilidade de observar um valor maior ou igual a 3 de

0,1035. Portanto, este corresponderia a 1 resultado entre 10. Este resultado no parece ser to incomum quando a hiptese nula verdadeira, o
que levaria a deciso de no rejeitar

H0 .

Utilizando a discusso acima, pode-se construir o seguinte teste: rejeite


o valor de

observado for maior ou igual a

H0

4.

se

No que foi discutido at aqui, pode-se notar que a deciso sobre rejeitar ou
no uma hiptese baseada na estatstica de teste. Ento, sem perda de generalidade, um teste de hipteses
onde

D(X)

uma estatstica de teste.

acima seria

pode ser escrito como


D(T ) =

Uma estatstica de teste

D(X) = D(T (X)),

Por exemplo, o teste descrito no exemplo

1,
0,

T 4
T <4

cria os conjuntos

R = {x X n : D(T (x)) = 1}
e

A = Rc

denominado

que formam uma partio do espao amostral.

O conjunto

regio de rejeio e o conjunto A denominado regio de aceitao.

Idealmente, a regio de rejeio composta por todas as amostras que do


evidncias de que a hiptese

H0

falsa. Note que

P (X R| 0 ) = P (D(X) = 1| 0 )
a probabilidade da hiptese

H0

ser rejeitada quando ela verdadeira, ou seja,

a probabilidade de ocorrer o Erro Tipo I.

Exemplo 4.4 (Concluso do Exemplo 4.3).


valores elevdos da estatsta

Anteriormente, foi discutido que

levam a deciso de rejeitar a hiptese nula. Con-

sidere os seguintess testes:

1,
0,

T 5
,
T <5

1,
0,

T 4
,
T <4

1,
0,

T 3
.
T <3

D1 (T ) =

D2 (T ) =
e

D3 (T ) =

A probabilidade de cometer o Erro Tipo I em cada teste 0,001, 0,015 e 0,1035.


O teste pode ser escolhido de acordo com o estas probabilidades de erro.
73

Considere novamente a funo risco da perda 0-1, dada por


R() = E[L(, D)|] =

P (X R|), 0 P (Erro
P (X A|), c0 P (Erro

Como os testes freqeuntistas so criados para rejeitar

H0

Tipo I)
Tipo II)

apenas quando houver

evidncias para tal, importante que a probabilidade do Erro Tipo I esteja


controlada.

Denio 4.3 (Tamanho do Teste). Seja R a regio de rejeio de um teste.


Este teste dito ter tamanho se

= sup P (X R|).
0

Denio 4.4 (Nvel do Teste). Seja


Este teste dito ser de nvel se

R a regio de rejeio de um teste.

sup P (X R|).
0

O nvel de um teste tambm denominado nvel de signicncia do teste.


A noo de nvel importante no caso de variveis aleatrias discretas, nas
quais nem sempre possvel conseguir um teste com o tamanho desejado.

objetivo do nvel (ou do tamanho) de um teste limitar a maior probabilidade


de cometer o Erro Tipo I. Naturalmente, um teste de tamanho
um teste de nvel de signicncia
de tamanho

tambm ser

No cotidiano, comum reportar um teste

como sendo um teste de nvel de signicncia

100%

Exemplo 4.5 (Teste normal com varincia conhecida).

Seja X1 , . . . , Xn
X1 | Normal(, 2 ), onde 2 conhecido, e considere
uma estatstica suciente
a hiptese H0 : = 0. J foi mostrado que X
completa para e que ,


2
Normal ,
X|
,
n

uma amostra de vaiid de

e que

Z=
Sob

H0

(ou seja, se

H0


X
n
Normal(0, 1)

verdadeira) tem-se que



2

X|H0 Normal 0,
,
n
Assim, valores observados da estatsca
de que a hiptese

H0

muito afastados de zero do evidncia

falsa. Considerando que, sob

H0 , X

de zero, pode-se propor a seguinte regio de rejeio:

R = {x Rn : |
x| > t}.
74

simtrica em torno

Considere que o tamanho desejdo do teste


de

t>0

Ento, pode-se encontrar o valor

tal que

> t|).
= sup P (|X|
0
Em detalhes,

> t|) = P (|X|


> t| = 0)
= sup P (|X|
0

> t| = 0) + P (X
< t| = 0)
= P (X
t
t
X
X
= P( n
> n
| = 0) + P ( n
< n
| = 0)




t

= P Z > n(t )| = 0 + P Z < n


| = 0






n
n
=P Z>
t| = 0 + P Z <
t| = 0 , ( mas como Z simtrica






n
n
t| = 0 + P Z >
t| = 0
=P Z>




n
= 2P Z >
t| = 0 ,

o que implica em


P
Seja

n
t

Z>


=

.
2

o valor da distribuio Normal(0,1) tal que

z/2 =

nt t

P (Z > z ) = .

H0 : = 0

com tamanho

>
1, |X|

0, |X|

z/2
n
z/2
n

Exemplo 4.6 (Problema do sono).

Ento ,

1
.
nz/2

Portanto, um teste para a hiptese

=
D(X)

em torno de zero)

Um experimento foi conduzido para ver-

icar se um novo sonfero auxiliava no tratamento da insnia.


foram submetidos a duas baterias de testes.

Dez pacientes

Na primeira, eles tomavam um

placebo e as suas horas de sono foram registradas.

Na segunda bateria eles

tomavam o sonfero e suas horas foram registradas. No nal, a diferena entre


as horas de sono com o sonfero e as horas de sono com o placebo foi registrada.
O banco de dados resultante

0,7

1 Os

-1,6

-0,2

-1,2

-0,1

3,4

3,7

0,8

0,0

2,0

valores de z para qualquer valor de podem ser obtidos no R atravs do comando

qnorm(gama,lower.tail=F).

75

Seja
que

Xi a diferena entre as horas de sono do i-simo paciente. Suponha ainda


X1 , . . . , X10 uma amostra de vaiid com Xi Normal(, 1, 762 ) (em outro

momento vamos lidar com a varincia desconhecida). Suponha que o interesse


testas se existe difenrea entre o sonfero e o placebo. Isto pode ser escrito
como

H0 : = 0.
De fato, se a

=0

ento a probabilidade da diferena ser positiva de 50%, o

que implica que o novo sonfero bom em 50% das vezes e neste caso, no tomar
nada tem o mesmo efeito e mais barato! Considere um teste de tamanho 5%
(ou seja, a maior probabilidade de cometer o Erro Tipo I de 0,05).

Como

discutido no exemplo anterior, um teste para esta situao

>
1, |X|

0, |X|

=
D(X)

1,76

z
10 0,05/2
1,76
z0,05/2
10

Consultando o computador (ou uma tabela normal), possvel obter o valor

z0,05/2 1, 96.

O teste se torna

=
D(X)
A mdia amostral dos dados
para rejeitar

H0 ,

> 1, 09
|X|
1, 09
|X|

1,
0,

x
= 0, 75.

Logo, no existem evidncias sucientes

ou seja, utilizando um teste com nvel de signicncia de 5%

no existem evidncias para dizer que mdia da diferena entre as horas de sono

nula. Voltaremos a este problema posteriormente.

Exemplo 4.7.
onde

Seja

X1 , . . . , Xn uma amostra de vaiid com X1 Normal(, 2 ),

conhecido. Considere a hiptese nula

H0 : 0 .
para algum

xado. Note que esta hiptese pode ser escrita como

H0 : 0 = [0 , ).
Sabe-se que

o ENVVUM para

evidncias de que

H0

Portanto, valores pequenos de

do

no verdadeira. Pode-se construir a seguinte regio de

rejeio

R = {x Rn : x
< t}.
Pode-se decidir o valor de

t apropriado xando o tamanho do teste em .

caso,


t 
X

= sup P (X < t|) = sup P


n
< n
|

0
0




t
t
= sup P Z < n
| = sup FZ
n
.

0
0
76

Neste

onde

Z=

)/ Normal(0, 1).
n(X

Como a funo de distribuio de uma

varivel aleatria contnua montoma crescente, fcil notar que

)/)

montona decrescente em

Assim, para

0 > 00

FZ ( n(t

tem-se que

FZ ( n(t 00 )/) < FZ ( n(t 0 )/)


logo


sup FZ
0
o que implica em

t
n

= FZ
z

= FZ

t 0
n

t 0
n


.

R tal que P (Z > z ) = . Ento






t 0
t 0
= FZ
1=P Z > n
,
n

o valor em

z1 =

t 0

n
t = 0 + z1 .

Portanto, um teste de tamanho

=
D(X)

para a hiptese em questo

0 +
1, X
> 0 +
0, X

z1
n
z1
n

Exemplo 4.8 (Continuao do Problema do sono).


4.6, no qual
onde

Seja

Xi

X1 , . . . , X10

uma amostra de vaiid com

Considere o Exemplo

X1

Normal(, 1, 76

),

a diferena entre as horas de sono com o sonfero e o placebo. Con-

sidere a hiptese

H0 : 0,
ou seja, a diferena mdia no negativa, mostrando que existe um efeito igual
ou maior nas horas de sono ao utilizar o sonfero. Considerando um teste de
nvel de signicncia 5%, tem-se

z10,05 1, 64
Utilizando o exemplo anterior, um teste de nvel(tamanho) de signicncia 5%

=
D(X)
Como

x
= 0, 75

o teste no rejeita

0, 915
1, X
> 0, 915
0, X
H0 .

Isto implica que no existem evidncias

para dizer que o efeito do sonfero inferior ao placebo.

2 Note que o supremo existe porque o intervalo [ , ) fechado no limite inferior. Se a


0
hiptese nula fosse H0 : > 0 no seria possvel encontrar um teste de tamanho . Na
prtica, a hiptese nula sempre carrega o sinal de igualdade para evitar este problema.
77

Existem problemas nos quais impossvel denir um teste de um determinado tamanho

conforme ilustra o seguinte exemplo.

Exemplo 4.9 (Teste para de uma Binomial).


X1

aleatrias iid com

= 1/2.

Sabe-se que

i=1

completa para

verdadeira, a distribuio de

Pn

X1 , . . . , X10 variveis
H0 :
hiptese de que H0

Sejam

Bernoulli() e considere o problema de testar

Xi Binomial(10, 0, , 5),

Sob a

pode ser obtida a partir da distribuio de

conforme mostra a tabela abaixo.

p(
x)

p(
x)

0,0

0,001

0,6

0,205

0,1

0,010

0,7

0,117

0,2

0,044

0,8

0,044

0,3

0,117

0,9

0,010

0,4

0,205

0,001

0,5

0,246

Valores muito baixos ou muito altos de

do indcios de que

6= 1/2,

logo

natural construir uma regio de rejeio do tipo

R = {x {0, 1}10 : x
>a
para

a > 0, 5,

onde a simetria indica que

ou

x
< 1 a},

pode estar igualmente afastado de

1/2 tanto pela direita quanto pela esquerda. Considerando as possibilidades de


valores para

considere as seguintes regies de rejeio:

R = {x {0, 1}10 : x
> 0, 9

ou

x
< 0, 1}.,

com tamanho 0,002

R = {x {0, 1}10 : x
> 0, 8

ou

x
< 0, 2}.,

com tamanho 0,022

R = {x {0, 1}10 : x
> 0, 7

ou

x
< 0, 3}.,

com tamanho 0,055

A natureza discreta da estatstica de teste permite encontrar testes de tamanhos


0,002, 0,022 e 0,055 mas no um teste de tamanhos 0,05 ou 0,03. Um teste cuja
regio de rejeio dada por

R1 = {x {0, 1}10 : x
> 0, 8

ou

x
< 0, 2},

um teste de nvel 0,05. Um teste com regio de rejeiio

x
> .9
0, 05.

ou

x
< 1}

R2 = {x {0, 1}10 :

tambm condiz com um teste de nvel de signicncia de

Na seo anterior, discutimos que um teste de hipteses necessita de uma


estatstica de teste cuja distribuio seja conhecida (pelo menos aproximadamente) sob a hiptese

H0 .

As regies das caudas da distribuio estatstica de


78

teste serviro de base para a construo da regio de deciso, que nada mais
do que a partio do espao amostral que nos leva a deciso de rejeitar

H0 .

Os limites desta regio so construdos baseados em um nvel de signicncia,


que nada mais do que a maior rea que esta regio pode ter. Notemos ento
que a base de todo teste de hipteses a estatstica de teste. Encontrar tais
estatsticas o objetivo desta seo.

4.1.2

Teste da Razo de Verossimilhanas

Considere a

H0 : 0 .

Seja

0 ,

o valor em

tal que

sup L() = L(0 ).

(4.1)

0
O valor

a hiptese

quando
. Se L(0 ) estiver
de 0 est prximo do

pode ser interpretado como sendo o valor mais verossmil de

H0

verdadeira.

Agora, seja

o EMV para

, ento o valor mais verossmil


L()
valor mais verossmil de , dando evidncias de que H0 verdadeira.

prximo do valor de

Portanto,

valores pequenos da estatstica

(X) =
do evidncias de que

H0

sup0 L()
L(0 )
,
=

sup L()
L()

(4.2)

falsa.

Denio 4.5. Considere a hiptese

H0 : 0 . O teste para esta


hiptese que utiliza a estatstica (X) denida na Equao (??) e que possui
regio de rejeio dada por R = {x X n : (x) k} para algum valor de
0 < k < 1 xado denominado Teste da Razo de Verossimilhanas (TRV).

Em geral, o valor de

da regio de rejeio dada na Denio 4.5 escolhido

de modo a satisfazer

sup P ((X) < k|),


0
para o nvel de signicncia

Exemplo 4.10.

Seja

xado.

X1 Exponencial(1/),
f (x|) =

com

x, > 0

cuja densidade

1 x/
e
,

e considere a hiptese

H0 : = 1.
79

Ser encontrado um teste da razo de verossimilhanas para

H0

com tamanho

xado. Primeiro, tem-se que

log f (x1 |) = log()


logo, fcil mostrar que o EMV para
valor possvel para

0 = 1

1, logo

do TRV

(X1 ) =

= X1 .

x
,

Sob a hiptese nula, o nico

o EMV sob esta hiptese. A estatstica

L(0 )
= X1 eX1 +1

L()

e a regio de rejeio deste teste dada por

R = {X1 > 0 : X1 eX1 +1 < k},


para algum

k (0, 1).

O valor de

escolhido de tal forma que

= sup P ((X1 ) k|) = P ((X1 ) < k| = 1).


0
Notando que, dado

= 1,

tem-se que

Z
P ((X1 ) < k|) = E {I((X1 ) k)} =

f (x1 |)dx.
{x>0:xex+1 <k}

(x).

A Figura 4.1 mostra o esboo do grco de


qualquer

xado existem

c1

c2

Pode-se perceber que, para

tais que

{(x) k} {x c1 } {x c2 }
logo,

Z
f (x1 |)dx =

=
{x>0:xex+1 <k}

f (x1 |)dx
{xc1 }{xc2 }
c1
c2

= P (X1 c1 ) + P (X1 c2 ) = 1 e

+e

c1 e c2 que satisfazem a igualdade acima. Portanto, o


que rejeita H0 se (x1 ) k pode ser reescrito sem perda de
generalidade como um teste que rejeita H0 se x1 c1 ou x1 c2 . Por exemplo,
tomando c1 e c2 como sendo os valores que satisfazem

e quaisquer valores de
teste de tamanho

P (X1 c1 ) =

P (X1 c1 ) =

tem-se que



c1 = log 1
2
80

1
k

(X1)

c1

c2
X1

Figure 4.1:

c2 = log
sendo o respectivo TRV de nvel


D(x1 ) =

1,
0,

se


2

dado por

x1 log(1 /2)

ou

x2 log(/2)

c.c.

Teorema 4.6. Se T uma estatstica suciente para e se ? (T ) e (X) so

estatsticas do TRV baseadas nas distribuies de T e X respectivamente, ento


? (T (X)) = (X) para todo X X n .

Proof.

Pelo Corolrio 2.5, existem funes

h(x)

g(t, )

tais que

f (x|) = h(x)g(t|),
onde

T.

g(t|)

a densidade (ou funo de probabilidade) da estatstica suciente

Seja

L? () = g(t|),
a verossimilhana da estatstica suciente. Ento,

sup0 L()
sup0 f (x|)
sup0 h(x)g(t|)
=
=
sup L()
sup f (x|)
sup h(x)g(t|)
sup0 g(t|)
sup0 L? ()
=
=
= ? (t).
sup g(t|)
sup L? ()

(x) =

81

Note que, pelo Teorema 4.6,

P ((X) k|) = P ((T ) k|),


para qualquer

suciente. Portanto, um TRV sempre pode ser construdo em

funo de uma estatstica suciente.

Exemplo 4.11.
de vaiid com

X1 , . . . , Xn uma amostra
H0 : 0 utilizando o
H0 , devemos maximizar a

(Ainda no corrigi este exemplo)Seja

X1

Exponencial(). Queremos testar

TRV. Sabemos que o EMV para

.
= 1/X

Sob

seguinte verossimilhana

L() = n eX I( 0 ).
Notemos que o ncleo da distribuio acima corresponde ao ncleo da dis-

, logo:
tribuio Gama(n, nX)

Se

0 < 1/X
.
1/X

Se

A partir dos dois itens acima, temos que

Se

a funo
0 1/X
0 = 0 .
atingido em

,
0 < 1/X

,
1/X

a funo possui uma nica moda no ponto

montona descrescente em

0 =

1
I
X

0 <

logo

0 =

e seu mximo ser

+0 I 0

a estatstica do TRV ser igual a um. Em caso contrrio,

!n
n
o
L(0 )
0

0 )
(X) =
=
exp nX(

L()

n


exp nX
0+n
= 0 X
A Figura 4.2 mostra o grco de

.
(X) em funo de X

A partir desta, podemos

notar que as seguintes regies so equivalentes:

R+ : X
> c}
R = {X Rn+ : (X) < k} {X

Fixando um nvel de signicncia

Pn

vamos encontrar o valor de

c.

i=1 Xi Gama(n, ), logo X Gama(n, n). Notando que

parmetro de escala, temos que G = X Gama(n, n). Sob H0 , teremos

mos que,

> c| 0
sup P (X R|H0 ) = sup P X
0

= sup P (G > c) = P (G > c0 ) = 1 P (G c0 ) .


0

82

Sabe-

1/

1
(X)
k

1 0

c
X

Figure 4.2:

(X)

vista como funo de

tado no Exemplo 4.11.

83

para o TRV da exponencial apresen-

Seja

o valor da distribuio

G Gama(n, n)

tal que

P (G c0 ) = 1 c =
Portanto, o TRV de nvel

P (G g ) = .

Ento

g1
.
0

possui regio de rejeio

> g1 /0 }.
R = {X Rn+ : X

Exemplo 4.12 (Teste t Bilateral).

(Ainda no corrigi este exemplo)Sejam

X1 , . . . , Xn vaiid com X1 | Normal(, 2 ). Consideremos a hiptese H0 :



= 0 . Sabemos que = (X,
2 ), onde
2 = (n 1)S 2 /n. Sob H0 , temos que
0 = (0 , 02 ), onde
n
1X
(Xi 0 )2 .
02 =
n i=1
Assim,



Pn
(1/02 )n/2 exp 21 2 i=1 (Xi 0 )2
L(0 )
o
n
=
(X) =

L()
(1/
2 )n/2 exp (n1)
2

Lembrando que


2 n/2

02

i (Xi 0 )

2
2

i (Xi X) + n(X 0 ) , a regio de rejeio

ser dada por

(
n

R = {X R : (X) < k1 }

XR :

2
02

n/2
< k1

2
2/n
XR :
< k2 , onde k2 = k1
0 )2
2 + (X
)
(
1
n
< k2
XR :
2

0)
1 + (X
2


0 )2 
(X
1 k2
n 1 k2
XR :
<
, fazendo k3 =
,
k2

2
k2




0 )
(X
> k3 .
X Rn :

O clculo das constantes

k1 , k2

k3

foram realizados para que o leitor acompan-

hasse as contas. Na prtica, a expresso que levou a estas constantes irrelevante. Antes de darmos a forma nal de nossa estatstica de teste, sabemos que

S2

so independentes. Sabemos ainda que

0 )/ 2 Normal(0, 1),
n(X

que

S 2 Gama

n1 n1
,
2
2 2

84

2
n 1 S2
=
2n1 ,
2

n 2

0 )/ X
0 )
0
(X
(X

= q
= n
tn1 .
S
1 / 2

/ n 1
S

Assim,


R



 
0 )
(X
> k3 X Rn

XR :

A estatstica




0
X

> k4 .
: n
S

0 )/S ser nossa estatstica de teste. Seja t o


n(X
T t( n 1) tal que P (T t ) = . Fixando o nvel de
, e lembrando que a distribuio t simtrica em torno de

T =

valor da distribuio
signicncia em
zero, teremos

= P (X R|H0 ) = P (|T | > k4 )


= P (T > k4 ) + P (T < k4 ) = 2P (T < k4 )

logo

/2 = P (T < k4 ) k4 = t/2 . Notando


dada por

que

t/2 = t1/2 .

Assim a

regio de rejeio do TRV de nvel

R = {X R : |T | > t1/2 }.
Este teste denominado

4.1.3

Teste t Bilateral.

Teste de Neyman-Pearson

At este momento foi discutido o problema de rejeitar ou no a hiptese


Existem situaes nas quais existe o interesse em determinar se a hiptese

H0 .
H0

prefervel em relao a outra hiptese. Ento, considere o problema de testar

H0 : = 0
contra a hiptese

H1 : = 1 .
Novamente, possvel considerar a razo

(x) =

L(0 )
,
L(1 )

H0 verossmil comparada
(x) existem evidncias de que H0 prefervel
pequenos existem evidncias de que H0 no

como uma estatstica adequada para medir o quo


com

H1 .

Para valores elevados de

em relao

H1

e para valores

prefervel em relao

H1 .

(4.3)

Esta a base do Teste de Neyman-Pearson.


85

Denio 4.7 (Teste de Neyman-Pearson). Considere as hipteses

= 0 contra H1 : = 1 . O teste com estatstica de teste dada por

H0 :

L(0 )
,
L(1 )

(X) =

e com regio de rejeio R = {x X n : (x) < k} tal que


P ((X) < k| = 0 ) =

denominado Teste de Neyman-Pearson (TNP) de tamanho .

Exemplo 4.13.

Seja

X1 Gama(, 1)

e considere as hipteses

H0 : = 1,
contra

H0 : = 2.
A estatstica do TNP

(X1 ) =

eX1
1
L(1)
=
=
,
X
1
L(2)
X1 e
X1

cuja regio de rejeio

R = {x1 > 0 : x1
1 < k}.
Fixando

tem-se que

= P ((X1 ) < k| = 1) = P (X11 < k| = 1)


= P (X1 > k| = 1) = exp(k),
logo

k = log().

Portanto, o TNP de nvel

rejeita

H0

se

X1 > log(). 

Teorema 4.8. Se T uma estatstica suciente para e se ? (T ) e (X) so

estatsticas do TNP baseadas nas distribuies de T e X respectivamente, ento

? (T (X)) = (X) para todo X X n .

Proof.

Anloga demonstrao do Teorema 4.6.

Exemplo 4.14.
as hipteses

Sejam

H0 : = 0

X1 , . . . , Xn vaiid com X1 Poisson() e consideremos


e H1 : = 1 , com 1 > 0 . A estatstica do TNP ser
Pn

L(0 )
en0 0 i=1 i
Pn
(X) =
=
= en(0 1 )
i=1 xi
L(1 )
n
1
e
1
86

0
1

Pni=1 xi
= (T ),

onde

T =

Pn

i=1

Xi

uma estatstica suciente. Assim,

R = {t N : (t) < k} =

( n
X

xi N : e

n(0 1 )

i=1

0
1

t
<k

 

0
t N : n(0 1 ) + t log
< k1
1

 

0
= t N : t log
< k2
(notando que log(0 /1 ) < 0)
1
=

= {t N : t > k3 } .
Sob

H0 ,

sabe-se que

Pn

i=1

Xi

Poisson(n0 ) e

k3

pode ser encontrado resol-

vendo (numericamente)

P (T > k3 | = 0 ) = .
Contudo, como

T discreto,
xados.

a expresso acima possui soluo apenas para

alguns valores de

importante notarmos que a deciso de aceitar/rejeitar a hiptese nula no


TNP no necessariamente implica na rejeio/aceitao da hiptese alternativa.
Considere o seguinte exemplo.

Exemplo 4.15.

Seja

X1 , . . . , Xn uma amostra de vaiid com Xi | Normal(, 1)

e Considere as hipteses

H0 : = 0
contra

H1 : = 10.
A estatstica do TNP dada por

(x) =

L(0 )
e2nx(0 1 ) = (
x).
L(1 )

A regio de rejeio para o TNP com um nvel de signicncia de 5%

R = {
xR:

n
x > 1, 64}.

n = 50, foi observado x


= 3. Ento

3 50 = 2, 12 > 1, 64, logo deve-se tomar a deciso de rejeitar H0 . Entretanto,


x
= 2 est mais prximo de 0 do que 10, fazendo com que a hiptese H0 ainda
seja mais prefervel do que H1 . Este exemplo ilustra uma situao na qual
rejeitar H0 no implica em aceitar H1 como verdadeira.

Suponha que, em uma amostra de tamanho

87

4.1.4

Testes Uniformemente Mais Poderosos

Considere um teste

H0 : 0

arbitrrio para testar

contra

H1 : c0 .

A tabela abaixo sumariza os dois tipos de erros que podem ser cometidos ao
realizar o teste.

Deciso
Aceitar

H0

Rejeitar

Deciso

H0
Verdade

H1

Fixar um nvel de signicncia

H0

Erro

correta

Tipo I

Erro

Deciso

Tipo II

correta

, garante que a maior probabilidade do teste


, atravs da relao

cometer o Erro Tipo I menor ou igual a

P (Erro

Tipo I)

sup P (X R|) .
0

Por outro lado, tem-se a seguinte relao

P (Erro

Tipo II)

sup P (X Rc |) = 1 inf c P (X R|)


0

c0

P (X R|)

Assim, a funo

avaliada em

est relacionada com os dois tipos

de erro. Com o objetivo de procurar por um teste de minimize o risco da perda


zero-um, considere a seguinte denio

Denio 4.9. Seja


funo

D um teste de hipteses com regio de rejeio R. A


() = P (X R|)

(4.4)

denominada funo poder.

Exemplo 4.16.

Seja

X1 , . . . , Xn uma amostra de vaiid com X1 Exponencial()

e considere as hipteses

H0 : = 1
contra

H1 : 6= 1.
O EMV para

= X

e o EMV para

sob

0 = 1.

Como

T =X

uma estatstica suciente, a estatstica para o TRV dada por

(t) = tn ent+n .
e, notando que o grco de

(t)

(4.5)

semelhante ao da Figura 4.1, tem-se que

R = {
x R+ : c1 X
88

ou

c2 , c2 < c1 }.
X

Sabe-se que

Gama(n, n),
X
Gama(n, n). Fazendo g
H0 , X
G Gama(n, n), a regio de rejeio de

e, sob

o nmero tal que

P (G g ) =
pode ser

um teste de tamanho

onde
dada

por

R+ : X
g/2
R1 = {X

ou

g1/2 },
X

o que implica que a funo poder deste teste ser

g/2 |) + P (X
g1/2 |)
1 () = P (X R1 |) = P (X
= P (G g/2 ) + P (G g1/2 ).
Considere agora a X(1) Exponencial(n) e suponha que valores extremos
X(1) do evidncias de que H0 falsa. Notando que X(1) Exponencial(n),
sob H0 tem-se que X(1) Exponencial(n). Seja h o nmero tal que P (H
h ) = , onde H Exponencial(n). Ento, uma regio de rejeio para este
novo teste de nvel

de

R2 = {X(1) R+ : X(1) h/2

ou

X(1) h1/2 }.

A funo poder deste teste ser

2 () = P (X R1 |) = P (X(1) h/2 |) + P (X(1) h1/2 |)


= P (H h/2 ) + P (H h1/2 )
= 1 enh/2 + enh1/2 .
A Figura 4.3 mostra a funo poder dos dois testes. Por construo, pode-se
notar que a funo poder dos dois testes a mesma no espao da hiptese nula
(

= 1).

Contudo fora do espao da hiptese nula, a funo poder do teste 1

maior que a do teste 2 para todo

Portanto, para todo

o teste 1 possui um

menor erro tipo II .

Em geral, um teste frequentista construdo para atender um certo nvel


de signicncia, implicando que a maior probabilidade de cometer o Erro Tipo
I est controlada. Ao xar o nvel de signicncia, a busca pelo melhor teste
passa a ser a busca pelo teste que possui a menor probabilidade do Erro Tipo
II para todo

c0 .

Sejam

1 ()

2 ()

duas funes poder de dois testes de

mesmo nvel. Ento, o teste 1 prefervel ao teste 2 se

1 1 () 1 2 (), c0 1 () 2 (), c0

Denio 4.10 (TUMP). Seja C a classe de testes de nvel para testar as

hipteses H0 : 0 contra H1 : c0 . Um teste na classe C com funo


poder () um teste uniformemente mais poderoso (TUMP) nesta classe se
() 0 () com c0 , onde 0 () funo poder de qualquer outro teste em
C.
89

1
Poder

1()

2()

Figure 4.3: Funes poder de dois testes para testar se


amostra iid

Xi Exponencial().

90

H0 : = 1

para uma

Teorema 4.11. Considere as hipteses H0 : = 0 contra H1 : = 1 . Ento,


dentre os testes de tamanho :

(a) Qualquer TNP com tamanho um TUMP.


(b) Se existe um TNP de tamanho , ento todo TUMP de nvel um TNP
de nvel , exceto talvez em um conjunto de medida nula.
Proof.

Seja D (X) um TNP de tamanho com regio de rejeio R = {x


X n : (x) < k} e funo poder () e considere outro teste D(X) de tamanho
com regio de rejeio R e funo poder (). A funo D (x) D(x) pode
assumir os seguintes resultados:

D (x)
0

D(x)

-1

Note que

D (x) D(x) = 1 (x) < k


Por outro lado, se

L(0 )
< k kL(1 ) L(0 ) > 0.
L(1 )

dN P (x) d0 (x) = 1,

kL(1 ) L(0 ) < 0.

ento

(x) > k ,

o que implica que

Deste modo, teremos sempre que

D (x) D(x) = 1 (x) > k


Portanto, para qualquer

L(0 )
> k kL(1 ) L(0 ) < 0.
L(1 )

x X n,

(D (x) D(x))(kL(1 ) L(0 )) 0,


e

Z
0

(D (x) D(x))(kL(1 ) L(0 ))dx

(4.6)

Z
=

[kD (x)L(1 ) D (x)L(0 ) kD(x)kL(1 ) + D(x)L(0 )] dx

= kP ((X) < k|1 ) P ((X) < k|0 ) k [P (X R|1 ) + P (X R|0 )]


= (0 ) (0 ) + k [ (1 ) (1 )] .
Assim:

(a) Como todos os testes possuem tamanho

a Equao (4.6) se reduz a

k [ (1 ) (1 )] 0 (1 ) (1 ),
o que mostra que qualquer TNP de tamanho
91

um TUMP.

() e regio crtica R um
(a), qualquer TNP de tamanho tambm
, logo (1 ) = (1 ). Pela Equao (4.6), tem-se

(b) Considere agora que o teste com funo poder


TUMP de nvel

Pela letra

um TUMP de tamanho
que

0 (0 ) (0 ) = (0 ) (0 ) .
Como

(0 )

(0 ) , tem-se que (0 ) = , fazendo


. Alm disso, como (0 ) = (0 ),

com que

este teste tenha tamanho

tem-se a

igualdade na Equao (4.6). Entretanto, a integral de uma funo positiva

L(0 ) kL(1 ) no nula,


D (x) = D(x) para todo x X n , o

ser nula somente se a funo for nula. Como


o integrando ser nulo somente se

que ocorre somente se as regies crticas de ambos os testes forem iguais,

R = {x X n : (x) < k}. Assim, se existe um


, todo TUMP de nvel um TNP de tamanho .

mostrando que
tamanho

TNP de

uma coleo innita,


H0 : = 0 contra H1 : =

Embora este resultado seja interessante, em geral


fazendo com que no seja interessante testar

1 .

Vamos tentar expandir nossa noo de TUMP para hipteses compostas.

Primeiro, denamos a famlia de razo de verossimilhanas montona.

Denio 4.12 (Razo de Verossimilhanas Montona). Uma famlia de


funes densidade/funes de probabilidade das varivel aleatria T possui razo
de verossimilhana montona (RVM) se, para 2 > 1 a funo f (t|2 )/f (t|1 )
montona em t no conjunto {t : f (t|1 ) > 0 ou f (t|2 ) > 0} (se c > 0, ento
ser considerado que c/0 = ).

Teorema 4.13 (Karlin-Rubin). Considere que deseja-se testar a hiptese


H0 : 0

contra
H1 : > 0 ,

e que T uma estatstica suciente para cuja famlia de densidades/funes


de probabilidade possui RVM no decrescentes. Ento, para qualquer t0 , o teste
que rejeita H0 se e somente se T > t0 um TUMP de nvel , onde = P (T >
t0 |0 ).
Proof.

Considere inicialmente as hipteses

H00 : = 00
contra

H10 : = 10 ,
onde

00

qualquer ponto no espao da hiptese nula e

0
na hiptese alternativa (ou seja, 0
densidade/probabilidade de T e seja

0 e 10

k = inf

tT

g(t|10 )
,
g(t|00 )

92

> 0 ).

10

qualquer ponto

Seja

g(t|)

a funo

onde

T = {t : t > t0

g(t|00 ) > 0

decrescente,

T > t0

ou

g(t|10 ) > 0}.

Como

possui RVM no

g(t|00 )
g(t|10 )
>k
< k? ,
0
g(t|0 )
g(t|10 )

k ? = 1/k > 0. Assim, pelo Corolrio 4.8, este teste um TUMP para
0
H0 : = 00 contra H10 : = 10 . Para determinar o nvel deste teste, considere
novamente que a famlia de T possui RVM no decrescente e, portanto,
com

g(t|0 )
1 g(t|0 ) g(t|00 ) P (T > t0 |0 ) P (T > t0 |)
g(t|00 )
(0 ) (00 ),
Como

= (0 ) = P (T > t0 |0 ) P (T > t0 |00 ) = ()00 ),


tem-se que o TUMP encontrado um teste de nvel

00 0 e 10 > 0 , tem-se que o


H0 : 0 contra H1 : > 0 .

vlido para qualquer

para as hipteses

Como o resultado

teste um TUMP de nvel

Pode-se mostrar, sob as mesmas condies do Teorema 4.13 que o teste que
rejeita

H0 : 0

se e somente se

T < t0

um TUMP de nvel

= P (T <

t0 |0 ).
importante notar que no necessrio encontrar a distribuio da estatstica suciente para vericar se esta possui RVM. De fato, se

2 > 1 , pelo critrio

da fatorao

L(2 )
h(x)g(t|2 )
=
,
L(1 )
h(x)g(t|1 )
onde

g(t|)

a funo densidade/de probabilidade de

Exemplo 4.17.
onde

02

Seja

T.

X1 , . . . , Xn uma amostra de vaiid com Xi | Normal(, 02 ),

conhecido'e considere as hipteses

H0 : 0 ,
contra

H1 : > 0 .
Fixando

2 > 1 ,

tem-se que

L(2 )
exp
L(1 )


n
x

)
2
1
02

que montona crescente na estatstica suciente


D(
x) =
um TUMP de nvel

1,
0,

= P (T > t0 |0 ).
93

se
se

.
X

Ento, o teste

x
> t0
x
t0


Corolrio 4.14. Seja X1 , . . . , Xn uma amostra de vaiid com


f (x|) = h(x)a()ew()t(x) .

Ento, se w() uma funo montona no decrescente, ento T =


tem RVM no decrescente.

Exemplo 4.18.

Seja

X1 , . . . , Xn

Pn

i=1

T (Xi )

uma amostra de vaiid com densidade dada

por

f (x|) = x1 ,
onde

x (0, 1)

> 0.

Considere as hipteses

H0 : 0
contra

H1 : < 0 .
Note que

"

#
( n
)
n
Y
X
1
n
f (x|) =
exp
log xi ,
x
i=1 i
i=1
logo,

pertence famlia exponencial e, como

T =

w() =

Pn

montona crescente

i=1 log(Xi ) tem RMV no decrescente. Portanto, o


teste cuja regio de rejeio dada por

em

a estatstica

(
R=

xX :

n
X

)
log xi < t0

i=1
um TUMP de nvel

= P (T < t0 |0 )

Exemplo 4.19 (No existncia de um TUMP).


X1 Normal(, 1). Consideremos o problema de
tra H1 : 6= 0 . A estatstica suciente para
Normal(, 1/n). Tomando 2 > 1 , temos que

X1 , . . . , Xn vaiid com
H0 : = 0 con-

Sejam
testar

,
X

cuja distribuio

2
2
t
1
g(t|2 )
= e n (2 1 ) e 2n (2 1 ) ,
g(t|1 )

possui RVM no decrescente. Consideremos o seguinte grupo de hipteX


H01 : 0 contra H11 : > 0 e H02 : 0 contra H12 : < 0 . Pelo
Teorema 4.13 o TUMP de nvel para o primeiro grupo de hipteses tem funo

logo,
ses:

poder dada por

> t1 |),
1 () = P (X
enquanto que o TUMP de nvel

para o segundo grupo de hipteses tem funo

poder dada por

< t2 |).
2 () = P (X
94

2()

Poder

1()

Figure 4.4: Funo poder para os testes do Exemplo 4.19. As funes

2 ()

correspondem ao TUMP para as hipteses

corresponde funo funo poder


de nvel

().

H01

H02 .

1 ()

A parte negritada

A linha tracejada apresenta um teste

com regio de rejeio baseada em

R.

Sob suas respectivas hipteses alternativas, estes so os testes com maior poder.
Notando que

H0 = H01 H02

H1 = H11 H12 ,

se existir um TUMP para

estas hipteses, sua funo poder sob o espao da hiptese alternativa deveria
ser

() = 1 ()I( 0 ) + 2 ()I( 0 ).
A Figura 4.19 mostra um esboo destas trs funes poder.
regio de rejeio correspondente a funo

()

seria

Notemos que a

R = {x Rn : (x) <

k1 ou (x) > k2 } e o teste teria nvel 2 (linha negritada). Poderamos fazer


1 (0 ) = 1 e 2 (0 ) = 2 onde 1 + 2 = , mas isto resultaria em uma funo
poder menor que () (linha pontilhada). Para concluir, lembremos que, pelo
Teorema 4.11, se o teste encontrado fosse um TUMP, a regio R encontrada
deveria corresponder a regio de um TNP. Portanto, no existe TUMP para
este problema.

95

4.2 P-valores
Denio 4.15. Um p-valor uma estatstica 0 p(x) 1 cuja valores pequenos do evidncias contra H0 . Um p-valor dito ser vlido se, para todo
0 e 0 1,
P (p(X) |) .
Sob a hiptese nula, a probabilidade de se obter
a

(4.7)

p-valor menor que igual


H0 falsa.

Portanto, valores baixos desta estatstica do evidncias de que

comum realizar decises sobre

H0

utilizando

p-valores,

comparando-os com

escalas. Por exemplo:

p-valor
<0,01
0,01 -0,05
0,05 - 0,1
>0,1

Os

p-valores

Evidncia
Evidncia muito forte contra

H0

H0
contra H0

Evidncia forte contra


Evidncia fraca

H0

Pouca ou nenhuma evidncia contra

esto relacionados com o maior nvel de signicncia que pode

ser obtido pelo valor de uma estatstica observada, como mostra o seguinte
teorema.

Teorema 4.16. Seja

T (X) uma estatstica cuja valores muito baixos do evidncias de que H0 falsa. Ento, para cada x X dena
p(x) = sup P (T (X) T (x)|).

(4.8)

Ento, p(X) um p-valor vlido.


Proof.

Faremos apenas o caso contnuo. Seja

00

o valor em

tal que

P (T (X) t(x)|) P (T (X) t(x)|00 ),


0 . Lembrando que F Uniforme(0, 1).
X Y . Teremos que


P (p(Y) |) = P sup P (T (X) T (Y)|) |

para todo

Para no causar

confuso, faamos

= P (P (T (X) T (Y)|00 ) |) = P (F (T (Y)|00 ) |)


= F (F 1 (|00 )|) F (F 1 (|00 )|00 ) =
Naturalmente, uma demonstrao anloga pode ser feita para mostrar que,
se valores elevados da estatstica

sup0 P (T (X) > T (x)|)

levam a rejeio de

H0 ,

ento

tambm um p-valor vlido (Exerccio).


96

p(x) =

Teorema 4.17. Seja T (X) uma estatstica com distribuio simtrica em torno
de zero, cuja valores extremos do evidncias contra H0 . Dena
p(x) = sup P (T (X) |T (x)||).

(4.9)

Ento, p(x) um p-valor vlido.


Quando a distribuio da estatstica no simtrica, existem algumas propostas, como mostra a proposio abaixo.

Proposio 4.18. Seja

T (X) uma estatstica cuja valores extremos do evidncias contra H0 . Ento, os seguintes p-valores so vlidos:

(a) pF (x) = 2 min{P (T (X) < t(x)), P (T (X) > t(x))}


(b) pC (x) = P (T (X) < t(x)|x < M ) + P (T (X) > t(x)|x > M ), onde M
arbitrrio (em geral, usa-se a mediana)
(c) pL (x) = P (f (X|) f (x|)).

4.3 Testes de Hipteses Bayesianos


Consideremos o seguinte grupo de hipteses:

1 .

Observamos a amostra

mais provvel.

1 |x).

H0 : 0

contra

H1 :

e gostaramos de saber qual destas hipteses

Isto pode ser feito com o clculo de

P ( 0 |x)

e de

P (

Este o modo mais simples para vericar o quo provvel uma hiptese

composta.

Denio 4.19. Seja a0 um valor em (0, 1) tal que, se P ( 0 |x) a0 ,


ento aceitamos H0 . O valor a0 denomindo nvel de aceitao.
Exemplo 4.20.
Infelizmente, para

contnuo, no possvel calcular a probabilidade pos-

teriori de hipteses simples, pois

4.3.1

P ( = 0 |x) = 0.

Fatores de Bayes

Consideremos

H0 : 0

contra

H1 : 1 .

Podemos desenvolver um

raciocnio anlogo ao construdo no TRV, no qual valores elevados da razo da


97

verossimilhana sob a hiptese nula nos levam a aceitao de

H0 .

Como

aleatrio, podemos escrever

f (x| 0 )
.
f (x| 0 )
A razo acima dene o fator de Bayes.

Denio 4.20. O fator de Bayes dado por


B01 (x) =

Notemos que, se

P ( 0 |x) P ( 1 )
.
P ( 1 |x) P ( 0 )

P ( 0 ) = P ( 1 ),

com

1 = {1 }

(4.10)

0 = {0 },

o fator de Bayes se transforma na estatstica do TNP. Alm disso, a razo das


prioris elimina parcialmente o efeito destas, fazendo destes uma alternativa mais
objetiva. Alm disso, se denirmos

f ()
f ()d
i

fi () = R
e

Z
mi (x) =

f (x|)fi ()d,
i

poderemos observar que

P ( 0 |x) P ( 1 )
P ( 1 |x) P ( 0 )
R
f (x|)f0 ()d
m0 (x)
= R0
=
.
m1 (x)
f
(x|)f
()d
1
1

B01 (x) =

As funes

H0

(se

H0

fi () mi (x)

podem ser interpretadas como priori e preditiva do sob

for verdadeira, ento

H0c

tem probabilidade zero).

Jereys desenvolveu a seguinte escala para julgar a evidncia sobre

H0

trazida pelos dados:

Fator

Evidncia

<1/2

Contra

1/2 a 3/4

H0

Fraca

3/4 a 10/11

Subtancial

10/11 a 30/31
30/31 a 100/101
>100/101

Forte
Muito forte
Decisiva

Claramente, tal escala subjetiva, mas pode servir como base para comparaes.

Exemplo 4.21.
98

4.3.2

Hipteses Precisas

99

100

Chapter 5

Estimao Intervalar
5.1 Introduo
O problema de estimao por regies encontrar um conjunto
seja possvel fazer a inferncia de que

C(x).

C(x)

O conjunto aleatrio

tal que

C(X)

denominado estimador por regio. Em princpio, considere a funo de perda 0-

c1

para comparar o desempenho entre estimadores por regies. Neste contexto,

tal funo de perda dada por


L(, C(X)) =

c1 ,
/ C(X)
0, C(X)

e o risco associado

R() = P (
/ C(X)|)
e o objetivo torna-se encontrar intervalos com o menor valor de

R()

para todo

Observe que isto sempre pode ser atingido tomando

C(X) = ,
que no til, pois s arma o bvio. Assim, tambm desejvel que o volume
de

C(X)

seja o menor possvel, o que leva a construo da seguinte funo de

perda:


L(, C(X)) =
onde

c2

c2 Volume(C(X)) + c1 ,
/ C(X)
,
c2 Volume(C(X)),
C(X)

custo associado por adicionar a restrio do volume de

C(X).

O risco

associado a esta funo de perda

R() = E [(c2 Volume(C(X)) + c1 ) I (


/ C(X)) + c2 Volume(C(X))I ( C(X))]
= c2 E[Volume(C(X)|)] + c1 P (
/ C(X)|).
101

c1 = c2 = 1. Neste captulo ser discutido o


C(x) um intervalo. Considere ento a denio

Em geral, assumido que


problema no qual o conjunto
de estimador intervalar.

Denio 5.1. Uma estimativa intervalar de um parmetro qualquer par


de estatsticas L, U satisfazendo L(x) U (x) para todo x X n , tal que, para
um valor x, a inferncia L(x) U (x) possa ser realizada. O intervalo
aleatrio [L(X), U (X)] denominado estimador intervalar.
L(X) = produzindo um
U (X) = produzindo o intervalo

Sem perda de generalidade, pode-se fazer


tervalo do tipo
tipo

(, U (X)),

ou fazer

indo

[L(X), ).

5.2 Intervalos de Conana


A qualidade de um estimador intervalar frequentista avaliada pela funo risco

R() = E[Comprimento(C(X))|] + P (
/ C(X)|).
A segunda parcela desta soma denominada probabilidade de cobertura.

Denio 5.2. Seja [L(X), U (X)] um estimdor intervalar para . A probabilidade P ( [L(X), U (X)]|) denominada probabilidade de cobertura.
Exemplo 5.1.

Seja X1 , . . . , Xn uma amostra de vaiid com X1 Uniforme(


a, + a) com a > 0 conhecido e > 0. Considere os intervalos do tipo [Xi
a, Xi + a], para i = 1, . . . , n. sempre cobre . De fato, notemos que

P (X1 a < < X1 + a) = P ( a < X1 < + a) = 1.

Exemplo 5.2.
o intervalo

Sejam X1 , . . . , Xn vaiid com Xi Normal(, 1). Consideremos


1, X
+ 1]. Podemos fazer a inferncia de que est neste
[X

intervalo? Vejamos:

1< <X
+ 1) = P (1 < X
< 1) =
P (X

= ( n) ( n) = 2( n) 1.
A funo acima montona crescente em

n,

sendo o seu mnimo igual a 0,68.

Assim, este intervalo tem no mnimo uma probabilidade 0,64 de cobrir o valor de

Com

n = 4 temos uma probabilidade de 0,95,


.

seja bastante razovel para estimar

102

fazendo com que este intervalo

Nos exemplos acima vimos que um intervalo razovel deveria cobrir o valor
de

com uma probabilidade alta. Este conceito nos leva a seguinte denio.

Naturalmente, a probabilidade acima pode depender de

conforme mostra

o seguinte exemplo.

Exemplo 5.3.

Seja

X1 Exponencial().
(0, X1 ] :

Vamos calcular a probabilidade de

cobertura do intervalo

P (0 < < X1 ) = P (X1 / > 1) = e .


Assim, a probabilidade de cobertura deste intervalo depende de
no sabemos o valor de

theta.

Como

a probabilidade de cobertura no muito til. Uma

estratgia defensiva calcular a menor probabilidade de cobertura variando o


valor de
em

Neste caso, como a funo a probabilidade montona decrescente

existe a probabilidade desta ser cada vez menor, tornando este intervalo

desinteressante.

Vimos no exemplo acima que a probabilidade de cobertura pode depender


de

comum ento procurarmos qual a menor probabilidade de cobertura

que um dado intervalo pode assumir, variando

dentro do espao paramtrico.

Isto no motiva seguinte denio.

Denio 5.3. Para um estimador intervalar [L(X), U (X)] para , denimos


a quantidade como sendo inf P ( [L(X), U (X)]|). Esta quantidade
denominada coeciente (ou nvel) de conana.

Exemplo 5.4.

No exemplo anterior, temos que

lim P (X1 / > 1) = 0,

logo, a este intervalo possui um nvel de conana igual a zero, no sendo um

intervalo interessante.

Por ltimo, estimadores intervalares com seus respectivos nveis de conana


so denominados intervalos de conana.

5.2.1

Mtodo da Inverso

Considere um teste de hipteses de tamanho

para testar

H0 : = 0 .

regio de aceitao deste teste se constitui de um conjunto do espao amostral


que nos d evidncias de que

= 0 .

Se mostrarmos que este conjunto contm

teremos encontrado uma regio de conana para


103

de nvel de conana

1 .

No mais, se mostrarmos que este resultado vlido para

ento teremos encontrado um intervalo de conana

1 para .

arbitrrio,

Consideremos

ento o seguinte Teorema.

Teorema 5.4. Para cada 0 0 seja A(0 ) a regio de aceitao do teste de


nvel para a hiptese H0 : = 0 . Para cada ponto x da amostra dena o
conjunto
C(x) = {0 : x A(0 )}.

Ento o conjunto C(X) um conjunto de conana 1 . Alternativamente,


seja C(x) um conjunto de conana 1 . Para cada 0 dena
A(0 ) = {x : 0 C(x)}.

Ento A(0 ) a regio de aceitao de um teste de nvel .


Proof.

Considere a hiptese

teste de nvel

Seja ainda

H0 : = 0 e seja R(0 ) a regio de rejeio de um


A(0 ) a regio de aceitao deste teste. Notemos

que

P (X
/ A(0 )) P (X A(0 )) 1 .
Agora, notemos que

P (0 C(X)) = P (X A(0 )) 1 ,
e, como

arbitrrio, temos que

um intervalo de conana

1 .

P ( C(x)) 1 , o que mostra que C(X)


Agora, seja C(X) um intervalo com 1 de

conana. Notemos que

P (X R|0 ) = P (X
/ A(0 )) = P (0
/ C(X)) ,
logo,

A(0 )

a regio de aceitao de um teste de nvel

Exemplo 5.5.

Seja

para

H0 : = 0 .

(Y1 , x1 ), . . . , (Yn , xn ) uma amostra aleatria com Yi Normal(xi , 1).

Temos que

n
X
f (y|) exp{ (yi xi )2 }.
i=1

= Pn xi yi / Pn x2 . Notemos que Normal(, 1/ Pn x2 ).


O EMV para
i=1
i=1 i
i=1 i
A estatstica do T RV para H0 : = 0
X
= exp{.5(
()
x2i )( 0 )2 },
i

sX
R = { : |
x2i ( 0 )| > z1/2 },

logo, a regio crtica do TRV de nvel

i
104

o que implica que a regio de aceitao

A(0 ) = { : z1/2

sX

x2i ( 0 ) z1/2 }.

1
X
X
= [ z1/2 /sqrt
C()
x2i , + z1/2 /sqrt
x2i ].

Assim, um intervalo de conana

i
Alm disso, se observarmos o intervalo
plo, a hiptese de que
sobre

=0

[2, 2],

ento, no rejeitamos, por exem-

(ou seja, de que a varivel

no exerce inuncia

Y ).

5.2.2

Mtodo da Quantidade Pivotal

Comecemos com a seguinte denio.

Denio 5.5. Seja X| uma varivel aleatria. A varivel aleatria Q(X, )


uma quantidade pivotal se sua distribuio no depende de .
Consideremos a quantidade

Y = Q(X|).

Consideremos que

P (a < Y < b) = 1 = .
Ora, como

no depende de

se for possvel inverter

Q (considerando como
1. Este mtodo

argumento) ser possvel encontrar um intervalo de conana


denominado mtodo da quantidade pivotal.

Exemplo
5.6.
P

Sejam X1 , . . . , Xn vaiid com Xi Exponencial(). Temos que


n
X

Gama
(n, P
1) uma quantidade pivotal invertvel. Assim, fazendo
i=1 i
n
o valor tal que P (
i=1 X i < g ) = , teremos

1 = P (g/2 <

n
X


Xi < g/2 ) = P

i=1
logo,

[g/2 /

Pn

i=1

Xi , g1/2 /

A monotonicidade de

Pn

em

i=1

Xi ]

g1/2
g/2
Pn
< < Pn
i=1 Xi
i=1 Xi

um intervalo de conana

1 .

necessria para a obteno de um intervalo.

Contudo, sem esta, sempre possvel obter uma regio de conana.

Exemplo 5.7.

X1 , . . . , Xn |, cuja T a estatstica
FT Uniforme(0, 1), temos que FT

Consideremos a amostra iid

suciente (unidimensional) para

Como

uma quantidade pivotal. Assim,

P (/2 < FT (t|) < 1 /2) = 1


105

e o conjunto

A() = {t : /2 < FT (t|) < 1 /2}


um conjunto de conana

5.2.3

1 .

Avaliando Intervalos

Na seo anterior encontramos mostramos alguns mtodos para encontrar intervalos de conana. Nesta seo mostraremos como avaliar o intervalo encontrado. Consideremos o seguinte exemplo.

Exemplo 5.8.
a>0

X1 , . . . , Xn vaiid com X1 Uniforme( a, + a) com


> 0. Ento, o intervalo [X1 a, X1 + a] sempre cobre .

Sejam

conhecido e

De fato, notemos que

P (X1 a < < X1 + a) = P ( a < X1 < + a) = 1.


O intervalo

[X(1) + a, X(n) a]

tambm sempre cobre

Contudo, o segundo

intervalo menor que o primeiro.

A partir do exemplo acima, podemos notar que existem intervalos de comprimentos diferentes com a mesma probabilidade de cobertura. Nestes casos,
natural escolher o intervalo com o menor comprimento. Dependendo da complexidade do conjunto de conana, encontrar o menor conjunto pode ser uma
tarefa complicada, mesmo que numericamente. O Teorema abaixo mostra uma
situao na qual fcil encontrar o intervalo de comprimento timo.

Teorema 5.6. Seja f uma densidade unimodal. Se o intervalo [a, b] satisfaz


(a)

Rb
a

f (x)dx = 1

(b) f (a) = f (b) > 0


(c) a x b, onde x a moda de f ,
ento [a, b] o menor de todos os intervalos que satisfaz (a)

5.3 Exerccios

106

Chapter 6

Teoria para Grandes


Amostras
Na teoria para grandes amostras (ou teoria assinttica) so estudados os problemas de inferncia quando o tamanho da amostra tende ao innito.

Neste

contexto, a Lei Forte dos Grandes Nmeros e o Teorema Central do Limite


possuem papis importantes.

6.1 Funo Escore e Informao de Fisher


Os resultados desta seo sero dados para
dem ser obtidos para

escalar. Resultados anlogos po-

sendo um vetor de dimenso

2.

Considere

L()

uma

funo real contnua.

Denio 6.1. Seja X1 , . . . , Xn uma amostra vaiid de X1 f (.|). A funo


U (x|) =

d
d
log f (x|) =
l()
d
d

(6.1)

denominada Funo Escore e a funo


"
IF () = E

2 #
d
log f (x|)
d

denominada Informao de Fisher.


Considere as seguintes condies de regularidade:
107

(6.2)

(a) As derivadas

d
f (x|)
d
e

d2
f (x|)
d2
existem em quase toda a parte e existem

H1 (x)

H2 (x)

tais que



d

f (x|) H1 (x)
d

e


2

d


d2 f (x|) H2 (x),
com

(b)

R
R

U (x|)

Hi (x)dx < .
e

d2
d 2 l() existem em quase toda a parte.

A condio (a) implica que possvel utilizar o Teorema da Convergncia


Dominada para a troca de integrais(somatrios) com derivadas. A condio

(b)

ser discutida posteriormente. Considere agora a seguinte proposio.

Proposio 6.2. Sob as condies de regularidade


E[U (X|)] = 0

(6.3)

e

IF () = E

Proof.

E


d2
log
f
(X
|)
1
d2

(6.4)

Note que

 Z 

Z
d
d
d
log f (X1 |) =
log f (x1 |) f (x1 |)dx1 =
f (x1 |)dx1
d
R d
R d
Z
d
=
f (x1 |)dx1 = 0
d R

logo,

n
X


d
E [U (X|)] =
E
log f (X1 |) = 0.
d
i=1
108

Agora, note que


E

 Z


d
d2 log f (X1 |)
1
d
=
f
(x
|)
f (x1 |)dx1
1
d2
R d f (x1 |) d
#

2
Z "
1
d
1
d2
=

f (x1 |) f (x1 |)dx1


f (x1 |) +
f (x1 |)2 d
f (x1 |) d2
R
#
2
Z " 
d
1
d2
=

f (x1 |) f (x1 |)dx1


l() +
d
f (x1 |) d2
R
2
Z
Z 
d2
d
f (x1 |)dx1
=
l() f (x1 |)dx1 +
2
d
R d
R
"
#
2
d
= E
l()
d

Pela Lei Forte dos Grandes Nmeros,

1 X 2
q.c.
log f (Xi |) IF (),
n i=1 2
e, pelo Teorema Central do Limite,

1
D
U (X|) N (0, IF ())
n
quando

n .

6.2 Consistncia dos EMV


Gostaramos que o aumento do tamanho da amostra gerasse melhorias no estimador, no sentido de que este deveria se aproximar cada vez mais do parmetro
de interesse.

Um estimador com esta propriedade denominado consistente.

Para formalizar esta noo, considere que um estimador qualquer, denotado

T , calculado cada vez que um novo valor observado, gerando a sequncia


T1 = T (X1 ), T2 = T (X1 , X2 ),...,Tn = T (X1 , . . . , Xn ).
por

Denio 6.3. A sequncia de estimadores T1 , T2 , . . . , Tn uma sequncia de


estimadores consistente para se, para todo > 0 e para todo , Tn
quando n .
P

Pela denio acima, podemos notar que consistncia uma propriedade de


sequncias innitas de estimadores. Dizer que o estimador
xo, consistente um abuso de linguagem.
109

Tn ,

para qualquer

Em geral, podemos utilizar o EQM de


consistente para

Portanto, se o EQM de
consistente para

Exemplo 6.1.

para vericar se este um estimador

V ar(T (X)) + vcio2


E(T (X) )2
=
.
2
2

P (|Tn (X) | )

De fato, pela Desigualdade sde Tchebchev,

Seja

J foi mostrado que

tende a zero com o aumento da amostra, temos que

.
X1 , . . . , Xn uma amostra de vaiid com X1 Normal(, 2 ).
e

=X
2 = (n 1)S 2 /n so os EMV para e 2 . Alm

disso,

=
E(X)
e

=
V ar(X)

2
,
n

logo

lim EQMX (, 2 ) = lim

n
portanto,

consistente. Para

E(
2 ) =

2,

2 + ( )2
n


= 0,

tem-se que

n1 2
n1
E(S 2 ) =

n
n

V ar(
2 ) =

n1
n

2

V ar(S 2 ) = 2 4

n1
,
n2

logo,

lim EQM 2 ( ) = lim

portanto,

4n


2 !
n1 2
1
2
+

= 0,
n2
n


tambm consistente.

Discutiremos agora um conjunto de condies sucientes para que o EMV

seja consistente. Primeiro, considere a expanso em sries de Taylor da log

verossimilhana em torno de

d
1
d2
l()= + ( )2 2 l()=
d
2
d
2
1
+ ( )U (x|) + ( )2 d l()
= l()
=
=
2 
d2
 2
1 ( )2 l()
= l()
=
2
2

+ ( )
l() l()

110

logo,



exp 1 ( )2 nIF ()
,
L() L()
2
mostrando que a verossimilhana se aproxima de uma densidade normal.

O Teorema abaixo d as condies sucientes para convergncia em distribuio dos EMVs para a distribuio normal.

Teorema 6.4. Sejam X1 , X2 , . . . , Xn vaiid com X1 f (.|), R satisfazendo as condies de regularidade (a) e (b). Suponha ainda que
1. 0 < IF () <

2. E suph:|h|
2 l( + h)
2

Ento


2
2 l()

0 quando 0.

n( ) N (0, IF ()1 ),

onde o o EMV de .
Proof.

Seja

(u) = log f (X| + u/ n) log f (x|).


u que
maximiza (u) equivalente ao

0 (, + u/ n) a expano de l( + u/ n)
de

Notemos ento que o valor de


maximiza

L().

Para

de Taylor em torno

valor que
em sries

u
u2 2
log f (x| + u/ n) = log f (x|) +
log f (x|) +
log f (x|0 ),
2n 2
n
o que gera a seguinte expresso para

(u)

u
u2 2
(u) = U (x|) +
log f (x|0 ).
2n 2
n
Agora, notemos que

u
(u) = U (x|) +
n
u
= U (x|) +
n

u2 2
u2 2
log f (x|0 )
log f (x|)
2
2n
2n 2


u2 2
2
u2 2
0
log
f
(x|
)

log
f
(x|)
+
log f (x|)
2
2
2n

2n 2
(6.5)

Fazendo

An =

1
n


2
2
0
log
f
(x|
)

log
f
(x|)
,
2
2
111


0 = + h com h u/ n,

n

1 X 2
2
An
log f (Xi | + h) 2 log f (Xi |)

2
n i=1



n
2

1X
2

log
f
(X
|
+
h)

log
f
(X
|)
sup
i
i


2
2
n i=1 {h:|h| un }

temos que, para

0, n ,
logo,

q.c.

|An | 0.

Reescrevendo a Equao (6.5), temos

!
n
u2
1 X 2
log f (Xi |) + I() + An
2
n i=1
2

u
u2
u2
(u) = U (X|) I() +
2
2
n

Os dois ltimos termos convergem rapidamente para

quando

n .

Para

|u| K ,

e o mximo de

(
u),

u
u2
(u) = U (X|) I() + op (1)
2
n

(u) obtido em u
= U (X|)/ nI(). Lembrando

que

=
L()

teremos

U (X|)
= + = +
nI()
n
e, como

D
U (X|)/ n N (0, I()), temos que


D
n N (0, I()1 ).

(6.6)

6.3 Testes Assintticos


Existem alguns testes que foram planejados para serem utilizados para uma
grande variedade de famlias de distribuies quando o tamanho da amostra
grande. Nestes casos, certas estatsticas possuem distribuio (aproximada)
conhecida sob a hiptese nula.

Consideremos o problema de testar

= q.
dim()

(1) Estatstica de Wald:


e

I()

H0 : = 0

contra

H1 : 6= 0 ,

onde

As seguintes estatsticas so usualmente utilizadas:

0 )
W = n( 0 )T I()(

onde

a Matriz de Informao de Fisher aplicada em

(2) Estatstica de Wilks:

= 2 log (X) = 2 log L()/L()


112

o EMV de

(3) Estatstica Escore (ou de Rao):

R = U (X|0 )T I 1 (0 )U (X|0 )/n.

As trs estatsticas acima convergem em distribuio para uma

2q .

Antes

de demonstrar este resultado, convm enunciarmos uma verso multivariada do


Teorema 6.4.

Teorema 6.5. Sejam

X1 , X2 , . . . , Xn vaiid com X1 f (.|), Rq satis-

fazendo as verses multivariadas das condies de regularidade (a) e (b) dadas


na Seo 6.2. Suponha ainda que
1. I() positiva denida.

2. E suph:||h||
T l( + h)

Ento

2
T

o

l() 0 quando 0.

n( ) N (0, I 1 ()).
D

Proposio 6.6. As estatsticas de Wald, Wilks e Rao convergem em distribuio


para 2q .
Proof.

Suponha que

H0

verdadeira. Ento,

(1) Estatstica de Wald: pela Lei Fraca dos Grandes Nmeros,

.
I()

Uti-

lizando o Teorema de Slutsky e o Teorema 6.5, temos que

n( ) N (0, I 1 ()),

e que implica que a estatstica de Wald converge em distribuio para

2q .

(2) Estatstica de Wilks: considere a seguinte expanso em sries de Taylor de


segunda ordem em torno de



1
n( 0 )T
log L() |=0
n


2
n
1

+ ( 0 )T
log
L()
|
=0 ( 0 ).
2
n T

= log L(0 ) +
log L()

(6.7)

Agora, considere a seguinte expanso em sries de Taylor de primeira ordem


em torno de


1
1

log L() |=0 =


log L() =
n
n



1 2

log
L()
n( 0 )
=
T
n
113

(6.8)

O primeiro termo depois do colchete acima igual a zero e o segundo


converge em probabilidade para o simtrico ltimo termo da Equao 6.7.
Unindo as Equaes 6.7 e 6.8 teremos

2 log

L(0 )
= ( 0 )T I(0 )( 0 ),

L()

logo, a estatstica de Wilks assintoticamente equivalente estatisitica de


Wald.
(3) Estatstca Escore: temos que

U (X|) =

n
X

log f (Xi |),

i=1

e que

E[U (X|0 )] = 0, V ar[U (X|0 )] = I(0 )n,


D
logo, pelo TCL, U (X|0 )/ n N (0, I(0 )) e a estatstica Escore converge
2
em distribuio para uma q .
Ver Bai and Fu (1987)

114

Bibliography
Z. D. Bai and J. C. Fu. On the maximum-likelihood estimator for the location

The Canadian Journal of Statistics / La


Revue Canadienne de Statistique, 15(2):pp. 137146, 1987.

parameter of a cauchy distribution.

P.J. Bickel and K.A. Doksum.

Topics.

Mathematical Statistics: Basic Ideas And Selected

Number v. 1 in Mathematical Statistics: Basic Ideas and Selected

Topics. Pearson Prentice Hall, 2006. ISBN 9780132306379.


G. Casella.

Statistical Inference.

Duxbury Advanced Series. Duxbury Thomson

Learning, 2002. ISBN 9780495391876.


D.R. Cox.

Principles of Statistical Inference. Cambridge University Press, 2006.

ISBN 9780521685672.
D.R. Cox and D.V. Hinkley.

Theoretical Statistics.

Chapman and Hall, 1979.

ISBN 9780470181447.
B.R. James.

Probabilidade: um curso em nvel intermedirio.

Projeto Euclides.

Instituto de Matemtica Pura e Aplicada, 2008. ISBN 9788524401015.


E. L. Lehmann. An interpretation of completeness and basu's theorem.

of the American Statistical Association, 76(374):pp. 335340, 1981.

Journal

The Bayesian Choice: From Decision-Theoretic Foundations to Computational Implementation (Springer Texts in Statistics) by.

Christian P Robert.

Springer-Verlag New York, 2001.


Wei-Kei Shiue, Lee J. Bain, and Max Engelhardt.

Test of equal gamma-

distribution means with unknown and unequal shape parameters.

metrics, 30(2):pp. 169174, 1988.


L. Wasserman.

Techno-

All of Statistics: A Concise Course in Statistical Inference.

Springer Texts in Statistics. Springer, 2010.

115

Anda mungkin juga menyukai