Anda di halaman 1dari 5

Metodo Bootstrap

Francisco Cribari Neto


1 Introducao
O metodo bootstrap, introduzido por Efron (1979), e um metodo de reamostragem
baseado na constru cao de subamostras a partir de uma amostra inicial. Na verdade,
trata-se tanto de uma alternativa para o processo inferencial como tambem de uma fer-
ramenta de diagnostico.

E bastante util quando se deseja avaliar, para um certo esti-
mador, o seu erro padrao, o seu vies, ou ainda quando se quer estimar a distribui cao
de probabilidade do estimador. O metodo bootstrap pode ser construdo parametrica
ou nao-parametricamente. No bootstrap parametrico, fazemos suposi coes distribucionais
e reamostramos observa coes da distribui cao postulada, mas usando os valores das esti-
mativas dos parametros no processo de gera cao de pseudo-amostras. No bootstrap nao-
parametrico, o processo de reamostragem se da a partir da fun cao de distribui cao emprica
dos dados (ou dos resduos quando ha uma estrutura de regressao).
Freedman (1981) e Wu (1986) discutem detalhadamente propriedades do metodo
bootstrap em analises de regressao tratando de dois problemas, o primeiro sendo a de-
termina cao da precisao dos coecientes estimados de regressao ou valores ajustados da
resposta media e o segundo sendo o estudo da inuencia da sele cao de variaveis ou do
modelo sobre o vies de alguma medida do modelo ajustado. Efron e Tibshirani (1986)
apresentam muitas aplica coes do metodo bootstrap para procedimentos estatsticos, tais
como series temporais e dados censurados. Fisher e Hall (1989) mostram como obter
regioes de conan ca via bootstrap quando se utilizam dados circulares.
2 Metodo Bootstrap
Considere uma amostra aleatoria y = (y
1
, . . . , y
n
) cujos valores sao realiza coes de
variaveis aleatorias independentes e identicamente distribudas Y
1
, . . . , Y
n
, cada uma pos-
suindo fun cao de densidade de probabilidade e fun cao de distribui cao denotadas por f
e F, respectivamente. A amostra e usada para realizar inferencia sobre alguma carac-
terstica da popula cao, genericamente denotada por , atraves de uma estatstica T cujo
valor na amostra e t.
Ha duas situa coes distintas para diferenciar o bootstrap parametrico e o nao-parametrico.
Quando ha um modelo com constantes ajustaveis ou parametros que determinam com-
pletamente f, tal modelo e chamado de parametrico e metodos estatsticos baseados neste
1
modelo sao metodos parametricos. Neste caso, o parametro de interesse e uma compo-
nente ou uma fun cao de . Quando nenhum modelo matematico deste tipo e usado, a
analise estatstica e nao-parametrica e usa apenas o fato de que as variaveis aleatorias Y
i
s
sao independentes e identicamente distribudas. Mesmo se houver um modelo parametrico
plausvel, uma analise nao-parametrica pode ainda ser util para avaliar a robustez das
conclusoes de uma analise parametrica.
Um importante papel e desempenhado na analise nao-parametrica pela distribui cao
emprica, que coloca probabilidades iguais a n
1
em cada valor y
i
da amostra. A estimativa
usada de F e a fun cao de distribui cao emprica

F, que e denida como

F(y) = #
y
j
y
n
.
Nota-se que o valor do salto da fun cao de distribui cao emprica no ponto y
i
e a propor cao
de vezes em que y
i
aparece na amostra. Se denotarmos essa propor cao por f
i
, e se,
por exemplo, estivermos interessados em estimar a media, teremos

=

n
i=1
f
i
y
i
. As
propor coes f
i
podem assumir valores 0, 1/n, 2/n, . . . , 1, satisfazendo

n
i=1
f
i
= 1.
De forma mais ampla, a estatstica de interesse t e uma fun cao simetrica de y
1
, . . . , y
n
,
signicando que t nao e afetada pelo reordenamento dos dados. Isto implica que t depende
apenas dos valores ordenados y
(1)
, . . . , y
(n)
ou, equivalentemente, da fun cao de distribui cao
emprica

F. Freq uentemente isto pode ser expresso simplesmente como t = t(

F), onde
t() e uma fun cao estatstica essencialmente e apenas uma expressao matematica do
algoritmo para computar t a partir de

F. Tal fun cao estatstica e de importancia central
no caso nao-parametrico porque tambem dene a quantidade de interesse atraves de
= t(F). Isto corresponde `a ideia qualitativa de que e uma caracterstica da popula cao
descrita por F. A mesma deni cao de se aplica em problemas parametricos, onde e
usualmente denido como um dos parametros em .
A rela cao entre a estimativa t e

F pode ser geralmente expressa como t = t(

F),
correspondendo `a rela cao = t(F) entre a caracterstica de interesse e a distribui cao. A
fun cao estatstica t() e utilizada para representar a estimativa de baseada nos dados
observados y
1
, . . . , y
n
.
Suponha um modelo parametrico particular para a distribui cao dos dados y
1
, . . . , y
n
.
Usaremos F

(y) e f

(y) para denotar a fun cao de distribui cao e a fun cao densidade, res-
pectivamente. Quando e estimado por

freq uentemente, mas nao invariavelmente,
pela sua estimativa de maxima verossimilhan ca a substitui cao por

no modelo resulta
no modelo ajustado, com fun cao de distribui cao

F(y) = F
b

(y), que pode ser usado para


se obter conhecimento sobre propriedades de T, `as vezes com exatidao.
A utiliza cao do metodo bootstrap se justica quando a teoria assintotica e intratavel ou
quando, apesar de viavel, as aproxima coes assintoticas de primeira ordem sao imprecisas
para os tamanhos amostrais disponveis. Quando, por exemplo, a teoria assintotica fornece
uma aproxima cao imprecisa para a distribui cao de uma estatstica de teste, as diferen cas
entre o nvel exato do teste (realizado com base em valores crticos assintoticos) e o
nvel nominal podem ser substanciais. A aplica cao de bootstrap, neste caso, e de grande
2
relevancia, uma vez que o metodo pode reduzir consideravelmente, ou ate mesmo elimi-
nar, distor coes de tamanho de testes estatsticos em amostras nitas (Espinheira, 2003).
Segundo Horowitz (1997), procedimentos bootstrap simples fornecem aproxima coes me-
lhoradas para a distribui cao de estatsticas assintoticamente pivotais, mas nao para a
distribui cao de estatsticas que nao apresentam esta propriedade. Beran (1988) mostra
que se a distribui cao assintotica da estatstica, sob a hipotese nula, e pivotal, entao, sob
algumas condi coes de regularidade, os tamanhos de testes bootstrap apresentam erros
de ordem menor, i.e., erros cujas ordens convergem mais rapidamente para zero que as
ordens dos erros dos testes baseados na teoria assintotica de primeira ordem.
3 Bootstrap em Modelos de Regressao
Bootstrap e um metodo que pode ser usado para avaliar a precisao de estimativas
estatsticas baseado em simula coes. O metodo bootstrap tipicamente produz uma aproxi-
ma cao para a distribui cao da estatstica de interesse que pode ser consideravelmente mais
precisa do que sua aproxima cao assintotica de primeira ordem. A aplica cao de bootstrap
em modelos de regressao foi estudada em detalhes por Wu (1986). Mais recentemente,
muitos autores tem investigado o uso deste metodo em econometria, entre eles estao
Horowitz (1997), Jeong e Maddala (1993), Li e Maddala (1996) e Vinod (1993).
Considere o seguinte modelo:
y
i
=
1
+
2
x
i2
+ . . . +
k
x
ik
+
i
, i = 1, . . . , n,
onde = (
1
, . . . ,
n
) e um vetor de erros com media zero e variancia constante,
2
, e
E(
i

j
) = 0, i = j. Suponha agora que desejamos um erro-padrao de bootstrap para b
2
(estimativa pontual de
2
). O procedimento para tanto pode ser descrito como segue:
(P1) Com base na amostra original, estime : b =
_
X

X
_
1
X

y. Obtenha os resduos:
e = y Xb.
(P2) Gere uma pseudo-amostra: y

= Xb +

, onde

= (

1
, . . . ,

n
) e obtido de
usando amostragem com reposi cao.

E comum dividir cada

i
por
_
(1 h
i
), onde
h
i
e o i-esimo elemento da diagonal da matriz chapeu H = X(X

X)
1
X

.
(P3) Regresse y

em X, obtendo b

= (X

X)
1
X

.
(P4) Repita (P2) e (P3) B vezes.
(P5) Use B+1 realiza coes de b
2
para obter uma estimativa bootstrap de seu erro-padrao.
Ou seja:
e.p.
boot
(b
2
) =

_
1
B + 1
B

j=0
(b

2,j
b

2
)
2
,
onde b

2
=
1
B+1

B
j=0
b

2,j
.
3
No entanto, quando ha heteroscedasticidade o procedimento acima deve ser modi-
cado. Tal mudan ca ocorrera em (P2), permanecendo os demais passos iguais. Esta
mudan ca e chamada de bootstrap selvagem e e dada por:
(P2) Obtenha

1
, . . . ,

n
de uma popula cao com media zero e variancia um (de forma
independente). Gere y

1
, . . . , y

n
:
y

i
= x

i
b +

i
e
i

1 h
i
, i = 1, . . . , n.
Wu (1986) mostrou que o estimador de V (b) obtido desta forma e consistente e as-
sintoticamente nao-viesado sob homoscedasticidade e sob heteroscedasticidade de forma
desconhecida.
Uma outra abordagem importante e a dos testes bootstrap. Suponha que o modelo e
y
i
=
1
+
2
x
i2
+
3
x
i3
+
i
, i = 1, . . . , n,
e que desejamos testar H
0
:
3
= 1 contra H
1
:
3
= 1. Suponha tambem que suspeitamos
da presen ca de heteroscedasticidade e nao desejamos assumir normalidade. Procedimento:
(P1) Para a amostra original, calcule b = (X

X)
1
X

y, e a estatstica de teste T =
b
3
1/
_

V (b
3
), onde

V (b
3
) e um estimador consistente de V (b
3
) sob heteroscedas-
ticidade.
(P2) Use bootstrap ponderado para gerar y

= (y

1
, . . . , y

n
) e regresse y

em X : b

=
(X

X)
1
X

. Calcule e a estatstica de teste T

= b

3
1/
_

V (b

3
). Na gera cao
dos dados imponha a hipotese nula.
(P3) Repita (P2) B vezes.
(P4) Use as B + 1 realiza coes da estatstica de teste para obter uma estimativa do valor
crtico.
Referencias
[1] Efron, B. (1979). Bootstrap methods: another look at the jackknife. The Annals of
Statistics 7: 1-25.
[2] Efron, B. e Tibshirani, R. J. (1993). An Introducion to the Bootstrap. New York:
Chapman e Hall.
[3] Davidson, A. C. e Hinkley, D. V. (1997). Bootstrap Methods e Their Applications. New
York: Cambridge University Press.
4
Comandos no R
# Load add-on packages
library(bootstrap)
# Read the data
x1 <- rnorm(100, mean=2)
x2 <- x1^2
y <- rnorm(100, mean=16)
# Fit linear model
ajuste<-lm(y~x1+x2)
# Result summaries of the model fitting
summary(ajuste)
# res receives residuos of the model fitting
res <- ajuste$res
# Xbeta receives X*beta of the model fitting
Xbeta <- ajuste$fit
# armazenando os valores que serao usados na funcao
xdata<-cbind(x1,x2,Xbeta,res)
# function of bootstrap
theta<-function(x,xdata)
{
x1b<-xdata[,1] # x1 bootstrap
x2b<-xdata[,2] # x2 bootstrap
xbetab<-xdata[,3] # XBeta bootstrap
resb<-xdata[x,4] # residuos
# Obtaining y.boot
y.boot <- xbetab + resb
# Fit linear model
ajuste.boot <- lm(y.boot~x1b+x2b)
# Return of bootstrap
ajuste.boot$coef
}
# aplicando a funcao bootstrap 10 vezes
results<-bootstrap(1:100,10,theta,xdata)
5

Anda mungkin juga menyukai