Anda di halaman 1dari 65

Curso de Imputao

Pedro Albuquerque
Universidade de Braslia
Agenda
1) Introduo a imputao de dados.

2) Conceitos bsicos de amostragem.

3) Conceitos bsicos de imputao de dados.

4) Vis resultante da no-resposta.

5) Principais mtodos para o tratamento de no-resposta.

No-resposta
A imputao surge como uma ferramenta para o tratamento da no-
resposta.
O primeiro passo no sentido de obter a participao de uma pessoa
na amostra de uma pesquisa fazer contato. Se isso no for
possvel, voc tem no-resposta devido falta de contato.
Encontrada a observao de interesse essa pode ou no colaborar
com a pesquisa, caso essa no colabore, voc tem um caso de no-
resposta, devido recusa.
No-resposta
Mesmo que a pessoa amostrada deseje colaborar, isso nem sempre
possvel, devido a doenas, problemas de linguagem ou instruo.
Nesse caso a no-resposta devido a incapacidade do
respondente.
E o ltimo caso ocorre quando o indivduo selecionado se recusa a
responder, ou no sabe, a informao de alguma(s) pergunta(s)
especficas:
Voc a favor ou contra a legalizao do aborto ?
Voc a favor da reduo da maioridade penal ?
Qual a sua renda ?
Voc j cometeu algum crime ?
No-resposta na estimao de
medidas.
Suponha que a populao em geral fique constrangida a responder
ser favorvel a legalizao do aborto.
Nesse caso, pode acontecer da maioria da no-reposta ser de pessoas
favorveis a legalizao do aborto, e se essa parcela da populao for
maior do que a parcela contrria, os resultados obtidos podero ter
um vis.
Consequentemente, o pesquisador chegaria a concluses errneas,
caso a no-reposta no fosse adequadamente tratada.

Qual a sua renda ?
Informaes do respondente
Carro Casa
Imputao de dados.
Um mtodo de tratamento de no-resposta de item a imputao, a
qual fornece meios de substituir o valor faltante de uma varivel de
interesse por um valor imputado (ou esperado) para o mesmo
indivduo.
Ento, no nosso exemplo, caractersticas como:
Carro usado.
Tamanho da casa.
Nmero de quartos.
Trabalho exercido
Podem fornecer pistas quanto ao valor da renda omitido pelo nosso
participante.
Evitando a no-resposta.
Melhor do que imputar valores as variveis pesquisadas e omitidas
evitar que essa no-reposta ocorra.
Nesse sentido, h alguma estratgias que podem ser utilizadas:

Aumento do tamanho amostral.
Callbacks e Follow-ups.
Subamostras de no-respondentes.
Respostas randomizadas.
Aumento do tamanho amostral.
Suponha que a amostra calculada necessria para a pesquisa seja de
1000 respondentes, considere ainda que na cidade em questo h
um percentual histrico de 30% de no-respostas, ento, o que fazer
?
Nesse caso, uma soluo bvia aumentar o tamanho da amostra em
30%, esperando obter uma amostra total efetiva de 1000
respondentes ?
Ser que essa abordagem reduz o vis de constrangimento ou medo
em reponder ?
Callbacks e Follow-ups.
Callbacks
Nas pesquisa pessoais, o primeiro
contato com um potencial
respondente pode ser sem sucesso
por uma variedade de razes.
Por exemplo, ningum pode estar
em casa, a pessoas selecionada
pode estar doente, ou viajando.
Caso o primeiro contato seja sem
sucesso, e comum ligar para a
residncia e insistir na visita.
Follow-ups
Nas pesquisas por carta
(correspondncia), seguem-se as
cartas at seus destinos e
insiste-se no preenchimento do
questionrio, em geral, com a
sugesto de sorteios ou brindes
para aqueles que responderem
completamente o questionrio.
Callbacks e Follow-ups.
Algumas questes:
1) Por que no podemos simplesmente substituir a observao desejada, pelo
seu vizinho se no conseguimos encontr-la ?
Callbacks e Follow-ups.
Algumas questes:
2) A distribuio de brindes e sorteios para quem preencher completamente
o questionrio pode enviesar a pesquisa ?

Em princpio, alguns estudos sugerem que a distribuio de brindes e
instrumentos de motivao na resposta de questionrios no afeta a qualidade
da pesquisa e ainda fornece um tamanho amostral efetivo maior.

Ex: Goritz, A. (2004). The impact of material incentives on response quantity,
response quality, sample composition, survey outcome and cost in online
access panels. INTERNATIONAL JOURNAL OF MARKET RESEARCH., 46, 327-346.

Proposta de processo para amostragem.
Verificar a elegibilidade da unidade amostral.
Contatar a unidade amostral selecionada.
Determine os possveis informantes da unidade selecionada.
Selecione o respondente.
Contate entrevistado e avalie a sua capacidade de responder.
Realize a entrevista.
Utilize de persuaso para evitar a relutncia em responder.
Subamostras de no-respondentes.

Uma outra proposta dividir o plano amostral em mais de uma
etapa, selecionando uma subamostra de no-respondentes para
tentar novamente resposta ao questionrio.
Caso seja muito oneroso ir a campo e tentar encontrar ou
convencer os respondentes faltantes, pode-se fazer uma amostra
das observaes faltantes.
Conjunto dos
No-repondentes
Subamostra dos
No-repondentes
Subamostras de no-respondentes.
Observaes:
preciso corrigir os pesos amostrais
para os elementos dessa subamostra.
Um cadastro atualizado e bem ajustado
pode evitar a no-reposta por falta de
contato.
Respostas randomizadas.
E quanto as questes sensveis ?

Voc a favor da legalizao do aborto ?

Voc contra a legalizao das drogas ?

A maioridade penal deveria ser reduzida ?
Respostas randomizadas.
Uma das formas de incentivar a resposta sincera sobre questes
sensveis na pesquisa garantindo que os respondentes que
esses no sero identificados, e portanto, annimos.

Uma sugesto complementar o uso de respostas randomizadas
(randomized response).

A ideia do mtodo fornecer certa anonimicidade em relao ao
entrevistador.

Respostas randomizadas.
Por exemplo, suponha que a pergunta sensvel a um entrevistado seja
Voc usou drogas ilcitas esse ms ?.

Antes que o entrevistado responda, pedimos a ele que lance uma
moeda.

Pedimos a ele que responda SIM se sair CARA na moeda, e a
VERDADE se sair COROA na moeda.

Respostas randomizadas.
S o respondente tem acesso ao lanamento da moeda, ento,
somente ele sabe se a resposta que ele deu devido ao resultado da
moeda ou de sua experincia.

muito importante assumir que as pessoas que tiraram COROA na
moeda vo responder a verdade, caso contrrio, o entrevistador no
ser capaz de especular a resposta real.

Admitindo uma moeda honesta, metade dos respondentes tiraro
CARA e a outra metade COROA.

Respostas randomizadas.
Portanto, metade das pessoas iro responder "sim",
independentemente de terem usado drogas ou no. A outra metade
ir responder a verdade segundo sua experincia.
Ento uma vez obtida a proporo de nos na pesquisa, a
estimativa populacional ser o dobro desse valor, porque assumimos
que as duas metades so igualmente provveis.
Por exemplo, se 20% da populao pesquisada disse "no", ento a
verdadeira proporo daqueles que no usaram drogas no ltimo
ms de 40%.
Respostas randomizadas.
SIM
SIM
No
50%
50%
20%
80%
Imputao de dados.
Nem sempre possvel evitar a no-resposta no incio da pesquisa,
usualmente, por ser muito oneroso ou o perodo de coleta j
ter sido encerrado.
Nesse caso, precisamos trabalhar com as observaes
efetivamente obtidas.
Os questionrios sem nenhuma resposta so perdidos, e
aqueles questionrios com respostas parciais podem ser
imputados.
H alguns padres clssicos para as
no-respostas em pesquisas:
Padro montono. Padro no-montono.
Imputao de dados.
Quando um conjunto de dados no nem montono
e nem no-montono ele denominado : padro
arbitrrio de valores faltantes.

Essa tipologia importante, pois os mtodos de
imputao disponveis na maioria dos softwares
depende da estrutura apresentada ou assumida para
os dados da pesquisa.
Imputao de dados.
Outras caractersticas possveis so:
1. Missing at Random Nesse caso a ausncia de valores depende
somente das variveis observadas na pesquisa.
2. Missing Completely at Random Nesse caso, a ausncia de
valores na pesquisa no depende de qualquer varivel observada na
pesquisa.
3. Not Missing at Random Nesse caso, assume-se que os dados
ausentes dependem tanto de informaes observadas na pesquisa
bem como valores no observados.

Qual a sua renda ?
Informaes do respondente
Carro Casa
Imputao de dados.
O mtodo mais simples e antigo para tratar no resposta o listwise:

Consiste basicamente de deletar da base de dados todas as
observaes que contenham pelo menos um valor faltante.

Fonte: Allison, P. D. (2001). Missing Data. Sage University Papers
Series on Quantitative Applications in the Social Sciences. 07-136.
Thousand Oaks, CA: Sage.
Imputao de dados.
O problema do mtodo listwise evidente:
1) Pode reduzir em muito o tamanho amostral.
2) Pode induzir em vis, caso o subgrupo de no-respondentes
apresente uma caracterstica distinta das observaes restantes na
base de dados.
J os pontos a favor so:
1) Facilidade de implementao.
2) Ausncia de estimadores complexos.
Imputao de dados.
Outra abordagem simplista para a imputao de dados a
substituio dos valores faltantes pela mdia observada na
amostra para a varivel de interesse:
Observao Idade Gnero Renda Anual
1 29 H R$ 40,000.00
2 45 H R$ 36,000.00
3 81 H --missing--
4 22 --missing-- R$ 16,000.00
5 41 H R$ 98,000.00
6 33 M R$ 60,000.00
7 22 M R$ 24,000.00
8 --missing-- M R$ 81,000.00
9 33 M R$ 55,000.00
10 45 M R$ 80,000.00
Imputao de dados.
No exemplo apresentado, substitumos o valor da renda faltante por
R$ 54,444.44, a idade faltante por 39 e o gnero faltante pela moda,
M.

Observao Idade Gnero Renda Anual
1 29 H R$ 40,000.00
2 45 H R$ 36,000.00
3 81 H R$ 54,444.44
4 22 M R$ 16,000.00
5 41 H R$ 98,000.00
6 33 M R$ 60,000.00
7 22 M R$ 24,000.00
8 39 M R$ 81,000.00
9 33 M R$ 55,000.00
10 45 M R$ 80,000.00
Imputao de dados.
A ideia por detrs do mtodo mean imputation a de substituir o
valor faltante por algum outro valor que no prejudique as
estimativas totais populacionais.
Dessa forma, no precisaramos deletar a observao com valor
faltante, isso particularmente til quando tem-se um tamanho
amostral reduzido.
Fonte: Donders, A. Rogier T., et al. "Review: a gentle introduction to
imputation of missing values." Journal of clinical epidemiology 59.10
(2006): 1087-1091.
Imputao de dados.
O problema do mtodo de imputao pela mdia :
1) Abordagem ingnua que no considera demais covariveis.
2) Como a mdia afetada por valores extremos, o valor imputado
pode estar comprometido.
J os pontos a favor so:
1) Facilidade de implementao.
2) Ausncia de estimadores complexos.
3) Mantm-se todas as observaes na base de dados.
Imputao de dados.
Podemos estender a ideia do mtodo anterior utilizando uma mdia
condicional.
Por exemplo, considere novamente o nosso exemplo :
Sabendo dessas informaes,
podemos estimar uma renda
mdia ?
Carro Casa
Imputao de dados.
De igual modo, considerando a base de dados:









E admitindo que a renda anual possa ser prevista por meio da idade,
temos:

Observao Idade Gnero Renda Anual
1 29 H R$ 40,000.00
2 45 H R$ 36,000.00
3 81 H --missing--
4 22 --missing-- R$ 16,000.00
5 41 H R$ 98,000.00
6 33 M R$ 60,000.00
7 22 M R$ 24,000.00
8 --missing-- M R$ 81,000.00
9 33 M R$ 55,000.00
10 45 M R$ 80,000.00
Imputao de dados.

R$ 0.00
R$ 20,000.00
R$ 40,000.00
R$ 60,000.00
R$ 80,000.00
R$ 100,000.00
R$ 120,000.00
20 25 30 35 40 45 50
Idade x Renda
Imputao de dados.

y = 2096.2x - 19622
R$ 0.00
R$ 20,000.00
R$ 40,000.00
R$ 60,000.00
R$ 80,000.00
R$ 100,000.00
R$ 120,000.00
20 25 30 35 40 45 50
Idade x Renda

R$ 0.00
R$ 20,000.00
R$ 40,000.00
R$ 60,000.00
R$ 80,000.00
R$ 100,000.00
R$ 120,000.00
20 30 40 50 60 70 80
Idade x Renda
Imputao de dados.
Ento, o ideal considerar mtodos de imputao mltiplos, os quais
fornecem ferramentas adequadas dependendo do padro de missings
apresentado pelas bases de dados.

Devido a capacidade do processo de imputao mltipla de
incorporar tcnicas estatisticamente sofisticadas e amostrar valores
plausveis para as observaes faltantes considerando variabilidade
introduzida pelo processo de seleo essa abordagem a mais ideal
para se imputar valores faltantes.
Literatura indicada








Rubin, Donald B. Multiple imputation for nonresponse in surveys. Vol. 81.
John Wiley & Sons, 2004.
Literatura indicada








Srndal, Carl-Erik, and Sixten Lundstrm. Estimation in surveys with
nonresponse. John Wiley & Sons, 2005.
Literatura indicada








Groves, Robert M., and Mick P. Couper. Nonresponse in household
interview surveys. John Wiley & Sons, 2012.
Curso de Imputao (Parte 2)

1) Viso Geral de um Sistema de crtica e imputao.
2) Introduo metodologia utilizada pelo CANCEIS (Software de
Crtica e Imputao) .
3) Exemplos de utilizao do CANCEIS para crtica e imputao nas
pesquisas do IBGE (Censo, Censo Agropecurio, PNAD e POF).
4) Exemplo prtico de utilizao do CANCEIS para crtica e imputao
de dados em um subconjunto da PNAD 2012.

Anda mungkin juga menyukai