Anda di halaman 1dari 77

Por que aleatorizar?

Claudio Ferraz
Professor PUC-Rio
Pesquisador afiliado do J-PAL
Estrutura

1. Inferência causal

2. O que é impacto?

3. Métodos de avaliação de impacto

4. Avaliações aleatorizadas

5. Críticas e limitações

2
Introdução

Correlação não implica causalidade

• Quando avaliamos um programa, precisamos separar correlações de


causalidade

• Correlação acontece quando duas coisas andam juntas, mas isso não
implica que uma é causa da outra

3
Consumo de sorvete Qualidade da educação dos países
per capita (litros por
ano)

Fonte: The Economist Pontuação média na prova PISA de linguagem 4


O problema da inferência causal
Pensemos no seguinte caso:

Uma família do semiárido rural brasileiro apresentava situação de


insegurança alimentar

O governo, buscando promover alternativas para o convívio com a seca e


com atividades agrícolas familiares, lançou um programa de distribuição de
cisternas para a captação de água da chuva

5
O problema da inferência causal

Alguns anos depois, observamos que famílias contempladas pelo programa


passaram a uma situação de segurança alimentar

Podemos concluir com essa informação que o Programa Cisternas solucionou


a situação de insegurança alimentar da família?

6
O problema da inferência causal

• O gestor do Programa Cisternas quer saber se foi o acesso à água que


solucionou o problema da família

• O avaliador diz que não é possível obter uma conclusão, já que é


impossível conhecer o que aconteceria com esta família se ela não tivesse
sido beneficiada pelo Programa Cisternas

• Para poder medir o impacto do programa, precisamos saber o que teria


acontecido com cada família com e sem a cisterna

7
O problema da inferência causal

• Não podemos calcular o impacto de um tratamento para um indivíduo i


porque não podemos observar o mesmo indivíduo nos dois estados (com e
sem tratamento)

• Para avaliar o impacto de um programa, precisamos de uma estimativa do


nosso contrafactual
– Contrafactual é o resultado que os mesmos participantes de um programa
teriam obtido em um mesmo momento do tempo, mas no caso hipotético de
não participarem do programa

8
O que é impacto?
O que queremos medir?

• Com a avaliação de impacto, queremos determinar os efeitos causados pelo


programa

• Para isso, devemos separar o efeito do programa do efeito que outras variáveis
podem ter nos resultados observados

10
Problema da atribuição causal

• As pessoas que decidem realizar uma ação têm características diferentes das
pessoas que não o fazem
• As pessoas escolhidas para receber um benefício têm características
diferentes das pessoas que não foram escolhidas

Esse problema é conhecido como problema de seleção

11
O que é impacto?
Resultados que os
participantes do programa
obtêm um tempo depois de
participar do programa

Contrafactual Resultados que esses mesmos


participantes teriam obtido
nesse mesmo momento no
caso hipotético de não terem
participado do programa

IMPACTO

13
O problema da inferência causal

• O contrafactual é hipotético: representa o estado que aquela população


teria experimentado se o programa não tivesse sido aplicado

Nunca poderemos observá-lo

Impacto do
programa

Resultado Resultado
com o sem o
programa programa
13
Qual é o impacto do programa?
Resultado
Início do
programa

Tempo

14
Qual é o impacto do programa?
Resultado
Início do
programa

Impacto

Tempo

15
O que é impacto?
Resultado
Início do Impacto
programa

Tempo

16
O que é impacto?
Resultado
Início do
programa

Impacto

Tempo

17
Como medir impacto?

• Para que seja possível estimar impacto, precisamos construir um


contrafactual

• Para estimá-lo, precisamos selecionar um grupo de comparação


que seja igual ao grupo de participantes antes da intervenção

Os diferentes métodos de avaliação de impacto se diferenciam em


como estimam o contrafactual

18
Métodos de avaliação de impacto
Métodos de avaliação de impacto
A principal diferença entre os distintos métodos é como
se estima o contrafactual: como definimos quem forma
o grupo de controle

Métodos não Métodos quasi- Método


experimentais experimentais experimental
• Antes e depois • Regressão • Seleção
multivariada aleatorizada
• Diferença dos grupos de
simples • Diferenças em tratamento e
diferenças controle

• Pareamento

• Regressão
descontínua
20
Exemplo

Capacitações de jovens na Colômbia

21
Fonte: J-PAL
Capacitações de jovens na Colômbia

Em 2001, o governo colombiano implementou o programa Jovens em Ação

• Objetivo: fornecer capacitação a jovens para que eles encontrassem


emprego

• População-alvo: jovens de 18 a 25 anos, de baixa renda

22
Capacitações de jovens na Colômbia

• Para medir o impacto, tipicamente escolhemos uma variável de interesse


(educação, saúde, taxa de emprego, etc.)

• Suponhamos que queremos medir o impacto de Jovens em Ação sobre a


taxa de emprego juvenil

• Como medimos?

23
Antes e depois

24
Antes e depois

• Descrição: mede como os participantes do programa mudam ao longo do


tempo

• Grupo de controle: os mesmos participantes, antes de entrar no programa

• Premissa: não há fatores relevantes no tempo que afetem o resultado além


do programa

25
Antes e depois
Capacitação de jovens na Colômbia

Média
Taxa de
Antes 47%
emprego
Depois 70%
Diferença (p.p.) 23. p.p.
70%
Mudança % 50%
47%

Concluímos que o
programa teve um
efeito positivo de
50%
Antes da Depois da Tempo
capacitação capacitação
28
Antes e depois: qual é o impacto?

Grupo de
Taxa de tratamento
emprego

IMPACTO
POSITIVO
+50%

CONTRAFACTUAL

Tempo
2001
INÍCIO DO
PROGRAMA 27
Diferença simples

28
Diferença simples

• Descrição: Mede a diferença entre os participantes e não participantes


depois do programa

• Grupo de Controle: não participantes sobre os quais os dados são recolhidos


depois do programa

• Premissa: a única diferença entre os participantes e não participantes é o


programa. Os dois grupos têm a mesma probabilidade de participar do
programa

29
Diferença simples
Capacitação de jovens na Colômbia
Média
Taxa de
emprego Não participaram 64%
Participaram 70%
70%
Diferença (p.p.) 6 p.p.**
Aumento
~10%
(Mudança %)

64%
Concluímos que o
programa teve um impacto
positivo de ~10% nos jovens
que participaram
Não participantes Participantes
32
Diferenças em diferenças

31
Diferenças em diferenças

Descrição:
• Combina o método de antes e depois com o método de diferença simples
• Compara a mudança no tempo da variável de resultado entre o grupo
que recebe e o grupo que não recebe o programa
• Corrige por diferenças pré-existentes nos dois grupos (observáveis e não
observáveis)

Grupo de controle: não participantes sobre os quais os dados são recolhidos


antes e depois do programa

35
Diferenças em diferenças
Capacitações de jovens na Colômbia

Taxa de
emprego Participaram
Participaron Não
No participaram
participaron
80(%)
70,2
63,8
60

46,9
41,9
40

A B C D
20

0
Antes
Antes deda
la capacitação
capacitación Después de
Depoisde
Después la
dala capacitación
capacitação
capacitacisón
36
Diferenças em diferenças
Capacitação de jovens na Colômbia

Antes da Depois da
capacitação capacitação

Participaram 46,9% (A) 70,2% (B)

Não participaram 41,9% (C) 63,8% (D)

Diferença (p.p.) 5 p.p 6,4 p.p D 1,4 p.p


(A-C) (B-D) (B-D) - (A-C)

O cálculo das diferenças


pode ser feito por colunas...
Diferenças em diferenças
Capacitação de jovens na Colômbia

...ou por linhas

Antes da Depois da
Diferença
capacitação capacitação

Participaram 46,9% (A) 70,2% (B) 23,3 p.p (B-A)

Não participaram 41,9% (C) 63,8% (D) D


21,9 p.p (D-C)

1,4 p.p (B-A) - (D-C)

38
Diferenças em diferenças

A
de emprego
Impacto = (A-B) – (C-D)
Consumo

Contrafactual
Taxa

Participou do B
Programa C

D
Não participou
do Programa

T=0 T=1 Tempo 39


Diferenças em diferenças

• Descrição: Compara a mudança no tempo da variável de resultado entre o


grupo beneficiado e o não beneficiado pelo programa

• Grupo de controle: não participantes sobre os quais os dados são recolhidos


antes e depois do programa

• Premissa: Assume que, na ausência do programa, tendências entre


participantes e não participantes se manteriam paralelas

40
Regressão multivariada

38
Regressão multivariada

• Descrição: permite ver a relação entre o fato de participar de um programa e


uma variável de interesse, mantendo constante ou “controlando” por outras
variáveis
– Por exemplo: renda dos pais, educação, etc.

• Grupo de controle: não participantes sobre os quais se coletam dados


detalhados sobre variáveis observáveis

39
Regressão multivariada

• Se os jovens fossem comparados em relação à renda de seus pais, qual seria


a relação entre participar no Jovens em Ação e a taxa de emprego?

Impacto no Emprego (Y)


Regressão linear +10%

Regressão linear multivariada + 4%

• Ao comparar os grupos controlando pela renda dos pais, observamos que a


maior parte da diferença se reduz!

40
Regressão multivariada

• Descrição: permite ver a relação entre o fato de participar de um programa


e uma variável de interesse, levando em consideração mantendo
constante ou “controlando” por outras variáveis

• Grupo de controle: não participantes sobre os quais se coletam dados


detalhados sobre variáveis observáveis

• Premissa: não existe viés devido a variáveis omitidas

41
Pareamento

42
Pareamento

• Descrição: para cada unidade de tratamento, busca-se o melhor “par” de


outra população sem tratamento

• Grupo de controle: para cada participante, busca-se ao menos um não


participante que é idêntico nas características selecionadas

47
Capacitação de jovens na Colômbia
Buscamos pares idênticos

Tratamento Controle
Mostra não tratada
(potenciais controles)
Taxa de
65% 63,2%
emprego

Diferença + 2,7p.p.

48
Pareamento

• Descrição: para cada unidade de tratamento, busca-se o melhor “par”


de outra população sem tratamento

• Grupo de controle: para cada participante, busca-se ao menos um não


participante que é idêntico nas características selecionadas

• Premissa: as características não selecionadas para o pareamento não


influenciam nos resultados

49
Regressão descontínua

46
Regressão descontínua

• Descrição: Os indivíduos são classificados com base em critérios mensuráveis.


Uma linha de corte determina se uma pessoa é elegível ou não. Comparam-
se as pessoas que estão logo acima e abaixo da linha de corte

• Grupo de controle: as pessoas logo acima ou abaixo do ponto de corte e


que não são elegíveis

51
Capacitação de jovens na Colômbia

Taxa de Linha
emprego de corte

Não elegível
para Elegível para
capacitação capacitação

Índice de vulnerabilidade

52
Capacitação de jovens na Colômbia

Taxa de Linha
emprego de corte

Impacto

Sem Com capacitação


capacitação

Vulnerabilidade

53
Regressão descontínua

• Descrição: Os indivíduos são classificados com base em critérios


mensuráveis. Uma linha de corte determina se uma pessoa é elegível ou
não. Comparam-se as pessoas que estão logo acima e abaixo do limite

• Grupo de controle: as pessoas logo abaixo do limite (e que por isso não
recebem o programa)

• Premissas:
− A linha de corte é um limite estrito de entrada ou não no programa
− Efetivamente não existem diferenças significativas entre as pessoas
acima e abaixo do corte

54
Avaliações aleatorizadas
O que é uma avaliação aleatorizada

• A definição do grupo que receberá o tratamento é feita por meio de um


sorteio. Com isso, encontra-se um grupo de controle válido

• Objetivo:
Selecionar um grupo que tenha características iguais ao grupo de
participantes em todas as dimensões, exceto em receber ou não o
programa

52
Por que aleatorizar?

• Uma escolha aleatória bem feita elimina o viés de seleção antes que o
programa se inicie

• Qualquer diferença observável nos indicadores de resultados pode ser


atribuída ao programa

53
Na ausência do programa, grupos de tratamento e controle
são comparáveis
em variáveis observáveis e não observáveis

Grupo de
tratamento

Grupo de
controle
População elegível

54
Avaliação aleatorizada

Fora da
avaliação

População População
total alvo

Tratamento
Amostra
Alocação
da
aleatória
avaliação
Controle

55
Premissas

• Aleatorização bem feita gera grupos estatisticamente idênticos

• Isso pode ser comprovado com teste de equilíbrio


– Compara as características dos dois grupos na linha de base

56
Avaliação aleatorizada

• Descrição: utiliza-se um sorteio para designar unidades ao grupo de


tratamento e ao grupo de controle

• Grupo de controle: a parte da população elegível que, de maneira


aleatória, é designada ao grupo de controle

• Premissas: respeita-se o protocolo de designação aleatória, e os dois


grupos são estatisticamente idênticos

62
Críticas e limitações à avaliação
aleatorizada
Críticas frequentes

• As avaliações aleatorizadas são tecnicamente superiores aos outros


métodos apresentados (não e quasi-experimentais), e são mais fáceis de
entender

• Mas...

são éticas?
são viáveis por seus custos e sua duração?
são generalizáveis?

64
São éticas?

• Há poucas políticas que podem atender a todos de uma vez


• A designação aleatória pode ser o modo mais justo de alocar um recurso escasso

• Pode-se fazer uma intervenção em fases, em que todos eventualmente


recebem o programa
• Não é necessário que o grupo de controle não obtenha nada

65
São éticas?

• Pode ser que o impacto do programa seja negativo


• Não é ético desperdiçar o dinheiro em programas que não funcionam

• Não é ético não aprender

66
Quando aleatorizar?

1. Quando há excesso ou déficit de demanda


2. Quando um programa está sendo testado com um piloto
3. Quando um programa incorpora novos serviços, novos
destinatários ou novos lugares
4. Quando um programa deve ser implementado em etapas
5. Quando um programa tem um critério de admissão numérico

Conclusão: existem numerosas oportunidades!

67
Quando não aleatorizar?

• Muitas perguntas relevantes não exigem uma avaliação de impacto

• Por exemplo: temos um programa de entrega de alimentos a pessoas da


terceira idade, mas elas não estão recebendo ou utilizando o benefício

• Na próxima aula, veremos que perguntas requerem uma avaliação de


impacto para serem respondidas

63
São viáveis por seus custos?

• O que encarece um bom levantamento de dados é seu rigor (tamanho


da amostra)

• É possível fazer avaliações aleatorizadas baratas


• Vantagem de dispor de bons dados administrativos

• Em uma avaliação experimental, não é estritamente necessário levantar


uma linha de base

69
São viáveis por seus custos?

• São caras comparadas a quê?


• As políticas não baseadas em evidência podem acabar sendo muito mais caras

• É melhor ter poucos estudos de boa qualidade do que muitos estudos de


baixa qualidade

• As lições extraídas são um bem público

• Grande parte do trabalho que o J-PAL faz consiste em encontrar soluções


custo-efetivas para problemas de políticas públicas

70
São viáveis por sua duração?
• Depende do que queremos medir, e não do tempo de avaliação

• Ocorre o mesmo com outros métodos de avaliação de impacto: é


necessário esperar que a intervenção produza seus resultados

• Em muitas avaliações, os resultados são calculados cedo demais (antes que


o impacto seja produzido), resultando na atribuição de um impacto diferente
do real

71
São generalizáveis?

“Avaliações aleatorizadas não têm validade externa”

• São tão válidos externamente quanto outros modos de avaliação de impacto

• É possível (e se deve) fazer replicações de políticas efetivas

• Não é possível ter validade externa sem validade interna

72
As vantagens de uma avaliação
aleatorizada
Vantagens

Se são corretamente desenhadas e implementadas, as avaliações


experimentais:
• Eliminam qualquer viés que poderia vir a ocorrer em uma avaliação não
experimental
• A aleatorização faz com que os grupos sejam comparáveis em variáveis
observáveis e não observáveis
• Não é necessário fazer muitas premissas, como nas avaliações não
experimentais
• Os resultados são fáceis de interpretar

Importante para avaliação de políticas públicas!

75
Exemplo: Programa Balsakhi

Fonte: J-PAL
Comparação de métodos de avaliação para o
Programa Balsakhi

Método Impacto
(1) Antes e depois 26.42*
(2) Diferença simples -5.05*
(3) Diferenças em diferenças 6.82*
(4) Regressão multivariada 1.92
(5) Avaliação aleatorizada 5.87*
* Estatisticamente significativo a 5%

77
Fonte: J-PAL

Exemplo: Programa Read Índia


Comparação de métodos de avaliação
para Read India

Método Impacto
(1) Antes e depois 0.60*
(2) Diferença simples -0.90*
(3) Diferenças em diferenças 0.31*
(4) Regresssão multivariada 0.06

(5) Avaliação aleatorizada 0.88*


* Estatisticamente significativo a 5%

79
Conclusão
Em resumo

O método importa!

81
Métodos de avaliação de impacto
Método Suposições
Não há fatores relevantes no tempo que afetam o resultado além
Antes e depois
do próprio programa
A única diferença entre os participantes e não participantes é o
Diferença simples programa. Ambos os grupos têm a mesma probabilidade de
participar antes do início do programa
Diferenças em Na ausência do programa, tendências entre participantes e não
diferenças participantes se manteriam paralelas

Regressão multivariada Não existe viés em variáveis omitidas na avaliação

As características não selecionadas para o pareamento não


Pareamento
tornam os resultados enviesados
A linha de corte é um limite estrito de designação para o
Regressão descontínua programa. Efetivamente não existem diferenças significativas
entre as pessoas acima e abaixo do corte
Aleatorização Os grupos de tratamento e controle estão balanceados
76
Em resumo
• Neste curso, queremos transmitir que um método de avaliação de
impacto é superior aos demais: as avaliações aleatorizadas

• Argumento conceitual: se são corretamente desenhadas e


implementadas, as avaliações aleatorizadas constituem o método mais
confiável para estimar o impacto de um programa

• Argumento empírico: diferentes métodos podem gerar diferentes


estimativas do impacto

83

Anda mungkin juga menyukai