Anda di halaman 1dari 9

Econometria I

Exerccios para reviso e autoteste


Introduo Econometria, Jefrey M. Wooldridge
ANLISE DE REGRESSO MLTIPLA
Obs.: os exerccios que indicam arquivos para serem resolvidos so do livro
do Wooldridge. Os arquivos necessrios esto na pasta Banco de dados
Wooldridge, na rea Programao em R.
1. Um modelo simples para explicar as taxas de homicdio nas cidades
(taxahom) em termos de probabilidade de condenao (prcond) e da
durao media da sentena (sentmed)
taxhom = 0 + 1prcond + 2sentmed + u.
Que fatores esto contidos em u? Voc entende ser provvel que a hiptese
E(u|x1,x2)=0 se mantenha?
2. Suponha que voc postula um modelo que explica a nota do exame final
em termos da frequncia s aulas. Assim, a varivel dependente a nota do
exame final, e a principal varivel explicativa o nmero de aulas
frequentadas. A fim de controlar as aptides dos estudantes e pelos
esforos fora da sala de aula, voc inclui entre as variveis explicativas a
nota acumulada durante todo o curso, a nota do teste de avaliao de
conhecimentos para ingresso em curso superior e as medidas do
desempenho do estudante no ensino mdio. Algum diz: Voc no pode
esperar aprender nada com esse exerccio, pois todas essas variveis so,
provavelmente, altamente colineares. Qual seria sua resposta?
3. Os dados do arquivo WAGE2.RAW, sobre os homens que trabalham,
foram utilizados para estimar a seguinte equao:

^
educ

= 10,36 -0,094irms +0,131educm +0,210educp


n=722, R=0,214

em que educ anos de escolaridade formal, irms o nmero de irmos,


educm anos de escolaridade formal da me e educp anos de
escolaridade formal do pai.
a) irms tem o efeito esperado? Explique. Mantendo o educm e educp fixos,
em quanto deveria irms aumentar para reduzir os anos previstos da
educao formal em um ano? (Uma resposta incompleta aceitvel aqui.)
b) Discuta a interpretao do coeficiente de educm.
c) Suponha que o Homem A no tenha irmos e que sua me e seu pai
tenham, cada um, 12 anos de educao formal. Suponha tambm que o
Homem B no tenha irmos, e sua me e seu pai tenham, cada um, 16 anos
de educao formal. Qual a diferena prevista em anos de educao
formal entre B e A?

4. Usando os dados do arquivo GPA2.RAW sobre 4.137 estudantes de curso


superior dos Estados Unidos, estimou-se a seguinte equao por MQO:

^
supGPA

= 1,392 -0,0135emperc +0,00148SAT


n=4.137, R=0,273,

Em que supGPA mensurada em uma escala de 4 pontos, emperc o


percentual da turma de formados do ensino mdio (definido de modo que,
por exemplo, emperc=5 significa que os 5% melhores da sala) e SAT uma
nota mdia ponderada de matemtica e habilidade verbal do estudante
para ingresso em curso superior.
a) Por que faz sentido que o coeficiente de emperc seja negativo?
b) Qual o valor previsto de supGPA quando emperc=0 e SAT=1.050?
c) Suponha que dois alunos do ensino mdio, A e B, estejam no mesmo
percentual no ensino mdio, mas a nota SAT do estudante A foi 140 pontos
maior (cerca de um desvio padro da amostra). Qual a diferena prevista
em supGPA para esses dois estudantes? A diferena grande?
d) Mantendo emperc fixo, que diferena na nota SAT levaria a uma diferena
prevista de supGPA de 0,5? Comente sua resposta.
5. O modelo seguinte uma verso simplificada do modelo de regresso
mltipla usado por Biddle e Hamermesh (1990) para estudar a escolha entre
o tempo gasto dormindo e trabalhando e para observar outros fatores que
afetam o sono:
dormir = 0 + 1trabtot + 2educ + 3idade + u;
em que dormir e trabtot (trabalho total) so mensurados em minutos por
semana e educ e idade so mensurados em anos.
a) Se os adultos escolhem entre dormir e trabalhar, qual o sinal de 1?
b) Que sinais voc espera que 2 e 3 tero?
c) Usando os dados do arquivo SLEEP75.RAW, a equao estimada

^
dormir = 3.638,25 -0,148trabtot -11,13educ +2,20idade
n=706, R=0,113.
Se algum trabalha cinco horas a mais por semana, qual queda, em
minutos, no valor esperado de dormir? Esse valor representa uma escolha
grande?
d) Discuta o sinal e a magnitude do coeficiente de educ.
e) Voc diria que trabtot, educ e idade explicam muito da variao de
dormir? Quais outros fatores poderiam afetar o tempo gasto dormindo?
provvel que eles sejam correlacionados com trabtot?

6. Considere o modelo de regresso mltipla contendo trs variveis


independentes, sob as hipteses de linearidade em parmetros,
amostragem aleatria, colinearidade imperfeita, mdia condicional zero e
homoscedasticidade:
y= 0 + 1x1 + 2 x2 + 3 x3 + u.
Voc est interessado em estimar a soma dos parmetros de x 1 e x2 :

chame-a de
a) Mostre que

= 1 + 2.
1

^
b) Encontre Var(

=
1

um estimador no viesado de

^
) em termos de Var(

^
), Var(

^
) e Corr(

^
.

).

7. Em um estudo que relaciona a nota mdia em curso superior (supGPA) ao


tempo gasto em vrias atividades, voc distribui uma pesquisa para vrios
estudantes. Os estudantes devem responder quantas horas eles
despendem, em cada semana, em quatro atividades: estudo, sono, trabalho
e lazer. Toda atividade colocada em uma das quatro categorias, de modo
que, para cada estudante, a soma das horas nas quatro atividades deve ser
igual a 168.
a) No modelo
supGPA= 0 + 1estudar + 2 dormir + 3 trabalhar + 4lazer +
u,
faz sentido manter dormir, trabalhar e lazer fixos, enquanto estudar varia?
b) Explique a razo de esse modelo violar a Hiptese de Colinearidade
Imperfeita.
c) Como voc poderia reformular o modelo, de modo que seus parmetros
tivessem uma interpretao til e ele satisfizesse a Hiptese de Mdia
Condicional Zero?
8. Suponha que a produtividade mdia do trabalhador da indstria
(prodmed) dependa de dois fatores horas mdias de treinamento do
trabalhador (treinmed) e aptido mdia do trabalhador (aptidmed):
prodmed = 0 + 1treinmed + 2 aptidmed + u.
Suponha que essa equao satisfaa as hipteses de Gauss-Markov. Se um
subsdio foi dado as empresas cujos trabalhadores tem uma aptido menor
do que a mdia, de modo que treinmed e aptidmed sejam negativamente
correlacionados, qual o provvel vis em
simples de prodmed sobre treinmed?

obtido da regresso

9. Quais dos seguintes itens podem fazer com que os estimadores de MQO
sejam viesados?
a) Heteroscedasticidade.
b) Omitir uma varivel importante.
c) Um coeficiente de correlao amostral de 0,95 entre duas variveis
independentes includas no modelo.
10. Suponha que voc tenha interesse em estimar o relacionamento ceteris
paribus entre y e x1. Para esse propsito voc pode coligir dados em duas
variveis de controle, x2 e x3. Para melhor clareza, voc pode entender y
como uma nota do exame final, x1 como frequncia as aulas, x2 como a nota
de mdia graduao at o semestre anterior, e x 3 como uma nota de teste
de aptido acadmica ou de teste de avaliao. Seja

regresso simples de y sobre x1 e seja

a estimativa da

a estimativa de regresso

mltipla de y sobre x1,x2,x3.


a) Se x1 for altamente correlacionada com x2 e x3 na amostra e x2 e x3
tiverem grandes efeitos

parciais na y, voc antecipa que

sejam semelhantes ou muito

diferentes? Explique.
b) Se x1 for quase no correlacionado com x2 e x3, mas e x2 e x3 forem
altamente correlacionados, as

tendero a ser semelhantes ou

muito diferentes? Explique.


c) Se x1 for altamente correlacionada com x2 e x3 na amostra e x2 e x3

tiverem pequenos efeitos parciais na y, voc anteciparia que ep(

^
ep(

) ou

) ser menor? Explique.

d) Se x1 for quase no correlacionado com x2 e x3, x2 e x3 tiver grandes


efeitos parciais em y, e x2 e x3 forem altamente correlacionados, voc

anteciparia que ep(

^
) ou ep(

) ser menor? Explique.

11. A equao seguinte descreve o preo mediano das residncias de uma


comunidade em termos de quantidade de poluio (oxn, de xido nitroso) e
do nmero mdio de cmodos nas residncias da comunidade (comods):
log(preo)= 0 + 1log(oxn) + 2comods + u.
a) Quais so os provveis sinais de 1 e 2? Qual a interpretao de 1?
Explique.
b) Por que oxn [ou, mais precisamente, log(oxn)] e comods deveriam ser
negativamente correlacionados? Se esse o caso, a regresso simples de

log(preo) sobre log(oxn) produz um estimador viesado para cima ou para


baixo de 1?
12. A seguinte equao representa os efeitos das receitas totais de
impostos sobre o crescimento subsequente do emprego para a populao
de municpios dos EUA.
cresc= 0 + 1parcp + 2parcr + 3rparcv + outros fatores;
em que cresc a variao percentual do emprego de 1980 a 1990,
enquanto o total das receitas de impostos tem a seguinte distribuio:
i)parcp a parcela dos impostos sobre a propriedade,
ii)parcr a parcela sobre renda,
iii)parcv a parcela sobre verndas.
Todas essas variveis esto mensuradas em 1980. A parcela omitida, parc t
inclui taxas e impostos variados. Por definio, as quatro parcelas somam
um. Outros fatores incluiriam despesas com educao, infraestrutura, e
assim por diante (todos mensurados em 1980).
a) Por que devemos omitir uma das variveis de parcela de impostos da
equao?
b) D uma interpretao cuidadosa de 1.
13. Sejam as taxas de aprovao de emprstimos de uma comunidade
determinadas por
taxaprov= 0 + 1porcmin + 2rendmed + 3riquemed + 4dividamed
+ u;
em que porcmin a porcentagem de menoridade na comunidade, rendmed
a renda mdia, riquemed a riqueza mdia, dividamed alguma medida
de dividas mdias. Como voc formularia a hiptese nula de que no h
diferena nas taxas de emprstimos entre os bairros em razo da
composio racial e tnica quando a renda mdia, a riqueza mdia e a
dvida mdia foram controladas? Como voc formularia a hiptese
alternativa de que h discriminao contra as minorias nas taxas de
aprovao de emprstimos?
14. Suponha que voc tenha estimado um modelo de regresso e obteve

=0,56 e p-valor=0,086 para testar H0 : 1=0 contra H1 : 1 0. Qual o

p-valor para testar H0 : 1=0 contra H1 : 1 > 0?


15. Considere a possibilidade de relacionar o desempenho individual em um
teste padronizado, pontuao, a uma variedade de outras variveis. Fatores
relativos escola incluem o tamanho mdio da classe, os gastos por
estudante, o salrio mdio dos professores e o total de matriculas escolares.
Outras variveis especificas em relao aos estudantes so a renda familiar,
a educao da me, a educao do pai e o nmero de irmos. O modelo :

pontuao = 0 + 1tclasse + 2gasto + 3totalsalp + 4matricl + 5rendfam


+ 6educm +
7educp + 8irmaos + u.
Formule a hiptese nula que as variveis especificas aos estudantes no
tem efeito sobre o desempenho no teste padronizado, uma vez que os
fatores relativos escola sejam controlados. Quais os valores de k e q nesse
exemplo? Escreva a verso restrita do modelo.
16. Os dados do arquivo ATTEND.RAW foram usados para estimar as duas
equaes

^
taxafreq = 47,13 + 13,37supGPAp
(2,87)
n=680, R=0,183,

(1,09)

^
taxafreq = 75,70 + 17,26supGPAp -1,72ACT
(3,88)
n=680, R=0,291,

(1,08)

(?)

em que, como sempre, os erros-padro esto entre parnteses; o erropadro de ACT est faltando na segunda equao. Qual a estatstica t do
coeficiente de ACT?
17. Quais os seguintes itens podem fazer com que as estatsticas t de MQO
no sejam vlidas (isto , que elas no tenham distribuio t sob H0)?
a) Heteroscedasticidade.
b) Um coeficiente de correlao de 0,95 entre duas variveis independentes
que esto no modelo.
c) Omitir uma varivel explicativa importante.
18. Suponha que o modelo
nota = 0 + 1faltas + 2psGPA + u
satisfaa as quatro primeiras hipteses de Gauss-Markov, em que nota a
nota de um exame final, faltas o nmero de faltas e psGPA uma nota
mdia acumulada at o penltimo semestre. Se

for o estimador de

regresso simples de nota sobre faltas, qual ser a direo do vis


assimpttico em

19. Em um modelo de regresso com um tamanho de amostra grande, qual


o intervalo de confiana de 95% aproximado para

sob as hipteses

do modelo linear clssico (exceto a de Normalidade)? Ele chamado de


intervalo de confiana assimpttico.
20. No modelo de regresso simples sob as hipteses de linearidade em
parmetros, amostragem aleatria, colinearidade imperfeita, mdia
condicional zero e homoscedasticidade, afirmamos que o estimador de
inclinao,

, consistente com 1. Usando

^
demonstre que plim

= 0.

[Voc precisar usar a consistncia do estimador e a lei dos grandes


nmeros, juntamente com o fato de que 0= E(y) 1E(x1).]
21. Suponha que o nmero anual de prises por direo de veculo sob
embriaguez, nos Estados Unidos, seja determinado por
log(prises) = 0 + 1log(pop) + 2idade16_25 + outros fatores;
em que idade16_25 a proporo da populao entre 16 e 25 anos de
idade. Mostre que 2 tem a seguinte interpretao (ceteris paribus): ela a
mudana percentual em prises quando a percentagem da populao com
idade entre 16 e 25 anos aumenta em um ponto percentual.
22. Explique por que escolher um modelo maximizando
minimizando

R
ou

(o erro padro da regresso) a mesma coisa.

23. A seguinte equao foi estimada utilizando os dados contidos no


arquivo CEOSAL1.RAW:

^
log ( salrio) = 4,322 +0,276log(vendas) +0,0215roe +-0,00008roe
(0,324) (0,33)

(0,129)

(0,00026)
n=209, R=0,282.
Esta equao permite que roe tenha um efeito decrescente sobre
log(salrio). Essa generalidade necessria? Justifique.

SOLUES
1. Alguns poucos fatores incluem a distribuio por idade e por gnero, o
tamanho da fora policial (ou, de forma mais generalizada, os recursos
alocados no combate ao crime), a populao e fatores histricos gerais.
Esses fatores certamente devem estar correlacionados com prcond e
sentmed, o que significa que a hiptese no se manter. Por exemplo, o
tamanho da fora policial possivelmente estar correlacionado tanto com
prcond como com sentmed, j que algumas cidades colocam mais empenho

na preveno e na imposio da lei. Devemos tentar levar para a equao


tantos desses fatores quanto possvel.
2. Se estamos interessados no efeito de x1 sobre y, a correlao entre as

^
outras variveis explicativas (x2, x3 etc.) no afeta Var(

). Essas

variveis so includas como controles,


e no temos que nos preocupar com a colinearidade entre as variveis de
controle. Naturalmente, ns as estamos controlando primariamente porque
entendemos que elas esto correlacionadas com a frequncia, mas isso
necessrio para que possamos fazer uma anlise ceteris paribus.
13. H0 : 1=0 ; H1 : 1 < 0.
14. Como

C =0,56 > 0 e estamos testando H contra H : > 0, o p-valor


0
1
1

unilateral a metade do p-valor bilateral, ou 0,043.


15. H0: 5= 6= 7= 8= 0.k = 8 e q=4. A verso restrita do modelo
nota= 0 + 1tclasse + 2gasto + 3totalsalp + 4matricl + u.
16. A estatstica F para testar a excluso de tac [(0,291 - 0,183)/(1 0,291)](680 - 3)

103,13. Portanto, o valor absoluto da estatstica t

estar em torno de 10,16. A estatstica t de tac ser negativa, pois

tac

negativo, de modo que ttac=-10,16.


18. Isso requer algumas suposies. Parece razovel assumir que 2 > 0
(nota depende positivamente de nmgradp) e Cov(faltas, nmgradp) < 0
(faltas e nmgradp so negativamente correlacionados); isso significa que

21c> 0, o que quer dizer que plim

< 1. Como 1 entendido como

negativo (ou pelo menos no-positivo), uma regresso simples


provavelmente superestimar a importncia de faltar s aulas.
19.

1,96ep( ^ ) o intervalo de confiana assimpttico de 95%.


j

Ou podemos substituir 1,96 por 2.


21. Podemos responder de forma geral. A equao
log(y)= 0 + 1log(x1) + 2x2 +....
onde x2 uma proporo, em vez de porcentual. Ento, ceteris paribus,
log(y)= 2x2,
100.log(y)= 2 (100.x2) ou %y

2 (100.x2).

Agora, como x2 a alterao na proporo, 100.x2 a alterao em


pontos percentuais. Em particular, se x2=0,001, ento 100.x2=1, que
corresponde a uma alterao de um ponto percentual. Mas, ento, 2 ser a
alterao porcentual em y quando 100. x2=1.
22. Temos que

R
=1-

^ / [SQT/(n-1)]. Para uma determinada

amostra e uma determinada varivel dependente, [SQT/(n-1)] fixo.


Quando usamos conjuntos diferentes de variveis explicativas, somente

^ alterado. Conforme
, e consequentemente
tornando

^ diminui,

R
aumenta. Se tomarmos

^ , to pequeno quanto possvel, estaremos

R
to grande quanto possvel.

Anda mungkin juga menyukai