21/05/2013
Outline Introduo Diferenas entre Regresso Simples e Mltipla Seleo de variveis e construo do modelo
1 Introduo
Outline Introduo Diferenas entre Regresso Simples e Mltipla Seleo de variveis e construo do modelo
Outline Introduo Diferenas entre Regresso Simples e Mltipla Seleo de variveis e construo do modelo
Outline Introduo Diferenas entre Regresso Simples e Mltipla Seleo de variveis e construo do modelo
Outline Introduo Diferenas entre Regresso Simples e Mltipla Seleo de variveis e construo do modelo
Os termos xos nos do E (Y ), e o termo aleatrio nos d Var (Y ). Se E (Y ) depende de uma combinao de duas variveis preditoras (X1 a X2 ), a reta se torna um plano
Outline Introduo Diferenas entre Regresso Simples e Mltipla Seleo de variveis e construo do modelo
35
40
45
x2
18 16 14 12 10 0 1 2 3 4 5
Thiago S. F. Silva thiago@dsr.inpe.br
20
25
30
20
Outline Introduo Diferenas entre Regresso Simples e Mltipla Seleo de variveis e construo do modelo
Outline Introduo Diferenas entre Regresso Simples e Mltipla Seleo de variveis e construo do modelo
Outline Introduo Diferenas entre Regresso Simples e Mltipla Seleo de variveis e construo do modelo
Outline Introduo Diferenas entre Regresso Simples e Mltipla Seleo de variveis e construo do modelo
Outline Introduo Diferenas entre Regresso Simples e Mltipla Seleo de variveis e construo do modelo
Partio da varincia
A partio geral da varincia segue o mesmo padro do modelo simples, mas com diferentes graus de liberdade
Fonte Regresso GL p1 Soma Quadrados SQR = b X Y 1 Y JY n Mdia Quadrados MQR = SQR p1 SQE np SQT n1
Resduos
np
SQE = Y Y b X Y 1 Y JY n
MQE =
Total
n1
SQT = Y Y
MQT =
Outline Introduo Diferenas entre Regresso Simples e Mltipla Seleo de variveis e construo do modelo
Outline Introduo Diferenas entre Regresso Simples e Mltipla Seleo de variveis e construo do modelo
Outline Introduo Diferenas entre Regresso Simples e Mltipla Seleo de variveis e construo do modelo
Outline Introduo Diferenas entre Regresso Simples e Mltipla Seleo de variveis e construo do modelo
Outline Introduo Diferenas entre Regresso Simples e Mltipla Seleo de variveis e construo do modelo
n1 np
SSE SST
Outline Introduo Diferenas entre Regresso Simples e Mltipla Seleo de variveis e construo do modelo
n1 np
SSE SST
Dessa maneira, o ganho em explicao ponderado pelo (n 1) 2 aumento de ( n p) , e o Ra pode at diminuir com a adio de novas variveis, se a contribuio no for importante.
2 deixa de ter relao com % de varincia explicada) (Mas Ra
Outline Introduo Diferenas entre Regresso Simples e Mltipla Seleo de variveis e construo do modelo
Inferncias e Diagnsticos
As inferncias sobre o modelo (intervalos de conana e testes de hiptese) seguem o mesmo modelo da regresso simples
As equaes para estimativas dos erros so mais complexas, mas o princpio no se altera
Os procedimentos diagnsticos tambm so os mesmos, com a adio de scatterplots dos resduos verus cada varivel X
Outline Introduo Diferenas entre Regresso Simples e Mltipla Seleo de variveis e construo do modelo
Complicaes adicionais
Os modelos linears de regresso mltipla apresentam algumas complicaes a mais quando comparados com os modelos simples: A existncia de correlao entre as variveis pode atrapalhar a nossa partio de varincia (multicolinearidade) Os coecientes normalmente no so diretamente comparveis Quando o nmero de variveis independentes aumenta, a seleo nal daquelas a serem inseridas no modelo torna-se mais difcil
Outline Introduo Diferenas entre Regresso Simples e Mltipla Seleo de variveis e construo do modelo
Multicolinearidade
O modelo de regresso busca explicar parte da varincia de Y atravs da co-varincia entre Y e X (partio de varincias) Se as variveis X so independentes, cada poro da varincia de Y explicada separadamente por cada X Mas se as variveis preditoras foem correlacionadas, h redundncia de informao, reduzindo a quantidade de informao disponvelpara estimao dos coecientes
Outline Introduo Diferenas entre Regresso Simples e Mltipla Seleo de variveis e construo do modelo
Multicolinearidade
Caso 1: Xk perfeitamente independentes
Outline Introduo Diferenas entre Regresso Simples e Mltipla Seleo de variveis e construo do modelo
Multicolinearidade
1: Xk perfeitamente independentes Nesse caso, a contribuio de X1 e X2 so exatamente as mesmas de dois modelos lineares simples:
x1 <- c(4, 4, 4, 4, 6, 6, 6, 6) x2 <- c(2, 2, 3, 3, 2, 2, 3, 3) y <- c(42, 39, 48, 51, 49, 53, 61, 60) cor(x1, x2) ## [1] 0
Outline Introduo Diferenas entre Regresso Simples e Mltipla Seleo de variveis e construo do modelo
Multicolinearidade
1: Xk perfeitamente independentes
m1 <- lm(y ~ x1) m1 ## ## ## ## ## ## ##
anova(m1) ## ## ## ## ## ## ## ## Analysis of Variance Table Response: y Df Sum Sq Mean Sq F value Pr(>F) x1 1 231 231.1 7.35 0.035 * Residuals 6 189 31.5 --Signif. codes: 0 *** 0.001 ** 0.01 * 0.05
0.1
Outline Introduo Diferenas entre Regresso Simples e Mltipla Seleo de variveis e construo do modelo
Multicolinearidade
1: Xk perfeitamente independentes
m2 <- lm(y ~ x2) m2 ## ## ## ## ## ## ##
anova(m2) ## ## ## ## ## ## ## ## Analysis of Variance Table Response: y Df Sum Sq Mean Sq F value Pr(>F) x2 1 171 171.1 4.13 0.088 . Residuals 6 249 41.5 --Signif. codes: 0 *** 0.001 ** 0.01 * 0.05
0.1
Outline Introduo Diferenas entre Regresso Simples e Mltipla Seleo de variveis e construo do modelo
Multicolinearidade
1: Xk perfeitamente independentes
m3 <- lm(y ~ x1 + x2) m3 ## ## ## ## ## ## ##
anova(m3) ## ## ## ## ## ## ## ## ## Analysis of Variance Table Response: y Df Sum Sq Mean Sq F value Pr(>F) x1 1 231.1 231.1 65.6 0.00047 *** x2 1 171.1 171.1 48.5 0.00094 *** Residuals 5 17.6 3.5 --Signif. codes: 0 *** 0.001 ** 0.01 * 0.05 Thiago S. F. Silva thiago@dsr.inpe.br
0.1
Outline Introduo Diferenas entre Regresso Simples e Mltipla Seleo de variveis e construo do modelo
Multicolinearidade
Caso 2: Xk perfeitamente correlacionados
Outline Introduo Diferenas entre Regresso Simples e Mltipla Seleo de variveis e construo do modelo
Multicolinearidade
2: Xk perfeitamente correlacionados Nesse caso, no h varincia restante para estimar 2 aps a estimao de 1 :
x1 <- c(4, 4, 4, 4, 6, 6, 6, 6) x2 <- x1 y <- c(42, 39, 48, 51, 49, 53, 61, 60) cor(x1, x2) ## [1] 1
Outline Introduo Diferenas entre Regresso Simples e Mltipla Seleo de variveis e construo do modelo
Multicolinearidade
2: Xk perfeitamente correlacionados
m1 <- lm(y ~ x1 + x2) m1 ## ## ## ## ## ## ##
anova(m1) ## ## ## ## ## ## ## ## Analysis of Variance Table Response: y Df Sum Sq Mean Sq F value Pr(>F) x1 1 231 231.1 7.35 0.035 * Residuals 6 189 31.5 --Signif. codes: 0 *** 0.001 ** 0.01 * 0.05
0.1
Outline Introduo Diferenas entre Regresso Simples e Mltipla Seleo de variveis e construo do modelo
Multicolinearidade
2: Xk perfeitamente correlacionados
m2 <- lm(y ~ x2 + x1) m2 ## ## ## ## ## ## ##
anova(m2) ## ## ## ## ## ## ## ## Analysis of Variance Table Response: y Df Sum Sq Mean Sq F value Pr(>F) x2 1 231 231.1 7.35 0.035 * Residuals 6 189 31.5 --Signif. codes: 0 *** 0.001 ** 0.01 * 0.05
0.1
Outline Introduo Diferenas entre Regresso Simples e Mltipla Seleo de variveis e construo do modelo
Multicolinearidade
Caso 3: Xk parcialmente correlacionados
Outline Introduo Diferenas entre Regresso Simples e Mltipla Seleo de variveis e construo do modelo
Multicolinearidade
3: Xk parcialmente correlacionados Nesse caso, h "menos"varincia restante para estimar 2 aps a estimao de 1 :
x1 <- c(4, 4, 4, 4, 6, 6, 6, 6) set.seed(154) x2 <- x1 + runif(8, 0, 1) y <- c(42, 39, 48, 51, 49, 53, 61, 60) cor(x1, x2) ## [1] 0.9592
Outline Introduo Diferenas entre Regresso Simples e Mltipla Seleo de variveis e construo do modelo
Multicolinearidade
3: Xk parcialmente correlacionados
m1 <- lm(y ~ x1 + x2) m1 ## ## ## ## ## ## ##
anova(m1) ## ## ## ## ## ## ## ## ## Analysis of Variance Table Response: y Df Sum Sq Mean Sq F value Pr(>F) x1 1 231.1 231.1 6.17 0.056 . x2 1 1.6 1.6 0.04 0.846 Residuals 5 187.2 37.4 --Signif. codes: 0 *** 0.001 ** 0.01 * 0.05 Thiago S. F. Silva thiago@dsr.inpe.br
0.1
Outline Introduo Diferenas entre Regresso Simples e Mltipla Seleo de variveis e construo do modelo
Multicolinearidade
3: Xk parcialmente correlacionados
m2 <- lm(y ~ x2 + x1) m2 ## ## ## ## ## ## ##
anova(m2) ## ## ## ## ## ## ## ## ## Analysis of Variance Table Response: y Df Sum Sq Mean Sq F value Pr(>F) x2 1 202.4 202.4 5.41 0.068 . x1 1 30.2 30.2 0.81 0.410 Residuals 5 187.2 37.4 --Signif. codes: 0 *** 0.001 ** 0.01 * 0.05 Thiago S. F. Silva thiago@dsr.inpe.br
0.1
Outline Introduo Diferenas entre Regresso Simples e Mltipla Seleo de variveis e construo do modelo
Multicolinearidade
Que parte do modelo de regresso esperamos que v ser afetada pela multicolinearidade?
Outline Introduo Diferenas entre Regresso Simples e Mltipla Seleo de variveis e construo do modelo
Multicolinearidade
Que parte do modelo de regresso esperamos que v ser afetada pela multicolinearidade? Os coecientes 1 , . . . , k
Outline Introduo Diferenas entre Regresso Simples e Mltipla Seleo de variveis e construo do modelo
Multicolinearidade
Que parte do modelo de regresso esperamos que v ser afetada pela multicolinearidade? Os coecientes 1 , . . . , k Qual ser o principal efeito da multicolinearidade sobre a especicao do modelo?
Outline Introduo Diferenas entre Regresso Simples e Mltipla Seleo de variveis e construo do modelo
Multicolinearidade
Que parte do modelo de regresso esperamos que v ser afetada pela multicolinearidade? Os coecientes 1 , . . . , k Qual ser o principal efeito da multicolinearidade sobre a especicao do modelo? As propriedades dos estimadores no se alteram (BLUE)
Outline Introduo Diferenas entre Regresso Simples e Mltipla Seleo de variveis e construo do modelo
Multicolinearidade
Que parte do modelo de regresso esperamos que v ser afetada pela multicolinearidade? Os coecientes 1 , . . . , k Qual ser o principal efeito da multicolinearidade sobre a especicao do modelo? As propriedades dos estimadores no se alteram (BLUE) Devido reduo na quantidade de informao disponvel, o erro de cada bk aumenta
Outline Introduo Diferenas entre Regresso Simples e Mltipla Seleo de variveis e construo do modelo
Multicolinearidade
Que parte do modelo de regresso esperamos que v ser afetada pela multicolinearidade? Os coecientes 1 , . . . , k Qual ser o principal efeito da multicolinearidade sobre a especicao do modelo? As propriedades dos estimadores no se alteram (BLUE) Devido reduo na quantidade de informao disponvel, o erro de cada bk aumenta Como a informao redudante, mltiplas combinaes de Xk e bk podem dar o mesmo resultado nal
Outline Introduo Diferenas entre Regresso Simples e Mltipla Seleo de variveis e construo do modelo
Exemplo
set.seed(1500) x1 <- runif(50, 0, 20) x2 <- x1 + runif(50, 0, 5) y <- 24 + 1.2 * x1 + 2.1 * x2 + rnorm(50, 0, 20) m1 <- lm(y ~ x1) summary(m1) ## ## ## ## ## ## ## ## ## ## ## ## ## ## ## ## ## ##
Call: lm(formula = y ~ x1) Residuals: Min 1Q Median -49.57 -12.84 1.82 3Q 12.16 Max 46.04
Coefficients: Estimate Std. Error t value Pr(>|t|) (Intercept) 33.710 5.674 5.94 3.1e-07 *** x1 3.019 0.476 6.34 7.6e-08 *** --Signif. codes: 0 *** 0.001 ** 0.01 * 0.05 . 0.1 Residual standard error: 19.9 on 48 degrees of freedom Multiple R-squared: 0.456, Adjusted R-squared: 0.444 F-statistic: 40.2 on 1 and 48 DF, p-value: 7.61e-08
Outline Introduo Diferenas entre Regresso Simples e Mltipla Seleo de variveis e construo do modelo
Exemplo
m2 <- lm(y ~ x2) summary(m2) ## ## ## ## ## ## ## ## ## ## ## ## ## ## ## ## ## ##
Call: lm(formula = y ~ x2) Residuals: Min 1Q Median -46.28 -11.19 -3.07 3Q 10.86 Max 42.21
Coefficients: Estimate Std. Error t value Pr(>|t|) (Intercept) 26.920 6.346 4.24 1e-04 *** x2 2.962 0.446 6.65 2.5e-08 *** --Signif. codes: 0 *** 0.001 ** 0.01 * 0.05 . 0.1 Residual standard error: 19.5 on 48 degrees of freedom Multiple R-squared: 0.479, Adjusted R-squared: 0.469 F-statistic: 44.2 on 1 and 48 DF, p-value: 2.54e-08
Outline Introduo Diferenas entre Regresso Simples e Mltipla Seleo de variveis e construo do modelo
Exemplo
m3 <- lm(y ~ x1 + x2) summary(m3) ## ## ## ## ## ## ## ## ## ## ## ## ## ## ## ## ## ## ##
Call: lm(formula = y ~ x1 + x2) Residuals: Min 1Q Median -46.82 -11.74 -3.35 3Q 10.79 Max 41.83
Coefficients: Estimate Std. Error t value Pr(>|t|) (Intercept) 27.463 7.019 3.91 0.00029 *** x1 0.354 1.863 0.19 0.85008 x2 2.635 1.782 1.48 0.14589 --Signif. codes: 0 *** 0.001 ** 0.01 * 0.05 . 0.1 Residual standard error: 19.7 on 47 degrees of freedom Multiple R-squared: 0.48, Adjusted R-squared: 0.458 F-statistic: 21.7 on 2 and 47 DF, p-value: 2.13e-07
Outline Introduo Diferenas entre Regresso Simples e Mltipla Seleo de variveis e construo do modelo
Multicolinearidade: diagnstico
Podemos quanticar a existncia de multicolinearidade atravs da medida de tolerncia:
2 T = 1 Rk
Outline Introduo Diferenas entre Regresso Simples e Mltipla Seleo de variveis e construo do modelo
Multicolinearidade: diagnstico
Podemos quanticar a existncia de multicolinearidade atravs da medida de tolerncia:
2 T = 1 Rk 2 vem da regresso X = + X + . . . + Rk 0 1 1 k k 1 Xk 1 +
Outline Introduo Diferenas entre Regresso Simples e Mltipla Seleo de variveis e construo do modelo
Multicolinearidade: diagnstico
Podemos quanticar a existncia de multicolinearidade atravs da medida de tolerncia:
2 T = 1 Rk 2 vem da regresso X = + X + . . . + Rk 0 1 1 k k 1 Xk 1 +
Normalmente, expressamos a tolerncia na forma inversa, o que denominamos Fator de Inao da Varincia(Variance Ination Factor, VIF) VIF = 1 1 = 2 T 1 Rk
Outline Introduo Diferenas entre Regresso Simples e Mltipla Seleo de variveis e construo do modelo
Multicolinearidade: diagnstico
Podemos quanticar a existncia de multicolinearidade atravs da medida de tolerncia:
2 T = 1 Rk 2 vem da regresso X = + X + . . . + Rk 0 1 1 k k 1 Xk 1 +
Normalmente, expressamos a tolerncia na forma inversa, o que denominamos Fator de Inao da Varincia(Variance Ination Factor, VIF) VIF = 1 1 = 2 T 1 Rk
Se Xk tem um VIF de 8, isso signica que o erro do coeciente bk oito vezes maior de que esperado se no houvesse colinearidade
Thiago S. F. Silva thiago@dsr.inpe.br Aula 19: Regresso Mltipla
Outline Introduo Diferenas entre Regresso Simples e Mltipla Seleo de variveis e construo do modelo
Multicolinearidade: diagnstico
Outline Introduo Diferenas entre Regresso Simples e Mltipla Seleo de variveis e construo do modelo
Multicolinearidade: diagnstico
A partir de que valor devemos nos preocupar com o VIF?
Outline Introduo Diferenas entre Regresso Simples e Mltipla Seleo de variveis e construo do modelo
Multicolinearidade: diagnstico
A partir de que valor devemos nos preocupar com o VIF? No existe uma regra xa, mas em geral:
Outline Introduo Diferenas entre Regresso Simples e Mltipla Seleo de variveis e construo do modelo
Multicolinearidade: diagnstico
A partir de que valor devemos nos preocupar com o VIF? No existe uma regra xa, mas em geral: VIF > 4 pede que a correlao entre os preditores seja melhor investigada
Outline Introduo Diferenas entre Regresso Simples e Mltipla Seleo de variveis e construo do modelo
Multicolinearidade: diagnstico
A partir de que valor devemos nos preocupar com o VIF? No existe uma regra xa, mas em geral: VIF > 4 pede que a correlao entre os preditores seja melhor investigada VIF > 10 representa multicolinearidade severa, precisa ser corrigida de qualquer maneira
Outline Introduo Diferenas entre Regresso Simples e Mltipla Seleo de variveis e construo do modelo
Multicolinearidade: remediao
Outline Introduo Diferenas entre Regresso Simples e Mltipla Seleo de variveis e construo do modelo
Multicolinearidade: remediao
Outline Introduo Diferenas entre Regresso Simples e Mltipla Seleo de variveis e construo do modelo
Multicolinearidade: remediao
1) Atravs de uma combinao entre as variveis (ex.: X1 + X2 ) 2) Usando os resduos da regresso entre X1 e X2
Outline Introduo Diferenas entre Regresso Simples e Mltipla Seleo de variveis e construo do modelo
Multicolinearidade: remediao
1) Atravs de uma combinao entre as variveis (ex.: X1 + X2 ) 2) Usando os resduos da regresso entre X1 e X2 3) Ortogonalizao (ex.: anlise de componentes principais)
Outline Introduo Diferenas entre Regresso Simples e Mltipla Seleo de variveis e construo do modelo
Multicolinearidade: remediao
1) Atravs de uma combinao entre as variveis (ex.: X1 + X2 )
x.novo <- x1 + x2 m4 <- lm(y ~ x.novo) summary(m4) ## ## ## ## ## ## ## ## ## ## ## ## ## ## ## ## ## ##
Call: lm(formula = y ~ x.novo) Residuals: Min 1Q Median -48.33 -13.05 -1.52 3Q 11.69 Max 43.45
Coefficients: Estimate Std. Error t value Pr(>|t|) (Intercept) 29.71 6.01 4.94 9.9e-06 *** x.novo 1.52 0.23 6.60 3.1e-08 *** --Signif. codes: 0 *** 0.001 ** 0.01 * 0.05 . 0.1 Residual standard error: 19.6 on 48 degrees of freedom Multiple R-squared: 0.475, Adjusted R-squared: 0.465 F-statistic: 43.5 on 1 and 48 DF, p-value: 3.07e-08
Outline Introduo Diferenas entre Regresso Simples e Mltipla Seleo de variveis e construo do modelo
Multicolinearidade: remediao
2) Usando os resduos da regresso entre X1 e X2
mx <- lm(x2 ~ x1) rx <- residuals(mx) m5 <- lm(y ~ x1 + rx) summary(m5) ## ## ## ## ## ## ## ## ## ## ## ## ## ## ## ## ## ## ##
Call: lm(formula = y ~ x1 + rx) Residuals: Min 1Q Median -46.82 -11.74 -3.35 3Q 10.79 Max 41.83
Coefficients: Estimate Std. Error t value Pr(>|t|) (Intercept) 33.710 5.605 6.01 2.6e-07 *** x1 3.019 0.471 6.42 6.3e-08 *** rx 2.635 1.782 1.48 0.15 --Signif. codes: 0 *** 0.001 ** 0.01 * 0.05 . 0.1 Residual standard error: 19.7 on 47 degrees of freedom Multiple R-squared: 0.48, Adjusted R-squared: 0.458 F-statistic: 21.7 on 2 and 47 DF, p-value: 2.13e-07 Thiago S. F. Silva thiago@dsr.inpe.br
Outline Introduo Diferenas entre Regresso Simples e Mltipla Seleo de variveis e construo do modelo
Multicolinearidade: remediao
3) Ortogonalizao (ex.: anlise de componentes principais)
pca <- princomp(~x2 + x1) m6 <- lm(y ~ pca$scores[, 1] + pca$scores[, 2]) summary(m6) ## ## ## ## ## ## ## ## ## ## ## ## ## ## ## ## ## ## ##
Call: lm(formula = y ~ pca$scores[, 1] + pca$scores[, 2]) Residuals: Min 1Q Median -46.82 -11.74 -3.35 Coefficients: 3Q 10.79 Max 41.83 Error t value Pr(>|t|) 2.784 23.32 < 2e-16 *** 0.328 -6.56 3.9e-08 *** 2.557 0.61 0.54 ** 0.01 * 0.05 . 0.1 1
Estimate Std. (Intercept) 64.924 pca$scores[, 1] -2.150 pca$scores[, 2] 1.564 --Signif. codes: 0 *** 0.001
Residual standard error: 19.7 on 47 degrees of freedom Multiple R-squared: 0.48, Adjusted R-squared: 0.458 F-statistic: 21.7 on 2 and 47 DF, p-value: 2.13e-07 Thiago S. F. Silva thiago@dsr.inpe.br Aula 19: Regresso Mltipla
Outline Introduo Diferenas entre Regresso Simples e Mltipla Seleo de variveis e construo do modelo
Seleo de variveis
comum, especialmente em estudos de natureza observacional, que inmeras variveis sejam medidas Parte dos objetivos destes estudos avaliar quais dessas variveis melhor explicam/predizem os dados O processo de de avalio e seleo de variveis chamado de Construo do Modelo
Outline Introduo Diferenas entre Regresso Simples e Mltipla Seleo de variveis e construo do modelo
Outline Introduo Diferenas entre Regresso Simples e Mltipla Seleo de variveis e construo do modelo
Outline Introduo Diferenas entre Regresso Simples e Mltipla Seleo de variveis e construo do modelo
Outline Introduo Diferenas entre Regresso Simples e Mltipla Seleo de variveis e construo do modelo
Outline Introduo Diferenas entre Regresso Simples e Mltipla Seleo de variveis e construo do modelo
Outline Introduo Diferenas entre Regresso Simples e Mltipla Seleo de variveis e construo do modelo
Outline Introduo Diferenas entre Regresso Simples e Mltipla Seleo de variveis e construo do modelo
Outline Introduo Diferenas entre Regresso Simples e Mltipla Seleo de variveis e construo do modelo
Outline Introduo Diferenas entre Regresso Simples e Mltipla Seleo de variveis e construo do modelo
Outline Introduo Diferenas entre Regresso Simples e Mltipla Seleo de variveis e construo do modelo
Outline Introduo Diferenas entre Regresso Simples e Mltipla Seleo de variveis e construo do modelo
Outline Introduo Diferenas entre Regresso Simples e Mltipla Seleo de variveis e construo do modelo
Outline Introduo Diferenas entre Regresso Simples e Mltipla Seleo de variveis e construo do modelo
Outline Introduo Diferenas entre Regresso Simples e Mltipla Seleo de variveis e construo do modelo
Outline Introduo Diferenas entre Regresso Simples e Mltipla Seleo de variveis e construo do modelo
Outline Introduo Diferenas entre Regresso Simples e Mltipla Seleo de variveis e construo do modelo
Outline Introduo Diferenas entre Regresso Simples e Mltipla Seleo de variveis e construo do modelo
Outline Introduo Diferenas entre Regresso Simples e Mltipla Seleo de variveis e construo do modelo
Outline Introduo Diferenas entre Regresso Simples e Mltipla Seleo de variveis e construo do modelo
Outline Introduo Diferenas entre Regresso Simples e Mltipla Seleo de variveis e construo do modelo
data(mtcars) print(cor(mtcars), digits = 2) ## ## ## ## ## ## ## ## ## ## ## ## mpg 1.00 -0.85 -0.85 -0.78 0.68 -0.87 0.42 0.66 0.60 0.48 -0.55 cyl -0.85 1.00 0.90 0.83 -0.70 0.78 -0.59 -0.81 -0.52 -0.49 0.53 disp -0.85 0.90 1.00 0.79 -0.71 0.89 -0.43 -0.71 -0.59 -0.56 0.39 hp -0.78 0.83 0.79 1.00 -0.45 0.66 -0.71 -0.72 -0.24 -0.13 0.75 drat 0.681 -0.700 -0.710 -0.449 1.000 -0.712 0.091 0.440 0.713 0.700 -0.091 wt -0.87 0.78 0.89 0.66 -0.71 1.00 -0.17 -0.55 -0.69 -0.58 0.43 qsec 0.419 -0.591 -0.434 -0.708 0.091 -0.175 1.000 0.745 -0.230 -0.213 -0.656 vs 0.66 -0.81 -0.71 -0.72 0.44 -0.55 0.74 1.00 0.17 0.21 -0.57 am 0.600 -0.523 -0.591 -0.243 0.713 -0.692 -0.230 0.168 1.000 0.794 0.058 gear 0.48 -0.49 -0.56 -0.13 0.70 -0.58 -0.21 0.21 0.79 1.00 0.27 carb -0.551 0.527 0.395 0.750 -0.091 0.428 -0.656 -0.570 0.058 0.274 1.000
Outline Introduo Diferenas entre Regresso Simples e Mltipla Seleo de variveis e construo do modelo
100
library(car) scatterplotMatrix(mtcars[, c(1, 3:4)], smoother = F) smoother = F desativa a opo de linha suavizada
disp
300
10
15
20
25
30
50 100
200
300
50
150
250
hp
10 15 20 25 30
mpg
Outline Introduo Diferenas entre Regresso Simples e Mltipla Seleo de variveis e construo do modelo
Outline Introduo Diferenas entre Regresso Simples e Mltipla Seleo de variveis e construo do modelo
Outline Introduo Diferenas entre Regresso Simples e Mltipla Seleo de variveis e construo do modelo
Outline Introduo Diferenas entre Regresso Simples e Mltipla Seleo de variveis e construo do modelo
Outline Introduo Diferenas entre Regresso Simples e Mltipla Seleo de variveis e construo do modelo
Outline Introduo Diferenas entre Regresso Simples e Mltipla Seleo de variveis e construo do modelo
Outline Introduo Diferenas entre Regresso Simples e Mltipla Seleo de variveis e construo do modelo
Seleo de variveis
Para cada conjunto de k = p 1 preditores, existem 2p1 combinaes de variveis
Outline Introduo Diferenas entre Regresso Simples e Mltipla Seleo de variveis e construo do modelo
Seleo de variveis
Para cada conjunto de k = p 1 preditores, existem 2p1 combinaes de variveis Para que possamos determinar quais variveis realmente contribuem para o modelo nal, precisamos de uma medida objetiva
Outline Introduo Diferenas entre Regresso Simples e Mltipla Seleo de variveis e construo do modelo
Seleo de variveis
Para cada conjunto de k = p 1 preditores, existem 2p1 combinaes de variveis Para que possamos determinar quais variveis realmente contribuem para o modelo nal, precisamos de uma medida objetiva J conhecemos uma dessas medidas, o ...
Outline Introduo Diferenas entre Regresso Simples e Mltipla Seleo de variveis e construo do modelo
Seleo de variveis
Para cada conjunto de k = p 1 preditores, existem 2p1 combinaes de variveis Para que possamos determinar quais variveis realmente contribuem para o modelo nal, precisamos de uma medida objetiva
2 J conhecemos uma dessas medidas, o ... Rajustado
Outline Introduo Diferenas entre Regresso Simples e Mltipla Seleo de variveis e construo do modelo
Seleo de variveis
Para cada conjunto de k = p 1 preditores, existem 2p1 combinaes de variveis Para que possamos determinar quais variveis realmente contribuem para o modelo nal, precisamos de uma medida objetiva
2 J conhecemos uma dessas medidas, o ... Rajustado
Outline Introduo Diferenas entre Regresso Simples e Mltipla Seleo de variveis e construo do modelo
Seleo de variveis
Para cada conjunto de k = p 1 preditores, existem 2p1 combinaes de variveis Para que possamos determinar quais variveis realmente contribuem para o modelo nal, precisamos de uma medida objetiva
2 J conhecemos uma dessas medidas, o ... Rajustado
Podemos tambm usar os p-valores de cada coeciente Mas, por causa da multicolinearidade, os p-valores podem esconder variveis importantes, mas correlacionadas
Thiago S. F. Silva thiago@dsr.inpe.br Aula 19: Regresso Mltipla
Outline Introduo Diferenas entre Regresso Simples e Mltipla Seleo de variveis e construo do modelo
Outline Introduo Diferenas entre Regresso Simples e Mltipla Seleo de variveis e construo do modelo
Outline Introduo Diferenas entre Regresso Simples e Mltipla Seleo de variveis e construo do modelo
Outline Introduo Diferenas entre Regresso Simples e Mltipla Seleo de variveis e construo do modelo
Outline Introduo Diferenas entre Regresso Simples e Mltipla Seleo de variveis e construo do modelo
Outline Introduo Diferenas entre Regresso Simples e Mltipla Seleo de variveis e construo do modelo
Outline Introduo Diferenas entre Regresso Simples e Mltipla Seleo de variveis e construo do modelo
Outline Introduo Diferenas entre Regresso Simples e Mltipla Seleo de variveis e construo do modelo
Exemplo: AIC
m1 <- lm(qsec ~ hp, data = mtcars) summary(m1)$r.squared ## [1] 0.5016 summary(m1)$adj.r.squared ## [1] 0.485 AIC(m1) ## [1] 110.7 ## m2 <- lm(qsec ~ hp + wt, data = mtcars) summary(m2)$r.squared ## [1] 0.652 summary(m2)$adj.r.squared ## [1] 0.628 AIC(m1, m2) ## df AIC ## m1 3 110.7 ## m2 4 101.2 Thiago S. F. Silva thiago@dsr.inpe.br Aula 19: Regresso Mltipla m3 <- lm(qsec ~ hp + wt + disp, data = mtcars) summary(m3)$r.squared ## [1] 0.6808 summary(m3)$adj.r.squared ## [1] 0.6466 AIC(m1, m2, m3) ## df AIC ## m1 3 110.7 ## m2 4 101.2 ## m3 5 100.4
Outline Introduo Diferenas entre Regresso Simples e Mltipla Seleo de variveis e construo do modelo
Outline Introduo Diferenas entre Regresso Simples e Mltipla Seleo de variveis e construo do modelo
Outline Introduo Diferenas entre Regresso Simples e Mltipla Seleo de variveis e construo do modelo
Outline Introduo Diferenas entre Regresso Simples e Mltipla Seleo de variveis e construo do modelo
Outline Introduo Diferenas entre Regresso Simples e Mltipla Seleo de variveis e construo do modelo
Mtodo Stepwise
Stepwise signica passo a passo
Outline Introduo Diferenas entre Regresso Simples e Mltipla Seleo de variveis e construo do modelo
Mtodo Stepwise
Stepwise signica passo a passo O mtodo pode ser aplicado de maneira crescente (forward) ou decrescente (backward)
Outline Introduo Diferenas entre Regresso Simples e Mltipla Seleo de variveis e construo do modelo
Mtodo Stepwise
Stepwise signica passo a passo O mtodo pode ser aplicado de maneira crescente (forward) ou decrescente (backward) No modo forward, comeamos com uma nica varivel, e vamos progressivamente adicionando mais variveis, testando o ganho em poder explicativo a cada nova adio
Outline Introduo Diferenas entre Regresso Simples e Mltipla Seleo de variveis e construo do modelo
Mtodo Stepwise
Stepwise signica passo a passo O mtodo pode ser aplicado de maneira crescente (forward) ou decrescente (backward) No modo forward, comeamos com uma nica varivel, e vamos progressivamente adicionando mais variveis, testando o ganho em poder explicativo a cada nova adio No modo backward, comeamos com todas as variveis, e vamos progressivamente eliminando cada uma, testando a perda em poder explicativo a cada nova adio
Thiago S. F. Silva thiago@dsr.inpe.br Aula 19: Regresso Mltipla
Outline Introduo Diferenas entre Regresso Simples e Mltipla Seleo de variveis e construo do modelo
Mtodo Stepwise
O mtodo usado para calcular esse "ganho"ou "perda"de informao pode variar de acordo com a escolha do usurio
Outline Introduo Diferenas entre Regresso Simples e Mltipla Seleo de variveis e construo do modelo
Mtodo Stepwise
O mtodo usado para calcular esse "ganho"ou "perda"de informao pode variar de acordo com a escolha do usurio O mtodo stepwise original baseado em testes de signicncia, e bastante criticado por sua ampla sensitividade multicolinearidade
Outline Introduo Diferenas entre Regresso Simples e Mltipla Seleo de variveis e construo do modelo
Mtodo Stepwise
O mtodo usado para calcular esse "ganho"ou "perda"de informao pode variar de acordo com a escolha do usurio O mtodo stepwise original baseado em testes de signicncia, e bastante criticado por sua ampla sensitividade multicolinearidade O uso de medidas mais robustas como o AIC reduzem, mas no eliminam, esse problema
Outline Introduo Diferenas entre Regresso Simples e Mltipla Seleo de variveis e construo do modelo
Mtodo Stepwise
O mtodo usado para calcular esse "ganho"ou "perda"de informao pode variar de acordo com a escolha do usurio O mtodo stepwise original baseado em testes de signicncia, e bastante criticado por sua ampla sensitividade multicolinearidade O uso de medidas mais robustas como o AIC reduzem, mas no eliminam, esse problema Quando duas variveis so muito parecidas, a escolha se torna arbitrria, e somente o suporte terico (i.e. bom senso) pode resolver o problema
Thiago S. F. Silva thiago@dsr.inpe.br Aula 19: Regresso Mltipla
Outline Introduo Diferenas entre Regresso Simples e Mltipla Seleo de variveis e construo do modelo
Mtodo Stepwise
form <- vector() for(i in c(1:100)){ x1 <- runif(30,0,20) x2 <- x1 + rnorm(30,0,1) y <- 3 + 2.3*x1 + 2.1*x2 + rnorm(30,0,10) m <- lm(y ~ x1 + x2) sm <- step(m, trace=0) form <- c(form, as.character(formula(sm))[3]) } barplot(table(factor(form)))
10
20
30
40
x1
x1 + x2
x2
Outline Introduo Diferenas entre Regresso Simples e Mltipla Seleo de variveis e construo do modelo
Concluindo
A regresso mltipla bastante similar regresso simples, com algumas complicaes a mais: Mltiplas variveis sempre apresentaro algum grau de multicolinearidade O melhor conjunto de variveis nem sempre inclui todos os preditores disponveis Existem algoritmos para auxiliar na seleo destas variveis Mas o seu conhecimento da teoria e da aplicao sempre iro prevalecer
Thiago S. F. Silva thiago@dsr.inpe.br Aula 19: Regresso Mltipla
Outline Introduo Diferenas entre Regresso Simples e Mltipla Seleo de variveis e construo do modelo