Anda di halaman 1dari 5

Regresso

Linear Simples A regresso linear permite ajustar um modelo linear entre duas variveis de escala contnua. Esta relao assimtrica: uma varivel (normalmente denominada por X) independente, toma valores definidos pelo experimentador e no tem variabilidade aleatria, a outra varivel (normalmente denominada por Y) dependente (os seus valores so parcialmente determinados pelo valor da varivel independente) e tem variabilidade aleatria que no depende de X (Homocedasticidade). A regresso linear distinta da anlise de correlao linear. Esta estuda a relao linear entre duas variveis de escala contnua, mas ambas as variveis apresentam variabilidade aleatria. A anlise de correlao no adequada para fazer previses nem para estabelecer relaes do tipo causa-efeito. Nomenclatura: Os dados so constitudos por n pares de valores (xi,yi). Os valores da varivel Y previstos pelo modelo para um determinado xi denomina-se por i. A diferena di=(yi- i) denomina-se por desvio ou resduo.

Mtodo dos mnimos quadrados: A anlise de regresso linear comea por ajustar o modelo linear aos dados: i=mxi+b+ em que tem uma distribuio Normal com mdia 0 e desvio padro s. Para isso tem que determinar os valores dos parmetros m e b que minimizam os valores dos resduos. Concretamente, estimam-se os valores de m e b que minimizam a soma dos quadrados dos resduos: SSR=(yi-i)2= (yi-mxi-b)2

No caso da regresso linear simples, os valores ptimos de m e b, que minimizam o valor de SSR so exactamente determinados pela resoluo do sistema de equaes: (SSR/m)=0 e (SSR/b)=0 que origina as expresses:

m=

" (x ! x )(y ! y )
i i i

" (x ! x )
i i

b = y ! mx
Avaliao do modelo ajustado: A qualidade do ajuste do modelo aos dados dever ser feita atravs de vrios critrios em simultneo, nomeadamente, o teste de hipteses F, o valor do coeficiente de determinao R2 e a anlise dos resduos. Esta ltima avalia se os valores dos resduos esto aleatoriamente distribudos volta de 0 e se o valor absoluto dos resduos no afectado pelo valor de X. Se a sequncia de resduos positivos e negativos no aparentar ser aleatria, deveremos questionar se a relao entre X e Y de facto uma funo linear. Se o mdulo dos resduos variar com o valor de X (Heteroscedasticidade), estamos a violar um dos pressupostos da anlise de regresso linear simples. A anlise dos resduos feita por observao de um grfico de di versus xi. Exemplo de resduos com padro aleatrio e com variabilidade independente de X:

Exemplo de resduos com padro no aleatrio:

Exemplo de resduos com variabilidade dependente de X:

O teste de hipteses F e o coeficiente de determinao esto ambos relacionados com a reduo da variabilidade/incerteza dos valores de Y quando previstos pelo modelo linear em comparao com a situao em que no h relao entre X e Y (ou seja, quando Y independente de X). Quando o valor esperado de Y no depende do valor de X, a melhor previso dos valores de yi, para qualquer valor de xi, o valor mdio de Y, estimado pela mdia de yi - y . Nesta situao, a recta que melhor se ajusta aos dados tem ordenada na origem igual a y e declive igual a 0. Nesta situao a variabilidade dos valores yi em relao previso dada pela a soma dos quadrados dos desvios mdia, a que denominaremos SST (soma dos quadrados total):

SST = " (yi ! y )2


i

Ao fazer a regresso linear, a melhor previso de yi para um valor de xi passa a ser i, e a variabilidade volta dessa previso soma dos quadrados dos resduos, SSR.

A diferena entre estas duas somas de quadrados denominada soma dos quadrados da regresso (SSReg):

SSReg = SST ! SSR = " ( yi ! y )2


i

SSReg pode ser interpretado como a variabilidade de Y que explicada pela regresso. O coeficiente de determinao R2 a fraco da variabilidade total de Y que explicada pela regresso:

R2 =

SSReg SSR = 1! SST SST

R2 ser 1 se SSR=0, e ser 0 se SSR=SST, o que acontece quando a melhor recta tem declive 0. No primeiro caso temos o ajuste perfeito do modelo linear aos dados, e no segundo, temos a ausncia de relao entre Y e X. No entanto desaconselhado avaliar a qualidade do modelo de regresso ajustado apenas pelo valor de R2, pois SSR pode ser bastante pequeno (em relao a SST) mas sem um padro de resduos aleatrio, o que significaria que a relao entre Y e X no se ajusta correctamente a uma funo linear. O teste F permite, de modo genrico, testar se duas varincias so iguais. No caso da anlise de regresso linear, compara a varincia explicada pela regresso e a varincia residual. Tendo em conta que uma varincia uma soma de quadrados de desvios a dividir pelos graus de liberdade, e que a estatstica F a razo entre as duas varincias a comparar:

F=

SSReg 1 SSR (n ! 2)

A hiptese nula do teste a de Y independente de X (o que corresponde a um declive nulo, m=0, e consequentemente, SSReg=0 e SSR=SST). Segundo esta hiptese, os valores da estatstica F seguem uma distribuio F, com 1 e n-2 graus de liberdade no numerador e denominador, respectivamente. Valores de F elevados (mais elevados que o F crtico para uma dada significncia) permitem rejeitar a hiptese nula e considerar a regresso significativa.

Estimao de intervalos de confiana:

Anda mungkin juga menyukai