Cincias
iii
Agradecimentos
Em primeiro lugar, quero agradecer a todos os que contriburam para que fosse possvel
realizar este trabalho.
minha orientadora, Professora Doutora Clia Maria Pinto Nunes, pela fora e motivao,
pelas suas orientaes e apoio, e sobretudo pela sua amizade.
Um agradecimento especial colega Snia Ladeira pelas suas ideias e sugestes e querida
amiga Slvia Melchior pela sua ajuda no Ingls.
minha cunhada, Dra. Catarina Reis, que gentilmente me cedeu uma base de dados para uso
nas aplicaes.
minha famlia que sempre me apoiou e incentivou, em especial aos meus filhos, pelo tempo
que no lhes dediquei, aos meus pais, pilares da minha vida, pelo permanente incentivo e
pela formao que me permitiram adquirir, aos meus sogros pela ajuda incondicional.
Ao meu marido, quem mais sofreu com as minhas indisponibilidades e impacincias, pelo seu
carinho, companheirismo e compreenso
v
Resumo
O presente trabalho teve como principal objectivo apresentar os resultados mais importantes
sobre os modelos de regresso linear, ilustrando a sua aplicabilidade atravs de estudos que
foram elaborados com base em dados reais.
Palavras-chave
Regresso Linear Simples, Regresso Linear Mltipla, Estimao dos Parmetros, Aplicaes a
Dados Reais.
vii
Abstract
This study's main objective was to present the most important results about the linear
regression models, illustrating its applicability through studies that were prepared based on
real data.
Therefore we touched the simple linear regression analysis and briefly describe the multiple
linear regression, distinct from the previous embedded when more than one independent
variable in the regress.
Framed in the previous issue, we devoted a chapter to Waste Analysis ion model.
Finally, and as a complement of research carried throughout this work we held some studies
applied to real data, which concern the Heart Rate Variability.
Keywords
ix
ndice
1. Introduo ................................................................................................ 1
5. Aplicaes ............................................................................................... 43
6. Concluses ............................................................................................... 57
Bibliografia .................................................................................................. 59
Anexos........................................................................................................ 61
Lista de Figuras
Figura 5.6 Normal p-p plot da regresso dos resduos estandardizados .......................... 52
xiii
Lista de Tabelas
xv
Modelo de Regresso Linear e suas Aplicaes
1. INTRODUO
O termo regresso foi proposto pela primeira vez por Sir Francis Galton em 1885 num
estudo onde demonstrou que a altura dos filhos no tende a reflectir a altura dos pais, mas
tende sim a regredir para a mdia da populao. Actualmente, o termo Anlise de
Regresso define um conjunto vasto de tcnicas estatsticas usadas para modelar relaes
entre variveis e predizer o valor de uma ou mais variveis dependentes (ou de resposta) a
partir de um conjunto de variveis independentes (ou predictoras). (Maroco, 2003)
A temtica deste trabalho ser a anlise de regresso linear, no entanto, faremos de seguida
uma pequena abordagem ao coeficiente de correlao e consequentemente ao coeficiente de
determinao.
A anlise de correlao tem como objectivo a avaliao do grau de associao entre duas
variveis, e , ou seja, mede a fora de relacionamento linear entre as variveis e .
1
,
2
1
2 1
onde
n n
,
n n
i 1 i 1
1
Modelo de Regresso Linear e suas Aplicaes
0 Nula
1 Perfeita negativa
Para investigar a relao entre duas variveis, e , podemos representar os valores das
variveis num grfico de disperso. Afirma-se que existe uma relao linear entre as variveis
se os dados se aproximarem de uma linha recta.
Como vimos, o coeficiente de correlao linear de Pearson entre duas variveis serve para
medir a intensidade da relao linear entre elas. O coeficiente de determinao mais
indicado para medir a explicao da recta de regresso. Assim, quanto mais prximo de 1
estiver o valor do coeficiente de determinao, maior a percentagem da variao de
explicada pela recta estimada, e por conseguinte, maior a qualidade do ajustamento.
2
Modelo de Regresso Linear e suas Aplicaes
Figura 1.1- Classificao da correlao atravs do diagrama de disperso, disponvel em Santos (2007).
2
.
O toma valores entre zero e um. A qualidade do ajuste ser tanto maior quanto mais
se aproximar de 1.
Em resumo, a presena ou ausncia de relao linear pode ser averiguada a partir de dois
pontos distintos:
3
Modelo de Regresso Linear e suas Aplicaes
Ainda que operacionalmente simples, existem certos aspectos do uso da regresso linear que
merecem uma discusso adicional e sobre os quais nos debruaremos neste trabalho.
feita uma breve abordagem sobre a anlise de regresso linear mltipla no captulo 3. Neste
captulo, apresentado o modelo terico e os seus pressupostos. ainda feita referncia
anlise de varincia, de extrema importncia para a regresso linear mltipla.
4
Modelo de Regresso Linear e suas Aplicaes
Esta relao representa-se por meio de um modelo matemtico, ou seja, por uma equao
que associa a varivel dependente com as variveis independentes ,, .
O Modelo de Regresso Linear Simples define-se como a relao linear entre a varivel
dependente e uma varivel independente .
Enquanto que o Modelo de Regresso Linear Mltiplo define-se como a relao linear entre a
varivel dependente e vrias variveis independentes ,, .
Neste captulo vamos apenas debruar-nos sobre o modelo de regresso linear simples. Ser
apresentado o modelo terico e os seus pressupostos, assim como a estimao dos parmetros
do modelo pelo mtodo dos mnimos quadrados. Sero ainda construdos testes e intervalos
de confiana para os parmetros do modelo.
, 1, , 2.1
onde:
O parmetro representa o ponto em que a recta regressora corta o eixo dos quando
0 e chamado de intercepto ou coeficiente linear.
5
Modelo de Regresso Linear e suas Aplicaes
. 2.2
Por outro lado, podemos afirmar que o erro de uma observao independente do
erro de outra observao, o que significa que:
, 0,para , , 1, , .
6
Modelo de Regresso Linear e suas Aplicaes
Tem-se ento
,
0
e consequentemente
termoconstante
~ 0, , 1, ,
e portanto que
~ , , 1, , .
Supondo que existe efectivamente uma relao linear entre e , coloca-se a questo de
como estimar os parmetros e .
Karl Gauss entre 1777 e 1855 props estimar os parmetros e visando minimizar a soma
dos quadrados dos desvios, , 1, , , chamando este processo de mtodo dos mnimos
quadrados. Este mtodo ser descrito de seguida. (Maroco, 2003)
O mtodo dos mnimos quadrados consiste na obteno dos estimadores dos coeficientes de
regresso e , minimizando os resduos do modelo de regresso linear, calculados como a
diferena entre os valores observados, , e os valores estimados, , isto
, 1, , .
7
Modelo de Regresso Linear e suas Aplicaes
Resduos
positivos
Resduos
negativos
O mtodo dos mnimos quadrados prope ento encontrar os valores de e para os quais a
soma dos quadrados dos resduos (SQE) mnima. Tem-se ento:
2.3
2
.
2
2 y x 0
2 y x x 0
8
Modelo de Regresso Linear e suas Aplicaes
n y x
2.4
x x xy 0
_____
2.5
_____ ,
Como
vem
. 2.6
9
Modelo de Regresso Linear e suas Aplicaes
com
, 1, , .
Demonstrao: Como
com
10
Modelo de Regresso Linear e suas Aplicaes
visto que
Valor esperado de
, 2.7
com
. 2.8
11
Modelo de Regresso Linear e suas Aplicaes
Visto que
e que
1,
0 1 , 2.9
Varincia de
12
Modelo de Regresso Linear e suas Aplicaes
visto que
Valor esperado de
. 2.10
Varincia de
Tem-se
2 , . 2.11
Ora
13
Modelo de Regresso Linear e suas Aplicaes
Como
0.
Como
vem
14
Modelo de Regresso Linear e suas Aplicaes
e consequentemente
0,
visto que
0.
, 0.
1
.
c) Covarincia entre e
15
Modelo de Regresso Linear e suas Aplicaes
Como , vem
1
,
d) Distribuio amostral de e de
com
.
~ , , 1, , .
16
Modelo de Regresso Linear e suas Aplicaes
1
~ , ;
~ , .
2.4. ESTIMADOR DE
2 2 2 2 2
2 2
2 2
17
Modelo de Regresso Linear e suas Aplicaes
1
1
2
0 1
2
2
0 1
1
. 2.12
Calculamos
18
Modelo de Regresso Linear e suas Aplicaes
1 1
2
2
2
2 2 2 2
2 2
2 2.13
,
2
~ , , 1, , .
19
Modelo de Regresso Linear e suas Aplicaes
Vimos tambm que a distribuio amostral de para o modelo de regresso normal tambm
normal, uma vez que uma combinao linear dos , com:
Da
~ ; .
:
,
:
~ ,
com
tem distribuio t-student com 2 graus de liberdade, (ver por exemplo Maroco,
2003).
20
Modelo de Regresso Linear e suas Aplicaes
: 0
, 2.14
: 0
que so as hipteses que queremos testar no modelo em questo. Neste caso a estatstica de
teste poder ser reescrita da seguinte forma
~ . 2.15
No que diz respeito ao intervalo de confiana, a 1 100%, para esse ser dado por
; ; ; .
tem-se
1
~ , .
Consideremos as hipteses:
:
,
:
21
Modelo de Regresso Linear e suas Aplicaes
~ ,
com
1
.
: 0
,
: 0
~ .
Quanto ao intervalo de confiana para , com 1 100% de confiana, ser dado por
, ; , .
22
Modelo de Regresso Linear e suas Aplicaes
Na regresso linear mltipla assumimos que existe uma relao linear entre uma varivel
(varivel dependente) e variveis independentes (preditoras), , ,, .
, 1, , , 3.1
em que
23
Modelo de Regresso Linear e suas Aplicaes
3.1.1. Interaes
Vamos considerar o caso particular do modelo de regresso linear mltipla com duas variveis
explicativas e . Assim, o modelo ser definido por
. 3.2
. 3.3
Interaco
24
Modelo de Regresso Linear e suas Aplicaes
a) 0, 1, , ;
b) Os erros so independentes;
c) , 1, , (varincias constantes);
d) Os erros tm distribuio normal.
Como vimos em (3.1), a expresso geral de i-sima observao no modelo de regresso linear
(sem interaco) dada por:
, 1, , .
, 3.4
onde
1 ,
1 , 1
1 ,
25
Modelo de Regresso Linear e suas Aplicaes
, ,, .
varincias-covarincias , isto
~ , .
De modo anlogo regresso simples, usando o mtodo dos mnimos quadrados, pretendemos
encontrar o vector de estimadores , com componentes , ,, , que minimiza
2 ,
Derivando obtemos
2 2 .
2 2 0
, 3.5
26
Modelo de Regresso Linear e suas Aplicaes
a) Valor esperado de :
visto que 0e .
b) Matriz de covarincias de :
, , ,
, , ,
, , ,
, , ,
27
Modelo de Regresso Linear e suas Aplicaes
visto que .
3.3. ESTIMADOR DE
Consideremos a soma do quadrado dos resduos, que como vimos anteriormente, definido
por:
2 .
28
Modelo de Regresso Linear e suas Aplicaes
Pelo que
~ ;
1
0
2
1 ,
~ .
.
1
29
Modelo de Regresso Linear e suas Aplicaes
A anlise de varincia importante para a anlise de regresso linear mltipla. Este tema no
foi abordado na anlise de regresso linear simples, uma vez que no traz novidades em
termos de aplicao dos testes, j que o teste e o teste daro os mesmos resultados.
Basta-nos observar que o teste o quadrado do teste .
Na anlise de regresso mltipla, o teste produz um teste mais geral. Atravs da sua
utilizao determina-se se qualquer das variveis independentes no modelo possui poder de
explicao. Cada varivel pode ento ser testada individualmente com o teste para
determinar se uma das variveis significativas.
A anlise de varincia, baseia-se na decomposio da soma dos quadrados total, SQT, (que
corresponde variao da varivel resposta), na soma dos quadrados explicada, SQR, (que
corresponde variao da varivel resposta que explicada pelo modelo) e na soma dos
quadrados dos resduos, SQE, (que corresponde variao da varivel resposta que no
explicada pelo modelo).
: 0
.
: : 0, 1, ,
~ , ,
1
30
Modelo de Regresso Linear e suas Aplicaes
Estas somas de quadrados podem ser apresentadas numa tabela como a que apresentamos de
seguida.
1 .
0 1.
31
Modelo de Regresso Linear e suas Aplicaes
Assim sendo, prefervel utilizar o coeficiente de determinao ajustado, que uma medida
ajustada do coeficiente de determinao e que penalizada quando so adicionadas
variveis pouco explicativas.
1
1 1 .
1
Note-se que a incluso de mais variveis diminui o valor de , pois aumenta , e no traz
muito incremento a .
32
Modelo de Regresso Linear e suas Aplicaes
4. ANLISE DE RESDUOS
Como vimos nos captulos anteriores os resduos so dados pela diferena entre os valores da
varivel resposta observada e a varivel resposta estimada, isto ,
, 1, , .
com
,, , amatrizdomodelo, ,, e ,, ,
a) , 1, , so normalmente distribudos;
b) , 1, , , tm varincia constante (homoscedasticidade);
c) e , , so independentes;
d) no existem Outliers influentes.
No caso da regresso linear mltipla, para alm destes pressupostos, preciso ainda verificar
se existe colinearidade ou multicolinearidade entre as variveis explicativas.
A normalidade dos resduos pode ser analisada quer atravs de grficos, quer usando alguns
testes, nomeadamente atravs do
33
Modelo de Regresso Linear e suas Aplicaes
Vejamos:
Neste grfico, vamos visualizar a distribuio de probabilidades dos valores observados com
os valores esperados, representada por uma diagonal, segundo uma distribuio normal.
A Figura 4.1 mostra o grfico p-p plot de resduos. Nesta situao a normalidade verificada
j que os pontos se aproximam da recta.
:Adistribuionormal
.
:Adistribuiononormal
34
Modelo de Regresso Linear e suas Aplicaes
Este teste observa a mxima diferena absoluta entre a funo de distribuio acumulada
assumida pelos dados, neste caso da distribuio normal, e a funo de distribuio emprica
dos dados.
Este teste sugere-nos preferncia em relao ao teste de K-S para amostras de pequenas
dimenses 30 . Neste caso, as hipteses a serem testadas so as definidas anteriormente
para o teste de K-S.
onde:
Um dos pressupostos do modelo de regresso linear a de que os erros devem ter varincia
constante. Esta condio designada por homoscedasticidade.
A varincia ser constante equivale a supor que no existem observaes includas na varivel
residual cuja influncia seja mais intensa na varivel dependente.
Uma das tcnicas usadas para verificar a suposio de que os resduos so homoscedsticos,
a anlise do grfico dos resduos versus valores ajustados. Este grfico deve apresentar pontos
dispostos aleatoriamente sem nenhum padro definido, como se pode ver, por exemplo na
Figura 4.2.
35
Modelo de Regresso Linear e suas Aplicaes
Por isso, se os pontos esto aleatoriamente distribudos em torno da recta 0, sem nenhum
comportamento ou tendncia, temos indcios de que a varincia dos resduos constante. J
a presena, por exemplo, de funil um indicativo da presena de heteroscedasticidade.
:
.
:
36
Modelo de Regresso Linear e suas Aplicaes
0; ; ;4 4 ;4 4 ;4
De acordo com Pires e Branco (2007), Outliers so observaes extremas que se encontram de
tal forma afastadas da maioria dos dados que surgem dvidas sobre se elas podero ou no ter
sido geradas pelo modelo proposto para explicar essa maioria dos dados.
Se um Outlier for influente vai interferir sobre a funo de regresso ajustada o que significa
que a incluso ou no desse ponto modifica substancialmente os valores ajustados. Assim, um
ponto influente se a sua excluso na regresso ajustada provoca uma mudana substancial
nos valores ajustados.
Uma medida que serve para diagnosticar Outliers Leverage (LEV). Para uma dada
observao, um Leverage elevado indica que essa observao se distancia do centro das
observaes exercendo influncia sobre o valor previsto. O Leverage varia entre 0e1.
Acontece que um elevado Leverage indica apenas que a observao poder ser influente.
3 1
,
2 1
,
Segundo Pires e Branco, (2007), para se perceber os problemas que a presena de Outliers
podem causar estimao dos mnimos quadrados conveniente distinguir vrios tipos de
Outliers:
37
Modelo de Regresso Linear e suas Aplicaes
a) Outlier de regresso:
c) Outlier em
d) Outlier em ,
Um ponto que Outlier nas duas coordenadas. Este pode ou no ser um Outlier de
regresso.
Uma vez que uma observao pode ser considerada um Outlier e pode ou no ser uma
observao influente importante identificar quais as observaes influentes. De seguida
sero apresentadas algumas tcnicas que permitem essa identificao.
1) SDFFIT
uma das medidas de utilizao mais frequente para medir a influncia de cada
observao. SDFFIT trata-se de uma medida estandardizada que mede a influncia
que a observao tem sobre o seu valor ajustado.
Considera-se que uma observao influente se, ver Pestana e Gageiro, 2005a,
1
| | 2 .
1
38
Modelo de Regresso Linear e suas Aplicaes
2) SDFBETA
A influncia que uma observao tem sobre a estimao de cada um dos coeficientes
de regresso pode ser calculada pelo SDFBETA. Trata-se de uma medida
estandardizada que corresponde alterao nos coeficientes estimados,
, 0, , , quando se exclui essa observao.
Neste caso, a observao influente quando,
| | 1,96,
2
| | ,
4
,
1
Como foi referido atrs, na regresso linear mltipla importante efectuar uma anlise de
colinearidade e multicolinearidade.
39
Modelo de Regresso Linear e suas Aplicaes
1 1
,
1
Esta varincia tanto maior quanto maior for a correlao mltipla entre e as variveis
independentes.
varivel .
Segundo Maroco (2003), caso se obtenham valores de 5 conclui-se que estamos perante
problemas com a estimao de devido presena de multicolinearidade nas variveis
independentes.
Numa situao deste gnero devamos eliminar uma das variveis e reestimar o modelo.
40
Modelo de Regresso Linear e suas Aplicaes
Existem vrios mtodos que permitem, na egresso linear mltipla, fazer uma seleco das
variveis independentes que melhor explicam a varivel resposta, nomeadamente:
. FORWARD o mtodo comea apenas com a constante e adiciona uma varivel independente
de cada vez. A primeira varivel selecionada a que apresenta maior correlao com a
varivel resposta (maior score statistic)
. BACKWARD o mtodo faz o contrrio do mtodo Forward. Neste caso todas as variveis
independentes so incorporadas no modelo. Depois, por etapas, cada uma pode ser ou no
eliminada.
. STEPWISE - o mtodo Stepwise uma modificao do mtodo Forward que permite resolver
problemas de multicolinearidade. Consiste no seguinte: fazemos entrar no modelo a varivel
explicativa que apresenta maior coeficiente de correlao com a varivel dependente.
Estima-se a nova equao de regresso e analisa-se se uma das duas variveis independentes
deve ser excluda do modelo.
Este processo finda, assim que se chegue situao em que nenhuma varivel deva ser
acrescentada equao.
41
Modelo de Regresso Linear e suas Aplicaes
5. APLICAES
Os dados que usamos neste captulo foram cedidos pela Doutora Catarina Reis Santos,
Nefrologista na Unidade Local de Sade de Castelo Branco. A amostra constituda por 35
utentes da Consulta de Hipertenso e Dislipidmia, no Hospital de Sta. Marta, Lisboa, em
2010, e os dados foram recolhidos atravs de documento prprio, Avaliao da Variabilidade
da Frequncia Cardaca, disponvel no anexo 2. Estes dados foram recolhidos com o intuito de
avaliar a existncia de diferenas da variabilidade da frequncia cardaca, entre utentes
diabticos e no diabticos.
O nosso estudo vai-se concentrar nas seguintes variveis: peso, colesterol total (CT),
triglicridos e high density lipoprotein (HDL).
Estes dados foram tratados recorrendo ao software SPSS, verso 19, de onde provm as
tabelas e figuras que apresentamos neste captulo.
Sero apresentados dois estudos. No primeiro estudo foi utilizado o Modelo de Regresso
Linear Simples, enquanto que no segundo considermos o Modelo de Regresso Linear
Mltipla, com trs variveis explicativas.
Com vista a perceber se o nvel de HDL no sangue, (mg/dl), influencia o nvel de CT no sangue
(mg/dl), foi realizada uma anlise de regresso linear simples.
O modelo de regresso linear simples que representa a relao entre a varivel dependente,
CT, e a varivel independente, HDL, dado pela seguinte equao:
5.1
CT 154,8857 103,45467 35
A Tabela 5.1- Estatstica descritiva mostra o valor mdio e o desvio padro de CT e HDL.
Concluimos que, nesta amostra, o nvel de concentrao de CT no sangue em mdia
154,8857 (mg/dl), enquanto que de HDL 33,6.
43
Modelo de Regresso Linear e suas Aplicaes
De acordo com a observao do diagrama de disperso (Figura 5.1) somos tentados a concluir
que existe uma relao linear entre o CT e o HDL e que as duas variveis tendem a variar no
mesmo sentido, o que significa que o aumento da varivel independente, HDL, provoca um
aumento da varivel dependente, CT.
Analisando a Tabela 5.2 podemos afirmar que a correlao existente entre as variveis
positiva moderada ( 0,637 .
Como foi dito no captulo 3, a nossa preferncia recai sobre o valor do coeficiente de
correlao ajustado que, neste caso, nos leva a afirmar que 38,8% da variabilidade da varivel
dependente CT explicada pela varivel independente HDL, sendo a restante variabilidade
explicada por factores no includos no modelo.
44
Modelo de Regresso Linear e suas Aplicaes
Para efectuar a anlise de varincia do modelo recorreu-se ao teste de que tem associado o
seguinte de 0,000. De acordo com o seu valor, rejeitamos : 0, pelo que
podemos dizer que o modelo significativo.
O teste ao coeficiente de regresso dado pelo teste t-student ao qual est associado um
valor de significncia de 0,129 (>0,05). Conclumos, portanto, que no se deve rejeitar a
hiptese : 0, o que significa que a recta ajustada passa pela origem.
Quanto ao teste para dado pelo teste t-student ao qual est associado um valor de
significncia de 0,000 (<0,05). Logo rejeita-se a hiptese : 0, o que significa que a
varivel HDL influencia significativamente o CT.
Fazendo a comparao dos resultados do teste t com o teste F, verificamos que foram obtidos
os mesmos resultados como podemos confirmar pelas tabelas Tabela 5.3 e 5.4, tal como era
esperado pelo que foi justificado no captulo 2.
45
Modelo de Regresso Linear e suas Aplicaes
O modelo definido em (5.2) s ser adequado se validados todos os pressupostos. Vamos nesta
subseco fazer uma anlise desses pressupostos.
Unstandardized Residual
N 35
Mean ,0000000
Normal Parametersa,b
Std. Deviation 75,68119963
Absolute ,157
Most Extreme Differences Positive ,139
Negative -,157
Kolmogorov-Smirnov Z ,930
Asymp. Sig. (2-tailed) ,353
a. Test distribution is Normal.
b. Calculated from data.
46
Modelo de Regresso Linear e suas Aplicaes
Pela anlise grfica dos resduos estandardizados (Figura 5.3) e dos resduos press
(Figura 5.4) podemos concluir que existem Outliers, dado que h resduos que
apresentam valores absolutos superiores a 1,96, sendo eles os correspondentes s
observaes 4, 13 e 26, como mostra a Figura 5.4. (ver Maroco, 2003)
47
Modelo de Regresso Linear e suas Aplicaes
A confirmao da existncia de Outliers pode ser feita, por exemplo, atravs do valor
mximo do student deleted residual que neste caso corresponde ao valor 5,154 > 1,96.
E tambm analizando o valor da Leverage centrada mxima, que igual a 0,130
Vamos usar mais uma tcnica para averiguar a existncia de Observaes Influentes,
recorrendo anlise dos SDFFIT. Para isso apresentamos o grfico dos SDFFIT (Figura
5.5).
48
Modelo de Regresso Linear e suas Aplicaes
Concluso
Uma vez que todos os pressupostos da regresso linear simples foram validados, podemos
concluir que o modelo (5.2) adequado justificando correctamente os dados.
Neste estudo passamos a considerar o modelo de regresso linear mltipla, que ser
estimado atravs do mtodo Stepwise. O que pretendemos averiguar de que forma o
peso, o nvel de HDL, e o nvel de triglicridos (mg/dl) influenciam o nvel de CT no sangue.
O modelo de regresso linear mltipla que representa a relao entre a varivel dependente,
CT, e as variveis independentes, peso, HDL, triglicridos, dado pela seguinte equao:
5.3
O valor mdio de CT aproximadamente 154,8857 mg/dl enquanto que o valor mdio de HDL
de 33,6 mg/dl aproximadamente e dos triglicridos 160,7429 mg/dl. O peso mdio dos
indivduos da amostra de 73,8 Kg, aproximadamente.
Variables Variables
Model Method
Entered Removed
Stepwise (Criteria: Probability-of-F-to-enter <= ,050,
1 Triglicridos .
Probability-of-F-to-remove >= ,100).
Stepwise (Criteria: Probability-of-F-to-enter <= ,050,
2 HDL .
Probability-of-F-to-remove >= ,100).
a. Dependent Variable: CT- Colesterol Total
A Tabela 5.8 confirma a utilizao do mtodo Stepwise. Verificamos que a primeira varivel a
entrar triglicridos, seguindo-se a varivel HDL.
49
Modelo de Regresso Linear e suas Aplicaes
Observando a Tabela 5.9, conclumos que e tomam valores aproximados, sendo que o
maior valor de corresponde ao modelo em que so consideradas as duas variveis
explicativas, HDL e triglicridos. Conclumos que este modelo ser provavelmente o que
melhor explica os valores de CT. Este valor permite-nos afirmar que 71,6% ( 0.716 da
variabilidade de CT explicada por este modelo.
Pela anlise do valor de significncia do teste F (0,000) conclumos que o modelo altamente
significativo. Constata-se que o CT explicado pelas duas variveis independentes
(triglicridos e HDL). Esta concluso pode ser confirmada observando a significncia do teste t
da Tabela 5.11 ( 0,000 .
50
Modelo de Regresso Linear e suas Aplicaes
Ainda da anlise da Tabela 5.11 conclumos que o modelo ajustado tem como equao
Collinearity Statistics
Model Beta In t Sig. Partial Correlation
Tolerance VIF Minimum Tolerance
a
HDL ,527 5,667 ,000 ,708 ,964 1,037 ,964
1
Peso -,075a -,586 ,562 -,103 1,000 1,000 1,000
b
2 Peso -,070 -,762 ,452 -,136 ,999 1,001 ,964
a. Predictors in the Model: (Constant), Triglicridos
b. Predictors in the Model: (Constant), Triglicridos, HDL
c. Dependent Variable: CT- Colesterol Total
O que vai de encontro realidade, uma vez que o aumento de peso nos individuos no
significa que estes venham a sofrer de nveis de CT no sangue superiores ao nveis normais.
Pode inclusivamente surgir a situao de que individuos com peso abaixo do peso ideal
sofram de nveis bastante elevados de CT.
Com o intuito de verificar se o modelo (5.4) adequado, de seguida feita uma anlise dos
pressupostos da regresso linear mltipla.
Observando a Figura 5.6 parecem existir alguns pontos que se afastam da diagonal
principal, no sendo conclusivos quanto normalidade dos resduos.
51
Modelo de Regresso Linear e suas Aplicaes
Unstandardized Residual
N 35
Mean ,0000000
Normal Parametersa,b
Std. Deviation 53,46435912
Absolute ,195
Most Extreme Differences Positive ,095
Negative -,195
Kolmogorov-Smirnov Z 1,152
Asymp. Sig. (2-tailed) ,141
Exact Sig. (2-tailed) ,123
Point Probability ,000
a. Test distribution is Normal.
b. Calculated from data.
52
Modelo de Regresso Linear e suas Aplicaes
A partir da anlise grfica dos resduos estandardizados, Figura 5.7, como os resduos se
distribuem aleatoriamente em torno de zero, conclumos que os resduos so
homoscedsticos. (ver Maroco, (2003) e Pestana e Gageiro, (2005b))
COLINEARIDADE
Como se trata de uma anlise de regresso linear mltipla, um dos pressupostos que
ter de ser verificado se existe colinearidade entre as duas variveis independentes.
Variance Proportions
Model Dimension Eigenvalue Condition Index
(Constant) Triglicridos HDL
1 1,480 1,000 ,26 ,26
1
2 ,520 1,686 ,74 ,74
1 2,249 1,000 ,04 ,08 ,04
2 2 ,617 1,909 ,05 ,92 ,04
3 ,134 4,095 ,91 ,00 ,92
a. Dependent Variable: CT- Colesterol Total
Dado que para as duas variveis independentes os valores de VIF 5, como podemos
confirmar pela Tabela 5.11, conclumos que no existem problemas de colinearidade.
Esta concluso pode ser confirmada pelos Condition Index na Tabela 5.14, j que estes
valores so inferiores a 15 (ver Maroco, 2003).
53
Modelo de Regresso Linear e suas Aplicaes
Pela anlise grfica dos resduos press, Figura 5.8, temos que, existem Outliers, dado
que apresenta resduos com valores absolutos superiores a 1,96 (ver Pestana e Gageiro,
2005b). So Outliers as observaes 4, 24 e 26.
Olhando ainda para a Tabela 5.15 conclumos que estes Outliers podero ser influentes
54
Modelo de Regresso Linear e suas Aplicaes
Concluso
O que fazer em situaes como esta uma questo ainda nos tempos actuais colocada por
muitos autores da rea. Podemos tomar a deciso mais fcil, que passa por excluir esta
observao da anlise e reestimar de novo o modelo. No entanto h quem defenda que se
deve manter este tipo de observaes, ver por exemplo, Figueira (1995).
excepo desta questo todos os restantes pressupostos foram validados. Optando pela no
excluso da observao 24, teramos o modelo (5.4) como o modelo vlido, adequado aos
dados.
55
Modelo de Regresso Linear e suas Aplicaes
6. CONCLUSES
O presente trabalho teve como principal objectivo aprofundar o conhecimento dos modelos
de regresso linear.
Este trabalho no abordou de forma exaustiva o modelo de regresso linear mltipla, pela
extenso do tema e pela restrio do tempo, da termos designado o captulo referente a este
tema como Breve Abordagem.
Tendo em conta a importncia de validao dos pressupostos impostos ao erro do modelo, por
forma a concluir se o modelo adequado, foi apresentado um captulo sobre a anlise de
resduos.
Desenvolvemos alguns estudos, no captulo das Aplicaes, com vista a mostrar a grande
aplicabilidade do modelo de regresso linear em diversas reas, nomeadamente, na rea das
cincias da sade, rea contemplada nos estudos que apresentmos. Dada a restrio de
tempo, no foi considerado neste captulo o modelo mais complexo da regresso linear
mltipla, onde teramos de inserir a interaco entre as variveis. A partir da investigao
realizada neste ltimo captulo consideramos importante a apresentao de algumas
consideraes finais.
Podemos afirmar que existe uma relao entre os nveis (mg/dl) no sangue de CT e HDL,
triglicridos. Constatmos que uma outra varivel, peso, no influencia significativamente os
nveis de CT. Este facto corrobora a existncia de pessoas que, mesmo com excesso de peso,
no tm nveis elevados de CT no sangue, e o contrrio, pessoas magras, podem sofrer de
colesterol total elevado.
57
Modelo de Regresso Linear e suas Aplicaes
BIBLIOGRAFIA
[1]. Afonso, A., Nunes, C.; Probabilidades e Estatstica Aplicaes e solues em
SPSS; Escolar Editora; 2011.
[2]. Branco, J.A. e Pires, A.M.; Introduo aos Mtodos Estatsticos Robustos;
Edies SPE; 2007.
[3]. Cordeiro, N., Magalhes, A.; Introduo Estatstica; Lidel; 2004.
[4]. Cunha, G, Martins, M.R, Sousa, R., Oliveira, F.F.; Estatstica Aplicada s
Cincias e Tecnologias da Sade; Lidel; 2007.
[5]. Draper, N.R., Smith, H.; Applied Regression Analisys, 3 edio, John Wiley and
Sons; 1998.
[6]. Edwards, A. L.; An Introduction to Linear Regression and Correlation. San
Francisco, CA: W. H. Freeman, 1976.
[7]. Esteves, E.& Sousa, C.; Apontamentos de ADPE; UALG; 2007.
[8]. Figueira, M.M.C. (1995): Identificao de outliers: uma aplicao ao conjunto
das maiores empresas com actividade em Portugal Tese de Mestrado Instituto
Superior de Economia e Gesto.
[9]. Franco, S. C. A.; Comportamento pedaggico dos instrutores de fitness em
aulas de grupo localizada; Ph.D. Thesis, INEFC; 2009.
[10]. Guimares, R. C., Cabral, J. A. S.; Estatstica; McGraw-Hill; 1997.
[11]. Marinho, J. L. A.; Proposta de um modelo para avaliao de imveis urbanos da
Regio de Cariri utilizando variveis scio-econmicas; Fortaleza 2007;
Available from pt.scribd.com/doc/56277599/74/coeficiente-de-determinacao.
[12]. Mexia, J.T.; Introduo Inferncia Estatstica Linear; Centro de Estudos de
Matemtica Aplicada; Edies Lusfonas; 1995
[13]. Matos, M.A.; Manual operacional para a regresso linear; FEUP; 1995.
[14]. Murteira, B., Ribeiro, C., Silva, J. A., Pimenta, C.; Introduo estatstica;
Escolar editora; 2010.
[15]. Maroco, J.; Anlise Estatstica Com utilizao do SPSS, 2 edio; Edies
Slabo; 2003.
[16]. Murteira, B.J.F.; Probabilidades e Estatstica, volume I, 2 edio; McGraw-Hill;
1998.
[17]. Pagano, M. & Gauvreau, K; Princpios de Bioestatstica; Pioneira Thomson
Learning; 2004.
[18]. Pestana, D.D., Velosa, S.F.; Introduo Probabilidade Estatstica Volume I;
Fundao Calouste Gulbenkian; 2002.
[19]. Pestana, M. H. e Gageiro, J.N.; Anlise de Dados para Cincias Sociais: A
Complementaridade do SPSS. 4 ed., Lisboa: Slabo; 2005a.
59
Modelo de Regresso Linear e suas Aplicaes
60
Modelo de Regresso Linear e suas Aplicaes
ANEXOS
61
Modelo de Regresso Linear e suas Aplicaes
63
Modelo de Regresso Linear e suas Aplicaes
para 0.05
p 1 2 3 4 5 10 15
n
6 0.61 1.40
10 0.88 1.32 0.70 1.64 0.53 2.02 0.38 2.41 0.24 2.82
20 1.20 1.41 1.10 1.54 1.00 1.68 0.89 1.83 0.79 1.99 0.34 2.89 0.06 3.68
30 1.35 1.49 1.28 1.57 1.21 1.65 1.14 1.74 1.07 1.83 0.71 2.36 0.39 2.94
40 1.44 1.54 1.39 1.60 1.34 1.66 1.29 1.72 1.23 1.79 0.95 2.15 0.68 2.56
50 1.50 1.59 1.46 1.63 1.42 1.67 1.38 1.72 1.34 1.77 1.11 2.05 0.88 2.35
60 1.55 1.62 1.51 1.65 1.48 1.69 1.44 1.73 1.41 1.77 1.22 1.98 1.03 2.28
70 1.58 1.64 1.55 1.67 1.53 1.70 1.49 1.74 1.46 1.77 1.31 1.95 1.14 2.15
80 1.61 1.66 1.59 1.69 1.56 1.72 1.53 1.74 1.51 1.77 1.37 1.93 1.22 2.09
90 1.64 1.68 1.61 1.70 1.59 1.73 1.57 1.75 1.54 1.78 1.42 1.91 1.29 2.06
100 1.65 1.69 1.63 1.72 1.61 1.74 1.59 1.76 1.57 1.78 1.46 1.90 1.35 2.03
200 1.76 1.78 1.75 1.79 1.74 1.8 1.73 1.81 1.72 1.82 1.67 1.87 1.61 1.93
65
Modelo de Regresso Linear e suas Aplicaes
67
Modelo de Regresso Linear e suas Aplicaes
69
Modelo de Regresso Linear e suas Aplicaes
Nome: n processo:
Variveis clnicas:
Teraputica anti-hipertensora
Avaliao analtica:
Leso-orgo alvo:
70
Modelo de Regresso Linear e suas Aplicaes
71
Modelo de Regresso Linear e suas Aplicaes
Variveis demogrficas
nome n processo raa data de nascimento
9043085 caucasiano 04-09-1968
9047058 caucasiano 15-02-1944
9050121 caucasiano 24-09-1948
5144834 negra 11-09-1949
caucasiano
caucasiano
caucasiano
caucasiano 17-01-1946
negra 21-05-1989
caucasiano 02-01-1932
caucasiano 04-10-1959
9007759 caucasiano 19-03-1971
5099458 caucasiano 27-11-1940
8027480 caucasiano 15-07-1962
8027228 caucasiano 14-10-1961
99018573 caucasiano 02-10-1948
8070668 negra 10-03-1951
98042393 caucasiano 16-09-1948
97050698 caucasiano 08-06-1965
7283618 caucasiano 15-11-1957
7302865 caucasiano 18-04-1978
5122080 caucasiano 29-09-1947
8014858 caucasiano 15-12-1948
9044483 caucasiano 04-09-1957
4017870 caucasiano 20-01-1949
caucasiano 24-10-1946
8038698 caucasiano 31-12-1948
caucasiano 01-03-1944
8016803 caucasiano 26-02-1952
caucasiano 29-09-1982
8095648 caucasiano 06-04-1966
caucasiano
caucasiano 23-04-1944
8022849 caucasiano 12-12-1937
3001906 caucasiano 26-01-1937
73
Modelo de Regresso Linear e suas Aplicaes
Variveis clnicas
peso altura HTA DM 2 Dislipidmia CAD DVC Tabagismo Act. Fsica Hx familiar Apneia sono
69 162 0 1 1 0 0 0 0 1 0
54 150 0 0 1 0 0 0 0 1 0
67 155 1 0 1 0 0 0 0 1 0
73 165 0 1 1 0 0 0 0 1 0
97 171 1 1 1 0 0 1 0 1 1
80 162 0 1 0 0 0 1 1 1 0
66 154 0 1 0 1 0 0 1 1 0
89,5 177 1 1 1 0 0 1 0 1 0
52 161 0 1 1 0 0 0 0 0 0
85 168 1 1 1 0 1 1 0 1 0
100 179 1 1 1 0 0 1 0 1 0
105 160 1 0 0 0 0 1 0 1 0
65 156 1 1 1 1 0 0 0 1 0
58 162 1 0 0 0 0 0 1 1 0
60 158 0 0 1 0 0 1 0 0 0
78 170 1 1 1 0 0 0 0 0 0
97 174 1 1 1 0 0 1 0 1 0
82 160 1 0 0 0 0 1 1 0 0
52 155 1 0 1 0 0 0 0 1 0
91 165 0 1 1 0 0 0 0 1 0
90 184 0 0 1 0 0 0 0 1 0
67 161 1 1 1 0 0 0 0 1 0
59 150 1 1 1 0 0 0 1 1 0
75 166 1 1 1 0 0 1 0 1 0
1 1 1 0 1 1 1 0 0
108 172 1 1 1 0 0 1 0 1 1
64 155 1 1 1 0 0 0 0 1 0
73 168 1 1 1 1 0 1 0 0 0
64 161 0 1 1 0 0 0 1 1 0
51 157 0 1 0 0 0 0 0 0 0
108 160 1 1 1 0 0 0 0 0 0
55 146 1 1 1 0 0 0 0 1 0
74 154 1 1 1 0 0 0 0 0 0
87 165 1 1 1 1 0 0 1 1 0
89 171 1 1 1 0 0 1 0 1 0
74
Modelo de Regresso Linear e suas Aplicaes
75
O Modelo de Regresso Linear e suas Aplicaes
76
Modelo de Regresso Linear e suas Aplicaes
77
O Modelo de Regresso Linear e suas Aplicaes
78