Introduo
Existe situaes em que interessa estudar o comportamento no conjunto de duas variveis que podem se comporta de forma distinta. Queremos medir o grau de associao entre os duas variveis. Queremos responder pergunta! Como se co-varia X e Y? ou seja O que acontece a varivel Y quando a varivel X muda?
7/14/2011 Kizito Kunaka e Leonid C. Moiss 2
Definies
Correlao a medida de grau de associao entre as duas variveis tais medidas tomadas simultaneamente. Diz-se que existe correlao entre duas ou mais variveis quando as alteraes sofridas por uma delas so acompanhadas por modificaes nas outras. Ou seja, no caso de duas variveis x e y os aumentos (ou diminuies) em x correspondem a aumentos (ou diminuies) em y. Assim, a correlao revela se existe uma relao funcional entre uma varivel e as restantes.
7/14/2011
Coeficiente de correlao
Se X cresce ou decresce, mas sim no h mudana em varivel Y. Diz - se que no h correlao linear entre as duas variveis. Observao: A correlao positiva ou negativa entre duas variveis apenas mostra que essas variveis crescem no mesmo sentido ou sentido contrrio, no indicando que uma varivel influencia a outra.
7/14/2011 Kizito Kunaka e Leonid C. Moiss 5
Coeficiente de correlao
Podem existir diversas explicaes do que elas variam conjuntamente incluindo: Mudanas em X causam mudanas em Y; Mudanas em Y causam mudanas em X; Mudanas em outra variveis causam mudanas tanto em X quanto em Y; A relao observada somente uma coincidncia.
7/14/2011 Kizito Kunaka e Leonid C. Moiss 6
Coeficiente de correlao
Quanto maior o valor de r (positivo ou negativo) mais forte a associao. Como podemos descrever uma correlao em palavras dado o valor numrico. claro que as interpretaes dependem de cada contexto em particular.
7/14/2011
Note que correlaes no dependem da escala de valores de X ou Y. Somente relaes lineares so detectadas pelo coeficiente de correlao.
7/14/2011 Kizito Kunaka e Leonid C. Moiss 8
Coeficiente de correlao
Existe uma medida para o grau de correlao entre as duas variveis. Esta medida o coeficiente de correlao, que se representa por r e definido pela frmula:
7/14/2011
Coeficiente de correlao
por exemplo queremos estudar a associao entre o rendimento em kg/h com altura da plantas em 8 variedades de arroz. Temos os dados a seguir:
7/14/2011
10
Ordem
Rendimento
1 2 3 4 5 6 7 8
7/14/2011
Coeficiente de correlao
Dos dados:
7/14/2011
12
7/14/2011
13
7/14/2011
14
Coeficiente de correlao
A correlao entre o rendimento e afilamento em oito variedades de arroz
7/14/2011
15
7/14/2011
16
REGRESSO
um modelo de relao entre uma varivel aleatria dependente Y e uma ou mais variveis independentes X1, X2, , Xn. Regresso linear simples Y = a + bX + Regresso linear mltipla Y = a + b1X1 +b2X2 + + bnXn + Regresso no linear (p.ex. polinomial) Y = a +b1X1 +b2X2 +
7/14/2011 Kizito Kunaka e Leonid C. Moiss 17
REGRESSO
Pensamos em regresso quando temos amostras com duas (ou mais) variveis, p.exe. X e Y em que os valores de X e Y aparentem estar relacionados entre si. Exemplos tpicos
Permetro escrotal dos touros e idade ao primeiro parto das novilhas. O rendimento de milho e altura das plantas
7/14/2011 Kizito Kunaka e Leonid C. Moiss 18
Diagrama de disperso
As observaes (X,Y) podem ser representadas num diagrama de disperso:
12 10 8 6 4 2 0 0 1 2 3 4 5 6 Series1
O objectivo achar uma recta que encaixe, tanto quanto possvel, nas observaes.
7/14/2011 Kizito Kunaka e Leonid C. Moiss 19
Parmetros e erro
Y = a +bX + Y: varivel dependente ou explicada X: varivel independente ou explicativa, cujos erros de medio assumimos desprezveis. Tambm designada por regressor.
7/14/2011
20
7500
Rendimento
7000
b = declive
6500
6000
15
16
17
18
19
afilamento
7/14/2011
x=1
21
Parmetros e erro
a: ordenada na origem ou (intersect ou intercepto ou intercepo) parmetro da recta de regresso a determinar b : declive, tambm o parmetro da recta de regresso a determinar : erro, fonte do carcter aleatrio de Y. como na anova assume-se IN(0, 2)
7/14/2011 Kizito Kunaka e Leonid C. Moiss 22
7/14/2011
23
Escolha de X e Y
7/14/2011
24
Estimativas do MMQ
O MMQ leva as estimativas (pontuais) e foras daqueles dados no pode-se predizer. Estimativa de b ou
7/14/2011
25
Estimativas do MMQ
Estimativa de a
7/14/2011
26
Interpretao dos S
As quantidades S medem a disperso dos dados ; so variabilidades Sxx: variabilidade dos x Sxx = soma de quadrados de x Syy: variabilidade dos y Syy = soma de quadrados de y
7/14/2011
27
Interpretao dos S
Sxy: variabilidade cruzada, proporcional a Cov (X,Y), co-varincia entre x e y Sxy = soma de variabilidade cruzada
7/14/2011
28
Interpretao dos S
SSerro dado pela
7/14/2011
29
Regresso simples
Variedades 1 2 3 4 5 6 7 8 Rendimento ( kg) 5755 5939 6010 6545 6730 6750 6899 7862 Afilamento (No/ covacho) 14.5 16.0 14.6 18.2 15.4 17.6 17.9 19.4 Alturas das plantas (cm) 110.5 105.4 118.1 104.5 93.6 84.1 77.8 75.6
7/14/2011
30
7/14/2011
31
7/14/2011
32
7/14/2011
33
7/14/2011
34
7/14/2011
35
7/14/2011
37
Um teste muito importante H0: b = 0 vs H1 0 O teste avalia a plausibilidade de haver, de facto, uma relao linear entre X e Y No rejeitar H0 significa que plausvel que b seja nulo ou seja, que no haja relao linear entre X e Y;
Y independente de X ou.. a relao entre X e Y, a existir, no linear, i.e. Y a+ bX +
7/14/2011 Kizito Kunaka e Leonid C. Moiss 38
7/14/2011
39
7/14/2011
40
7/14/2011
42
7/14/2011
43
7/14/2011
44
SQReg.=bSxy
bSxy
bSxy/S2 F1,n-2
Erro
n-2
SQtot- SQreg
S2
Total
n-1
SQTot = Syy
7/14/2011
45
1 6 7
13. 81*
5.99
g.l 1 6 7
Fcalc
FTAB
18.45 5.99
47
7/14/2011
48
7/14/2011
49
Coeficiente de determinao
quadrado do coeficiente de Pearson. outra quantidade que mede a qualidade/ adequao do modelo de regresso
7/14/2011
50
Coeficiente de determinao
R2 do 1 caso (afilamento)
7/14/2011
51
Interpretao de
2 R
a percentagem da variabilidade que explicada pela regresso. R2 1: bom ajuste do modelo aos dados. R2 0: mau ajuste. Notar que a significncia de regresso verifica se h relao linear entre X e Y. O coeficiente de determinao verifica quanto da relao entre Y e X pode ser explicada pelo modelo linear.
7/14/2011 Kizito Kunaka e Leonid C. Moiss 52
Interpretao de
2 R
R2 deve ser usado com cautela , dado que pode ser inflacionado artificialmente adicionando termos no lineares ao modelo. Para evitar essa inflao, usa-se por vezes um R2 ajustado.
7/14/2011
53
7/14/2011
55
Y1n
7/14/2011
57
7/14/2011
58
7/14/2011
60
Regresso mltipla
Variedades 1 2 3 4 5 6 7 8 Rendimento ( kg) 5755 5939 6010 6545 6730 6750 6899 7862 Afilamento (No/ covacho) 14.5 16.0 14.6 18.2 15.4 17.6 17.9 19.4 Alturas das plantas (cm) 110.5 105.4 118.1 104.5 93.6 84.1 77.8 75.6
7/14/2011
61
7/14/2011
62
7/14/2011
63
7/14/2011
64
7/14/2011
65
7/14/2011
66