Anda di halaman 1dari 66

Correlao e Regresso

Por Kizito Kunaka e Leonid C. Moiss Chkw, Agosto, 2010


7/14/2011 Kizito Kunaka e Leonid C. Moiss 1

Introduo
Existe situaes em que interessa estudar o comportamento no conjunto de duas variveis que podem se comporta de forma distinta. Queremos medir o grau de associao entre os duas variveis. Queremos responder pergunta! Como se co-varia X e Y? ou seja O que acontece a varivel Y quando a varivel X muda?
7/14/2011 Kizito Kunaka e Leonid C. Moiss 2

Definies
Correlao a medida de grau de associao entre as duas variveis tais medidas tomadas simultaneamente. Diz-se que existe correlao entre duas ou mais variveis quando as alteraes sofridas por uma delas so acompanhadas por modificaes nas outras. Ou seja, no caso de duas variveis x e y os aumentos (ou diminuies) em x correspondem a aumentos (ou diminuies) em y. Assim, a correlao revela se existe uma relao funcional entre uma varivel e as restantes.

7/14/2011

Kizito Kunaka e Leonid C. Moiss

Coeficiente de correlao ou coeficiente de Pearson (r)


H trs possibilidades: 1. As variveis X e Y crescem no mesmo sentido, isto e, se quando X cresce, Y tambm cresce. r > 0. Diz se que h correlao positiva, 2. As variveis X e Y crescem em sentido contrrio, isto , se X cresce, y decresce. Diz se que h correlao negativa ou anticorrelao. r < 0.
7/14/2011 Kizito Kunaka e Leonid C. Moiss 4

Coeficiente de correlao
Se X cresce ou decresce, mas sim no h mudana em varivel Y. Diz - se que no h correlao linear entre as duas variveis. Observao: A correlao positiva ou negativa entre duas variveis apenas mostra que essas variveis crescem no mesmo sentido ou sentido contrrio, no indicando que uma varivel influencia a outra.
7/14/2011 Kizito Kunaka e Leonid C. Moiss 5

Coeficiente de correlao
Podem existir diversas explicaes do que elas variam conjuntamente incluindo: Mudanas em X causam mudanas em Y; Mudanas em Y causam mudanas em X; Mudanas em outra variveis causam mudanas tanto em X quanto em Y; A relao observada somente uma coincidncia.
7/14/2011 Kizito Kunaka e Leonid C. Moiss 6

Coeficiente de correlao
Quanto maior o valor de r (positivo ou negativo) mais forte a associao. Como podemos descrever uma correlao em palavras dado o valor numrico. claro que as interpretaes dependem de cada contexto em particular.

7/14/2011

Kizito Kunaka e Leonid C. Moiss

Interpretao de coeficiente de correlao


Os valores e as interpretaes
Valor de r (+ ou - ) 0.00 a 0.19 0.20 a 0. 39 0.40 a 0.69 0.70 a 0.89 0.90 a 1.0 Interpretao Uma correlao bem fraca Uma correlao fraca Uma correlao moderada Uma correlao forte Uma correlao muito forte

Note que correlaes no dependem da escala de valores de X ou Y. Somente relaes lineares so detectadas pelo coeficiente de correlao.
7/14/2011 Kizito Kunaka e Leonid C. Moiss 8

Coeficiente de correlao
Existe uma medida para o grau de correlao entre as duas variveis. Esta medida o coeficiente de correlao, que se representa por r e definido pela frmula:

7/14/2011

Kizito Kunaka e Leonid C. Moiss

Coeficiente de correlao
por exemplo queremos estudar a associao entre o rendimento em kg/h com altura da plantas em 8 variedades de arroz. Temos os dados a seguir:

7/14/2011

Kizito Kunaka e Leonid C. Moiss

10

Ordem

Rendimento

Altura das plantas

1 2 3 4 5 6 7 8

(Kg) 5755 5939 6010 6545 6730 6750 6899 7862


Kizito Kunaka e Leonid C. Moiss

(cm) 110.5 105.4 118.1 104.5 93.6 84.1 77.8 75.6


11

7/14/2011

Coeficiente de correlao
Dos dados:

7/14/2011

Kizito Kunaka e Leonid C. Moiss

12

7/14/2011

Kizito Kunaka e Leonid C. Moiss

13

A correlao entre o rendimento e afilamento


Rendimento (kg) 5755 5939 6010 6545 6730 6750 6899 7862 Afilamento No /covacho 14.5 16.0 14.6 18.6 15.4 17.6 17.9 19.4

Correlao de rendimento com afilamento em oito variedades de arroz

7/14/2011

Kizito Kunaka e Leonid C. Moiss

14

Coeficiente de correlao
A correlao entre o rendimento e afilamento em oito variedades de arroz

7/14/2011

Kizito Kunaka e Leonid C. Moiss

15

7/14/2011

Kizito Kunaka e Leonid C. Moiss

16

REGRESSO
um modelo de relao entre uma varivel aleatria dependente Y e uma ou mais variveis independentes X1, X2, , Xn. Regresso linear simples Y = a + bX + Regresso linear mltipla Y = a + b1X1 +b2X2 + + bnXn + Regresso no linear (p.ex. polinomial) Y = a +b1X1 +b2X2 +
7/14/2011 Kizito Kunaka e Leonid C. Moiss 17

REGRESSO
Pensamos em regresso quando temos amostras com duas (ou mais) variveis, p.exe. X e Y em que os valores de X e Y aparentem estar relacionados entre si. Exemplos tpicos
Permetro escrotal dos touros e idade ao primeiro parto das novilhas. O rendimento de milho e altura das plantas
7/14/2011 Kizito Kunaka e Leonid C. Moiss 18

Diagrama de disperso
As observaes (X,Y) podem ser representadas num diagrama de disperso:
12 10 8 6 4 2 0 0 1 2 3 4 5 6 Series1

O objectivo achar uma recta que encaixe, tanto quanto possvel, nas observaes.
7/14/2011 Kizito Kunaka e Leonid C. Moiss 19

Parmetros e erro
Y = a +bX + Y: varivel dependente ou explicada X: varivel independente ou explicativa, cujos erros de medio assumimos desprezveis. Tambm designada por regressor.

7/14/2011

Kizito Kunaka e Leonid C. Moiss

20

Fitted and observed relationship

7500

Rendimento

7000

b = declive
6500

6000

15

16

17

18

19

afilamento
7/14/2011

x=1
21

Kizito Kunaka e Leonid C. Moiss

Parmetros e erro
a: ordenada na origem ou (intersect ou intercepto ou intercepo) parmetro da recta de regresso a determinar b : declive, tambm o parmetro da recta de regresso a determinar : erro, fonte do carcter aleatrio de Y. como na anova assume-se IN(0, 2)
7/14/2011 Kizito Kunaka e Leonid C. Moiss 22

Mtodo dos mnimos quadrados (MMQ)

7/14/2011

Kizito Kunaka e Leonid C. Moiss

23

Escolha de X e Y

7/14/2011

Kizito Kunaka e Leonid C. Moiss

24

Estimativas do MMQ
O MMQ leva as estimativas (pontuais) e foras daqueles dados no pode-se predizer. Estimativa de b ou

7/14/2011

Kizito Kunaka e Leonid C. Moiss

25

Estimativas do MMQ
Estimativa de a

7/14/2011

Kizito Kunaka e Leonid C. Moiss

26

Interpretao dos S
As quantidades S medem a disperso dos dados ; so variabilidades Sxx: variabilidade dos x Sxx = soma de quadrados de x Syy: variabilidade dos y Syy = soma de quadrados de y

7/14/2011

Kizito Kunaka e Leonid C. Moiss

27

Interpretao dos S
Sxy: variabilidade cruzada, proporcional a Cov (X,Y), co-varincia entre x e y Sxy = soma de variabilidade cruzada

S2: estimativa da varincia dos erros em torno da recta estimada

7/14/2011

Kizito Kunaka e Leonid C. Moiss

28

Interpretao dos S
SSerro dado pela

7/14/2011

Kizito Kunaka e Leonid C. Moiss

29

Regresso simples
Variedades 1 2 3 4 5 6 7 8 Rendimento ( kg) 5755 5939 6010 6545 6730 6750 6899 7862 Afilamento (No/ covacho) 14.5 16.0 14.6 18.2 15.4 17.6 17.9 19.4 Alturas das plantas (cm) 110.5 105.4 118.1 104.5 93.6 84.1 77.8 75.6

7/14/2011

Kizito Kunaka e Leonid C. Moiss

30

Regresso de rendimento sobre afilamento em arroz.


Dos dados temos:

7/14/2011

Kizito Kunaka e Leonid C. Moiss

31

7/14/2011

Kizito Kunaka e Leonid C. Moiss

32

7/14/2011

Kizito Kunaka e Leonid C. Moiss

33

Regresso de rendimento sobre alturas das plantas


Dos dados temos:

7/14/2011

Kizito Kunaka e Leonid C. Moiss

34

7/14/2011

Kizito Kunaka e Leonid C. Moiss

35

Qualidade e adequao do modelo


Um modelo , seja de regresso ou qualquer outro, e apenas uma tentativa de descrio da realidade. Para um modelo em particular, e lgico perguntar se esse modelo representa bem ou mal a realidade que o inspirou. No caso da regresso, depois de estimados os parmetros do modelo, podemos perguntar quo bem a relao obtida, Y = a + bX + e se encaixa nos dados de onde originou.
7/14/2011 Kizito Kunaka e Leonid C. Moiss 36

Qualidade e adequao do modelo


Para a regresso linear simples , h dois indicadores da qualidade de ajuste:
Teste de significncia de regresso Coeficiente de determinao.

7/14/2011

Kizito Kunaka e Leonid C. Moiss

37

Teste de significncia de regresso


(teste preciso do ajustamento)

Um teste muito importante H0: b = 0 vs H1 0 O teste avalia a plausibilidade de haver, de facto, uma relao linear entre X e Y No rejeitar H0 significa que plausvel que b seja nulo ou seja, que no haja relao linear entre X e Y;
Y independente de X ou.. a relao entre X e Y, a existir, no linear, i.e. Y a+ bX +
7/14/2011 Kizito Kunaka e Leonid C. Moiss 38

Teste de significncia de regresso


Rejeitar H0 significa que X tem um papel na explicao de Y A relao entre X e Y mesmo linear, ou O efeito linear, podendo existe eventualmente o ajuste ser melhorado adicionando termos no lineares.

7/14/2011

Kizito Kunaka e Leonid C. Moiss

39

Significncia da regresso - Anova


A decomposio da variabilidade de Y em dois termos permite fazer uma analise de varincia para testar a qualidade da regresso SQTot = SQreg + SQerro SQTot =

7/14/2011

Kizito Kunaka e Leonid C. Moiss

40

Significncia da regresso Anova


Soma quadrados de regresso SQreg

com 1 (um) g.l.


7/14/2011 Kizito Kunaka e Leonid C. Moiss 41

Soma quadrados de regresso SQreg


No caso de regresso de rendimento sobre afilamento termos:

7/14/2011

Kizito Kunaka e Leonid C. Moiss

42

Significncia da regresso Anova


Soma quadrados de erro SQerro = SQTot - Sqreg

Com n-2 graus de liberdades

7/14/2011

Kizito Kunaka e Leonid C. Moiss

43

Soma quadrados de erro SQerro


Neste caso:

=3 211 503.5 2 239 012.41 = 972 491.09

7/14/2011

Kizito Kunaka e Leonid C. Moiss

44

Significncia da regresso Anova


Tabela anova para a regresso:
Fonte de variao Regresso G.L. SQ QM F calc

SQReg.=bSxy

bSxy

bSxy/S2 F1,n-2

Erro

n-2

SQtot- SQreg

S2

Total

n-1

SQTot = Syy

7/14/2011

Kizito Kunaka e Leonid C. Moiss

45

Significncia da regresso Anova


Quadro de analise da varincia
Fonte de variao g.l SQ MQ FCALC FTAB

Reg (modelo) Erro Total

1 6 7

2 239 012.41 972 491.09 3 211 503.5

2 239 012.41 162 081.8483

13. 81*

5.99

Rejeita-se a H0. Ento b 0


7/14/2011 Kizito Kunaka e Leonid C. Moiss 46

Significncia da regresso Anova


Quadro da anlise da variancia

Fonte de variacao Reg (Modelo) Erro Total


7/14/2011

g.l 1 6 7

SQ 2 423 566.838 787 936.6615 3 211 503.5

MQ 2 423 566.838 131 322.7769

Fcalc

FTAB

18.45 5.99

Kizito Kunaka e Leonid C. Moiss

47

Regresso de rendimento sobre alturas das plantas


O caso de rendimento sobre alturas das plantas

7/14/2011

Kizito Kunaka e Leonid C. Moiss

48

7/14/2011

Kizito Kunaka e Leonid C. Moiss

49

Coeficiente de determinao
quadrado do coeficiente de Pearson. outra quantidade que mede a qualidade/ adequao do modelo de regresso

7/14/2011

Kizito Kunaka e Leonid C. Moiss

50

Coeficiente de determinao
R2 do 1 caso (afilamento)

R2 do 2 caso (alturas das plantas)

7/14/2011

Kizito Kunaka e Leonid C. Moiss

51

Interpretao de

2 R

a percentagem da variabilidade que explicada pela regresso. R2 1: bom ajuste do modelo aos dados. R2 0: mau ajuste. Notar que a significncia de regresso verifica se h relao linear entre X e Y. O coeficiente de determinao verifica quanto da relao entre Y e X pode ser explicada pelo modelo linear.
7/14/2011 Kizito Kunaka e Leonid C. Moiss 52

Interpretao de

2 R

R2 deve ser usado com cautela , dado que pode ser inflacionado artificialmente adicionando termos no lineares ao modelo. Para evitar essa inflao, usa-se por vezes um R2 ajustado.

7/14/2011

Kizito Kunaka e Leonid C. Moiss

53

Previso de novas observaes


Em geral, um modelo de regresso pode ser usado com alguma confiana dentro da gama de valores X que participou para o calculo dos parmetros de regresso. Se sairmos um pouco do intervalo de X , estamos a extrapolar o modelo. Uma extrapolao para valores de X pouco afastado do intervalo normalmente no apresenta problemas. Mas extrapolaes para valores longe do intervalo de X raramente so satisfatrias.
7/14/2011 Kizito Kunaka e Leonid C. Moiss 54

Previso de novas observaes


Se a variedade tem a altura media de 15 cm qual ser o rendimento dela? Usando a segunda equao de recta termos Y

7/14/2011

Kizito Kunaka e Leonid C. Moiss

55

Regresso linear mltipla


Regresso linear mltipla um modelo de relao estatstica entre uma varivel Y e um conjunto de k regressores, Xi Y = a + b1 + b2+ + bkXk + com erros independentes e normalmente distribudos. Tal como no caso da regresso simples, podemos usar o MMQ para estimar pontualmente os parmetros a e bi
7/14/2011 Kizito Kunaka e Leonid C. Moiss 56

Regresso linear mltipla


Os dados de forma
Obs 1 2 3 . . . n Y Y1 Y2 Y3 . . . Yn X1 X11 X12 X13 X2 X21 X22 X23 . . . Y2n . . . . . . . . . . . . . . . . Xk Xk1 Xk2 Xk3 . . . Xkn

Y1n

7/14/2011

Kizito Kunaka e Leonid C. Moiss

57

Regresso linear mltipla


O numero total das observaes n(k+1) Deve haver n>k+1 para estimao dos bi seja possvel.

7/14/2011

Kizito Kunaka e Leonid C. Moiss

58

Regresso linear mltipla


As equaes normais para resolver para estimar os bis b1 X12 + b2 X1X2+ +bk X1Xk = X1Y b1 X1X2 + b2 X22 + + bk X2Xk= X2Y . . . . . . . . . . . . bk X1Xk+b2 X2Xk+ +bk Xk2= XkY
7/14/2011 Kizito Kunaka e Leonid C. Moiss 59

Exemplo em que k = 2 b1X1 + b2 X1X2 = X1Y b1X1X2 + b2X22 = X2Y


2

7/14/2011

Kizito Kunaka e Leonid C. Moiss

60

Regresso mltipla
Variedades 1 2 3 4 5 6 7 8 Rendimento ( kg) 5755 5939 6010 6545 6730 6750 6899 7862 Afilamento (No/ covacho) 14.5 16.0 14.6 18.2 15.4 17.6 17.9 19.4 Alturas das plantas (cm) 110.5 105.4 118.1 104.5 93.6 84.1 77.8 75.6

7/14/2011

Kizito Kunaka e Leonid C. Moiss

61

Exemplo de regresso mltipla


Regresso mltipla de rendimento sobre afilamento e alturas das plantas em oito variedades de arroz:

7/14/2011

Kizito Kunaka e Leonid C. Moiss

62

7/14/2011

Kizito Kunaka e Leonid C. Moiss

63

7/14/2011

Kizito Kunaka e Leonid C. Moiss

64

7/14/2011

Kizito Kunaka e Leonid C. Moiss

65

7/14/2011

Kizito Kunaka e Leonid C. Moiss

66

Anda mungkin juga menyukai