Anda di halaman 1dari 20

44

12. Regresso e Correlao



12.1 Introduo

A regresso entre uma varivel dependente Y e outra independente X uma relao
obtida usando dados de uma amostra de pares de valores (
i
x ,
i
y ), onde os valores de X so
escolhidos de antemo, isto , X no uma varivel aleatria, e os valores de Y, para cada
um de X, so aleatrios e geralmente distribudos de acordo com uma distribuio normal.

A regresso pode ser linear ou no-linear, simples (
i
x ,
i
y ), ou mltipla
(
ki
x ,...,
i 2
x ,
i 1
x ,
i
y ), n ,..., 1 i = .

A correlao entre duas variveis (
i
x ,
i
y ) uma medida numrica, no dimensional,
da relao linear entre duas variveis aleatrias. Isto , X e Y so ambas aleatrias,
geralmente distribudas de acordo com uma distribuio normal de duas dimenses. A
correlao pode ser simples ou mltipla dependendo se h duas variveis aleatrias ( X , Y )
ou 1 k + variveis aleatrias (
k
X ,...,
2
X ,
1
X , Y ).

Descreveremos primeiro o mtodo da regresso e mais adiante o da correlao.

12.2 Regresso Linear Simples

Modelo

O Modelo :

x
y
+ = ( 12 . 2 . 1 )

onde
y
o smbolo para o valor mdio terico de Y; e so os parmetros a estimar.

Na regresso estima-se uma relao linear + + = x b a Y onde ( )
e
0, N , com
e

sendo constante no intervalo de variao de X. A varivel X no aleatria, mas como o
erro aleatrio, ento tambm o o de y, isto : ( )
e
x, N Y + .

Estimao de Parmetros

Para estimar e se obtm uma amostra de pares de valores (
i
x ,
i
y ), n ,..., 1 i = e,
usando o mtodo dos quadrados mnimos, isto , minimizando:

( )
2
i
x b a
i
y S =

se obtm:



45
+ =
i
x b a n
i
y ( 12 . 2 . 2 )

2
i
x b
i
x a
i
x
i
y + =

A soluo do sistema (12.2.2) d:



=
2
) x
i
x (
) x
i
x (
i
y
b ( 12 . 2 . 3 )

x b y a = ( 12 . 2 . 4 )

Os valores de a e b so estimativas amostrais de e , respectivamente, isto ,
b , a = = e, consequentemente, esto afetados pelos erros estatsticos da varivel y.

O erro
e
vem estimado por:

( )
2 n
2
i
x b a
i
y
e
s
e


= = ( 12 . 2 . 5 )

O valor s
e
se denomina erro padro de estimativa.

Como os valores de a e b so funes lineares de Y e como Y uma varivel
aleatria com erros
e
fcil demonstrar que:

Erro de estimao de a

( )
e
2
x
i
x n
2
i
x
a



= ( 12 . 2 . 6 )

Erro de estimao de b

( )
=
2
x
i
x
e
b

( 12 . 2 . 7 )

Em uma amostra, se encontram os valores de s
a
e s
b
quando se substitui s
e
por
e
nas
frmulas respectivas.

Frmulas para os Clculos

Para o clculo dos parmetros a, b, s
e
, s
a
, e s
b
conveniente primeiramente calcular
os seguintes valores:

46
( )
( )


= =
n
x
x x x S
i
i i xx
2
2
2
( 12 . 2 . 8 )

( )
( )


= =
n
y
y y y S
i
i i yy
2
2 2
( 12 . 2 . 9 )

( )
( )( )


= =
n
x y
x y x x y S
i i
i i i i xy
( 12 . 2 . 10 )

( )

= =
xy yy i i
S b S x b a y SQR
2
( 12 . 2 . 11 )


onde SQR define a soma dos quadrados dos resduos.

Ento, tem-se:

xx
xy
S
S
b = ( 12 . 2 . 12 )

2
=
n
SQR
S
e
( 12 . 2 . 13 )

e
xx
i
a
S
S n
x
S

=

2
( 12 . 2 . 14 )

xx
e
b
S
S
S = ( 12 . 2 . 15 )

Exemplo 12 . 2 . 1

Seja Y a resistncia de cisalhamento, em kgf/cm2, de um solo e X a profundidade,
em metros. Em uma amostra de 12 valores, foram obtidos os seguintes resultados:

X 4 4 4 12 12 12 20 20 20 32 32 32
Y 0,5 0,75 1 1 1,45 1,3 1,65 1,9 1,5 2,5 2,35 2,2

Se tem:

= 204
i
x

= 1 , 18
i
y

= 4752
2
i
x

= 8 , 31
2
i
y

= 6 , 380
i i
y x
47


( ) 1284 12 204 4752
2
= =
xx
S

( ) 499167 , 4 12 1 , 18 8 , 31
2
= =
yy
S


( ) ( ) 9 , 72 12 1 , 18 204 6 , 380 = =
xy
S

0567757 , 0
1284
9 , 72
= = b

543146 , 0
12
204
0567757 , 0
12
1 , 18
= = a

X Y 0567757 , 0 543146 , 0 + =

( )( ) 360218 , 0 9 , 72 0567757 , 0 499167 , 4 = = SQR
189794 , 0
10
360218 , 0
= =
e
S

( )
105402 , 0 189794 , 0
1284 12
4752
= =
a
S

005297 , 0
1284
189794 , 0
= =
b
S
0
0,5
1
1,5
2
2,5
3
0 10 20 30 40
Profundidade (m)
R
e
s
i
s
t
.

a
o

c
i
s
a
l
h
a
m
e
n
t
o

(
k
g
f
/
c
m
2
)
Seqncia1
Linear (Seqncia1)
Se

Figura 12.1: Correlao entre resistncia ao cisalhamento e profundidade

O erro padro da estimativa 0,189794. De acordo com as propriedades da funo
normal, aproximadamente na relao
48

Y =a +b.X ( 12 . 2 .16 )

68% dos valores observados estariam em

Y S
e

95 % dos valores observados estariam em

Y 2.S
e



Intervalos de confiana e provas de hiptese

Como os valores de Y se supe estar distribudos de acordo com a distribuio
normal e como os valores de a e b so funes lineares e Y ento, pode-se demonstrar que:

a N ( ,
a
) ( 12. 2 . 17 )
b N ( ,
b
)

Estes resultados podem ser usados para prova de hipteses. Por exemplo, se a
hiptese :

H
0
: =
0
H
1
:
0


Ento calcula-se:

b
b
z

= ( 12 . 2 . 18 )


Para um nvel de probabilidade,
0
H rejeitada se z >z
2 /
.
Como em geral
e
no conhecida, ento calcula-se:

b
s
b
t
0

= ( 12 . 2 . 19 )

0
H ento rejeitada se t >
2 /
t ( n 2).
fcil ver que o intervalo de confiana de , com 1 - nvel de probabilidade


2 /
t b
b
s < <
2 /
t b +
b
s ( 12. 2 . 20 )

49
Do Exemplo 12 . 2 . 1

Uma hiptese comumente usada :


o
H : =0

1
H : 0

isto , se quer provar que a inclinao igual a zero, com a alternativa que diferente de
zero ou, em outras palavras, que, em verdade, existe uma relao entre as variveis ( x, y ).

Usando valores calculados, se tem

72 , 10
005297 , 0
0567757 , 0
= = =
b
s
b
t

Da tabela de t, se tem
025 .
t (10) =2,228. Como 10,72 >2,228 conclui-se que
0
H
rejeitada, isto , a relao entre a resistncia ao cisalhamento e a profundidade
significativa.

O intervalo de confiana :

0,0567757 2,228 ( 0,005297) < <0,0567757 +2,228 ( 0,005297)
0,0449739 < <0,0685774

Previso de valores de y

A anlise de regresso produz uma relao entre as variveis consideradas, a qual
pode-se usar para prever valores de y. Pode-se considerar dois tipos de predies, dado um
certo valor de
0
x x = : predio de um valor mdio e predio de um valor individual.


Previso de um valor mdio de y

Deve-se notar que o valor mdio de y vem dado pela equao linear bX a Y + = .
Ento, ao falar da predio de um valor mdio de Y, refere-se predio da equao de
regresso da populao: + =
y
. Se far esta previso por um intervalo de confiana,
o qual pode-se demonstrar ser o seguinte:


50
a +b
2 / 0
t x ( n 2 ) .
xx
e
s
x x
n
s
2
0
) ( 1
.

+
y
a +b
2 / 0
t x + ( n 2 )
.
xx
e
s
x x
n
s
2
0
) ( 1
.

+ ( 12 . 2 . 21 )

Para o exemplo, se deseja-se estimar o valor mdio da resistncia ao cisalhamento
do solo para uma profundidade de 20 metros, tem-se:

0,5431464 +0,0567757 ( 20 ) ( 2,228 ) ( 0,189794 )

+
y

1284
) 17 20 (
12
1
2
0,5431464
+
+0,0567757 ( 20 ) +( 2,228 ) ( 0,189794 )
1284
) 17 20 (
12
1
2

+


1,67866 0,1271
y
1,67866 +0,1271

1,551561
y
1,805760

Correlao entre Resistncia ao
Cisalhamento e Profundidade
0
0,5
1
1,5
2
2,5
3
0 10 20 30 40
Profundidade (m)
R
e
s
i
s
.

a
o

c
i
s
a
l
h
a
m
.

(
k
g
f
/
c
m
2
)
y observ.
y esperado
Valor Mdio Sup.
Valor Mdio Inf.
Valor Ind. Sup.
Valor Ind. Inf.

Figura 12.2: Intervalos de confiana para estimativa de valores mdios e
individuais.
51
Repetindo os clculos para diversos valores de
0
x x = se tem as curvas hiperblicas
da figura 12.2. Se pode ento dizer que a previso dada pela expresso ( 12 .2 .16 ) pode-se
interpretar da maneira seguinte: se se repetem 100 experimentos, cada um com 10
amostras de valores de ( y, x ) e se as condies experimentais se mantm constantes, em
95 destes experimentos os limites dados pela equao ( 12 . 2 . 21 ) incluiriam a linha
mdia =
y
+ . Deve-se notar que o valor mdio de Y tem o intervalo de confiana
mais reduzido quando x igual ao valor mdio x =17. medida que o valor a predizer
se afasta do valor mdio x , o intervalo de previso aumentada em forma hiperblica de
acordo com a expresso ( 12.2.21 ).



O erro da previso dado por:
( )
xx
S
2
x
o
x
n
1
e
s EP

+ = (
12.2.22 )

e o coeficiente de variao da previso pode ser escrito na forma:

CPV =EP/ (a +b x
0
) ( 12.2.23 )


Previso de um valor individual de y

Na maioria dos casos o investigador tem interesse em predizer um valor individual
de Y para um valor de X =x
0.
Neste caso, o intervalo de confiana de um valor individual
dado por:
( )
( )
( )
( )
xx
o
e o
xx
o
e o
S
x x
n
s n t x b a y
S
x x
n
s n t x b a
2
2 /
2
2 /
1
1 2
1
1 . 2

+ + + +

+ + +


( 9.2.24 )

Para o exemplo, o intervalo


0,5431464 +0,0567757 ( 20 ) ( 2,228 ) ( 0,189794 )

+ +
y

1284
) 17 20 (
12
1
1
2
0,5431464 +
+0,0567757 ( 20 ) +( 2,228 ) ( 0,189794 )
1284
) 17 20 (
12
1
1
2

+ +

1,67866 0,44155
y
1,67866 +0,44155

1,2371 <y <2,1202
52


Como se devia esperar, o intervalo mais amplo que o obtido previamente. A
interpretao similar a dada anteriormente, com exceo de que agora refere-se a que
valor de Y para um valor de X=x
o
estaria includo dentro dos limites dados pela equao (
12.2.22 ). O erro de previso e o coeficiente de variao so definidos por expresses
similares a ( 12.2.22 ) e ( 12.2.23 ).

Anlise da validade de modelo

Normalidade dos erros

Para constatar se os erros do modelo ( 12.2.1 ) seguem a distribuio normal,
isto , para constatar se ( )
e
N , 0 , deve-se analisar os resduos padronizados:


e
i i
e
i
i
s
x a y
s
r
R

= = ( 12.2.25 )

Utilizando os procedimentos previamente indicados para a prova de normalidade
(ver captulo 1) pode-se testar a hiptese de normalidade dos valores de R
i
, isto , se
) 1 , 0 ( N R
i
. Se a hiptese de normalidade rejeitada ento se poderia introduzir uma
transformao matemtica dos valores de Y, X ( logaritmo, inverso, raiz quadrada, etc ) e
testar a normalidade dos valores transformados. Uma vez que a normalidade seja
constatada, se poderiam seguir os procedimentos indicados previamente.


Constncia do erro padro da estimativa

At o momento, se havia suposto que
e
constante no campo de variao de X.
Poderia ser que
e
seja uma funo de X, dizer que aumente (ou diminua) com o aumento
de X. Ou, poderia ser que
e
dependa de X sem ser uma funo montona de X.
Normalmente faz-se um teste grfico plotando os resduos versus os valores
estimados de Y, esperando que eles ocupem uma faixa mais ou menos horizontal. Se eles
variam com os valores de Y, poderia-se estimar valores de
2
ei
s agrupando os resduos em
faixas a serem determinadas.
Se constatado que
e
varia com X, pode-se ento usar o mtodo da regresso
linear ponderada, com o qual se encontram os valores de a e b que minimizam.

( )
2
i i i
bx a y W S =

( 12.2.26 )

onde W
i
so os pesos correspondentes a x
i
. Estes pesos W
i
so em geral inversamente s
varincias
2
ei
s .

53
Detalhes deste tipo de anlise podem ser encontrados nas Ref. 7 e 17 da apostila de
Nanni.

Importncia de uma seleo adequada do intervalo de variao de x
0


O erro da inclinao b diminui com
e
s e com um aumento de S
xx
.
xx
e
b
S
S
S =
Se o intervalo de variao de X, cuja medida S
xx
, pequeno, S
b
poderia ser grande
mesmo se
e
s pequeno.
Se o objetivo do estudo verificar a existncia da correlao entre os parmetros X
e Y, ou seja , se a inclinao da reta significativa, ter-se-ia:


b
s
b
t =

Neste caso, se S
b
grande, ficar difcil provar a existncia da correlao.
Simplificadamente, o que est se afirmando que, se a relao entre Y e X est
sendo medida em um intervalo reduzido de x, os valores encontrados podem no ter um
confiabilidade estatstica elevada.

Valores esprios

Quando da determinao da reta ajustada na regresso, pode haver um ou mais
poucos pontos que se comportam muito distintamente dos demais. Existem mtodos
estatsticos precisos na bibliografia para determinar se este valor pode ser considerado
esprio, devendo ser excludo da determinao da equao da reta. Uma maneira
aproximada e eficiente de realizar este teste pode ser a seguinte:
Plotar os pontos xi, yi em um grfico cartesiano e verificar se a sua disposio sugere a
existncia de uma funo linear;
Em caso afirmativo, verificar se no existe algum ponto de foge visivelmente desta
tendncia. Neste caso, deve-se utilizar os demais pontos para determinar os parmetros
da funo a ser ajustada (a, b e S
e
).
No ponto onde ocorreu o valor suspeito (y
s
, x
s
), deve-se calcular o resduo padronizado
, ou seja:
r
s
=(y
s
(a +b(x
s
))/S
e

Se rs for maior que o valor tabelado para o nvel de significncia desejado (Tabela
VIII), o valor pode ser considerado esprio e a funo e demais parmetros calculados
poderiam ser adotados para o prosseguimento do estudo. Em caso negativo, estes
valores deveriam ser recalculados com todos os pontos experimentais.

Este procedimento poderia ser empregado para um ponto. No caso de mais pontos
apresentarem comportamentos anmalos no estudo, o descarte de novos pontos poderia ser
feito desde que o nmero total de pontos fosse grande de modo a no descaracterizar
trabalho experimental realizado.
54


Previso de X para um valor dado de Y

Em algumas aplicaes necessrio predizer o valor de X para um valor dado de Y.
Por exemplo, em avaliao da resistncia do concreto em estruturas, comum utilizar-se de
ensaios no destrutivos como a esclerometria para a estimativa deste parmetro. Para tanto,
necessrio que se faa previamente um estudo da relao entre as duas variveis. Apesar
de que neste exemplo ambas as variveis sejam aleatrias (resistncia compresso em
corpos de prova cilndricos- fc e ndice escleromtrico - ie) caracterizando uma correlao e
no uma regresso, para fins prticos poder-se-ia admitir fc como sendo uma varivel no
aleatria (x), e estudar a funo que correlaciona esta varivel com ie (y). Aps
determinada a funo, possvel, dado um y
o
, que fcil de medir, determinar o x
o

correspondente.
Como j foi citado, no problema de regresso, x considerada uma varivel no
aleatria mas, quando se tem um valor observado de y =y
o
e se quer encontrar o valor de x
=x
o
dado por
( )
b
a y
x

=
0
0
, o valor de x
o
passa a ser aleatrio devido a aleatoridade de y.

A previso de x se faz pelo intervalo de confiana seguinte:
( ) [ ]
2
2
1
1
1

2
c
c x
x x
xx
e
S
x
n
n
b
s t

+
+ =
+

(12.2.27)

onde

( )
b
y y
x

=
0
(12.2.28)
2
2 2
2
b
s t
c
b

=
( ) 2
2
= n t t



Exemplo

No exemplo, citado, qual seria o valor da profundidade em que o solo apresenta
uma resistncia de 2 kgf/cm
2
?



( )
659808 , 8
0567757 , 0
508333 , 1 2
=

= x
55
( ) ( )
( )
( )
( )
956780 , 0
1284
65981 , 8
956780 , 0
12
13
447923 , 7 65981 , 8
17
65982 , 25
0567757 , 0
543146 , 0 2
0567757 , 0
543146 , 0
447923 , 7
0567757 , 0
189794 , 0 228 , 2
956780 , 0 1
043022 , 0
0567757 , 0
005297 , 0 228 , 2
2
0
0
2
2
2 2
2

+
+ =
=

=
=

=
=

=
x
y
x
b
s t
c
c
e

o que d

17,9055 <x <34,19617

Podemos definir o CV da previso de x pela expresso:

( )
( )
% 2 , 14
65982 , 25
6559 , 3
65982 , 25
228 , 2 2
9055 , 17 19617 , 34
= = =

CV

A interpretao deste intervalo : com uma probabilidade de 95%, o intervalo
17,9055 34,19617 incluiria o valor estimado X correspondente a um valor observado de y
=2.



Regresso linear da forma y =
2
x

Em muitos casos o investigador tem que assumir que Y =0 quando X =0, como em
problemas de calibrao. Neste caso, usando o mtodo dos mnimos quadrados, teria-se:



=
2
2 i i i
x y x b (12.2.31)
e

( ) ( ) ( ) ( ) ( ) 1 1
2 2
2
2
2
= =

n y x b y n x y x y s
i i i i i i i
(12.2.32)

O procedimento para encontrar o intervalo de confiana e para fazer uma prova de
hiptese de
2
similar ao caso em que a equao .
1
x y + =

O modelo x y
2
= deve ser adaptado com cautela pois, em muitos casos a equao
.
1
x y + = mais adequada para os valores de interesse de X, com exceo dos valores
pertos da origem onde a relao poderia ser no-linear.

56
Por exemplo, se tivessemos as 7 observaes da figura 9.3, a linha reta (1)
.
1
x y + = teria um melhor ajuste que a linha (2) x y
2
= , especialmente para os valores
x>x
*
, o que poder-se-ia comprovar pela comparao dos desvios padres s
e1
e s
e2
das linhas
retas (1) e (2), respectivamente.













Figura 9.3


Comprovao, ou prova, de um ajuste linear

conveniente fazer uma prova de hiptese de linearidade pois em muitos casos o
investigador ajusta uma linha reta, enquanto os dados experimentais poderiam indicar que a
relao no linear. Isto ocorre quando no h um modelo terico prvio da relao entre
as variveis e os dados parecem indicar uma tendncia linear (ver figura 9.4).

Se h observaes mltiplas de
ij
y para um valor de x
i
pode-se empregar o seguinte
procedimento analtico para a prova de linearidade.

O valor de SQR definido em (9.2.11), o qual seria escrito como:

( ) ( ) ( )
2
.
2
.
2
i i
ij i
i i ij
ij
i ij
bx a y n y y bx a y + =

(12.2.33)

SQR =SQE +SQL (12.2.34)

onde SQE indica os desvios das observaes
ij
y com respeito s mdias
. i
y e SQL indica
os desvios mdios das mdias
. i
y com respeito a linha ajustada. Se nota que SQE tem n-k
graus de liberdade (k =nmero de valores diferentes de x
i
) e SQL tem k-2 graus de
liberdade.

Pode-se comprovar que existe a seguinte relao entre os graus de liberdade das
somas dos quadrados em (9.2.34):
( ) ( ) 2 2 + = k k n n (12.2.35)

(3)
(2)
(1)
Y
X
57
Pode-se ento definir mdias quadradas MQE e MQL as quais, de acordo com o
teorema de partio da soma de quadrados, captulo 8, tem distribuies independentes do
tipo qui-quadrado.

A mdia quadrada:


k n
SQE
MQE

= (12.2.36)

uma medida do quadrado do erro puro e a mdia quadrada:


2
=
k
SQL
MQL (12.2.37)

uma medida do quadrado do erro devido aos desvios das mdias
. i
y com respeito linha
ajustada a+b x
i
.


O valor de F:

F =MQL/MQE (12.2.38)

Pode ento ser usado para teste de
linearidade.

Se ( ) k n k F F > , 2

a hiptese
de linearidade deve ser rejeitada.








Figura 9.4
Y
X
58
Exemplo

Do exemplo anterior:

Teste de linearidade
xi yi ymdio I (yij-ymdio I)2 y esperado ni ni*(ymdio I- y esperado)2
4 0,5 0,75 0,0625 0,77024922 3
4 0,75 0,75 0 0,77024922 3 0,001230093
4 1 0,75 0,0625 0,77024922 3
12 1 1,25 0,0625 1,22445483 3
12 1,45 1,25 0,04 1,22445483 3 0,001957667
12 1,3 1,25 0,0025 1,22445483 3
20 1,65 1,6833333 0,001111111 1,67866044 3
20 1,9 1,6833333 0,046944444 1,67866044 3 6,55079E-05
20 1,5 1,6833333 0,033611111 1,67866044 3
32 2,5 2,35 0,0225 2,35996885 3
32 2,35 2,35 0 2,35996885 3 0,000298134
32 2,2 2,35 0,0225 2,35996885 3
SQE= 0,356666667 SQL= 0,003551402
N-K= 8
K-2= 2

MQE 0,044583333
MQL 0,001775701
F 0,039828806
F0.05(2,8) 4,46
Como F<F0,05 aceita-se a hiptese de linearidade



12.3 - Regresso no-linear simples

Se a regresso no linear em muitos casos pode-se encontrar uma soluo satisfatria, utilizando
uma transformao de X e Y na forma g(x) e f(y) tal que os valores transformados tm uma relao linear,
isto , o modelo :

f(y) = +g(x) + (12.3.1)
Y = +X + (12.3.2)

Os possveis valores de f(y) poderiam ser y, l/y, ln y. Igualmente para x se teria x,
l/x,ln x, etc.
Por exemplo, a funo exponencial
x
e y

= se transforma em Y= A+x.
Igualmente, a funo algbrica

X y = se transforma em y = +ln x, etc.


O ajuste linear se faz seguindo o procedimento mencionado na seo 2 e usando os
valores transformados de x e y, chamados x e y na equao ( 9.3.2).
Note-se que o mtodo dos mnimos quadrados aplicado aos valores transformados,
isto , minimizando:

59
( ) ( ) [ ]

=
2
i i
x g b a y f S (12.3.3)

no vai produzir os mesmos resultados se se tratasse de minimizar:

( ) [ ]

=
2
i i
x h y S (12.3.4)

onde h(x) uma soluo no linear em x.


O procedimento normalmente usado de ajustar aos dados a relao, com os
valores transformados e de fazer a transformao inversa com os valores transformados e
de fazer a transformao inversa aos resultados obtidos. Isto introduz uma tendncia
(bias) a produzir valores mdios menores que os reais, a qual pode ser corrigida (ver
Ref.19 de Nanni).

12.4 - Correlao

Definio

O coeficiente de correlao a medida da relao que pode existir entre duas
variveis aleatrias.
Se dispem-se de uma amostra de n valores de (x, y) o coeficiente de correlao
dado por

( )( )
( ) ( )



=
2 2
y y x x
y y x x
r
i i
i i
(12.4.1)

Usando a notao indicada em (12.2.8),(12.2.9) e (12.2.10), temos:

yy xx
xy
S S
S
r

= (12 . 4 . 2)

Para o exemplo anterior, temos:

959133 , 0
499167 , 4 1284
9 , 72
=

= r

Interpretao e propriedades

O coeficiente r uma medida amostral da correlao que existe entre duas variveis
aleatrias X e Y. Para uma interpretao adequada, teria que se considerar que as duas
variveis X e Y so aleatrias e no como no problema de regresso, onde a varivel X
considerada fixa, no aleatria, e somente a varivel Y aleatria.

60
Teoricamente se deveria calcular r somente no caso em que X e Y so aleatrias,
como no caso de se medir altura e peso de uma pessoa escolhida aleatoriamente. Mesmo
assim, o valor de r se calcula em quase todos os casos, com X aleatria ou no, mas
devemos ter cuidado com sua interpretao.

Pode-se demonstrar que

1 1 r (12 . 4 . 3)

E que r =+1 ou r =-1 no caso de uma relao linear perfeita entre X e Y.

Deve-se ter em conta que r uma medida de relao linear entre duas variveis e
que no tem sentido quando a relao no linear.

Relao entre o coeficiente de correlao e regresso

1) Em primeiro lugar, o valor de r um valor sem dimenses que s d uma idia
do grau de relao entre duas variveis. No caso de regresso no s se tem
uma idia do grau de relao como tambm se encontra uma equao entre as
duas variveis que se pode usar para estimao ou para previso.

2) Quando h duas variveis aleatrias X e Y h duas relaes lineares, uma da
forma


x b a
y
+ = ( 12 . 4 . 4)

e outra da forma

y d c
x
+ = ( 12 . 4 . 5)

as quais so iguais somente no caso em que r =1.

Isto no apresenta problemas srios, pois no caso de correlao poderia haver
interesse somente em uma das equaes ( 12 . 4 . 4 ), ( 12 . 4 . 5 ), mas no nas duas. Por
exemplo, algum poderia querer prever a altura de uma pessoa conhecendo seu peso e no
o problema inverso.

3) Pode ser demonstrado que existe a seguinte relao:

( )
2 2 2
1
2
1
y e
S r
n
n
S

= ( 12 . 4 . 6 )

Onde S
e
o desvio padro de estimativa definido previamente para o caso de
regresso e S
y
o desvio padro da varivel y.

A relao ( 12 . 4 . 6 ) pode escrever-se, quando n grande.

61
( )
2 2 2
1
y e
S r S ( 12 . 4 . 7 )

Nessa forma se v que r
2
pode ser descrito como a proporo da varincia de y que
pode atribuir-se regresso com a varincia x.
Para o exemplo anterior, r
2
=(0,959133)
2
0,9199, isto , 92 % da varincia da
resistncia ao cisalhamento dos solos pode ser devida profundidade da amostra obtida.

4) Pode-se tambm demonstrar que

y
x
S
S b
r

= ( 12 . 4 . 8 )
Dessa maneira, dado um conjunto de dados (X,Y), conhecendo-se a inclinao b, se
conhece o coeficiente de correlao r e vice-versa.

Provas de hipteses e intervalos de confiana sobre r

Prova de hipteses de que a correlao zero

Na seo 12 . 2 se mostrou que a hiptese de uma falta de relao entre x e y se
pode testar com a hiptese H: =0 e calculando:

b s
b
t =

Se pode demonstrar que essa mesma hiptese equivalente a:

H
0
: =0
H
1
: 0

Onde o coeficiente de correlao da populao e que o valor de t dado acima
pode tambm encontrar-se usando:

r
n r
t
2
1
1
2

= ( 12.2.21 )

com o nmero de graus de liberdade igual ao do valor de t, isto , n 2. Notar que (9.4.9)
verdadeiro somente quando se supe que =0.

Para o exemplo anterior, tem-se:
7192 , 10
959133 , 0 1
10 959133 , 0
2
1 =

= t

o qual aproximadamente o mesmo encontrado em (12.2.19).


62
Intervalo de Confiana de

Quando se supe que =0, a distribuio do coeficiente r obtido em uma amostra
conhecida, sendo o valor de t
1
em (12.4.9) distribudo de acordo com a distribuio de
Student com n 2 graus de liberdade.

Quando 0, a distribuio do coeficiente r muito mais complicada. A
variabilidade de r aumenta muito quando o tamanho da amostra diminui. Por exemplo, o
intervalo de confiana com P =0,95 de quando uma amostra de n =10 d r =0,8 (0,35 ;
0,95). Se a amostra tivesse n =100, o intervalo seria
(0,75 ; 0,85).

O valor aproximado do intervalo de confiana pode ser calculado da seguinte
maneira, usando um nvel de probabilidade de 0,95:

3
96 , 1
)] 1 ln( ) 1 [ln( 5 , 0

+ + =
n
r r CU ( 12.4.10 )
3
96 , 1
)] 1 ln( ) 1 [ln( 5 , 0

+ =
n
r r CU ( 12.4.11 )
) 1 /( ) 1 (
2 2
+ =
CU CU
s e e ( 12.4.12 )
) 1 /( ) 1 (
2 2
+ =
CL CL
i e e ( 12.4.13 )

Para o exemplo anterior com r =0,95913, n =12, tem-se:

5883 , 2 9 / 96 , 1 ) 040867 , 0 ln 959133 , 1 (ln 5 , 0 = + = CU
281634 , 1 9 / 96 , 1 ) 040867 , 0 ln 959133 , 1 (ln 5 , 0 = = CL

98877 , 0 ) 1 /( ) 1 (
1766 , 5 1766 , 5
= + = e e s
85692 , 0 ) 1 /( ) 1 (
563268 , 2 563268 , 2
= + = e e i
0,86 < <0,99

Utilidade Prtica do Coeficiente de Correlao r

1. Toda a informao fornecida por r est includa na equao de regresso e ainda mais.
O valor de r somente um nmero que no pode resolver problemas como: estimao e
previso de y para um valor de x, qual o grau de variabilidade da previso, qual a
forma da equao entre x e y, etc.

2. O valor de r mede o grau de relao linear entre x e y. No se deve usar r se a relao
no linear.

3. A variabilidade de r bastante grande quando o tamanho da amostra pequena,
digamos n <25.

63
4. A correlao entre duas variveis pode ser causada pela relao que essas variveis
tenham com uma terceira varivel. Num perodo de tempo, certas variveis parecem
estar correlacionadas positiva ou negativamente, mesmo quando no se correlacionam.
Por exemplo, encontrou-se um valor de r =- 0,98 entre a razo de crescimento da
populao da Inglaterra durante o perodo de 1875 1920 e a produo de ferro fundido
nos Estados Unidos.

O valor de r pelas caractersticas acima mencionadas, deve ser usado com muita cautela.