Estatstica I
ASSOCIAO ENTRE DUAS VARIVEIS
Estatstica I
de forma a melhorar o conhecimento da realidade e a prever a evoluo dos fenmenos envolvidos nessa relao.
Diagrama de Disperso: (1) uma representao grfica frequentemente utilizada para analisar a correlao entre duas variveis.
Estatstica I
Estatstica I
Estatstica I
Temos uma Correlao Linear quando todos os pontos do diagrama de disperso parecem estar na proximidade de uma recta.
Nestes casos, uma equao linear apropriada aos fins de regresso e de estimao.
Estatstica I
10
Quanto intensidade, a correlao tanto mais forte quanto menor for a disperso dos pontos em torno da linha recta. A correlao perfeita se todos os pontos coincidirem com a linha
Estatstica I
11
Correlao no linear
X
Estatstica I
12
Ausncia de Correlao
X
Estatstica I
13
Apesar do diagrama de disperso ser um indicador da intensidade da correlao, no fornece uma medida exacta do grau de associao linear que existe entre as variveis. A medida que normalmente se utiliza para quantificar essa relao o Coeficiente de Correlao Linear de Pearson.
Estatstica I
14
Estatstica I
16
r= R =
2
( X )(Y ) X Y
i i i i 2 2 ( Xi ) . Y 2 (Yi ) 2 Xi i n n
Estatstica I
17
r = +1 r = -1 r=0
correlao linear perfeita e positiva correlao linear perfeita e negativa ausncia de correlao correlao linear pobre
r prximo de zero
Estatstica I
18
Estatstica I
19
= [
Estatstica I
22
Estatstica I
24
Estatstica I
25
X
Estatstica I
27
Yai
Yi Xj
Yi Xi X
para um determinado valor Xi da varivel independente teremos dois valores para Y: um valor observado Yi e um outro que nos dado pela recta ajustada Yai. A diferena entre os dois corresponde exactamente ao efeito do resduo aleatrio i: Yi - Yai = i
Estatstica I
29
Estatstica I
30
a = Y bX
b = n X iYi n X
2 i
X Y ( X )
i 2 i
Yai = a + bXi
Recta de regresso
Estatstica I
31
b=
X Y Y X X X X
i i 2 i
i i
i i
b =
(X X )(Y Y ) (X X )
2 i
b =
Estatstica I
XY X
i i 2 i
nXY nX 2
32
a corresponde ao valor da varivel dependente Y quando o efeito da varivel independente X nulo. b representa a variao esperada da varivel dependente Y por cada unidade de variao da varivel independente X.
Estatstica I
33
Y0 = a + x n+1b
Estatstica I
34
Yi 2 a Yi b X iYi n2
35
Se a relao linear entre Y e X for suficientemente forte e se se mantiver no futuro, a recta de regresso pode ser utilizada na previso dos valores de Y; Mas, como saber se a relao linear entre Y e X suficientemente forte para que a recta estimada possa ser utilizada na previso dos valores de Y?
Estatstica I
36
Estatstica I
37
Estatstica I
38
Estatstica I
39
Estatstica I
40
( Y ) a Y + b X Y
i i i i
( Y ) Y n
2 i i
Estatstica I
41
este coeficiente pode ser utilizado como uma medida da qualidade da recta de regresso e do ajustamento feito; sobretudo quando o objectivo principal da recta de regresso fazer previses, torna-se indispensvel que o coeficiente de determinao apresente valores elevados.
Estatstica I
43
2 ajustado
n 1 2 = 1 1 R . n 2
Estatstica I
44
Estatstica I
Estatstica I
Cov ( X , Y ) =
(X
)(Y i
Estatstica I
47
Atributo A A1 A2 Al Totais
Estatstica I
(1) n
j=1 k =1
jk
= n j. = n.k = n
j=1 k =1
(2) (3)
Estatstica I
n j. = n jk
k =1 l
n.k = n jk
j=1
49
n j1 n j 2 n jc , j = 1, 2,L , l = =L= n.1 n.2 n.c Recorrendo s propriedades das propores, as igualdades anteriores podem escrever-se de forma equivalente:
n jk n.k =
n
k =1 c k =1
jk
n.k
n j. n
j = 1, 2,L, l ;
k = 1, 2,L, c
n j.n.k n jk = , n
Estatstica I
j = 1, 2,L , l ;
k = 1, 2,L , c
51
=
2 j=1 k =1
Estatstica I
(n
jk
n n*jk
* jk
52
Clculo das frequncias esperadas (no caso de independncia), com base na expresso:
n =
* jk
Estatstica I
n j .n.k n
j = 1, 2,L , l ; k = 1, 2,L , c
53
200 40 = 16 500
* n 22 = 88 n 22 =
* n 23 = 96 n 23 =
Concluso: Existe independncia entre o Sexo e o Curso escolhido pelos estudantes uma vez que se verifica, para qualquer clula, ou seja para qualquer j = 1, 2, ..., l e para qualquer k =1, 2, ..., c, igualdade entre as frequncias observadas e as frequncias esperadas ou tericas.
Estatstica I
54
= n
2
C=
3 . Coeficiente V de Cramer:
= 2 +n
2
2 + 1
2
Estatstica I
55
Com base nas frequncias observadas e nas frequncias esperadas, calcule-se o Qui-Quadrado de Pearson:
2
(120 121,5 ) =
121,5
(300 144 ) +
144
= 542,539
57
Estatstica I
2 . Coeficiente de Contingncia:
C= 0,543 2 = = 0,593 2 0,543 + 1 +1
3 . Coeficiente V de Cramer:
0,543 2 V= = = 0,737 min(l 1, c 1) 1
Estatstica I
Concluso: O valor de qualquer das medidas confirma a existncia de uma associao relativamente forte entre o tipo de espectador (sexo) e o tipo de programa (informao, desporto e telenovelas).
58
Nesta tabela, os sinais (+) e (-) representam, respectivamente, presena ou ausncia do atributo, concordncia no caso ++ ou - - e discordncia nos casos + -, - +.
Estatstica I
59
As medidas de associao j estudadas que, em geral assumem valores entre 0 e 1 no so muito adequados para as tabelas 2x2 porque nestas, ao contrrio do que acontece em tabelas lxc (l ou c maio que 2) faz sentido, muitas vezes, distinguir entre associao positiva e negativa. A medida de associao mais utilizada para tabelas 2x2 o Coeficiente de Pearson: ad bc = (a + b )(a + c )(b + d)(c + d)
Estatstica I
60
Ser que se pode afirmar que estes dois atributos se encontram relacionados?
Estatstica I
62
s = 1
6 di2 n n
i =1 3
s = 1
68 = 1 0,4 = 0,6 53 5
Pode considerar-se que entre as duas variveis existe uma associao razovel e positiva, o que significa que a apreciao sobre o Algarve est moderadamente relacionada com o atributo sol e praia.
Estatstica I
63
Coeficiente V de Cramer (c) (Cramers V) Variveis Nominais Coeficiente de Contingncia (C) (Contingency Coefficient)
Estatstica I
Coeficiente de Spearman () (Spearmans rho) Variveis Ordinais Coeficiente tau de Kendall () (Kendalls tau b)
Estatstica I
65
Estatstica I
ASSOCIAO ENTRE DUAS VARIVEIS FIM Vitor Teixeira vteixei@ualg.pt
Estatstica I
66