Anda di halaman 1dari 88

Probabilidade e

Estatstica
Aula 3
Medidas Numricas Descritivas

Leitura: Levine et al. Captulo 3


Cap 3-1

Objetivos
Nesta parte, aprenderemos:
a descrever as propriedades de tendncia central,

variao e formato em dados numricos


a calcular medidas resumo para a populao
a construir e interpretar um grfico Box- plot
a descrever a covarincia e coeficiente de correlao

Cap 3-2

Exemplo
Uma pesquisa em uma certa cidade perguntou a 15

pessoas, escolhidas aleatoriamente, o tempo de viagem de


casa para o trabalho em minutos:
30 20 10 40 25 20 10 60 15 40 5 30 12 10 10

Em rol:

5 10 10 10 10 12 15 20 20 25 30 30 40 40 60

Cap 3-3

Exemplo

Diagrama ramo-e-folha:

Distribuio assimtrica
Maior tempo de viagem = 60 min

000025

005

00

00

5
6

Vamos aprender a descrever, com nmeros, o centro e a


disperso das distribues de dados!!
Cap 3-4

Definies
A tendncia central corresponde extenso na qual

todos os valores de dados se agrupam em torno de


um valor central tpico.
A variao corresponde ao montante de disperso,

ou espalhamento, de valores em relao a um valor


central.
O formato corresponde ao padro da distribuio de

valores do valor mais baixo para o mais alto.

Cap 3-5

Medidas de Tendncia Central


A tendncia central a valores no centro da

distribuio, em torno dos quais os dados se


agrupam.
Medidas tipicamente usadas:

Mdia aritmtica
Mediana
Moda

Cap 3-6

Mdia
A mdia aritmtica (mdia) a mais comum das

medidas de tendncia central.


Para uma amostra de tamanho n:
n

X
Tamanho da
amostra

X
i1

X1 X2 Xn

n
Valores
observados
Cap 3-7

Exemplo: Mdia
A tabela abaixo lista o tempo de viagem de casa para o

trabalho de 15 pessoas em minutos:


x1

x2

x3

x4

x5

x6

x7

x8

x9

x10

30

20

10

40

25

20

10

60

15 40

x11

x12

x13

x14

x15

30

12

10

10

O tempo mdio de viagem das pessoas :

15
=1

30 + 20 + + 10 337
=
=
= 22.5
15
15

Cap 3-8

Mdia

Mdia = soma dos valores dividido pelo nmero de valores


Afetada por valores atpicos, tambm chamados de valores
extremos ou outliers.

0 1 2 3 4 5 6 7 8 9 10

Mdia = 3
1 2 3 4 5 15

3
5
5

0 1 2 3 4 5 6 7 8 9 10

Mdia = 4
1 2 3 4 10 20

4
5
5
Cap 3-9

Mdia:o ponto de equilbrio

A mdia Ponto de equilbrio em um conjunto de dados


(gangorra),
onde todos os valores desempenham um papel igual (mesma
massa).
0 1 2 3 4 5 6 7 8 9 10

Mdia = 4
(1 - 4) (2 - 4) (3 - 4) (4 - 4) (10 - 4) 0

Cap 3-10

Mdia:o ponto de equilbrio


Propriedade: A soma dos desvios em relao a mdia

nula.

X
n

i 1

i 1

i 1

X Xi X
n

Xi nX
i 1

Desvio de Xi em relao a mdia

o desvio mede a distncia entre o valor e a


mdia, mas usa o sinal "-" para valores
abaixo da mdia e "+" para valores acima
da mdia.

Cap 3-11

Mdia:o ponto de equilbrio


Propriedade: A soma dos desvios em relao a mdia

nula.

=
=1
Desvio de Xi em relao a mdia

o desvio mede a distncia entre o valor e a


mdia, mas usa o sinal "-" para valores
abaixo da mdia e "+" para valores acima
da mdia.


=1

=1

= 0
=1

Cap 3-12

Mdia
Propriedade: o valor que minimiza a soma do

quadrado dos desvios:

= min

=1

Ou seja, imagine que estamos buscando o valor (que vamos


considerar como "centro" dos dados), tais que a "distncia"
(medida pela soma dos quadrados dos desvios) dos outros valores
em relao a seja a menor possvel. Este valor c sempre a
mdia!

Cap 3-13

Mediana
Em um rol (lista dos dados em ordem crescente), a mediana o

nmero do meio, (50% acima, 50% abaixo)


0 1 2 3 4 5 6 7 8 9 10

Mediana = 4

0 1 2 3 4 5 6 7 8 9 10

Mediana = 4

No afetada por valores atpicos (extremos)

Cap 3-14

Localizando a Mediana
A mediana de um conjunto de dados ordenados

localizada na posio:

+1
.
2

Se o nmero de valores mpar,


o nmero do meio.

Se o nmero de valores par,

+1
2

inteiro. Ento, a mediana

+1
no inteiro. Ento,
2

convencionamos que mediana a mdia dos dois valores do


meio.

Cap 3-15

A Mediana
Em um rol, a mediana o nmero do meio, (50% acima, 50%

abaixo)
0 1 2 3 4 5 6 7 8 9 10

Mediana = 4

Exemplo com n=5 (nmero mpar).


Posio da mediana = (5+1)/2=3.
Ento, a mediana o 3 valor no
rol, ou seja,
mediana=4
Cap 3-16

A Mediana
Em um rol, a mediana o nmero do meio, (50% acima, 50%

abaixo)
0 1 2 3 4 5 6 7 8 9 10

Mediana = 4.5
Exemplo com = 6 (nmero par)
Posio da mediana = (6+1)/2=3.5, entre o 4 e o 5
valor no rol:
4 + 5 4 + 5
=
=
= 4.5
2
2

Cap 3-17

Exerccio: Mediana
Exerccio: Determine o tempo mediano de viagem de
casa para o trabalho para as pessoas da cidade.
x1

x2

x3

x4

x5

x6

x7

x8

x9

x10

30

20

10

40

25

20

10

60

15 40

x11

x12

x13

x14

x15

30

12

10

10

Soluo:
- O tamanho da amostra : = 15 (mpar)
+1
2

15+1
2

=8

Posio da mediana:

A mediana o 8 valor no rol!


Para estes dados o rol : 5,10,10,10,10,12,15,20,20,25,30,30,40,40,60
Cap 3-18
Ento a mediana : 20 minutos.

Mediana
Propriedade: o valor que minimiza a soma do valor

das distncias (valor absoluto dos desvios):

= min


=1

Ou seja, imagine que estamos buscando o valor (que vamos


considerar como "centro" dos dados), tais que a distncia dos
outros valores em relao a seja a menor possvel. Este valor c
sempre a mediana!

Cap 3-19

Mdia x Mediana
Vimos que a mdia afetada por valores extremos,

enquanto a mediana robusta a valores extremos.


Para visualizar melhor esta diferena de comportamento

entre mdia e mediana, vejam o applet Mean and


Median do Moore.

Exercicio: Escolher 9 pontos ao acaso no aplicativa. Agora


adicione um 10 ponto bem afastado dos demais. O que vc
espera que acontea com a mdia? E com a mediana?
Exerccio: Escolher 5 pontos ao acaso no aplicativo. Agora
tente acrescentar pontos de forma que a mdia e a mediana
coincidam.
Cap 3-20

Medidas de Tendncia Central:


a moda
A moda o valor que ocorre com maior frequncia.
Usada tanto para dados numricos quanto para dados

categricos (cuidado: afetada pela escolha de classes


de agrupamento)
Pode no haver moda e pode haver vrias modas
No afetada por valores extremos

0 1 2 3 4 5 6 7 8 9 10 11 12 13 14

Moda = 9

2 3 4

5 6

Sem Moda
Cap 3-21

Exemplo
Uma pesquisa em uma certa cidade perguntou a 15

pessoas, escolhidas aleatoriamente, o tempo de viagem de


casa para o trabalho em minutos:
30 20 10 40 25 20 10 60 15 40 5 30 12 10 10

Em rol:

5 10 10 10 10 12 15 20 20 25 30 30 40 40 60
Qual a moda?

Cap 3-22

Medidas de Tendncia Central:


Exemplo
Preos das casas:
$2,000,000
500,000
300,000
100,000
100,000
Soma 3,000,000

Mdia:

($3,000,000/5)
= $600,000
Mediana: valor do meio dos dados
ordenados
= $300,000
Moda: valor mais frequente
= $100,000

Cap 3-23

Medidas de Tendncia Central:


Qual medida escolher?
A mdia geralmente usada, a menos que existam

valores extremos e com distribuio muito


assimtricas.
Nesse caso, a mediana a mais usada, uma vez que

no sensvel a valores extremos. Por exemplo, o


preo mediano de casas pode ser registrado para uma
regio por ser menos sensvel a valores extremos.

Cap 3-24

Medidas de Tendncia Central:


Resumo
Tendncia Central

Mdia
Aritmtica

Mediana

Moda

X
i1

Valor do meio
em um rol

Valor
observado
com mais
frequncia
Cap 3-25

Formato de uma Distribuio


Medidas de formato tentam captarem um nmero
caractersticas da distribuio dos dados como assimetria e
"achatamento".

No vamos ver medidas numricas de formato. As medidas mais usadas


so: assimetria e curtose.
Cap 3-26

Formato de uma Distribuio


Para dados com uma nica moda, a relao entre moda,
mediana e mdia nos fornecem uma ideia sobre a simetria de
uma distribuio:
Assimtrica esquerda
Mdia < Mediana < Mo

Simtrica
Mdia = Mediana = Mo

Assimtrica direita
Mo < Mediana < Mdia

Obs: a assimetria segue a direo da cauda longa da distribuio.


Cap 3-27

Medidas de Variao
Medidas de variao medem a disperso de valores em

um conjunto de dados, i. e., o grau de afastamento dos


dados em torno de um valor central.
Medidas absolutas: (Amplitude, Amplitude interquartil,

Varincia e Desvio-padro)
Indicam se um conjunto de dados homogneo ou

heterogneo.

Cap 3-28

Amplitude
Medida de variao mais simples
Amplitude definida como a diferena entre o maior e o

menor dos valores:

Amplitude = Xmaior Xmenor


Exemplo:
0 1 2 3 4 5 6 7 8 9 10 11 12

13 14

Amplitude = 13 - 1 = 12
Cap 3-29

Desvantagens da Amplitude
Ignora a forma na qual os dados so distribudos:
7

10

11

12

Amplitude = 12 - 7 = 5

10

11

12

Amplitude = 12 - 7 = 5

sensvel a outliers

1,1,1,1,1,1,1,1,1,1,1,2,2,2,2,2,2,2,2,3,3,3,3,4,5
Amplitude = 5 - 1 = 4

1,1,1,1,1,1,1,1,1,1,1,2,2,2,2,2,2,2,2,3,3,3,3,4,120
Amplitude = 120 - 1 = 119
Cap 3-30

Exemplo
Uma pesquisa em uma certa cidade perguntou a 15 pessoas,

escolhidas aleatoriamente, o tempo de viagem de casa para o


trabalho em minutos:
30 20 10 40 25 20 10 60 15 40 5 30 12 10 10
Em ordem crescente:

5 10 10 10 10 12 15 20 20 25 30 30 40 40 60
A amplitude : 60 5 = 55 min
Afetada pelo valor atpico
Como podemos ter uma ideia da variao que no

seja sensvel a valores atpicos?


Cap 3-31

Medidas Separatrizes
Medidas separatrizes so valores que dividem o rol

em partes iguais.
Medidas separatrizes tipicamente usadas:

Quartis (4 partes)
Decis (10 partes)
Centis (100 partes)
A nomenclatura geral : quantil ou pertencil

Cap 3-32

Exerccio: Quartis
Exerccio: Voc tem uma corda de um metro e

deseja separ-la em 4 pedaos de 25 cm.

Voc deve cortar a corda em quantos pontos?


Quais so estes pontos?

Cap 3-33

Quartis
Quartis dividem os dados ordenados em 4 segmentos

com o mesmo nmero de valores por segmento.


25%

25%
Q1

25%
Q2

25%
Q3

O primeiro quartil, Q1, o valor para o qual 25% das

observaes so menores e 75% so maiores do que ele.


Q2 o mesmo que a mediana (50% so menores, 50% so
maiores)
Apenas 25% dos valores so maiores do que o terceiro
quartil, Q3.
Cap 3-34

Localizando Quartis
Encontre os quartis ao determinar o valor correspondente a
posio apropriada nos dados ordenados, onde
Posio do primeiro quartil: Q1 = (n+1)/4 valor ordenado
Posio do segundo quartil: Q2 = (n+1)/2 valor ordenado
Posio do terceiro quartil: Q3 = 3(n+1)/4 valor ordenado
em que n o nmero observado de valores
ESTA A POSIO DOS QUARTIS NOS DADOS ORDENADOS!!
Cap 3-35

Localizando Quartis
Posio dos quartis:
1
1 = ( + 1)
4
1
2 = ( + 1)
2
3
3 = ( + 1)
4

Regra 1: se a posio de um quartil um nmero

inteiro, ento o quartil corresponde ao valor


ordenado nesta posio.
Regra 2: se a posio uma frao com 0.5 (2.5,

3.5, etc), ento o quartil igual a mdia dos valores


correspondendo as posies adjacentes (2 e 3, 3 e 4,
etc).
Regra 3: se a posio no um n inteiro, nem uma

frao com 0.5, ento arredonda-se a posio para o


inteiro mais prximo e determina-se o valor
correspondente.
Cap 3-36

Localizando o Primeiro Quartil


Exemplo: Encontre o primeiro quartil para os dados a

seguir:
11 12 13 16 16 17 18 21 22
Primeiro, note que n = 9.

Q1 esta na posio (9+1)/4 = 2.5 dos dados ordenados,


ento o valor mdio entre os 2 e 3 valores ordenados,
Q1 = 12.5
Q1 e Q3 so medidas de locao no centrais
Q2 = mediana, uma medida de tendncia central
Cap 3-37

Exerccio: Quartis
Uma pesquisa em uma certa cidade perguntou a 15

pessoas, escolhidas aleatoriamente, o tempo de viagem de


casa para o trabalho em minutos:
30 20 10 40 25 20 10 60 15 40 5 30 12 10 10
Em rol:

5 10 10 10 10 12 15 20 20 25 30 30 40 40 60
Quais so os quartis da distribuio do tempo de

viagem??

Cap 3-38

Medidas de Variao:
Amplitude Interquartil
Uma boa medida de disperso dos dados, que no sensvel a

valores atpicos a Amplitude Interquartil (AIQ).


A Amplitude Interquartil elimina alguns dos maiores e menores

valores e calcula a amplitude apenas com os valores restantes.


Amplitude Interquartil = 3 quartil 1 quartil

= Q3 Q1

Cap 3-39

Exerccio: Quartis
Uma pesquisa em uma certa cidade perguntou a 15

pessoas, escolhidas aleatoriamente, o tempo de viagem de


casa para o trabalho em minutos:
30 20 10 40 25 20 10 60 15 40 5 30 12 10 10
Em rol:

5 10 10 10 10 12 15 20 20 25 30 30 40 40 60
Qual a Amplitude Interquartil do tempo de viagem?

Cap 3-40

Resumo de Cinco Nmeros


Um Resumo de Cinco nmeros consiste de:
mnimo (Xmenor)
Primeiro Quartil (Q1)
Mediana (Q2)
Terceiro Quartil (Q3)
mximo (Xmaior)

Cap 3-41

Box-Plot (diagrama de caixa)


O Box-Plot uma apresentao grfica dos resumo

de 5 nmeros.
25%

mnimo

25%

1 Quartil

25%

Mediana

25%

3 Quartil

mximo

Cap 3-42

Box-Plot
O quadro e a linha central esto localizados no meio

dos pontos extremos se os dados forem simtricos em


torno da mdia.

Min

Q1

Mediana

Q3

Max

Um grfico Box-Plot pode ser apresentado tanto na

vertical quanto na horizontal.


Cap 3-43

Box-Plot
Quando os dados tem uma nica moda, o box-plot nos d uma ideia
da direo da assimetria nos dados (sem precisar olhar a
distribuio).

Assim. Esq

Q1

Q2Q3

Simtrica

Q1Q2Q3

Assim. Dir

Q1 Q2 Q3

Cap 3-44

Anlise Exploratria de Dados:


Box-Plot
Formas alternativas para o bigode do box-plot:
Mnimo e mximo
2 e 98 percentis.
1 e 99 percentis.
Um desvio padro abaixo e acima da mdia.
O menor dado dentro de 1.5 AIQ (Amplitude

interquartil) de Q1 e o maior dado dentro de 1.5


AIQ de Q3.

Cap 3-45

Varincia e Desvio-padro
O resumo dos 5 nmeros no a descrio numrica

mais comum de uma distribuio de dados.


As medidas mais usadas para descrever os dados

so:

Mdia (tendncia central)


Varincia ou desvio-padro (variao)!!
Medem o quanto as observaes se afastam
da mdia

Cap 3-46

Medidas de Variao:
Varincia
A varincia a mdia (aproximadamente*) do

quadrado dos desvios dos valores em relao a


mdia.
n

Varincia Amostral: S 2
Em que

2
(X

X
)
i
i 1

n -1

X = mdia aritmtica

n = tamanho da amostra
Xi = iesimo valor da varivel X
* (n-1: graus de liberdade)
Cap 3-47

Medidas de Variao:
Desvio-padro
Medida de variao mais utilizada: "desvio mdio dos dados

em relao a mdia".
Mostra variaes em relao a mdia
Raiz quadrada da varincia
Tem a mesma unidade que os dados originais
n

Desvio-padro amostral:

2
(X

X
)
i
i 1

n -1

Cap 3-48

Medidas de Variao:
Desvio-padro
Passos para computar o desvio-padro amostral
1.
2.
3.
4.
5.

Compute a diferena entre cada valor e a mdia.


Eleve esta diferena ao quadrado.
Some os quadrados das diferenas.
Divida o total por n-1 para obter a varincia
amostral.
Tire a raiz quadrada da vairncia amostral para
obter o desvio padro amostral.

Cap 3-49

Medidas de Variao:
Desvio-padro
Dados
Amostrais (Xi) :

10

n=8

12

14

15 17 18 18 24

Mdia = X = 16

(10 X ) 2 (12 X ) 2 (14 X ) 2 (24 X ) 2


n 1

(10 16) 2 (12 16) 2 (14 16) 2 (24 16) 2


8 1

130
7

4.31

Uma medida de afastamento


mdio dos dados em relao
mdia.
Cap 3-50

Medidas de Variao:
Comparando Desvios-padro
Dados A
11

12

13

14

15

16

17

18

19

20 21

Mdia = 15.5
S = 3.338

20

Mdia = 15.5
S = 0.926

Dados B
11
21

12

13

14

15

16

17

18

19

Dados C
11

12

13

14

Mdia = 15.5
S = 4.570
15

16

17

18

19

20 21

Cap 3-51

Medidas de Variao:
Comparando Desvios-padro
Desvio-padro pequeno

Desvio-padro grande

Cap 3-52

Exerccio: Desvio-padro
A taxa metablica de uma pessoa a taxa segundo a qual

o corpo consume energia. Veja abaixo a taxa metablica


(calorias/dia) de 3 homens que participaram de uma dieta.
1792 1666 1362
Determine a taxa metablica mdia.
b) Determine o desvio-padro.
a)

Cap 3-53

Exerccio: Desvio-padro
Soluo: n=3

1792 1666 1362


a)

Determine a taxa metablica mdia.


Xi

1792
1666
1362
Soma:

4820

Mdia:

1606.67

Cap 3-54

Exerccio: Desvio-padro
n

Soluo: n=3

b)

Soma:

Determine o desvio-padro.

Xi

(Xi-Mdia)

(Xi-Mdia)2

1792

17921606.67=
185.33

185.332=
34347.21

1666

1666-1606.67
59.33

59.332=
3520.05

1362

1362-1606.67
-244.67

(-244.67)2=
59863.40

4820

-0.01

97730.67

Mdia=
1606.67

97730.67/2=48865.33

2
(X

X
)
i
i 1

n -1

S=raiz(48865.33)
= 221.05
Cap 3-55

Medidas de Variao:
Propriedades da Varincia
Propriedade 1: A varincia de uma constante nula;

11

12

13

14

Propriedade 2: A varincia da soma ou diferena de uma constante


k com uma varivel igual a varincia da varivel;

11

12

13

14

16

17

18

19

Cap 3-56

Medidas de Variao:
Propriedades da Varincia
Propriedade 1: A varincia de uma constante nula;
Para uma base de dados com dados: 1 = 2 = = =
=

Propriedade 2: A varincia da soma ou diferena de uma constante


k com uma varivel igual a varincia da varivel;
Para uma base de dados com dados: 1 = 2 = = . Some
unidades para cada valor. A varincia :

(
+
)

=
=
+ =
=
=

Cap 3-57

Medidas de Variao:
Propriedades da Varincia
Propriedade 3: A varincia do produto de uma constante por uma
varivel igual ao produto do quadrado da constante pela varincia
da varivel.

11

12

13

14

22

23

24

25

26

27

28

Cap 3-58

Medidas de Variao:
Propriedades da Varincia
Propriedade 3: A varincia do produto de uma constante por
uma varivel igual ao produto do quadrado da constante pela
varincia da varivel.
Para uma base de dados com dados: 1 = 2 = = .
=


=
=

=
= ()

Cap 3-59

Medidas Numricas Descritivas


para a Populao
As estatsticas descritivas discutidas descrevem uma

amostra e no a populao.
Medidas descritivas para a populao so chamadas

de parmetros e geralmente denotadas por letras


gregas.
Parmetros de populao importantes so a mdia

populacional, a varincia populacional e desviopadro populacional.


Cap 3-60

Mdia Populacional
A mdia populacional a soma dos valores na

populao dividida pelo tamanho da populao, N.


N

Em que

X
i 1

X1 X 2 X N

= mdia populacional

N = tamanho da populao
Xi = isimo valor da varivel X
Cap 3-61

Varincia Populacional
A varincia populacional a mdia do quadrado dos

desvios dos valores em relao a mdia populacional.


N

2
Em que

2
(
X

)
i
i 1

= mdia populacional
N = tamanho da populao
Xi = isimo valor da varivel X

Cap 3-62

Desvio-Padro Populacional
O desvio-padro populacional a medida de

variao populacional mais usada.


A raiz da varincia.
Ele tem a mesma unidade que os dados originais.
N

Em que

2
(
X

)
i
i 1

N
= mdia populacional

N = tamanho da populao
Xi = isimo valor da varivel X
Cap 3-63

Estatsticas Amostrais Versus


Parmetros Populacionais
Medida

Parmetro
Populacional

Estatstica
Amostral

Mdia

Varincia

Desvio Padro

Cap 3-64

Localizando Valores Extremos


Duas alternativas diferentes so usadas para localizar

valores atpicos (extremos) dependendo das medidas


usadas para variao:

Forma 1: Usando Amplitude Interquartil


Forma 2: Usando o Desvio-padro (Escore-Z)

Cap 3-65

Localizando Valores Extremos


1.5 AIQ
Vimos que a Amplitude Interquartil compreende

50% dos dados.


Uma regra para localizar valores extremos

identificar dados que so:

Menores do que Q1 1.5AIQ


Maiores do que Q3 + 1.5AIQ

Um valor, , considerado extremo se:


1 1.5 3 1 3 + 1.5(3 1 )
Cap 3-66

Localizando Valores Extremos


1.5 AIQ
Exerccio: Abaixo esto descritos os tempos de viagem para

20 cidados de Nova Yorque, j arranjados em ordem


crescente.
5 10 10 15 15 15 15 20 20 20 | 25 30 30 40 40 45 60 60 65 85
Existe algum valor extremo?

Cap 3-67

Localizando Valores Extremos


1.5 AIQ
Soluo:

Os quartis destes dados so: Q1=15, Q2=22.5 e Q3=45


Amplitude Interquartil: AIQ = 45 15 = 30
1.5*AIQ = 1.5*30 = 45
Os valores extremos caem:
Abaixo de Q1-1.5*AIQ = 15 45 = -30
Acima de Q3+1.5*AIQ = 45 + 45 = 90
Portanto, o tempo de viagem de 85 min no extremo (ou
atpico).

Cap 3-68

Localizando Valores
Extremos: Escore-Z
O Escore-Z de um valor o nmero de desvios-padro

que o valor est da mdia.


Para computar o escore-Z de um dado, diminua a mdia e

divida pelo desvio-padro.


Quanto maior o valor absoluto do escore-Z, mais longe o

valor est da mdia.

Um valor considerado extremo se:


3 3
Cap 3-69

Localizando Valores
Extremos: Escore-Z
Xi X
Zi
S
Em que Xi representa o valor do dado observado
X a mdia amostral
S o desvio-padro amostral
Mede a distncia em desvio-padres de um certo
dado em relao a mdia.
Cap 3-70

Localizando Valores
Extremos: Escore-Z
Exerccio: Suponha que a nota mdia do ENEM seja

de 490 e desvio-padro de 100.


Calcule o Escore-Z de um aluno com nota 620.

X i X 620 490 130


Zi

1.3
S
100
100
Um escore de 620 equivale a 1.3 desvios-padro acima
da mdia e portanto no seria considerado um valor
extremo.
Cap 3-71

Medidas numricas para 2


variveis
At agora trabalhamos com medidas para a descrio

de apenas uma varivel.


Geralmente temos diversas variveis que se

relacionam entre si

Veremos agora medidas para a fora da relao entre

2 variveis!!

Cap 3-72

Covarincia Amostral
A covarincia amostral mede a fora da relao linear

entre duas variveis.


A covarincia mede se as duas variveis se movem juntas!

Covarincia amostral:

cov ( X , Y )

( X X)( Y Y)
i1

n 1

Cap 3-73

Covarincia Amostral
n

A covarincia amostral
cov ( X , Y )

( X X)( Y Y)
i1

n 1

Cap 3-74

Covarincia Amostral
Covarincia, cov(X,Y), entre duas variveis:

Positiva: X e Y tendem a se mover na mesma direo.

Xis grandes observados ao mesmo tempo que Yis grandes


Xis pequenos observados ao mesmo tempo que Yis pequenos

Negativa: X e Y tendem a se mover em direes opostas.

Xis grandes observados ao mesmo tempo que Yis pequenos


Xis pequenos observados ao mesmo tempo que Yis grandes

Nula: X e Y so linearmente independentes.


Cap 3-75

Covarincia Amostral
A covarincia depende das dimenses usadas
Assim, ao olharmos o valor calculado podemos apenas

analisar o seu sinal, a magnitude no contm informao


alguma sobre a fora da relao entre variveis

Ex: Cov(X,Y) = 25 quando X medido em m e Y em kg.


Cov(X,Y) = 2500 quando X em cm e Y em kg.

Por isso, usamos a correlao!


Cap 3-76

Coeficiente de Correlao
O coeficiente de correlao mede a fora relativa da

relao linear entre duas variveis.


Coeficiente de correlao amostral:
n

( X X)( Y Y)
i

i1

( Xi X )
i1

2
(
Y

Y
)
i

cov ( X , Y )
SX SY

i1

Cap 3-77

Coeficiente de Correlao
Y

r = -1

r = -0.6

X
r=0

X
r = +1

r = +0.3
Cap 3-78

Coeficiente de Correlao:
Propriedades
Propriedades do coeficiente de correlao:
Adimensional
Varia entre -1 e 1
Quanto mais prximo de -1 mais forte a relao linear
negativa entre as variavies
Quanto mais prximo de 1, mais forte a relao linear
positiva entre as variveis.
Quanto mais prximo de 0, mais fraca a relao linear entre
as variveis.
Ver applet regression by eye

Cap 3-79

Coeficiente de Correlao:
Exemplo
r = 0.733

relao linear positiva


entre a nota na 1a prova e
a nota na 2a prova.
Alunos que tiraram notas

Nota na 2a Prova

Claramente existe uma

Grafico de Disperso das Notas nas


Provas

100
95
90
85
80
75
70
70

75

80

85

90

Nota na 1a Prova

95

100

boas na 1a prova tendem


a tirar notas boas na 2a
prova.
Cap 3-80

Coeficiente de Correlao
Exerccio: Supe-se que o contedo de hidrognio (X)

seja um fator importante na porosidade (Y) de fundies


de liga de alumnio. Utilize os dados abaixo para calcular
a correlao entre contedo de hidrognio e porosidade:
X

0.18

0.20

0.21

0.22

0.30

0.46

0.70

0.41

0.44

0.72

( X X)( Y Y)
i

i1

( X X) ( Y Y )
2

i1

i1

cov ( X , Y )
SX SY

Cap 3-81

Coeficiente de Correlao
Soluo:
Para calcularmos a correlao:
n

(X
i 1

(X
i 1

X )(Yi Y )

X)

(Y
i 1

Y )

Primerio calculamos as mdias:

0.18

0.46

0.20

0.70

0.21

0.41

0.22

0.44

0.30

0.72

Soma=1.11

Soma=2.73

1.11
0.22
5
2.73
Y
0.55
5
X

Cap 3-82

Coeficiente de Correlao
Soluo:

_ _

Em seguida, calculamos os desvios em relao mdia:


Xi

Soma:

(Xi-X)2

(Xi-X)

(Yi Y)

Yi

(Yi-Y)2

_ _

(Xi-X)(Yi Y)

0.18

-0.04

0.0016

0.46

-0.09

0.0081

0.0036

0.20

-0.02

0.0004

0.70

0.15

0.0225

-0.003

0.21

-0.01

0.0001

0.41

-0.14

0.0196

0.0014

0.22

0.44

-0.11

0.0121

0.30

0.08

0.0064

0.72

0.17

0.0289

0.0136

1.11

0.01

0.0085

2.73

-0.02

0.0912

0.0156

Ento:
r

(X
i 1

X )(Yi Y )

( X i X )2
i 1

(Y
i 1

Y )2

0.0156
0.0085 * 0.0912

0.0156
0.55
0.092 * 0.31
Cap 3-83

Correlao x Causalidade
Correlao no a mesma coisa que causalidade!!

Na causalidade, uma varivel apenas acontece por causa da outra.


Quando h correlao positiva observamos que duas variveis
costumam andar juntas.

Pode ser que Y cause X, ou que X cause Y ou que exista outra varivel
(omitida) Z que cause as duas coisas...

Exemplos de correlao e no causalidade:

Com o passar do tempo, observamos primeiro o cantar do galo e uns


minutos depois o nascer do sol mas isso no quer dizer que o cantar
do galo que causa o nascer do sol;
Muitos casais compram um carrinho de beb antes do seu filho nascer
mas isso no quer dizer que a compra que causa o nascimento.
Cap 3-84

Correlao x Causalidade

- Eu achava
que correlao
implica
causalidade

- A eu fiz um
curso de
estatstica e
agora no acho
mais.

- Parece que o
curso ajudou.
- Pode ser.

Cap 3-85

Armadilhas em Medidas
Descritivas
A anlise de dados objetiva
Uma anlise de dados sempre deve apresentar as medidas

descritivas que melhor atendem as hipteses a respeito do


conjunto de dados.
A Interpretao dos dados subjetiva
A interpretao deve ser honesta, neutra e clara.

Cap 3-86

Consideraes ticas
Medidas Descritivas Numricas:
Devem documentar tanto os resultados bons quanto os
resultados ruins.
No deve-se usar medidas descritivas inadequadas para

distorcer os fatos.
Ficar atento para omisses ao ler estatsticas descritivas,

pois elas podem esconder fatos que no esto de acordo com


o ponto de vista do autor.

Cap 3-87

Questes Recapitulativas

Quais propriedades de um conjunto de dados ns vimos


em sala de aula?
O que significa a propriedade de tendncia central?
Quais so as diferenas entre a mdia aritmtica, a
mediana e a moda, e quais so as vantagens e
desvantagens de cada uma delas?
Como voc interpreta o primeiro quartil, a mediana e o
terceiro quartil?
O que significa a propriedade de variao?
Quais so as diferenas entre as diversas medidas de
variao e quais as vantagens de cada uma delas?
O que significa a medida de escore Z?

Cap 3-88