Anda di halaman 1dari 88

ESTATSTICA DESCRITIVA

Medidas estatsticas de
sumarizao ou resumo

Valores que resumem um conjunto de dados podem ser classificados


em:

Medidas de posio ou localizao;

Medidas de disperso ou variabilidade;

Medidas de assimetria e curtose.

2
MEDIDAS DE POSIO
DE LOCALIZAO
Medidas de posio (ou localizao)
Mdia

Mediana

Moda

Separatrizes

Se as medidas forem calculadas para os dados de uma


amostra, elas so chamadas de estatsticas da amostra.

Se as medidas forem calculadas para os dados de uma


populao, elas so chamadas de parmetros populacionais.
4
Mdia Aritmtica Simples

n
xi
Mdia Amostral x i 1

i 1 xi
N
Mdia Populacional
N
5
Mdia Aritmtica Simples

Exemplo: Os dados abaixo referem-se ao peso em kg de 10


recm-nascidos.

3,2 3,2 2,8 2,9 3,1 3,2 3,0 3,5 4,0 2,1

Calcule o peso mdio dos recm-nascidos.

6
Mdia Aritmtica Ponderada
a soma dos produtos de cada valor observado pelo seu
respectivo peso, dividida pela soma dos pesos.

in1 xi . pi
x
in1 pi

Exemplo: Um estudante obteve na 1 unidade a nota 7,0, na 2


nota 9,0 e na 3 nota 8,0. A nota final do semestre uma
mdia ponderada, em que as trs unidades tm pesos 2, 3 e 5,
respectivamente. Logo, qual ser a nota final deste aluno?
7
Mdia Aritmtica para dados agrupados
Quando os dados esto em uma tabela de frequncias os
ponderadores sero as frequncias.

i 1 xi . f i
n
x
in1 f i

Para dados agrupados em intervalos de classes.

in1 mi . f i
x
in1 f i

8
Mdia Aritmtica para dados agrupados

Exemplo: Calcule a durao mdia da terapia de transfuso


em paciente com doena falciforme.

Durao da terapia de transfuso para dez


pacientes com doena falciforme.
Durao (anos) Nmero de
(xi) crianas (fi)
5 3
6 1
8 1
11 3
12 2
Total 10
Fonte: Peridico Journal of Pediatrics

9
Mdia Aritmtica para dados agrupados
em intervalos de classe
Exemplo: Calcule o nvel mdio de colesterol em homens
entre 25 e 34 anos.
Frequncias absolutas de nveis sricos de colesterol para homens
dos Estados Unidos, com idade entre 25 e 34 anos, 1976-1980.
Nvel de Colesterol Nmero de
(mg/100 ml) homens
80 | 120 13
120 | 160 150
160 | 200 442
200 | 240 299
240 | 280 115
280 | 320 34
320 | 360 9
360 | 400 5
Total 1.067
Fonte: Peridico Vital and Health Statistics
10
Comentrios sobre a Mdia Aritmtica
(Vantagens x Desvantagens)

Vantagem
A mdia um valor tpico (caracterstico) do conjunto de dados.
a principal medida de tendncia central.
Leva em considerao todas as observaes efetuadas.
Calcula-se com facilidade.

Desvantagem
Muito sensvel a valores extremos, isto , a valores
excessivamente pequenos ou grandes, em relao s demais
observaes do conjunto de dados.

11
Mediana
o valor central em uma distribuio, quando o conjunto de
dados est ordenado.

Divide a distribuio em duas partes iguais, de modo que 50%


dos valores observados so iguais ou inferiores ao valor mediano
e 50% iguais ou superiores a esse valor.

Se o total de observaes for MPAR, a mediana, o valor que


est localizado exatamente ao meio dos dados ordenados.

Se o total de observaes for PAR, a mediana a mdia dos


dois valores centrais.

12
Mediana

Exemplo: Calcule a mediana dos conjuntos a seguir.

Conjunto 1 = {10, 29, 26, 28, 15}


Conjunto 2 = {500, 600, 800, 50.000, 1.000, 500}

13
Mdia x Mediana

A mediana uma medida de posio resistente, pois pouco


afetada por mudanas de pequena poro dos dados, ao
contrrio da mdia que sensvel a valores atpicos (discrepantes).

Exemplo: Calcule a mdia e a mediana.

Conjunto 1 = {200, 250, 250, 300, 450, 460, 510}


Conjunto 2 = {200, 250, 250, 300, 450, 460, 2.300}

O clculo da mediana torna-se trabalhoso quando o nmero de


observaes grande, devido a necessidade de ordenar os dados.
14
Moda
A moda o valor que ocorre com maior frequncia na distribuio.

Exemplo:
X = {2, 3, 3, 5, 5, 5, 6, 7}
Y = {10, 12, 17, 21, 32}
Z = {2, 2, 5, 5, 7, 7}
W = {10, 12, 12, 12, 13, 13, 15, 18, 18, 18, 21}

A moda a menos empregada. No entanto, adequada para


caracterizar situaes onde estejam em causa os casos ou
valores mais usuais. Por exemplo:
Em estudos de mercado, o empresrio pode estar interessado
nos produtos que mais se vendem.
15
Moda
Exemplo: Estudo sobre os principais defeitos de fabricao de
capas de livro de uma determinada editora.

Tipo de erro Frequncia (%)


Impresso 40
Comprimento da caixa 30
Largura da caixa 20
Altura da caixa 10
Total 100

Qual a moda?

16
Exemplo

A seguir so mostrados os tempos de espera em fila (em


minutos) de clientes em um banco onde os clientes forma
uma fila nica no (Banco A) e em outro banco onde os clientes
entram em trs filas de guichs (Banco de B). Determine a
mdia, a mediana e a moda em cada grupo e compare os
dois tipos de filas quanto tendncia central da varivel
"tempo de espera".

Banco A (fila nica): 6,5 6,6 6,7 6,8 7,1 7,3 7,4 7,7 7,7 7,7
Banco B (fila mltipla): 4,2 5,4 5,8 6,2 6,7 7,7 7,7 8,5 9,3 10,0

UFBA Departamento de Estatstica


Tempo de espera
Mdia Mediana Moda
na fila do banco
Banco A (fila nica) 7,15 7,2 7,7
Banco B (fila mltipla) 7,15 7,2 7,7

A distribuio do tempo de espera tem o mesmo ponto


de concentrao (por volta de 7
minutos) tanto para fila nica quanto para filas mltiplas.
Note que a moda aqui no tem muita utilidade, pois,
sendo a amostra muito pequena, dificilmente aparecero
muitas repeties do mesmo valor.

UFBA Departamento de Estatstica


Separatrizes
Permitem calcular valores da varivel que dividem a
distribuio em partes iguais. Existem quatro tipos de
separatrizes, tambm chamada de quantis.
Mediana
Quartis
Decis
Centis ou Percentis

20
Separatrizes
Enquanto a mediana separa a distribuio em duas partes
iguais, a caracterstica principal das outras separatrizes :
Quartis (Qi): dividem a distribuio em quatro partes iguais;
Decis (Di): dividem em dez partes iguais;
Centis ou Percentis (Pi): dividem em cem partes iguais.

Relao entre as separatrizes:


Os quartis Q1, Q2 e Q3 so os percentis P25, P50 e P75.
Os decis D1, D2, e D9 so os percentis P10, P20, e P90.
Md = Q2 = D5 = P50.

21
Separatrizes

22
Separatrizes
Exemplo: Teor de gordura (g/24 horas) em 43 crianas do
Hospital Peditrico da UFMG (j ordenado).

0,8 1,0 1,0 1,1 1,3 1,3 1,4 1,5 1,5


1,6 1,6 1,8 1,8 1,9 1,9 1,9 2,0 2,0
2,0 2,1 2,1 2,1 2,3 2,3 2,4 2,4 2,5
2,7 2,7 2,7 2,8 2,9 2,9 3,0 3,0 3,1
3,2 3,2 3,3 3,7 3,8 3,9 4,6

Calcule a mdia, mediana, moda e os percentis 20, 50 e


82. Interprete os resultados.

23
O nmero de crianas em 19 famlias foi
0, 1, 1, 2, 2, 2, 2, 2, 3, 3, 3, 4, 4, 5, 6, 6, 7, 8, 10

A mediana o (19+1) / 2 = 10o valor, i.e. 3 crianas.


O quartil inferior e superior so os valores 5o e 15o ,
i.e. 2 e 6 crianas, portanto amplitude inter-quartil
de 4 crianas. Note que 50% dos dados esto entre
os quartis inferior e superior.

UFBA Departamento de Estatstica


MEDIDAS DE
DISPERSO
Medidas de disperso (ou variabilidade)

Absolutas
Expressas na mesma unidade de medida da varivel em estudo.

Amplitude total

Amplitude semi-interquartlica ou desvio quartil

Desvio mdio

Varincia

Desvio padro

26
Medidas de disperso (ou variabilidade)
Relativas
Independem da unidade de medida da varivel observada. Servem para
estudar comparativamente a variabilidade de duas ou mais distribuies.

Desvio quartil reduzido

Coeficiente de variao de Pearson

Varivel padronizada

27
Motivao

Produo diria da pea Z de trs empregados de uma


indstria no perodo de 15 19 de abril de 2012.
Dia Mdia
Empregado
1 2 3 4 5 Diria
Carlos 82 70 65 60 73 70
Daniel 60 78 68 62 82 70
Eduardo 53 72 75 75 75 70

Supondo-se que interessa ao administrador da empresa que os


empregados apresentem produo elevada e a mais homognea
possvel. Qual dos trs empregados apresentou melhor
desempenho no trabalho no perodo observado?

28
Motivao

Considerando agora apenas dois empregados com produo


mdia diria diferente.

Produo diria da pea Z de dois empregados de uma


indstria no perodo de 15 19 de abril de 2012.
Dia Mdia
Empregado
1 2 3 4 5 Diria
Antnio 70 71 69 70 70 70
Benedito 60 80 70 62 83 71

Quem apresentou melhor desempenho no trabalho no perodo


observado, Antnio ou Benedito?

29
Amplitude Total
A amplitude de um conjunto de dados a diferena entre os
valores extremos do conjunto.

Observaes

a medida mais simples de disperso.

Possui desvantagem, pois leva em conta apenas os valores


extremos do conjunto, no indicando qualquer variao no
interior do conjunto de dados.

Tambm sofre influncia de um valor atpico na distribuio.

30
Amplitude Total
Exemplo: Calcule a amplitude total da produo da pea Z
para cada empregado da indstria e identifique qual
empregado apresentou a menor disperso e qual apresentou a
maior disperso na produo diria.

Seriam idnticas as produes dirias observadas de Daniel e


Eduardo?

31
Varincia
uma medida de variabilidade que utiliza todos os dados, e
baseada na diferena entre o valor de cada observao (xi) e a
mdia ( x para amostra e para populao).


N
( xi ) 2
n
( xi x ) 2
i 1
2
s 2
i 1
N n 1

Varincia Populacional Varincia Amostral

A varincia apresenta a unidade de medida elevada ao quadrado.

Exemplo: Calcule o varincia da produo da pea Z para cada


empregado da indstria.
32
Desvio Padro
a medida de disperso mais usada e mais importante. Assim
como a varincia, mede a concentrao dos dados em torno da
mdia. Porm, tem a unidade de medida igual a unidade de
medida original da varivel.


N n
( xi ) 2
( xi x ) 2
i 1 i 1
2
s s
2
N n 1
Desvio padro Populacional Desvio padro Amostral

Exemplo: Calcule o desvio padro da produo da pea Z para


cada empregado da indstria.
33
Desvio Padro
Interpretao do desvio padro (anloga da varincia)

O devio padro mede a variao entre valores. Assim:


Se os valores estiverem prximos uns dos outros, ento o
desvio padro ser pequeno, e, consequentemente, os dados
sero mais homogneos.

Se os valores estiverem distantes uns dos outros, ento o


desvio padro ser grande, e, consequentemente, os dados
sero heterogneos.

34
Amplitude semi-interquartlica
(desvio quartil)
O intervalo interquartlico igual a (Q1; Q3). Neste intervalo
encontram-se 50% das observaes centrais do conjunto de dados.

A amplitude interquartlica corresponde diferena entre os


quartis de ordem 3 e de ordem 1.

d Q3 Q1.

O desvio quartil a metade da amplitude interquartlica.


amplitude interquart lica Q3 Q1
DQ
2 2
35
Amplitude semi-interquartlica
(desvio quartil)
facilmente calculado e interpretado.

No afetado por valores extremos.

Quando a medida de tendncia central utilizada for a


mediana deve-se trabalhar com o desvio quartil como
medida de disperso.

Possui desvantagem, pois duas distribuies diferentes


podem apresentar o mesmo valor para o desvio quartil e, no
entanto, as disperses para os conjuntos observados serem
muito desiguais.

36
Coeficiente de Variao de Pearson

Trata-se de uma medida relativa de disperso, til para


comparar a variabilidade de duas ou mais distribuies, mesmo
quando essas se referem a diferentes fenmenos e sejam
expressas em unidades de medida distintas.

S
CV
X
Como o CV uma medida que exprime a variabilidade
relativa mdia, usualmente expresso em porcentagem.

37
Coeficiente de Variao de Pearson
Regras empricas para interpretaes do CV:
Se CV < 15% -> tem-se baixa disperso
Se 15% CV < 30% -> tem-se mdia disperso
Se CV 30% -> tem-se elevada disperso

Exemplo: Ache o coeficiente de variao para alturas (m) e


pesos (kg) de 40 homens.
Altura: X 1,74 S 0,08
Peso: X 78,2 S 11,9

38
Assimetria

As medidas de assimetria so utilizadas para avaliar o grau de


assimetria da distribuio de frequncias, sendo que assimetria
pode ser definida como o grau de deformao de uma curva
de frequncias.

39
Relao mdia, mediana e moda

Uma primeira verificao da assimetria pode ser feita atravs


da comparao entre os valores observados para a mdia,
mediana e moda.

a) X Md Mo, distribuio simtrica

40
b) X Md Mo, distribuio assimtrica positiva ou direita

c) X Md Mo, distribuio assimtrica negativa ou


esquerda

41
Diagramas em Caixas (Box-plot)
um mtodo alternativo ao histograma para representar os
dados.

So convenientes para revelar tendncias centrais, disperso,


distribuio dos dados e a presena de outliers (valores extremos).

Utiliza: valor mnimo, Q1, Md, Q3 e o valor mximo do conjunto de


dados.

til para comparar dois ou mais conjuntos de dados.

O box-plot pode ser desenhado na posio vertical (mais comum)


ou horizontal.

42
Diagramas em Caixas (Box-plot)

43
( valor discrepante )

Q3 1,5d j

1,5d j

Q3

Md d j Q3 Q1

Q1

1,5d j

Q1 1,5d j

UFBA Departamento de Estatstica


Diagramas em Caixas (Box-plot)
Exemplo: O teor de nicotina, em miligramas, em 40 cigarros de
certa marca foi registrado como segue

1,09 1,92 2,31 1,79 2,28 1,74 1,47 1,97


0,85 1,24 1,58 2,03 1,70 2,17 2,60 2,11
1,86 1,90 1,68 1,51 1,64 0,72 1,69 1,85
1,82 1,79 2,46 1,88 2,08 1,67 1,37 1,93
1,40 1,64 2,09 1,75 1,63 2,37 1,75 1,69

Construa um boxplot para a varivel teor de nicotina.

45
Diagramas em Caixas (Box-plot)

ROL
0,72 1,40 1,64 1,69 1,79 1,88 2,03 2,28
0,85 1,47 1,64 1,70 1,79 1,90 2,08 2,31
1,09 1,51 1,67 1,74 1,82 1,92 2,09 2,37
1,24 1,58 1,68 1,75 1,85 1,93 2,11 2,46
1,37 1,63 1,69 1,75 1,86 1,97 2,17 2,60

Q1 = 1,635 Q2 = 1,77 Q3 = 2,00 d = 0,365

LI = 1,635 - (1,5*0,365) 1,09 LS = 2,00 + (1,5*0,365) 2,55

46
Diagramas em Caixas (Box-plot)

47
Diagramas em Caixas (Box-plot)
A mediana o trao no centro do retngulo.
A disperso representada pela altura do retngulo (Q3 - Q1),
amplitude interquartil.
Assimetria: a proximidade da linha da mediana em relao a
Q1 e Q3 informa sobre a assimetria.
- Se a mediana est no centro do retngulo Simetria
- Se a mediana prxima de Q1 Assimetria positiva
- Se a mediana prxima de Q3 Assimetria negativa
Os pontos que esto fora do intervalo dado pela amplitude
interquartlica so considerados valores atpicos ou discrepantes
(outliers), ou seja, valores muito grandes ou muito pequenos em
relao aos demais. Geralmente so representados pelos
smbolos * ou . 48
PASSOS PARA CONSTRUO
DO BOXPLOT
Numa reta (no sentido vertical ou horizontal) so marcados o primeiro
quartil, a mediana e o terceiro quartil;
Com base nesta reta, constri-se um retngulo com limites iguais s
posies do primeiro e terceiro quartis, cortado por um segmento de reta
na posio relativa mediana.
A partir dos limites do retngulo, traam-se linhas at:
a) encontrar um extremo (valor mnimo ou mximo) ou
b) um valor correspondente a 1,5 dj, se o extremo correspondente estiver a
mais de 1,5 dj do quartil respectivo.
Os pontos que esto fora do intervalo dado pelo desvio interquartilico, so
considerados valores atpicos ou discrepantes (outliers), ou seja, valores
muito grandes ou muito pequenos em relao aos demais.
So utilizados smbolos especiais para representar no boxplot os valores
discrepantes. Geralmente so usados os smbolos * ou 0.

UFBA Departamento de Estatstica


O que fazer se so detectados
outliers em um conjunto de dados?

Abandonar a observao quando houver uma justificativa


convincente: observao incorreta ou erro na execuo do
experimento. A anlise deve ser refeita sem o outlier.

Conservar quando nenhuma explicao pode ser dada


observao atpica. Neste caso preciso um tratamento especial
na anlise desses dados.

50
Box-Plot e Assimetria

51
52
Box-plot da varivel pulsao em repouso segundo o sexo.

53
ANLISE BIVARIADA
Anlise Bivariada
At o momento todas as anlises foram discutidas para
cada varivel individualmente. A tcnica a ser estudada a
seguir refere-se a problemas que envolvam conjuntos de
dados que possuem duas ou mais variveis qualitativas ou
quantitativas.
Muitas vezes queremos realizar uma anlise descritiva de
duas variveis simultneamente, ou seja, verificar se h
uma relao entre duas variveis.
Queremos conhecer o grau de dependncia entre as variveis
para prever melhor o resultado de uma delas quando
conhecermos a realizao da outra.
O tempo de servio na Empresa tem
relao com o salrio do empregado?

Bom desempenho em ingls implica em


um bom desempenho em portugus?

A opinio sobre o aborto


independe da renda familiar?
Para anlise deste comportamento conjunto, medidas de
associao so utilizadas dependendo do tipo das variveis
envolvidas no estudo.

Possibilidades

Qualitativa x Qualitativa

Quantitativa x Quantitativa

Qualitativa x Quantitativa
Variveis Qualitativas

Deseja-se verificar independncia entre as variveis em


estudo, ou seja, ausncia de associao entre elas.

Podemos construir tabelas de frequncia com dupla entrada.


Essas tabelas de dados cruzados so conhecidas por tabelas de
contingncia, e so utilizadas para estudar a relao entre duas
variveis categricas.

Tabelas Bidimensionais (2x2)


Varivel 2
Varivel 1 Total
Categoria 1 Categoria 2
Categoria 1 a b a+b
Categoria 2 c d c+d
Total a+c b+d N
Exemplo 1: H indcios de associao entre o sexo e o hbito
de fumar?

Hbito de Fumar
Sexo Total
Fuma No-Fuma
Masculino 20 37 57
Feminino 8 27 35
Total 28 64 92
Exemplo 2: H indcios de associao entre o hbito de
fumar e cncer de pulmo ?
Exemplo 3: Existe ou no associao entre o gnero e a carreira
escolhida por 200 alunos de Engenharia e Contbeis?

Gnero
Curso Total
Masculino Feminino
Engenharia 100 20 120
Contbeis 40 40 80
Total 140 60 200
Existindo associao entre as variveis, torna-se
interessante quantificar essa associao.

De modo geral, a quantificao do grau de associao


entre duas variveis feita pelos chamados coeficientes
de associao ou correlao.

Usualmente variam entre 0 e 1, ou entre -1 e +1,


indicando falta de associao a proximidade do zero.

Existem muitas dessas medidas, veremos a seguir o


Coeficiente de Yule.
Coeficiente de YULE

Permite verificar a existncia de associao entre duas


variveis qualitativas. Cada varivel com apenas duas
categorias.
Varivel 2
Varivel 1 Categoria Categoria 2 Total
1
Categoria 1 a b a+b
Categoria 2 c d c+d
Total a+c b+d N

ad bc
Y
ad bc
Na interpretao do coeficiente de YULE, preciso saber:
1) O valor de Y est compreendido no intervalo de -1 at 1.
2) Y = 0 corresponde a independncia
3) Y 0 corresponde a associao entre as variveis.

Em termos descritivos, o coeficiente de YULE apresenta a


informao que permite a verificao de associao
entre duas variveis qualitativas
Exemplo 4: Considere que para receber a carteira profissional de
contador, os bacharis em Cincias Contbeis precisa ser aprovado no
exame do Conselho Federal de Contabilidade (CFC).

O dono de uma empresa de educao, resolveu abrir um curso


preparatrio para a prova do CFC e realizou uma pesquisa sobre a
eficincia desse tipo de curso com os bacharis em Cincias Contbeis
que realizaram o exame CFC.

lcito concluir (ou pelo menos suspeitar) luz destes dados que o
curso est associado com a aprovao do bacharel no exame do CFC?

Fez algum curso preparatrio Resultado do exame


Total
para o exame CFC? Aprovado Reprovado
Sim 130 70 200
No 80 160 240
Total 210 230 440
Logo, os dados sugerem a existncia de uma associao
o fato de participar de algum curso preparatrio e a
aprovao no exame do CFC.

A desvantagem do uso do coeficiente de YULE que


esta medida restringe-se na anlise de tabelas 22.
Variveis Quantitativas

A investigao da relao de duas variveis deste


tipo usualmente comea com uma anlise grfica
dos dados, atravs do grfico de disperso.

Com este grfico, possvel verificar se existe


alguma relao entre as variveis e se essa relao
pode ser tratada como aproximadamente linear.
Exemplo 5

Nmero de anos de servio por nmero


de clientes de agentes de uma
companhia de seguros.
Anos de Nmero de
Agente
Servio (X) clientes (Y)
A 2 48
B 3 50
C 4 56
D 5 52
E 4 43
F 6 60
G 7 62 Parece haver uma associao entre
H 8 58 as variveis, porque no conjunto,
I 8 64 medida que aumenta o tempo de
J 10 72 servio, aumenta o nmero de
clientes.
Exemplo 6

Numa pesquisa feita com 10 famlias com renda familiar


entre 10 e 60 salrios mnimos , mediram-se:
Exemplo 6

Pelo diagrama de disperso possvel observar que quanto maior


a renda bruta, menor a renda gasta com assistncia mdica.

Portanto existe uma relao inversa entre essas variveis


Exemplo 7

Oito candidatos foram submetidos a um teste sobre conhecimento de lngua estrangeira


E, em seguida mediu-se o tempo gasto por cada um para aprender a operar uma certa
maquina
Exemplo 7

Pela disposio dos pontos dos grficos, parece no haver dependncia, entre as
varivel.
Correlao

Uma relao entre duas variveis.


Os dados podem ser representados por pares
ordenados (x, y):
x a varivel independente (ou explanatria).
y a varivel dependente (ou resposta).

slide 73 2010 Pearson Prentice Hall. Todos os direitos reservados.


Um diagrama de disperso pode ser usado para
determinar se uma correlao linear (linha reta) existe
entre duas variveis. y

Exemplo: 2

x 1 2 3 4 5 x
y 4 2 1 0 2 2 4 6

slide 74 2010 Pearson Prentice Hall. Todos os direitos reservados.


Tipos de correlao y
y
Conforme x
Conforme x
aumenta, y tende
aumenta, y tende
a decrescer.
a aumentar.
x x
Correlao linear negativa Correlao linear positiva
y
y

x x
Sem correlao Correlao no linear
slide 75 2010 Pearson Prentice Hall. Todos os direitos reservados.
Exemplo: construindo
um diagrama de disperso
Gastos com Vendas da
propaganda, empresa
Um gerente de marketing conduziu um
($1000), x ($1000), y
estudo para determinar se h uma relao
entre o dinheiro gasto com propaganda e as 2,4 225
vendas da empresa. Os dados so mostrados 1,6 184
na tabela ao lado. Coloque os dados em um 2,0 220
diagrama de disperso e determine se parece 2,6 240
haver uma correlao linear positiva e 1,4 180
negativa ou se parece no haver correlao 1,6 184
linear. 2,0 186
2,2 215
slide 76 2010 Pearson Prentice Hall. Todos os direitos reservados.
Soluo: construindo um diagrama de disperso

Parece haver uma correlao linear positiva. Conforme os gastos com


propaganda aumentam, as vendas tendem a aumentar.

slide 77 2010 Pearson Prentice Hall. Todos os direitos reservados.


Exemplo: construindo um diagrama de
disperso usando tecnologia
Durao Tempo, Durao Tempo,
x y x y
1.8 56 3.78 79
O Old Faithful, localizado no Parque 1.82 58 3.83 85
Nacional Yellowstone, o giser mais 1.9 62 3.88 80
famoso do mundo. A durao (em minutos) 1.93 56 4.1 89
de diversas erupes do Old Faithful e os 1.98 57 4.27 90
2.05 57 4.3 89
tempos (em minutos) at que as prximas
2.13 60 4.43 89
erupes aconteam so mostrados na tabela
2.3 57 4.47 86
direita. Usando uma TI-83/84, represente 2.37 61 4.53 89
os dados em um diagrama de disperso. 2.82 73 4.55 86
Determine o tipo de correlao. 3.13 76 4.6 92
3.27 77 4.63 91
3.65 77

slide 78 2010 Pearson Prentice Hall. Todos os direitos reservados.


Coeficiente de correlao

Uma medida da fora e direo de uma relao linear entre


duas variveis.
O smbolo r representa o coeficiente de correlao amostral.
Uma frmula para r :
n xy x y n o nmero de
r dados
n x x n y y
2 2 2 2
emparelhados
O coeficiente de correlao populacional representado por
(r).

slide 79 2010 Pearson Prentice Hall. Todos os direitos reservados.


A amplitude do coeficiente de correlao -1 para 1.

-1 0 1
Se r = -1 existe Se r est prximo Se r = 1 Existe
uma correlao de 0 no existe uma correlao
negativa perfeita. correlao linear. positiva perfeita.

slide 80 2010 Pearson Prentice Hall. Todos os direitos reservados.


Correlao linear
y y
r = 0,91 r = 0,88

x x
Correlao negativa forte Correlao positiva forte
y y

r = 0,42 r = 0,07

x x
Correlao positiva fraca Correlao no linear
slide 81 2010 Pearson Prentice Hall. Todos os direitos reservados.
Calculando um coeficiente de correlao

Em palavras Em smbolos

1. Encontre a soma dos valores x.


x
2. Encontre a soma dos valores y.
y
3. Multiplique cada valor x por seu
valor y correspondente e encontre xy
a soma.

slide 82 2010 Pearson Prentice Hall. Todos os direitos reservados.


Em palavras Em smbolos
4. Faa o quadrado de x2
cada valor x e encontre
a soma. y2
5. Faa o quadrado de
cada valor y e encontre n xy x y
r
a soma. n x 2 x n y 2 y
2 2

6. Use as cinco somas


para calcular o
coeficiente de
correlao.
slide 83 2010 Pearson Prentice Hall. Todos os direitos reservados.
Exemplo: encontrando
o coeficiente de correlao
Gastos com Vendas da
Calcule o coeficiente de correlao para os propaganda, empresa
dados dos gastos com propaganda e vendas da ($1000), x ($1000), y
empresa informados no Exemplo 1. O que 2,4 225
podemos concluir? 1,6 184
2,0 220
2,6 240
1,4 180
1,6 184
2,0 186
2,2 215
slide 84 2010 Pearson Prentice Hall. Todos os direitos reservados.
Soluo: encontrando o coeficiente de
correlao
x y xy x2 y2
2.4 225 540 5.76 50,625
1.6 184 294.4 2.56 33,856
2.0 220 440 4 48,400
2.6 240 624 6.76 57,600
1.4 180 252 1.96 32,400
1.6 184 294.4 2.56 33,856
2.0 186 372 4 34,596
2.2 215 473 4.84 46,225
x = 15.8 y = 1634 xy = 3289.8 x2 = 32.44 y2 = 337,558

slide 85 2010 Pearson Prentice Hall. Todos os direitos reservados.


x = 15.8 y = 1634 xy = 3289.8 x2 = 32.44 y2 = 337,558

n xy x y
r
n x 2 x n y 2 y
2 2

8(3289.8) 15.81634

8(32.44) 15.82 8(337, 558) 1634 2
501.2
0.9129
9.88 30, 508
r 0.913 sugere uma correlao linear positiva forte. Conforme aumenta
o gasto com propaganda, as vendas da empresa tambm aumentam.
slide 86 2010 Pearson Prentice Hall. Todos os direitos reservados.
Exemplo: usando tecnologia para encontrar
o coeficiente de correlao
Durao Tempo, Durao Tempo,
Use a ferramenta tecnolgica para calcular o x y x y

coeficiente de correlao para os dados do 1.8 56 3.78 79


1.82 58 3.83 85
Old Faithful fornecidos no Exemplo 3. O
1.9 62 3.88 80
que podemos concluir?
1.93 56 4.1 89
1.98 57 4.27 90
2.05 57 4.3 89
2.13 60 4.43 89
2.3 57 4.47 86
2.37 61 4.53 89
2.82 73 4.55 86
3.13 76 4.6 92
3.27 77 4.63 91
3.65 77
slide 87 2010 Pearson Prentice Hall. Todos os direitos reservados.
Soluo: usando tecnologia para encontrar
o coeficiente de correlao

slide 88 2010 Pearson Prentice Hall. Todos os direitos reservados.

Anda mungkin juga menyukai