r
i
o
Diagrama de Disperso
Grfico de disperso
y = 1.1225x + 27.872
60
70
80
y = 1.0664x + 29.854
0
10
20
30
40
50
60
0 5 10 15 20 25 30
tempo no emprego
S
a
l
r
i
o
Exemplo
O gerente comercial de uma companhia de
sade, higiene e beleza, deseja estudar o preo
de venda de um produto em 2 municpios: A e
B.
Para estudar a distribuio de preos, foram
tomados os preos praticados por uma amostra
de 25 farmcias do municpio A e de 20
farmcias do municpio B.
Dados
Municpio
A B
14,80 12,90 21,30 20,30
18,20 20,90 20,70 19,60
13,60 19,30 20,70 19,20
15,50 14,40 19,90 18,50 15,50 14,40 19,90 18,50
12,00 15,10 20,30 18,60
13,70 13,10 21,10 20,30
16,00 15,50 19,60 20,10
17,30 14,30 19,30 19,90
14,40 15,10 20,80 21,00
16,10 15,80 19,70 18,90
26,80 13,00
12,10 14,90
17,00
Construir um histograma para cada um dos municpios (usando
classes de tamanho R$1,00) e compar-los de acordo com a
distribuio dos preos praticados pelos municpios.
Histograma - Municpio A
0.20
0.30
0.40
0.50
D
e
n
s
i
d
a
d
e
23
0.00
0.10
0.20
12 --| 13 13 --| 14 14 --| 15 15 --| 16 16 --| 17 17 --| 18 18 --| 19 19 --| 20 20 --| 21 21--| 22 22 --| 23 23 --| 24 24 --| 25 25 --| 26 26 --| 27
Preo em R$
D
e
n
s
i
d
a
d
e
Histograma - Municpio B
0
0.1
0.2
0.3
0.4
0.5
12 --| 13 13 --| 14 14 --| 15 15 --| 16 16 --| 17 17 --| 18 18 --| 19 19 --| 20 20 --| 21 21--| 22 22 --| 23 23 --| 24 24 --| 25 25 --| 26 26 --| 27
Preo em R$
D
e
n
s
i
d
a
d
e
Medidas
Descritivas Descritivas
Medidas de tendncia central
mdia, moda, mediana
Medidas de posio
Medidas Descritivas
Medidas de posio
quartis / percentis
Medidas de disperso
(amplitude, varincia, desvio
padro)
Medidas de Tendncia
Central
Medidas de tendncia central
As medidas de posio (tendncia central
ou locao) so valores calculados com o
objetivo de representar os dados de uma objetivo de representar os dados de uma
forma ainda mais condensada do que
usando uma tabela.
Quando o desejo representar, por meio
de um nico valor, determinado conjunto de
informaes que variam, parece razovel
Exemplo
O gerente comercial de uma companhia de
sade, higiene e beleza, deseja estudar o preo
de venda de um produto em 2 municpios: A e B.
Para estudar a distribuio de preos, foram
tomados os preos praticados por uma amostra
de 25 farmcias do municpio A e de 20
farmcias do municpio B.
Dados
Municpio
A B
14,80 12,90 21,30 20,30
18,20 20,90 20,70 19,60
13,60 19,30 20,70 19,20
15,50 14,40 19,90 18,50
12,00 15,10 20,30 18,60 12,00 15,10 20,30 18,60
13,70 13,10 21,10 20,30
16,00 15,50 19,60 20,10
17,30 14,30 19,30 19,90
14,40 15,10 20,80 21,00
16,10 15,80 19,70 18,90
26,80 13,00
12,10 14,90
17,00
Histograma - Comparao
Histograma - Municpio A
0.00
0.10
0.20
0.30
0.40
0.50
12 --| 13 13 --| 14 14 --| 15 15 --| 16 16 --| 17 17 --| 18 18 --| 19 19 --| 20 20 --| 21 21 --| 22 22 --| 23 23 --| 24 24 --| 25 25 --| 26 26 --| 27
Preo em R$
D
e
n
s
i
d
a
d
e
Histograma - Municpio B
0
0.1
0.2
0.3
0.4
0.5
12 --| 13 13 --| 14 14 --| 15 15 --| 16 16 --| 17 17 --| 18 18 --| 19 19 --| 20 20 --| 21 21 --| 22 22 --| 23 23 --| 24 24 --| 25 25 --| 26 26 --| 27
Preo em R$
D
e
n
s
i
d
a
d
e
30
Anlise
Distribuio assimtrica de
preos;
Grande variabilidade;
Preo tpico entre 13 e 16;
Presena de um outlier.
Anlise
Distribuio pouco assimtrica;
Pequena variabilidade de
preos;
Preo tpico entre 19 e 21;
No h outliers.
Preo em R$ Preo em R$
Notao
Amostra de n observaes da varivel X:
x
1
, x
2
, ..., x
n
Amostra ordenada de n observaes da varivel X:
x
(1)
x
(2)
... x
(n)
Mnimo = x
(1)
Mdia Aritmtica ou simplesmente mdia representa o valor
provvel de uma varivel, por isso, tambm chamada
de valor esperado ou esperana matemtica, quando
calculada para a populao.
Medidas de tendncia central
Mnimo = x
(1)
Mximo = x
(n)
Mdia Aritmtica
n
x
x
n
1 i
i
=
=
n
Outliers
Assimetrias
Mediana: valor que divide um conjunto de dados ordenados
ao meio. Em outras palavras, um valor tal que tenha igual
quantidade de valores menores e maiores do que ele.
Medidas de tendncia central
Uma caracterstica importante da mediana que ela no
afetada por dados extremos, como acontece com a mdia.
Moda: valor que ocorre com a maior freqncia
Mediana
( )
+ = x x
mpar n se ; x
md(X)
2
n
( ) ( )
+ =
+
par n se ;
2
x x md(X)
1
2
n
2
n
Moda
mo(X) = Observao mais freqente
0,06
0,07
d
e
n
s
i
d
a
d
e
d
e
f
r
e
q
u
n
c
i
a
Para
variveis
0
0,01
0,02
0,03
0,04
0,05
20000 30000 40000 50000 60000 70000
Salrio
d
e
n
s
i
d
a
d
e
d
e
f
r
e
q
u
n
c
i
a
variveis
contnuas =
mo(X)
Exemplo: o nmero de computadores em 7 escritrios de
uma determinada empresa
n de computadores: 3 6 1 3 4 3 5
6 , 3
5 3 4 3 1 6 3
X =
+ + + + + +
=
Mdia:
6 , 3
7
5 3 4 3 1 6 3
X =
+ + + + + +
=
Mdia:
Mediana:
1 3 3 3 4 5 6
50%
50%
Mediana
Moda = 3
Medida
Municpio A
Municpio B
Com
26,80
Sem
26,80
Medidas de Tendncia Central Medidas de Tendncia Central
26,80 26,80
Mdia 15,67 15,21 19,90
Mediana 15,10 15,00 20,00
Moda 14,4; 15,1
e 15,5
14,4; 15,1
e 15,5
20,30
Medidas de Posio
Percentis ou quantis
Amostra ordenada
p% menores
observaes
(100-p)% maiores
observaes
p
| |
q(p)
Quantil Quantil ou ou Percentil Percentil de de ordem ordem p p ((0 0<p< <p<1 1)):: o
valor que divide o conjunto de dados ordenado em
2 partes: uma delas com p% dos menores valores
e a outra com (100-p)% dos maiores valores.
n .
100
p
i
|
\
|
=
A empresa ABC oferece um emprego com salrio de
R$8.100,00 a Evandro. Para avaliar essa oferta, Evandro
compra um jornal onde so publicados os valores dos
salrios de sua profisso conforme a tabela a seguir:
Percentis ou quantis
salrios de sua profisso conforme a tabela a seguir:
Percentil Salrio ($)
10% 1500
25% 2000
50% 3000
75% 4500
90% 8000
Evandro descobriu, observando a
tabela do jornal, que a empresa ABC
corresponde ao grupo dos 10% das
empresas que melhor remuneram
sua profisso.
Quartis
Amostra ordenada
50% - observaes
centrais
25%
menores
observaes
25% maiores
observaes
m
d
=q(0,50)
q(0,25)
q(0,25)= Q
1
: primeiro quartil
q(0,50)= Q
2
: segundo quartil (mediana)
q(0,75)= Q
3
: terceiro quartil
q(0,75)
Intervalo Interquartil
) 25 , 0 ( ) 75 , 0 ( IQ q q =
Quartis e Percentis
Quartil: so valores que dividem o conjunto de dados
ordenados em quatro partes iguais. Cada parte
contendo 25% dos dados.
posio 3 12
100
25
i
25
= |
\
|
= posio 9 12
100
75
i
75
= |
\
|
= posio 6 12
100
50
i
50
= |
\
|
=
Percentis
2210 2255 2350 2380 2390 2420 2440 2450 2550 2630 2825 2900
Q
1
= 2372,5
Q
2
= 2430
(mediana)
Q
3
= 2570
25% 25%
25%
25%
P
25
= Q
1
P
50
= Mediana P
75
= Q
3
2365
2
2380 2350
=
+
2430
2
2440 2420
=
+
2590
2
2630 2550
=
+
Percentis & Quartis Percentis & Quartis
Medida Municpio A Municpio B
Mnimo 12,00 18,45
Q
1
13,70 19,53
Mediana 15,10 20,00
Q
3
16,10 20,70
Mximo 26,80 21,30
IQ 2,40 1,25
Outliers?
Pontos com comportamento diferente do
observado para a maioria dos dados.
Pontos distantes da massa dos dados.
Pontos desajustados.
O que fazer com os outliers?
Depende de como foi gerado.
Retirar da amostra se for fruto de erros de medida, Retirar da amostra se for fruto de erros de medida,
de transcrio/ digitao ou se a unidade
amostral no pertence populao em estudo.
Considerar na anlise se for fruto da variabilidade
natural dos dados; nesse caso adotar tcnicas
robustas de anlise ou fazer a anlise com e
sem o valor.
Medidas de Disperso Medidas de Disperso
Medidas de disperso
Amplitude:
Municpio controle: = 26,80 - 12,00= 14,80
Municpio controle sem a maior observao:
(1) (n)
x - x =
Municpio controle sem a maior observao:
= 20,90 - 12,00= 8,90
Caractersticas
simples;
muito afetada por outliers;
no considera a distribuio dos dados.
Coeficientes baseados em
distncias a uma medida de
tendncia central
Baixa variabilidade
As observaes esto
prximas medida de
tendncia central
Alta variabilidade
As observaes esto mais
distantes da medida de
tendncia central
Varincia
( )
1 - n
x n x
1 - n
x x
S var(X)
n
1 i
2 2
i
n
1 i
2
i
2
n
= =
= =
Municpio A var(X)=S
2
n
= 9,93
Municpio A (sem 26,80) var(X)= S
2
n
=4,76
Municpio B var(Y) =0,67
1 - n 1 - n
Desvio padro
( )
1 - n
x x
S dp(X)
n
1 i
2
i
n
= =
Municpio A dp(A) = S
n
= 3,15
Municpio A dp(A) = S
n
= 2,18
Municpio B dp(B) = 0,82
1 - n
Medidas de Disperso Medidas de Disperso Medidas de Disperso Medidas de Disperso
22 23 25 27 30 32 35 36 36 37 38 41
( ) ( ) ( ) ( ) ( ) ( )
15 , 40
1 - 12
8 , 31 41 .... 8 , 31 23 8 , 31 22
s
2 2 2
2
=
+ + +
=
33 , 6 15 , 40 s s
2
= = =
Medidas de Disperso
Coeficiente variao ( CV ): uma medida de variabilidade
como uma frao em relao mdia, expresso em
porcentagem. Essa medida til quando comparamos
variabilidade de dois ou mais grupos de dados expressos em
unidades de medidas diferentes ou quando a magnitude dos
( )
100
x
1 n
x x
100
mdia
padro desvio
CV
n
1 i
2
i
= =
=
unidades de medidas diferentes ou quando a magnitude dos
dados so muito dspares.
Medidas de Disperso
Um instituto de pesquisa de preos, coletou dados de preos
de uma geladeira e de um liquidificador em cinco lojas na
cidade de SP. Compare os preos dos produtos, qual deles
apresenta maior variao de preos?
1 799 80
2 850 95
3 900 75
4 899 99
5 855 75
mdia 860,6 84,8
d. padro 41,72 11,41
CV 4,84% 13,5%
Medidas de Disperso
loja Geladeira Liquidificador
1 799 80
2 850 95
Um instituto de pesquisa de preos, coletou dados de preos
de uma geladeira e de um liquidificador em cinco lojas na
cidade de SP. Compare os preos dos produtos, qual deles
apresenta maior variao de preos?
% 84 , 4 100
6 , 860
72 , 41
CV
geladeria
= =
3 900 75
4 899 99
5 855 75
mdia 860,6 84,8
d. padro 41,72 11,41
CV 4,8% 13,5%
Observe que o coeficiente de variao do liquidificador
superior ao geladeira. Isso significa que a variao
percentual do Liquidificador maior do que da Geladeira.
6 , 860
% 45 , 13 100
8 , 84
41 , 11
CV
ador Liquidif ic
= =
Medidas-Resumo (Municpios)
Medida-resumo A B
Mdia 15.67 19.99
Mediana 15.10 20.00
Modo 15.50 20.30
Desvio padro 3.15 0.82 Desvio padro 3.15 0.82
Varincia da amostra 9.94 0.67
Assimetria 2.04 -0.24
Intervalo 14.80 2.80
Mnimo 12.00 18.50
Mximo 26.80 21.30
Contagem 25 20
Coeficiente de Coeficiente de
Assimetria
Tamhane e Dunlop (2000). Statistics and Data Analysis.
Pag 117-118
Posio relativa
Distribuies
Simtricas
Simtrico
x
md(X)
mo(X)
Moda
Mediana
Mdia
Posio relativa
Assimetria positiva
Assimetria positiva
ou direita
x
md(X)
mo(X)
Moda
Mdia
Mediana
Posio relativa
Assimetria negativa
Assimetria negativa
ou esquerda
x
md(X)
mo(X)
Moda
Mdia
Mediana
Coeficiente de Assimetria de
Pearson
s
) mediana x 3(
P
=
A maioria das distribuies tem um
ndice de assimetria entre -3 e 3.
Quando P>0, os ados so
assimtricos direta. Quando P<0,
os dados so simtricos
esquerda. Se P=0, os dados so
simtricos.
|
|
\
|
=
s
x x
) 2 n ).( 1 n (
n
CI
i
simtricos.
Coeficiente de Assimetria do Excel
O indicador de assimetria do Excel (COEFICIENTE DE INCLINAO)
calculado pela frmula abaixo, quando registramos a funo
=DISTORO():
CI = 0 Distribuio Simtrica
CI < 0 Distribuio Assimtrica Negativa
CI > 0 Distribuio Assimtrica Positiva
Aplicao
Os dados do prximo slide so dos ganhos ou
perdas dirias do ndice Bovespa da Bolsa de
Valores do Estado de So Paulo. O perodo
considerado foi dividido em duas partes, antes da considerado foi dividido em duas partes, antes da
desvalorizao do real em janeiro de 1999 e depois
da desvalorizao.
Se voc tivesse que decidir investir na bolsa, qual
dos dois perodos voc preferiria? Por qu?
04/07/94 at
30/12/98
04/01/99 at
26/03/03
media 0.06 media 0.05
d.p. 3.02 d.p. 2.31
min -17.23 min -10.50
q1 -1.26 q1 -1.29 q1 -1.26 q1 -1.29
q2 0.18 q2 -0.03
q3 1.56 q3 1.44
max 22.81 max 28.82
moda 0.00 moda 0.00
assimetria 0.08 assimetria 1.69
1) Um fabricante de baterias de lanternas pegou uma amostra de 13
baterias fabricadas em um mesmo dia de produo e utilizou as
mesmas at que falhassem. O nmero de horas que cada uma
demorou a falhar foi
342 426 317 545 264 451 1049 631 512 266 492 562
298
Tomando Decises Exerccio 1
De que maneira essas informaes sero teis para o fabricante?
Suponha que o primeiro nmero fosse 1342 em vez de 342, o que
afeta o resultado?
2) Para estimar a quantidade de gua que seria necessria para
abastecer a comunidade de Falling Rock na prxima dcada, o
conselho da cidade pediu ao prefeito que descobrisse a quantidade
de gua que uma amostra de famlias utiliza atualmente. A amostra
de 15 famlias utilizou o seguinte nmero de gales (em milhares) no
ano passado.
Tomando Decises Exerccio 2
11,2 21,5 16,4 19,7 14,6 16,9 32,2 18,2 13,1 23,8 18,3
15,5 18,8 22,7 14,0
a) De que maneira as informaes so teis para o conselho?
b) Por que o conselho utilizou dados de uma pesquisa em vez de
apenas medir o consumo total da cidade?.
3) Os dados a seguir representam as receitas trimestrais de impostos sobre
vendas (em $1000) submetidas ao auditor de contas pblicas da jurisdio
de Gmoserville para o perodo que se encerra em maro de 1995, relativos
a todos os estabelecimentos daquela localidade:
10,3 11,1 9,6 9,0 14,5 13,0 6,7 11,0 8,4
10,3 13,0 11,2 7,3 5,3 12,5 8,0 11,8 8,7
10,6 9,5 11,1 10,2 11,1 9,9 9,8 11,6 15,1
Tomando Decises Exerccio 3
10,6 9,5 11,1 10,2 11,1 9,9 9,8 11,6 15,1
12,5 6,5 7,5 10,0 12,9 9,2 10,0 12,8 12,5
9,3 10,4 12,7 10,5 9,3 11,5 10,7 11,6 7,8
10,5 7,6 10,1 8,9 8,6
a) Assessore o auditor escrevendo um esboo do memorando que
ser enviado ao governador em relao s receitas arrecadadas
b) Como essa informao pode ser til para o governador?
Uma empresa de varejo utiliza duas distribuidoras
para entregar os seus produtos numa determinada
regio. Analise o tempo que essas empresas levam
para realizar seus trabalhos.
Empresa A Empresa B
Escolhendo um fornecedor
5 2 5
7 4 3
5 5 5
5 3 3
5 3 4
1 7 2
3 2 5
4 5 2
3 16 2
3 1 2
Empresa A
6 11 7
7 10 6
14 6 9
9 5 5
8 9 5
12 7 6
6 11 10
8 8 6
9 7 5
13 13 5
Empresa B
J&J
A J&J, desejando melhorar o nvel de seus
funcionrios em cargos de chefia, montou um
curso experimental e indicou 25 funcionrios
para a 1 turma. Como havia dvidas quanto para a 1 turma. Como havia dvidas quanto
adoo de um nico critrio de avaliao, cada
instrutor adotou seu prprio sistema de aferio.
Usando os dados da tabela a seguir, responda
as questes:
J&J
Func Seo Administrao Direito Redao Estatstica Ingls Metodologia Poltica Economia
1 P 8.0 9.0 8.6 9.0 B A 9.0 8.5
2 P 8.0 9.0 7.0 9.0 B C 6.5 8.0
3 P 8.0 9.0 8.0 8.0 D B 9.0 8.5
4 P 6.0 9.0 8.6 8.0 D C 6.0 8.5
5 P 8.0 9.0 8.0 9.0 A A 6.5 9.0
6 P 8.0 9.0 8.5 10.0 B A 6.5 9.5
7 P 8.0 9.0 8.2 8.0 D C 9.0 7.0
8 T 10.0 9.0 7.5 8.0 B C 6.0 8.5
9 T 8.0 9.0 9.4 9.0 B B 10.0 8.0 9 T 8.0 9.0 9.4 9.0 B B 10.0 8.0
10 T 10.0 9.0 7.9 8.0 B C 9.0 7.5
11 T 8.0 9.0 8.6 10.0 C B 10.0 8.5
12 T 8.0 9.0 8.3 7.0 D B 6.5 8.0
13 T 6.0 9.0 7.0 7.0 B C 6.0 8.5
14 T 10.0 9.0 8.6 9.0 A B 10.0 7.5
15 V 8.0 9.0 8.6 9.0 C B 10.0 7.0
16 V 8.0 9.0 9.5 7.0 A A 9.0 7.5
17 V 8.0 9.0 6.3 8.0 D C 10.0 7.5
18 V 6.0 9.0 7.6 9.0 C C 6.0 8.5
19 V 6.0 9.0 6.8 4.0 D C 6.0 9.5
20 V 6.0 9.0 7.5 7.0 C B 6.0 8.5
21 V 8.0 9.0 7.7 7.0 D B 6.5 8.0
22 V 6.0 9.0 8.7 8.0 C A 6.0 9.0
23 V 8.0 9.0 7.3 10.0 C C 9.0 7.0
24 V 8.0 9.0 8.5 9.0 A A 6.5 9.0
25 V 8.0 9.0 7.0 9.0 B A 9.0 8.5
Questes do Case
Compare e indique as diferenas Compare e indique as diferenas
existentes entre as distribuies das
variveis Direito, Poltica e Estatstica.