Medidas estatsticas de
sumarizao ou resumo
2
MEDIDAS DE POSIO
DE LOCALIZAO
Medidas de posio (ou localizao)
Mdia
Mediana
Moda
Separatrizes
n
xi
Mdia Amostral x i 1
i 1 xi
N
Mdia Populacional
N
5
Mdia Aritmtica Simples
3,2 3,2 2,8 2,9 3,1 3,2 3,0 3,5 4,0 2,1
6
Mdia Aritmtica Ponderada
a soma dos produtos de cada valor observado pelo seu
respectivo peso, dividida pela soma dos pesos.
in1 xi . pi
x
in1 pi
i 1 xi . f i
n
x
in1 f i
in1 mi . f i
x
in1 f i
8
Mdia Aritmtica para dados agrupados
9
Mdia Aritmtica para dados agrupados
em intervalos de classe
Exemplo: Calcule o nvel mdio de colesterol em homens
entre 25 e 34 anos.
Frequncias absolutas de nveis sricos de colesterol para homens
dos Estados Unidos, com idade entre 25 e 34 anos, 1976-1980.
Nvel de Colesterol Nmero de
(mg/100 ml) homens
80 | 120 13
120 | 160 150
160 | 200 442
200 | 240 299
240 | 280 115
280 | 320 34
320 | 360 9
360 | 400 5
Total 1.067
Fonte: Peridico Vital and Health Statistics
10
Comentrios sobre a Mdia Aritmtica
(Vantagens x Desvantagens)
Vantagem
A mdia um valor tpico (caracterstico) do conjunto de dados.
a principal medida de tendncia central.
Leva em considerao todas as observaes efetuadas.
Calcula-se com facilidade.
Desvantagem
Muito sensvel a valores extremos, isto , a valores
excessivamente pequenos ou grandes, em relao s demais
observaes do conjunto de dados.
11
Mediana
o valor central em uma distribuio, quando o conjunto de
dados est ordenado.
12
Mediana
13
Mdia x Mediana
Exemplo:
X = {2, 3, 3, 5, 5, 5, 6, 7}
Y = {10, 12, 17, 21, 32}
Z = {2, 2, 5, 5, 7, 7}
W = {10, 12, 12, 12, 13, 13, 15, 18, 18, 18, 21}
Qual a moda?
16
Exemplo
Banco A (fila nica): 6,5 6,6 6,7 6,8 7,1 7,3 7,4 7,7 7,7 7,7
Banco B (fila mltipla): 4,2 5,4 5,8 6,2 6,7 7,7 7,7 8,5 9,3 10,0
20
Separatrizes
Enquanto a mediana separa a distribuio em duas partes
iguais, a caracterstica principal das outras separatrizes :
Quartis (Qi): dividem a distribuio em quatro partes iguais;
Decis (Di): dividem em dez partes iguais;
Centis ou Percentis (Pi): dividem em cem partes iguais.
21
Separatrizes
22
Separatrizes
Exemplo: Teor de gordura (g/24 horas) em 43 crianas do
Hospital Peditrico da UFMG (j ordenado).
23
O nmero de crianas em 19 famlias foi
0, 1, 1, 2, 2, 2, 2, 2, 3, 3, 3, 4, 4, 5, 6, 6, 7, 8, 10
Absolutas
Expressas na mesma unidade de medida da varivel em estudo.
Amplitude total
Desvio mdio
Varincia
Desvio padro
26
Medidas de disperso (ou variabilidade)
Relativas
Independem da unidade de medida da varivel observada. Servem para
estudar comparativamente a variabilidade de duas ou mais distribuies.
Varivel padronizada
27
Motivao
28
Motivao
29
Amplitude Total
A amplitude de um conjunto de dados a diferena entre os
valores extremos do conjunto.
Observaes
30
Amplitude Total
Exemplo: Calcule a amplitude total da produo da pea Z
para cada empregado da indstria e identifique qual
empregado apresentou a menor disperso e qual apresentou a
maior disperso na produo diria.
31
Varincia
uma medida de variabilidade que utiliza todos os dados, e
baseada na diferena entre o valor de cada observao (xi) e a
mdia ( x para amostra e para populao).
N
( xi ) 2
n
( xi x ) 2
i 1
2
s 2
i 1
N n 1
N n
( xi ) 2
( xi x ) 2
i 1 i 1
2
s s
2
N n 1
Desvio padro Populacional Desvio padro Amostral
34
Amplitude semi-interquartlica
(desvio quartil)
O intervalo interquartlico igual a (Q1; Q3). Neste intervalo
encontram-se 50% das observaes centrais do conjunto de dados.
d Q3 Q1.
36
Coeficiente de Variao de Pearson
S
CV
X
Como o CV uma medida que exprime a variabilidade
relativa mdia, usualmente expresso em porcentagem.
37
Coeficiente de Variao de Pearson
Regras empricas para interpretaes do CV:
Se CV < 15% -> tem-se baixa disperso
Se 15% CV < 30% -> tem-se mdia disperso
Se CV 30% -> tem-se elevada disperso
38
Assimetria
39
Relao mdia, mediana e moda
40
b) X Md Mo, distribuio assimtrica positiva ou direita
41
Diagramas em Caixas (Box-plot)
um mtodo alternativo ao histograma para representar os
dados.
42
Diagramas em Caixas (Box-plot)
43
( valor discrepante )
Q3 1,5d j
1,5d j
Q3
Md d j Q3 Q1
Q1
1,5d j
Q1 1,5d j
45
Diagramas em Caixas (Box-plot)
ROL
0,72 1,40 1,64 1,69 1,79 1,88 2,03 2,28
0,85 1,47 1,64 1,70 1,79 1,90 2,08 2,31
1,09 1,51 1,67 1,74 1,82 1,92 2,09 2,37
1,24 1,58 1,68 1,75 1,85 1,93 2,11 2,46
1,37 1,63 1,69 1,75 1,86 1,97 2,17 2,60
46
Diagramas em Caixas (Box-plot)
47
Diagramas em Caixas (Box-plot)
A mediana o trao no centro do retngulo.
A disperso representada pela altura do retngulo (Q3 - Q1),
amplitude interquartil.
Assimetria: a proximidade da linha da mediana em relao a
Q1 e Q3 informa sobre a assimetria.
- Se a mediana est no centro do retngulo Simetria
- Se a mediana prxima de Q1 Assimetria positiva
- Se a mediana prxima de Q3 Assimetria negativa
Os pontos que esto fora do intervalo dado pela amplitude
interquartlica so considerados valores atpicos ou discrepantes
(outliers), ou seja, valores muito grandes ou muito pequenos em
relao aos demais. Geralmente so representados pelos
smbolos * ou . 48
PASSOS PARA CONSTRUO
DO BOXPLOT
Numa reta (no sentido vertical ou horizontal) so marcados o primeiro
quartil, a mediana e o terceiro quartil;
Com base nesta reta, constri-se um retngulo com limites iguais s
posies do primeiro e terceiro quartis, cortado por um segmento de reta
na posio relativa mediana.
A partir dos limites do retngulo, traam-se linhas at:
a) encontrar um extremo (valor mnimo ou mximo) ou
b) um valor correspondente a 1,5 dj, se o extremo correspondente estiver a
mais de 1,5 dj do quartil respectivo.
Os pontos que esto fora do intervalo dado pelo desvio interquartilico, so
considerados valores atpicos ou discrepantes (outliers), ou seja, valores
muito grandes ou muito pequenos em relao aos demais.
So utilizados smbolos especiais para representar no boxplot os valores
discrepantes. Geralmente so usados os smbolos * ou 0.
50
Box-Plot e Assimetria
51
52
Box-plot da varivel pulsao em repouso segundo o sexo.
53
ANLISE BIVARIADA
Anlise Bivariada
At o momento todas as anlises foram discutidas para
cada varivel individualmente. A tcnica a ser estudada a
seguir refere-se a problemas que envolvam conjuntos de
dados que possuem duas ou mais variveis qualitativas ou
quantitativas.
Muitas vezes queremos realizar uma anlise descritiva de
duas variveis simultneamente, ou seja, verificar se h
uma relao entre duas variveis.
Queremos conhecer o grau de dependncia entre as variveis
para prever melhor o resultado de uma delas quando
conhecermos a realizao da outra.
O tempo de servio na Empresa tem
relao com o salrio do empregado?
Possibilidades
Qualitativa x Qualitativa
Quantitativa x Quantitativa
Qualitativa x Quantitativa
Variveis Qualitativas
Hbito de Fumar
Sexo Total
Fuma No-Fuma
Masculino 20 37 57
Feminino 8 27 35
Total 28 64 92
Exemplo 2: H indcios de associao entre o hbito de
fumar e cncer de pulmo ?
Exemplo 3: Existe ou no associao entre o gnero e a carreira
escolhida por 200 alunos de Engenharia e Contbeis?
Gnero
Curso Total
Masculino Feminino
Engenharia 100 20 120
Contbeis 40 40 80
Total 140 60 200
Existindo associao entre as variveis, torna-se
interessante quantificar essa associao.
ad bc
Y
ad bc
Na interpretao do coeficiente de YULE, preciso saber:
1) O valor de Y est compreendido no intervalo de -1 at 1.
2) Y = 0 corresponde a independncia
3) Y 0 corresponde a associao entre as variveis.
lcito concluir (ou pelo menos suspeitar) luz destes dados que o
curso est associado com a aprovao do bacharel no exame do CFC?
Pela disposio dos pontos dos grficos, parece no haver dependncia, entre as
varivel.
Correlao
Exemplo: 2
x 1 2 3 4 5 x
y 4 2 1 0 2 2 4 6
x x
Sem correlao Correlao no linear
slide 75 2010 Pearson Prentice Hall. Todos os direitos reservados.
Exemplo: construindo
um diagrama de disperso
Gastos com Vendas da
propaganda, empresa
Um gerente de marketing conduziu um
($1000), x ($1000), y
estudo para determinar se h uma relao
entre o dinheiro gasto com propaganda e as 2,4 225
vendas da empresa. Os dados so mostrados 1,6 184
na tabela ao lado. Coloque os dados em um 2,0 220
diagrama de disperso e determine se parece 2,6 240
haver uma correlao linear positiva e 1,4 180
negativa ou se parece no haver correlao 1,6 184
linear. 2,0 186
2,2 215
slide 76 2010 Pearson Prentice Hall. Todos os direitos reservados.
Soluo: construindo um diagrama de disperso
-1 0 1
Se r = -1 existe Se r est prximo Se r = 1 Existe
uma correlao de 0 no existe uma correlao
negativa perfeita. correlao linear. positiva perfeita.
x x
Correlao negativa forte Correlao positiva forte
y y
r = 0,42 r = 0,07
x x
Correlao positiva fraca Correlao no linear
slide 81 2010 Pearson Prentice Hall. Todos os direitos reservados.
Calculando um coeficiente de correlao
Em palavras Em smbolos
n xy x y
r
n x 2 x n y 2 y
2 2
8(3289.8) 15.81634
8(32.44) 15.82 8(337, 558) 1634 2
501.2
0.9129
9.88 30, 508
r 0.913 sugere uma correlao linear positiva forte. Conforme aumenta
o gasto com propaganda, as vendas da empresa tambm aumentam.
slide 86 2010 Pearson Prentice Hall. Todos os direitos reservados.
Exemplo: usando tecnologia para encontrar
o coeficiente de correlao
Durao Tempo, Durao Tempo,
Use a ferramenta tecnolgica para calcular o x y x y