2016.1
População:
Dados: Coleção de todos os resultados, respostas, medições ou contagens
Informações provenientes de observações, contagens, medições ou que são de interesse.
respostas.
Amostra:
Estatı́stica: Subgrupo de uma população.
Ciência que coleta, organiza, analisa e interpreta dados para a
tomada de decisões. Ex.: Pesquisa eleitoral p/ presidente com 5000 entrevistados.
População: eleitores válidos do Brasil.
Amostra: 5000 eleitores entrevistados.
Nominal
Apenas qualitativos, sem cálculos matemáticos.
Qualitativos:
Ordinal
Atributos, rótulos ou entradas não numéricas.
Qualitativos ou quantitativos.
Quantitativos: Podemos ordená-los, mas diferenças não fazem sentido.
Medidas numéricas ou contagens.
Intervalar
Ex.: Tabela contendo modelo e preço de automóveis. Quantitativos e ordenados.
Diferença significativa, mas múltiplos não fazem sentido.
O modelo é qualitativo, o preço é quantitativo.
Racional
Quantitativos, ordenados e com diferença significativa.
Múltiplos fazem sentido.
Nı́veis de mensuração Planejamento experimental
Ex.: Instruções:
Estudo observacional
Mede caracterı́sticas de interesse em uma amostra, sem mudar as
condições existentes.
Ex.:
Experimento
Estudo observacional: coletar tempo de atendimento em banco.
Aplica um tratamento (alteração das condições) em parte da
amostra. A outra parte é chamada de grupo de controle. Experimento: alterar número de caixas em dias aleatórios.
Simulação: alterar número de caixas no simulador.
Simulação Levantamento: questionário sobre a qualidade do atendimento.
Reproduz as caracterı́sticas relevantes de um sistema no
computador. Experimento mais barato e/ou mais seguro.
Levantamento/Pesquisa de mercado
Questionários respondidos por pessoas. Risco de ser tendencioso.
Confusão de variável
Quando não é possı́vel isolar o efeito do tratamento.
Ex.: Melhorou a loja quando o shopping fez uma promoção. O que Experimento cego
aumentou as vendas?
Sujeito não sabe se está recebendo o tratamento ou o placebo.
Efeito Hawthorne
Experimento duplamente cego (double-blind)
Mudança de comportamento por saber que está participando de
um experimento. Nem o pesquisador sabe se é tratamento ou placebo.
Efeito placebo
Reação positiva a um tratamento falso.
Agrupamento em blocos
Divisão em grupos com caracterı́sticas similares.
Aleatorização
Ex.: Escolher aleatoriamente quem vai para cada grupo.
30 a 39 anos.
Pares combinados
Controle
Tratamento Pares de elementos semelhantes, e sorteio do tratamento.
40 a 49 anos.
Controle Replicação
Tratamento Repetição do experimentos para aumentar o tamanho da amostra.
Pelo menos 50 anos.
Controle
Tratamento
Técnicas de amostragem Técnicas de amostragem
Censo
Medição feita na população inteira.
Amostra aleatória
Caro e difı́cil de realizar.
Todo elemento da população tem a mesma chance de ser
Amostragem selecionado.
Medição de parte da população. Amostragem com x sem reposição
Amostra estratificada
Divide a população em grupos (estratos) que compartilham
alguma caracterı́stica, e seleciona amostra de cada grupo.
Garante que todos os estratos são representados.
Ex.: G1: baixa renda, G2: classe média, G3: renda alta. Amostra de conveniência
Amostra por agrupamento Utiliza apenas os elementos disponı́veis.
Geralmente resulta em estudos tendenciosos.
Quando temos muitos grupos (clusters), sorteamos alguns grupos e Ex.: Entrevistar apenas os colegas da universidade.
coletamos todos os elementos de cada grupo. Ex.: CEP’s.
Amostra sistemática
Um número é atribuı́do a cada elemento, e o um número inicial é
escolhido. Os elementos restantes são escolhidos em intervalos
regulares. Facilita a coleta, mas pode deixar de ser representativa.
Ex.: Coleto a cada 100 casas a partir da casa 30.
Aula 2:
Ler e resolver exercı́cios:
Estatı́stica descritiva: Distribuição de frequência
Todo o Capı́tulo 1 do Larson.
e seus gráficos.
Distribuições de frequência
Tabela que mostra o número de entradas (frequência) de cada Instruções p/ construção da distribuição de frequência:
classe/intervalo. Fornece a “forma” dos dados.
1 Escolha o número de classes. Ideal entre 5 e 20.
Ex.: 1, 1, 3, 4, 5, 6, . . .
2 Encontre a largura das classes. Divida a amplitude pelo
número de classes, arredondando p/ um inteiro.
Classe Frequência Limites inferiores: Amplitude: diferença entre o maior e o menor valor nos dados.
1-5 5 1,6,11,16,21,26.
3 Encontre os limites. Pode usar o menor valor como limite
6-10 8
inferior da 1a classe. Vá somando com as larguras.
11-15 6 Limites superiores:
16-20 8 5,10,15,20,25,30. 4 Contagem. Para cada valor, incremente contador da classe
21-25 5 correspondentes.
26-30 4 Largura das classes: 6-1=5.
Distribuições de frequência Distribuições de frequência: colunas adicionais
Ex.: Minutos diários de uso da Internet: 50 40 41 17 11 7 22 44 28 Ponto médio (ou marca) da classe
21 19 23 37 51 54 42 86 41 78 56 72 56 17 7 69 30 80 56 29 33
46 31 39 20 18 29 34 59 73 77 36 39 30 62 54 67 39 31 53 44, (limite inferior) + (limite superior)
Ponto médio =
usando 7 classes. 2
1 Número de classes: 7. Classe Frequência Frequência relativa (percentual dos dados em cada classe)
2 Amplitude = 86 - 7 = 79. 7-18 6
Largura = 79 / 7 ≈ 11,29 19-30 10 Frequência da classe
(escolhido 12). 31-42 13 Frequência relativa =
Tamanho da amostra
3 Limites inferiores: 43-54 8
7, 19, 31, 43, 55, 67, 79. 55-66 5
Limites superiores: 67-78 6 Frequência acumulada
18, 30, 42, 54, 66, 78, 90. 79-90 2 Soma das frequências da classe e de todas as anteriores.
Frequência acumulada da última classe é o tamanho da amostra.
Frequência
7-18 6 12,5 0,12 6
19-30 10 24,5 0,20 16 8
31-42 13 36,5 0,26 29 6
43-54 8 48,5 0,16 37 4
55-66 5 60,5 0,10 42
2
67-78 6 72,5 0,12 48
79-90 2 84,5 0,04 50
6.5 18.5 30.5 42.5 54.5 66.5 78.5 90.5
Tempo (minutos)
10 0.2
Frequência
8 0.16
6 0.12
4 0.08
2 0.04
0.5 12.5 24.5 36.5 48.5 60.5 72.5 84.5 96.5 6.5 18.5 30.5 42.5 54.5 66.5 78.5 90.5
Tempo (minutos) Tempo (minutos)
50
Frequência acumulada
20
10
Diagrama ramo-e-folhas
Dı́gitos são divididos em dois grupos (ramos e folhas).
As folhas de um mesmo ramo são agrupadas e ordenadas.
Aula 3:
Estatı́stica descritiva: Mais gráficos e Ex.: 155 159 144 129 105 145 126 116 130 114 122 112 112 142 126 118 118
108 122 121 109 140 126 119 113 117 118 109 109 119 139 139 122 78 133
representações, medidas de tendência central. 126 123 145 121 134 124 119 132 133 124 129 112 126 148 147
7 | 8 7 | 8
8 | 8 |
9 | 9 |
10 | 5 8 9 9 9 10 | 5 8 9 9 9
11 | 6 4 2 2 8 8 9 3 7 8 9 9 2 11 | 2 2 2 3 4 6 7 8 8 8 9 9 9
12 | 9 6 2 6 2 1 6 2 6 3 1 4 4 9 6 12 | 1 1 2 2 2 3 4 4 6 6 6 6 6 9 9
13 | 0 9 9 3 4 2 3 13 | 0 2 3 3 4 9 9
14 | 4 5 2 0 5 8 7 14 | 0 2 4 5 5 7 8
15 | 5 9 15 | 5 9
Ex.: 26 43 45 45 47 50 50 51 52 53 53 53 53 54 55 56 56 57 57
7 | 7 |
7 | 8 7 | 8
8 | 8 |
8 | |
9 | 9 |
9 | 9 |
10 | 10 |
10 | 5 8 9 9 9 10 | 5 8 9 9 9
11 | 4 2 2 3 2 11 | 2 2 2 3 4
11 | 6 8 8 9 7 8 9 9 11 | 6 7 8 8 8 9 9 9
12 | 2 2 1 2 3 1 4 4 12 | 1 1 2 2 2 3 4 4
12 | 9 6 6 6 6 9 6 12 | 6 6 6 6 6 9 9
Valor discrepante (outlier)
13 | 0 3 4 2 3 13 | 0 2 3 3 4
13 | 9 9 13 | 9 9
Valor muito pequeno ou muito grande quando comparado à
14 | 4 2 0 14 | 0 2 4 maioria dos outros valores.
14 | 5 5 8 7 14 | 5 5 7 8
15 | 15 |
15 | 5 9 15 | 5 9
Gráfico de dispersão
Pontos no plano cartesiano associando duas variáveis.
Média populacional
x1 + x2 + · · · + xN
µ= ,
N
onde xi é o i-ésimo valor, e N é o tamanho da população.
Medida de tendência central
Valor que representa uma entrada tı́pica ou central do conjunto de Média amostral
dados. Medidas mais comuns: média, mediana e moda.
x1 + x2 + · · · + xn
x= ,
n
onde xi é o i-ésimo valor, e n é o tamanho da amostra.
Ex. (preços de passagens): 872 432 397 427 388 782 397
872+432+397+427+388+782+397 3695
x= 7 = 7 ≈ 527, 90
Moda
Valor que ocorre com maior frequência. Se nenhum elemento se
Mediana repete, não tem moda. Podemos ter mais de uma moda (ex.:
Valor no meio dos dados quando o conjunto está ordenado. Se o bimodais). Podemos aplicar em dados agrupados (dist. de freq.).
tamanho da entrada é par, use a média dos dois valores centrais.
Ex.: 388 397 397 427 432 782
Ex.: 872 432 397 427 388 782 397 Moda: 397.
Ordenado: 388 397 397 427 432 782 872.
Ex.:
Mediana: 427.
Ex.: 388 397 397 427 432 782 Partido Freq. Moda: Republicanos.
397+427 Democratas 34
Mediana: = 412.
2 Republicanos 56
Outros 21
Não responderam 9
Média ponderada
w1 x1 + w2 x2 + · · · + wn xn
x= ,
Média é mais confiável, pois utiliza todos os valores. w1 + w2 + · · · + wn
Porém, é sensı́vel a valores discrepantes. onde wi e xi são o peso e valor da i-ésima entrada.
Ex.: 388 397 397 427 432 782 3000 Ex.: Prova 1 tem peso 50, prova 2 tem peso 15, trabalho tem peso
Mediana: 427. Moda: 397 20, exercı́cios de sala tem peso 10 e participação tem peso 5.
Média ≈ 831, 86 (menos representativo!). Nota 8,6 na prova 1, 9,6 na prova 2, 8,2 no trabalho, 9,8 nos
exercı́cios e 10 na participação.
9 · 3 + 6 · 6 + 7 · 9 + 3 · 12 + 2 · 15 + 1 · 18
x= = 7,5
9+6+7+3+2+1
Medidas de tendência central Medidas de tendência central
Forma da distribuição Forma da distribuição
Aula 4:
Ler e resolver exercı́cios: Estatı́stica descritiva: Medidas de variação.
Seção 2.3 do Larson.
Ex.: 3 amostras de tam. 8 com média 5. Qual tem maior variação? Amplitude
Diferença entre maior e menor valor.
Ignora variação dos dados entre estes valores extremos.
Ex.: 41 38 39 45 47 41 44 41 37 42
Amplitude = 47 - 37 = 10.
Medidas de variação Medidas de variação
Desvio padrão Desvio padrão
Ex.: 41 38 39 45 47 41 44 41 37 42 (população)
Variância populacional µ = (41 + 38 + · · · + 42)/10 = 41,5.
Ex.: 41 38 39 45 47 41 44 41 37 42 (população)
( i xi )2 4152
P
X X
(xi − µ)2 = xi2 − = 17311 − = 88,5
i i
N 10
√
σ 2 = 88,5/10 = 8,85, σ= 8,85 ≈ 2,97.
Variância amostral
− x)2
P
i (xi
s2 = . Fórmula alternativa:
n−1
( i xi )2
X X P
(xi − x)2 = xi2 −
Desvio padrão amostral n
i i
P 2 (Pi xi )2
x − n
s2 = i i
sP
√ − x)2
i (xi n−1
s= s2 = .
n−1
Ex.: Uma população tem idade média 40 anos com desvio padrão
de 12 anos. Determine um intervalo de idades que contém
aproximadamente 95% das idades.
Como nenhuma suposição é feita sobre a distribuição, vamos
utilizar a média ± 2 desvios: intervalo entre 40 − 2 · 12 = 16 anos
e 40 + 2 · 12 = 64 anos.
Fornece um limite inferior para a proporção em cada intervalo, Desvio padrão amostral para dados agrupados
independente da distribuição.
sP
Teorema de Chebychev − x)2 fi
i (xi
s= ,
Para k > 1, pelo menos 1 − 1/k 2 dos dados estão dentro de k n−1
desvios da média. onde xi é o ponto médio e fi a frequência da i-ésima classe.
Ex.:
Ex.: Já calculamos x = 7,5.
k = 2: pelo menos 1 − 1/22 = 3/4
Classe Freq. (fi ) Pto médio (xi ) (xi − x)2 fi
(75%) estão a 2 desvios da média. 2-4 9 3 182,25
5-7 6 6 13,50
k = 3: pelo menos 1 − 1/32 = 8/9
q
8-10 7 9 15,75 495
(88,9%) estão a 3 desvios da média. 11-13 3 12 60,75
s= 28−1 ≈ 4,3
14-16 2 15 112,50
17-19 1 18 110,25
SOMA 28 495
Medidas de variação
Atividades para casa