Anda di halaman 1dari 9

Probabilidade e Estatı́stica Aula 1:

Apresentação e introdução à estatı́stica


Prof. Crı́ston Souza

Universidade Federal do Ceará


Campus Quixadá

2016.1

O que é estatı́stica? Conjunto de dados

População:
Dados: Coleção de todos os resultados, respostas, medições ou contagens
Informações provenientes de observações, contagens, medições ou que são de interesse.
respostas.
Amostra:
Estatı́stica: Subgrupo de uma população.
Ciência que coleta, organiza, analisa e interpreta dados para a
tomada de decisões. Ex.: Pesquisa eleitoral p/ presidente com 5000 entrevistados.
População: eleitores válidos do Brasil.
Amostra: 5000 eleitores entrevistados.

Descrição da população x Descrição da amostra Ramos da estatı́stica

Parâmetro: Estatı́stica descritiva:


Descrição numérica de uma caracterı́stica populacional. Envolve a organização, o resumo e a representação dos dados.

Estatı́stica: Estatı́stica inferencial:


Descrição numérica de uma caracterı́stica amostral. Envolve o uso de uma amostra para chegar a conclusões sobre uma
população.
Ex.: 60% dos entrevistados escolheram o candidato X.
Vamos iniciar com estatı́stica descritiva.
Descreve a amostra (não necessariamente a população). Após estudar probabilidades, veremos estatistica inferencial nos
Portanto é uma estatı́stica. assuntos “intervalos de confiança” e “teste de hipótese”.

Tipos de dados Nı́veis de mensuração

Nominal
Apenas qualitativos, sem cálculos matemáticos.
Qualitativos:
Ordinal
Atributos, rótulos ou entradas não numéricas.
Qualitativos ou quantitativos.
Quantitativos: Podemos ordená-los, mas diferenças não fazem sentido.
Medidas numéricas ou contagens.
Intervalar
Ex.: Tabela contendo modelo e preço de automóveis. Quantitativos e ordenados.
Diferença significativa, mas múltiplos não fazem sentido.
O modelo é qualitativo, o preço é quantitativo.
Racional
Quantitativos, ordenados e com diferença significativa.
Múltiplos fazem sentido.
Nı́veis de mensuração Planejamento experimental

Ex.: Instruções:

Nominal: Modelos dos carros. 1 Identifique as variáveis de interesse e a população.


Ordinal: Ranking dos modelos mais vendidos. 2 Planeje a coleta de dados.
Não quantificamos diferenças entre pos. consecutivas. Se usar amostra, deve ser representativa.
Intervalar: Ano de lançamento do modelo. 3 Colete os dados.
Não faz sentido dizer que um ano é o dobro do 4 Descreva os dados (estatı́stica descritiva).
outro, pois o ano zero é convencionado. 5 Interprete os dados e tome decisões sobre a população
Outro exemplo: temperatura em graus Celsius. (estatı́stica inferencial).
Racional: Preço de cada modelo. 6 Identifique possı́veis erros.

Métodos de coleta de dados Métodos de coleta de dados

Estudo observacional
Mede caracterı́sticas de interesse em uma amostra, sem mudar as
condições existentes.
Ex.:
Experimento
Estudo observacional: coletar tempo de atendimento em banco.
Aplica um tratamento (alteração das condições) em parte da
amostra. A outra parte é chamada de grupo de controle. Experimento: alterar número de caixas em dias aleatórios.
Simulação: alterar número de caixas no simulador.
Simulação Levantamento: questionário sobre a qualidade do atendimento.
Reproduz as caracterı́sticas relevantes de um sistema no
computador. Experimento mais barato e/ou mais seguro.

Levantamento/Pesquisa de mercado
Questionários respondidos por pessoas. Risco de ser tendencioso.

Problemas Experimentos bem planejados

Confusão de variável
Quando não é possı́vel isolar o efeito do tratamento.
Ex.: Melhorou a loja quando o shopping fez uma promoção. O que Experimento cego
aumentou as vendas?
Sujeito não sabe se está recebendo o tratamento ou o placebo.
Efeito Hawthorne
Experimento duplamente cego (double-blind)
Mudança de comportamento por saber que está participando de
um experimento. Nem o pesquisador sabe se é tratamento ou placebo.

Efeito placebo
Reação positiva a um tratamento falso.

Experimentos bem planejados Experimentos bem planejados

Agrupamento em blocos
Divisão em grupos com caracterı́sticas similares.
Aleatorização
Ex.: Escolher aleatoriamente quem vai para cada grupo.
30 a 39 anos.
Pares combinados
Controle
Tratamento Pares de elementos semelhantes, e sorteio do tratamento.
40 a 49 anos.
Controle Replicação
Tratamento Repetição do experimentos para aumentar o tamanho da amostra.
Pelo menos 50 anos.
Controle
Tratamento
Técnicas de amostragem Técnicas de amostragem

Censo
Medição feita na população inteira.
Amostra aleatória
Caro e difı́cil de realizar.
Todo elemento da população tem a mesma chance de ser
Amostragem selecionado.
Medição de parte da população. Amostragem com x sem reposição

Erro de amostragem Se um elemento pode ser escolhido mais de uma vez.

Diferença entre caracterı́sticas da amostra e da população.


Pode ser controlado por técnicas de estatı́stica inferencial.

Técnicas de amostragem: outros tipos Técnicas de amostragem: outros tipos

Amostra estratificada
Divide a população em grupos (estratos) que compartilham
alguma caracterı́stica, e seleciona amostra de cada grupo.
Garante que todos os estratos são representados.
Ex.: G1: baixa renda, G2: classe média, G3: renda alta. Amostra de conveniência
Amostra por agrupamento Utiliza apenas os elementos disponı́veis.
Geralmente resulta em estudos tendenciosos.
Quando temos muitos grupos (clusters), sorteamos alguns grupos e Ex.: Entrevistar apenas os colegas da universidade.
coletamos todos os elementos de cada grupo. Ex.: CEP’s.

Amostra sistemática
Um número é atribuı́do a cada elemento, e o um número inicial é
escolhido. Os elementos restantes são escolhidos em intervalos
regulares. Facilita a coleta, mas pode deixar de ser representativa.
Ex.: Coleto a cada 100 casas a partir da casa 30.

Atividades para casa

Aula 2:
Ler e resolver exercı́cios:
Estatı́stica descritiva: Distribuição de frequência
Todo o Capı́tulo 1 do Larson.
e seus gráficos.

Distribuição de frequência Distribuições de frequência

Distribuições de frequência
Tabela que mostra o número de entradas (frequência) de cada Instruções p/ construção da distribuição de frequência:
classe/intervalo. Fornece a “forma” dos dados.
1 Escolha o número de classes. Ideal entre 5 e 20.
Ex.: 1, 1, 3, 4, 5, 6, . . .
2 Encontre a largura das classes. Divida a amplitude pelo
número de classes, arredondando p/ um inteiro.
Classe Frequência Limites inferiores: Amplitude: diferença entre o maior e o menor valor nos dados.
1-5 5 1,6,11,16,21,26.
3 Encontre os limites. Pode usar o menor valor como limite
6-10 8
inferior da 1a classe. Vá somando com as larguras.
11-15 6 Limites superiores:
16-20 8 5,10,15,20,25,30. 4 Contagem. Para cada valor, incremente contador da classe
21-25 5 correspondentes.
26-30 4 Largura das classes: 6-1=5.
Distribuições de frequência Distribuições de frequência: colunas adicionais

Ex.: Minutos diários de uso da Internet: 50 40 41 17 11 7 22 44 28 Ponto médio (ou marca) da classe
21 19 23 37 51 54 42 86 41 78 56 72 56 17 7 69 30 80 56 29 33
46 31 39 20 18 29 34 59 73 77 36 39 30 62 54 67 39 31 53 44, (limite inferior) + (limite superior)
Ponto médio =
usando 7 classes. 2

1 Número de classes: 7. Classe Frequência Frequência relativa (percentual dos dados em cada classe)
2 Amplitude = 86 - 7 = 79. 7-18 6
Largura = 79 / 7 ≈ 11,29 19-30 10 Frequência da classe
(escolhido 12). 31-42 13 Frequência relativa =
Tamanho da amostra
3 Limites inferiores: 43-54 8
7, 19, 31, 43, 55, 67, 79. 55-66 5
Limites superiores: 67-78 6 Frequência acumulada
18, 30, 42, 54, 66, 78, 90. 79-90 2 Soma das frequências da classe e de todas as anteriores.
Frequência acumulada da última classe é o tamanho da amostra.

Distribuições de frequência: colunas adicionais Gráficos de distribuições de frequência

Ex.: Histograma de frequências


Gráfico de barras da distribuição de frequências.
Ponto médio = (7+18)/2 = 12,5.
Freq. relativa = 6/50 = 0,12. 14
12
Classe Freq. Ponto médio Freq. relativa Freq. acumulada
10

Frequência
7-18 6 12,5 0,12 6
19-30 10 24,5 0,20 16 8
31-42 13 36,5 0,26 29 6
43-54 8 48,5 0,16 37 4
55-66 5 60,5 0,10 42
2
67-78 6 72,5 0,12 48
79-90 2 84,5 0,04 50
6.5 18.5 30.5 42.5 54.5 66.5 78.5 90.5
Tempo (minutos)

Gráficos de distribuições de frequência Gráficos de distribuições de frequência

Polı́gono de frequência Histograma de frequência relativa


Segmentos de reta entre os pts médios (Ponto médio, Frequência). Eixo vertical fornece frequências relativas de cada intervalo.
14 0.28
12 0.24
Frequência relativa

10 0.2
Frequência

8 0.16
6 0.12
4 0.08
2 0.04

0.5 12.5 24.5 36.5 48.5 60.5 72.5 84.5 96.5 6.5 18.5 30.5 42.5 54.5 66.5 78.5 90.5
Tempo (minutos) Tempo (minutos)

Gráficos de distribuições de frequência Atividades para casa

Gráfico de frequência acumulada (ou Ogiva)


Frequência acumulada de cada classe em seu limite superior.

50
Frequência acumulada

40 Ler e resolver exercı́cios:


Seção 2.1 do Larson.
30

20

10

6.5 18.5 30.5 42.5 54.5 66.5 78.5 90.5


Tempo (minutos)
Gráficos e representações
Diagrama ramo-e-folhas

Diagrama ramo-e-folhas
Dı́gitos são divididos em dois grupos (ramos e folhas).
As folhas de um mesmo ramo são agrupadas e ordenadas.
Aula 3:
Estatı́stica descritiva: Mais gráficos e Ex.: 155 159 144 129 105 145 126 116 130 114 122 112 112 142 126 118 118
108 122 121 109 140 126 119 113 117 118 109 109 119 139 139 122 78 133
representações, medidas de tendência central. 126 123 145 121 134 124 119 132 133 124 129 112 126 148 147

7 | 8 7 | 8
8 | 8 |
9 | 9 |
10 | 5 8 9 9 9 10 | 5 8 9 9 9
11 | 6 4 2 2 8 8 9 3 7 8 9 9 2 11 | 2 2 2 3 4 6 7 8 8 8 9 9 9
12 | 9 6 2 6 2 1 6 2 6 3 1 4 4 9 6 12 | 1 1 2 2 2 3 4 4 6 6 6 6 6 9 9
13 | 0 9 9 3 4 2 3 13 | 0 2 3 3 4 9 9
14 | 4 5 2 0 5 8 7 14 | 0 2 4 5 5 7 8
15 | 5 9 15 | 5 9

Gráficos e representações Gráficos e representações


Diagrama ramo-e-folhas Diagrama de pontos

Podemos subdividir os ramos.


Ex.: Subdivisão: {0, 1, 2, 3, 4} e {5, 6, 7, 8, 9}.

Ex.: 26 43 45 45 47 50 50 51 52 53 53 53 53 54 55 56 56 57 57
7 | 7 |
7 | 8 7 | 8
8 | 8 |
8 | |
9 | 9 |
9 | 9 |
10 | 10 |
10 | 5 8 9 9 9 10 | 5 8 9 9 9
11 | 4 2 2 3 2 11 | 2 2 2 3 4
11 | 6 8 8 9 7 8 9 9 11 | 6 7 8 8 8 9 9 9
12 | 2 2 1 2 3 1 4 4 12 | 1 1 2 2 2 3 4 4
12 | 9 6 6 6 6 9 6 12 | 6 6 6 6 6 9 9
Valor discrepante (outlier)
13 | 0 3 4 2 3 13 | 0 2 3 3 4
13 | 9 9 13 | 9 9
Valor muito pequeno ou muito grande quando comparado à
14 | 4 2 0 14 | 0 2 4 maioria dos outros valores.
14 | 5 5 8 7 14 | 5 5 7 8
15 | 15 |
15 | 5 9 15 | 5 9

Gráficos e representações Gráficos e representações


Gráfico de pizza Gráfico de Pareto

Gráfico de pizza Gráfico de Pareto


Gráfico de barras de frequência ou freq. rel. em ordem decrescente.
Cı́rculo dividido em regiões que representam frequências relativas
ou percentuais de cada categoria. Para dados qualitativos.

Ex.: Nı́vel de stress no trabalho.

Stress F. Rel. Ângulo


Very .333 360 x .333 = 119.88
Some .467 360 x .467 = 168.12
None .200 360 x .200 = 72.00

Gráficos e representações Gráficos e representações


Gráfico de dispersão (scatter plot) Atividades para casa

Gráfico de dispersão
Pontos no plano cartesiano associando duas variáveis.

Ler e resolver exercı́cios:


Seção 2.2 do Larson.
Medidas de tendência central Medidas de tendência central
Média

Média populacional

x1 + x2 + · · · + xN
µ= ,
N
onde xi é o i-ésimo valor, e N é o tamanho da população.
Medida de tendência central
Valor que representa uma entrada tı́pica ou central do conjunto de Média amostral
dados. Medidas mais comuns: média, mediana e moda.
x1 + x2 + · · · + xn
x= ,
n
onde xi é o i-ésimo valor, e n é o tamanho da amostra.

Ex. (preços de passagens): 872 432 397 427 388 782 397
872+432+397+427+388+782+397 3695
x= 7 = 7 ≈ 527, 90

Medidas de tendência central Medidas de tendência central


Mediana Moda

Moda
Valor que ocorre com maior frequência. Se nenhum elemento se
Mediana repete, não tem moda. Podemos ter mais de uma moda (ex.:
Valor no meio dos dados quando o conjunto está ordenado. Se o bimodais). Podemos aplicar em dados agrupados (dist. de freq.).
tamanho da entrada é par, use a média dos dois valores centrais.
Ex.: 388 397 397 427 432 782
Ex.: 872 432 397 427 388 782 397 Moda: 397.
Ordenado: 388 397 397 427 432 782 872.
Ex.:
Mediana: 427.

Ex.: 388 397 397 427 432 782 Partido Freq. Moda: Republicanos.
397+427 Democratas 34
Mediana: = 412.
2 Republicanos 56
Outros 21
Não responderam 9

Medidas de tendência central Medidas de tendência central


Comparando média, mediana e moda Média ponderada e média de dados agrupados

Média ponderada

w1 x1 + w2 x2 + · · · + wn xn
x= ,
Média é mais confiável, pois utiliza todos os valores. w1 + w2 + · · · + wn
Porém, é sensı́vel a valores discrepantes. onde wi e xi são o peso e valor da i-ésima entrada.

Ex.: 388 397 397 427 432 782 3000 Ex.: Prova 1 tem peso 50, prova 2 tem peso 15, trabalho tem peso
Mediana: 427. Moda: 397 20, exercı́cios de sala tem peso 10 e participação tem peso 5.
Média ≈ 831, 86 (menos representativo!). Nota 8,6 na prova 1, 9,6 na prova 2, 8,2 no trabalho, 9,8 nos
exercı́cios e 10 na participação.

50 · 8,6 + 15 · 9,6 + 20 · 8,2 + 10 · 9,8 + 5 · 10


x= = 8,86
50 + 15 + 20 + 10 + 5

Medidas de tendência central Medidas de tendência central


Média ponderada e média de dados agrupados Forma da distribuição

Podemos aproximar a média aplicando a média ponderada na dist.


de frequência: o peso é a frequência, o valor é o ponto médio.
Ex.: Simétrica
Classe Freq. Ponto médio Existe linha vertical central que aproximadamente espelha as duas
2-4 9 3 metades.
5-7 6 6
8-10 7 9
11-13 3 12
14-16 2 15
17-19 1 18

9 · 3 + 6 · 6 + 7 · 9 + 3 · 12 + 2 · 15 + 1 · 18
x= = 7,5
9+6+7+3+2+1
Medidas de tendência central Medidas de tendência central
Forma da distribuição Forma da distribuição

Uniforme (ou retangular) Assimétrica


Quando todas as classes têm frequências aproximadamente iguais. Quando a “cauda” se alonga mais em um dos lados.
É simétrica.
Respectivamente, assimétrica à direita e assimétrica à esquerda:

Medidas de tendência central Medidas de tendência central


Forma da distribuição Forma da distribuição

Se for assimétrica à direita, a média é maior que a mediana, e


a mediana é maior que a moda.
Conhecendo a média, mediana e moda, temos uma ideia da forma
da distribuição.
Se a distribuição é simétrica e unimodal, a média, mediana e
moda são iguais.

Se for assimétrica à esquerda, a média é menor que a


mediana, e a mediana é menor que a moda.

Medidas de tendência central


Atividades para casa

Aula 4:
Ler e resolver exercı́cios: Estatı́stica descritiva: Medidas de variação.
Seção 2.3 do Larson.

Medidas de variação Medidas de variação


Amplitude

Ex.: 3 amostras de tam. 8 com média 5. Qual tem maior variação? Amplitude
Diferença entre maior e menor valor.
Ignora variação dos dados entre estes valores extremos.

Ex.: 41 38 39 45 47 41 44 41 37 42
Amplitude = 47 - 37 = 10.
Medidas de variação Medidas de variação
Desvio padrão Desvio padrão

Desvio médio é zero, pois a soma dos desvios é zero.


Desvio de uma entrada x
P
Diferença entre x e a média populacional µ. X X X xi
(xi − µ) = xi − Nµ = xi − N i = 0
N
i i i
Ex.: 41 38 39 45 47 41 44 41 37 42 (população)
Alternativa? Use a soma dos módulos dos desvios.
Entrada Desvio Problema: derivada da função módulo tem descontinuidade no 0.
µ = (41 + 38 + · · · + 42)/10 = 41,5.
41 -0,5
38 -3,5
39 -2,5 Use a soma dos quadrados dos
45 3,5 desvios (desvio padrão).
47 5,5
41 -0,5
44 2,5
Problema: desvios grandes são
41 -0,5 muito penalizados.
37 -4,5
P 42 P 0,5
i xi = 415 i (xi − µ) = 0

Medidas de variação Medidas de variação


Desvio padrão Desvio padrão

Ex.: 41 38 39 45 47 41 44 41 37 42 (população)
Variância populacional µ = (41 + 38 + · · · + 42)/10 = 41,5.

Entrada Desvio Quad. Desvio


− µ)2
P
i (xi
σ2 = . 41 -0,5 0,25
N 38 -3,5 12,25
39 -2,5 6,25
45 3,5 12,25
Desvio padrão populacional 47 5,5 30,25
41 -0,5 0,25
44 2,5 6,25

rP
41 -0,5 0,25
i (xi− µ)2
σ= σ2 = . 37 -4,5 20,25
N 42 0,5 0,25
− µ)2 = 88,5
P P P
Está na mesma unidade das entradas. i xi = 415 i (xi − µ) = 0 i (xi

σ 2 = 88,5/10 = 8,85, σ= 8,85 ≈ 2,97.

Medidas de variação Medidas de variação


Desvio padrão Desvio padrão

Ex.: 41 38 39 45 47 41 44 41 37 42 (população)

Fórmula alternativa: Entrada Quad. Entrada


41 1681
38 1444
X X X X
(xi − µ)2 = (xi2 − 2xi µ + µ2 ) = xi2 − 2µ xi + Nµ2 39 1521
i i i i 45 2025
47 2209
!
X X X X
= xi2 − µ 2 xi − Nµ = xi2 − µ xi 41 1681
44 1936
i i i i 41 1681
)2
P
( 37 1369
i xi
X
= xi2 − . 42 1764
N P P 2
i i xi = 415 i xi = 17311

( i xi )2 4152
P
X X
(xi − µ)2 = xi2 − = 17311 − = 88,5
i i
N 10

σ 2 = 88,5/10 = 8,85, σ= 8,85 ≈ 2,97.

Medidas de variação Medidas de variação


Desvio padrão Desvio padrão

Variância amostral

− x)2
P
i (xi
s2 = . Fórmula alternativa:
n−1
( i xi )2
X X P
(xi − x)2 = xi2 −
Desvio padrão amostral n
i i
P 2 (Pi xi )2
x − n
s2 = i i
sP
√ − x)2
i (xi n−1
s= s2 = .
n−1

Por que n − 1 ao invés de n?


É possı́vel mostrar que a média de s para várias amostras aleatórias
converge para σ com o aumento do número de amostras.
Medidas de variação Medidas de variação
Regra empı́rica Regra empı́rica

Se a distribuição é simétrica e em forma de sino:

Ex.: Uma população tem idade média 40 anos com desvio padrão
de 12 anos. Determine um intervalo de idades que contém
aproximadamente 95% das idades.
Como nenhuma suposição é feita sobre a distribuição, vamos
utilizar a média ± 2 desvios: intervalo entre 40 − 2 · 12 = 16 anos
e 40 + 2 · 12 = 64 anos.

Se você conhece apenas a média e o desvio padrão, esta é a


melhor aproximação.

Medidas de variação Medidas de variação


Teorema de Chebychev Desvio padrão para dados agrupados

Fornece um limite inferior para a proporção em cada intervalo, Desvio padrão amostral para dados agrupados
independente da distribuição.
sP
Teorema de Chebychev − x)2 fi
i (xi
s= ,
Para k > 1, pelo menos 1 − 1/k 2 dos dados estão dentro de k n−1
desvios da média. onde xi é o ponto médio e fi a frequência da i-ésima classe.
Ex.:
Ex.: Já calculamos x = 7,5.
k = 2: pelo menos 1 − 1/22 = 3/4
Classe Freq. (fi ) Pto médio (xi ) (xi − x)2 fi
(75%) estão a 2 desvios da média. 2-4 9 3 182,25
5-7 6 6 13,50
k = 3: pelo menos 1 − 1/32 = 8/9
q
8-10 7 9 15,75 495
(88,9%) estão a 3 desvios da média. 11-13 3 12 60,75
s= 28−1 ≈ 4,3
14-16 2 15 112,50
17-19 1 18 110,25
SOMA 28 495

Medidas de variação
Atividades para casa

Ler e resolver exercı́cios:


Seção 2.4 do Larson.

Anda mungkin juga menyukai