Pesquisador pelo ITL/SEST/SENAT. Professor na UNIFOA no curso de Pós graduação em Engenharia de Segurança
do Trabalho. Professor da Universidade Estácio de Sá - UNESA nas disciplinas de Gestão Financeira de Empresas,
Fundamentos da Contabilidade e Matemática Financeira, Probabilidade e Estatística para o curso de Engenharia de
Produção, Análise Estatística para o curso de Administração, Ergonomia, Higiene e Segurança do Trabalho, Gestão
de Segurança e Análise de Processos Industriais (Gestão Ambiental), Gestão da Qualidade: programa 5S (curso de
férias). Professor na Associação Educacional Dom Bosco para os cursos de Administração e Logística. Ex-professor
na Universidade Barra Mansa – UBM nos cursos de Engenharia de Produção e de Petróleo. Ex-professor
Conteudista na UNESA (elaboração de Planos de Ensino e de Aula, a nível nacional). Ex-professor em escolas
técnicas nas disciplinas de Estatística Aplicada, Estatística de Acidentes do Trabalho, Probabilidades, Contabilidade
Básica de Custos, Metodologia de Pesquisa Científica, Segurança na Engenharia de Construção Civil e Higiene do
Trabalho. Ex-professor do SENAI. Ex-consultor interno, desenvolvedor e instrutor de cursos corporativos na CSN,
a níveis Estratégicos, Táticos e Operacionais. Ex-Membro do IBS–Instituto Brasileiro de Siderurgia.
EMENTA:
Conceito e fases de estudo. Variáveis. População e amostra. Técnicas de
amostragem. Séries estatísticas: conceitos, tabelas, distribuição de frequência
e representação gráfica. Medidas de Tendência Central. Medidas de
Ordenamento. Medidas de Variação. Correlação e Regressão. Distribuição
Normal. Intervalos de Confiança. Teste de Hipótese.
OBJETIVO:
Refletir a partir da Estatística Básica sobre as ferramentas consolidadas pelo
uso e pela ciência, disponíveis a todos, que auxiliam na tomada de decisão.
Resende - RJ – 2017
“Atualmente, todos – estudantes e professores – procuram o Udemy porque é a
plataforma onde todos estão”.
Fonte: Jornal do Brasil
Saiba
mais
Clique aqui
www.udemy.com
Junte-se a milhões de estudantes na maior plataforma on-line
de cursos curtos e práticos do mundo.
Com mais de 45.000 cursos virtuais disponíveis, o Udemy é uma plataforma global de
ensino on-line onde 15 milhões de alunos estão dominando novas habilidades.
Sumário
-3-
SUMÁRIO
UNIDADE I – TÉCNICAS DE AMOSTRAGEM PROBABILÍSTICAS
Amostragem Aleatória Simples, 5
Amostragem Estratificada, 6
Amostragem por Conglomerado, 7
Amostragem Sistemática, 9
UNIDADE II – CORRELAÇÃO E REGRESSÃO
Correlação linear simples, 11
Regressão linear simples, 14
UNIDADE III – DISTRIBUIÇÃO DE FREQUÊNCIA E O GRÁFICO DE PARETO
Distribuição de frequência, 17
Gráfico de Pareto, 19
UNIDADE IV – MEDIDAS DE VARIAÇÃO E A DISTRIBUIÇÃO NORMAL
Medidas de variação, 26
Variância e Desvio Padrão, 27
Coeficiente de Variação, 29
Conceitos básicos de probabilidades, 29
Distribuição Normal, 30
Probabilidades na Distribuição Normal, 31
Z‐Escore e valor de “x” na Distribuição Normal, 34
UNIDADE V – ESTATÍSTICA INFERENCIAL E OS INTERVALOS DE CONFIANÇA
Estimativa pontual e intervalar, 41
Intervalos de confiança – IC, 41
Intervalos de confiança para média (amostras grandes), 41
determinação do tamanho da amostra, 43
Intervalos de confiança para média (amostras pequenas), 43
Intervalos de confiança para proporções p, 45
Determinação do tamanho da amostra para p, 45
Intervalos de confiança para o desvio padrão, 46
UNIDADE VI – ESTATÍSTICA INFERENCIAL E OS TESTES DE HIPÓTESES
Conceitos introdutórios, 50
Teste de hipótese para média (amostras grandes), 51
Teste de hipótese para média (amostras pequenas), 52
Teste de hipótese para proporção, 53
Teste de hipótese para o desvio padrão, 54
Teste para duas amostras – conceitos introdutórios, 57
Teste para diferença de duas médias (dependente), 57
Teste para diferença de duas médias (independente), 59
UNIDADE VII – COMPLEMENTOS
Gráficos e Tabelas, 61
Distribuição de frequências em classes, 65
Medidas de posição (média, mediana e moda), 68
Medidas de Ordenamento (Quartil, Decil e Percentil), 74
Vocabulário básico de Estatística, 76
População e amostra, 78
Estatística Descritiva e Inferencial, 80
REFERÊNCIAS, 81
-4-
UNIDADE I
TÉCNICAS DE
AMOSTRAGEM
PROBABILÍSTICAS
BAIXE O SOFTWARE BIOESTAT E USE‐O PARA COLETA DE AMOSTRAS
E OUTRAS APLICAÇÕES ESTATÍSTICAS
HTTP://WWW.MAMIRAUA.ORG.BR/PT‐BR/DOWNLOADS/PROGRAMAS/BIOESTAT‐VERSAO‐53/
O BioEstat é programa gratuito para estudantes de graduação e pós‐graduação, pesquisadores e professores, com 210
aplicativos estatísticos de fácil uso pelos iniciantes. Este programa contém o Manual (em formato de arquivo "pdf") que orienta
o usuário com indicações simples e precisas para cada teste, exemplos práticos, gráficos de uso mais frequente, glossário
vinculado à biometria e fórmulas estatísticas referentes aos aplicativos do BioEstat.
A licença de uso deste programa também é gratuita, sendo permitida a instalação em vários computadores. Para outras
informações, envie um e‐mail para mamiraua@mamiraua.org.br.
ONDE FAZER CURSOS E COMPRAR LIVROS?
WERKEMA CONSULTORES ‐ HTTP://WWW.WERKEMACONSULTORES.COM/
FALCONI CONSULTORES DE RESULTADO‐ HTTPS://WWW.FALCONI.COM/PT/
-5-
São técnicas de seleção dos elementos de uma população, de modo a se obter uma amostra representativa da população.
Devem ser utilizadas para assegurar que as inferências sobre a população sejam válidas.
Amostragem Aleatória Simples – É aquela na qual todos os elementos da população tem a mesma chance de
ser selecionado.
Essa técnica usa mecanismos de casualidade para escolher os elementos da população, como a tabela de números
aleatórios. O método é semelhante a um sorteio.
Tabela de números aleatórios
A tabela de números aleatórios consiste em uma série de números listados em uma
sequência aleatoriamente gerada. Essa tabela tem duas características que a tornam adequada: primeiro, os números
estão dispostos de tal maneira que a chance de qualquer um deles aparecer em determinada sequência é igual à chance
do aparecimento em qualquer outra posição; segundo, cada uma de todas as combinações de algarismos tem a mesma
chance de ocorrência. O Excel dispõe da função “ALEATÓRIO” para gerar números aleatórios (veja figura). A tabela de
números aleatórios abaixo foi construída de modo que os dez algarismos (0 a 9) são distribuídos ao acaso, pelo Excel,
identificadas pelas linhas (1, 2, 3, 4...) e colunas (A, B, C, D ...):
4º Descartar os números maiores que o tamanho da população e/ou numeral repetido;
5º Usar os números escolhidos para identificar os elementos da população.
EXEMPLO. Uma empresa pecuária possui uma população de novilhos de tamanho N = 80 e precisa retirar
amostras de tamanho n = 12 (15% da população) para fazer exame de uma doença. Utilize o método de
amostragem aleatória simples, considerando a tabela, a partir da 4ª linha, coluna D, sentido horizontal, da
esquerda para direita (→).
SOLUÇÃO. Como a população N=80 tem dois algarismos, combinamos dois algarismos na tabela,
descartando os números repetidos e os números que não pertencem a população (Ex.: 81, 95,...).
Este procedimento é repetido até a amostra de tamanho n=12 ser escolhida. Então:
A B C D E F G H I J K L M N O P Q R S T U V W X Y Z a b c d e f g h i j k l
1 9 3 3 1 2 1 6 6 3 3 9 0 7 0 4 0 4 4 1 3 8 1 6 5 8 8 9 8 6 5 0 6 3 3 1 2 4 8
2 0 7 6 8 1 4 5 0 5 8 6 6 1 4 2 6 7 5 6 0 5 7 7 9 6 3 2 6 3 4 5 9 8 6 5 2 1 1
3 6 5 1 5 3 4 4 2 3 7 9 1 4 8 5 8 7 2 4 7 3 7 0 6 2 2 1 3 5 0 8 9 4 7 1 6 4 4
4 9 7 0 2 6 7 3 2 6 7 4 9 1 6 2 7 7 8 6 8 4 7 8 1 5 7 1 2 6 6 6 3 5 6 0 8 2 1
5 5 5 6 5 1 6 4 8 3 3 1 5 3 8 8 2 3 8 8 7 7 4 5 0 4 5 1 8 7 2 3 2 9 6 4 7 7 9
6 8 3 4 8 8 3 8 0 6 4 8 2 3 5 2 5 3 7 1 7 6 8 2 9 5 3 4 3 7 0 3 9 7 0 1 5 7 2
Amostras escolhidas
n = 26 73 74 62 77 78 15 71 66 35 60 56
Descartadas por repetição: Descartadas por não pertencer à população:
26 26 15 91 86 84 82
Amostragem Estratificada – É aquela na qual dividimos a população em subgrupos (estratos) de idênticas
características e retiramos amostras aleatórias simples dos subgrupos.
Às vezes, a população é heterogênea (ex.: sexo masculino e feminino; peça A, B e C) e a amostra aleatória simples não
apresentaria esta heterogeneidade. Seria, então, necessário homogeneizar as amostras em grupos, estratos. Neste caso
recorremos à amostragem aleatória estratificada. “Estratificar” sugere “formar‐se em camadas”.
Exemplo. A estratificação mais simples que encontramos na população do rebanho de tamanho N=80 é a divisão
entre novilhos e novilhas. Supondo que haja 35 novilhos e 45 novilhas, teremos a seguinte formação dos estratos:
População (80)
Estrato 1 Estrato 2
O próximo passo é extrair as amostras dentro de cada estrato. Então, numeramos o rebanho de 01 a 80, sendo que de 01 a 35
correspondem novilhos e de 36 a 80, as novilhas. Tomando na tabela de números aleatórios, a partir da 4ª linha, coluna D,
sentido horizontal, da esquerda para direita (→), obtemos os seguintes números:
A B C D E F G H I J K L M N O P Q R S T U V W X Y Z a b c d e f g h i j k l
1 9 3 3 1 2 1 6 6 3 3 9 0 7 0 4 0 4 4 1 3 8 1 6 5 8 8 9 8 6 5 0 6 3 3 1 2 4 8
2 0 7 6 8 1 4 5 0 5 8 6 6 1 4 2 6 7 5 6 0 5 7 7 9 6 3 2 6 3 4 5 9 8 6 5 2 1 1
3 6 5 1 5 3 4 4 2 3 7 9 1 4 8 5 8 7 2 4 7 3 7 0 6 2 2 1 3 5 0 8 9 4 7 1 6 4 4
4 9 7 0 2 6 7 3 2 6 7 4 9 1 6 2 7 7 8 6 8 4 7 8 1 5 7 1 2 6 6 6 3 5 6 0 8 2 1
5 5 5 6 5 1 6 4 8 3 3 1 5 3 8 8 2 3 8 8 7 7 4 5 0 4 5 1 8 7 2 3 2 9 6 4 7 7 9
6 8 3 4 8 8 3 8 0 6 4 8 2 3 5 2 5 3 7 1 7 6 8 2 9 5 3 4 3 7 0 3 9 7 0 1 5 7 2
Temos, então:
1 a 35 → Novilhos n =5 26 15 35 31 23
36 a 80 → Novilhas n =7 73 74 62 77 78 71 66
Descartados
Como é provável que a variável em estudo apresente, de estrato para estrato, um comportamento heterogêneo
e, dentro de cada estrato, um comportamento homogêneo, convém que a amostragem seja feita por estratos.
Portanto, a amostragem estratificada é, em geral, usada para reduzir a variação nos resultados.
Notas importantes
A amostragem estratificada é mais eficiente do que a amostragem aleatória simples, uma vez que fica
sobre este tipo de assegurada a representatividade de elementos ao longo de toda a extensão da população. A homogeneidade de
amostragem itens dentro de cada estrato proporciona maior precisão. Da mesma maneira, em um sistema produtivo,
podemos estratificar as amostras em, por exemplo, peça A, peça B, peça C e assim por diante.
como cidades, municípios, setores de uma empresa, quarteirões de cidades, domicílios, território de vendas etc. Segundo
Levine et al (2008, p. 222) e Anderson et al (2009, p.263) a amostragem por conglomerados têm as seguintes
características:
Todos os elementos contidos em cada conglomerado amostrado formam a amostra;
Cada conglomerado é uma versão representativa em pequena escala da população inteira;
Tende a produzir melhores resultados quando os elementos neles contidos não são similares;
De um modo geral, é mais eficaz em termos de custo do que a amostragem aleatória simples, particularmente se a
população estiver dispersa ao longo de uma extensa área geográfica. Entretanto, a amostragem por conglomerado
geralmente demanda um maior tamanho de amostra para que sejam produzidos resultados tão precisos quanto
aqueles que seriam obtidos da amostragem aleatória simples ou estratificada.
Segundo Triola (2008, p. 23) outro exemplo de amostra por conglomerado pode ser encontrado nas pesquisas eleitorais,
onde selecionamos aleatoriamente 30 zonas eleitorais dentre um grande número de zonas e, em seguida,
entrevistamos todos os eleitores daquelas seções (zonas selecionadas). Isso é muito mais rápido e muito menos
dispendioso do que selecionar uma pessoa de cada uma das zonas na área populacional.
É fácil confundir amostragem estratificada com a amostragem por conglomerado, porque ambas envolvem
ATENÇÃO! a formação de grupos. Porém, a amostragem por conglomerado usa todos os elementos de um grupo
selecionado, enquanto a amostragem estratificada usa amostras de elementos de todos os estratos.
Figura. Amostragem
por Conglomerados
em quarteirões de um
bairro.
-9-
Nestes casos, a seleção dos elementos que constituirão a amostra pode ser feita por um sistema imposto pelo pesquisador.
Assim, no caso de uma linha de produção, podemos, a cada dez itens produzidos, retirar um para pertencer a uma amostra
da produção diária. Neste caso, estaríamos fixando o tamanho amostral de 10% da população.
Uma amostragem é sistemática quando a retirada dos elementos da população é feita periodicamente, sendo o intervalo de
seleção calculado, por meio da divisão do tamanho da população pelo tamanho da amostra a ser selecionada, ou seja: N / n
EXEMPLO. Deseja-se retirar uma amostra de n = 10 unidades de peças de uma população de tamanho N = 800. O
800
intervalo de seleção é, então, /10 = 80. Desse modo, escolhemos um número de 1 a 80, o qual indicaria o primeiro
elemento sorteado para amostra; os demais seriam periodicamente considerados de 80 em 80. Partindo da 1ª linha,
coluna A, sentido horizontal e da esquerda para direita (→) da tabela aleatória:
o primeiro elemento será 31 (tabela aleatória) e os demais obtidos por progressão aritmética: 111, 191, 271, 351, 431, 511,
591, 671 e 751.
O ESQUEMA ABAIXO PERMITE UM MELHOR ENTENDIMENTO:
População = 800 800 = 80 1 ‐ 80
Amostra = 10 10
Amostra 1 2 3 4 5 6 7 8 9 10
UNIDADE II
CORRELAÇÃO E
REGRESSÃO
Existem situações nas quais interessa estudar a relação entre duas variáveis,
coletadas como pares ordenados (x,y), para resolver questões do tipo “Existe
relação entre o número de horas de estudo e as notas obtidas?”. Problemas
como esses são estudados pela análise de correlação linear simples, onde
determinamos o grau de relação entre duas variáveis. Se as variáveis variam
juntas, diz‐se que as mesmas estão correlacionadas.
- 11 -
EXEMPLO 1. Consideremos na tabela abaixo uma amostra formada por 8 alunos de uma classe, pelo número de
horas de estudo (x) e as notas obtidas (y). Verifique se existe correlação por meio do diagrama de dispersão.
Diagrama de Dispersão
Número de horas de estudo
versus notas obtidas H o r as estud ad as ver sus Notas o b tid as
10
Aluno X Y 9
(horas de estudo) (notas obtidas) 8
Ponto de interseção
(Aluno D)
A 8h 9,0
Y (Notas obti das )
7
B 2h 3,0 6
5
C 3h 4,0
4
D 4h 5,0 3
E 4,5h 6,0 2
F 6h 7,0 1
0
G 5h 7,0 0 1 2 3 4 5 6 7 8 9
H 7h 7,5 x (Horas de es tudo)
FONTE: dados fictícios
Representando os pares ordenados (x,y), obtemos diversos pontos grafados que denominamos diagrama de dispersão. Para
construí‐lo, basta pontuar a interseção de cada eixo x,y. Por exemplo, o aluno D estudou 4h (eixo x) e obteve a nota 5,0 (eixo
y). Observe no diagrama uma linha vermelha pontilhada e o ponto de interseção. Esse diagrama nos fornece uma idéia
grosseira, porém útil, da correlação existente. Ao observar o diagrama como um todo, podemos afirmar que existe uma
correlação entre as variáveis x,y pois, quando x cresce, y também tende a crescer.
CORRELAÇÃO LINEAR
H o r as estud ad as ver sus No tas o b tid as
10
Os pontos grafados, vistos em conjunto, 9
formam uma elipse (trajetória, distribuição 8
dos pontos) em diagonal.
Y (Notas obti das )
7
6
Podemos imaginar que, quanto mais fina for 5
a elipse, mais ela se aproximará de uma reta. 4 Reta imaginária
3
Dizemos então, que a correlação de forma
2
elíptica tem como “imagem” uma reta, sendo,
1
por isso, denominada correlação linear. 0
0 1 2 3 4 5 6 7 8 9
x (Horas de es tudo)
- 12 -
Assim, uma correlação é:
Uma direção para cima sugere que se: Uma direção para baixo sugere que se:
‐ x aumenta, ‐ x aumenta,
‐ y tende a aumentar. ‐ y tende a diminuir.
EXEMPLO 2. Consideremos na tabela abaixo os meses de Jan a Set, o aumento mensal do preço das refeições (x)
e a média do número de clientes ao mês (y). Verifique se existe correlação por meio do diagrama de dispersão.
Diagrama de Dispersão
Aumento do preço da refeição
versus média de clientes por mês Aumento do p r eço da r efeição ver su s média clientes p/dia
EXEMPLO DE APLICAÇÃO. Consideremos na tabela abaixo uma amostra formada por 8 alunos de uma classe, pelo
número de horas de estudo (x) e as notas obtidas (y), calcule o coeficiente de correlação r.
Cálculo do r:
Número de horas de estudo
versus notas obtidas
r = 0
y r = ‐ 0,813 y r = 0,824
x x
r=0,975
Positiva e “Muito forte”
Notas:
Correlação e causalidade.
O fato de duas variáveis serem fortemente correlacionadas não implica uma relação de causa e efeito entre elas. Um estudo
mais profundo é usualmente necessário para determinar se há uma relação causal entre as variáveis. As seguintes questões
devem ser consideradas ao pesquisador:
‐ Há uma relação direta de causa e efeito entre as variáveis?
‐ É possível que a relação entre duas variáveis seja uma coincidência?
Mais informações em Larson, 2010, capítulo 9.
- 14 -
Após verificar se a correlação linear entre duas variáveis é significante, o próximo passo é determinar a equação
da linha que melhor modela os pontos grafados. Essa linha é chamada de linha de regressão (ou linha de melhor
ajuste). Portanto, a análise de regressão linear simples tem por objetivo obter a equação matemática do ajuste da
reta que representa o melhor relacionamento numérico linear entre as duas variáveis em estudo.
A Regressão Linear
H o r as estud ad as ver sus No tas o b tid as determina o
10
ajuste da reta,
9
chamada de “Linha de
8
Regressão”
Y (Notas obti das )
7
6
5
4
3
2
1
0
0 1 2 3 4 5 6 7 8 9
x (Horas de es tudo)
Ao se construir um diagrama de dispersão, não sabemos o comportamento da reta em relação aos pontos
grafados. Para tanto, devemos calcular o “ajustamento da reta aos pontos”. Eis alguns exemplos de diagramas de
dispersão com o ajustamento da reta aos pontos:
Para ajustar a reta aos pontos grafados em um diagrama de dispersão, os estatísticos usam as seguintes equações:
EXEMPLO DE APLICAÇÃO. Consideremos na tabela abaixo uma amostra formada por 8 alunos de uma classe, pelo
número de horas de estudo (x) e as notas obtidas (y), calcule a reta ajustada nos pontos grafados.
Número de horas de estudo
versus notas obtidas
1º ‐ Calcular o Coeficiente angular a:
X Y
Aluno X2 XY
(horas de estudo) (notas obtidas)
A 8h 9,0 64 72
B 2h 3,0 4 6
C 3h 4,0 9 12
D 4h 5,0 16 20
E 4,5h 6,0 20,25 27 a = 266,5 ‐ (39,5) . (48,5)
F 6h 7,0 36 42 8
2º ‐ Calcular o Coeficiente linear b: 3º ‐ Calcular o ajustamento da reta :
b = ‐ a = aX + b
Calculando as Médias e , temos:
= 0,958 . 5 + 1,33
= 48,5 = 6,063 = 39,5 = 4,937
= 6,12
8 8
Então: Nota: 5 é um valor arbitrário.
b = 6,063 – 0,958 x 4,937
b = 1,33
Para traçar a reta no diagrama de dispersão, basta determinar os pontos b, e o arbitrário:
Note que os pontos grafados estão muito próximos da reta. Isso significa que existe
uma correlação muito forte entre as duas variáveis em estudo
- 16 -
UNIDADE III
DISTRIBUIÇÃO DE
FREQUÊNCIA E O
GRÁFICO DE PARETO
Ao se trabalhar com grandes conjuntos de dados, em geral é útil organizá‐los e resumi‐los
em uma tabela, chamada Distribuição de frequência.
- 17 -
DISTRIBUIÇÃO DE FREQUÊNCIA
Frequência absoluta e Histograma
Ao se trabalhar com grandes conjuntos de dados, em geral é útil organizá-los e resumi-los em uma
tabela, chamada Distribuição de frequência.
Na distribuição de frequência listamos todos os valores coletados, um em cada linha, marcam‐se as vezes em que eles
aparecem, incluindo as repetições, e conta‐se a quantidade de ocorrências de cada valor. Por este motivo, tabelas
que apresentam valores e suas ocorrências denominam‐se distribuição de freqüências.
O termo “freqüência” indica o número de vezes que um dado aparece numa observação estatística.
EXEMPLO
Um professor organizou os resultados obtidos em uma prova com 25 alunos da seguinte forma:
Notas dos 25 alunos Comentário
4,0 5,0 7,0 9,0 9,0 Agora ele pode fazer uma representação gráfica para analisar o
4,0 5,0 7,0 9,0 9,0 desempenho da turma. Em primeiro lugar, o professor pode fazer uma
4,0 5,0 7,0 9,0 9,0 tabulação dos dados, ou seja, organizá‐los de modo que a consulta a eles
seja simplificada. Então, faremos a distribuição de freqüência destas
4,0 6,0 8,0 9,0 9,0
notas, por meio da contagem de dados.
4,0 6,0 8,0 9,0 9,0
Distribuição de freqüência Comentário
Freqüência, f Esta forma de organizar dados é conhecida como distribuição de
Nota (nº de alunos) frequência, e o número de vezes que um dado aparece é chamado de
4,0 5 frequência absoluta, representado por f. Exemplos:
5,0 3 A frequência absoluta da nota 4,0 é 5.
6,0 2 A freqüência absoluta da nota 9,0 é 10.
7,0 3
O símbolo grego “sigma” significa “somatório”, muito usado em
8,0 2
Estatística. Portanto, f=25 significa a soma de 5+3+2+3+2+10.
9,0 10
f=25 Representamos a freqüência por um gráfico, chamado Histograma.
HISTOGRAMA Comentário
Quando os dados numéricos são organizados, eles geralmente são
Desempenho dos alunos na prova ordenados do menor para o maior, divididos em grupos de tamanho
12 razoável e, depois, são colocados em gráficos para que se examine sua
Número de alunos
10
10 forma, ou distribuição (no exemplo: 4,0 – 5,0 – 6,0 – 7,0 – 8,0 – 9,0). Este
8 gráfico é chamado de Histograma.
6 5 Um histograma é um gráfico de colunas juntas. Em um histograma não
4 3 3
existem espaços entre as colunas adjacentes, como ocorre em um gráfico
2 2 de colunas. No exemplo, a escala horizontal (→) representa as notas e a
2
escala vertical (↑) as freqüências.
0
Conceito. Representado por Fa, significa a soma das freqüências absolutas até o elemento analisado.
EXEMPLO
Fa2=5+3 = 8
frequência absoluta acumulada (Fa) Comentários aos cálculos
Nota f fr(%) Fa A frequência absoluta acumulada Fa é obtida conforme abaixo:
4,0 5 20% 5
A Fa da nota 4,0 é 5 (sempre repete a primeira).
5,0 3 12% 8
A Fa das notas 4,0 e 5,0 é 5+3=8.
6,0 2 8% 10 A Fa das notas 4,0, 5,0 e 6,0 é 5+3+2=10.
7,0 3 12% 13 A Fa das notas 4,0, 5,0, 6,0 e 7,0 é 5+3+2+3=13.
8,0 2 8% 15 A Fa das notas 4,0, 5,0, 6,0, 7,0 e 8,0 é 5+3+2+3+2=15.
9,0 10 40% 25 A Fa das notas 4,0, 5,0, 6,0, 7,0, 8,0 e 9,0 é 5+3+2+3+2+10=25
f=25 100% ‐
Frequência Relativa Acumulada FRa (%)
Conceito. Representado por FRa (%), significa a soma das freqüências relativas fr(%) até o elemento analisado.
EXEMPLO
20% + 12% = 32%
frequência relativa acumulada (FRa) Comentários aos cálculos
Nota f fr(%) Fa FRa(%) A frequência relativa acumulada FRa(%) é obtida conforme abaixo:
4,0 5 20% 5 20%
A FRa(%) de 4,0 é 20% (sempre repete a primeira).
5,0 3 12% 8 32%
A FRa(%) de 4,0 e 5,0 é 20+12 = 32%
6,0 2 8% 10 40% A FRa(%) de 4,0, 5,0 e 6,0 é 20+12+8 = 40%
7,0 3 12% 13 52% A FRa(%) de 4,0, 5,0, 6,0 e 7,0 é 20+12+8+12 = 52%
8,0 2 8% 15 60% A FRa(%) de 4,0, 5,0, 6,0, 7,0 e 8,0 é 20+12+8+12+8 = 60%
9,0 10 40% 25 100% A FRa(%) de 4,0, 5,0, 6,0, 7,0, 8,0 e 9,0 é 20+12+8+12+8+40=100%
f=25 100% ‐ ‐
NOTA IMPORTANTE SOBRE DISTRIBUIÇÃO DE FREQUÊNCIA:
Nota f fr(%) Fa FRa(%) Para saber se o desenvolvimento da distribuição de freqüência por completo está
25 100% correto, os valores ao lado, em vermelho, deverão coincidir.
f=25 100% ‐ ‐
- 19 -
GRÁFICO DE PARETO
É um gráfico de colunas ordenadas por ordem decrescente de importância, juntamente com um gráfico de linhas com as
porcentagens acumuladas. Serve para definir quais os problemas vitais a serem atacados prioritariamente.
É que um gráfico organizado. Dispõe a informação de modo a tornar evidente e visual a priorização de problemas.
Princípio de Pareto ou lei oitenta / vinte:
De uma forma empírica, 80% dos problemas (problemas vitais) estão em 20% das causas.
Quando diante de um problema, deseja‐se saber qual a prioridade.
Para comparar problemas em tempos diferentes e evidenciar resultados de melhoria.
EXEMPLO DE GRÁFICO DE PARETO
Porcentagem acumulada
85%
70
80%
Frequência
73%
60
Problemas vitais
50 60%
44
46%
40
Problemas triviais 40%
30 26
20
12 20%
10 5 4 2 2
1
0 0%
MÃOS BRAÇOS OLHOS CABEÇA OMBROS PERNAS PÉS OUTROS
(Problema/causa) Local da lesão
Problemas vitais e triviais
O princípio de Pareto estabelece que os problemas relacionados à qualidade (percentual de itens defeituosos, número de
reclamações de clientes, modos de falhas de máquinas, perdas de produção, gastos com reparos de produtos dentro do prazo
de garantia, ocorrências de acidentes de trabalho, atrasos na entrega de produtos, entre outros), os quais se traduzem sob a
forma de perdas, podem ser classificados em duas categorias: os “poucos vitais” e os “muitos triviais”.
Representam um pequeno número de problemas, mas que no entanto resultam em grandes
poucos vitais
perdas para a empresa. (Veja o gráfico acima)
São uma extensa lista de problemas, mas que apesar de seu grande número, convertem‐se em
muitos triviais
perdas pouco significativas. (perdas pouco sérias) (veja o gráfico acima)
Em outras palavras, o princípio de Pareto estabelece que se forem identificados, por exemplo, cinquenta problemas relacionados à qualidade, a
solução de apenas cinco ou seis destes problemas já poderá representar uma redução de 80 ou 90% das perdas que a empresa vem sofrendo
devido à ocorrência de todos os problemas existentes.
O princípio de Pareto também estabelece que um problema pode ser atribuído a um pequeno número de causas. Logo, se forem identificadas
as poucas causas vitais dos poucos problemas vitais enfrentados pela empresa, será possível eliminar quase todas as perdas por meio de um
pequeno número de ações. Ou seja, em um primeiro momento devemos concentrar nossa atenção sobre os poucos vitais, deixando de lado os
muitos triviais, para que os problemas possam ser resolvidos da forma mais eficiente possível.
Breve histórico
O princípio de Pareto foi inicialmente estabelecido por J. M. Juran, que adaptou aos problemas da qualidade a teoria para modelar a
distribuição de renda desenvolvida pelo sociólogo e economista italiano Vilfredo Pareto (1843—1923). Pareto mostrou, em 1897, que a
distribuição de renda é muito desigual, com a maior parte da riqueza pertencendo a muito poucas pessoas. Juran foi o primeiro a notar que
esta mesma idéia se aplicava aos problemas da qualidade — a distribuição dos problemas e de suas causas é desigual e portanto as melhorias
mais significativas poderão ser obtidas se nossa atenção for concentrada, primeiramente, na direção dos poucos problemas vitais e logo a
seguir na direção das poucas causas vitais destes problemas.
- 20 -
CONSTRUINDO GRÁFICO DE PARETO.
1. Colete os dados por meio de uma Folha de Verificação.
Vamos considerar novamente a situação onde uma indústria fabricante de lentes procurava resolver o seguinte problema:
“aumento do número de lentes defeituosas produzidas pela empresa a partir de fevereiro de 1995”. A empresa classificou
uma amostra de lentes fabricadas durante uma semana de produção de acordo com os tipos de defeitos detectados, tendo
obtido os resultados apresentados (destacado) na figura abaixo.
Resultados da
coleta de dados
2. Com base na Folha de Verificação, organize os dados por meio de uma Distribuição de Frequência.
Agora, organize os dados por meio de uma distribuição de frequências, demonstrando a frequência f (ordenada, da maior
frequência para a menor), a Frequência acumulada Fa, a Frequência Relativa fr(%), e a Frequência Relativa acumulada FRa(%).
Veja abaixo a distribuição de frequência.
55+41=96 55/127=43,3 43,3+32,3=75,6
Distribuição de frequência
ordenada
(da maior Quantidade de
defeitos
para a menor)
3. Com base na Distribuição de Frequência, construa o Gráfico de Pareto.
Basta elaborar um histograma com as frequências f ordenadas (da maior quantidade de defeitos para menor). Logo após,
construa um gráfico em linhas das porcentagens acumuladas FRa(%).
93,7% 97,6% 100%
85%
75,6%
43,3%
55
41
12 11 5 3
Tipo de defeito
- 21 -
4. Análise do Gráfico de Pareto. Observando o gráfico dos defeitos das lentes, foi imediato para a indústria fabricante de lentes
perceber que os dois tipos de defeitos mais frequentes, “revestinento inadequado” e “trinca”, representavam 75,6% dos
defeitos detectados nas lentes produzidas pela empresa. Portanto, “revestimento inadequado” e “trinca” foram considerados
como os poucos defeitos vitais, que deveriam ser eliminados em primeiro lugar, enquanto “arranhão”, “lente muito fina ou
muito grossa”, “lente não‐acabada” e “outros” representavam os muitos defeitos triviais.
5.Traçar Plano de Ação para melhorar resultados
Após estudar as informações obtidas, a indústria constatou que a mudança para um novo fornecedor da solução utilizada no processo de
revestimento das lentes, o qual vendia um produto mais barato, foi a causa responsável pelo aumento do número de lentes que
apresentavam um revestimento inadequado. Também foi verificado que uma peça de uma das máquinas utilizada no processo de
fabricação das lentes apresentava um desgaste excessivo, o que resultou no aumento do número de lentes trincadas. A empresa elaborou
então o plano de ação, que consistiu em voltar a comprar a matéria‐prima do antigo fornecedor e trocar a ferramenta que estava
desgastada. Após a adoção destas medidas corretivas, a indústria coletou novos dados relativos às lentes defeituosas produzidas, os quais
estão apresentados abaixo.
Melhoria Total = Total de defeitos “antes” – Total de defeitos “após” → 127 – 55 = 0,598 ou 59,8%
Total de defeitos “antes” 127
Conclui‐se que, a adoção das medidas corretivas reduziu em 59,8% o número total de defeitos nas lentes produzidas.
COMPARAÇÃO DO “ANTES” E “DEPOIS”.
Para melhorar resultados, a comparação de gráficos de Pareto construídos a partir de dados coletados “antes” e “após” a ação
corretiva pode ser utilizada para avaliar se a ação executada foi realmente eficaz. Se a frequência da categoria de interesse foi
significativamente reduzida, será possível concluir que o bloqueio foi efetivo. Veja abaixo.
- 22 -
ESTRATIFICAÇÃO (DESDOBRAMENTO) DOS GRÁFICOS DE PARETO.
O desdobramento de gráficos de Pareto consiste em tomar as categorias prioritárias identificadas em um primeiro gráfico como
novos problemas a serem analisados por meio de novos gráficos de Pareto, conforme o esquema apresentado abaixo.
Desdobramento.
O desdobramento continua até que o nível de detalhes
desejado seja obtido, de forma que possam ser
priorizados os vários possíveis projetos de melhoria, com
base nos resultados que cada um deles pode produzir.
Estabelecendo Metas
Esta figura registra, no primeiro gráfico, um total de 161
ocorrências do problema em defeitos em automóveis.
Analisando o desdobramento, verificamos que se forem
executados os projetos de
eliminação dos arranhões na pintura de automóveis e
eliminação de aparelhos de ar‐condicionado de
automóveis que não funcionam,
o ganho potencial é de uma redução no número de
defeitos igual a 28 + 14=42 unidades. Portanto, a meta
que pode ser estabelecida para a execução destes dois
projetos é:
Meta = 42 x 100 = 26% de redução no número de
161 defeitos em automóveis.
Outro exemplo de estratificação de gráfico de Pareto
- 23 -
TIPOS DE GRÁFICOS DE PARETO.
Gráfico de Pareto para efeitos
O gráfico de Pareto para efeitos dispõe a informação de modo que se toma possível a identificação do principal problema
enfrentado por uma empresa. Pode ser utilizado para descobrir problemas relacionados às cinco dimensões da Qualidade Total:
Percentual de produtos defeituosos, número de reclamações de clientes, número de devoluções de
Qualidade
produtos.
Perdas de produção, gastos com reparos de produtos dentro do prazo de garantia, custos de
Custo
manutenção de equipamentos.
Índices de atrasos de entrega, índices de entrega em quantidade e local errados, falta de matéria‐
Entrega
prima em estoque.
Moral Índices de reclamações trabalhistas, índices de demissões, absenteísmo.
Número de acidentes de trabalho, índices de gravidade de acidentes, número de acidentes sofridos
Segurança
por usuários do produto, taxa de frequência de acidentes. Número de acidentes com equipamentos
OUTROS EXEMPLOS DE GRÁFICO DE PARETO
MONTAGEM DE CONJUNTO ABC
Coleta de dados
Ordenamento dos dados
(maior frequência para menor),
com as frequências
acumuladas
Gráfico de Pareto.
- 24 -
FABRICAÇÃO DE CAPÔS DE CARRO
Coleta de dados
Ordenação dos dados por meio de Distribuição de Frequência
Ordenamento dos
dados
(maior frequência para
menor), com as
frequências
acumuladas
Gráfico de Pareto
Gráfico de Pareto.
VÍDEOS GRÁFICO DE PARETO
https://www.youtube.com/watch?v=oAy67MmZE9w&list=PLMq2o4TOsym6s1lfHE_NU37vMLR_IuDCV&index=10
https://www.youtube.com/watch?v=b‐phFzLnBNA&list=PLMq2o4TOsym6s1lfHE_NU37vMLR_IuDCV&index=17
“Atualmente, todos – estudantes e professores – procuram o Udemy porque é a
plataforma onde todos estão”.
Fonte: Jornal do Brasil
Saiba
mais
Clique aqui
www.udemy.com
Junte-se a milhões de estudantes na maior plataforma on-line
de cursos curtos e práticos do mundo.
Com mais de 45.000 cursos virtuais disponíveis, o Udemy é uma plataforma global de
ensino on-line onde 15 milhões de alunos estão dominando novas habilidades.
UNIDADE IV
MEDIDAS DE
VARIAÇÃO E A
DISTRIBUIÇÃO
NORMAL
O DESVIO PADRÃO E A DISTRIBUIÇÃO NORMAL
CONSTITUEM OS INSTRUMENTOS ESTATÍSTICOS
MAIS UTILIZADOS NO CONTROLE ESTATÍSTICO DE PROCESSO
- 26 -
EXEMPLO
Durante o ano letivo a Média das notas de João, Mário, Maria e José foi 7,0. Se considerarmos apenas a
Média, não notaremos qualquer diferença entre os quatro alunos. No entanto, observa‐se que as notas são
muito diferentes em relação a Média. Há variação de notas e, no caso de João e José, é bem discrepante:
Grande variação
Média das notas de João a partir da Média Média das notas de Mário Sem variação a
10,0 9,5 10,0 partir da Média
9,0
8,0 7,0 8,0 7,0 7,0 7,0 7,0 7,0
6,0
Notas
Notas
6,0 6,0
4,0 3,5 4,0
2,0 2,0
0,0 0,0
1º Bim 2º Bim Média 3º Bim 4º Bim 1º Bim 2º Bim Média 3º Bim 4º Bim
Bimestres
Bimestres
Pequena variação a Grande variação a
Média das notas de Maria
partir da Média Média das notas de José partir da Média
10,0 10,0 9,5
8,5
8,0 7,0 7,5 7,5 8,0 7,0
6,5 6,5
6,0
Notas
Notas
6,0 6,0
4,0
4,0 4,0
2,0 2,0
0,0 0,0
1º Bim 2º Bim Média 3º Bim 4º Bim 1º Bim 2º Bim Média 3º Bim 4º Bim
Bimestres Bimestres
Diante deste contexto, podemos questionar: qual o aluno é mais estável? Qual teve melhor
desempenho? Qual o aluno com pior desempenho? Notadamente o aluno de melhor desempenho é o
Mário, pois todas as suas notas foram 7,0 e, portanto, não houve nenhuma variação em relação a Média.
Já José e João tiveram o pior desempenho pois suas notas estiveram muito distantes da Média.
Neste capítulo vamos desenvolver maneiras específicas de realmente medirmos a variação, de modo
que possamos usar números específicos em lugar de julgamento subjetivo.
Outros exemplos de variações:
Os preços das casas variam de casa para casa, de ano para ano e de estado para estado.
Os preços de um produto variam de supermercado para supermercado.
O tempo que você leva para chegar ao trabalho varia dia a dia.
O tamanho das peças produzidas em uma empresa também varia.
A renda familiar varia de família para família, de país para país e de ano para ano.
Os resultados das partidas de futebol, de temporada para temporada, variam.
As notas que você tira nas provas, não diferente, também variam.
Seu saldo bancário também varia, podendo ser de hora em hora, dia a dia, mês a mês.
Estudaremos alguns tipos de medidas de variação: variância, desvio padrão e coeficiente de variação.
- 27 -
São medidas que representam “um valor médio de variação” em torno da média.
O desvio padrão é um modo que se usa para medir a variabilidade entre os números em um conjunto de dados. Assim como o termo
sugere, um desvio padrão é um padrão (ou seja, algo típico) de desvio (ou distância) da média. O desvio padrão é uma estatística
importante, mas, frequentemente, é omitida quando os resultados são relatados. Sem ele, você está recebendo apenas uma parte da
história sobre os dados. Os estatísticos gostam de contar a história do homem que estava com um dos pés em um balde de água gelada e
o outro em um balde de água fervendo. O homem dizia que, na média, ele estava se sentindo ótimo! Mas imagine a variabilidade da
temperatura para cada um dos pés. Agora, colocando os pés no chão, o preço médio de uma casa, por exemplo, não lhe diz nada sobre a
variedade de preços de casas com a qual você pode se deparar enquanto estiver procurando uma casa para comprar. A média dos salários
pode não representar o que realmente está se passando em sua empresa se os salários forem extremamente discrepantes.
Entendendo a Variância e o Desvio Padrão Calculando a Variância e o Desvio Padrão
Desvios em torno da Média das notas de João O problema da soma dos desvios foi resolvido pelos
matemáticos: basta elevar cada desvio ao quadrado antes
10,0 9,5 9,0 de somá‐los. Um número ao quadrado é sempre positivo,
portanto a soma não se anula mais, e a média dos desvios ao
+ 2,5 +2,0
8,0
7,0 quadrado pode ser calculada:
Variância amostral
No gráfico percebemos que o desvio determina o quanto Agora, podemos calcular a média dos quadrados dos
2
cada elemento do conjunto de dados se distancia da desvios, chamada de Variância, representada por S :
média 7,0. No 1º Bim. faltam ‐3,5 para se chegar a Média
2
e no 2º Bim. ‐1,0. Já nos 3º e 4º Bim. temos +2,5 e +2,0 S2 = ( x x) → 23,5 = 7,8
acima da média, respectivamente. Transpondo essas 4 ‐ 1
informações para uma tabela, temos: n ‐ 1
A divisão por n−1 aparece por fornecer um melhor resultado do
que a divisão por n.
Notas Média Desvios
Desvio padrão amostral
(x) ( x ) (x ‐ x ) Mas, se elevamos os desvios ao quadrado para poder
3,5 7,0 ‐3,5 calcular sua média, não seria correto que agora fizéssemos a
6,0 7,0 ‐1,0 raiz quadrada dessa média, para desfazer a potenciação?
9,5 7,0 2,5 Sim, e o valor dessa raiz é chamado Desvio padrão,
9,0 7,0 2,0 representado por S:
‐ ‐ =0
Desvio padrão → S = 7,8 = 2,8
Interpretação: O desvio padrão indica que a maioria das notas de
Perceba que a soma dos desvios é igual a zero. Esta
João está concentrada dentro dos limites de 2,8 em torno da
característica não é exclusiva deste exemplo. Ela sempre média 7,0. Ou seja, se concentrando entre 4,2 e 9,8:
ocorre e prende‐se ao fato de que a média é o ponto de
equilíbrio em um conjunto de dados. 4,2 ‐2,8 +2,8 9,8
Como os desvios indicam o grau de variação dos valores
7,0
em relação à média, seria interessante poder encontrar
um único número que o representasse. Algo como a
média dos desvios. Mas, para fazer essa média, Equação da Variância e Desvio padrão
precisamos somar os desvios e acabamos de ver que essa Podemos concluir, então, o uso das equações:
Calculando a Variância e o Desvio padrão das notas de Maria, José e Mário – passo a passo.
Notas de Maria: 6,5 6,5 7,5 7,5
1º Calcular a Média 2º Calcular a Variância 3º Calcular o Desvio padrão
x x S2 = ( x x) 2
S = S2 → 0 , 33
n n 1
x = 6,5+6,5+7,5+7,5 = 7,0 S2 = (6,5 – 7,0)2 + (6,5 – 7,0)2 + (7,5 – 7,0)2 + (7,5 – 7,0)2 = 0,33 S = 0,5
4 4 – 1
Interpretação: O resultado indica que a maioria das notas de Maria 6,5 ‐0,5 +0,5 7,5
está concentrada dentro dos limites de 0,5 em torno da Média
7,0. Ou seja, se concentrando entre 6,5 e 7,5. 7,0
Notas de José: 4,0 9,5 8,5 6,0
1º Calcular a Média 2º Calcular a Variância 3º Calcular o Desvio padrão
x x S2 = ( x x) 2
S = S2 → 6 ,16
n n 1
x = 4,0+9,5+8,5+6,5 = 7,0 S2 = (4,0 – 7,0)2 + (9,5 – 7,0)2 + (8,5 – 7,0)2 + (6,0 – 7,0)2 = 6,16 S = 2,5
4 4 ‐ 1
Interpretação: O resultado indica que a maioria das notas de Maria 4,5 ‐2,5 +2,5 9,5
está concentrada dentro dos limites de 2,5 em torno da Média
7,0. Ou seja, se concentrando entre 4,5 e 9,5. 7,0
Notas de Mário: 7,0 7,0 7,0 7,0
1º Calcular a Média 2º Calcular a Variância 3º Calcular o Desvio padrão
x x S2 = ( x x) 2
S = S2 → S = 0
n n 1
x = 7,0+7,0+7,0+7,0 = 7,0 S2 = (7,0 – 7,0)2 + (7,0 – 7,0)2 + (7,0 – 7,0)2 + (7,0 – 7,0)2 = 0
4 4 ‐ 1
O resultado indica que todas as notas de Mário estão dentro dos limites de 0 em torno da Média 7,0. Ou seja, se
concentrando exatamente na média 7,0. Portanto, sem variação.
COEFICIENTE DE VARIAÇÃO - CV
É a medida relativa do desvio padrão que é expressa sob a forma de porcentagem (%).
Em algumas situações, podemos estar interessados em uma estatística que indique qual é o tamanho do desvio padrão em relação à
média. A melhor forma de representá‐la é através do coeficiente de variação por ser expressa na forma de porcentagem.
Equação do Cv: Exemplo: Com a média 7,0 de João e Desvio padrão de 2,8, temos:
Cv = S x 100 Cv = 2,8 x 100 → 40%
x 7,0
Ou seja: Cv = Desvio padrão x 100 O resultado indica que a Média 7,0 de João teve um Desvio padrão em torno de 40%.
Média
Interpretação estatística do Cv:
Cv ≤ 15% = pequena variação em torno da média
15% < Cv < 30% = moderada variação em torno da média
Cv ≥ 30% = grande variação em torno da média
Fazendo a Distribuição de Variabilidade das notas de João, Maria, José e Mário, temos:
Exemplo: Suponha que o lote A de peças tenha média de
65 cm de comprimento com desvio padrão de 8 cm; e o Lote A Lote B
lote B tenha média de 105 cm com desvio padrão de 11 Cv = 8 x 100 = 12,3% Cv = 11 x 100 = 10,47%
cm. QUAL LOTE TEM MENOR VARIAÇÃO E É MAIS CONSISTENTE? 65 105
O lote B é mais consistente pois tem menor variação.
Ao lançar um dado, qual a probabilidade de obter “4”? Ao lançar a moeda, qual a probabilidade de dar “cara”?
Como representar numericamente as chances desses eventos?
Conhecidas certas condições, é possível responder a essas duas perguntas, antes mesmo da realização desses experimentos. A
teoria da probabilidade surgiu para tentar calcular a “chance” de ocorrência de um resultado imprevisível, porém, pertencente a
um conjunto de resultados possíveis. Todos os dias somos confrontados com situações, que nos conduzem a utilizar a teoria de
probabilidade:
Dizemos que existe uma pequena probabilidade de ganhar na loteria;
Dizemos que existe uma grande probabilidade de não chover num dia de verão;
O gerente quer saber a probabilidade de o projeto ser concluído no prazo;
O analista financeiro quer saber a chance de um novo investimento ser lucrativo;
O gerente de marketing quer saber as chances de queda de vendas se aumentar os preços;
O eng. produção quer saber a probabilidade de um novo método de montagem aumentar a produtividade.
É POSSÍVEL QUANTIFICAR O ACASO. Desse modo, se houver probabilidades disponíveis, podemos determinar a
possibilidade de cada um dos eventos ocorrer. Para continuar o estudo de probabilidades, três conceitos são
importantes: Experimento aleatório, espaço amostral e eventos.
- 30 -
DISTRIBUIÇÃO NORMAL (ABRAHAM DE MOIVRE 1667 ‐ 1754 )
É usada para distribuições SIMÉTRICAS e possui diversas aplicações, como calcular as probabilidades de
PESOS e ALTURAS das pessoas, diâmetro e comprimento de peças em linhas de produção, tempo de vida
útil de produtos e diversas outras medições de pesquisas científicas.
Aplicado para distribuições SIMÉTRICAS (Média=Moda=Mediana). Possui como parâmetro a MÉDIA e DESVIO PADRÃO.
Também chamada de Curva Normal, Curva de Gauss e Curva em forma de Sino.
Para entender o conceito de uma Distribuição Normal, tomemos como exemplo a distribuição da vida útil de 340
lâmpadas produzidas pela PHILIPS:
Distribuição da vida útil de 340 lâmpadas
produzidas pela PHILIPS Curva NORMAL ou
Curva de GAUSS ou
120 Curva em forma de SINO
100
100
Quantidade
80
70 70
60
40 40
40
20
10 10
0
700 800 900 1000 1100 1200 1300
Horas
Observe pela Distribuição Normal que o tempo de vida útil das lâmpadas:
Possui uma elevação em seu centro e pontas que vão tanto para direita quanto para a esquerda;
A Média, Mediana e Moda (1000 horas) encontram‐se exatamente no meio da distribuição;
A distribuição de valores menores que a Média (700, 800, 900) e maiores que a Média (1100, 1200, 1300) é simétrica,
o que significa que se você dobrá‐la ao meio, suas partes serão como imagens refletidas por um espelho;
Como a curva é simétrica em torno da Média, os valores maiores que a média e os valores menores do que a Média
ocorrem com igual probabilidade;
A maioria dos dados é centralizada ao redor da média, de modo que quanto mais longe da média você se mover, cada
vez menos pontos de dados você vai encontrar em ambos os lados.
Analisando a variabilidade
Analise a figura abaixo. Veja que a maior parte da vida útil das lâmpadas produzidas pela PHILIPS varia de 700
horas até 1300 horas, com uma boa parte das lâmpadas com vida útil de 900 a 1100 horas. Pensando como
consumidor, você gostaria de se deparar com tamanha variabilidade quando for comprar um pacote de lâmpadas?
Veja que uma concorrente (OSRAM) irá tentar fabricar lâmpadas com vida útil menos variável; a vida útil terá
uma média de 1000 horas, mas suas lâmpadas terão uma vida útil mais consistente, variando de 920 a 1080
horas, com boa parte das lâmpadas com duração entre 980 e 1020 horas.
D istribuição da vida útil de 340 lâm padas
produzidas pela OSRAM
OSRAM
120
100
100
Quantidade
80 PHILIPS
7 0 7 0
60
40 40
40
20
10 10
0
700 800 900 1000 1100 1200 1300
920 1080
Horas
- 31 -
Em uma distribuição Normal, o Desvio padrão tem um significado especial, pois determina a distância da Média
até um ponto dentro da distribuição, cada um com a mesma distância da Média. No caso abaixo, supomos (por
fins didáticos) que o Desvio padrão do tempo de vida útil das lâmpadas é s=100 horas.
99,74% A regra empírica
Na distribuição normal é possível determinar a posição
da maioria dos valores, usando as distâncias de 1, 2 ou 3
95,44% s =100
Desvios padrões da Média para estabelecer alguns
marcos. A regra que lhe permite fazer isso se chama
120 68,26% Regra empírica, que diz o seguinte:
100 Espera‐se que cerca de 68,26% dos valores encontram‐
100 se dentro de 1 desvio padrão da média;
Quantidade
(no exemplo, 240 lâmpadas (70+100+70).
80
70 70 Espera‐se que 95,44% dos valores encontram‐se dentro
60 de 2 desvios padrões da média;
S=100 S= 100 (no exemplo, 320 lâmpadas: 40+70+100+70+40)
40 40
40 Espera‐se que 99,74% dos valores encontram‐se dentro
20 10 10
de 3 desvios padrões da média;
(no exemplo, 340 lâmpadas: 10+40+70+100+70+40+10)
0
700 800 900 1000 1100 1200 1300 Estes resultados são aproximações. A regra empírica
não pode ser aplicada às distribuições que não possuam
Horas uma forma de montanha em seu centro.
‐3S ‐2S ‐1S x 1S 2S 3S
Quando se tem uma variável aleatória com distribuição normal pode‐se obter a probabilidade de essa variável
assumir um valor em determinado intervalo, pela área sob a curva dentro dos limites do intervalo.
Exemplo 1. Seja X a variável aleatória que representa os tempos de vida útil das lâmpadas produzidas pela
PHILIPS Sendo a Média de vida útil das lâmpadas de 1000 horas com Desvio padrão de 100 horas, ache a
probabilidade de a lâmpada ter vida útil entre 1000 e 1150 horas, isto é, P(1000 < z < 1150).
Probabilidade procurada
P(1000 < Z < 1150)
P= 0,4332
Z= 1,50
PARA ACHAR A PROBABILIDADE, SIGA 2 PASSOS:
1º PASSO. Calcule o número de desvios padrão que o valor “1150” se distancia da média “1000”. Para isto,
utilizamos a equação abaixo, chamada “escore Z”.
O resultado indica que 1150 está distante 1,50 desvios
Desvio padrão padrão da média. Use sempre 2 casas decimais. Veja
Escore Z demonstração da área de Z no gráfico acima.
Variável aleatória procurada
O escore Z é uma medida que indica o número de desvios padrão de um valor a partir da média.
- 32 -
2º PASSO. Com o escore Z de “1,50”, use a Tabela de Distribuição Normal Padrão para encontrar a
probabilidade, como explicado abaixo
Na 1ª coluna encontramos “1,5”. Em seguida, encontramos na 1ª linha “0”, que é o último algarismo de “1,50”. Na
intersecção da linha e coluna encontramos 0,4332, que indica a probabilidade P(1000 < z < 1150) = 0,4332 ou 43,32%
Interpretação: espera‐se que 43,32% das lâmpadas tenham vida útil entre 1000 e 1150 horas
Z Último dígito
0 1 2 3 4 5 6 7 8 9
A área constante na tabela corresponde a área à direita (sinal positivo):
Área = 0,5
-z +z
Exemplo 2. Continuando com os dados do exemplo 1, ache P(900 < z < 1000).
Quando partimos da média calculamos apenas um escore Z. Para lado esquerdo o escore Z sempre terá sinal
negativo, que não será considerado, pois os dois lados são iguais em termos de probabilidades.
Probabilidade procurada EQUAÇÃO ESCORE Z
P(900 < Z < 1000)
z
x - x
P= 0,3413 s
Calculando, temos:
z = 900 - 1000 = -1,00 *
100
Probabilidade: na tabela temos: 0,3413
Z= -1,00
*Desconsidere o sinal negativo do escore Z
700 800 900 1000 1100 1200 1300
Interpretação: Espera‐se que 34,13% das lâmpadas tenham vida útil entre 1000 e 1100 horas.
Exemplo 3. Continuando com os dados do exemplo 1, ache P(900 < z < 1050).
Neste caso, calculamos dois escores Z e somamos as probabilidades:
ADIÇÃO DE PROBABILIDADES
Probabilidade procurada P= 0,5328
z1 = 900 - 1000 = - 1,00
. P(900 < Z < 1050)
100 0,3413
+
P1=0,3413 P 2=0,1915
z2 = 1050 - 1000 = 0,50
100 0,1915
Soma de probabilidades = 0,5328
Z2
=0,50
Z = -1,00 1
700 800 900 1000 1100 1200 1300
Interpretação: Espera‐se que 53,28% das lâmpadas tenham vida útil entre 900 e 1050 horas.
Exemplo 4. Continuando com os dados do exemplo 1, ache P(1050 < z < 1150).
Neste caso, calculamos dois escores Z (de 1000 a 1150; e de 1000 a 1050). Depois subtraímos as probabilidades:
PZ2=0,0668
‐‐
Z2 = 850 - 1000 = -1,50
100 0,4332
Z1= -1,50 Subtração probabilidades = 0,0668
700 800 900 1000 1100 1200 1300
Interpretação: Espera‐se que 6,68% das lâmpadas tenham vida útil abaixo de 850 horas.
Exemplo 6. Sabe-se que a Média de vida útil das lâmpadas produzidas pela PHILIPS é de 1000 horas com Desvio
padrão de 100 horas. O fabricante oferece uma garantia de 800 horas, isto é, trocar as lâmpadas que apresentem
falhas nesse período ou inferior. Fabrica 15.000 lâmpadas mensalmente. Quantas lâmpadas deverá trocar pelo uso da
garantia, mensalmente?
SUBTRAÇÃO DE PROBABILIDADES
P1 = (meia área)
Probabilidade procurada P( Z < 800)
0,5
Garantia de ‐‐
800 horas Z2 = 800 - 1000 = - 2,00
00 0,4772
Subtração de probabilidades = 0,0228
700 800 900 1000 1100 1200 1300
Interpretação: Constatamos que 2,28% (0,0228) das lâmpadas não atenderão a garantia. Então o fabricante deverá substituir
mensalmente: 15.000 x 0,0228 = 342 lâmpadas.
Z-ESCORE E VALOR DE “X” NA DISTRIBUIÇÃO NORMAL
Na seção anterior você encontrou a probabilidade que x pudesse estar em um dado intervalo ao calcular a área sob a curva
normal para um dado intervalo. Mas, e se lhe fosse dado uma probabilidade e você quisesse encontrar o valor de x?
Encontrando o Z-ESCORE dada uma PROBABILIDADE
Exemplo 7. Encontre o z- escore que corresponda à área de 0,2123 (21,23%) da área à direita?
Observando a Tabela de Distribuição Normal Padrão encontramos z‐escore de 0,56 conforme destacado abaixo.
TABELA DE DISTRIBUIÇÃO NORMAL PADRÃO
Z Último dígito
0 1 2 3 4 5 6 7 8 9
- 35 -
Importante. Para encontrar valores de “x” vamos considerar os sinais dos Z-escore (negativo ou positivo)
Exemplo 8. Sabe-se que a Média de vida útil das lâmpadas produzidas pela PHILIPS é de 1000 horas com Desvio
padrão de 100 horas. Encontre o tempo de vida útil “x” que corresponda a:
a) Z = 1,5: x x zs → x = 1000 + 1,5 (100) = 1.150 horas.
a) Z-escore de 1,5 Interpretação: Para z escore de 1,5 o tempo de vida útil das lâmpadas é de 1.150 horas. Você pode confirmar o
resultado consultando o exemplo 1.
b) Z = ‐2: x x zs → x = 1000 + (‐2)(100) = 800 horas.
b) Z-escore de -2 Interpretação: Para z escore de ‐2 o tempo de vida útil das lâmpadas é de 800 horas. Você pode confirmar o
resultado consultando o exemplo 6.
Encontrando VALOR DE “X” que corresponda a uma PROBABILIDADE
Exemplo 9. Sabe-se que a Média de vida útil das lâmpadas produzidas pela PHILIPS é de 1000 horas com Desvio
padrão de 100 horas. O fabricante deseja fixar prazo de garantia, em horas, de tal modo que, se a duração da
lâmpada for inferior à garantia, a lâmpada seja trocada. De quantas horas deve ser este prazo para que somente 4%
das lâmpadas sejam trocadas?
Passo 1 → 0,5 – 0,04 = 0,46
0,5 Passo 2 → Procurando na tabela P(x)=0,46 (0,4599 é mais
próximo), encontramos Z = ‐1,75. (negativo pois é à esquerda)
-Z
Passo 3. Logo:
0,04
x x zs → x = 1000 + (‐1,75)(100) = 825 horas.
Interpretação: O prazo de horas para que seja trocado 4% das lâmpadas
deve ser de 825 horas.
-1,75
TABELA DE DISTRIBUIÇÃO NORMAL PADRÃO
Último dígito
Z
0 1 2 3 4 5 6 7 8 9
- 36 -
Exemplo 10. As pontuações para um teste de Engenheiro em uma empresa são normalmente distribuídas, com uma
média de 7,5 com e um desvio padrão de 0,5. Para ser adequado ao emprego, você deve ter pontuação dentro dos
9% primeiros. Qual é a menor pontuação que você pode conseguir e ainda ser adequado ao emprego?
Passo 1 → 0,5 ‐ 0,09 = 0,41
0,5
Passo 2 → Procurando na tabela P(x)=0,41 (0,4099 é mais próximo)
+Z encontramos Z = 1,34 (positivo pois é à direita).
Passo 3
x x zs → x = 7,5 + (1,34)(0,5) = 8,17.
0,09
Interpretação: A menor pontuação que você pode conseguir e ainda
assim ser adequado ao emprego é 8,17.
,
6,0 6,5 7,0 7,5 8,0 8,5 9,0
+1,34
Passo 3. Logo:
X1 = 1000 + (‐1,96)(100) = 804 horas.
x x zs X2 = 1000 + (+1,96)(100) = 1.196 horas.
‐ 0,4750 + 0,4750 Interpretação: 95% das lâmpadas ficará entre 804 horas e 1196 horas, ou
seja, P 95% ( 804 < z < 1196)
x̄
z= ‐ 1,96 z= + 1,96
TABELA DE DISTRIBUIÇÃO NORMAL PADRÃO
Z
Último dígito
0 1 2 3 4 5 6 7 8 9
VÍDEO DISTRIBUIÇÃO NORMAL: https://www.youtube.com/watch?v=ec9HWoY2kt8
- 37 -
- 38 -
Exemplo de aplicação. Sabe-se que a Média de vida útil das lâmpadas produzidas pela PHILIPS é de 1000 horas com
Desvio padrão de 100 horas. Encontre P (900 < z < 1050) usando a tabela de distribuição normal padrão acumulada.
Probabilidade procurada
P(900 < Z < 1050) P= 0,5328 SUBTRAÇÃO DE PROBABILIDADE
Z1 = 900 - 1000 = -1,00*
100 0,1587
Z2 = 0,50 → 0,6915 *Considere o sinal negativo
Z2 = 1050 - 1000 = 0,50
100 0,6915
Z1= -1,00 → 0,1587 P(x)= Z2 – Z1 → 0,6915 – 0,1587= 0,5328
700 800 900 1000 1100 1200 1300
-3z -2z -1z 0 +1z +2z +3z
Veja o Z‐escore destacado na tabela acumulada acima. Confronte o resultado com o exemplo 3.
Prof. MSc. Uanderson Rébula de Oliveira
Sumário
- 39 -
UNIDADE V
ESTATÍSTICA
INFERENCIAL E OS
INTERVALOS DE
CONFIANÇA
O objetivo da Estatística Inferencial é tirar conclusões sobre a
população com base em dados amostrais.
- 40 -
ESTATÍSTICA INFERENCIAL
O objetivo da Estatística Inferencial é tirar conclusões com base em amostras de tal modo que as
informações possam ser expandidas para toda a população.
AMOSTRA Uma amostra constitui numa redução da população a dimensões menores,
(uma parte da população) sem perda das características essenciais. Examina-se, então, a amostra. Se
essa amostra for bastante representativa, os resultados obtidos
poderão ser generalizados para toda a população. As conclusões
fundamentadas em uma amostra não serão exatamente as mesmas que
POPULAÇÃO
(todos os elementos em estudo)
você encontraria se estudasse toda a população, em função da variabilidade.
Então, toda conclusão tirada por uma amostragem virá acompanhada de um
grau de incerteza. A estatística inferencial possui técnicas que permitem dar
ao pesquisador um grau de confiabilidade, de confiança, nas afirmações que
Média = ? faz com a população, baseadas nos resultados amostrais. O problema
Desvio padrão = ? Média = a fundamental da estatística inferencial é, portanto, medir o grau de
Desvio padrão = b incerteza dessas generalizações. Conhecer a probabilidade de variação do
processo de inferência é importante. Com que probabilidade se pode confiar
nos resultados obtidos dos dados amostrais?
Exemplo de Estatística Inferencial:
Em 2002, estudo baseado numa amostra de Engenheiros e Gerentes de diversas empresas de
Construção Civil, acredita‐se que o salário médio dos cargos desse ramo são:
PARÂMETROS E ESTATÍSTICAS
Sempre que as relações forem calculadas com base em dados da população, chamamos de “PARÂMETROS”; e sempre que
essas relações se referirem à amostra serão chamadas de “ESTATÍSTICAS”.
PARÂMETROS Notação para PARÂMETRO e ESTATÍSTICA:
AMOSTRA
(uma parte da população) Notação
Nome da
relação PARÂMETRO ESTATÍSTICA
POPULAÇÃO (POPULAÇÃO) (AMOSTRA)
(todos os elementos em estudo) Tamanho N n
Média µ x̄
Variância σ2 S 2
Desvio Padrão σ S
ESTATÍSTICAS
µ (lê‐se mi) σ (lê‐se sigma minúsculo)
EXEMPLO:
PARÂMETRO (População) ESTATÍSTICA (amostra)
Considerando o salário anual dos 2.500 gerentes da Considerando uma amostra do salário anual de 30
empresa XTPO, temos: gerentes da empresa XTPO, temos:
x1 = R$ 47.874 x1 = R$ 47.874
x2 = R$ 51.896 x2 = R$ 51.896
x3 = R$ 49.567 µ = R$ 51.800 x3 = R$ 49.567 x̄ = R$ 51.927
. .
σ = R$ 4.000 S = R$ 3.348
. .
x2500 = R$ 53.456 x30 = R$ 50.301
Os resultados amostrais serão sempre diferentes da população. Essa diferença chama‐se erro.
- 41 -
INTERVALOS DE CONFIANÇA - IC
Um intervalo de confiança é uma faixa (ou um intervalo) de valores usada para se estimar o verdadeiro
valor de um parâmetro populacional, com certa probabilidade. Geralmente é abreviado por “IC”.
A palavra intervalo é usada porque seu resultado se torna um intervalo. A palavra confiança é usada porque você possui certa confiança no
processo pelo qual você chegou ao intervalo. Isso se chama nível de confiança (ou credibilidade). O intervalo de confiança associa‐se a um nível
de confiança, geralmente 95%., que é a probabilidade de que o intervalo estimado contenha o parâmetro populacional. Usamos o Intervalo de
confiança porque a estimativa pontual não indica quão boa é nossa melhor estimativa. Como a estimativa pontual tem a séria falha de não
revelar quão boa ela é, os estatísticos desenvolveram o IC.
0,95
/2 = ± 0,4750 → Z= ±1,96
‐ 0,4750 + 0,4750
s
Logo: IC x 1,96
n
x̄
z= ‐ 1,96 z= + 1,96
Pode‐se usar outros níveis de confiança:
Confiança desejada Escore “Z” (da tabela padrão) Equação
s
90% P= 0,4500 → z = 1,65 IC x 1,65
n
s
99% P= 0,4950 → z = 2,58 IC x 2,58
n
- 42 -
Interpretação: Você está 95% confiante que a idade média dos clientes que frequentam o restaurante está entre 25,21 anos e 31,79 anos.
2. Um analista de produção deseja estimar a média do tempo de vida útil das lâmpadas produzidas. Para tanto,
coletou uma amostra de 60 lâmpadas e verificou que a média de vida útil é de 1000 horas, com desvio padrão de 100
horas. Construa um intervalo de confiança de 90% para a média populacional.
n = 60 978,70 1021,30
x ̄= 1000 IC x z s = 100 = 1000 21,30 ‐ 21,30 +21,30
1000 1,65
s = 100 n 60
z = 1,65 970 980 990 1000 1010 1020 1030
Interpretação: Você está 90% confiante que a média do tempo de vida útil das lâmpadas produzidas está entre 978,70 horas e 1021,30 horas.
Nota: Quando a população for finita a equação precisa ser ajustada. Se n ≥ 0,05N, a equação é s N n , onde N = população.
IC x z
n N 1
- 43 -
Do exemplo 2 (página anterior) com 90% de confiança Do exemplo 2 (página anterior) mas com 95% de confiança
Uma maneira de aumentar a precisão de uma estimativa sem decrescer o nível de confiança é aumentar o tamanho da
amostra. Mas, qual o tamanho da amostra necessário para garantir certo nível de confiança para uma margem de erro E dada?
Da equação do intervalo de confiança, podemos formar a equação da determinação do tamanho da amostra.
s s E n z * s z*s Equação da determinação do tamanho da amostra
IC x z Ez n
n E 2 n = tamanho da amostra
z s
n
n z = escore desejado “normal”
s = desvio padrão
E = margem de erro
E
E = margem de erro
Calculando o tamanho da amostra.
(Mesmo exemplo anterior) Um analista de produção deseja estimar a média do tempo de vida útil das lâmpadas
produzidas. Para tanto, coletou uma amostra de 60 lâmpadas e verificou que a média de vida útil é de 1000 horas,
com desvio padrão de 100 horas. Construa um intervalo de confiança de 90% para a média populacional.
n = 60 s = 100 = 1000 21,30 978,70 1021,30
IC x z 1000 1,65 ‐ 21,30 +21,30
x ̄= 1000 n 60
s = 100 E = margem de erro
z = 1,65 970 980 990 1000 1010 1020 1030
A margem de erro foi E=21,30. O analista deseja aumentar a precisão do Intervalo de Confiança com uma
margem de erro E = 15. Quantas lâmpadas devem ser incluídas na amostra se ele quer estar 90% confiante?
n = ?
2 2
z = 1,65 z s →
1,65*100 = 121 lâmpadas. Interpretação: 60 lâmpadas já foram
s = 100 n coletadas, então o analista precisa de mais 61.
E = 15 E 15
Para amostras pequenas (n ≤ 30), a distribuição Normal apresenta valores menos precisos, o que nos leva a utilizar um
modelo melhor, a Distribuição t de Student (veja tabela próxima página), proposta pelo pesquisador Willian Gosset em 1908.
A distribuição t também tem a forma normal e é simétrica sobre a média. A principal diferença é que a distribuição t tem mais áreas nas
caudas, fazendo com que seus valores críticos sejam maiores que os da distribuição Normal. Como consequência, o intervalo de
confiança usando a distribuição t ficará mais largo se usa‐se a distribuição Normal. A idéia aqui é que você deve pagar um preço por
trabalhar com pequenas amostras.
Intervalo mais
Normal n = 15 t de Student n = 15 largo com t
Cada tamanho amostral possui sua própria distribuição t, ou seja, ao contrário da distribuição normal, a distribuição t não tem forma
fixa, mas sim uma família de curvas. Cada curva é determinada por um parâmetro chamado grau de liberdade, encontrado pelo
tamanho da amostra menos um. A idéia aqui é que o preço a ser pago por se ter uma amostra muito pequena, como 5, é mais alto do
que o preço por se ter uma amostra de tamanho um pouco maior, como 10 ou 20.
g.l. = n ‐ 1. Graus de liberdade Portanto, a distribuição t varia de acordo com o tamanho da amostra.
O grau de liberdade se refere ao número de valores que são livres para variar após estabelecerem algumas restrições de dados. Por
exemplo, se uma amostra de tamanho 4 produz uma média de 87, sabemos que a soma dos números é 4 * 87 = 348; isso não diz nada
sobre os valores individuais da amostra – há números infinitos de formas para se obter 4 números que somem 348; mas quando
escolhemos três deles, o quarto é determinado. O primeiro número pode ser 84, o segundo 98 e o terceiro 81, então o quarto tem de ser
85, o único número que produzirá a média amostral conhecida, ou seja, existe n ‐ 1 ou 3 graus de liberdade nesse exemplo.
- 44 -
Conforme os graus de liberdade aumentam, a distribuição t se aproxima da distribuição normal. Depois de 30 g.l., a distribuição t está
muito próxima à distribuição normal.
Curva t: quanto menor a amostra,
Família de curvas da Distribuição t: mais achatada e larga nas
‐ Quanto menor o tamanho da amostra, maior o erro. extremidades, em função do erro
‐ Quando amostra >30, aproxima‐se da distribuição normal
Exemplo. Um Analista Industrial deseja estimar a proporção de lâmpadas defeituosas produzidas. Coletou uma
amostra de 400 lâmpadas e verificou que 15% estão defeituosas. Construa um Intervalo de Confiança de 95%
para a proporção populacional.
p̂ = 0,15 11,6% 18,4%
0,15( 1 0,15 ) ‐ 3,4% +3,4%
n = 400 IC p 0,15 1,96 0,15 0,034
400
z = 1,96 11% 13% 15% 17% 19%
Interpretação: Você está 95% confiante que a proporção de lâmpadas defeituosas está entre 11,6% e 18,4%.
(Continuação exemplo anterior). Um Analista Industrial coletou uma amostra de 400 lâmpadas e verificou que
15% estão defeituosas. Construiu um IC com 95% de Confiança e margem de erro E = 0,034. Determine o
tamanho da amostra para aumentar a precisão com margem de erro E = 0,02, e com a mesma confiança.
p̂ = 0,15 n = ? 2 2
z 1,96
z = 1,96 n ˆp (1 ˆp) → 0,15 (1 0,15) = 1.224 lâmpadas.
E = 0,02 E 0,02
- 46 -
EQUAÇÃO do Intervalo de Confiança para o Desvio padrão
s S = desvio padrão
IC s z Z = escore Z da distribuição Normal
2n n = tamanho da amostra
Exemplo 1. Um analista deseja estimar o desvio padrão do tempo de vida útil das lâmpadas produzidas. Para
tanto, coletou uma amostra de 60 lâmpadas e verificou que a média de vida útil é de 1000 horas, com desvio
padrão de 100 horas. Construa um intervalo de confiança de 90% para o desvio padrão populacional.
84,94 115,06
S = 100 100 ‐ 15,06 +15,06
Z = 1,65 IC 100 1,65 → 100 15,06
2 60
n = 60
80 90 100 110 120
Interpretação: Você está 90% confiante que o desvio padrão populacional está entre 84,94 horas e 115,06 horas.
Para amostra n ≤ 30 (Use a distribuição χ2)
Para amostras pequenas (n ≤ 30), a distribuição Normal apresenta valores menos precisos, o que nos leva a utilizar um
modelo melhor, a distribuição χ2 (lê‐se qui‐quadrado), proposta por Karl Pearson. É importante salientar que muitos autores
usam o modelo χ2 para qualquer tamanho amostral, mesmo maior que 30, sem mencionar o método opcional (acima).
2 2
Cada tamanho amostral possui sua própria distribuição χ , ou seja, ao contrário da distribuição normal, a distribuição χ não tem forma
fixa, mas sim uma família de curvas. Cada curva é determinada por um parâmetro chamado grau de liberdade, encontrado pelo
tamanho da amostra menos um. A idéia aqui é que o preço a ser pago por se ter uma amostra muito pequena, como 5, é mais alto do
que o preço por se ter uma amostra de tamanho um pouco maior, como 10 ou 20.
g.l. = n ‐ 1. Graus de liberdade Portanto, a distribuição χ2 varia de acordo com o tamanho da amostra.
2 2
A distribuição χ tem a forma assimétrica positiva (à direita). Conforme os graus de liberdade aumentam, a distribuição χ se aproxima
2
da distribuição normal. Depois de 30 g.l., a distribuição χ está muito próxima à distribuição normal.
gl = 5 2
Família de curvas da Distribuição χ :
‐ Curvas assimétricas positivas
‐ Quanto menor o tamanho da amostra, maior o erro.
gl = 10
gl = 15 2
Curva χ com g.l = 30 aproxima‐se da
curva normal.
gl = 30
Nível de confiança
χ2L χ2R
- 47 -
Exemplo. Encontre os valores χ2L e χ2R e um intervalo de confiança de 90%, quando o tamanho da amostra for 20.
1º ‐ Ache o grau de liberdade – g.l. 2º ‐ encontrar as áreas de χ2L e χ2R
Como n = 20, os graus de liberdade são: Em razão da confiança c ser 90%, temos:
χ2L = 1 + c χ2R = 1 ‐ c
g.l. = n – 1
2 2
20 – 1 = 19
χ2L = 1 + 0,90 = 0,950 χ2R = 1 ‐ 0,90 = 0,050
2 2
3º ‐ encontrar os valores críticos na tabela χ2
Parte da tabela χ2 é exibida abaixo. Usando g.l.=19 e as áreas 0,95 e 0,05 encontramos os valores críticos, como destacado:
χ2L χ2R 0,90
2 2
Por meio da tabela você pode ver que: χ L = 10,1170 e χ R = 30,1435.
Interpretação: Então, 90% da área sob a curva está situada entre 10,1170 e 30,1435
2 2
χ L = 10,1170 χ R = 30,1435
Calculando o IC para o desvio padrão
3º ‐ encontrar valores críticos na tabela χ2 4º ‐ Use a equação do desvio padrão
Usando g.l.=14 e as áreas 0,975 e 0,025, os S = 100
valores críticos são (ver tabela próxima página): (15 1)1002 (15 1)1002
n = 15 < σ <
χ 2R = 26,1189 26,1189 5,6287
χ2L = 5,6287 e χ 2R = 26,1189
χ2L = 5,6287 73,21 < σ < 157,71
Interpretação: Com 95% de confiança, podemos dizer que o desvio padrão populacional está entre 73,21 horas e 157,71 horas
- 48 -
:
- 49 -
UNIDADE VI
ESTATÍSTICA
INFERENCIAL E OS
TESTES DE HIPÓTESES
É possível testar
afirmativas acerca de
populações?
“Atualmente, todos – estudantes e professores – procuram o Udemy porque é a
plataforma onde todos estão”.
Fonte: Jornal do Brasil
Saiba
mais
Clique aqui
www.udemy.com
Junte-se a milhões de estudantes na maior plataforma on-line
de cursos curtos e práticos do mundo.
Com mais de 45.000 cursos virtuais disponíveis, o Udemy é uma plataforma global de
ensino on-line onde 15 milhões de alunos estão dominando novas habilidades.
Conceitos introdutórios
TESTE DE HIPÓTESE é um procedimento usado para testar se a afirmação acerca de uma população é
verdadeira ou não, com base em dados amostrais.
Uma hipótese é uma suposição quanto ao valor de um parâmetro populacional. O teste de hipótese é tão somente uma regra de
decisão para ACEITAR ou REJEITAR uma hipótese qualquer (uma suposição, uma afirmação), com base nos elementos amostrais.
EXEMPLO. A FIAT afirma que o consumo de combustível do Pálio Fire é, em média, de 18 km/L. Uma revista
decide testar essa afirmação e analisa 50 veículos obtendo uma média de 17 km/L, que é diferente da informada
pelo fabricante.
O resultado de 17km/L não garante que a afirmação do fabricante seja falsa, pois você está se baseando em dados amostrais. Para
haver esta garantia só realizando um censo (toda a população), o que é teoricamente impossível.
O que devemos avaliar, com auxílio do Teste de Hipótese, é se a afirmação é verdadeira ou não, com base nos dados amostrais.
As hipóteses Nula e Alternativa sempre serão confrontadas. De todo o exposto, já podemos tirar algumas conclusões:
H0 será sempre de igualdade: Ha será sempre de desigualdade:
Nota: O que definirá se Ha trará um
Ha : µ ≠ 18 km/L
H0 : µ = 18 km/L sinal ≠ ou > ou < será o resultado
Ha: µ < 18 km/L
obtido na amostra.
...e é aquela que será testada. Ha : µ > 18 km/L
Erros de decisão. Uma vez realizado o teste com a Hipótese Nula (H0), poderão advir dois resultados:
Decisão H0 é verdadeira, sendo, portanto, ACEITA.
correta H0 é falsa, devendo, pois, ser REJEITADA. → (ao rejeitar H0, obviamente aceitamos a Hipótese Alternativa Ha).
Entretanto, ao realizar um teste, o pesquisador pode errar de duas formas:
H0 é verdadeira, mas será REJEITADA. → Chamamos de ERRO TIPO I.
Erros de (é o mesmo que condenar um inocente! O réu disse a verdade, mas seus argumentos foram rejeitados).
decisão H0 é falsa, mas será ACEITA. → Chamamos de ERRO TIPO II.
(é o mesmo que inocentar um culpado! O réu mentia, mas seus argumentos foram aceitos).
O NÍVEL DE SIGNIFICÂNCIA α é a PROBABILIDADE de se cometer um ERRO TIPO I, devendo ser sempre a menor possível.
Normalmente, usamos um Nível de Significância de 10% (0,10); 5% (0,05); ou 1% (0,01). Mas pode‐se usar qualquer α.
Tipos de Testes.
Usamos a curva normal (ou t) para realizar os testes, sendo três tipos possíveis, e o que será usado depende do sinal presente na hipótese alternativa Ha.
Teste de Hipótese para média (amostras grandes n > 30) (Distribuição Normal z)
Usamos a Distribuição Normal (z) para realizar o teste de hipótese para amostra maior que 30. Quando o desvio padrão é
conhecido, mesmo com amostra menor que 30, também podemos usar a Normal. Embora tenha 3 tipos de testes, na prática
aplicamos um ou outro, nunca os três conjuntamente. Mostraremos a aplicação dos três testes em problemas diferentes.
x x = média amostral z = Estatística de teste
A estatística de teste z
usada para média é: s µ = média Hipotética (H0)
s = desvio padrão
(n > 30)
n n = tamanho da amostra
EXEMPLO 1. TESTE UNILATERAL À ESQUERDA. A FIAT afirma que o consumo de combustível do Pálio Fire é, em média, de 18 km/L.
Uma revista decide testar essa afirmação e analisa 50 veículos da mesma marca, obtendo uma média de 17 km/L com desvio padrão
de 3km/L. Testar a hipótese, contra a alternativa de que o consumo é menor que 18km/L, com Nível de Significância de 6%.
6º passo: Verifique se a estatística de teste z caiu 7º e último passo: Tomada de decisão:
na Região de rejeição: Note que a estatística de teste z caiu na Região
de rejeição. Então, você deverá REJEITAR A
Região de
estatística de teste aceitação HIPÓTESE NULA (Ho).
Região de
(obtido no 5º passo) rejeição
0,94
Ou seja, não se pode aceitar que o consumo médio de
α 0,06
combustível do Pálio Fire 1.0 é de 18 km/L, contra a
hipótese de que seja menor que este valor, com uma
18km/L probabilidade de erro de 6%.
‐2,35 ‐1,56
-3z -2z -1z 0 +1z +2z +3z
EXEMPLO 2. TESTE UNILATERAL À DIREITA A FIAT afirma que o consumo de combustível do Pálio Fire é, em média, de 18 km/L. Uma
revista decide testar a afirmação e analisa 35 veículos da mesma marca, obtendo uma média de 18,5 km/L com desvio padrão de 2,5
km/L.. Testar a hipótese, contra a alternativa de que o consumo é maior que 18km/L, com Nível de Significância de 4%.
1º passo: Formular as hipóteses: 4º passo: Desenhar as Regiões de Rejeição e de 5º passo: Calcular a
H0 : µ = 18 km/L Aceitação, em função do escore z (nível α) : estatística de teste:
Ha : µ > 18 km/L
x
2º passo: Definir o tipo de teste a ser usado: Região de z
Como a média amostral foi 18,5km/L, temos um valor máximo
aceitação
0,96
s
Região de
aceitável. O sinal é >, logo, usamos o unilateral à direita. rejeição n
α 0,04
3º passo: Encontrar escore z que estabelece os limites de
18,5 18 = +1,18
Rejeição/Aceitação: α=4%(0,04) | 0,5 – 0,04 = 0,46 → z = +1,75 z
18km/L
2,5
Ao procurar 0,46 na tabela Normal, encontramos z = +1,75 (como o z=+1,75
teste é “unilateral à direita”, z será positivo). 35
6º passo: Verifique se a estatística de teste z caiu 7º e último passo: Tomada de decisão:
na Região de rejeição: Note que a estatística de teste z não caiu na
Região de Rejeição. Então, você deverá ACEITAR
Região de
aceitação A HIPÓTESE NULA (Ho).
estatística de teste 0,96 Região de
(obtido no 5º passo) rejeição Ou seja, pode‐se aceitar que o consumo médio de
α 0,04
combustível do Pálio Fire 1.0 é de 18 km/L, contra a
hipótese de que seja maior que este valor, com uma
18km/L
z=+1,75 probabilidade de erro de 4%.
z=+1,18
-3z -2z -1z 0 +1z +2z +3z
- 52 -
EXEMPLO 3. TESTE BILATERAL. A FIAT afirma que o consumo de combustível do Pálio Fire é, em média, de 18 km/L. Uma revista
decide testar a afirmação e analisa 42 veículos da mesma marca, obtendo uma média de 16,8 km/L com desvio padrão de 2 km/L.
Testar a hipótese, contra a alternativa de que o consumo não é de 18km/L, com Nível de Significância de 10%.
1º passo: Formular as hipóteses: 4º passo: Desenhar as Regiões de Rejeição e de 5º passo: Calcular a
H0 : µ = 18 km/L Aceitação, em função do escore z (nível α) : estatística de teste:
Ha : µ ≠ 18 km/L
Região de x
2º passo: Definir o tipo de teste a ser usado:
aceitação z
A idéia não é testar se é menor ou maior. Queremos testar um Região de Região de s
rejeição rejeição
intervalo aceitável. O sinal é ≠, logo, usamos o Bilateral. α 0,05 0,90 α 0,05 n
2 2
3º passo: Encontrar escore z que estabelece os limites de
16,8 18 = ‐3,88
Rejeição/Aceitação: α=10% | 0,90/2 = 0,45 → z = ‐1,65 e +1,65 z
18km/L 2
Ao procurar 0,45 na tabela Normal, encontramos z = ±1,65 (como o Z=‐1,65 Z=+1,65 (0,90/2 = 0,45)
teste é “Bilateral”, usamos z positivo e negativo). 42
6º passo: Verifique se a estatística de teste z caiu 7º e último passo: Tomada de decisão:
na Região de rejeição: Note que a estatística de teste z caiu na Região
de Rejeição. Então, você deverá REJEITAR A
Região de HIPÓTESE NULA (Ho).
estatística de teste aceitação
Região de Região de
(obtido no 5º passo) rejeição
rejeição Ou seja, não se pode aceitar que o consumo médio de
α 0,05 0,90 α 0,05 combustível do Pálio Fire 1.0 é de 18 km/L, contra a
2 2 hipótese de que seja diferente deste valor, com uma
probabilidade de erro de 10%.
18km/L
Z=‐1,65 Z=+1,65
z=‐3,88
-3z -2z -1z 0 +1z +2z +3z
x = média amostral Efetuar o Teste usando a Distribuição t de Student
x µ = média Hipotética (H0)
A estatística de teste t é similar a efetuar o Teste com a Normal z. Difere‐
usada para média é: s s = desvio padrão se apenas no 3º passo, onde usamos n ‐ 1 graus
(n ≤ 30)
n n = tamanho da amostra de liberdade e a tabela t para encontrar o limite
t = Estatística de teste t Student de Rejeição/Aceitação.
EXEMPLO 4. A FIAT afirma que o consumo de combustível do Pálio Fire é, em média, de 18 km/L. Uma revista decide testar essa
afirmação e analisa 22 veículos da mesma marca, obtendo uma média de 17,4 km/L com desvio padrão de 1,7km/L. Testar a hipótese
de que o consumo é menor que 18km/L, com Nível de Significância de 5%.
6º passo: Verifique se a estatística de teste t caiu 7º e último passo: Tomada de decisão:
na Região de rejeição: Note que a estatística de teste z não caiu na
Região de rejeição. Então, você deverá ACEITAR
Região de
aceitação
A HIPÓTESE NULA (Ho).
Região de
rejeição
A única diferença 0,95
Ou seja, pode‐se aceitar que o consumo médio de
α 0,05
da t para z está combustível do Pálio Fire 1.0 é de 18 km/L, contra a
no 3º passo. hipótese de que seja menor que este valor, com uma
18km/L probabilidade de erro de 5%.
‐1,721
‐1,65
-3z -2z -1z 0 +1z +2z +3z
- 53 -
p p0 p = proporção amostral
A estatística de teste z p0 = proporção Hipotética (H0)
usada para p0( 1 p0) n = tamanho da amostra
Proporções é: n z = Estatística de teste z (Normal)
EXEMPLO 5. Inspeciona-se uma amostra de 200 peças de uma grande remessa, encontrando-se 8% de peças defeituosas (200 x 0,08 =
16 peças defeituosas). O fornecedor garante que não haverá mais de 6% de peças defeituosas em toda a remessa. Testar a hipótese de
que a proporção de peças defeituosas é maior que 6%, com Nível de Significância de 5%.
1º passo: Formular as hipóteses: 4º passo: Desenhar as Regiões de Rejeição e 5º passo: Calcular a
H0 : p0 = 6% de Aceitação, em função do escore z (nível α) estatística de teste z:
Ha : p > 6%
p p0
2º passo: Definir o tipo de teste a ser usado:
Região de z
Como a proporção amostral foi 8%, temos um valor máximo aceitação p0( 1 p0)
0,95 Região de
aceitável. O sinal é >, logo, usamos unilateral à direita. n
rejeição
3º passo: Encontrar escore z que estabelece os limites de α 0,05
0,08 0,06
Rejeição/Aceitação: α=5% | 0,5 – 0,05= 0,45 → z=+1,65 z = +1,19
0,06( 1 0,06)
Ao procurar 0,45 na tabela Normal, encontramos z = +1,65 (como o z=+1,65
teste é “unilateral à direita”, usamos z positivo). 200
6º passo: Verifique se a estatística de teste z caiu 7º e último passo: Tomada de decisão:
na Região de rejeição: Note que a estatística de teste z não caiu na
Região de Rejeição. Então, você deverá ACEITAR
Estatística de teste Região de
aceitação A HIPÓTESE NULA (Ho).
(obtida no 5º passo) 0,95 Região de
rejeição Ou seja, pode‐se aceitar que a proporção de peças
α 0,05
defeituosas seja de 6%, contra a hipótese de que seja
maior que este valor, com uma probabilidade de erro
z=+1,65 de 5%.
z=+1,19
-3z -2z -1z 0 +1z +2z +3z
Teste de Hipótese para o Desvio padrão (Distribuição χ 2)
Usamos a Distribuição χ 2 (qui‐quadrado) para realizar o teste de hipótese para o desvio padrão. (qualquer tamanho amostral)
2
n = tamanho da amostra Efetuar o Teste usando a Distribuição χ é
A estatística de ( n 1) ( S)2
S = desvio padrão amostral similar a efetuar o Teste com t. Difere‐se
teste usada para o 2 S0 = desvio padrão Hipotético (H0) apenas no 3º passo, onde usamos n ‐ 1
desvio padrão é: ( S0 ) 2 2
graus de liberdade e a tabela χ para
χ2=Estatística teste (qui‐quadrado)
encontrar o limite de Rejeição/Aceitação.
EXEMPLO 6. TESTE BILATERAL. A FIAT afirma que o consumo de combustível do Pálio Fire é, em média, de 18 km/L., com desvio
padrão de 1,2 km/L Uma revista decide testar essa afirmação e analisa 20 veículos da mesma marca, obtendo uma média de 17,4
km/L com desvio padrão de 1,7km/L. Testar a hipótese de que o desvio padrão não é de 1,2 km/L, com Nível Significância 10%.
1º passo: Formular as hipóteses: 2º passo: Definir o tipo de teste a ser usado:
H0 : S0 = 1,2 km/L A idéia não é testar se é menor ou maior. Queremos testar um intervalo
Ha : S ≠ 1,2 km/L aceitável. O sinal é ≠, logo, usamos o Bilateral.
3º passo: encontrar os valores χ2L e χ2R com nível de significância α =10% (90% de confiança), quando o tamanho da amostra for 20.
2 2
1º ‐ Ache o grau de liberdade – g.l. 2º ‐ encontrar as áreas de χ L e χ R
Como n = 20, os graus de liberdade são: Em razão da confiança c ser 90%, temos:
2
χ L = 1 + c χ
2
R = 1 ‐ c
g.l. = n – 1 2 2
20 – 1 = 19 2
χ L = 1 + 0,90 = 0,950
2
χ R = 1 ‐ 0,90 = 0,050
2 2
2
3º ‐ encontrar os limites de Rejeição e Aceitação na tabela χ
2
Parte da tabela χ é exibida abaixo. Usando g.l.=19 e as áreas 0,95 e 0,05 encontramos os valores críticos, como destacado:
Por meio da tabela você pode ver os
χ2L χ2R limites de Rejeição/Aceitação:
2 2
4º passo: Calcular a estatística de teste χ2 χ L = 10,1170 e χ R = 30,1435.
( n 1) ( S) 2 ( 20 1) ( 1,7) 2
2 2 = 38,13 0,90 Região de
( S0 ) 2 ( 1,2 ) 2 aceitação
Região de
5º passo:Tomada de decisão: rejeição 0,05 Região de
Observe que 38,13 caiu na Região de rejeição. rejeição 0,05
Portanto, deve‐se REJEITAR A HIPÓTESE NULA
2 2
χ L = 10,1170 χ R = 30,1435
38,13
- 55 -
2 2
Para testes unilaterais à esquerda, usamos χ L como limite de Rejeição. Para testes unilaterais à direita, usamos χ R como limite de Rejeição.
2 2
Para unilateral à esquerda (χ L ) use sempre 1 – α Para unilateral à direita (χ R) use sempre α
- 56 -
EXEMPLO. TESTE UNILATERAL À ESQUERDA. Encontre χ2L quando o tamanho da amostra for 23, com nível de significância 10%
g.l. = n – 1 → 23 – 1 = 22 Usando g.l. = 22 com α = 0,90, encontramos 14,0415 na tabela χ2
2
1 – α → 1 – 0,10 = 0,90 Nota: para testes χ L use sempre 1 – α
Região de
aceitação 0,90
Região de
rejeição 0,10
χ2L = 14,0415
EXEMPLO. TESTE UNILATERAL À DIREITA. Encontre χ2R quando o tamanho da amostra for 41, com nível de significância 5%
g.l. = n – 1 → 41 – 1 = 40 Usando g.l. = 40 com α = 0,05, encontramos 55,7585 na tabela χ2
2
α → 0,05 Nota: para testes χ R use sempre α
Região de
aceitação 0,95
Região de
rejeição 0,05
χ2R = 55,7585
TABELA DE DISTRIBUIÇÃO NORMAL PADRÃO
Z Último dígito
0 1 2 3 4 5 6 7 8 9
- 57 -
Nos capítulos anteriores, mostramos como determinar INTERVALOS DE CONFIANÇA e realizar TESTES DE HIPÓTESES para
situações que envolvem UMA ÚNICA AMOSTRA de dados extraída de UMA ÚNICA POPULAÇÃO.
Agora, você ESTENDERÁ o TESTE DE HIPÓTESE e INTERVALOS DE CONFIANÇA para procedimentos que COMPARAM
estatísticas oriundas de DUAS AMOSTRAS de dados extraídas de DUAS POPULAÇÕES.
Justificativas e exemplos (adaptado de Farias et al, 2003):
Em muitas áreas da atividade humana há uma busca contínua por novos métodos, novos procedimentos que superem
ou melhorem, em certo sentido, aqueles já existentes:
No setor de transportes, procuramos motores de maior rendimento e de menor ruído.
A medicina procura drogas com maior poder de cura e o mínimo possível de efeitos colaterais.
Na agricultura, buscamos variedades mais adequadas e mais produtivas de cereais.
Um produtor quer saber se o novo cimento‐e‐cola para fixar azulejos tem maior grau de aderência que o atual.
Em todas essas situações, é preciso comparar as técnicas usuais com os métodos alternativos. A comparação da
eficiência de duas drogas, de dois métodos de produção de cimento‐e‐cola ou, em geral, de dois tratamentos é, pois, uma
questão importante que surge frequentemente no trabalho de pesquisa e desenvolvimento.
A escolha entre dois tratamentos diferentes não é uma tarefa tão simples como, a princípio, possa parecer. É necessário
realizar experimentos, coletar informações e fazer inferências (julgar) a partir da evidência experimental.
Tomemos o caso de duas terapias alternativas. Se todos os portadores de determinada doença se comportassem de
maneira idêntica em relação aos tratamentos utilizados, bastaria examinar o comportamento de um frente às
alternativas existentes; a decisão sobre qual é o melhor deles seria óbvia. Nenhuma análise estatística seria necessária.
Tal, entretanto, não é o caso. A reação a um tratamento varia de indivíduo para indivíduo, e, via de regra, não há
tratamento ótimo para todos. Como, em geral, não se conhece a reação de cada indivíduo, prescreve‐se o tratamento
que, em média, dá os melhores resultados.
O procedimento para determinar qual dos dois tratamentos é, em média, o mais eficiente envolve a seleção de duas
amostras e a comparação dos resultados obtidos. Neste capítulo, discutiremos como comparar os efeitos médios de dois
tratamentos.
Teste de Hipótese para a diferença de duas médias
Para amostras dependentes (dados emparelhados)
Duas amostras são dependentes se cada membro de uma amostra corresponde a “Antes” “Depois”
um membro de outra amostra. Amostras dependentes envolvem duplas idênticas,
“antes e depois” de resultados para a mesma pessoa ou objeto. Veja ao lado.
Para cada par definido, o valor da primeira amostra está claramente associado ao
respectivo valor da segunda amostra.
Nestes casos as duas amostras serão de mesmo tamanho.
Amostras dependentes também são chamadas de amostras relacionadas ou dados amostra 1 amostra 2
emparelhados.
A equação para resolução de dados emparelhados é mostrada abaixo.
EQUAÇÃO DADOS EMPARELHADOS (use t ou z)
d = média das diferenças, dada por Estatística de teste Sd = desvio padrão das diferenças, dado por
t
d 2
d
d d2
d Sd n
n n Sd
n 1
“d” é a diferença de cada dado,
2
encontrado por X2‐X1 “d ” é a diferença de cada dado, ao quadrado
t = distribuição t de Student. Use a Normal Z se n>30. n = tamanho da amostra.
Exemplo 1. Dez cobaias adultas foram submetidas ao tratamento com certa ração para engordar, durante uma
semana. Os animais foram perfeitamente identificados, tendo sido mantidos, para tanto, em gaiolas individuais. Os
pesos, em gramas, no princípio e no fim de semana, designados respectivamente por X1 e X2 são dados a seguir.
Ao nível de 1% de significância, podemos concluir que o uso da ração contribuiu para o aumento do peso médio dos
animais? (Moretim)
- 58 -
Resolução: A tabela com os dados da experiência é mostrada abaixo, juntamente com os cálculos do 1º e 2º passos.
1º passo: Encontrar d (X2‐X1) e ∑d (para permitir cálculo de d , que é a média das diferenças).
2º passo: Encontrar d2 e ∑d2 (para permitir cálculo de Sd, que é o desvio padrão das diferenças).
Dados da experiência
diferença d 2 3º passo: Calcular d
Cobaia X1 X2 d
d d 66 = 6,6
(X2‐X1)
n é o tamanho da amostra
1 635 640 5 25
n 10
2 704 712 8 64
3 662 681 19 361
4 560 558 ‐2 4
5 603 610 7 49
6 745 740 ‐5 25 4º passo: Calcular Sd
7 698 707 9 81 d 2 66 2
8 575 585 10 100 d2 882
n 10 = 7,043
9 633 635 2 4 Sd
10 669 682 13 169 n 1 10 1
∑d=66 ∑d2=882
5º passo: Executar o Teste de Hipótese.
5.1 Formular as hipóteses
Em termos da diferença ”d”, as hipóteses são descritas como:
H0 : µ = 0
Ha : µ > 0
5.2 Definir o tipo de teste a ser usado
TABELA DISTRIBUIÇÃO t DE STUDENT (PARCIAL) O sinal é >. Então o teste será unilateral à direita.
Confiança, c 50% 80% 90% 95% 98% 99%
Em muitas situações em que desejamos comparar as médias dos efeitos de dois tratamentos,
não se utiliza o esquema de dados emparelhados, seja porque o emparelhamento não é
possível, seja porque não é a maneira mais conveniente de se fazer a comparação. Dividem‐se
então os indivíduos em estudo em dois grupos separados.
Neste caso as duas amostras podem ser de tamanhos diferentes.
amostra 1 amostra 2
Se os dados não são emparelhados, não terá sentido calcular as diferenças “d” entre os valores das duas amostras, e o teste deverá ser
baseado na diferença X1 ‐ X2 entre as médias das duas amostras. Temos dois casos para amostras independentes: teste Z para amostras
grandes (n>30, ou se o desvio padrão for conhecido) e teste t para amostras pequenas (n≤30, ou se o desvio padrão for desconhecido).
Teste Z para amostras grandes (n>30)
EQUAÇÃO TESTE Z DADOS NÃO EMPARELHADOS (n>30)
Estatística de teste X1 =média da amostra população 1
X1 X 2 X 2 = média da amostra população 2
A estatística de teste z segue uma z
S1 = desvio padrão da população 1
2 2
(S1) (S2)
distribuição normal. S2 = desvio padrão da população 2
n1 n2 n1 = tamanho da amostra população 1
n2 = tamanho da amostra população 2
Exemplo 1: Um fabricante produz dois tipos de pneus, A e B. Uma grande companhia de taxi testou a durabilidade de 50
pneus do tipo A, obtendo média de 24.000km e desvio padrão de 2.500km, e 40 pneus do tipo B, obtendo média de
26.000km e desvio padrão de 3.000km. Ao nível de 4% de significância, testar a hipótese de que a duração média dos dois
tipos de pneus é diferente (ou seja, não é a mesma).
Ao procurar 0,48 na tabela Normal, encontramos z = ±2,05
(pois 0,4798 é mais próximo. Como o teste é “Bilateral”,
usamos z positivo e negativo).
6º passo: Verifique se a estatística de teste caiu 7º e último passo: Tomada de decisão:
na Região de rejeição: A estatística de teste caiu na Região de Rejeição.
Então, deve‐se REJEITAR A HIPÓTESE NULA (Ho).
Região de
estatística de teste aceitação
Ou seja, Não se pode aceitar que a durabilidade média
Região de Região de
(obtido no 5º passo) rejeição dos pneus é a mesma. Concluímos que os pneus tem
rejeição
α 0,02 0,96 α 0,02 durabilidade média diferente.
2 2
z=‐2,05 z=+2,05
z=‐3,38
- 60 -
UNIDADE VII
Complementos
Gráficos e Tabelas, 61
Distribuição de frequências em classes, 65
Medidas de posição (Média, Mediana e Moda), 68
Medidas de Ordenamento (Quartil, Decil e Percentil), 74
Vocabulário básico de Estatística, 76
População e amostra, 78
Estatística Descritiva e Inferencial, 80
- 61 -
GRÁFICOS E TABELAS
As tabelas e gráficos constituem um importante instrumento de análise e interpretação de um conjunto de dados.
Diariamente é possível encontrar tabelas e gráficos nos mais variados veículos de comunicação (jornais, revistas, televisão,
Internet), associadas a assuntos diversos do nosso dia‐a‐dia, como resultados de pesquisas de opinião, saúde e
desenvolvimento humano, economia, esportes, cidadania, etc. A importância das tabelas e dos gráficos está ligada sobretudo à
facilidade e rapidez na absorção e interpretação das informações por parte do leitor e também às inúmeras possibilidades de
ilustração e resumo dos dados apresentados.
TABELAS
São quadros que resumem um conjunto de dados.
Título – conjunto de informações sobre o estudo.
Cabeçalho –especifica o conteúdo das colunas
Coluna indicadora –especifica o conteúdo das linhas
Coluna numérica ‐–especifica a quantidade das linhas
Linhas – retas imaginárias de dados
Célula – espaço destinado a um só número
Rodapé – simplesmente a fonte dos dados
Tipos de Tabelas
SÉRIE HISTÓRICA SÉRIE GEOGRÁFICA SÉRIE ESPECÍFICA
Descreve os valores da variável, Descreve os valores da variável, Descreve os valores da variável,
discriminados por TEMPO (anos, discriminados por REGIÕES (países, discriminados por temas
meses, dias, horas, etc. cidades, bairros, ruas, layout, etc) ESPECIFICOS.
SÉRIE CONJUGADA
É utilizado quando temos a necessidade de apresentar em uma única
tabela a variação de valores DE MAIS DE UMA VARIÁVEL, isto é,
fazer de forma conjugada de duas ou mais séries.
Esta série, por exemplo, é GEOGRÁFICA – HISTÓRICA
- 62 -
GRÁFICOS
A importância dos gráficos está ligada à facilidade e rapidez na absorção e interpretação das informações e
também às inúmeras possibilidades de ilustração e resumo dos dados apresentados. Eis os mais usados:
Gráfico em Linha (para séries históricas)
É a representação dos valores por meio de linhas. Usamos quando precisamos de uma informação rápida de um
valor ao longo do tempo.
ACIDENTES DO TRABALHO
SÃO PAULO: 1989 ‐ 1994
10000
8658 9578
8000 7265
6325 6254
Quantidade
6000
5458
4000
2000
0
1989 1990 1991 1992 1993 1994
Anos
FONTE: Dados fictícios
ACIDENTES DO TRABALHO EM
SÃO PAULO: 1989 ‐ 1991
2500
São Paulo
2000
Guarulhos
Quantidade
1500 Campinas
Osasco
1000 Santos
500
0
1989 1990 1991
FONTE: Dados fictícios anos
Gráfico em Colunas
É a representação dos valores por meio de retângulos, dispostos verticalmente. Utiliza‐se muito quando
necessitamos saber a quantidade de valor.
QUANTIDADE DE ACIDENTES DO TRABALHO
SÃO PAULO: 1989 ‐ 1994
12000
9578
10000
8658
7265
8000
Quantidade
6325 6254
6000 5458
4000
2000
0
1989 1990 1991 1992 1993 1994
FONTE: Dados fictícios Anos
- 63 -
Gráfico em Barras
É o mesmo conceito que o de Colunas, porém utiliza‐se sempre que os dizeres a serem inscritos são extensos.
QUANTIDADE DE ACIDENTES DO TRABALHO
EM SÃO PAULO ‐ POR TIPO ‐ 1989
Corte 598
Queda 3578
Tipo
Atrito 698
Perfuração 55
Impacto 1396
0 1000 2000 3000 4000
Quantidade
FONTE: Dados fictícios
Gráfico em Setores
Este gráfico é construído com base em um círculo, e é empregado sempre que desejamos ressaltar a participação
de um dado no total, geralmente na forma de porcentagem.
ACIDENTES DO TRABALHO
SÃO PAULO ‐ 1989
FONTE: Dados fictícios
Gráfico Polar
É o gráfico ideal para representar séries temporais cíclicas, isto é, séries temporais que apresentam em seu
desenvolvimento determinada periodicidade, por exemplo, o mês de janeiro a dezembro.
ACIDENTES DO TRABALHO
SÃO PAULO ‐ 1989
Gráfico de Pareto
É um gráfico de colunas na qual a altura de cada barra representa os dados, porém na ordem de altura
decrescente, com a coluna mais alta posicionada à esquerda. Tal posicionamento ajuda a enfatizar dados
importantes e é frequentemente usado nos negócios.
Os cinco veículos mais vendidos Os cinco veículos mais vendidos
no Brasil em janeiro de 1995 no Brasil em janeiro de 1995
40
Quantidade
Quantidade (milhões)
34
Veículo 30
(milhões) 30
25 22
Ômega 34
20 15
Monza 30
Gol 25 10
Corsa 22
Fusca 15 0
Número de cada
Delegacia
FONTE: SSP/SP
- 65 -
EXEMPLO
Um radar instalado na Dutra registrou a velocidade (em Km/h) de 40 veículos, indicadas abaixo:
Velocidade de 40 veículos (Km/h) Distribuição de frequência com classes
Limite Limite
70 90 100 110 123 inferior i Velocidade (Km/h) f superior
71 93 102 115 123 1 70 80 4
73 95 103 115 123 Classes 2 80 90 4
76 97 105 115 123 3 90 100 8
80 97 105 117 124 4 100 110 8
81 97 109 117 124 5 110 120 6
83 99 109 121 128
6 120 130 10
86 99 109 121 128
f=40
Distribuição de frequência
A distribuição em ”classes” é como se fosse uma compressão dos dados. Imagine se
Nota f fizéssemos uma distribuição de frequência de todas velocidades (de 70 a 128). A tabela
70 1 ficaria imensa! Por este motivo existe a distribuição de frequência com classes.
71 1 Como criar uma Distribuição de Freqüência com classes
73 1
1. Calcule a quantidade de classes (i), pela raiz da quantidade de dados. São
76 1
40 veículos. Então, 40 = 6,3 i = 6 classes.
80 1
81 1 2. Calcule a amplitude de classe (h) que é o tamanho da classe, sendo:
83 1 Maior valor – Menor valor = 128 – 70 = 9,6 h=10
86 1 quantidade de classes (i) 6
90 1
Nota: o Maior valor (128) e o Menor valor (70) são obtidos da lista dos registros das
93 1 velocidades dos 40 veículos.
95 1
3. Montar as classes a partir do Menor valor (70), somando com a
97 3 amplitude de classe (10) até que se chegue na 6ª classe, assim:
99 2
100 1 i Velocidade (Km/h)
1 70 +10 80
102 1
2... 80 +10 90
103 1
...6 120 +10 130
105 2
109 3 TIPOS DE INTERVALOS DE CLASSE
110 1
Tipo Representação Dados do intervalo
115 3
Aberto 70 80 70, 71, 72, 73, 74, 75, 76, 77, 78, 79, 80
117 2
Fechado à esquerda 70 80 70, 71, 72, 73, 74, 75, 76, 77, 78, 79, 80
121 2 Fechado 70 80 70, 71, 72, 73, 74, 75, 76, 77, 78, 79, 80
Fechado à direita 70 80 70, 71, 72, 73, 74, 75, 76, 77, 78, 79, 80
123 4
124 2 No Brasil usa‐se o intervalo (Resolução 866/66 do IBGE). Já na literatura estrangeira
utiliza‐se comumente com intervalo fechado.
128 2
CONCEITOS IMPORTANTES
f=40
LIMITES DE CLASSE ‐ São os valores extremos de cada classe. No exemplo 70 80,
temos que o limite inferior é 70 e o limite superior 80.
É fácil ver que a distribuição de frequências
diretamente obtida a partir desses dados é AMPLITUDE TOTAL DA DISTRIBUIÇÃO (AT) – É a diferença entre o limite superior da
dada uma tabela razoavelmente extensa. última classe e o limite inferior da primeira classe, no exemplo 130 – 70 = 60.
AMPLITUDE AMOSTRAL (AA) – É a diferença entre o valor máximo e o valor mínimo
da amostra, no exemplo 128 – 70 = 58.
- 66 -
Abaixo vemos as distribuições de frequências absoluta f, relativa fr(%), absoluta acumulada Fa e relativa acumulada FRa(%),
bem como o Histograma desta distribuição.
Distribuição de freqüência com classes f, fr(%), Fa e FRa (%)
Resultados dos registros
12 de um radar
Quantidade de veículos
10
i Velocidade (Km/h) f Fr(%) Fa FRa(%) 10
1 70 80 4 10% 4 10% 8 8
8
2 80 90 4 10% 8 20% 6
3 90 100 8 20% 16 40% 6
4 4
4 100 110 8 20% 24 60% 4
5 110 120 6 15% 30 75%
2
6 120 130 10 25% 40 100%
0
f=40 100%
70 80 90 100 110 120 130
Velocidade (Km/h)
OUTRAS REPRESENTAÇÕES GRÁFICAS DE UMA DISTRIBUIÇÃO DE FREQUÊNCIA
Polígono de frequência – É um gráfico em linha que representa os pontos centrais dos intervalos de classe.
Para construir este gráfico, você deve calcular o ponto central de classe (xi), que é o ponto que divide o intervalo de classe em
duas partes iguais. Por exemplo, a velocidade dos veículos da 1ª classe pode ser representada por 70 + 80 = 75Km/h
2
i Velocidade (Km/h) f xi
Resultados dos registros
12 de um radar
1 70 80 4 75
Quantidade de veículos
10
2 80 90 4 85 Ponto central
3 90 100 8 95
75Km/h
8
4 100 110 8 105
6
5 110 120 6 115
4
6 120 130 10 125
70 80
2
f=40
0
A construção de um polígono de frequências é muito simples. Primeiro, 70 75 80 85 90 95 100 105 110 115 120 125 130
construímos um histograma; depois marcamos no “telhado” de cada
Velocidade (Km/h)
coluna o ponto central e unimos sequencialmente esses pontos.
Ogiva – (pronuncia‐se o’jiva). Conhecida também por polígono de frequência acumulada. É um gráfico em linha que
representa as freqüências acumuladas (Fa), levantada nos pontos correspondentes aos limites superiores dos intervalos de
classe. Para construí‐la, você deve elaborar o histograma de freqüência f em uma escala menor, considerando o último valor a
freqüência acumulada da última classe, no caso, 40.
Resultados dos registros
40 40
i Velocidade (Km/h) f Fa de um radar
Quantidade de veículos
35
1 70 80 4 4 30
30
2 80 90 4 8
24
25
3 90 100 8 16 20 16
4 100 110 8 24
15
5 110 120 6 30 8 8 8 10
10 6
6 120 130 10 40
5 4 4 4
f=40
0
70 80 90 100 110 120 130
Velocidade (Km/h)
- 67 -
MEDIDAS DE POSIÇÃO E
ORDENAMENTO
O que dizer se um professor quer saber sobre as notas dos 110 alunos de uma disciplina? Poderíamos, talvez,
utilizar para resposta uma tabela com as frequências das notas. Porém, o professor gostaria de uma resposta
rápida, que sintetize a informação que se tem, e não uma distribuição de frequência das notas coletadas.
Para resumir a quantidade de informação contida em um conjunto de dados, utilizamos, em estatística, medidas
que descrevem, POR MEIO DE UM SÓ NÚMERO, características desses dados. Veja exemplo abaixo.
NOTAS DE ESTATÍSTICA DE 110 ALUNOS DA ESCOLA A
5.6 8.3 4.5 8.7 3.9 9 5.5 7.9 9.5 10
9.6 6.6 5.3 3 9.5 3.9 9 5.6 7 5.9
7 8.9 2 8.7 9 3 8 6.7 4.2 6.5
6.5 4.6 9.5 5.3 3.9 9 3 8.8 9 8.9
7.1 6.5 3.9 4.9 9.4 5.3 9.5 2 5.3 7.5
9.2 9.8 9.5 5.9 5.5 5 7 8.3 5.6 9
6.1 5.6 4.9 6.5 9 9.6 7.5 7 9 4.5
4.2 8.9 9.6 9.8 8 6.5 7.9 2 5 5.3
7.3 8 9 5.6 1 9.8 4 9.5 3.6 5
8.6 4.2 9.6 8.9 5.9 4.2 6 5.3 8 2.8
9.2 9 9.8 3.9 8 9.5 3.3 8.4 5.3 4.5
Para uma conclusão rápida, qual foi o desempenho desses alunos? Isto pode ser respondido com as medidas abaixo.
Através dessas informações é possível analisar o desempenho desses alunos.
- 68 -
MÉDIA
MÉDIA SIMPLES - É uma medida que representa um valor típico ou normal num conjunto de dados.
A média simples serve como um “ponto de equilíbrio” em um conjunto de dados (como o ponto de apoio de uma
gangorra). Cada dado tem igual importância e peso. Sofre a influência de todos os dados.
A Média simples é obtida pela seguinte equação:
x = x → soma dos valores dos dados A Média é representada por x
n → quantidade de dados (lê‐se “x barra”)
EXEMPLO. Supondo que uma escola adote como critério de aprovação a Média 7,0 e, considerando as quatro
notas de João e Maria durante o ano, informe se foram aprovados.
Média das notas de João
Notas de João: 3,5 | 6,0 | 9,5 | 9,0 | 10.0 9.5 9.0
8.0 7,0 Média de João
x = x 3,5 + 6,0 + 9,5 + 9,0 6.0
Notas
6.0
n 4
4.0 3.5
x = 7,0 → aprovado 2.0
0.0
1º Bim 2º Bim Média 3º Bim 4º Bim
Bimestres
MÉDIA PONDERADA. Semelhante a Média simples, porém, atribuindo-se a cada dado um peso que
retrate a sua importância.
O termo “ponderação” é sinônimo de peso, importância, relevância. Sugere, então, a atribuição de um peso a um determinado dado.
Em alguns casos, os valores variam em grau de importância, de modo que podemos querer ponderá‐los apropriadamente. É calculada
multiplicando‐se um peso por cada valor, fazendo com que alguns valores influenciem mais fortemente a média do que outros.
A Média ponderada é obtida pela seguinte equação: Vamos representar a
Média ponderada por
xp = (x . p) → soma dos valores . pesos
xp
p → soma
dos pesos
EXEMPLO Supondo que uma escola adote como critério de aprovação a Média 7,0, sendo que as provas bimestrais
são ponderadas com pesos 1, 2, 3 e 4, respectivamente para o 1º bim, 2º bim, 3º bim e 4º bim. Considerando as
notas de João (na ordem bimestral crescente), informe se foi aprovado.
Notas de João: | 9,0 | 8,0 | 6,0 | 5,0 Média ponderada das notas de João
10,0 9,0
x p = (x . p) 8,0
8,0
Notas e pesos
MÉDIA DE DISTRIBUIÇÃO DE FREQUÊNCIA – aplica-se quando não se tem a lista original dos dados
Quando trabalhamos com uma distribuição de frequência, não sabemos os valores exatos que caem em
determinada classe. Para tornar possíveis os cálculos, consideramos que, em cada classe, todos os valores
amostrais sejam iguais ao ponto central de classe. Por exemplo, considere o intervalo de classe 70 80, com
uma frequência de 4. Admitimos que todos os 4 valores sejam iguais a 75 (o ponto central de classe). Com o total
de 75 repetido 4 vezes, temos um total de 75 x 4 = 300. Podemos, então, somar esses produtos obtidos de cada
classe para encontrar o total de todos os valores, os quais, então, dividimos pela quantidade de dados.
É importante salientar que a distribuição de frequência resulta em uma aproximação da média
porque não se baseia na lista original exata dos valores amostrais.
CALCULANDO A MÉDIA DE DISTRIBUIÇÃO DE FREQUÊNCIA COM INTERVALO DE CLASSE
Ponto central de classe
Procedimento:
i Velocidade (Km/h) f x f . x
1. Multiplicar as frequências f pelos pontos centrais
1 70 80 4 x =
75 300 de classe x e adicionar os produtos.
2 80 90 4 85 340 2. Somar as frequências f;
3 90 100 8 95 760 3. Somar os produtos (f.x);
4 100 110 8 105 840 4. Aplicar a fórmula abaixo:
5 110 120 6 115 690
6 120 130 10 125 1250 x = (f.x) → 4180 = 104,5 Km/h
f 40
f=40 ‐ (f.x) = 4180
Média a partir de um HISTOGRAMA COM INTERVALOS DE CLASSE:
10
(4*75)+(4*85) ... adicionar os produtos. Depois, divida pela soma das
8 8
8 freqüências.
6
6
+ (4*75)+(4*85)+(8*95)+(8*105)+(6*115)+(10*125)
4 4
4
4+4+8+8+6+10
2 x x
0 x = (f.x) → 4180 = 104,5 Km/h
75 85 95 105 115 125
70 80 90 100 110 120 130
f 40
Velocidade (Km/h)
CALCULANDO A MÉDIA DE DISTRIBUIÇÃO DE FREQUÊNCIA SEM INTERVALO DE CLASSE
Nota (x) f f . x Quando a distribuição não tem agrupamento de classes,
(nº de alunos) consideraremos as frequências como sendo os pesos
4,0 5
X = 20 dos elementos correspondentes:
5,0 3 15
6,0 2 12 (5*4,0)+(3*5,0)+(2*6,0)+(3*7,0)+(2*8,0)+(10*9,0)
7,0 3 21 5+3+2+3+2+10
8,0 2 16
9,0 10 90 x =(f.x) → 174 = 6,96
f=25 (f.x) = 174 f 25
Média a partir de um HISTOGRAMA SEM INTERVALO DE CLASSE Multiplique a freqüência por “x” (notas) e adicione os
produtos. Depois, divida pela soma das freqüências.
Desempenho dos alunos na prova
12 (5*4,0)+(3*5,0)+(2*6,0)+(3*7,0)+(2*8,0)+(10*9,0)
10
Número de
10 5+3+2+3+2+10
alunos
8
6 5
4 3 3
x =(f.x) → 174 = 6,96
2 x
2 2
f 25
0
4.0 5.0 6.0 7.0 8.0 9.0
Nota
- 70 -
MEDIANA
Como achar a mediana de um conjunto de dados
Para quantidade ÍMPAR de valores Para quantidade PAR de valores
n
1
n 2
P
P1
As posições dos termos
2
A Posição do termo central é dada por: e P2 = a que sucede P1
centrais são dadas por:
Ex.: 12, 78, 69, 75, 80, 71, 82, 73, 785. n=9 Ex.: 12, 78, 69, 75, 80, 71, 82, 73, 785, 995. n=10
1 2
0
9
1
P1
P
A Md é o valor da 5º posição. Ordenando os dados, temos: A Md é o valor entre a 5º e 6ª posição. Ordenando os dados, temos:
12, 69, 71, 73, 75 ,78, 80, 82, 785 12, 69, 71, 73, 75, 78 80, 82, 785, 995
1ª 2ª 3ª 4ª 5ª 6ª 7ª 8ª 9ª 1ª 2ª 3ª 4ª 5ª 6ª 7ª 8ª 9ª 10ª
Mediana Mediana
7
5
7
8
M
d
A Md é a Média dos dois termos centrais. = 76,5
2
MEDIANA de uma distribuição de frequência e Histograma SEM INTERVALOS DE CLASSE
Desempenho dos alunos na prova
Nota
f f = n = 25 → ímpar
12
Fa Observações 11
n
1
2
5 2
1
Número de alunos
P
→ = 13ª 10
2
Acumule Fa e ache a posição da Md n 40
Independente se n é ímpar ou par usa‐se a equação /2. Então, /2 = 20
A Md está na 20ª posição e será algum valor da classe mediana 100 110. A
i Velocidades f Fa partir da equação abaixo podemos achar uma aproximação da Md.
1 70 80 4 4
n Resolvendo a equação, temos:
2 80 90 2 ‐ Fa ant * h
4 8
10
10 Fa ant = 16 20ª determinar l inf, Fa ant, h e f. Então, aplicando a equação, temos:
8 8 8
(4+4+8)
f = 8 6 40
6 2 ‐ 16 * 10
4
4 4
Md 100 = 105 km/h, aproximadamente
2
← h → 8
10
l inf
0
70 80 90 100 110 120 130
Velocidade (Km/h)
- 71 -
A série {1, 3, 5, 5, 5, 6, 6, 7} apresenta moda = 5, pois é o número que mais se repete.
Exemplos: A série {1, 3, 5, 5, 6, 6, 7, 8} apresenta duas modas (Bimodal): 5 e 6, pois são os que mais se repetem.
A série {1, 3, 5, 5, 6, 6, 7, 7} apresenta mais do que duas modas (Polimodal): 5, 6 e 7
A série {1, 3, 2, 5, 8, 7, 9, 10} não apresenta moda = amodal, pois nenhum número se repete.
MODA de uma distribuição de freqüência e Histograma SEM INTERVALOS DE CLASSE
Notas dos alunos Desempenho dos alunos na prova
4,0 5,0 8,0 9,0 f
Nota 12
(nº de alunos)
Número de alunos
4 100 110 8 2
2
5 110 120 6
0
6 120 130 10
Classe modal (tem maior frequência) 70 80 90 100 110 120 130
f=40
Velocidade (Km/h)
b) Moda de czuber
limite inferior da classe modal f* = frequência da classe modal
D1 f(ant) = frequência da classe anterior à classe modal
Mo Czuber *h D1 = f* – f(ant)
D1 D 2 D2 = f* – f(post) f(post) = frequência da classe posterior à classe modal
h = amplitude da classe modal
Exemplo de cálculo da Moda de Czuber (pela Distribuição de Freqüência e pelo Histograma)
Quantidade de veículos
10
1 70 80 4 10
8 8 f(ant) f(post)
2 80 90 4 8
3 90 100 8 6
6
4 100 110 8 4 4
4
5 110 120 6
2
h*
6 120 130 10
Classe modal
(tem maior frequência)
f=40 0
Classe
70 80 90 100 110 120 130 modal
Velocidade (Km/h)
(10 - 6)
D1 4
Mo l * h → Mo 120 * 10 Mo 122,85
D1 D 2 4 10
(10 - 6) (10 - 0)
Nota: Como não existe frequência simples da classe posterior à classe modal, então f‐ f(post) = 10 ‐ 0.
1º ‐ A partir dos vértices superiores do retângulo correspondente à classe modal (A e B), traçamos os seguimentos concorrentes
AC e BD, ligando cada um deles ao vértice superior adjacente do retângulo correspondente a uma classe vizinha, conforme
ilustrado na figura acima.
2º ‐ A partir da interseção dos segmentos AC e BD, baixamos uma perpendicular ao eixo horizontal, determinando o ponto que
indica a Moda, que é 122,85.
- 73 -
Velocidade (Km/h)
Moda = 90 Km/h
Quando a Média, Mediana e Moda não se coincidem, chamamos a distribuição dos dados de assimétrica.
Média < mediana < moda Assimétrica à esquerda (ou negativa)
Resultados dos registros Neste tipo de distribuição, a média, mediana e a moda estarão
12 aproximadamente conforme gráfico ao lado. A média será menor
de um radar Mediana
Quantidade de veículos
que a mediana e a moda. O cálculo abaixo confirma a afirmativa:
10 9 Moda
Média
8 Média = 70(1) + 80(3) + 90(6) + 100(9) + 110(2) = 94 Km/h
6
6 1+3+6+9+2
4 3
Mediana = 100 Km/h
2
2 1 Me Md Mo
0
94 < 100 ≤ 100
70 80 90 100 110 Moda = 100 Km/h
Velocidade (Km/h)
Média > mediana > moda Assimétrica à direita (ou positiva)
Neste tipo de distribuição, a média, mediana e a moda estarão
Resultados dos registros aproximadamente conforme gráfico ao lado. A média será maior
12 que a mediana e a moda. O cálculo abaixo confirma a afirmativa:
de um radar
Quantidade de veículos
10 Mediana 9 Média
Média = 70(2) + 80(9) + 90(6) + 100(3) + 110(1) = 86Km/h
Moda
8 2+9+6+3+1
6
6
Mediana = 80 Km/h
4 3
Me Mo Md
2
2 1 86 > 80 ≥ 80
0
Moda = 80 Km/h
70 80 90 100 110
Velocidade (Km/h)
- 74 -
As medidas usadas são a Mediana, o Quartil, Decil e o Percentil. A mediana já conhecemos. Estudaremos as outras medidas.
QUARTIL (4 PARTES) 0% 25% 50% 75% 100%
Divide um conjunto de dados em quatro |----------|---------|----------|---------|
partes iguais. Precisamos, portanto, de 3 Q1 Q2 Q3
2º quartil 3º quartil
quartis (Q1 , Q2 e Q3 ) para dividir a série 1º quartil
Coincide com a deixa 75% dos dados
deixa 25% dos dados
em quatro partes iguais. abaixo dele. mediana. abaixo dele.
O método mais prático é utilizar o princípio do cálculo da mediana para os 3 quartis. Na realidade serão calculadas "3
medianas" em uma mesma série.
Determine Q1, Q2 e Q3. dos salários de 9 empregados da uma empresa, abaixo
1º 2º Q1 3º 4º 5º 6º 7º Q3 8º 9º
$500 $550 | $600 $650 $700 $750 $800 | $850 $900
$575 Q2 $825
Q1 será a média da 2ª e 3ª posição Md Q3 será a média da 7ª e 8ª posição
QUARTIL de uma distribuição de freqüência SEM INTERVALOS DE CLASSE
n
1
4
5 4
1
) =( ) = 34,5 ≈ 35ª posição =110Km/h
4 100 8 24
3º quartil Q3 = (
5 105 6 30
6 110 15 45 ← 3º quartil
Interpretação: 75% dos veículos tiveram velocidades abaixo de 110 Km/h
f=45
QUARTIL de uma distribuição de freqüência COM INTERVALOS DE CLASSE
n 4
n 2
3 4
n
4 100 110 8 24
por por
5 110 120 6 30 ← 3º quartil
6 120 130 10 40
Acumule Fa e ache as posições Q1 e Q3. f=40
1º quartil Q1 3º quartil Q3
Independente se n é ímpar ou par usa‐se somente a Independente se n é ímpar ou par usa‐se somente a
n 40 3n 3*40
equação /4. Então, /4 = 10. O Q1 está na 10ª posição equação /4. Então, /4 = 30. O Q3 está na 30ª
e será algum valor da classe Q1 90 100. Logo: posição e será algum valor da classe Q3 110 120. Logo:
n Resolvendo a equação: 3n Resolvendo a equação:
4 ‐ Fa ant * h 4 ‐ Fa ant * h
Q1 l inf 40 Q3 l inf 3*40
f 4 ‐ 8 *10 f
4 ‐ 24 *10
l inf = limite inferior da classe Q1 Q1 90 l inf = limite inferior classe Q3
Q3 110
Faant = Fa da classe anterior 8 Faant = Fa da classe anterior 6
H = amplitude intervalo classe h = amplitude intervalo classe
Q1 = 92,5 Km/h Q3 = 120 Km/h
f = freqüência da classe Q1 f = freqüência da classe Q3
Interpretação: aproximadamente 25% dos veículos registrados Interpretação: aproximadamente 75% dos veículos registrados
tiveram velocidades abaixo de 92,5 Km/h tiveram velocidades abaixo de 120 Km/h
- 75 -
D 1
n 0
por
D = decil procurado 4 100 110 8 24
n = quantidade de dados
5 110 120 6 30
6 120 130 10 40 ← Classe D8
Acumule Fa e ache as posições.
f=40
Ache o 3º Decil (D3) da distribuição de frequência Ache o 8º Decil (D8) da distribuição de frequência
Dn 3*40 Dn 8*40
Usando /10 temos /10 = 12. O D3 está na 12ª Usando a equação /10 temos /10 = 32. O D8 está na
posição e será algum valor da classe D3 90 100: 32ª posição e será algum valor da classe D8 120 130:
Dn Resolvendo a equação: Dn Resolvendo a equação:
10 ‐ Fa ant * h 10 ‐ Fa ant * h
D3 l inf 3* 40 D8 l inf 8*40
f 10 ‐ 8 *10 f 10 ‐ 30 *10
l inf = limite inferior da classe D4
D3 90
l inf = limite inferior da classe D8 D8 120
8 10
Faant = Fa da classe anterior Faant = Fa da classe anterior
h = amplitude intervalo classe D3 = 95 Km/h h = amplitude intervalo classe D8 = 122 Km/h
f = freqüência da classe D4 f = freqüência da classe D8
Interpretação: aproximadamente 30% dos veículos registrados Interpretação: aproximadamente 80% dos veículos registrados
tiveram velocidades abaixo de 95 Km/h tiveram velocidades abaixo de 122 Km/h.
PERCENTIL (100 PARTES) 0% 5% 10% ... 17% ... 33% ... 42% 50% 57% 63% 70% 80% 93% 100%
Divide um conjunto de dados em cem |-|-|---|---|---|---|--|--|--|---|---|---|
partes iguais, como mostrado ao lado. P5 P1 0 P17 P33 P42 P50 P57 P63 P70 P80 P93
PERCENTIL de uma distribuição de freqüência i Velocidades f Fa
P 1
n 0
Pn Resolvendo a equação: Pn Resolvendo a equação:
100 ‐ Fa ant * h 100 ‐ Fa ant * h
P27 l inf
27* 40 P72 l inf 72* 40
f 100 ‐ 8 * 10 f 100 ‐ 24 *10
P27 90
D8 110
l inf = limite inferior classe P27 8 l inf = limite inferior classe P72 6
Faant = Fa da classe anterior Faant = Fa da classe anterior
h = amplitude intervalo classe P27 = 93,5 Km/h h = amplitude intervalo classe P72 = 118 Km/h
f = freqüência da classe P27 f = freqüência da classe P72
Interpretação: aproximadamente 27% dos veículos registrados Interpretação: aproximadamente 72% dos veículos registrados
tiveram velocidades abaixo de 93,5 Km/h. tiveram velocidades abaixo de 118 Km/h.
- 76 -
VARIÁVEL – É o termo usado para aquilo que você está pesquisando, estudando, analisando.
,
No estudo representado no gráfico abaixo a variável é o acidente do trabalho. Utilizada como um adjetivo do
vocabulário do dia‐a‐dia, variável sugere que alguma coisa se modifica ou varia.
2.000.000 1.796.671
1.743.825 Involução da QUANTIDADE de ACIDENTES
1.750.000 1.551.461
DO TRABALHO no Brasil - 1970 a 2005.
1.504.723 1.464.211
1.500.000
1.220.111 1.178.472 1.207.859
1.250.000
VARIÁVEL
961.575 991.581
1.000.000
693.572
750.000 532.514
465.700 491.711
388.304 395.455414.341 363.868 393.071 399.077
500.000 340.251
250.000
0
1970 1972 1974 1976 1978 1980 1982 1984 1986 1988 1990 1992 1994 1996 1998 2000 2001 2002 2003 2004 2005
Cada um dos aspectos investigados — os quais permitirão fazer a análise desejada — é denominado variável.
- 77 -
TIPOS DE VARIÁVEIS
Há, pois, uma divisão principal para as variáveis estatísticas, que consiste em considerá‐las como Variáveis Quantitativas
(discretas ou contínuas) e Variáveis Qualitativas (nominal ou ordinal). Esta divisão é de facílima compreensão!
Quando não é possível ordenar as categorias.
Não é ordenável
Ex.: sexo (masculino ou feminino), Cor dos olhos (preto ou verde),
NOMINAL campo de estudo (Engenharia, Direito etc)
Não é possível estabelecer uma ordem, uma gradação, o mais ou
menos importante, prioritário etc.
Então, os tipos de Variáveis da pesquisa do parque serão:
Qualitativa nominal
Quantitativa discreta Quantitativa contínua
PARA LEITURA
Se a dúvida persiste, você pode observar no quadro abaixo mais esclarecimentos sobre esses conceitos.
Tipo de VARIÁVEL Resposta fornecida à pesquisa
Será Quantitativa a variável para a qual se possa atribuir um valor numérico. Se a resposta fornecida à pesquisa estiver expressa
por um número, então a variável é quantitativa. Por exemplo: quantos livros você lê por ano? A resposta é um número? Então,
Quantitativa
variável quantitativa. Quantas pessoas moram em sua casa? A resposta é um número? Então, novamente, variável quantitativa.
(Em números)
No caso do estudo “ACIDENTE DO TRABALHO, é uma variável quantitativa, pois estudamos a quantidade de acidentes no período
de 1970 a 2005
Variável Quantitativa Discreta é a variável quantitativa que assume somente números inteiros. Resulta, geralmente, de
contagem. Esta variável não pode assumir qualquer valor, dentro de um intervalo de valores de resultados possíveis. Por
Discreta exemplo, se eu pergunto quantos irmãos você tem, a resposta jamais poderia ser “tenho 3,75 irmãos”, ou “tenho 4,8 irmãos”, ou
(números inteiros) seja, a resposta não poderia assumir todos os valores de um intervalo! Este acima é o conceito formal de variável discreta! O
(contagem) conceito para memorizar é o seguinte: aquela variável obtida por meio de uma contagem. Em outras palavras: a variável
discreta você conta!. Exemplos: quantas pessoas moram na sua casa? Quantos livros você tem? Quantos carros você tem? Se,
para responder à pergunta, você faz uma contagem, então está diante de uma variável quantitativa discreta.
Variável Quantitativa Contínua é aquela que pode assumir qualquer valor dentro de um intervalo de resultados possíveis. Se eu
Contínua pergunto quantos quilos você pesa, a resposta pode ser 65,35kg. Se eu pergunto qual a temperatura na cidade hoje, a resposta
(Números não inteiros) pode ser 27,35°C. Para facilitar a memorização, basta lembrar que a variável quantitativa contínua pode ser obtida por uma
(medição) medição, ou seja, a variável contínua você mede! Exemplos: peso, altura, duração de tempo para resolução de uma prova,
pressão, temperatura etc.
Qualitativa Se a pergunta é “qual a sua cor preferida?”, logicamente a resposta não será um número, daí estaremos tratando de uma
(nomes, atributos) variável qualitativa, ou seja, aquela para a qual não se atribui um valor numérico. Exemplos: Sexo: masculino ou feminino
- 78 -
POPULAÇÃO E AMOSTRA
Quando você quer saber se a sopa ficou boa, o que você faz? Mexe a panela, retira um pouco com
uma colher e prova. Depois tira uma conclusão sobre todo o conteúdo da panela sem, na verdade,
ter provado tudo. Portanto, é possível ter uma idéia de como a sopa está sem ter que comer tudo.
Isso é o que se faz em estatística.
A estatística deixou de ser a simples catalogação de dados numéricos e se tornou o estudo de como
chegar a conclusões sobre o todo (população), partindo da observação e análise de partes desse
todo (amostra). Essa é sua maior riqueza. Assim, podemos conceituar população e amostra como:
POPULAÇÃO É UM CONJUNTO DE TODOS OS ELEMENTOS EM ESTUDO.
AMOSTRA É UMA PARTE DA POPULAÇÃO (ou subconjunto).
AMOSTRA
(uma parte da população)
Podemos visualizar o conceito
de população
e amostra na “n”
figura ao lado.
POPULAÇÃO
Quando pesquisamos toda a
população, damos o nome de (todos os elementos em estudo)
censo.
“N”
A precisão depende do
tamanho da amostra, e
quanto maior
é o tamanho
amostral, maior será a
precisão das informações.
N é designado para População
n é designado para Amostra
Muitas vezes quando queremos fazer um estudo estatístico, não é possível analisar toda a população
envolvida com o fato que pretendemos investigar, como exemplo o sangue de uma pessoa ou a poluição
de um rio. É impossível o teste do todo. Há situações também em que é inviável o estudo da população,
por exemplo, a pesquisa com todos os torcedores em um estádio de futebol durante uma partida.
Nesses casos, o estatístico recorre a uma amostra que, basicamente, constitui uma redução da
população a dimensões menores, sem perda das características essenciais.
Os resultados fundamentados em uma amostra não serão exatamente os mesmos que você encontraria
se estudasse toda a população, pois, quando você retira uma amostra, você não obtém informações a
respeito de todos em uma dada população. Portanto, é importante entender que os resultados da
amostra fornecem somente estimativas dos valores das características populacionais. Com métodos de
amostragens apropriados, os resultados da amostra produzirão “boas” estimativas da população, ou
seja, um estudo bem feito não elimina o erro, mas limita‐o a uma margem, procurando torná‐la o menor
possível. Quando aprendemos estatística inferencial, também aprendemos técnicas para controlar esses
erros de amostragem.
4 razões para selecionar uma amostra
O número de elementos em uma população é muito grande;
Demanda menos tempo do que selecionar todos os itens de uma população;
É menos dispendioso (caro) do que selecionar todos os itens de uma população;
Uma análise amostral é menos cansativa e mais prática do que uma análise da população inteira.
- 79 -
- 80 -
- 81 -
REFERÊNCIAS BIBLIOGRÁFICAS
ANDERSON, David R.; SWEENEY, Dennis J.; WILLIANS, Thomas A. Estatística aplicada à administração e economia. 2
ed. São Paulo: Cengage Learning, 2009. 597 p.
BRUNI, Adriano Leal. Estatística para concursos. São Paulo: Atlas, 2008. 197p.
COSTA, Sérgio Francisco. Introdução ilustrada à estatística. 4 ed. São Paulo: Harbra, 2005. 399 p.
CRESPO, Antônio Arnot. Estatística fácil. 17 ed. São Paulo: Saraiva, 1999. 224 p.
FARIAS, Alfredo Alves et al. Introdução à estatística. 2 ed. Rio de Janeiro: LTC, 2003, 320 p.
GIOVANNI José Ruy; BONJORNO, José Roberto; GIOVANNI JR., José Rui. Matemática fundamental: uma nova
abordagem – volume único. São Paulo: FTD, 2002. 712 p.
HAZZAN, Samuel. Fundamentos da matemática elementar: Matemática financeira, comercial e estatística descritiva.
Volume 11. 1 ed. São Paulo: Atual editora, 2004. 230p.
HELP! Sistema de consulta interativa. Matemática. Rio de Janeiro: O globo, 1997. 319 p.
LAPPONI, Juan Carlos. Estatística usando o Excel. 4 ed. Rio de Janeiro: Elsevier, 2005. 476 p.
LARSON, Ron; FARBER, Betsy. Estatística aplicada. 4 ed. São Paulo: Pearson, 2010. 637 p.
LEVINE, David M. et al. Estatística: teoria e aplicações. 5 ed. Rio de Janeiro: LTC, 2008. 752 p.
LOPES, Paulo Afonso. Probabilidade e estatística: conceitos, modelos e aplicações em Excel. Ernesto Reichmann, 1999.
174 p.
MONTGOMERY, Douglas C.; RUNGER, George C. Estatística aplicada e probabilidade para engenheiros. 2 ed. Rio de
Janeiro: LTC, 2003. 465 p.
OLIVEIRA, Uanderson Rebula de. Ergonomia, higiene e segurança do trabalho. Resende-RJ: Apostila. Universidade
Estácio de Sá, 2009. 199 p.
Resumão – estatística. 2 ed. São Paulo: Barros, fischer & Associados, novembro 2006. 6 p.
RUMSEY, Deborah. Estatística para leigos. Rio de Janeiro: Alta books, 2009. 350 p.
SILVA, Ermes Medeiros et al. Estatística: para os cursos de Economia, Administração e Ciências Contábeis - volume 1. 2
ed. São Paulo: Atlas, 1996. 189 p.
SMOLE, Kátia Stocco; DINIZ, Maria Ignez. Matemática–ensino médio. 5 ed. São Paulo: Saraiva, 2005. 558p.
SPIEGEL, Murray R. Estatística: resumo da teoria, 875 problemas resolvidos, 619 problemas propostos. São Paulo:
McGraw-Hill do Brasil, 1977. 580 p.
TRIOLA, Mario F. Introdução à estatística. 10 ed. Rio de Janeiro: LTC, 2008. 696 p.
URBANO, João. Estatística: uma nova abordagem. Rio de Janeiro: Ciência moderna, 2010. 530p.
VASCONCELLOS, Maria José Couto; SCORDAMAGLIO, Maria Terezinha; CÂNDIDO, Suzana Laino. Coleção
Matemática. 1ª e 3ª série do ensino médio. São Paulo: Editora do Brasil, 2004. 232 p.
WERKEMA, Maria Cristina Catarino. As ferramentas da qualidade no gerenciamento dos processos. Belo Horizonte:
EDG, 1995. 128 p.
- 82 -
LIVROS RECOMENDADOS
Um livro introdutório de estatística que inclui um estilo de escrita Este livro diferencia-se dos tradicionais livros,
amigável, conteúdo que reflete as características importantes de um materiais de referência e manuais de estatísticas,
curso introdutório moderno de estatística, o uso da tecnologia pois possui: Explicações intuitivas e práticas sobre
computacional mais recente, de conjuntos de dados interessantes e conceitos estatísticos, ideias, técnicas, fórmulas e
reais, e abundância de componentes pedagógicos. O CD-ROM inclui cálculos. Passo a passo conciso e claro de
os conjuntos de dados do Apêndice B do livro. Esses conjuntos de procedimentos que intuitivamente explicam
dados encontram-se armazenados em formato texto, planilhas do como lidar com problemas estatísticos. Exemplos
Minitab, planilhas do Excel e uma aplicação para a calculadora TI-83. interessantes do mundo real relacionados ao
Inclui também programas para a calculadora gráfica TI-83 Plus®, o cotidiano pessoal e profissional. Respostas
Programa Estatístico STATDISK (Versão 9.1) e um suplemento do honestas e sinceras para perguntas como “O que
Excel, desenvolvido para aumentar os recursos dos programas isso realmente significa?” e “Quando e como eu
estatísticos do Excel. vou usar isso?”
Neste livro você encontrará:
Explicações em português de fácil entendimento.
Informações fáceis de localizar e passo-a-passo.
Ícones e outros recursos de identificação e
memorização. Folha de cola para destacar com
informações práticas. Listas dos 10 melhores
relacionados ao assunto. Um toque de humor e
diversão.
Onde comprar: www.submarino.com.br
- 83 -
SOFTWARE BIOESTAT
Texto extraído da tese de doutorado em Engenharia de Ualison Rebula de Oliveira
Existem inúmeros recursos tecnológicos para a análise estatística de dados, que vão desde
calculadoras, a exemplo da TI – 83 PLUS, a aplicativos específicos, tais como o STATDISK e o
MINITAB (TRIOLA, 2005). Assim, buscando‐se recursos computacionais que facilitassem o
tratamento de dados, vários aplicativos e softwares estatísticos foram pesquisados, dos quais se
destacam a planilha Excel, o STATDISK, o MINITAB, o BioEstat, o SPSS e algumas páginas na
Internet que oferecem programas em Javascript para cálculos on‐line, a exemplo da página na
Internet www.stat.ucla.edu.
Após análise de pós e contras de cada aplicativo pesquisado, selecionou‐se o pacote estatístico
BioEstat, disponível para download no site www.mamiraua.org.br, por possuir as seguintes
características positivas: i) serventia tanto para a Estatística descritiva como para testes estatísticos
não‐paramétricos; ii) ser em português; iii) possuir manual em PDF com diversos exemplos; iv) ser
de fácil utilização; v) ser gratuito; vi) ser referenciado em vários livros, sites e entidades de
pesquisa – conforme Siegel & Castellan Junior (2006), o BioEstat é o melhor programa disponível
na atualidade para o cálculo do qui‐quadrado; vii) possuir apoio do CNPQ; e viii) estar na versão 5.0
e possuir mais de 20 anos de criação.
INTERFACE BIOESTAT
Baixar software:
www.mamiraua.org.br
- 84 -
ESTATÍSTICA NO EXCEL
O Excel dispõe da função “Estatística”. Assim, tudo que vimos poderá ser desenvolvido pelo
excel, bastando inserir os valores da variável de interesse.
Para saber mais, basta adquirir o livro “Estatística usando o excel”, de Juan Carlos
Lapponi. WWW.SUBMARINO.COM.BR
4ª Edição, Edição 2005, 496 págs. Editora Elsevier Campus ‐ Acompanha CD‐ROM com Planilhas, Modelos,
Simuladores etc. para Excel.
O conteúdo deste livro é útil para: Estudantes que cursam Estatística nas diversas áreas do conhecimento e
em diferentes níveis de graduação como, em ordem alfabética, Administração, Biologia, Contabilidade,
Economia, Engenharia, Finanças, Marketing, Medicina, etc. Estudantes que necessitam aprimorar ou
complementar seus conhecimentos de Estatística utilizando o Excel. Profissionais das diversas áreas que
utilizam os conceitos de Estatística e necessitam, ou gostariam, de utilizar as funções estatísticas, as
ferramentas de análise, planilhas, modelos e simuladores de estatística em Excel. Todos aqueles que poderão
utilizar as planilhas, modelos e simuladores de estatística em Excel da forma como estão no CD‐Rom, ou
modificando‐os, para atender às suas necessidades. Alunos de áreas correlatas que utilizarão estatística e
desejam antecipar seu aprendizado e agregar valor ao seu conhecimento visando o mercado de trabalho. Usuários de Excel que desejam
conhecer e aprender a utilizar os recursos de Estatística disponíveis.
TÓPICOS
• DADOS, VARIÁVEIS E AMOSTRAS
• DESCRIÇÃO DE AMOSTRAS COM TABELAS E GRÁFICOS
• MEDIDAS DE TENDÊNCIA CENTRAL
• MEDIDAS DE DISPERSÃO/VARIAÇÃO
• PROBABILIDADE
• CORRELAÇÃO
• VARIÁVEIS ALEATÓRIAS E DISTRIBUIÇÕES DISCRETAS
• DISTRIBUIÇÕES CONTÍNUAS
• COMBINAÇÃO LINEAR DE VARIÁVEIS ALEATÓRIAS
• DISTRIBUIÇÃO AMOSTRAL
• ESTIMAÇÃO
• TESTE DE HIPÓTESES
• TESTES DE HIPÓTESES COM DUAS AMOSTRAS
• ANÁLISE DA VARIÂNCIA
• REGRESSÃO LINEAR
• AJUSTE NÃO LINEAR
NORMAS PARA AMOSTRAGEM ABNT
(Associação Brasileira de Normas Técnicas)
LINK
N° Título Data
ABNT IEC/PAS 62596:2012 Produtos eletroeletrônicos — Determinação de substâncias restritas — Procedimento de amostragem — 2012-08-03
Diretrizes
ABNT NBR 10191:2015 Amostragem de lã para determinação do fator de correção de massa - Procedimento 2015-01-12
ABNT NBR 10790:2015 Emenda 1:2016 Cal virgem, hidratada e em suspensão aquosa — Aplicação em saneamento básico — Especificação técnica, 2016-11-28
amostragem e métodos de ensaio
ABNT NBR 10790:2016 Cal virgem, hidratada e em suspensão aquosa — Aplicação em saneamento básico — Especificação técnica, 2016-11-28
amostragem e métodos de ensaio
ABNT NBR 11176:2013 Sulfato de alumínio para aplicação em saneamento básico — Especificação técnica, amostragem e métodos de 2013-06-06
ensaios
ABNT NBR 11887:2015 Hipoclorito de cálcio - Aplicação em saneamento básico - Especificação técnica, amostragem e métodos de 2015-01-13
ensaio
ABNT NBR 12019:1990 Efluentes gasosos em dutos e chaminés de fontes estacionárias - Determinação de material particulado - Método 1990-12-30
de ensaio
ABNT NBR 12020:1992 Errata 1:1996 Efluentes gasosos em dutos e chaminés de fontes estacionárias - Calibração dos equipamentos utilizados em 1996-07-31
amostragem.
ABNT NBR 12020:1992 Versão Efluentes gasosos em dutos e chaminés de fontes estacionárias - Calibração dos equipamentos utilizados em 1992-04-30
Corrigida:1996 amostragem.
ABNT NBR 12022:1990 Efluentes gasosos em dutos e chaminés de fontes estacionárias - Determinação de dióxido de enxofre - Método 1990-12-30
de ensaio
ABNT NBR 12245:2017 Cimento isolante térmico — Amostragem e preparação de corpos de prova 2017-04-24
ABNT NBR 12813:1993 Extração de amostras do fluido hidráulico de um sistema em operação, para análise de contaminação por 1993-01-30
partículas - Procedimento
ABNT NBR 12897:1993 Emprego do opacímetro para medicação do teor de fuligem de motor Diesel - Método de absorção de luz - 1993-08-30
Procedimento
ABNT NBR 12970:2007 Amostragem e inspeção visual para recebimento de tintas para sinalização horizontal em aeroportos 2007-12-21
ABNT NBR 13005:1993 Qualificação de fluido hidráulico - Nível de limpeza do recipiente de amostragem - Método de ensaio 1993-10-30
ABNT NBR 13336:2013 Couro — Banho residual e efluente líquido — Amostragem 2013-03-26
ABNT NBR 13412:1995 Material particulado em suspensão na atmosfera - Determinação da concentração de partículas inaláveis pelo 1995-06-30
método do amostrador de grande volume acoplado a um separador inercial de partículas - Método de ensaio
ABNT NBR 13573:2012 Insumos — Amostragem para curtimento e acabamento de couros 2012-08-24
ABNT NBR 13818:1997 Versão Placas cerâmicas para revestimento - Especificação e métodos de ensaios 1997-04-30
Corrigida:1997
ABNT NBR 14101:1998 Papel e cartão - Tubetes - Amostragem para ensaios 1998-05-30
ABNT NBR 14104:1998 Amostragem e inspeção em fábrica de cabos e cordões ópticos - Procedimento 1998-06-30
ABNT NBR 14257:1998 Papel e cartão - Tubetes - Determinação da umidade - Método por secagem em estufa 1998-12-30
ABNT NBR 14603:2000 Amostragem e inspeção em fábrica de fibras ópticas - Procedimento 2000-10-30
ABNT NBR 14605-7:2009 Armazenamento de líquidos inflamáveis e combustíveis – Sistema de drenagem oleosa 2009-08-27
ABNT NBR 14660:2004 Madeira - Amostragem e preparação para análise 2004-04-30
ABNT NBR 14674:2012 Adesivos para calçados e correlatos — Procedimento de amostragem 2012-01-11
ABNT NBR 14883:2002 Errata 1:2005 Petróleo e produtos de petróleo - Amostragem manual 2005-02-28
ABNT NBR 14883:2002 Versão Petróleo e produtos de petróleo - Amostragem manual 2002-08-30
Corrigida:2005
ABNT NBR 14939:2003 Amostragem do alumínio e suas ligas para análise espectroquímica 2003-04-30
ABNT NBR 15007:2017 Produtos à base de orto e polifosfatos para aplicação em saneamento básico - Especificação técnica, amostragem 2017-04-28
e métodos de ensaio
ABNT NBR 15847:2010 Amostragem de água subterrânea em poços de monitoramento — Métodos de purga 2010-06-21
ABNT NBR 16000:2011 Amostragem de material na forma de pó para fundição – Procedimento 2011-11-29
ABNT NBR 16009:2011 Materiais de fundição – Dispositivos para amostragem – Procedimento 2011-11-29
ABNT NBR 16075:2012 Diagnóstico de uso in vitro — Competência de laboratórios e organização de ensaio de avaliação da 2012-07-04
conformidade de produtos — Requisitos gerais
ABNT NBR 16434:2015 Amostragem de resíduos sólidos, solos e sedimentos - Análise de compostos orgânicos voláteis (COV) - 2015-09-01
Procedimento
ABNT NBR 16435:2015 Controle da qualidade na amostragem para fins de investigação de áreas contaminadas - Procedimento 2015-09-01
ABNT NBR 16488:2016 Cloreto de polialumínio (PAC) — Aplicação em saneamento básico — Especificação técnica, amostragem e 2016-05-30
métodos de ensaio
ABNT NBR 16560:2017 Biogás e biometano - Determinação de siloxanos por cromatografia em fase gasosa e amostragem com impingers 2017-01-09
ABNT NBR 16561:2017 Biometano - Determinação de siloxanos por cromatografia em fase gasosa e amostragem com tubo de dessorção 2017-01-09
térmica
ABNT NBR 16562:2017 Biogás e biometano - Determinação de compostos orgânicos voláteis por cromatografia em fase gasosa e 2017-01-09
amostragem com tubo de dessorção térmica
ABNT NBR 16595:2017 Minérios de ferro - Requisitos para utilização de amostradores tipo cross belt 2017-04-11
ABNT NBR 5425:1985 Versão Guia para inspeção por amostragem no controle e certificação de qualidade 1977-12-30
Corrigida:1989
ABNT NBR 5426:1977 Errata 1:1989 Planos de amostragem e procedimentos na inspeção por atributos 1989-10-01
ABNT NBR 5426:1985 Versão Planos de amostragem e procedimentos na inspeção por atributos 1985-01-30
Corrigida:1989
ABNT NBR 5427:1985 Versão Guia para utilização da norma ABNT NBR 5426 - Planos de amostragem e procedimentos na inspeção por 1985-01-30
Corrigida:1989 atributos
ABNT NBR 5428:1985 Versão Procedimentos estatísticos para determinação da validade de inspeção por atributos feita pelos fornecedores 1985-01-30
Corrigida:1989
ABNT NBR 5429:1977 Errata 1:1989 Planos de amostragem e procedimentos na inspeção por variáveis 1989-10-30
ABNT NBR 5429:1977 Errata 2:1998 Planos de amostragem e procedimentos na inspeção por variáveis 1998-02-28
ABNT NBR 5429:1985 Versão Planos de amostragem e procedimentos na inspeção por variáveis 1985-01-30
Corrigida:1998
ABNT NBR 5430:1977 Errata 1:1989 Guia de utilização da norma ABNT NBR 5429 - Planos de amostragem e procedimentos na inspeção por 1989-10-30
variáveis.
ABNT NBR 5430:1985 Versão Guia de utilização da norma ABNT NBR 5429 - Planos de amostragem e procedimentos na inspeção por 1985-01-30
Corrigida:1989 variáveis.
ABNT NBR 5699:1983 Véu de fibra de vidro tipo reforçado - Determinação da massa 1983-10-30
ABNT NBR 5764:2012 Produtos químicos industriais líquidos de uma só fase — Amostragem 2012-08-07
ABNT NBR 5889:1982 Aço fundido e ferro fundido - Coleta de amostras 1982-03-30
ABNT NBR 6491:1985 Reconhecimento e amostragem para fins de caracterização de pedregulho e areia 1985-02-28
ABNT NBR 7070:2006 Amostragem de gases e óleo mineral isolantes de equipamentos elétricos e análise dos gases livres e dissolvidos 2006-05-15
ABNT NBR 7345:2013 Corretivos de acidez de solo — Amostragem em caminhões e vagões ferroviários 2013-04-12
ABNT NBR 8423:1989 Errata 1:1991 Técnicas de amostragem de ácido fosfórico para uso industrial (inclusive alimentar) - Procedimento 1991-10-30
ABNT NBR 8423:1989 Versão Técnicas de amostragem de ácido fosfórico para uso industrial (inclusive alimentar) - Procedimento 1989-11-30
Corrigida:1991
ABNT NBR 9154:1999 Amostragem e inspeção em fábrica de fios e cabos telefônicos - Procedimento 1999-12-30
ABNT NBR 9547:1997 Material particulado em suspensão no ar ambiente - Determinação da concentração total pelo método do 1997-09-30
amostrador de grande volume
ABNT NBR 9897:1987 Planejamento de amostragem de efluentes líquidos e corpos receptores - Procedimento 1987-06-30
ABNT NBR 9898:1987 Preservação e técnicas de amostragem de afluente líquidos e corpos receptores - Procedimento 1987-06-30
ABNT NBR ISO 11650:2008 Desempenho de equipamento de recolhimento e/ou reciclagem de fluidos refrigerantes 2008-11-17
ABNT NBR ISO 12743:2011 Concentrados de cobre, chumbo, zinco e níquel — Procedimentos de amostragem para determinação dos teores 2011-07-15
de metal e umidade
ABNT NBR ISO 14952-3:2006 Sistemas espaciais - Limpeza de superfície de sistemas de fluido 2006-05-15
ABNT NBR ISO 15535:2015 Requisitos gerais para o estabelecimento de bases de dados antropométricos 2015-08-13
ABNT NBR ISO 15859-1:2012 Sistemas espaciais — Características do fluido, métodos de ensaio e de amostragem 2012-10-04
ABNT NBR ISO 15859-5:2011 Sistemas espaciais — Características, amostragem e métodos de ensaio de fluidos 2011-06-17
ABNT NBR ISO 15859-6:2011 Sistemas espaciais — Características, amostragem e métodos de análise de fluidos 2011-06-16
ABNT NBR ISO 15859-7:2011 Sistemas espaciais – Características, amostragem e métodos de análise de fluidos 2011-06-17
ABNT NBR ISO 15859-8:2012 Sistemas espaciais — Características, amostragem e métodos de ensaio de fluidos 2012-04-24
ABNT NBR ISO 17853:2013 Desgaste de materiais para implante — Partículas de desgaste metálicas e poliméricas — Isolamento e 2013-04-15
caracterização
ABNT NBR ISO 1795:2010 Borracha natural crua e borracha sintética crua – Procedimentos para amostragem e preparação 2010-06-01
ABNT NBR ISO 18593:2012 Microbiologia de alimentos para consumo humano e animal — Métodos horizontais para técnicas de 2012-07-27
amostragem de superfícies utilizando placas de contato e swabs
ABNT NBR ISO 2418:2015 Couro - Ensaios químicos, físicos e mecânicos e de solidez - Local da amostragem 2015-11-23
ABNT NBR ISO 2927:2014 Óxido de alumínio primariamente usado para produção de alumínio — Amostragem 2014-05-29
ABNT NBR ISO 3082:2011 Minérios de ferro - Procedimentos de amostragem e preparação de amostras 2011-03-23
ABNT NBR ISO 3084:2003 Minérios de ferro - Métodos experimentais para avaliação da variação da qualidade 2003-08-30
ABNT NBR ISO 3085:2003 Errata 1:2013 Minérios de ferro — Métodos experimentais para verificação da precisão de amostragem, preparação de 2013-06-10
amostras e medida
ABNT NBR ISO 3085:2003 Versão Minérios de ferro - Métodos experimentais para verificação da precisão de amostragem, preparação de amostras 2003-08-30
Corrigida:2013 e medida
ABNT NBR ISO 3086:2008 Minérios de ferro - Métodos experimentais para verificação do vício de amostragem 2008-03-17
ABNT NBR ISO 50003:2016 Sistemas de gestão de energia - Requisitos para organismos de auditoria e certificação de sistemas de gestão de 2016-06-29
energia
ABNT NBR ISO 5022:2014 Produtos refratários conformados — Amostragem e ensaios de aceitação 2014-04-08
ABNT NBR ISO 8656-1:2013 Produtos refratários — Amostragem de matérias-primas e produtos não conformados 2013-12-20
ABNT NBR ISO 9862:2013 Geossintéticos — Amostragem e preparação de corpos de prova para ensaios 2013-05-21
ABNT NBR ISO/IEC 17025:2005 Versão Requisitos gerais para a competência de laboratórios de ensaio e calibração 2005-09-30
Corrigida 2:2006
ABNT NBR NM 159:2000 Cal para aciaria - Amostragem e preparação de amostras 2000-10-30
ABNT NBR NM 99:2000 Alumínio para uso siderúrgico - Amostragem e preparação de amostras para análise química 2000-10-30
ABNT NBR NM ISO 186:2006 Papel e cartão - Amostragem para determinar a qualidade média 2006-04-30
ABNT NBR NM ISO 287:2012 Papel e cartão — Determinação do teor de umidade de um lote — Método por secagem em estufa (ISO 2012-05-22
287:2009, IDT)
ABNT NBR NM ISO 4552-1:2000 Ferroligas - Amostragem e preparação de amostras para análise química 2000-10-30
ABNT NBR NM ISO 4552-2:2000 Ferroligas - Amostragem e preparação de amostras para análise química 2000-10-30
ABNT NBR NM ISO 7347:2000 Ferroligas - Métodos experimentais para comprovar os erros sistemáticos da amostragem e preparação da 2000-10-30
amostra
LIVROS PUBLICADOS POR
Uanderson Rébula de Oliveira
QUERO Esses ebooks estão disponíveis na livraria Saraiva por
COMPRAR preços bem acessíveis.
OS LIVROS Além disso, você pode imprimir,
desenhar, esquematizar ou usar qualquer
leitor pdf, pois a maioria deles encontra-
se desbloqueado.
Prof. Uanderson Rébula. Doutorando em
Ver amostras engenharia. Professor universitário. Vivência
de 21 anos em ambiente industrial.
dos livros
uanderson.rebula@yahoo.com.br
http://lattes.cnpq.br/1039175956271626
https://br.linkedin.com/in/uandersonrebula
“Atualmente, todos – estudantes e professores – procuram o Udemy porque é a
plataforma onde todos estão”.
Fonte: Jornal do Brasil
Saiba
mais
Clique aqui
www.udemy.com
Junte-se a milhões de estudantes na maior plataforma on-line
de cursos curtos e práticos do mundo.
Com mais de 45.000 cursos virtuais disponíveis, o Udemy é uma plataforma global de
ensino on-line onde 15 milhões de alunos estão dominando novas habilidades.
Sumário