PRÓ-REITORIA DE GRADUAÇÃO
CENTRO DE CIÊNCIAS
DEPARTAMENTO DE ESTATÍSTICA E MATEMÁTICA APLICADA
NOTAS DE AULA DE
ESTATÍSTICA BÁSICA
Fortaleza –CE
1
Sumário
3
1. ESTATÍSTICA DESCRITIVA
Os engenheiros são pessoas que resolvem problemas de interesse social pela aplicação
eficiente de princípios científicos. Eles executam isso através de processos que encontrem a
necessidade dos consumidores. Os métodos estatísticos ajudam a resolver esses problemas. As
etapas são as seguintes:
a. Desenvolver uma descrição clara e concisa do problema.
b. Identificar os fatores importantes que afetam esse problema ou que ajudem a sua resolução.
c. Propor um modelo para o problema.
d. Conduzir experimentos apropriados e coletar dados para testar ou avaliar o modelo ou
conclusões feitas nas etapas a e b.
e. Refinar o modelo, com base nos dados observados.
f. Manipular o modelo de modo a ajudar o desenvolvimento da solução do problema.
g. Conduzir um experimento apropriado para confirmar que a solução é efetiva.
h. Tirar conclusões ou fazer recomendações baseadas na solução do problema.
4
1.1.4. A Estatística Descritiva e Inferência estatística
Estatística Descritiva:
Inferência Estatística:
1. Inferência Estatística
Estimação de quantidades
desconhecidas
Extrapolação dos resultados
Teste de Hipóteses
1.2.1. População:
5
O conjunto da totalidade dos indivíduos sobre o qual se faz uma inferência recebe o nome
de população ou universo.
Em linguagem mais formal, é o conjunto constituído por indivíduos ou objetos que
apresentam, pelo menos, uma característica em comum, cujo comportamento interessa fazer
análise. As características da população são chamadas de parâmetros, os quais são valores fixos e
ordinariamente desconhecidos. É importante ficar bem claro que uma população é estudada em
termos de observações de características nos indivíduos, e não em termos de pessoas ou objetos em
si.
Ex:
- Resistência à compressão de 80 corpos de prova da liga de alumínio
- Matrículas de alunos no curso de Engenharia de Produção Mecânica da UFC, 2004.2.
- Produção de espaçonaves pela Companhia Boeing, em 2004.
- Dados das medidas de viscosidade para um produto químico observado de hora em hora.
a. Finita
É a população onde se consegue contar todos os elementos que a formam, ou seja,
possui um número limitado de elementos.
Ex.: Número de trabalhadores contratados entre os anos de 1994 a 2004 pela Empresa
Materials Engineering.
b. Infinita
A população onde não se consegue contar todos os elementos que a formam. Geralmente
está associada à processos, e o número de observações tende a ser infinito, dando origem a
uma população infinita. Uma população infinita deverá, então, ser concebida como um
esquema conceitual e teórico.
Ex.: Um técnico de laboratório pesando certo material. Por maior que seja o cuidado na
experimentação ele poderia, em cada pesagem, obter uma leitura de certo modo diferente.
1.2.2. Amostra
É um subconjunto, uma parte selecionada da totalidade de observações abrangidas pela
população, através do qual se faz um juízo ou inferência sobre as características da população. As
características da amostra são chamadas estatísticas descritivas, como apresentam os exemplos
abaixo:
6
c. Estudo da situação sócio-econômica dos habitantes de Fortaleza, com renda entre 1 e 5
salários mínimos, 2004.
População: habitantes de Fortaleza com renda entre 1 e 5 salários mínimos.
Amostra: 20% dos habitantes de Fortaleza com renda entre 1 e 5 salários mínimos,
escolhidos ao acaso.
1.2.3. Amostragem
a. Sem reposição
É quando não verificamos repetições de elementos na amostra, ou seja, cada elemento não
pode ser escolhido mais de uma vez.
b. Com reposição
É quando verificamos repetições de elementos na amostra, ou seja, cada elemento pode ser
escolhido mais de uma vez.
Algumas variáveis como sexo, atividade física, fumar e estado civil, apresentam como
possíveis realizações uma qualidade (ou atributo) do indivíduo pesquisado, ao passo que outras,
como número de vezes que vai ao cinema, idade, remuneração mensal apresentam como possíveis
realizações números resultantes de uma contagem ou mensuração. As variáveis do primeiro tipo
são chamadas qualitativas e as do segundo tipo são chamadas quantitativas.
a. Qualitativas
7
Variáveis Qualitativas Nominais: quando o dado se apresenta sob o aspecto qualitativo.
Ex.: Sexo, cor, estado civil, causa de morte, tipo de doença, profissão, etc. Observe que,
quem é branco não é melhor do que quem é negro.
Variáveis Qualitativas Ordinais: quando os valores das variáveis são atribuídos para
denotar uma ordenação natural. Ex.: Grau de instrução, status social, estágio de uma doença,
patente militar, conceito escolar, cargo que ocupa na empresa, etc.Neste caso, quem tem uma
graduação é muito melhor do que quem tem apenas o primeiro grau.
b. Quantitativas
Variáveis Quantitativas Discretas: de uma maneira mais geral, são todas as variáveis
numéricas cujos valores se obtém a partir de procedimento de contagem. Ex.: nº de pessoas
numa família, nº de funcionários numa empresa, nº de alunos numa classe, etc.
Variáveis Quantitativas Contínuas: são as variáveis numéricas cujos valores são obtidos no
procedimento de mensuração, de sorte que ao menos teoricamente os resultados das medidas
são capazes de variações insensíveis ou contínuas. Ex.: peso, altura, temperatura, área,
volume, densidade, salário, etc.
Qualitativa Ordinal
Variável Discreta
Quantitativa
Contínua
Planejamento
Coleta de Dados
8
Refere-se à obtenção, reunião e registro sistemático de dados, com um objetivo
determinado. Existem dois tipos de Dados, os Dados Primários ou Diretos, que são dados obtidos
diretamente pelo pesquisador, na fonte originária e os Dados Secundários ou Indiretos, aqueles
obtidos em instituições que já os coletou. Ex .: Quando o IBGE faz o levantamento (censo) da
população brasileira, normalmente se utiliza do processo de obtenção primário. Caso queira, com
base nos dados obtidos nos censos anteriores, projetar esta mesma população para anos seguintes,
estará utilizando o processo secundário, pois os dados já foram obtidos anteriormente.
Após a coleta dos dados, torna-se necessária sua apuração, ou contagem, denominando-a
tabulação. Há duas formas de apresentação dos dados. A apresentação tabular é uma apresentação
numérica dos dados. Consiste em dispor os dados em linhas e colunas distribuídas de modo
ordenado, segundo regras adotadas pelos diversos sistemas estatísticos. Já a apresentação gráfica,
permite ao analista obter uma visão rápida, fácil e clara do fenômeno estudado.
De todas as fases do Método Estatístico, esta é a que apresenta maiores dificuldades. Isto
porque todo trabalho efetuado até o momento deixará de ter o valor devido, se a conclusão não
estiver coerente.
A análise dos dados está ligada essencialmente ao cálculo de medidas, cuja finalidade
principal é descrever o fenômeno. O significado exato de cada um dos valores, obtidos através do
cálculo das várias medidas estatísticas disponíveis, deve ser bem interpretado.
Não existe, portanto, um critério a ser usado nesta fase. Exige, sim, que o analisador tenha
muita sensibilidade com os dados que ora estão sendo manipulados. Muitas vezes, alguma prática
lhe é indispensável.
Coletados os dados, não é conveniente apresentá-los para análise sob a forma a que se
chegou pela simples apuração. Na maioria das vezes, o conjunto de valores é extenso e
desorganizado, e seu exame requer maior atenção.
Resumindo, os valores devem estar organizados em tabelas, assim, consegue-se apresentá-
los e descrever-lhes com mais eficiência. Essa condensação dos valores permite ainda a utilização
de representação gráfica que normalmente representa uma forma mais útil e elegante de
apresentação da característica analisada.
Uma série estatística define-se como toda e qualquer coleção de dados estatísticos referidos
a uma mesma ordem de classificação quantitativa.
Para diferenciar uma série estatística de outra, há de se levar em conta, os três caracteres
presentes na tabela que ela se apresenta: fenômeno, local e época.
- Fenômeno: é o fato que foi investigado e cujos valores numéricos estão sendo
apresentados na tabela.
- Local: é o espaço geográfico onde o fenômeno ocorreu.
- Época: tempo em que o fenômeno foi analisado.
As séries estatísticas podem ser de quatro tipos, conforme a variação de um desses
caracteres ou fatores. Vejamos, então, esses tipos:
9
A variável é o tempo, permanecendo fixos o local e o fenômeno estudado.
Exemplo 1:
GL. T. S.A. – INDÚSTRIA DE COMPONENTES ELETRÖNICOS
Vendas -- Mercado Interno – Janeiro a Junho 2002
Exemplo 2:
BRASIL - RENDA PER CAPTA ANUAL –2000/2003
Ano Renda (R$)
2000 3.480,31
2001 5.180,03
2002 5.986,97
2003 6.307,55
Fonte: IBGE
Exemplo 3:
G.L. T S.A. – INDÚSTRIA DE COMPONENTES ELETRÔNICOS.
Vendas por Unidade da Federação – 2002
10
Exemplo 4:
G.L.T S.A. -- INDÚSTRIA DE COMPONENTES ELETRÔNICOS
Vendas por linha de produto -- 2002
Linha do Produto Vendas(R$)
Linha A 6.450
Linha B 9.310
Linha C 15.750
Linha D 16.100
TODOS OS PRODUTOS 47.610
Fonte: Departamento de Analise de Mercado
Exemplo 5:
Número de Empregados das Várias Classes de Salários
No Estado de São Paulo -- 2001
Classe de Salário (R$) Nº de Empregados
1---| 2 41326
2---| 3 123236
3---| 4 428904
4---| 5 324437
5---| 6 787304
6---| 7 266002
7---| 8 102375
8---| 9 56170
9---| 10 1 03788
Total 2233542
Fonte : Serviço de Estatística da Previdência e Trabalho
OBSERVAÇÃO: É comum haver necessidade de apresentar, em uma única tabela, mais do que
uma série, surgindo as chamadas séries mistas ou conjugadas. Dessa forma, podemos encontrar
séries: temporal-específica, temporal-geográfica, específico-geográfica e temporal-específica-
geográfica.
Exemplo 6:
EMPRESA DE CONTRUÇÃO CIVIL
Trabalhadores contratados divididos por ano.
a. Título
A parte superior da tabela destina-se à indicação do título, que deve informar o fenômeno
que está sendo apresentado. O título deve responder às perguntas: O quê? Onde? e Quando? Tais
perguntas correspondem respectivamente, ao fenômeno, ao local e á época.
b. Corpo
- A Zona Designativa está colocada logo abaixo do título e compreende o chamado cabeçalho,
observando-se que nessa zona são colocados os diversos informes referentes ao conteúdo de cada
coluna.
- A Zona Indicativa situa-se ao lado esquerdo, servindo para a colocação vertical de valores ou
nomes que especificam o conteúdo das linhas.
- As Zonas Enumerativas são as expressões numéricas do fato estudado, compondo-se de
colunas, linhas e células ou casas.
. Coluna: é uma série vertical de informação.
. Linha: é uma série horizontal de informação.
. A interseção de uma linha com uma coluna corresponde a uma célula ou casa.
c. Fonte
Indicação da entidade responsável pelo fornecimento do dado ou pela sua elaboração. Deve
ser sempre citada no rodapé, exceto quando se tratam de dados obtidos pelo autor do trabalho.
a. Notas
b. Chamadas
Organização da Tabela:
Título
12
Subtítulo
Zona designativa ou cabeçalho
Zona Zona
Indicativa Enumerativa
Fonte:
Notas e Chamadas Rodapé
OBSERVAÇÕES:
"Os gráficos possuem efeito mágico. O perfil de uma curva revela, num golpe de vista, a
situação toda - a história de uma epidemia, o pânico, uma era de prosperidade ou uma era de
miséria. O gráfico informa, desperta a imaginação, convence. Sendo uma linguagem internacional,
os gráficos transmitem a informação à mente, de forma direta".
Todo gráfico, para alcançar seu objetivo, deve ter: simplicidade, clareza e veracidade.
Os elementos essenciais dos gráficos são o título e a fonte, de acordo com as séries que
estão representando.
Em alguns casos haverá necessidade de uma legenda, que serve para diferenciar as
informações usadas no gráfico.
13
I. Diagramas:
a. Por ponto;
b. Por linha;
c. Por superfície:
i. Barras verticais, horizontais ou compostas;
ii. Setor;
iii. Polar;
iv. Faixas;
v. Histograma.
II. Pictograma;
III. Estereograma;
IV. Cartograma;
V. Organograma;
VI. Fluxograma.
1.6.1 Diagramas
a. Diagrama por ponto: é feito nos eixos cartesianos, onde representamos as informações
nas duas ordenadas. É usado para visualizar o comportamento dos dados.
Temperaturas das junções dos anéis para cada lançamento real ou de teste para
um motor de um foguete espacial
120
100
)F 80
(º
ra
tua 60
re
p
m
e 40
T
20
0
0 1 2 3 4 5 6
Nº de Lançamentos
b. Diagrama por linha: depois de feito o diagrama por pontos, unimos os pontos formando
uma linha. Usamos quando desejamos dar a idéia da evolução do fenômeno.
14
Análise do diâmetro medio de anéis para pistao de motores
automotivos em função do tempo
60
59
58
Diâmetro médio (cm)
57
56
55
54
53
52
51
50
1 2 3 4 5
Tempo (horas)
c. Diagrama por superfície: quando os dados são representados por meio de área.
Ex.: 1) Colunas
15
Temperaturas das junções dos anéis para cada lançamento real ou de teste
para um motor de um foguete espacial
120
100
80
Temperatura (ºF)
60
40
20
0
1 2 3 4 5
Nº de Lançamentos
2) Barras
4
Tempo (horas)
50 51 52 53 54 55 56 57 58 59 60
Diâmetro médio (cm)
3) Barras compostas
16
Importação Brasileira De Vinho e Champagne provenientes de
varias origens -- 2002 (R$)
Argentina
Chile
Espanha
Países
Vinho
Champagne
Itália
Portugal
França
ii. Gráfico em setores: são usados para representar valores absolutos ou porcentagens
complementares. O gráfico em setores deve ser evitado para representar
númerosas parcelas, por dividir o círculo em muitos setores. O comprimento do
raio não tem nenhuma interpretação. As porcentagens poderão ser colocadas dentro
de cada setor. É utilizado quando desejamos ressaltar as partes de um todo.
Com defeito
1%
Sem defeito
99%
iii. Gráfico polar: os dados são representados em um círculo que deve ser dividido em
partes iguais, dependendo do número de valores a serem representados. Cada valor
será representado em um dos raios, na mesma ordem, e cada raio é um eixo
orientado, cuja origem é o centro do círculo. Após a marcação dos pontos, liga-se
através de semirretas, formando uma curva. É utilizado quando queremos dar a
idéia sobre a evolução de um fenômeno, principalmente para dados relativos à
fenômenos da natureza: temperatura, precipitação pluviométrica, etc.
17
Temperaturas Médias Mensais Registradas da Região
x
J
30
D F
20
N M
10 23º=Temperatura
Média Mensal
O 0 A
S M
A J
J
iv. Faixas: São gráficos lineares, equivalentes em uso aos gráficos em barras
compostas. É um instrumento útil para a apresentação da produção acumulada,
porcentagens complementares, da mesma forma como acontece com os gráficos em
colunas.
Ex.:
Produção Brasileira de Caminòes Pe sados no
Periodo de 1999 a 2003
600
500
400
Gasolina
300
200
Diesel
100
0
Ano 1999 Ano 2000 Ano 2001 Ano 2002 Ano 2003
18
Investigação da vida de um pneu em relação a um
novo componente da borracha
Porcentagem
25,00%
20,00%
15,00%
10,00%
5,00%
0,00%
40--|43 43--|46 46--|49 49--|52 52--|55 55--|58 58--|61
Vida em Km
1.6.2 Pictograma - usam-se desenhos de pessoas, produtos, etc., em geral alusivos à variável em
questão.
2002
=1000 celulares
2003
2004
19
Desempenho na Impresão de Impressoras
80,00%
70,00%
60,00%
50,00%
40,00%
30,00%
20,00%
10,00%
0,00%
Impressora A
Impressora B S1
Impressora C
Impressora D
1.000 HECTARES
Até 200
Mais de 200 a 400
Mais de 400 a 600
Mais de 600 a 800
Mais de 800 a 1.000
Mais de 1.000 a 1.200
Mais de 1.200
20
Distribuição das funções da Empresa X
Diret
Gerência Intermediária
Mão-de-Obra
Inspeciona-se uma
amostra de n itens
EXERCÍCIOS
21
1. Nos exemplos seguintes diga quem é a população e a amostra:
a. Exame do tipo sanguíneo de um indivíduo.
Salário:
Classificação dos funcionários por tempo na empresa:
Estado civil:
Nº de funcionários que recebem adicional de salubridade:
Nº de alunos matriculados:
Classificação do aluno no vestibular:
Disciplina cursada pelo aluno nesse semestre:
Renda familiar:
b. Temporal-Específica?
c. Geográfica?
d. Específica-Geográfica?
22
4. Nas tabelas abaixo, classifique as séries e faça os gráficos convenientes.
Meses Vendas(R$)
Janeiro 2300
Fevereiro 1800
Março 2200
Abril 2210
Maio 2360
Junho 2600
Fonte: Departamento de Analise de Mercado
d. TABELA 4 - Exemplo 2:
BRASIL - RENDA PER CAPTA ANUAL –2000/2003
Ano Renda(R$)
2000 3.480,31
2001 5.180,03
2002 5.986,97
2003 6.307,55
Fonte:IBGE
23
2. MEDIDAS ASSOCIADAS ÀS VARIÁVEIS QUANTITATIVAS
Nas aulas anteriores vimos que a redução dos dados através de tabelas e gráficos nos
fornece muito mais informações sobre o comportamento de uma variável do que a própria série
original dos dados. É muito comum que se façam suposições ou que se estabeleçam hipóteses a
serem confirmadas pelas observações feitas nas tabelas ou gráficos. Muitas vezes tiramos
conclusões erradas apenas com uma análise superficial dos dados. Contudo, queremos resumir
ainda mais esses dados, apresentando um ou alguns valores que sejam “representativos” da série
toda. Porém, quando usamos um só valor, obtemos uma redução drástica dos dados.
De modo geral, as perguntas mais usuais e importantes que são feitas, relativas à
população, são as seguintes: onde é, ou está, o centro da distribuição? Como se distribuem os
valores em torno desse centro? Como é a forma da distribuição? Se houver duas ou mais
variáveis, como elas se relacionam e qual a intensidade dessa relação?
Para ressaltar as tendências características de um conjunto de dados, ou de uma distribuição
de frequências, isoladamente ou em confronto com outros conjuntos ou outras distribuições,
necessitamos introduzir conceitos que se expressem através de números que constituem uma forma
de traduzir estas tendências. Estes conceitos classificam-se como: Medidas de Posição e Medidas
de Dispersão.
24
2.2 ANÁLISE DE PEQUENOS CONJUNTOS DE DADOS
Um conjunto de dados pode receber tratamentos diferentes, caso ele seja considerado um
"pequeno" ou um "grande" conjunto de dados. Considera-se um pequeno conjunto de dados aquele para
o qual não são necessários métodos que exijam primeiramente o grupamento dos dados.
Como já foi informado anteriormente, a finalidade principal das medidas de tendência central é
a de informar sobre onde se localiza o centro da distribuição. O seu cálculo é um dado importante para o
estabelecimento de um esquema de trabalho, para a efetivação de uma compra, para a avaliação de um
projeto ou de um produto qualquer, etc..
A média aritmética é a medida de tendência central mais comumente usada, cujo cálculo é dado
pela soma das observações dividida pelo número delas, e é representada pelo símbolo x e seu cálculo
pode expressar-se em notação como segue:
=>
x = média (lê-se “x-barra”)
onde, = soma (expressa pela letra grega maiúscula “sigma”)
xi = qualquer escore bruto do conjunto (isto é, a própria variável)
n = total de escores do conjunto
Exemplo: Sejam as idades de seis pessoas que moram em uma casa 19, 21, 25, 29, 23, 27 anos.
A idade média dessas pessoas é
= = = 24 anos
Propiedades da Média:
5- Seja x é a média de x1, x2, ..., xn. Somando-se ou subtraindo-se uma constante c≠0 a cada valor de
um conjunto de valores, a média do conjunto fica somada ou diminuída desta constante.
1 n
Seja x1 c, x2 c, ..., xn c um novo conjunto, cuja média seria dada por: x ' = x i c x c . De
n i 1
modo análogo, multiplicando-se ou dividindo-se todos os valores de um conjunto por uma constante c,
então a média do conjunto fica multiplicada ou dividida por esta constante. Seja outro conjunto de
dados dado por: c.x1, c.x2, ..., c.xn. Sua média aritmética seria:
25
1 n
x'' c. x1 c. x
n i 1
2.2.1.2 Moda (Mo)
Denotamos moda o valor que ocorre com maior frequência em uma série de valores, se é que
existe algum valor. Em alguns casos pode haver mais de uma moda, ou seja, a distribuição de valores
pede ser bimodal ou trimodal, etc.
Desse modo, o salário modal dos empregados de uma indústria é o salário mais comum, ou seja,
é o salário percebido pelo maior número de empregados desta indústria.
Exemplos:
EMD = n + 1
2
Assim, 16 é o valor mediano na distribuição ordenada 11, 12, 13, 16, 17, 20, 25.
De acordo com a fórmula, (7+1) / 2, vemos que a mediana, 16, é o quarto valor da distribuição
independente do lado por onde se inicie a contagem.
Se o número de dados for par, a mediana será sempre aquele ponto da distribuição que
antecedido e precedido por igual número de dados. Para uma distribuição par de dados, sempre há dois
valores considerados centrais.
Ilustrando: os números 16 e 17 representam os dados centrais na seguinte distribuição: 11, 12,
13, 16, 17, 20, 25, 26. Pela fórmula, (8+1) / 2 = 4,5 o que significa que a mediana vai cair entre o quarto
e o quinto valor.
26
Quadro Resumo:
MEDIDAS
ESPECIFICAÇÃO
MÉDIA ARITMÉTICA MODA MEDIANA
- divide o conjunto
DEFINIÇÃO
x
xi - valor mais frequente ordenado em duas partes
com o mesmo número de
n elementos.
- desejamos obter uma - desejamos obter uma - deseja-se obter o ponto
medida que possui maior medida rápida e que divide a série em
estabilidade. aproximada. partes iguais.
EMPREGO - houver necessidade de - quando o valor mais - quando há valores
tratamento algébrico típico da distribuição é extremos que afetam
ulterior. procurado. acentuadamente a média.
- reflete cada valor. - valor "típico": maior - menos sensível a valores
VANTAGENS - possui propriedades quantidade de valores extremos do que a média.
matemáticas atraentes. concentrado neste
ponto.
- É influenciada por valores - Não se presta a análise - difícil de determinar para
extremos. matemática. grandes conjuntos de
LIMITAÇÕES - pode não haver moda dados.
para certos conj. de
dados.
EXERCÍCIOS:
1. Calcule a média, moda e mediana para cada uma das séries abaixo:
a. Sete empregados horistas numa companhia de porte médio ganham 153, 136, 153, 68,
17, 102, 51 (R$).
c. O pH de uma solução é medido oito vezes por um mesmo instrumento, que obtem os
seguintes dados : 7,15; 7,20; 7,18; 7,19; 7,21; 7,20; 7,16; 7,18.
2. Responda:
27
c. O que ocorreria com o salário mediano acima encontrado se fosse duplicado o menor salário
observado?
d. O salário médio de 20 estatísticos de uma empresa, no último mês, foi de R$ 2.500,00.
Se for feita uma redução de 20% no salário de cada profissional desta empresa, como ficaria o
salário médio? E o salário mediano? E o salário modal?
3. Os dados a seguir correspondem ás temperaturas (graus F) das junções dos anéis para cada
lançamento de um motor de um foguete espacial, ordenados em ordem crescente:
2 2 3 10 13 14 15 15 16 16
18 18 20 21 22 22 23 24 25 25
26 27 29 29 30 32 36 42 44 45
45 46 48 52 58 59 61 61 61 65
66 66 68 75 78 80 89 90 92 97
Você acha que a média e uma boa medida de posição? E a mediana? Justifique.
28
2.3 MEDIDAS DE VARIABILIDADE
Vimos que a moda, a mediana e a media podem ser usadas para resumir, num único número,
aquilo que é médio ou “típico” numa distribuição. Quando empregada sozinha, entretanto, qualquer
medida de tendência central fornece apenas uma visão imcompleta de um conjunto de dados e,
portanto, pode confundir ou distorcer, tanto quanto esclarecer.
Com vistas a ilustrar essa situação, admitam que no Havaí, por exemplo, e Texas tenham
quase a mesma temperatuta media diária de 20º C. Será que, por isso, podemos admitir que a
temperatura é basicamente a mesma em ambas as localidades?
Dados colhidos mostram as temperaturas das cidades de Janeiro a Maio:
Havaí: 18,9º, 20,0º, 20,2º, 20,4º, 20,5º
Texas: 15,3º,16,2º, 16,9º, 25,5º, 26,1º.
Desnecessário dizer que as praias do Texas não estão apinhadas de gente durante esse período.
Tal fato demostra que necessitamos, além de uma medida de tendência central, de um índice que
indique o grau de dispersão dos escores brutos em trono do centro da distribuição (em torno da
media). Voltando ao exemplo anterior, poderíamos dizer que as temperaturas no Texas tem uma
maior variabilidade do que no Havaí.
É a medida mais simples de variação que temos e é obtida tomando-se a diferença entre o maior
e o menor dos valores da série. Indicaremos,
= -
Essa medida não é sempre confiável por envolver apenas 2 resultados, máximo e mínimo, nada
informando sobre a distribuição dos dados intermediários, o que poderia conduzir o analista a
interpretações equivocadas. Muitas vezes, um valor particularmente anormal poderá afetar de maneira
acentuada essa medida.
Exemplo: A = 98 no seguinte conjunto de dados: 2, 6, 7, 7, 10, 12, 13, 100 (At = 100 – 2 = 98);
entretanto, a = 12 neste outro conjunto: 2, 6, 7, 7, 10, 12, 13, 14. (At = 14 - 2 = 12). Portanto, pela
simples troca de um único valor (14 em lugar de 100), fizemos com que a amplitude total flutuasse
bruscamente de 98 para 12. Assim, ela não fornece uma ideia precisa da variabilidade.
O desvio médio ( DM ) é baseado na diferença entre cada valor do conjunto de dados e a média
desse conjunto. Para a variável X, nota de um aluno do curso de cálculo III: 3, 4, 5, 6, 7. Com média
igual à 5, os desvios di = xi - x são:
d1 = -2 ; d2 = -1 ; d3 = 0 ; d4 = 1 ; d5 = 2.
29
É fácil ver que para qualquer conjunto de dados, di = ( xi - x ) = 0. Por essa razão, uma das
soluções seria tomar as diferenças em valores absolutos e somá-las. Entretanto, o uso desses totais pode
causar dificuldades quando comparamos conjuntos de dados com números diferentes de observações.
Assim, exprimimos as medidas como a média, ou seja:
DM =
: valores populacionais
N tamanho da população
A variância para uma amostra não é, em termos computacionais, exatamente igual à variância da
população. É introduzido um fator de correção nesta fórmula, de tal maneira que a variância amostral
seja um estimador não tendencioso da variância populacional.
Então, a variância amostral é representada por s2, e sua fórmula é:
: valores amostrais
n: tamanho da amostra
30
Propriedades da Variância:
I - Se somarmos (ou subtrairmos) uma mesma constante c≠0 a todos os valores do conjunto de dados, a
variância ficará inalterada.
X 'i x i c x' x c
1 n 2 1 n 2
S'2
n i 1
x'i x' x i x
n i 1
S2
II - Se multiplicarmos (ou dividirmos) cada valor do conjunto de dados por uma mesma constante c≠0,
a variância ficará multiplicada (ou dividida) pela constante ao quadrado ( c2 ).
X'i c. x i x' c. x
1 n 2
2 1
n 2
S'2 i
n i 1
x ' x' c .
xi x
n i 1
c 2 . S2
Em geral, é difícil interpretar o significado do valor da variância, porque as unidades nas quais
tal valor é expresso não são as mesmas das observações do conjunto de dados. Por esta razão, a raiz
quadrada da variância, representada pela letra grega (para população) ou s (para amostra) é chamada
de desvio padrão, é o que se utiliza com mais frequência.
As fórmulas são:
O desvio padrão mede, então, a dispersão existente no conjunto de valores, em termos absolutos.
Exemplo:
31
Para determinadas classes de problemas, as medidas de dispersão relativa proporcianam uma
avaliação mais apropiada do grau de dispersão da variável do que as de dispersão absoluta (Amplitude
Total, Desvio Médio, Desvio Padrão e Variância). A dispersão relativa permite ainda comparar duas ou
mais distribuições, mesmo que essas se refiram a diferentes fenômenos e sejam expressas em unidades
de medidas distintas, gerando a medida chamada Coeficiente de Variação.
ou em termos percentuais
ou em termos percentuais
. 100%
Observe, então, que o coeficiente de variação mede a dispersão existente no conjunto de valores,
em termos relativos, e sua condição de existência é que ou x sejam diferentes de zero. Uma
alternativa para o caso de termos média igual a zero, é usarmos uma outra medida de dispersão relativa,
o Coeficiente de Variação de Thorndike que é dado pela formula:
. 100%
ou em termos percentuais
. 100%
Observação: Quanto mais próximo de zero está o coeficiente de variação de um conjunto de valores,
mais homogeneidade existe neste conjunto, ou seja, a média encontrada é mais representativa.
1,41 1,41
Então o CV = = 0,282 ou CV = x 100 = 28,2%
5,0 5,0
32
EXERCÍCIOS:
a. Sete empregados horistas numa companhia de porte médio ganham 153, 136, 153, 68, 17,
102, 51 (R$).
b. Itensidade solar direta (watts/m2), em dias diferentes, em uma localização no sul do Brasil:
2, 5, -4, 3, 1, 6.
c. O pH de uma solução é medido oito vezes por um mesmo instrumento, que obtem os seguintes
dados : 7,15; 7,20; 7,18; 7,19; 7,21; 7,20; 7,16; 7,18.
2. Dados os conjuntos de números X = {10, 20, 30, 40, 50} e Z = {15, 25, 35, 45, 55}. Some e
multiplique pela constante c = 7, cada um dos conjuntos X e Z. (Comprove as propiedades da
variância).
3. Suponha que em uma empresa fabricante de fios, queira-se estudar o tempo de resistência de um
fio (à flexões repetidas), cuja média seja igual a 140 min e o desvio padrão de 15min, e o tempo
de resistência á tração cuja media seja de 18 Kg, e desvio padrão de 0,730 Kg. O novo fio
apresenta maior dispersão de resistentencia à tração ou à flexões?
Avaliação 1 Avaliação 2
5,9 5,9
7,8 2,7
6,8 6,9
5,9 3,9
7,2 7,2
8,4 9,4
________________ _________________
a. Em qual das duas avaliações ouve um maior rendimento?
b. Em qual das duas avaliações ouve menor dispersão absoluta? E relativa?
c. Em qual das duas avaliações a média e mais representativa?
33
3. MEDIDAS ASSOCIADAS A VARIÁVEIS QUANTITATIVAS
(Continuação)
Em sua forma não organizada, os dados estatísticos podem quase não ter sentido, ou seja,
grande quantidade de informações tendem a confundir, ao invés de esclarecer, simplesmente
porque nossa mente não é capaz de abranger a variedade e os detalhes inerentes a um grande
conjunto de dados. Ficamos simplesmente atolados em pequenos detalhes.
Quando se estuda um fenômeno precisamos recolher fatos que pareçam relevantes em
relação a alguma característica em comum de um conjunto de dados. Essa característica em
comum, definida por variáveis, deve ter suas informações condensadas de modo que possamos
interpretar seus resultados.
Uma maneira de condensar essas informações é através de uma tabela, que concentra todos
os dados em um pequeno espaço, sem que sejam perdidas informações relevantes destes. Essa
tabela é chamada de distribuição de frequências.
Em muitos casos, os valores apresentam muitas repetições. Esse fato irá sugerir,
naturalmente, que se condensem todos os resultados em uma tabela, estabelecendo-se a
correspondência entre o valor individual e o respectivo número de vezes que ele foi observado
(frequência desse valor). Essa tabela de frequências proporciona uma apresentação esteticamente
mais vantajosa dos dados, facilitando a verificação do comportamento do fenômeno.
Normalmente ao nos depararmos com um conjunto de dados, especificamente numérico,
devido à desorganização destes, não é possível tirarmos alguma conclusão. Esse conjunto de dados
desorganizados é chamado de dados brutos, que se apresentam da maneira como foram coletados.
Podemos, em princípio, organizá-los em ordem (crescente ou decrescente); essa forma ordenada é
chamada de rol. Posteriormente chegaremos a uma forma mais condensada, chamada de
distribuição de frequências de dados quantitativos.
34
a. Frequência simples absoluta (fi):
A soma das frequências relativas de uma tabela de frequências é sempre igual a 1 ou 100%.
TABELA: Número diário de máquinas que apresentam defeito no primeiro mês de funcionamento
da empresa gama – Janeiro de 2004.
35
Nº de máquinas Frequência (fi) Percentagem (fri) (Fi) (Fri) (Faci) (Fraci)
com defeito
1 2 6,67 2 6,67 30 100,00
2 2 6,67 4 13,34 28 93,33
3 5 16,67 9 30,01 26 86,66
4 10 33,33 19 63,34 21 69,99
5 6 20,00 25 83,34 11 36,66
6 5 16,66 30 100,00 5 16,66
Total 30 100,00
Fonte: Dados fictícios
a. Média Aritmética
c. Mediana: valor que divide a distribuição em duas partes iguais, ou seja, é a mesma
definição anterior, só que na distribuição os valores da variável já estão ordenados e deve-se
observar as frequências acumuladas para verificarmos aonde está o valor central ( se n é
ímpar) ou a média aritmética entre os dois valores centrais ( se n é par).
d. Variância ( 2 ou S 2 )
Variância Populacional
Variância Amostral
e. Desvio Padrão
36
f. Coeficiente de Variação:
Agora responda:
8) Se uma outra empresa do mesmo ramo apresentou uma dispersão relativa ( C.V. ) de 30%, em
qual das duas o número médio de defeitos foi mais representativo? Justifique.
Muitas vezes, mesmo com o risco de sacrificar algum detalhe manifestado na ordenação dos
valores individuais, há vantagens em resumir os dados originais em uma distribuição de
frequências, onde os valores observados não mais aparecerão individualmente, mas agrupados em
classes. Principalmente quando a variável em estudo for contínua, ou o número distinto de valores
representativos dessa variável for muito grande. Mas, quando utilizar?
37
1º Passo: Identificar o valor máximo e o valor mínimo do conjunto de dados e encontrar a
amplitude total (At). Definimos por amplitude total a diferença entre o maior e o menor valor do
conjunto de dados:
2º Passo: Determinar o número de classes (k) que irão formar uma distribuição de frequências.
Embora não exista uma fórmula precisa para esse número K, podemos nos orientar pela seguinte
regra prática:
3º Passo: Calcular o comprimento ou a amplitude que deve ter o intervalo de classe (h), que é
obtido dividindo-se a amplitude total pelo número de classes, ou seja:
Observações:
Cada valor pode pertencer apenas a uma classe. Uma mesma observação não pode pertencer
a duas classes diferentes. O número de classes deve está entre 5 e 15. Uma distribuição de
frequências com menos de 5 classes pode estar omitindo informações importantes e, acima de 15
classes pode pecar pelo excesso de detalhes e fugir do objetivo de uma distribuição de frequências,
que é resumir informações contidas no conjunto de dados de forma a melhorar a sua observação.
Uma dúvida que pode também surgir é a determinação do limite inferior do primeiro
intervalo. Uma solução seria tomar o menor inteiro do conjunto ordenado (rol), caso ele seja
discreto, ou o primeiro inteiro imediatamente anterior ao menor valor do rol, caso o conjunto de
dados seja contínuo. Uma vez determinado o limite inferior da primeira classe, soma-se a esse
limite o comprimento do intervalo ou amplitude ( h ) para encontrarmos o seu limite superior; esse
limite superior passa então a ser o inferior da classe seguinte e as classes subsequentes são
formadas utilizando-se o mesmo procedimento descrito acima.
Além das frequências absolutas de cada classe, a distribuição de frequências pode também
conter as frequências relativas e acumuladas, e o ponto médio da classe. O ponto médio ( Xi ) é o
valor que representa a classe, para efeito de cálculo das medidas descritivas, e é definido como a
média aritmética entre os limites inferior e superior da classe. Temos, então:
i = 1, 2, 3 ..., k
Exemplo: Levantamento do salário dos empregados da seção de orçamento da empresa Beta.
Dados Brutos: 4,0 4,5 4,8 7,4 8,0 8,0
5,5 6,3 5,6 7,5 7,8 9,3
10,0 9,8 10,0 11,5 11,5 11,5
10,5 11,2 11,6 16,0 16,4 17,0
17,0 19,5 12,4 13,5 14,2 14,2
13,5 15,0 15,5 15,5 23,9 4,8
38
Vamos, então, montar a nossa distribuição, alocando as frequências em cada classe.
Consideremos, por opção, intervalos abertos à esquerda e fechados à direita.
19,9
h= => h ~ 3,2 usaremos h = 4
6
2
Classes de salários fi f ri (%) Ponto Médio Xi f i (Xi –X ) f i
(em salários-minimo) (Xi)
4,0 |--- 8, 0
8,0 |--- 12,0
12,0 |--- 16,0
16,0 |--- 20,0
20,0 |--- 24,0
Total
a. Média Aritmética:
b. Mediana
39
lmd = limite inferior da classe mediana (classe que contém a mediana);
(fac)md = Fi = frequência acumulada anterior a da classe mediana;
onde: fmd = frequência absoluta de classe mediana;
h = comprimento do intervalo da classe mediana;
n = número de observações ou tamanho da amostra.
c. Moda
A moda vai nos mostrar que porção da distribuição dos dados tem a maior frequência de
ocorrência. Identificamos, então, a classe modal como aquela que detém a maior frequência. A
moda pode ser obtida através de:
d. Amplitude Total ( At )
e. Variância
Variância Populacional
Variância Amostral
40
f. Desvio Padrão
ii) Qual o número mediano do salário dos empregados da empresa beta ? E o número modal?
iv) Que percentual de funcionários recebem um salário superior a 8 salarios-minimo e no Maximo igual
a 16 salarios-minimo?
vi) Se uma segunda amostra de profissionais de nível superior de uma outra empresa concorrente
apresentar um salário médio de 12 salarios-minimo, com uma dispersão absoluta de 4 salarios-
minimo, em qual das duas empresas observamos um salário médio mais representativo ?
Justifique.
41
3.3.1 Histograma
35,00%
Percentagem de salarios
30,00%
25,00%
20,00%
15,00%
10,00%
5,00%
0,00%
4,0|---8,0 8,0|---12,0 12,0|---16,0 16,0|---20,0 20,0|---24,0
Classes de salarios
Em cada classe, há um ponto definido pelas coordenadas: (xi; fi) ou (xi ; Fi). Unindo esses
pontos, obtém-se uma poligonal que permite visualizar a forma da distribuição resultante. As
interseções dessa poligonal com o eixo X são encontradas com o auxílio de classes fictícias, de
frequência nula, correspondentes a i = 0 e i = k + 1. A esse poligonal dá-se a denominação de
Polígono de Frequências.
Observação: Para efeito de estudos comparativos entre duas ou mais distribuições, é preferível
levar ao eixo das ordenadas as frequências relativas, ficando o histograma (ou polígono) livre da
influência de n. Para o exemplo anterior, temos:
42
Levantamento do salário dos empregados da seção de
orçamento da empresa Beta
35,00%
Percentagem de salarios
30,00%
25,00%
20,00%
15,00%
10,00%
5,00%
0,00%
4,0|---8,0 8,0|---12,0 12,0|---16,0 16,0|---20,0 20,0|---24,0
Classes de salarios
Observação: Quando o polígono de frequências fica apoiado sobre o eixo horizontal, a soma das
áreas dos retângulos é sempre igual à área sob o polígono de frequências.
3.4.1 Simétrica
43
3.4.3 Assimetrica à esquerda
Quando:
CA = 0 Distribuição simétrica
CA > 0 Assimetria à direita
CA < 0 Assimetria à esquerda
44
4. PROBABILIDADE
4.1 INTRODUÇÃO
É aquele que se pode repetir infinitas vezes sob condições semelhantes e,embora não
possamos precisar qual será o resultado de uma realização particular, podemos descrever o
conjunto de todos os seus possíveis resultados.
Exemplos :
OBS.: Em cada repetição de uma “experiência” é impossível prever, com absoluta certeza, qual o
resultado que será obtido, e além disso, a ocorrência de um deles exclui a dos demais.
i. S1= { 1, 2, 3, 4, 5, 6}
ii. S2= {CC, CK, KC, KK}, onde C = cara e K = coroa.
iii. S3= {v1, v2, v3, p1, p2, }, onde b = bola branca e p = bola preta.
iv. S4= {t / t=0,1,...n}, onde t = tempo medido meses.
v. S5= {r / Mpa r Mpa }, onde r = resistência.
45
4.4 EVENTO
I. S1 = {1, 2, 3, 4, 5, 6}.
Seja A1 = ocorrer um número par.
A1 = {2, 4, 6}.
4.7 DEFINIÇÃO
i. P(A) 0 ;
ii. P(S) = 1;
iii. Se A1, A2,..., An forem eventos mutuamente exclusivos, dois a dois, então
n n
P U Ai P(A1) P(A 2 ) ... P(A n ) P(Ai)
i 1 i 1
iv. Se A1, A2, A3,... é uma sequência de eventos mutuamente exclusivos definidos em S, então:
46
P(A1 U A2 U A3 U...) = P(A1) + P(A2) + P(A3) + ...
i. 0 P(A) 1;
ii. P( ) = 0;
1 P( Ac ) = 1 - P(A);
2 Se A e B forem eventos quaisquer, então: P( A U B) = P(A) + P(B) - P(A B) ( Regra de
Adição)
Seja o espaço amostral S={s1, s2, ... sn}. Diremos que é obedecido o modelo
equiprobabilistico, quando as probabilidades associadas a cada evento elementar (si : i = 1, 2, ..., n)
são as mesmas, ou seja P(si) = 1/n.
Neste caso, por exemplo, se tivermos o evento A = {s1, s2, s3 } do espaço amostral acima,
teremos a sua probabilidade dada por :
n( A)
P(A) = ,
n( S )
onde:
3
I. S1 = {1, 2, 3, 4, 5, 6} P(A1) =
6
A1 = {2, 4, 6}
2
II. S2 ={CC, CK, KC, KK} P(A2)=
4
A2 = {CK, KC}
3
III. S3 ={v1 , v2 , v3, p1, p2} P(A3)=
5
A3 ={v1 , v3 , p1}
47
Exemplo: Sejam, A o experimento lançar um dado e S seu espaço amostral, onde S = { 1, 2, 3, 4, 5, 6}.
Consideremos os eventos:
Encontrar os valores de P(A), P(B), P(C), P(A B), P(A C), P(A B), P(A C) e P ( A) .
1 3 3
P(A) = P(B) = P(C) =
6 6 6
1 3 4
P(A U B) = ;
6 6 6
P(A B) = P( )=0;
1 3 1 3
P(A C) = ;
6 6 6 6
P( A ) = 1 - P(A)
1 5 5
= 1 - . Observe que A = {1, 2, 4, 5, 6}, logo: P( A ) = .
6 6 6
OBS:
1 3
A C, pois A ={3} e C = {1, 3, 5} logo P(A) =
e P(C) = . Assim, (PA) P(B).
6 6
Os eventos B e C são coletivamente exaustivos. Dois ou mais eventos são chamados
COLETIVAMENTE EXAUSTIVOS se, 2 a 2 forem mútuamente exclusivos e a união deles
resultar no espaço amostral S.
Em muitas situações praticas, o fenômeno aleatório com o qual trabalhamos pode ser
separado em etapas. A informação do que ocorreu em uma determinada etapa pode influenciar nas
probabilidades de ocorrências das etapas sucessivas.
Nestes casos, dizemos que ganhamos informação e podemos “recalcular” as probabilidades
de interesse. Essas probabilidades “recalculadas” recebem o nome de probabilidade condicional,
cuja definição apresentamos a seguir:
Dados dois eventos A e B, a probabilidade condicional de A dado que ocorreu B é
representada por
48
P ( A B)
P ( A / B) .
P ( B)
Exemplo: Um número é sorteado ao acaso entre os inteiros: 1, 2, 3 ..., 10 Se o número sorteado for
impar, qual a probabilidade de que seja o número 3?
Solução:
S = {1, 2, 3, 4, 5, ..., 10};
A = o no ser o 3 A = {3};
B = o no ser impar B = {1,3,5,7,9}.
1
Notem que a probabilidade do evento A, sem a informação da ocorrência de B, é: P(A) = .
10
Dada, porém, a informação de que o número sorteado é impar, o espaço amostral reduz-se para B =
{1, 3, 5, 7, 9} e será neste espaço amostral que iremos avaliar a probabilidade do evento A.
Assim,
A B = {3} e B = {1, 3, 5, 7, 9}.
Então:
P(A/B) lê-se: probabilidade de sair o número 3, dado que o número sorteado foi impar.
P ( A B) P ( A B)
A partir da definição de probabilidade, P(A/B) = ou P(B/A) = ,
P ( B) P(A)
poderemos explicitar P(AB) e encontrar a regra do produto para dois eventos, assim:
Exemplo: Retiram-se sem reposição duas peças de um lote de 10 peças, onde apenas quatro são
boas. Qual a probabilidade de ambas serem defeituosas?
49
Solução:
Sejam os eventos:
P(AB) = P(A).P(B/A)
6 5 1
P(AB) = x
10 9 3
Observem que P(B/A) é a probabilidade da segunda peça ser defeituosa, dado que a primeira foi
defeituosa.
P(AB) = P(A).P(B)
Exemplo: Retiram-se, com reposição, duas cartas de um baralho com 52 cartas. Qual a
probabilidade de que ambas sejam de "paus"?
Solução:
Sejam os EVENTOS
Como A e B são independentes, a ocorrência ou não ocorrência de um deles não está associada à
ocorrência do outro.
50
Observam que, como o processo é com reposição, o espaço amostral não é alterado para o cálculo
da probabilidade do outro evento. Assim, P(AB) = P(A).P(B)
13 13 1
P(AB) = .
52 52 16
i. Regra de Bayes
Sejam, A1, A2...An n eventos mutuamente exclusivos tais que A1A2...An = S. Sejam,
P(Ai) as probabilidades conhecidas de todos os eventos Ai e B um evento qualquer de S, tal que
conhecemos todas as probabilidades condicionais P(B/Ai).
P ( A i ). P ( B / A i )
Então para cada i teremos: P ( A i / B) n
P(A
j1
j ). P ( B / A j )
51
P( Ai B) P( Ai ) P ( B / Ai ) P( Ai ) P ( B / Ai )
P ( Ai / B) , i 1,...,5.
P(B) P( A1 B ) ... P( A5 B ) P( A1 ) P ( B / A1 ) ... P ( A5 ) P ( B / A5 )
Exemplo: Uma companhia produz circuitos em três fabricas I, II, III. A fábrica I produz 40% dos
circuitos, enquanto a II e a III 30% cada uma. As probabilidades de que um circuito produzido por
essas fabricas não funcione são 0.01 , 0.04, 0.03, respectivamnte.
Escolhido um circuito da produção conjunta das três fabrica, qual a probabilidade de que o
mesmo não funcione?
Solução:
Consideremos D = A peça escolhida e defeituosa. Então como a peça e escolhida pela produção
conjunta das três fabricas a P(D) e dada por:
P(D) = P( I ∩ D) + P( II ∩ D) + P( III ∩ D)
Esta e a probabilidade de um circuito escolhido das três fabricas não funcione. Agora suponha que o
circuito escolhido ao acaso seja defeituoso. Qual a probabilidade dele ter sido fabricado por I?
Esta e a probabilidade de que o circuito defeituoso tenha sido escolhido pela fabrica I.
Através do diagrama de arvore todos os resultados que formam o espaço amostral S podem ser
assim apresentados.
52
4 (1, a, 4)
a 5 (1, a, 5)
6 (1, a, 6)
1
4 (1, b, 4)
b 5 (1, b, 5)
6 (1, b, 6)
4 (2, a, 4)
a 5 (2, a, 5)
6 (2, a, 6)
S 2
4 (2, b, 4)
b 5 (2, b, 5)
6 (2, b, 6)
4 (3, a, 4)
a 5 (3, a, 5)
6 (3, a, 6)
3
4 (3, b, 4)
b 5 (3, b, 5)
6 (3, b, 6
Logo S terá 18 resultados (eventos elementares).
Observação :
Caso deseja-se saber quantos elementos terá o espaço geral S, sem precisarmos conhecer esses
valores, bastaríamos fazer pelo PRODUTO CARTESIANO, assim:
Logo: m = 3 x 2 x 2 = 18.
n
P ( si ) pi tal que pi = 1 e 0 pi 1.
i 1
53
Exemplo: Numa indústria de Fortaleza, peças são fabricadas por cinco máquinas: A, B, C, D e E.
Estima-se que A produz duas vezes mais que C, esta por sua vez, produz três vezes mais que E; por
outro lado, B e D têm, individualmente, igual produção à C. Qual a probabilidade de cada máquina
fabricar peças?
Solução:
Sabemos que o espaço amostral S = {A, B, C, D, E}, mas sabemos também que cada evento A, B,
C, D e E não tem probabilidade 1/5. Isto é o que teria acontecido se o modelo fosse
equiprobabilistico. Neste caso, os eventos elementares possuem probabilidades diferentes.
Seja:
P(E) = p
P(A) = 2 P(C) = 6 P(E) = 6p
P(B) = P(C) = 3 P(E) = 6p
P(C) = 3P(E) = 3p
P(D) = P(C) = 3 P(E) = 3p
P(E) = p
sabemos que
6 3 3 3
P( A ) ; P ( B) ; P( C ) ; P(D) =
16 16 16 16
EXERCÍCIOS
54
1) Três jogadores A,B C disputam um troneio de tênis. Inicialmente A joga com B e o vencedor
joga com C, e assim por diante. O torneio termina quando um jogador ganha duas vezes seguidas
ou quando são disputadas, ao todo, quatro partidas. Quais são os resultados possíveis do terneio?
2) Na tabela abaixo, os números que aparecem são probabilidades relacionadas com a ocorrência de
A, B, AB, etc. Verifique se A e B são independentes.
B Bc
A 0,04 0,06 0,10
Ac 0,08 0,82 0,90
0,12 0,88 1,00
3) Considere o lançamento de dois dados. Considere os eventos A = soma dos números obtidos igal a 9,
e B = número no primeiro dado maior ou igual à 4. Enumere os elementos de A e B. Obtenha A U B, A
∩ B, Ac.
4) Um dado e viciado, de tal forma que a probabilidade de sair um certo ponto e proporcional ao seu
valor (por exemplo, o ponto 6 e 3 vezes mais provável de sair do que o ponto 2). Calcular:
5) As falhas na fundação de uma grande edifício podem ser de dois tipos: A (capacidade de
suportar) e B (fundação excessiva). Sabendo-se que P(A) = 0,001, P(B) = 0,008 e P(AB) =
0,0008, determine a probabilidade:
a) Duas válvulas são extraídas (sem reposição). Uma delas é ensaiada e verifica-se ser
perfeita. Qual é a probabilidade de que a outra também seja perfeita?
b) Se cada válvula retirada do lote é ensaidada, qual é a probabilidade de que no quinto
ensaio, obtenhamos todas as defeituosas?
7) Sejam A e B dois eventos de um espaço amostral, tal que P(B) > 0. Mostre que:
a) Se P(A/B) = P(A) entao P(A ∩ B) = P(A).P(B)
b) Se P(A ∩ B) = P(A).P(B), então, A e B são independentes.
55
5 VARIÁVEIS ALEATÓRIAS DISCRETAS
5.1 INTRODUÇÃO
Seja X uma variável Aleatória. Se o número de valores possíveis de X for finito ou infinito
enumerável, diz-se que X é uma Variável Aleatória discreta.
A cada possível resultado xi , i = 1,2,...n, da variável X, associa-se P(xi) = P(X = xi), que é a
probabilidade da Variável Aleatória X assumir o valor xi. Ou seja, tendo S como um espaço
amostral de um experimento e P uma medida de probabilidade associada a esse experimento. Seja
uma função X definida como segue, X : S ( números reais ), de tal modo que:
i) x , P[ X = x ]
ii) X( S ) é um conjunto finito ou enumerável
i) P[ X = xi ] 0, xi
ii) P[X x ] 1
x i X(S)
i
56
5.1.3 Esperança Matemática de uma Variável Aleatória.
Seja X uma variável aleatória discreta assumindo os valores { x1, x2, ... ,xn }, com função
de probabilidade P[ X = xi ] = pi, xi. Definimos por Esperança Matemática ou simplesmente
Esperança da variável aleatória X, denotada por E[ X ], o valor definido por:
n
E[ X ] x i . P[ X x i ]
i 1
Propriedades:
i) E[ a ] = a
ii) E[ a.X ] = a.E[ X ]
iii) E[ a.X b ] = a.E[ X ] b
iv) E[ X Y ] = E[ X ] E[ Y ]
v) E[ X.Y ] = E[ X ].E[ Y ], se X e Y são independentes
Seja X uma variável aleatória discreta assumindo os valores pertencentes a { x1, x2, ... ,xn },
com função de probabilidade P[ X = xi ] = pi , xi. Definimos por Variância da variável aleatória X,
denotada por V[ X ], ao valor definido por:
2 2 2
V[X] = E[ ( X - E[ X ] ) ] = E[ X ] - ( E[ X ] ) .
Propriedades:
i) V[ a ] = 0
ii) V[ a.X ] = a2.V[ X ]
iii) V[ a.X b ] = a2.V[ X ]
iv) V[ X Y ] = V[ X ] + V[ Y ], se X e Y são independentes
n
E[ X m ] x m
i . P[ X x i ] .
i 1
57
PRINCIPAIS MODELOS DISCRETOS
Algumas variáveis aleatórias adaptam-se muito bem a uma serie de problemas práticos e
aparecem com bastante frequência. Portanto, um estudo pormenorizado das mesmas facilita
bastante a construção das correspondentes funções de probabilidades, bem como determinar seus
principais parâmetros.
Assim, para um dado problema, tentamos verificar se ele satisfaz as condições do modelo
conhecido, por isso facilitaria muito o nosso trabalho.
Uma variável aleatória X será uma variável aleatória discreta uniforme, se cada um dos n
valores em sua faixa, isto e, x1, x2,...,xn, tiver igual probabilidade. Então,
f(xi) = 1/n
f(xi)
1/k
x1 x2 xn x
Esperança e Variância
Suponhamos que X seja uma variável aleatória discreta uniforme nos inteiros consecutivos
a, a + 1, a + 2,..., b, para a ≤ b. A media de X e a variância e dada respectivamente por:
X 0 1
I 1-p p
x 1–x
ou de modo resumido, P(X = x) = p (1 – p)
58
A repetição de ensaios de Bernoulli independentes da origem a mais importante variável
discreta denominada modelo Binomial.
Exemplo: Um dado de seis faces é lançado uma vez, observamos a ocorrência da face 5 ou
não. Calcule a esperança e a variância.
Solução
Seja X uma variável aleatória que conta a ocorrência ou não da face 5.
Supondo o dado perfeito teremos:
X 0 1 Total
P(x) 5/6 1/6 1
Logo,
E(X) = 1/6
V(X) = 1/6 5/6 = 5/36
n
P[ X x] p x .(1 p) ( n x ) , x {0,1,... , n}
x
Esperança:
E[X] = np
Prova:
n n n
n x (n x) n!
E[ X ] x . P[ X x ] x
x . . p .(1 p ) 0 x. x!.(n x)! p x .(1 p) ( n x )
x 0 x 0 x 1
n n
n.(n 1)! (n 1)!
p. p( x 1) .(1 p) ( n x ) n. p. p( x 1) .(1 p) ( n x )
x 1 ( x 1)!.( n x )! x 1 ( x 1)!.( n x )!
fazend = x - 1,
n 1
( n 1)!
E ( X ) n.p. p y .(1 p) ( n 1 y ) n.p.(p - (1- p)) ( -1
n.p
y 0 y !.( n 1 y )!
Variância:
59
V[ X] = npq, em que q = 1 - p
Prova:
2
V[ X ] = E[ X ] - ( E[ X ] )2.
Mas, E[ X2] = E[ X ( X - 1 ) + X ] = E[ X ( X - 1 ) ] + E[ X ].
2
Então, V[ X ] = E[ X ( X - 1 ) ] + E[ X ] - ( E[ X ] ) = n . ( n - 1 ) . p2 + n . p - n2 . p2 = n . p - n . p2
=n.p.(1-p)
Pois,
n n n
E[ X( X 1)] x.( x 1). P[ X x] x.( x 1). . p x .(1 p) ( n x)
x 0 x0 x
n2 ( n 2)!
n.(n - 1). p 2 . p y .(1 p) ( n 2 y ) n.(n - 1). p 2 .(p - (1 - p)) (n-2) n.(n - 1). p 2
y 0 y !.( n 2 y)!
Exemplo: Dez peças são extraídas, ao acaso, com reposição, de um lote contendo 500 pecas. Qual
a probabilidade de que todas sejam defeituosas, sabendo-se que 10% das pecas do lote são
defeituosas?
Solução:
Aqui temos n = 10 ensaios de Bernoulli, cada um com P(S) = P (peça defeituosa) = p = 0,1.
Se X indica o número de pecas defeituosas na amostra, queremos calcular a P(X = 10). X~ B(10,
1/10),
60
Dizemos que a variável aleatória discreta assim definida tem distribuição Hipergeométrica
de parâmetros N, r e n, ou seja: X Hipergeométrica ( N , r , n ).
Esperança:
E(X) = n . r
N
Prova:
r N r r! N r (r 1)! N r
n n
. n
. n
.
x n x x !.(r x )! n x n. r ( x 1)!.(r x )! n x
E[ X ] x. P[ X x ] 0 x. x.
x 0 x 1 N x0
N! N x 1 ( N 1)!
n!.(( N n)! ( n 1)!.(( N n)!
n
n. r n 1 r 1 N r N 1 n. r r
E(X) = . n.
N y 0 y n 1 y n 1 N N
Variância:
Prova:
V[ X ] = E[ X2 ] - ( E[ X ] )2
E[ X2 ] = E[ X ( X - 1 ) + X ] = E[ X ( X - 1 ) ] + E[ X ]
r N r r! N r
n n
. n
.
x n x x !.(r x )! n x
E[ X ( X 1)] x.( x 1). P[ X x ] 0 0 x.( x 1). x.( x 1).
x 0 x 2 N x2
N!
n!.(( N n)!
n
(r 2)! N r r 2 N r
n
. n
.
n.(n 1). r.(r 1) ( x 2)!.( r x )! n x n.(n 1). r .(r 1) x 2 n x
N .( N 1)
x2
( N 2)!
N .( N 1)
x2 N 2
(n 2)!.( N n)!
n2
fazendo y = x-2, temos:
r 2 N r
n2
.
n.(n 1). r.(r 1) y n 1 y n.(n 1). r .(r 1)
E(X(X-1)) =
N .( N 1)
N 2
N .( N 1)
y0
n2
Então
n . (n - 1) . r . (r - 1) n . r n 2 .r 2
V[ X ] = E[ X ( X - 1 ) ] + E[ X ] - ( E[ X ] )2 = +
N . (N - 1) N N2
n. r (n 1).( r 1) n. r n. r N .( n 1).(r 1) N .( N 1) ( N 1). n. r
= 1
N ( N 1) N N N .( N 1)
61
n.r N .n.r N .n N .r N N 2 N N .n.r n.r n.r N .n N .r N 2 n.r
N N ( N 1) N N ( N 1)
n.r N ( N n) r ( N n) n.r ( N n).( N r ) r N r N n
= . n . .
N N ( N 1) N N .( N 1) N N N 1
Exemplo: Uma urna contém 10 bolas brancas, 15 bolas vermelhas e 20 bolas azuis. Oito bolas são
retiradas aleatoriamente e simultaneamente dessa urna.
Solução:
a) Vamos definir por X a variável aleatória que conta o número de bolas brancas dentre as oito
retiradas. Temos:
X ~ Hipergeométrica (45, 10, 8 ).
b) Vamos definir por Y a variável aleatória que conta o número de bolas azuis dentre as oito
retiradas. Temos:
Y ~ Hipergeométrica (45, 20, 8). E [Y] = 8.(20 / 45) 3.56
e ( . t ) .( . t ) x
P[ X x ] , com > 0, t > 0, x { 0 , 1 , 2 , ... },
x!
e .( ) x
ou P[ X x] , com = .t
x!
Dizemos que a variável aleatória discreta assim definida tem distribuição de Poisson de
parâmetro , ou seja, X Poisson ( ).
62
Esperança:
E (X) =
Prova:
( .t )
( . t ) ( y )
( . t ). e . ( . t ). e ( .t ) . e ( .t ) . t =
y 0 ( y)!
Variância:
V(X) =
V[ X ] = E[ X2 ] - ( E[ X ] )2.
Mas, E[ X2 ] = E[ X ( X - 1 ) + X ] = E[ X ( X - 1 ) ] + E[ X ]
e
e ( .t ) .( . t ) x
E[ X( X 1)] x.( x 1). P[ X x] 0 0 x.( x 1).
x0 x2 x!
2 ( .t )
( . t ) ( x 2 ) 2 ( .t )
( . t ) y
( . t ) . e . ( . t ) . e . ( . t ) 2 . e ( .t ) . e ( .t ) ( . t ) 2
x 2 ( x 2)! y0 y !
Observações:
63
v ) no campo da Biologia podemos ter outra aplicação, tal como o número de glóbulos
sanguíneos visíveis ao microscópio, dentro de uma certa área a (tomada aleatoriamente)
entre toda uma área visível ao microscópio.
Exemplo 1: Um certo tipo de pneu para automóveis de passeio tem, em média, um defeito a cada
5.000km rodados. Assumindo que as ocorrências seguem a lei de Poisson:
a) Qual a probabilidade de observarmos nenhum defeito em 10.000km ?
b) Qual a probabilidade de observarmos pelo menos um defeito em 10.000km ?
Solução:
Exemplo 2: Uma central telefônica, que possui uma taxa de 60 ligações por hora, segundo uma
distribuição de Poisson, pode fazer, no máximo, 20 conecções por minuto. Qual é a probabilidade
que, durante um dado minuto, não haja linha para as próximas chamadas?
Solução:
64
Exercícios
2) Em um certo tipo de fabricação de fita magnética, ocorrem cortes a uma taxa de 1 por 2.000
pés. Qual a probabilidades de que um rolo com 2.000 pés de fita magnética tenha:
a) nenhum corte?
b) No máximo dois cortes?
c) Pelo menos dois cortes?
3) Um fabricante de peças de automóveis garante que uma caixa de suas peças conterá, no
maximo, 2 defeituosas. Se a caixa contem 18 pecas, e a experiência tem demonstrado que esse
processo de fabricação produz 5% das pecas defeituosas, qual a probabilidade de que uma caixa
satisfaça a garantia?
4) Por engano 3 pecas defeituosas foram misturadas com boas formando um lote de 12 pecas
no total. Escolhendo-se ao acaso 4 dessas pecas, determinar a probabilidade de encontrar:
a)pelo menos 2 defeituosas.
b)no Maximo uma defeituosa.
c)no mínimo uma bola.
65
6.1 INTRODUÇÃO
i) x , P[X = x]= 0
ii) X(S) é um conjunto infinito não enumerável
iii) f : + : P[a X b] corresponde a área definida pela função f entre os pontos a e b, com
a < b.
6.1.2 A Integral
Não nos cabe aqui definir formalmente o conceito de integral de uma função, porém, como
vamos mencionar esse funcional temos a necessidade de apresentá-lo. A integral de uma função f
no intervalo [ a , b ] é definida por ser a área ocupada entre essa função e o eixo das coordenadas x.
Caso a função seja negativa, em um intervalo qualquer, a integral terá valor negativo nesse
b
intervalo. Notação: [ a ,b ] f (x)x a f ( x)x , corresponde a área entre a função f e o eixo das
coordenadas x nesse intervalo.
f(xi)
a b
6.1.3 Função Densidade de Probabilidade
66
Seja X uma variável aleatória contínua. Chamamos de função densidade de probabilidade
de X, denotada por f, a função definida como segue:
f : + tal que A , P[ X A ] = f ( x )x .
A
Propiedades:
i) f(x) 0, x .
ii) f (x)x 1
Definimos por função distribuição acumulativa de uma variável aleatória contínua qualquer
X, denotada por F, uma função que associa a cada valor real x a probabilidade da respectiva
variável aleatória assumir um valor igual ou inferior a este, ou seja: F( x ) = P[ X x ], x .
Temos:
x
F( x ) P[ X x ] f ( t )t
Seja X uma variável aleatória contínua com função densidade de probabilidade dada por f.
Definimos por Esperança da variável aleatória X, denotada por E [X] a seguinte sentença:
E[ X] x. f ( x ) x x. f ( x ) x
e Variância da variável aleatória X, denotada por V[X], aos valores definidos por:
V[ X ] = E[ ( X - E[ X ] )2 ] = E[ X2 ] - ( E[ X ] )2
Observação:
As propriedades de Esperança e Variância apresentadas para variáveis aleatórias discretas
valem para o caso contínuo.
10 10
E[ X 2 ] x 2 . f ( x )x 0 0.02 x 3 x ( 0.02 / 4 ). x 4 ( 0.005).(10 4 0 4 ) 50
x 0
V[ X ] = E[ X2 ] - ( E[ X ] )2 = 50 - ( 20 / 3 )2 = 50 / 9 5.56
f(xi)
1/(b – a)
a b x
Esperança e Variância
68
A forma da distribuição Normal foi primeiramente estuda por De Moivre, em 1793 e mais
tarde por Gauss, em 1809, quando no estudo da teoria dos erros de medidas e, devido a contribuição
deste à distribuição Normal, esta é chamada de distribuição Gaussiana.
Uma variável aleatória contínua X tem distribuição normal de parâmetros , 2 ( X
Normal( , 2) ) se a função densidade de probabilidade f, associada a essa variável aleatória, é
dada por:
(x ) 2
f ( x ) 1 ( 2 . ). e 2. 2 , x
Logo, a probabilidade de uma v.a. c. tomar um valor entre dois pontos quaisquer é igual a
área sob à curva entre esses dois pontos: P(a X b) = A
f(x)
x
Uma consequência importante do fato de uma curva normal poder ser completamente
especificada por sua média e por seu desvio padrão é que a área sob a curva de um ponto qualquer e
média é função somente do número de desvios padrões que aquele ponto dista da média. E esta é a
chave que nos permite o cálculo de probabilidades para a curva normal.
Algumas propiedades da densidade da Normal podem ser, facilmente, observadas de seu
gráfico:
Devemos observar que, quando se diz que a variável aleatória é distribuida normalmente, a
afirmação deve ser interpretada como uma implicação de que a de que a distribuiçaõ de seus
resultados possíveis podem ser bem aproxinadas pela distribuição normal de probsbilidades. Logo,
a curva normal é um “modêlo”.
Esperança e Variância
E[ X ] = e V[ X ] = 2
69
6.4 DISTRIBUIÇÃO NORMAL PADRÃO
3 2 2 3
68,3%
95,5%
99,7%
Seja Z uma variável aleatória contínua que assume qualquer valor real segundo uma função
densidade de probabilidade dada por:
2π
Dizemos que Z tem distribuição normal padrão, ou seja: Z N( 0 , 1 )
Considere XNormal(, 2), e defina uma nova variável Z = ( X - ) / . Ou seja, para
conservar-se a diferença entre a média e algum valor da distribuição para uma diferença relativa,
exprimindo-se em termos de desvio padrão a contar da média. Note-se que Z tem sinal negativo (-)
para valores de X inferiores à média e sinal positivo(+), para valores superiores à média.
Pode-se ainda verifcar que essa normalização não afeta a normalidade.Para determinar a
probabilidade de X [a, b], procederemos da seguinte forma:
P(a X b) = P(a - X - b - )
= P(a - / X - / b - / )
= P (a - / Z b - / )
e, portanto, quaisquer que sejam os valores de e , utilizaremos a Bnormal Padrão para obter
probabilidades com a distribuição Normal.
70
Exemplos:
0 2,55
Observamos que este é o sentido da tabela, logo, consultando diretamente a tabela,
verificamos que a probabilidade pedida é 0,4946 isto é, P[0<Z<2,55]= 49,46%.
b) P[Z> 1,09]
0 1,09
Como podemos observar, a área pedida não está no sentido da tabela, mas podemos encontrá-la
utilizando a área complementar, pois P[ Z> 0]=0,5 (0,5000). Logo, P[Z>1,09 ]= 0,5 - P[ 0<Z
1,09]=0,5 - 0,3621=0,1379 13,79%.
c) P[ 0,77<Z<2,33]
0 0,77 2,33
Temos, então, que a probabilidade pedida pode ser obtida subtraindo-se da área maior (
P[0<Z<2,33]) a área menor ( P[0<Z<0,77]). Logo:
d) P[ -1,96<Z<0 ]
71
Por simetria, temos que esta área é igual à: P[0<Z<+1,96]=0,475.
e) P[ Z< -1]
Por simetria, temos que esta área é igual à: P[Z > +1] = 0,5 - 0,3413 = 0,1587
Podemos também ter interesse em encontrar o valor de z, tal que P[0 <Z< z] 0,008.
Procurando-se invertidamente encontrarmos na tabela o valor 0,02 , que é tal que P[0<Z<0,02]
0,008, ou seja o valor de z que corresponde à mencionada probabilidade é z 0,02.
e) Podemos também ter interesse em encontrar o valor de z, tal que P[0 < Z< z] 0,008.
Procurando-se invertidamente encontrarmos na tabela o valor 0,02, que é tal que P[ 0 < Z <
0,02] 0,008, ou seja, o valor de z que corresponde à mencionada probabilidade é z 0,02.
f) Podemos também ter interresse em encontrar o valor de x tal que P[10 < X < x] 0,08,
temos:
P[0 < Z < (x-10)/4] 0,008 P[0 < Z < 0,02], então: (x-10)/4 0,02 x 10,08
72
f(xi)
1/ β
A distribuição Exponencial tem esse nome por causa da função exponencial na função
densidade de probabilidade. Para qualquer valor de β , a distribuição exponencial e bem distorcida.
Esperança e Variância
E(X) = β e V(X) = β 2
Uma extensão da distribuição exponencial e dada pela distribuição gama com parâmetros α,
β, α > 0 e β > 0. Sua função densidade de probabilidade e dada por:
┌(α) = ∫ 0 e – x x α – 1 dx , α > 0
Propriedades:
i)┌( α + 1) = α┌(α)
ii) α = n , e natural
┌( α + 1) = n!
Esperança e Variância
Se X for uma variável aleatória gama, com parâmetros α, β, α > 0 e β > 0, então a media e a
variância de X serão
73
6.7 DISTRIBUIÇÃO BETA
B(α,β) = ∫
0 xα – 1 (1 – x) β - 1 dx, onde, α > 0 e β > 0
Propriedades:
i)B(α,β) = B(β,α)
ii) B(α,β) = ┌(α)┌(β) / ┌(α + β )
Esperança e Variância
Se X for uma variável aleatória gama, com parâmetros α, β, α > 0 e β > 0, então a media e a
variância de X serão
Propriedades:
Esperança e Variância
Se X for uma variável aleatória Weibull, com parâmetros β, β > 0, então a media e a
variância de X serão
74
Exercício
1) Seja X a v.a. representando o peso dos alunos de uma sala de aula, tal que XN(60Kg ,
100Kg2).
2) Na última avaliação de estatítica a média foi 74, com desvio padrão 8. Calcule:
3) Uma peça é aceita no controle de qualidade com dimensões entre 299 e 301 mm. Verificou-se
que 10% das peças são rejeitadas como grandes e 20% são rejeitadas como pequenas. Calcular a
porcentagem de rejeição, no caso da especificação ser ampliada para 298,5 e 301,5 mm.
75
a. Qual e o nome aplicado a distribuição e quais são os valores dos parâmetros do tempo ate a
décima chamada?
b. Qual e o tempo médio ate a décima chamada?
c. Qual e o tempo médio entrem a nona e a décima chamada?
10) Suponha que X tenha uma distribuição de Weibull com β = 0.2 e δ = 100 horas. Determine a
media e a variância de X
11) A vida de uma bomba recirculante segue uma de Weibull com parâmetro β = 1 e δ = 700 horas.
a. Determine a vida media de uma bomba.
b. Determine a variância da vida da bomba.
c. Qual a probabilidade de uma bomba durar mais do que sua vida media?
76
7. AMOSTRAGEM E ESTIMAÇÃO
7.1 INTRODUÇÃO
II - Estatística Indutiva ou Inferência Estatística: método que parte do particular para o geral, ou
seja, o processo pelo qual são feitas generalizações para a população, à partir da amostra.
parâmetros µ x
desconhecidos σ2 ( estimadores)
2
s
(reais) p
f
77
Contudo, raramente se consegue obter a distribuição exata de alguma variável, ou porque
isto é muito dispendioso, ou muito demorado ou, às vezes, porque consiste num processo
destrutivo. Por exemplo, se estivéssemos observando a durabilidade de lâmpadas e testássemos
todas até queimarem, não restaria nenhuma para ser vendida. Assim, a solução é selecionar parte
dos elementos (amostra), analisá-la e inferir propriedades para o todo (população). Este é, pois, o
objetivo da Inferência Estatística. Assim, dois conceitos, já vistos, são necessários para o
desenvolvimento da Inferência Estatística: população e amostra.
* População: é o conjunto de todos os indivíduos ( ou objetos ) do estudo, tendo pelo menos uma
variável comum observável.
* Amostra: é qualquer subconjunto da população.
Exemplo 1: Consideremos uma pesquisa para estudar os salários de 500 funcionários de uma
grande empresa. Seleciona-se uma amostra de 36 indivíduos, e anota-se os seus salários. A variável
observada é, então, o salário. A população é formada pelos 500 funcionários da empresa. A amostra
é constituída pelos 36 indivíduos selecionados. Na realidade, estamos interessados nos salários;
portanto, para sermos mais precisos, devemos considerar como população os 500 salários
correspondentes aos 500 funcionários. Consequentemente, a amostra será formada pelos 36 salários
dos indivíduos selecionados. Podemos estudar a distribuição dos salários na amostra, e esperamos
que a mesma reflita a distribuição de todos os salários, desde, é claro, que amostra seja colhida
com cuidado.
Exemplo 3: Em alguns casos, fazemos suposições mais precisas sobre a população (variável).
Digamos que X represente o peso real de pacotes de café, enchidos automáticamente por uma
máquina, em uma certa indústria. Sabe-se que X tem distribuição normal. Sorteamos 100 pacotes e
tomamos seus pesos. A variável de interesse é X, peso de cada pacote. A população será o
conjunto de todos os pacotes enchidos ou que virão a ser enchidos pela máquina, e que obedece a
um modelo normal. E, finalmente, a amostra será formada pelas 100 medidas obtidas dos pacotes
selecionados.
78
7.3 PROBLEMAS DE INFERÊNCIA
Nas aulas subsequentes, tentaremos responder a essas perguntas e mostraremos como usar
os resultados.
79
As observações colhidas numa amostra são tanto mais informativas sobre a população
quanto mais conhecemos esta mesma população. Por exemplo, a análise da quantidade de glóbulos
brancos obtida de algumas gotas de sangue da ponta do dedo de um paciente dará uma idéia geral
da quantidade de glóbulos brancos no corpo todo, pois sabe-se que a distribuição de glóbulos
brancos é mais ou menos homogênea, e de qualquer lugar que se tivesse retirado a amostra ela seria
“representativa”. Mas, nem sempre a escolha de uma amostra representativa é imediata. Por
exemplo, voltando ao exemplo 3, onde queríamos obter uma amostra de habitantes para saber sobre
um projeto governamental, se escolhermos inicialmente uma amostra de 200 indivíduos moradores
de uma certa região que será beneficiado pelo projeto, saberemos de antemão que o resultado
conterá um “viés de seleção”. Isto é, na amostra, a proporção de pessoas favoráveis ao projeto deve
ser maior do que no todo.
A maneira de se obter a amostra é tão importante, e existem tantos modos de fazê-lo, que
estes procedimentos contituem uma especialidade dentro da Estatística, conhecida como
Amostragem. Um censo envolve um exame de todos os elementos de um dado grupo, ao passo que
a amostragem envolve o estudo de apenas uma parte dos elementos. A finalidade da amostragem
é fazer generalizações sobre a população, sem precisar examinar cada um de seus elementos,
apenas examinando uma amostra. Amostragem é, pois, o processo através do qual, pelo estudo da
amostra, são estudadas as características da população.
n observações x , S2 , f , etc..
Os problemas de amostragem podem ser mais ou menos complexos e sutis, dependendo das
populações e das variáveis que se desejam estudar. Se, por um lado, os problemas de amostragem
para um controle de qualidade de produtos industriais são de fácil resolução, por outro lado, em
pesquisas econômicas, sociais ou de opinião, a complexidade desses problemas é normalmente
grande. De uma forma geral, o problema de amostragem exige muito bom censo e experiência e é
sempre conveniente que o trabalho do estatístico seja complementado pelo de um especialista do
assunto em estudo.
80
2. Se o teste tem caráter destrutivo, é impossível repor os itens examinados.
3. Na amostragem industrial, por exemplo, pode ser difícil convencer os inspetores não treinados
em estatística, a reporem na população os itens examinados, especialmente os defeituosos.
4. Quando se repõe um item examinado na população, há chance de ele ser novamente escolhido
em uma extração futura. Assim, alguns itens são examinados mais de uma vez. Se o processo de
amostragem é dispendioso, é conveniente não examinar repetidamente um ou mais itens.
À primeira vista, pode parecer que a inspeção completa ou total de todos os itens de uma
população seja mais conveniente do que a inspeção de apenas uma amostra deles. Na prática, o
contrário é que é quase sempre válido; a amostragem é preferível ao censo. Exploremos esta última
afirmação, em termos de situações onde a amostragem é mais vantajosa.
2. Uma amostra pode ser mais atualizada do que um censo. Se necessitamos de uma informação
mais rapidamente, um estudo de toda a população pode consumir demasiado tempo e perder
utilidade. Exemplos: casos de epidemia, materiais perecíveis.
3. Testes destrutivos: Alguns testes podem apresentar caráter destrutivo, ou seja, os itens
examinados são destruídos no próprio ato do experimento. Exemplos: lâmpada, palitos de
fósforos, munição.
4. Fator "custo": O custo de um censo pode ser proibitivo, somente se o custo individual é elevado
e se existem muitos itens na população.
Não obstante, há certas situações em que é mais vantajoso examinar todos os itens de uma
população, ou seja, fazer um censo. Entre essas situações, temos:
1. A população pode ser tão pequena que o custo e o tempo de um censo sejam pouco maiores que
para uma amostra. Exemplo: uma sala de aula com 20 alunos.
81
3. Se se exige "precisão" completa, então o censo é o único método aceitável. Em face da
variabilidade amostral, nunca podemos ter certeza de quais sejam os verdadeiros valores
(parâmetros) da população. Um censo nos dará essa informação, embora erros na coleta dos
dados e outros tipos de tendenciosidade possam afetar a precisão do resultado. Exemplo: um
banco não faria amostragem de seus guichês para saber quanto dinheiro há em todos eles;
procederia a uma contagem geral (censo). É claro que isso não evita erros aritméticos na soma
das quantias, mas evita problemas de decisão sobre se determinado guichê é representativo de
todos.
1. Amostragem aleatória simples ou casual: Dentre os vários métodos para extrair amostras,
talvez o mais importante seja o da amostragem aleatória simples, pois a maior parte dos
testes estatísticos se baseia nela. Consiste em enumerar os N elementos de uma população e
82
escolher os n elementos dessa sequência, que irão compor a amostra, através de um
dispositivo aleatório qualquer, como a TABELA DE NÚMEROS ALEATÓRIOS.
De um modo geral, a amostragem aleatória exige que cada "elemento" da população tenha a
mesma oportunidade de ser incluído na amostra. Isto pode ser interpretado como segue:
i) Para "populações discretas", uma amostragem aleatória é aquela em que cada elemento da
população tem probabilidade n / N de pertencer à amostra (esse quociente é denominado
fração de amostragem) e podem ser extraídas Nn amostras com reposição. Se, no entanto, a
amostragem for feita sem reposição (que é o caso mais comum), existem C nN possíveis
amostras, todas igualmente prováveis.
ii) Para "populações contínuas", uma amostra aleatória é aquela em que a probabilidade de
incluir na amostra qualquer intervalo de valores é igual à porcentagem da população que
está naquele intervalo.
A tabela de números aleatórios é constituída por inúmeros dígitos, gerados por um processo
equivalente a um sorteio equiprovável. Esses números na tabela podem ser lidos isoladamente ou
em grupos, em qualquer ordem, em colunas, ou linhas, de cima para baixo ou vice-versa. A opção,
porém, deve ser feita antes de iniciado o processo.
Exemplo: Seja uma população constituída de N = 700 elementos e dela se quer extrair uma amostra
casual simples n = 20 elementos. Os elementos da população deverão, então, ser numerados de 001
a 700 e deve-se tomar os números dessa tabela sempre com três algarismos. Sorteia-se então um
dígito qualquer da tabela e, a partir dele, pegam-se 20 grupos de 3 algarismos, de forma
subsequente, os quais indicarão os elementos da amostra. Por exemplo, se a partir do dígito
sorteado no início, os números observados forem:
118 853 060 981 833 398 299 060 654 ......
os elementos sorteados para a amostra serão os de ordem 118, 060, 398, 299, 060, 654, etc..., para a
amostragem feita com reposição, e os de ordem 118, 060, 398, 299, 654, etc., para a amostragem
feita sem reposição.
Este tipo de amostragem pode ser criticado, no sentido de ser muito trabalhoso, quer quanto
a enumeração, quer quanto à pesquisa dos elementos escolhidos, muito embora seja o processo
mais elementar e preciso. Felizmente, os recursos da informática já nos dão o suporte necessário
para esse tipo de amostragem.
Este processo é mais vantajoso que o anterior, no aspecto de que há uma facilidade relativamente
maior na determinação dos elementos da amostra. No entanto, se a variável que se quer analisar
tiver variações cíclicas e o período dos ciclos coincidir com o período de retirada dos elementos da
amostra, este processo introduz um vício de amostragem, sendo pois restritivo seu uso.
Neste caso, se o sorteio fosse feito ao acaso, poderia ocorrer de vários estratos não serem
representados na amostra e essa tendência seria tanto maior quanto menor fosse o tamanho da
amostra.
O processo consiste, então, em especificar quantos elementos serão retirados de cada estrato, para
formar a amostra.
Exemplo: Consideremos uma população com 60 empresas, das quais 32 são públicas e 28 privadas.
Vamos obter uma amostra proporcional estratificada, correspondendo a 10% da população. Temos,
então, 2 estratos (pública e privadas) :
Podemos enumerar a população de 01 à 60 de tal forma que : 01,......, 32 seriam públicas e de 33,
...., 60 seriam privadas. As amostras sorteadas poderiam ser : 28, 22, 18, 57, 56 e 45, onde os três
primeiros números referem-se às empresas públicas e os demais às empresa privadas.
Exemplo: Suponha-se que o último recenseamento realizado numa região, tenha mostrado que a
população tem a seguinte estrutura (sob o ponto de vista profissional): 35% operários, 10%
84
agricultores, 5% profissionais liberais, 15% empregados, 8% funcionários públicos e 27% sem
profissão definida. Ao se pretender obter uma amostra de 2.000 pessoas, deve-se procurar formá-la
por 700 operários, 200 agricultores, 100 profissionais liberais, 300 empregados, 160 funcionários
públicos e 540 sem profissão definida, sendo cada um deles selecionado livremente.
2. Determinação dos meios: de acordo com o orçamento e o tempo disponíveis, qual o tipo e qual
o tamanho?
a. qual o tipo de amostragem, se aleatória ou não ;
b. qual a amplitude ou tamanho;
c. qual o método para o levantamento dos dados : fone, correio, mala direta, etc.;
d. como os interessados serão questionados?
3. Preparação do plano:
5. Relatório final
a. Claro, indicando todos os detalhes (forma, lugar, tamanho, técnicas utilizadas, dificuldades e
limitações);
85
b. Honesto, isto é, sem idéias pré-concebidas, aceitando o resultado, seja ele positivo ou
negativo.
8. DISTRIBUIÇÕES AMOSTRAIS
8.1 INTRODUÇÃO
86
2 2
g. Qual a relação existente entre x e x ?
Respostas :
6 9 12 27
a. Média salarial da população : x = 3
3
9
x = 9 salários mínimos.
2
x variância populacional dos salários .
3
2
( X i )
2 9 0 9 18
x i 1
= 6 (salários mínimos)2
N 3 3
2
Resumindo : x = 9 e x 6
b. Amostras possíveis de tamanho 2 com reposição :
c. Seja X a v.a. definida como a média amostral. Então, X assume os seguintes valores: 6,0;
7,5; 9,0; 9,0; 7,5; 10,5; 12,0; 9,0; 10,5. Construindo-se a distribuição de probabilidade da
média amostral, tem-se :
5
d. Valor esperado E X x X P X =
i 1
1 2 3 2 1 81
6x 7 , 5 x 9 x 10 , 5 x 12 x 9 salários mínimos.
9 9 9 9 9 9
e. x 9 e x 9
logo,
x x
f.
5 2 3
2x ( x x )2 P ( x ) ( 6 9 )2 x (7 , 5 9 )2 x ( 9 , 9 9 , 0 )2 x
i 1 9 9
2 1 27
(10 , 5 9 )2 x (12, 0 9 )2 x 3 ( s. m.)2
9 9 9
2x
g. 2x 6 e 2x 3 logo, 2x onde, n é o tamanho da amostra.
n
87
Concluindo:
Uma distribuição amostral de médias é uma distribuição de probabilidade que indica quão
prováveis são as diversas médias amostrais. A distribuição é função da média e do desvio padrão
da população e do tamanho da amostra. Para cada combinação de média, desvio padrão e
tamanho da amostra, haverá uma única distribuição amostral de médias amostrais. As fórmulas
efetuamente usadas para cálculos envolvendo distribuições amostrais das médias são :
1.
x x
onde: x
média da distribuição amostral.
x
média da população.
2x x
2. 2x x onde : x desvio padrão da distribuição amostral.
n n
x desvio padrão da população.
n = tamanho da amostra.
A fórmula do desvio padrão nos diz, que a quantidade de dispersão na distribuição amostral
depende de duas coisas :
1. Da dispersão da população.
2. Da raiz quadrada do tamanho da amostra.
88
X
Z ~ N ( 0,1)
n
Exemplos:
1) Suponha uma população normal com os elementos {1, 3, 5, 7}. defina a variável X = valor
assumido pelo elemento na população. Considere agora todas as amostras possíveis de tamanho 2
com reposição.
X X2
a. Construa a distribuição de probabilidade da média amostral X 1 ;
2
b. Calcule E ( X ), V( X ) e P(X < 5) ;
V(X)
c. Verifique se E( X) E( X) e V(X) = .
2
2) Os diâmetros de cabos feitos por um certo processo de manufatura são conhecidos ser
normalmente distribuídos com média 2,5 cm e desvio padrão 0,009 cm. Qual é a distribuição da
média amostral destes nove diâmetros selecionados aleatoriamente? Calcule a proporção de tais
médias que excedem 2,505 cm.
Solução: A distribuição amostral X também tem distribuição normal com a mesma média 2,5 cm e
com desvio padrão igual a 0, 009 = 0,003 cm.
9
Para calcular a P ( X ) 2 , 505) devemos padronizar como a seguir :
Já vimos que a capacidade de usar amostras para fazer inferências sobre parâmetros
populacionais depende do conhecimento da distribuição amostral. Assim como a média amostral é
usada para estimar a média da população, a proporção amostral serve para estimar a proporção na
população. Quando a amostragem é aleatória, há uma elevada probabilidade de que a estatística
amostral se aproxime do parâmetro populacional. Assim, populações com pequenas porcentagens
de determinado item tendem a gerar amostras com pequenas porcentagens do item e populações
com elevadas porcentagens gerarão tipicamente amostras com grandes porcentagens. Nota-se,
todavia, que sempre há certo grau de variação; as estatísticas amostrais não são necessariamente
iguais ao parâmetro populacional.
Quando o tamanho da amostra é menor do que 20, as probabilidades dos diversos resultados
possíveis podem ser lidos diretamente numa tabela de probabilidades binomias, simplesmente
convertendo o número de sucessos em percentagens. Por exemplo, 5 ocorrências em 20
89
observações correspondem a 25%. Porém, para maiores amostras, a aproximação normal da
binomial dá resultados bastante satisfatórios, possibilitando a utilização do Teorema do Limite
Central, que no sentido mais restrito, só se aplica a médias amostrais.
Temos, então:
X : no sucessos, segue Binomial, com E(X) = np e V(X) = npq.
x p i qi
Se fi i ( proporção amostral), então: fi N[pi ; ].
n n
pq
Dai temos: f N[p; ]
n
f =p ,
Quando a população é muito grande ou infinita, o desvio padrão da distribuição amostral se calcula
pela fórmula:
p(1 p)
f
n
Exemplo: Um lojista compra lâmpadas diretamente da fábrica em grandes lotes, que vêm
embaladas individualmente. Periodicamente, o lojista inspeciona os lotes para determinar a
proporção de lâmpadas quebradas. Se um grande lote contém 10 % de quebradas, qual a
probabilidade de o lojista obter uma amostra de 100 lâmpadas com 17 % ou mais de quebradas?
Nn
N 1
90
x Nn
O desvio padrão das médias amostrais se torna, então: x
n N 1
p (1 p ) Nn
enquanto que o desvio padrão das proporções amostrais fica: f
n N 1
91
EXERCÍCIOS
a. 30 %; n = 100;
b. 77,3 %; n = 362.
2) - Um fabricante produz peças com 10 % de defeitos. Qual a probabilidade de uma a.a. de 100
peças ter:
a. 15 % ou mais de defeituosos?
b. No máximo 6 % de defeituosos?
3) O controle de qualidade de uma fábrica de peças foi montado de modo que no máximo 5 % de
sua produção de peças defeituosas passa no teste. Supondo que este controle seja eficiente, isto
é, p = 5 % e que as peças são vendidas em caixas de 100, calcule a probabilidade de que em
uma caixa escolhida aleatoriamente:
a. Tenha pelo menos 8 % das peças defeituosas;
b. Tenha no máximo 3 % das peças defeituosas?
92
9. ESTIMAÇÃO
Vamos supor que uma pesquisa esteja sedo efetuada junto às pessoas que moram em certa
cidade, para se saber a opinião sobre a sentença da juíza Sandra que livrará do júri popular os 5
jovens que incendiaram e mataram o índio pataxó, Galdino, fato ocorrido recentemente e que
chocou todo o Brasil e o mundo. Uma amostra aleatória de 500 pessoas é considerada, observando-
se 475 pessoas desfavoráveis à sentença da juíza. Daí, concluímos que 95% das pessoas dessa
cidade são contra a sentença dessa juíza. Esta é uma estimativa pontual para a proporção
populacional, e nossa resposta é baseada na suposição de que a amostra é uma perfeita reprodução
da população. Mas, sabemos também, que uma outra amostra levaria a uma outra estimativa.
Conhecer as propriedades desses estimadores é um dos propósitos mais importantes da Inferência
Estatística.
A estimação é o processo que consiste em utilizar dados amostrais para estimar os valores
de parâmetros populacionais desconhecidos. Essencialmente, qualquer característica de uma
população pode ser estimada a partir de uma amostra aleatória. Entre as mais comuns, estão a
média e o desvio padrão de uma população e a proporção populacional.
Existem inúmeras aplicações da estimação, como por exemplo:
- Estimar a proporção de eleitores favoráveis a determinado candidato; estimar a porcentagem de
peças defeituosas em um grande lote de peças; estimar a resistência média, peso, duração média de
um produto; avaliação de inventários; estimação do custo de projetos, etc.
- As estimativas amostrais (estimadores = características da amostra) são utilizadas como
estimadores de parâmetros populacionais. Assim, uma média amostral é usada como estimativa de
uma média populacional; um desvio padrão amostral é usado como estimativa do desvio padrão
populacional e a proporção de itens em uma amostra, com determinada característica, serve para
estimar a proporção da população com aquela característica.
- Tais estimativas chamam-se estimativas pontuais porque originam uma única estimativa do
parâmetro. Só devem ser usadas quando se necessita, ao menos aproximadamente, conhecer o valor
do parâmetro para utilizá-lo numa expressão analítica qualquer, pois já sabemos que a amostragem
aleatória apresenta tendência a gerar amostras em que a estimativa não é igual ao parâmetro
populacional, ou seja, os estimadores são variáveis aleatórias, muitas vezes contínuas, e as
estimativas obtidas quase certamente serão distintas do valor do parâmetro (a probabilidade é, em
geral, praticamente nula), ou seja, provavelmente estar-se-á cometendo um erro de estimação,
(embora os dois valores em geral, sejam próximos). Aliás, este procedimento não permite julgar
qual a possível magnitude do erro que estamos cometendo. Desse fato,isto é, em virtude da
variabilidade amostral, vamos considerar uma estimativa intervalar, ou seja, vamos construir
um intervalo em torno da estimativa por ponto, de modo que esse intervalo tenha uma
probabilidade conhecida (que será designada por 1 ) de conter o verdadeiro valor do parâmetro.
93
Essa é a configuração da estimativa por intervalo e o intervalo assim construído é denominado
intervalo de confiança.
O valor da probabilidade ( 1 ), que usualmente assume valores 90%, 95%, 99%, etc., é
denominado nível de confiança e o valor é chamado nível de significância, isto é,representa o
erro que se está cometendo quando se afirma que a probabilidade do intervalo [ 1 2 ]
conter o verdadeiro valor do parâmetro populacional é ( 1 ).
Deve-se frisar também que o intervalo de confiança é aleatório (pois é construído a partir de
uma estimativa por ponto), ao passo que o parâmetro é suposto uma constante da população.
Assim, a rigor, é incorreto falar que a probabilidade de ”cair” no intervalo é ( 1 ).
Não nos esqueçamos que a capacidade de estimar parâmetros populacionais por meio de
dados amostrais está ligada diretamente ao conhecimento da distribuição amostral da estatística
que está sendo usada como estimador. Podemos encarar a estatística amostral como uma
observação daquela distribuição amostral.
Parâmetro
Estimativa Pontual Estimativa Intervalar
Populacional
DESVIO PADRÃO O desvio padrão da duração de vida de O desvio padrão da duração de vida dessa
uma lâmpada é de 200 horas. lâmpada está entre 190 e 210 horas.
Exemplo: Feito um ensaio de corrosão com uma amostra de 64 peças, verificou-se que o tempo
que a peça suportou nesse teste apresentou uma média x = 200 horas. Sabemos que este é um dos
valores da distribuição amostral, mas a questão é: qual deles? Isto é, quão próximo está 200 horas
do verdadeiro tempo médio da população?
Já vimos que a distribuição das médias amostrais é normal ou aproximadamente normal, em
muitos casos. Sabemos, então, que cerca de 68% da estatística amostral está a menos de 1 desvio
padrão de cada lado da média da distribuição amostral (que é igual a média da população) e que
95% das médias amostrais estão dentro de 1,96 desvios padrão a contar da média. Da mesma
forma, sabemos que 32% das médias amostrais possíveis estarão além de 1 desvio padrão a contar
da média (1 - 0,68) e que cerca de 5% das médias amostrais estarão a mais de 1,96 desvios padrões
além da média.
Consequentemente, se fizermos a afirmativa que a média de uma amostra está a menos de
1,96 desvios padrão da verdadeira média, poderemos esperar estar certos 95% das vezes e errados
5%. Assim, dizer que o tempo médio encontrado está a menos de 1,96 desvios padrões da média
acarreta um risco de erro de 5%. Na verdade, a média amostral pode estar muito mais próxima da
verdadeira média do que 1,96; ou muito mais afastada. Como nunca saberemos ao certo, devemos
contentar-nos com essa "atribuição probabilística" do intervalo em que o verdadeiro valor pode
estar. Tal intervalo é chamado "intervalo de confiança" e nossa "confiança" é 1 - P(erro). Logo, um
I.C. de 95% leva consigo um risco de 5% de erro.
94
Generalizando: A estimativa pontual da média populacional será feita por um valor x .
Qualquer que seja esta amostra, teremos um erro (e) que sera ( x - µ). E, de acordo com o Teorema
do Limite Central, teremos:
2
e = ( x - µ) N (0, 2x ), com 2x .
n
que é equivalente a:
P( 1,96 x < x < + 1,96 x ) = 95%.
Esta afirmação probabilística pode ser reescrita do seguinte modo:
convém lembrar, mais uma vez, que não é variável aleatória mas um parâmetro, e a expressão
acima deve ser interpretada do seguinte modo: construídos todos os intervalos da forma
x 1,96 x , 95% deles conterão o parâmetro .
A questão de quão próxima determinada média amostral pode estar da média da distribuição
amostral, em unidades efetivas, depende da variabilidade amostral (desvio padrão da distribuição
amostral : X ). Logo, grandes amostras tenderão a produzir médias amostrais que estão mais
próximas da média do que pequenas amostras. Além disso, a variabilidade da população ( X ) é um
fator: quanto maior a variabilidade na população, maior a variabilidade na distribuição amostral.
O método usado para estimar a média de uma população () depende se o desvio padrão da
população é conhecido ou se deve ser estimado com base nos dados amostrais. A estimativa
intervalar da média populacional se baseia na hipótese de que a distribuição amostral das médias
amostrais é normal. Para grandes amostras isto não apresenta dificuldade especial, pois se aplica o
Teorema do Limite Central (T.L.C.). Todavia, para amostras inferiores a 30, é importante saber que
a população submetida a amostragem tem distribuição normal, ou aproximadamente normal.
95
X
Portanto : Z tem distribuição N(0, 1).
n
Então:
P ( Z Z Z ) 1
2 2
X
P ( Z Z ) 1
2 2
n
P ( Z X Z ) 1
2 n 2 n
P ( X Z X Z ) 1
2 n 2 n
P( X Z X Z ) 1
2 n 2 n
P ( X Z X Z ) 1
2 n 2 n
Logo, a fórmula acima nos mostra que o erro cometido na estimativa da média populacional
depende de 3 fatores:
96
2
n = Z
2 e
Exemplos:
1) Feito um ensaio de corrosão em 64 peças de um lote de produção, verificou-se que o tempo que
a peça suportou nesse teste apresentou uma média X =200 horas. Sabe-se, de informações
anteriores, que = 16 horas.
d. Quantas peças deverão ser amostradas para que o erro de estimação seja no máximo de 2,25
horas?
2) O peso dos pacotes de pectina cítrica produzida por uma companhia apresenta uma distribuição
normal com 2 = 2,25 kg2 .Uma amostra aleatória de cinco pacotes apresentou os seguintes pesos:
27,5; 25,6; 28,2; 26,1; 25,0 .
a. Estime pontualmente o peso médio de todos os pacotes desse produto produzido por essa
empresa;
d. Quantas unidades a mais deveriam ser extraídas para que o erro de estimativa fosse reduzido em
50%?
(X i X )2
Devemos lembrar que: S 2 i 1
n 1
2 X-
Sabemos que: X N ( , ) e Z=
N ( 0,1)
n
n
Mas como é desconhecido, definiremos uma outra variável t dada por:
97
X
t
S
n
esta variável t tem distribuição conhecida, chamada distribuição t de STUDENT, no caso com (n -
1) graus de liberdade. O gráfico da função densidade da variável t é SIMÉTRICA e tem a mesma
forma da NORMAL, porém menos achatada.
Então :
P ( t n 1; t t n 1; ) 1
2 2
X
P ( t n 1; t n 1; ) 1
2 S 2
n
S S
P ( t n 1; X t n 1 ) 1
2 n 2 n
S S
P ( X t n 1 X t n 1 ) 1
2 n 2 n
S S
P ( X t n 1; X t n 1; ) 1
2 n 2 n
Então :
S S
P ( X t n 1; X t n 1; ) 1
2 n 2 n
9.4.2.1 Erro de estimativa(e):
S
e = tn 1;
2 n
Neste caso, como a tabela t enfoca (n-1) g.l. e n nos é desconhecido, admitimos que t ~z .
Daí, temos:
S
n= Z 2
2 e
Exemplos:
1) O peso de pacotes de café produzidos por uma empresa apresenta-se normalmente distribuído.
Uma amostra de 25 pacotes apresentou um peso médio de 248 g, com desvio padrão de 8 g.
98
a. Estime pontualmente o peso médio dos pacotes de café dessa empresa.
b. Estime um intervalo de confiança para o peso médio de todos os pacotes. Use =5%.
d. Quantos pacotes deveriam ser amostrados, para que , com uma confiança de 95%, o erro máximo
admitido seja de apenas 5 g?
2) De 50 mil válvulas fabricadas por uma companhia, retira-se uma amostra aleatória de 400
válvulas, e obtém-se a vida média de 800 horas e desvio padrão de 100 horas.
c. Que tamanho deve ter a amostra para que seja de 95% a confiança na estimativa 800 7,84?
pq
Lembrando que p f N ( p, ) quando n for grande (n 20),
n
p p
Logo: Z tem distribuição N(0, 1)
pq
n
Então:
P ( Z Z Z ) 1
2 2
p p
P ( Z Z ) 1
2 pq 2
n
pq pq
P ( Z p p Z ) 1
2 n 2 n
pq pq
P ( p Z Z
p pX ) 1
2 n 2 n
pq pq
P ( p Z p p Z ) 1
2 n 2 n
pq
pq
P ( p Z p p Z ) 1
2 n 2 n
2
n Z / 2 pˆ (1 pˆ )
e
Exemplos:
a. Construa um I.C. para a proporção de habitantes dessa cidade que são favoráveis à pena de
morte, ao nível de significância de 1%.
b. Qual deveria ser o tamanho da amostra para que se estivesse confiante que o erro de
estimativa não excedesse 4%?
c. Com que grau de confiança se poderia dizer que a proporção populacional está entre 0,2
0,03 ?
a. Determine o tamanho da amostra necessário para que o erro cometido na estimação seja de
no máximo 0,01 com probabilidade de 90%.
b. Se na amostra final, com tamanho obtido em "a", observou-se que 55% dos eleitores eram
favoráveis ao candidato em questão, construa um I.C. para a proporção de eleitores
favoráveis a esse candidato. Use = 5%.
2
Suponhamos que : X1 ~ N( 1 , 1 ) e X2 ~ N ( 2 , 2 2 ), onde X1 e X2 são independentes,
com:
2 2
X1 ~ N 1 , 1 n1 e X2 ~ N 2 , 2 n 2 .
Teremos, pois, que a distribuição amostral das diferenças de médias será normal com:
E X1 X2 E X1 E X2 1 2
100
12 22
Var X1 X2 Var X1 Var X2 n1 n 2
Dessa forma,
12 22
X1 X2 N 1 2 ; n1
n 2
e daí temos,
Z
X1 X2 1 2 N(0,1)
12 22
n1 n2
1) Se X1 e X2 são normalmente distribuídas X1 X2 ~Normal;
2) Se X1 e X2 não são normalmente distribuídas X1 X2 é aproximadamente Normal, desde
que n1 n 2 30 .
pq p q
Se: f1 ~ N p1 , 1 1 e f2 ~ N p 2 , 2 2 , válidas quando n > 20, então a distribuição
n1 n2
amostral das diferenças será aproximadamente normal com:
E f1 f2 E f1 E f2 p1 p 2
pq p q
Var f1 f2 Var f1 Var f2 1 1 2 2
n1 n2
Dessa forma,
p1q1 p 2 q 2
f1 f2 N p1 p 2 ;
n1 n2
assim, temos,
Z
f1 f2 p1 p 2 ~ N(0,1)
p1q1 p 2 q 2
n1 n2
101
Exemplos:
1) Os relés fabricados pela empresa A têm duração média de 1.400 h e desvio padrão de 200 h,
enquanto que os fabricados pela empresa B têm duração média de 1.200 h e desvio padrão de
100 h. Se forem ensaiadas amostras aleatórias de 125 relés de cada marca, qual a probabilidade
das de marca A terem vida média superior as de B de pelo menos:
a. 160 h;
b. 250 h.
2) O fabricante A produz palitos de fósforos com 10% de defeitos, enquanto que o fabricante B
produz com 5% de defeitos. Se forem testados 100 palitos de fósforos do fabricante A e 121 do
fabricante B, qual a probabilidade do fabricante A diferir em mais de 6% do fabricante B?
~ N
,
12 e ~ N
,
22 ,
X1 1 n1 X2 2 n 2
12 22
Então: X1 X2 N 1 2 ; n1
n 2
E daí temos, Z
X1 X2 1 2 N(0,1)
12 22
n1 n2
2 2 2 2
P
Z
X1 X2 2
1 2
n1
n2
1 2
Z
X1 X2 2
n1 n2
1 2
1
ou ainda,
102
12 22
1 2 X1 X2 Z com 1 % de confiança,
2 n1 n 2
Exemplo: Uma empresa tem 2 filiais ( A e B), para as quais os desvios padrão das vendas diárias
são de 5 e 3 peças, respectivamente. Uma amostra de 20 dias foeneceu uma venda média diária de
40 peças para a filial A e 30 peças para a filial B. Supondo que a distribuição diária de vendas seja
normal, construir um I.C. de 92% para a diferença da venda diária das duas filiais.
9.7.2 Entre duas médias ( 1e 2 ) de duas populações normais, de mesma variância
2 desconhecida ( admitindo-se 12 22 2 )
1
2 1
X1 X2 N
1 2 ; ( )
n1 n 2
E daí temos, Z
X1 X2 1 2 N(0,1)
1 1
n1 n 2
2
S’ =
n1 1S12 n 2 1S22
n1 n 2 2
t
X1 X2 1 2 "t" Student com n1 n 2 2 graus de liberdade .
1 1
S
n1 n 2
Observação: Se ( n1 + n2 ) 30 t ~ z
O intervalo será:
1 1
P X X t S'
1 2
1 1
n n 1 2
1 2 X X t S'
n
1
2 1 2 2 1 n2
103
Exemplo: Duas populações normais: X1 e X2 têm supostamente a mesma variância.Da população 1
foi extraída uma amostra de tamanho 10, obtendo-se média 15 e desvio padrão 3. Da população 2
foi extraída uma amostra de 12 elementos, obtendo-se média 12 e desvio padrão 2. Construir o I.C.
de 95% para a diferença de médias.
2
Sejam : X1 ~ N( 1 , 1 ) e X2 ~ N ( 2 , 2 2 ), com X1 e X2 independentes. Então:
12 22 .
X1 X2
N
1
2 ;
n1 n 2
Como não conhecemos 12 e 22 , iremos estimá-las respectivamente por S12 e S 22 , e o intervalo
será dado por :
2 2 2 2
1 2
2 n1 n2 1 2 2
s s
P X X tα 1 2 μ1 μ2 X X Zα 1 2 1 α
s s
n1 n2
Exemplo: Dois métodos de vendas estão sendo aplicados em uma empresa. O método X1 foi
aplicado durante 6 dias, obtendo-se uma quantidade média de vendas (em unidades) de 81 com
variância de 2, enquanto que o método X2 foi aplicado durante 9 dias, encontran-se uma quantidade
média de 78 e variância de 13,5. Construir o I.C. para a diferença de unidades médias populacionais
vendidas, ao nível de significância de 5%.
pq p q
Se: f1 ~ N p1 , 1 1 e f2 ~ N p 2 , 2 2 , então tem-se:
n1 n2
f1 f2 N p1 p2 ;
p1q1 p2 q 2
f1 f2 p1 p 2
e Z ~ N(0,1)
n1 n2 p1q1 p 2 q 2
n1 n2
104
Logo, o intervalo de confiança será:
Como, em geral, os valores de p1 e p2 são desconhecidos, eles podem ser estimados por f1 e f2 ,
respectivamente. Daí, teremos:
f 1 f1 f2 1 f2
f 1 f1 f2 1 f2
P f1 f2 zα 1
p1 p2 f1 f 2 +zα 1 1 α
2 n1 n 2 2 n1 n2
Exemplo: Um levantamento estatístico mostrou que 80 pessoas, das 200 consultadas, numa cidade
, vão votar no candidato A para a presidência nas próximas eleições; uma outra amostra de 500
pessoas, dessa mesma cidade, mostrou que 150 delas vão votar no candidato B. Construir um I.C.
de 99% para a diferença das proporções de pessoas que vão votar em A e B.
105
10. ESTIMAÇÃO (CONTINUAÇÃO)
n
2
(X X ) i
s2 i 1
n 1
por usar X em lugar de , tem um grau de liberdade a menos (ou seja, tem (n-1) graus de
liberdade). Isso porque o cálculo dessa estatística pressupõe que já se tenha calculado X
anteriormente e para tal já usamos uma vez todos os valores da amostra, os quais estariam sendo
2
usados pela segunda vez para calcular s ; então, ao usar novamente os valores da amostra para
2
calcular s , dados quaisquer (n-1) valores da amostra, o valor restante estará perfeitamente
determinado, não sendo portanto livre.
(n 1)s 2
10.1.1 Distribuição Amostral de
2
Se uma a.a. de tamanho "n" é retirada de uma população normal com média e variância
2
, e a variância amostral é calculada, nós obtemos um valor da estatística s2. A distribuição amostral
2
de s tem pouca aplicação prática em Estatística, porém isto já não ocorre com:
(n 1)s 2
.
2
10.1.2 Teorema de FISHER
2
Se s é a variância de uma a.a. de tamanho "n" retirada de uma população normal com
2 (n 1)s 2
2 2 2 2
média e variância ,, então a v.a. 2
~ ( n 1) . Daí temos : s . (2n 1) .
n 1
2 2 2 2 2 4
Então s ~k 2( n 1) g.l. , com E[s ] = e V[s ] =
n 1
106
2
10.1.3 A Distribuição QUI-QUADRADO ( )
2
Define-se uma v.a. , com graus de liberdade, como sendo a soma do quadrado de
variáveis normais padronizadas e independentes, isto é,
υ υ 2
Xi μ
χ 2υ Z i2
i 1 i 1 σ
2
A distribuição constitui-se de uma família de curvas, cada qual caracterizada pelos graus
de liberdade , e ela está tabelada em função do parâmetro . O tipo mais frequente é a tabela
unicaudal à direita. Para uma dada probabilidade , e para um dado , o corpo da tabela fornece o
2 2 2
valor de 0 , tal que P( 0 ) .
2
Convém salientar que a distribuição tem as seguintes diferenças, em relação à normal:
É sempre positiva;
É assimétrica;
A tabela fornece o valor do 2, a partir de uma probabilidade e um certo número de graus
de liberdade ().
Exemplos:
2
1) Para uma distribuição , encontre :
a. 20,01 , com n = 10
b. 20,95, com n = 5
2) Ache a probabilidade de que uma a.a. de 25 observações de uma população normal com
2 2
variância = 6 tenha a variância s :
a. Maior que 9,1;
b. Entre 3,462 e 10,745.
Seja X uma população com distribuição normal de média e variância 2. Sabe-se pelo
teorema de Fisher que:
(n 1)s 2
χ 2n 1 2
~ χ (n2 1)
σ
107
P(χ (12 α ) χ 2 χ (2α ) ) 1 α
2 2
(n 1)S 2
P(χ (12 α ) ) 2
χ (2α ) ) 1 α
2 σ 2
2 2
χ (1 α ) χ (α )
2 1 2
P 2
2
2
1α
(n 1)s σ (n 1)s
2
(n 1)s 2 (n 1)s 2
P σ 1 α
2
χ (α ) χ (12 α )
2 2
(n 1)s 2 (n 1)s 2
P σ 1 α
χ (2α ) χ (12 α )
2 2
Observação:
s s
P s Z α . σ s Zα . 1 α,
2 2n 2 2n
onde tomou-se s como uma estimativa pontual de . No caso de pequenas amostras isto não é
possível e o mesmo ocorre quando temos grandes amostras, porém a população de onde se retira a
amostra não segue a lei normal.
Exemplo:
108
2
χ 0,05;9 16,9
2
χ 0,95;9 3,33
9x4 9x4
P σ2 90%
16,9 3,33
σ 2 [2,13(S.M.) 2 ;10,81(S.M.) 2
2) O diâmetro de um cabo de aço produzido por uma metalúrgica tem distribuição normal. Uma
amostra de 81 cabos forneceu um desvio padrão de 0,12 mm. Ache o I.C. de 95% para .
1) H 0 : 2 20 contra
a)σ 2 σ 02
2 2
b)σ σ 0
2 2
c)σ σ 0
2 (n 1)s 2
2) Estatística teste : teste 2
~ (2n 1) g.l.,
0
onde : n = tamanho da amostra;
2
s = variância amostral;
20 = valor hipotético para a variância populacional.
4) Rejeita-se H0 se :
109
c) 2teste 2(1 )
Exemplos:
2
1) Numa a.a. de 20 elementos extraídos de uma população normal, obteve-se s = 64. Testar a
2
hipótese que 2 = 36, contra 36, ao nível de significância de 10%.
Solução :
H 0 : 2 36
i)
H 1: 2 36
19 x 64
ii) 2teste 2teste 33, 778
36
iv) Conclusão : Como 2teste 20,05 , rejeitou-se H0 , ou seja, a variância populacional não pode ser
considerada igual a 36.
2) O desvio padrão do comprimento de peças fabricadas por uma máquina que está agora em
operação é 0,082 cm. Um vendedor declara que a máquina nova que ele representa pode produzir
uma taxa de produção muito mais alta com uma variação menor que a da máquina em operação. A
declaração sobre a taxa de produção mais alta é aceita, mas a variabilidade deve ser testada. Para
isto, foram selecionados aleatoriamente 25 peças fabricadas por essa nova máquina, encontrando-se
um desvio padrão S = 0,066 cm. Teste a afirmativa do fabricante, usando = 5%.
Solução :
2
1) H0 : = 0,006724
2
H1 : < 0,006724
4) Conclusão: Como 2teste 20,95 , devemos aceitar H0 , ou seja, que a variância da máquina nova é
de 0,006724 cm (igual a máquina antiga), e a mesma deverá ser preferida desde que a sua taxa de
produção seja realmente mais alta.
110
10.3 INTERVALO DE CONFIANÇA PARA A RAZÃO DE VARIÂNCIAS
Essa definição engloba uma família de distribuições de probabilidade, para cada par de
valores (r1 , r2 ). A tabela fornecida apresenta o valor F0, tal que:
P[ F ( r1 , r2 ) F0 ]
Exemplos:
1) Calcular o valor de F0, com r1 = 10 e r2 = 15 graus de liberdade, tal que, P[F0 ( r1 , r2 F] 0, 05.
12( r1 )
r1 12 r2
Seja F( r1 , r2 ) 2. (para duas populações normais de variâncias
22( r2 ) 2 r1
r2
desconhecidas). Pelo Teorema de Fisher:
2 (n 1)s 2 2 (r1 )s 12 2 ( r2 )s 22
n 1 , ou seja 1 e 2
2 12 22
Portanto,
r1s 12
12 r2 s 12 22
F( r1 , r2 ) 2 . F(r1 , r2 ) 2 . 2
r2 s 2 r1 s 2 1
22
111
logo o intervalo será,
F[F1 α F Fα ] 1 α
2 2
s σ 22
2
1
P F1 α . 2 Fα 1 α
2
2 s σ1 2
2
s2 σ 22 s 22
1
P 2. 2
2 .Fα (r1 , r2 ) 1 α
s1 Fα (r2 , r1 ) σ 12 s1 2
2
s2 σ2 s2
1
P 12 . 12 12 .Fα (r2 , r1 ) 1 α
s 2 Fα (r1 , r2 ) σ 2 s2 2
2
Exemplos:
2) Dois métodos de embalar camarão congelado produzem o mesmo peso médio do produto. São
analisadas duas a.a. de tamanho 41, uma de cada método de embalar e os resultados são : s1 = 7,5g
para o 1o método e s2 = 9,3g para o 2o método. Ache o intervalo com 95% de confiança para 1 .
2
7 , 52 12 7 , 52
Assim 0 , 5319 1, 88
9 , 32 22 9 , 32
σ2
0,34592 12 1,22268
σ2
σ
P 0,5881 1 1,1057 95%
σ2
112
Exercícios:
1) Sabe-se que a variação das dimensões fornecidas por uma máquina independem dos ajustes do
valor médio. Uma amostra aleatória de dimensões de peças produzidas forneceu :
12,2 12,4 12,1 12,0 12,7 12,4
14,0 13,7 13,9 14,1 13,9
Estabeleça um intervalo de 95% de confiança para o desvio padrão com que a máquina opera.
3
2) Numa concretagem sem interrupção de uma base de concreto armado de 1.500 , destinada a
suportar um equipamento industrial, obtiveram-se os seguintes resultados para a resistência em
2
Kgf/cm .
292 207 348 244 276 311 193 324 232 196 310 314
Ache um intervalo com 90% de confiança para o desvio padrão populacional .
4) Trinta embalagens plásticas de mel foram pesadas com precisão de decigramas. Os pesos, após
convenientemente agrupados, forneceram a seguinte distribuição de frequências (em gramas).
Xi fi
31,5 1
32,5 5
33,5 11
34,5 8
35,5 3
36,5 2
Os dados acima permitem concluir, ao nível = 5%, que desvio padrão da população seja
superior a 1g?
x2 y2
a) b)
y2 X2
113
2 2
Kgf Kgf
s 1 52,7 2 e s 22 36 2
2
cm cm
O tamanho das amostras eram respectivamente n1 = 6 e n2 = 7. Pode-se aceitar que não há uma
diferença significativa na variabilidade das duas populações ao nível = 0,05 ?
114
11. TESTES DE HIPÓTESES
11.1 INTRODUÇÃO
Os testes de hipóteses (ou de significância) apresentam uma regra de decisão que permite
aceitar ou rejeitar uma hipótese questionada, decisão esta que é tomada em função de valores
obtidos numa amostra. Assim, admite-se inicialmente, um valor hipotético para um parâmetro
populacional desconhecido e, a seguir, baseando-se em informações retiradas da amostra, aceita-se
ou não esse valor. Tem-se, então, as duas seguintes hipóteses iniciais:
1. Hipótese nula ( Ho): É aquela que será testada; admite-se aqui que a diferença observada entre
a estatística amostral ( estimador) e o parâmetro populacional é devida apenas ao acaso, ou seja,
essa diferença não é significativa.
2. Hipótese alternativa( H1): É qualquer hipótese diferente da hipótese nula, isto é, é aquela que
será aceita caso o teste indique que Ho deva ser rejeitada; aceitando essa hipótese, conclui-se
que a diferença citada é significativa.
Na prática, somos muitas vezes obrigados a tomar decisões sobre populacões, baseados nas
informações amostrais.
Por exemplo, podemos querer determinar se são verdadeiras afirmações como:
1- O tempo de processamento de uma máquina supera uma outra máquina;
2- Apenas 2% da produção de um certo produto de uma indústria é defeituosa;
3- O peso de pacotes de certo produto é de 500 gramas;
4- Uma marca de gasolina A apresenta mais rendimento ( Km/l ) do que uma marca de gasolina
B;
5- Um medicamento A é melhor que um medicamento B, na cura de uma doença;
6- Se há diferenças entre tratamentos, na engorda de um rebanho.
Então, todas estas decisões que podemos tomar é o que vamos chamar de TESTE DE
HIPÓTESES ESTATÍSTICO.
Já estudamos que estatísticas amostrais como médias e proporções podem servir de
estimativas pontuais dos correspondentes parâmetros populacionais. E, em razão da
variabilidade amostral, as estatísticas amostrais tendem a aproximar, ao invés de igualar, os
parâmetros da população.
Daí, o ponto capital no teste de significância é se a diferença entre o valor alegado de
um parâmetro populacional e o valor de uma estatística amostral pode ser razoavelmente
atribuído à variabilidade amostral ou se a discrepância é demasiado grande para ser
encarada assim.
Seja, então, X uma v.a. que representa o valor numérico associado ao resultado de certo
experimento. Digamos que esta v.a. possua distribuição de probabilidade dependendo de um
“parâmetro desconhecido” que pressupomos ser um elemento de certo conjunto chamado o “espaço
do parâmetro” ( ).
115
Consideremos, então, a hipótese de que o verdadeiro valor de um parâmetro , encontra-se
em certo subconjunto 0, contra a hipótese alternativa de que se encontra no complementar 1 =
- 0. Então, as hipóteses a serem testadas são dadas por:
0
1
Logo, para nos decidirmos qual a hipótese verdadeira, devemos, em princípio, repetir o
experimento n vezes (independentemente) de tal forma que os resultados nessas tentativas são v.a.
independentes X1, X2, ..., Xn, todas possuindo a mesma distribuição de X, obviamente. Numa dada
sequência de tentativas, duas variáveis Xi assumem valores determinados Xi ( i = 1, 2, ..., n );
conforme os valores assumidos é que podemos nos decidir por : 0 ou 1 .
Precisamente, seja S o espaço amostral que corresponde às n tentativas a que nos referimos, isto é,
temos S como o conjunto de todas as n-uplas ( X1, X2, ..., Xn ). Então, iremos definir uma região
crítica C S, de tal forma que, se ( X1, X2, ..., Xn ) estiver em C, optaremos por 2 ,
enquanto se ( X1, X2, ..., Xn ) estiver em S - C, optaremos por 1 .
Então,
H 0 0 < e H 1 1 = - 0 ,
Exemplo: Seja uma caixa contendo parafusos de diâmetro médio 10 ou 12 mm; suponha-se que
vamos testar:
Ho: 10mm contra H1: 12 mm. Tomando-se uma amostra de tamanho n, calculou-se X .
Daí:
- Se S0= X / X 11 aceita se H 0 e S 0 é a região de aceitação;
- Se S1 = X / X 11 aceita se H1 e S1 é a região de rejeição de H0.
Na realização de um teste de hipótese, dois erros podem ser cometidos, ou seja:
Erro Tipo I: É aquele que se comete ao rejeitar a hipótese H0 dado que ela é correta; a
probabilidade desse erro será simbolizada por e é definida pelo nível de significância
exigido no teste.
Erro TipoII: É aquele que se comete ao aceitar a hipótese H0 dado que ela é falsa; a
probabilidade desse erro será simbolizada por . O poder do teste é dado por 1 - .
116
Esquematicamente, o quadro a seguir mostra as diversas situações que podem ocorrer num teste de
hipóteses:
0 1
Realidade
H0 verdadeira Ho falsa
Decisão
P θ̂ S1/θ Ω 0 P θ̂ S1/H 0 verdadeira α P(erroTipo I)
P θ̂ S0 /θ Ω1 P θ̂ S0 /H 0 falso β P(erroTipo II)
Faremos detalhes, a seguir, dos vários conceitos para a teoria dos “testes de hipótese”.
DEFINIÇÃO DE HIPÓTESE ESTATÍSTICA
117
b. A hipótese alternativa H1 é uma afirmação que oferece uma alternativa à alegação, ou
seja, vai diferir da hipótese pré-fixada.
H0 : θ ϵ Ω0 contra
H 1 : θ ϵ Ω1
a) HIPÓTESE BILATERAL
H 0: 0
H1: 0
H : 0 H : p p 0
* 0 ** 0
H1: 0 H1: p p 0
118
H : 0 H : p p 0
* 0 ** 0
H1: 0 H1: p p 0
Exemplo: Simbolicamente, no caso da jogada de uma moeda, esses três casos poderiam ser escritos :
H0 : p = 0,50 contra:
p proporç ão populacional
p (1 p )
p , onde
n n tamanho da amostra
H 0: p 6%
H1: p 6%
119
Assim, se a afirmação do fornecedor é verdadeira, nossa proporção amostral de 8% provém
de uma distribuição amostral com média de 6% e
( 0, 06)( 0, 94 )
p p 0, 02 .
142
Podemos agora ver que nossa discrepância de 2% (= 8% - 6%) está a um desvio padrão acima
do valor esperado, supondo H0 verdadeira:
0, 08 0, 06
Z 1, 0
0, 02
Temos também que a probabilidade de obter uma discrepância superior a 8% é cerca de 16%
(15,87% ), como se vê abaixo; e isso parece sugerir que a discrepância pode ser devida apenas ao
acaso ( Aceitação de H0 ). Por outro lado, se tivéssemos uma proporção amostral, digamos, de 19%,
então:
0, 19 0, 06
Z 6, 5 ,
0, 02
e parece muito pouco provável que tal estatística amostral provenha de uma população com o
parâmetro alegado de 6%. (Isto leva à Rejeição de H0 ). É claro que nem todas as situações são
tão óbvias que possam ser tratadas “a olho”, como no exemplo acima.
É preciso, então, um método mais rigoroso para tratar o problema. A questão é: onde
podemos traçar a linha divisória entre o que pode ser considerado como variação casual e o que
deve ser considerado como variação significativa?
A probabilidade de rejeitar uma hipótese nula (H0), quando ela é verdadeira, chama-se
nível de significância do teste. Daí, o terceiro passo num teste de significância consiste em escolher
um nível de significância () aceitável. Isto, por sua vez, indicará um “valor crítico”
correspondente, que servirá de padrão de comparação, em relação ao qual julgaremos uma
“estatística de teste” observada (por exemplo, a proporção amostral de 8% tem um Zteste = 1,0). A
essência de um teste de hipótese consiste então em particionar uma distribuição amostral - com
base na suposição de H0, ser verdadeira - em uma região de aceitação e uma região de rejeição para
H0 .
Escolhe-se um valor crítico com base numa probabilidade específica (que o pesquisador está
disposto a aceitar) de rejeitar uma hipótese H0 verdadeira. Calcula-se uma estatística teste com base
nos dados amostrais e no valor esperado (alegado), que é então comparado com o valor crítico.
Uma estatística teste que excede o valor crítico sugere a rejeição de H0 (isto é, que não é só a
variabilidade amostral que responde pela estatística teste observada), enquanto que uma estatística
teste inferior ao valor crítico sugere que H0 seja aceita.
120
Obs.: Segundo alguns autores , podemos considerar:
Devemos estabelecer se o teste é unilateral (superior ou inferior) ou bilateral (neste último caso,
o nível de significância é dividido por 2 , para efeito de determinação da variável do teste).
4. Escolha da estatística do teste: de acordo com a distribuição que está sendo considerada,
escolhe-se a variável do teste, obtida na amostra, de acordo com a fórmula correspondente,e
calcula-se o seu valor.
Observações:
1. Embora tenhamos optado pelo roteiro acima, na prática , duas outras possibilidades podem
surgir:
2. Nas aplicações práticas é comum apenas a especificação do erro do tipo I (), porém os
resultados obtidos dessa maneira poderão fornecer induções errôneas.
121
11.7 TIPOS DE TESTES DE HIPÓTESE
a. quando é conhecido;
b. quando é desconhecido
5º) Conclusão. Rejeitar ou não H0 baseado na comparação dos valores crítico obtido no
Utiliza-se um teste de uma amostra para testar uma afirmação sobre uma única média
populacional. Extraem-se n observações e calcula-se a média amostral. Conhecido já o desvio
padrão da população, poderemos testar a hipótese bilateral, unilateral à direita ou unilateral à
esquerda, dependendo do interesse do que queremos verificar. Escolhido o nível de significância (
122
), encontra-se o valor crítico (testes unilaterais) ou os valores críticos (testes bilaterais). Calcula-
se o valor da estatística teste, que será baseada na distribuição normal, para amostras extraídas de
uma população com distribuição normal e conhecido, ou de uma população que não seja normal,
mas a amostra seja suficientemente grande ( n 30 ).
a) H1 : 0 teste bilateral
b) H1 : > 0 teste unilateral à direita
c) H1 : < 0 teste unilateral à esquerda
x 0
( 2 ) ESTATÍSTICA TESTE: Zteste = ~ N( 0 , 1 )
/ n
Exemplo: Uma empresa compra lingotes de aço de uma siderúrgica, exigindo sua especificação que o
peso médio dos mesmos seja de 100 Kg , com desvio padrão de 4Kg (suposto, de início , independente de
peso médio). Ao receber um grande lote de lingotes , a empresa tomou uma amostra aleatória de 25
lingotes e sua decisão, de aprovar o lote é se o peso médio for superior ou igual a 98 Kg. Assim , essa
empresa irá testar a hipótese de que o peso médio é 100 Kg, contra a hipótese alternativa de que ele seja
inferior a 100 Kg ; evidentemente, neste exemplo, o comprador não está preocupado que o peso médio
seja superior a 100 Kg, por contrariar sua suspeita e, porque, isso seria até vantajoso para ele. Então:
E X = = 100 e
Var X = 2/n = 16/25 = 0,64 x 0,8.
123
Z
98 100
2 ,5
1 0,4938
2
0,8 2
’
= 0,5000-0,4938 = 0,0062 0,62 %.
Vê-se, pois, que existe uma probabilidade ’ = 0,62% de que, mesmo sendo a hipótese Ho
verdadeira, X assuma valor na faixa que leva à rejeição de H0, de acordo com o critério adotado.
Nesse caso o comprador iria rejeitar H0, sendo ela verdadeira.
Importante: O valor ’ = 0,62% foi determinado a partir dos dados amostrais (por isto
denominamos ’). Este valor é chamado de Nível Descritivo do Teste (ou p-valor, ou p-value). O
nível de significância é dado por , e é definido pelo pesquisador. Assim, para > 0,62%
rejeitamos a hipótese H0.
Por outro lado, poderiam ocorrer situações em que a hipótese H0 fosse falsa, ou seja, na
realidade < 100 Kg , e a média da amostra assumisse um valor maior que 98 Kg, levando a
aceitação de H0 (o comprador iria então, cometer um erro Tipo II); sua consequência, no caso, seria
adquirir um lote insatisfatório.
Nesse exemplo, fixada a região crítica do teste, calculou-se a probabilidade ’ (associado ao erro
Tipo I); inversamente, dado (nível de significância), pode-se determinar o limite da região
crítica. Esse último procedimento é o que em geral se faz, na prática. Assim, nesse mesmo
exemplo, fixado = 5%, o limite X1 da região crítica é calculado assim :
X1 100
Z0,05 = - 1,64 = X 1 9 8 ,6 8 K g .
0 ,8
X1 100
Para = 1%, tem-se : Z0,01 = 2,33 = X1 98,14.
0,8
PROCEDIMENTO:
124
( 1 ) HIPÓTESES:
H0 : = 0 contra
a) H1 : 0
b) H1 : > 0
c) H1 : < 0
( 3 ) ESTATÍSTICA DO TESTE
Será baseada na distribuição “t” de STUDENT, com (n-1) graus de liberdade, pois é
desconhecido e considerando-se a população normalmente distribuída. Temos, então:
X 0
tteste = ~ t-student com (n-1) graus de liberdade ( para n 30 t ~ Z )
S/ n
( 4 ) DECISÃO FINAL :
Rejeita-se H0 se :
Exemplo: Com a finalidade de acelerar o tempo que um analgésico leva para penetrar na corrente
sanguínea, um químico analista acrescentou certo ingrediente à fórmula original, que acusava um tempo
médio de 43 minutos. Em 25 observações com a nova fórmula, obteve-se um tempo médio de 42
minutos, com desvio padrão de 6 minutos. Suponha que a distribuição de tempos seja aproximadamente
normal. Que se pode concluir, ao nível de 5%, sobre a eficiência do novo ingrediente ?
PROCEDIMENTO:
( 1 ) HIPÓTESES :
H0 : p = p0 contra
a) H1 : p p0
b) H1 : p > p0
c) H1 : p < p0
( 3 ) DISTRIBUIÇÃO AMOSTRAL
125
p p 0 x
Z teste ~ N( 0, 1 ), onde p =f
p 0 (1 p 0 ) n
n
( 4 ) H0 será rejeitada se :
Exemplo: Um fabricante produz válvulas com 2% de defeitos. Tentando melhorar a qualidade das suas
válvulas, comprou novas máquinas. E, ao testar 200 válvulas produzidas por estas novas máquinas,
encontrou 3% de defeituosas. Podemos afirmar que o fabricante piorou a qualidade das suas válvulas?
Use = 1 %.
11.7.3 Teste para a diferença de médias ou teste de duas amostras para médias
PROCEDIMENTO:
( 1 ) HIPÓTESES
H : 2 H : 2 H 0: 1 2
a) 0 1 b) 0 1 c)
H1: 1 2 H1: 1 2 H1: 1 2
126
VERDADEIRO P / SEGUINTES CASOS:
X1 X2
Z teste ~ N (0,1) 1)As duas populaç ões são normais
12 22 2)( n1 n 2 ) 30
n1 n 2
*Re sultados do T. L. C.
ii) 1 e 2 desconhecidos: Sob alegação de que H0 é verdadeira 1 2 e desde que se possa
admitir que ambas as populações sejam aproximadamente normais:
X1 X 2
tteste = ~ t *( n1 n 2 2 ) , para 12 22
( n1 1)S2 ( n 2 1)S2
X1 X2 1 1
n1 n 2 2 n1 n 2
X1 X 2
t teste ~ t *( n1 n2 2) , para 12 22
2 2
S X1 S X2
n1 n2
( 3 ) VALOR(ES) CRÍTICO(S)
( 4 ) Rejeita-se H0 se :
σ12
a) σ 22 Co
σ12 2
1) H 0 : Co contra H 1 : b) σ 1 2 Co
σ 22 σ2
σ12
c) σ 2 Co
2
127
s 22
2) Estatística teste Fteste Co ~ F(r2 , r1 ) , onde
s12
12
Co = valor hipotético para a razão
22
4) Rejeita-se H0 se :
a. Fteste F ( r2 , r1 ) ou Fteste 1 F ( r , r )
2 2 1
2
b. Fteste F ( r2 , r1 )
2
1
c. Fteste
F ( r1 , r2 )
2
EXEMPLOS
1) Duas amostras, com dez e quinze elementos, extraídas de populações normais, forneceram
variâncias respectivamente iguais a 6,34 e 18,7. Ao nível de 5% de significância, devemos aceitar
que as populações tenham o mesmo grau de dispersão?
12 12
H0 : 1 contra H1 : 1
22 22
18, 7
Neste caso Fteste 1 2 , 95
6, 34
F0(,r025
2 , r1 )
F0,025 (14; 9 ) 3, 77
1 1 1 3, 21 0, 03115
F0(,r025
1 , r2 )
F0(,9025
,14 )
Logo
128
Fteste F ( r2 ; r1 )
2
Fteste F ( r1 ; r2 )
2
Amostra 1
( xi x ) 2 12,5
x 35,2
n6
Amostra 2
( yi y ) 2 6,3
y 36,7
n 10
12,5 6,3
s12 2,5 s 22 0,7
5 9
As hipóteses a testar são:
12
H 0: 1
22
12
H1: 1
22
0, 7
Fteste 0, 28
2, 5
F0(,9025
;5)
6, 68 Fteste
1 1
F0(,9975
;5)
(5;9 )
0, 22 Fteste
F0,025 4 , 48
EXEMPLOS:
1) Duas marcas de serras contínuas estão sendo examinadas para uso numa fábrica de mobiliário. A
marca A custa mais caro, mas supõe-se que mantenha o fio durante mais tempo que a marca B.
Os tempos de vida são normalmente distribuídos, com A = 2,5 dias e B = 2,7 dias.
Considerou-se 5 lâminas instaladas da marca A e 5 da marca B, apresentando X A 25, 2 dias e
129
X B 23, 4 dias. Pode-se concluir que as lâminas das duas marcas tenham o mesmo tempo médio
de vida ? Use = 5% e suponha normalidade das populações.
2) Duas marcas de tintas são testadas quanto ao tempo de secagem. Os resultados estão a seguir :
3) Uma empresa está estudando duas marcas de pneus A e B. Testou 11 pneus de cada marca,
quanto a durabilidade, e constatou : para a marca A uma média de 23.600 Km e um desvio
padrão de 3.200 Km e, para a marca B, uma média de 24.800 Km e um desvio padrão de 3.700
Km. Ao nível de 5%, testar a hipótese de igualdade das duas variâncias populacionais, contra a
alternativa da variância de A ser menor que a variância de B.
PROCEDIMENTO:
( 1 ) HIPÓTESES :
H : p p 2 H : p p 2 H 0 : p1 p 2
a) 0 1 b) 0 1 c)
H1: p1 p 2 H1: p1 p 2 H1: p1 p 2
( 2 ) ESTATÍSTICA-TESTE :
Sob H0 verdadeira :
x1 x
p1 , p 2 2
p 1 p 2 n1 n2
Z teste ~ N (0,1), onde
1 1 p* x1 x2
p * (1 p*) (**)
n1 n2
n1 n 2
(**) H0: p1 = p2. Se a afirmativa é verdadeira, então as duas amostras, extraídas de duas populações, podem
ser encaradas como duas amostras da “mesma” população. Daí, usamos essa estimativa combinada de p.
( 3 ) e ( 4 ) Idem, igual aos outros testes.
130
Exemplo: Estão em teste 2 métodos potenciais para fechar garrafas. Numa sequência de 1000, a máquina
A gera 30 rejeições, enquanto que a máquina B acusa apenas 20 rejeições. Pode-se concluir, ao nível de
5%, que a máquina B é melhor que a A?
131