Anda di halaman 1dari 131

UNIVERSIDADE FEDERAL DO CEARÁ

PRÓ-REITORIA DE GRADUAÇÃO
CENTRO DE CIÊNCIAS
DEPARTAMENTO DE ESTATÍSTICA E MATEMÁTICA APLICADA

PROF. DR. JOÃO WELLIANDRE CARNEIRO ALEXANDRE

NOTAS DE AULA DE

ESTATÍSTICA BÁSICA

Fortaleza –CE

1
Sumário

1. ESTATÍSTICA DESCRITIVA .................................................................................................. 4


1.1 CONSIDERAÇÕES GERAIS............................................................................................... 4
1.2 CONCEITOS IMPORTANTES ............................................................................................ 5
1.3 FASES DO MÉTODO ESTATÍSTICO ................................................................................ 8
1.4 SÉRIES ESTATÍSTICAS ..................................................................................................... 9
1.5 ELABORAÇÃO DE TABELAS ESTATÍSTICA .............................................................. 12
1.6 APRESENTAÇÃO GRÁFICA ........................................................................................... 13
2. MEDIDAS ASSOCIADAS ÀS VARIÁVEIS QUANTITATIVAS......................................... 24
2.1 MEDIDAS DE TENDÊNCIA CENTRAL ......................................................................... 24
2.2 ANÁLISE DE PEQUENOS CONJUNTOS DE DADOS................................................... 25
2.3 MEDIDAS DE VARIABILIDADE .................................................................................... 29
3. MEDIDAS ASSOCIADAS ÀS VARIÁVEIS QUANTITATIVAS (CONTINUAÇÃO) ........ 34
3.1 ANÁLISE DE GRANDES CONJUNTOS DE DADOS..................................................... 34
3.2 DISTRIBUIÇÃO DE FREQUÊNCIA PARA DADOS AGRUPADOS EM CLASSES.... 37
3.3 GRÁFICOS REPRESENTATIVOS PARA DISTRIBUIÇÕES DE FREQUÊNCIA ........ 41
3.4 MEDIDAS DE ASSIMETRIA............................................................................................ 43
4. PROBABILIDADE................................................................................................................... 45
4.1 INTRODUÇÃO................................................................................................................... 45
4.2 EXPERIMENTO ALEATÓRIO ......................................................................................... 45
4.3 ESPAÇO AMOSTRAL ....................................................................................................... 45
4.4 EVENTO ............................................................................................................................. 46
4.5 UNIÃO DE EVENTOS ....................................................................................................... 46
4.6 EVENTOS MUTUAMENTE EXCLUSIVOS .................................................................... 46
4.7 DEFINIÇÃO........................................................................................................................ 46
4.8 CONSEQUÊNCIAS DA DEFINIÇÃO............................................................................... 47
4.9 MODELO EQUIPROBABILÍSTICO ................................................................................. 47
4.10 PROBABILIDADE CONDICIONAL .............................................................................. 48
4.11 REGRA DO PRODUTO ................................................................................................... 49
4.12 EVENTOS INDEPENDENTES........................................................................................ 50
.......................................................................................................................................................
5.VARIÁVEIS ALEATÓRIAS DISCRETAS ............................................................................ 56
5.1 INTRODUÇÃO................................................................................................................... 56
5.2 DISTRIBUIÇÃO UNIFORME DISCRETA ...................................................................... 58
5.3 DISTRIBUIÇÃO DE BERNOULLI ................................................................................... 58
5.4 DISTRIBUIÇÃO BINOMIAL ............................................................................................ 59
5.5 DISTRIBUIÇÃO HIPERGEOMÉTRICA .......................................................................... 60
5.6 DISTRIBUIÇÃO DE POISSON ......................................................................................... 62
6.VARIÁVEIS ALEATÓRIAS CONTÍNUAS ............................................................................ 66
6.1 INTRODUÇÃO................................................................................................................... 66
6.2 MODELO UNIFORME CONTÍNUO ................................................................................ 68
6.3 DISTRIBUIÇÃO NORMAL............................................................................................... 68
6.4 DISTRIBUIÇÃO NORMAL PADRÃO ............................................................................. 70
6.5 DISTRIBUIÇÃO EXPONENCIAL .................................................................................... 72
6.6 DISTRIBUIÇÃO GAMA .................................................................................................... 73
6.7 DISTRIBUIÇÃO BETA ..................................................................................................... 74
6.8 DISTRIBUIÇÃO WEIBULL .............................................................................................. 74
7.AMOSTRAGEM E ESTIMAÇÃO ........................................................................................... 77
7.1 INTRODUÇÃO................................................................................................................... 77
7.2 POPULAÇÃO E AMOSTRA ............................................................................................. 77
2
7.3 PROBLEMAS DE INFERÊNCIA ...................................................................................... 78
7.4 COMO SELECIONAR UMA AMOSTRA ........................................................................ 79
7.5 AMOSTRAGEM DE UMA POPULAÇÃO FINITA ......................................................... 80
7.6 PLANOS DE AMOSTRAGEM .......................................................................................... 85
8.DISTRIBUIÇÕES AMOSTRAIS.............................................................................................. 86
8.1 INTRODUÇÃO................................................................................................................... 86
8.2 DISTRIBUIÇÃO AMOSTRAL DA MÉDIA ..................................................................... 86
8.3 TEOREMA DO LIMITE CENTRAL ................................................................................. 88
8.4 DISTRIBUIÇÕES DE PROPORÇÕES AMOSTRAIS ...................................................... 89
8.5 AMOSTRAGEM DE UMA POPULAÇÃO FINITA ......................................................... 90
9.ESTIMAÇÃO ............................................................................................................................ 93
9.1 EXEMPLOS DE ESTIMATIVAS ...................................................................................... 93
9.2 DEFINIÇÃO........................................................................................................................ 93
9.3 INTERVALO DE CONFIANÇA........................................................................................ 94
9.4 ESTIMAÇÃO DA MÉDIA DE UMA POPULAÇÃO ....................................................... 95
9.5 INTERVALO DE CONFIANÇA PARA PROPORÇÃO ................................................... 99
9.6 DISTRIBUIÇÃO AMOSTRAL DAS DIFERENÇAS ..................................................... 100
9.7 INTERVALOS DE CONFIANÇA PARA DIFERENÇAS .............................................. 102
10.ESTIMAÇÃO (CONTINUAÇÃO) ....................................................................................... 106
10.1 ESTIMAÇÃO PONTUAL E VARIÂNCIA POPULACIONAL .................................... 106
10.2 INTERVALO DE CONFIANÇA PARA VARIÂNCIA POPULACIONAL ................. 107
10.3 INTERVALO DE CONFIANÇA PARA RAZÃO DE VARIÂNCIAS ......................... 111
11.TESTES DE HIPÓTESES ..................................................................................................... 117
11.1 INTRODUÇÃO............................................................................................................... 117
11.2 ELEMENTOS PARA TESTES DE HIPÓTESES .......................................................... 119
11.3 IDENTIFICAÇÃO DA DISTRIBUIÇÃO AMOSTRAL ADEQUADA ........................ 121
11.4 NÍVEL DE SIGNIFICÂNCIA DO TESTE ..................................................................... 122
11.5 ROTEIRO PARA TOMADA DE DECISÕES ............................................................... 123
11.7 TIPOS DE TESTES DE SIGNIFICÂNCIA .................................................................... 124

3
1. ESTATÍSTICA DESCRITIVA

1.1. CONSIDERAÇÕES GERAIS

1.1.1. O que é Estatística?

É possível distinguir duas concepções para a palavra Estatística:


a. No plural (estatísticas), indica qualquer coleção consistente de dados numéricos com a
finalidade de fornecer informações acerca de uma atividade qualquer.
b. No singular indica a atividade humana especializada, ou um corpo de técnicas, ou ainda
uma metodologia desenvolvida para coleta, a apresentação, organização, a análise e a
interpretação de dados quantitativos e sua utilização para tomada de decisões.
Por b a utilização dessas técnicas, destinada à análise de situações complexas ou não, tem
aumentado e faz parte do nosso cotidiano. Tome-se, por exemplo, as transmissões esportivas. Em
jogos de futebol, o número de escanteios, número de faltas cometidas e o tempo de posse de bola
são dados fornecidos ao telespectador e fazem com que as conclusões sobre qual time foi o melhor
em campo se torne objetiva (não que isso implique em quem tenha sido o vencedor...). O que tem
levado a essa quantificação de nossas vidas no dia-a-dia? Um fator importante é a popularização
dos computadores. Atualmente grande quantidade de informações pode ser analisada rapidamente,
com programas adequados, o que antes, era um trabalho bastante lento e tedioso.
Assim é necessária a compreensão dos conceitos básicos da Estatística, bem como as
suposições necessárias para seu uso de forma criteriosa.

1.1.2. O papel da Estatística

A indústria Americana, por exemplo, tem de continuar a melhorar a qualidade de seus


produtos e serviços se quiser continuar a competir efetivamente nos mercados interno e externo.
Uma porção significativa desse esforço de melhoria da qualidade será comandada por engenheiros
e cientistas, porque esses são os indivíduos que projetam e desenvolvem novos produtos e sistemas,
sendo também aqueles que melhoram os sistemas existentes.

1.1.3. Resolução de Problemas

Os engenheiros são pessoas que resolvem problemas de interesse social pela aplicação
eficiente de princípios científicos. Eles executam isso através de processos que encontrem a
necessidade dos consumidores. Os métodos estatísticos ajudam a resolver esses problemas. As
etapas são as seguintes:
a. Desenvolver uma descrição clara e concisa do problema.
b. Identificar os fatores importantes que afetam esse problema ou que ajudem a sua resolução.
c. Propor um modelo para o problema.
d. Conduzir experimentos apropriados e coletar dados para testar ou avaliar o modelo ou
conclusões feitas nas etapas a e b.
e. Refinar o modelo, com base nos dados observados.
f. Manipular o modelo de modo a ajudar o desenvolvimento da solução do problema.
g. Conduzir um experimento apropriado para confirmar que a solução é efetiva.
h. Tirar conclusões ou fazer recomendações baseadas na solução do problema.

4
1.1.4. A Estatística Descritiva e Inferência estatística

 Estatística Descritiva:

É extremamente difícil captar intuitivamente todas as informações que os dados contém. É


necessário, portanto, que estas informações sejam reduzidas até o ponto em que se possa interpretá-
las mais claramente. Em outras palavras, é indispensável resumi-las, através de certas medidas,
sínteses, mais comumente conhecidas como estatísticas descritivas ou simplesmente estatísticas.
Então, Estatística Descritiva é um número que, sozinho, descreve uma característica de um
conjunto de dados.
Em um sentido mais amplo, a Estatística Descritiva pode ser interpretada como uma
função cujo objetivo é a observação de fenômenos da mesma natureza, a coleta de dados numéricos
referentes a esses fenômenos, a organização e classificação desses dados observados e a
apresentação através de gráficos e tabelas, além do cálculo de medidas (estatísticas) que permitem
descrever resumidamente os fenômenos.

 Inferência Estatística:

A Inferência Estatística refere-se ao processo de generalização feito a partir de resultados


particulares. Consiste em obter e generalizar conclusões para o todo, com base no particular.
O processo de generalização está associado a uma margem de incerteza. A existência da
incerteza deve-se ao fato de que a conclusão que se pretende obter para o todo, baseia-se em uma
parcela do total.
A medida da incerteza é tratada mediante técnicas e métodos que se fundamentam na
Teoria da probabilidade.
1. Estatística Descritiva
 Consistência de dados
 Interpretações iniciais

1. Inferência Estatística
 Estimação de quantidades
desconhecidas
 Extrapolação dos resultados
 Teste de Hipóteses

1.2. CONCEITOS IMPORTANTES

1.2.1. População:

5
O conjunto da totalidade dos indivíduos sobre o qual se faz uma inferência recebe o nome
de população ou universo.
Em linguagem mais formal, é o conjunto constituído por indivíduos ou objetos que
apresentam, pelo menos, uma característica em comum, cujo comportamento interessa fazer
análise. As características da população são chamadas de parâmetros, os quais são valores fixos e
ordinariamente desconhecidos. É importante ficar bem claro que uma população é estudada em
termos de observações de características nos indivíduos, e não em termos de pessoas ou objetos em
si.

Ex:
- Resistência à compressão de 80 corpos de prova da liga de alumínio
- Matrículas de alunos no curso de Engenharia de Produção Mecânica da UFC, 2004.2.
- Produção de espaçonaves pela Companhia Boeing, em 2004.
- Dados das medidas de viscosidade para um produto químico observado de hora em hora.

1.2.1.1 Tipos de População:

a. Finita
É a população onde se consegue contar todos os elementos que a formam, ou seja,
possui um número limitado de elementos.

Ex.: Número de trabalhadores contratados entre os anos de 1994 a 2004 pela Empresa
Materials Engineering.

b. Infinita
A população onde não se consegue contar todos os elementos que a formam. Geralmente
está associada à processos, e o número de observações tende a ser infinito, dando origem a
uma população infinita. Uma população infinita deverá, então, ser concebida como um
esquema conceitual e teórico.

Ex.: Um técnico de laboratório pesando certo material. Por maior que seja o cuidado na
experimentação ele poderia, em cada pesagem, obter uma leitura de certo modo diferente.

1.2.2. Amostra
É um subconjunto, uma parte selecionada da totalidade de observações abrangidas pela
população, através do qual se faz um juízo ou inferência sobre as características da população. As
características da amostra são chamadas estatísticas descritivas, como apresentam os exemplos
abaixo:

a. Estudo sobre o conteúdo de ferro natural exportado por um navio.


População: todo o minério de ferro a ser exportado.
Amostra: parte do minério a ser exportado.

b. Estudo sobre os alunos matriculados na disciplina Introdução à Estatística na UFC,


2004.2.
População: alunos matriculados em Introdução à Estatística.
Amostra: cem alunos matriculados em Introdução à Estatística, escolhidos
aleatoriamente.

6
c. Estudo da situação sócio-econômica dos habitantes de Fortaleza, com renda entre 1 e 5
salários mínimos, 2004.
População: habitantes de Fortaleza com renda entre 1 e 5 salários mínimos.
Amostra: 20% dos habitantes de Fortaleza com renda entre 1 e 5 salários mínimos,
escolhidos ao acaso.

1.2.3. Amostragem

É a técnica de extrair amostras de uma população e apresenta dois tipos, a amostragem


Probabilística (aleatória simples, estratificada, por sistemática, por conglomerado) e Não
Probabilística (conceitos que serão vistos posteriormente). A amostragem também pode ser sem
reposição e com reposição

a. Sem reposição
É quando não verificamos repetições de elementos na amostra, ou seja, cada elemento não
pode ser escolhido mais de uma vez.

b. Com reposição
É quando verificamos repetições de elementos na amostra, ou seja, cada elemento pode ser
escolhido mais de uma vez.

1.2.4. Variáveis e dados

Em qualquer estudo envolvendo indivíduos, objetos, fenômenos da natureza, etc., estamos


interessados em algumas características dos mesmos, que chamamos de variáveis. Aos resultados
possíveis dessas características chamamos de dados.
Os dados relativos a unidades experimentais e a fenômenos químicos ou físicos são
coletados diretamente pelo pesquisador, enquanto os dados relativos a indivíduos podem ser
coletados tanto pelo pesquisador como através de declaração feita pelos próprios indivíduos.
Um mesmo elemento pode fornecer diversos dados e os dados coletados se referem a
determinadas variáveis.
Ex.: Um pesquisador aplicou um questionário aos alunos do curso de Engenharia de
Produção Mecânica da UFC. Selecionando alguns alunos ao acaso, foram obtidos vários dados
relativos ao sexo, estado civil, idade, número de vezes que vai ao cinema por semana, se fuma ou
não, remuneração mensal, atividade física (veja lista de exercícios), que constituem variáveis.
De um modo geral, para cada elemento investigado, tem-se associado um resultado (ou mais
de um resultado) correspondendo à realização de certa variável (ou variáveis). Na variável, estado
civil, por exemplo, para cada aluno temos associado solteiro, casado ou outros.

1.2.5 Classificação das Variáveis

Algumas variáveis como sexo, atividade física, fumar e estado civil, apresentam como
possíveis realizações uma qualidade (ou atributo) do indivíduo pesquisado, ao passo que outras,
como número de vezes que vai ao cinema, idade, remuneração mensal apresentam como possíveis
realizações números resultantes de uma contagem ou mensuração. As variáveis do primeiro tipo
são chamadas qualitativas e as do segundo tipo são chamadas quantitativas.

a. Qualitativas

7
 Variáveis Qualitativas Nominais: quando o dado se apresenta sob o aspecto qualitativo.
Ex.: Sexo, cor, estado civil, causa de morte, tipo de doença, profissão, etc. Observe que,
quem é branco não é melhor do que quem é negro.

 Variáveis Qualitativas Ordinais: quando os valores das variáveis são atribuídos para
denotar uma ordenação natural. Ex.: Grau de instrução, status social, estágio de uma doença,
patente militar, conceito escolar, cargo que ocupa na empresa, etc.Neste caso, quem tem uma
graduação é muito melhor do que quem tem apenas o primeiro grau.

b. Quantitativas

 Variáveis Quantitativas Discretas: de uma maneira mais geral, são todas as variáveis
numéricas cujos valores se obtém a partir de procedimento de contagem. Ex.: nº de pessoas
numa família, nº de funcionários numa empresa, nº de alunos numa classe, etc.

 Variáveis Quantitativas Contínuas: são as variáveis numéricas cujos valores são obtidos no
procedimento de mensuração, de sorte que ao menos teoricamente os resultados das medidas
são capazes de variações insensíveis ou contínuas. Ex.: peso, altura, temperatura, área,
volume, densidade, salário, etc.

Resumindo a classificação das variáveis:


Nominal

Qualitativa Ordinal

Variável Discreta
Quantitativa
Contínua

1.3. FASES DO METODO ESTATÍSTICO

Quando se pretende empreender um estudo estatístico completo, existem diversas fases do


trabalho que devem ser desenvolvidas para se chegar aos resultados finais do estudo. Essas etapas
são chamadas fases do trabalho estatístico e podemos definí-la como sendo um processo utilizado
para coletar, apresentar, descrever, interpretar e até mesmo prever os aspectos quantitativos dos
fenômenos analisados, desde que eles possam conseguir a forma de contagem ou medida.
As fases principais são: definição do problema, planejamento, coleta de dados,
apresentação dos dados, análise e interpretação dos dados.
Saber exatamente aquilo que se pretende estudar é o mesmo que definir corretamente o
problema. O pesquisador deve realizar uma revisão bibliográfica sobre o assunto a fim de subsidiá-
lo no estudo. Para isso, ele deve seguir os seguintes passos:

 Planejamento

Consiste em determinar o procedimento necessário para resolver o problema. Como levantar


as informações? Que dados deverão ser obtidos? Como se deve obtê-los?

 Coleta de Dados

8
Refere-se à obtenção, reunião e registro sistemático de dados, com um objetivo
determinado. Existem dois tipos de Dados, os Dados Primários ou Diretos, que são dados obtidos
diretamente pelo pesquisador, na fonte originária e os Dados Secundários ou Indiretos, aqueles
obtidos em instituições que já os coletou. Ex .: Quando o IBGE faz o levantamento (censo) da
população brasileira, normalmente se utiliza do processo de obtenção primário. Caso queira, com
base nos dados obtidos nos censos anteriores, projetar esta mesma população para anos seguintes,
estará utilizando o processo secundário, pois os dados já foram obtidos anteriormente.

 Apresentação dos Dados

Após a coleta dos dados, torna-se necessária sua apuração, ou contagem, denominando-a
tabulação. Há duas formas de apresentação dos dados. A apresentação tabular é uma apresentação
numérica dos dados. Consiste em dispor os dados em linhas e colunas distribuídas de modo
ordenado, segundo regras adotadas pelos diversos sistemas estatísticos. Já a apresentação gráfica,
permite ao analista obter uma visão rápida, fácil e clara do fenômeno estudado.

 Análise e Interpretação dos Dados

De todas as fases do Método Estatístico, esta é a que apresenta maiores dificuldades. Isto
porque todo trabalho efetuado até o momento deixará de ter o valor devido, se a conclusão não
estiver coerente.
A análise dos dados está ligada essencialmente ao cálculo de medidas, cuja finalidade
principal é descrever o fenômeno. O significado exato de cada um dos valores, obtidos através do
cálculo das várias medidas estatísticas disponíveis, deve ser bem interpretado.
Não existe, portanto, um critério a ser usado nesta fase. Exige, sim, que o analisador tenha
muita sensibilidade com os dados que ora estão sendo manipulados. Muitas vezes, alguma prática
lhe é indispensável.

1.4. SÉRIES ESTATÍSTICAS

Coletados os dados, não é conveniente apresentá-los para análise sob a forma a que se
chegou pela simples apuração. Na maioria das vezes, o conjunto de valores é extenso e
desorganizado, e seu exame requer maior atenção.
Resumindo, os valores devem estar organizados em tabelas, assim, consegue-se apresentá-
los e descrever-lhes com mais eficiência. Essa condensação dos valores permite ainda a utilização
de representação gráfica que normalmente representa uma forma mais útil e elegante de
apresentação da característica analisada.
Uma série estatística define-se como toda e qualquer coleção de dados estatísticos referidos
a uma mesma ordem de classificação quantitativa.
Para diferenciar uma série estatística de outra, há de se levar em conta, os três caracteres
presentes na tabela que ela se apresenta: fenômeno, local e época.

- Fenômeno: é o fato que foi investigado e cujos valores numéricos estão sendo
apresentados na tabela.
- Local: é o espaço geográfico onde o fenômeno ocorreu.
- Época: tempo em que o fenômeno foi analisado.
As séries estatísticas podem ser de quatro tipos, conforme a variação de um desses
caracteres ou fatores. Vejamos, então, esses tipos:

1.4.1 Série Temporal

9
A variável é o tempo, permanecendo fixos o local e o fenômeno estudado.

Exemplo 1:
GL. T. S.A. – INDÚSTRIA DE COMPONENTES ELETRÖNICOS
Vendas -- Mercado Interno – Janeiro a Junho 2002

Meses Vendas (R$)


Janeiro 2300
Fevereiro 1800
Março 2200
Abril 2210
Maio 2360
Junho 2600
Fonte: Departamento de Analise de Mercado

Exemplo 2:
BRASIL - RENDA PER CAPTA ANUAL –2000/2003
Ano Renda (R$)

2000 3.480,31
2001 5.180,03
2002 5.986,97
2003 6.307,55
Fonte: IBGE

1.4.2 Série Geográfica

A variável é o local, permanecendo fixos o tempo e o fenômeno.

Exemplo 3:
G.L. T S.A. – INDÚSTRIA DE COMPONENTES ELETRÔNICOS.
Vendas por Unidade da Federação – 2002

Cidades Vendas (R$)


Minas Gerais 4.000
Paraná 2.230
Rio Grande do Sul 6.470
Rio de Janeiro 8.300
São Paulo 10.090
Outros 420

TOTAL - BRASIL 31.510


Fonte: Departamento de Analise de Mercado

1.4.3 Série Específica

A ocorrência do fenômeno é variável, permanecendo fixos o local e o tempo.

10
Exemplo 4:
G.L.T S.A. -- INDÚSTRIA DE COMPONENTES ELETRÔNICOS
Vendas por linha de produto -- 2002
Linha do Produto Vendas(R$)
Linha A 6.450
Linha B 9.310
Linha C 15.750
Linha D 16.100
TODOS OS PRODUTOS 47.610
Fonte: Departamento de Analise de Mercado

1.4.4 Distribuição de Frequência

Na distribuição de frequência, os dados são ordenados segundo a magnitude, em classes,


permanecendo constantes o fato, o local e o tempo.

Exemplo 5:
Número de Empregados das Várias Classes de Salários
No Estado de São Paulo -- 2001
Classe de Salário (R$) Nº de Empregados
1---| 2 41326
2---| 3 123236
3---| 4 428904
4---| 5 324437
5---| 6 787304
6---| 7 266002
7---| 8 102375
8---| 9 56170
9---| 10 1 03788
Total 2233542
Fonte : Serviço de Estatística da Previdência e Trabalho

OBSERVAÇÃO: É comum haver necessidade de apresentar, em uma única tabela, mais do que
uma série, surgindo as chamadas séries mistas ou conjugadas. Dessa forma, podemos encontrar
séries: temporal-específica, temporal-geográfica, específico-geográfica e temporal-específica-
geográfica.

Exemplo 6:
EMPRESA DE CONTRUÇÃO CIVIL
Trabalhadores contratados divididos por ano.

Situação 2003 2004


Trabalhadores assalariados 160 140
Trabalhadores horistas 40 80
Totais 200 220
Fonte:Dados Hipotéticos

1.5 ELABORAÇÃO DE TABELAS ESTATÍSTICAS


11
As séries estatísticas surgem quando os dados são apresentados em quadros especiais,
denominados de Tabelas. A finalidade da tabela é poder apresentar os dados de modo ordenado,
simples e de fácil percepção. Dessa forma a tabela deve ser construída de modo a fornecer o
máximo de esclarecimento com um mínimo de espaço.

1.5.1 Elementos Fundamentais de uma Tabela Estatística

a. Título

A parte superior da tabela destina-se à indicação do título, que deve informar o fenômeno
que está sendo apresentado. O título deve responder às perguntas: O quê? Onde? e Quando? Tais
perguntas correspondem respectivamente, ao fenômeno, ao local e á época.

b. Corpo

No corpo da tabela encontramos as seguintes zonas: Designativa, Indicativa e Enumerativa.

- A Zona Designativa está colocada logo abaixo do título e compreende o chamado cabeçalho,
observando-se que nessa zona são colocados os diversos informes referentes ao conteúdo de cada
coluna.
- A Zona Indicativa situa-se ao lado esquerdo, servindo para a colocação vertical de valores ou
nomes que especificam o conteúdo das linhas.
- As Zonas Enumerativas são as expressões numéricas do fato estudado, compondo-se de
colunas, linhas e células ou casas.
. Coluna: é uma série vertical de informação.
. Linha: é uma série horizontal de informação.
. A interseção de uma linha com uma coluna corresponde a uma célula ou casa.

c. Fonte

Indicação da entidade responsável pelo fornecimento do dado ou pela sua elaboração. Deve
ser sempre citada no rodapé, exceto quando se tratam de dados obtidos pelo autor do trabalho.

1.5.2 Elementos Complementares

a. Notas

São informações suplementares destinadas a conceituar ou esclarecer o conteúdo das tabelas


ou indicar a metodologia adotada no levantamento ou na elaboração dos dados.

b. Chamadas

São informações de natureza específica sobre determinada parte da tabela, destinadas a


conceituar ou esclarecer dados. Devem obedecer a uma ordem de sucessão.

Organização da Tabela:

Título

12
Subtítulo
 Zona designativa ou cabeçalho
Zona Zona
Indicativa Enumerativa

Fonte:
Notas e Chamadas Rodapé

OBSERVAÇÕES:

1. Os dados devem ser organizados segundo a ordem cronológica, geográfica, alfabética ou


de acordo com a magnitude.
2. As unidades devem ser expressas claramente, usando-se as convenções apropriadas.
3. As tabelas devem ser fechadas acima e abaixo, nunca nas laterais.
4. Quando a tabela ocupar mais de uma página, não existirá o fechamento abaixo, e sim a
palavra "continua", sendo repetido o cabeçalho na página seguinte, com o título e a
palavra "continuação".
5. Nenhuma célula deverá ficar em branco, apresentando sempre um número ou um sinal
convencional.

1.5.3 Sinais Convencionais:

- (traço): quando o dado inexistir.


... (três pontos): quando não se dispuser da informação, muito embora ela possa ser
quantificada.
0 (zero): quando o valor numérico é muito pequeno para ser expresso na unidade adotada.

1.6 APRESENTAÇÃO GRÁFICA

"Os gráficos possuem efeito mágico. O perfil de uma curva revela, num golpe de vista, a
situação toda - a história de uma epidemia, o pânico, uma era de prosperidade ou uma era de
miséria. O gráfico informa, desperta a imaginação, convence. Sendo uma linguagem internacional,
os gráficos transmitem a informação à mente, de forma direta".

Principais utilidades dos gráficos:

- Necessidades de apuração da tendência dos dados;


- Importância de apuração de correlação;
- Destaque para alguns dados expressivos;
- Ênfase às diferenças entre alguns valores;
- Melhor entendimento da magnitude, mediante escala visual;
- Apresentação simplificada de dados complexos.

Todo gráfico, para alcançar seu objetivo, deve ter: simplicidade, clareza e veracidade.
Os elementos essenciais dos gráficos são o título e a fonte, de acordo com as séries que
estão representando.
Em alguns casos haverá necessidade de uma legenda, que serve para diferenciar as
informações usadas no gráfico.

Os gráficos mais importantes são:

13
I. Diagramas:
a. Por ponto;
b. Por linha;
c. Por superfície:
i. Barras verticais, horizontais ou compostas;
ii. Setor;
iii. Polar;
iv. Faixas;
v. Histograma.
II. Pictograma;
III. Estereograma;
IV. Cartograma;
V. Organograma;
VI. Fluxograma.

1.6.1 Diagramas

Os diagramas são gráficos de análise, pois são mais rigorosos e exatos.

a. Diagrama por ponto: é feito nos eixos cartesianos, onde representamos as informações
nas duas ordenadas. É usado para visualizar o comportamento dos dados.

Temperaturas das junções dos anéis para cada lançamento real ou de teste para
um motor de um foguete espacial

120

100

)F 80

ra
tua 60
re
p
m
e 40
T
20

0
0 1 2 3 4 5 6

Nº de Lançamentos

b. Diagrama por linha: depois de feito o diagrama por pontos, unimos os pontos formando
uma linha. Usamos quando desejamos dar a idéia da evolução do fenômeno.

14
Análise do diâmetro medio de anéis para pistao de motores
automotivos em função do tempo

60
59
58
Diâmetro médio (cm)

57
56
55
54
53
52
51
50
1 2 3 4 5
Tempo (horas)

c. Diagrama por superfície: quando os dados são representados por meio de área.

i. Gráfico de barras vertical, compostas ou horizontal : as informações são


representadas nos eixos cartesianos por retângulo horizontal (barras) ou vertical
(colunas). As barras só diferem em comprimento, e não em largura, a qual é
arbitrária. As barras ou colunas devem vir separadas uma das outras pelo mesmo
espaço. Como regra prática, pode-se tomar o espaço entre as barras como
aproximadamente a metade ou dois terços de suas larguras. As barras devem ser
desenhadas observando sua ordem de grandeza, para facilitar a leitura e análise
comparativa dos dados. Já o gráfico de barras compostas difere do gráfico de
barras convencional apenas pelo fato de apresentar cada barra segmentada em
partes componentes. É utilizado para representar séries específicas (barras), séries
temporais (colunas) e séries mistas (barras compostas ou colunas compostas).

Ex.: 1) Colunas
15
Temperaturas das junções dos anéis para cada lançamento real ou de teste
para um motor de um foguete espacial

120

100

80
Temperatura (ºF)

60

40

20

0
1 2 3 4 5
Nº de Lançamentos

2) Barras

Análise do diâmetro medio de anéis para pistao de motores


automotivos em função do tempo

4
Tempo (horas)

50 51 52 53 54 55 56 57 58 59 60
Diâmetro médio (cm)

3) Barras compostas

16
Importação Brasileira De Vinho e Champagne provenientes de
varias origens -- 2002 (R$)

Argentina

Chile

Espanha
Países

Vinho
Champagne
Itália

Portugal

França

0 50 100 150 200 250 300 350


Dados Fictícios

ii. Gráfico em setores: são usados para representar valores absolutos ou porcentagens
complementares. O gráfico em setores deve ser evitado para representar
númerosas parcelas, por dividir o círculo em muitos setores. O comprimento do
raio não tem nenhuma interpretação. As porcentagens poderão ser colocadas dentro
de cada setor. É utilizado quando desejamos ressaltar as partes de um todo.

Número médio de defeitos de um chip da empresa


X durante os anos de 2000 a 2004

Com defeito
1%

Sem defeito
99%

iii. Gráfico polar: os dados são representados em um círculo que deve ser dividido em
partes iguais, dependendo do número de valores a serem representados. Cada valor
será representado em um dos raios, na mesma ordem, e cada raio é um eixo
orientado, cuja origem é o centro do círculo. Após a marcação dos pontos, liga-se
através de semirretas, formando uma curva. É utilizado quando queremos dar a
idéia sobre a evolução de um fenômeno, principalmente para dados relativos à
fenômenos da natureza: temperatura, precipitação pluviométrica, etc.

17
Temperaturas Médias Mensais Registradas da Região
x

J
30
D F
20
N M
10 23º=Temperatura
Média Mensal

O 0 A

S M

A J
J

iv. Faixas: São gráficos lineares, equivalentes em uso aos gráficos em barras
compostas. É um instrumento útil para a apresentação da produção acumulada,
porcentagens complementares, da mesma forma como acontece com os gráficos em
colunas.

Ex.:
Produção Brasileira de Caminòes Pe sados no
Periodo de 1999 a 2003

600

500

400
Gasolina
300

200

Diesel
100

0
Ano 1999 Ano 2000 Ano 2001 Ano 2002 Ano 2003

v. Histograma: é utilizado para representar a distribuição de frequência. (Será usado no


capítulo seguinte).

18
Investigação da vida de um pneu em relação a um
novo componente da borracha
Porcentagem

25,00%

20,00%

15,00%

10,00%

5,00%

0,00%
40--|43 43--|46 46--|49 49--|52 52--|55 55--|58 58--|61
Vida em Km

1.6.2 Pictograma - usam-se desenhos de pessoas, produtos, etc., em geral alusivos à variável em
questão.

Telefones portáteis vendidos no Brasil -- 2002 - 2004

2002
=1000 celulares

2003

2004

1.6.3 Estereograma: são gráficos desenhados em três dimensões.

19
Desempenho na Impresão de Impressoras

80,00%

70,00%

60,00%

50,00%

40,00%

30,00%

20,00%

10,00%

0,00%

Impressora A
Impressora B S1
Impressora C
Impressora D

1.6.4 Cartograma: é a representação de um fenômeno com o auxílio do mapa geográfico em


estudo. Sua utilidade é limitada à representação simplificada dos dados geográficos.

Área com Pastagem no Mato Grosso do Sul,2002

1.000 HECTARES

Até 200
Mais de 200 a 400
Mais de 400 a 600
Mais de 600 a 800
Mais de 800 a 1.000
Mais de 1.000 a 1.200
Mais de 1.200

1.6.5 Organograma: representa distribuições de funções de uma empresa. É formado por


retângulos que devem ser colocados num mesmo nível horizontal para representar o mesmo
nível hierárquico.

20
Distribuição das funções da Empresa X

Diret

Abrir Nova Filial AD-HOC * Relatório Anual de


Evolução das Vendas

Gerência Intermediária

Aumentar a Ranking dos


Produção em 6% Vendedores

Mão-de-Obra

Catálogo de Fazer “Hora Extra”


Produtos

* - Algo emergencial, que não estava previsto.

1.6.6 Fluxograma: é um esquema para descrever o andamento de ordem de uma


linha de montagem, para descrever a ordem de um programa de computador, etc..

Controle de Falhas no Processo

Inspeciona-se uma
amostra de n itens

Se a média cair dentro Se a média ultrapassar o


do limite de controle Calcula-se a Média a limite de controle
cada Intervalo de Tempo

Continua-se a produção Para-se a produção para


normalmente verificação

EXERCÍCIOS

21
1. Nos exemplos seguintes diga quem é a população e a amostra:
a. Exame do tipo sanguíneo de um indivíduo.

b. Pesquisa eleitoral em Fortaleza.

c. Estado de conservação dos aparelhos telefônicos de uma empresa.

2. Classifique as variáveis abaixo em qualitativas nominal ou ordinal, e quantitativas


discretas ou contínuas:

a. Funcionários de uma indústria em Fortaleza.

Salário:
Classificação dos funcionários por tempo na empresa:
Estado civil:
Nº de funcionários que recebem adicional de salubridade:

b. Alunos do curso de Engenharia Elétrica na UFC, 2005.1

Nº de alunos matriculados:
Classificação do aluno no vestibular:
Disciplina cursada pelo aluno nesse semestre:
Renda familiar:

c. Computadores ligados à Internet no Ceará 2004.

Custo das instalações:


Nº de usuários:
Marca dos computadores:
Ordem de inscrição na rede:

3. O que caracteriza uma série do tipo:


a. Temporal?

b. Temporal-Específica?

c. Geográfica?

d. Específica-Geográfica?

22
4. Nas tabelas abaixo, classifique as séries e faça os gráficos convenientes.

a. TABELA 1 - GL.T. S.A. – INDUSTRIA DE COMPONENTES ELETRÖNICOS


Vendas -- Mercado Interno – Janeiro a Junho 2002

Meses Vendas(R$)
Janeiro 2300
Fevereiro 1800
Março 2200
Abril 2210
Maio 2360
Junho 2600
Fonte: Departamento de Analise de Mercado

b. TABELA 2 - Número de Empregados das Varias Classes de Salários


No Estado de São Paulo -- 2001

Classe de Salário (R$) Nº de Empregados


1---| 2 41326
2---| 3 123236
3---| 4 428904
4---| 5 324437
5---| 6 787304
6---| 7 266002
7---| 8 102375
8---| 9 56170
9---| 10 103788
Total 2233542
Fonte: Serviço de Estatística da Previdência e Trabalho

c. TABELA 3 - EMPRESA DE CONTRUCAO CIVIL


Trabalhadores contratados divididos por ano.

Situação 2003 2004


Trabalhadores assalariados 160 140
Trabalhadores horistas 40 80
Totais 200 220
Fonte:Dados Hipotéticos

d. TABELA 4 - Exemplo 2:
BRASIL - RENDA PER CAPTA ANUAL –2000/2003

Ano Renda(R$)
2000 3.480,31
2001 5.180,03
2002 5.986,97
2003 6.307,55
Fonte:IBGE

23
2. MEDIDAS ASSOCIADAS ÀS VARIÁVEIS QUANTITATIVAS

2.1 MEDIDAS DE TENDÊNCIA CENTRAL

Nas aulas anteriores vimos que a redução dos dados através de tabelas e gráficos nos
fornece muito mais informações sobre o comportamento de uma variável do que a própria série
original dos dados. É muito comum que se façam suposições ou que se estabeleçam hipóteses a
serem confirmadas pelas observações feitas nas tabelas ou gráficos. Muitas vezes tiramos
conclusões erradas apenas com uma análise superficial dos dados. Contudo, queremos resumir
ainda mais esses dados, apresentando um ou alguns valores que sejam “representativos” da série
toda. Porém, quando usamos um só valor, obtemos uma redução drástica dos dados.
De modo geral, as perguntas mais usuais e importantes que são feitas, relativas à
população, são as seguintes: onde é, ou está, o centro da distribuição? Como se distribuem os
valores em torno desse centro? Como é a forma da distribuição? Se houver duas ou mais
variáveis, como elas se relacionam e qual a intensidade dessa relação?
Para ressaltar as tendências características de um conjunto de dados, ou de uma distribuição
de frequências, isoladamente ou em confronto com outros conjuntos ou outras distribuições,
necessitamos introduzir conceitos que se expressem através de números que constituem uma forma
de traduzir estas tendências. Estes conceitos classificam-se como: Medidas de Posição e Medidas
de Dispersão.

2.1.1 Medidas de Posição

As Medidas de Posição são usadas para representar um conjunto de números, orientando-nos


onde se localiza o centro da distribuição em relação ao eixo das abcissas. Em geral, os dados observados
tendem a se agrupar em torno de valores centrais, assim são também conhecidas com Medidas de
Tendência Central, e são as seguintes: Média Aritimética (X-barra), Moda (Mo) e a Mediana (Md).
Quando empregadas sozinhas, essas medidas fornecem apenas uma visão incompleta de um conjunto de
dados e, portanto, podem confundir ou distorcer tanto quanto esclarecer.

2.1.2 Medidas de Dispersão

As Medidas de Dispersão medem o grau, o qual, os dados numéricos tendem a dispersar-se em


torno de um valor central. O cálculo de uma medida de tendência central só se justifica em razão da
variabilidade presente nos dados. Não há razão para se calcular, por exemplo, a média aritmética de um
conjunto de observações onde não há variação. Entretanto, se a variabilidade dos dados for muito
grande, sua média terá um grau de confiabilidade é tão pequeno, que será inútil calculá-la. As medidas
2
de dispersão (ou variação) são as seguintes: Amplitude Total (At), Desvio Médio (DM), Variância ( ou
2
s ), Desvio Padrão ( ou s) e Coeficiente de variação (C.V.)

24
2.2 ANÁLISE DE PEQUENOS CONJUNTOS DE DADOS

Um conjunto de dados pode receber tratamentos diferentes, caso ele seja considerado um
"pequeno" ou um "grande" conjunto de dados. Considera-se um pequeno conjunto de dados aquele para
o qual não são necessários métodos que exijam primeiramente o grupamento dos dados.
Como já foi informado anteriormente, a finalidade principal das medidas de tendência central é
a de informar sobre onde se localiza o centro da distribuição. O seu cálculo é um dado importante para o
estabelecimento de um esquema de trabalho, para a efetivação de uma compra, para a avaliação de um
projeto ou de um produto qualquer, etc..

2.2.1 Medidas de Posição

2.2.1.1 Média Aritmética

A média aritmética é a medida de tendência central mais comumente usada, cujo cálculo é dado
pela soma das observações dividida pelo número delas, e é representada pelo símbolo x e seu cálculo
pode expressar-se em notação como segue:

=>
x = média (lê-se “x-barra”)
onde, = soma (expressa pela letra grega maiúscula “sigma”)
xi = qualquer escore bruto do conjunto (isto é, a própria variável)
n = total de escores do conjunto

Exemplo: Sejam as idades de seis pessoas que moram em uma casa 19, 21, 25, 29, 23, 27 anos.
A idade média dessas pessoas é
= = = 24 anos

Propiedades da Média:

1- A média de um conjunto de dados pode sempre ser calculada.

2- Para um dado conjunto de valores, a média é única.

3- A soma algébrica dos desvios tomados em relação à média é nula, isto é:


= 0 ou =0
4- A média é sensível a todos os valores do conjunto.

5- Seja x é a média de x1, x2, ..., xn. Somando-se ou subtraindo-se uma constante c≠0 a cada valor de
um conjunto de valores, a média do conjunto fica somada ou diminuída desta constante.
1 n
Seja x1  c, x2 c, ..., xn c um novo conjunto, cuja média seria dada por: x ' =   x i  c  x  c . De
n i 1
modo análogo, multiplicando-se ou dividindo-se todos os valores de um conjunto por uma constante c,
então a média do conjunto fica multiplicada ou dividida por esta constante. Seja outro conjunto de
dados dado por: c.x1, c.x2, ..., c.xn. Sua média aritmética seria:

25
1 n
x''   c. x1  c. x
n i 1
2.2.1.2 Moda (Mo)

Denotamos moda o valor que ocorre com maior frequência em uma série de valores, se é que
existe algum valor. Em alguns casos pode haver mais de uma moda, ou seja, a distribuição de valores
pede ser bimodal ou trimodal, etc.
Desse modo, o salário modal dos empregados de uma indústria é o salário mais comum, ou seja,
é o salário percebido pelo maior número de empregados desta indústria.

Exemplos:

1) Comprimentos de doze semicondutores (cm) :


7, 8, 10, 12, 13, 10, 15, 10, 9, 11, 8, 7  Mo = 10 cm  Unimodal

2) Peso de placaa para micros: (g)


500, 625, 430, 610, 600  Amodal

3) Diâmetro de oito bastões de alumínio:


12, 14, 11, 11, 16, 15, 17, 13.  Bimodal

2.2.1.3 Mediana (Md)

A mediana de um conjunto de valores, ordenados segundo uma ordem de grandeza, é o valor


situado de tal forma no conjunto, que à sua esquerda e à sua direita há sempre a mesma quantidade de
elementos, ou seja, a mediana corresponde ao valor central da distribuição.
Portanto, a mediana é considerada a medida de tendência central que corta a distribuicao em duas
partes iguais.
Se estivermos diante de uma distribuição com número ímpar de dados, a mediana sera o dado
que cai exatamente no meio da distribuição. A posição do valor mediano pode ser determinada pelo
exame dos dados ou pela fórmula:

EMD = n + 1
2

Assim, 16 é o valor mediano na distribuição ordenada 11, 12, 13, 16, 17, 20, 25.
De acordo com a fórmula, (7+1) / 2, vemos que a mediana, 16, é o quarto valor da distribuição
independente do lado por onde se inicie a contagem.
Se o número de dados for par, a mediana será sempre aquele ponto da distribuição que
antecedido e precedido por igual número de dados. Para uma distribuição par de dados, sempre há dois
valores considerados centrais.
Ilustrando: os números 16 e 17 representam os dados centrais na seguinte distribuição: 11, 12,
13, 16, 17, 20, 25, 26. Pela fórmula, (8+1) / 2 = 4,5 o que significa que a mediana vai cair entre o quarto
e o quinto valor.

26
Quadro Resumo:

MEDIDAS
ESPECIFICAÇÃO
MÉDIA ARITMÉTICA MODA MEDIANA
- divide o conjunto
DEFINIÇÃO
x
 xi - valor mais frequente ordenado em duas partes
com o mesmo número de
n elementos.
- desejamos obter uma - desejamos obter uma - deseja-se obter o ponto
medida que possui maior medida rápida e que divide a série em
estabilidade. aproximada. partes iguais.
EMPREGO - houver necessidade de - quando o valor mais - quando há valores
tratamento algébrico típico da distribuição é extremos que afetam
ulterior. procurado. acentuadamente a média.
- reflete cada valor. - valor "típico": maior - menos sensível a valores
VANTAGENS - possui propriedades quantidade de valores extremos do que a média.
matemáticas atraentes. concentrado neste
ponto.
- É influenciada por valores - Não se presta a análise - difícil de determinar para
extremos. matemática. grandes conjuntos de
LIMITAÇÕES - pode não haver moda dados.
para certos conj. de
dados.

EXERCÍCIOS:

1. Calcule a média, moda e mediana para cada uma das séries abaixo:

a. Sete empregados horistas numa companhia de porte médio ganham 153, 136, 153, 68,
17, 102, 51 (R$).

b. Itensidade solar direta (watts/m2), em dias diferentes, em uma localização no sul do


Brasil:
2, 5, -4, 3, 1, 6.

c. O pH de uma solução é medido oito vezes por um mesmo instrumento, que obtem os
seguintes dados : 7,15; 7,20; 7,18; 7,19; 7,21; 7,20; 7,16; 7,18.

2. Responda:

a. Se o salário médio de 10 funcionários é de R$ 800,00, e se um aumento de R$ 80,00 for


concedido a cada um dos 10 funcionários, então o novo salário médio
será:___________________.
b. O salário de 5 estagiários de engenraria elétrica em uma empresa governamental está
descrito a seguir: (R$) : 170; 150; 170; 170; 180. Temos x = R$ ______________. Após 3
meses de estágio, o salário de cada um dos 5 estagiários será duplicado.
Então, o novo salário médio será y = R$ _________________.

27
c. O que ocorreria com o salário mediano acima encontrado se fosse duplicado o menor salário
observado?
d. O salário médio de 20 estatísticos de uma empresa, no último mês, foi de R$ 2.500,00.
Se for feita uma redução de 20% no salário de cada profissional desta empresa, como ficaria o
salário médio? E o salário mediano? E o salário modal?

3. Os dados a seguir correspondem ás temperaturas (graus F) das junções dos anéis para cada
lançamento de um motor de um foguete espacial, ordenados em ordem crescente:

º F: 44,00 49,00 61,00 63,00 67,00 71,00 75,00 77,00 80,00

º F: 84,00 89,00 89,00 91,00 95,00 102,00

a. Determine: a média aritmética, a moda e a mediana.


b. Qual medida de tendência central você utilizaria para representar a temperatura "típica"
das junções dos anéis?

4. Para um projeto de ampliação de rede de esgoto de u7ma certa região, as altoridades


tomaram uma amostra de tamanho 50 dos 270 quarteiros que compõe a região, e foram
encontrados os seguintes números de casas por quarteirão. Estime o centro da distribuição
pela média, mediana e moda.

2 2 3 10 13 14 15 15 16 16
18 18 20 21 22 22 23 24 25 25
26 27 29 29 30 32 36 42 44 45
45 46 48 52 58 59 61 61 61 65
66 66 68 75 78 80 89 90 92 97

Estime o centro da distribuição pela média, mediana e moda.

5. Suponha que a variavel de interesse tenha a distribuição como na figura abaixo.

Você acha que a média e uma boa medida de posição? E a mediana? Justifique.

28
2.3 MEDIDAS DE VARIABILIDADE

Vimos que a moda, a mediana e a media podem ser usadas para resumir, num único número,
aquilo que é médio ou “típico” numa distribuição. Quando empregada sozinha, entretanto, qualquer
medida de tendência central fornece apenas uma visão imcompleta de um conjunto de dados e,
portanto, pode confundir ou distorcer, tanto quanto esclarecer.
Com vistas a ilustrar essa situação, admitam que no Havaí, por exemplo, e Texas tenham
quase a mesma temperatuta media diária de 20º C. Será que, por isso, podemos admitir que a
temperatura é basicamente a mesma em ambas as localidades?
Dados colhidos mostram as temperaturas das cidades de Janeiro a Maio:
Havaí: 18,9º, 20,0º, 20,2º, 20,4º, 20,5º
Texas: 15,3º,16,2º, 16,9º, 25,5º, 26,1º.
Desnecessário dizer que as praias do Texas não estão apinhadas de gente durante esse período.
Tal fato demostra que necessitamos, além de uma medida de tendência central, de um índice que
indique o grau de dispersão dos escores brutos em trono do centro da distribuição (em torno da
media). Voltando ao exemplo anterior, poderíamos dizer que as temperaturas no Texas tem uma
maior variabilidade do que no Havaí.

2.3.1 Amplitude Total (At)

É a medida mais simples de variação que temos e é obtida tomando-se a diferença entre o maior
e o menor dos valores da série. Indicaremos,

= -

Essa medida não é sempre confiável por envolver apenas 2 resultados, máximo e mínimo, nada
informando sobre a distribuição dos dados intermediários, o que poderia conduzir o analista a
interpretações equivocadas. Muitas vezes, um valor particularmente anormal poderá afetar de maneira
acentuada essa medida.

Exemplo: A = 98 no seguinte conjunto de dados: 2, 6, 7, 7, 10, 12, 13, 100 (At = 100 – 2 = 98);
entretanto, a = 12 neste outro conjunto: 2, 6, 7, 7, 10, 12, 13, 14. (At = 14 - 2 = 12). Portanto, pela
simples troca de um único valor (14 em lugar de 100), fizemos com que a amplitude total flutuasse
bruscamente de 98 para 12. Assim, ela não fornece uma ideia precisa da variabilidade.

2.3.2 Desvio Médio ( DM )

O desvio médio ( DM ) é baseado na diferença entre cada valor do conjunto de dados e a média
desse conjunto. Para a variável X, nota de um aluno do curso de cálculo III: 3, 4, 5, 6, 7. Com média
igual à 5, os desvios di = xi - x são:

d1 = -2 ; d2 = -1 ; d3 = 0 ; d4 = 1 ; d5 = 2.

E para a nota de outros alunos:


Y = 1, 3, 5, 7, 9.
Z = 5, 5, 5, 5, 5.
W = 3, 5, 5, 7.
V = 3.5, 5, 6.5

29
É fácil ver que para qualquer conjunto de dados,  di =  ( xi - x ) = 0. Por essa razão, uma das
soluções seria tomar as diferenças em valores absolutos e somá-las. Entretanto, o uso desses totais pode
causar dificuldades quando comparamos conjuntos de dados com números diferentes de observações.
Assim, exprimimos as medidas como a média, ou seja:

DM =

Para as variáveis X e W, temos:


6 4
DM (X) = = 1,2 e DM (W) = = 1
5 4
Então podemos dizer que segundo o desvio médio, o grupo D, referente à variável W, é mais
homogêneo que o grupo A, referente à variável X.
2 2
2.3.3 Variância (  ou s )
2
A variância (s ), assim como o desvio médio (DM), mede também a concentração dos dados em
torno de sua média. A diferença entre as duas medidas está no fato de que a variância considera as
diferenças (ou desvios) elevadas ao quadrado, antes de serem somadas.
2
Para uma população, a variância é representada pela letra grega minúscula  (ler "sigma
quadrado" ou "sigma dois") sendo a fórmula:

: valores populacionais

onde, µ: média populacional

N tamanho da população

A variância para uma amostra não é, em termos computacionais, exatamente igual à variância da
população. É introduzido um fator de correção nesta fórmula, de tal maneira que a variância amostral
seja um estimador não tendencioso da variância populacional.
Então, a variância amostral é representada por s2, e sua fórmula é:

: valores amostrais

onde : média amostral

n: tamanho da amostra

30
Propriedades da Variância:

I - Se somarmos (ou subtrairmos) uma mesma constante c≠0 a todos os valores do conjunto de dados, a
variância ficará inalterada.
X 'i  x i  c  x'  x  c

1 n 2 1 n 2
S'2  
n i 1
  
x'i  x'   x i  x
n i 1
  S2

II - Se multiplicarmos (ou dividirmos) cada valor do conjunto de dados por uma mesma constante c≠0,
a variância ficará multiplicada (ou dividida) pela constante ao quadrado ( c2 ).
X'i  c. x i  x'  c. x

1 n 2
2 1
n 2
S'2   i
n i 1
x '  x'  c . 
 xi  x
n i 1
  c 2 . S2

2.3.4 Desvio Padrão ( ou s)

Em geral, é difícil interpretar o significado do valor da variância, porque as unidades nas quais
tal valor é expresso não são as mesmas das observações do conjunto de dados. Por esta razão, a raiz
quadrada da variância, representada pela letra grega  (para população) ou s (para amostra) é chamada
de desvio padrão, é o que se utiliza com mais frequência.

As fórmulas são:

 Desvio Padrão Populacional:

 Desvio Padrão Amostral:

O desvio padrão mede, então, a dispersão existente no conjunto de valores, em termos absolutos.

Exemplo:

Para as variáveis X e Y do exemplo anterior, temos:

Variável X: Média = 5,0 ; Variância = 2,0 ; Desvio Padrão = 1,41


Variável Y: Média = 5,0 ; Variância = 8,0 ; Desvio Padrão = 2,83
Podemos, então, concluir que as notas estão mais homogêneas em X do que Y, ou seja, a média
é mais representativa no primeiro grupo.

31
Para determinadas classes de problemas, as medidas de dispersão relativa proporcianam uma
avaliação mais apropiada do grau de dispersão da variável do que as de dispersão absoluta (Amplitude
Total, Desvio Médio, Desvio Padrão e Variância). A dispersão relativa permite ainda comparar duas ou
mais distribuições, mesmo que essas se refiram a diferentes fenômenos e sejam expressas em unidades
de medidas distintas, gerando a medida chamada Coeficiente de Variação.

2.3.5 Coeficiente de Variação de Pearson (CV)

O Coeficiente de Variação (CV) é útil quando queremos verificar a variabilidade de um conjunto


de dados ou comparar a variabilidade de dois ou mais conjuntos de dados. Ele indica a magnitude
relativa do desvio padrão quando comparado com as médias das distribuições das medidas. As
fórmulas, portanto, são:
Coeficiente de Variação Populacional:

ou em termos percentuais

Coeficiente de Variação Amostral

ou em termos percentuais
. 100%

Observe, então, que o coeficiente de variação mede a dispersão existente no conjunto de valores,
em termos relativos, e sua condição de existência é que  ou x sejam diferentes de zero. Uma
alternativa para o caso de termos média igual a zero, é usarmos uma outra medida de dispersão relativa,
o Coeficiente de Variação de Thorndike que é dado pela formula:

. 100%
ou em termos percentuais
. 100%

Observação: Quanto mais próximo de zero está o coeficiente de variação de um conjunto de valores,
mais homogeneidade existe neste conjunto, ou seja, a média encontrada é mais representativa.

Exemplos: Para a variaval X, do exemplo inicial, temos:

X = 5,0 ; s2 = 2,0 ; s = 1,41 .

1,41 1,41
Então o CV = = 0,282 ou CV = x 100 = 28,2%
5,0 5,0

32
EXERCÍCIOS:

1. Calcule a amplitude total, o desvio médio, a variância, o desvio padrão e o coeficiente de


variação de pearson e de Thorndike para cada uma das séries abaixo:

a. Sete empregados horistas numa companhia de porte médio ganham 153, 136, 153, 68, 17,
102, 51 (R$).

b. Itensidade solar direta (watts/m2), em dias diferentes, em uma localização no sul do Brasil:
2, 5, -4, 3, 1, 6.

c. O pH de uma solução é medido oito vezes por um mesmo instrumento, que obtem os seguintes
dados : 7,15; 7,20; 7,18; 7,19; 7,21; 7,20; 7,16; 7,18.

2. Dados os conjuntos de números X = {10, 20, 30, 40, 50} e Z = {15, 25, 35, 45, 55}. Some e
multiplique pela constante c = 7, cada um dos conjuntos X e Z. (Comprove as propiedades da
variância).

3. Suponha que em uma empresa fabricante de fios, queira-se estudar o tempo de resistência de um
fio (à flexões repetidas), cuja média seja igual a 140 min e o desvio padrão de 15min, e o tempo
de resistência á tração cuja media seja de 18 Kg, e desvio padrão de 0,730 Kg. O novo fio
apresenta maior dispersão de resistentencia à tração ou à flexões?

4. Os dados abaixo referen-se às notas de seis alunos em duas avaliações.

Avaliação 1 Avaliação 2

5,9 5,9
7,8 2,7
6,8 6,9
5,9 3,9
7,2 7,2
8,4 9,4
________________ _________________
a. Em qual das duas avaliações ouve um maior rendimento?
b. Em qual das duas avaliações ouve menor dispersão absoluta? E relativa?
c. Em qual das duas avaliações a média e mais representativa?

33
3. MEDIDAS ASSOCIADAS A VARIÁVEIS QUANTITATIVAS
(Continuação)

3.1 ANÁLISE DE GRANDES CONJUNTOS DE DADOS

Em sua forma não organizada, os dados estatísticos podem quase não ter sentido, ou seja,
grande quantidade de informações tendem a confundir, ao invés de esclarecer, simplesmente
porque nossa mente não é capaz de abranger a variedade e os detalhes inerentes a um grande
conjunto de dados. Ficamos simplesmente atolados em pequenos detalhes.
Quando se estuda um fenômeno precisamos recolher fatos que pareçam relevantes em
relação a alguma característica em comum de um conjunto de dados. Essa característica em
comum, definida por variáveis, deve ter suas informações condensadas de modo que possamos
interpretar seus resultados.
Uma maneira de condensar essas informações é através de uma tabela, que concentra todos
os dados em um pequeno espaço, sem que sejam perdidas informações relevantes destes. Essa
tabela é chamada de distribuição de frequências.

3.1.1 Distribuição de frequência

Em muitos casos, os valores apresentam muitas repetições. Esse fato irá sugerir,
naturalmente, que se condensem todos os resultados em uma tabela, estabelecendo-se a
correspondência entre o valor individual e o respectivo número de vezes que ele foi observado
(frequência desse valor). Essa tabela de frequências proporciona uma apresentação esteticamente
mais vantajosa dos dados, facilitando a verificação do comportamento do fenômeno.
Normalmente ao nos depararmos com um conjunto de dados, especificamente numérico,
devido à desorganização destes, não é possível tirarmos alguma conclusão. Esse conjunto de dados
desorganizados é chamado de dados brutos, que se apresentam da maneira como foram coletados.
Podemos, em princípio, organizá-los em ordem (crescente ou decrescente); essa forma ordenada é
chamada de rol. Posteriormente chegaremos a uma forma mais condensada, chamada de
distribuição de frequências de dados quantitativos.

3.1.2 Tipos de Frequência:

Uma tabela de frequências pode representar e caracterizar um dos seguintes tipos de


frequências:

1) Frequência simples absoluta ( fi );


2) Frequência simples relativa ( fri );
3) Frequência acumulada crescente absoluta (Fci);
“abaixo de” 4) Frequência acumulada crescente relativa (Fcri );
5) Frequência acumulada decrescente absulura (Fdi);
“acima de” 6) Frequência acumulada decrescente relatativa (Fdri).

34
a. Frequência simples absoluta (fi):

A frequência simples absoluta de um valor individual (ou de uma classe) é o número de


observações correspondentes a esse valor (ou a essa classe).

b. Frequência simples relativa (fri):

A frequência relativa representa a proporção de observações de um valor individual (ou de


uma classe) em relação ao número total de observações (ou seja, em porcentagem). Trata-se,
portanto, de um número relativo. Para calcular a frequência relativa basta dividir a frequência
absoluta do valor individual (ou da classe) pelo número total de observações. Temos, então:
f
fri = i ,
n
onde n é o número total de observações ou tamanho da amostra.
Caso desejamos expressar o resultado em termos percentuais, multiplicamos o quociente
obtido por 100.

A soma das frequências relativas de uma tabela de frequências é sempre igual a 1 ou 100%.

c. Frequência acumulada “Abaixo de”:

A expressão "abaixo de" refere-se ao fato de que as frequências a serem acumuladas


correspondem aos valores menores ou anteriores ao valor (ou à classe) cuja frequência acumulada
se deseja obter, incluindo no cálculo a frequência do valor (ou da classe). Toda vez que se procura
saber quantas observações existem até um determinado valor individual (ou uma determinada
classe), recorre-se à frequência acumulada "abaixo de". Ela pode ser expressada em termos
absolutos ou relativos (%).

d. Frequência acumulada “Acima de”:

A frequência acumulada "acima de" de um valor individual (ou de uma classe)


representa o número de observações existentes além do valor ou da classe, incluindo no cálculo, as
observações correspondentes a esse valor ou a essa classe. Para se obter a frequência acumulada
"acima de" basta somar à frequência do valor individual (ou da classe) as frequências dos valores
individuais (ou das classes) posteriores.

Exemplo: Distribuição de frequências simples:

TABELA: Número diário de máquinas que apresentam defeito no primeiro mês de funcionamento
da empresa gama – Janeiro de 2004.

35
Nº de máquinas Frequência (fi) Percentagem (fri) (Fi) (Fri) (Faci) (Fraci)
com defeito
1 2 6,67 2 6,67 30 100,00
2 2 6,67 4 13,34 28 93,33
3 5 16,67 9 30,01 26 86,66
4 10 33,33 19 63,34 21 69,99
5 6 20,00 25 83,34 11 36,66
6 5 16,66 30 100,00 5 16,66
Total 30 100,00
Fonte: Dados fictícios

3.1.3 Medidas de Posição e Dispersão para dados não agrupados.

Podemos, em uma distribuição de frequências simples, efetuar cálculos referentes às


medidas de posição e dispersão:

a. Média Aritmética

onde k é o número de valores individuais (ou classes).

b. Moda : valor mais frequente.

c. Mediana: valor que divide a distribuição em duas partes iguais, ou seja, é a mesma
definição anterior, só que na distribuição os valores da variável já estão ordenados e deve-se
observar as frequências acumuladas para verificarmos aonde está o valor central ( se n é
ímpar) ou a média aritmética entre os dois valores centrais ( se n é par).

d. Variância (  2 ou S 2 )

 Variância Populacional

 Variância Amostral

e. Desvio Padrão

 Desvio Padrão Populacional

 Desvio Padrão Amostral

36
f. Coeficiente de Variação:

 Coeficiente de variação Populacional

 Coeficiente de variação Amostral

Exemplo: Voltemos ao exemplo do número de maquina com defeitos na empresa gama.

Agora responda:

1) Qual o número médio de máquinas com defeito na empresa gama?

2) Qual o número mediano de maquinas com defeito? E o número modal?

3) Em quantos dias observamos no mínimo 3 maquinas com defeito?

4) Em quantos dias observamos 4 maquinas com defeito?

5) Em que porcentagem dos dias observamos no Maximo 3 maquinas com defeito?

6) Em quantos dias e em que porcentagem observamos no mínimo 2 e no Maximo 4 maquinas com


defeito?

7) Calcule a variância, o desvio padrão e o coeficiente de variação.

8) Se uma outra empresa do mesmo ramo apresentou uma dispersão relativa ( C.V. ) de 30%, em
qual das duas o número médio de defeitos foi mais representativo? Justifique.

9) Represente a distribuição acima graficamente.

3.2 DISTRIBUIÇÃO DE FREQUÊNCIA PARA DADOS AGRUPADOS EM CLASSES

Muitas vezes, mesmo com o risco de sacrificar algum detalhe manifestado na ordenação dos
valores individuais, há vantagens em resumir os dados originais em uma distribuição de
frequências, onde os valores observados não mais aparecerão individualmente, mas agrupados em
classes. Principalmente quando a variável em estudo for contínua, ou o número distinto de valores
representativos dessa variável for muito grande. Mas, quando utilizar?

- Quando a variável de estudo for continua;


- Quando a variável de estudo for discreta e o número de valores representativos (distintos) da
variave for muito grande.

3.2.1 Passos para construção da tabela de frequência (Regra Prática)

37
1º Passo: Identificar o valor máximo e o valor mínimo do conjunto de dados e encontrar a
amplitude total (At). Definimos por amplitude total a diferença entre o maior e o menor valor do
conjunto de dados:

2º Passo: Determinar o número de classes (k) que irão formar uma distribuição de frequências.
Embora não exista uma fórmula precisa para esse número K, podemos nos orientar pela seguinte
regra prática:

3º Passo: Calcular o comprimento ou a amplitude que deve ter o intervalo de classe (h), que é
obtido dividindo-se a amplitude total pelo número de classes, ou seja:

4º Passo: Determinar os limites das classes, escolhendo-se, preferencialmente, números inteiros.


Escolher o tipo de intervalo ( |--- ou ---| ).

Observações:

Cada valor pode pertencer apenas a uma classe. Uma mesma observação não pode pertencer
a duas classes diferentes. O número de classes deve está entre 5 e 15. Uma distribuição de
frequências com menos de 5 classes pode estar omitindo informações importantes e, acima de 15
classes pode pecar pelo excesso de detalhes e fugir do objetivo de uma distribuição de frequências,
que é resumir informações contidas no conjunto de dados de forma a melhorar a sua observação.
Uma dúvida que pode também surgir é a determinação do limite inferior do primeiro
intervalo. Uma solução seria tomar o menor inteiro do conjunto ordenado (rol), caso ele seja
discreto, ou o primeiro inteiro imediatamente anterior ao menor valor do rol, caso o conjunto de
dados seja contínuo. Uma vez determinado o limite inferior da primeira classe, soma-se a esse
limite o comprimento do intervalo ou amplitude ( h ) para encontrarmos o seu limite superior; esse
limite superior passa então a ser o inferior da classe seguinte e as classes subsequentes são
formadas utilizando-se o mesmo procedimento descrito acima.
Além das frequências absolutas de cada classe, a distribuição de frequências pode também
conter as frequências relativas e acumuladas, e o ponto médio da classe. O ponto médio ( Xi ) é o
valor que representa a classe, para efeito de cálculo das medidas descritivas, e é definido como a
média aritmética entre os limites inferior e superior da classe. Temos, então:

i = 1, 2, 3 ..., k
Exemplo: Levantamento do salário dos empregados da seção de orçamento da empresa Beta.
Dados Brutos: 4,0 4,5 4,8 7,4 8,0 8,0
5,5 6,3 5,6 7,5 7,8 9,3
10,0 9,8 10,0 11,5 11,5 11,5
10,5 11,2 11,6 16,0 16,4 17,0
17,0 19,5 12,4 13,5 14,2 14,2
13,5 15,0 15,5 15,5 23,9 4,8

38
Vamos, então, montar a nossa distribuição, alocando as frequências em cada classe.
Consideremos, por opção, intervalos abertos à esquerda e fechados à direita.

At= 23,9 – 4,0 = 19,9

n = 36 => k = (36)1/2 => k = 6 classes

19,9
h= => h ~ 3,2 usaremos h = 4
6

Agora complete a tabela:


Tabela: Levantamento do salário dos empregados da seção de orçamento da empresa Beta.

2
Classes de salários fi f ri (%) Ponto Médio Xi f i (Xi –X ) f i
(em salários-minimo) (Xi)
4,0 |--- 8, 0
8,0 |--- 12,0
12,0 |--- 16,0
16,0 |--- 20,0
20,0 |--- 24,0
Total

3.2.2 Medidas de Posição e dispersão para dados agrupados.

a. Média Aritmética:

xi = ponto médio da i-ésima classe;


onde: fi = frequência absoluta da i-ésima classe;
n = tamanho da amostra ou conjunto de dados.

b. Mediana

Quando estamos trabalhando com uma distribuição de frequências, devemos, inicialmente,


identificar a ordem do elemento mediano. Se existe um número ímpar de dados, procuramos o
elemento de ordem (n + 1)/ 2; caso o número de dados seja par, buscamos o elemento de ordem (n/
2). Em seguida, identificamos a classe mediana, ou seja, a classe que vai conter a mediana. Nessa
 n  as  n + 1 as 
classe deverá estar até metade das observações   ou    , e ela pode ser encontrada
 2   2  

através da informação dada pela frequência acumulada.
A mediana será, então, dada por:

39
lmd = limite inferior da classe mediana (classe que contém a mediana);
(fac)md = Fi = frequência acumulada anterior a da classe mediana;
onde: fmd = frequência absoluta de classe mediana;
h = comprimento do intervalo da classe mediana;
n = número de observações ou tamanho da amostra.

c. Moda

A moda vai nos mostrar que porção da distribuição dos dados tem a maior frequência de
ocorrência. Identificamos, então, a classe modal como aquela que detém a maior frequência. A
moda pode ser obtida através de:

lmo = limite inferior da classe modal.


= diferença entre a frequência absoluta da classe modal e a da
onde: classe imediatamente anterior
= diferença entre a frequência absoluta da classe modal e a da
classe imediatamente posterior
h = comprimento do intervalo da classe modal.

d. Amplitude Total ( At )

A amplitude total da distribuição de frequências é definida como a diferença entre o limite


superior da última classe da distribuição e o limite inferior da primeira classe.

e. Variância

Variância Populacional

Variância Amostral

40
f. Desvio Padrão

O desvio padrão é definido da mesma forma anterior, ou seja, é a raiz quadrada da


variância. Assim,
 Desvio Padrão Populacional

 Desvio Padrão Amostral

g. Coeficiente de Variação (C.V.)

 Coeficiente de variação Populacional

 Coeficiente de variação Amostral

Exemplo: Voltemos ao exemplo do levantamento do salário dos empregados da seção de


orçamento da empresa Beta. Em relação ao exemplo dado, responda:

i) Qual o número médio do salário dos empregados na empresa beta?

ii) Qual o número mediano do salário dos empregados da empresa beta ? E o número modal?

iii) Quantos profissionais recebem salário de no Maximo 20 salarios-minimo?

iv) Que percentual de funcionários recebem um salário superior a 8 salarios-minimo e no Maximo igual
a 16 salarios-minimo?

v) Calcule a variância, o desvio padrão e o coeficiente de variação.

vi) Se uma segunda amostra de profissionais de nível superior de uma outra empresa concorrente
apresentar um salário médio de 12 salarios-minimo, com uma dispersão absoluta de 4 salarios-
minimo, em qual das duas empresas observamos um salário médio mais representativo ?
Justifique.

vii) Represente a distribuição acima graficamente.

3.3 GRÁFICOS REPRESENTATIVOS PARA UMA DISTRIBUIÇÃO DE


FREQUÊNCIAS:

Podemos representar uma distribuição de frequência pelo Histograma e pelo Polígono de


Frequência.

41
3.3.1 Histograma

O Histograma é a representação gráfica dos dados agrupados em classe (distribuição de


frequências) em um sistema de eixos cartesianos, anotando-se:

1) os limites das classes, no eixo das abcissas;


2) as frequências (absolutas ou relativas) no eixo das ordenadas.

Desse modo, o histograma é um conjunto de retângulos justapostos, sendo construído de


forma que a área de cada retângulo seja proporcional a frequência da classe que ele representa.
Portanto, a soma dos retângulos será igual a frequência total (caso consideremos as frequências
absolutas) ou igual a 100% (caso adotemos as frequências relativas). Voltando ao exemplo do
levantamento do salário dos empregados da seção de orçamento da empresa Beta, temos :

Levantamento do salário dos empregados da seção de


orçamento da empresa Beta

35,00%
Percentagem de salarios

30,00%

25,00%

20,00%

15,00%

10,00%

5,00%

0,00%
4,0|---8,0 8,0|---12,0 12,0|---16,0 16,0|---20,0 20,0|---24,0
Classes de salarios

3.3.2 Polígono de Frequência

Em cada classe, há um ponto definido pelas coordenadas: (xi; fi) ou (xi ; Fi). Unindo esses
pontos, obtém-se uma poligonal que permite visualizar a forma da distribuição resultante. As
interseções dessa poligonal com o eixo X são encontradas com o auxílio de classes fictícias, de
frequência nula, correspondentes a i = 0 e i = k + 1. A esse poligonal dá-se a denominação de
Polígono de Frequências.

Observação: Para efeito de estudos comparativos entre duas ou mais distribuições, é preferível
levar ao eixo das ordenadas as frequências relativas, ficando o histograma (ou polígono) livre da
influência de n. Para o exemplo anterior, temos:

42
Levantamento do salário dos empregados da seção de
orçamento da empresa Beta

35,00%

Percentagem de salarios
30,00%

25,00%

20,00%

15,00%

10,00%

5,00%

0,00%
4,0|---8,0 8,0|---12,0 12,0|---16,0 16,0|---20,0 20,0|---24,0
Classes de salarios

Observação: Quando o polígono de frequências fica apoiado sobre o eixo horizontal, a soma das
áreas dos retângulos é sempre igual à área sob o polígono de frequências.

3.4 MEDIDAS DE ASSIMETRIA

Ao se analisar uma distribuição, muitas vezes torna-se importante obter informações


adicionais sobre sua forma, além da idéia de dispersão fornecida pelo desvio padrão. Essas
informações se ligam principalmente à simetria, ou graus de assimetria da distribuição estudada. Os
tipos de distribuição são Simétrica , Assimétrica à direita e Assimétrica à esquerda.

3.4.1 Simétrica

Uma distribuição é dita simétrica em relação a um eixo, quando as duas partes da


distribuição por ele criadas coincidem perfeitamente ao serem superpostas. Nesse caso, o grau de
assimetria é zero e a média é igual a mediana que é igual a moda :

3.4.2 Assimétrica à direita


Quando a parte da distribuição à direita se torna mais alongada, o primeiro parâmetro a
detectar a mudança é a média ( x ), porque todos os valores de x participam de sua determinação.
Assim, a média se desloca para a direita, seguida da mediana, cujo valor é também influenciado
pelo alongamento à direita. A moda permanece estática. É o caso de assimetria à direita ou positiva,
para qual se tem:

43
3.4.3 Assimetrica à esquerda

Quando o alongamento for observado à esquerda do eixo, temos o caso de assimetria à


esquerda, ou negativa. Por razões semelhantes, ter-se-á o maior deslocamento da média x para a
esquerda, seguida da mediana Md e assim, temos:

3.4.4 Coeficiente de Assimetria (CA)

Mede o grau de assimetria existente na distribuição.


1º Coeficiente de assimetria de Pearson

2º Coeficiente de variação de Pearson

Quando:
CA = 0 Distribuição simétrica
CA > 0 Assimetria à direita
CA < 0 Assimetria à esquerda

44
4. PROBABILIDADE

4.1 INTRODUÇÃO

Neste capítulo apresentaremosa teoria matemática que dá a base teórica para o


desenvolvimento de técnicas estatísticas a serem apresentadas no decorrer do curso.
Denominamos fenômeno aleatório à situação ou acontecimentos cujos resultados não podem ser
previstos com certeza. Por exemplo, as condições climáticas do próximo domingo não podem ser
estabelecidas com total acerto. O mesmo pode ser dito da taxa de inflação do próximo mês.
Veremos que, em situações como essas, modelos podem ser estabelecidos para quantificar as
incertezasdas diversas ocorrências.
Os modelos probabilísticos podem ser úteis em diversas áreas do conhecimento humano,
tais como: Engenharia de Produção, Arquitetura, Administração de Empresas, Economia, Ciências
Biológicas, Agronomia, etc. Apresentaremos a seguir alguns conceitos básicos.

4.2 EXPERIMENTO ALEATÓRIO (E)

É aquele que se pode repetir infinitas vezes sob condições semelhantes e,embora não
possamos precisar qual será o resultado de uma realização particular, podemos descrever o
conjunto de todos os seus possíveis resultados.

Exemplos :

i. E1: Jogar um dado de seis faces e observar o número na face de cima;


ii. E2: Jogar uma moeda duas vezes consecutivas e observar, após o reposo, a face de cima;
iii. E3: Retirar uma bola de uma urna que contém 3 bolas vermelhas numeradas de 1 à 3, e 2
pretas, numeradas de 1 à 2;
iv. E4: Tempo de duração de uma lâmpada comum;
v. E5: Resistência de uma liga de concreto;

OBS.: Em cada repetição de uma “experiência” é impossível prever, com absoluta certeza, qual o
resultado que será obtido, e além disso, a ocorrência de um deles exclui a dos demais.

4.3 ESPAÇO AMOSTRAL (S)

Chamamos de espaço amostral ao conjunto de todos os resultados possíveis de um


exprerimento aleatório. Ele é representado também pela letra grega  (omega).

Exemplos - Daremos os exemplos referentes aos “experimentos” acima:

i. S1= { 1, 2, 3, 4, 5, 6}
ii. S2= {CC, CK, KC, KK}, onde C = cara e K = coroa.
iii. S3= {v1, v2, v3, p1, p2, }, onde b = bola branca e p = bola preta.
iv. S4= {t / t=0,1,...n}, onde t = tempo medido meses.
v. S5= {r / Mpa  r  Mpa }, onde r = resistência.

45
4.4 EVENTO

É qualquer subconjunto de um espaço amostral. Denotamos os eventos por letras latinas


maiúsculas (A, B, C,...), o conjunto vazio, como já é tradicional, será denotado por .

Seguem abaxo exemplos de eventos associados aos espaços amostrais acima.

I. S1 = {1, 2, 3, 4, 5, 6}.
Seja A1 = ocorrer um número par.
A1 = {2, 4, 6}.

II. S2 = {CC, CK, KC, KK}.


A2 = cara ocorre uma vez, nos dois lançamentos
A2 = {CK, KC}.

III. S3 = {v1, v2, v3, p1, p2}.


Seja A3= retirar bolas de número ímpar de retirada, isto é, A3={v1, v3, p1}.

4.5 UNIÃO DE EVENTOS

Se A e B forem eventos associados a um espaço amostral S, A U B será o evento que


ocorrerá se, e somente se, pelo menos um dos eventos, A ou B, ocorrerem.
Se A e B forem eventos, A  B será o evento que ocorrerá se, e somente se, A e B
ocorrerem simultaneamente.
C C
Se A for evento, A será o evento que ocorrerá se, e somente se, não ocorrer o evento A (A
será o complementar de A, com notação A ou AC).

4.6 EVENTOS MUTUAMENTE EXCLUSIVOS

Sejam A e B dois eventos associados a um espaço amostral S. Se A  B=  , então, A e B


são chamados eventos mutuamente exclusivos ou disjuntos. Quer dizer que os dois não tem
elemento em comum.

4.7 DEFINIÇÃO

Sejam E um experimento, S o espaço amostral associado a E e A um evento associado a S.


A probabilidade de ocorrência de A é um número real tal que:

i. P(A)  0 ;
ii. P(S) = 1;
iii. Se A1, A2,..., An forem eventos mutuamente exclusivos, dois a dois, então

 n  n
P U Ai  P(A1)  P(A 2 ) ... P(A n )   P(Ai)
 i 1  i 1

iv. Se A1, A2, A3,... é uma sequência de eventos mutuamente exclusivos definidos em S, então:

46
P(A1 U A2 U A3 U...) = P(A1) + P(A2) + P(A3) + ...

4.8 CONSEQUÊNCIAS DA DEFINIÇÃO

i. 0  P(A)  1;

ii. P(  ) = 0;

1 P( Ac ) = 1 - P(A);
2 Se A e B forem eventos quaisquer, então: P( A U B) = P(A) + P(B) - P(A  B) ( Regra de
Adição)

4.9 MODELO EQUIPROBABILISTICO (Definição Clássica de Probabilidade)

Seja o espaço amostral S={s1, s2, ... sn}. Diremos que é obedecido o modelo
equiprobabilistico, quando as probabilidades associadas a cada evento elementar (si : i = 1, 2, ..., n)
são as mesmas, ou seja P(si) = 1/n.
Neste caso, por exemplo, se tivermos o evento A = {s1, s2, s3 } do espaço amostral acima,
teremos a sua probabilidade dada por :

P(A) = l/n + 1/n + l/n = 3/n.

Essa maneira de cálculo das probabilidades é enunciada da seguinte forma:

n( A)
P(A) = ,
n( S )
onde:

n(A) = é o número de elementos do evento A.


n( S) = é o número de elementos possíveis do espaço amostral S.

Exemplos : Daremos os exemplos referentes aos “eventos” citados inicialmente.

3
I. S1 = {1, 2, 3, 4, 5, 6}  P(A1) =
6
A1 = {2, 4, 6}

2
II. S2 ={CC, CK, KC, KK}  P(A2)=
4
A2 = {CK, KC}

3
III. S3 ={v1 , v2 , v3, p1, p2}  P(A3)=
5
A3 ={v1 , v3 , p1}

47
Exemplo: Sejam, A o experimento lançar um dado e S seu espaço amostral, onde S = { 1, 2, 3, 4, 5, 6}.
Consideremos os eventos:

A: ocorrer face no3  A = {3};


o
B: ocorrer um n par  B = {2, 4, 6};
o
C: ocorrer um n ímpar  C = {1, 3, 5}.

Encontrar os valores de P(A), P(B), P(C), P(A  B), P(A  C), P(A  B), P(A  C) e P ( A) .

Solução: S = {1, 2, 3, 4, 5, 6},

A = {3} B = {2, 4, 6} C = {1, 3, 5}

1 3 3
P(A) = P(B) = P(C) =
6 6 6

P(A U B) = P(A) + P(B) pois A  B =  (MUT. EXCLUSIVOS)

1 3 4
P(A U B) =   ;
6 6 6

P(A  B) = P(  )=0;

P(A  C) = P(A) + P(C) - P(A  C) pois (A  C) = {3}, logo ( A  C)   . Então:

1 3 1 3
P(A  C) =    ;
6 6 6 6

P( A ) = 1 - P(A)
1 5 5
= 1 -  . Observe que A = {1, 2, 4, 5, 6}, logo: P( A ) = .
6 6 6

OBS:
1 3
 A  C, pois A ={3} e C = {1, 3, 5} logo P(A) =
e P(C) = . Assim, (PA)  P(B).
6 6
 Os eventos B e C são coletivamente exaustivos. Dois ou mais eventos são chamados
COLETIVAMENTE EXAUSTIVOS se, 2 a 2 forem mútuamente exclusivos e a união deles
resultar no espaço amostral S.

4.10 PROBABILIDADE CONDICIONAL

Em muitas situações praticas, o fenômeno aleatório com o qual trabalhamos pode ser
separado em etapas. A informação do que ocorreu em uma determinada etapa pode influenciar nas
probabilidades de ocorrências das etapas sucessivas.
Nestes casos, dizemos que ganhamos informação e podemos “recalcular” as probabilidades
de interesse. Essas probabilidades “recalculadas” recebem o nome de probabilidade condicional,
cuja definição apresentamos a seguir:
Dados dois eventos A e B, a probabilidade condicional de A dado que ocorreu B é
representada por

48
P ( A  B)
P ( A / B)  .
P ( B)

Avaliando as probabilidades do numerador e do denominador encontraremos uma fórmula mais


prática para o cálculo da probabilidade condicional em espaços amostrais equiprováveis.
isto é, para o cálculo da probabilidade condicional de A dado B, P(A / B), basta encontrarmos o
número de casos favoráveis ao evento AB e dividirmos pelo número de casos favoráveis ao
evento B, em vez de fazermos com relação ao espaço amostral S.

Exemplo: Um número é sorteado ao acaso entre os inteiros: 1, 2, 3 ..., 10 Se o número sorteado for
impar, qual a probabilidade de que seja o número 3?

Solução:
S = {1, 2, 3, 4, 5, ..., 10};
A = o no ser o 3  A = {3};
B = o no ser impar  B = {1,3,5,7,9}.
1
Notem que a probabilidade do evento A, sem a informação da ocorrência de B, é: P(A) = .
10
Dada, porém, a informação de que o número sorteado é impar, o espaço amostral reduz-se para B =
{1, 3, 5, 7, 9} e será neste espaço amostral que iremos avaliar a probabilidade do evento A.

Assim,
A  B = {3} e B = {1, 3, 5, 7, 9}.

Então:

P(A / B) = Nº de casos favoráveis ao evento A e B = 1/5


Nº de casos favoráveis ao evento B

P(A/B) lê-se: probabilidade de sair o número 3, dado que o número sorteado foi impar.

4.11 REGRA DO PRODUTO

P ( A  B) P ( A  B)
A partir da definição de probabilidade, P(A/B) = ou P(B/A) = ,
P ( B) P(A)
poderemos explicitar P(AB) e encontrar a regra do produto para dois eventos, assim:

P(AB) = P(B)P(A/B) com P(B) > 0


ou
P(AB) = P(A)P(B/A) com P(A) > 0

Então, a probabilidade da ocorrência simultânea de dois eventos de um mesmo espaço amostral é


igual à probabilidade de um deles ocorrer, multiplicado pela probabilidade condicional do outro,
dado o primeiro.

Exemplo: Retiram-se sem reposição duas peças de um lote de 10 peças, onde apenas quatro são
boas. Qual a probabilidade de ambas serem defeituosas?
49
Solução:

Sejam os eventos:

A = {a primeira peça é defeituosa}


B = {a segunda peça é defeituosa}

Precisamos então encontrar:

P(AB) = P(primeira peça ser defeituosa e a Segunda peça ser defeituosa)

P(AB) = P(A).P(B/A)

6 5 1
P(AB) = x 
10 9 3

Observem que P(B/A) é a probabilidade da segunda peça ser defeituosa, dado que a primeira foi
defeituosa.

OBS: A regra do produto vale para n eventos:

P(A1A2...An) = P(A1).P(A2/A1).P(A3/A1A2). ... .P(An/A1A2...An-1)

4.12 EVENTOS INDEPENDENTES

Dois eventos são considerados independentes, quando a ocorrência de um deles não


depende ou não está vinculada à ocorrência do outro, isto é, P(A/B)=P(A) e P(B/A)=P(B).
Considerando a regra do produtopara os eventos independentes temos:

P(AB) = P(A).P(B)

Não é difício verificar que se A é independente de B, então B é independente de A. O uso


da expressão acima permite ainda verificar que o evento vazio é independente de qualquer evento.
É muito comum, à primeira vista, confundir eventos independentes e eventos disjuntos. O próximo
exemplo ajuda a esclarecer essa questão.

Exemplo: Retiram-se, com reposição, duas cartas de um baralho com 52 cartas. Qual a
probabilidade de que ambas sejam de "paus"?

Solução:

Sejam os EVENTOS

A = {a primeria carta é de paus}


B = {a segunda carta é de paus}

Como A e B são independentes, a ocorrência ou não ocorrência de um deles não está associada à
ocorrência do outro.

50
Observam que, como o processo é com reposição, o espaço amostral não é alterado para o cálculo
da probabilidade do outro evento. Assim, P(AB) = P(A).P(B)

13 13 1
P(AB) = . 
52 52 16

i. Regra de Bayes

Começamos definindo uma partição do espaço amostral. Sejam os eventos A1 , A2 ,..., Nn


formam uma partição do espaço amostral se ele tem intersecção entre si e se sua união é igual ao
espaço amostral. Isto é,
n
Ai ∩ Aj =  para i≠j e  Ai = S
i =1

A figura a segui apresenta um exemplo de uma partição com 6 eventos.

Partição do espaço amostral n =6

Se denotarmos por B um evento qualquer teremos a seguinte partição:

Sejam, A1, A2...An n eventos mutuamente exclusivos tais que A1A2...An = S. Sejam,
P(Ai) as probabilidades conhecidas de todos os eventos Ai e B um evento qualquer de S, tal que
conhecemos todas as probabilidades condicionais P(B/Ai).

P ( A i ). P ( B / A i )
Então para cada i teremos: P ( A i / B)  n

 P(A
j1
j ). P ( B / A j )

Uma ilustração é fornecida pelo diagrama abaixo:

51
P( Ai  B) P( Ai ) P ( B / Ai ) P( Ai ) P ( B / Ai )
P ( Ai / B)    , i  1,...,5.
P(B) P( A1  B )  ...  P( A5  B ) P( A1 ) P ( B / A1 )  ...  P ( A5 ) P ( B / A5 )

Exemplo: Uma companhia produz circuitos em três fabricas I, II, III. A fábrica I produz 40% dos
circuitos, enquanto a II e a III 30% cada uma. As probabilidades de que um circuito produzido por
essas fabricas não funcione são 0.01 , 0.04, 0.03, respectivamnte.
Escolhido um circuito da produção conjunta das três fabrica, qual a probabilidade de que o
mesmo não funcione?

Solução:

Consideremos D = A peça escolhida e defeituosa. Então como a peça e escolhida pela produção
conjunta das três fabricas a P(D) e dada por:

P(D) = P( I ∩ D) + P( II ∩ D) + P( III ∩ D)

Obs: O simbolo de “+” significa “ou”.


Desmembrando as probabilidades temos:

P(D) = P(I)P(D/I) + P(II)P(D/II) + P(III)P(D/III)


P(D) = 0.4 0.01 + 0.3 0.04 + 0.3 0.03
P(D) = 0.025

Esta e a probabilidade de um circuito escolhido das três fabricas não funcione. Agora suponha que o
circuito escolhido ao acaso seja defeituoso. Qual a probabilidade dele ter sido fabricado por I?

Solução: Queremos a P(I/D).

P(I/D) = P(I)P(D/I) = 0.04 0.01 = 0.16


P(D) 0.025

Esta e a probabilidade de que o circuito defeituoso tenha sido escolhido pela fabrica I.

ii. Diagrama de arvore

É um esquema usado para enumerar todos os resultados possíveis de uma sequência de


experimentos, onde cada um pode ocorrer de um número finito de maneiras. A árvore é construida
da esquerda para a direita e o número de ramos de cada ponto corresponde ao número de resultados
possíveis de cada experimento.

Exemplo: Dados três conjuntos:

A={1, 2, 3} B={a, b} C={4, 5, 6}

Através do diagrama de arvore todos os resultados que formam o espaço amostral S podem ser
assim apresentados.

52
4 (1, a, 4)
a 5 (1, a, 5)
6 (1, a, 6)
1
4 (1, b, 4)
b 5 (1, b, 5)
6 (1, b, 6)

4 (2, a, 4)
a 5 (2, a, 5)
6 (2, a, 6)
S 2
4 (2, b, 4)
b 5 (2, b, 5)
6 (2, b, 6)

4 (3, a, 4)
a 5 (3, a, 5)
6 (3, a, 6)
3
4 (3, b, 4)
b 5 (3, b, 5)
6 (3, b, 6
Logo S terá 18 resultados (eventos elementares).

Observação :

Caso deseja-se saber quantos elementos terá o espaço geral S, sem precisarmos conhecer esses
valores, bastaríamos fazer pelo PRODUTO CARTESIANO, assim:

n(K1) = 3 n(K2) = {2} n(K3) = {3}

Logo: m = 3 x 2 x 2 = 18.

iii. Modelos não-equiprobabilisticos

Nem sempre se pode considerar válida a hipótese de equiprobabilidade dos espaços


amostrais, abordada acima, quando tratou-se da definição “clássica de probabilidade”. Assim, seja
uma moeda viciada em decorrência da colocação de em pequeno contra-peso de chumbo em uma
das faces. Pelo efeito do centro de gravidade a moeda tenderá a cair com aquela face voltada para
baixo, e portanto, mostrará tendência à obtenção da face oposta, digamos coroa.
Em caso desta natureza, quando deixa de ser válido o modelo equiprobabilistico, tem-se que
utilizar um modelo empírico mais geral. Então, seja S  {s1, s2, ..., sn } um espaço amostral discreto,
isto é, finito ou infinito enumerável. A probabilidade no espaço S acima é definida da seguinte
forma:

n
P ( si )  pi tal que  pi = 1 e 0  pi  1.
i 1

53
Exemplo: Numa indústria de Fortaleza, peças são fabricadas por cinco máquinas: A, B, C, D e E.
Estima-se que A produz duas vezes mais que C, esta por sua vez, produz três vezes mais que E; por
outro lado, B e D têm, individualmente, igual produção à C. Qual a probabilidade de cada máquina
fabricar peças?

Solução:

Sabemos que o espaço amostral S = {A, B, C, D, E}, mas sabemos também que cada evento A, B,
C, D e E não tem probabilidade 1/5. Isto é o que teria acontecido se o modelo fosse
equiprobabilistico. Neste caso, os eventos elementares possuem probabilidades diferentes.

Seja:
P(E) = p
P(A) = 2 P(C) = 6 P(E) = 6p
P(B) = P(C) = 3 P(E) = 6p
P(C) = 3P(E) = 3p
P(D) = P(C) = 3 P(E) = 3p
P(E) = p

sabemos que

P(S) = 1  P(A) + P(B) + P(C) + P(D) + P(E) = 1


6p + 3p + 3p + 3p + p = 1
1
16p = 1  p ,
16
Então temos

6 3 3 3
P( A )  ; P ( B)  ; P( C )  ; P(D) =
16 16 16 16

EXERCÍCIOS

54
1) Três jogadores A,B C disputam um troneio de tênis. Inicialmente A joga com B e o vencedor
joga com C, e assim por diante. O torneio termina quando um jogador ganha duas vezes seguidas
ou quando são disputadas, ao todo, quatro partidas. Quais são os resultados possíveis do terneio?

2) Na tabela abaixo, os números que aparecem são probabilidades relacionadas com a ocorrência de
A, B, AB, etc. Verifique se A e B são independentes.

B Bc
A 0,04 0,06 0,10
Ac 0,08 0,82 0,90
0,12 0,88 1,00

3) Considere o lançamento de dois dados. Considere os eventos A = soma dos números obtidos igal a 9,
e B = número no primeiro dado maior ou igual à 4. Enumere os elementos de A e B. Obtenha A U B, A
∩ B, Ac.

4) Um dado e viciado, de tal forma que a probabilidade de sair um certo ponto e proporcional ao seu
valor (por exemplo, o ponto 6 e 3 vezes mais provável de sair do que o ponto 2). Calcular:

a) A probabilidade de sair 5, sabendo-se que o ponto que saiu e impar.


b) A probabilidade de tirar um número par, sabendo-se que saiu um número maio que 3.

5) As falhas na fundação de uma grande edifício podem ser de dois tipos: A (capacidade de
suportar) e B (fundação excessiva). Sabendo-se que P(A) = 0,001, P(B) = 0,008 e P(AB) =
0,0008, determine a probabilidade:

a) de haver falha na fundação;


b) de ocorrer A e não ocorrer B.

6) Uma caixa contém 4 válvulas defeituosas e 6 perfeitas.

a) Duas válvulas são extraídas (sem reposição). Uma delas é ensaiada e verifica-se ser
perfeita. Qual é a probabilidade de que a outra também seja perfeita?
b) Se cada válvula retirada do lote é ensaidada, qual é a probabilidade de que no quinto
ensaio, obtenhamos todas as defeituosas?

7) Sejam A e B dois eventos de um espaço amostral, tal que P(B) > 0. Mostre que:
a) Se P(A/B) = P(A) entao P(A ∩ B) = P(A).P(B)
b) Se P(A ∩ B) = P(A).P(B), então, A e B são independentes.

55
5 VARIÁVEIS ALEATÓRIAS DISCRETAS

5.1 INTRODUÇÃO

Com a ajuda da Teoria das Probabilidades, vamos formalizar o comportamento de variáveis na


população, associando a cada possível valor sua probabilidade de ocorrência. Como já foi
mencionado, além da probabilidade poder ser obtida a partir do estudo das frequências, ela também
pode ser deduzida a partir de suposições feitas a respeito da realização do fenômeno. Na
formalização que faremos com a introdução de probabilidades, nos ocuparemos apenas das
variáveis quantitativas.As variáveis qualitativas podem ser, em algumas ocasiões, tratadas como
discretas na atribuição de probabilidades.
Definimos como vaviável aleatória uma função que associa a cada elemento do espaço
amostral a um número real.

5.1.1 Definição de Variável Aleatória Discreta

Seja X uma variável Aleatória. Se o número de valores possíveis de X for finito ou infinito
enumerável, diz-se que X é uma Variável Aleatória discreta.
A cada possível resultado xi , i = 1,2,...n, da variável X, associa-se P(xi) = P(X = xi), que é a
probabilidade da Variável Aleatória X assumir o valor xi. Ou seja, tendo S como um espaço
amostral de um experimento e P uma medida de probabilidade associada a esse experimento. Seja
uma função X definida como segue, X : S   ( números reais ), de tal modo que:

i)  x  ,  P[ X = x ]
ii) X( S ) é um conjunto finito ou enumerável

Dizemos, então, que X é uma variável aleatória discreta.

5.1.2 Função de Probabilidade

Chama-se função de probabilidade da Variável Aleatória (v.a.) X, que assume os valores


x1, x2, ..., xn, a função que a cada valor xi associa a sua probabilidade de ocorrência, isto é, P(xi) =
P(X = xi) , i = 1,2,..n. Ao conjunto {(xi, P(xi)),i = 1,2,...n}, damos o nome de Distribuição de
Probabildades da v.a. X.

A função de probabilidade deve satisfazer:

i) P[ X = xi ]  0,  xi  

ii)  P[X  x ]  1
x i X(S)
i

Para qualquer evento A, temos: P[ X  A ]   P[ X  x ], A


x A

56
5.1.3 Esperança Matemática de uma Variável Aleatória.

Seja X uma variável aleatória discreta assumindo os valores { x1, x2, ... ,xn }, com função
de probabilidade P[ X = xi ] = pi,  xi. Definimos por Esperança Matemática ou simplesmente
Esperança da variável aleatória X, denotada por E[ X ], o valor definido por:
n
E[ X ]   x i . P[ X  x i ]
i 1

Propriedades:

Sejam: {a , b}   (a   e b  ), X e Y variáveis aleatórias. São válidas as seguintes


propriedades:

i) E[ a ] = a
ii) E[ a.X ] = a.E[ X ]
iii) E[ a.X  b ] = a.E[ X ]  b
iv) E[ X  Y ] = E[ X ]  E[ Y ]
v) E[ X.Y ] = E[ X ].E[ Y ], se X e Y são independentes

5.1.4 Variância de uma Variável Aleatória Discreta

Seja X uma variável aleatória discreta assumindo os valores pertencentes a { x1, x2, ... ,xn },
com função de probabilidade P[ X = xi ] = pi , xi. Definimos por Variância da variável aleatória X,
denotada por V[ X ], ao valor definido por:
2 2 2
V[X] = E[ ( X - E[ X ] ) ] = E[ X ] - ( E[ X ] ) .

Propriedades:

Sejam: { a , b }   (a   e b  ), e X e Y variáveis aleatórias. São validas as seguintes


propriedades:

i) V[ a ] = 0
ii) V[ a.X ] = a2.V[ X ]
iii) V[ a.X  b ] = a2.V[ X ]
iv) V[ X  Y ] = V[ X ] + V[ Y ], se X e Y são independentes

5.1.5 Momentos de uma Variável Aleatória Discreta

Chamamos de momento de ordem m, o valor

n
E[ X m ]   x m
i . P[ X  x i ] .
i 1

57
PRINCIPAIS MODELOS DISCRETOS

Algumas variáveis aleatórias adaptam-se muito bem a uma serie de problemas práticos e
aparecem com bastante frequência. Portanto, um estudo pormenorizado das mesmas facilita
bastante a construção das correspondentes funções de probabilidades, bem como determinar seus
principais parâmetros.
Assim, para um dado problema, tentamos verificar se ele satisfaz as condições do modelo
conhecido, por isso facilitaria muito o nosso trabalho.

5.2 DISTRIBUIÇÃO UNIFORME DISCRETA

Uma variável aleatória X será uma variável aleatória discreta uniforme, se cada um dos n
valores em sua faixa, isto e, x1, x2,...,xn, tiver igual probabilidade. Então,

f(xi) = 1/n

f(xi)

1/k

x1 x2 xn x

Gráfico da função de probabilidade para uma variável aleatória discreta uniforme

 Esperança e Variância

Suponhamos que X seja uma variável aleatória discreta uniforme nos inteiros consecutivos
a, a + 1, a + 2,..., b, para a ≤ b. A media de X e a variância e dada respectivamente por:

E(X) = (b + a)/2 e V(X) = [(b – a + 1)2 – 1]/12

5.3 DISTRIBUIÇÃO DE BERNOULLI

Dizemos que uma Variável Aleatória X segue o modelo de Bernoulli se atribui 0 ou 1 a


ocorrência de fracasso ou sucesso, respectivamente. Com p representando a probabilidade de
sucesso, 0≤ p ≤1, sua função discreta de probabilidade e dada por:

X 0 1
I 1-p p
x 1–x
ou de modo resumido, P(X = x) = p (1 – p)

58
A repetição de ensaios de Bernoulli independentes da origem a mais importante variável
discreta denominada modelo Binomial.

Exemplo: Um dado de seis faces é lançado uma vez, observamos a ocorrência da face 5 ou
não. Calcule a esperança e a variância.
Solução
Seja X uma variável aleatória que conta a ocorrência ou não da face 5.
Supondo o dado perfeito teremos:

X 0 1 Total
P(x) 5/6 1/6 1

Logo,
E(X) = 1/6
V(X) = 1/6  5/6 = 5/36

5.4 DISTRIBUICAO BINOMIAL

Considere a repetição de n ensaios de Bernoulli independentes e todos com a mesma


probabilidade de sucesso p . A Variável Aleatória que conta o número total de sucessos e
denominada Binomial com parâmetros n e p e sua função de probabilidade e dada por:

 n
P[ X  x]    p x .(1  p) ( n  x ) , x {0,1,... , n}
 x

Ou seja, X  Binomial(n , p).

Esperança:

A esperança da variável aleatória X  Binomial ( n , p ) e dada por:

E[X] = np

Prova:
n n n
 n x (n x) n!
E[ X ]   x . P[ X  x ]    x
x .   . p .(1  p )  0   x. x!.(n  x)! p x .(1  p) ( n  x ) 
x 0 x 0 x 1

n n
n.(n  1)! (n  1)!
 p. p( x 1) .(1  p) ( n  x )  n. p.  p( x  1) .(1  p) ( n  x )
x 1 ( x  1)!.( n  x )! x 1 ( x  1)!.( n  x )!

fazend = x - 1,
n 1
( n  1)!
E ( X )  n.p.  p y .(1  p) ( n 1 y )  n.p.(p - (1- p)) ( -1
 n.p
y 0 y !.( n  1  y )!
 Variância:

A variância da variável aleatória X  Binomial ( n , p ) e dada por:

59
V[ X] = npq, em que q = 1 - p

Prova:
2
V[ X ] = E[ X ] - ( E[ X ] )2.

Mas, E[ X2] = E[ X ( X - 1 ) + X ] = E[ X ( X - 1 ) ] + E[ X ].
2
Então, V[ X ] = E[ X ( X - 1 ) ] + E[ X ] - ( E[ X ] ) = n . ( n - 1 ) . p2 + n . p - n2 . p2 = n . p - n . p2
=n.p.(1-p)

Pois,
n n  n
E[ X( X  1)]   x.( x  1). P[ X  x]   x.( x  1).   . p x .(1  p) ( n  x) 
x 0 x0  x

n n! n n.( n  1).( n  2)!


 0  0   x.( x  1). p x .(1  p) ( n  x)   p 2 . p ( x  2) .(1  p) ( n  x) 
x2 x!.( n  x)! x2 ( x  2 )!.( n  x )!
n ( n  2)!
 n.( n  1). p 2 .  p ( x 2) .(1  p) ( n  x) ( fazendo y = x - 2)
x  2 ( x  2)!.( n  x)!

n2 ( n  2)!
 n.(n - 1). p 2 .  p y .(1  p) ( n  2  y )  n.(n - 1). p 2 .(p - (1 - p)) (n-2)  n.(n - 1). p 2
y  0 y !.( n  2  y)!

Exemplo: Dez peças são extraídas, ao acaso, com reposição, de um lote contendo 500 pecas. Qual
a probabilidade de que todas sejam defeituosas, sabendo-se que 10% das pecas do lote são
defeituosas?

Solução:
Aqui temos n = 10 ensaios de Bernoulli, cada um com P(S) = P (peça defeituosa) = p = 0,1.
Se X indica o número de pecas defeituosas na amostra, queremos calcular a P(X = 10). X~ B(10,
1/10),

5.5 DISTRIBUIÇÃO HIPERGEOMÉTRICA

Consideremos um experimento que consiste na extração aleatória de n elementos ou


indivíduos de um grupo de tamanho N (N > n), dos quais r possuem uma determinada característica
e o restante (N - r) sem possuí-la, de tal modo que a escolha é feita sem a reposição dos elementos
ou indivíduos já selecionados.
Seja X a variável aleatória que registra o número de elementos ou indivíduos que possuem
essa característica em questão, dentro do grupo escolhido aleatoriamente. Temos então, x  {0 , 1 ,
..., k}, com k=n se n  r ou k=r se n  r, com função de probabilidade dada por:
 r   N  r
  . 
 x  n  x 
P[ X  x]  ,  x   0,1,..., k
 N
 
 n

60
Dizemos que a variável aleatória discreta assim definida tem distribuição Hipergeométrica
de parâmetros N, r e n, ou seja: X  Hipergeométrica ( N , r , n ).

 Esperança:

E(X) = n . r
N
Prova:
 r   N  r r!  N  r (r  1)!  N  r
n n
  .  n
.  n
. 
 x  n  x  x !.(r  x )!  n  x  n. r ( x  1)!.(r  x )!  n  x 
E[ X ]   x. P[ X  x ]  0   x.   x.  
x 0 x 1  N x0
N! N x 1 ( N  1)!
  n!.(( N  n)! ( n  1)!.(( N  n)!
 n

fazendo y=x-1, temos

n. r n 1  r  1  N  r   N  1 n. r r
E(X) =   .     n.
N y  0  y   n  1  y  n  1 N N

 Variância:

Prova:

V[ X ] = E[ X2 ] - ( E[ X ] )2

E[ X2 ] = E[ X ( X - 1 ) + X ] = E[ X ( X - 1 ) ] + E[ X ]

 r   N  r r!  N  r
n n
  .  n
. 
 x  n  x  x !.(r  x )!  n  x 
E[ X ( X  1)]   x.( x  1). P[ X  x ]  0  0   x.( x  1).   x.( x  1).
x 0 x 2  N x2
N!
  n!.(( N  n)!
 n

(r  2)!  N  r  r  2  N  r
n
.  n
  . 
n.(n  1). r.(r  1) ( x  2)!.( r  x )!  n  x  n.(n  1). r .(r  1)  x  2  n  x 

N .( N  1)

x2
( N  2)!

N .( N  1)

x2  N  2
(n  2)!.( N  n)!  
 n2
fazendo y = x-2, temos:
 r  2  N  r 
n2
  . 
n.(n  1). r.(r  1)  y   n  1  y n.(n  1). r .(r  1)
E(X(X-1)) =
N .( N  1)
  N  2 
N .( N  1)
y0
 
 n2
Então
n . (n - 1) . r . (r - 1) n . r n 2 .r 2
V[ X ] = E[ X ( X - 1 ) ] + E[ X ] - ( E[ X ] )2 = + 
N . (N - 1) N N2
n. r  (n  1).( r  1) n. r  n. r  N .( n  1).(r  1)  N .( N  1)  ( N  1). n. r 
=   1 
N  ( N  1) N  N  N .( N  1) 

61
n.r  N .n.r  N .n  N .r  N  N 2  N  N .n.r  n.r  n.r   N .n  N .r  N 2  n.r 
    
N  N ( N  1)  N  N ( N  1) 
n.r  N ( N  n)  r ( N  n)  n.r ( N  n).( N  r ) r N r N n
=    . n . .
N  N ( N  1)  N N .( N  1) N N N 1

Exemplo: Uma urna contém 10 bolas brancas, 15 bolas vermelhas e 20 bolas azuis. Oito bolas são
retiradas aleatoriamente e simultaneamente dessa urna.

a) Qual a probabilidade de ser verificado exatamente duas bolas brancas?


b) Quantas bolas azuis esperamos retirar?

Solução:

a) Vamos definir por X a variável aleatória que conta o número de bolas brancas dentre as oito
retiradas. Temos:
X ~ Hipergeométrica (45, 10, 8 ).

10  35   45  10! 35! 45!


P[ X  2]         0.3389
 2  6   8  2!.8! 6!.29! 8!.37!

b) Vamos definir por Y a variável aleatória que conta o número de bolas azuis dentre as oito
retiradas. Temos:
Y ~ Hipergeométrica (45, 20, 8). E [Y] = 8.(20 / 45)  3.56

5.6 DISTRIBUIÇÃO DE POISSON

Consideremos um experimento que registra o número de ocorrências de um determinado


fenômeno durante um tempo fixo t, onde a ocorrência desse fenômeno possui as seguintes
propriedades:

i) A probabilidade de um número qualquer de ocorrências em um intervalo de tempo (s , s + t),


depende somente do comprimento do intervalo (t);
ii) O número de ocorrências em intervalos disjuntos de tempo são independentes;
iii) As ocorrências se dão de maneira isolada, ou seja, não simultâneas.

Seja  a taxa de ocorrências durante uma unidade de tempo (intervalo de tempo de


comprimento unitário), e seja X a variável aleatória que registra o número de ocorrências em um
período de tempo t (intervalo de tempo de comprimento t). Temos que, X  { 0 , 1 , 2 , ... }, com
função de probabilidade dada por:

e  (  . t ) .(  . t ) x
P[ X  x ]  , com  > 0, t > 0, x  { 0 , 1 , 2 , ... },
x!
e  .(  ) x
ou P[ X  x]  , com  = .t
x!
Dizemos que a variável aleatória discreta assim definida tem distribuição de Poisson de
parâmetro , ou seja, X  Poisson (  ).
62
 Esperança:

E (X) = 

Prova:

  e (.t ) .(. t) x  ( .t )  (. t ) ( x1)


E[ X]   x. P[ X  x]  0   x.  (. t ). e . 
x0 x1 x ! x1 ( x  1)!

 (  .t )
 ( . t ) ( y )
 ( . t ). e .  ( . t ). e  ( .t ) . e (  .t )  . t = 
y  0 ( y)!

 Variância:
V(X) = 

V[ X ] = E[ X2 ] - ( E[ X ] )2.

Mas, E[ X2 ] = E[ X ( X - 1 ) + X ] = E[ X ( X - 1 ) ] + E[ X ]

e
  e  ( .t ) .( . t ) x
E[ X( X  1)]   x.( x  1). P[ X  x]  0  0   x.( x  1).
x0 x2 x!

2  (  .t )
 ( . t ) ( x  2 ) 2  (  .t )
 ( . t ) y
 ( . t ) . e .  ( . t ) . e .  (  . t ) 2 . e  (  .t ) . e (  .t )  (  . t ) 2
x  2 ( x  2)! y0 y !

V[ X ] = E[ X ( X - 1 ) ] + E[ X ] - ( E[ X ] )2 = ( .t )2 + ( .t ) - ( .t )2 = .t = 

Observações:

A distribuição de Poisson surgiu como uma consequência de algumas propriedades que


foram apresentadas no início (1.7.3.). Isto significa que sempre que essas hipóteses forem válidas,
ou pelo menos aproximadamente válidas, essa distribuição pode ser empregada como um modelo
adequado. Alguns fenômenos para os quais o modelo de Poisson pode ser utilizado são:
i ) números de chamadas que chegam a uma central telefônica durante um intervalo de
tempo de comprimento t;
ii ) números de elétrons liberados pelo cátodo de uma válvula eletrônica em um certo
período de tempo t;
iii ) número de partículas emitidas por um material radioativo em um certo período de
tempo t;
iv ) no campo da astronomia podemos ter um exemplo que substitui o tempo por volume,
como o número de estrelas encontrados em um certo volume v (tomado aleatoriamente)
dentro da Via Láctea;

63
v ) no campo da Biologia podemos ter outra aplicação, tal como o número de glóbulos
sanguíneos visíveis ao microscópio, dentro de uma certa área a (tomada aleatoriamente)
entre toda uma área visível ao microscópio.
Exemplo 1: Um certo tipo de pneu para automóveis de passeio tem, em média, um defeito a cada
5.000km rodados. Assumindo que as ocorrências seguem a lei de Poisson:
a) Qual a probabilidade de observarmos nenhum defeito em 10.000km ?
b) Qual a probabilidade de observarmos pelo menos um defeito em 10.000km ?

Solução:

a)  = 1/5000 ( defeitos / km ); t = 10.000km e  = 2.


Definindo a v.a X como o número de defeitos em 10.000km temos que X ~ Poisson( 2 ).
Logo,
P[ X = 0 ] = e-2.20 / 0!  0.1353
b) P[ X  1 ] = 1 - P[ X = 0 ]  0.8647

Exemplo 2: Uma central telefônica, que possui uma taxa de 60 ligações por hora, segundo uma
distribuição de Poisson, pode fazer, no máximo, 20 conecções por minuto. Qual é a probabilidade
que, durante um dado minuto, não haja linha para as próximas chamadas?

Solução:

 = 600 con. / h = 600 tel. / 60 min = 10 tel. / min.


Seja X: número de chamadas por minuto, X ~ Poisson( 10 ).
Não haverá linha se X > 20.
20 20 e 10 10 x
P[ X > 20 ] = 1 - P[ X  20 ] = 1   P[ X  x ]  1    0.0016
x0 x 0 x!

64
Exercícios

1) Se X: B(n, P), sabendo-se que E(X) = 12 e 2 = 3, determinar:


a) n
b) p
c) P(X < 12)
d) P(X≥ 14)

2) Em um certo tipo de fabricação de fita magnética, ocorrem cortes a uma taxa de 1 por 2.000
pés. Qual a probabilidades de que um rolo com 2.000 pés de fita magnética tenha:
a) nenhum corte?
b) No máximo dois cortes?
c) Pelo menos dois cortes?

3) Um fabricante de peças de automóveis garante que uma caixa de suas peças conterá, no
maximo, 2 defeituosas. Se a caixa contem 18 pecas, e a experiência tem demonstrado que esse
processo de fabricação produz 5% das pecas defeituosas, qual a probabilidade de que uma caixa
satisfaça a garantia?

4) Por engano 3 pecas defeituosas foram misturadas com boas formando um lote de 12 pecas
no total. Escolhendo-se ao acaso 4 dessas pecas, determinar a probabilidade de encontrar:
a)pelo menos 2 defeituosas.
b)no Maximo uma defeituosa.
c)no mínimo uma bola.

5) Em momentos de pico, a chegada de aviões a um aeroporto se da segundo o modelo de


Poisson com taxa de 1 minuto.
a) determine a probabilidade de 3 chegadas em um minuto qualquer do horário de pico.
b) Se o aeroporto pode atender 2 aviões por minuto, qual a probabilidade de haver aviões
sem atendimento imediato?
c) Previsões para os próximos anos indicam que o tráfego deve dobrar nesse aeroporto,
enquanto que a capacidade de atendimento poderá ser no máximo ampliada em 50%.
Como ficara a probabilidade de espera por atendimento?

6. VARIÁVEIS ALEATÓRIAS CONTÍNUAS

65
6.1 INTRODUÇÃO

Neste capítulo discutiremos a caracterização de variáveis cujos possíveis valores ocorrem


aleatoriamente e pertencem a um intervalo dos números reais: variáveis aleatórias contínuas.
Renda, salário, tempo de duração de um equipamento, comprimento de uma peça, área atingida por
certa praga agrícula são exemplos de quantidades que podem ser modeladas por variáveis aleatórias
continuas. De forma semelhante àquela desenvolvida para variáveis aleatórias discretas, precisamos
estabelecer para as contínuas a atribuição de probabilidade às suas diversas realizações que, neste
caso, podem assumir um número infinito de valores diferentes.

6.1.1 Definição de Variável Aleatória Contínua

Seja S o espaço amostral de um experimento e P uma medida de probabilidade associada a


esse experimento e X uma função definida como segue, X : S   (números reais), de tal modo
que:

i)  x  , P[X = x]= 0
ii) X(S) é um conjunto infinito não enumerável
iii)  f : + : P[a  X  b] corresponde a área definida pela função f entre os pontos a e b, com
a < b.

Dizemos, então, que X é uma variável aleatória contínua.

6.1.2 A Integral

Não nos cabe aqui definir formalmente o conceito de integral de uma função, porém, como
vamos mencionar esse funcional temos a necessidade de apresentá-lo. A integral de uma função f
no intervalo [ a , b ] é definida por ser a área ocupada entre essa função e o eixo das coordenadas x.
Caso a função seja negativa, em um intervalo qualquer, a integral terá valor negativo nesse
b
intervalo. Notação: [ a ,b ] f (x)x  a f ( x)x , corresponde a área entre a função f e o eixo das
coordenadas x nesse intervalo.

f(xi)

a b
6.1.3 Função Densidade de Probabilidade

66
Seja X uma variável aleatória contínua. Chamamos de função densidade de probabilidade
de X, denotada por f, a função definida como segue:
f : + tal que A  , P[ X  A ] =  f ( x )x .
A

Propiedades:

i) f(x)  0, x  .
ii)  f (x)x  1

6.1.4 Função de Distribuição Acumulativa

Definimos por função distribuição acumulativa de uma variável aleatória contínua qualquer
X, denotada por F, uma função que associa a cada valor real x a probabilidade da respectiva
variável aleatória assumir um valor igual ou inferior a este, ou seja: F( x ) = P[ X  x ],  x  .
Temos:

x
F( x )  P[ X  x ]   f ( t )t

6.1.5 Esperança e Variância

Seja X uma variável aleatória contínua com função densidade de probabilidade dada por f.
Definimos por Esperança da variável aleatória X, denotada por E [X] a seguinte sentença:

E[ X]   x. f ( x ) x   x. f ( x ) x

e Variância da variável aleatória X, denotada por V[X], aos valores definidos por:

V[ X ] = E[ ( X - E[ X ] )2 ] = E[ X2 ] - ( E[ X ] )2

Observação:
As propriedades de Esperança e Variância apresentadas para variáveis aleatórias discretas
valem para o caso contínuo.

Exemplo: Para o nosso exemplo definido em propriedades, temos:


 0, se x [ 0,10]
f (x)  
0.02x , se x [0,10]
 10 10
E[ X ]   x. f ( x )x  0 0.02 x 2 x  ( 0.02 / 3). x 3  ( 0.02 / 3).(10 3  0 3 )  20 / 3  6.67
x 0

 10 10
E[ X 2 ]   x 2 . f ( x )x  0 0.02 x 3 x  ( 0.02 / 4 ). x 4  ( 0.005).(10 4  0 4 )  50
x 0
V[ X ] = E[ X2 ] - ( E[ X ] )2 = 50 - ( 20 / 3 )2 = 50 / 9  5.56

Muitas variáveis aleatórias contínuas associadas a experimentos estatísticos possuem


propriedades semelhantes e podem ser descritas por um mesmo modelo probabilístico.

PRINCIPAIS MODELOS CONTÍNUOS


67
Apresentaremos aqui os proncipais modelos teóricos para variáveis aleatórias contínuas.
Vimos que, para caracterizar completamente uma variável aleatória continua, precisamos fornecer
sua função densidades de probabilidade que, segundo sua definição, é uma função positiva e com
integral igual à 1.

6.2 MODELO UNIFORME CONTÍNUO

Uma variável aleatória continua X com uma função densidade de probabilidade

F(x) = 1/(b – a), a≤x≤b

tem uma distribuição uniforme continua.

f(xi)

1/(b – a)

a b x

Gráfico da função de probabilidade para uma variável aleatória continua uniforme

 Esperança e Variância

A media e a variância de uma variável aleatória continua uniforme e para a ≤ x ≤ b são

E(X) = (a + b)/2 e V(X) = (b – a)2 /12

6.3 DISTRIBUIÇÃO NORMAL

A mais importante distribuição continua de probabilidade no campo da estatística é a


distribuição normal. O seu gráfico tem uma função de “sino” e descreve a distribuição de um
grande conjunto de dados que ocorrem na natureza, na indústria, no comércio e em pesquisas de
maneira geral.
Seja um experimento aleatório que consiste em selecionar uma pessoa casuísticamente e
anotar sua estatura. O resultado do experimento, se tomado um número razoável de pessoas,
apresenta dados distribuídos de tal maneira que um número considerável de estaturas são
encontradas concentradas em torno de um valor central, apresentando pequenos grupos de dados
afastados (acima ou abaixo) deste. Este experimento, bem como muitos outros, possuem um
modelo de distribuição de probabilidade normal.
As curvas normais apresentam algumas características bastante especiais em termos de sua
forma, de como se especificam e de como são utilizadas para obtenção de probabilidades. Uma
característica importante é que uma distribuição normal fica completamente especificada por dois
parâmetros:  e 2. Em outras palavras, existe uma única distribuição normal para cada combinação
de uma média e um desvio padrão. Como médias e desvios padrão são medidos em escala contínua,
segue-se que o número de distribuições normais é ilimitado. Vejamos algumas dessas
possibilidades:

68
A forma da distribuição Normal foi primeiramente estuda por De Moivre, em 1793 e mais
tarde por Gauss, em 1809, quando no estudo da teoria dos erros de medidas e, devido a contribuição
deste à distribuição Normal, esta é chamada de distribuição Gaussiana.
Uma variável aleatória contínua X tem distribuição normal de parâmetros , 2 ( X 
Normal( , 2) ) se a função densidade de probabilidade f, associada a essa variável aleatória, é
dada por:

(x   ) 2

f ( x )  1 ( 2 . ). e 2. 2 , x 

Logo, a probabilidade de uma v.a. c. tomar um valor entre dois pontos quaisquer é igual a
área sob à curva entre esses dois pontos: P(a  X  b) = A

f(x)

 x

Uma consequência importante do fato de uma curva normal poder ser completamente
especificada por sua média e por seu desvio padrão é que a área sob a curva de um ponto qualquer e
média é função somente do número de desvios padrões que aquele ponto dista da média. E esta é a
chave que nos permite o cálculo de probabilidades para a curva normal.
Algumas propiedades da densidade da Normal podem ser, facilmente, observadas de seu
gráfico:

i) A função densidade de uma curva Normal tem forma de sino.


ii) A função densidade de uma curva Normal é simétrica em torno do valor esperado, onde atinge
seu maior Valor, e sua “espessura” são proporcionais a variância.
iii) A área da função densidade de uma curva Normal entre dois pontos gera a probabilidade de
uma variável aleatória, assim distribuída, assumir um valor entre esses pontos, sendo zero no caso
dos pontos serem iguais.
iv) O modelo Normal fica completamente especificado por dois parâmetros: sua esperança e sua
variância.

Devemos observar que, quando se diz que a variável aleatória é distribuida normalmente, a
afirmação deve ser interpretada como uma implicação de que a de que a distribuiçaõ de seus
resultados possíveis podem ser bem aproxinadas pela distribuição normal de probsbilidades. Logo,
a curva normal é um “modêlo”.

 Esperança e Variância

O valor esperado, bem como a variância de uma distribuição Normal de parâmetros  , 2


não são facilmente encontrados, por isso deixamos essa busca oculta. Temos:

E[ X ] =  e V[ X ] = 2

69
6.4 DISTRIBUIÇÃO NORMAL PADRÃO

A integral da Distribuição Normal mencionada acima só pode ser resolvida de modo


aproximado e por métodos numéricos. Por essa razão as probabilidades para o modelo Normal são
calculadas com o auxílio de tabelas. Para evitar a multiplicação desnecessária para cada par de
valores de (, 2) utiliza-se uma tranformacao que sempre conduz ao cálculo de probabilidades
com uma variável de parâmetros (0 ,1), isto é, ,média 0 e variância 1.
A distribuição normal constitui, na realidade, uma “família” infinitamente grande de
distribuições - uma para cada combinaçãode média de desvio padrão. Logo, precisamos padronizar
a curva. E o fato de considerarmos a área total sob a curva como 100% é que a padroniza. Os
intervalos   ,   2 e   3 são importantes na caracterização da distribuição normal, pois
tais faixas compreendem, respectivamente:
68,3% , 95,5% e 99,7% da distribuição. E isto é válido para todas as distribuições normais.

  3   2        2   3
68,3%
95,5%
99,7%

Seja Z uma variável aleatória contínua que assume qualquer valor real segundo uma função
densidade de probabilidade dada por:

f x   1 e0,5x ,x


2

 2π 
Dizemos que Z tem distribuição normal padrão, ou seja: Z  N( 0 , 1 )
Considere XNormal(, 2), e defina uma nova variável Z = ( X -  ) /  . Ou seja, para
conservar-se a diferença entre a média e algum valor da distribuição para uma diferença relativa,
exprimindo-se em termos de desvio padrão a contar da média. Note-se que Z tem sinal negativo (-)
para valores de X inferiores à média e sinal positivo(+), para valores superiores à média.
Pode-se ainda verifcar que essa normalização não afeta a normalidade.Para determinar a
probabilidade de X  [a, b], procederemos da seguinte forma:

P(a  X  b) = P(a -   X -   b - )
= P(a -  /   X -  /  b -  / )
= P (a -  /   Z  b -  / )

e, portanto, quaisquer que sejam os valores de  e , utilizaremos a Bnormal Padrão para obter
probabilidades com a distribuição Normal.

70
Exemplos:

Seja Z ~N (0,1). Calcule:


a) P[ 0<Z<2,55];

Solução: Vamos mostrar, graficamente, a probabilidade ( ou área) pedida

0 2,55
Observamos que este é o sentido da tabela, logo, consultando diretamente a tabela,
verificamos que a probabilidade pedida é 0,4946 isto é, P[0<Z<2,55]= 49,46%.

b) P[Z> 1,09]

Solução: Observando graficamente a area pedida temos:

0 1,09

Como podemos observar, a área pedida não está no sentido da tabela, mas podemos encontrá-la
utilizando a área complementar, pois P[ Z> 0]=0,5 (0,5000). Logo, P[Z>1,09 ]= 0,5 - P[ 0<Z 
1,09]=0,5 - 0,3621=0,1379  13,79%.

c) P[ 0,77<Z<2,33]

Solução: Observando graficamente a area pedida temos:

0 0,77 2,33

Temos, então, que a probabilidade pedida pode ser obtida subtraindo-se da área maior (
P[0<Z<2,33]) a área menor ( P[0<Z<0,77]). Logo:

P[ 0,77<Z<2,33]= P[0<Z<2,33] - P[0<Z<0,77]= 0,4901-0,2794=0,2107  21,07%.

d) P[ -1,96<Z<0 ]

Solução: Observando graficamente a area pedida temos:

71
Por simetria, temos que esta área é igual à: P[0<Z<+1,96]=0,475.

e) P[ Z< -1]

Solução: Observando graficamente a area pedida temos:

Por simetria, temos que esta área é igual à: P[Z > +1] = 0,5 - 0,3413 = 0,1587

Podemos também ter interesse em encontrar o valor de z, tal que P[0 <Z< z]  0,008.
Procurando-se invertidamente encontrarmos na tabela o valor 0,02 , que é tal que P[0<Z<0,02] 
0,008, ou seja o valor de z que corresponde à mencionada probabilidade é z  0,02.

Seja X  Normal ( 10,16 ), ou seja, E[X]=10 , V[X]=16 e  =4. Calcule:

a) P[ 10 < X < 14,48 ]


= P[(10-10)/4 < (X-10)/4 < (14,48-10)/4] = P[ 0 < Z < 1,12]  0,3686

b) P[X > 12,56]


= P[P[Z > 0,64] = 0,5 - P[0 < Z  0,64]  0,5 - 0,2389 = 0,2611
c) P[X < 9]
= P[(9 - 10)/4] = P[Z < -0,25] = P[Z > 0,25] = 0,5 - P[0 < Z < 0,25]  0,4013
d) P[7 < X < 15]
= P[(7 - 10)/4 < Z < (15 - 10)/4] = P[-0,75 < X < 1,25 ] = P[-0,75 < Z < 0] + P[0  Z< 1,25]
= P[0 < Z < 0,75] + P[0  Z < 1,25]  0,2734 + 0,3944 = 0,6678

e) Podemos também ter interesse em encontrar o valor de z, tal que P[0 < Z< z]  0,008.
Procurando-se invertidamente encontrarmos na tabela o valor 0,02, que é tal que P[ 0 < Z <
0,02]  0,008, ou seja, o valor de z que corresponde à mencionada probabilidade é z  0,02.
f) Podemos também ter interresse em encontrar o valor de x tal que P[10 < X < x]  0,08,
temos:
P[0 < Z < (x-10)/4]  0,008  P[0 < Z < 0,02], então: (x-10)/4  0,02  x  10,08

6.5 DISTRIBUIÇÃO EXPONENCIAL

A variável aleatória , que e a distancia entre contagens sucessivas de um processo de


Poisson, com media β > 0, tem uma distribuição exponencial com parâmetro β. A função densidade
de probabilidade de X é:
f(X) = 1/ β е –x/β , para 0 ≤ x ≤ ∞

72
f(xi)

1/ β

Gráfico da função de probabilidade para uma variável aleatória exponencial.

A distribuição Exponencial tem esse nome por causa da função exponencial na função
densidade de probabilidade. Para qualquer valor de β , a distribuição exponencial e bem distorcida.

 Esperança e Variância

Se a variável aleatória X tiver uma distribuição exponencial, com parâmetro β, então

E(X) = β e V(X) = β 2

6.6 DISTRIBUIÇÃO GAMA

Uma extensão da distribuição exponencial e dada pela distribuição gama com parâmetros α,
β, α > 0 e β > 0. Sua função densidade de probabilidade e dada por:

f(X) = 1/[┌(α) β α ] xα – 1 e – x/ β para x > 0

aqui ┌(α) é a função dada por:


┌(α) = ∫ 0 e – x x α – 1 dx , α > 0

Propriedades:

i)┌( α + 1) = α┌(α)
ii) α = n , e natural
┌( α + 1) = n!

 Esperança e Variância

Se X for uma variável aleatória gama, com parâmetros α, β, α > 0 e β > 0, então a media e a
variância de X serão

E(X) = αβ e V(X) = αβ2

73
6.7 DISTRIBUIÇÃO BETA

Chamaremos densidade de probabilidade beta de parâmetro α, β, α > 0 e β > 0 a função


definida por:
α–1
f(X) = 1/ [B(α,β)] x (1 – x) β - 1 para 0 ≤ x ≤ 1
1
em que:

B(α,β) = ∫
0 xα – 1 (1 – x) β - 1 dx, onde, α > 0 e β > 0

Propriedades:

i)B(α,β) = B(β,α)
ii) B(α,β) = ┌(α)┌(β) / ┌(α + β )

 Esperança e Variância

Se X for uma variável aleatória gama, com parâmetros α, β, α > 0 e β > 0, então a media e a
variância de X serão

E(X) = α /( α + β) e V(X) = αβ/( α + β + 1)(α + β)2

6.8 DISTRIBUIÇÃO DE WEIBULL

Uma distribuição que tem muitas aplicações em teoria da confiabilidade e a distribuição de


Weibull.E frequentemente usada para modelar o tempo ate uma falha de muitos sistemas físicos
diferentes. Os parâmetros na distribuição fornecem uma grande flexibilidade para modelar sistemas
em que o número de falhas aumenta com o tempo, diminui com o tempo ou permanece constante.
A variável aleatória X com função densidade de probabilidade
f(X) = β/ δ (x/ δ) β – 1 e – ( x/ δ) ,para x > 0

onde β e uma constante positiva.

Propriedades:

i)Quando β = 1, a distribuição de Weibull e idêntica a distribuição exponencial.

 Esperança e Variância

Se X for uma variável aleatória Weibull, com parâmetros β, β > 0, então a media e a
variância de X serão

E(X) = δ┌(1 + 1/β) e V(X) = δ2┌(1 + 2/β) - δ2 [┌(1 + 1/β)]2

74
Exercício

1) Seja X a v.a. representando o peso dos alunos de uma sala de aula, tal que XN(60Kg ,
100Kg2).

a. Qual a probabilidade de que o peso do aluno esteja compreendido entre 50 e 85 Kg ?


b. Qual a probabilidade de que o peso do aluno seja, pelo menos igual, a 70 Kg ?
c. 97,5% dos alunos pesam, no máximo, quanto ?
d. Sabe-se que 15% dos alunos apresentam peso inferior a X1. Determine-o.

2) Na última avaliação de estatítica a média foi 74, com desvio padrão 8. Calcule:

a. O percentual de alunos que obetiveram nota acima de 80.


b. O maior grau dos 10% piores alunos.
c. O menor grau dos 15% melhores alunos.

3) Uma peça é aceita no controle de qualidade com dimensões entre 299 e 301 mm. Verificou-se
que 10% das peças são rejeitadas como grandes e 20% são rejeitadas como pequenas. Calcular a
porcentagem de rejeição, no caso da especificação ser ampliada para 298,5 e 301,5 mm.

4) Suponhamos que na embalagem de um produto conste um determinado peso teorico  ,


correspondente ao peso do conteudo, e que este peso varia, distribuindo-se segundo uma variável
aleatória N( ,2). Sabendo-se que 80% do conteúdo pesa entre  10, e 40% mais que 600g ,
determine a média e a variância.

5) Suponha que X tenha uma distribuição exponencial com λ = 2. Determine o seguinte


a. P(X < 0)
b. P(X >2)
c. P(X <1)
d. P(1 < X < 2)

6) O tempo entre a chegada de mensagens eletrônicas em seu computador e distribuído


exponencialmente, com uma media de duas horas.
a) Qual a probabilidade de você não receber uma mensagem durante o período de duas horas?
b) Qual o tempo esperado entre sua quinta e sexta mensagem?

7) Mostre que ┌( α + 1) = α┌(α)

8) Use as propriedades da função gama para avaliar o seguinte:


a. ┌(6)
b. ┌(5/2)
c. ┌(1/2)
9) Chamadas para sistema telefônico seguem uma distribuição de Poisson com uma media de cinco
chamadas por minuto.

75
a. Qual e o nome aplicado a distribuição e quais são os valores dos parâmetros do tempo ate a
décima chamada?
b. Qual e o tempo médio ate a décima chamada?
c. Qual e o tempo médio entrem a nona e a décima chamada?

10) Suponha que X tenha uma distribuição de Weibull com β = 0.2 e δ = 100 horas. Determine a
media e a variância de X

11) A vida de uma bomba recirculante segue uma de Weibull com parâmetro β = 1 e δ = 700 horas.
a. Determine a vida media de uma bomba.
b. Determine a variância da vida da bomba.
c. Qual a probabilidade de uma bomba durar mais do que sua vida media?

76
7. AMOSTRAGEM E ESTIMAÇÃO

7.1 INTRODUÇÃO

A estatística divide-se em dois ramos:

I - Estatística Descritiva ou Dedutiva: trata da apuração, apresentação, análise e interpretação dos


dados observados (descreve as amostras ou a população);

II - Estatística Indutiva ou Inferência Estatística: método que parte do particular para o geral, ou
seja, o processo pelo qual são feitas generalizações para a população, à partir da amostra.

parâmetros µ x
desconhecidos σ2 ( estimadores)
2
s
(reais) p
f

Já vimos como resumir descritivamente um conjunto de dados e como construir modelos


probabilísticos para descrever alguns fenômenos. Nesta parte, iremos ver como reunir os dois
tópicos para estudar esse ramo muito importante da Estatística conhecido como Inferência
Estatística.
O uso de informações da amostra para concluir sobre o todo faz parte da atividade diária de
maioria das pessoas. Basta observar como um cozinheiro verifica se o prato que ele está preparando
tem ou não a quantidade adequada de sal. Uma pessoa, após experimentar um novo produto em um
supermercado, decide se o compra ou não. Ou ainda, quando passamos os olhos sobre um novo
livro ou revista, ou vemos um programa de TV por uns poucos minutos para decidir se mudamos ou
não de canal. Essas são decisões baseadas em procedimentos amostrais.
Nosso objetivo agora é procurar a conceituação formal desses princípios intuitivos do dia-a-
dia para que possam ser utilizados em situações mais complexas.

7.2 POPULAÇÃO E AMOSTRA

Já temos conhecimento de alguns modelos probabilísticos que procuram medir a


variabilidade de fenômenos casuais com suas ocorrências: as distribuições de probabilidades de
variáveis aleatórias (qualitativas ou quantitativas). Na prática, raramente o pesquisador sabe qual
distribuição representa a sua variável em estudo.
Por exemplo, parece razoável supor que a distribuição das alturas dos brasileiros adultos
possa ser representada por um modelo normal. Mas esta afirmação não é suficiente para determinar
qual a distribuição normal correspondente; precisaríamos conhecer os parâmetros (média e
variância) desta normal para que ela ficasse muito bem caracterizada. O propósito do pesquizador
seria, então, descobrir os parâmetros da distribuição para posterior utilização.
Se pudéssemos medir as alturas de todos os brasileiros adultos, teríamos meios de obter a
sua distribuição exata, e, daí, produzir os correspondentes parâmetros.

77
Contudo, raramente se consegue obter a distribuição exata de alguma variável, ou porque
isto é muito dispendioso, ou muito demorado ou, às vezes, porque consiste num processo
destrutivo. Por exemplo, se estivéssemos observando a durabilidade de lâmpadas e testássemos
todas até queimarem, não restaria nenhuma para ser vendida. Assim, a solução é selecionar parte
dos elementos (amostra), analisá-la e inferir propriedades para o todo (população). Este é, pois, o
objetivo da Inferência Estatística. Assim, dois conceitos, já vistos, são necessários para o
desenvolvimento da Inferência Estatística: população e amostra.

* População: é o conjunto de todos os indivíduos ( ou objetos ) do estudo, tendo pelo menos uma
variável comum observável.
* Amostra: é qualquer subconjunto da população.

Os elementos que compõem uma população podem ser: indivíduos, produtos


manufaturados, notas de alunos, preços de produtos, salários, animais, plantas ou qualquer coisa
que possa ser mensurada, contada ou ordenada segundo postos.
As populações limitadas em tamanho dizem-se finitas enquanto que as não limitadas em
tamanho chamam-se infinitas. Os alunos de uma sala de aula, os livros de uma biblioteca, as peças
produzidas por uma máquina em um certo dia, tudo isto são exemplos de populações finitas. As
populações infinitas consistem tipicamente em um processo que gera itens como as jogadas
sucessivas de uma moeda, a produção futura de uma máquina ou os nascimentos de uma espécie
animal.

Vejamos outros exemplos para caracterizar melhor essas definições:

Exemplo 1: Consideremos uma pesquisa para estudar os salários de 500 funcionários de uma
grande empresa. Seleciona-se uma amostra de 36 indivíduos, e anota-se os seus salários. A variável
observada é, então, o salário. A população é formada pelos 500 funcionários da empresa. A amostra
é constituída pelos 36 indivíduos selecionados. Na realidade, estamos interessados nos salários;
portanto, para sermos mais precisos, devemos considerar como população os 500 salários
correspondentes aos 500 funcionários. Consequentemente, a amostra será formada pelos 36 salários
dos indivíduos selecionados. Podemos estudar a distribuição dos salários na amostra, e esperamos
que a mesma reflita a distribuição de todos os salários, desde, é claro, que amostra seja colhida
com cuidado.

Exemplo 2: Queremos estudar a proporção de indivíduos na cidade A que são favoráveis a um


certo projeto governamental. Uma amostra de 200 pessoas é sorteada, e a opinião de cada uma é
registrada. Então, a variável de intersse é a resposta: “a favor” ou “contra” o projeto. A população
consiste em todos os moradores da cidade, e a amostra é formada pelas 200 pessoas selecionadas.
Podemos, então, associar a cada morador da cidade o valor 1(um), se sua resposta for favorável ao
projeto, e 0(zero), se for contra. Assim, nossa população será reduzida à distribuição da variável,
assumindo o valor 0 ou 1. E a amostra será uma sequência de 200 números zeros ou uns.

Exemplo 3: Em alguns casos, fazemos suposições mais precisas sobre a população (variável).
Digamos que X represente o peso real de pacotes de café, enchidos automáticamente por uma
máquina, em uma certa indústria. Sabe-se que X tem distribuição normal. Sorteamos 100 pacotes e
tomamos seus pesos. A variável de interesse é X, peso de cada pacote. A população será o
conjunto de todos os pacotes enchidos ou que virão a ser enchidos pela máquina, e que obedece a
um modelo normal. E, finalmente, a amostra será formada pelas 100 medidas obtidas dos pacotes
selecionados.

78
7.3 PROBLEMAS DE INFERÊNCIA

Como já dissemos, o objetivo da Inferência Estatística é produzir afirmações sobre uma


dada característica da população, na qual estamos interessados, a partir de informações colhidas de
uma parte dessa população (amostra). Esta característica pode ser representada por uma variável
aleatória. Se tivéssemos a informação completa sobre a função de probabilidade, no caso discreto,
ou sobre a função densidade de probabilidade, no caso contínuo, da variável em questão, não
teríamos necessidade de colher uma amostra. Toda afirmação desejada seria obtida através da
distribuição da variável, usando-se as propriedades estudadas anteriormente. Mas isso raramente
acontece. Ou não temos qualquer informação a respeito da variável, ou ela é apenas parcial.
Podemos admitir, como no exemplo das alturas dos brasileiros adultos, que ela siga uma
distribuição normal, mas desconhecemos os parâmetros que a caracterizam (média e variância). Em
outros casos, podemos ter uma idéia da média e da variância, mas, desconhecemos a forma da
curva. Ou ainda, o que é muito frequente, não possuímos informações nem sobre os parâmetros,
nem sobre a forma da curva. Então, o uso de uma amostra nos ajudaria a formar uma opinião sobre
o comportamento da variável (população).
Às vezes, o modelo teórico associado ao problema não é tão evidente , como no exemplo da
máquina de encher pacotes de café automaticamente. Digamos que ela esteja regulada para enchê-
los segundo uma normal com média de 500 gramas e desvio padrão de 10 gramas, isto é, X ~ N
(500, 100). Sabemos também que, às vezes, a máquina se desregula e, quando isso acontece, o
único parâmetro que se altera é a média, permanecendo a variância a mesma (100 gramas ). Para
manter a produção sob controle, iremos colher uma amostra de 100 pacotes e pesá-los. Como essa
amostra nos ajudará a tomar uma decisão? Parece razoável, neste caso, usarmos a média x da
amostra como a informação pertinente para uma decisão. Mesmo que a máquina esteja desregulada,
dificilmente x será igual a 500g, uma vez que os pacotes têm uma certa variabilidade no peso.
Mas se x não se afastar muito de 500g, não existe razões para suspeitarmos da qualidade da sua
produção. Só iremos pedir uma regulagem se x - 500, em valor absoluto, for “muito grande”. O
problema que se apresenta agora é o de decidir o que é próximo ou longe de 500g. Se o mesmo
procedimento de colher a amostra de 100 pacotes fosse repetido um número muito grande de vezes,
sob a condição da máquina está regulada, teríamos idéia do comportamento de x , e saberíamos
dizer se aquele valor observado é ou não evento raro de ocorrer. Caso o seja, é mais fácil suspeitar
da regulagem da máquina do que do acaso. Vemos, então, a importância nesse caso, de se
conhecer as propriedades da distribuição de x (média amostral).
Repetir um mesmo experimento muitas vezes, sob as mesmas condições, nem sempre é
possível, mas, em determinadas condições, é possível determinar teoricamente o comportamento de
algumas medidas feitas na amostra, por exemplo, a média. Mas isso depende em grande parte do
plano adotado para selecionar a amostra. Assim, em problemas envolvendo amostras, antes de
tomarmos uma decisão, teríamos que responder a três perguntas :

(1) Como escolher a amostra?


(2) Que informação estatística será retirada da amostra?
(3) Como se comporta a estatística quando o mesmo procedimento de escolher a
amostra é usado numa população conhecida?

Nas aulas subsequentes, tentaremos responder a essas perguntas e mostraremos como usar
os resultados.

7.4 COMO SELECIONAR UMA AMOSTRA

79
As observações colhidas numa amostra são tanto mais informativas sobre a população
quanto mais conhecemos esta mesma população. Por exemplo, a análise da quantidade de glóbulos
brancos obtida de algumas gotas de sangue da ponta do dedo de um paciente dará uma idéia geral
da quantidade de glóbulos brancos no corpo todo, pois sabe-se que a distribuição de glóbulos
brancos é mais ou menos homogênea, e de qualquer lugar que se tivesse retirado a amostra ela seria
“representativa”. Mas, nem sempre a escolha de uma amostra representativa é imediata. Por
exemplo, voltando ao exemplo 3, onde queríamos obter uma amostra de habitantes para saber sobre
um projeto governamental, se escolhermos inicialmente uma amostra de 200 indivíduos moradores
de uma certa região que será beneficiado pelo projeto, saberemos de antemão que o resultado
conterá um “viés de seleção”. Isto é, na amostra, a proporção de pessoas favoráveis ao projeto deve
ser maior do que no todo.
A maneira de se obter a amostra é tão importante, e existem tantos modos de fazê-lo, que
estes procedimentos contituem uma especialidade dentro da Estatística, conhecida como
Amostragem. Um censo envolve um exame de todos os elementos de um dado grupo, ao passo que
a amostragem envolve o estudo de apenas uma parte dos elementos. A finalidade da amostragem
é fazer generalizações sobre a população, sem precisar examinar cada um de seus elementos,
apenas examinando uma amostra. Amostragem é, pois, o processo através do qual, pelo estudo da
amostra, são estudadas as características da população.

Funções Distribuição das funções


População  Amostra  Amostrais  amostrais

n observações x , S2 , f , etc..

Os problemas de amostragem podem ser mais ou menos complexos e sutis, dependendo das
populações e das variáveis que se desejam estudar. Se, por um lado, os problemas de amostragem
para um controle de qualidade de produtos industriais são de fácil resolução, por outro lado, em
pesquisas econômicas, sociais ou de opinião, a complexidade desses problemas é normalmente
grande. De uma forma geral, o problema de amostragem exige muito bom censo e experiência e é
sempre conveniente que o trabalho do estatístico seja complementado pelo de um especialista do
assunto em estudo.

7.5 AMOSTRAGEM DE UMA POPULAÇÃO FINITA

A questão da reposição do item examinado na população antes de se proceder à observação


seguinte, surge em relação às populações finitas, porque a probabilidade de incluir numa amostra
itens de uma população, depende de estarmos fazendo amostragem com ou sem reposição.
Embora possa não parecer óbvio, a extração de toda uma amostra de uma só vez, equivale à
amostragem sem reposição. Na amostragem com reposição, é possível extrair o mesmo item mais
de uma vez, o que não é possível quando se extrai toda a amostra de uma só vez.
Há várias razões que justificam, na prática, a amostragem sem reposição:

1. Se o tamanho da amostra é pequeno em relação ao da população (até 5% do tamanho da


população), a não-reposição do item examinado terá efeito desprezível nas probabilidades dos
itens restantes.

80
2. Se o teste tem caráter destrutivo, é impossível repor os itens examinados.

3. Na amostragem industrial, por exemplo, pode ser difícil convencer os inspetores não treinados
em estatística, a reporem na população os itens examinados, especialmente os defeituosos.

4. Quando se repõe um item examinado na população, há chance de ele ser novamente escolhido
em uma extração futura. Assim, alguns itens são examinados mais de uma vez. Se o processo de
amostragem é dispendioso, é conveniente não examinar repetidamente um ou mais itens.

7.5.1 AMOSTRAGEM x CENSO

À primeira vista, pode parecer que a inspeção completa ou total de todos os itens de uma
população seja mais conveniente do que a inspeção de apenas uma amostra deles. Na prática, o
contrário é que é quase sempre válido; a amostragem é preferível ao censo. Exploremos esta última
afirmação, em termos de situações onde a amostragem é mais vantajosa.

1. A população pode ser infinita, e então o censo se tornaria impossível.

2. Uma amostra pode ser mais atualizada do que um censo. Se necessitamos de uma informação
mais rapidamente, um estudo de toda a população pode consumir demasiado tempo e perder
utilidade. Exemplos: casos de epidemia, materiais perecíveis.

3. Testes destrutivos: Alguns testes podem apresentar caráter destrutivo, ou seja, os itens
examinados são destruídos no próprio ato do experimento. Exemplos: lâmpada, palitos de
fósforos, munição.

4. Fator "custo": O custo de um censo pode ser proibitivo, somente se o custo individual é elevado
e se existem muitos itens na população.

5. A "precisão" pode sofrer no caso de um censo de uma grande população. A amostragem


envolve menor número de observações e, consequentemente, menor número de coletores de
dados.

6. Finalmente, o "tipo de informação" pode depender da utilização de uma amostra ou de um


censo. Frequentemente, as despesas com coleta de dados sofrem rstrições orçamentárias. Existe
também a premência do tempo. Se nos decidimos por um censo, os problemas de custo e de
tempo podem conduzir a uma limitação do censo a apenas uma ou poucas características por
item. Uma amostra, com o mesmo custo e o mesmo tempo, poderia proporcionar resultados
mais aprofundados sobre um maior número de itens.

Não obstante, há certas situações em que é mais vantajoso examinar todos os itens de uma
população, ou seja, fazer um censo. Entre essas situações, temos:

1. A população pode ser tão pequena que o custo e o tempo de um censo sejam pouco maiores que
para uma amostra. Exemplo: uma sala de aula com 20 alunos.

2. Se o tamanho da amostra é grande em relação ao da população, o esforço adicional requerido


por um censo pode ser pequeno. Por exemplo: se há grande variabilidade entre os itens de uma
população, uma amostra deverá ser bastante grande para ser representativa. Se a população não
é muito maior do que a amostra, o censo eliminará a variabilidade amostral.

81
3. Se se exige "precisão" completa, então o censo é o único método aceitável. Em face da
variabilidade amostral, nunca podemos ter certeza de quais sejam os verdadeiros valores
(parâmetros) da população. Um censo nos dará essa informação, embora erros na coleta dos
dados e outros tipos de tendenciosidade possam afetar a precisão do resultado. Exemplo: um
banco não faria amostragem de seus guichês para saber quanto dinheiro há em todos eles;
procederia a uma contagem geral (censo). É claro que isso não evita erros aritméticos na soma
das quantias, mas evita problemas de decisão sobre se determinado guichê é representativo de
todos.

7.5.2 TIPOS DE AMOSTRAGEM

Fundamentalmente, existem dois tipos de amostragem: a probabilística e a não-


probabilística. O primeiro grupo reúne todas aquelas técnicas que usam mecanismos aleatórios de
seleção dos elementos da amostra, atribuindo a cada um deles uma probabilidade, conhecida a
priori, de pertencer à amostra. No segundo grupo estão os demais procedimentos, tais como:
amostras intencionais, onde os elementos são selecionados com o auxílio de especialistas, e
amostras de voluntários, como ocorre com alguns testes sobre novos remédios.
Ambos os procedimentos têm suas vantagens e desvantagens. A grande vantagem da
amostragem probabilística é medir a precisão da amostra obtida, baseando-se no resultado contido
na própria amostra, o que já não seria possível no segundo grupo. Então, só a amostragem
probabilística permite calcular o erro amostral. A probabilidade e a amostragem estão
estreitamente relacionadas e, juntas, formam o fundamento da teoria da Inferência Estatística.
Então, cuidados especiais devem ser tomados na seleção da amostra, no intuito de se ter
uma boa representatividade da população a ser analisada, pois caso contrário o processo de
inferência ficará todo comprometido. Obter uma boa representatividade significa que, a menos de
certas pequenas discrepâncias (próprias à aleatoriedade sempre presente), a amostra deve possuir as
mesmas características básicas da população (no que diz respeito à(s) variável(eis) que se
deseja(m) pesquisar).
As técnicas de Inferência Estatística usam a hipótese da amostragem ser probabilística, a
qual implica na existência de um sorteio (segundo regras bem determinadas); esse sorteio, no
entanto, nem sempre pode ser realizado como, por exemplo, no caso da população não ser finita ou
não ser totalmente acessível. Assim sendo, em muitos casos, utilizam-se a amostragem não-
aleatória e nesses casos, o bom senso poderá indicar a possibilidade de se utilizar ou não as técnicas
de Inferência para esse tipo de amostragem. Portanto, sempre que possível, para obter uma amostra
que seja representativa da população, deve-se optar pela amostragem probabilística.

7.5.3 AMOSTRAGEM PROBABILÍSTICA

É possível usar combinações de várias técnicas de amostragem probabilística, muito embora


seja mais comum utilizar as técnicas isentas de misturas e, entre estas, as principais são as citadas a
seguir:

1. Amostragem aleatória simples ou casual: Dentre os vários métodos para extrair amostras,
talvez o mais importante seja o da amostragem aleatória simples, pois a maior parte dos
testes estatísticos se baseia nela. Consiste em enumerar os N elementos de uma população e

82
escolher os n elementos dessa sequência, que irão compor a amostra, através de um
dispositivo aleatório qualquer, como a TABELA DE NÚMEROS ALEATÓRIOS.

De um modo geral, a amostragem aleatória exige que cada "elemento" da população tenha a
mesma oportunidade de ser incluído na amostra. Isto pode ser interpretado como segue:

i) Para "populações discretas", uma amostragem aleatória é aquela em que cada elemento da
população tem probabilidade n / N de pertencer à amostra (esse quociente é denominado
fração de amostragem) e podem ser extraídas Nn amostras com reposição. Se, no entanto, a
amostragem for feita sem reposição (que é o caso mais comum), existem C nN possíveis
amostras, todas igualmente prováveis.

ii) Para "populações contínuas", uma amostra aleatória é aquela em que a probabilidade de
incluir na amostra qualquer intervalo de valores é igual à porcentagem da população que
está naquele intervalo.

 TABELA DE NÚMEROS ALEATÓRIOS

A tabela de números aleatórios é constituída por inúmeros dígitos, gerados por um processo
equivalente a um sorteio equiprovável. Esses números na tabela podem ser lidos isoladamente ou
em grupos, em qualquer ordem, em colunas, ou linhas, de cima para baixo ou vice-versa. A opção,
porém, deve ser feita antes de iniciado o processo.

Exemplo: Seja uma população constituída de N = 700 elementos e dela se quer extrair uma amostra
casual simples n = 20 elementos. Os elementos da população deverão, então, ser numerados de 001
a 700 e deve-se tomar os números dessa tabela sempre com três algarismos. Sorteia-se então um
dígito qualquer da tabela e, a partir dele, pegam-se 20 grupos de 3 algarismos, de forma
subsequente, os quais indicarão os elementos da amostra. Por exemplo, se a partir do dígito
sorteado no início, os números observados forem:

118 853 060 981 833 398 299 060 654 ......

os elementos sorteados para a amostra serão os de ordem 118, 060, 398, 299, 060, 654, etc..., para a
amostragem feita com reposição, e os de ordem 118, 060, 398, 299, 654, etc., para a amostragem
feita sem reposição.
Este tipo de amostragem pode ser criticado, no sentido de ser muito trabalhoso, quer quanto
a enumeração, quer quanto à pesquisa dos elementos escolhidos, muito embora seja o processo
mais elementar e preciso. Felizmente, os recursos da informática já nos dão o suporte necessário
para esse tipo de amostragem.

2. Amostragem Sistemática: A amostragem sistemática é, de fato, muito semelhante à casual


simples. Representa uma abreviação do processo anterior. É normalmente usada quando os
elementos da população já se apresentam ordenados, não havendo necessidade de construir o
sistema de referência. São exemplos: nomes de uma lista telefônica, usuários de uma biblioteca,
casas de uma rua, etc..
A retirada dos elementos da amostra é feita periodicamente.
Se os itens da lista não se apresentam numa ordem determinada, a amostragem sistemática
pode dar uma amostra realmente aleatória, escolhendo-se cada k-ésimo item da lista, onde k se
obtém dividindo-se o tamanho da população pelo tamanho da amostra, isto é, k = N / n. Assim, se
N = 200 e n = 10, então k = (200 / 10) = 20. Significa que será escolhido um item em cada
sequência de 20. Escolhemos, então, por um processo qualquer de sorteio, um número de 01 a 20, o
83
qual indicaria o primeiro elemento sorteado para a amostra; os demais elementos seriam
periodicamente considerados de 20 em 20.

Exemplo: Num processo contínuo de produção, poder-se-ia, a cada k = 20 peças


(k : no sistemático) produzidas, retirar uma peça para pertencer a uma amostra da população diária.
Assim, se o primeiro número sorteado fosse 5, por exemplo, escolheríamos a 5a peça produzida, a
25a, a 45a, a 65a, etc..

Este processo é mais vantajoso que o anterior, no aspecto de que há uma facilidade relativamente
maior na determinação dos elementos da amostra. No entanto, se a variável que se quer analisar
tiver variações cíclicas e o período dos ciclos coincidir com o período de retirada dos elementos da
amostra, este processo introduz um vício de amostragem, sendo pois restritivo seu uso.

3. Amostragem Proporcional Estratificada: É usada quando a população é constituída de sub-


populações (ou estratos), nas quais o comportamento da variável em estudo é razoavelmente
homogêneo dentro de cada estrato.

Neste caso, se o sorteio fosse feito ao acaso, poderia ocorrer de vários estratos não serem
representados na amostra e essa tendência seria tanto maior quanto menor fosse o tamanho da
amostra.

O processo consiste, então, em especificar quantos elementos serão retirados de cada estrato, para
formar a amostra.

Exemplo: Consideremos uma população com 60 empresas, das quais 32 são públicas e 28 privadas.
Vamos obter uma amostra proporcional estratificada, correspondendo a 10% da população. Temos,
então, 2 estratos (pública e privadas) :

TIPO POPULAÇÃO AMOSTRAS (10%)


Pública 32 3,2  3
Privada 28 2,8  3
TOTAL 60 6

Podemos enumerar a população de 01 à 60 de tal forma que : 01,......, 32 seriam públicas e de 33,
...., 60 seriam privadas. As amostras sorteadas poderiam ser : 28, 22, 18, 57, 56 e 45, onde os três
primeiros números referem-se às empresas públicas e os demais às empresa privadas.

7.5.4 AMOSTRAGEM NÃO-PROBABILÍSTICA:

É um processo de amostragem subjetivo e seu rendimento depende do conhecimento que


possui o pesquisador a respeito da estrutura das populações e a amostra é uma parcela proporcional
desta estrutura. Ela é empregada, muitas vezes, por simplicidade ou pela impossibilidade de se
obter uma amostragem probabilística. Embora o erro de amostragem não possa ser estimado, esse
tipo de amostragem pode ser usado quando os efeitos de sua utilização poderem ser considerados
equivalentes aos de uma amostragem probabilística.

Exemplo: Suponha-se que o último recenseamento realizado numa região, tenha mostrado que a
população tem a seguinte estrutura (sob o ponto de vista profissional): 35% operários, 10%

84
agricultores, 5% profissionais liberais, 15% empregados, 8% funcionários públicos e 27% sem
profissão definida. Ao se pretender obter uma amostra de 2.000 pessoas, deve-se procurar formá-la
por 700 operários, 200 agricultores, 100 profissionais liberais, 300 empregados, 160 funcionários
públicos e 540 sem profissão definida, sendo cada um deles selecionado livremente.

7.6 PLANOS DE AMOSTRAGEM

O plano de amostragem é constituído pelas seguintes fases :

1. Definição dos objetivos: finalidade da pesquisa e grau de precisão.


a. definição do fato (o que?);
b. definição dos setores geográficos ou específicos (onde?);
c. qual o grau de precisão exigida?
d. tempo disponível;
e. custo previsto.

2. Determinação dos meios: de acordo com o orçamento e o tempo disponíveis, qual o tipo e qual
o tamanho?
a. qual o tipo de amostragem, se aleatória ou não ;
b. qual a amplitude ou tamanho;
c. qual o método para o levantamento dos dados : fone, correio, mala direta, etc.;
d. como os interessados serão questionados?

LEMA : "MÁXIMO DE INFORMAÇÕES COM UM MÍNIMO DE ERROS E DESPESAS".

3. Preparação do plano:

a. Elaboração do questionário (completo - concreto - secreto - discreto)


i) - definir as informações que procuram;
ii) - traduzir em questões a informação procurada;
iii) - distribuir as mesmas no questionário.
iv) - experimentar o questionário;
v) - coletar, criticar e apurar os dados;
vi) - apresentar os dados.
b. Características das questões
i) - despertar o interesse;
ii) - ser explícito;
iii) - ser facilmente compreensível;
iv) - suscitar respostas não tendenciosas.
c. Experimentação do questionário : verificar se as respostas estão sendo respondidas
com exatidão (pré-testes ou pesquisa piloto);
d. Execução, coleta, crítica, apuração e apresentação dos dados.

4. Análise dos resultados :


- a estimação dos parâmetros (estatísticos);
- a verificação dos parâmetros (estatísticos);

5. Relatório final

a. Claro, indicando todos os detalhes (forma, lugar, tamanho, técnicas utilizadas, dificuldades e
limitações);

85
b. Honesto, isto é, sem idéias pré-concebidas, aceitando o resultado, seja ele positivo ou
negativo.
8. DISTRIBUIÇÕES AMOSTRAIS

8.1 INTRODUÇÃO

A finalidade da amostragem é obter uma indicação do valor de um ou mais parâmetros de


uma população, tais como a média, o desvio padrão populacional ou, a proporção de itens que
possuem determinada característica. As estatísticas amostrais que correspondem a esses parâmetros
populacionais são usados para aproximar os valores desconhecidos daqueles parâmetros. Assim é
que a média amostral é usada para estimar a média da população, o desvio padrão amostral é
usado para estimar o desvio padrão populacional e a proporção amostral serve para estimar a
proporção da população.
Uma das realidades da amostragem aleatória é que, quando se extraem repetidas amostras
da mesma população, há uma tendência de a estatística amostral variar de uma amostra para outra,
simplesmente em razão de fatores casuais relacionados com a amostragem. Essa tendência é
conhecida como variabilidade amostral.
A questão a responder para cada amostra é: Quão próxima está a estatística amostral do
verdadeiro parâmetro populacional? A resposta depende de três fatores:

1) Da estatística que está sendo considerada;


2) Do tamanho da amostra;
3) Da variabilidade existente na própria população submetida a amostragem.

Distribuição amostral é uma distribuição de probabilidades que indica até


que ponto uma estatística amostral tende a variar devido a variações casuais
na amostragem aleatória.

8.2 DISTRIBUIÇÃO AMOSTRAL DA MÉDIA

Inicialmente, é dificil assimilar o conceito de distribuição amostral. Examinemos por isso


uma distribuição amostral simples. Uma empresa deseja estimar o salário médio dos seus
profissionais. Para simplificar, limitemos a população em três profissionais. Suponhamos que os
seus salários sejam conhecidos 6, 9 e 12 salários mínimos (embora esse não os conheçamos). A
empresa resolve tomar uma amostra de tamanho 2 e usar a média amostral para estimar a média
populacional. Determine:

a. Qual a média e a variância populacional dos salários desses profissionais?


b. Todas as amostras possíveis de tamanho 2, com reposição.
c. Qual a distribuição amostral desta situação?
d. Qual o valor esperado da média amostral (a média das médias)?
e. Qual a relação existente entre  e  ?
x x
f. Qual a variância da média amostral?

86
2 2
g. Qual a relação existente entre x e x ?
Respostas :

6  9  12 27
a. Média salarial da população : x = 3

3
9

 x = 9 salários mínimos.
2
 x  variância populacional dos salários .
3
2
 ( X i  )
2 9  0  9 18
x  i 1
=   6 (salários mínimos)2
N 3 3
2
Resumindo : x = 9 e x  6
b. Amostras possíveis de tamanho 2 com reposição :

(6,6), (6,9), (6,12), (9,9), (9,6), (9,12), (12,12), (12,6), (12,9)

c. Seja X a v.a. definida como a média amostral. Então, X assume os seguintes valores: 6,0;
7,5; 9,0; 9,0; 7,5; 10,5; 12,0; 9,0; 10,5. Construindo-se a distribuição de probabilidade da
média amostral, tem-se :

X 6,0 7,5 9,0 10,5 12,0

P( X ) 1/9 2/9 3/9 2/9 1/9

5
d. Valor esperado E  X    x   X P X  =
i 1
1 2 3 2 1 81
6x  7 , 5 x  9 x  10 , 5 x  12 x   9 salários mínimos.
9 9 9 9 9 9

e. x  9 e x  9

logo,

x  x

f.
5 2 3
 2x   ( x   x )2 P ( x )  ( 6  9 )2 x  (7 , 5  9 )2 x  ( 9 , 9  9 , 0 )2 x
i 1 9 9
2 1 27
 (10 , 5  9 )2 x  (12, 0  9 )2 x   3 ( s. m.)2
9 9 9

 2x
g.  2x  6 e  2x  3 logo,  2x  onde, n é o tamanho da amostra.
n

87
Concluindo:
Uma distribuição amostral de médias é uma distribuição de probabilidade que indica quão
prováveis são as diversas médias amostrais. A distribuição é função da média e do desvio padrão
da população e do tamanho da amostra. Para cada combinação de média, desvio padrão e
tamanho da amostra, haverá uma única distribuição amostral de médias amostrais. As fórmulas
efetuamente usadas para cálculos envolvendo distribuições amostrais das médias são :

1.  
x x
onde:  x
 média da distribuição amostral.

 x
 média da população.

2x x
2.  2x   x  onde :  x  desvio padrão da distribuição amostral.
n n
 x  desvio padrão da população.

n = tamanho da amostra.

A fórmula do desvio padrão nos diz, que a quantidade de dispersão na distribuição amostral
depende de duas coisas :

1. Da dispersão da população.
2. Da raiz quadrada do tamanho da amostra.

8.3 O TEOREMA CENTRAL DO LIMITE

A capacidade de usar amostras para fazer inferências sobre parâmetros populacionais


depende do conhecimento da distribuição amostral. Acabamos de ver como se determinam a média
e o desvio padrão, mas precisamos ainda de outra informação: a forma da distribuição amostral. No
caso das médias amostrais, pode-se demonstrar matematicamente que, se uma população tem
distribuição normal, a distribuição das médias amostrais extraídas da população também tem
distribuição normal, para qualquer tamanho da amostra. Além disso, mesmo no caso de uma
distribuição não normal, a distribuição das médias amostrais será aproximadamente normal, desde
que a amostra seja grande, n  30. Estes resultados são conhecidos como o Teorema Central do
Limite e representam talvez o conceito mais importante da Inferência Estatística.

O Teorema do Central do Limite

1. Se a população sob amostragem tem distribuição normal, a distribuição das


médias amostrais também será normal para todos os tamanhos de amostra
2
( X ~ N ( ;  2 )  X ~ N ( ; ) .
n

2. Se a população é não normal, a distribuição de médias amostrais será


2
aproximadamente normal para grandes amostras ( n  30, X ~ N ( ; ) .
n

Uma extensão desse resultado é que, tanto no caso 1 quanto no caso 2,

88
X
Z ~ N ( 0,1)

n

Obs. : Quanto maior o tamanho da amostra, menor será a variância de X .

Exemplos:

1) Suponha uma população normal com os elementos {1, 3, 5, 7}. defina a variável X = valor
assumido pelo elemento na população. Considere agora todas as amostras possíveis de tamanho 2
com reposição.
X  X2
a. Construa a distribuição de probabilidade da média amostral X  1 ;
2
b. Calcule E ( X ), V( X ) e P(X < 5) ;
V(X)
c. Verifique se E( X)  E( X) e V(X) = .
2

2) Os diâmetros de cabos feitos por um certo processo de manufatura são conhecidos ser
normalmente distribuídos com média 2,5 cm e desvio padrão 0,009 cm. Qual é a distribuição da
média amostral destes nove diâmetros selecionados aleatoriamente? Calcule a proporção de tais
médias que excedem 2,505 cm.

Solução: A distribuição amostral X também tem distribuição normal com a mesma média 2,5 cm e
com desvio padrão igual a 0, 009 = 0,003 cm.
9
Para calcular a P ( X )  2 , 505) devemos padronizar como a seguir :

 X  2,5 2,505  2,5


P    P( Z  1,66)  0,048
 0,003 0,003 

8.4 DISTRIBUIÇÕES DE PROPORÇÕES AMOSTRAIS

Já vimos que a capacidade de usar amostras para fazer inferências sobre parâmetros
populacionais depende do conhecimento da distribuição amostral. Assim como a média amostral é
usada para estimar a média da população, a proporção amostral serve para estimar a proporção na
população. Quando a amostragem é aleatória, há uma elevada probabilidade de que a estatística
amostral se aproxime do parâmetro populacional. Assim, populações com pequenas porcentagens
de determinado item tendem a gerar amostras com pequenas porcentagens do item e populações
com elevadas porcentagens gerarão tipicamente amostras com grandes porcentagens. Nota-se,
todavia, que sempre há certo grau de variação; as estatísticas amostrais não são necessariamente
iguais ao parâmetro populacional.

Uma distribuição de proporções amostrais indica quão provável é determinado conjunto de


proporções amostrais, dados o tamanho da amostra (n) e a proporção populacional (p).

Quando o tamanho da amostra é menor do que 20, as probabilidades dos diversos resultados
possíveis podem ser lidos diretamente numa tabela de probabilidades binomias, simplesmente
convertendo o número de sucessos em percentagens. Por exemplo, 5 ocorrências em 20

89
observações correspondem a 25%. Porém, para maiores amostras, a aproximação normal da
binomial dá resultados bastante satisfatórios, possibilitando a utilização do Teorema do Limite
Central, que no sentido mais restrito, só se aplica a médias amostrais.

Temos, então:
X : no sucessos, segue Binomial, com E(X) = np e V(X) = npq.

Para n  20  B  N, ou seja: X  N [np;npq].

x p i qi
Se fi  i ( proporção amostral), então: fi  N[pi ; ].
n n

pq
Dai temos: f  N[p; ]
n

A média (proporção ou porcentagem média) da distribuição amostral é sempre igual a proporção


populacional, isto é :

f =p ,

onde: p = proporção populacional


f = média da distribuição amostral das proporções

Quando a população é muito grande ou infinita, o desvio padrão da distribuição amostral se calcula
pela fórmula:
p(1  p)
f 
n

Exemplo: Um lojista compra lâmpadas diretamente da fábrica em grandes lotes, que vêm
embaladas individualmente. Periodicamente, o lojista inspeciona os lotes para determinar a
proporção de lâmpadas quebradas. Se um grande lote contém 10 % de quebradas, qual a
probabilidade de o lojista obter uma amostra de 100 lâmpadas com 17 % ou mais de quebradas?

8.5 AMOSTRAGEM DE UMA POPULAÇÃO FINITA

Enquanto o tamanho da amostra for pequeno em relação ao da população, a amostragem


sem reposição dará entre as amostras essencialmente a mesma variabilidade da amostragem com
reposição. Entretanto, se o tamanho da amostra representa percentagem apreciável da população (5
% ou mais), já os resultados dos dois tipos de amostragem começam a diferir, pelo fato de na
amostragem sem reposição, a probabilidade de extração de ítens variar de uma para outra extração.
Temos que fazer uma modificação hipergeométrica no desvio padrão, que tem uma fórmula
simples:

Nn
N 1

90
x Nn
O desvio padrão das médias amostrais se torna, então: x 
n N 1

p (1  p ) Nn
enquanto que o desvio padrão das proporções amostrais fica:  f 
n N 1

onde, N é o tamanho da população e n o tamanho da amostra.

91
EXERCÍCIOS

1) Determine a média e o desvio padrão da distribuição de proporções amostrais, para as seguintes


proporções populacionais e tamanhos de amostras, respectivamente:

a. 30 %; n = 100;
b. 77,3 %; n = 362.

2) - Um fabricante produz peças com 10 % de defeitos. Qual a probabilidade de uma a.a. de 100
peças ter:

a. 15 % ou mais de defeituosos?
b. No máximo 6 % de defeituosos?

3) O controle de qualidade de uma fábrica de peças foi montado de modo que no máximo 5 % de
sua produção de peças defeituosas passa no teste. Supondo que este controle seja eficiente, isto
é, p = 5 % e que as peças são vendidas em caixas de 100, calcule a probabilidade de que em
uma caixa escolhida aleatoriamente:
a. Tenha pelo menos 8 % das peças defeituosas;
b. Tenha no máximo 3 % das peças defeituosas?

4) Sabe-se que a proporção de eleitores da população favoráveis à eleição para certoprefeito de


determinada cidade é de 60 %. Qual a probabilidade de numa amostra de 200 eleitores dessa
cidade, escolhidos ao acaso, pelo menos 130 sejam favoráveis a esse prefeito?

92
9. ESTIMAÇÃO

9.1 EXEMPLO DE ESTIMATIVAS

Vamos supor que uma pesquisa esteja sedo efetuada junto às pessoas que moram em certa
cidade, para se saber a opinião sobre a sentença da juíza Sandra que livrará do júri popular os 5
jovens que incendiaram e mataram o índio pataxó, Galdino, fato ocorrido recentemente e que
chocou todo o Brasil e o mundo. Uma amostra aleatória de 500 pessoas é considerada, observando-
se 475 pessoas desfavoráveis à sentença da juíza. Daí, concluímos que 95% das pessoas dessa
cidade são contra a sentença dessa juíza. Esta é uma estimativa pontual para a proporção
populacional, e nossa resposta é baseada na suposição de que a amostra é uma perfeita reprodução
da população. Mas, sabemos também, que uma outra amostra levaria a uma outra estimativa.
Conhecer as propriedades desses estimadores é um dos propósitos mais importantes da Inferência
Estatística.

9.2 DEFINIÇÃO DE ESTIMAÇÃO

A estimação é o processo que consiste em utilizar dados amostrais para estimar os valores
de parâmetros populacionais desconhecidos. Essencialmente, qualquer característica de uma
população pode ser estimada a partir de uma amostra aleatória. Entre as mais comuns, estão a
média e o desvio padrão de uma população e a proporção populacional.
Existem inúmeras aplicações da estimação, como por exemplo:
- Estimar a proporção de eleitores favoráveis a determinado candidato; estimar a porcentagem de
peças defeituosas em um grande lote de peças; estimar a resistência média, peso, duração média de
um produto; avaliação de inventários; estimação do custo de projetos, etc.
- As estimativas amostrais (estimadores = características da amostra) são utilizadas como
estimadores de parâmetros populacionais. Assim, uma média amostral é usada como estimativa de
uma média populacional; um desvio padrão amostral é usado como estimativa do desvio padrão
populacional e a proporção de itens em uma amostra, com determinada característica, serve para
estimar a proporção da população com aquela característica.
- Tais estimativas chamam-se estimativas pontuais porque originam uma única estimativa do
parâmetro. Só devem ser usadas quando se necessita, ao menos aproximadamente, conhecer o valor
do parâmetro para utilizá-lo numa expressão analítica qualquer, pois já sabemos que a amostragem
aleatória apresenta tendência a gerar amostras em que a estimativa não é igual ao parâmetro
populacional, ou seja, os estimadores são variáveis aleatórias, muitas vezes contínuas, e as
estimativas obtidas quase certamente serão distintas do valor do parâmetro (a probabilidade é, em
geral, praticamente nula), ou seja, provavelmente estar-se-á cometendo um erro de estimação,
(embora os dois valores em geral, sejam próximos). Aliás, este procedimento não permite julgar
qual a possível magnitude do erro que estamos cometendo. Desse fato,isto é, em virtude da
variabilidade amostral, vamos considerar uma estimativa intervalar, ou seja, vamos construir
um intervalo em torno da estimativa por ponto, de modo que esse intervalo tenha uma
probabilidade conhecida (que será designada por 1   ) de conter o verdadeiro valor do parâmetro.

93
Essa é a configuração da estimativa por intervalo e o intervalo assim construído é denominado
intervalo de confiança.

O valor da probabilidade ( 1   ), que usualmente assume valores 90%, 95%, 99%, etc., é
denominado nível de confiança e o valor  é chamado nível de significância, isto é,representa o
erro que se está cometendo quando se afirma que a probabilidade do intervalo [  1     2 ]
conter o verdadeiro valor do parâmetro populacional  é ( 1   ).
Deve-se frisar também que o intervalo de confiança é aleatório (pois é construído a partir de
uma estimativa por ponto), ao passo que o parâmetro  é suposto uma constante da população.
Assim, a rigor, é incorreto falar que a probabilidade de  ”cair” no intervalo é ( 1   ).
Não nos esqueçamos que a capacidade de estimar parâmetros populacionais por meio de
dados amostrais está ligada diretamente ao conhecimento da distribuição amostral da estatística
que está sendo usada como estimador. Podemos encarar a estatística amostral como uma
observação daquela distribuição amostral.

9.2.1 Exemplos de Estimativas pontuais e intervalares:

Parâmetro
Estimativa Pontual Estimativa Intervalar
Populacional

MÉDIA A expectativa média de vida dos A expectativa média de vida desses


moradores de certa região é de 70 anos. moradores está entre 68,2 e 71,8 anos.

PROPORÇÃO A proporção de peças defeituosas em um A proporção de peças defeituosas em um


lote é de 5%. lote está entre 4% e 6%.

DESVIO PADRÃO O desvio padrão da duração de vida de O desvio padrão da duração de vida dessa
uma lâmpada é de 200 horas. lâmpada está entre 190 e 210 horas.

9.3 INTERVALOS DE CONFIANÇA

Exemplo: Feito um ensaio de corrosão com uma amostra de 64 peças, verificou-se que o tempo
que a peça suportou nesse teste apresentou uma média x = 200 horas. Sabemos que este é um dos
valores da distribuição amostral, mas a questão é: qual deles? Isto é, quão próximo está 200 horas
do verdadeiro tempo médio da população?
Já vimos que a distribuição das médias amostrais é normal ou aproximadamente normal, em
muitos casos. Sabemos, então, que cerca de 68% da estatística amostral está a menos de 1 desvio
padrão de cada lado da média da distribuição amostral (que é igual a média da população) e que
95% das médias amostrais estão dentro de 1,96 desvios padrão a contar da média. Da mesma
forma, sabemos que 32% das médias amostrais possíveis estarão além de 1 desvio padrão a contar
da média (1 - 0,68) e que cerca de 5% das médias amostrais estarão a mais de 1,96 desvios padrões
além da média.
Consequentemente, se fizermos a afirmativa que a média de uma amostra está a menos de
1,96 desvios padrão da verdadeira média, poderemos esperar estar certos 95% das vezes e errados
5%. Assim, dizer que o tempo médio encontrado está a menos de 1,96 desvios padrões da média
acarreta um risco de erro de 5%. Na verdade, a média amostral pode estar muito mais próxima da
verdadeira média do que 1,96; ou muito mais afastada. Como nunca saberemos ao certo, devemos
contentar-nos com essa "atribuição probabilística" do intervalo em que o verdadeiro valor pode
estar. Tal intervalo é chamado "intervalo de confiança" e nossa "confiança" é 1 - P(erro). Logo, um
I.C. de 95% leva consigo um risco de 5% de erro.

94
Generalizando: A estimativa pontual da média populacional  será feita por um valor x .
Qualquer que seja esta amostra, teremos um erro (e) que sera ( x - µ). E, de acordo com o Teorema
do Limite Central, teremos:

2
e = ( x - µ)  N (0,  2x ), com  2x   .
n

Daí, podemos determinar qual a probabilidade de conter erros de determinada magnitude.


Por exemplo,

P( | e | < 1,96 ) = 95 % ou P( | x  | < 1,96  x ) = 95 %,

que é equivalente a:
P(   1,96 x < x <  + 1,96 x ) = 95%.
Esta afirmação probabilística pode ser reescrita do seguinte modo:

P( x  1,96 x <  < x + 1,96 x ) = 95%.

convém lembrar, mais uma vez, que  não é variável aleatória mas um parâmetro, e a expressão
acima deve ser interpretada do seguinte modo: construídos todos os intervalos da forma
x  1,96 x , 95% deles conterão o parâmetro  .

9.4 ESTIMAÇÃO DA MÉDIA DE UMA POPULAÇÃO

A questão de quão próxima determinada média amostral pode estar da média da distribuição
amostral, em unidades efetivas, depende da variabilidade amostral (desvio padrão da distribuição
amostral :  X ). Logo, grandes amostras tenderão a produzir médias amostrais que estão mais
próximas da média do que pequenas amostras. Além disso, a variabilidade da população (  X ) é um
fator: quanto maior a variabilidade na população, maior a variabilidade na distribuição amostral.
O método usado para estimar a média de uma população () depende se o desvio padrão da
população é conhecido ou se deve ser estimado com base nos dados amostrais. A estimativa
intervalar da média populacional se baseia na hipótese de que a distribuição amostral das médias
amostrais é normal. Para grandes amostras isto não apresenta dificuldade especial, pois se aplica o
Teorema do Limite Central (T.L.C.). Todavia, para amostras inferiores a 30, é importante saber que
a população submetida a amostragem tem distribuição normal, ou aproximadamente normal.

9.4.1 INTERVALO DE CONFIANÇA PARA  (quando  é conhecido).

 Seja X  N(  ,  2 ) . Como sabemos, X (média amostral) tem distribuição normal de média  e


 2
desvio padrão , ou seja, X  N (  , ) .
n n

95
X
Portanto : Z  tem distribuição N(0, 1).

n

Então:

P (  Z  Z  Z )  1  
2 2

X
P (  Z   Z )  1  
2  2
n
 
P (  Z  X    Z )  1 
2 n 2 n
 
P (  X  Z      X  Z )  1 
2 n 2 n
 
P( X  Z     X  Z )  1
2 n 2 n

Logo, o intervalo de confiança para  quando  é conhecido é :

 
P ( X  Z    X  Z )  1 
2 n 2 n

9.4.1.1 ERRO DE ESTIMATIVA (e)

A estimativa pontual da média populacional , qualquer que seja a amostra considerada,


apresenta uma erro que será : e = |   X |. O intervalo acima mostrado pode ser escrito como:
 
X  Z ou X  e  e = Z
2 n 2 n

Logo, a fórmula acima nos mostra que o erro cometido na estimativa da média populacional
depende de 3 fatores:

1) Da quantidade de dispersão existente na população (  );


2) Do tamanho da amostra (n);
3) Da confiança dada ao intervalo (1-  )

9.4.1.2 TAMANHO DA AMOSTRA (n)

Construído o intervalo de confiança para  , conhecido o nível de confiança (o qual deve


ser fixado em função do “acerto” que se deseja ter na estimação por intervalo), observamos que, na
medida em que se aumenta esse nível, o intervalo passa a ter amplitude cada vez maior, o que
implica numa perda de precisão na estimação.
O desejável seria obter intervalos com alto nível de confiança e pequena amplitude (o que
corresponderia a uma grande precisão), mas issi requer uma amostra suficientemente grande, pois
fixado n, confiança e precisão variam em sentidos opostos. Supondo que  é conhecido, fixando 
e o tamanho máximo do erro de estimação (e), podemos determinar o tamanho ideal da amostra
através de:

96
2
 
n =  Z  
 2 e

Exemplos:

1) Feito um ensaio de corrosão em 64 peças de um lote de produção, verificou-se que o tempo que
a peça suportou nesse teste apresentou uma média X =200 horas. Sabe-se, de informações
anteriores, que  = 16 horas.

a. Estime pontualmente o verdadeiro tempo médio de corrosão;

b. Calcular um intervalo de 95% de confiança para a verdadeira média  , sabendo-se que  = 16


horas.

c. Qual o tamanho do erro na estimativa acima?

d. Quantas peças deverão ser amostradas para que o erro de estimação seja no máximo de 2,25
horas?

2) O peso dos pacotes de pectina cítrica produzida por uma companhia apresenta uma distribuição
normal com  2 = 2,25 kg2 .Uma amostra aleatória de cinco pacotes apresentou os seguintes pesos:
27,5; 25,6; 28,2; 26,1; 25,0 .

a. Estime pontualmente o peso médio de todos os pacotes desse produto produzido por essa
empresa;

b. Determinar o intervalo de confiança para o peso médio populacional, ao nível de significância


 = 1%.

c. Qual o tamanho do erro de estimativa no intervalo acima?

d. Quantas unidades a mais deveriam ser extraídas para que o erro de estimativa fosse reduzido em
50%?

e. Era necessário supor normalidade da população? Por quê?

9.4.2 Intervalo De Confiança Para Média ( desconhecido)

 Neste caso, precisamos calcular a estimativa S (desvio padrão) a partir da amostra.


n

(X i  X )2
Devemos lembrar que: S 2  i 1

n 1
2 X-
Sabemos que: X  N (  , ) e Z=
 N ( 0,1)
n 
n
Mas como  é desconhecido, definiremos uma outra variável t dada por:

97
X  
t 
S
n
esta variável t tem distribuição conhecida, chamada distribuição t de STUDENT, no caso com (n -
1) graus de liberdade. O gráfico da função densidade da variável t é SIMÉTRICA e tem a mesma
forma da NORMAL, porém menos achatada.

1) Para amostras maiores ou iguais a trinta ( n  30 ), a distribuiçao t de Student se aproxima


da distribuição normal, isto é: t ~Z ;

2) A distribuição t de Student, para a distribuição amostral de médias, pressupõe que a


população sob amostragem seja normalmente distribuída.

Então :

P (  t n 1;  t  t n 1;  )  1  
2 2

X
P (  t n 1;   t n 1;  )  1  
2 S 2

n
S S
P (  t n 1;  X    t n 1 )  1 
2 n 2 n
S S
P (  X  t n 1      X  t n 1 )  1 
2 n 2 n
S S
P ( X  t n 1;    X  t n 1;  )  1 
2 n 2 n
Então :

S S
P ( X  t n 1;     X  t n 1;  )  1 
2 n 2 n
9.4.2.1 Erro de estimativa(e):

S
e = tn 1;
2 n

9.4.2.2 Tamanho da amostra (n):

Neste caso, como a tabela t enfoca (n-1) g.l. e n nos é desconhecido, admitimos que t ~z .
Daí, temos:

S
n=  Z  2
2 e

Exemplos:

1) O peso de pacotes de café produzidos por uma empresa apresenta-se normalmente distribuído.
Uma amostra de 25 pacotes apresentou um peso médio de 248 g, com desvio padrão de 8 g.
98
a. Estime pontualmente o peso médio dos pacotes de café dessa empresa.

b. Estime um intervalo de confiança para o peso médio de todos os pacotes. Use  =5%.

c. Qual o tamando do erro na estimativa acima?

d. Quantos pacotes deveriam ser amostrados, para que , com uma confiança de 95%, o erro máximo
admitido seja de apenas 5 g?

2) De 50 mil válvulas fabricadas por uma companhia, retira-se uma amostra aleatória de 400
válvulas, e obtém-se a vida média de 800 horas e desvio padrão de 100 horas.

a. Qual o intervalo de 99% de confiança para a vida média da população?

b. Com que confiança dir-se-ia que a vida média é 800  0,98?

c. Que tamanho deve ter a amostra para que seja de 95% a confiança na estimativa 800  7,84?

9.5 INTERVALO DE CONFIANÇA PARA PROPORÇÃO

pq
 Lembrando que p  f  N ( p, ) quando n for grande (n  20),
n
p  p
Logo: Z  tem distribuição N(0, 1)
pq
n
Então:

P (  Z   Z  Z )  1  
2 2

p  p
P (  Z   Z )  1  
2 pq 2

n
pq pq
P (  Z  p  p  Z )  1 
2 n 2 n
pq pq
P (  p  Z   Z
  p   pX )  1 
2 n 2 n
pq pq
P ( p  Z  p  p  Z )  1 
2 n 2 n


pq 
pq
P ( p  Z  p  p  Z )  1 
2 n 2 n

9.5.1 Erro de estimativa (e)


pˆ qˆ
e  Z 
2 n
99
9.5.2 Tamanho da amostra (n)

2
 
n   Z / 2   pˆ  (1  pˆ )
 e 

Exemplos:

1) Em recente pesquisa levada a 200 habitantes de uma grande cidade, 40 se mostraram


favoráveis ao restabelecimento da pena de morte.

a. Construa um I.C. para a proporção de habitantes dessa cidade que são favoráveis à pena de
morte, ao nível de significância de 1%.

b. Qual deveria ser o tamanho da amostra para que se estivesse confiante que o erro de
estimativa não excedesse 4%?

c. Com que grau de confiança se poderia dizer que a proporção populacional está entre 0,2 
0,03 ?

2) Antes de uma eleição, um determinado partido está interesado em estimar a proporção de


eleitores favoráveis ao seu candidato. Uma amostra piloto de tamanho 100 revelou que 60 eram
favoráveis ao candidato em questão.

a. Determine o tamanho da amostra necessário para que o erro cometido na estimação seja de
no máximo 0,01 com probabilidade de 90%.

b. Se na amostra final, com tamanho obtido em "a", observou-se que 55% dos eleitores eram
favoráveis ao candidato em questão, construa um I.C. para a proporção de eleitores
favoráveis a esse candidato. Use  = 5%.

9.6 DISTRIBUIÇÃO AMOSTRAL DAS DIFERENÇAS

9.6.1 DE DUAS MÉDIAS AMOSTRAIS, CONHECIDOS OS DESVIOS-PADRÃO

2
Suponhamos que : X1 ~ N( 1 , 1 ) e X2 ~ N (  2 ,  2 2 ), onde X1 e X2 são independentes,
com:
 2   2 
X1 ~ N  1 , 1 n1 e X2 ~ N   2 , 2 n 2  .

Teremos, pois, que a distribuição amostral das diferenças de médias será normal com:

     
E X1  X2  E X1  E X2  1   2

100
12   22
   
Var X1  X2  Var X1  Var X2    n1 n 2

Dessa forma,
 12   22 
X1  X2  N 1   2 ; n1

n 2 

e daí temos,

Z
 X1  X2  1   2   N(0,1)
12   22
n1 n2

Observação: As conclusões do Teorema do Limite Central são válidas aqui também:


1) Se X1 e X2 são normalmente distribuídas  X1  X2 ~Normal; 
 
2) Se X1 e X2 não são normalmente distribuídas  X1  X2 é aproximadamente Normal, desde
que  n1  n 2   30 .

9.6.2 DE DUAS PROPORÇÕES AMOSTRAIS

 pq   p q 
Se: f1 ~ N p1 , 1 1  e f2 ~ N p 2 , 2 2  , válidas quando n > 20, então a distribuição
 n1   n2 
amostral das diferenças será aproximadamente normal com:

E f1  f2   E f1   E f2   p1  p 2

pq p q
Var  f1  f2   Var f1   Var f2   1 1  2 2
n1 n2

Dessa forma,
 p1q1 p 2 q 2 
 f1  f2   N p1  p 2 ;  
 n1 n2 

assim, temos,

Z
 f1  f2    p1  p 2  ~ N(0,1)
p1q1 p 2 q 2

n1 n2

101
Exemplos:

1) Os relés fabricados pela empresa A têm duração média de 1.400 h e desvio padrão de 200 h,
enquanto que os fabricados pela empresa B têm duração média de 1.200 h e desvio padrão de
100 h. Se forem ensaiadas amostras aleatórias de 125 relés de cada marca, qual a probabilidade
das de marca A terem vida média superior as de B de pelo menos:

a. 160 h;
b. 250 h.

2) O fabricante A produz palitos de fósforos com 10% de defeitos, enquanto que o fabricante B
produz com 5% de defeitos. Se forem testados 100 palitos de fósforos do fabricante A e 121 do
fabricante B, qual a probabilidade do fabricante A diferir em mais de 6% do fabricante B?

9.7 INTERVALOS DE CONFIANÇA PARA AS DIFERENÇAS

9.7.1 ENTRE DUAS MÉDIAS ( 1e 2 ) DE DUAS POPULAÇÕES NORMAIS,


CONHECIDAS SUAS VARIÂNCIAS ( 12 e  22 )
2
Se X1 ~ N( 1 , 1 ) e X2 ~ N (  2 ,  2 2 ), com X1 e X2 independentes, temos:

~ N

 ,
 12  e ~ N

 ,
 22  ,
X1  1 n1 X2  2 n 2 
 

 12   22 
Então: X1  X2  N 1   2 ; n1

n 2 

E daí temos, Z
 X1  X2  1   2   N(0,1)
12   22
n1 n2

Então, o intervalo de confiança será,

 2 2 2 2

P  
Z 
 X1 X2 2
1 2
n1

n2
 
 1  2  
 Z 
X1 X2 2
 
n1 n2
1 2 

 1

 
ou ainda,

102
12  22
1   2    X1  X2  Z   com 1    % de confiança,
2 n1 n 2

Exemplo: Uma empresa tem 2 filiais ( A e B), para as quais os desvios padrão das vendas diárias
são de 5 e 3 peças, respectivamente. Uma amostra de 20 dias foeneceu uma venda média diária de
40 peças para a filial A e 30 peças para a filial B. Supondo que a distribuição diária de vendas seja
normal, construir um I.C. de 92% para a diferença da venda diária das duas filiais.

9.7.2 Entre duas médias ( 1e 2 ) de duas populações normais, de mesma variância
 2 desconhecida ( admitindo-se 12   22   2 )

Sejam : X1 ~ N( 1,  2 ) e X2 ~ N (  2 ,  2 ), com X1 e X2 independentes. Como:


 2   2 
   
X1 ~ N  1, n1  e X2 ~ N   2 , n 2  , portanto:
   

 1 
2 1
 
X1 X2  N 


1   2 ;  (  )
n1 n 2 
 

E daí temos, Z
 X1  X2  1   2   N(0,1)
1 1
 
n1 n 2

Como não se conhece  2 , deve-se estimá-lo por S’2, dado por:

2
S’ =
 n1  1S12   n 2  1S22
n1  n 2  2

t
 X1  X2  1   2   "t" Student com  n1  n 2  2 graus de liberdade .
1 1
S 
n1 n 2

Observação: Se ( n1 + n2 )  30  t ~ z

O intervalo será:

 1 1 
 
P X  X  t  S'
1 2
1 1
n n 1 2

  1  2  X  X  t  S'
n

   1  
 2 1 2 2 1 n2 

103
Exemplo: Duas populações normais: X1 e X2 têm supostamente a mesma variância.Da população 1
foi extraída uma amostra de tamanho 10, obtendo-se média 15 e desvio padrão 3. Da população 2
foi extraída uma amostra de 12 elementos, obtendo-se média 12 e desvio padrão 2. Construir o I.C.
de 95% para a diferença de médias.

9.7.3 Entre duas médias ( 1e 2 ) de duas populações normais, de variâncias


desconhecidas e 12   22

2
Sejam : X1 ~ N( 1 , 1 ) e X2 ~ N (  2 ,  2 2 ), com X1 e X2 independentes. Então:

 12   22  .
 
X1 X2  
N 
 1

  2 ;
n1 n 2 

Como não conhecemos 12 e  22 , iremos estimá-las respectivamente por S12 e S 22 , e o intervalo
será dado por :

 2 2 2 2

 1 2

2 n1 n2 1 2 2
s s

P X  X  tα  1  2 μ1  μ2   X  X  Zα  1  2   1  α
s s
n1 n2 

 

Observação: A variável “t” de Student tem graus de liberdade (n1 + n2 - 2 ) e para


(n1 + n2 )  30  t ~ z .

Exemplo: Dois métodos de vendas estão sendo aplicados em uma empresa. O método X1 foi
aplicado durante 6 dias, obtendo-se uma quantidade média de vendas (em unidades) de 81 com
variância de 2, enquanto que o método X2 foi aplicado durante 9 dias, encontran-se uma quantidade
média de 78 e variância de 13,5. Construir o I.C. para a diferença de unidades médias populacionais
vendidas, ao nível de significância de 5%.

9.7.4 Entre duas proporções populacionais p1 e p2

 pq   p q 
Se: f1 ~ N p1 , 1 1  e f2 ~ N p 2 , 2 2  , então tem-se:
 n1   n2 


 f1  f2   N p1  p2 ;
p1q1 p2 q 2 

 f1  f2    p1  p 2 
 e Z ~ N(0,1)
 n1 n2  p1q1 p 2 q 2

n1 n2

104
Logo, o intervalo de confiança será:

 p1q1 p2q2 p1q1 p2q2 


Pf1  f2  zα   p1  p2f1  f2 +zα     1 α
 2 n1 n2 2 n1 n2 

Como, em geral, os valores de p1 e p2 são desconhecidos, eles podem ser estimados por f1 e f2 ,
respectivamente. Daí, teremos:

   
f 1  f1 f2 1  f2    
f 1  f1 f2 1  f2 
 
P f1  f2  zα  1    
 p1  p2  f1  f 2 +zα  1   1 α
 2 n1 n 2 2 n1 n2 

Exemplo: Um levantamento estatístico mostrou que 80 pessoas, das 200 consultadas, numa cidade
, vão votar no candidato A para a presidência nas próximas eleições; uma outra amostra de 500
pessoas, dessa mesma cidade, mostrou que 150 delas vão votar no candidato B. Construir um I.C.
de 99% para a diferença das proporções de pessoas que vão votar em A e B.

105
10. ESTIMAÇÃO (CONTINUAÇÃO)

10.1 ESTIMAÇÃO PONTUAL DA VARIÂNCIA POPULACIONAL


2
Uma estimativa pontual não viciada da variância populacional  é dada pela variância
2 2 2
amostral s . Assim, a estatística s é chamada um estimador de  , isto é, ˆ 2  s 2 .
Então, a estatística

n
2
 (X  X ) i
s2  i 1

n 1
por usar X em lugar de , tem um grau de liberdade a menos (ou seja, tem (n-1) graus de
liberdade). Isso porque o cálculo dessa estatística pressupõe que já se tenha calculado X
anteriormente e para tal já usamos uma vez todos os valores da amostra, os quais estariam sendo
2
usados pela segunda vez para calcular s ; então, ao usar novamente os valores da amostra para
2
calcular s , dados quaisquer (n-1) valores da amostra, o valor restante estará perfeitamente
determinado, não sendo portanto livre.

(n  1)s 2
10.1.1 Distribuição Amostral de
2
Se uma a.a. de tamanho "n" é retirada de uma população normal com média  e variância 
2
, e a variância amostral é calculada, nós obtemos um valor da estatística s2. A distribuição amostral
2
de s tem pouca aplicação prática em Estatística, porém isto já não ocorre com:

(n  1)s 2
.
2
10.1.2 Teorema de FISHER
2
Se s é a variância de uma a.a. de tamanho "n" retirada de uma população normal com
2 (n  1)s 2
2 2 2 2
média  e variância  ,, então a v.a.   2
~  ( n 1) . Daí temos : s  . (2n 1) .
 n 1
2 2 2 2 2 4
Então s ~k 2( n 1) g.l. , com E[s ] =  e V[s ] =
n 1

106
2
10.1.3 A Distribuição QUI-QUADRADO ( )
2
Define-se uma v.a.  , com  graus de liberdade, como sendo a soma do quadrado de 
variáveis normais padronizadas e independentes, isto é,

υ υ 2
 Xi  μ 
χ 2υ   Z i2    
i 1 i 1  σ 

2
A distribuição  constitui-se de uma família de curvas, cada qual caracterizada pelos graus
de liberdade , e ela está tabelada em função do parâmetro . O tipo mais frequente é a tabela
unicaudal à direita. Para uma dada probabilidade , e para um dado , o corpo da tabela fornece o
2 2 2
valor de  0 , tal que P(   0 )   .
2
Convém salientar que a distribuição  tem as seguintes diferenças, em relação à normal:

 É sempre positiva;
 É assimétrica;
 A tabela fornece o valor do 2, a partir de uma probabilidade  e um certo número de graus
de liberdade ().

Exemplos:
2
1) Para uma distribuição  , encontre :
a.  20,01 , com n = 10
b.  20,95, com n = 5

2) Ache a probabilidade de que uma a.a. de 25 observações de uma população normal com
2 2
variância  = 6 tenha a variância s :
a. Maior que 9,1;
b. Entre 3,462 e 10,745.

10.2 INTERVALO DE CONFIANÇA PARA A VARIÂNCIA POPULACIONAL (2)

Seja X uma população com distribuição normal de média  e variância 2. Sabe-se pelo
teorema de Fisher que:

(n  1)s 2
χ 2n  1  2
~ χ (n2  1)
σ

então, o intervalo será:

107
P(χ (12  α )  χ 2  χ (2α ) )  1  α 
2 2

(n  1)S 2
P(χ (12  α ) )  2
 χ (2α ) )  1  α 
2 σ 2
2 2
 χ (1  α ) χ (α ) 
 2 1 2 
P 2
 2
 2 
1α 
 (n  1)s σ (n  1)s 
 
 2 
 (n  1)s 2 (n  1)s 2 
P  σ  1 α
2
 χ (α ) χ (12  α ) 
 2 2 

Daí, temos que o I.C. para  seria,

 
 (n  1)s 2 (n  1)s 2 
P σ 1 α
 χ (2α ) χ (12  α ) 
 2 2 

Observação:

Quando da população original da v.a. X são retiradas grandes amostras (n  30), a


distribuição amostral do desvio padrão s também pode ser considerada normal com:

S   x e S  x .
2n

Pode-se então estimar o I.C. para  pela expressão :

 s s 
P s  Z α .  σ  s  Zα .   1  α,
 2 2n 2 2n 

onde tomou-se s como uma estimativa pontual de . No caso de pequenas amostras isto não é
possível e o mesmo ocorre quando temos grandes amostras, porém a população de onde se retira a
amostra não segue a lei normal.

Exemplo:

1) Os salários de uma empresa são normalmente distribuídos. Uma amostra aleatória de 10


funcionários apresentou salário médio de 8,7 S.M., com desvio padrão de 2 S.M.. Calcular o
2
I.C. para  , ao nível de 90%.
2
Temos n = 10; s = 4;  = 10% e  = 9(10-1)

108
2
χ 0,05;9  16,9
2
χ 0,95;9  3,33
 9x4 9x4 
P  σ2  90% 
16,9 3,33 
 σ 2  [2,13(S.M.) 2 ;10,81(S.M.) 2

com 90% de confiança ou, considerando-se o desvio padrão :

 [1,46 S.M.; 3,29 S.M.] com 90% de confiança.

2) O diâmetro de um cabo de aço produzido por uma metalúrgica tem distribuição normal. Uma
amostra de 81 cabos forneceu um desvio padrão de 0,12 mm. Ache o I.C. de 95% para .

Temos n = 81; S = 0,12;  = 0,05


como n > 30, temos S ~N
sx
s x  Zα .
2 2n
0,12
I.C. : 0,12  (1,96). 
2x81
 σ x  [0,1015mm;0,1385mm]
com 95% de confiança.

10.2.1 Teste de Hipótese para a Variância Populacional 2

1) H 0 : 2   20 contra

a)σ 2  σ 02
 2 2
b)σ  σ 0
 2 2
c)σ  σ 0

2 (n  1)s 2
2) Estatística teste :  teste  2
~  (2n 1) g.l.,
0
onde : n = tamanho da amostra;
2
s = variância amostral;
 20 = valor hipotético para a variância populacional.

3) Região crítica (R.C.)

4) Rejeita-se H0 se :

a)  2teste   2(  ou  2teste   2(1 


2) 2)
2 2
b)  teste  

109
c)  2teste   2(1  )

Exemplos:
2
1) Numa a.a. de 20 elementos extraídos de uma população normal, obteve-se s = 64. Testar a
2
hipótese que 2 = 36, contra   36, ao nível de significância de 10%.

Solução :

H 0 :  2  36
i)
H 1:  2  36
19 x 64
ii)  2teste    2teste  33, 778
36

iii) R.C. :  = 10%  /2 = 5%   20,95;19  10,117;  20,05;19  30,144 .

iv) Conclusão : Como  2teste   20,05 , rejeitou-se H0 , ou seja, a variância populacional não pode ser
considerada igual a 36.

2) O desvio padrão do comprimento de peças fabricadas por uma máquina que está agora em
operação é 0,082 cm. Um vendedor declara que a máquina nova que ele representa pode produzir
uma taxa de produção muito mais alta com uma variação menor que a da máquina em operação. A
declaração sobre a taxa de produção mais alta é aceita, mas a variabilidade deve ser testada. Para
isto, foram selecionados aleatoriamente 25 peças fabricadas por essa nova máquina, encontrando-se
um desvio padrão S = 0,066 cm. Teste a afirmativa do fabricante, usando  = 5%.

Solução :
2
1) H0 :  = 0,006724
2
H1 :  < 0,006724

2 (n  1)s 2 (24) x (0,066) 2


2)  teste  2
 2
  2teste  15,55
0 (0,082)

3) R.C. :  = 5%   20,95;24  13, 84

4) Conclusão: Como  2teste   20,95 , devemos aceitar H0 , ou seja, que a variância da máquina nova é
de 0,006724 cm (igual a máquina antiga), e a mesma deverá ser preferida desde que a sua taxa de
produção seja realmente mais alta.

110
10.3 INTERVALO DE CONFIANÇA PARA A RAZÃO DE VARIÂNCIAS

10.3.1 Distribuição F de Snedecor

Sejam U e V duas variáveis aleatórias independentes com distribuição qui-quadrado com r1


U
r1
e r2 graus de liberdade, respectivamente. Então F  tem distribuição F de Snedecor com r1 e r2
V
r2
graus de liberdade [F(r1 , r2)]

Obs.: A variável aleatória é sempre positiva.

Essa definição engloba uma família de distribuições de probabilidade, para cada par de
valores (r1 , r2 ). A tabela fornecida apresenta o valor F0, tal que:

P[ F ( r1 , r2 )  F0 ]  

Exemplos:

1) Calcular o valor de F0, com r1 = 10 e r2 = 15 graus de liberdade, tal que, P[F0 ( r1 , r2  F]  0, 05.

2) Encontrar  tal que P[F( 40,12 )  0, 50]   .

Obs: Seja F1(r1, r2 ) e F2 (r1, r2 ). Se P(F1  F2 ) = 1-, então P(F2  1 / F0 ) = .

10.3.2 Intervalo de Confiança para a Razão de Variâncias

12( r1 )
r1 12 r2
Seja F( r1 , r2 )   2. (para duas populações normais de variâncias
 22( r2 )  2 r1
r2
desconhecidas). Pelo Teorema de Fisher:

2 (n  1)s 2 2 (r1 )s 12 2 ( r2 )s 22
 n 1  , ou seja 1  e 2 
2 12  22
Portanto,
r1s 12
12 r2 s 12  22
F( r1 , r2 )  2 .  F(r1 , r2 ) 2 . 2
r2 s 2 r1 s 2 1
 22
111
logo o intervalo será,

F[F1 α  F  Fα ]  1  α 
2 2

 s σ 22
2
1

 P F1 α  . 2  Fα   1  α 
2
 2 s σ1 2
2

s2 σ 22 s 22 
 1
P 2. 2
  2 .Fα (r1 , r2 )  1  α
 s1 Fα (r2 , r1 ) σ 12 s1 2 
 2 

s2 σ2 s2 
1
P  12 .  12  12 .Fα (r2 , r1 )  1  α
 s 2 Fα (r1 , r2 ) σ 2 s2 2 
 2 

Exemplos:

1) Construir o intervalo de confiança, para  = 2%, para o quociente de variâncias de duas


populações normais, das quais foram extraídas as amostras seguintes:
2 2
41 elementos da 1a, obtendo s1 = 43,2 e 31 elementos da 2a., obtendo-se s2 = 29,5.

2) Dois métodos de embalar camarão congelado produzem o mesmo peso médio do produto. São
analisadas duas a.a. de tamanho 41, uma de cada método de embalar e os resultados são : s1 = 7,5g
para o 1o método e s2 = 9,3g para o 2o método. Ache o intervalo com 95% de confiança para 1  .
2

Solução: Como (1-) = 0,95, temos  = 0,05,  2 = 0,025


1
F0,025(40;40) = 1,88 F0,975(40;40) =  0, 5319 .
F0,025 ( 40; 40)

7 , 52 12 7 , 52
Assim  0 , 5319    1, 88
9 , 32  22 9 , 32
σ2
 0,34592  12  1,22268
σ2
 σ 
 P 0,5881  1  1,1057   95%
 σ2 

112
Exercícios:
1) Sabe-se que a variação das dimensões fornecidas por uma máquina independem dos ajustes do
valor médio. Uma amostra aleatória de dimensões de peças produzidas forneceu :
12,2 12,4 12,1 12,0 12,7 12,4
14,0 13,7 13,9 14,1 13,9
Estabeleça um intervalo de 95% de confiança para o desvio padrão com que a máquina opera.
3
2) Numa concretagem sem interrupção de uma base de concreto armado de 1.500 , destinada a
suportar um equipamento industrial, obtiveram-se os seguintes resultados para a resistência em
2
Kgf/cm .

292 207 348 244 276 311 193 324 232 196 310 314
Ache um intervalo com 90% de confiança para o desvio padrão populacional .

3) Medidos os diâmetros de 32 peças de uma produção, resultou a distribuição abaixo (valores em


mm) :
Xi 56,5 56,6 56,7 56,8 56,9 57,0 57,1 57,2 57,3
fi 1 3 2 4 10 5 4 1 2
Há evidência de que o desvio padrão seja superior a 0,17, ao nível de 5% ?

4) Trinta embalagens plásticas de mel foram pesadas com precisão de decigramas. Os pesos, após
convenientemente agrupados, forneceram a seguinte distribuição de frequências (em gramas).

Xi fi
31,5 1
32,5 5
33,5 11
34,5 8
35,5 3
36,5 2

Os dados acima permitem concluir, ao nível  = 5%, que desvio padrão da população seja
superior a 1g?

5) Os seguintes resultados foram calculados de a.a. de duas populações normais de forma


independente.
X: n1  10 X1  27 , 3 S1  9 ,1
Y: n 2  12 X2  20,1 S2  4 , 6
Ache um intervalo com 95% de confiança para :

 x2  y2
a) b)
 y2  X2

6) Duas a.a. forneceram as seguintes estimativas para a variância da resistência do concreto.

113
2 2
 Kgf   Kgf 
s 1  52,7 2  e s 22  36 2 
2

 cm   cm 
O tamanho das amostras eram respectivamente n1 = 6 e n2 = 7. Pode-se aceitar que não há uma
diferença significativa na variabilidade das duas populações ao nível  = 0,05 ?

7) Com n1 = 25 elementos de uma população obtivemos :


X 1  8, s 1  1,58 e com n 2  31 elementos de outra população obtivemos
X 2  7, s 1  1,24. Determinar os intervalos de confiança para :
1
a)  2 , com  = 2%
b)
2
1 , com  = 2%

8) Se n1 = 12, n2 = 10, s1 = 6, s2 = 5, provindas de duas populações independentes, testar a hipótese


de igualdade das variâncias populacionais, ao nível de 5%.

114
11. TESTES DE HIPÓTESES

11.1 INTRODUÇÃO

Os testes de hipóteses (ou de significância) apresentam uma regra de decisão que permite
aceitar ou rejeitar uma hipótese questionada, decisão esta que é tomada em função de valores
obtidos numa amostra. Assim, admite-se inicialmente, um valor hipotético para um parâmetro
populacional desconhecido e, a seguir, baseando-se em informações retiradas da amostra, aceita-se
ou não esse valor. Tem-se, então, as duas seguintes hipóteses iniciais:

1. Hipótese nula ( Ho): É aquela que será testada; admite-se aqui que a diferença observada entre
a estatística amostral ( estimador) e o parâmetro populacional é devida apenas ao acaso, ou seja,
essa diferença não é significativa.

2. Hipótese alternativa( H1): É qualquer hipótese diferente da hipótese nula, isto é, é aquela que
será aceita caso o teste indique que Ho deva ser rejeitada; aceitando essa hipótese, conclui-se
que a diferença citada é significativa.

Na prática, somos muitas vezes obrigados a tomar decisões sobre populacões, baseados nas
informações amostrais.
Por exemplo, podemos querer determinar se são verdadeiras afirmações como:
1- O tempo de processamento de uma máquina supera uma outra máquina;
2- Apenas 2% da produção de um certo produto de uma indústria é defeituosa;
3- O peso de pacotes de certo produto é de 500 gramas;
4- Uma marca de gasolina A apresenta mais rendimento ( Km/l ) do que uma marca de gasolina
B;
5- Um medicamento A é melhor que um medicamento B, na cura de uma doença;
6- Se há diferenças entre tratamentos, na engorda de um rebanho.

Então, todas estas decisões que podemos tomar é o que vamos chamar de TESTE DE
HIPÓTESES ESTATÍSTICO.
Já estudamos que estatísticas amostrais como médias e proporções podem servir de
estimativas pontuais dos correspondentes parâmetros populacionais. E, em razão da
variabilidade amostral, as estatísticas amostrais tendem a aproximar, ao invés de igualar, os
parâmetros da população.
Daí, o ponto capital no teste de significância é se a diferença entre o valor alegado de
um parâmetro populacional e o valor de uma estatística amostral pode ser razoavelmente
atribuído à variabilidade amostral ou se a discrepância é demasiado grande para ser
encarada assim.
Seja, então, X uma v.a. que representa o valor numérico associado ao resultado de certo
experimento. Digamos que esta v.a. possua distribuição de probabilidade dependendo de um
“parâmetro desconhecido” que pressupomos ser um elemento de certo conjunto chamado o “espaço
do parâmetro” (  ).

115
Consideremos, então, a hipótese de que o verdadeiro valor de um parâmetro , encontra-se
em certo subconjunto 0, contra a hipótese alternativa de que  se encontra no complementar 1 =
 - 0. Então, as hipóteses a serem testadas são dadas por:

   0


  
 1

Logo, para nos decidirmos qual a hipótese verdadeira, devemos, em princípio, repetir o
experimento n vezes (independentemente) de tal forma que os resultados nessas tentativas são v.a.
independentes X1, X2, ..., Xn, todas possuindo a mesma distribuição de X, obviamente. Numa dada
sequência de tentativas, duas variáveis Xi assumem valores determinados Xi ( i = 1, 2, ..., n );
conforme os valores assumidos é que podemos nos decidir por :    0 ou   1 .

Precisamente, seja S o espaço amostral que corresponde às n tentativas a que nos referimos, isto é,
temos S como o conjunto de todas as n-uplas ( X1, X2, ..., Xn ). Então, iremos definir uma região
crítica C  S, de tal forma que, se ( X1, X2, ..., Xn ) estiver em C, optaremos por    2 ,
enquanto se ( X1, X2, ..., Xn ) estiver em S - C, optaremos por   1 .

Resumindo: Ω = espaço do parâmetro populacional


S = f(x1, x2, ..., xn) = espaço amostral
θ = variável do teste (escolhida segundo certos critérios

Então,
H 0  0 <  e H 1  1 =  -  0 ,

onde  0 é chamada região crítica e 1 região de rejeição ( ou crítica).

Exemplo: Seja uma caixa contendo parafusos de diâmetro médio 10 ou 12 mm; suponha-se que
vamos testar:
Ho:   10mm contra H1:   12 mm. Tomando-se uma amostra de tamanho n, calculou-se X .

Daí:
 
- Se S0= X / X  11  aceita  se H 0 e S 0 é a região de aceitação;


- Se S1 = X / X  11   aceita  se H1 e S1 é a região de rejeição de H0.
Na realização de um teste de hipótese, dois erros podem ser cometidos, ou seja:

 Erro Tipo I: É aquele que se comete ao rejeitar a hipótese H0 dado que ela é correta; a
probabilidade desse erro será simbolizada por  e é definida pelo nível de significância
exigido no teste.

 Erro TipoII: É aquele que se comete ao aceitar a hipótese H0 dado que ela é falsa; a
probabilidade desse erro será simbolizada por . O poder do teste é dado por 1 - .

116
Esquematicamente, o quadro a seguir mostra as diversas situações que podem ocorrer num teste de
hipóteses:

  0   1
Realidade
H0 verdadeira Ho falsa
Decisão

Aceitar H0 (  S0 ) Decisão correta; Erro Tipo II;


probabilidade = 1    Probabilidade = 

Rejeitar H0 (  S1 ) Erro Tipo I; Decissão correta;


probabilidade =  Probabilidade = 1  

   
P θ̂  S1/θ  Ω 0  P θ̂  S1/H 0 verdadeira  α  P(erroTipo I)

   
P θ̂  S0 /θ  Ω1  P θ̂  S0 /H 0 falso  β  P(erroTipo II)

11.2 ELEMENTOS PARA OS TESTES DE HIPÓTESES

Faremos detalhes, a seguir, dos vários conceitos para a teoria dos “testes de hipótese”.
DEFINIÇÃO DE HIPÓTESE ESTATÍSTICA

O primeiro passo para a realização de um teste consiste em formular duas hipóteses


sobre a afirmação.
Hipóteses são suposições sobre a verdadeira natureza de um modelo para uma (ou
mais) população, que podem ser verdadeiras ou falsas. Ou ainda, as hipóteses são explicações
potenciais (teorias) que procuram levar em conta fatos observados em situações onde existem
algumas incógnitas.
Estas suposições podem ser com respeito à natureza do modelo, ou seja, saber qual o
tipo de distribuição usada (testes não-paramétricos); pode também dizer respeito aos valores de
determinados parâmetros da distribuição (testes paramétricos).

11.2.1 Tipos de hipóteses: H0 e H1

Temos duas hipóteses a testar :


a. A hipótese nula Ho é uma afirmação que diz que o parâmetro populacional é tal como
especificado (isto é, a afirmação é verdadeira). É a hipótese que queremos testar, e ela
poderá ser aceita ou rejeitada.

117
b. A hipótese alternativa H1 é uma afirmação que oferece uma alternativa à alegação, ou
seja, vai diferir da hipótese pré-fixada.

Quando a hipótese H0 é aceita, logicamente H1 é rejeitada e vice-versa. Assim, no caso de


um parâmetro , cujo espaço de parâmetros é , podemos ter :

H0 : θ ϵ Ω0 contra
H 1 : θ ϵ Ω1

11.2.2 Testes bilaterais e unilaterais

Nosso interesse em detectar desvios não-aleatórios (isto é, significativos) de determinado


parâmetro pode envolver desvios em ambas as direções ou apenas numa direção. Assim, em
sucessivas jogadas de uma moeda, esta pode ser considerada não equilibrada se aparece um número
muito grande, ou muito pequeno de caras. A hipótese alternativa seria simplesmente “a moeda não
é equilibrada”, e investigaríamos então desvios em ambas as direções. Entretanto, se estivéssemos
apostando, digamos, em caras, então nossa preocupação seria somente com um número muito
pequeno de caras. A hipótese alternativa seria “aparecem muito poucas caras” (isto é, a
probabilidade de cara é inferior a 0,50 ), e só estaríamos interessados então nesse tipo de desvio
não-aleatório do número esperado de caras.
Então, a hipótese alternativa é usada para indicar qual o aspecto da variação não-aleatória
que nos interessa. Há três casos possíveis:

a. concentrar em ambas as direções;


b. concentrar nos desvios abaixo do valor esperado; ou
c. concentrar nos desvios acima do valor esperado.

a) HIPÓTESE BILATERAL

* Para uma população NORMAL com  desconhecido:

 H 0:    0

H1:    0

** Para uma população BINOMIAL, com parâmetro p desconhecido :


H 0: p  p 0

H1: p  p 0

b) HIPÓTESE UNILATERAL À DIREITA

H :    0 H : p  p 0
*  0 **  0
H1:    0 H1: p  p 0

c) HIPÓTESE UNILATERAL À ESQUERDA

118
H :    0 H : p  p 0
*  0 **  0
H1:    0 H1: p  p 0
Exemplo: Simbolicamente, no caso da jogada de uma moeda, esses três casos poderiam ser escritos :
H0 : p = 0,50 contra:

 Caso 1. H1 : p  0,50 (ambas as direções : muitas caras ou poucas caras).


 Caso 2. H1 : p < 0,50 (desvio abaixo : poucas caras).
 Caso 3. H1 : p > 0,50 (desvio acima : muitas caras)

Na prática, os testes bilaterais se usam sempre que a divergência crítica é em ambas as


direções, tal como ocorre na fabricação de peças que devem se ajustar uma a outra, como parafuso
e porca.
O teste da cauda esquerda (unilateral à esquerda) é útil para verificar se determinado padrão
mínimo foi atingido. Exemplos: peso líquido de pacotes de determinado produto, vida de um
produto tal como especificado pelo fabricante. Já um teste de cauda direita é útil para testar se
determinado padrão máximo não foi excedido. Exemplos: teor máximo de gordura permitido em
certos tipos de leite, radiação emitida por usinas nucleares.

11.3 IDENTIFICAÇÃO DA DISTRIBUIÇÃO AMOSTRAL ADEQUADA

O “teste” consiste em verificar se uma estatística amostral observada pode razoavelmente


provir de uma população com o parâmetro alegado. O segundo passo no processo de teste de
significância consiste em identificar a distribuição amostral adequada, pois ela descreverá
completamente a variação.
Vejamos o seguinte exemplo: Inspeciona-se uma amostra de 142 peças de uma grande
remessa, encontrando-se 8% defeituosas. O fornecedor garante que não haverá mais de 6% de
peças defeituosas em cada remessa. O que devemos responder, com auxílio dos testes de hipóteses,
é se a afirmação do fornecedor é verdadeira.
A incógnita é a verdadeira porcentagem de peças defeituosas. O fato conhecido é que uma
amostra aleatória acusou 8% de defeituosas. Uma hipótese a ser testada é que a porcentagem
efetiva de defeituosas em todo o lote é maior que 6%. Outra hipótese seria a de que a afirmativa do
fornecedor é verdadeira. E se a afirmativa do fornecedor é verdadeira, qual será a razão de uma
amostra ter acusado 8% de defeituosas ? Uma possibilidade é que a variabilidade amostral tenha
sido responsável.
Então, para o exemplo, a distribuição amostral adequada é a normal (proporções amostrais
com um grande tamanho de amostra ( n = 142 ) ) com média p e desvio padrão

p  proporç ão populacional
p (1  p ) 
p  , onde 
n n  tamanho da amostra

 A hipótese H0 é que a verdadeira porcentagem de defeituosas é 6%, contra a alternativa de


que a porcentagem de defeituosas p é maior que 6%. Podemos escrever:

H 0: p  6%

H1: p  6%

119
 Assim, se a afirmação do fornecedor é verdadeira, nossa proporção amostral de 8% provém
de uma distribuição amostral com média de 6% e
( 0, 06)( 0, 94 )
p    p  0, 02 .
142

Podemos agora ver que nossa discrepância de 2% (= 8% - 6%) está a um desvio padrão acima
do valor esperado, supondo H0 verdadeira:

0, 08  0, 06
Z  1, 0
0, 02

Temos também que a probabilidade de obter uma discrepância superior a 8% é cerca de 16%
(15,87% ), como se vê abaixo; e isso parece sugerir que a discrepância pode ser devida apenas ao
acaso ( Aceitação de H0 ). Por outro lado, se tivéssemos uma proporção amostral, digamos, de 19%,
então:

0, 19  0, 06
Z   6, 5 ,
0, 02

e parece muito pouco provável que tal estatística amostral provenha de uma população com o
parâmetro alegado de 6%. (Isto leva à Rejeição de H0 ). É claro que nem todas as situações são
tão óbvias que possam ser tratadas “a olho”, como no exemplo acima.
É preciso, então, um método mais rigoroso para tratar o problema. A questão é: onde
podemos traçar a linha divisória entre o que pode ser considerado como variação casual e o que
deve ser considerado como variação significativa?

11.4 NÍVEL DE SIGNIFICÂNCIA DO TESTE (  )

A probabilidade de rejeitar uma hipótese nula (H0), quando ela é verdadeira, chama-se
nível de significância do teste. Daí, o terceiro passo num teste de significância consiste em escolher
um nível de significância () aceitável. Isto, por sua vez, indicará um “valor crítico”
correspondente, que servirá de padrão de comparação, em relação ao qual julgaremos uma
“estatística de teste” observada (por exemplo, a proporção amostral de 8% tem um Zteste = 1,0). A
essência de um teste de hipótese consiste então em particionar uma distribuição amostral - com
base na suposição de H0, ser verdadeira - em uma região de aceitação e uma região de rejeição para
H0 .
Escolhe-se um valor crítico com base numa probabilidade específica (que o pesquisador está
disposto a aceitar) de rejeitar uma hipótese H0 verdadeira. Calcula-se uma estatística teste com base
nos dados amostrais e no valor esperado (alegado), que é então comparado com o valor crítico.
Uma estatística teste que excede o valor crítico sugere a rejeição de H0 (isto é, que não é só a
variabilidade amostral que responde pela estatística teste observada), enquanto que uma estatística
teste inferior ao valor crítico sugere que H0 seja aceita.

11.5 ROTEIRO PARA TOMADAS DE DECISÕES DOS TESTES DE HIPÓTESES

1. Enunciar as hipóteses Ho e H1.

2. Determinar um nível de significância () aceitável.

120
Obs.: Segundo alguns autores , podemos considerar:

 = 1%  teste significativo a1% Cabe, então ao pesquisador, dentro da sua área de


 = 5%  teste significativo a5%
 > 10%  teste significativo a10% estudos, julgar a validade desse erro.

Devemos estabelecer se o teste é unilateral (superior ou inferior) ou bilateral (neste último caso,
o nível de significância é dividido por 2 , para efeito de determinação da variável do teste).

3. Determinação da região crítica do teste: de acordo com o  estabelecido, verificamos a


variável do teste que deve ser utilizada e determinamos o seu valor. Através desse valor,
marcamos a região crítica de rejeição da hipótese nula (Ho). Em alguns casos, a região crítica
pode ser estabelecida pela marcação das estatísticas limites correspondentes, em lugar dos
"scores”.

4. Escolha da estatística do teste: de acordo com a distribuição que está sendo considerada,
escolhe-se a variável do teste, obtida na amostra, de acordo com a fórmula correspondente,e
calcula-se o seu valor.

5. Decisão final: testamos a seguir a estatística apurada na amostra, determinando o valor do


"score” que lhe corresponda. Se este "score” cair na região crítica, rejeitamos a hipótese nula
(Ho). Quando o "score” cai na zona de aceitação, devemos afirmar que baseado nas
informações colhidas na amostra, não temos evidências estatísticas para o nível de significância
determinado que leve a rejeição de H0 . É importante afirmar a aceitação de H0 pode

Observações:

1. Embora tenhamos optado pelo roteiro acima, na prática , duas outras possibilidades podem
surgir:

a) determinar a regra de decisão , para em seguida calcular o valor de  e ;


b) determinar os valores de  e , inicialmente, para em seguida chegarmos a uma
regra
de decisão.

2. Nas aplicações práticas é comum apenas a especificação do erro do tipo I (), porém os
resultados obtidos dessa maneira poderão fornecer induções errôneas.

11.6 TIPOS DE ERRO

Como já comentamos, existem dois tipos de erro inerentes ao processo de teste de


significância, ERRO TIPO I (Comete-se esse erro rejeitando-se H0 quando H0 é verdadeira, e a
sua probabilidade é igual ao nível de significância de um teste de hipótese - ) e ERRO ERRO
TIPO II (aceitar a hipótese H0, quando H0 é falsa - cuja probabilidade é dada por ).
Naturalmente, espera-se que H0 seja aceita quando verdadeira e rejeitada quando falsa.

121
11.7 TIPOS DE TESTES DE HIPÓTESE

1. TESTE PARA A MÉDIA POPULACIONAL  :

a. quando  é conhecido;
b. quando  é desconhecido

2. TESTE PARA A PROPORÇÃO POPULACIONAL p.

3. TESTE PARA A DIFERENÇA DE MÉDIAS DE DUAS POPULAÇÕES:


a. quando as variâncias populacionais são conhecidas;
b. quando as variâncias populacionais são desconhecidas.

4. TESTE PARA A DIFERENÇA DE PROPORÇÕES DE DUAS POULAÇÕES.

5. TESTE PARA A VARIÂNCIA POPULACIONAL.

6. TESTE PARA O QUOCIENTE DE VARIÂNCIAS.

Observação: Estes testes são chamados PARAMÉTRICOS. Os testes NÃO-PARAMÉTRICOS


testam a natureza da distribuição da população.
*******************
RESUMO DO PROCEDIMENTO PARA SE REALIZAR UM TESTE DE HIPÓTESE

1º) Enunciar as hipóteses Ho e H1.

2º) Fixar o limite de erro e  e identificar a variável do teste, obtido na amostra.

3º) Determinar a região crítica em função da variável tabelada.

4º) Calcular o valor da variável do teste, obtido na amostra.

5º) Conclusão. Rejeitar ou não H0 baseado na comparação dos valores crítico obtido no

11.7.1 Teste de significância para a média populacional 

11.7.1.1 Com  conhecido

Utiliza-se um teste de uma amostra para testar uma afirmação sobre uma única média
populacional. Extraem-se n observações e calcula-se a média amostral. Conhecido já o desvio
padrão da população, poderemos testar a hipótese bilateral, unilateral à direita ou unilateral à
esquerda, dependendo do interesse do que queremos verificar. Escolhido o nível de significância (

122
), encontra-se o valor crítico (testes unilaterais) ou os valores críticos (testes bilaterais). Calcula-
se o valor da estatística teste, que será baseada na distribuição normal, para amostras extraídas de
uma população com distribuição normal e  conhecido, ou de uma população que não seja normal,
mas a amostra seja suficientemente grande ( n  30 ).

( 1 ) FORMULAÇÃO DAS HIPÓTESES :


H0 :  = 0 contra

a) H1 :   0  teste bilateral
b) H1 :  > 0  teste unilateral à direita
c) H1 :  < 0  teste unilateral à esquerda

x  0
( 2 ) ESTATÍSTICA TESTE: Zteste = ~ N( 0 , 1 )
/ n

( 3 ) NÍVEL DE SIGNIFICÂNCIA (  ) E DEFINIÇÃO DO(S) VALOR(ES) CRÍTICOS (S).

( 4 ) DECISÃO FINAL  Aceitação ou rejeição da hipótese H0.

H0 será rejeitada se:

a) | Zteste | > Z b) Z teste > Z c) Z teste < - Z


2

Exemplo: Uma empresa compra lingotes de aço de uma siderúrgica, exigindo sua especificação que o
peso médio dos mesmos seja de 100 Kg , com desvio padrão de 4Kg (suposto, de início , independente de
peso médio). Ao receber um grande lote de lingotes , a empresa tomou uma amostra aleatória de 25
lingotes e sua decisão, de aprovar o lote é se o peso médio for superior ou igual a 98 Kg. Assim , essa
empresa irá testar a hipótese de que o peso médio é 100 Kg, contra a hipótese alternativa de que ele seja
inferior a 100 Kg ; evidentemente, neste exemplo, o comprador não está preocupado que o peso médio
seja superior a 100 Kg, por contrariar sua suspeita e, porque, isso seria até vantajoso para ele. Então:

Ho:  = 100 Kg contra


H1:  < 100 Kg.

Conforme já demonstrado anteriormente , tem-se :

 
E X = = 100 e  
Var X = 2/n = 16/25 = 0,64   x  0,8.

Supondo normalidade , vem :

123
Z
98  100
  2 ,5 
1     0,4938 
2
0,8 2

  = 0,5000-0,4938 = 0,0062  0,62 %.

Vê-se, pois, que existe uma probabilidade ’ = 0,62% de que, mesmo sendo a hipótese Ho
verdadeira, X assuma valor na faixa que leva à rejeição de H0, de acordo com o critério adotado.
Nesse caso o comprador iria rejeitar H0, sendo ela verdadeira.

Importante: O valor ’ = 0,62% foi determinado a partir dos dados amostrais (por isto
denominamos ’). Este valor é chamado de Nível Descritivo do Teste (ou p-valor, ou p-value). O
nível de significância é dado por , e é definido pelo pesquisador. Assim, para  > 0,62%
rejeitamos a hipótese H0.

Por outro lado, poderiam ocorrer situações em que a hipótese H0 fosse falsa, ou seja, na
realidade  < 100 Kg , e a média da amostra assumisse um valor maior que 98 Kg, levando a
aceitação de H0 (o comprador iria então, cometer um erro Tipo II); sua consequência, no caso, seria
adquirir um lote insatisfatório.
Nesse exemplo, fixada a região crítica do teste, calculou-se a probabilidade ’ (associado ao erro
Tipo I); inversamente, dado  (nível de significância), pode-se determinar o limite da região
crítica. Esse último procedimento é o que em geral se faz, na prática. Assim, nesse mesmo
exemplo, fixado  = 5%, o limite X1 da região crítica é calculado assim :

X1  100
Z0,05 = - 1,64 =  X 1  9 8 ,6 8 K g .
0 ,8

X1  100
Para  = 1%, tem-se : Z0,01 = 2,33 =  X1  98,14.
0,8

 Portanto, se o valor de X observado for inferior a 98,14 Kg rejeita-se a hipótese Ho ao nível


de 1% de significância (o que implica que há também rejeição para  = 5%) . Se X for
superior a 98,68 Kg , aceita-se Ho para  = 5% (o que implica automaticamente na aceitação
para  = 1%). Se, por outro lado, ocorrer: 98,14 < X < 98,68 Kg, Ho será rejeitada para  =
5% e aceita para  = 1%; isto significa que, se foi admitido realizar um teste sujeito a um
risco de 5% de probabilidade de cometer o erro do Tipo I , a evidência amostral terá sido
significativa no sentido de permitir a rejeição de H0, o que não teria ocorrido se houvesse sido
exigido risco de 1%.

1. Um processo de fabricação de arame de aço oferece resistências normalmente distribuídas


com desvio padrão de 20 psi. O fabricante garante uma resistência média de 200 psi (no
mínimo). Um engenheiro de controle de qualidade, ao adquirir um grande lote para sua
empresa, deseja testar a afirmação do fabricante. Considera-se uma amostra de tamanho 25,
encontrando-se uma resistência média de 190 psi. Usando um nível de significância de 5%,
qual a sua conclusão ?

11.7.1.2 Com  desconhecido

PROCEDIMENTO:

124
( 1 ) HIPÓTESES:
H0 :  = 0 contra

a) H1 :   0
b) H1 :  > 0
c) H1 :  < 0

( 2 )   R.C. ( Idem, 3.1 )

( 3 ) ESTATÍSTICA DO TESTE

Será baseada na distribuição “t” de STUDENT, com (n-1) graus de liberdade, pois  é
desconhecido e considerando-se a população normalmente distribuída. Temos, então:

X  0
tteste = ~ t-student com (n-1) graus de liberdade ( para n  30  t ~ Z )
S/ n

( 4 ) DECISÃO FINAL :
Rejeita-se H0 se :

a) | tteste | > t/2 b) tteste > t c) tteste < - t.

Exemplo: Com a finalidade de acelerar o tempo que um analgésico leva para penetrar na corrente
sanguínea, um químico analista acrescentou certo ingrediente à fórmula original, que acusava um tempo
médio de 43 minutos. Em 25 observações com a nova fórmula, obteve-se um tempo médio de 42
minutos, com desvio padrão de 6 minutos. Suponha que a distribuição de tempos seja aproximadamente
normal. Que se pode concluir, ao nível de 5%, sobre a eficiência do novo ingrediente ?

11.7.2 Teste para a proporção populacional p

Quando a finalidade da amostragem é julgar a validade de uma alegação acerca de uma


proporção populacional, é apropriado um teste de uma amostra.

PROCEDIMENTO:

( 1 ) HIPÓTESES :
H0 : p = p0 contra

a) H1 : p  p0
b) H1 : p > p0
c) H1 : p < p0

( 2 )  e R.C. ( iguais ao teste para a média )

( 3 ) DISTRIBUIÇÃO AMOSTRAL

A estatística teste, como estamos considerando amostras suficientemente grandes, recai na


distribuição normal (reduzida) dada por :

125
p  p 0 x
Z teste  ~ N( 0, 1 ), onde p  =f
p 0 (1  p 0 ) n
n

( 4 ) H0 será rejeitada se :

a) | Zteste | > Z b) Z teste > Z c) Z teste < - Z


2

Exemplo: Um fabricante produz válvulas com 2% de defeitos. Tentando melhorar a qualidade das suas
válvulas, comprou novas máquinas. E, ao testar 200 válvulas produzidas por estas novas máquinas,
encontrou 3% de defeituosas. Podemos afirmar que o fabricante piorou a qualidade das suas válvulas?
Use  = 1 %.

11.7.3 Teste para a diferença de médias ou teste de duas amostras para médias

A finalidade de um teste de duas amostras é decidir se as médias de duas populações são


iguais. Consideram-se duas amostras independentes, uma de cada população (isto é, de grupos
diferentes : dados antes-depois não podem ser avaliados dessa maneira). Os testes de duas amostras
são usados para comparar dois tipos de máquinas, duas marcas, dois métodos de ensino.
Os testes focalizam a diferença relativa entre as médias de duas amostras, uma de cada
população. Esta diferença é dividida pelo desvio padrão, supondo H0 verdadeira (H0: 1 =2). Em
tal caso, as duas amostras podem ser consideradas como provenientes da mesma população, e
mediante combinação das variâncias das duas populações (ou das duas amostras, se as variâncias
das populações são desconhecidas), pode-se determinar a variância global.

PROCEDIMENTO:

( 1 ) HIPÓTESES

H :    2 H :    2 H 0: 1   2
a)  0 1 b)  0 1 c) 
H1:  1   2 H1:  1   2 H1:  1   2

( 2 ) ESCOLHA DA DISTRIBUIÇÃO AMOSTRAL ( ESTATÍSTICA-TESTE )

i) 1 e 2 conhecidos: Sob a alegação de que H0 é verdadeira 1   2  :

126

VERDADEIRO P / SEGUINTES CASOS:

X1  X2 
Z teste  ~ N (0,1)  1)As duas populaç ões são normais
 12  22 2)( n1  n 2 )  30
 
n1 n 2 
*Re sultados do T. L. C.

ii) 1 e 2 desconhecidos: Sob alegação de que H0 é verdadeira 1   2  e desde que se possa
admitir que ambas as populações sejam aproximadamente normais:

X1  X 2
tteste = ~ t *( n1  n 2  2 ) , para 12   22
 ( n1  1)S2  ( n 2  1)S2 
 X1 X2  1  1 
 n1  n 2  2  n1 n 2 
 

X1  X 2
t teste  ~ t *( n1  n2  2) , para 12   22
2 2
S X1 S X2

n1 n2

( 3 ) VALOR(ES) CRÍTICO(S)

( 4 ) Rejeita-se H0 se :

a) | Zteste | > Z/2 ou | tteste | > t/2

b) Zteste > Z ou tteste > t

c) Zteste < - Z ou tteste < - t

11.7.4 Teste de Hipóteses para Razão de Variâncias

 σ12
a) σ 22  Co

σ12  2
1) H 0 :  Co contra H 1 : b) σ 1 2  Co
σ 22  σ2
 σ12
c) σ 2  Co
 2

127
s 22
2) Estatística teste Fteste   Co ~ F(r2 , r1 ) , onde
s12

s12  variância amostral do grupo 1


s 22  variância amostral do grupo 2

r1 = (no de observações do grupo 1) - 1


r = (no de observações do grupo 2) - 1
2

12
Co = valor hipotético para a razão
 22

3) Região crítica (R.C.)

4) Rejeita-se H0 se :

a. Fteste  F ( r2 , r1 ) ou Fteste  1 F ( r , r )
2  2 1
2
b. Fteste  F ( r2 , r1 )
2
1
c. Fteste 
F ( r1 , r2 )
2

EXEMPLOS

1) Duas amostras, com dez e quinze elementos, extraídas de populações normais, forneceram
variâncias respectivamente iguais a 6,34 e 18,7. Ao nível de 5% de significância, devemos aceitar
que as populações tenham o mesmo grau de dispersão?

Solução : Devemos testar

 12  12
H0 :  1 contra H1 : 1
 22  22

18, 7
Neste caso Fteste   1  2 , 95
6, 34
F0(,r025
2 , r1 )
 F0,025 (14; 9 )  3, 77
1  1  1 3, 21  0, 03115
F0(,r025
1 , r2 )
F0(,9025
,14 )

Logo

128
Fteste  F ( r2 ; r1 )
2

Fteste  F ( r1 ; r2 )
2

Assim, não rejeitamos H0.

2) Duas amostras apresentaram as seguintes características.

Amostra 1
 ( xi  x ) 2  12,5
x  35,2
n6
Amostra 2
 ( yi  y ) 2  6,3
y  36,7
n  10

Pode-se afirmar, ao nível de 5% de significância, que haja diferença de homogeneidade


entre as duas populações?
Solução :

12,5 6,3
s12   2,5 s 22   0,7
5 9
As hipóteses a testar são:

12
H 0: 1
 22
12
H1: 1
 22
0, 7
Fteste   0, 28
2, 5
F0(,9025
;5)
 6, 68  Fteste

1 1
F0(,9975
;5)
 (5;9 )
  0, 22  Fteste
F0,025 4 , 48

Então, não rejeita-se H0.

EXEMPLOS:

1) Duas marcas de serras contínuas estão sendo examinadas para uso numa fábrica de mobiliário. A
marca A custa mais caro, mas supõe-se que mantenha o fio durante mais tempo que a marca B.
Os tempos de vida são normalmente distribuídos, com A = 2,5 dias e B = 2,7 dias.
Considerou-se 5 lâminas instaladas da marca A e 5 da marca B, apresentando X A  25, 2 dias e

129
X B  23, 4 dias. Pode-se concluir que as lâminas das duas marcas tenham o mesmo tempo médio
de vida ? Use  = 5% e suponha normalidade das populações.

2) Duas marcas de tintas são testadas quanto ao tempo de secagem. Os resultados estão a seguir :

RESULTADOS MARCA A MARCA B


n 15 10
X (h) 4 5
S (h) 1 1,2

Supondo os tempos de secagem normalmente distribuídos, podemos concluir que a marca A


apresenta melhores resultados ? Use  = 1%.

3) Uma empresa está estudando duas marcas de pneus A e B. Testou 11 pneus de cada marca,
quanto a durabilidade, e constatou : para a marca A uma média de 23.600 Km e um desvio
padrão de 3.200 Km e, para a marca B, uma média de 24.800 Km e um desvio padrão de 3.700
Km. Ao nível de 5%, testar a hipótese de igualdade das duas variâncias populacionais, contra a
alternativa da variância de A ser menor que a variância de B.

11.7.5 Teste de duas amostras para proporções

A finalidade de um teste de duas amostras é decidir se as duas amostras independentes


foram extraídas de duas populações, ambas com a mesma proporção de elementos com
determinada característica. O teste focaliza a diferença relativa (diferença dividida pelo desvio
padrão da distribuição amostral) entre as duas proporções amostrais.

PROCEDIMENTO:

( 1 ) HIPÓTESES :
H : p  p 2 H : p  p 2 H 0 : p1  p 2
a)  0 1 b)  0 1 c) 
H1: p1  p 2 H1: p1  p 2 H1: p1  p 2

( 2 ) ESTATÍSTICA-TESTE :
Sob H0 verdadeira :
 x1 x
p1  , p 2  2
p 1  p 2  n1 n2
Z teste  ~ N (0,1), onde
1 1 p*  x1  x2
p * (1  p*)    (**)
 n1  n2
 n1 n 2 

(**) H0: p1 = p2. Se a afirmativa é verdadeira, então as duas amostras, extraídas de duas populações, podem
ser encaradas como duas amostras da “mesma” população. Daí, usamos essa estimativa combinada de p.
( 3 ) e ( 4 ) Idem, igual aos outros testes.

130
Exemplo: Estão em teste 2 métodos potenciais para fechar garrafas. Numa sequência de 1000, a máquina
A gera 30 rejeições, enquanto que a máquina B acusa apenas 20 rejeições. Pode-se concluir, ao nível de
5%, que a máquina B é melhor que a A?

131