Montes Claros
Agosto/2009
I – OS MÉTODOS ESTATÍSTICOS: finalidade e aplicações; conceitos básicos de Estatística.
1 - O que é Estatística?
A Estatística é uma parte da Matemática Aplicada que fornece métodos para coleta, organização,
descrição, análise e interpretação de dados e para a utilização dos mesmos na tomada de decisões.
A coleta, a organização e a descrição dos dados estão a cargo da Estatística Descritiva, enquanto a
análise e a interpretação desses dados ficam a cargo da Estatística Indutiva ou Inferencial.
Em geral, as pessoas quando se referem ao termo estatística, o fazem no sentido da organização e
descrição dos dados (estatística do Ministério da Educação, estatística dos acidentes de tráfego, etc.),
desconhecendo que o aspecto essencial da Estatística é o de proporcionar métodos inferenciais que
permitam conclusões que transcendam os dados obtidos inicialmente.
Assim, a análise e a interpretação dos dados estatísticos tornam possível o diagnóstico de uma
empresa (por exemplo, de uma escola), o conhecimento de seus problemas (condições de funcionamento,
produtividade), a formulação de soluções apropriadas e um planejamento objetivo da ação.” (CRESPO
1997).
2
2 – Conceitos básicos de Estatística
2.1 – População
É uma coleção completa de todos os elementos (valores, pessoas, medidas, etc.) a serem estudados.
2.2 – Censo
É uma coleção de dados relativos a todos os elementos da população.
2.3 – Amostra
É um subconjunto da população.
2.4 – Um parâmetro
É uma medida numérica que descreve uma característica da população.
2.7 – Experimento
Tipo de estudo em que se aplica determinado tratamento e observa-se seu efeito sobre os elementos a
serem pesquisados.
3
Exemplos: o número de operários de uma grande construção é uma variável quantitativa discreta porque
representa uma contagem; já o peso desses operários é uma variável quantitativa contínua porque
representa mensurações que podem tomar qualquer valor em um intervalo contínuo.
Exemplos:
Respostas do tipo “sim”, “não” ou “indeciso”.
O sexo dos estudantes em uma turma de matemática.
Exemplos:
Um editor classifica alguns originais como “excelentes”, alguns como “bons” e alguns como “maus”.
(Não podemos determinar uma diferença quantitativa entre “bom” e “mau”, por exemplo).
Nas olimpíadas de matemática, João foi classificado em 3º; Carlos em 7º e Joana em 10º lugar.
(Podemos determinar a diferença entre os 3º e 7º lugares, mas a diferença de 4 não tem qualquer
significado).
Exemplos:
Os anos 1000, 2000, 1776 e 1944. (O tempo não começou no ano zero e, assim, o 0 é arbitrário, e não
um ponto de partida zero natural).
As temperaturas anuais médias (em graus Celsius) das capitais brasileiras.
Exemplos:
Pesos dos artigos de material plástico descartado pelas residências (0 kg indica que nenhum plástico
foi descartado, e 10 kg representa duas vezes 5 kg).
Duração (em minutos) de filmes.
Distâncias (em km) percorridas por carros em um teste de consumo de consumo de combustível.
4
4 – AMOSTRAGEM
São as técnicas utilizadas para se extrair a amostra da população. A amostragem pode ser probabilística ou
não probabilística. Na amostragem probabilística são realizados sorteios para alocação dos elementos da
amostra, já na amostragem não probabilística não se procede ao sorteio. O tamanho da população é,
geralmente, designado por N e o tamanho da amostra por n.
Procedimento:
Enumera-se a população de 1 a N
Sorteiam-se os indivíduos.
Antigamente, os sorteios eram feitos por meio de tabelas de números aleatórios. Hoje em dia, utiliza-
se uma calculadora científica ou, o que é mais comum, um software estatístico.
Exemplo
Uma população é composta de 200 indivíduos. Retire uma amostra de tamanho 10, utilizando sua
calculadora científica.
Amostra: ____ ____ ____ ____ ____ ____ ____ ____ ____ ____
Procedimento:
n
Calcula-se a fração de amostragem dada por: f
N
Calcula-se o tamanho da amostra em cada estrato, fazendo-se: n i f N i
Sorteiam-se os indivíduos em cada estrato.
Exemplo
Uma população é composta por 7820 indivíduos distribuídos em três estratos que apresentam as seguintes
quantidades de elementos: N1 = 3270; N2 = 2680 e N3 = 1870. Se se deve retirar uma amostra de tamanho
n = 1564, qual deve ser a quantidade de indivíduos a ser sorteada em cada estrato?
n 1564
f 0,20
N 7820
Procedimento:
N
Calcula-se o fator de sistematização ou intervalo de seleção, dado por: F
n
Sorteia-se um indivíduo no intervalo [1 ; F], que será o primeiro elemento da amostra.
Os demais elementos são obtidos somando-se sucessivamente o valor do intervalo de seleção
Exemplo
Retirar uma amostra de tamanho n = 10 de uma população ordenada composta de 80 elementos.
N 80
F 8
n 10
Amostra: ____ ____ ____ ____ ____ ____ ____ ____ ____ ____
Procedimento:
Especifica-se o sistema de referência (conglomerados)
Sorteiam-se alguns conglomerados
Pesquisam-se todos os indivíduos dos conglomerados sorteados.
Exemplo
Estimar o número médio de domicílios com aquecedor solar em uma grande cidade.
Como a amostragem aleatória simples, neste caso, necessita de uma listagem de todas as casas, ela se
torna inviável. A amostragem estratificada também é inviável, pois necessitaria da listagem dos
domicílios. A melhor escolha é a amostragem por conglomerado que pode ser realizada do seguinte
modo:
A fim de descrever uma amostra (ou uma população), é conveniente o cálculo de algumas medidas que a
caracterizam. Estas medidas quando bem interpretadas fornecem informações valiosas sobre o conjunto
de dados.
A rigor, tais medidas são calculadas com o objetivo de produzir uma síntese numérica que represente o
conjunto de dados. Por exemplo, quando dizemos que a nota média de uma turma, em uma prova, foi 70
6
pontos; esta média, se consistente, equivale ao valor que sintetiza satisfatoriamente a nota da turma como
um todo.
Essas medidas se classificam em dois grandes grupos: as medidas de tendência central (média, mediana e
moda) e as medidas de dispersão ou variabilidade (variância, desvio padrão, coeficiente de variação).
Além destas, há o escore padronizado que é uma medida que tenta captar a posição relativa de um
indivíduo dentro de um grupo.
Cada uma dessas medidas será discutida aqui com mais detalhes.
x
x i
Pesos: 90 94 80 70 92 70 72
x
x i
90 94 80 70 92 70 72 568
81 kg
n 7 7
A mediana é o valor que ocupa a posição central da amostra. Para calcular a mediana, os dados devem
estar ordenados (geralmente do menor para o maior valor). Para realizar o cálculo da mediana, é
necessário verificar se o tamanho da amostra (n) é par ou ímpar.
1º caso: n é ímpar
Neste caso, a mediana é o valor que ocupa exatamente a posição central. Em linguagem matemática, este
x n 1 n 1
valor pode ser designado por . Ou seja, a medida do indivíduo que ocupa a posição . Para o
2 2
exemplo anterior, como n = 7, tem-se:
x n1 x 71 x4
Termo central: Portanto, o valor da mediana é a medida do indivíduo que está
2 2
Interpretação da mediana
Como a mediana ocupa a posição central, podemos no presente exemplo dizer que 50% dos alunos
tiveram pesos menores ou iguais a 80 kg e os outros 50% pesos maiores ou iguais a 80 kg.
2º caso: n é par
7
Neste caso, é preciso identificar os dois termos centrais e calcular a média entre eles. O valor obtido é
considerado a mediana. Matematicamente, as ordens (posições) dos dois termos centrais são dadas por: o
x
primeiro n e o segundo por x n . 1
2 2
Exemplo: amostra de pesos em kg de 6 alunos de uma turma.
80 90
Portando: Md = Md = 85 kg
2
Pesos: 70 70 72 80 90 92 94
Caso existissem dois valores distintos com maior freqüência (por exemplo: 70, 70 e 90, 90), dir-se-ia que
a série é bimodal com modas 70 e 90.
Quando cada valor da amostra ocorre com a mesma freqüência, dizemos que não há moda (a série é
amodal).
Pesos: 90 94 80 70 92 70 72
A questão que se coloca aqui é a seguinte: qual das três medidas de tendência central deve ser utilizada
para sintetizar o conjunto de dados?
A medida mais utilizada é a média aritmética simples, principalmente porque o seu cálculo envolve todos
os valores do conjunto de dados; enquanto a mediana envolve um, no máximo dois, valores da amostra.
Assim, se não houver nenhuma assimetria acentuada nos dados, utiliza-se a média. Quando a assimetria é
muito forte, significa dizer que há alguns poucos indivíduos na amostra cujos valores são muito altos (ou
muito baixos) e a média tende a ficar superestimada (ou subestimada) e, portanto, não sintetizando ou
representando bem a amostra. Neste caso, é recomendável utilizar a mediana. Já a moda é uma medida
que capta um valor típico dos dados.
No exemplo em questão, há uma ligeira assimetria nos dados, pois, a moda é menor que a mediana que,
por sua vez, é menor que a média. Entretanto, como média e mediana são relativamente próximas (81 e
8
80, respectivamente), a princípio, pode-se optar por sintetizar a amostra de pesos dos alunos com a média
aritmética simples.
O tópico seguinte (medidas de dispersão) avalia melhor a representatividade da média.
As medidas de dispersão ou variabilidade servem para avaliar a concentração dos valores da amostra em
torno da média. Neste sentido, elas auxiliam no estudo sobre a representatividade da média aritmética
simples em um conjunto de dados, na medida em que quanto menor for a dispersão – aqui entendida
como o afastamento das medidas dos indivíduos tomando como referência a média –, maior é a
representatividade desta. Em outras palavras: se a medida de variabilidade for “pequena”, então realmente
a maioria dos valores da amostra se concentra em torno da média, fazendo com que esta represente ou
sintetize bem o conjunto de dados.
x 2
i x
s 2
n 1
A rigor, o denominador desta expressão deveria ser n. Entretanto, por razões relacionadas à inferência
estatística, pode-se mostrar que é conveniente dividir a soma dos quadrados das diferenças por n – 1.
Retomando o exemplo da amostra dos pesos de 7 alunos, e lembrando que x 81, a variância é:
Pesos: 90 94 80 70 92 70 72
x 2
s 2
i x
90 81 2 94 81 2 80 81 2 70 81 2 92 81 2 70 81 2 72 81 2
n 1 7 1
s 2
9 13 1 11 11 11 9
2 2 2 2 2 2 2
81 169 1 121 121 121 81 695
116 kg2
6 6 6
x 2
i x
s
n 1
9
Para o exemplo anterior, como a expressão sob o radical já foi calculada, o desvio padrão é:
s 116 kg 2 10,8 kg
Conclusão: a amostra revelou uma média foi de 81 kg com um desvio padrão de 10,8 kg.
s
O coeficiente de variação é dado por: CV . Esta expressão pode ser multiplicada por 100 de modo
x
que o CV possa ser expresso em percentagem.
8 15
CV A 0,10 CV B 0,16 .
78 92
10
5.4 – Estudo do escore padronizado (Zi)
“No contexto de um único conjunto de dados, o desvio padrão pode ser interpretado intuitivamente como
unidade natural de dispersão dos dados. Essa interpretação é utilizada na construção de “escores
padronizados”, de larga aplicação em medidas educacionais. O problema é o seguinte: em uma escala de
0 a 10, a nota 6 em uma prova em que a nota máxima foi 6 é muito mais do que a mesma nota 6 em uma
prova em que a nota máxima foi 9. Uma forma de captar essa diferença é considerar a nota do aluno como
a sua posição relativa no grupo.” (SOARES, 1991)
Deste modo, enquanto o coeficiente de variação compara grupos, o escore padronizado capta a posição da
medida de um indivíduo dentro do grupo. O escore padronizado é dado por:
xi x
Zi . Onde x i é a medida do i-esimo indivíduo.
s
Retomando o exemplo das notas da prova de Cálculo I das turmas A e B do 1º período de Engenharia
Civil, suponha que o João é aluno da turma A e tirou 85 pontos na prova; já a Maria é aluna da turma B e
tirou 90 pontos no teste. A questão é: em termos relativos, qual dos dois alunos, João ou Maria, obteve
melhor desempenho?
Estatísticas das notas de um teste de língua portuguesa
Estatísticas
Turmas s
x
A 78 8
B 92 15
85 78 90 92
ZJ 0,875 ZM 0,133
8 15
Conclusão: embora Maria tenha uma nota superior à do João, em termos relativos a pontuação obtida por
João é melhor do que a de Maria, pois (0,875 > – 0,133).
Notação:
i: são as classes
xi: valores assumidos pela variável
fi: freqüência simples ou absoluta
fri: freqüência relativa simples
Fi: freqüência acumulada
n: equivale ao Σ fi
11
TABELA 1
Distribuição de freqüência das idades em anos de uma amostra de alunos
i xi fi fri Fi
1 19 8 0,121 8
2 20 12 0,182 20
3 22 17 0,258 37
4 25 13 0,197 50
5 27 12 0,182 62
6 30 4 0,060 66
Σ 66 1,000
Além da notação anterior, usa-se o símbolo | para designar o intervalo fechado à esquerda e aberto à
direita. Além disso, o xi é o ponto médio da classe.
Para determinar o número de classes, i, e a amplitude do intervalo não há um critério fixo. Entretanto, é
comum, para determinar o número de classes, usar-se a fórmula: i = 1 + 3,3(logn). E para determinar a
AA
amplitude do intervalo, h, pode se utilizar: h , onde AA é a amplitude amostral e corresponde à
i
diferença entre o maior e o menor valor do rol (o rol são os dados ordenados).
Exemplo: Rol das estaturas (em cm) de 40 alunos do colégio A. (Retirado do livro “Estatística Fácil”)
150 154 155 157 160 161 162 164 166 169
151 155 156 158 160 161 162 164 167 170
152 155 156 158 160 161 163 164 168 172
153 155 156 160 160 161 163 165 168 173
TABELA 2
Distribuição de freqüência das estaturas (em cm) de uma amostra de 40 alunos
i Intervalo xi fi fri Fi
1 150 | 154 152 4 0,100 4
2 154 | 158 156 9 0,225 13
3 158 | 162 160 11 0,275 24
4 162 | 166 164 8 0,200 32
5 166 | 170 168 5 0,125 37
6 170 | 174 172 3 0,075 40
Σ 40 1,000
|__________|__________|____________________|____________________|__________|____________|
Min P1 P2 P50 P98 P99 Max
º
k n
Para calcular um percentil qualquer, devemos encontrar a odem do percentil do seguinte modo:
100
Exemplo - Altura (cm) de uma amostra de 40 estudantes.
150,2 154,2 155,9 157,4 160,2 161,0 162,1 164,2 166,8 169,5
151,3 154,6 156,1 158,5 160,5 161,2 162,9 164,4 167,9 170,7
152,4 155,3 156,5 158,9 160,7 161,5 163,3 164,9 168,1 172,4
153,5 155,7 156,8 160,1 160,9 161,9 163,8 165,0 168,8 173,5
Calcular:
a) P10
b) P25
c) P67
d) P97
13
Resolução
º º
k n 10 40
a) 4º termo. Portanto: P10 = 153,5
100 100
º º
k n 25 40
b) 10º termo. Portanto: P25 = 156,1
100 100
º º
k n 67 40
c) 26,8º . Portanto, o P67 será a média entre o 26º e 27º termos. Logo;
100 100
162,9 163,3 326,2
P67 163,1
2 2
º º
k n
97 40
d)
100 100 38,8º . Portanto, o P97 será a média entre o 38º e 39º termos. Logo;
170,7 172,4 343,1
P97 171,55
2 2
5.6.1 – Percentis especiais: Quartis (Qk)
Os quartis dividem a série estatística em 4 partes iguais. São eles: primeiro quartil (Q 1), segundo quartil
(Q2) e terceiro quartil (Q3). O primeiro quartil corresponde ao percentil 25; o segundo quartil é o percentil
50 (que coincide com a mediana) e o terceiro quartil é o percentil 75.
|__________|__________|__________|__________|
Min Q1 Q2 Q3 Max
Para o exemplo Q1 = 156,1 (que corresponde ao P25) e Q3 = 164,4 (que equivale ao P75 – confira!).
xp
x p i i
p i
Onde xi são os valores da variável e pi são os pesos. A média aritmética simples é uma média ponderada
onde os pesos são iguais.
EXERCÍCIOS – LISTA 1
1) Para cada uma das descrições abaixo, indique o seu significado escolhendo um dos seguintes
conceitos: população, um parâmetro, censo, variáveis quantitativas, variáveis qualitativas, variáveis
discretas, experimento, uma estatística, estudo observacional.
a) Coleção completa de todos os elementos, com pelo menos uma característica comum, a serem
estudados.
b) Consistem em números que representam contagens ou medidas.
c) Medida numérica que descreve uma característica numérica de uma população.
d) Resultam de um conjunto finito de valores possíveis, ou de um conjunto enumerável desses valores.
e) Coleção de dados relativos a todos os elementos de uma população.
f) Medida que descreve uma característica numérica de uma amostra.
g) Dados que podem ser separados em diferentes categorias que se distinguem por alguma característica
não numérica.
h) Situação em que verificamos e medimos características específicas, mas não modificamos os
elementos a serem estudados.
i) Situação em que modificamos as características de elementos a fim de verificar o efeito desta
modificação.
2) Dê um exemplo para cada um dos seguintes níveis de mensuração de variáveis: nominal, ordinal e
razão.
a) Uma pesquisa tenta captar a opinião da população sobre sua preferência em morar em casa ou
apartamento. _______________________________________
b) Em uma turma de educação física, estuda-se o efeito dos exercícios físicos sobre a pressão sanguínea,
determinando-se que metade dos estudantes ande mil metros cada dia, enquanto a outra metade corra
mil metros diariamente. ______________________________________________________________
d) A fim de aumentar a produtividade de tomate de sua plantação, um produtor faz um rígido controle
sobre a irrigação (quantidade de água diária) e a luminosidade (incidência de raios solares) nos
tomateiros de sua produção. ___________________________________________________________
4) Deve-se extrair uma amostra de tamanho n=600 de uma população de tamanho N=5.000, que consiste
de quatro estratos com as seguintes quantidades de elementos: N 1=3.000, N2=1.000, N3=800 e
N4=200. Se a alocação deve ser proporcional, qual o tamanho da amostra em cada estrato?
5) Retire uma amostra de tamanho n=10 de uma população ordenada composta de 200 elementos,
utilizando o processo de amostragem sistemática. Explique todo o procedimento adotado.
7) Construir uma tabela de distribuição de freqüência com intervalos de classe para os dados abaixo que
representam uma amostra de pesos (kg) do curso de Engenharia (veja exemplo da tabela 2 acima).
Utilizar as fórmulas vistas no conteúdo para definir o número de classes (i) e a amplitude do intervalo
(h).
42,1 43,7 45,1 46,2 47,1 47,8 49,3 50,2 50,4 51,3
52,1 52,7 53,0 53,8 54,0 54,7 55,8 55,9 56,7 56,9
15
57,1 58,3 59,7 60,1 60,1 60,1 61,0 62,1 62,9 63,0
63,7 63,9 65,8 66,9 67,0 67,9 68,0 70,2 72,1 74,5
75,0 75,2 75,8 76,0 78,2 79,3 80,2 82,7 84,1 90,1
8) Nos itens de a até f abaixo, calcule a média, a mediana, a moda, o desvio-padrão e o coeficiente de
variação.
a) Medidas do diâmetro (em mm) interno de anéis forjados de pistão de um motor de automóvel. Os
dados são: 1; 3; 15; 0; 5; 2; 5 e 4.
b) Tempo de esgotamento de um fluido isolante entre eletrodos a 34 kV. Os tempos em minutos são:
0,19; 0,78; 0,96; 1,31; 2,78; 3,16; 4,15; 4,67; 4,85; 6,50; 7,35; 8,01; 8,27; 12,06; 31,75; 32,52; 33,91;
36,71 e 72,89.
c) Medida da espessura de óxido em pastilhas que são estudas para verificar a qualidade em um processo
de fabricação de semicondutores. Os dados, em angstroms, são: 1264; 1280; 1301; 1300; 1292; 1307 e
1275.
d) Experimento para testar a resistência resultante em tubos circulares com calotas soldadas nas
extremidades. Os resultados em kN são: 96; 96; 102; 102; 102; 104; 104; 108; 126; 126; 128; 128;
140; 156; 160; 160; 164 e 170.
e) Dados sobre acomodação visual (uma função do movimento do olho), quando reconhecendo um
padrão de mancha em um vídeo CRT de alta resolução. Os dados são: 36,45; 67,90; 38,77; 42,18;
26,72; 50,77; 39,30 e 49,71.
f) Dados referentes a medidas de intensidade solar direta (watts/m 2), em dias diferentes, no sul da
Espanha: 562; 869; 708; 775; 704; 809; 856; 655; 806; 878; 909; 918; 558; 768; 870; 918; 940; 946;
661; 820; 898; 935; 952; 957; 693; 835; 905; 939; 955; 960; 498; 653; 730 e 753.
9) Abaixo se encontra uma amostra dos pesos (kg) de uma turma de matemática, ao final do 2º semestre
de 2006 e ao final do 1º semestre de 2007.
Número do aluno 01 02 03 04 05 06 07 08 09 10
Peso ao final do 2º semestre/2006 66 70 68 71 69 67 70 69 71 70
Peso ao final do 1º semestre/2007 64 66 68 63 66 67 62 64 63 68
Escore padronizado do 2º semestre
Escore padronizado do 1º semestre
a) Calcule os coeficientes de variação e diga em qual momento os pesos são mais homogêneos.
b) Complete a tabela com os escores padronizados de todos os alunos, nos dois momentos.
c) A partir dos escores padronizados, em que momento os alunos de números 01 e 08 apresentam maior
excesso relativo de peso?
10) Mostrar que se todos os valores de um conjunto de dados forem aumentados de b, a média e a
mediana também ficarão aumentadas de b. E o desvio padrão também ficará aumentado de b?
11) A contagem de bactérias numa cultura aumentou de 2.500 para 9.200 em três dias. Qual o acréscimo
percentual diário médio?
12) Tibúrcio prestou recentemente um concurso e obteve as notas nas disciplinas listadas na tabela abaixo.
13) Os dados abaixo mostram a resistência à compressão de 80 corpos de prova da liga alumínio-lítio,
medidas em psi (medida de pressão ou libra por polegada quadrada).
II – PROBABILIDADE
Quando se fala em probabilidade está-se referindo à classe dos experimentos aleatórios. Tais
experimentos serão designados por: E.
17
Exemplo
Seja A um evento de um espaço amostral S. Define-se a probabilidade de ocorrência deste evento como:
n A
P A
n S
Onde: n(A) é o número de casos favoráveis ao evento A e n(S) o número total de casos.
3 1
P A 0,5 ou 50%
6 2
Exemplo: lançou-se uma moeda 1.000 vezes e obteve-se 499 caras. Estimar a probabilidade de ocorrência
da face cara.
499
n(S) = 1.000 n(A) = 499 P A 0,499 ou 49,9%
1000
i) 0 ≤ P(A) ≤ 1
ii) P(S) = 1
iii) P A B P A P B P A B
iv) P A B P A P B , quando A e B são mutuamente excludentes.
v) P A 1 P A
P A B
P A | B
P B
Onde P(A|B) se lê como: “probabilidade condicional de A, dado B”. Ou seja, uma vez que ocorreu o
evento B, qual é a probabilidade de ocorrência também de A?
Uma pesquisadora está estudando os rendimentos de pessoas que trabalham formal e informalmente. A
tabela abaixo corresponde a uma amostra de 634 pessoas.
Tabela 1 – Nº de pessoas de acordo com a renda e tipo de trabalho – Montes Claros- ano 2007
Renda
Trabalho Total
Baixa Média Alta
Formal 36 128 225 389
Informal 94 89 62 245
Total 130 217 287 634
Fonte: dados fictícios
19
Probabilidade condicional
Definição: dois eventos A e B são independentes quando a ocorrência de um deles não modifica a
probabilidade de ocorrência do outro. Ou seja:
P A B
P A | B P A B P ( A | B ) P ( B ) , mas se A e B são independentes, então: P(A|B) = P(A)
P B
Logo: P( A B) P( A) P( B)
20
Exemplo
4 3
P ( A) e P( B)
6 6
P( A B ) 2
P ( B | A)
P( A) 4
4 2 P( A B) 2
P ( A) e veja também que: P( A | B) P( B) 3
6 3
Suponha que o espaço amostral S de um experimento seja dividido em três eventos R1, R2 e R3 de modo
que:
S
R1 R2
B
R3
R1 R 2
R 2 R3
R1 R3
R1 R 2 R3 S
B BS .
Como S R1 R 2 R3 , então B B ( R1 R 2 R3 ) ou
B ( B R1 ) ( B R 2 ) ( B R3 )
Pelo fato de ( B R1 ), ( B R 2 ), ( B R3 ) serem eventos mutuamente excludentes, pode-se escrever;
P ( B ) P ( B R1 ) P ( B R 2 ) P ( B R3 )
P( B) P( B | R1 ) P( R1 ) P( B | R 2 ) P( R 2 ) P( B | R3 ) P( R3 )
Este resultado é conhecido como teorema da probabilidade total e pode ser escrito na forma geral:
P ( B) P( B | R1 ) P( R1 ) P ( B | R 2 ) P( R 2 ) ... P ( B | R n ) P( R n )
Exemplo de aplicação 1
Uma fábrica tem três máquinas – A, B e C – que respondem, respectivamente, por 40%, 35% e 25% de
sua produção. A proporção de peças defeituosas produzidas pela máquina A é 2%; da máquina B é 1% e
da máquina C é 3%. O responsável pelo controle de qualidade que inspeciona a produção retira uma peça
ao acaso. Qual a probabilidade da peça ser defeituosa?
P( D) P( D | A) P( A) P( D | B) P ( B ) P( D | C ) P(C )
P ( D) 0,02 0,40 0,01 0,35 0,03 0,25 0,019
22
P ( B | Ri ) P ( Ri )
P ( Ri | B)
P( B | R1 ) P( R1 ) P( B | R 2 ) P( R 2 ) ... P( B | R n ) P( R n )
Exemplo de aplicação 2
Considerando o exemplo de aplicação 1, suponha que o responsável pelo controle de qualidade retira a
peça e verifica que ela é defeituosa. Qual a probabilidade de ter sido produzida pela máquina B?
P( D | B) P ( B) P( D | B) P( B)
P( B | D)
P( D) P ( D | A) P ( A) P( D | B) P( B ) P( D | C ) P (C )
Portanto, a peça defeituosa retirada para inspeção tem uma probabilidade de aproximadamente 0,184 ou
18,4%de ter sido produzida pela máquina B.
Exemplo 1
No lançamento de duas moedas (C=cara e K=coroa), defina a variável aleatória X como sendo o número
de caras e construa a distribuição de probabilidade.
Evento CC CK KC KK
X (Nº caras) 2 1 1 0
xi: 0 1 2
1 2 1
P(xi):
4 4 4
Exemplo 2
23
No lançamento de três moedas, defina a variável aleatória X como sendo o número de caras e construa a
distribuição de probabilidade.
xi: 0 1 2 3
P(xi): 1 3 3 1
8 8 8 8
ATENÇÃO! Para que tenhamos uma distribuição de probabilidade, duas condições precisam ser
satisfeitas. São elas:
i) 0 P ( x i ) 1 ii) P( x i ) 1
Notação
E(X): lê-se “valor esperado” ou “esperança” da variável aleatória X e equivale à média µ.
2.3 – Variância (σ2) e desvio padrão (σ) de uma variável aleatória discreta
Exemplo 1
No lançamento de dois dados, a variável aleatória X anota a soma dos pontos da face superior. Determine
a média, a variância e o desvio padrão da variável aleatória X.
24
(5,1) (5,2) (5,3) (5,4) (5,5) (5,6)
A distribuição de probabilidade é:
xi P( x i ) x i P( x i ) ( xi ) 2 P( xi )
2 1/36 2/36 25/36
3 2/36 6/36 32/36
4 3/36 12/36 27/36
5 4/36 20/36 16/36
6 5/36 30/36 5/36
7 6/36 42/36 0
8 5/36 40/36 5/36
9 4/36 36/36 16/36
10 3/36 30/36 27/36
11 2/36 22/36 32/36
12 1/36 12/36 25/36
Σ 1 252/36 210/36
252
A média será: E ( X ) xi P( xi ) 7
36
210
A variância será: ( x i ) P( x i ) 5,83
2 2
36
Exemplo 2
Um jogo consiste no lançamento de 3 moedas (não viciadas). Se der tudo cara ou tudo coroa, o ganho é
de R$ 5,00, mas dando uma ou duas caras, a perda é de R$ 3,00. Qual o resultado esperado para o jogo?
xi P( x i ) x i P( x i )
R$ 5 2/8 10/8
– R$ 3 6/8 – 18/8
Σ 1 –1
Logo, o resultado esperado do jogo é a média ou valor esperado da variável aleatória, no caso:
10 18 8
E ( X ) x i P( x i ) 1
8 8 8
Ou seja: a longo prazo pode esperar, em média, uma perda de aproximadamente R$ 1,00.
25
Exemplo 3
Uma máquina produz um equipamento eletrônico que pode apresentar nenhum, um, dois, três ou quatro
defeitos, com probabilidades 90%, 4%, 3%, 2% e 1%, respectivamente. O preço de venda de um
equipamento perfeito é de R$ 20,00 e, à medida que apresente defeitos, o preço cai 50% para cada defeito
apresentado. Qual é a esperança do preço médio de venda desse equipamento?
A distribuição é:
Defeito xi P( x i ) x i P( x i )
0 20,00 0,90 18
1 10,00 0,04 0,4
2 5,00 0,03 0,15
3 2,50 0,02 0,05
4 1,25 0,01 0,0125
Σ 1 18,6125
A diferença fundamental entre x e µ é que x , por depender das freqüências, só pode ser calculada após
a ocorrência de todos os valores da série estatística. É uma média calculada a posteriori. Já a média µ, por
estar baseada no conceito de probabilidade, pode ser estabelecida antes da ocorrência dos valores da
variável aleatória. É uma média calculada a priori. Neste sentido, µ é uma expectativa de média e é
também chamada de esperança matemática da variável aleatória X. A mesma analogia existe entre a
variância e o desvio padrão de uma distribuição de freqüência e a variância e o desvio padrão de uma
variável aleatória X.
P1) E(a) = a
P5) VAR ( X ) 0
Exemplo
O consumo agregado é dado pela equação C = 1,5 + 0,8Y, onde a renda disponível, Y, é uma variável
aleatória com valor esperado 100 e variância 10. O valor esperado e a variância do consumo, C, seriam,
respectivamente:
a) 81,5 e 9,5
b) 85,1 e 6,4
c) 81,5 e 8,0
d) 81,5 e 7,9
e) 81,5 e 6,4
Resolução:
Cálculo da variância:
VAR(C) = VAR(1,5 + 0,8Y) pela propriedade P8 temos:
VAR (C ) (0,8) VAR (Y )
2
como a VAR(Y) é dada: VAR(Y) = 10, a variância do consumo é:
VAR (C ) (0,8) 2 10 6,4
EXERCÍCIOS – LISTA 2
Parte I – Probabilidades
01) Duas bolas são retiradas, sem reposição, de uma urna que contém duas bolas brancas, três bolas pretas
e cinco bolas vermelhas. Determine a probabilidade de que:
03) Se P(AUB) = 0,8; P(A) = 0,6 e P(B) = 0,5; os eventos A e B são independentes? Por quê?
04) No primeiro ano de uma faculdade, 25% dos estudantes são reprovados em Matemática, 15% são
reprovados em Estatística e 10% são reprovados em ambas. Um estudante é selecionado ao acaso nesta
faculdade. Calcule a probabilidade de que:
05) Lança-se um par de dados não-viciados. Ache a probabilidade da soma ser igual ou maior que 10, se:
06) Três máquinas, A, B e C, produzem 50%, 30% e 20%, respectivamente, do total de peças de uma
fábrica. As percentagens de produção defeituosa destas máquinas são de 3%, 4% e 5%, respectivamente.
Se uma peça é selecionada aleatoriamente, ache a probabilidade de ela ser defeituosa.
07) Considerando a fábrica do exercício anterior, suponha que uma peça, selecionada aleatoriamente, seja
considerada defeituosa. Encontre a probabilidade de ela ter sido produzida pela máquina A.
08) Uma junta apuradora de votos recebe 50 urnas. Sabe-se que 5 urnas são de bairros habitados por
indivíduos da classe A, 15 urnas são de bairros habitados por indivíduos da classe B e 30 urnas são de
bairros habitados por indivíduos da classe C. A última pesquisa realizada mostrou o quadro de intenções
de votos:
09) A tabela a seguir apresenta dados dos 1000 ingressantes de uma universidade, com informações sobre
área de estudo e classe sócio-econômica:
Classe Socioeconômica
Área Total
Alta Média Baixa
Exatas 120 156 68
Humanas 72 85 112
Biológicas 169 145 73
Total
10) Suponha que um fabricante de sorvetes recebe 20% de todo o leite que utiliza de uma fazenda A, 30%
de outra fazenda B e 50% de uma fazenda C. Um órgão de fiscalização inspecionou as fazendas de
surpresa e observou que 20% do leite produzido por A estava adulterado por adição de água, enquanto
que para B e C, essa proporção era de 5% e 2%, respectivamente. Na indústria de sorvetes os galões de
leite são armazenados em um refrigerador sem identificação das fazendas. Um galão é escolhido ao acaso
e verifica-se que o leite está adulterado. Qual a probabilidade de que tenha sido produzido pela fazenda
A?
28
Homem Mulher Total do Produto
Produto A 200 270 470
Produto B 300 100 400
Produto C 60 70 130
Total por Sexo 560 440 1000
12) Estudantes de três universidades diferentes, X, Y e Z, fazem um exame onde os resultados são
medidos pelos conceitos A, B e C. A tabela abaixo mostra as distribuições de freqüências relativas das
combinações de universidades e conceitos.
Conceitos
Universidades
A B C
X 0.20 0.10 0.00
Y 0.25 0.10 0.05
Z 0.15 0.10 0.05
Tal tabela mostra, por exemplo, que 20% do total dos alunos que fizeram o exame eram da universidade
X e tiveram conceito A; 5% eram da universidade Y e tiveram conceito C, e assim por diante. Sabendo-se
que um estudante qualquer teve conceito A, a probabilidade de que ele tenha estudado na universidade X
é:
13) Para selecionar seus funcionários, uma empresa oferece aos candidatos um curso de treinamento
durante uma semana. Ao final, eles são submetidos a uma prova e 25% são classificados como bons (B),
50% como médios (M) e os restantes 25% como fracos (F). Como medida de economia, o departamento
de seleção pretende substituir o treinamento por um teste contendo perguntas envolvendo conhecimentos
gerais e específicos. Mas, para isso, gostaria de conhecer qual a probabilidade de que um individuo
aprovado no teste fosse considerado fraco, caso fizesse o curso. Assim, nesse ano, antes do início do
curso, os candidatos foram submetidos ao teste e, de acordo com os resultados receberam o conceito
aprovado (A) ou reprovado (R). Ao final do curso, obtiveram as seguintes probabilidades condicionais:
P(A|B) = 0,80; P(A|M) = 0,50 e P(A|F) = 0,20. Ajude a empresa a decidir sobre a substituição do
treinamento pelo teste, calculando a probabilidade de que um indivíduo aprovado no teste seja
considerado fraco.
01) Calcule a média μ ou E(X), a variância (2) e o desvio padrão () das distribuições de probabilidades
das variáveis aleatórias abaixo:
a) X: 2 4 7 9
P(X): 0,1 0,6 0,2 0,1
b) Y: -1 0 1 3
P(Y): 2/5 1/5 1/5 1/5
29
02) Um jogador lança três moedas não-viciadas. Ganha R$6,00 se aparecerem somente caras; perde
R$2,00 se aparecerem somente coroas; ganha R$2,00 se aparecerem duas caras e perde R$3,00 se
aparecerem duas coroas. Qual a esperança matemática do jogo?
03) Um jogador lança 2 moedas não-viciadas. Ele ganha R$5,00 se ocorrerem duas caras; R$2,00 se
ocorrer uma cara e R$1,00 se não ocorre cara.
04) Uma indústria fabrica rodas de carro que podem apresentar nenhum, um, dois, três ou quatro defeitos,
com probabilidades de 86%, 6%, 3%, 3% e 2%, respectivamente. O preço de venda de uma roda perfeita
é R$50,00 e, à medida que apresente defeitos, o preço cai 40% para cada defeito apresentado. Qual é a
esperança do preço médio de venda dessas rodas?
05) O tempo T, em minutos, necessário para um operário processar certa peça é uma variável aleatória
com a seguinte distribuição de probabilidade:
T: 2 3 4 5 6 7
P(T): 0,1 0,1 0,3 0,2 0,2 0,1
06) O consumo agregado é dado pela equação W = 1,7 + 0,6X, onde a renda disponível, X, é uma
variável aleatória com valor esperado de 80 e variância de 6. O valor esperado e a variância do consumo,
W, seriam respectivamente: (Faça os cálculos apropriados)
a) 49,7 e 2,16 b) 49,7 e 2,30 c) 49,7 e 3,86 d) 49,7 e 5,30 e) 49,7 e 17,18
07) Os pais de uma estudante prometeram-lhe uma recompensa de US$100 se ela obtiver conceito A em
Estatística, US$50 se obtiver B, mas nenhuma recompensa nos demais casos. Qual é a sua esperança
matemática se as probabilidades de ela obter A ou B são, respectivamente, 0,32 e 0,40?
09) Uma máquina fabrica placas de aço que podem apresentar nenhum, um, dois, três ou quatro defeitos,
com probabilidades de 85%, 5%, 4%, 3% e 3%, respectivamente. O preço de venda de uma placa perfeita
é de R$20,00 e, à medida que apresenta defeitos, o preço cai 50% para cada defeito apresentado. Qual é a
esperança do preço médio de venda dessas placas?
10) Desenham-se círculos concêntricos de 1 e 3 centímetros de raio num alvo circular de 5 centímetros de
raio. Um homem ganha 10, 5 ou 3 pontos (veja a figura abaixo) conforme atinja o alvo no círculo menor,
no do meio ou no de fora, respectivamente. Suponha que atinja o alvo com probabilidade ½. Ache o
número esperado de pontos que esse homem obtém.
30
3 5 10
11) Uma amostra de 3 objetos é escolhida aleatoriamente de uma caixa contendo 12 objetos, dos quais 3
são defeituosos. Ache o número esperado de objetos defeituosos.
n x n x
f (x) P(X x) p q
x
n n!
Onde: x = 0, 1, 2, 3, ... , n e e onde n e p são os parâmetros da distribuição
x !( xnx )!
É comum a notação: X ~ b( n; p ) que quer dizer: X possui distribuição binomial com parâmetros n e p.
31
Exemplos
1) Uma prova tem 12 questões do tipo múltipla escolha com 5 alternativas de resposta das quais apenas
uma é correta. Um aluno responde ao acaso as questões (chuta). Determine a probabilidade de que
acerte:
a) No máximo duas questões.
b) Exatamente sete questões.
c) Pelo menos uma questão.
2) Os artigos produzidos por uma fábrica são defeituosos com probabilidade 0,05. a fábrica os vende em
pacotes de 10 e garante que um pacote contém, no máximo, um artigo defeituoso, caso contrário ela
troca o pacote vendido. Qual a probabilidade de que ela troque um determinado pacote.
01) Uma amostra de 15 peças é extraída de um lote que contém 10% de peças defeituosas. Calcule a
probabilidade de que:
a) O lote não contenha peça defeituosa
b) O lote contenha exatamente três peças defeituosas
c) O lote contenha pelo menos uma peça defeituosa
d) O lote contenha de três a seis peças defeituosas.
02) Calcule o valor esperado e o desvio padrão para o número de peças defeituosas na amostra do
problema anterior.
03) Em determinada cidade, as despesas médicas são consideradas como responsáveis por 60% de todas
as falências pessoais. Qual é a probabilidade de as despesas médicas serem apontadas como responsáveis
por quatro das próximas seis falências pessoais naquela cidade?
04) Uma pessoa que subscreve certo tipo de apólice de seguro de vida tem 0,30 de probabilidade de
deixá-la caducar dentro de cinco anos. De oito pessoas que subscrevem esse tipo de apólice, qual é a
probabilidade de três delas deixarem-na caducar dentro de cinco anos?
05) Se é verdade que 80% de todos os acidentes industriais podem ser evitados dando-se estrita atenção às
normas de segurança, ache a probabilidade de que quatro entre sete acidentes industriais possam ser
evitados.
06) Prepara-se um exame para admissão no serviço público, de forma que 80% de todos que tenham um
diploma de curso secundário tenham chances de serem aprovados. Achar as probabilidades de que, dentre
14 pessoas com diploma de curso secundário:
07) Um estudo mostra que 50% das famílias residentes em uma grande área metropolitana tem ao menos
dois carros. Determine as probabilidades de que, dentre 16 famílias selecionadas aleatoriamente naquela
área,
08) Uma cooperativa agrícola afirma que 95% das melancias vendidas por ela estão maduras e prontas
para consumo. Determine as probabilidades de que, dentre 18 melancias despachadas,
32
a) todas as 18 estejam maduras e prontas para consumo;
b) ao menos 16 estejam maduras e prontas para consumo;
c) no máximo 14 estejam maduras e prontas para consumo.
09) Sabe-se que 20% das pessoas que tomam determinado remédio ficam sonolentas em 2 minutos.
Determine as probabilidades de que, dentre 14 pessoas que tomam o remédio,
10) Admite-se que dois quintos dos adultos de certa região sejam alfabetizados. Nestas condições, qual é
a probabilidade de que, entre cinco adultos escolhidos ao acaso,
11) Uma companhia de seguros vendeu apólices a cinco pessoas, todas da mesma idade e de boa saúde.
De acordo com as tábuas atuariais, a probabilidade de que uma pessoa da idade desses assegurados esteja
viva daí a 30 anos é 2/3. Calcular a probabilidade de que passados 30 anos:
12) Seja X uma variável aleatória com distribuição binominal com E(X) = μ = 1,2 e VAR(X) = 2 = 0,96.
Encontre a distribuição de probabilidade de X..
Uma variável aleatória é contínua em R se existir uma função f(x), tal que:
2.
f ( x ) dx 1
a) E( X ) xf ( x)dx
x E ( X )
2
b) VAR ( X ) f ( x) dx
onde: E( X 2 ) x f ( x ) dx
2
33
- A média μ (lê-se: mi) e o desvio padrão σ (lê-se: sigma) são os parâmetros da distribuição.
- A curva é SIMÉTRICA.
- A área total sob a curva é igual a UM.
Figura l
X
-3 - + +3
-2 +2
X-
Z
-3 -2 -1 0 1 2 3
Figura 2
P(a<X<b)
a b
x 2
1
P a X b
b
e 2 2
dx , que apresenta um grau relativo de dificuldade.
a
2
Refere-se à variável aleatória X em uma nova escala. Ou seja, padroniza-se a variável X da seguinte
forma:
34
X Onde μ é a média populacional e σ é o desvio padrão populacional.
Z Esta nova variável tem média 0 (zero) e desvio padrão 1 (um).
1) Um teste padronizado de escolaridade tem distribuição normal com média 100 e desvio padrão 10.
Determine a probabilidade de um indivíduo submetido ao teste ter nota:
a) menor que 70 b) Maior que 120 c) entre 85 e 115
2) A duração de um certo componente eletrônico tem média de 850 dias e desvio padrão 40 dias.
Supondo a distribuição normal, calcule a probabilidade de esse componente durar:
a) entre 700 e 1000 dias b) mais de 800 dias c) menos de 750 dias
3) Uma distribuição normal tem média =62,4. Determinar se 0,33 da área sob a curva estão à direita
de 79,2.
4) Em um exame de estatística a nota média foi 70, com desvio padrão 4,5. Todos os alunos com notas
75 a 89 receberam conceito B. Se as notas possuem distribuição normal e se 10 alunos obtiveram
conceito B, quantos fizeram o exame?
5) Um exame apresenta distribuição normal. Sabe-se que as notas 70 e 82 correspondem aos valores
padronizados de 0,85 e 2,58, respectivamente. Caracterize essa distribuição, isto é, encontre e .
35
EXERCÍCIOS – LISTA 4 – Distribuição Normal
01) O levantamento do custo unitário de produção de um item de uma empresa revelou que sua
distribuição é normal com média R$ 50,00 e desvio padrão R$ 4,00. Se o preço de venda unitário desse
produto é de R$ 60,00, qual a probabilidade de uma unidade desse item, escolhida ao acaso, ocasionar
prejuízo à empresa?
02) Uma empresa produz um equipamento cuja vida útil admite distribuição normal com média 300 horas
e desvio padrão 20 horas. Se a empresa garantiu uma vida útil de pelo menos 280 horas para uma das
unidades vendidas, qual a probabilidade de ela ter que repor essa unidade?
03) Uma variável aleatória distribui-se normalmente com média 80 e variância 9. Calcule o intervalo
central que contém:
a) 50% dos valores b) 95% dos valores c) 68% dos valores
04) Os balancetes semanais realizados em uma empresa mostraram que o lucro realizado distribui-se
normalmente com média R$ 48.000,00 e desvio padrão R$ 8.000,00. Qual a probabilidade de que:
05) O departamento de Marketing de uma empresa resolve premiar 5% dos seus vendedores mais
eficientes. Um levantamento das vendas individuais por semana mostrou que elas se distribuíam
normalmente com média R$ 240.000,00 e desvio padrão R$ 30.000,00. Qual o volume mínimo de vendas
que um vendedor deve realizar para ser premiado?
06) Um fabricante sabe que a resistência dos resistores que produz tem distribuição normal com média
igual a 100 ohms e desvio padrão 2 ohms. Que percentagem de resistores terá resistência:
07) O peso médio de 500 estudantes do sexo masculino é 75 kg. Admite-se que esta variável tem
distribuição normal e desvio padrão igual a 6 kg. Determine o número esperado de estudantes no grupo:
08) Uma máquina de ensacar determinado produto apresenta variações de peso com desvio padrão de 3
kg. Admite-se a distribuição normal nesta situação.
a) Se a máquina for regulada para um peso médio de 60 kg, qual a probabilidade de obter sacos com
menos de 55 kg?
b) Em quanto deve ser regulado o peso médio do saco para que apenas 10% tenham menos de 60 kg?
09) Uma máquina de ensacar determinado produto apresenta variações de peso com desvio padrão de 2
kg (admitir distribuição normal). Em quanto deve ser regulado o peso médio do saco para que apenas 5%
tenham menos de 60 kg?
10) Suponha que as notas de um exame são normalmente distribuídas com a média 76 e desvio padrão 15.
Sabe-se que 15% dos estudantes mais adiantados recebem a nota A e 10% dos mais atrasados recebem a
nota F. Encontre: