Anda di halaman 1dari 207

Prof.

Nagib Yassin





Rio Verde-Go
2012
2













ESTATSTICA BSICA








3

UNIVERSIDADE DE RIO VERDE
PR-REITORIA DE GRADUAO
PLANO DE ENSINO

1. IDENTIFICAO
Professor: Nagib Yassin
Disciplina: Estatstica Bsica
Ano: 2012
Carga horria: 72h
Semestre letivo: 2012/1
Pr-requisitos: Clculo Diferencial e Integral
Oferecido para o curso: Biologia, Matemtica, Medicina Veterinria

2. EMENTA
Estatstica Descritiva, Elementos de Probabilidade e de Inferncia Estatstica, Base
conceitual, Mtodos e
Aplicaes da Estatstica em Cincia e Tecnologia.

3. OBJETIVOS

3.1. Objetivo geral
Habilitar o estudante para a compreenso da base conceitual e metodolgica da
estatstica requerida no planejamento, anlise de dados e interpretao de resultados de
pesquisa cientfica.

3.2. Objetivos especficos
Fundamentao estatstica para o estudo de disciplinas do ciclo profissional.

4. CONTEDO PROGRAMTICO
I. Introduo
Histria, conceito, funes e aplicaes da estatstica; estatstica na pesquisa cientfica;
Conceito de populao e amostra; tipos de variveis e escalas de mensurao;
II. Estatstica Descritiva
Organizao e Apresentao de dados;
4

Tabelas de freqncias; histograma e polgono de freqncias; resumo de cinco pontos;
diagrama de ramo e folhas; grfico de caixas (Box-Plot);
Sntese Numrica: Medidas de tendncia central (mdias aritmtica, harmnica e
geomtrica, moda e mediana); Medidas separatrizes: quartis, decis e percentis; Medidas
de Variabilidade (amplitude, amplitude interquartlica, varincia, desvio-padro e
coeficiente de variao);
III. Elementos de Probabilidade
Introduo aos principais conceitos de probabilidade: Experimento aleatrio, espao
amostral e eventos.
Definio clssica e frequentista de probabilidade;
Probabilidade Condicional e Independncia de eventos.
Variveis aleatrias unidimensionais discretas e contnuas; Modelo Binomial, de
Poisson. E modelos Normais;
IV. Inferncia Estatstica
Introduo aos principais conceitos de Inferncia Estatstica;
Distribuio amostral da mdia e da proporo; teorema central do limite;
Estimao pontual e por intervalo da mdia e proporo populacional: conceitos;
mtodos de estimao; propriedades dos estimadores;
Teste de hiptese: conceitos; hiptese estatstica; erros de deciso; nvel de
significncia e potncia do teste;
Teste de hiptese referente mdia de uma populao normal; teste de hiptese de
igualdade de mdias e teste de hiptese da igualdade de varincias de duas populaes
normais; testes de hipteses referentes s propores.

5. METODOLOGIA
A disciplina ser conduzida atravs da exposio da matria, discusso do contedo
programtico e de exemplos ilustrativos. Eventualmente, tpicos no expostos em classe
sero assinalados para estudo extraclasse. Sempre que possvel, as exposies sero
auxiliadas com recursos visuais, especialmente providos
Por projetores de transparncias e de slides. Exerccios para desenvolvimento do
tirocnio sero assinalados para resoluo extraclasse. Alguns minutos de cada aula
sero dedicados para o esclarecimento de dvidas e dificuldades encontradas pelo
estudante. Os estudantes tambm tero disponvel, para esses esclarecimentos,
atendimento extraclasse, provido pelo docente e monitor da disciplina, em horrios
5

apropriados, previamente estabelecidos. Texto prprio elaborado pela equipe docente
ser colocado disposio do estudante, para auxlio ao estudo da disciplina.

6. ESTRATGIAS DE AVALIAO
A mdia de aproveitamento (MA) ser obtida, calculando:
( ) ( ) + +
=
7
3 NP 3 NT 4(MEP)
MA
Sendo:
(NP) Nota de uma nica prova
(NT) Nota referente a um trabalho mensal
(MEP) Nota referente a 4 listas menais de exerccios.
Trabalhos
Obs:
As notas de NT e de MEP no daro direito ao aluno requerer 2
a
chamada
A freqncia compor o sistema de avaliao (5% a menos para cada falta e/ou
captulo)

7. MATERIAL DIDTICO
Textos redigidos pelo corpo docente e bibliografia existente na biblioteca da Universidade
de Rio Verde. Coleo de exerccios versando sobre o contedo programtico.

8. BIBLIOGRAFIA RECOMENDADA
BLACKWELL, D. Estatstica Bsica. So Paulo: McGraw-Hill do Brasil Ltda. 1974. 143p.

BOTELHO, E.M.D.; MACIEL, A.J. Estatstica Descritiva (Um Curso Introdutrio).
Viosa: Imprensa Universitria, Universidade Federal de Viosa. 1992. 65p.

BUSSAB, W.O.; MORETTIN, P.A. Estatstica Bsica. So Paulo: Atual Editora. 1987.

HOEL, P.G. Estatstica Elementar. So Paulo: Editora Atlas S.A. 1980.

IEMMA, A.F. Estatstica Descritiva. Piracicaba: Fi Sigma R Publicaes. 1992. 182p.

MEYER, P.L. Probabilidade, Aplicaes Estatstica. Rio de Janeiro; Ao Livro Tcnico
S.A. 1976.

MORETTIN, P.A. Introduo Estatstica para Cincias Exatas. So Paulo: Atual
Editora Ltda. 1981. 211p.
6

PARADINE, C.G.; RIVETT, B.H.P. Mtodos Estatsticos para Tecnologistas. So
Paulo: Ed. Polgono/ Editora da Universidade de So Paulo. 1974. 350p.

PIMENTEL GOMES, F. Iniciao Estatstica. 6 ed. So Paulo; Livraria Nobel S.A.
1978.211p.

SILVA, J.G.C. da. Estatstica Bsica. Verso preliminar. Instituto de Fsica e
Matemtica, Universidade Federal de Pelotas. Pelotas, 1992. 173p.
SILVEIRA, Jr., P.S., MACHADO, A.A., ZONTA, E.P., SILVA, J.B. Curso de Estatstica,
vol.1. Pelotas: Editora Universitria, UFPEL. Pelotas, 1989.135p.

SILVEIRA, Jr., P.S., MACHADO, A.A., ZONTA, E.P., SILVA, J.B. Curso de Estatstica,
vol.2. Pelotas: Editora Universitria, UFPEL. Pelotas, 1992.234p.

SPIEGEL, M.R. Estatstica. So Paulo: McGraw-Hill do Brasil. 1975.580p.

TRIOLA, M. F. Introduo Estatstica, 9 ed. So Paulo: LTC. 2005. 662p.





















7

Sumrio
1. INTRODUO 12
1.1. Diviso da estatstica 13
1.1.1. Estatstica Descritiva: 13
1.1.2. Estatstica Indutiva ou Inferencial. 13
2. POPULAO E AMOSTRA 15
2.1. Populao ou universo 15
2.2. Amostra 16
2.3. Tcnicas de Amostragem 18
2.3.1. Amostragem aleatria simples 19
2.3.2. Amostragem sistemtica 20
2.3.3. Amostragem estratificada 20
2.3.4. Amostragem por conglomerados 21
2.3.5. Amostragem de convenincia (no-probabilstica) 21
3. Varivel 23
3.1. Classificao das variveis 23
3.2. Contnuas 23
3.3. Discretas 23
3.4. Nominais ou categricas 23
3.5. Ordinais 24
4. Escalas de Mensurao 25
5. Anlise Exploratria de Dados 26
5.1. Introduo 26
5.2. Tabelas 27
6. SRIES E GRFICOS ESTATSTICOS 29
6.1. Introduo 29
6.1.1. Sries Estatsticas 29
6.1.1.1. Sries Histricas, Cronolgicas, Temporais ou Marchas 29
6.1.1.2. Sries Geogrficas, Espaciais, Territoriais ou de Localizao 30
6.1.1.3. Sries Conjugadas e Tabela de Dupla Entrada 30
6.1.1.4. Sries Especficas ou Categricas 31
6.2. Grficos Estatsticos 32
6.2.1. Grficos de linha 32
6.2.2. Grfico de colunas e grfico de barras 32
6.2.3. Grfico em setores (pizza) 33
6.2.4. Outros tipos de grficos 34
6.2.4.1. Cartograma 34
6.2.4.2. Estereograma 34
6.2.4.3. Pictograma 34
7. DISTRIBUIO DE FREQNCIAS 35
7.1. Introduo 35
7.2. Distribuies por ponto ou valores. 35
8

7.3. Distribuies por classes ou intervalos 36
7.4. Elementos de uma distribuio de frequncias 37
7.4.1. Classes 37
7.4.2. Limites de classe 37
7.4.3. Amplitude de um intervalo de classe, ou, simplesmente, intervalo de classe 37
7.4.4. Amplitude total da distribuio (AT) 38
7.4.5. Amplitude amostral (AA) 38
7.4.6. Ponto mdio de uma classe (xi) 38
7.4.7. Freqncia simples ou freqncia absoluta ou, simplesmente, freqncia de uma classe ou
de um valor individual 38
7.5. Tipos de frequncias 38
7.5.1. Freqncias simples ou absolutas (fi) 38
7.5.2. Freqncias relativas (fri) 39
7.5.3. Freqncia acumulada (Fi) 39
7.5.4. Freqncia acumulada relativa (Fri) de uma classe 39
7.6. Apresentao de uma distribuio de freqncias 39
7.6.1. Distribuio de freqncias por pontos ou valores. 39
7.6.2. Distribuio de freqncias por classes ou intervalos 40
7.7. Grficos de distribuies de frequncias 41
7.7.1. Histograma de frequncias 41
7.7.2. Polgono de frequncia 42
7.7.3. Polgono de frequncia acumulada 43
7.7.4. Grfico stem-and-leaf (tronco e folhas) 43
8. MEDIDAS DE POSIO 45
8.1. Mdia aritmtica 45
8.1.1. Mdia nas sries de dados no agrupados 45
8.1.2. Mdia nas sries de dados agrupados sem intervalo de classe 46
8.1.3. Mdia nas sries de dados agrupados com intervalos de classes 47
8.2.1. Moda nas sries de dados agrupados sem intervalos de classes 48
8.2.2. Moda nas series de dados com intervalos de classe 48
8.3. Mediana (Md) 49
8.3.1. Medianas nas series de dados sem intervalos de classe 49
8.3.2. Mediana nas sries de dados com intervalos de classe 50
8.4. Medidas de ordenamento e posio 51
8.4.1. Quartis 51
8.4.2. Centil ou Percentil 52
8.5. Que promdio usar? 53
9. MEDIDAS DE DISPERSO 54
9.1 Varincia 54
9.2. Desvio padro 56
9.2.1. Desvio padro nas sries de dados no agrupados 56
9.2.1.1. Desvio padro nas sries de dados agrupados sem intervalo de classe 57
9.2.1.2 Desvio padro nas sries de dados agrupados com intervalos de classe 58
9

9.3. Coeficiente de variao 59
9.5. Amplitude entre quartis 59
9.6. Box-and-Whisker plots 60
Exerccios 61
Exerccios diversos 63
10. PROBABILIDADES 73
10.1. Entendendo a probabilidade 74
10.2. Experimento aleatrio 74
10.3. Clculo de probabilidades 76
10.4 Eventos mutuamente exclusivos 77
10.5. Eventos independentes 78
10.6. Regras das probabililidades 78
10.6.1. Regras da multiplicao 79
10.6.2. Regras da adio 79
10.7. Probabilidade condicional 81
10.8. Permutaes 82
10.9. Combinaes 83
Exerccios 85
11. Distribuies de probabilidade 87
11.1. Distribuies discretas de probabilidade 88
11.2. Distribuio binomial 88
11.2.1. Hipteses do modelo Binomial 88
11.2.2. Propriedades da distribuio binomial 91
11.3. Distribuio de Poisson 93
11.3.1. Propriedades da distribuio de Poisson 96
11.4. Relao entre as distribuies Binomial e Poisson 96
Exerccios 98
11.5. Distribuies contnuas de probabilidade 100
11.5.1. Distribuio normal ou Gaussiana 100
11.5.2 - Propriedades da Distribuio Normal 100
11.5.3 - Distribuio Normal Padronizada 101
12. Distribuio amostral das mdias 103
12.1. Teorema central do limite 104
12.2. Desvio padro da mdia 104
12.3. Distribuio t de "Student" 105
12.3.1. Propriedades da distribuio t de "Student" 106
Exerccios Diversos 107
13 ESTIMAO ESTATSTICA 116
13.1. Estimao de parametros populacionais 116
13.2. Intervalo de confiana para a mdia populacional 117
13.2.1. Intervalo de confiana para a mdia populacional () com o desvio padro () conhecido 117
10

13.2.2. Intervalo de confiana para a mdia populacional () com o desvio padro ()
desconhecido. 118
13.3. Duas amostras independentes 119
13.3.1. Intervalo de confiana para a diferena entre duas mdias populacionais 121
13.4. Teste t emparelhado 124
13.5. Determinao do tamanho da amostra 125
Exerccios 126
Exercicios diversos 128
14. TESTES DE HIPTESES 132
14.1. Hiptese estatstica 132
14.2. Regra de deciso 133
14.3. Erros de deciso 134
14.4. Probabilidade dos erros de deciso 134
14.5. Valor P 136
14.6. Significncia estatstica versus importncia cientfica 136
14.7. Testes unicaudal e bicaudal 137
14.8. Execuo do teste de hiptese 138
Exerccios 139
15 TESTES PARA A COMPARAO ENTRE DUAS MDIAS 140
15.1. Fundamento dos testes de significncia 140
15.2. Teste do valor da mdia 141
15.3. Comparao entre a mdia de uma amostra e a mdia da populao ( conhecido) 142
15.4. Regio crtica: 143
15.5. Teste t 144
15.6. Comparao entre a mdia de uma amostra ea mdia da populao 145
15.7. Comparao entre duas varincias testes de Fisher (F) 147
15.8. Comparao entre as medias de duas amostras independentes 149
15.9. Duas amostras de mesmo tamanho 149
15.10. Duas amostras de tamanhos diferentes 151
15.11. Comparao entre mdias de duas amostras emparelhadas 153
15.12. Resumo da aplicao de testes para comparar duas sries de dado 156
15.13. Tamanho da amostra 156
Exerccios 158
Exerccios diversos 160
16. CORRELAO E REGRESSO 167
16.1. Correlao 167
16.1.1. Introduo 167
16.2. Padres de associao 167
16.3. Indicadores de associao 168
16.4. Coeficiente de correlao 171
16.5. Hipteses bsicas 171
16.7. Distribuio amostral de r (quando = 0) 172
11

16.8. Distribuio amostral de r (quando 0) 174
16.9. Propriedades de R 175
16.20. Regresso 175
16.21. Estimativa dos parmetros de regresso 178
16.22. Estimativa da varincia do termo erro 179
16.23. Distribuies das estimativas 182
16.23.1. Distribuio do estimador b 182
16.24. Decomposio da soma dos quadrados 184
16.24.1. Decomposio dos desvios 184
16.24.2. Clculo das variaes 185
16.25. Intervalos de confiana 185
16.25.1. Intervalo para o coeficiente linear () 185
16.25.2. Intervalo para o coeficiente angular () 185
16.25.3. Intervalo para previses 186
16.26. Testes de hipteses 187
16.26.1. Teste para a existncia da regresso 188
16.26.2. Teste para o coeficiente linear 188
16.27. Coeficiente de determinao ou de explicao 189
Exerccios 190




12

1. INTRODUO

Objetivos
1. Definir estatstica
2. Listar algumas razes para o estudo da estatstica
3. Definir varivel
4. Distinguir entre:
Estatstica descritiva e inferencial
Varivel dependente e varivel independente
5. Definir variveis nominal, ordinal, intervalar e de razo.
6. Conceituar varivel aleatria
7. Distinguir entre:
Variveis qualitativas s quantitativas
Variveis discretas e contnuas

Por onde quer que se olhe ou escute uma coleo de nmeros so normalmente
enunciados como estatsticas. Estes nmeros referem-se aos mais diversos campos de
atividades: esportes, economia, finanas, etc. Assim tem-se, por exemplo:
* O nmero de carros vendidos no pas aumentou em 30%.
* A taxa de desemprego atinge, hoje, 7,5%.
* As aes da Telebrs subiram R$ 1,5, hoje.
* Resultados do Carnaval no trnsito: 145 mortos, 2430 feridos.
Um nmero denominado uma estatstica (singular). No fechamento da bolsa as
aes da Vale foram cotadas a R$ 45.50. As vendas de uma empresa no ms constituem
uma estatstica. J uma coleo de nmeros ou fatos denominado de estatsticas
(plural). Por exemplo, As vendas da empresa Picunhas totalizaram: 2,5 milhes em
janeiro, 2,7 em fevereiro e 3.1 em maro. No entanto o termo Estatstica tem um sentido
muito mais amplo, do que apenas nmeros ou coleo de nmeros. A Estatstica pode
ser definida como:
A cincia de coletar, organizar, apresentar, analisar e interpretar dados numricos
com o objetivo de tomar melhores decises.
13

Assim como advogados possuem regras de evidncia e contabilistas possuem prticas
comumente aceitas, pessoas que tratam com dados numricos seguem alguns
procedimentos padres.
Alguns destes mtodos sero vistos nesta disciplina e outros em uma segunda
disciplina. No esquecendo que mesmo duas disciplinas de Estatstica no esgotam o
assunto, ou seja, elas do apenas uma idia dos procedimentos e tcnicas existentes
para se lidar com dados numricos.

1.1. Diviso da estatstica
A estatstica divide-se em trs (quatro) grandes reas de conhecimento: Teoria da
Amostragem, Mtodos Descritivos e Inferncia Estatstica a quarta grande rea a
Probabilidade, porm, segundo alguns autores, Probabilidade no parte da Estatstica,
mas sim um ramo da Matemtica.
Toda a Estatstica baseada em eventos aleatrios e sua ocorrncia baseada
em probabilidades. Deste modo impossvel estudar a Estatstica sem possuir
conhecimentos probabilsticos.

1.1.1. Estatstica descritiva:
Os procedimentos usados para organizar, resumir e apresentar dados numricos.
Conjuntos de dados desorganizados so de pouco ou nenhum valor. Para que os dados
se transformem em informao necessrio organiz-los, resumi-los e apresent-los. O
resumo de conjuntos de dados feito atravs das medidas e a organizao e
apresentao atravs das distribuies de freqncias e dos grficos ou diagramas.

1.1.2. Estatstica Indutiva ou Inferencial.
Consiste em inferir (deduzir ou tirar concluses a respeito das) propriedades de
um universo a partir de uma amostra. O processo de generalizao, que caracterstico
do mtodo indutivo, est associado a uma margem de incerteza. A medida da incerteza
tratada mediante tcnicas e mtodos que se fundamentam na Teoria das Probabilidades.
Dessa forma, poderamos resumir os passos necessrios para se atingir bons
resultados ao realizar um experimento:
Planejar o processo amostral e experimental.
Obter inferncias sobre a populao.
14

Estabelecer nveis de incerteza envolvidos nessas inferncias


Tcnicas de Amostragem



Anlise
Descritiva

Inferncia Estatstica

















Populao
caractersticas
Amostra

Informaes
contidas nos
dados

Concluses
sobre as
caractersticas
da populao
15

2. POPULAO E AMOSTRA

Objetivos
1. Distinguir entre:
Populao e amostra
Parmetro e estatstica
2. Explicar porque o mtodo de seleo de uma amostra importante
3. Explicar as razes para o uso de amostras
4. Definir amostra aleatria
5. Selecionar uma amostra empregando a tabela de nmeros aleatrios

Para a realizao de inferncia estatstica e imprescindvel o conhecimento de
dois conceitos bsicos: a populao e a amostra. a partir deles que so extrados os
dados que do origem aos clculos estatsticos e que permitem descrev-las sob
diferentes aspectos.
2.1. Populao ou universo: Consiste em todo o conjunto de indivduos (pessoas,
animais ou coisas) que apresentam uma ou mais caractersticas em comum
susceptveis de serem observadas e/ou determinadas. Por exemplo, peso dos
habitantes de uma cidade. Cada habitante tem um peso. O conjunto de pesos de
todos os seus habitantes constitui uma "populao de pesos". Em estatstica, a
populao se refere a um conjunto de seres ou a um conjunto de observaes. Os
valores descritivos e verdadeiros da populao so chamados parmetros. Os
valores dos parmetros devem ser estimados a partir dos dados das amostras.
So simbolizados por caracteres gregos: = media da populao. = desvio
padro da populao. Assim, a populao de pesquisa um conjunto de
indivduos delimitados por caractersticas como:
1. O conjunto das rendas de todos os habitantes de Rio Verde-GO;
2. O conjunto de todas as notas dos alunos de Estatstica;
3. O conjunto das alturas de todos os alunos da Universidade de Rio Verde;
etc.
Um levantamento efetuado sobre toda uma populao dito de levantamento
censitrio ou simplesmente censo.

16

Fazer levantamentos, estudos, pesquisas, sobre toda uma populao (censo) ,
em geral, muito difcil. Isto se deve a vrios fatores. O principal o custo. Um censo custa
muito caro e demanda um tempo considervel para ser realizado. Assim, normalmente,
se trabalha com partes da populao denominadas de amostras. Uma amostra pode ser
caracterizada como:

Uma poro ou parte de uma populao de interesse.

2.2. Amostra: um subconjunto selecionado da populao na qual se pretende
estudar suas caractersticas, A pesquisa biomdica usualmente realizada em
amostras. Os dados de observao registrados na amostra fornecem informaes
sobre a populao. O processo pelo qual se tira concluses sobre a populao,
com base em resultados obtidos da amostra, chamado inferncia estatstica. Os
valores obtidos na amostra, calculados ou estimados, so denominados
estatsticas. A estatstica uma estimativa do valor verdadeiro da populao
(parmetro). Assim a mdia calculada da amostra e uma estatstica e como tal,
uma estimativa da mdia verdadeira da populao. As estatsticas so
simbolizadas por caracteres latinos.
O processo pelo qual o parmetro populacional estimado pela estatstica
chamado estimao, Em virtude da variao dentro da populao, diferentes amostras
tiradas de uma mesma populao diferem umas das outras. Por isso, com base numa
nica amostra, possvel apenas estimar os atributos de populaes; o investigador
jamais os conhecer exatamente os valores dos parmetros, a no ser que examine toda
a populao.
Uma estimao eficiente do parmetro requer uma estatstica no viciada. Vcio
(vis, biased, tendenciosidade) um processo em qualquer sistematicamente dos valores
verdadeiros.
Na estimao de parmetros populacionais, entre os muitos cuidados a serem
observados, dois so de particular importncia.
3. Definir a populao a ser amostrada: A abrangncia de uma populao
determinada pelas caractersticas do fenmeno estudado. Essa definio deve ser
criteriosa, caso contrario a amostra poder ser inadequada. s vezes essa definio
relativamente fcil, por exemplo, a populao de trabalhadores que exercem suas
atividades em determinada fbrica. Mais complexa a situao para se estudar
17

diabticos que procuram postos de sade para fazer controle.
4. Utilizar amostras representativas da populao: As amostras devem possuir as
mesmas caractersticas bsicas da populao, no que diz respeito ao fenmeno
que se deseja estudar. Para atender a esse requisito, usam-se amostras aleatrias
representativas da populao (v adiante). Procedendo-se dessa forma, elimina-se a
tendenciosidade (vis) pessoal na constituio das amostras, eliminando a escolha
intencional para a comprovao de certa hiptese. No entanto, deve ser lembrado
que o processo de amostragem, mesmo bem elaborado e executado, traz em si a
possibilidade do erro amostral devido variabilidade, por obra do acaso e ao fato de
apenas parte da populao ser examinada.
Utilizar amostras para se ter conhecimento sobre populaes realizado
intensamente na Agricultura, Poltica, Negcios, Marketing, Governo, etc., como se
podem ver plos seguintes exemplos:
Antes da eleio diversos rgos de pesquisa e imprensa ouvem um conjunto
selecionado de eleitores para ter uma idia do desempenho dos vrios
candidatos nas futuras eleies.
Uma empresa metal-mecnica toma uma amostra do produto fabricado em
intervalos de tempo especificados para verificar se o processo est sob
controle e evitar a fabricao de itens defeituosos.
O IBGE faz levantamentos peridicos sobre emprego, desemprego, inflao,
etc.
Redes de rdio e Tv se utilizam constantemente dos ndices de popularidade
dos programas para fixar valores da propaganda ou ento modificar ou eliminar
programas com audincia insatisfatria.
Bilogos marcam pssaros, peixes, etc. para tentar prever e estudar seus
hbitos.

O processo de escolha de uma amostra da populao denominado de
amostragem.

Os problemas de amostragem podem ser mais ou menos complexos, dependendo
das populaes e das variveis que se deseja estudar. Na indstria, para efeito de
controle de qualidade, as amostras so freqentemente retiradas dos produtos e
materiais. Nela os problemas de amostragem so mais simples de resolver. Por outro
18

lado, em pesquisas sociais, econmicas ou de opinio, a complexidade dos problemas de
amostragem normalmente bastante grande. Em tais casos, deve-se ter extremo
cuidado quanto caracterizao da populao e ao processo usado para selecionar a
amostra, a fim de evitar que os elementos constituam um conjunto com caractersticas
fundamentalmente distintas das da populao.
Em resumo, a obteno de solues adequadas para o problema de amostragem
exige, em geral, muito bom senso e experincia. Alm disso, muitas vezes conveniente
que o trabalho de elaborao do plano de amostragem seja baseado em informaes de
um especialista do assunto em questo.
Cuidado especial deve ser tomado nas concluses em situaes em que a
amostra coletada no seja extrada exatamente da populao de interesse (populao
alvo) e sim de uma populao mais acessvel, conveniente, nesse caso chamada de
populao amostrada.
Veja os exemplos:
1) Suponha que um socilogo deseja entender os hbitos religiosos dos homens
com 20 anos de idade em certo pas. Ele extrai uma amostra de homens com
20 anos de uma grande cidade para estudar. Neste caso, tem-se:
Populao alvo homens com 20 anos do pas;
Populao amostrada homens com 20 anos da cidade grande amostrada.
Ento, ele pode fazer concluses vlidas apenas para os elementos da grande
cidade (populao amostrada), mas pode usar o seu julgamento pessoal para
extrapolar os resultados obtidos para a populao alvo, com muita cautela e
certas reservas.
2) Um pesquisador agrcola est estudando a produo de certa variedade de
trigo em determinado estado. Ele tem a sua disposio cinco fazendas
espalhadas pelo estado, nas quais ele pode plantar trigo e observar a
produo. A populao amostrada, neste caso, consiste das produes de
trigo nas cinco fazendas, enquanto a populao alvo consiste das produes
de trigo em todas as fazendas do estado.

2.3. Tcnicas de Amostragem
Existem dois tipos de amostragem: probabilstica e no-probabilstica. A
amostragem ser probabilstica se todos os elementos da populao tiverem
probabilidade conhecida, e diferente de zero, de pertencer amostra.
19

Caso contrrio, a amostragem ser no-probabilstica. Uma amostragem no-
probabilstica obtida quando o acesso a informaes no to simples ou os recursos
forem limitados, assim o pesquisador faz uso de dados que esto mais a seu alcance, a
chamada amostragem por convenincia.
Por exemplo, podemos realizar um estudo para avaliar a qualidade do servio
prestado por uma operadora de telefonia celular. Caso tenhamos recursos suficientes,
podemos realizar um plano amostral bastante abrangente de toda a populao de
usurios do servio. Isso caracteriza uma amostra probabilstica. Mas se por restries
oramentrias ou de outra ordem no for possvel obter uma amostra to numerosa ou
ela seja de difcil acesso, podemos restringir nossa amostra a uma pequena regio
delimitada de fcil acesso e de custo reduzido, usurios de uma cidade, por exemplo.
Essa uma amostragem no-probabilstica.
Segundo essa definio, a amostragem probabilstica implica sorteio com regras
bem determinadas, cuja realizao s ser possvel se a populao for finita e totalmente
acessvel.
A utilizao de uma amostragem probabilstica a melhor recomendao que se
deve fazer no sentido de garantir a representatividade da amostra, pois o acaso o nico
responsvel por eventuais discrepncias entre populao e amostra. No caso em que a
nica possibilidade o uso de uma amostragem no-probabilstica, deve-se ter a
conscincia de que as concluses apresentam alguma limitao.
A seguir, apresentamos algumas das principais tcnicas de amostragem
probabilstica.

2.3.1. Amostragem aleatria simples
Esse tipo de amostragem, tambm chamada simples ao acaso, casual, elementar,
randmica etc., equivalente a um sorteio lotrico. Nela, todos os elementos da
populao tm igual probabilidade de pertencer amostra e todas as possveis amostras
tm igual probabilidade de ocorrer.
Sendo N o nmero de elementos da populao e n o nmero de elementos da
amostra, cada elemento da populao tem probabilidade n/N de pertencer amostra. A
essa relao n/N denomina-se frao de amostragem. Por outro lado, sendo a
amostragem feita sem reposio, supomos, em geral, que existem
N
n
| |
|
\
possveis
amostras, todas igualmente provveis.
20

Na prtica, a amostragem simples ao acaso pode ser realizada numerando-se a
populao de 1 a N, sorteando-se, a seguir, por meio de um dispositivo aleatrio
qualquer, n nmeros dessa seqncia, os quais correspondem aos elementos sorteados
para a amostra.

2.3.2. Amostragem sistemtica
Quando os elementos da populao se apresentam ordenados e a retirada dos
elementos da amostra feita periodicamente, temos uma amostragem sistemtica.
Assim, por exemplo, em uma linha de produo, podemos, a cada dez itens
produzidos, retirar um para pertencer a uma amostra da produo diria. Assim, teremos
uma produo total de N itens e extrairemos uma amostra de tamanho n, selecionando
as unidades a cada dez itens. Para seleo do primeiro item, um nmero entre 1 e 10
sorteado aleatoriamente e os demais subseqentes so obtidos sistematicamente.Por
exemplo, as unidades sorteadas podero ser 8, 18, 28, 38, 48, e assim por diante,
repetindo-se o procedimento at o N-simo item. Denomina-se k = N/n como a razo de
amostragem. No exemplo, portanto, k = 10.
A principal vantagem da amostragem sistemtica est na grande facilidade na
determinao dos elementos da amostra. O perigo em adot-la est na possibilidade da
existncia de ciclos de variao da varivel de interesse, especialmente se o perodo
desses ciclos coincidir com o perodo de retirada dos elementos da amostra. Por outro
lado, se a ordem dos elementos na populao no tiver qualquer relacionamento com a
varivel de interesse, ento a amostragem sistemtica tem efeitos equivalentes
amostragem casual simples, podendo ser utilizada sem restries.

2.3.3. Amostragem estratificada
Muitas vezes, a populao se divide em subpopulaes ou estratos, sendo
razovel supor que, de estrato para estrato, a varivel de interesse apresente um
comportamento substancialmente diverso, tendo, entretanto, comportamento
razoavelmente homogneo dentro de cada estrato. Em tais casos, se o sorteio dos
elementos da amostra for realizado sem se levar em considerao a existncia dos
estratos, pode acontecer que os diversos estratos no sejam convenientemente
representados na amostra, a qual seria mais influenciada pelas caractersticas da varivel
nos estratos mais favorecidos pelo sorteio. Evidentemente, a tendncia ocorrncia de
21

tal fato ser tanto maior quanto menor o tamanho da amostra. Para evitar isso, pode-se
adotar uma amostragem estratificada.
Constituem exemplos em que uma amostragem estratificada parece ser
recomendvel, a estratificao de uma cidade em bairros, quando se deseja investigar
alguma varivel relacionada renda familiar; a estratificao de uma populao humana
em homens e mulheres, ou por faixas etrias; a estratificao de uma populao de
estudantes conforme suas especificaes etc.

2.3.4. Amostragem por conglomerados
Neste mtodo, em vez da seleo de unidades da populao, so selecionados
conglomerados dessas unidades. Essa uma alternativa para quando no existe o
cadastro das unidades amostrais. Se a unidade de interesse, por exemplo, for um aluno,
pode ser que no exista um cadastro de alunos, mas sim de escolas. Portanto, podem
ser selecionadas escolas e nelas investigar todos os alunos. Esse tipo de amostragem
induz indiretamente aleatoriedade na seleo das unidades que formam a amostra e tem
a grande vantagem de facilitar a coleta de dados.

2.3.5. Amostragem de convenincia (no-probabilstica)
A amostra de convenincia formada por elementos que o pesquisador reuniu
simplesmente porque dispunha deles. Ento, se o professor tomar os alunos de sua
classe como amostra de toda a escola, est usando uma amostra de convenincia.
Os estatsticos tm muitas restries ao uso de amostras de convenincia.
Mesmo assim, as amostras de convenincia so comuns na rea de sade, em que se
fazem pesquisas com pacientes de uma s clnica ou de um s hospital. Mais ainda, as
amostras de convenincia constituem, muitas vezes, a nica maneira de estudar
determinado problema.
De qualquer forma, o pesquisador que utiliza amostras de convenincia precisa de
muito senso crtico. Os dados podem ser tendenciosos. Por exemplo, para estimar a
probabilidade de morte por desidratao no se deve recorrer aos dados de um hospital.
Como s so internados os casos graves, possvel que a mortalidade entre pacientes
internados seja maior do que entre pacientes no-internados. Conseqentemente, a
amostra de convenincia constituda, nesse exemplo, por pacientes internados no
hospital, seria tendenciosa.
22

Finalmente, o pesquisador que trabalha com amostras sempre pretende fazer
inferncia, isto , estender os resultados da amostra para toda a populao.
Ento muito importante caracterizar bem a amostra e estender os resultados obtidos na
amostra apenas para a populao da qual a amostra proveio.
Exemplos de planos amostrais:
Exemplo 1: Uma agncia de seguros tem N = 100 clientes comerciantes. Seu
proprietrio pretende entrevistar uma amostra de 10 clientes para
levantar possibilidades de melhora no atendimento. Escolha uma
amostra aleatria simples de tamanho n = 10.
Primeiro passo atribuir a cada cliente um nmero entre 1 e 100.
Segundo passo recorrer a um gerador de nmeros aleatrios de
uma planilha eletrnica para selecionar aleatoriamente 10 nmeros
de 1 a 100. Os clientes identificados pelos nmeros selecionados
compem a amostra.
Exemplo 2: Uma operadora de celular tem um arquivo com N = 5 000 fichas de
usurios de um servio e selecionada, sistematicamente, uma
amostra de n = 1 000 usurios. Nesse caso, a frao de amostragem
igual a n/N = 1 000/5 000 e assim podemos definir k = 5 (N/n = 5
000/1 000 = 5), ou seja, teremos 5 elementos na populao para
cada elemento selecionado na amostra. Na amostragem sistemtica,
somente o ponto de partida sorteado dentre as 5 primeiras fichas
do arquivo. Admitamos que foi sorteado o nmero 3, ento a amostra
ser formada pelas fichas 3 , 8, 13 , 18, . . . , 4993, 4998.











23

3. VARIVEL
a caracterstica que se deseja estudar de uma dada populao.
Ex.: Cor dos olhos dos moradores da cidade de Rio Verde - GO, altura dos alunos da
FESURV, resistncia muscular localizada para exerccios abdominais em obesos etc.

3.1. Classificao das variveis
As variveis so classificadas segundo suas caractersticas particulares em quatro
categorias. Tais classificaes no so simplesmente didticas, mas assumem papel
importante na estatstica, pois tero tratamentos diferentes como ser visto adiante.

3.2. Contnuas: so aquelas que podem assumir qualquer valor dentro de um
intervalo de interesse. Os dados advindos deste tipo de varivel so ditos
contnuos. Ex.: peso, estatura, distncia percorrida em um teste de esforo etc.
Em geral esto associadas a medidas que tenham unidade (m, kg, l, m/s etc.)

Exemplo 1: (varivel quantitativa contnua)
Populao: moradores de uma determinada cidade.
Varivel: estatura dos indivduos.

3.3. Discretas: so aquelas que s podem assumir valores inteiros dentro de um
intervalo de interesse. Os dados discretos so resultados da contagem do nmero
de itens referente varivel. Ex.: nmero de repeties executadas em uma
tarefa, nmero de filhos de um casal, quantidade de aves abatidas por um
frigprfico, etc.

Exemplo 2: (varivel quantitativa discreta)
Populao: hospitais de uma determinada cidade.
Varivel: nmero de leitos (0, 1, 2,...).

3.4. Nominais ou categricas: so aquelas que s podem assumir alguns estados
ou categorias e geralmente no so numricas: Os dados nominais surgem
quando se definem categorias e se conta suas observaes. Ex.: Sexo de uma
24

populao (masculino e feminino) queixas de dor lombar (sim e no), cor dos
olhos de uma populao (azuis, castanhos, pretos, verdes) etc.

Exemplo 3: (varivel qualitativa nominal)
Populao: moradores de uma cidade.
Varivel: cor dos olhos (pretos, castanhos, azuis e verdes).

Exemplo 4: (varivel qualitativa ordinal)
Populao: moradores de um condomnio.
Varivel: grau de instruo (fundamental mdio e superior).

3.5. Ordinais: So aquelas que se relacionam a avaliaes subjetivas segundo
preferncia ou desempenho. Os dados ordinais constituem valores relativos,
atribudos para denotar ordem. Ex.: primeiro, segundo, terceiro, quarto, o melhor,
o maior etc.



















25

4. ESCALAS DE MENSURAO
Existem quatro formas de mensurao ou tipos ou nveis de medidas ou ainda,
escalas.
Elas so conhecidas como nominal, ordinal, intervalar e razo.
Nominal: Na classificao tenta-se separar conjuntos de elementos com respeito a
certas categorias, tomando decises sobre quais elementos so mais parecidos
e quais so diferentes. Por exemplo: religio, sexo, estado civil.
Ordinal: O nvel ordinal o nvel nominal onde se pode ordenar as
caractersticas ou categorias. A nica diferena entre os dois nveis a relao
de ordem que se pode estabelecer entre as categorias. A avaliao atravs de
conceitos feita por uma escala ordinal. Outros exemplos: classe social, nvel
de instruo.
Intervalar: Pode ser utilizada para se referir as situaes em que se pode, no
somente ordenar objetos com respeito ao grau que eles possuem certa
caracterstica, mas tambm indicar a exata distncia entre eles. A escala de
medida intervalar uma escala nominal em que a distncia entre as categorias,
ao contrrio da ordinal, sempre a mesma. As escalas de medir temperatura
como Celsius e Fahrenheit so exemplos de escalas de intervalo. No se pode
afirmar que uma temperatura de 40 2 vezes mais quente que uma de 20,
porm a diferena entre 20 e 40 a mesma que entre 75 e 95. Isto ocorre,
pois no existe zero absoluto, i, 0 no indica ausncia de calor e apenas um
ponto de referncia. Escores padronizados so exemplos deste tipo de medida.
Nvel de razo: o mais alto nvel de medida. Caracteriza-se por apresentar
todas as caractersticas do nvel intervalar mais um zero absoluto. O zero
absoluto aqui entendido como ausncia da caracterstica e a comparao de
valor tem sentido. Por exemplo: Peso. 0 kg indica ausncia de peso e 20 kg
duas vezes mais pesado que 10 kg.






26

5. ANLISE EXPLORATRIA DE DADOS

5.1. Introduo
As tcnicas estatsticas clssicas foram concebidas para serem as melhores
possveis, desde que se assuma um conjunto de pressupostos rgidos.
Sabe-se que essas tcnicas se comportam deficientemente medida que este
conjunto de pressupostos no satisfeito.
As tcnicas de Anlise Exploratria de Dados contribuem para aumentar a
eficcia da anlise estatstica, de forma fcil e rpida. Geralmente, devem ser aplicadas
antes da formulao das hipteses estatsticas para identificar padres e caractersticas
dos dados.
Uma amostra um subconjunto de uma populao, necessariamente finito, pois
todos os seus elementos so examinados para efeito da realizao do estudo estatstico
desejado.
intuitivo que, quanto maior a amostra, mais precisas e confiveis devem ser as
indues realizadas sobre a populao. Levando esse raciocnio ao extremo,
concluiramos que os resultados mais perfeitos seriam obtidos pelo exame completo de
toda a populao, ao qual costuma-se denominar Censoou Recenseamento. Mas essa
concluso, na prtica, muitas vezes no se verifica. O emprego de amostras pode ser
feito de tal modo que se obtenham resultados confiveis.
Ocorre, em realidade, que diversas razes levam, em geral, necessidade de
recorrer-se apenas aos elementos de uma amostra. Entre ela, podemos citar o custo do
levantamento de dados e o tempo necessrio para realiz-lo, especialmente se a
populao for muito grande.
O objetivo da Estatstica Descritiva resumir as principais caractersticas de um
conjunto de dados por meio de tabelas, grficos e resumos numricos.
A anlise estatstica deve ser extremamente cuidadosa ao escolher a forma adequada de
resumir os dados. Apresentamos na tabela a seguir um resumo dos procedimentos da
Estatstica Descritiva.





27

Tabela 1: Principais tcnicas de estatstica descritiva
Tabelas de Freqncia Apropriada para resumir um grande conjunto
de dados, agrupando informaes em
categorias. As classes que compem a tabela
podem ser categorias pontuais ou por
intervalos.
Grficos Possibilita uma visualizao das principais
caractersticas da amostra. Alguns exemplos
de grficos so: diagrama de barras,
diagrama em setores, histograma, Box-plot,
ramo-e-folhas, diagrama de disperso.
Medidas Descritivas Por meio de medidas ou resumos numricos
podemos levantar importantes informaes
sobre o conjunto de dados, tais como: a
tendncia central, variabilidade, simetria,
valores extremos, valores discrepantes, etc.

Um dos objetivos da Estatstica sintetizar os valores que uma ou mais variveis
podem assumir, para que tenhamos uma viso global da variao dessa ou dessas
variveis. Isso se consegue, inicialmente, apresentando esses valores em tabelas e
grficos, que fornecem rpidas e seguras informaes a respeito das variveis.

5.2. Tabelas
Uma tabela resume os dados por meio do uso de linhas e colunas, nas quais so
inseridos os nmeros. Uma tabela compe-se de:
Corpo conjunto de linhas e colunas que contm informaes sobre a varivel
em estudo.
Cabealho parte superior da tabela que especifica o contedo das colunas.
Coluna Indicadora parte da tabela que especifica o contedo das linhas.
Linhas retas imaginrias que facilitam a leitura, no sentido horizontal, de
dados que se inscrevem nos seus cruzamentos com as colunas.
Casas ou Clulas espao destinado a um s nmero.
Ttulo conjunto de informaes (as mais completas possveis) localizado no
topo da tabela.
Existem ainda, elementos complementares que so: a fonte, as notas e as
chamadas, os quais devem ser colocados no rodap da tabela.
As notas devem esclarecer aspectos relevantes do levantamento dos dados ou da
apurao. As chamadas do esclarecimentos sobre os dados.
Devem ser feitas de algarismos arbicos escritos entre parnteses, e colocados
direita da coluna.
28

Exemplo:

Tabela 2: Populao brasileira residente, com 15 anos e mais, segundo o estado conjugal, de
acordo com o censo demogrfico de 1980.
Estado conjugal Freqncia Percentual
Solteiros1 25 146 484 34,18
Casados2 41 974 865 57,06
Separados 1 816 046 2,47
Vivos 3 616 046 4,92
Sem declarao 1 005 234 1,37

Observao:
Nas casas ou clulas devemos colocar:
Um trao horizontal ( __ ) quando o valor zero, no s quanto a natureza das coisas,
como quanto ao resultado do inqurito;
Trs pontos ( ... ) quando no temos dados;
Ponto de interrogao ( ? ) quando temos dvida quanto a exatido de um valor;
Zero ( 0 ) quando o valor muito pequeno para ser expresso pela unidade utilizada.















Esto computados, como
separados, os desquitados e os
divorciados.
1
Exclusive as pessoas solteiras,
vivendo em unio consensual
estvel.
2
Inclusive 4 939 528 pessoas
vivendo em unio consensual
estvel.
29

6. SRIES E GRFICOS ESTATSTICOS

6.1. Introduo
Foi estabelecido que a etapa final do mtodo estatstico envolve a anlise e
interpretao de nmeros, obtidos na etapa de coleta de dados. O conjunto de nmeros
proveniente da coleta de dados, sem qualquer manipulao na sua forma de
apresentao, denominado de dados brutos.
Nesta forma de apresentao, ainda sem qualquer tipo de processamento, a
tentativa de anlise e interpretao de uma caracterstica, alm de extremamente rdua,
pode confundir ao invs de esclarecer, quando se considera nossa limitada capacidade
de lidar com um grande conjunto de dados. Surge ento a necessidade de organizao e
reduo.
O processamento dos dados torna-se necessrio para reduzir a quantidade de
detalhes, facilitando a identificao da essncia dos dados. Tanto os resumos visuais,
utilizados no que denominamos de apresentao grfica, quanto os resumos
numricos, provenientes das tcnicas de apresentao tablar, proporcionam facilidades
na identificao das caractersticas mais importantes dos dados.
Este captulo tem por objetivo apresentar os principais conceitos envolvidos na
apresentao de dados nas formas tabular e grfica.

6.1.1. Sries Estatsticas
Toda tabela que apresenta a distribuio de um conjunto de dados estatsticos em
relao poca, local ou espcie, denominada de sries estatsticas. Em funo dos
fatores apontados, as sries numricas podem ser classificadas em quatro grandes
classes: histricas, geogrficas, conjugadas e especficas. Nesta ltima classe, podemos
enquadrar um tipo especial de representao de dados estatsticos: a distribuio de
frquencias.

6.1.1.1. Sries Histricas, Cronolgicas, Temporais ou Marchas
Descrevem os valores da varivel, em determinado local, discri minados
segundo intervalos de tempo vari veis.


30

Exemplo
Efetivo de rebanhos bovinos (cabeas) Rio Verde-GO, 2004-2010
Ano Cabeas (1.000)
2004 325
2005 343
2006 320
2007 375
2008 390
2009 412
2010 400
Fonte: Seplan-GO

6.1.1.2. Sries Geogrficas, Espaciais, Territoriais ou de Localizao
Descrevem os val ores da varivel, em determinado instante,
discriminados segundo regies.
Exemplo

Produo mundoal de soja, Safra 2010/2011

Pas
rea Colhida
(mil hectares)
Participao
%
Estados Unidos 31.006 30,2
Brasil 24.200 23,5
Argentina 18.300 17,8
ndia 9.400 9,1
China 8.520 8,3
Paraguai 2.840 2,8
Canad 1.477 1,4
Ucrnia 1.037 1,0
Rssia 1.036 1,0
Demais Pases (33) 5.007 4,9
rea Colhida Total 102.823 100,0
Fonte: IBGE

6.1.1.3. Sries Conjugadas e Tabela de Dupla Entrada
Muitas vezes temos necessidade de apresentar, em uma nica tabel a,
a variao de valores de mais de uma vari vel, isto , fazer uma conj ugao
de duas ou mais sri es.
Conj ugando duas sries em uma nica tabela, obtemos uma tabel a de
dupl a entrada. Em uma tabela desse ti po ficam criadas duas ordens de
classificao: uma horizontal (linha) e uma vertical (coluna).
31

Exemplo:
Terminais telefnicos em servio 1991-93
REGIES 1991 1992 1993
Norte
Nordeste
Sudeste
Sul
Centro-Oeste
342.938
1.287.813
6.234.501
1.497.315
713.357
375.678
1.379.101
6.729.467
1.608.989
778.925
403.494
1486.649
7231.634
1.746.232
884.882
FONTE: Ministrio das Comunicaes

6.1.1.4. Sries Especficas ou Categricas
Descrevem os valores da varivel, em determinado tempo e local, discriminados
segundo especificaes ou categorias.
Exemplo:
Efetivo da pecuria do Estado de Gois
Espcies Cabeas
Aves 55.156.362
Codornas 243.150
Galinceos 54.913.212
Rebanho de Asininos 6.084
Rebanho Bovino 21.347.881
Rebanho de Bubalinos 32.656
Rebanho de Caprinos 39.737
Rebanho de Equinos 428.367
Rebanho de Muares 42.530
Rebanho de Ovinos 201.173
Rebanho de Sunos 2.046.727
Rebanho de Vacas Ordenhadas 2.479.869
Fonte: SEPLAN-GO









32

6.2. Grficos Estatsticos
Os grficos constituem uma forma clara e objetiva de apresentar dados
estatsticos. A inteno a de proporcionar aos leitores em geral a compreenso e a
veracidade dos fatos. De acordo com a caracterstica da informao precisamos escolher
o grfico correto. Os mais usuais so: grfico de segmentos, grfico de barras e grfico
de setores

6.2.1. Grficos de linha til quando se deseja representar a evoluo de diversas
variveis ao longo de vrios momentos de tempo. um gr fico de duas
dimenses formado por dois eixos perpendiculares. Em que o tempo
representado no eixo horizontal X e os resultados das variveis no eixo vertical Y.
Exemplo
Uma locadora de filmes em DVD registrou o nmero de locaes no 1 semestre do ano
de 2008. Os dados foram expressos em um grfico de segmentos


6.2.2. Grfico de colunas e grfico de barras apresentam os resultados por meio do
desenho de diversas barras. Em que cada categoria da varivel em estudo associada a
uma barra e o comprimento da barra diz respeito ao resultado indicado para a categoria.
Pode ser usada tambm em representaes envolvendo diversas variveis.
Acompanhadas em diversos momentos de tempo
Os exemplos a seguir mostram o consumo de energia eltrica no decorrer do ano
de 2005 de uma famlia
33





6.2.3. Grfico em setores (pizza) composto de um crculo repartido em n fatias. Com
tamanhos proporcionais ocorrncia da varivel nos resultados da pesquisa.
Representando um certo instante no tempo. Sugere-se que seja aplicado em variveis
com no mximo 8 categorias.
O grfico a seguir mostrar a preferncia dos clientes de uma locadora quanto ao
gnero dos filmes locados durante a semana

6.2.4. Outros tipos de grficos
6.2.4.1. Cartograma: Utilizado para representar mapas;
6.2.4.2. Estereograma:
6.2.4.3. Pictograma: Utilizado para

Exemplos

Cartograma


Pictograma
Outros tipos de grficos
Utilizado para representar mapas;
tereograma: Utilizado para representar volume;
: Utilizado para representar figuras
Cartograma Estereograma


Fico
22%
Aventura
19%
Comdia
25%
Terror
15%
Guerra
14%
Outros
5%
34

35

7. DISTRIBUIO DE FREQNCIAS

7.1. Introduo
Objetivos

1. Construir uma tabela de freqncia que inclua classes, limites de classe
freqncia simples, freqncias relativa, freqncia acumulada e freqncia
acumulada relativa.
2. Interpretar uma tabela de freqncias.

Para se trabalhar com grandes conjuntos de dados necessrio inicialmente
agrupar estes dados. O agrupamento feito em tabelas, denominadas de distribuies
de freqncias. Para se construir uma distribuio de freqncias comum fazer a
distino entre dois tipos de variveis. A varivel (ou conjunto) discreta (valores que so
resultados de contagem) e a varivel (ou conjunto) contnua (valores que so resultados
de uma medida). Em geral variveis discretas so agrupadas em distribuies por
ponto ou valores e variveis contnuas em distribuies por classes ou intervalos.
A separao no rgida e depende basicamente dos dados considerados. Poder ser
necessrio usar uma distribuio por classes ou intervalos mesmo quando a varivel
discreta.

7.2. Distribuies por ponto ou valores.
Considere-se um conjunto de valores resultados de uma contagem. Poderia ser,
por exemplo, o nmero de irmos dos alunos da turma U, disciplina de Estatstica.
Nmero de irmos dos alunos da turma U - disciplina Estatstica
0 1 1 6 3 1 3 1 1 0
4 5 1 1 1 0 2 2 4 1
3 1 2 1 1 1 1 5 5 6
4 1 1 0 2 1 4 3 2 2
1 0 2 1 1 2 3 0 1 0
Esta coleo de valores no constitui informao, mas pode ser transformada em
informao mediante sua representao em uma distribuio de freqncias por pontos
ou valores. Para tal, colocase o conjunto em uma tabela em que a coluna da esquerda
representada pelos diferentes nmeros ordenados (os pontos ou valores) e a coluna da
36

direita pelo nmero de vezes que cada valor se repetiu (as freqncias simples ou
absolutas). Para o exemplo, na tabela trs, tem-se:

Tabela 03 - Distribuio de freqncias por ponto ou valores do nmero de irmos dos alunos da
turma U. Disciplina Estatstica.
Nmero de irmos Nmero de alunos
0 7
1 21
2 8
3 5
4 4
5 3
6 2
50


7.3. Distribuies por classes ou intervalos
Considere-se um conjunto de valores resultados de uma medida. Poderia ser, por
exemplo, a idade dos alunos da turma U da disciplina de Estatstica.
Idade (em meses) dos alunos da turma U - Disciplina Estatstica
230 234 276 245 345 240 270 310 368 369
334 268 288 336 299 236 239 355 330 247
287 344 300 244 303 248 251 265 246 266
240 320 308 299 312 324 289 320 264 275
252 298 315 255 274 264 263 230 303 281
Este conjunto de valores, obviamente no pode ser apresentado da mesma forma
que o anterior, pois quase no h repeties. Neste caso necessrio construir uma
tabela denominada de distribuio de freqncias por classes ou intervalos.
Evidentemente haver perda de informao neste processo, mas o ganho obtido pela
facilidade compreenso dos dados compensa. O procedimento para construir esta
distribuio envolve os seguintes passos (algoritmo):
Determinar a amplitude dos dados: h = x
max
- x
min
.
Decidir sobre o nmero de classes i a ser utilizado. Recomenda-se um nmero
de classes entre 5 e 15. Para que a deciso no seja totalmente arbitrria
pode-se usar
37

i , . +
1 3 3 log n 1 3 3 log n 1 3 3 log n 1 3 3 log n
ou i n
Determinar a amplitude de cada classe. Sempre que possvel manter todas as
amplitudes iguais. Para tanto deve-se dividir a amplitude dos dados h pelo
nmero de classes i, arredondando para mais, ou seja,
i
h
h
i
.
Contar o nmero de valores pertencentes a cada classe. Em geral, utiliza-se a
simbologia (|--- ), para indicar um intervalo fechado esquerda e aberto
direita. Tambm poderia ser utilizado o intervalo aberto esquerda e fechado
direita (---|), aberto de ambos os lados
( --- ) ou ainda fechado de ambos os lados (|---|).
Um exemplo de uma distribuio por classes ou intervalos apresentado na tabela 04.

Tabela 04 - Idades dos alunos da turma U - Disciplina Estatstica.
Idades Nmero de alunos
230 |---- 250 12
250 |---- 270 9
270 |---- 290 8
290 |---- 310 7
310 |---- 330 6
330 |---- 350 5
350 |---- 370 3
Total 50

7.4. Elementos de uma distribuio de freqncias

7.4.1. Classes
So intervalos de variao da varivel.
As classes so representadas simbolicamente por i, sendo i = 1, 2, 3, ..., k (onde k
o nmero total de classes da distribuio).

7.4.2. limites de classe
So os extremos de cada classe.
O menor nmero o limite inferior da classe (l
i
) e o maior nmero, o limite
superior da classe (L
i
).
38

7.4.3. Amplitude de um intervalo de classe, ou, simplesmente, intervalo de classe
a medida do intervalo que define a classe.
Ela obtida pela diferena entre os limites superior e inferior dessa classe e indicada
por h
i
. Assim:
h
i
= L
i
- l
i



7.4.4. Amplitude total da distribuio (AT)
a diferena entre o limite superior da ltima classe (l imite superior
mximo) e o limite inferior da primeira classe (limite inferior mni mo):
AT = L(mx) l(mn)


7.4.5. Amplitude amostral (AA)
a diferena entre o valor mximo e o valor mnimo da amostra:
AA = x(mx) x(mn)

7.4.6. Ponto mdio de uma classe (x
i
)
como o prprio nome indica, o ponto que di vi de o intervalo de classe
em duas partes iguai s.
Para obtermos o ponto mdio de uma classe, calcul amos a semi-soma dos
limites de da cl asse (mdia aritmtica):
( )
i i
i
l L
x
+
=
2


7.4.7. Freqncia simples ou freqncia absoluta ou, simplesmente,
freqncia de uma classe ou de um valor individual
o nmero de observaes correspondentes a essa cl asse ou a esse
valor.
A freqncia simples simboli zada por f
i
(lemos: f ndice i ou
freqncia da classe i).

7.5. Tipos de Freqncias

7.5.1. Freqncias simples ou absolutas (f
i
)
So os valores que realmente representam o nmero de dados de cada
classe.
Como vimos, a soma das freqncias simpl es igual ao nmero total
dos dados:
39

f
i
= n



7.5.2. Freqncias relativas (fr
i
)
So os valores das razes entre as freqncias simples e a freqnci a
total:
Como vimos, a soma das freqncias simpl es igual ao nmero total
dos dados:
i
i
f
fr
n
=
7.5.3. Freqncia acumulada (F
i
)
o total das freqncias de todos os valores inferiores ao l imite
superior do intervalo de uma dada cl asse:
F
k
= f
1
+ f
2
+ ... + f
k
ou F
k
= f
i
(i = 1, 2, ..., k)

7.5.4. Freqncia acumulada relativa (Fr
i
) de uma classe
a freqncia acumulada da classe, di vidi da pel a f reqncia total da
distribuio:
i
i
F
Fr
n
=
Exemplo:
Na tabela 05, abaixo, esto ilustrados os clculos das freqncias relativas
percentuais, da freqncia acumulada simples e da freqncia acumulada percentual.

Tabela 05 - Exemplos de freqncias
Fi fri Fri fri Fri
7 0,14 0,14 14,0 14,0
28 0,42 0,56 42,0 56,0
36 0,16 0,72 16,0 72,0
41 0,1 0,82 10,0 82,0
45 0,08 0,9 8,0 90,0
48 0,06 0,96 6,0 96,0
50 0,04 1 4,0 100,0
1,00 100,0

40

7.6. Apresentao de uma distribuio de freqncias

7.6.1. Distribuio de freqncias por pontos ou valores.
Uma distribuio de freqncias por pontos ou valores apresentada
graficamente atravs de um diagrama de linhas ou colunas, onde a varivel xi
representada no eixo das abcissas (horizontal) e as freqncias (que podem ser de
qualquer tipo) no eixo das ordenadas (vertical). Veja-se um exemplo de diagrama de
colunas simples na figura 01.

Figura 01 - Diagrama de colunas simples da varivel "nmero de irmos dos alunos da turma U -
Disciplina de Estatstica"


7.6.2. Distribuio de freqncias por classes ou intervalos

Uma distribuio de freqncias por classes ou intervalos apresentada
graficamente atravs de um diagrama denominado de histograma. Um histograma um
grfico de retngulos justapostos onde a base de cada retngulo a amplitude de cada
classe e a altura proporcional a freqncia (simples ou relativa) de modo que a rea de
cada retngulo seja igual a freqncia considerada. Desta forma a altura de cada
retngulo ser igual a: fi / hi ou ento fri / hi. Veja-se o clculo das alturas na tabela 06 e
o exemplo na figura 02. Tambm pode ser construdo um histograma utilizando-se as
freqncias acumuladas. Neste caso o diagrama resultante denominado de ogiva. Se
os pontos mdios de cada classe de um histograma forem unidos atravs de segmentos
de retas teremos ento um diagrama denominado de polgono de freqncias.
0
5
10
15
20
25
1 2 3 4 5 6 7
41

7.7. Grficos de distribuies de frequncias
As distribuies de freqncias de uma varivel contnua so representadas
graficamente por histogramas de freqncias, polgonos de freqncias e polgonos de
freqncias acumuladas. Empregando a tabela abaixo como exemplo sero
confeccionados os grficos correspondentes.

Tabela 4.6 Notas dos alunos da Disciplina de Gentica do Curso de Medicina 1978
Notas
i
f
i
F
0 2 2 2
2 4 7 9
4 6 11 20
6 8 10 30
8 10 5 35
35
Fonte: dados fictcios

7.7.1. Histograma de frequncias
O histograma formado por um conjunto de retngulos justapostos, cujas bases
se localizam sobre o eixo horizontal (eixo x), onde so representados os intervalos de
classe numa escala contnua, no sendo necessrio que a escala inicie de zero. As
freqncias so representadas no eixo vertical (eixo y) comeando de zero. As larguras
dos retngulos so iguais s amplitudes dos intervalos de classe. As alturas dos
retngulos devem ser proporcionais s freqncias, absoluta ou relativa, das classes.
A distribuio da Tabela 4.6 de notas dos alunos do curso de Gentica corresponde ao
histograma da Figura 4.5.
Figura 4.5 Histograma
42


Fonte: dados fictcios
Notas:
1. O histograma goza de uma propriedade de considervel utilidade: a rea de um
histograma proporcional soma das freqncias.
2. Ao empregar as freqncias relativas obtm-se um grfico de rea unitria.
3. Para comparar duas distribuies, o ideal faz-lo pelo histograma de freqncias
percentuais.
4. Nas distribuies contnuas com classes de intervalos diferentes necessrio o ajuste
das freqncias para que a figura geomtrica seja proporcional freqncia de
ocorrncia da varivel.

7.7.2. Polgono de frequncia
O polgono de freqncia um grfico em linha de uma distribuio de
freqncias. As freqncias so marcadas sobre perpendiculares ao eixo horizontal,
levantadas plos pontos mdios dos intervalos de classe.
Para realmente obter um polgono (linha fechada), deve-se completar a figura,
ligando os extremos da linha obtida aos pontos mdios da classe anterior primeira e
posterior ltima, da distribuio.
Para a distribuio da Tabela de notas dos alunos do curso de Gentica (Tabela
4.6) corresponde o polgono de freqncia a seguir:

Figura 4.6 - Polgono de frequncias12
0
2
4
6
8
10
12
1
F
r
e
q
u

n
c
i
a
2 4 6 8 10
43


Fonte: dados fictcios

7.7.3. Polgono de frequncia acumulada
O polgono de freqncia acumulada traado marcando-se as freqncias
acumuladas sobre perpendiculares ao eixo horizontal c levantadas nos pontos
correspondentes aos limites superiores dos intervalos de classe.
Assim a distribuio da Tabela 4.6 corresponde ao polgono de freqncia acumulada a
seguir:

Figura 4.9 Polgono de freqncias acumuladas

Fonte: dados fictcios
0
2
4
6
8
10
12
0---2 2---4 4---6 6---8 8---10
F
r
e
q
u

n
c
i
a
0
5
10
15
20
25
30
35
40
0---2 2---4 4---6 6---8 8---10
F
r
e
q
u

n
c
i
a
44

A representao grfica de uma distribuio de freqncias sem intervalos de
classe ser dada por um diagrama onde cada valor da varivel ser representada por um
segmento da rela vertical e de comprimento proporcional respectiva freqncia.

7.7.4. Grfico stem-and-leaf (tronco e folhas)
O grfico stem-and-leaf (tronco e folhas) (Tukey 1977) semelhante a um
histograma deitado, com maior quantidade de informaes. Um grfico stem-and-leaf
bem construdo informa a amplitude da srie de dados, mostra a localizao da maior
densidade de dados e revela a presena ou ausncia de simetria. A vantagem do grfico
stem-and-leaf sobre o histograma a preservao das informaes contidas em cada
dado. Essas informaes so perdidas quando os dados so reunidos em um intervalo
de classe.
Para construir um grfico stem-and-leaf cada dado dividido em duas partes. A
primeira parte denominada stem (tronco) e a segunda chamada leaf (folha). O stem
consiste de um ou mais dgitos iniciais do dado e a Jeaf composta de um ou mais dos
dgitos restantes. Todos os nmeros so dispostos em um nico grfico; os troncos
formam uma coluna ordenada com o menor valor no topo e o maior na base. As linhas do
grfico contm as folhas, ordenadas c listadas a direita de seus respectivos troncos
(stem). Decimais, quando presentes nos dados originais, so omitidos no grfico stem-
and-leaf. O tronco separado das suas folhas por uma linha vertical.
Os grficos stem-and-leaf so mais efetivos com conjuntos de dados
relativamente pequenos. No so recomendveis para um grande nmero de dados. So
de grande valor para subsidiar investigadores nas tomadas de deciso sobre a natureza
dos dados. Para documentos de circulao externa, os histogramas so mais
apropriados. Como exemplo empregam-se os dados da tabela a seguir:
17 37 49 59 76
17 38 50 63 79
19 38 51 64 79
22 39 51 65 79
23 41 51 67 82
25 42 53 67 83
28 43 56 68 85
29 45 56 68 85
30 47 57 68 86
34 47 58 69 86
34 48 59 74 87
34 49 59 75 89
Fonte: dados fictcios
45

Como todos os dados so constituidos de dois digitos, o primeiro ser o tronco e o
segundo a folha:

Tronco
(Stem)
Folha
(Leaf)
1 779
2 23589
3 04447889
4 123477899
5 011136678999
6 344578889
7 456999
8 23556679
Fonte: dados fictcios
























46

8. MEDIDAS DE POSIO
As medidas de posio, tambm conhecidas como medidas de tendncia central,
indicam os valores em torno do quais ocorre a maior concentrao do fenmeno
quantitativo em estudo. A mdia aritmtica, a moda e a mediana so as trs medidas de
tendncia central ou promdios mais utilizados para descrever o conjunto de valores
representativos do fenmeno que se deseja estudar. Outros promdios menos utilizados
so a mdia geomtrica, harmnica, quadrtica, cbica e biquadrtica. Essas ltimas no
sero descritas nesse trabalho.

8.1. Mdia aritmtica
A mdia aritmtica o mais simples dos valores descritivos de uma amostra. A
mdia da amostra uma estatstica representada pelo smbolo X (x barra).

8.1.1. Mdia nas sries de dados no agrupados

a mdia aritmtica dos dados de observaes da amostra:
i
x
X
n

=
A varivel representada por x
i
, sendo x
i
o valor numrico da primeira
observao, x
2
o da seguinte, e assim por diante, at i = n, isto , x
n
sendo n o nmero
total de observaes da amostra. O (letra grega sigma) significa "notao de
somatrio". x
i
, a soma de todas as observaes x
i
. Portanto, a mdia a soma dos -
valores de todas as observaes da amostra, dividida pelo nmero (n) de valores.

Exemplo 5.1
A determinao de glicose plasmtica em 9 indivduos forneceu os seguintes resultados
(em mg/dL): 90, 86, 78, 90, 98, 90, 82, 76 e 84 Calcular a mdia.
dL mg x / 86
9
84 76 82 90 98 90 78 89 90
=
+ + + + + + + +
=
A mdia amostrai, X uma medida descritiva de uma amostra e uma estimativa
da mdia da populao, simbolizada pela letra grega, (mu). Ou seja. uma medida
descritiva da populao (parmetro populacional).

47

8.1.2. Mdia nas sries de dados agrupados sem intervalo de classe
Nesse caso, como as freqncias so nmeros indicadores da intensidade de
cada valor da varivel, elas funcionam como fatores de ponderao, o que leva a calcular
a mdia aritmtica ponderada, dada pela frmula:
i i
x f
X
n
=


Onde:
x
i
= valor varivel
i
f = Freqncia

Exemplo 5.2
Considerando-se a distribuio relativa a 40 requisies mdicas encaminhadas a
um laboratrio clnico, toma-se para varivel o nmero de exames solicitados cm cada
requisio (ver tabela abaixo).
Um modo prtico de obteno da media ponderada abrir, na tabela, uma coluna
correspondente aos produtos x
i
f
i
, assim:




x
i
f
i
x
i
f
i
2 8 16
3 23 39
4 9 36
5 6 30
6 3 18
7 1 7


=40 = 146

Clculo:

i i
i
x f
X , exames
f

= = =

146
3 65
40





48

8.1.3. Mdia nas sries de dados agrupados com intervalos de classes
Nesse caso, utiliza-se o ponto mdio de cada classe como uma aproximao de
todos os valores contidos na classe. Determina-se a mdia aritmtica por meio da
frmula:
i i
i
x f
X
f

=


Onde:
x
i
f
i
= o somatrio dos produtos de cada ponto mdio de classe (x
i
) pela respectiva
freqncia (f
i
)
f
i
= o nmero total de observaes

Exemplo 5.3
Para o exemplo da determinao do colesterol em uma amostra controle (v. Cap.
3), abre-se uma coluna para os produtos mdios das classes c outra para os produtos
x
i
,f
i
:
i Concentrao
i
f
x
i
x
i
f
i

1 154 158 4 156 624
2 158 162 12 160 1920
3 162 166 14 164 2296
4 166 170 10 168 1680
5 170 174 7 172 1204
6 174 178 3 176 528
=50 = 8252

Clculo:
i i
i
x f
X mg / dL
f

= = =

8252
165
50

Nota:

A mdia aritmtica de dados agrupados em classes no pode ser calculada
quando a primeira e a ltima classe apresentam extremos indefinidos indefinidos.

8.2. Moda (Mo)
A moda (Mo) (ou norma) o valor que ocorre com maior freqncia em um
conjunto de valores. uma medida de dominncia. No afetada por valores
49

extremos. Para o conjunto de dados do exemplo 5.1: 76, 78, 82, 84, 86, 90, 90,
90, 98 a moda 90.
Pode-se deparar com conjunto de dados, onde nenhum valor repetido e, portanto, no
existe moda. Essa uma distribuio amodal.
Ex.: a serie 3,5,8,10,12,13.
Em outro casos, pode haver mais de um valor repetido. Diz-se distribuio plurimodal. Na
serie: 2, 3, 4, 4, 4, 5, 6, 7, 7, 7, 8, 9, temos duas modas: 4 e 7 (distribuio bimodal).

8.2.1. Moda nas sries de dados agrupados sem intervalos de classes
Nesses casos a moda o elemento que apresenta a maior freqncia:

x
i
2 3 4 5 6 7
i
f
8 13 9 6 3 1

No Exemplo supra-citado o elemento que apresenta a maior freqncia (13) o 3.
Portanto ,a moda 3.

8.2.2. Moda nas series de dados com intervalos de classe
A classe que apresenta a maior freqncia e chamada classe modal. A moda,
nesse caso, e o valor dominante compreendido entre os limites da classe modal. O
processo mais comum para o clculo da moda emprega a frmula de Czuber:
* . * .
2 1
1
h Mo
+

+ =
* = o limite inferior da classe que contm a moda

1
= diferena entre a freqncia da classe modal e a freqncia da classe
imediatamente inferior.

2
= diferena entre a freqncia da classe modal e freqncia da classe imediatamente
posterior.
h* = a amplitude da classe que contem a moda.

Exemplo 5.4
Assim para a distribuio:


50

i Concentrao
i
f
1 154 158 4
2 158 162 12
3 162 166 14
4 166 170 10
5 170 174 7
6 174 178 3
Identifica-se a classe modal, ou seja, aquele que possuir maior freqncia. No caso trata-
se da 3 classe: 162166. A seguir aplica-se a frmula:
* . * .
2 1
1
h Mo
+

+ =
Onde:
* = 162
1 = 14 - 12 = 2
2 = 14 - 10 = 4
Portanto:
162
2
2 4
4
2X4
6
162
8
6
162 1,33 163, 33

8.3. Mediana (Md)
A mediana (Md) o valor que ocupa a posio central quando todos os itens do
grupo esto disposto, em termos de valor, em ordem crescente ou decrescente de
magnitude. No afetada por valores extremos e indicada quando existem valores
discrepantes. Para o exemplo 5.1 dos valores da determinao da glicose (76, 78, 82, 84,
86, 90, 90, 90, 98) a Md 86. Quando o numero de observao for par deve-se somar os
dois nmeros centrais e dividir por dois.

8.3.1. Medianas nas series de dados sem intervalos de classe
Nesse caso, o bastante independente identificar a freqncia acumulada que
imediatamente superior metade da soma das freqncias. A mediana ser aquele valor
da varivel que corresponde a tal freqncia acumulada.

Exemplo 5.5
Tome-se a distribuio relativa tabela dos dados agrupados, completando-a com
a coluna correspondente freqncia acumulada. No exemplo do nmero de exames
solicitados por requisio mdica, tem-se:
51

Nmeros de exames
i
f
i
F
2 8 8
3 13 21
4 9 30
5 6 36
6 3 39
7 1 40
= 40

Sendo:

40
2
20

A menor freqncia acumulada que supera esse valor 21, que corresponde ao
valor 3 da varivel, sendo esse o valor mediano logo:
Md = 3 exames

8.3.2. Mediana nas sries de dados com intervalos de classe
Inicialmente determina-se a classe em que est compreendida a mediana (classe
mediana). Tal classe evidentemente, aquela correspondente freqncia acumulada
imediatamente superior a f
i
/2.
Procedendo desse modo, um problema de interpolao resolve a questo.
Admitindo-se, agora, que os valores se distribuam uniformemente em todo o intervalo de
classe.
Para o clculo so realizados os seguintes passos:
1 Determinar as freqncias acumuladas.
2 Calcular f
i
/2.
3 Marcar a classe correspondente freqncia acumulada imediatamente superior a
f
i
/2.- classe mediana e, em seguida, empregar a frmula:
Md

2
F ant . h


Na qual:
* = o limite inferior da classe que contm a mediana
F (ant) = a freqncia acumulada da classe anterior a classe que contm a
mediana.
f* = a freqncia simples da classe que contm a mediana.
52

h* = a amplitude do intervalo da classe que contm a mediana.
Exemplo: 5.6
Considerando a distribuio da tabela de concentrao de colesterol em uma
amostra controle, acrescida das freqncias acumuladas:










50
2
25
Logo, a classe mediana a ordem 3. Ento:
* = 162: F (ant) = 16: f* = 14 e h* = 4
Substituindo esses valores na frmula, obtm-se:
Md = 162 +
.

162

162 2,57 164,57 / dL



8.4. Medidas de ordenamento e posio
De um modo geral, existem trs grandes grupos de medidas de ordenamento:
quartis, decis e percents.

8.4.1.Quartis
Quartis so os valores que subdividem uma distribuio de medidas quanto
dispostas em termos de valores em ordem crescente ou decrescente, em quatro partes
iguais, H portanto, trs quartis.
Primeiro quartil (Q
1
) e o primeiro da srie tal quem um quarto dos dados est
abaixo dele (25%) e as trs quartas partes restantes (75%) esto acima dele.
Para encontrar o Q
1
emprega-se:


1
4

Segundo quartil (Q
2
) evidentemente, coincidente. Com a mediana (Q
2
=
Md). O Q
2
obtido:


2 1
4

1
2

i Concentrao
i
f
F
1 154 158 4 4
2 158 162 12 16
3 162 166 14 30 classe mediana
4 166 170 10 40
5 170 174 7 47
6 174 178 3 50
= 50
53

Terceiro quartil (Q
3
), o nmero da srie tal que trs quartos dos dados
esto abaixo dele (75%) e uma quarta parte (25%), esto acima dele,
Calcula-se:


3 1
4

Para determinar o primeiro quartil de dados agrupados em classes, emprega-se a
expresso:
Q

4
F ant . h


Exemplo 5.7
Nas duas equaes acima, F(ant) a freqncia acumulada da classe anterior a
classe do quartil a ser calculado.










Primeiro quartil (K = 1):

50
4
12.5
Aplicando a frmula:

158
,

158
,

158 2,8 160,8 mg/ dL



Terceiro quartil (k = 3):
3

3 X 50
4
37.5
Aplicando a frmula:

166
,

166

166 3 169 mg/ dL



8.4.2. Centil ou Percentil
Concentrao
i
f
F
154 158 4 4
158 162 12 16 Q
1

162 166 14 30
166 170 10 40 Q
3

170 174 7 47
174 178 3 50
= 50
54

Os centis ou percentis so os noventa e nove valores que separam uma srie de
100 partes iguais:
P
1
, P
2
, ..., P
42
,..., P
99

evidente que:
P
50
= Md; P
25
= Q
1
e P
75
= Q
3

O clculo de um percentil segue a mesma tcnica do clculo da mediana, porm,
a frmula obedece a ordem do percentil.


Exemplo 5.8
Para a tabela anterior tm-se para o 12 percentil (k = 12): tem-se:
P

12f

100
F ant . h


Considerando a tabela acima tem-se para o dcimo segundo percentil
12

100

12 X 50
100
6
Logo:

8.5. Que promdio usar?
Com um pouco de experincia, facilmente determinada qual das medidas de
tendncia central deve ser para cada situao. A mdia aritmtica de longe a mais
usada. Em geral, so usadas a moda para os dados nominais, a mediana para os dados
ordinais e a mdia para os dados intervalares ou de razo.











55

9. MEDIDAS DE DISPERSO

Objetivos

1. Calcular as medidas de varincia, desvio padro, coeficiente de variao,
amplitude e amplitude entre quartis de dados simples e agrupados.
2. Listar alguns usos das medianas de variao: variao, desvio padro,
amplitude e amplitude entre quartis.
3. Comparar diferentes dados de um paciente de variao.
4. Interpretar o grfico Box-and-Whisker Plot.

A disperso ou variabilidade representa um dos mais importantes grupos de
medidas da estatstica. Para o conhecimento pleno e adequado de uma srie ou uma
distribuio de freqncias. necessrio determinar no apenas determinar no apenas
a posio central dos valores, atravs das medidas de posio, mas tambm preciso
conhecer o real grau de disperso dos valores em questo.
As medidas de disperso indicam o grau de afastamento de um conjunto de
nmero em relao sua mdia.

9.1 Varincia
As medidas de tendncia central so insuficientes para descrever
adequadamente uma amostra. necessrio tambm descrever em que medida os dados
de observao esto ao redor da mdia. A variao media disperso dos dados de
observaes de uma amostra em relao respectiva mdia.
A varincia amostral, simbolizada por s
2
, calculada pela frmula:

1

Em que x
i
so as observaes da amostra e n o nmero total de observaes.
Em termos,a varincia a soma dos quadrados dos desvios em relao mdia, dividida
pelo nmero das observaes da amostra menos uma.



56

Exemplo 6.1

Empregando os dados do exemplo 5.1 cuja mdia (

) = 86 mg/ dL
x x -

(x -

)2
90 90 86 =4 (4)2 = 16
86 86 = 0 (0)2 = 0
78 78 86 = -8 (-8)2 = 64
90 90 86 = 4 (4)2 = 16
98 98 86 = 12 (12)2 = 144
90 90 86 = 4 (-4)2 = 16
82 82 86 = -4 (-4)2 = 16
76 76 86 = -10 (-10)2 = 100
84 84 86 = -2 (-2)2 = 4
0 376

Aplicando-se a frmula, a varincia amostral calculada:

376
9 1
47
A varincia s
2
, como estatstica calculada da amostra, uma estimativa no-
viciada da varincia populacional um valor fixo representado por
2
(sigma ao
quadrado).
O denominador n-1 chamado graus de liberdade (GL). O uso de n em lugar de
n l como denominador no clculo da varincia amostral obter-se-ia um valor
denominador da varincia amostral obter-se-ia um valor menor do que o verdadeiro valor
do parmetro populacional (
2
). A situao corrigida reduzindo o denominador pela
subtrao de uma unidade.
A Varincia amostral pode tambm ser calculada por uma frmula
particularmente bem adaptada para o emprego de calculadoras:

1


O termo

a soma dos quadrados das observaes individuais da amostra e


(x
i
)
2
/n de correo, FC.

57

Exemplo 6.2

Aplicando esta equao ao exemplo anterior:

x x
2

90 8100
86 7396
78 6084
90 8100
98 9604
90 8100
82 6724
76 5776
84 7056
774 66940

1

66940
774

9
9 1

66940 66546
8
47

9.2. Desvio padro
O desvio padro a mais importante medida de disperso dos valores
individuais ao redor da mdia. Apresenta a vantagem sobre a varincia de utilizar
mesma unidade de medida de dados (kg, cm etc.) que as empregadas na tomada das
observaes. representado por s.

9.2.1. Desvio padro nas sries de dados no agrupados

clculos pela frmula:

1


O desvio padro e, portanto, a raiz quadrada da varincia.

58

Exemplo 6.3

= 6,85 mg/dL

O desvio padro da amostra uma estimativa do valor paramtrico (sigma), o
desvio padro verdadeiro da populao.
Para os dados de medio, especialmente em grandes amostras. O desvio
padro indica os limites provveis dentro do quais se situam certas propores das
observaes. Assim verifica-se que cerca de 68% das observaes da amostra estar
entre os limites

2s; e 99% das obrigaes entre

3s.

9.2.1.1. Desvio padro nas sries de dados agrupados sem intervalo de
classe
Nesse caso emprega-se o ponto mdio de cada classe para apresentar as
medidas includas naquela classe. Deve-se levar em considerao, tambm, as
freqncias de cada classe aplicando-se a frmula:

2
2
|
|

\
|

=
n
x f
n
x f
s
i i
i
i


Exemplo 6.4
Considerando a tabela de distribuio de freqncia sem intervalos de classe do
exemplo dos exames solicitados por requisio mdica.
O modo mais prtico para a obteno do desvio padro abrir, na tabela dada,
uma coluna para os produtos f,x,, e outra para f
i
x
1
2
lembrando que para obter f
i
X
i
2
basta
multiplicar cada f
i
X
i
2
pelo seu respectivo X
i
. Assim:

59

x
i
f
i
f
i
x
i
f
i


2 8 16 32
3 13 39 117
4 9 36 144
5 6 30 150
6 3 18 108
7 1 7 49
= 40 = 146 = 600


Logo:

600
40

156
40

15
21316
1600
15 13,32 1,68 1,29

9.2.1.2 Desvio padro nas sries de dados agrupados com intervalos de
classe
Para os dados grupados com intervalo de classe, emprega-se a mesma frmula
acima descrita.

Exemplo 6.5
Utilizando como exemplo a distribuio da determinao da concentrao de
colesterol em uma amostra controle, abrir as colunas para x
i
(ponto mdio), para f
i
x
i
e
para f
i
x
i
2
. Assim:

I Concentrao f
i
x
i
f
i
x
i
f
i
x
i
2

1 154158 4 156 624 97344
2 158162 12 160 1920 3076544
3 162166 14 164 2296 376544
4 166170 10 168 1680 282240
5 170174 7 172 1204 207088
6 174178 3 176 528 92928
= 50 = 8252 = 136344

Clculo:

136344
50

8252
50

27266,9 27238,2 28,68 5.355


60

9.3. Coeficiente de variao
O coeficiente de variao (CV) a magnitude relativa do desvio padro expresso
em porcentagem da mdia. uma estatstica usada quando se deseja comparar a
variabilidade relativa em diferentes tipos de dados, inclusive dados medidos em
diferentes unidades de medio.
O coeficiente de variao independe da unidade de medio empregado. Isto
permite a comparao de vrios tipos de dados, tais como. presso arterial com
temperatura.
CV
s x 100
x


Exemplo 6.6
Para o exemplo da seces anteriores cujos dados so: 90, 86, 78, 90, 98, 90,
82, 76, 84 com mdia de 86, tem-se:
CV
6,85 x 100
86
7,96%

9.4. Amplitude
A amplitude a mais simples e precria medida de variabilidade, isto , a
diferena entre o valor mais alto (H) e o valor mais baixo (L) de uma srie..
A = H - L
Para o exemplo 6.6 tem-se: 98 - 76 = 22 mg/dL
O inconveniente da amplitude depender dos valores extremos, no
considerando os valores intermedirios. Portanto, a amplitude no influenciada pela
disperso dos demais valores entre o escore mximo e o escore mnimo.

9.5. Amplitude entre quartis
a diferena entre o valor do terceiro quartil (Q
3
) e o valor do primeiro quartil
(Q
1
); compreende os 50% dos dados centrais da srie em distribuies simtricas.
menos afetado plos valores extremos do que a amplitude, tornando-se uma medida de
grande utilidade. Medidas de disperso baseadas nos quartis so vlidas para dados
ordinais, intervalares ou de razo.
AEQ = Q
3
Q
1

61

Valores elevados de AEQ indicam grande variabilidade dos 50% dos dados
relevantes, enquanto valores reduzidos indicam pequena variabilidade entre as mesmas
observaes. Como esses valores muitas vezes parecem vagos, foi proposta uma razo
interquartil com toda a srie de dados analisada. A razo obtida por AEQ/A (amplitude
entre quartis/amplitude) multiplicada por 100. Ou seja, 100(AEQ/R) relata a
percentagem da AEQ em relao a amplitude total. Ex.: um valor da razo de 34% indica
que a AEQ corresponde a 34% da amplitude (de toda a srie de dados).

9.6. Box-and-Whisker plots
Um dispositivo visual til para a comunicao de caractersticas de uma srie de
dados o grfico tipo hox-and-whisker plot. A construo do grfico utiliza o primeiro
quartil (Q
1
) e o terceiro quartil (Q
3
) obtidos a partir da srie de dados. Para a construo
devem ser observados os seguintes ifens:
1. A varivel de interesse representada no eixo horizontal;
2. Desenhar uma caixa no espao acima do eixo horizonlal, de tal modo que o
lado esquerdo fique alinhado com o primeiro quartil (Q
1
) e o lado direito fique
alinhado com o terceiro quartil (Q
3
).
3. Dividir a caixa em duas partes por um trao vertical que corresponde ao valor
da mediana.
4. Traar uma linha horizontal (whisker) a partir do lado esquerdo da caixa ate o
ponto que alinha com o menor valor contido na srie de dados.
5. Traar uma linha horizontal (whisker) a partir do lado direito da caixa at o
ponto que alinha com o maior valor contido na srie de dados.
62




Vocabulrio

Amplitude Graus de liberdade
Amplitude entre quartis Box-and-whisker Plots
Coeficiente de variao Varincia
Desvio padro

Exerccios

6.1. Encontrar a mdia, mediana, varincia e desvio padro para os seguintes dados: 9,
6, 2, 6, 3, 4, 7, 4.
6.2. Calcular a mdia, mediana e desvio padro para os seguintes dados: 2, 3; 2,7; 3,4;
3,2; 1,9; 4,1; 3,7; 2,2; 1,8; 2,7; 3,0.
6.3. Todas as seguintes medidas so de disperso, EXCETO
A. Varincia;
B. Amplitude;
C. Moda;
D. Desvio padro;
E. Coeficiente de variao.
63

6.4. O clculo da varincia da altura em centmetros de estudantes de determinada
escola dado em:
A.
B. Centmetros
C. (centmetros)2
D. Sem unidade
E. Nenhuma das respostas

6.5 O seguinte polgono de freqncia acumulado foi obtido de batimentos cardacos de
1.000 estudantes:


Qual dos seguintes falsa?

A. a amplitude da distribuio 60 a 100 batimentos por minuto
B. a moda da distribuio c 100 batimentos por minuto
C. a mediana da distribuio 77 batimentos por minuto
D. 92% dos valores so menores que 90 batimentos por minuto
E. 95% dos valores so maiores que 65 batimentos por minuto




64

EXERCCIOS DIVERSODS
1. Populao ou universo :
a) Um conjunto de pessoas;
b) Um conjunto de elementos quaisquer
c) Um conjunto de pessoas com uma caracterstica comum;
d) Um conjunto de elementos com pelo menos uma caracterstica em comum;
e) Um conjunto de indivduo de um mesmo municpio, estado ou pas.

2. Uma parte da populao retirada para analis-la denomina-se:
a) Universo;
b) Parte;
c) Pedao;
d) Dados Brutos;
e) Amostra.

3. A parte da estatstica que se preocupa somente com a descrio de determinadas
caractersticas de um grupo, sem tirar concluses sobre um grupo maior denomina-
se:
a) Estatstica de Populao;
b) Estatstica de Amostra;
c) Estatstica Inferencial
d) Estatstica Descritiva;
e) Estatstica Grupal.

4. Uma srie estatstica denominada Temporal quando?
a) O elemento varivel o tempo;
b) O elemento varivel o local;
c) O elemento varivel a espcie;
d) o resultado da combinao de sries estatsticas de tipos diferentes;
e) Os dados so agrupados em subintervalos do intervalo observado.

5. Suponha que uma pesquisa de opinio pblica deve ser realizada em um estado
que tem duas grandes cidades e uma zona rural. Os elementos na populao de
interesse so todos os homens e mulheres do estado com idade acima de 21 anos.
Que tipo de amostragem voc sugeriria?. Amostragem Estratificada

6. Um mdico est interessado em obter informao sobre o nmero mdio de vezes
em que 15.000 especialistas prescreveram certa droga no ano anterior (N = 15.000).
Deseja-se obter uma amostra n = 1.600. Que tipo de amostragem voc sugeriria e
por que? Amostragem A Sistemtica

7. De acordo com as normas para representao tabular de dados, quando o valor de
um dado muito pequeno, para ser expresso com o nmero de casa decimais
utilizadas ou com a unidade de medida utilizada, deve-se colocar na clula
correspondente.
a) Zero (0);
b) Trs pontos (...);
c) Um trao horizontal (-)
d) Um ponto de interrogao (?);
e) Um ponto de exclamao (!).
65

8. Assinale a afirmativa verdadeira:
a) Um grfico de barras ou colunas aquele em que os retngulos que o compem
esto dispostos horizontalmente.
b) Um grfico de barras ou colunas aquele em que os retngulos que o compem
esto dispostos verticalmente.
c) Um grfico de barras aquele em que os retngulos que o compem esto
dispostos verticalmente e um grfico de colunas, horizontalmente.
d) Um grfico de barras aquele em que os retngulos que o compem esto
dispostos horizontalmente e um grfico de colunas, verticalmente.
e) Todas as alternativa anteriores so falsas.

9. Um dado foi lanado 50 vezes e foram registrados os seguintes resultados
5 4 6 1 2 5 3 1 3 3
4 4 1 5 5 6 1 2 5 1
3 4 5 1 1 6 6 2 1 1
4 4 4 3 4 3 2 2 2 3
6 6 3 2 4 2 6 6 2 1

Construa uma distribuio de freqncia sem intervalo de classe e determine:

a.A amplitude Total (n)
a) 5
b) 6
c) 7
d) 10
e) 50

b. A freqncia total
f) 5
g) 6
h) 7
i) 10
j) 50

c. A freqncia simples absoluta do primeiro elemento:
k) 10%
l) 20%
m) 1
n) 10
o) 20

d. A freqncia simples relativa do primeiro elemento:
p) 10%
q) 20%
r) 1
s) 10
t) 20

e. A freqncia acumulada do primeiro elemento:
u) 10%
66

v) 20%
w) 1
x) 10
y) 20

f. A freqncia acumulada relativa do primeiro elemento:
z) 10%
aa) 20%
bb) 1
cc)10
dd) 20

g. A freqncia simples absoluta do segundo elemento:
ee) 19
ff) 9
gg) 2
hh) 38%
ii) 18%

h. A freqncia simples relativa do quinto elemento:
jj) 12%
kk)84%
ll) 5
mm) 6
nn) 42

i. A freqncia acumulada relativa do sexto elemento:
oo) 50
pp) 8
qq) 6
rr) 100%
ss)16%


10. Dado o rol de medidas das alturas (dadas em cm) de uma amostra de 100 indivduos
de uma faculdade:

calcule:
a) a amplitude amostral;
b) o nmero de classes;
c) a amplitude de classes;
151 152 154 155 158 159 159 160 161 161
161 162 163 163 163 164 165 165 165 166
166 166 166 167 167 167 167 167 168 168
168 168 168 168 168 168 168 168 169 169
169 169 169 169 169 170 170 170 170 170
170 170 171 171 171 171 172 172 172 173
173 173 174 174 174 175 175 175 175 176
176 176 176 177 177 177 177 178 178 178
179 179 180 180 180 180 181 181 181 182
182 182 183 184 185 186 187 188 190 190
67

d) os limites de classes;
e) as freqncias absolutas da classes;
f) as freqncias relativas;
g) os pontos mdios da classes;
h) as freqncias acumuladas;
i) o histograma e o polgono de freqncia;
j) o polgono de freqncia acumulada;
k) faa um breve comentrio sobre os valores das alturas desta amostra atravs da
distribuio de frequncia.

11. Os dados seguintes representam 20 observaes relativas ao ndice pluviomtrico
em determinado municpio do Estado:

Milmetros de chuva

a) Determinar o nmero de classes pela regra de Sturges;
b) Construir a tabela de freqncias absolutas simples;
c) Determinar as freqncias absolutas acumuladas;
d) Determinar as freqncias simples relativas;

12. Considere a seguinte distribuio de frequncia correspondente aos diferentes
preos de um determinado produto em vinte lojas pesquisadas.

e) Quantas lojas apresentaram um preo de R$52,00?
f) Construa uma tabela de freqncias simples relativas.
g) Construa uma tabela de freqncias absolutas acumuladas.
h) Quantas lojas apresentaram um preo de at R$52,00 (inclusive)?
i) Qual o percentual de lojas com preo maior de que R$51,00 e menor de que
R$54,00?




144 152 159 160
160 151 157 146
154 145 151 150
142 146 142 141
141 150 143 158
Preos No. De lojas
50 2
51 5
52 6
53 6
54 1
Total 20
68

13. O quadro seguinte representa as alturas (em cm) de 40 alunos de uma classe.

j) Calcular a amplitude total.
k) Admitindo-se 6 classes, qual a amplitude do intervalo de classe?
l) Construir uma tabela de frequncia das alturas dos alunos.
m) Determinar os pontos mdios das classes.


14. Vinte alunos foram submetidos a um teste de aproveitamento cujos resultados
fornam os que se seguem.

Pede-se agrupar tais resultados em uma distribuio de freqncias


15. Construa uma tabela para mostrar que, em determinado curso, o nmero de alunos
matriculados nas 1

, 2

e 3

sries era, respectivamente, 40, 35 e 29 em 1997 e 42,


36 e 32 em 1998.


16. Construa uma tabela para mostrar que, de acordo com a Pesquisa Nacional por
Amostra de Domiclios, PNAD, em 1992 havia no Brasil 73,1 milhes de pessoas
com renda familiar mensal at 330 reais (pobres e miserveis), 45 milhes de
pessoas com renda familiar mensal de 330 reais at 1300 reais (emergentes) e 13,6
milhes de pessoas com renda familiar mensal acima de 1300 reais (classe mdia e
ricos). Apresente, tambm, percentuais.


17. Faa um grfico de linhas para apresentar o crescimento em altura de crianas do
sexo masculino. Os dados esto na tabela a seguir.



162 163 148 166 169 154 170 166
164 165 159 175 155 163 171 172
170 157 176 157 157 165 158 158
160 158 163 165 164 178 150 168
166 169 152 170 172 165 162 164
26 28 24 13 18
18 25 18 25 24
20 21 15 28 17
27 22 13 19 28
Idades Altura Mdia (cm)
7 119,7
8 124,4
9 129,3
10 134,1
11 139,2
12 143,2
69

18. Dado o rol do nmero de erros de impresso da primeira pgina de um jornal durante
50 dias, obteve-se os seguintes resultados:



a) Complete a tabela de distribuio de frequncia:
Classe f P.M. F f r
05 |- 08
08 |- 11
11 |- 14
14 |- 17
17 |- 20
20 |- 23
Total - -

Segundo nos mostra a tabela acima responda:
i) Qual a amplitude total (r) ?
ii) Qual o valor de k (nmero de classe) ?
iii) Qual o intervalo de cada classe (h) ?



19. Complete a tabela a seguir:

20. Considere a seguinte tabela:
5 5 5 6 6 6 7 7 7 7
7 8 8 8 8 8 8 8 9 9
10 10 10 10 10 11 11 11 11 12
12 12 12 12 12 12 12 12 13 14
14 14 14 14 14 14 15 16 19 22
Classes
f P.M.
Fi fr
0,02
12
62 - 65 0,06
66,5 84
126
36
225
0,15
300
Total - -
Classes fi
2,75 |- 2,80 2
2,80 |- 2,85 3
2,85 |- 2,90 10
2,90 |- 2,95 11
2,95 |- 3,00 24
3,00 |- 3,05 14
3,05 |- 3,10 9
3,10 |- 3,15 8
3,15 |- 3,20 6
3,20 |- 3,25 3
Total 90
70


Identificar os seguinte elementos da tabela:
a) Freqncia simples absoluta da quinta classe.
b) Freqncia total.
c) Limite inferior da sexta classe.
d) Limite superior da quarta classe.
e) Amplitude do intervalo de classe.
f) Amplitude total.
g) Ponto mdio da terceira classe.

21. Responda as questes abaixo:
Mdia, Mediana e Moda so medidas de :
a) ( ) Disperso b) ( ) posio
c) ( ) assimetria d) ( ) curtose


Na srie 10, 20, 40, 50, 70, 80 a mediana ser:
a) ( ) 30 b) ( ) 35
c) ( ) 40 d) ( ) 45

50% dos dados da distribuio situa-se:
a) ( ) abaixo da mdia c) ( ) abaixo da moda
b) ( ) acima da mediana d) ( ) acima da mdia

22. Calcule para cada caso abaixo a respectiva mdia.
a) 7, 8, 9, 12, 14

b)

c)

23. Calcule o valor da mediana.
d) 82, 86, 88, 84, 91, 93

e)


f)

24. Calcule a moda
g) 3, 4, 7, 7, 7, 8, 9, 10

h)

i)

Xi 3 4 7 8 12
Fi 2 5 8 4 3
Classes 68 - 72 72 - 76 76 - 80 80 - 84
Fi 8 20 35 40
Xi 73 75 77 79 81
Fi 2 10 12 5 2
Classes 1 - 3 3 - 5 5 - 7 7 - 9 9 - 11 11 - 13
Fi 3 5 8 6 4 3
Xi 2,5 3,5 4,5 6,5
Fi 7 17 10 5
Classes 10 - 20 20 - 30 30 - 40 40 - 50
Fi 7 19 28 32
71


25. Para a distribuio abaixo calcular D
2
, P
4
Q
3





26. Desvio Mdio, Varincia e Coeficiente de variao so medidas de :
a) ( ) Assimetria c) ( ) Posio
b) ( ) Disperso d) ( ) Curtose


27. Desvio Mdio para o conjunto de dados abaixo ser:



a) ( ) 1,28 c) ( ) 1,00
b) ( ) 1,20 d) ( ) 0,83

28. O Desvio Padro de um conjunto de dados 9. A varincia :
a) ( ) 3 c) ( ) 81
b) ( ) 36 d) ( ) 18

29. Na distribuio de valores iguais, o Desvio padro :
a) ( ) negativo c) ( ) zero
b) ( ) a unidade d) ( ) positivo

30. O calculo da varincia supe o conhecimento da:
a) ( ) Fac c) ( ) mediana
b) ( ) mdia d) ( ) moda

31. A varincia do conjunto de dados tabelados abaixo ser:



a) ( ) 1,36 c) ( ) 4,54
b) ( ) 18,35 d) ( ) 20,66

Classes 20 - 30 30 - 40 40 - 50 50 - 60 60 - 70
Fi 3 8 18 22 24
xi Fi
5 2
7 3
8 5
9 4
11 2
Classes Fi
03 |- 08 5
08 |- 13 15
13 |- 18 20
18 |- 23 10
72

32. Numa empresa o salrio mdio dos homens de R$ 4000,00 com um desvio padro
de R$1500,00, e o das mulheres na mdia de R$3000,00 com desvio padro de
R$1200,00. Qual dos sexos apresenta maior disperso. (Analise pelo C.V.)
a) ( ) as mulheres c) ( ) homens e mulheres
b) ( ) os homens d) ( ) nenhuma das anteriores


33. Analisando as curvas abaixo marque a resposta correta.




(I) (II) (III)

a) a curva I simtrica ;
b) a curva II assimtrica positiva
c) a curva I simtrica;
d) a curva III simtrica positiva;

34. Para as distribuies abaixo foram calculados
Distrib. A Distrib. B Distrib. C


Marque a alternativa correta:
a) a distribuio I assimtrica negativa;
b) a distribuio II assimtrica positiva;
c) a distribuio III assimtrica negativa moderada.
d) a distribuio I simtrica;

35. Todas as seguintes medidas so de disperso, EXCETO
F. Varincia;
G. Amplitude;
H. Moda;
I. Desvio padro;
J. Coeficiente de variao.
36. O clculo da varincia da altura em centmetros de estudantes de determinada
escola dado em
Classes Fi Classes Fi Classes Fi
02 |- 06 6 02 |- 06 6 02 |- 06 6
06 |- 10 12 06 |- 10 12 06 |- 10 30
10 |- 14 24 10 |- 14 24 10 |- 14 24
14 |- 18 12 14 |- 18 30 14 |- 18 12
18 |- 22 6 18 |- 22 6 18 |- 22 6
73

a)
b) Centmetros
c) (centmetros)
2

d) Sem unidade
e) Nenhuma das respostas

37. O seguinte polgono de freqncia acumulado foi obtido de batimentos cardacos
de 1.000 estudantes:


Qual dos seguintes falsa?
a) a amplitude da distribuio 60 a 100 batimentos por minuto
b) a moda da distribuio c 100 batimentos por minuto
c) a mediana da distribuio 77 batimentos por minuto
d) 92% dos valores so menores que 90 batimentos por minuto
e) 95% dos valores so maiores que 65 batimentos por minuto







74

10. PROBABILIDADES

Objetivos

1. Compreender as propriedades bsicas da probabilidade.
2. Selecionar e aplicar as regras apropriadas da probabilidade para uma dada
aplicao.
3. Selecionar e aplicar a regra de probabilidade apropriada para determinada
situao.
4. Distinguir entre eventos mutuamente exclusivos e eventos independentes.
5. Distinguir ente permutaes e combinaes.
6. Explicar o que uma distribuio de probabilidades e seus principais usos.
Probabilidade um conceito filosfico e matemtico que permite a quantificao
da incerteza, permitindo que ela seja aferida, analisada e usada para a realizao de
previses ou para, a orientao de intervenes. aquilo que torna possvel se lidar de
forma racional com problemas envolvendo o imprevisvel.
Os mecanismos probabilsticos so as estruturas e dinmicas que se acredita
estarem subjacentes s probabilidades observadas para um dado fenmeno qualquer.
Em outras palavras, seriam a causa do padro de incerteza percebido num determinado
instante.
O conhecimento dos mecanismos probabilsticos permite no apenas o
estabelecimento de expectativas quanto s probabilidades de um evento especfico mas
tambm a identificao de quais os fatores que influem em tais probabilidades e como
eles atuam.

Exemplo: Cartas de Baralho
Os fatores subjacentes probabilidade de uma dada carta surgir ao acaso num
baralho constituem um mecanismo probabilstico relativamente complexo, envolvendo
principalmente a disposio inicial das cartas, a quantidade total das mesmas, o mtodo
de embaralhamento e o procedimento de sorteio da carta. Coisas como o material de que
as cartas so feitas, seu tamanho e formato, a temperatura e umidade do ambiente, e as
correntes de ar no local tambm podem ser relevantes.
75

Dizer que todos os componentes acima constituem um mecanismo probabilstico
significa que mudanas em qualquer um desses parmetros tende a alterar as
probabilidades associadas ao surgimento de cada carta ou tipo de carta.

Exemplo: Fecundao
A fecundao humana apresenta um mecanismo probabilstico bastante
complexo, com a probabilidade de sucesso num determinado intercurso sexual
dependendo de uma srie de fatores que envolvem a contagem de espermatozides no
smen, a quantidade e a fora da ejaculao, o pH vaginal, a fase do ciclo menstrual
feminino, a fase da espermatognese masculina, a data do coito anterior do homem e da
mulher, a idade de ambos os envolvidos, a ausncia de infeces e outros. Todas essas
variveis atuam conjuntamente para permitir a reproduo, de modo que elas tambm
condicionam a sua probabilidade.

10.1. Entendendo a probabilidade
A teoria das Probabilidades estuda os fenmenos aleatrios com vrios
resultados possveis, quantificando as suas possibilidades de ocorrncia. Com base na
teoria das probabilidades, jamais ser possvel dizer o que vai ocorrer num experimento
aleatrio - pois isso depender sempre do acaso; no entanto, ela permite prever o que
pode ocorrer e ainda dimensiona a chance de ocorrncia de cada uma das
possibilidades. Entende-se por "chance" a medida da ocorrncia das circunstncias
favorveis.

10.2. Experimento aleatrio
Um experimento pode ser pensado como um teste para se demonstrar uma
afirmativa, para examinar a validade de uma hiptese, ou para se determinar a eficcia
de alguma coisa nunca tentada previamente. A conduta de um tal teste constitui um
experimento. Um bom exemplo de experimento o ato de jogar uma moeda sobre uma
superfcie plana e anotar o resultado (cara ou coroa), assim como o lanamento de um
dado ou o sorteio cego de uma bola a partir de uma urna com mltiplas bolas coloridas.
Um ingrediente fundamental na teoria da probabilidade a noo de um
experimento que, ao menos hipoteticamente, pode ser repetido sob condies
essencialmente idnticas, porm conduzindo a resultados diferentes em tentativas
76

diferentes. Em outras palavras, trata-se de uma situao onde, para todos os fins
prticos, causas iguais geram (ou podem gerar) efeitos diferentes. Quando se diz ser
possvel repetir um experimento sob condies essencialmente idnticas, naturalmente
est-se pensando no controle de um certo nmero de fatores. claro que seria
impossvel controlar absolutamente todos os fatores em questo. Na realidade, so
justamente esses fatores no controlados (tambm chamados de variveis de confuso,
variveis estranhas ou variveis esprias) que iro constituir a aleatoriedade do
fenmeno. Esta uma forma de visualizar o conceito.
Tome-se, por exemplo, o caso do .lanamento de uma moeda. De um
lanamento para o outro, no se pode garantir que as condies sejam exatamente as
mesmas. A exata posio inicial dos objetos e personagens envolvidos, bem como a
intensidade e direo precisas da fora de lanamento, no sero rigorosamente as
mesmas. As condies gerais, contudo, tais como a moeda, o indivduo que faz o
lanamento e a mesa. podem ser idnticas, mas muitos fatores simplesmente no sero
controlados. Caso tudo fosse absolutamente controlado, ento poder-se-ia supor que os
resultados seriam os mesmos, ou talvez nem assim, visto que, aparentemente, existem
incertezas fundamentais no universo, tais como as que so evidenciadas no fenmeno
quntico.
O conjunto de todos os resultados possveis em um experimento denominado
de espao amostral (S). A soma de todos os resultados em um espao amostra tem uma
probabilidade de 1,0. Como todos os resultados tem a mesma probabilidade de
ocorrncia, qualquer um deles igual a 1 dividido pelo nmero total de resultados
possveis.
Qualquer conjunto de resultados de um experimento denomina-se evento (e).
Sendo evento um subconjunto de S, indica-se os eventos por letras maisculas: A. B, C,
..
Exemplo 7.1
No experimento lanar um dado:
Espao amostral ser o conjunto S = {1, 2, 3, 4, 5, 6}.
Seja o evento A: sair um nmero par. Assim, A = {2, 4, 6}.
Evento simples aquele formado por um nico do espao amostral, ao passo
que o evento composto c aquele que possui mais de um elemento. No exemplo acima A
composto.
77

Diante das explicaes sobre o conceito de eventos, nota-se que S (espao
amostrai) e (conjunto vazio) tambm so eventos, e so chamados respectivamente
evento certo e evento impossvel. Assim, o evento obter um naipe na retirada de uma
carta um evento certo. Enquanto que obter um sete no lanamento de um dado
constitui um evento impossvel.


10.3. Clculo das probabilidades
Uma das caractersticas dos fenmenos aleatrios a imprevisibilidade. Na
impossibilidade de prever exatamente qual dos resultados ocorrer numa repetio
isolada de um fenmeno aleatrio, mede-se o grau de confiana de um determinado
resultado pelo clculo de probabilidade.
A probabilidade de ocorrncia de determinado evento pode ser estabelecido de
duas formas diferentes: mtodo clssico e mtodo das freqncias relativas.
O smbolo P empregado para designar a probabilidade de um evento. Assim.
P(A) denota a probabilidade de ocorrncia do evento A em uma s observao ou
experimento.
Mtodo clssico. Quando se supe que os eventos elementares tm certa
chance de ocorrncia. As probabilidades so tericas e determinadas
independentemente da realizao ou no do experimento. A probabilidade de ocorrncia
do evento A, dada por:
] [
] [
) (
possveis eventos de nmero
favorveis eventos de nmero
N
n
A P = =
O mtodo clssico tambm chamado de a priori, porque ele permite determinar
as probabilidades antes da ocorrncia dos eventos e at independentemente deles
ocorrerem ou no. Assim, a probabilidade de dar cara num lanamento de uma moeda
/para toda e qualquer moeda, lanada ou no, pelo simples fato de que as moedas tm
duas faces, das quais uma cara. As nicas observaes feitas so: a moeda honesta
e ela nunca cai de p.

Exemplo 7.2
Qual a probabilidade de aparecer uma face par no lanamento de um dado?
Soluo:
78

Seja A o evento: (aparecer um nmero par). Ento A = {2, 4, 6}, ou seja, n = 3
(nmero de resultados favorveis). O nmero de resultados possveis, N = 6, pois o
espao amostral desse experimento S = {1, 2, 3, 4, 5, 6}. Portanto:
2
1
6
3
) ( = = par P
Logo, a probabilidade de aparecer um nmero par no lanamento de um dado
1/2, 0,5 ou 50% (a primeira maneira de expressar a resposta a mais comum).
Mtodo das freqncias relativas. A probabilidade de ocorrncia de certo evento
A igual freqncia relativa observada nas experimentaes ou observaes passadas
e a rigor, s se aplicam a elas. Pode ser utilizado para a avaliao de eventos futuros que
tenham razovel semelhana com os passados. Se tal no ocorrer, os resultados podem
ser totalmente invlidos. Assim, a probabilidade de ocorrncia do evento A dada por:
n
A
realizada foi erincia a que vezes de nmero
ocorreu que vezes de nmero
N
n
A P = = =
] exp [
] [
) (
Esse mtodo e denominado a posteriori porque as probabilidades somente so
determinadas aps a ocorrncia do evento ou experimento. Desse modo, as
probabilidades podem mudar com novos experimentos. O mtodo das freqncias
pressupe que os resultados do passado so representativos e que servem de estimativa
para o que se espera do futuro. Entretanto, deve-se ter sempre em mente que a
"realidade" no tem memria nem compromisso com o passado, podendo diferir
significativamente dele. Retomando o caso do lanamento da moeda, aqui no h
restrio alguma; ela tanto pode ser viciada como cair em p, que no h mudana de
resultados. Esse conceito, do ponto de vista prtico, importante porque permite estimar
a probabilidade de um evento a partir de observaes.
O teorema de Bernoulli, mais conhecido como a Lei dos Grandes Nmeros,
afirma que, numa srie imensa de experimentos, a freqncia relativa de um evento se
aproxima cada vez mais da sua probabilidade. Em outras palavras, quando se repete um
experimento um nmero suficientemente grande de vezes possvel, na equao acima,
as expresses "Freqncia Relativa" e "Probabilidade" podem ser intercambiveis com
erro desprezvel. Assim, dada uma longa srie de experimentos, pode-se calcular a
probabilidade de um evento ou ento dada a probabilidade de um evento, se pode
calcular o nmero de vezes que ele deve ocorrer numa longa srie de tentativas.
A Lei dos Grandes Nmeros vlida para qualquer tipo de experimento
aleatrio, de modo que, substituindo-se o "lanamento de um dado" por um resultado
79

observacional ou experimental qualquer, se pode ter, numa srie longa de registros, a
probabilidade de um diagnstico especfico, de um determinado achado laboratorial ou de
um certo desenvolvimento clnico. E interessante notar, contudo, que o nmero de
observaes precisa ser grande o suficiente para que se possa ter uma preciso
aceitvel para a probabilidade estimada, o que costuma implicar em nmeros realmente
"grandes", como sugere o nome da Lei.

10.4. Eventos mutuamente exclusivos
Dois ou mais eventos so mutuamente exclusivos quando a realizao de um exclui a
realizao do(s) outro(s). Assim, no lanamento de uma moeda, o evento "tirar cara" e o
evento "tirar coroa" so mutuamente exclusivos, j que, ao se realizar um deles, o outro
no se realiza.
Se dois eventos so mutuamente exclusivos , a probabilidade de que um ou outro se
realize igual soma das probabilidades de que cada um deles se realize:
P(A UB2) = P(A ou B) = P(A) + P(B)
Exemplo: No lanamento de um dado qual a probabilidade de se tirar o n 3 ou o n 4 ?
Os dois eventos so mutuamente exclusivos ento: P = 1/6 + 1/6 = 2/6 = 1/3

10.5. Eventos independentes
Dizemos que dois eventos so independentes quando a realizao ou a no-realizao
de um dos eventos no afeta a probabilidade da realizao do outro e vice-versa.
Dois eventos A e B so ditos independentes se::


Por exemplo, quando lanamos dois dados, o resultado obtido em um deles independe
do resultado obtido no outro.
Se dois eventos so independentes, a probabilidade de que eles se realizem
simultaneamente igual ao produto das probabilidades de realizao dos dois eventos.
Assim, sendo p
1
a probabilidade de realizao do primeiro evento e p
2
a probabilidade de
realizao do segundo evento, a probabilidade de que tais eventos se realizem
simultaneamente dada por:
p = p
1
x p
2


Exemplo:
Lanamos dois dados. A probabilidade de obtermos 1 no primeiro dado : p
1
= 1/6
80

A probabilidade de obtermos 5 no segundo dado : p
2
= 1/6
Logo, a probabilidade de obtermos, simultaneamente, 1 no primeiro e 5 no segundo :
p = 1/6 x 1/6 = 1/36

10.6. Regras das probabililidades
Duas importantes regras ajudam a responder as questes mais comuns com a
relao a probabilidades de eventos compostos (aqueles compostos de dois ou mais
eventos individuais). Essas so as regras da multiplicao e a regra da soma.

10.6.1. Regras da multiplicao
Dois eventos so independentes quando a ocorrncia de um evento no tem
efeito algum na probabilidade de ocorrncia de outro evento. Os resultados de
lanamentos sucessivos de uma moeda ilustra os eventos independentes, uma vez que o
resultado de um lanamento no tem efeito algum nas probabilidades de ocorrncia no
segundo lanamento.
Para determinar a probabilidade de ocorrncia de dois eventos independentes,
emprega-se a regra da multiplicao. A regra da multiplicao estabelece que a
probabilidade de ocorrncia de dois eventos independentes. A e B. igual ao produto das
probabilidades dos eventos individuais. Simbolicamente:
P(A e B) = P(A)
*
P(B)

Exemplo 7.4

No lanamento de duas moedas, qual a probabilidade de ocorrncia de "cara"
tanto na primeira moeda (C
1
) como na segunda moeda (C
2
)?
P C

e C

P C

PC


1
2

1
2

1
4


Exemplo 7.5

Supor que a probabilidade de um motorista ter um acidente em um ano 1/10.
Qual a probabilidade que dois motoristas, escolhidos aleatoriamente, terem um
acidente por ano cada um?
81


1
10

1
10

1
100


10.6.2. Regras de adio
Para determinar a probabilidade de ocorrer um evento ou outro (ou ambos) em
uma s observao emprega-se a regra de adio. A regra de adio estabelece que a
probabilidade de ocorrncia do evento A ou evento B (ou ambos) a soma das
probabilidades de cada evento individual menos a probabilidade da ocorrncia de A c B
simultaneamente. Simbolicamente:
P(A ou B) = P(A) + P(B) - P(A e B)
A razo da subtrao de P(A e B) que alguns elementos esto includos tanto
em A como em B; desse modo existe uma superposio desses dois conjuntos de
eventos. Quando as reas includas em A e em B so adicionadas em tais eventos no
mutuamente exclusivos, a rea de superposio contada em dobro. Esse raciocnio c
mostrado no diagrama de Venn.

Exemplo 7.6
No lanamento de duas moedas. a probabilidade de ocorrer "cara" na primeira
moeda (H
1
),a segunda (H
2
) ou em ambas (H
1
H
2
) dada por:
P(H
1
ou H
2
) =
4
3
4
1
2
1
2
1
=
Exemplo 7.7
Qual a probabilidade de obter 3 ou 4 em um lanamento de um dado? Pela
regra de edio tem-se:
3 4 3 4 3 4
1
6

1
6
0
1
3

Relembrando: quando os dois exemplos so mutuamente exclusivos a
probabilidade dos dois eventos ocorrer igual a zero . Ao obter um 3, foi excluda a
probabilidade de se obter 4. Do mesmo modo, impossvel obter simultaneamente uma
cara e uma coroa em um lanamento de uma moeda. Desse modo a regra de adio
simplificada quando os eventos so mutuamente excessivos. A regra torna-se:
P( A ou B ou ambos ) = P(A) + P(B)

Exemplo 7.8
82

Em determinada comunidade a probabilidade das mulheres sobreviverem at 65
anos , aproximadamente. 8/10, ou seja, P(M
65
) = 8/10. A probabilidade que um homem
sobreviver at 65 anos de idade , aproximadamente,2/3, isto , P(H
65
) = 2/3. Qual a
probabilidade de uma mulher morrer antes dos 65 anos? Utilizando uma das
propriedades dos eventos mutuamente exclusivos (v. acima) tem-se que a probabilidade
de uma mulher morrer antes dos 65 anos, P(M
m
), calculada pela subtrao da
probabilidade de sobreviver aos 65 anos de 1
PM

1 PM

1
8
8
0,2
Continuando com o exemplo pode-se calcular outras probabilidades aplicando
as regras da multiplicao e adio:
1. A probabilidade de tanto homens como mulheres sobreviverem at aos 65
anos:
P PH

PM


2
3

8
10
0,533
2. A probabilidade de somente os homens sobreviverem at aos 65 anos:
P PH

PM

1
8
10
0,13
3. A probabilidade de s a mulheres sobreviverem at aos 65 anos:
P PH

e H

PH


8
10
1
2
3
0,267
4. A probabilidade que ao menos um dos dois sobreviver at aos 65 anos de
idade:
P= P(um ou ambos estaro vivos)
P = P (M
65
e H
65
) + P (H
65
eM
m
) + P (H
65
eM
m
) = 0,533 + 0,133 + 0,267 = 0,933.
Essa resposta pode tambm ser obtida pelo clculo da probabilidade do
complemento de morte tanto de homens como mulheres, que ,
1 PH

e M

1
1
3
X
2
10
0,933

10.7. Probabilidade condicional
Quantifica a "chance" de dois eventos dependentes e no excludentes
ocorrerem em certa ordem. A expresso P(A|B) indica a probabilidade de ocorrer o
evento A, dado que tenha ocorrido o evento B. A expresso algbrica para calcular a
probabilidade condicional de A aps ter ocorrido B 6:
83

PA |B

desde que P (B) no seja igual a zero.


A linha vertical em P(AJB) lida "dado".

Exemplo 7.9
A partir da tabela abaixo onde so descritos os dados referentes a mes que
pararam de fumar durante a gravidez relacionada ao nvel de instruo, pode-se calcular
vrias probabilidades.

Nvel de inscrio
Primeiro grau Segundo grau Terceiro grau Total %
Parou 350 204 214 768 18.8
No 1905 732 670 3307 81,2
parou
Total 2255 936 884 4075 100

Por exemplo, se A o evento "parar de fumar durante a gravidez" e B o evento
"todas as mes pesquisadas", tm-se:
PA
768
4075
0,188
a probabilidade de selecionar uma me que parou de fumar. A probabilidade
de selecionar uma me com terceiro grau
PB
884
4075
0,2169
a probabilidade de selecionar uma me que tanto parou de fumar como tem
terceiro grau .
PA A B
214
4075
0,0525
A probabilidade condicional de parar de fumar durante a gravidez dado que a
me tem terceiro grau obtido pelo emprego da seguinte frmula:
|

0,0525
0,2169
0,242
Notar que a probabilidade obtida peio emprego da frmula. P(A/B) = 0.242, a
mesma obtida diretamente a partir das freqncias na tabela,
214
884
0,242
Para eventos dependentes, a probabilidade de ocorrncia conjunta de A e B a
probabilidade de A multiplicada peia probabilidade condicional de B dado A. Ou seja
P( A e B) = P(A) P (B|A)
84

Essa Frmula frequentemente chamada de regra geral da multiplicao,
porque para eventos independentes, o valor da probabilidade condicional. P(B|A), seria o
mesmo que o respectivo valor da probabilidade no-condicional. P(B), que ento
corresponderia frmula P(A e B) = P(A) P (B) para eventos independentes. Essas duas
probabilidades no so as mesmas a menos que os dois eventos sejam independentes.
Para o exemplo 7.6 os eventos A e B no so independentes visto que P(A|B) =
0,242 no igual a P(A) = 0.1885.

10.8. Permutaes
Ao determinar o nmero de maneiras pelas quais um grupo de objetos podem
ser arranjados, deve-se inicialmente conhecer se a ordem desses objetos segue alguma
regra. Por exemplo, a ordem de arranjos de uma pessoa perder os dentes importante,
mas a ordem de seleo de um grupo de pessoas para constituir uma comisso no ,
pois qualquer ordem resulta na mesma comisso.
Permutar (re)ordenar os elementos de um conjunto numa seqncia
previamente definida. Ou seja. uma seleo de objetos de um grupo de n objetos.
levando em conta a ordem de seleo. O nmero de diferentes maneiras plos quais n
objetos podem ser; arranjados dado por n!. O smbolo n!: designa "fatorial de n": n!
(fatorial do nmero n) igual ao produto de todos os nmeros naturais, comeando em n
e terminando em 1. Por definio. 0! = 1.

Exemplo 7.10
Para identificar os frascos de uma medicao emprega-se trs diferentes
smbolos, x, y e z. Quantos so os modos diferentes dos frascos serem identificados? A
resposta
3! = 3 x 2 x 1 = 6
Os seis modos diferentes de identificao so xyz, xzy, yxz, yzx, zxy e zyx.
Geralmente h interesse no nmero de permutaes de algum subgrupo dos n
objetos. Ou seja. h interesse no nmero de permutaes de n objetos tomados r de
cada vez. onde r menor do que n:
,
!
!


Exemplo 7.11
85

Supor a existncia de trs maneiras efetivas de tratamento de um paciente com
determinado tipo de cncer - cirurgia (C), radioterapia (R) e quimioterapia (Q) - quais os
diferentes modos de tratar o paciente com dois diferentes tratamentos?
3,2
3!
3 2!

3 2 1
1
6
ou CR, RC, QC, CQ, RQ e QR.

10.9. Combinaes
Nas combinaes interessa o nmero de arranjos de diferentes agrupamentos
de objetos que podem ocorrer sem levar em considerao a ordem, como a seleo de
livros em uma estante. Uma combinao e uma seleo de um subgrupo de objetos
distintos, onde a ordem no importante. A equao para a obteno do nmero de
combinaes para selecionar r objetos a partir n objetos :
,
!
! 3 2!

onde C denota o nmero total de combinaes dos objetos.

Exemplo 7.12

Trs pacientes picados por serpente foram conduzidos a um pronto-socorro. O
plantonista descobre s possuir duas doses de anti-ofdico. Os trs pacientes so: uma
mulher grvida (M), uma criana (C) e um idoso (I). Antes de decidir qual dos dois tratar,
ele examina as chances existentes:
3,2
3!
2! 3 2!

3 2 1
21
3
As trs escolhas so: MC, MI, Cl. Notar que CM, M e IC so as mesmas das
primeiras trs pois a ordem no importante.







86

Vocabulrio
Combinaes
Eventos mutuamente exclusivos
Permutaes
Probabilidade
Probabilidade condicional
Regra da multiplicao
Regra de adio

Questes de reviso

1. Definir distribuio de probabilidade de uma varivel aleatria discreta.
2. Definir distribuio de probabilidade de uma varivel aleatria continua.

Exerccios

7.1. Duas moedas so lanadas e os resultados observados. Calcular as probabilidades
de observar zero "cara", uma "cara" e duas "caras".

7.2 Uma moeda no viciada lanada trs vezes e o nmero de "caras" observada.
Determinar a probabilidade de observar:
A. Exatamente duas "caras"
B. No mximo duas "caras"

7.3 Um casal planeja ter trs filhos. Encontrar as seguintes possibilidades:
A. Dois do sexo masculino e um do sexo feminino
B. Nenhum do sexo feminino
C. Dois do sexo masculino seguidos por um do sexo feminino

7.4 Uma bola retirada aleatoriamente de uma caixa conferido 10 bolas vermelhas, 30
bolas brancas, 20 bolas azuis e 15 bolas laranjas. Calcular as seguintes probabilidades:
A. Laranja ou vermelha
B. No azul
C. Vermelha ou branca ou azul
87


7.5 Em um experimento envolvendo uma substncia txica, a probabilidade que um rato
branco permanea vivo por 10 horas 7/10, e a probabilidade que um rato preto
permanea vivo por 10 horas 9/10. Encontrar a probabilidade que, no final de 10 horas,
A. Ambos estaro vivos
B. Somente o rato preto estar vivo
C. Ao menos um rato estar vivo
7.6 De quantas maneiras podem ser arranjados cinco cubos coloridos em uma linha?

7.7 De quantos modos diferentes pode ser escolhida uma comisso de cinco pessoas a
partir de nove candidatos?

7.8 Usando os dados da tabela abaixo com a relao da presso sangunea sistlica de
fumantes e no-fumantes onde os eventos: A = um no-fumante, B= um fumante e C =
uma "presso sangunea sistlica de 170 ou mais. Encontrar:
A. P(A)
B. P(B)
C. P(C)
D. P(C|A)
E. P(C|B)
F. Comparar a D e E (comentar). O "status" de fumante e nvel depresso
sangunea so independentes?


No fumantes Fumantes
Presso sangunea
i
f
i
f
Total
90-109 10 5 15
110-129 24 15 39
130-149 18 10 28
150-169 9 3 12
170-189 2 2 4
190-209 0 2 2
Total 63 37 100




88


11. Distribuies de probabilidade
Uma importante aplicao da estatstica a estimao das probabilidades de
ocorrncia de diferentes eventos. Por exemplo, pode-se desejar saber a probabilidade de
ter uma famlia de trs meninos e uma menina ou a probabilidade de sete entre dez
pacientes serem curados com determinado medicamento. Conhecendo-se as vrias
probabilidades associadas com diferentes desfechos de um dado fenmeno, pode-se
determinar quais os desfechos so comuns e quais no so. Assim possvel decidir se
certos eventos so significantes. A lista completa de todos os desfechos possveis,
juntamente com a probabilidade de cada um, constitui uma distribuio de probabilidade.
As distribuies de probabilidade so modelos matemticos para as distribuies
reais de freqncias. So modelos tericos construdos na expectativa de explicar a
realidade. Essas distribuies tericas de probabilidade permitem solucionar a maioria
dos problemas prticos de estatstica. Ou seja. a partir dessas distribuies possvel
fazer inferncias sobre dados observados, permitindo generalizaes, comparaes ou
previses, acerca de fenmenos aleatrios.
Os desfechos de eventos podem ser descritos numericamente (ex.: nmero de
trs meninos em uma famlia). O smbolo X geralmente denota a varivel de interesse.
Essa varivel pode assumir qualquer valor numrico e denominada varivel aleatria,
assim chamada pois seus valores so determinados por processos ao acaso que no
esto sob o controle do observador. Desse modo. pode-se dizer que uma distribuio de
probabilidade uma lista de probabilidades associadas com os valores de uma varivel
aleatria obtidos em um experimento. As variveis aleatrias podem ser discretas ou
contnuas.
1. Distribuies discretas de probabilidade. A distribuio de probabilidade de uma
varivel aleatria discreta (dados contveis ou enumerveis) uma tabela, grfico,
frmula ou outro dispositivo empregado para especificar todos os possveis valores da
varivel junto com suas respectivas probabilidades. So exemplos de especficos
modelos discretos de probabilidade, as distribuies de probabilidade binomial e de
Poisson.
2. Distribuies contnuas de probabilidade. Quando a varivel aleatria for contnua
(pode assumir qualquer valor fracionrio dentro de um intervalo definido de valores).
As probabilidades so determinadas por uma funo matemtica e descritas por uma
funo de densidade ou por uma curva de probabilidade. Entre as distribuies de
89

probabilidade de variveis contnuas, algumas so de essencial importncia para a
estatstica: distribuio normal, distribuio de t e distribuio F de Snedecor.
Conhecida a distribuio de probabilidade de um fenmeno aleatrio
considerado, possvel a resoluo de dois problemas da inferncia estatstica: a
estimao de parmetros e os testes de hipteses.


11.1. Distribuies discretas de probabilidade

A distribuio de probabilidade de uma varivel aleatria discreta (dados
contveis ou enumerveis) uma tabela, grfico, frmula ou outro dispositivo empregado
para especificar todos os possveis valores da varivel junto com suas respectivas
probabilidades. So exemplos de especficos modelos discretos de probabilidade as
distribuies de probabilidade binomial de Poisson.

Objetivos
1 Descrever as propriedades de uma distribuio binomial.
2 Calcular as propriedades usando a distribuio binomial.
3 Descrever o processo de Bernoulli.
4 Identificar os componentes da frmula binomial.
5 Identificar os componentes da frmula de Poisson.

11.2. Distribuio binomial
A distribuio binomial uma distribuio discreta de probabilidade em que a
varivel aleatria envolvida enumervel ou contvel. Estuda o comportamento amostrai
de eventos dicotmicos (ex.: masculino/feminino, curado/no-curado, infectado/no-
infectado). A distribuio binomial aplicvel sempre que o processo de amostragem
do tipo do de Bernoulli.

11.2.1. Hipteses do modelo Binomial
1. O experimento repetido n vezes nas mesmas condies.
2. Os resultados das repeties so independentes, ou seja, uma repetio no
interfere nas subseqentes.
90

3. Cada repetio admite apenas dois resultados: sucesso ou fracasso.
4. As probabilidades de sucesso p e de insucesso q (q=1-p) se mantm
constantes durante as repeties.

Teorema:
Se X uma varivel aleatria com um comportamento Binomial, ento a probabilidade de
X assumir um dos valores do conjunto X(S) calculada por:
( )
k n x k n k
n n!
f (x) P(X k) .p .q .p .q
k n k !.k!

| |
= = = =
|

\
, para k = 0, 1, 2, ..., n.
Para a melhor compreenso exemplifica-se que a probabilidade de nascer uma
criana do sexo masculino p = 1/2. Como o sexo uma varivel binria, considera-se
que a probabilidade de nascer uma criana do sexo feminino q = l - 1/2 = 1/2.
Na distribuio binomial a mdia igual ao nmero de eventos estudados vezes
a probabilidade de ocorrncia do evento. Ou seja:
= np.
O desvio padro igual a raiz quadrada do produto: n x p x g. Ou, expresso pela
frmula:
.
Pode-se empregar a distribuio binomial para determinar a probabilidade de se
obter um dado nmero de sucessos (k) em um processo de Bernoulli. A frmula
empregada
( )
k n k
n!
f (x) P(X k) .p .q
n k !.k!

= =


n = o nmero de tentativas ou repeties do experimento
k = o nmero/proporo/freqncia desejada de sucessos
n-k = o nmero/proporo/freqncia esperada de fracassos
P = a probabilidade/proporo/freqncia de sucessos q=l-p = a
probabilidade/proporo/freqncia de fracassos
O smbolo ! indica o fatorial de um nmero inteiro, ou seja, o produto de todos os
nmeros naturais desde um at esse nmero; "fatorial de n" definido como n! = n
*
(n-I)
*

(n-2)
*
...
*
1. Por definio. O! = I. Ex.: 4! = 4
*
3
*
2
*
l = 24.
A distribuio binomial dada pela frmula acima, c determinada pelo nmero de
tentativas, e a probabilidade p de sucesso numa tentativa isolada. Os smbolos n e p so
denominados parmetro da distribuio.
91


Exemplo 8.1

Admite-se que a probabilidade de nascimento de um menino, como tambm de
uma menina, igual 1/2. Quais so as probabilidades em uma famlia de seis filhos de ter
O, I, 2, 3, 4, 5 e 6 crianas do sexo masculino? (M = masculino; F = feminino)
6!
0! 6 0!

1
2


1
2

1
64
0,0156 ou 1,56%para 6M e 0F
6!
1! 6 1!

1
2


1
2

20
64
0,0937 ou 9,37%para 5M e 1F
6!
2! 6 2!

1
2


1
2

20
64
0,2343 ou 23,43%para 4M e 2F
6!
3! 6 3!

1
2


1
2

20
64
0,3125 ou 31,25%para 3M e 3F
6!
4! 6 4!

1
2


1
2

15
64
0,2343 ou 23,43%para 2M e 4F
6!
5! 6 5!

1
2


1
2

6
64
0,0937 ou 9,37%para 0M e 5F
6!
6! 6 6!

1
2


1
2

1
64
0,0156 ou 1,56%para 0M e 6F

A probabilidade de que numa famlia de 6 filhos, 5 ou mais sejam do sexo
masculino,e a soma das probabilidades de 5 e 6 filhos do sexo masculino, isto , 0,0937
+ 0,0156 = 0,1093. Cerca de 10% das famlias de 6 filhos tem 5 ou mais meninos.
Parmetros binomial. A distribuio binomial tem dois parmetros, e p. So
parmetros no sentido em que so suficientes para especificar uma distribuio binomial.
Na realidade, a distribuio binomial uma famlia de distribuies cada uma com
valores especficos para n e p. A mdia e a varincia da distribuio binomial so: = np
e o2 = np(l -p), respectivamente
Para a distribuio de freqncias de famlias de 6 filhos, do exemplo acima,
com 6, 5, 4, 3, 2, l ou 0 filhos do sexo masculino, a mdia ,evidentemente, (6)(l/2) = 3. A
varincia (6)( l/2)( 1/2) = 1,5 e o desvio padro 1,5 1.22

Exemplo 8.2
92

Considerando k como sendo a VAD igual a nmero de vezes que ocorre face cara em 5
lanamentos de uma moeda equilibrada, determinar a probabilidade de ocorrer:
(a) Duas caras
(b) Quatro caras
(c) No mximo duas caras

Soluo:
Neste caso, tem-se:
n = 5 = nmero de lanamentos.
k = nmero de caras nos 5 lanamentos X(S) = { 0, 1, 2, 3, 4, 5 }
p = P(Cara em 1 lanamento ) = 0,50, pois a moeda equilibrada. Logo q = 1 - p = 0,50
Ento:
k k
f(x) = P(X = x) = . , . , , para k = 0, 1, 2, 3, 4, 5
k

| |
|
\
5
5
0 5 0 5

(a) P(X = 2) = . , . , = 10.0,25.0,125 = 31,25%

| |
|
\
2 5 2
5
0 5 0 5
2

(a) P(X = 2) = . , . , = 10.0,25.0,125 = 31,25%

| |
|
\
2 5 2
5
0 5 0 5
2

(c) P(X 2) = . , . , . , . , . , . ,
= 0,55 + 5.0,55 + 10.0,55 = 50%

| | | | | |
+ +
| | |
\ \ \
0 5 0 1 5 1 2 5 2
5 5 5
0 5 0 5 0 5 0 5 0 5 0 5
0 1 2


11.2.2. Propriedades da distribuio binomial
A vantagem de se ter um modelo conhecido que podemos determinar suas
caractersticas de um modo geral. Assim se X uma VAD com uma distribuio Binomial
tem-se:

Mdia, expectncia ou valor esperado
x n k
n
= E(X) = x.f(x) = x p q np
k

| |
=
|
\

, isto , a mdia de uma varivel aleatria com
distribuio binomial igual ao produto dos parmetros n e p.
Varincia
93

| |
= =
|
\
2 2 2 2
x n x
n
E(X) Ex p q npq,
x
isto , a varincia de uma varivel aleatria
com distribuio binomial igual ao produto dos parmetros n e p e multiplicados
ainda por q.

O desvio padro
= npq

Exemplo 8.3
A probabilidade de um exemplar defeituoso com que opera certo processo produtivo de
10%. Considerando k a varivel nmero de unidades defeituosas em uma amostra
ocasional de 20 unidades, determinar:
(a) O nmero mdio de item defeituosos na amostra.
(b) O desvio padro do nmero de item defeituosos na amostra.
Soluo:
(a) E(X) = np = 20.0,10 = 2 itens defeituosos
(b) = = =
20 0 10 0 90 1 80
npq . , . , , = 1,34 itens defeituosos.

Exemplo 8.4
Num determinado processo de fabricao 10% das peas so consideradas defeituosas.
As peas so acondicionadas em caixas com 5 unidades cada uma.
(a) Qual a probabilidade de haver exatamente 3 peas defeituosas numa caixa?
(b) Qual a probabilidade de haver duas ou mais peas defeituosas numa caixa?
(c) Se a empresa paga uma multa de R$ 10,00 por caixa em que houver alguma pea
defeituosa,
qual o valor esperado da multa num total de 1000 caixas?
Soluo:
a) ( )
| |
= = =
|
\
3
2
5
3 0 10 0 90
3
P(X ) . , .( , ) 10.0,001.0,81 = 0,81%
b) P(Duas ou mais defeituosas) = P(X = 2) + P(X = 3) + P(X = 4) + P(X = 5). Ao invs
de calcular desta forma mais conveniente utilizar o complementar. Assim:
P(X 2) = 1 - P(X 1) = 1 - [P(X = 0) + P(X = 1)] = 1 - (0,5905 + 0,3280] = 8,15%
(c) A probabilidade de uma caixa pagar multa :
94

P(PM) = P(X 1) = 1 - P(X = 0) = 1 - 0,5905 = 40,95%
Neste caso tem-se uma nova Binomial com n = 1000 e p = 40,95%. O nmero esperado
de caixas que vo pagar multa, isto , com uma ou mais peas defeituosas ser:
E(PM) = np = 1000.0,4095 = 409,5 caixas.
Como cada uma paga R$ 10,00 de multa, o valor total da multa ser:
PM = R$ 10,00.409,5 = R$ 4 095,00
Aproximao da distribuio binomial normal. A forma de distribuio binomial
aproxima-se da forma da distribuio normal (v. adiante), quando p for pequeno e n for
grande. Essa propriedade torna permissvel o uso da distribuio normal para clculos de
freqncia relativas e testes de hipteses, para amostras de populaes binomiais. De
fato, o clculo de probabilidades com base na distribuio binomial pode tornar-se
penoso para valores altos de n, sendo vantajoso ento o emprego da distribuio normal.
No h maior inconveniente nessa substituio, quando p tiver valores entre 0.20 e 0,80,
e np e (1-p) forem maiores do que 5.


Esperana Matemtica de Distribuio Binomial
E(X)=n.p
Varincia de uma Distribuio Binomial
V(X) n. p.q

11.3. Distribuio de Poisson
Na distribuio binomial, a varivel de interesse era o nmero de sucessos (ocorrncias
do evento A) em um intervalo discreto (n repeties do experimento E). Muitas vezes,
entretanto, o interesse reside no nmero de sucessos em um intervalo contnuo, que
pode ser de tempo, comprimento, superfcie, etc. Para se caracterizar uma distribuio
que leve em conta o nmero de sucessos (valores)
em um intervalo contnuo, ser suposto que:
(i) Eventos definidos em intervalos no sobrepostos so independentes;
(ii) Em intervalos de mesmo comprimento, so iguais as probabilidades de ocorrncia de
um mesmo nmero de sucessos;
(iii) Em intervalos muito pequenos, a probabilidade de mais de um sucesso desprezvel;
(iv) Em intervalos muito pequenos, a probabilidade de um sucesso proporcional ao
comprimento do intervalo.
95

Se os valores de uma varivel satisfazem as hipteses (i) a (iv) acima se dir que ela
segue um processo de Poisson.

Hipteses do modelo de Poisson
1. A probabilidade de observar apenas um sucesso no intervalo estvel.
2. A probabilidade de observar mais que um sucesso no intervalo zero.
3. A ocorrncia de um sucesso em qualquer intervalo independente da ocorrncia de
sucesso em qualquer outro intervalo.
A distribuio de Poisson caracterizada apenas pelo parmetro , que representa o
valor esperado ou mdia, do nmero de sucessos por intervalo t. Em outras palavras,
a taxa de ocorrncia dos eventos no intervalo de tempo.
Ento:
k
e .
f (x) P(X k)
k!

= = = , para k = 0, 1, 2, 3, ... , onde k o nmero de eventos que


ocorrem em um intervalo sobre o qual se espera uma mdia de ocorrncias.
Alm disso, X pode ser definida como o nmero de eventos que ocorrem sobre um
perodo de tempo t, substituindo na equao acima por t. Desta forma a distribuio de
Poisson pode ser escrita como:
t k
e .(t)
f (x) P(X k)
k!

= = = , para x = 0, 1, 2, 3, ...
A distribuio de Poisson ser representada por P().

Exemplo 8.5
Em um certo tipo de fabricao de fita magntica, ocorrem defeitos a uma taxa de 1 a
cada 2000 metros. Qual a probabilidade de que um rolo com 2000 metros de fita
magntica:
(a) No tenha defeitos?
(b) Tenha no mximo dois defeitos?
(c) Tenha pelo menos dois defeitos?
Soluo:
Neste caso, tem-se:
= Taxa de defeitos a cada 2000 metros.
X = nmero de defeitos a cada dois mil metros.
x = 0, 1, 2, 3, ...
96

Ento:
k
e .
f (x) P(X k) , para k = 0, 1, 2, 3, ...
k!
= = =
a)

= = = =
1 0 1
0 0 367
0
e
p(X ) , = 36,79%
!

b)

= + + = =
1 0 1 1 1 2 1 1 1
2 0 9197 91 97
0 1 2
e . e . e .
P(X ) , , %
! ! !

c)

| |
= = + =
|
\
1 0 1 1
1
1 1
2 1 1 1
0 1
e . e .
P(X ) P(X ) 1 - 2e =0,2642= 26,42%
! !


Exemplo 8.6
Um dado formado por chapas de plstico de 10x10 cm. Em mdia aparecem 50
defeitos por metro quadrado de plstico, segundo uma distribuio de Poisson.
(a) Qual a probabilidade de uma determinada face apresentar exatamente 2 defeitos?
(b) Qual a probabilidade de o dado apresentar no mnimo dois defeitos?
(c) Qual a probabilidade de que pelo menos 5 faces sejam perfeitas?
Soluo:
(a) Em mdia aparecem:
d = 50 defeitos/m2 = 50/10 000 defeitos/cm
2

Como cada face tem a = 10cm x 10 cm = 100 cm2, tem-se ento:
= (50/10000) defeitos/cm2 x 100 cm2 = 0,5 defeitos por face.
A probabilidade de uma face apresentar dois defeitos ser:

= = = =
0 5 2 0 5
2 0 0758 7 58
2
,
e .( , )
P(X ) , , %
!

(b) No dado inteiro, a rea total ser a = 6x100 cm
2
= 600 cm
2
e o nmero mdio de
defeitos ser ento:
=
2 2
50
10 000
defeitos /cm x 600 cm = 3 defeitos
.

A probabilidade de o dado apresentar no mnimo dois defeitos ser:
=
2
P(X ) P(X = 2) + P(X = 3) + ... = 1 - P(X 1) = 1 - [P(X = 0) + P(X =1)] =
=

( | | | |
+ =
( | |
\ \
3 0 3 1 3 3
1
0 1
e . e .
1 - [0,0498 + 0,1494] =0,8008= 80,08%
! !

(c) A probabilidade de pelo menos 5 faces perfeitas :
97

P(Y 5) = P(Y = 5) + P(Y = 6). A probabilidade de uma face ser perfeita a
probabilidade de ela no apresentar defeitos, isto :

= = = =
0 5 0 0 5
0 0 6065
0
,
e .( , )
P(X ) , 60,65%
!

Tem-se ento uma binomial Y com n = 6 (nmero de faces do dado) e p = 60,65% =
probabilidade de uma face ser perfeita. Ento a probabilidade de pelo menos 5 perfeitas,
ser:
P(Y 5) = P(Y = 5) + P(Y = 6) =
= ( ) ( ) ( ) ( )
| | | |
+ + + = =
| |
\ \
5 1 6 0
6 6
0 6065 0 6065 0 2436
5 6
. , 0 39350 . , 0 39350 , 24,36%

11.3.1. Propriedades da distribuio de poisson

Se X for uma VAD com distribuio de Poisson, ento:


Mdia, expectncia ou valor esperado
k
e .
E(X ) kf (k) x
k!

= = = =

2


Varincia
k
e .
E(X ) x
k!

= = =

2 2 2 2


O desvio padro
=


11.4. Relao entre as distribuies Binomial e Poisson

Seja X uma varivel aleatria discreta com distribuio Binomial de parmetros n e p.
Isto :
k n k
n
f (x) P(X k) .p .q
k

| |
= = =
|
\

98

Admita-se que quando n , tenha-se np = = constante, ou de uma forma
equivalente, quando n , p 0, de modo que np . Nestas condies tem-se
ento:
k
k n k
n n
n e .
limP(X k) lim .p .q
k k!


| |
= = =
|
\

O teorema diz essencialmente, que possvel obter uma aproximao das
probabilidades binomiais com as probabilidades da distribuio de Poisson, toda vez que
n seja grande e p seja pequeno.

Exemplo 8.7
Uma amostra de 50 peas retirada da produo de uma mquina que trabalha com um
ndice de defeitos de 2%. Determinar a probabilidade de se encontrarem duas peas
defeituosas na amostra.
Soluo:
(a) Pela Binomial, tem-se: ( ) P(X ) . , .( , ) , , %
| |
= = = =
|
\
2
48
50
2 0 02 0 98 0 1857 18 57
2

(b) Usando uma aproximao pela distribuio de Poisson de mdia = np = 50.0,02
= 1,tem-se:
e .
P(X ) , 18, 39%
!

= = = =
1 2 1
2 0 1839
2


Vocabulrio
Distribuio binomial
Distribuio de Poisson
Processo de bernoulli

Questes de reviso

1. Que uma varivel aleatria discreta? Dar trs exemplos de interesses na
rea biomdica;
2. Descrever a distribuio binomial;
3. Que um processo de Bernoilli?;
4. Dar um exemplo de uma varivel aleatria que segue a distribuio binimial;
5. Dar um exemplo de uma varivel aleatria que segue a distribuio de
99

Poisson.

Esperana Matemtica da Distribuio de Poisson
E(x) =
Varincia da Distribuio de Poisson
V(X)

























100

Exerccios

8.1 Dentre 6.654 partos sucessivos que ocorreram em uma maternidade, e que
resultaram em crianas vivas. 50 foram gmeos e 2 foram de trigmios. Quais as
probabilidades (em percentagem) de nascimentos de gmeos e de trigmeos entre
recm-nascidos vivos que podem ser estimados a partir desses dados?

8.2 Crianas com determinada doena gentica so, quase sempre, filhos de casais
assintomticos que correm um risco de 25% de gerar outra criana com esse defeito.
Entre tais casais com 5 filhos, qual o percentual esperado daqueles com a doena
gentica manifestada em:
A. Um filho.
B. Trs filhos.
C. Todos os filhos?
8.3. Um estudo mostrou que 26% da populao adulta de determinada cidade obesa. A
partir de uma amostra de 20 adultos, encontrar a probabilidade que o nmero de obesos
nessa amostra ser:
A. Exatamente trs.
B. T r s ou m ais.
C. Menor que trs.
D. Entre trs e sete, inclusive.

8.4. Suponha que certa rea de uma grande cidade apresente uma mdia de cinco ratos
por quarteiro. Pressupondo que o nmero de ratos siga a distribuio de Poisson,
encontrar a probabilidade que era um quarteiro selecionado ao acaso tenha:
A. Exatamente cinco ratos.
B. Mais que cinco ratos.
C. Menos que cinco ratos.
D. Entre cinco e sete ratos, inclusive.

8.5. Se o nmero mdio de acidentes srios por ano em uma grande (onde o nmero de
empregados permanece constante) cinco. Encontrar a probabilidade que nesse ano
ocorrer:
A. Exatamente sete acidentes.
101

B. Dez ou mais acidentes.
C. Nenhum acidente.
D. Menos que cinco acidentes.

8.6. Em certa populao uma mdia de 13 novos casos de cncer de esfago so
diagnosticados cada ano. Se a incidncia anual segue a distribuio de Poisson,
encontrar y probabilidade que em determinado ano o nmero de novos casos de cncer
de esfago sejam:
A. Exatamente 10
B. Menos que 12
C. No mnimo 8
D. Entre 9 e15, inclusive


102

11.5. Distribuies contnuas de probabilidade

Quando a varivel aleatria for contnua (pode assumir qualquer valor fracionrio dentro
de um intervalo definido de valores). As probabilidades so determinadas por uma funo
matemtica e descritas por uma funo de densidade ou por uma curva de probabilidade.
Entre as distribuies de probabilidade de variveis continuas algumas so de essencial
importncia para a estatstica. Distribuio normal, distribuio t, distribuio do qui-
quadrado e distribuio F de Snedecor.

11.5.1. Distribuio normal ou Gaussiana

um modelo de distribuio contnua de probabilidade, usada tanto para
variveis aleatrias discretas como contnuas.
Uma varivel aleatria X, que tome todos os valores reais -< x < + tem
distribuio normal quando sua funo densidade de probabilidade (f.d.p.) for da
forma:
+ < <
|

\
|
x ,

x
e
.
) x ( f
2
2
1
2
1

Os parmetros e seguem as seguintes condies:
- < < + e > 0 .

11.5.2 - Propriedades da Distribuio Normal
a) O aspecto grfico da funo f tem semelhana de um sino, unimodal e simtrico em
relao a mdia .
b) A especificao da mdia e do desvio padro completamente evidenciado.
c) A rea total da curva equivale a 100%.
103


FIGURA 11.1 - Distribuio Normal em funo da e

Esperana Matemtica da Distribuio Normal
E(X) =

Varincia da Distribuio Normal
V(X) =

11.5.3 - Distribuio Normal Padronizada
Tem como objetivo solucionar a complexidade da f(x) atravs da mudana de
varivel. f(z).

FIGURA 11.2 - Complemento da Distribuio Normal Padronizada

Fazendo z=

x
e z ~ N(0,1) temos que
104

=
2
2
2
1
z
e

) Z ( f

com E(z) = 0 e VAR(z) = 1.
onde:
z = nmero de desvios padres a contar da mdia
x = valor arbitrrio
= mdia da distribuio normal
= desvio padro da distribuio normal

Estas probabilidades esto tabeladas e este caso particular chamado de Forma Padro
da Distribuio Normal.



















105

12. DISTRIBUIO AMOSTRAL DAS MDIAS

Objetivos

1. Distinguir entre a distribuio de uma populao e a distribuio amostrai de
mdias (DAM).
2. Explicar a importncia do teorema central do limite.
3. Identificar os principais pontos do teorema central do limite.
4. Calcular e interpretar o erro padro da mdia.
5. Determinar quando usar uma distribuio t.

Valores de medidas estatsticas, tais como, a mdia e o desvio padro, no so
necessariamente iguais aos de outras amostras obtidas de uma mesma populao. Essa
variao atribuda a diferenas na composio das amostras aleatrias e conhecida
como variao amostral. A partir do estudo da variabilidade do resultado, de amostra
para amostra, c possvel construir distribuies de freqncias (distribuies amostrais)
que a base para a inferncia estatstica.
Dada uma populao de valores x com distribuio normal, com mdia . e
desvio padro a e dela extraindo-se um grande nmero de amostras casuais simples de
mesmo tamanho n, o clculo das mdias X

dessas amostras levam a valores para X


diferentes entre si. Essas sries de mdias resultantes podero ser classificadas numa
tabela de freqncias e representadas por um histograma. Repetindo-se a amostragem
indefinidamente, o histograma tender para uma curva que representa a distribuio
estatstica das mdias amostrais, denominada distribuio amostral de mdias (DAM) .

Obteno da mdia das medias
Amostra Medias
Amostra 1 X


Amostra 2 X


Amostra 3 X


........... ............
Amostra n X


Mdia das mdias X

/n

As propriedades dessas distribuies tericas conferem um papel importante no
processo de inferncias estatsticas. A partir dessa distribuio, possvel calcular a
106

mdia e o desvio padro da DAM e verificar como estes valores se relacionam com os
parmetros da populao.

12.1. Teorema central do limite

Pelo Teorema Central do Limite, a distribuio amostrai das mdias tende para
uma distribuio normal com mdia (igual a mdia da populao) e com desvio padro
/n (desvio padro da populao dividida pela raiz quadrada do tamanho da amostra).
A partir do Teorema Central do Limite obtm-se:
1. A mdia da distribuio amostra! das mdias (a "mdia das mdias") igual
mdia populacional. Ou seja:


2. O desvio padro da distribuio amostral das mdias igual ao desvio
padro da populao dividida pela raiz quadrada do tamanho da amostra -
isto

n ou seja. n vezes menor que a variao existente na


populao.
3. A distribuio amostral de mdias aproxima-se de uma curva normal.
Quando n for bastante grande, a forma de distribuio amostral de mdias ,
aproximadamente, uma curva normal, qualquer que seja a forma da
distribuio populacional da quais as mdias foram extradas (normal ou
no).
4. As reas sob a curva de distribuio amostral de mdia, so as mesmas da
curva normal. Ao redor de 68% das mdias esto entre /n e /n,
enquanto 95% esto entre 2/n e 2/n.
A maior parte das amostras tende a estimar os parmetros populacionais com
boa aproximao. Isto justifica a relativa confiana nas inferncias baseadas nos dados
de observaes obtidas de uma amostra. A confiana a ser depositada numa amostra,
naturalmente cresce com o aumento de tamanho dessa amostra. Outro aspecto a ser
relacionado , quanto menor a variabilidade mais consistente e reprodutvel so os
resultados obtidos e, portanto, mais correta a inferncia.




107

12.2. Desvio padro da mdia (erro padro da mdia)
possvel estimar o desvio padro da distribuio amostral de mdias a partir
de dados fornecidos por uma nica amostra. Essa estimativa conhecida como erro
padro da media ou desvio padro das mdias. O desvio padro da distribuio amostral
de mdias

/n igual ao desvio padro da populao original. Na prtica o


raramente conhecido, no entanto, pode ser estimado a partir do desvio padro da
amostra; conseqentemente, a equao usada para calcular o desvio padro da mdia :
s


s
n

n


Exemplo 10.1

Para o exemplo 5.1 (Captulo 5: Medidas de posio) onde os valores de glicose
dados em mg/dL (90, 86, 78, 90, 98, 90, 82, 76, 84) apresentam mdia: 86: desvio
padro: 6,85; n = 9. A aplicao da equao para o clculo do desvio padro da mdia
fornece:
dL mg
n
s
S
x
/ 28 , 2
9
85 , 6
= = =


12.3. Distribuio t de student

A distribuio T ou de "student" (pseudnimo de W. S. Gosset) uma
distribuio terica de probabilidades, introduzida na metodologia estatstica para
trabalhar com pequenas amostras (n<30), aleatrias e independentes; a varivel
observacional precisa ter distribuio normal (na populao) e o desconhecido.
O valor de t a medida do desvio entre a mdia X

, estimada a partir de uma


amostra aleatria de tamanho n, e a mdia da populao, usando o des
( ) n s s
x
/ = vio padro da mdia como unidade de medida
i
:
t
X


s/n


108

A diferena fundamental entre as variveis t e z, est nos respectivos
denominadores. O desvio padro da populao o impe restries ao uso de z, pois se
trata de um parmetro geralmente desconhecido, ou que deve ser estimado de uma
amostra relativamente grande. No denominador de t. entra o desvio padro s, calculado a
partir de amostra formada por um nmero relativamente pequeno de observaes.

12.3.1. Propriedades da distribuio t de student

1. A mdia igual a zero.
2. As curvas t so simtricas em torno da mdia, tem forma de sino e
assemelham-se a curva normal, porm mais "achatadas".
3. O intervalo da varivel t : a + .
4. A distribuio de t no descrita por uma distribuio nica, como no caso
da distribuio normal padronizada, mas por uma famlia de distribuies. H
uma curva t diferente para cada nmero de graus de liberdade da amostra (n-
1).
5. A variao de t maior com amostras pequenas, do que com amostras
grandes. Quando n tende para o , o desvio padro s tender para a;
consequentemente, a distribuio t aproxima-se da distribuio normal
padronizada.
Para amostras com n 30, a distribuio de t , praticamente, a distribuio
normal padronizada. Por outro lado, a medida que os graus de liberdade diminuem, a
distribuio t torna-se cada vez mais espalhada em comparao com a norma.
Uma distribuio t apropriada para inferncias sobre a mdia sempre quando a
for desconhecido e a populao normalmente distribuda, qualquer que seja o tamanho
da amostra. A distribuio de t tem como principais aplicaes:
1. Estimao aos, intervalos de confiana para a mdia populacional,
2. Comparao de duas mdias pelo teste t.
A tabela do Anexo D apresenta os valores de t que delimitam as reas nos dois
extremos da curva de distribuio, para distintos valores de graus de liberdade. As duas
reas nos dois extremos so chamadas regies crticas ou zonas de rejeio
Vocabulrio

Distribuio amostral de mdias Distribuio t de Student
109

Distribuio populacional Graus de liberdade
Erro padro da mdia Teorema central do limite
































110

Exerccios Diversos
1. No lanamento simultneo de 2 dados, considere as faces voltadas para cima e
determine
a) espao amostral S.
b) evento E1 : nmeros cuja soma igual a 5.
c) evento E2: nmeros iguais.
d) evento E3: nmeros cuja soma um nmero par.
e) evento E4: nmeros mpares nos 2 dados.
f) evento E5: nmero 2 em pelo menos 1 dos dados.
g) evento E6: nmeros cuja soma menor que 12.
h) evento E7: nmeros cuja soma maior que 12.
i) evento E8: nmeros divisores de 7 nos 2 dados.

2. Um casal planeja ter 3 filhos. Determine os eventos:
a) os 3 so do sexo feminino.
b) pelo menos 1 do sexo masculino.
c) os 3 do mesmo sexo.

3. Uma urna contm 20 bolinhas numeradas de 1 a 20. Escolhe-se ao acaso uma
bolinha e observa-se o seu nmero. Determine os seguintes eventos:
a) o nmero escolhido mpar.
b) o nmero escolhido maior que 15.
c) o nmero escolhido mltiplo de 5.
d) o nmero escolhido mltiplo de 2 e de 3.
e) o nmero escolhido primo.
f) o nmero escolhido par e mltiplo de 3.
g) o nmero escolhido mpar e mltiplo de 7.

4 Qual a probabilidade de ocorrer o nmero 5 no lanamento de um dado?

5 Qual a probabilidade de se obter um nmero par no lanamento de um dado?

6. Um disco tem uma face branca e a outra azul. Se o disco for lanado 3 vezes, qual
a probabilidade de a face azul ser sorteda pelo menos uma vez?

7 Um casal planeja ter 3 filhos. Qual a probabilidade de os 3 serem do mesmo sexo?

8.Joo lana um dado sem que Antnio veja. Joo diz que o nmero mostrado pelo
dado par. Qual a probabilidade de Antnio descobrir esse nmero?

111

9.Um baralho de 12 cartas tem 4 ases. Retiram-se 2 cartas, uma aps a outra.
Determine a probabilidade de a segunda ser um s, sabendo que a primeira um s.

10.Uma urna tem 10 bolas idnticas, numeradas de 1 a 10. Se retirarmos uma bola
da urna, qual a probabilidade de no obtermos a bola nmero 7 ?

11. Uma urna contm 2 bolas brancas e 5 bolas vermelhas. Retirando-se 2 bolas ao
acaso e sem reposio, calcule a probabilidade de:
a) as bolas serem de cores diferentes.
b) as bolas serem vermelhas.

12. Uma caixa contm 11 bolas numeradas de 1 a 11. Retirando-se uma delas ao
acaso, observa-se que ela tem um nmero mpar. Determine a probabilidade de esse
nmero ser menor que 5.

13.Uma bola retirada de um urna que contm bolas coloridas. Sabe-se que a
probabilidade de ter sido retirada uma bola vermelha 5/17. Calcule a probabilidade
de ter sido retirada uma bola que no seja vermelha.

14.A probabilidade de que a populao atual de um pas seja de 110 milhes ou
mais de 95%. A probabilidade de ser 110 milhes ou menos de 8%. Calcule a
probabilidade de ser 110 milhes.

15. Uma urna contm 30 bolinhas numeradas de 1 a 30. Retirando-se ao acaso uma
bolinha da urna, qual a probabilidade de essa bolinha ter um nmero mltiplo de 4 ou
3?

16. Jogando-se um dado, qual a probabilidade de se obter o nmero 3 ou um nmero
mpar?

17. Consultadas 500 pessoas sobre as emissoras de tev que habitualmente
assistem, obteve-se o seguinte resultado: 280 pessoas assistem ao canal A, 250
assistem ao canal B e 70 assistem a outros canais, distintos de A e B. Escolhida uma
pessoa ao acaso, determine a probabilidade de que ela assista:
a) ao canal A.
b) ao canal B.
c) ao canal A ou ao canal B.

18. Num grupo, 50 pessoas pertencem a um clube A, 70 pertencem a um clube B, 30
a um clube C, 20 pertencem aos clubes A e B, 22 aos clubes A e C, 18 aos clubes B
e C e 10 pertencem aos 3 clubes. Escolhida ao acaso uma das pessoas presentes, a
probabilidade de ela:
a) pertencer aos 3 clubes 3/5.
112

b) pertencer somente ao clube C zero.
c) pertencer a pelo menos dois clubes de 60%.
d) no pertencer ao clube B 40%.

19. De uma reunio participam 200 profissionais, sendo 60 mdicos, 50 dentistas, 32
enfermeiras e os demais nutricionistas. Escolhido ao acaso um elemento do grupo,
qual a probabilidade de ele ser mdico ou dentista?

20. Escolhido ao acaso um elemento do conjunto dos divisores de 30, determinar
a probabilidade de que ele seja primo?

21. Uma bola ser retirada de uma sacola contendo 5 bolas verdes e 7 bolas
amarelas. Qual a probabilidade desta bola ser verde?

22. Trs moedas so lanadas ao mesmo tempo. Qual a probabilidade de as trs
moedas carem com a mesma face para cima?

23. Um casal pretende ter filhos. Sabe-se que a cada ms a probabilidade da mulher
engravidar de 20%. Qual a probabilidade dela vir a engravidar somente no
quarto ms de tentativas?


24. Um credor est sua procura. A probabilidade dele encontr-lo em casa 0,4.
Se ele fizer 5 tentativas, qual a probabilidade do credor lhe encontrar uma vez em
casa?

25. Em uma caixa h 2 fichas amarelas, 5 fichas azuis e 7 fichas verdes. Se
retirarmos uma nica ficha, qual a probabilidade dela ser verde ou amarela?

26. Alguns amigos esto em uma lanchonete. Sobre a mesa h duas travessas. Em
uma delas h 3 pastis e 5 coxinhas. Na outra h 2 coxinhas e 4 pastis. Se ao
acaso algum escolher uma destas travessas e tambm ao acaso pegar um dos
salgados, qual a probabilidade de se ter pegado um pastel?

27. O jogo de domin composto de peas retangulares formadas pela juno de
dois quadrados. Em cada quadrado h a indicao de um nmero, representado
por uma certa quantidade de bolinhas, que variam de nenhuma a seis. O nmero
total de combinaes possveis de 28 peas. Se pegarmos uma pea qualquer,
qual a probabilidade dela possuir ao menos um 3 ou 4 na sua face?

28. Em uma caixa h 4 bolas verdes, 4 azuis, 4 vermelhas e 4 brancas. Se tirarmos
sem reposio 4 bolas desta caixa, uma a uma, qual a probabilidade de tirarmos
nesta ordem bolas nas cores verde, azul, vermelha e branca?
113


29. Em uma escola de idiomas com 2000 alunos, 500 alunos fazem o curso de
ingls, 300 fazem o curso de espanhol e 200 cursam ambos os cursos.
Selecionando-se um estudante do curso de ingls, qual a probabilidade dele
tambm estar cursando o curso de espanhol?

30. De uma sacola contendo 15 bolas numeradas de 1 a 15 retira-se uma bola. Qual
a probabilidade desta bola ser divisvel por 3 ou divisvel por 4?

31.
a) a. Qual a diferena entre as distribuies de Poisson e Binomial?
b. D alguns exemplos de quando podemos aplicar a distribuio de Poisson.
c. D a frmula da distribuio de Poisson e o significado dos vrios smbolos.
d. Sob que condies pode a distribuio de Poisson ser usada como uma
aproximao da distribuio Binomial?
Por que isto pode ser til?

32. Um departamento de polcia recebe em mdia 5 solicitaes por hora. Qual a
probabilidade de receber 2 solicitaes numa hora selecionada aleatoriamente?

33. A experincia passada indica que um nmero mdio de 6 clientes por hora param
para colocar gasolina numa bomba.
a. Qual a probabilidade de 3 clientes pararem qualquer hora?
b. Qual a probabilidade de 3 clientes ou menos pararem em qualquer hora?
c. Qual o valor esperado, a mdia, e o desvio padro para esta distribuio?

33. A experincia passada mostra que 1% das lmpadas incandescentes produzidas
numa fbrica so defeituosas.
Encontre a probabilidade de mais que uma lmpada numa amostra aleatria de
30 lmpadas sejam defeituosas,
usando:
a. A distribuio Binomial e
b. A distribuio de Poisson.

34. Qual a probabilidade de obter trs nmeros primos em cinco jogadas de um
dado?
35. Jogando-se uma moeda honesta, qual a probabilidade de obter ao menos quatro
caras em cinco jogadas?

36. Suponha que voc comparea a um exame com 100 questes do tipo
verdadeiro-falso; voc nada sabe sobre o assunto do exame, e vai responder as
questes por adivinhao. Qual a chance de acertar ao menos 60 questes (use
aproximao)?

114

37. Quantas vezes devemos jogar uma moeda para que a probabilidade de
aparecerem ao menos duas caras seja superior a 1/2?

38. Suponha que 10% da populao seja de canhotos. Escolhidas trs pessoas
aleatoriamente, qual a probabilidade de ao menos uma ser canhota?

39. Qual a probabilidade de dois dos prximos trs presidentes do Brasil terem
nascido em um domingo?
40. Suponha que 2/5 da populao tenham sangue tipo 0+. Escolhidas
aleatoriamente seis pessoas, qual a probabilidade de quatro delas terem sangue 0+?

41. Suponha que 45% dos Almeida no mundo sejam mulheres. De trs Almeida
escolhidos aleatoriamente, qual a probabilidade de ao menos dois serem
mulheres?

42. Seja X uma varivel aleatria que representa o nmero de vezes que a palavra
platypus pronunciada em determinado dia. Supondo que X tenha distribuio de
Poisson com parmetro m= 1/2, quanto Pr(X> 1)?

43. Se X uma varivel aleatria de Poisson com parmetro m = 10, quanto Pr(1
X 3)?

44. Seja X uma varivel aleatria de Poisson com parmetro m=3, representando o
nmero de pessoas que usam um dicionrio em uma biblioteca em dado dia. Qual o
valor de P(X4)?

45. Suponha que o ndice pluviomtrico em uma cidade tenha distribuio normal
com mdia 40 e desvio-padro 5. Qual a probabilidade de a cidade ter menos de
33 polegadas de chuva no prximo ano? Qual a probabilidade de a cidade ter mais
de 38 polegadas de chuva?

46. Suponha que o escore de um estudante no vestibular seja uma varivel aleatria
selecionada de uma distribuio normal com mdia 550 e varincia 900. Se a
admisso em certa faculdade exige um escore de 575, qual a probabilidade de ser
admitido? E se o escore mnimo for 540?

47. Suponha que voc est medindo a velocidade da luz. Os resultados de suas
medidas so dados por uma varivel aleatria normal cuja mdia o verdadeiro
valor e cujo desvio-padro 5 x 109 centmetros por segundo. Qual a
probabilidade de a sua medida estar a menos de 2 x 109 centmetros por segundo do
verdadeiro valor?
Nos Exerccios 17 a 21, seja X uma varivel aleatria normal com parmetros m e
s2. Com auxlio da Tabela Normal, calcule:

115

48. Se m = 0 e s
2
= 100, quanto P(5 <X< 10)?
49. Se m = -3 e s
2
= 9, e P(X < a) = 0,6, quanto a?
50. Se m = 0 e P(X < 5) = 0,8, quanto s2?
51. Se m = 73 e s
2
= 81, quanto P(|X|> 100)?
52. Se m = 25 e s
2
= 100, quanto P(X = 25)?


53. Considere um conjunto de n=4 bezerros prestes a nascer. Supondo que a
probabilidade de nascer um bezerro macho seja p=1/2, calcule a probabilidade de se
ter 0, 1, 2, 3, ou 4 bezerros machos

54. Vamos supor que a taxa normal de gli cose no sangue humano seja
uma varivel aleatri a com distribuio normal de mdi a x

= 100 mg/dl de
sangue e desvio padro s = 6 mg/dl de sangue. Calcule a probabi l idade
de um indi vduo com taxa normal de gl icose, apresentar:
a) taxa superior a 110mg/dl de sangue;
b) taxa inferior a 90 mg/dl de sangue;
c) taxa entre 90 e 110 mg/dl de sangue.

55. Supondo que o peso mdio de ovos de uma certa li nhagem de
gal inhas seja uma varivel de distribuio aproximadamente Normal com
mdia de 59 gramas e desvi o padro de 1 grama. Calcule a probabi l idade
de encontrar, em determinado lote de produo, ovos com peso:
a) inferior a 58 gramas;
b) superior a 61 gramas;
c) entre 58 e 60 gramas

56. Vamos supor que uma galinha da l inhagem Shaver 579 produza, em
um perodo de 72 semanas, 300 ovos em mdia, com desvio padro de 5
ovos, e que esta varivel (produo de ovos) apresente distribuio
aproximadamente Normal. Calcule a probabi li dade de uma gal inha dessa
linhagem produzi r, em 72 semanas, um nmero:
a) inferior a 290 ovos;
b) superior a 310 ovos;
c) entre 290 e 310 ovos.

57. Considere ninhadas de n = 3 filhotes de coelhos. Construir o espao amostral
considerando os nascimentos de fmeas e machos, utilizando um diagrama de
rvore e considerar os eventos nascer macho e nascer fmea como equiprovveis.
a) Sendo X a ocorrncia de fmeas, construa a distribuio de probabilidade de X;
b) Calcule as probabilidades dos seguintes eventos por meio da distribuio de
probabilidade construda:
i) nascimento de exatamente duas fmeas.
ii) nascimento de pelo menos um macho.
116

iii) nascimento de pelo menos duas fmeas.
iv) nascimento de no mximo uma fmea.
c) Suponha que voc faa uma amostragem de 500 ninhadas de 3 filhotes. Em
quantos, em mdia, voc espera encontrar com exatamente 1 fmea?

58. Considere nascimentos de n = 4 filhotes de coelhos de um determinada raa.
Nesta raa h um distrbio gentico e a probabilidade de nascer fmea 5=8. Sendo
X a ocorrncia de fmeas e utilizando a distribuio binomial obter:
a) a distribuio de probabilidade de X, ou seja, os valores e as probabilidades
associadas aos respectivos valores x;
b) a mdia e varincia da varivel aleatria X, com distribuio binomial;
c) o nmero esperado (mdio) de ninhadas em uma amostra de 1:000 ninhadas de
tamanho n = 4 para cada valor da varivel aleatria X.

59. Numa lmina verificou-se que existiam em mdia 4 bactrias/cm2. A lmina foi
subdividida em 600 quadrados de 1 cm
2
. Qual o modelo probabilstico adequado
para modelar a ocorrncia de bactrias por cm
2
, supondo que a distribuio espacial
segue um padro aleatrio? Em quantos dos 600 quadrados, em mdia, voc espera
encontrar no mximo 1 bactria? Qual a probabilidade de se encontrar mais de 2
bactrias por centmetro quadrado? Qual a probabilidade de no encontrar
bactrias em um quadrado tomado aleatoriamente destes 600 quadrados?

60. Um pesquisador da rea de zootecnia conseguiu uma srie de dados dos
ltimos 120 anos com o registro do nmero de uma doena rara em equinos da
localidade em que trabalhava. Os dados obtidos foram:

Nmero de doenas (x) 0 1 2 3 4 5
Nmero de anos (Fi) 55 40 17 5 2 1

a) Estime o nmero mdio de doenas /ano;
b) Calcule para cada valor da varivel aleatria X, as probabilidades associadas.
Suponha que X possua distribuio de Poisson e que a mdia amostral o
estimador do parmetro da distribuio Poisson;
c) Calcule a frequncia esperada (em anos) para cada valor da varivel aleatria X;
d) Compare os resultados esperados com os observados. Com base nesta
comparao, voc pode afirmar que a distribuio de Poisson adequada para
explicar a ocorrncia desta doena na regio de estudo? Justifique.

61. Uma plantao de tomate possui em mdia 2 galhas de M. incgnita por planta.
Qual a probabilidade de que uma planta amostrada desta populao no possua
galha? Suponha que o modelo Poisson apropriado para modelar a ocorrncia de
galhas de nematide. Qual a probabilidade de que em uma amostra de tamanho n
= 5 plantas, as 5 no apresentem galhas?

117

62. Suponha que o tempo necessrio para atendimento de clientes em uma central
de atendimento telefnico siga uma distribuio normal de mdia de 8 minutos e
desvio padro de 2 minutos.
a)Qual a probabilidade de que um atendimento dure menos de 5 minutos?
b)E mais do que 9,5 minutos?
c)E entre 7 e 10 minutos?
d)75% das chamadas telefnicas requerem pelo menos quanto tempo de
atendimento?

63. A distribuio dos pesos de coelhos criados numa granja pode muito bem ser
representada por uma distribuio Normal, com mdia 5 kg e desvio padro 0,9 kg.
Um abatedouro comprar 5000 coelhos e pretende classific-los de acordo com o
peso do seguinte modo: 15% dos mais leves como pequenos, os 50% seguintes
como mdios, os 20% seguintes como grandes e os 15% mais pesados como extras.
Quais os limites de peso para cada classificao?
64. Os resultados de um exame nacional para estudantes recm-formados
apresentarem uma mdia m = 500 com o desvio padro s = 100. Os resultados tm
uma distribuio aproximadamente normal. Qual a probabilidade de que o grau de
um indivduo escolhido aleatoriamente esteja:
a) entre 500 e 650?
b) entre 450 e 600?
c) inferior a 300?
d) superior a 650?

65. O nmero de pessoas que almoam num restaurante suburbano
aproximadamente normal com mdia de 250 e desvio padro de 20 pessoas, por dia.
Determine a probabilidade de que, em um dia qualquer, sejam atendidas:
(a) menos de 200 pessoas
(b) entre 225 e 275 pessoas

66. A vida mdia dos habitantes de um pas de 68 anos, com uma varincia de 25
anos. Faz-se um estudo em uma pequena cidade de 10.000 habitantes:
a)Quantas pessoas superam os 75 anos?
b)Quantos vivero menos de 60 anos?

67. Os balancetes semanais realizados em uma empresa mostraram que o lucro
realizado distribui-se normalmente com mdia US$ 48.000 e desvio padro US$
8.000. Qual a probabilidade de que na prxima semana o lucro esteja entre US$
40.000 e US$ 45.000?

68. O Departamento de Marketing de uma empresa resolve premiar 4% dos seus
vendedores mais eficientes. Um levantamento das vendas individuais por semana
mostrou que elas se distribuam normalmente com mdia R$240.000,00 e desvio
118

padro R$30.000,00. Qual o volume mnimo de vendas que um vendedor deve
realizar para ser premiado?

69. O consumo mdio anual de cerveja dos habitantes de um pas de 59 litros,
com uma varincia de 36 litros. Supe-se que se distribui segundo uma distribuio
normal.
a) Se voc presume ser um bom bebedor, quantos litros de cerveja teria que beber
ao ano para pertencer aos 5% da populao que mais bebe?
b) Se voc bebe 45 litros de cerveja o que poderia argumentar em sua defesa para
no ser considerado um beberro?
c) Quantos litros bebem os 15% da populao que mais bebem?

70. Trace uma curva normal e sombreie a rea desejada obtendo ento a
informao.
a) rea direita de Z = 1
b) rea esquerda de Z = 1
c) rea entre Z = 0 e Z = 1,5
d) rea entre Z = -0,56 e Z = -0,2
e) rea entre Z = 0,5 e Z = 0,5
f) rea entre Z = 0 e Z = -2,5




















119

13 ESTIMAO ESTATSTICA

Objetivos

1. Computar um intervalo de confiana a partir de um conjunto de dados para
(a) a mdia de uma populao; (b) a diferena entre a mdia de duas
populaes.
2. Descrever trs modos de estreitar o intervalo de confiana.
3. Listar os prs e os contras na realizao de um experimento emparelhado.
4. Determinar o tamanho da amostra.

O propsito da estatstica inferncia! tirar concluses a partir de dados de
amostras baseadas na probabilidade de ocorrncia de certo tipo de fenmeno. A partir
dessas informaes, possvel decidir se um fato observado verdadeiro ou provocado
pela variao ao acaso. Existem duas grandes reas da inferncia estatstica: a
estimao de parmetros e o teste, de hiptese. O parmetro desconhecido de uma
populao , geralmente, estimado a partir de dados obtidos de amostras.
Tanto na estimao de parmetros como no teste de hiptese so avaliadas
caractersticas de uma populao ou de populaes diferentes. As duas abordagens
podem ser atingidas de diferentes modos: (1) pela estimao das diferenas nas mdias
entre um grupo experimental e um grupo controle e (2) pela estimao de diferenas nas
mdias de um grupo antes e depois de um tratamento.
No primeiro caso so examinadas duas amostras aleatrias de duas diferentes
populaes; no segundo, com duas amostras obtidas do mesmo grupo antes e depois de
um tratamento. Alm disso, no primeiro caso, as observaes so independentes; no
segundo, as observaes so dependentes pois foram obtidas a partir da mesma
populao mas em momentos diferentes.

13.1. Estimao de parametros populacionais

Denomina-se estimao ao procedimento de obteno de um valor amostral
para substituir o respectivo parmetro. O valor numrico obtido e uma estimativa do
parmetro.
120

A estimao de um parmetro populacional (a mdia, a varincia, o desvio
padro, etc) realizada a partir de uma estatstica (calculada com base em valores
observados de amostras) de modo a indicar o valor mais prximo do valor verdadeiro. O
valor numrico obtido de amostras uma estimativa do valor numrico do parmetro
populacional.
Existem dois tipos de estimao de parmetros de emprego comum na
estatstica:
1. Estimao por ponto. um valor numrico obtido de computaes sobre os
dados da amostra usado para estimar o parmetro populacional
correspondente. Por exemplo, a mdia da amostra x uma estimativa por
ponto da mdia da populao
2. Estimao por intervalo. um intervalo de valores numricos possveis
obtidos de computaes sobre os dados da amostra que se espera contenha
o valor do parmetro populacional, no seu interior. Tais estimativas por
intervalo so chamadas de intervalo de confiana.

13.2. Intervalo de confiana para a mdia populacional

O objetivo dos intervalos de confiana o de se fazer uma estimativa de um
parmetro populacional. A mdia x calculada da amostra, apenas uma estimativa da
mdia "verdadeira" da populao. A mdia verdadeira um parmetro que na grande
maioria das vezes nunca determinado com absoluta certeza. Entretanto, a partir do
conhecimento da distribuio terica de z e t pode-se estimar um intervalo ao redor de x
que deve conter a verdadeira mdia populacional .
O intervalo de confiana delimitado por dois limites numricos (limites
fiduciais), entre os quais se situa o verdadeiro valor do parmetro, com um nvel de
confiana especificado, em geral, fixado em 95%.
Denomina-se estimador uma grandeza, baseada em observaes de uma
amostra, utilizada como indicador do valor do parmetro populacional desconhecido.



121

13.2.1. Intervalo de confiana para a mdia populacional () com o desvio
padro () conhecido
O intervalo de confiana associado a um determinado nvel de confiana (NC),
para a media populacional, quando o desvio padro, . conhecido, calculado pela
frmula:
IC

para

n

O intervalo de confiana de 95% para j
i
, dado por:
IC
%
para X

1,96

n

H 95% de chance de estar entre: X

1,96 / n. e . / 96 , 1 n x +
O valor 1,96 foi obtido a partir da Tabela do Anexo C para 95% (47,5% de cada
lado da curva, a partir do centro). No entanto, existe 5% de chance que o intervalo no
contenha a mdia da populao. H 2.5% de chances que o verdadeiro situe-se
acima de Z = 1,96 (ou abaixo de Z = -1,96).
Para um intervalo de confiana de 99% emprega-se a frmula:
IC
%
para X

2,58

n

O valor 2,58 foi obtido a partir da Tabela do Anexo C para 99,% (49.5% de cada
lado da curva, a partir do centro).

13.2.2. Intervalo de confiana para a mdia populacional () com o desvio
padro () desconhecido.
As equaes anteriores para o clculo do intervalo de confiana so pouco
usadas pois dependem do conhecimento do verdadeiro valor de , geralmente
desconhecido. J foi estabelecido que pode ser estimado a partir de s, o desvio padro
da amostra. possvel empregar um intervalo de confiana (1- ) 100% para a mdia da
populao que um intervalo construdo a partir de dados amostrais onde existe a
probabilidade 1 - de conter a mdia da populao. Para construir o intervalo, e utilizada
a distribuio t (com n - 1, graus de liberdade) em lugar do valor Z. Desse modo,
possvel obter o intervalo de confiana para pequenas amostras quando somente s (e
no ) conhecido:
Intervalo de confiana de (l - ) 100% para X


122

onde t s./n a margem de erro para o intervalo de confiana e uma medida
do erro da amostra. O valor crtico de t dado na tabela do Anexo E.
Em geral, utilizado (1 - 0,05) 100% = 95%. Nesses casos, afirma-se. com uma
confiana de 95%, que a mdia verdadeira est no intervalo:
IC
%
para X

t
,

s
n

No se diz que tem uma probabilidade de 0,95 de encontrar-se entre os limites
estimados. Sendo um valor fixo, no tem probabilidade; est ou no est no intervalo
estimado.
Para um nvel de confiana de 99%, o intervalo ser:
IC
%
para X

t
,

s
n

Este intervalo mais amplo, sendo a confiana de 99% d que a mdia
verdadeira se encontra entre os limites calculados.

Exemplo 11.1

Dada a amostra de observaes da determinao de glicose X: 90, 86, 78, 90,
98, 90, 82, 76 e 84 mg/dL. Determinar o intervalo de confiana (IC) de 95% para a mdia
populacional.

Especificaes

n = 9
x = 86 mg/dL
s = 6.85 mg/dL
Valor de t obtido para 8 graus de liberdade (n - 1 ) e nvel de confiana de 95% e
t.
0,05(8)
= 2,306

Clculos:

IC
%
para 86 2,306
6,85
9
86 5.26 80,7 a 91,26 mg/dL
123

A mdia verdadeira est compreendida entre os limites 80,7 e 91,26, com uma
confiana de 95%. Em outras palavras, h 95% de confiana de que o valor mdio da
populao, da qual provm a amostra, est dentro desses limites.

13.3. Duas amostras independentes
Em muitos estudos biomdicos, as unidades experimentais (pacientes, animais
etc) que devem receber tratamentos so repartidos por sorteio em duas amostras
independentes, denominadas grupo experimental e grupo controle. Muitas vezes, esses
grupos so identificados como tratamento A para o grupo experimental e tratamento B
para o grupo controle. Tratamento em estatstica, representa qualquer procedimento
aplicado em reagente, cujos resultados so medidos e comparados. Diferentes pocas
de semeadura de feijo, diferentes dietas para pacientes obesos etc., constituem
tratamentos. Dois mtodos para a determinao de colesterol no sangue, so
tratamentos diferentes. O chamado grupo controle, tambm tratamento. Assim,
pacientes com tratamento teraputico (grupo experimental) comparados com pacientes
sem tratamento (grupo controle), constituem dois tratamentos.
A diferena observada no comportamento de duas unidades experimentais com
tratamentos diferentes (grupo experimental e grupo controle), poder ser atribuda tanto a
uma diferena real devido aos efeitos dos tratamentos, como a uma variao intrnseca
das unidades experimentais.
Deve-se aceitar como norma o fato de duas unidades experimentais nunca
serem exatamente iguais, independentes da aplicao dos tratamentos diferenciais. Duas
parcelas de campo, mesmo prximas, variam em sua fertilidade; dois pacientes
apresentam diferenas, tais como, fatores genticos, sexo, idade, massa corprea,
hbitos alimentares, etc.
As diferenas intrnsecas entre os grupos experimentais tendem a mascarar o
efeito diferencial dos tratamentos. A verificao estatstica da diferena real entre os
tratamentos num experimento exige um nmero mnimo de repeties ou grupos
experimentais por tratamento.
A partir do teorema central do limite possvel demonstrar que X

e
normalmente distribudo com mdia de 1 - 2 e uma varincia igual a

/n

/n

A
sua raiz quadrada o erro padro da diferena entre duas mdias e descrita como:
124

EPx


A equao denota que as mdias so normalmente distribudas com suas
respectivas varincia de Enquanto a varincia da diferena a soma das duas varincias
individuais.
A equao para o clculo do escore Z
z
X


Em muitos casos, um dado fenmeno comparado em grupo tratado e um no
tratado. Como os experimentos e os controles so obtidos da mesma populao, lgico
supor que

, e, assim, possvel simplificar a equao anterior


z
X


A
2
raramente conhecida, mas pode ser estimada a partir da varincia obtida
dos dados de uma amostra. Esse procedimento desloca da distribuio normal para a
distribuio t de student. Nesses casos, geralmente so obtidos duas estimaes
diferentes de
2
- ou seja, s

e s

Se for seguro pressupor que essas duas varincias so


uma estimativa da varincia cm comum,
2
, pode-se obter uma estimativa combinada de

2
, s

, a partir da media ponderada das varincias amostrais:


S

1 S

1
n

2

Essa equao toma a soma dos quadrados de duas amostras diferentes e as
divide pela soma dos graus de liberdade. Esse procedimento fornece uma estimativa no
viciada de
2
.
Aps o clculo de s

, pode-se obter S0 (estimativa combinada do desvio


padro) pela extrao da raiz quadrada. O valor de s necessrio para calcular o
escore t:
t
X

1
n


1
n


125

Graus de liberdade = soma dos graus de liberdade de cada amostra isolada [(n
1

- 1) + (n
2
- 1)].

13.3.1. Intervalo de confiana para a diferena entre duas mdias
populacionais
Aps a estimao da diferena entre duas medias populacionais (
1
-
2
). o
passo lgico seguinte o estabelecimento de um intervalo de confiana ao redor da
diferena.
Intervalo de confiana para a estimao da diferena entre duas mdias com
1

e
2
conhecidos.
A equao a que segue:
IC
%
para

1,96


Intervalo de confiana para a estimao da diferena entre duas mdias com
2 1
desconhecidos
Emprega a seguinte equao:
IC de 1 100% para

t
1
n


1
n


Onde t o valor correspondente a l - , proporo da rea central para n
1
+ n
2
-2
graus de liberdades graus de liberdade.
Essas frmulas no fornecero resultados corretos a menos que os dados
tenham sido coletados de amostras aleatrias.

Exemplo 11.2

A medida do colesterol em 54 vegetarianos e em 51 no-vegetarianos
forneceram os seguintes resultados:

Vegetarianos
115 125 125 130 130 130 130 135 135 140
140 140 140 145 145 150 150 150 155 160
160 160 160 160 165 165 165 165 165 165
165 170 170 170 170 170 170 170 175 175
175 180 180 180 180 185 185 185 185 200
215 215 225 230
126



No - vegetarianos
105 110 115 125 125 130 135 145 245 150
150 160 165 165 165 170 170 170 170 170
175 175 175 180 180 180 180 185 185 190
190 190 190 195 200 200 200 200 200 205
210 210 210 210 215 220 230 230 240 240
245

Encontrar uma estimativa para
1
-
2
e calcular o intervalo de confiana de 99%
para a diferena entre as mdias populacionais.

Especificaes:
X

= 163,33 S
1
= 25.07
X

= 179,90 S
2
= 33.87
Valor de t obtido para (54 - 1) + (51 - 1) = 103 graus de liberdade e nvel de
confiana de 0,99 a partir de dados bicaudais t
0,005 (103)
=2,63.

Clculos:
a. Clculo da estimativa combina do desvio padro da populao:
S

1 S

1
n

n

2

( )( ) ( )
( ) 67 , 29 50
2 51 54
87 , 33 53 07 , 25
2
2
0
=
+
+
= S
b. Clculo do intervalo de confiana de 99% para as diferenas das mdias
populacionais:
|
|

\
|
+ =
2 1
0 005 , 0
2 1
2 1
1 1
) ( % 99
n n
s t x x para de IC
51
1
54
1
) 67 , 29 ( 63 , 2 57 , 16 + =
=16,57 + 15,24
=1,33 a 31,81
Desse modo, tem-se uma confiana de 99% que a diferena da mdia da
populao para o colesterol em vegetarianos versus no vegetarianos est situada entre
127

1,33 mg/dL e 31,81 mg/dL. Como os dois limites de confiana so positivos, o intervalo
no inclui o valor zero. Os resultados significam que qualquer que seja a diferena
verdadeira, os no vegetarianos quase certamente tm o colesterol mais elevado que os
vegetarianos. Para a comprovao desse fenmeno necessrio empregar o teste t.
Se mais amostras fossem obtidas a partir das mesmas populaes do exemplo
anterior, seriam encontradas diferentes mdias, diferentes desvios padro e,
consequentemente, diferentes intervalos de confiana.
Intervalos de confiana estreitos so de grande valor na realizao de
estimativas, pois permitem estimar um parmetro desconhecido com erro menor. Como o
observado para intervalo de confiana para uma mdia populacional, X

Z / n, as
quantidades que afetam os valores do intervalo so o tamanho da amostra, o valor Z e o
desvio padro. O intervalo de confiana pode ser estreitado por:
1. Aumento no tamanho da amostra.
2. Reduo do nvel de confiana (por exemplo, em lugar de usar Z = 2.58 para
uma confiana de 99%, usar Z = 1,96 para 95% de confiana).
3. Melhorando a preciso pela reduo dos erros nas mensuraes (ou outros
erros no-aleatrios) produzindo assim uma varincia menor.

13.4. Teste t emparelhado
Amostras emparelhadas (ou pareadas) so dados referentes a um mesmo
conjunto de indivduos, tomadas em duas situaes diferentes. Em muitos estudos, o
grupo tratado usado como o seu prprio controle. Essa tcnica gera comparaes
apropriadas pois eliminam-se eventuais fontes de variao de dados, j que os
resultados do experimento provm dos mesmos indivduos. Com a reduo da
variabilidade, o valor do erro padro ser menor, produzindo um intervalo de confiana
mais estreito. No entanto, existem alguns contras. Primeiro, sacrificada a
independncia das amostras onde os mesmos itens so medidos. Segundo, fica-se com
a metade dos graus de liberdade que se obteria usando duas amostras independentes.
Com um nmero menor de graus de liberdade, o valor de t ser maior e.
consequentemente, o intervalo de confiana ser mais amplo. A expresso para o clculo
do teste t emparelhado
IC
%
para d

t
,

S

n

onde:
128

= diferena
d = mdia das diferenas emparelhadas
s
d
= desvio padro das diferenas

Exemplo 11.3
Para determinar o intervalo de confiana da diferena de resultados pareados da
medida de glicose no plasma e no soro foi usada uma amostra de 10 indivduos normais.
Os resultados apresentados na tabela abaixo so em mg/dL. Qual o intervalo de
confiana da diferena na avaliao de glicose no plasma e no soro para um nvel de
confiana de 95%'?

n Plasma (x
1
) Soro (x
2
) ( d = x
1
x
2
) d
2

1 96 94 2 4
2 81 79 2 4
3 100 97 3 9
4 92 92 0 0
5 103 100 3 9
6 85 86 -1 1
7 94 93 1 1
8 97 93 4 16
9 104 103 1 1
10 90 88 2 4
Totais 17 49

Especificaes:
n = 10 (nmero de pares)
GL = 9(10- 1, nmeros de pares-1 )
Nvel de confiana = 95%
Valor critico de t para o teste bicaudal t
0
,
05(9)
= 2, 262
d

= 17/10 = 1,7 mg/dL (mdia das emparelhadas) uma estimativa de (delta)


a mdia das diferenas populacionais.
d
i
= 17
d
i
2
= 49

Clculos:
a. Clculo de Sd (desvio padro das diferenas) que uma estimativa de o desvio
padro das diferenas populacionais:
129

S

49
17

10
10 1
1,49
b. Clculo do intervalo de confiana de 95% para :
IC
%
para d

t
,

S

n

1,7 2,62
1,57
25
1,7 0,71 0,99 2,41
A estimativa amostral de d

= 1,7 mg/dL e indica a diferena entre a medida


da glicose no plasma e no soro. Os resultados sugerem que essa diferena no menor
que 0,99 mg/dL nem maior que 2,41 mg/dL para um nvel de confiana de 95%.

13.5. Determinao do tamanho da amostra
A determinao do nmero de observaes de uma amostra, isto . O nmero
de repeties a usar numa investigao, deve ser realizada antes do incio da clera de
dados. Uma investigao com poucas observaes pode falhar na descoberta de uma
diferena importante, um experimento desnecessariamente grande representa um
desperdcio de tempo e de material. O valor n obtido a partir da equao:
n
Z
d



Onde.
Z = valor de Z (ex.: 1,96 para um nvel de confiana de 95%).
d = X

- (diferena considerada significativa no estudo a ser realizado),

2
varincia estimada
A frmula requer o conhecimento da varincia a
2
no entanto esse valor, em
geral, desconhecido. Sendo assim, a
2
deve ser estimada. A estimao da
2
pode
ser realizada de dois modos diferentes:
1. A partir de uma amostra piloto ou preliminar obtida da populao. A varincia
calculada a partir dessa amostra pode ser empregada como uma estimativa
de
2
..
2. estimativa da
2
pode estar disponvel a partir de estudos prvios ou
similares.

Vocabulrio
130


Duas amostras independentes Estimativa por intervalo
Erro padro da diferena Estimativa por ponto
Erro padro da mdia Intervalo de confiana
Estimativa combinada da varincia Teste t emparelhado

Exerccios

11.1 A medida da hemoglobina em homens adultos normais 15 g/dL com desvio padro
d = 2 g/dL. Para um grupo de 25 homens com certo tipo de ocupao foi encontrada
hemoglobina de 16 g/dL.
A. Obter um intervalo de confiana de 95% para e interpretar.
B. Calcular intervalos de confiana para os seguintes tamanhos amostrais: 36,
49 e 64.
C. Com o aumento do tamanho das amostras, os intervalos de confiana
estreitam-se ou ampliam-se?

11.2. Calcular o intervalo de confiana de 99% para a u1 - 2 entre homens e mulheres.
Especificaes: 38 Homens, X

= 74.9 e S

= 144, e 45 mulheres, X

2 : =71,8 e 55 = 121.

11.3, O teor de colesterol srico de 25 homens com idades entre 65-74 c 236, com s
1
=
50. Para 25 mulheres da mesma idade, a mdia 262, com s
2
= 49,
A. Qual o intervalo de confiana de 95% para a diferena nas mdias do
colesterol srico entre homens c mulheres?
B. Qual o intervalo de confiana de 99%








131























Exercicios diversos

1. O peso dos ovos de certa raa de galinha tem distribuio normal, com mdia de 65
gramas e desvio padro de 5 gramas. Considere uma caixa desses ovos como uma
AAS de tamanho 12 da populao de todos os ovos. Qual a probabilidade de que o
peso de uma embalagem caia entre 750 g e 825 g?.

2. Para avaliar a preciso de uma balana de laboratrio, pesa-se repetidas vezes um
objeto padro de peso conhecido igual a 10 gramas. As leituras da balana tm
distribuio normal com mdia desconhecida (essa mdia 10 gramas, se a balana
132

equilibrada). Sabe-se que o desvio padro das leituras 0,0002 grama. Pesa-se o objeto
5 vezes e o resultado mdio 10,0023 gramas. Estabelea um intervalo de 95% de
confiana para a mdia de repetidas pesagens do objeto. Quantas observaes ou
medidas devem entrar no clculo da mdia, a fim de que se obtenha uma margem de
0,0001 de erro com 95% de confiana?

3. Suponha que estejamos interessados em estimar a porcentagem de consumidores de
certo produto. Se a amostra de tamanho 300 forneceu 100 indivduos que consomem o
dado produto, determine: a) o intervalo de confiana de p, a proporo de pessoas que
consomem o produto, com coeficiente de 95% (interprete o resultado). b) o tamanho da
amostra para que o erro da estimativa no exceda a 2% com probabilidade de 95%
(interprete o resultado).

4. Numa pesquisa sobre a opinio dos moradores de duas cidades, A e B, com relao a
um determinado projeto, obteve-se a tabela abaixo. Utilize o Int. confiana para avaliar a
diferena entre os percentuais de favorveis nas duas cidades.
Cidade A B
Num entrevistados 400 600
Num. favorveis 180 350

5. Um estudo de sade envolve 1000 mortes selecionadas aleatoriamente, dentre as
quais 131 causadas por intoxicao alimentcia. a) com os dados amostrais, construa um
int. de confiana de 99% para a proporo de mortes causadas por intoxicao. b)
utilizando os dados amostrais como estudo piloto, determine o tamanho da amostra
necessrio para estimar a proporo de mortes por intoxicao em uma cidade. Admita
um nvel de confiana de 95%, em que o erro da estimativa no supere 0,01. c) Sabe-se
que a cidade tem cerca de 250.000 habitantes. Voc acha que esse dado poderia ser
utilizado para melhorar a estimativa do tamanho da amostra? Como?

6. Uma pesquisa de opinio visa a calcular a proporo de eleitores que iro votar no
candidato democrata em uma campanha presidencial americana. A pesquisa de votos
almeja ter 90% de confiana de uma previso correta, em uma margem de erro de 0,04
da proporo da populao.
(a) Que tamanho de amostra necessrio?
133

(b) Se a pesquisa de opinio visa a ter 95% de confiana, que tamanho de amostra
necessrio?
Se ela almeja ter 95% de confiana e um erro de amostragem de 0,03, que tamanho de
amostra necessrio?

7. Um teste de auditoria, para estabelecer com que freqncia ocorrem falhas no
processamento de determinado procedimento de controle interno, est para ser feito. O
auditor decide que a taxa mxima de erro tolervel permitida de 5%. (a) Que tamanho
de amostra necessrio para atingir uma preciso de amostra de 2%, com 99% de
confiana? (qual seria sua resposta em (a) se a taxa mxima tolervel de erro fosse
10%?

8. Uma agncia de propaganda, que atende a uma das principais estaes de rdio,
gostaria de calcular a quantidade mdia de tempo que a audincia gasta diariamente
ouvindo radio. A partir de estudos do passado, o desvio padro calculado em 45
minutos.
(a) Que tamanho de amostra necessrio se a agncia quiser ter 90% de confiana de
estar correta num intervalo de 5 minutos? (b) Se for desejado um nvel de 99% de
confiana, que tamanho de amostra necessrio?

9. Dentre 100 peixes capturados num certo lago, 18 no estavam apropriados para
consumo devido aos nveis de poluio do ambiente. Construa um intervalo de confiana
de 99% para a correspondente verdadeira proporo.

10. Em um estudo da utilizao da hipnose para aliviar a dor, obtiveram-se as taxas
sensoriais para 16 indivduos, com os resultados dados a seguir (com base em dados de
An Analysis of Factors That Contribute to the Efficacy of Hypnotic Analgesia, por Price e
Barber, Journai of Abnonnal Psvchologv, Vol. 96, No. 1). Com esses dados amostrais,
construa o intervalo de confiana de 95% para a taxa sensorial mdia da populao da
qual se extraiu a amostra.
8,8 6,6 8,4 6,5 8,4 7,0 9,0 10,3 8,7 11,3 8,1 5,2 6,3 8,7 6,2 7,9
Nota: considere o desvio padro 1,6.

134

11. Quantas residncias com TV a Nielsen deve pesquisar para estimar a percentagem
das que esto sintonizadas no programa J Soares Onze e Meia? Adote a margem de
95% de confiana em que sua percentagem amostral tenha uma margem de erro de dois
pontos percentuais.
Admita tambm que nada se sabe sobre a percentagem de residncias sintonizadas para
qualquer show de TV aps 11 horas da noite.

12. De uma distribuio normal com varincia 2,25, obteve-se a seguinte amostra:
27,5; 25,6; 28,2; 26,1 e 25,0
Determinar um intervalo de confiana para a mdia desta populao com confianas de:
(13.1) 95% (13.2) 99%

13. De uma populao normalmente distribuda foi extrada uma aas de n = 10 que
apresentou os valores abaixo:
4 8 12 5 7 9 10 11 6 8
(a) Determine uma estimativa da varincia populacional.
(b) Determine uma estimativa da mdia populacional e do correspondente erro amostral?
(c) Determine um intervalo de confiana de 95% para a mdia desta populao.

14. Um antroplogo considera que o ndice ceflico de ndios de certa tribo uma
varivel aleatria normal com desvio-padro de 3,4 cm.
(a) Baseado em uma amostra de 8 observaes: 85; 90; 89; 91; 87; 84; 92; 83, obtenha
um intervalo de confiana ao nvel de 96% de confiana para o ndice ceflico mdio.
(b) Qual o tamanho da amostra necessrio, para que ao estimarmos a mdia do ndice
ceflico, o erro cometido no seja superior a 0,1 cm com probabilidade de ao menos
95%?

15. A polcia rodoviria fez recentemente uma pesquisa sobre as velocidades
desenvolvidas na rodovia no perodo de 2 a 4 horas da madrugada. No perodo das
observaes 120 carros passaram por um aparelho de radar a uma velocidade mdia de
70 km/h com desvio-padro de 15 km/h.
(a) Suponha que Velocidade uma varivel aleatria com distribuio normal e construa
um intervalo de confiana em coeficiente de confiana de 98% para a velocidade mdia
(b) Qual o erro mximo associado ao intervalo calculado na parte (a)?
135

(c) A suposio da normalidade na parte (a) importante? Justifique.


























14. TESTES DE HIPTESES

Objetivos

136

1. 1 Descrever e explicar a execuo de um teste de hiptese.
2. Explicar o significado da hiptese nula e hiptese alternativa
3. Definir significncia e estatstica.
4. Explicar o significado do nvel de significncia,
5. Distinguir entre um teste caudal e bicaudal
6. Distinguir entre estatisticamente significante e cientificamente importante
7. Explicar o significado e a relao dos dois tipos de erro no teste de hiptese.
8 Explicar o significado do valor P.

14.1. Hiptese estatstica
A situao em que normalmente se encontra o investigador, a de caracterizar
a populao com base nas informaes obtidas a partir da amostra dessa populao. O
raciocnio se faz do particular para o gerai, chamando-se esse processo de inferncia
estatstica. Objetiva a estimao dos parmetros da populao, atravs de fatos
observados em amostras apropriadas.
Ainda que desconhecidas as caractersticas descritivas da populao, possvel
formular alguma hiptese sobre a mesma. Uma hiptese estatstica uma afirmao
qualquer sobre os parmetros (mdia, mediana, varincia, desvio padro ou coeficiente
de variao), de uma distribuio de probabilidades. Para ter valor cientfico, as hipteses
estatsticas precisam ser postas prova. O mecanismo de comprovao para verificar se
um pressuposto verdadeiro ou no, chamado de teste de hipteses.
As hipteses feitas pelos pesquisadores so transformadas, pelos estatsticos,
em hipteses estatsticas, para que possam ser submetidas aos testes. Nesse captulo,
as hipteses se referem as mdias das populaes.

Existem sempre duas hipteses em testes:
1. Hiptese de nulidade ou nula, H
0
(ag-zero). As mdias so iguais (H
0
: =
0

137

ou H
0
: -
0
= 0). Em outros termos, as duas mdias so extradas da
mesma populao;
2. Hiptese alternativa, H
A
(ag-a). As mdias so diferentes (H
A
:
0
ou H
A
:
-
0
0).Em outras palavras, as duas mdias no so extradas da mesma
populao.

14.2. Regra de deciso
As regras de deciso so critrios para a aceitao ou rejeio da hiptese de
nulidade a partir do resultado de um teste estatstico. A hiptese representada por H
0
: =

0
(hiptese de nulidade) estipula que a mdia de uma populao igual a uma
constante especificada
0
. Essa hiptese vai ser posta prova por meio de um teste
estatstico. Diante do resultado do teste, tira-se uma das duas concluses:
1. Aceitar a hiptese de nulidade, H
o
. Quando no houver evidncia suficiente
para duvidar de sua validade e concluir que =
o
. Ou seja, qualquer
diferena observada entre as mdias considerada como uma ocorrncia
casual e no representa uma real diferena entre as mdias populacionais.
2. Rejeitar a hiptese de nulidade, H
0
Quando houver evidencia suficiente para
duvidar de sua validade. Concluir que
o
;. Nesse caso, pode ser maior
ou maior ou menor do que
o
. A diferena obtida na comparao entre as
mdias grande demais para ser explicada apenas pelo erro amostral.

Quando se rejeita a hiptese h
0
, a diferena -
o
atribuda a uma real diferena
entre dois procedimentos em estudo. Quando a hiptese no rejeitada, a diferena
observada geralmente atribuda a uma variao de amostragem (variao ao acaso). A
demonstrao de uma diferena real satisfaz normalmente ao objetivo visado num
experimento. Uma diferena atribuda variao de amostragem considerada, em
geral, inconclusiva.

14.3. Erros de deciso
Uma vez formulada a hiptese e realizado o respectivo teste estatstico, a regra
de deciso est sujeita a dois tipos de erro:
1. Rejeitar a hiptese H
0
, sendo ela verdadeira; comete-se um erro do tipo I,
cuja probabilidade mxima de ocorrncia permitida representada por .
138

aceita como verdadeira uma diferena que no existe e que, na realidade, se
deve variabilidade das amostras. Os erros do tipo l ocorrem em funo de
pequenas amostras e muitas anlises - muitas variveis ou muitos subgrupos
sendo comparados entre si.
2. No rejeitar a hiptese H
0
, sendo ela falsa; comete-se um erro tipo II, cuja
probabilidade mxima de ocorrncia permitida representada por . Existe,
de fato, uma diferena que no foi reconhecida. Ocorrem devido a pequenas
amostras e de grande variabilidade das mesmas.
A hiptese meramente um postulado, certo ou falso. Se os fatos registrados na
amostra estipularem a aceitao da hiptese, sendo ela verdadeira, a deciso ser
correta. Igualmente, ser correta a deciso para rejeitar a hiptese, sendo ela falsa. Mas,
a rejeio de uma hiptese verdadeira ou a aceitao de uma hiptese falsa constituem
erro de deciso.

14.4. Probabilidade dos erros de deciso
As concluses baseadas em testes em amostras esto sempre acompanhadas
de incerteza. Somente h certeza quanto veracidade ou falsidade, de uma hiptese,
examinando-se toda a populao. Na impossibilidade prtica de estudar toda a
populao, a metodologia estatstica oferece a alternativa de medir o erro provvel de
uma deciso a partir de dados obtidos em amostras.
A especificao da probabilidade mxima de cometer erro tipo I (rejeitar a
hiptese H
0
sendo ela verdadeira) denominado nvel de significando sendo designado
por a. So frequentemente empregados 0,05 (5%) e 0,01 (1%) como valores para Uma
vez efetuado o teste estatstico, a diferena entre os grupos ( e
0
) pode ser:
1. Estatisticamente significante. quando a hiptese de nulidade , rejeitada
pois o valor calculado do teste a partir da amostra no compatvel com o
valor estabelecido. Nesses casos, a variao dos dados amostrais (ao acaso)
no a explicao provvel para o desvio entre o valor amostral e o
correspondente valor populacional estabelecido pela hiptese de nulidade.
Assim, o desvio X

, observado representa uma real diferena entre as


populaes e no apenas produto de erro amostral.
2. No estatisticamente significante. A hiptese de nulidade no rejeitada
quando o desvio entre o resultado amostral e o correspondente valor
populacional ocorre pela variao amostral. Isto indica que o desvio X

,
139

pode ser explicado pelo acaso e no representa uma real diferena.
Para decidir se uma diferena entre duas medias significante ou no,
necessrio um mtodo que teste as hipteses formuladas para um determinado nvel de
significncia estabelecido, nvel esse que representa a probabilidade com que a hiptese
de nulidade pode ser rejeitada com confiana, ou a probabilidade com que a hiptese
alternativa pode ser aceita com confiana. Por esses motivos, os testes de hipteses so
tambm chamados testes de significncia.
A tabela 12.1 resume a distino entre os tipos de erro I e II e as conseqncias
possveis de decises na realizao do testes de hiptese.

Tabela 12.1 Conseqncias de decises em teste de hipteses

Deciso
Realidade
Hiptese nula verdadeira (1 ) Hiptese nula falsa
Aceitao da H
0
Deciso correta (1 - ) Erro do tipo II (erro)
Rejeio da H
0
Erro do tipo I (erro .) Deciso correia (l )

Denomina-se poder do teste de hiptese o valor (1 - ), que a probabilidade de
rejeitar uma H
o
quando ela falsa e a hiptese verdadeira H
A
. Quando se aceita um
erro beta de 0,1, est-se aceitando uma chance de 10% de deixar de reconhecer uma
diferena que realmente existe. O poder detecta, assim, uma diferena real, ou seja, est
associado regio de rejeio de H
0
). De fato um estudo "poderoso'" se ele tem grande
probabilidade de detectar diferenas nos tratamentos que so realmente diferentes.
Desse modo, quanto menor o , menor o poder do teste de hiptese. No entanto, pode
existir o interesse em correr o menor risco possvel de cometer um erro tipo I garantindo
ao mesmo tempo um poder razovel ao teste de hiptese. Para contornar essa
dificuldade, o: fixado e o poder da prova tornado mximo pelo aumento do tamanho
da amostra.



14.5. Valor P
Aps a realizao de um experimento, a diferena entre os grupos testada
plos nveis de significncia clssicos, como exposto acima. E possvel tambm
determinar a probabilidade de ocorrncia do erro tipo I (a) aps a aplicao do teste
estatstico atravs do valor P (valor crtico amostral). O valor P - que varia de 0 a 1 -
140

representa o grau de compatibilidade existente entre os dados observados e a hiptese
nula. Dessa forma, quando P rejeita-se a hiptese de nulidade, convencionalmente
P 0,05. Quando P > 0,05 aceita-se a hiptese de nulidade. Quando P > 0,05 (ou
qualquer outro valor escolhido para ) e H
0
no rejeitada no prova que H
0
seja
correta. Isto indica somente que a probabilidade no suficientemente baixa para rejeit-
la.
O valor P e a esto intimamente relacionados. O valor P calculado a partir dos
dados obtidos em um estudo, enquanto o valor a escolhido previamente, baseado nas
conseqncias dos erros do tipo I e tipo II. O o limiar do valor P, abaixo do qual a
diferena encontrada considerada estatisticamente significante, ou seja, com pouca
chance de ser causada pela variabilidade das amostras.
Assim, em um teste estetstico com um nvel de significncia = 0,05, um valor
P = 0,021 representa que tem-se uma probabilidade igual a 2,1% de que observaes
como as encontradas sejam devidas ao acaso (variabilidade das amostras) e, portanto, a
diferena encontrada significante,
O valor P o resultado observado aps o trmino do estudo e baseado nos
resultados observados. calculado empregando-se programas estatsticos para
computador. Para alguns testes so apresentados os valores de P j calculados em
tabelas.
O resultado "no estatisticamente significante" (P ) no comprova a
veracidade da hiptese de nulidade. S permite afirmar que os resultados no
forneceram evidncias suficientes para pr em dvida a validade de H
0
isto , os
resultados so "inconclusivos" at que alguma outra evidncia seja obtida.

14.6. Significncia estatstica versus importncia cientfica
A expresso "estatisticamente significante" no deve ser entendida como
"cientificamente importante". Deve-se, isto sim, levar em considerao o tamanho da
diferena que est sendo avaliada. Por exemplo: Suponha que o medicamento A foi
testado em 100.000 indivduos e comprovou-se que o mesmo reduz efetivamente a
presso arterial de qualquer hipertenso de forma estatisticamente significante (ou seja,
diferente de zero) em 1,0 mm de Mg. Isto tem relevncia clnica j que foi
estatisticamente significante? A resposta e no, pois a reduo de 1,0 mm de Hg no
representa um efeito importante apesar de ser estatisticamente significante. Desse modo,
141

em grandes amostras, mesmo pequenas diferenas sero significativas estatisticamente,
mesmo que no sejam cientificamente importantes. O termo significante no sinnimo
de importante, mas est associado certeza da deciso estatstica.
Com amostras pequenas comum que ocorra o oposto. Muitas vezes, mesmo
existindo uma grande diferena entre os resultados de dois grupos, obtidos a partir de
uma amostra muito pequena (n<10), o teste pode no rejeitar a hiptese de nulidade. Ou
seja, os dados so to imprecisos que arriscado afirmar que a diferena se deva a
alguma causa, pois o erro amostral muito elevado.

14.7. Testes unicaudal e bicaudal
Ao rejeitar a hiptese de nulidade conclui-se que a
0
e, portanto, pode ser
maior ou menor do que o verdadeiro valor populacional
0
Nesse caso, os afastamentos
em ambas as direes so considerados e o teste bicaudal (ou bilateral). Em certas
situaes, porm, h interesse apenas no caso em que o efeito de um tratamento
experimental seja maior (ou menor) que o efeito de outro tratamento. Por exemplo, uma
nova droga interessaria apenas se sua ao for melhor que a do grupo controle. Nessa
situao, permissvel formular uma hiptese alternativa H
A
: >
0
, Isto , a ao da
nova droga maior que
0
da nova droga padro. Esse o teste unicaudal (ou
unilateral).Para testar a hiptese trabalha-se apenas com um lado da curva da
distribuio Terica da estatstica no leste . A zona de rejeio transferida para um
lado s da curva.
A escolha entre um teste unicaudal ou bicaudal deve ser realizada antes da
obteno dos dados amostrais, desse modo, a escolha no influenciada plos dados
coletados. O pesquisador deve definir se importante considerar a probabilidade geral de
ser diferente de
0
ou se deve considerar apenas a probabilidade de ser maior (ou
menor) que
0
.

Deciso
Teste unicaudal
Cauda esquerda Cauda direita bicaudal
No significante =
0
=
0
=
0

Significante <
0
>
0

0


Quando o teste de hiptese unicaudal o valor P obtido a partir de tabelas
estatsticas bicaudais cujos valores so, ento, divididos por 2.

14.8. Execuo do teste de hiptese
142

O teste de hiptese (teste de significncia) sempre se refere a uma hiptese de
nulidade. Para decidir por uma das hipteses - isto , para decidir se as mdias na
populao so, ou no so, estatisticamente significantes - o pesquisador submete os
dados de sua amostra a um teste de hipteses. A aplicao segue as seguintes etapas:

1. Formular a hiptese de nulidade e a hiptese alternativa. Dentre as duas
hipteses estatsticas envolvidas a hiptese nula a hiptese testada. A
hiptese deve ser formulada de modo a representar uma contradio ao
efeito procurado. Normalmente a hiptese de nulidade satisfaz essa
condio. Por exemplo, havendo interesse em demonstrar que
0
maior ou
menor que
0
(testes bicaudais), ento H
0
: =
0
representa uma
contradio. A rejeio da hiptese ensejar a deciso desejada, desde que
X

, a estimativa por ponto de , seja maior do que


0
. A hiptese alternativa,
isto , a que ser adotada no caso de rejeio de H
0
ser HA:
0
,
podendo ser maior ou menor do que
0
.
Para os testes unicaudais as hipteses so: H
0

0
e H
A
: >
0
; ou H
0
:
0

e H
A
: <
0
.

2. Especificar o nvel de significncia de . Isto , o padro estatstico
especificado para rejeitar a hiptese nula. Para nvel de significncia de 5%
(ou 1%), existe uma probabilidade de 0,05 (ou 0,01) de rejeitar a hiptese
nula sendo a mesma verdadeira (erro tipo I). Essa especificao (a = 0,05 ou
a = 0,01) deve ser parte integrante do planejamento do estudo. Em geral no
se especifica (3, a probabilidade do erro de deciso do tipo II; se a hiptese
formulada foi de nulidade ou de contradio, h sempre interesse em que a
mesma seja rejeitada pelo teste. Nesse caso, o que mais deve preocupar a
rejeio de uma hiptese verdadeira, isto , o erro de deciso do tipo I. Para
os testes bicaudais o nvel de significncia /2 em cada cauda.

3. Escolher o teste. O teste deve ser adequado ao material sob investigao os
tipos de varivel e seus nveis de medida. Dependendo das pressuposies e
da hiptese formulada, sempre na suposio de ser a hiptese verdadeira, o
teste a escolher ser um dos seguintes: teste z, teste t, teste F ou teste x
2
-.
As estatsticas z, t. F ou x
2
, so calculadas dos dados de observaes
143

colhidos no experimento.

4. Verificar a probabilidade. A probabilidade de ocorrncia aleatria da
estatstica calculada, deve ser verificada na respectiva tabela de distribuio
terica. Quando o valor observado da estatstica obtida pela aplicao do
teste for igual ou menor do que o valor crtico da tabela para o nvel de
significncia escolhido, a hiptese de nulidade ento, no rejeitada. Se os
valores estiverem localizados na zona de rejeio, maiores do que os
encontrados na tabela, a hiptese nula rejeitada e a hiptese alternativa
(H
A
) aceita.

5. Concluir. Elaborar a deciso em termos de material estudado, evitando
sempre que possvel o emprego de terminologia estatstica.

Vocabulrio

Erro tipo I Erro tipo II
Falso negativo falso positivo
Hiptese alternativa hiptese nula
Poder do teste Significncia estatstica
Teste bicaudal valor P

Exerccios

12.1. Para cada uma das questes abaixo, elaborar a hiptese nula (H
0
) e a hiptese
alternativa (H
A
):
A. A mdia de partculas suspensas no ar em determinada comunidade,
ultrapassou 30 unidades por metro cbico em outubro?
B. A rea mdia transversal do lmem das artrias coronrias em homens entre
40-59 anos menor que 31,5% da rea total transversal?
C. O nvel mdio de hemoglobina de um grupo de trabalhadores de altas
altitudes diferente de 16 g/dL?

144

15 TESTES PARA A COMPARAO ENTRE DUAS MDIAS

Objetivos

1. Determinar quando usar o teste z e quando usar o teste t.
2. Determinar se a diferena entre duas mdias estatisticamente significante
tanto para mdias de amostras dependentes como independentes.
3. Listar os prs e os contras da realizao de um experimento antes e depois.
4. Determinar o tamanho da amostra necessria para uma varivel a um
deter4minado nvel de exatido.

15.1. Fundamento dos testes de significncia
Em um teste de significncia, inicia-se com um valor suposto (hipottico) de um
parmetro da populao (por exemplo, a mdia, .). Depois de coletar uma amostra
aleatria, compara-se a estatstica da amostra, tal como a mdia amostral, com o
parmetro suposto (mdia populacional hipottica, ). Ento, aceita-se ou rejeita-se o
valor hipottico como sendo correto. O valor hipottico rejeitado somente se o resultado
da amostra for claramente improvvel de ocorrer quando a hiptese for verdadeira.
A distribuio normal de probabilidades pode ser utilizada para testar um valor
hipottico da mdia da populao (a) quando n 30, devido ao teorema do limite central,
ou (b) quando n < 30, no caso de a populao ser normalmente distribuda e o ser
conhecido.
Em lugar de estabelecer valores crticos em termos da mdia da amostra como
tal, os valores crticos nos testes de hiptese so tipicamente especificados em termos de
valores Z. Por exemplo, para um nvel de significncia a = 0,05 (5%) os valores crticos
de Z para um teste bicaudal so + 1,96. Quando o valor da mdia da amostra estiver
determinado, ele ser transformado para um valor de Z, de modo a poder ser comparado
com os valores crticos de Z (v. adiante).
Para variveis com distribuio normal de probabilidades so considerados no-
significantes os desvios representados por valores ao redor da mdia populacional
(aceitao da hiptese de nulidade). Para um nvel de significncia de = 0,05 o intervalo
de desvios no-significantes corresponde a 95% das diferenas amostrais e. em
conseqncia, 5% no mximo corresponde a regio de significncia (rejeio da hiptese
145

de nulidade). Essas reas so definidas pelo valor de Z 1,96 unidades de desvios
padro contados a partir de zero. Para determinar a porcentagem da freqncia total
associada aos 1,96 unidades de desvios padro examina-se a tabela de distribuio
normal padronizada (anexo C). Em testes bicaudais, o valor 1,96 unidades de desvios
padro em ambas as direes demarcam 2,5% das diferenas mdias amostrais (50% -
47,5% = 2,5%). Ou seja, 95% das diferenas amostrais caem entre -1,96 e +1,96
unidades de desvios padro contados a partir das mdia (zero); somente 5% situam-se
alm de 1.96 (regio de rejeio) (1,96)(2,5% + 2,5% = 5%).
Os nveis de significncia podem ser estabelecidos para qualquer grau de
probabilidade. Os valores crticos de z mais usados em testes de hiptese bicaudais
so:

Nvel de significncia
Z (numero de unidade de desvios padro a
partir da mdia)
0,050 (5%) 1,96
0,025 (2,5%) 2,24
0,010 (1%) 2,58
0,005 (0,5%) 2,81
0,001 (0,1%) 3,29

Por exemplo, a adoo do nvel de significncia a = 0,05 implica em rejeitar a
hiptese de nulidade somente no caso de haver 5 possibilidades em 100 de que a
diferena amostral encontrada deve-se apenas ao do acaso (erro de amostragem).
Um desvio ser significante se estiver a uma distncia inferior ou superior ao nmero de
desvios padro em relao mdia.

15.2. Teste do valor da mdia
A partir da distribuio de probabilidade da varivel na amostra l e da
distribuio de probabilidade correspondente na amostra 2 possvel se calcular a
distribuio de probabilidade da diferena entre mdias das duas amostras.

146


Para sries de nmeros extrados de distribuies normais, a frmula geral a
para o teste estatstico aplicvel para testar a hiptese de que a mdia igual a um
valor particular
0
( H
0
: =
0
):
Estatstica do teste =
Media amostral mdia alegada
Desvio padro da mdia

15.3.Comparao entre a mdia de uma amostra e a mdia da populao (
2

conhecido)

possvel solucionar problemas relativos significncia de uma diferena entre
uma mdia amostral e uma mdia populacional. Se as mdias x de amostras aleatrias
de tamanho n so variveis aleatrias com distribuio normal de mdia, , e desvio
padro, n / , possvel encontrar a rea sob a curva da distribuio normal
padronizada aps calcular o escore Z para as mdias amostrais. A equao para Z :
n
x
Z
/

=
Onde
x = mdia calculada a partir de uma amostra da populao
= mdia das mdias ( que corresponde verdadeira mdia populacional)
n / = erro padro da mdia (estimativa do desvio padro da distribuio amostral de
mdias.

147

A partir dessa frmula possvel transformar a mdia da amostra para um valor
Z, de modo da poder ser comparado com os valores crticos de Z. Os valores crticos de
Z so encontrados na tabela da distribuio normal padronizada (anexo C).

Exerccio 13.1

A idade mdia de uma populao = 53 anos com desvio padro
=5,5. Uma amostra aleatria de n = 100, apresentou mdia x =54,86 anos. As
duas mdias so iguais para um nvel de significncia = 0,05?

Especificaes:
H
0
=53 versus H
A
: 53
Nvel de significncia = 0,05

Teste estatstico:
Z
X1


/n

54,85 53
5,5/100

1,85
0,55
3,36

15.4. Regio crtica:

A partir da distribuio Z (tabela do Anexo C) encontrado para um teste
bicaudal ( /2 = 0,025) o valor Z = 1,96:
Como o valor calculado Z = 3,36 cai dentro da regio crtica (alm dos valores
crticos + 1,96), rejeita-se a hiptese nula, ou seja, que a amostra proveniente da
populao com mdia de 53 anos e, portanto, aceita-se a hiptese alternativa que a
amostra proveniente de uma populao com mdia diferente de 53 anos.
Esse resultado considerado "significaste ao nvel = 0,05" pois a probabilidade
de sua ocorrncia ao acaso menor que 0,05.
A partir do resultado do teste estatstico pode-se afirmar que a probabilidade de
obter uma mdia amostral de 54,85 ou maior em qualquer direo (acima ou abaixo de
= 53) menor que 0,002. Esse valor designado P e obtido pela soma da rea alm
de Z = + 3,36 que no mximo 2 (0,5 - 0,4990) = 2 (0,001) = 0,002. (como o valor 3,36
148

no aparece na tabela C, emprega-se a rea 0,4990 correspondente a 3,09, o maior valor
da tabela.
O valor P de 0,002 indica que a probabilidade de selecionar ao acaso uma
mdia > 3,36 erros padro acima ou abaixo da mdia da populao (. = 53) muito
pequena, isto e, menor que 0,002.
No exemplo acima, nota-se que o teste est baseado no quanto a mdia da
amostra se ajusta na estimao do parmetro ( Se H
0
, e verdadeira, pode-se esperar
que a diferena X

- seja pequena. Se a H
A
verdadeira, espera-se que X

- , seja
grande. Pela comparao da diferena X

- . relativa ao erro padro - computado no teste


estatstico - pode-se estimar a probabilidade que esse teste fornece evidncias contra a
suposio realizada pela H
0
. Pelo exame de onde o teste estatstico cai na distribuio
amostral do Z ou t calculado, possvel obter a probabilidade do desfecho e confirmar H
0
,
ou H
A
. Essa probabilidade medida pelo valor P. Para P pequeno, as evidncias so
fortes que H
0
falsa, enquanto P elevados a evidncia vigorosa na falsidade de H
A
.
Especificamente, decide-se que o resultado estatisticamente significante quando o valor
P menor que o valor do nvel de significncia o escolhido para definir a regio critica.

15.5. Teste t
O teste t um teste de significncia estatstica empregado na anlise para a
comparao de duas mdias amostrais (frequentemente grupos tratamento e controle) ou
da diferena da mdia de uma amostra em relao a um parmetro especificado, X

- .
evidente que, quanto maior essa diferena, maior ser o valor calculado de t. Esse (este
permite estabelecer se a diferena entre as mdias tem significncia estatstica). A
equao j descrita no captulo 10 :
t
X

s/n

Quando um resultado do clculo apresenta uma diferena com significncia
estatstica conclui-se pela rejeio da mdia X

(t cai na regio de rejeio), por no


pertencer populao de mdias com parmetro . Essa concluso, em geral como
qualquer concluso estatstica, est acompanhada de risco. A probabilidade do erro de
deciso da ordem de 0,05 ou 0,01. Deve ser lembrado que amostras invulgares, com
desvios significantes, podem ocorrer por pura obra do acaso.
149

Os requisitos para o uso do teste t como teste de significncia dados a seguir
devem ser observados para evitar confuses e falsas concluses:
1. Possibilita a comparao entre duas mdias de amostras (aleatrias)
independentes ou a comparao entre mdias de dois conjuntos de dados
relativos a mesma amostra, porm obtidos em momentos distintos. Ex.:
drogas x placebos, casos x controles etc.
2. As variveis devem pertencer ao nvel de mensurao intervalar ou de razo.
3. Amostras devem ser aleatrias (casuais).
4. O emprego do teste t em amostras pequenas pressupe que a varivel
observacional apresente distribuio normal na populao.
A tabela do Anexo D apresenta os valores de t que delimitam as reas nos dois
extremos da curva de distribuio, para distintos valores de graus de liberdade. As duas
reas nos dois extremos so chamadas regies crticas ou regies de rejeio
A figura 13.1 ilustra a distribuio terica de t para 9 graus de liberdade. Os
valores de t, esto representados na abscissa. A rea sombreada em ambos os lados da
curva, correspondem a valores de t > 2,262. direita, e valores de t < -2.262. esquerda.
Em ambos os casos a freqncia relativa de 0,025 ou 2,5% da freqncia total.
Quando se despreza o sinal (positivo ou negativo) de t e se considera o seu
valor absoluto, diz-se que valores de t maiores que 2.262 esto na regio de rejeio
0,05, dada pela soma das freqncias relativas (0,025 + 0,025) dos dois extremos da
curva. Pelo mesmo critrio, valores de - 2.262 t < 2,262, no esto situados na regio
de rejeio. Esses tm uma freqncia relativa de 0,95 ou 95%, enquanto que os
situados na regio de rejeio tem uma freqncia relativa de 0.05 ou 5%. Um valor
calculado de t, quando se situa na regio de rejeio 5%, dito significante. Um t que
no se situa numa regio de rejeio chamado no significante.
O t terico representado simbolicamente por t (GL) em que , (alfa) a
freqncia relativa da regio de rejeio delimitada pelo valor de t, e, GL os graus de
liberdade da distribuio.

150


Figura 13.1. Curva de distribuio de t.

15.6. Comparao entre a mdia de uma amostra ea mdia da populao

Em certos trabalhos de pesquisa, a experincia adquirida com um material em
um procedimento quaisquer, permite estabelecer um valor padro para a mdia.
Suponha-se agora uma amostra de observaes obtida com o mesmo material, mas
tratado com um procedimento novo. A mdia X

das observaes x
i
dessa amostra
apresentar, por certo, um desvio em relao ao padro pr-estabelecido. Nessas
condies, h interesse em verificar se o desvio observado X

-
0
representa uma
diferena real, atribuvel a modificao do procedimento, ou se nada mais do que o
resultado de uma variao de amostragem. No caso de diferena real o desvio X

-
o
ter
significando, estatstica caso contrrio, o desvio ser atribudo variao da
amostragem.
Quando se dispe da mdia X

, de n observaes de uma amostra, e o valor


padro pr-estabelecido
o
o teste do desvio X

-
o
, dado por:
t
X

s/n

A diferena entre o novo procedimento e o procedimento padro ter
significncia estatstica aos nveis de probabilidade 0.05 ou 0.01. quando t calculado for
maior que os valores tericos dados na tabela, para t0,005 (n-1) respectivamente. O erro
de concluso ser de 0,05 (ou uma vez em 20 investigaes similares) ou 0,01 (1/100).
151

Hipteses bicaudais com referncia mdia. Empregam-se a hiptese nula e a
hiptese alternativa para realizar a comparao entre a mdia da populao (.) e um
determinado valor especfico (
0
).
H
0
: =
0

H
0
:
0

Para teste tem-se: se|t| t
GL
, a H
0
rejeitada.

Exemplo 13.2

Dada a amostra de observao da determinao de glicose X: 90. 86, 78,90, 82
mg/dL. Determinar a probabilidade de essa amostra pertencer a uma populao cuja
mdia 75 mg/dL para = 0,05.

Especificaes:
H
0
:
1
= 75 mg/dL
H
A
: 1 75 mg/dL
N = 9
Graus de liberdade (n - 1 = 9 - 1): 8
Valor crtico de t
0,05(8)
. = 2,306

Clculos:
Mdia da amostra

X


90 86 78 90 98 90 82 76 84
9
86 mg/dL

Desvio padro da amostra (v. captulo 6):

S

n
n 1

66940
774

9
9 1

66940 66564
8
6,85

Valor de t:

152

t
X


s/n

86 75
6,85/9

11
2,28
1,82

O valor calculado t = 4,82 significante, por ser maior que o t crtico t
05 (8)
= 2,306
dado na tabela do Anexo D. Portanto, o t calculado se encontra na regio de rejeio da
hiptese de nulidade. Desse modo, aceita-se a hiptese alternativa, qual seja, a de que a
amostra analisada estima uma media diferente da especificada, ou seja, H
A
:
1

0
para
o nvel de significncia de 0,05 (5%).
Concluso: o resultado estatisticamente significante. Os resultados amostrais
no pertencem a populao cuja mdia 75 mg/dL.

15.7. Comparao entre duas varincias testes de Fisher (F)
Sabe-se que uma populao com distribuio normal definida pela mdia e
pelo desvio padro (ou varincia). Duas amostras extradas de uma mesma populao
apresentam as mdias e as varincias que no diferem significantemente entre si. Ou
seja. para demonstrar que duas amostras so extradas de uma mesma populao deve-
se provar que tanto as mdias quanto as varincias dessas amostras no diferem
significantemente. O teste de comparao entre duas varincias utilizado para
determinar se duas amostras (A e B) possuem variabilidades semelhantes ou
variabilidades diferentes.
Muitas vezes necessrio pr prova a hiptese de igualdade entre duas
varincias. Nesse caso em lugar de considerar a diferena entre as duas varincias, faz-
se o quociente entre elas. Isto porque, se

= 1. As hipteses propostas so:


H
0
:

= 1
H
A
:

> 1
Sabe que a estimativa da varincia e dada pela formula:
S

n 1
ou S

n
n 1


Exemplo 13.3

Empregando uma amostra de soro analista A determinou 9 vezes a glicose. Um
analista B determinou 6 vezes a glicose pelo mesmo mtodo. Os resultados so
153

fornecidos a seguir em mg/dL. Existe variao entre os analistas para um nvel de
significncia de 0,05?

Analista A

Analista B


86 7396 81 6561
88 7744 87 7569
85 7225 87 7569
83 6869 86 7396
88 7744 85 7225
87 7569 84 7056
86 7396
84 7056
87 7569
774 66.588 510 43.376

Hipteses:
H

:
S

1
H

:
S

1

Calculo das varincias:

S

n
n 1

66588
774


9
9 1

66588 66564
8
3
S

n
n 1

43376
510


6
6 1

43376 43350
5
5,2
F
Varincia maior
Varincia menor


,

= 1,73

O valor de F dado na tabela (Anexo E) para 5 graus de liberdade (6 1-5) do
numerador e 8 graus de liberdade (9-1=8) do denominador 3.69, Portanto, o valor
calculado de F = t1,73 menor o F critico ao nvel de significncia de 0,05 encontrado na
tabela.
Concluso: a hiptese H
0
no rejeitada, pois, no existe evidencia de que as
varincias dos dois analistas sejam diferentes.
154

Sem essa hiptese auxiliar no possvel tirar concluses sobre a prova
realizada, pois se H0 for rejeitada fica-se na dvida se o foi por diferena entre as
mdias, por diferena entre as varincias. Ou simultaneamente pelas duas razes.
Denomina-se hemocedsicas quando as varincias de duas populaes so
iguais e heterocedsicas quando as varincias so diferentes.

15.8. Comparao entre as medias de duas amostras independentes
Aqui tambm so comparadas duas mdias sendo que, nesse caso, tanto as
mdias como o desvio padro da populao so desconhecidos. Para a aplicao do
teste t para amostras independentes, as variveis x
A
e x
B
devem ter distribuio normal
ou aproximadamente normal. importante tambm que as varincias populacionais
sejam iguais, ou seja, quando comparado o tratamento A com o B, o efeito altera
uniformemente os valores, de tal modo que a disperso dos dados permanece inalterada.
A comparao de duas sries de dados independentes que no tenham
distribuio normal deve ser realizado pelo teste de Mann Whitney um teste no-
paramtrico (ver capitulo 18).

15.9. Duas amostras de mesmo tamanho
Quando os tamanhos das amostras so iguais, ou seja, n
j
= n
2
, = n, o valor de t
com 2n-2 graus de liberdade calculado pela frmula:
t
X

n

A diferena X

(mdia da primeira e da segunda amostra, respectivamente)


ter significncia estatstica quando t calculado for maior do que t critico da tabela, para
n
A
+ n
B
-2 graus de liberdade, ou para 20 -2 graus de liberdade quando n
A
= n
B
= n para
o especificado (0,05 ou 0,01). Caso contrrio, a diferena no significante.
Exemplo 13.4

De um lote de pintos machos de um dia foram formados, por sorteio, dois grupos
de 11 pintos. O primeiro grupo foi tratado com o hormnio testosterona e o segundo
grupo no recebeu tratamento. Os pintos foram identificados e mantidos juntos numa
mesma criadeira. Aps 15 dias determinou-se o peso da crista de cada pinto, segundo a
tabela abaixo. Houve efeito do hormnio sobre o peso da crista para = 0,01?
155


Com hormnios Sem hormnios
X


57 3.249 89 7.921
120 14.400 30 900
101 10.201 82 6.724
137 18.769 50 2.500
119 14.169 39 1.521
117 13.689 22 484
104 10.816 57 3.249
73 5.329 32 1.024
53 2.809 96 9.216
68 4.624 31 961
118 13.924 88 7.744
1.067 111.971 616 42.244


Especificaes
H
0
:
1
=
2

H
0
:
1

2

= 0,01

Graus de liberdade = 20 (soma dos graus de liberdade de cada amostra isolada)
Valor crtico de t
0,01(20)
= 2,845
n
A
= n
B
= n = 11
Clculo da mdia de cada amostra:
X

= 1067/11 = 97
X

= 616/11 =56

Clculo da varincia de cada amostra:
S


111971
1138489
11
11 1

111971 103499
10
847,2
S


42244
379456
11
11 1

42244 34496
10
774,8

Clculo do valor de t:

t
X

n

97 56

847,2 774,8
11

41
147,45

41
12,14
3,38
156


O t calculado (3,38) maior do que o da tabela para a = 0,01 e 20 graus de
liberdade (2,845); portanto, a diferena significante. Valor de P = 0,003.
Concluso: a administrao de harmnio aumentou o peso da crista dos pintos,
aos 15 dias de idade.

15.10. Duas amostras de tamanhos diferentes
Prefere-se, em geral, empregar o mesmo nmero n de dados para a amostra.
No raro ocorre que amostras diferem quanto ao tamanho. Para que seja possvel fazer
comparaes entre amostras de tamanhos diferentes, necessrio encontrar um modo
de atribuir peso adequado influncia de cada amostra. Essa dificuldade contornada
mediante a designao de n
1
ao nmero de repeties da primeira amostra e por n
2
o
nmero de repeties da segunda amostra e de cujos dados so calculadas as mdias
A x e B x , respectivamente.
A significncia estatstica das diferenas X

dada por:
t
X

1
n


1
n


O denominador da frmula acima o erro padro da diferena entre as mdias
das amostras e depende do conhecimento da varincia da populao.
Quando as varincias so desconhecidas necessrio fazer uma hiptese
suplementar que elas so iguais a um valor comum

. A obteno da
estimativa combinada de
2
realizada pelo clculo da mdia ponderada das varincias das
duas amostras estudadas, S

e S

, pelo emprego da frmula:


S

1 S

1S

2

S

= varincia da primeira amostra


S

= varincia da seguinte amostra


n
A
= tamanho da primeira amostra
n
B
= tamanho da segunda amostra

Exemplo 13.5

157

Deseja-se saber se a resistncia de cabos de ao influenciada por dois
diferentes processos de fabricao ( = 0,05). Cinco cabos foram manufaturados pelo
processo l, e sete pelo processo 2. Postos a prova no laboratrio, as cargas mximas
registradas para os cabos foram as seguintes, em toneladas:

X


9 81
6 36
10 100
9 81
11 121
45 419




X


14 196
10 100
9 81
13 169
12 144
13 169
8 64
79 923

Especificaes:
H
0
:
0 1
=
H
1
:
0 1

n
A
= 5
n
B
= 7
= 0,05
Graus de liberdade = 10 (soma dos graus de liberdade de cada amostra isolada).
Valor crtico de t
0,05 (10)
, = 2,228
Clculo da mdia de cada amostra:
X

= 45/5 = 9 t
X

- 79/7 = 11,3 t
Clculo da varincia de cada amostra:
S


419
2025
5
5 1

419 405
4
3,5
S


923
6241
7
7 1

923 291,5
6
5,25

Clculo da mdia ponderada das varincias:
S

1S

2

5 13,5 7 15,25
5 7 2
4,45

158

t
X


1
n


1
n


9,0 11,3

4,55
1
5

1
7

1,85

O t calculado (1,85) c menor do que o t crtico da tabela para a = 0,05 e 10 graus
de liberdade (2,228): portanto, a diferena no significante. Valor de P = 0,097
Concluso: os testes de laboratrio no forneceram suficiente evidncia para
diferenciar os dois processos de fabricao de cabos de ao.

15.11. Comparao entre mdias de duas amostras emparelhadas
Os testes t descritos anteriormente no distinguem a variao entre indivduos,
da variao devida a diferenas entre grupos. Quando houver uma razo lgica para que
dois tratamentos sejam aplicados cm pares homogneos de unidades experimentais, os
grupos devem ser pareados e tratados por teste t especfico. Como os membros do par
nunca so exatamente iguais por razes intrnsecas ou ambientais introduzidas no curso
do experimento, deve-se usar vrios pares. As repeties tendem a contrabalanar as
diferenas individuais e evidenciar o efeito real dos tratamentos em estudo. Em cada par
os dois tratamentos so sorteados sobre os mesmos membros do par.
A anlise emparelhada apropriada para:
Quando a varivel em cada indivduo medida antes e depois de uma
interveno (ex.: peso antes e depois de um regime).
Quando os indivduos so recrutados como pares, emparelhados por
variveis como idade ou diagnstico. Um dos pares recebe uma interveno,
enquanto o outro no (ou recebe um tratamento alternativo).
Quando medir uma varivel em gmeos ou pares criana/pais.
Experimentos laboratoriais repetidos.
O teste t que compara dois grupos emparelhados, calcula a diferena entre cada
conjunto de pares e analisa as diferenas portanto que observados os seguintes
pressupostos:
Os pares devem ser selecionados ao acaso de uma grande populao (ou no
mnimo representativa de uma grande populao).
As amostras devem ser emparelhadas. O emparelhamento entre os valores
da coluna A e os da coluna B devem ser baseados no projeto experimental e
decidido antes dos dados serem coletados.
159

Cada par deve ser selecionado independentemente dos outros.
A distribuio das diferenas na populao deve se aproximar de uma
distribuio normal.
Se a distribuio das diferenas na populao no for normal, deve-se empregar
o teste de Wilcoxon um teste no-paramtrico para dados emparelhados (ver captulo
15).
Na anlise estatstica de comparaes emparelhadas, no so empregados os
dados originais mas as diferenas (d
1
) entre as observaes numricas x de cada par.
Calcula-se a mdia das diferenas d

/n em que d
i
e a soma algbrica das
diferenas e n o nmero de pares ou repeties e no o nmero total de indivduos ou
observaes. A diferena mdia tambm dada por d

a diferena das mdias


dos tratamentos l e 2 cm comparao. A hiptese nula (d = 0) testada por:
t
d

/n

onde s
d
/ n o erro padro da diferena mdia: o clculo de s
d
(desvio padro
das diferenas) dado por:
S

n 1

n
n 1

A diferena mdia d

ter significncia estatstica quando o t calculado for maior


do que o t da tabela para um nvel de significncia estabelecido (a = 0,05 ou 0,01) e o n-
1 graus de liberdade. Conclui-se ento que h uma real diferena entre os dois
tratamentos. Caso contrrio, a diferena no significante.
Apesar do reduzido nmero de graus de liberdade, a reduo da variabilidade
(sj) obtida pelo parcamente, geralmente resulta em grande melhora na eficincia
estatstica. O exemplo a seguir de um teste t emparelhado bicaudal.

Exemplo 13.6
Comparao da diferena de resultados pareados da determinao de glicose
no plasma e no soro era uma amostra de 10 indivduos normais. Os resultados
apresentados na tabela abaixo so em mg/dL. Deseja-se saber: houve diferena na
determinao de glicose no plasma e no soro para = 0,05?


160





N Plasma (x
i
) Soro (x
2
) (d = x
1
x
2
) d
2

1 96 94 2 4
2 81 79 2 4
3 100 97 3 9
4 92 92 0 0
5 103 100 3 9
6 85 86 -1 1
7 94 93 1 1
8 97 93 4 16
9 104 103 1 1
10 90 88 2 4
Totais 17 49

Especificaes;
H
0
:
d
= 0
H
A
:d 0
= 0,05
n = 10

Graus de liberdade (nmero de pares - t) = 9
Valor critico de t
0,05 (9)
= 2,262
Observaes:

d

= 17/10 = 1,7 rag/dL (mdia das diferenas emparelhadas)


d
i
= 17
d

= 49
S

n
n 1

49
17

10
n 1
1,49

t
d

1,7
1,49
10

1,7
0,471
3,597

161

Para 9 graus de liberdade e a = 0,05, o valor de t na tabela 2,262. Como o t
calculado (3,597) maior do que o t critico da tabela, rejeita-se a hiptese H
0
. Valor P =
0,0058.
Concluso: existe diferena na determinao da glicose no plasma e no soro.


15.12. Resumo da aplicao de testes para comparar duas sries de dado

Dados Teste
No emparelhados
No emparelhados
Emparelhados

No emparelhados
Emparelhados
Distribuio normal, s iguais
Distribuio normal, s diferente
Distribuio normal das diferenas
Distribui no gaussiana
Distribuio no gausiana
Teste t no emparelhado
Teste t de Welch
Teste t emparelhado
Teste de Mann-Whitney
Teste de Wilcoxon

15.13. Tamanho da amostra
A determinao do nmero de observaes de uma amostra, isto . o nmero de
repeties a usar numa investigao, um problema que sempre se apresenta na fase
do planejamento dos estudos. Uma investigao com poucas observaes pode falhar na
descoberta de uma diferena importante, um experimento desnecessariamente grande
representa um desperdcio de tempo e de material.
Seja no caso da determinao do nmero n de observaes necessrias, em
cada um de dois grupos independentes, para assinalar uma diferena estatisticamente
significante entre as mdias de dois grupos. O objetivo atingido quando.
t
X

2S

/n

For maior do que t

especificado.
Quando se especifica a diferena entre as mdias a ser testada e se conhece
por experincia prvia (levantamento "piloto'") a varincia s
2
, pode-se calcular n para um
t especificado:
n 2
st


162

Substituindo s por (100) S/X

= C, o coeficiente de variao em %, e X

, por
(100)(X

)/ X

= D , a diferena entre as mdias em % da mdia geral obtm-se:


n 2
Ct


Os valores de C e D, so conhecidos. O valor de t varia em funo de n. O
valor final de n determinado por tentativas, comeando com um valor n qualquer e
achando na tabela o valor t

para n-
1
graus de liberdade.
Para fins prticos, t pode ser igualado a 2, quando = 0.05. A equao
simplifica-se para n = 8(C/D)
2
. A segurana dessa estimativa de n de 50%; pode ser
satisfatria ou no. Para maior segurana sugere-se a equao n = 10 (C/D)
2
.



Exemplo 13.7
Qual o nmero de pintos a usar por grupo, na comparao de duas raes, o
atributo a medir sendo o aumento de peso?
O teste dever acusar significncia estatstica quando a diferena entre as duas
mdias D = 10%. Antecipa-se um coeficiente de variao para ganhos de peso C =
20%.
Nessas condies: n = 10(20/10)- = (10) (4) = 40.
Um mnimo de 40 pintos dever ser usado em cada grupo.
interessante assinalar aqui o efeito da heterogeneidade do material
experimental ou das unidades experimentais, sobre o nmero de repeties a usar numa
investigao. A reduo do coeficiente de variao metade, reduz a 1/4 o nmero de
repeties necessrias. O uso de pintos com um coeficiente de variao igual a 10%, isto
, mais uniformes no aumento de peso, diminuiria de 40 para 10 o nmero de pintos
necessrios por grupo.

Vocabulrio

Desvio padro da mdia Tamanho da amostra
Estimao de parmetros Teste emparelhado
populacionais
Estimao por intervalo Teste para amostras independentes
163

Estimao por ponto Teste T








Exerccios

13.1. Amostras de sangue de dez pessoas foram enviadas a dois laboratrios para a
determinao de colesterol. Os resultados foram:
Colesterol srico 9 (mg/dL)

Individuo Lab 1 Lab2
1 296 318
2 268 287
3 244 260
4 272 279
5 240 245
6 244 249
7 282 294
8 254 271
9 244 264
10 262 285
x 2.606 2.750
X
2
682.316 760.706

Existe uma diferena estatisticamente significante na determinao do colesterol
entre o lab 1 e o lab 2 para a = 0,01.
A. A Qual o teste a ser usado: teste t para duas amostras independentes ou
teste t para amostras paredas?
B. B Realizar o teste escolhido em A e responder a questo.
C. Realizar o teste no escolhido em A e comparar o resultado com o obtido em
B. O que foi observado?

13.2. Um estudo foi conduzido utilizando 139 acadmicos, que voluntariamente
participaram de uma pesquisa sobre o consumo dirio mximo de lcool no ms anterior.
164

Baseado nos dados da tabela seguinte, existe diferenas entre homens e mulheres
quanto a quantidade mxima de lcool ingerida diariamente no ms anterior?
Quantidade mxima diria de lcool consumida no ultimo ms (Carey & Correia,
1997).
Homens Mulheres
Mdia = 8,2 Mdia = 5,6
S = 5,9 S = 5,7
N = 54 N = 85

A. Escrever a hiptese nula e a hiptese alternativa usando a notao
estatstica correta.
B. Qual e o valor citico para = 0,05?
C. Esses grupos so independentes ou dependentes? Explicar?
D. Qual o valor calculado de t?
E. Quais as concluses?
F. Calcular o intervalo de confiana de 95%.


























165

















Exerccios diversos

1. Pretende-se lanar uma moeda 5 vezes e rejeitar a hiptese de que a moeda no-
tendenciosa, isto , pretende-se rejeitar Ho: = 0,50, se em 5 (cinco) jogadas ocorrerem
5 coroas ou 5 caras. Qual a probabilidade de se cometer erro do tipo I?

2. Voc suspeita que um dado viciado, isto , voc suspeita que a probabilidade de
obter face 6 maior do que 1/6. Voc decide testar a hiptese de que o dado no-
viciado, jogando-o cinco vezes e rejeitando essa hiptese se ocorrer a face 6 (seis), 4 ou
5 vezes. Qual o nvel de significncia do teste?

3. Uma urna contm 6 fichas, das quais so brancas e 6 - so pretas. Para testar a
hiptese de nulidade de que = 3, contra a alternativa de que 3, so retiradas 2
(duas) fichas da urna ao acaso e sem reposio. Rejeita-se a hiptese nula se as duas
fichas forem da mesma cor.
(a) Determine P(Erro do Tipo I).
(b) Determine o poder do teste para os diferentes valores de .
(c) Considere, agora, que a segunda ficha retirada aps a reposio da primeira.
Calcule, novamente, o nvel de significncia e os valores do poder do teste.
(d). Compare os dois procedimentos (com e sem reposio da segunda ficha retirada).
Qual a concluso?

166

4. Para decidirmos se os habitantes de uma ilha so descendentes da civilizao A ou B,
iremos proceder da seguinte forma:
(i) Selecionamos uma amostra aleatria de 100 moradores adultos da ilha e
determinamos a altura mdia;
(ii) Se a altura mdia for superior a 176 cm, diremos que os habitantes so descendentes
de B, caso contrrio, admitiremos que so descendentes de A.
Os parmetros das duas civilizaes so: A:
A
= 175 cm e
A
= 10 cm e B:
B
= 177 cm
e
B
= 10 cm.
Define-se ainda: erro do tipo I como sendo dizer que os habitantes so descendentes de
B quando, na realidade, so de A e erro do tipo II dizer que os habitantes so de A
quando, na realidade, so descendentes de B.
(a) Qual a probabilidade de erro do tipo I e do tipo II?
(b) Se
A
=
B
= 5, como ficariam os valores dos erros do tipo I e II?
(c) Qual deve ser a regra de deciso se quisermos fixar a a probabilidade de Erro I em
5%. Qual a probabilidade de erro II neste caso?
(d) Quais as probabilidades de Erro II, se as mdias forem:
A
= 178 e se
B
= 180?
5. Fazendo o teste H
0
: = 1150 ( = 150) contra H
1
: = 1200 ( = 200) e com n = 100,
estabeleceuse a seguinte regio crtica: RC = [1170, +).
(a) Qual a probabilidade de rejeitar H
0
quando verdadeira?
(b) Qual a probabilidade de Aceitar H
0
quando H
1
verdadeira?

6. Numa linha de produo importante que o tempo gasto numa determinada operao
no varie muito de empregado para empregado. Em operrios bem treinados a
variabilidade fica em 100 u
2
. A empresa colocou 11 novos funcionrios para trabalhar na
linha de produo, supostamente bem treinados, e observou os seguintes valores, em
segundos:
125 135 115 120 150 130 125 145 125 140 130
Testar se a tempo despendido por estes funcionrios pode ser considerado mais varivel
do que os demais funcionrios. Utilize 5% de significncia.

7. Diversas polticas, em relao s filiais de uma rede de supermercados, esto
associadas ao gasto mdio dos clientes em cada compra. Deseja-se comparar estes
parmetros de duas novas filiais, atravs de duas amostras de 50 clientes,selecionados
ao acaso, de cada uma das novas filiais. As mdias obtidas foram 62 e 71 unidades
167

monetrias. Supondo que os desvios padres sejam idnticos e iguais a 20 um, teste a
hiptese de que o gasto mdio dos clientes no o mesmo nas duas filiais. Utilize uma
significncia de 2,5%?

8. Em dois anos consecutivos foi feito um levantamento de mercado sobre a preferncia
dos consumidores pelo por um determinado produto. No primeiro ano o produto era
anunciado com freqncia semanal nos veculos de comunicao e no segundo ano com
freqncia mensal. No levantamento foram utilizados duas amostras independentes de
400 consumidores cada. No primeiro ano o percentual de compradores ficou em 33% e
no segundo ano em 29%. Considerando o nvel de significncia de 5%, teste a hiptese
de que a freqncia do anncio tem influncia na manuteno da fatia de mercado.

9. Para verificar se uma moeda honesta, com base em 20 lanamentos independentes,
adotamos o seguinte critrio: consideramos a moeda no honesta se o resultado for
menor do que 7 ou maior do que 13.
(a) Formule esse problema como um problema de teste de hipteses.
(b) Quais so os significados dos erros tipo I e II?
(c) Qual o nvel de significncia do teste?
10. No ano de 2003 foi feita uma pesquisa em uma estncia turstica e constatou-se que
apenas 60% dos visitantes estavam satisfeitos com a infraestrutura oferecida. Com o
intuito de aumentar essa proporo a prefeitura fez algumas melhorias na cidade e
depois de um ano, resolveu verificar se as mesmas produziram o efeito desejado. Para
isso entrevistou 50 turistas.
(a) Formule esse problema como um problema de teste de hipteses.
(b) Quais so os significados dos erros tipo I e tipo II?
(c) Qual a regio crtica associada a um nvel de significncia de 10%.
(d) Se 37 dos 50 turistas entrevistados estavam satisfeitos com a infraestrutura oferecida,
qual asua concluso?

11. A marca Z de um produto responsvel por 50% das vendas desse produto em um
supermercado. Uma campanha promocional foi contratada e os promotores garantem
que a marca Z passar a ser responsvel por uma porcentagem maior das vendas. O
dono do supermercado prope entrevistar alguns clientes aps o encerramento da
campanha promocional e perguntar a cada um deles se ele usualmente compra a marca
168

Z do produto.Sendo p a porcentagem de vendas do produto Z aps a campanha (a)
Estabelea as hipteses apropriadas.
(b) Quais so os significados dos erros tipo I e tipo II para o problema?
(c) Se entre 18 clientes entrevistados, 12 responderam sim, qual a sua concluso com
base no nvel descritivo?
(d) Se entre 324 clientes entrevistados, 178 responderam sim, qual a sua concluso
com base no nvel descritivo?

12. Com o objetivo de testar uma hiptese H0 contra a hiptese alternativa Ha, um
pesquisador fixou as probabilidades de erros de 1 e 2 espcies, respectivamente, em
5% e 10%.
Realizado o teste, imaginem-se 2 situaes diferentes:
Em A: O pesquisador rejeitou a hiptese de nulidade
Em B: O pesquisador no rejeitou a hiptese de nulidade.
Para cada situao (A e B) assinale a alternativa correta e justifique.
a) O pesquisador certamente estar cometendo um erro cuja probabilidade de ocorrncia
igual a 5%;
b) O pesquisador certamente estar cometendo um erro cuja probabilidade de ocorrncia
igual a 10%;
c) Se o pesquisador estiver cometendo um erro, a probabilidade de ocorrncia associada
a este erro de 15%;
d) Se o pesquisador estiver cometendo um erro, a probabilidade de ocorrncia associada
a este erro de 10%;
e) Se o pesquisador estiver cometendo um erro, a probabilidade de ocorrncia associada
a este erro de 5%.

12. A resistncia ao resfriado comum em uma dada indstria, durante o inverno, de
p=0,60. Foi proposto um tratamento preventivo com a finalidade de aumentar a
resistncia ao resfriado para p=0,70. Ento:
a) formule as hipteses.
b) fixando a= 0,05 (ou valor mais prximo) e admitindo ter sido sorteada uma amostra de
tamanho n=20, observou-se que 4 operrios ficaram resfriados. Nestas condies, qual
a concluso quanto eficincia do medicamento?

169

13. Para se estimar a letalidade da doena B, acompanhou-se uma amostra de 30
doentes durante um ano. Aps esse perodo, cinco deles haviam morrido. Testar a
hiptese de que essa letalidade igual a 20%. Fixe o erro de 1 espcie em um a=10%.

14. Certa comunidade apresentou em um perodo de vrios anos coeficiente de
incidncia da doena X de 12 por 10.000 hab.. Em 1999, a incidncia foi de 70 casos e a
populao estimada foi igual a 50.000 habitantes. Nestas condies, ao nvel de
significncia de 1% (ou mais prximo) diga se concorda com as autoridades sanitrias
que consideraram a situao dentro do esperado.

15. Desejando-se conhecer o coeficiente de prevalncia de determinada doena na
cidade A, selecionou-se uma amostra aleatria de 500 pessoas. Nesta amostra
detectaram-se 20 doentes. Teste a hiptese de que a prevalncia semelhante
descrita na literatura de 10%. (Fixando a=5%)

16. Uma nova espcie de trigo desenvolvida em laboratrios ser testada quanto a sua
produtividade, em comparao com a espcie tradicional. Dados do governo revelam
que a produtividade mdia de lavouras que se utilizam da espcie tradicional de 25
ton/ha. A produtividade de uma fazenda uma varivel aleatria normalmente
distribuda. Dezesseis fazendas foram preparadas para a avaliao da nova espcie.
Qual seria o seu parecer sobre a nova espcie se, em seu experimento voc
observasse na amostra mdia de 28 ton/ha e varincia de 12( ton / ha)
2
.

17. Um novo mtodo de emagrecimento anunciado como o fim das gordurinhas a mais
que perseguem a parcela mais abonada da sociedade. Preocupado com a seriedade
profissional dos responsveis pelo uso do mtodo, o conselho de medicina decide
promover um experimento para avaliar a eficcia do tratamento. Trinta e dois voluntrios
so divididos em 2 grupos de igual tamanho, recebendo cada grupo um tratamento
diferente. Um deles recebe o novo mtodo e o outro o mtodo tradicional. Anotou-se a
variao de peso de cada indivduo aps o final do tratamento. Os resultados foram:
ind. 1 2 3 4 5 6 7 8 9 10 11 1
2
13 14 15 16
170

Novo 5.3 -
3.4
-
8.1
-
9.0
1.3 -
3.4
-
8.0
2.3 -
3.1
-
13.4
-
8.9
3.
1
-
4.3
-
3.0
-
3.2
2.0
trad. 4.2 -
2.0
-
5.0
-
3.0
2.8 -
0.3
-
6.0
-
3.1
0.3 -
12.0
-
6.0
2.
0
-
2.1
-
1.0
-
2.0
-
1.0
Suponha que tanto a variao do peso com o tratamento novo, quanto a variao com
o tratamento tradicional sejam variveis aleatrias com distribuies normais.
(a) Teste a hiptese de que no h diferena entre os dois mtodos, a um nvel de
0,01. Suponha que os dois grupos de voluntrios sejam independentes (b) suponha
agora que os indivduos do primeiro grupo so irmos gmeos dos indivduos do outro
grupo(pares de gmeos, claro). Para cada par aplicou-se a um dos gmeos o
tratamento novo e ao outro o tradicional. Teste com base nessa informao adicional a
mesma hiptese do item anterior, ao mesmo nvel de significncia.
18. Um novo mtodo de aprendizagem foi testado atravs do seguinte experimento.
Em uma turma de 30 alunos utilizou-se o mtodo novo e em outra turma de 30 alunas de
outra escola manteve-se o mtodo tradicional. Ao final do curso aplicou-se um mesmo
exame s duas turmas. Os resultados foram:
Turma1-mtodo novo: mdia=69 desvio padro=10
Turma2-mtodo antigo: mdia=60 desvio padro=9.
Com base nestas informaes, teste se h diferena significativa entre os dois
mtodos, a um nvel de 0,05. Suponha as notas individuais de cada aluno como v.a.
normais de mesma varincia e mdias possivelmente diferentes.

19. Um novo tratamento anti-corrosivo para chapas de ao foi testado. O experimento
realizado foi o seguinte: 9 chapas diferentes foram selecionadas sendo cada uma
dividida em duas. A uma das metades aplicou-se o tratamento novo e a outra metade
o tratamento antigo. Anotou-se, ento, o tempo at o incio da corroso em cada
metade.Os resultados obtidos foram:
chapa 1 2 3 4 5 6 7 8 9
metade/novo 36.2 48.3 35.4 39.3 40.2 37.4 39.3 42.3 36.0
metade/antig
o
31.4 39.2 35.0 33.4 41.3 36.8 38.1 43.0 35.0
Suponha que o tempo at a corroso em cada metade uma varivel com distribuio
normal, e que o tratamento no influencia na varincia desta varivel, mas apenas na
sua mdia. Qual dos tratamentos voce recomendaria que fosse utilizado?
171

20. Um estudo desenvolvido para investigar o efeito de um certo tratamento para
controlar a temperatura do corpo de porcos criados em laboratrio e que possuem
uma deficincia gentica que provoca reduo na temperatura corprea dos
porcos. As temperaturas de interesse foram medidas um dia antes e um dia
depois de submeterem os porcos ao tratamento. Os dados obtidos esto
apresentados na tabela abaixo.
animal 1 2 3 4 5 6 7 8 9 10
antes 38.1 38.4 38.3 38.2 38.2 37.9 38.7 38.6 38 38.2
depois 38.9 38.6 38.2 38.2 39.4 38.5 38.3 38.4 38.8 38.7
a) H evidncias de que o tratamento permite o controle da temperatura ?
b) Calcule um intervalo de confiana para a temperatura aps a aplicao do tratamento.
21. Um entomologista est investigando se um inseto predador de uma variedade
de uma espcie de plantas com folhas rugosas e uma outra com folhas lisas. Ele
acompanha o crescimento de cinco plantas de cada variedade e conta o nmero
de ovos do inseto em cada uma delas. Infelizmente ele perde uma observao
referente a planta de folha lisa. Para as 9 plantas que sobraram , ele obtem uma
quantidade mdia de 48,5 para lisa e 37,2 para rugosa. Fazendo os clculos ele
encontra um valor t=2,65 com 7 graus de liberdade.
Aps verificar melhor seus registros ele encontra a observao perdida, cujo valor 110.
a) qual agora o nmero mdio de ovos do inseto para a planta lisa? b) como voc acha
que ele determinou o valor de t? c) quando ele repete os clculos fica surpreso de no
encontrar diferena sigificativa entre o nmero mdio de ovos para os dois tipos de
folhas. O que pode ter acontecido?



172

16. CORRELAO E REGRESSO
16.1. Correlao
16.1.1. Introduo
Ao se estudar uma varivel o interesse eram as medidas de tendncia central, disperso,
assimetria, etc. Com duas ou mais variveis alm destas medidas individuais tambm
de interesse conhecer se elas tem algum relacionamento entre si, isto , se valores altos
(baixos) de uma das variveis implicam em valores altos (ou baixos) da outra varivel.
Por exemplo, pode-se verificar se existe associao entre a taxa de desemprego e a taxa
de criminalidade em uma grande cidade, entre verba investida em propaganda e retorno
nas vendas, etc.
A associao entre duas variveis poder ser de dois tipos: correlacional e experimental.
Numa relao experimental os valores de uma das variveis so controlados pela
atribuio ao acaso do objeto sendo estudado e observando o que acontece com os
valores da outra varivel. Por exemplo, pode-se atribuir dosagens casuais de uma certa
droga e observar a resposta do organismo; pode-se atribuir nveis de fertilizante ao acaso
e observar as diferenas na produo de uma determinada cultura.
No relacionamento correlacional, por outro lado, no se tem nenhum controle sobre as
variveis sendo estudadas. Elas so observadas como ocorrem no ambiente natural, sem
nenhuma interferncia, isto , as duas variveis so aleatrias. Assim a diferena entre
as duas situaes que na experimental ns atribumos valores ao acaso de uma forma
no tendenciosa e na outra a atribuio feita pela natureza.
Freqentemente necessrio estudar o relacionamento entre duas ou mais variveis. Ao
estudodo relacionamento entre duas ou mais variveis denominamos de correlao e
regresso. Se o estudo tratar apenas de duas variveis tem-se a correlao e a
regresso simples, se envolver mais do que duas variveis, tem-se a correlao e a
regresso mltiplas. A regresso e a correlao tratam apenas do
relacionamento do tipo linear entre duas variveis.
A anlise de correlao fornece um nmero que resume o grau de relacionamento linear
entre as duas variveis. J a anlise de regresso fornece uma equao que descreve o
comportamento de uma das variveis em funo do comportamento da outra varivel.

16.2. Padres de associao
173

Independente do tipo (correlacional ou experimental) a relao entre as variveis pode
ser resumida atravs de uma equao indicando o padro de associao entre as duas
variveis..
Quando no possvel perceber uma relao sistemtica entre as variveis dito que as
variveis so no correlacionadas, so independentes ou ainda que so ortogonais.

16.3. Indicadores de associao
Suponha-se que queiramos determinar se duas variveis aleatrias esto de alguma
forma correlacionadas. Por exemplo, suponha-se que se queira determinar se o
desempenho dos empregados no trabalho est de alguma forma associado ao escore
obtido num teste vocacional.
Tabela de contingncia 2x2. Uma vez que a correlao entre duas variveis aleatrias
reflete o quanto os altos escores de uma delas implicam em altos escores da outra e
baixos escores de uma implicam em baixos escores da outra e vice-versa, no caso de
uma relao negativa, pode-se comear a anlise identificando, justamente quantos
elementos de uma das variveis so altos e quantos so baixos. Para determinar se um
escore ou valor alto ou baixo, pode-se convencionar que qualquer
valor acima da mediana alto e qualquer valor abaixo da mediana baixo. Classificando
desta forma pode-se ter ento, para o exemplo, 4 possveis resultados:
Tanto o desempenho no trabalho quanto no teste esto acima da mediana (+ +)
O desempenho no trabalho est acima mas o do teste est abaixo da mediana (+ )
Tanto o desempenho no trabalho quanto o do teste esto abaixo da mediana ( )
O desempenho no trabalho est abaixo da mediana mas o teste no ( +)
Estas quatro possibilidades podem ser arranjadas em uma tabela de contingncia 2x2,
como a mostrada abaixo:
Tabela 1.1 Desempenho no trabalho e no teste
Desempenho no trabalho Escore no teste vocacional
Abaixo da mediana (-) Acima da mediana (+)
Acima da mediana (+) (-, +) 10 empregados (+, +) 40 empregados
Abaixo da mediana (-) (, ) 40 empregados (+, ) 10 empregados

Observese que se no existir relao entre as duas variveis devese esperar nmero
idntico de empregados em cada uma das clulas da tabela, isto , se a pessoa o escore
174

da pessoa no teste vocacional est acima ou abaixo da mediana no tem nada a ver com
o seu escore no desempenho no trabalho estar acima ou abaixo da mediana.
O que pode ser visto na tabela acima que parece existir uma forte correlao entre as
duas variveis, pois ao invs de igual nmero em cada clula o que se tem um nmero
grande de ambas as variveis acima da mediana e um nmero grande de escores de
ambas as variveis abaixo da mediana. Das 50 pessoas com escore acima da mediana
no teste, 40 deles (80%) apresentaram escore acima da
mediana no desempenho do trabalho. Da mesma forma dos 50 que tiverem
classificaes abaixo da mediana, 40 deles apresentaram escore abaixo da mediana no
desempenho do trabalho. Se no houvesse correlao seria de se esperar que dos 50
que tiveram escores acima da mediana no teste 25
tivessem escores acima da mediana no desempenho do trabalho e 25 abaixo.
A tabela 1.2 mostra outras possveis sadas para este tipo de esquema de classificao
cruzada.
Novamente 100 elementos so classificados em 4 clulas de acordo com o critrio
anterior. A parte (a) da tabela mostra uma associao positiva, a parte (b) uma negativa e
a parte (c) que no deve existir associao entre duas variveis X e Y.
Tabela 1.2 - Indicativos da presena de associao entre duas variveis X e Y.
(a) Relao positiva (b) Relao negativa (c) Sem relao
Valor de Y Valor de Y Valor de Y
Valor de
X
Abaixo
da
mediana
Acima da
mediana
Valor de
X
Abaixo
da
mediana
Acima da
mediana
Valor de
X
Abaixo
da
mediana
Acima da
mediana
Acima da
mediana
15 35 Acima da
mediana
35 15 Acima da
mediana
25 25
Abaixo
da
mediana
35 15 Abaixo
da
mediana
15 35 Abaixo
da
mediana
25 25

Diagramas de disperso. As tabelas de contingncia 2x2 fornecem somente a indicao
grosseira da relao entre duas variveis, a no ser o fato de que os valores esto
situados acima e abaixo da mediana, qualquer outra informao desperdiada. Vamos
considerar um exemplo, envolvendo duas variveis contnuas.
Um comerciante de temperos est curioso sobre a grande variao nas vendas de loja
para loja e acha que as vendas esto associadas com o espao nas prateleiras
dedicados a sua linha de produto em cada ponto de venda. Dez lojas foram selecionadas
175

ao acaso atravs do pas e as duas seguintes variveis foram mensuradas: (1) total de
espao de frente (comprimento x altura em cm2) dedicados a
sua linha de produtos e (2) total das vendas dos produtos, em reais, no ltimo ms. Os
dados so apresentados na tabela 1.3.






Tabela 1.3 Vendas x espao dedicado aos produtos (em cm2).
Local Espao Vendas
1 340 71
2 230 65
3 405 83
4 325 74
5 280 67
6 195 56
7 265 57
8 300 78
9 350 84
10 310 65

Pela observao da tabela no fcil perceber o tipo de relacionamento que possa existir
entre as duas variveis. Para ter uma idia melhor, as variveis so colocadas no que
denominado de diagrama de disperso. Uma das variveis (X) representada no eixo
horizontal e a outra varivel (Y) no eixo vertical, conforme figura 1.2.
176



Uma olhada rpida no diagrama de disperso mostra a existncia de um relacionamento
entre as variveis, com altos valores de uma das variveis associados a altos valores da
outra varivel. Se no houvesse relacionamento entre elas, os pontos estariam
distribudos ao acaso no grfico sem mostrarem alguma tendncia.
16.4. Coeficiente de correlao
Apesar do diagrama de disperso nos fornecer uma idia do tipo e extenso do
relacionamento entre duas variveis X e Y, seria altamente desejvel ter um nmero que
medisse esta relao. Esta medida existe e denominada de coeficiente de correlao.
Quando se est trabalhando com amostras o coeficiente de correlao indicado pela
letra r que , por sua vez, uma estimativa do coeficiente de correlao populacional:
(rho).
O coeficiente de correlao pode variar de 1,00 a + 1,00, com um coeficiente de +1,
indicando uma correlao linear positiva perfeita. Neste caso, as duas variveis sero
exatamente iguais em termos de escores padronizados z, isto , um elemento
apresentando um escore padronizado de 1,5 em uma das variveis vai apresentar o
mesmo escore padronizado na outra varivel. Um coeficiente de correlao de 1, indica
correlao linear perfeita negativa, com os escores padronizados exatamente
iguais em valores absolutos, diferindo apenas no sinal.
Uma correlao de +1 ou 1 raramente observado. O mais comum que o coeficiente
fique situado no intervalo entre estes dois valores. Um coeficiente de correlao 0,
significa que no existe um relacionamento linear entre as duas variveis.
0
10
20
30
40
50
60
70
80
90
0 100 200 300 400 500
Vendas x reas de prateleira
177


16.5. Hipteses bsicas
A suposio bsica sobre o coeficiente de correlao que o relacionamento entre as
duas variveis seja linear. Isto , o coeficiente de correlao adequado para avaliar
somente o relacionamento linear. As duas variveis podem estar perfeitamente
relacionadas, mas se no for de forma linear o valor do coeficiente pode ser zero ou
prximo de zero.
Uma segunda hiptese que as variveis envolvidas sejam aleatrias e que sejam
medidas no mnimo em escala de intervalo. Ele no se aplica a variveis em escala
nominal ou ordinal ou quando uma das variveis manipulada experimentalmente, pois
neste caso, a escolha dos valores experimentais vai influenciar o valor de r obtido.
Uma terceira hiptese que as duas variveis tenham uma distribuio conjunta normal
bivariada. Isto equivalente a dizer que para cada x dado a varivel y normalmente
distribuda.
Suponha-se que existam apenas duas variveis X e Y. Uma amostra da varivel X,
assumindo os valores particulares X1, X2, ..., Xn e uma amostra da varivel Y
assumindo os valores particulares Y1, Y2, ..., Yn so obtidas e suponha-se ainda que o
objetivo saber se existe algum tipo de relacionamento linear entre estas duas variveis.
Isto poder ser medido pelo coeficiente de correlao que fornece o grau de
relacionamento linear entre duas variveis.
1.6. DEFINIO
Na populao o coeficiente de correlao representado por e na amostra por r. Assim
dadas duas amostras, uma da varivel X e outra da varivel Y, o coeficiente de
correlao amostral poder ser calculado atravs da seguinte expresso:
( ) ( )
( ) ( )
( ) ( )
( ) ( )
i i i i i i
i i i i i i
nX .Y X . Y x X . y Y
r
x X . y Y n X X n Y Y

= =
( (

( (



2 2 2 2
2 2

Uma populao que tenha duas variveis no correlacionadas linearmente pode produzir
uma amostra com coeficiente de correlao diferente de zero. Para testar se a amostra
foi ou no retirada de uma populao de coeficiente de correlao no nulo entre duas
variveis, precisamos saber qual a distribuio amostral da estatstica r.

16.7. Distribuio amostral de r (quando = 0)
A distribuio amostral de r depende somente do valor de (coeficiente de correlao
178

populacional) e do tamanho da amostra.
Se for admitido que = 0, a distribuio amostral de r (coeficiente de correlao na
amostra) ser simtrica em torno de 0 com variabilidade dada por:
r
r

2 1
2

Neste caso, pode-se mostrar que o quociente:
r
r r

r
n
=

2 1
2
tem uma distribuio t com n
2 graus de liberdade. Isto :
r
t
r
n
=

2 1
2

Exemplo:
Quer-se testar se existe ou no correlao linear entre X = toneladas de adubo orgnico
por ha e Y = produo da cultura A por ha. Para tanto realizado um experimento com
durao de 5 anos que mostrou os resultados da tabela 1.4. Verificar se existe
relacionamento linear entre as duas variveis.





Tabela 1.4 Valores das variveis X e Y
Anos X Y
1989 2 48
1990 4 56
1991 5 64
1992 6 60
1993 8 72

Para saber se h ou no correlao linear entre estas duas variveis na populao de
onde foi retirada esta amostra necessrio realizar um teste de hipteses, ou seja,
preciso testar:
H0: = 0 (No existe relacionamento linear na populao)
H1: 0 (Existe relacionamento linear na populao)
A tabela 1.5 mostra os clculos necessrios para se obter o coeficiente de correlao
para esta amostra das variveis X e Y.
179

Tabela 1.5 Valores das variveis X e Y e clculos para obter r
Anos X Y XY X
2
Y
2

1989 2 48 96 4 2304
1990 4 56 224 16 3136
1991 5 64 320 25 4096
1992 6 60 360 36 3600
1993 8 72 576 64 5184
Total 25 300 1576 145 18320

O valor de r ser dado ento por:
( ) ( )
( ) ( ) ( )
i i
i i
x X . y Y
5.(1576 )-25.300
r ,
x X . y Y .( ) ( ) .( . )

= = =
(
(


2 2 2
2
0 95
5 145 25 5 18 320 300

A estatstica teste ser:
r
t
r
n
=

2 1
2

que neste caso, tem uma distribuio t com n - 2 = 3 graus de liberdade. O valor de t
(calculado) :

r ,
t
r ( , )
n
= =


2 2
0 95
1 1 0 95
2 5 3
=5,270
O valor tabelado de t com 3 g.l. e a 5% de significncia, considerando um teste bilateral
:
3,182.
Com estes valores rejeita-se H0 e pode-se afirmar, com 5% de significncia, que as duas
variveis possuem um relacionamento linear na populao.
Dado que h fortes evidncias de que as duas variveis possuem um relacionamento
linear pode-se ento ajustar uma linha de regresso entre elas.

16.8. Distribuio amostral de r (quando 0)
Para testar a existncia de um certo grau de correlao entre duas variveis X e Y, isto ,
para testar

180

H
0
: =
0
contra
H
1
:
0

>
0

<
0

necessrio determinar a distribuio de r, quando diferente de zero. A distribuio
de r s simtrica quando zero, se isto no ocorre a distribuio ser assimtrica.
Esta falta de normalidade impede que se use o teste tradicional, o teste t, neste caso.
Contudo, mediante uma transformao apropriada, r pode ser alterado para uma
estatstica que aproximadamente normal. Esta transformao denominada de
transformao Z de Fischer.
A expresso para realiz-la : r' =
r
ln
r
+ | |
|

\
1 1
2 1

Esta quantidade tem distribuio aproximadamente normal com mdia
r
ln
r
+ | |
=
|

\
1 1
2 1
e varincia
( )

n
=

2
1
3
3), quando n no for muito pequeno, ou seja, n
20
Exemplo:
Suponha que de experincias anteriores pode ser suposto que a correlao entre a idade
e a presso sangnea sistlica = 0.85. Para testar a hiptese nula, a 5% de
significncia, de que este valor contra a alternativa de que ele diferente deste valor
supem-se que foi extrada uma amostra de tamanho n = 30 e que forneceu um r = 0,66.
Ento o teste pode ser realizada atravs dos seguintes clculos:
Soluo:
r' =
r ,
ln ln 0,7928
r ,
+ + | | | |
= =
| |

\ \
1 1 1 1 0 66
2 1 2 1 0 66

A distribuio de r' dada por:
,
ln ln 1,2561
,
| | + + | |
= = =
| |

\ \
1 1 1 1 0 85
2 1 2 1 0 85

0,7928 -1,2561
z -2,41 = =
1
30
3

181

Para um nvel de significncia de 5% o valor tabelado de z -1,96. Rejeita-se, ento a
hiptese nula. Isto , pode-se afirmar que o valor da correlao populacional diferente
de 0,85.

16.9. Propriedades de R
As propriedades mais importantes do coeficiente de correlao so:
1. O intervalo de variao vai de -1 a +1.
2. O coeficiente de correlao uma medida adimensional, isto , ele independente
das unidades de medida das variveis X e Y.
3. Quanto mais prximo de +1 for r, maior o grau de relacionamento linear positivo entre
X e Y, ou seja, se X varia em uma direo Y variar na mesma direo.
4. Quanto mais prximo de -1 for r, maior o grau de relacionamento linear negativo entre
X e Y, isto , se X varia em um sentido Y variar no sentido inverso.
5. Quanto mais prximo de zero estiver r menor ser o relacionamento linear entre X e
Y.
Um valor igual a zero, indicar ausncia apenas de relacionamento linear.

16.20. Regresso
Uma vez constatado que existe correlao linear entre duas variveis, pode-se tentar
prever o comportamento de uma delas em funo da variao da outra.
Para tanto ser suposto que existem apenas duas variveis. A varivel X (denominada
varivel controlada, explicativa ou independente) com valores observados X1, X2, ..., Xn
e a varivel Y (denominada varivel dependente ou explicada) com valores Y1, Y2, ...,
Yn. Os valores de Y so aleatrios, pois eles dependem no apenas de X, mas tambm
de outras variveis que no esto sendo representadas no modelo. Estas variveis so
consideradas no modelo atravs de um termo aleatrio
denominado erro. A varivel X pode ser aleatria ou ento controlada.
Desta forma pode-se considerar que o modelo para o relacionamento linear entre as
variveis X e Y seja representado por uma equao do tipo:
Y = + X + U,
onde U o termo erro, isto , U representa as outras influncias na varivel Y alm da
exercida pela varivel X.
Esta equao permite que Y seja maior ou menor do que + X, dependendo de U ser
positivo ou negativo. De forma ideal o termo U deve ser pequeno e independente de X,
182

de modo que se possa modificar X, sem modificar U, e determinar o que ocorrer, em
mdia, a Y, isto :
E(Y/X) = + X
Os dados {(Xi, Yi), i = 1, 2, ..., n} podem ser representados graficamente marcando-se
cada par (Xi, Yi) como um ponto de um plano. Os termos Ui so iguais a distncia vertical
entre os pontos observados (Xi, Yi), e os pontos calculados (Xi, + Xi). Isto est
ilustrado na figura 2.1.

Figura 2.1 O modelo de regresso linear


Y E(Y/X) = + X
Erro U

Y








X

Um modelo de regresso consiste em um conjunto de hipteses sobre a distribuio dos
termos erro e as relaes entre as variveis X e Y.
Algumas destas hipteses so:
(i) E(U
i
) = 0;
(ii) Var(U
i
) =
2

esperado igual a zero e na (ii) que a varincia de cada Ui a mesma e igual a 2, para
todos os valores de X.
Supem-se ainda que a varivel independente X, permanea fixa, em observaes
sucessivas e que a varivel dependente Y seja funo linear de X. Os valores de Y
183

devem ser independentes um do outro. Isto ocorre em geral, mas em alguns casos,
como, por exemplo, observaes diferentes so feitas no mesmo indivduo em diferentes
pontos no tempo est suposio poder no ocorrer.
Como o valor esperado de Ui zero, o valor esperado da varivel dependente Y, para um
determinado valor de X, dado pela funo de regresso + X ou seja:
E(Y/X) = E( + X + U) = + X + E(U) = + X [1]
j que + X constante para cada valor de X dado.
O smbolo E(Y/X) lido valor esperado de Y, dado X. A varincia de Y, para
determinado valor de X, igual a:
V(Y/X) = V( + X + U) = V(U) = 2 [2]
A hiptese de que V(Y/X) a mesma para todos os valores de X, denominada de
homocedasticidade, til pois permite que se utilize cada uma das observaes sobre X
e Y para estimar 2. O termo homo significa o mesmo e cedasticidade significa
disperso.
De [1] e [2] decorre que, para um dado valor de X, a varivel dependente Y tem funo
densidade de probabilidade (condicional) com mdia + X e varincia 2. A figura 2.2,
ilustra a funo densidade. Na parte superior da figura ilustrado o caso heterocedstico
e na parte inferior o caso homocedstico.
A posio da funo densidade f(Y/X) varia em funo da variao do valor de X. Note-se
que a mdia da funo densidade se desloca ao longo da funo de regresso + X.
Em resumo, o modelo de regresso proposto consiste nas seguintes hipteses:
1. Y = + X + U;
2. E(Y/X) = + X;
3. V(Y/X) =
2
;
4. Cov(U
i
, U
j
) = 0, para i j;
5. A varivel X permanece fixa em observaes sucessivas;
6. Os erros U so normalmente distribudos.

16.21. Estimativa dos parmetros de regresso
Se fosse conhecido toda a populao de valores (X
i
, Y
i
) ento seria possvel determinar
os valores exatos dos parmetros , e
2
. Como, em geral, se trabalha com amostras
se faz necessrio, ento, estimar estes parmetros com base nos valores da amostra.
184

Existem alguns mtodos para ajustar uma linha entre as variveis X e Y o mais utilizado
o denominado mtodo dos mnimos quadrados (MMQ). A reta obtida atravs deste
mtodo, no necessariamente, o melhor ajustamento possvel, mas possui muitas
propriedades estatsticas que so desejveis.
Sejam a e b estimadores de e e E
i
= Y
i
- a - bXi o desvio observado em relao a reta
ajustada, isto , Ei um estimador do termo Ui. O mtodo dos mnimos quadrados exige
que os estimadores a e b sejam escolhidos de tal forma que a soma dos quadrados dos
desvios dos mesmos em relao reta de regresso ajustada seja mnima, isto :
= ( )
n n
i
i i
E Y a bX = mnimo
= =
=

2
2
1
1 1

parcialmente em relao aos valores a e b. Aps algumas simplificaes vai-se obter:
Y
i
= na + bX
i
(i)
XiYi = a Xi + b_(Xi)
2
(ii)
que so denominadas de equaes normais da regresso, onde n o nmero de pares
de observaes.
Obs.: Para simplificar a notao foram desconsiderados os ndices nos
somatrios.
Dividindo-se a equao (i) por n e isolando o valor de a vem:
i
i
X
y
a b Y bX
n n
| |
= =
|
|
\


levando-se este resultado na equao (ii) tem-se:
( )( )
( )
( ) ( )
i i
i i
i i i i i i
i i i i
i
X Y
X Y
X X Y Y n X Y X Y
n
b
X n X X X X
X
n


= = =





2 2 2
2
2

A reta estimada de regresso ser ento:

Y a bX = +
com os valores de a e b obtidos atravs das seguintes expresses:

( )
i i i i
i i
n X Y X Y
b
n X X



2
2 e a Y bX =
185

Utiliza-se o valor _Y , porque o valor de Y, obtido a partir da reta estimada de regresso,
para um dado valor de X, uma estimativa do valor E(Y/X), isto , do valor esperado de
Y dado X.
Exemplo:
So fornecidos 5 pares de valores, na tabela abaixo, correspondentes as variveis X e Y.
A estimativa da reta de regresso entre X e Y, obtida utilizando as expresses de a e b
acima e usando os resultados obtidos na tabela 2.1.

X Y X2 XY
1 3 1 3
2 3 4 6
4 7 16 28
5 6 25 30
8 12 64 96
20 31 110 163

( ) ( )
( )
X
Y ,
. .
b ,
.
a Y bX 6,20 - 1,30.(4) = 1
= =
= =
(

= =

= =
20
4
5
31
6 2
5
5 163 20 31
1 30
5 110 400

Ento a linha estimada ser:

Y , X = +
1 30 1

Esta reta o melhor ajustamento para estes dados e seria diferente para cada amostra
das variveis X e Y, retiradas desta mesma populao. Esta reta pode ser considerada
uma estimativa da verdadeira linha de regresso onde 1,3 seria uma estimativa do valor
(parmetro angular) e 1 uma estimativa do valor (parmetro linear), que so os
verdadeiros coeficientes de regresso.

16.22. Estimativa da varincia do termo erro
O termo erro, U, uma varivel aleatria, supostamente com mdia zero e varincia
constante.
186

Ento, intuitivamente parece plausvel usar os resduos da reta de regresso pelos
mtodo dos mnimos quadrados para se estimar a varincia
2
dos termos erro. A
varincia amostral desses resduos igual a:
( )
E E

n

2
2
onde
E
E
n
=

Observe-se entretanto que:


E = (Y a bX) = Y na b X = 0, pela primeira equao normal (i).
Portanto,
~

2
pode ser escrito como:
~
E

n
=

2
2

Mas
2
, neste caso, um estimador tendencioso. Pode-se obter um estimador no
tendencioso, multiplicando
2
por n / (n - 2). O novo estimador, no tendencioso, ser
representado S
2
e sua raiz quadrada:
( )
( )

Y Y
E Y a bX
S
n n n


= = =


2
2
2
2 2 2

denominada de erro-padro da estimativa ou erro-padro amostral da
regresso.
Obs.: A utilizao de n - 2 conseqncia do fato de que se deve estimar dois
parmetros, e , antes de obter os resduos E. Como resultado, h somente n - 2
graus de liberdade associados quantidade E
2
.
A expresso acima, para o clculo do erro amostral da regresso, apresenta o
inconveniente de exigir o clculo de cada valor previsto de Y, atravs da linha de
regresso, tornando sua obteno muito trabalhosa. Existe, entretanto, uma alternativa
para se obter este valor (erro padro da estimativa) sem a necessidade de calcular todos
os valores previstos.
Observe-se que:
( ) ( ) ( ) ( ) ( )( ) ( )

E Y Y Y a bX Y Y b X bX Y Y b X X Y Y b X X ( = = = + = +


2 2 2 2 2
2 2 2

Fazendo:
( )
( )
X
X X X Sxx
n
= =


2
2
2

( )
( )
Y
Y Y Y Syy
n
= =


2
2
2

( )( )
X Y
X X Y Y XY Sxy
n
= =



187

Lembrando que:
( )
( )
i i
i i
i i i i
i i i
i
X Y
X Y
n X Y X Y
n
b
n X X X
X
n

= =

2 2
2
2
, segue que =
SXY SXY SXY SXY
b bb b
SXX SXX SXX SXX
e que
SXY = bSXX
Ento vem:
( )
2 2 2
YY XX XX YY XX
E Y-a-bX =S - 2b S + b S = S - b S =

2
2

Assim:
( )
YY XX YY XY
E Y a bX
S b S S bS
S
n n n n


= = = =


2
2
2
2
2 2 2 2

Pode-se verificar que S
2
definido desta maneira um estimador no-tendencioso de
2
,
isto , E(S
2
) =
2
.
O erro padro da regresso ser dado, ento, por:
2
YY XX YY XY
S -b S S - bS
s
n n
= =

2 2

Exemplo:
Considerando as variveis X e Y acima e a linha de regresso anterior determinar uma
estimativa do erro padro da regresso.
Os clculos necessrios esto na tabela 2.2.

Tabela 2.2 Determinao do erro padro da regresso
X Y Y
c
E=Y-Y
c
E
2

1 3 2,3 0,7 0,49
2 3 3,6 -0,6 0,36
4 7 6,2 0,8 0,64
5 6 7,5 -1,5 2,25
8 12 11,4 0,6 0,36
20 31 31 0 4,1

O erro padro da regresso ser ento:
( ) E Y a bX
,
s 1,17
n n

= = = =


2
2
4 10
2 2 5 3

Este mesmo clculo poder ser efetuado pela expresso definida acima, sem a
necessidade de se obter os valores estimados.
188



Tabela 2.3 Determinao do erro padro da regresso
X Y X2 Y2 XY
1 3 1 9 3
2 3 4 9 6
4 7 16 49 28
5 6 25 36 30
8 12 64 144 96
20 31 110 247 163

Neste caso, tem-se:
( )
( ) ( )
( )( )
XX
YY
XY
X
( )
S X
n
Y
S Y 54,80
n
X Y
S XY 39
n
= = =
= = =
= = =

2
2
2
2 2
2
20
110 30
5
31
247
5
20 31
163
5

O valor de b ser:
b = SXY/SXX = 39/30 = 1,30
Portanto o erro padro da regresso ser:
( )( )
YY XX YY XY
, ,
S b S S bS
s 1,1690 = 1,17
n n


= = = =

2 54 80 1 3 39
2 2 5 2


16.23. Distribuies das estimativas
Observando-se as expresses dos estimadores a e b da reta estimada, pode-se notar
que ambos dependem de Y que uma varivel aleatria com distribuio supostamente
normal de mdia f(X) e desvio padro 2. Como os estimadores a e b so funes
lineares de uma varivel aleatria
normal, tambm sero variveis aleatrias com distribuio normal. O que precisa ser
determinado, ento, a mdia e a varincia de cada um deles. Antes disso vai-se
determinar uma estimativa de
2
a
varincia da varivel Y, que no modelo suposta a mesma para cada valor de X
(homocedasticidade).

189

16.23.1. Distribuio do estimador b
Tem-se que:
( )( ) ( ) ( )
XY XX
XX XX
X X Y Y Y X X Y X X
b = S / S
S S
=
= =

Mas
( )
X X = =

0
logo,
( )
XX
Y X X
b
S

=



Mas Y X U = + = , ento
( ) ( )( ) ( ) ( ) ( )
XX XX XX XX XX
Y X X X U X X X X X X U X X
b
S S S S S
+ +
= = = = +


XX
S = (X-X) = (X - X)(X - X) = X(X - X) - X (X - X) = X(X - X) , pois (X - X) =

2 0


Vem
( )
XX
U X X
b
S

= +


Logo a expectncia de b ser:

( ) ( )
XX XX
U X X X X
E(b) = E() + E E()+ E(U).Mas E(U) = 0, por hiptese
S S

=


Ento:
E(b) = E() = , uma vez que a mdia de uma constante a prpria constante.
Isto, tambm, mostra que b um estimador no-tendencioso de .
Para a varincia, tem-se:
( ) ( ) ( )
( ) XX XX
XX
U X X U X X X X
V(b) V V V(U)
S S
S
| | | |

| | = + = =
| |
\ \

2
2

2.3.2. DISTRIBUIO DO ESTIMADOR A
Quanto distribuio da varivel aleatria a, tem-se:
Y
a = Y - b X . Mas Y =
n

, ento:
( ) Y X U X U U
a bX bX bX X bX
n n n n n n
+
= = = + + = + +


Assim:
190

( )
U E(U)
E(a) = E() + E( X ) +E E bX X X,
n n
| |
= + +
|
|
\

pois E(b) =
Ento E(a) = , pois E(U) = 0. V-se que a um estimador no-tendencioso de .
Quanto varincia, tem-se:
( ) ( )
XX
XX XX
E(U)
V(a) V() V X V V bX V(U) X V(b) X
n S n n
X X

n S n S
| |
= + + + = + + + = + =
|
\
| |
= + = +
|
\

2
2 2 2
2 2
2 2 2 2
2
1 1
0 0
1
Portanto a distribuio de a : N
XX
X
,
n S
| |
| +
|
\
2 1


16.24. Decomposio da soma dos quadrados



Y
Y Y


Y Y

Y


Y

Y Y





X X



Figura 2.3 Desvios na regresso

16.24.1. Decomposio dos desvios
191

Pelo figura 2.3, pode-se perceber que o desvio em relao a Y (desvio total), isto , Y - Y
pode ser decomposto em dois outros desvios:

O desvio explicado pela linha de regresso, isto ,

Y Y
O desvio no-explicado (resduos) pela linha de regresso, isto

Y Y
fcil perceber que a variao total,
( )
Y Y

, a soma da variao explicada,


( )

Y Y

, e a no-explicada,
( )
Y Y

, pois:

Y Y Y Y Y Y = + , ento:
Aplicando somatrio a ambos os membros vem:
( ) ( ) ( )

Y Y Y Y ` Y Y = +


Pode-se verificar tambm que a propriedade aditiva dos desvios extensiva soma dos
quadrados desses desvios, ou seja:
( ) ( ) ( )

Y Y Y Y Y Y = +

2 2
2

De fato:
( ) ( ) ( ) ( ) ( ) ( ) ( ) ( )

Y Y Y Y Y Y Y Y Y Y Y Y Y Y Y Y Y Y
(
= + = + = +


2
2 2 2 2 2
2
2

Mas
( )( ) ( )( ) ( ) ( )

Y Y Y^Y Y Y bX a bX b X Y Y ^ bX X Y Y = + =


Pelas condies do mtodo dos mnimos quadrados, tem-se:
( )

Y Y =

0
e
( )

X Y Y =

0
em consequncia
( )( )

Y Y Y Y =

0
, logo, segue que:
( ) ( ) ( )

Y Y Y Y Y Y = +

2 2
2


isto , que a soma dos quadrados dos desvios calculados em torno da mdia de Y
(variao total = VT) igual soma dos quadrados dos desvios em torno da linha de
regresso (variao residual = VR) mais a soma dos quadrados dos desvios da linha de
regresso em torno da mdia (variao explicada = VE).

16.24.2. Clculo das variaes
(a) Variao Total: VT ou
Y
S
2

( )
YY YY
Y
VT Y Y S ,onde S Y
n
= = =

2
2
2

192

(b) Variao Explicada: VE ou
Y
S
2

( ) ( ) ( ) ( ) ( )
XX

VE Y Y a bX Y Y bX bX Y b X X b X X b S ( = = + = + = = =


2 2 2 2 2
2 2

Logo,
2 XY
XX XX XY
XX
S
VE = b S ou VE S bS
S
| |
= =
|
\
2

(c) Variao Residual: VR ou
Y/ X
S
2

De acordo com a propriedade aditiva das variaes, pode-se calcular VR por diferena.
Assim:
2
YY XY
VR = (Y - Y ) = VT - VE ou VR = S - bS


16.25. Intervalos de confiana
Da mesma forma que foram obtidos intervalos de confiana para a mdia, varincia e
proporo de uma populao, pode-se determinar os intervalos de confiana para os
parmetros da regresso. Ou seja, pode-se determinar um intervalo de confiana para o
coeficiente linear (), um intervalo de confiana para o parmetro angular () e pode-se
ainda determinar um intervalo de
confiana para um valor previsto de Y, dado X. Este intervalo pode ser para o valor mdio
de Y paraum dado X, isto , E(Y/X) ou, ento, para um valor individual de Y, isto , _Y . A
estimativa pontual para os dois ltimos casos a mesma. O que vai mudar o intervalo
de confiana correspondente. Isto se deve ao fato de que o modelo desenvolvido
associado principalmente mdia do grupo do que a uma informao individual.

16.25.1. Intervalo para o coeficiente linear ()
Considerando que a distribuio do coeficiente linear dado por N
XX
X
,
n S
| |
| +
|
\
2 1
.
Ento, fixada uma confiana de 1 - , o intervalo ser:
n n
XX XX
X X
P a t .S a t .S
n S n S

| |
| + + + =
|
\
2 2
2 2
1 1
1

com t
n-2
sendo um valor da distribuio t com n - 2 graus de liberdade e S uma
estimativa de .

16.25.2. Intervalo para o coeficiente angular ()
193

Considerando que a distribuio do coeficiente angular dado por N
XX

b,
S
| |
|
|
\
. Ento,
fixada uma confiana de 1 - , o intervalo ser:
n n n
XX XX
S S
P b t . b t .t .
S S

| |
+ = |
|
\
2 2 2
1

com t
n-2
sendo um valor da distribuio t com n - 2 graus de liberdade e S uma
estimativa de

16.25.3. Intervalo para previses

(a) Intervalo para o valor mdio de

Y
Tem-se que

Y = a + bX um estimador de E(Y/X) ou f(X). Para construir um intervalo de


confiana para este valor necessrio conhecer a sua distribuio. Isto , deve-se
conhecer a mdia e a varincia de

Y .

E( Y ) = E(a + bX) = E(a) + E(bX) = + E(X) = + X = f(X) = E(Y/X), pois, neste caso,
X constante para cada valor de Y.
Tem-se: _

Y = a + bX, mas a = Y-bY , ento:

Y = Y - b X + bX = Y + b(X - X ) . A varincia de _Y , ser:


( )
( )
2
2
XX XX XX
Y

V( Y ) = V[ Y - b(X - X )] = V( Y ) + V[b(X - X )]=V + (X - X ) V(b)=


n
X X

= V(Y)(X - X ) X X
S S n S n
| |
|
|
\
(

(
= + = +
(

2
2 2 2
2
2
2
1 1
2

Portanto:

Ytem distribuio N
( )
XX
X X
X,
n S
| |

|
+ +
|
|
\
2
1

Conhecida a distribuio de

Y, ento o intervalo de confiana de 1 - de probabilidade


para f(X) ou E(Y/X) ser:
( )
n n
XX XX
X X

P Y t .S E Y / x Y t .S
n S n S

| |
| + + + =
|
\
2 2
2 2
1 1
1
, onde t
n-2
o valor da
distribuio t com n - 2 graus de liberdade.
194


(b) Intervalo para um valor individual ( _Y )
Uma estimativa do valor individual de Y dado pela reta de regresso _Y = a + bX, para
um dado X e o desvio de previso ser dado por Y -

Y, cujas propriedades so:


Para a mdia:
E(Y -

Y ) = E(Y) - E(

Y ) = f(X) - f(X) = 0
Para a varincia, tem-se:
( ) ( )
2 2
XX XX
X X X X

V(Y - Y ) = V(Y) + V( Y) = +
n S n S
( (

( (
+ = + +
( (

2 2
2
1 1
1

Ento:
Y -

Y tem distribuio N
( )
XX
X X
,
n S
| |

|
+ +
|
|
\
2
1
0 1

Conhecida a distribuio de Y
i
-

Y, ento o intervalo de confiana de 1 - de


probabilidade para um valor individual de Y (Y
i
) para um dado X, ser:
( ) ( )
n n
XX XX
X X X X

Y t .S ;Y t .S
n S n S


+ + + + +
2 2
2 2
1 1
1 1
, onde t
n-2
o valor da distribuio t
com n - 2 graus de liberdade

16.26. Testes de hipteses
Conhecidas as distribuies dos estimadores dos coeficientes angular e linear, pode-se
realizar um teste de hipteses.

16.26.1. Teste para a existncia da regresso
Testar a existncia da regresso testar se o parmetro diferente de zero. Desta
forma o que se quer testar :
H0: = 0 contra as alternativas:
H1: 0;
> 0 ou
< 0
Fixado um nvel de significncia a varivel teste ser a t de Student com n - 2 graus
de liberdade, pois sabe-se que:

195

b tem distribuio Normal com mdia e desvio padro
XX

S
, ou seja,
XX
b

Z
S

= tem distribuio normal padro. Porm como no conhecido necessrio


estim-lo atravs de S. Ento:
n
XX
b
S
t
S

=
2


16.26.2. Teste para o coeficiente linear
Testar o coeficiente linear da regresso testar o valor inicial da regresso, isto ,
testar o valor de Y quando X = 0. As hipteses so:
H0: = 0 contra as alternativas:
H1: 0;
> 0 ou
< 0
Fixado um nvel de significncia a varivel teste ser a t de Student com n - 2 graus de
liberdade, pois sabe-se que o estimador a, tem uma distribuio:
XX
X
N
n S
| |
| +
|
\
2
2
1
.
Ento:
XX
a
Z
X

n S

=
| |
+ |
|
\
2 1 tem distribuio normal padro. Porm como no conhecido
necessrio estim-lo atravs de S. Ento:
n
XX
a
t
X
S
n S


=
| |
+ |
|
\
2
2 1

16.27. Coeficiente de determinao ou de explicao
Alm dos testes de hipteses e dos intervalos de confiana, outro indicador que fornece
elementos para a anlise do modelo adotado o coeficiente de determinao ou de
explicao, definido por:
XY
YY
bS VE
R
VT S
= =
2

196

O coeficiente de determinao indica quantos por cento a variao explicada pela
regresso representa sobre a variao total. Deve-se ter:
0 R
2
1
Se R
2
for igual a 1, isto significa que todos os pontos observados se situam exatamente
sobre a reta de regresso. Tendo-se, neste caso, um ajuste perfeito. As variaes da
varivel Y so 100% explicadas pelas variaes da varivel X, no ocorrendo desvios em
torno da funo estimada.
Por outro lado, se R
2
= 0, isto quer dizer que as variaes de Y so exclusivamente
aleatrias e explicadas pelas variaes de outros fatores que no X.
























197

Exerccios
1 Para cada uma das situaes abaixo, diga o que mais adequado: a anlise de
regresso ou a anlise de correlao. Por qu?
(a) Uma equipe de pesquisadores deseja determinar se o rendimento na Universidade
sugere xito na profisso escolhida.
(b) Deseja-se estimar o nmero de quilmetros que um pneu radial pode rodar antes de
ser substitudo.
(c) Deseja-se prever quanto tempo ser necessrio para executar uma determinada
tarefa por uma pessoa, com base no tempo de treinamento.
(d) Deseja-se verificar se o tempo de treinamento importante para avaliar o
desempenho na execuo de uma dada tarefa.
(e) Um gerente deseja estimar as vendas semanais com base nas vendas das segundas
e terasfeiras.

2. Suponha que uma cadeia de supermercados tenha financiado um estudos dos gastos
com mercadorias para famlias de 4 pessoas. O estudo se limitou a famlias com renda
lquida entre 8 e 20 salrios mnimos. Obteve-se a seguinte equao:
Y = -1,20 + 0,40X, onde Y = despesa mensal estimada com mercadorias e X = renda
lquida mensal.
(a) Estimar a despesa de uma famlia com renda mensal lquida de 15 s.m.
(b) Um dois diretores da empresa ficou intrigado com o fato de que a equao sugerir
que uma famlia com renda de 3 s.m. lquidos mensais no gaste nada em mercadorias.
Qual a explicao?
(c) Explique por que a equao acima no poderia ser utilizada para estimar
(a) As despesas com mercadorias de famlias de 5 pessoas.
(b) As despesas com mercadorias de famlias com renda de 20 a 40 s.m. lquidos
mensais.

3. Utilize os valores abaixo para estimar as equaes de regresso:
(a) X = 200, Y = 300, XY = 6200, X2 = 3600 e n = 20
(b) X = 7,2, Y = 37, XY = 3100, X2 = 620 e n = 36

198

4. Para cada uma das situaes abaixo, grafe os valores em um diagrama e se uma
equao linear parecer apropriada para explicar os dados, determine os seus
parmetros.
(a)
Tamanho do
pedido(X)
25 20 40 45 22 63 70 60 55 50 30
Custo Total (Y) 2000 3500 1000 800 3000 1300 1500 1100 950 900 1600

(b)
Vendas em mil (X) 201 225 305 380 560 600 685 735 510 725 450 370 150
Lucro em mil (Y) 17 20 21 23 25 24 27 27 22 30 21 19 15

5. Suponha que uma populao se constitua dos seis pontos seguintes:
(1, 2), (4, 6), (2, 4), (2, 3), (3, 5) e (5, 10)
(a) Grafe os pontos em um diagrama de disperso.
(b) Determine a equao de regresso: Y = + X + u.
(c) Os termos-erro verificam a condio E(u) = 0?
(d) Selecione uma amostra de tamanho n = 4, da populao acima e estime a equao
de regresso determinada no item 5.2. Grafe o resultado no mesmo diagrama construdo
em 5.1.

6. Verifique que a reta de regresso Y = a + bX, sempre passa pelo ponto ( X , Y ).

7. Os dados abaixo forma colhidos de cinco fbricas diferentes de uma determinada
indstria:
Custo total
(Y)
80 44 51 70 61
Produo (X)
12 4 6 11 8

(a) Estime uma funo linear da forma

Y = a + bX para o custo total dessa indstria.


(b) Qual o significado econmico das estimativas a e b?
(c) Teste a hiptese de que o custo fixo da produo do artigo em questo seja igual a 5,
contra a alternativa de diferente do que 5, utilizando uma significncia de 5%.
199

8. Em uma amostra aleatria de 1990, 50 homens americanos entre 35 e 54 anos de
idade acusaram a seguinte relao entre renda anual Y (em dlares) e a escolaridade X
(em anos).

Y = 1200 + 800X.
A renda mdia foi de 10000 dlares e a escolaridade mdia foi de 11,0 anos. Sabendo,
ainda, que X
2

= 9000 e que o desvio padro residual em relao reta ajustada foi de 7300 dlares,
determine:
(a) A renda de uma pessoa que tenha completado 2 anos de educao secundria (x =
10 anos).
(b) O intervalo de 95% de confiana para o coeficiente angular populacional..
(c) Se a renda para a escolaridade estatisticamente discernvel ao nvel de 5%.
(d) Se vlida a afirmao que cada ano de escolaridade custa 800 dlares?

9. Uma pesquisa foi realizada com o objetivo de determinar os efeitos da falta de sono
sobre a capacidade de as pessoas resolverem problemas simples. Foram testadas 10
pessoas, mantendo-se cada grupo de 2 pessoas sem dormir por um determinado nmero
de horas. Aps cada um destes perodos, cada pessoa teve de resolver um teste com
adies simples, anotando-se ento os erros cometidos. Os dados resultantes esto na
tabela abaixo:

Nmero de erros (Y) 6, 8 6, 10 8, 14 12, 14 12, 16
Nmero de horas sem dormir (X) 8 12 16 20 24

(a) Determine a estimativa da linha de regresso do nmero de erros em funo do
nmero de horas sem dormir.
(b) Determine a disperso dos termos erro em torno da linha de regresso.

10. Determine um intervalo de 95% de confiana para o coeficiente angular da reta do
exerccio acima. Interprete o intervalo obtido.

11. Realizou-se uma pesquisa de mercado com o objetivo de estudar a relao entre o
tempo necessrio para um consumidor tomar uma deciso (sobre o que comprar) e o
nmero de embalagens alternativas do mesmo produto apresentadas a esse consumidor.
200

Eliminaram-se as marcas das embalagens, a fim de reduzir o efeito da preferncia por
uma ou outra marca. Os consumidores fizeram suas escolhas somente com base na
descrio do produto, anotada nas embalagens pelos fabricantes. O tempo necessrio,
Y, para que cada um tomasse sua deciso foi anotado para 15 participantes, resultando
nos seguintes dados:

Tempo para deciso, Y (em segundos) 5, 7, 8, 8, 9 7, 8, 9, 9, 10 9, 10, 10, 11, 12
Nmero de alternativas (X) 2 3 4

(a) Determine a reta dos mnimos quadrados de Y em funo de X.
(b) Determine o erro padro da estimativa, ou seja, o desvio padro amostral da
regresso.
(c) H evidncia suficiente nestes dados de que o tempo de deciso se relaciona
linearmente ao nmero de alternativas oferecidas a esses consumidores?

12. Na fabricao de um antibitico, a produo depende do tempo. Os dados indicados
na tabela, mostram que um processo resultou na seguinte produo (em quilogramas) de
antibiticos por perodo de tempo (dias) indicados

Tempo (X = dias)
1 2 3 4 5 6
Produo (Y = em kg.)
23 31 40 46 52 63
(a) Por vrias razes conveniente esquematizar a produo em ciclos de 4 dias. Estime
ovalor mdio da produo final de antibitico produzido em um perodo de 4 dias.
Considere umintervalo de 95% de confiana.
(b) Suponha que o processo de produo, no futuro, se desenvolver em 4 dias.
Determine umintervalo de previso de 95% para a produo. Compare com o intervalo
para a produo mdia de um perodo de 4 dias que foi obtido em (a).

13. Mediu-se a altura de uma amostra de 5 meninos (em polegadas) na idade de 4 anos
e novamente na idade de 18 anos. Os resultados obtidos esto abaixo:
Na idade de 4 anos
40 43 40 40 42
Na idade de 18 anos
68 74 70 68 70
(a) Determine o coeficiente de correlao entre as duas categorias de alturas.
(b) Teste a hiptese de que existe uma relao linear entre a altura aos 4 anos de idade
e a altura aos 18 anos de idade.
201

(c) Se fosse feito o grfico de toda a populao de alturas, calculando-se a
correspondente reta dos mnimos quadrados, qual seria o seu coeficiente angular?
Responda com um intervalo suficientemente amplo que permita uma aposta de 95%.
(d) Repita o item 13.3 s que para o coeficiente linear.

14. A equao de regresso estimada abaixo resume um estudo da relao entre o uso
do fumo e a incidncia de cncer pulmonar, relacionando o nmero X de anos que uma
pessoa fumou com a percentagem Y de incidncia de cncer pulmonar em cada grupo.

Y= -2 + 1,70.X e r = 0,60.
(a) Explique o significado das estimativas -2 e 1,70 na equao de regresso.
(b) Qual a taxa de incidncia de cncer pulmonar para as pessoas que fumam h 20
anos?
(c) Se r fosse igual a um seria possvel concluir que o fumo a nica causa de cncer-
pulmonar?
(d) Suponha-se que a equao estimada tenha sido obtida de uma amostra aleatria de
50 fumantes. Teste a hiptese de que o coeficiente de correlao seja igual a zero a uma
significncia de 1%.

15. Explique se concorda ou no com as seguintes afirmativas:
(a) Um coeficiente de correlao de +1,0 entre duas variveis X e Y indica que X causa
Y, mas um coeficiente de correlao de -1,0 significa que X no causa Y.
(b) Se o coeficiente de regresso zero, o coeficiente de correlao tambm zero.
(c) Se o coeficiente angular 1 (um), isto significa que existe perfeita correlao entre X
e Y.
(d) possvel que o coeficiente de correlao amostral seja positivo, quando no existe,
de fato, nenhuma correlao entre as variveis X e Y.
(e) No se pode utilizar a tcnica da regresso pelo mtodo dos mnimos quadrados
quando a relao bsica entre X e Y no for linear.

16 Um estudo de duas safras forneceu as seguintes informaes:
Safra A:

Y = 200 + 0,8X, r = 0,70 e S = 30 Safra B:

Y = 50 + 1,20X, r = 0,9 e S = 20,


onde Y a produo por alqueire e X a quantidade de chuva (em polegadas) no
perodo da safra.
202

(a) Se no houvesse chuva, estas duas equaes poderiam ser usadas para predizer a
quantidade produzida nas duas safras? Por qu?
(b) Qual das duas safras tira mais proveito do aumento das chuvas? Por qu?
(c) Para qual das duas safras possvel predizer a produo com melhor aproximao?
Por qu?

17. Os dados abaixo foram obtidos de cinco fbricas diferentes de uma determinada
indstria.
Custo total (Y = em milhes) 80 44 51 70 61
Produo (X = toneladas) 12 4 6 11 8
(a) Determine um intervalo de confiana de 90% para o custo fixo dessa indstria.
(b) Determine um intervalo de confiana de 95% para o custo marginal dessa indstria.
(c) Faa uma previso, atravs de um intervalo, para o custo total mdio dessa indstria,
para uma produo de 15t, utilizando uma confiana de 95%.
(d) Faa uma previso, atravs de um intervalo, para o custo total dessa indstria, para
uma produo de 15t, utilizando uma confiana de 95%.
(e) possvel afirmar, com uma significncia de 1%, que o custo total dessa indstria
est linearmente relacionado ao nvel de produo?
(f) Testar se o custo fixo pode ser considerado menor do que 30.
(g) Testar se o custo marginal pode ser considerado menor do que 5.

18. Qual o tamanho mnimo da amostra necessria para que se possa concluir que um
coeficiente de correlao de 0,32 difere significativamente de zero ao nvel de 0,05?

19. Um coeficiente de correlao, baseado em uma amostra de tamanho n = 18, foi
calculado como sendo 0,32. Pode-se concluir aos nveis de significncia (19.1) 0,05 e
(19.2) 0,01, que o coeficiente de correlao, correspondente na populao diferente de
zero?

20. Se o coeficiente de correlao entre X e Y 0,80, que percentagem da variao total
permanece no-explicada pela equao de regresso?



203

21. Examine os cinco pares de pontos dados na tabela

X -2 -1 0 1 2
Y 4 1 0 1 4

(a) Qual a relao matemtica entre X e Y?
(b) Determine o valor de r.
(c) Mostre que calculando-se a linha de regresso de Y em relao a X tem-se b = 0.
(d) Por que, aparentemente, no existe relao entre X e Y como esto indicando b e r?

22. Os dados abaixo representam o nmero de rendas pessoais tributveis e o registro
de automveis de passageiros, em uma determinada regio.

X = nmero de rendas tributveis (em
milhares)
192 80 162 246 310
Y = Nmero de carros de passageiros
(milhares)
23 11 13 31 91

(a) Verificar se existe correlao entre as duas variveis.
(b) Determine a equao de regresso de Y em funo de X, caso o coeficiente de
correlao seja significativamente diferente de zero.
(c) Faa uma previso do nmero de carros se o nmero de contribuintes tributveis for
de 500 mil.
(d) Determine a equao de regresso de X em funo de Y.









204

Tabela da Distribuio Normal Padro
P(Z<z)

z 0,0 0,01 0,02 0,03 0,04 0,05 0,06 0,07 0,08 0,09
0,0 0,5000 0,5040 0,5080 0,5120 0,5160 0,5199 0,5239 0,5279 0,5319 0,5359
0,1 0,5398 0,5438 0,5478 0,5517 0,5557 0,5596 0,5636 0,5675 0,5714 0,5753
0,2 0,5793 0,5832 0,5871 0,5910 0,5948 0,5987 0,6026 0,6064 0,6103 0,6141
0,3 0,6179 0,6217 0,6255 0,6293 0,6331 0,6368 0,6406 0,6443 0,6480 0,6517
0,4 0,6554 0,6591 0,6628 0,6664 0,6700 0,6736 0,6772 0,6808 0,6844 0,6879
0,5 0,6915 0,6950 0,6985 0,7019 0,7054 0,7088 0,7123 0,7157 0,7190 0,7224
0,6 0,7257 0,7291 0,7324 0,7357 0,7389 0,7422 0,7454 0,7486 0,7517 0,7549
0,7 0,7580 0,7611 0,7642 0,7673 0,7704 0,7734 0,7764 0,7794 0,7823 0,7852
0,8 0,7881 0,7910 0,7939 0,7967 0,7995 0,8023 0,8051 0,8078 0,8106 0,8133
0,9 0,8159 0,8186 0,8212 0,8238 0,8264 0,8289 0,8315 0,8340 0,8365 0,8389
1,0 0,8413 0,8438 0,8461 0,8485 0,8508 0,8531 0,8554 0,8577 0,8599 0,8621
1,1 0,8643 0,8665 0,8686 0,8708 0,8729 0,8749 0,8770 0,8790 0,8810 0,8830
1,2 0,8849 0,8869 0,8888 0,8907 0,8925 0,8944 0,8962 0,8980 0,8997 0,9015
1,3 0,9032 0,9049 0,9066 0,9082 0,9099 0,9115 0,9131 0,9147 0,9162 0,9177
1,4 0,9192 0,9207 0,9222 0,9236 0,9251 0,9265 0,9279 0,9292 0,9306 0,9319
1,5 0,9332 0,9345 0,9357 0,9370 0,9382 0,9394 0,9406 0,9418 0,9429 0,9441
1,6 0,9452 0,9463 0,9474 0,9484 0,9495 0,9505 0,9515 0,9525 0,9535 0,9545
1,7 0,9554 0,9564 0,9573 0,9582 0,9591 0,9599 0,9608 0,9616 0,9625 0,9633
1,8 0,9641 0,9649 0,9656 0,9664 0,9671 0,9678 0,9686 0,9693 0,9699 0,9706
1,9 0,9713 0,9719 0,9726 0,9732 0,9738 0,9744 0,9750 0,9756 0,9761 0,9767
2,0 0,9772 0,9778 0,9783 0,9788 0,9793 0,9798 0,9803 0,9808 0,9812 0,9817
2,1 0,9821 0,9826 0,9830 0,9834 0,9838 0,9842 0,9846 0,9850 0,9854 0,9857
2,2 0,9861 0,9864 0,9868 0,9871 0,9875 0,9878 0,9881 0,9884 0,9887 0,9890
2,3 0,9893 0,9896 0,9898 0,9901 0,9904 0,9906 0,9909 0,9911 0,9913 0,9916
2,4 0,9918 0,9920 0,9922 0,9925 0,9927 0,9929 0,9931 0,9932 0,9934 0,9936
2,5 0,9938 0,9940 0,9941 0,9943 0,9945 0,9946 0,9948 0,9949 0,9951 0,9952
2,6 0,9953 0,9955 0,9956 0,9957 0,9959 0,9960 0,9961 0,9962 0,9963 0,9964
2,7 0,9965 0,9966 0,9967 0,9968 0,9969 0,9970 0,9971 0,9972 0,9973 0,9974
2,8 0,9974 0,9975 0,9976 0,9977 0,9977 0,9978 0,9979 0,9979 0,9980 0,9981
2,9 0,9981 0,9982 0,9982 0,9983 0,9984 0,9984 0,9985 0,9985 0,9986 0,9986
3,0 0,9987 0,9987 0,9987 0,9988 0,9988 0,9989 0,9989 0,9989 0,9990 0,9990
3,1 0,9990 0,9991 0,9991 0,9991 0,9992 0,9992 0,9992 0,9992 0,9993 0,9993
3,2 0,9993 0,9993 0,9994 0,9994 0,9994 0,9994 0,9994 0,9995 0,9995 0,9995
3,3 0,9995 0,9995 0,9995 0,9996 0,9996 0,9996 0,9996 0,9996 0,9996 0,9997
3,4 0,9997 0,9997 0,9997 0,9997 0,9997 0,9997 0,9997 0,9997 0,9997 0,9998
3,5 0,9998 0,9998 0,9998 0,9998 0,9998 0,9998 0,9998 0,9998 0,9998 0,9998
3,6 0,9998 0,9998 0,9999 0,9999 0,9999 0,9999 0,9999 0,9999 0,9999 0,9999
3,7 0,9999 0,9999 0,9999 0,9999 0,9999 0,9999 0,9999 0,9999 0,9999 0,9999
3,8 0,9999 0,9999 0,9999 0,9999 0,9999 0,9999 0,9999 0,9999 0,9999 0,9999
3,9 1,0000 1,0000 1,0000 1,0000 1,0000 1,0000 1,0000 1,0000 1,0000 1,0000
205

P(Z<z)

z 0,0 0,01 0,02 0,03 0,04 0,05 0,06 0,07 0,08 0,09
0,0 0,5000 0,4960 0,4920 0,4880 0,4840 0,4801 0,4761 0,4721 0,4681 0,4641
-0,1 0,4602 0,4562 0,4522 0,4483 0,4443 0,4404 0,4364 0,4325 0,4286 0,4247
-0,2 0,4207 0,4168 0,4129 0,4090 0,4052 0,4013 0,3974 0,3936 0,3897 0,3859
-0,3 0,3821 0,3783 0,3745 0,3707 0,3669 0,3632 0,3594 0,3557 0,3520 0,3483
-0,4 0,3446 0,3409 0,3372 0,3336 0,3300 0,3264 0,3228 0,3192 0,3156 0,3121
-0,5 0,3085 0,3050 0,3015 0,2981 0,2946 0,2912 0,2877 0,2843 0,2810 0,2776
-0,6 0,2743 0,2709 0,2676 0,2643 0,2611 0,2578 0,2546 0,2514 0,2483 0,2451
-0,7 0,2420 0,2389 0,2358 0,2327 0,2296 0,2266 0,2236 0,2206 0,2177 0,2148
-0,8 0,2119 0,2090 0,2061 0,2033 0,2005 0,1977 0,1949 0,1922 0,1894 0,1867
-0,9 0,1841 0,1814 0,1788 0,1762 0,1736 0,1711 0,1685 0,1660 0,1635 0,1611
-1,0 0,1587 0,1562 0,1539 0,1515 0,1492 0,1469 0,1446 0,1423 0,1401 0,1379
-1,1 0,1357 0,1335 0,1314 0,1292 0,1271 0,1251 0,1230 0,1210 0,1190 0,1170
-1,2 0,1151 0,1131 0,1112 0,1093 0,1075 0,1056 0,1038 0,1020 0,1003 0,0985
-1,3 0,0968 0,0951 0,0934 0,0918 0,0901 0,0885 0,0869 0,0853 0,0838 0,0823
-1,4 0,0808 0,0793 0,0778 0,0764 0,0749 0,0735 0,0721 0,0708 0,0694 0,0681
-1,5 0,0668 0,0655 0,0643 0,0630 0,0618 0,0606 0,0594 0,0582 0,0571 0,0559
-1,6 0,0548 0,0537 0,0526 0,0516 0,0505 0,0495 0,0485 0,0475 0,0465 0,0455
-1,7 0,0446 0,0436 0,0427 0,0418 0,0409 0,0401 0,0392 0,0384 0,0375 0,0367
-1,8 0,0359 0,0351 0,0344 0,0336 0,0329 0,0322 0,0314 0,0307 0,0301 0,0294
-1,9 0,0287 0,0281 0,0274 0,0268 0,0262 0,0256 0,0250 0,0244 0,0239 0,0233
-2,0 0,0228 0,0222 0,0217 0,0212 0,0207 0,0202 0,0197 0,0192 0,0188 0,0183
-2,1 0,0179 0,0174 0,0170 0,0166 0,0162 0,0158 0,0154 0,0150 0,0146 0,0143
-2,2 0,0139 0,0136 0,0132 0,0129 0,0125 0,0122 0,0119 0,0116 0,0113 0,0110
-2,3 0,0107 0,0104 0,0102 0,0099 0,0096 0,0094 0,0091 0,0089 0,0087 0,0084
-2,4 0,0082 0,0080 0,0078 0,0075 0,0073 0,0071 0,0069 0,0068 0,0066 0,0064
-2,5 0,0062 0,0060 0,0059 0,0057 0,0055 0,0054 0,0052 0,0051 0,0049 0,0048
-2,6 0,0047 0,0045 0,0044 0,0043 0,0041 0,0040 0,0039 0,0038 0,0037 0,0036
-2,7 0,0035 0,0034 0,0033 0,0032 0,0031 0,0030 0,0029 0,0028 0,0027 0,0026
-2,8 0,0026 0,0025 0,0024 0,0023 0,0023 0,0022 0,0021 0,0021 0,0020 0,0019
-2,9 0,0019 0,0018 0,0018 0,0017 0,0016 0,0016 0,0015 0,0015 0,0014 0,0014
-3,0 0,0013 0,0013 0,0013 0,0012 0,0012 0,0011 0,0011 0,0011 0,0010 0,0010
-3,1 0,0010 0,0009 0,0009 0,0009 0,0008 0,0008 0,0008 0,0008 0,0007 0,0007
-3,2 0,0007 0,0007 0,0006 0,0006 0,0006 0,0006 0,0006 0,0005 0,0005 0,0005
-3,3 0,0005 0,0005 0,0005 0,0004 0,0004 0,0004 0,0004 0,0004 0,0004 0,0003
-3,4 0,0003 0,0003 0,0003 0,0003 0,0003 0,0003 0,0003 0,0003 0,0003 0,0002
-3,5 0,0002 0,0002 0,0002 0,0002 0,0002 0,0002 0,0002 0,0002 0,0002 0,0002
-3,6 0,0002 0,0002 0,0001 0,0001 0,0001 0,0001 0,0001 0,0001 0,0001 0,0001
-3,7 0,0001 0,0001 0,0001 0,0001 0,0001 0,0001 0,0001 0,0001 0,0001 0,0001
-3,8 0,0001 0,0001 0,0001 0,0001 0,0001 0,0001 0,0001 0,0001 0,0001 0,0001
-3,9 0,0000 0,0000 0,0000 0,0000 0,0000 0,0000 0,0000 0,0000 0,0000 0,0000

206

Distribuio t de Student

g.l.
0,25 0,1 0,05 0,025 0,01 0,005 0,001
1
1,000 3,078 6,314 12,706 31,821 63,657 318,309
2
0,816 1,886 2,920 4,303 6,965 9,925 22,327
3
0,765 1,638 2,353 3,182 4,541 5,841 10,215
4
0,741 1,533 2,132 2,776 3,747 4,604 7,173
5
0,727 1,476 2,015 2,571 3,365 4,032 5,893
6
0,718 1,440 1,943 2,447 3,143 3,707 5,208
7
0,711 1,415 1,895 2,365 2,998 3,499 4,785
8
0,706 1,397 1,860 2,306 2,896 3,355 4,501
9
0,703 1,383 1,833 2,262 2,821 3,250 4,297
10
0,700 1,372 1,812 2,228 2,764 3,169 4,144
11
0,697 1,363 1,796 2,201 2,718 3,106 4,025
12
0,695 1,356 1,782 2,179 2,681 3,055 3,930
13
0,694 1,350 1,771 2,160 2,650 3,012 3,852
14
0,692 1,345 1,761 2,145 2,624 2,977 3,787
15
0,691 1,341 1,753 2,131 2,602 2,947 3,733
16
0,690 1,337 1,746 2,120 2,583 2,921 3,686
17
0,689 1,333 1,740 2,110 2,567 2,898 3,646
18
0,688 1,330 1,734 2,101 2,552 2,878 3,610
19
0,688 1,328 1,729 2,093 2,539 2,861 3,579
20
0,687 1,325 1,725 2,086 2,528 2,845 3,552
21
0,686 1,323 1,721 2,080 2,518 2,831 3,527
22
0,686 1,321 1,717 2,074 2,508 2,819 3,505
23
0,685 1,319 1,714 2,069 2,500 2,807 3,485
24
0,685 1,318 1,711 2,064 2,492 2,797 3,467
25
0,684 1,316 1,708 2,060 2,485 2,787 3,450
26
0,684 1,315 1,706 2,056 2,479 2,779 3,435
27
0,684 1,314 1,703 2,052 2,473 2,771 3,421
28
0,683 1,313 1,701 2,048 2,467 2,763 3,408
29
0,683 1,311 1,699 2,045 2,462 2,756 3,396
30
0,683 1,310 1,697 2,042 2,457 2,750 3,385
40
0,681 1,303 1,684 2,021 2,423 2,704 3,307
60
0,679 1,296 1,671 2,000 2,390 2,660 3,232
120
0,677 1,289 1,658 1,980 2,358 2,617 3,160

0,674 1,282 1,645 1,96 2,326 2,576 3,09







207