Anda di halaman 1dari 214

Estatstica e

Probabilidades
Brulio Roberto Gonalves Marinho Couto
Janana Giovani Noronha de Oliveira
Octvio Alcntara Torres
Reinaldo Carvalho de Morais

Brulio Roberto Gonalves Marinho Couto


Janana Giovani Noronha de Oliveira
Octvio Alcntara Torres
Reinaldo Carvalho de Morais

ESTATSTICA E PROBABILIDADES

Belo Horizonte
Junho de 2015

COPYRIGHT 2015
GRUPO NIMA EDUCAO
Todos os direitos reservados ao:
Grupo nima Educao
Todos os direitos reservados e protegidos pela Lei 9.610/98. Nenhuma parte deste livro, sem prvia autorizao
por escrito da detentora dos direitos, poder ser reproduzida ou transmitida, sejam quais forem os meios
empregados: eletrnicos, mecnicos, fotogrficos, gravaes ou quaisquer outros.
Edio
Grupo nima Educao
Vice Presidncia
Arthur Sperandeo de Macedo
Coordenao de Produo
Gislene Garcia Nora de Oliveira
Ilustrao e Capa
Alexandre de Souza Paz Monsserrate
Leonardo Antonio Aguiar
Equipe EaD

Conhea
o Autor
Brulio Roberto Gonalves Marinho Couto
doutor em Bioinformtica, mestre em Cincia
da Computao, especialista em Estatstica,
bacharel em Engenharia Qumica e tcnico
em Qumica. Atuante nas reas de Estatstica,
Clculo Numrico, Informtica em Sade,
Epidemiologia Hospitalar e Bioinformtica.
Professor do Centro Universitrio de Belo
Horizonte (UniBH).

Conhea
a Autora
Janana

em

mestre

Giovani
em

Licenciatura

Noronha
Estatstica
em

de
e

Oliveira
graduada

Matemtica

com

Habilitao em Fsica. Possui experincia


como docente na rea de Matemtica e
Estatstica do Ensino superior e mdio.
Experincia com orientao de Monografias.

Conhea
o Autor
Octvio Alcntara Torres bacharel em
Estatstica e mestre em Demografia. Possui
experincia nas reas de probabilidade
e

estatstica,

regresso

correlao,

anlise estatstica multivariada e controle


estatstico de processo. reas de interesse:
projees populacionais, projees de mo
de obra qualificada, pesquisa de mercado,
estatstica aplicada.

Conhea
o Autor
Reinaldo Carvalho de Morais mestre e
bacharel em Administrao Pblica, graduado
em Estatstica e especialista em Gesto
Financeira. Possui experincia em pesquisas
sobre economia e finanas pblicas mineiras,
bem como docncia nas disciplinas de
estatstica, de economia, de engenharia
econmica, de matemtica financeira e de
administrao da produo.

Apresentao
da disciplina
Egressos de cursos de Engenharia e Tecnologia so profissionais que
resolvem problemas. E como isso ocorre? Pela aplicao eficiente
do mtodo cientfico. Pois bem, disso que se trata essa disciplina:
apresentar

ferramentas

estatsticas

que

possibilitaro

voc

transformar-se num especialista em qualquer rea do conhecimento


e, portanto, apto a resolver problemas. A disciplina dividida em oito
unidades cujo objetivo introduzir o aluno na rea da Estatstica e
Probabilidades, tornando-o capaz de planejar e de executar experimentos
de pequeno e mdio porte nas reas de Cincias Exatas e de Engenharia.
Alm de fazer a anlise exploratria dos dados e de realizar inferncias,
por meio da tomada de deciso na presena de incerteza.
A Unidade 1 apresenta definies fundamentais para a correta
compreenso do processo de coleta e de anlise de dados. Conceitos
sobre populao e amostra, censo e amostragem, e variveis so
discutidos nessa unidade. A Unidade 2 trata da anlise exploratria de
dados, quando so apresentadas tcnicas de Estatstica Descritiva. O
objeto dessa unidade, bastante intuitiva, trabalhar a sntese numrica,
grfica e tabular dos dados. A ideia usar ferramentas como o Excel para
construir tabelas e grficos, como histograma, diagrama de disperso,
Pareto e calcular valores como mdia, mediana, desvio padro, e
coeficiente de variao. Na Unidade 3 so introduzidos conceitos bsicos
de probabilidades, cruciais para que se entenda o processo de tomada
de deciso na presena de incerteza. A Unidade 4 uma continuao
da terceira unidade, so apresentados os modelos probabilsticos mais
importantes para se modelar problemas de pequeno e mdio porte na
rea de Engenharia e Tecnologia.
A partir da Unidade 5 caminhamos para a rea nobre da Estatstica, que
envolve as inferncias, isto , o processo de generalizao de resultados
parciais, observados em amostras, para toda a populao envolvida
num problema. Nessa unidade discutida a forma de obter os intervalos

de confiana, tanto para mdia quanto para proporo. Na Unidade 5


discute-se, por exemplo, como o resultado de uma pesquisa eleitoral
calculado e o significado do intervalo definido pela soma e subtrao de
uma margem de erro.
A Unidade 6 voltada para o planejamento de experimentos, quando
apresentado, por exemplo, como calcular o tamanho de uma
amostra. Em alguns livros este item colocado na primeira unidade,
o que tem certa lgica por tratar da coleta de dados, primeira etapa
de qualquer anlise estatstica.

Entretanto, como so necessrios

conceitos probabilsticos e de inferncia para entender o planejamento


de experimentos, optamos por colocar essa unidade logo aps a
discusso sobre intervalos de confiana.
As Unidades 7 e 8 fecham a disciplina, apresentado as ferramentas mais
teis para que voc finalmente se transforme num especialista em uma
rea qualquer e, portanto, realmente apto a resolver seus problemas. Na
Unidade 7 so discutidos os mtodos para fazer e interpretar testes de
hipteses, num contexto uni variado e, na Unidade 8, discute-se mtodos
de correlao e regresso, introduzindo a anlise multivariada.
Ao longo das oito unidades, procuraremos apresentar uma abordagem
baseada em PPL Aprendizagem Baseada em Problemas, alm de
usarmos como ferramentas computacionais o Microsoft Excel e o
software de domnio pblico, EpiInfo.
Bom trabalho!
Brulio, Janana, Octvio e Reinaldo.

UNIDADE 1 
Introduo estatstica 
Conceitos bsicos 
O papel das variveis numa base de dados: identificao, auxiliares,
variveis explicativas e varivel reposta (desfecho) 
Tipos de variveis
Uso do Excel como um sistema de gerenciamento de dados
e dos formulrios do Google Docs para coleta de informaes
Reviso 

003
004
006

UNIDADE 2 
Anlise exploratria de dados 
Sntese grfica de dados 
Sntese tabular de dados 
Sntese numrica de dados
Reviso

023
024
026
047
048
059

UNIDADE 3 
Introduo teoria de probabilidades 
A teoria das probabilidades
Probabilidade clssica e probabilidade frequentista 
Leis bsicas de probabilidades 
Unio e interseo de eventos
Tabelas de contingncia
Eventos independentes
Teorema de Bayes
Reviso

061
062
064
066
067
068
070
072
072
076

UNIDADE 4 
Modelos probabilsticos 
Variveis aleatrias 
Modelos probabilsticos 
Distribuio binomial
Distribuio Poisson
Distribuio normal
Reviso

079
080
081
088
088
089
090
095

012
015
017
021

UNIDADE 5 
Estimao de mdias e propores 
Teorema central do limite 
Estimao pontual e por intervalos de confiana para uma
mdia populacional 
Estimao pontual e por intervalos de confiana para uma
proporo populacional
Uso do Excel no clculo de intervalos de confiana para
mdia e proporo
Introduo ao programa EpiInfo 
Reviso

096
097
099

UNIDADE 6 
Planejamento de experimentos 
Clculo de tamanho de amostra baseado em intervalos de
confiana para uma proporo 
Clculo de tamanho de amostra baseado em intervalos de confiana
para uma mdia 
Planejamento de experimentos
Planejamento de experimentos - terminologia bsica
Reviso

124
125

UNIDADE 7 
Testes de Hipteses 
A construo e o significado de uma hiptese estatstica 
Testes para uma amostra 
Testes para duas ou mais amostras
Reviso

147
148
149
151
167
172

UNIDADE 8 
Anlise de correlao e regresso 
Anlise de correlao 
Regresso linear simples 
Regresso linear mltipla
Reviso

174
175
176
185
193
200

REFERNCIAS 

202

103
112
116
120
121

127
132
135
140
144

Introduo
estatstica
Introduo
Podemos entender o mtodo estatstico como um processo para obter,
apresentar e analisar caractersticas ou valores numricos, identificando
padres que possibilitam a tomada de deciso em situaes de incerteza.
Pode acreditar, se voc aplicar o mtodo estatstico para a anlise e soluo
de problemas, muito rapidamente se tornar um especialista de qualquer
rea do conhecimento! Num mundo real, completamente cercado de
incertezas, ser capaz de identificar padres de comportamento de
pessoas, projetos, produtos, servios, etc pode transform-lo num mago.
Entretanto, antes de voc transformar-se num mago, necessrio
um entendimento adequado do mtodo estatstico, que tem suas
armadilhas. Costumo dizer que Estatstica no Matemtica... muito
mais difcil. Na verdade, Estatstica uma das reas da Matemtica

Conceitos
bsicos
O papel das
variveis numa
base de dados:
identificao,
auxiliares,
variveis
explicativas e
vriavel reposta
(desfecho)
Tipos de
variveis

(uma nica resposta correta). Na Estatstica, os problemas tm vrias

Uso do Excel
como um
sistema de
gerenciamento
de dados e dos
formulrios do
Google Docs
para coleta de
informaes

formas de serem resolvidos, podem chegar a resultados diferentes e

Reviso

que, por sinal, a Cincia cuja aplicao no mundo real possibilitou ter
uma vida incrivelmente confortvel. Bom, quando afirmo que Estatstica
no Matemtica, quero dizer que, na Matemtica que voc aprendeu no
Ensino Fundamental e Mdio, os problemas tm usualmente uma nica
forma de serem resolvidos e devem todos chegar ao mesmo resultado

todos esto corretos! Isso ocorre porque a Estatstica requer a habilidade


de considerarmos as coisas dentro de uma perspectiva probabilstica, o
que vai completamente contra a conceituao usual dos problemas em
simplesmente certo ou errado. No buscaremos a verdade absoluta,
mas padres de comportamento que nos possibilitaro tomar decises
com alto grau de confiana.

Para melhor entendermos o que ser discutido, o mtodo estatstico


ser dividido em quatro grandes reas:
1. amostragem e coleta de dados;
2. anlise exploratria de dados (estatstica descritiva);
3. teoria de probabilidades;
4. deciso na presena de incerteza (inferncia).
A ideia por trs dessa unidade levar at voc o conhecimento
fundamental que lhe permitir entender a coleta de dados.
Estudaremos conceitos fundamentais de Estatstica, questes
simples, mas essenciais para que tenhamos sucesso nas outras
etapas do mtodo estatstico, que sero discutidas nas prximas
unidades. Estes so os objetivos da Unidade 1:
a) apresentar conceitos bsicos de Estatstica e Probabilidades;
b) identificar as funes e os principais tipos de dados e de variveis;
c) identificar e corrigir problemas de dados faltantes (missing);
d) configurar o Excel como instrumento de coleta de dados;
e) entender o sistema de endereamento de clulas do Excel.
f) construir formulrios de coleta de dados no Google Docs;
g) enviar formulrios de coleta de dados por meio de mala direta.
crucial que voc entenda os conceitos que sero discutidos
nessa unidade. Sem o entendimento do que seja, por exemplo, uma
varivel, o seu tipo e a sua funo na base de dados, no h como
voc ser feliz nas outras etapas do processo!

ESTATSTICA E PROBABILIDADES

Conceitos
bsicos
Voc sabe o que populao? E amostra? Vejamos o exemplo a seguir.

Vamos supor que uma cozinheira esteja preparando dois litros de sopa.
Como ela sabe se a sopa est temperada?
Os dois litros de sopa formam a populao e, se a cozinheira
comer/provar toda a sopa, estar fazendo um censo, o que geraria
um absurdo do tipo , a sopa estava tima!.
A cozinheira sabe que em experimentos baseados em ensaios
destrutivos, quando a prpria anlise destri o dado coletado, o
censo um absurdo. Na verdade, ela sabe que censos, de modo
geral, so inviveis, muito caros e/ou muito demorados. Mais
ainda, ela sabe que se usar uma pequena amostra cuidadosamente
retirada, chamada amostra representativa, poder tomar decises
sobre toda a populao envolvida no problema com um alto grau
de confiana.
A cozinheira ento retira uma pequena amostra, uma pitada
da comida, prova-a e generaliza o resultado para toda a sopa.
Isso chamado de inferncia: tomar decises sobre toda uma
populao com base em informaes parciais de uma amostra
(veja a FIGURA 1).
Entretanto, a cozinheira sabe que para fazer inferncias vlidas,
deve tomar cuidado para no trabalhar com amostras viciadas. E o
que seria isso?
Se ela retirar uma amostra somente da parte de cima da sopa, muito
provavelmente ter uma amostra viciada, isto , sem representantes

006

unidade 1

ESTATSTICA E PROBABILIDADES

de todos os componentes da sopa como um todo que, neste caso,


a populao amostrada.
E como ela retira uma amostra representativa da sua populao
(sopa)? Como a cozinheira procede para obter uma amostra com
representantes de cada estrato da sopa?
Simples, ela mistura a sopa fazendo uma homogeneizao e sorteia
uma poro/pitada que ser usada no seu processo decisrio.
Fazendo uma amostragem aleatria, a cozinheira sabe que ter
grande chance de trabalhar com amostras representativas.
Podemos agora resumir esses conceitos.
Populao:
a. consiste na totalidade das unidades de observao a partir
dos quais ou sobre os quais deseja tomar uma deciso;
b. conjunto de elementos que formam o universo do nosso
estudo e que so passveis de serem observados;
c. conjunto de indivduos sobre os quais recairo todas as
generalizaes das concluses obtidas no estudo;
d. usualmente, as unidades de observaes so pessoas,
objetos ou eventos;
e.  o universo a ser amostrado;
f. do ponto de vista matemtico, a populao definida como
um conjunto de elementos que possuem pelo menos uma
caracterstica em comum (SILVA, 2001).
Populao finita: o nmero de unidades de observao pode ser
contado e limitado. Exemplos:
a. alunos

matriculados

na

disciplina

Estatstica

Probabilidades;

007

unidade 1

Populao finita: o
nmero de unidades
de observao pode
ser contado e
limitado.

ESTATSTICA E PROBABILIDADES

b. todas as declaraes de renda recebidas pela Receita Federal;


c. todas as pessoas que compram telefone celular num
determinado ano;
d. um lote com N produtos.
Populao infinita: a quantidade de unidades de observao
ilimitada, ou a sua composio tal que as unidades da populao
no podem ser contadas. Exemplos:
a. conjunto de medidas de determinado comprimento;
b. gases, lquidos e alguns slidos em que as suas
unidades no podem ser identificadas e contadas.
Amostra: conjunto de unidades selecionadas de uma populao, ou
seja, uma parte dos elementos da populao.
Amostra representativa: uma verso em miniatura da populao,
exatamente como ela , somente menor. A amostra representativa
segue o modelo populacional, tal que suas caractersticas
importantes so distribudas similarmente entre ambos os grupos.
Unidade amostral: a menor parte distinta de uma populao,
identificvel para fins de seleo e construo da amostra.
Amostra aleatria: aquela obtida por meio de um processo de
sorteio ou aleatorizao.
Amostra viciada: aquela que representa apenas parte da
populao, no possuindo elementos de todos os estratos ou
subconjuntos que formam a populao como um todo.
Censo: exame de todas as unidades de observao de uma
populao. Como discutido no exemplo da cozinheira, se a

008

unidade 1

Populao infinita:
a quantidade
de unidades de
observao
ilimitada, ou a sua
composio tal
que as unidades
da populao no
podem ser contadas.

ESTATSTICA E PROBABILIDADES

pesquisa envolve ensaio destrutivo, o censo invivel. Na verdade,


somente se a populao alvo for pequena razovel observ-la
por inteiro, atravs do censo, pois mesmo quando viveis, censos
so caros e demorados. Outros exemplos de ensaios destrutivos,
nos quais impossvel aplicar censo: pesquisa sobre a fora de
trao de um lote de barras de ao para construo; pesquisa
sobre contaminao de soro fisiolgico em um lote; testes de
resistncia e durabilidade de um lote de concreto; tempo de pega
de um lote de cimento.
Amostragem: processo pelo qual uma amostra de unidades da
populao retirada e observada. a parte mais importante
do processo de pesquisa. O principal e fundamental objetivo de
qualquer plano de amostragem selecionar a amostra, de tal
maneira que ela retrate fielmente a populao pesquisada.
FIGURA 1 - Populao alvo, populao amostrada e amostra

Populao alvo do estudo

Populao
amostrada

Inferncia
Amostra

Fonte: Elaborado pelo autor.

Inferir significa generalizar resultados de uma amostra para toda


a populao.

Por que usar amostras? Por que no incluir no estudo todos os


indivduos da populao?

009

unidade 1

ESTATSTICA E PROBABILIDADES

A amostragem deve ser usada porque torna o processo eficiente


e preciso. E ela eficiente, uma vez que o recurso que poderia
ser despendido na coleta de dados desnecessrios de um
grande nmero de indivduos pode ser gasto em outra atividade,
como na monitorao da qualidade da prpria coleta dos dados.
As amostras, por serem menores que a populao, podem ser
estudadas mais rapidamente que censos e so tambm mais
baratas. Alm disso, se o processo de amostragem gerar uma
amostra representativa da populao alvo do estudo, os resultados
observados podero ser generalizados, sem risco de chegar a
uma concluso diferente daquela que seria obtida se trabalhar
com toda a populao.
Vejamos agora alguns aspectos relevantes para o campo da
amostragem. So eles:
-- Questes da amostragem: Qual o tamanho da amostra?
Como a amostra ser obtida? Como garantir que a amostra
obtida seja representante da populao objeto do estudo? A
questo mais importante no o seu tamanho, mas como
a amostra ser obtida, pois a amostragem mal feita invalida
qualquer pesquisa.
-- Tamanho da amostra (n): est relacionado ao total de
unidades amostradas, usadas no processo de inferncia.
Imagino que voc esteja curioso em relao ao tamanho
da amostra, mas, como citado anteriormente, esta no
de longe a questo mais importante. Por exemplo, o que
voc que teria mais credibilidade numa pesquisa sobre
a aceitao (ou no) do aborto por parte da populao
brasileira: resultados de pesquisa realizada no domingo
noite por uma emissora de TV, envolvendo milhes de
pessoas que, aps assistirem a uma reportagem sobre o
assunto, responderam pesquisa; ou resultados de uma
amostra de 2.500 pessoas selecionadas aleatoriamente
no territrio brasileiro?

010

unidade 1

A amostragem deve
ser usada porque
torna o processo
eficiente e preciso.

ESTATSTICA E PROBABILIDADES

No entanto, essa no uma questo muito importante


para obtermos o tamanho da amostra adequada para uma
pesquisa, visto que necessrio estudarmos alguns conceitos
probabilsticos,

que

sero

apresentadas

somente

nas

prximas unidades.

A maioria das pessoas, quando questionadas sobre qual o tamanho da


amostra necessria para uma pesquisa, tem o raciocnio equivocado de
que o tamanho da amostra (n) tem relao direta com o tamanho da
populao amostrada (N). Inevitavelmente, a maioria das pessoas afirma
erroneamente que uma boa amostra deve conter pelo menos, digamos,
30% da populao. O que a cozinheira diria disto? Para provar dois litros
de sopa, quanto de amostra ela teria que avaliar? Isso mesmo, uma pitada.
E para provar 400 litros de sopa, ela beberia um prato inteiro? No. Ela
provar a mesma pitada, pois sabe que, o mais importante nesse processo
inferencial no o tamanho da amostra, mas provar uma amostra no
viciada, representativa de toda a sopa.

Voltando aos processos de amostragem, as amostras podem ser


classificadas em probabilsticas e no probabilsticas:
Amostra probabilstica:
-- existe uma garantia, em termos de probabilidade, de que
qualquer membro da populao possa ser selecionado
para amostra.
Amostra no probabilstica:
-- os elementos da amostra no so escolhidos por meio de
um sorteio.
CARVALHO

COUTO

(2003)

apresentam

as

principais

caractersticas de tipos de amostragem mais comuns, relacionados

011

unidade 1

Amostra
probabilstica:
existe uma garantia,
em termos de
probabilidade, de que
qualquer membro
da populao possa
ser selecionado para
amostra.

ESTATSTICA E PROBABILIDADES

principalmente com pesquisas de survey. Outras amostras, por


exemplo, amostragem de minrio, de solo, de gases e de lquidos
tm procedimentos prprios que buscam, em ltima instncia,
obter amostras que sejam representativas de cada populao
envolvida. Em suma, qualquer que seja o esquema de amostragem,
probabilstico ou no, deve-se sempre garantir que a amostra reflita
as caractersticas da populao da qual foi retirada.

Conforme discutido anteriormente, algumas pessoas acreditam que uma


amostra representativa necessria coletar dados de um percentual
mnimo da populao, digamos, 30% do total de indivduos. Isso
absolutamente falso e, o que pior, mesmo que fossem analisados
tal percentual de indivduos da populao, no o tamanho que
garante representatividade da amostra, mas a forma com ela obtida.
a imparcialidade do processo de seleo dos seus elementos e a
homogeneidade da distribuio das caractersticas da amostra e da
populao que garantem a representatividade da amostra.

O papel das variveis


numa base de dados:
identificao, auxiliares,
variveis explicativas
e varivel reposta
(desfecho)
O primeiro passo de qualquer processo estatstico a coleta
de dados. Portanto, tudo o mais ser alicerado sobre o que
for coletado. Sendo assim, essa fase deve ser cuidadosamente

012

unidade 1

Qualquer que
seja o esquema
de amostragem,
probabilstico ou
no, deve-se sempre
garantir que a
amostra reflita as
caractersticas da
populao da qual
foi retirada.

ESTATSTICA E PROBABILIDADES

planejada, j que da qualidade dos dados coletados depender


toda a anlise e a tomada de deciso subsequente.
Antes da coleta de um dado, importante entender o conceito
de varivel que est por trs da informao que voc procura. A
varivel contm a informao que voc quer analisar, sob a forma
de uma medio sobre determinadas caractersticas dos indivduos
estudados e das unidades de observao.
E, por que esse conceito to importante? Porque, no fim das contas,
a varivel que analisada e no a informao que ela contm. Por
isso, importante que voc, antes de sair coletando informaes,
analise o seu questionrio de coleta de dados, identifique cada varivel
envolvida e responda perguntas, tais como: O que exatamente a
varivel est medindo? Para que serve esta varivel e, principalmente,
possvel analis-la? E com que mtodo estatstico?

Uma varivel a quantificao de uma caracterstica de interesse da


pesquisa (SOARES e SIQUEIRA, 2002). Refere-se ao fenmeno a ser
pesquisado. o campo de variao de cada tipo de dado a ser pesquisado.
Observe que, como o prprio nome diz, uma varivel deve variar, ou seja,
se voc est coletando dados sobre caractersticas de alunos da disciplina
Clculo Diferencial, podemos pensar em inmeras variveis para a unidade
de observao aluno: idade, sexo, curso, local do ensino mdio, tempo
entre final do ensino mdio e incio da graduao, nota final, percentual de
presena s aulas etc. Entretanto, o tipo de disciplina no uma varivel
nesse caso, pois ela constante (Clculo Diferencial).

O grau de variabilidade de uma varivel chave no mtodo


estatstico e ser foco de discusses nas prximas unidades.
Entretanto, neste momento, crucial que voc entenda dois
aspectos bsicos de qualquer varivel: o seu tipo e a sua funo, o
papel que ela exerce na base de dados.

013

unidade 1

Uma varivel a
quantificao de
uma caracterstica
de interesse da
pesquisa (SOARES e
SIQUEIRA, 2002).

ESTATSTICA E PROBABILIDADES

Toda anlise que ser feita na base de dados depender do seu


entendimento sobre o tipo e a funo de cada varivel coletada!

Vejamos os tipos de funes de cada varivel:


QUADRO 1 - O papel de uma varivel numa base de dados.
TIPOS

CARACTERSTICAS

Variveis de identificao
e auxiliares

Servem para o rastreamento dos indivduos e das unidades


amostrais, ou so usadas na definio de outras variveis. Exemplos
de variveis de identificao: CPF, nome, nmero de matrcula,
nmero da amostra etc.
Exemplos de variveis auxiliares: datas, peso e altura.
Variveis de identificao e auxiliares no so analisadas, mas fazem
parte da base de dados.

Variveis explicativas

So aquelas que, por hiptese, podem influenciar, determinar ou afetar


a varivel resposta ou desfecho da pesquisa. So chamadas tambm
de co-variveis ou variveis independentes.
Para cada estudo existem variveis explicativas prprias, definidas
por hipteses da prpria pesquisa ou conforme reviso da literatura.
Em processos qumicos, quando se busca entender os fatores que
afetam o rendimento de uma reao qumica, so exemplos de
variveis explicativas a temperatura, a presso, o tipo de catalisador e
a concentrao de reagentes. Se algum pesquisar sobre as razes de
algumas pessoas serem maiores que outras, as alturas do pai e da me,
a origem tnica, a idade e o sexo so exemplos de variveis explicativas.

Varivel desfecho

aquela que queremos explicar, em funo de ser influenciada, afetada


por outros fatores (variveis explicativas). Tambm denominada de
varivel dependente ou varivel resposta. Sempre defina um ou mais
desfechos para o estudo, conforme os objetivos da sua pesquisa. Por
exemplo, numa pesquisa cujo objetivo explicar porque imveis de
uma mesma regio tm preos to variados, o preo de venda seria
uma varivel resposta. Fatores como rea, nmero de quatros, nmero
e tipo de vaga de garagem, quantidade de sutes, presena de salo de
festas ou piscina so algumas das possveis variveis explicativas para
esse problema.

Fonte: Elaborado pelo autor.

014

unidade 1

ESTATSTICA E PROBABILIDADES

A funo de cada varivel na base de dados, assim como o seu


tipo, definir que tipo de anlise ser feita. No subestime esses
conceitos pois, sem eles, no h como entender os mtodos de
anlise estatstica que sero estuados nas prximas unidades.

Tipos de
variveis
Se considerarmos a maioria absoluta das variveis envolvidas em
experimentos de pequeno e mdio porte nas reas de Cincias
Exatas e Engenharia, teremos duas situaes para o tipo da varivel.
I) Varivel qualitativa ou categrica: aquela que expressa
caractersticas ou atributos de classificao, distribudos em
categorias mutuamente exclusivas de objetos ou entidades.
Categorias mutuamente exclusivas ou mutuamente excludentes
no podem ser observadas simultaneamente num mesmo
indivduo. Por exemplo, grupo sanguneo (A, B, AB, O) uma
varivel categrica mutuamente exclusiva: um indivduo tem
somente um grupo sanguneo, no podendo ser classificado em
mais de uma categoria ao mesmo tempo. Variveis qualitativas
tm um nvel baixo de informao, sendo obtidas por um critrio
de classificao. Por exemplo, sexo (masculino, feminino), estado
civil (com companheiro, sem companheiro), cor de um produto
(branco, verde, amarelo, azul), tipo de transmisso de um carro
(manual, automtica), conformidade de qualidade de um produto
(aceito, no aceito), dia chuvoso (sim, no), resultado final de um
aluno numa disciplina (aprovado, reprovado) etc.
A anlise de uma varivel categrica muito restrita e simples:
conta-se quantas unidades amostrais ou resultados observados em
cada categoria da varivel e calcula-se o percentual de ocorrncia
de cada classe ou categoria.

015

unidade 1

A funo de cada
varivel na base de
dados, assim como o
seu tipo, definir que
tipo de anlise ser
feita.

ESTATSTICA E PROBABILIDADES

II) Varivel quantitativa: aquela obtida por meio de um processo


de medio ou contagem. Por exemplo: peso, altura, dosagem
e concentraes de produtos qumicos e outros insumos,
temperatura, presso, altitude, umidade, largura, dimetro,
comprimento, voltagem, corrente, quantidade de chuva (mm),
nmero de falhas, nmero de ligaes telefnicas, nmero de
mensagens eletrnicas, nmero de faltas de um aluno numa
disciplina, nota final na disciplina, rea, preo, etc.
A varivel quantitativa possui o mais alto nvel de informao,
sendo objeto de inmeras tcnicas de anlise. Para cada varivel
quantitativa podemos calcular seu valor mdio, mediano, modal,
mnimo, mximo, seu desvio padro, coeficiente de variao,
intervalos especficos de variao e outras tcnicas analticas que
sero descritas na prxima unidade.
As variveis quantitativas so chamadas tambm de numricas,
mas essa nomenclatura pode gerar confuso, pois o simples
fato de alocar nmeros aos resultados de uma varivel no a
torna quantitativa. Por exemplo, se os grupos sanguneos fossem
classificados em 1, 2, 3 e 4 (ao invs de A, B, AB e O), tal codificao
no a tornaria uma varivel quantitativa. Na verdade, para que uma
varivel seja quantitativa, deve ser possvel aplicarmos operaes
aritmticas aos seus resultados. A capacidade de realizarmos, por
exemplo, somas e subtraes vlidas aos resultados de uma
varivel um indicativo de que ela quantitativa. Claro que a anlise
do seu processo de obteno mais importante: os resultados
de uma varivel quantitativa devem ser obtidos por medio ou
contagem. Alm disso, essas variveis podem ser contnuas,
quando representadas por nmeros reais, ou discretas, quando
representadas por nmeros inteiros.
Usualmente, se ela obtida por medio, ento contnua. Caso
seja obtida por meio de contagem, uma varivel discreta. Para
efeitos prticos, no faremos distino entre variveis contnuas e
discretas, o fundamental entend-las como quantitativas.

016

unidade 1

As variveis
quantitativas so
chamadas tambm
de numricas.

ESTATSTICA E PROBABILIDADES

Algumas variveis originalmente de classificao. As notas obtidas


por um aluno numa prova so tratadas como quantitativas, mesmo
que no sejam obtidas por meio de um aparelho ou dosador. Nesse
caso, a nota de uma prova tratada como varivel quantitativa
porque considera-se vlido aplicar operaes aritmticas aos seus
resultados. Entretanto, ser que um aluno que obtm 80 pontos
numa disciplina sabe o dobro que um aluno que obteve 40 pontos?
Claro que no. J uma pessoa de 100 Kg tem o dobro de peso de
uma pessoa de 50 Kg. Outro exemplo, as temperaturas medidas
em Graus Celsius so tratadas como variveis quantitativas. Isso
quer dizer que um dia com 40C tem o dobro de calor de um dia
com 20C? Transforme os valores em Graus Celsius para Kelvin e
compare o resultado.
Bom, os conceitos por trs dessa discusso envolve o nvel de
mensurao da varivel (nominal, ordinal, intervalar e de razo) que
ser tratado a seguir. Para efeito prtico, consideraremos somente
duas categorias de variveis: quantitativas versus categricas.
Conforme citado anteriormente, esses so os tipos de varivel
coletadas em problemas tpicos de Cincias Exatas e de Engenharia.

Uso do Excel como


um sistema de
gerenciamento de dados
e dos formulrios do
Google Docs para coleta
de informaes
Duas

ferramentas

essenciais

para

coleta

de

dados

de

experimentos de pequeno e mdio porte na rea de Cincias


Exatas e Engenharia so o Excel, um dos componentes do

017

unidade 1

Para efeito prtico,


consideraremos
somente duas
categorias
de variveis:
quantitativas versus
categricas.

ESTATSTICA E PROBABILIDADES

pacote Office da Microsoft, e os Formulrios do Google Docs


<https://docs.google.com/forms>.
O Excel uma planilha eletrnica com origens no Lotus
1-2-3 (GAZZARRRINI, 2013). Ambas as ferramentas so
extremamente prticas, de grande utilidade e sero discutidas
por meio de vdeo aulas.
Os formulrios do Google Docs so timos para pesquisas
envolvendo pessoas que tm endereo eletrnico (e-mails).
Para us-los voc ter que obter uma lista com os nomes dos
respondentes e os respectivos e-mails. Aps construir o formulrio
de coleta de dados no Google Docs, voc poder envi-lo usando o
mecanismo de mala direta, da aba correspondncias do Word,
que tambm parte do pacote Office da Microsoft. As respostas
enviadas pelos respondentes so automaticamente armazenadas
em planilha eletrnica, facilitando a coleta e a anlise dos dados.
crucial que voc domine o Excel como instrumento de coleta
de dados e entenda perfeitamente o papel de cada varivel a ser
coletada. Identificar variveis explicativas e desfecho (s), distinguir
entre varivel quantitativa e categrica uma questo relativamente
simples, mas fundamental para as discusses que sero feitas nas
prximas unidades.

Considere o artigo Utilizao de efluente de frigorfico, tratado com


macrfita aqutica, no cultivo de tilpia do Nilo, de autoria de Adilson
Reidel e outros pesquisadores da Universidade Estadual do Oeste do
Paran (REIDEL et al.; 2005) disponvel em:
<http://www.agriambi.com.br/revista/suplemento/index_arquivos/
PDF/181.pdf>

018

unidade 1

ESTATSTICA E PROBABILIDADES

Neste trabalho, os pesquisadores fizeram um experimento em que,


resumidamente, foram colocadas amostras aleatrias de alevinos
(filhotes) de tilpia em aqurios com gua potvel (tratamento A) e em
tanques com efluente de frigorfico aps passar num sistema de filtro com
aguap (tratamento B), avaliando-se comparativamente o desenvolvimento
e a sobrevivncia dos peixes. A pergunta principal da pesquisa era:
possvel cultivar tilpias em efluente de frigorfico tratado com aguap?
Nas tabelas 1 e 2 do artigo, so apresentados alguns resultados e um
conjunto de variveis envolvidas na pesquisa.

TABELA 1 Valores mdios dos parmetros fsico-qumicos


determinados durante o cultivo da tilpia do Nilo (O. niloticus)
TRATAMENTOS

PARMETROS

26,4 = 1,60

26,4 = 1,70

Oxigienio Dissolvido (mg L )

7,17 = 0,60

7,18 = 0,90

Condutividade Eltrica (uS cm-1)

227,48 = 36

1779,7 = 68

pH

8,44 = 0,12

7,40 = 0,35

Temperatura mdia (C)


-1

Tratamentos: (A) controle (gua potvel + rao); (B) efluente tratado (efluente do sistema de
filtro de aguap + rao)
Fonte: REIDEL et al., 2005.

TABELA 2 Valores mdios de desempenho e sobrevivncia de alevinos


de tilpia do Nilo, cultivados com gua potvel e efluente tratado
VARIVEIS

Tratamento A

Tratamento B

mdia

mdia

Peso inicial (indivduo) (g)

0,235 a

43,267

0,232 a

46,113

Biomassa inicial (aqurio) (g)

1,172 a

2,426

1,160 a

1,901

0,001

Peso final (indivduo) (g)

1,391 a

42,269

1,054 a

45,582

0,028

Biomassa final (aqurio)

5,280 a

38,890

4,300 a

45,721

0,028

75 a

80,467

80 a

25,819

0,08

Sobrevivncia (%)

Teste t-Student
T calculado

Mdias seguidas da mesma letra, na linha, no diferem significadamente pelo teste t de Student ao nvel 5% de significncia

Fonte: REIDEL et al.; 2005.

019

unidade 1

ESTATSTICA E PROBABILIDADES

Esse um exemplo prtico da aplicao de conceitos discutidos


na Unidade 1 em experimentos de pequeno e mdio porte na rea
de Cincias Exatas e de Engenharia.

O experimento baseado

em amostragem e analisa o impacto de variveis explicativas em


desfechos diretamente ligados ao objetivo do projeto: sobrevivncia
dos peixes, peso e biomassa final no aqurio.
Nesse trabalho so usadas trs variveis resposta, uma categrica
(O peixe sobreviveu? sim ou no) e dois desfechos quantitativos
(peso final e biomassa final, medidos em gramas).

Dentre as

variveis explicativas envolvidas, a mais importante, que est


diretamente ligada ao objetivo da pesquisa o tipo de tratamento (A
versus B), uma varivel categrica dicotmica.
Muitas pessoas tm dificuldade em identificar essa varivel
explicativa, apesar dela ser a mais importante na pesquisa. As
outras variveis explicativas so todas quantitativas e, como tal,
foram obtidas por meio de um processo de medio, contagem
ou dosagem: temperatura (C), oxignio Dissolvido (mg L-1),
condutividade Eltrica (S cm-1), pH, peso inicial (g) e biomassa
inicial (g).
Nas tabelas apresentadas aparecem mtricas (mdia, desvio
padro e valor de t de student) que so usadas na anlise e na
concluso do projeto. Fique tranquilo, esses conceitos sero
tratados nas prximas unidades!
De qualquer forma, a concluso da pesquisa para a pergunta
possvel cultivar tilpias em efluente de frigorfico tratado com
aguap?, : Sim, possvel cultivar tilpias em efluente de
frigorfico tratado com aguap. Os dados no mostraram diferena
significativa entre os dois tratamentos, tanto em relao ao
desenvolvimento quanto sobrevivncia dos peixes.
O entendimento completo das razes para chegar a essa concluso
ser obtido nas prximas unidades. Entretanto, neste momento,

020

unidade 1

ESTATSTICA E PROBABILIDADES

fundamental que voc j entenda conceitos referentes ao processo


de amostragem/coleta de dados e, principalmente, que consiga
diferenciar os tipos e as funes das variveis numa pesquisa.

Reviso
Vimos nessa unidade alguns dos principais tpicos introdutrios do
campo da Estatstica. Em resumo, estudamos sobre:
Populao, amostra, censo e amostragem:
-- Censo de toda a populao no vivel, devido aos altos
custos e/ou quando a pesquisa envolve ensaios destrutivos.
-- Uma pequena, mas cuidadosamente escolhida amostra
pode ser usada para representar a populao.
-- Os resultados observados numa amostra representativa
podero ser generalizados, sem risco de chegar a uma
concluso diferente daquela que seria obtida no caso de
trabalhar com toda a populao.
-- A questo mais importante numa amostragem no
o tamanho da amostra, mas como a amostra ser
obtida, pois o delineamento amostral mal feito invalida
qualquer pesquisa.
Tipos de variveis:
-- Varivel qualitativa ou categrica: aquela que expressa
caractersticas ou atributos de classificao, distribudos
em categorias mutuamente exclusivas de objetos ou
entidades.
-- Varivel quantitativa: aquela obtida por meio de um
processo de medio ou contagem.

021

unidade 1

Varivel
quantitativa:
aquela obtida
por meio de um
processo de medio
ou contagem.

ESTATSTICA E PROBABILIDADES

Funo das variveis:


-- Variveis de identificao e auxiliares: servem para o
rastreamento dos indivduos e das unidades amostrais ou
so usadas na definio de outras variveis.
-- Variveis explicativas: so aquelas que, por hiptese,
podem influenciar, determinar ou afetar a varivel resposta
ou desfecho da pesquisa.
-- Varivel desfecho: aquela que queremos explicar, em
funo de ser influenciada e/ou afetada por outros fatores
(variveis explicativas). Tambm denominada de varivel
dependente ou varivel resposta. Aconselha-se sempre
definir um ou mais desfechos para o estudo, conforme os
objetivos da sua pesquisa.
Ainda compreendemos que alguns sistemas computacionais so
ferramentas essenciais para coleta de dados de experimentos de
pequeno e mdio porte na rea de Cincias Exatas e da Engenharia.
So eles: o Excel, um dos componentes do pacote Office da Microsoft,
e os Formulrios do Google Docs <https://docs.google.com/forms>.

Para aprofundar sobre as questes discutidas nessa unidade, leia o


Captulo 1 do livro texto: LEVINE, David M. et al. Estatstica: teoria e
aplicaes usando Microsoft Excel em portugus, 3 edio ou superior:
Introduo e Coleta de Dados, assim como o suplemento do captulo 1
Introduo Utilizao do Microsoft Excel.

022

unidade 1

Anlise
exploratria
de dados
Introduo
Conforme citado na Unidade 1, se voc usar tcnicas de anlise
estatstica, voc poder rapidamente se transformar num especialista
em qualquer assunto, certo? Pois bem, como exemplo, que tal se tornar
um especialista em reprovao em disciplinas bsicas de cursos de
Engenharia e Tecnologia? E voc no precisar repetir nenhuma
dessas disciplinas para ser um especialista em reprovao...! Esse
um problema bem conhecido, mas suas causas e fatores associados
no! Uma hiptese que durante o ensino fundamental e mdio muitos
alunos no conseguem adquirir habilidade em resolver problemas
matemticos. Essa deficincia ento culmina nos cursos de Engenharia
com altos ndices de reprovao no ciclo bsico. Disciplinas como
Clculo Diferencial, Geometria Analtica e lgebra Linear (GAAL),
Qumica Geral e Algoritmos (AEDS) podem ser verdadeiros infernos
para alunos da rea de Exatas.

Sintese grfica
de dados
Sintese tabular
de dados
Sinteses
numrica de
dados
Reviso

Considerando o problema geral desempenho acadmico em


disciplinas de ciclo bsico de cursos de Engenharia, que tal analisar
dados de amostra de alunos, buscando identificar as caractersticas
e possveis fatores associados aos desfechos conceito (aprovado
ou reprovado), nota histrico (0 a 100 pontos) e abandonou a
disciplina? (sim ou no)?
Para resolver o problema acima, qual a primeira providncia? Muitos
podem pensar: Preciso estudar melhor o assunto, fazer uma
reviso da literatura sobre o problema. Em seguida, preciso planejar
e executar a coleta dos dados. Essa primeira etapa j foi feita e

faz parte de projeto de iniciao cientfica do Centro Universitrio


de Belo Horizonte UniBH, cujo ttulo da pesquisa Fatores
associados ao desempenho acadmico de alunos em disciplinas do
ciclo bsico de cursos de Engenharia. A pesquisa foi aprovada pelo
Comit de tica em Pesquisa (CEP) do UniBH com o n 920.308,
em 17/12/2014 e os dados esto disponveis para download no link:
http://disciplinas.nucleoead.com.br/complementos/graduacao/
grad_ep/arquivos/dados_brutos.xlsx.
Agora que voc j tem acesso aos dados, qual o prximo passo para
resolvermos o problema de reprovao e abandono em Clculo,
GAAL, Qumica Geral e AEDS? A primeira etapa de qualquer anlise
estatstica, ou melhor, a fase preliminar da busca das informaes
agregadas a dados j coletados, a anlise exploratria dos
mesmos. Como o prprio nome diz, a anlise exploratria dos
dados o conjunto de ferramentas da Estatstica Descritiva que tm
como objetivo fazer uma sntese dos dados, organizando-os sob a
forma de tabelas, grficos e nmeros. Portanto, para entendermos e
resolvermos nosso problema de reprovao, precisamos estudar as
ferramentas da Estatstica Descritiva:
a. Sntese tabular: Resumo da anlise por meio de tabelas;
b. Sntese numrica: Medidas de posio (mdia e mediana)
e medidas de variabilidade (soma dos quadrados dos
resduos, varincia, desvio padro, coeficiente de variao);
c. Sntese grfica: Grficos de pizza, barra, coluna, linha, sries
histricas, histograma, grfico de Pareto, grfico misto, de
coluna e de linha, diagrama de disperso e box-plot.
O objetivo desta unidade promover o conhecimento fundamental
que lhe permitir entender dados coletados, transformando dados
brutos em informaes teis!

ESTATSTICA E PROBABILIDADES

Sntese grfica
de dados
Uma figura vale mais que mil palavras! Isso verdade, entretanto um
grfico vale mais que mil palavras se e somente se ele for desenhado
de forma clara, correta e concisa. Sempre desenhe grficos a partir
de seus dados, mas tente faz-los de tal forma que a frase basta
olhar para entender seja vlida. Os grficos mais teis para anlise
de dados de experimentos de pequeno e mdio porte na rea de
Cincias Exatas e Engenharia so: grficos de pizza, barras, colunas,
linha, sries histricas, histograma, grfico de Pareto, grfico misto,
de coluna e de linha, diagrama de disperso e box-plot (tabela 3).
De todos esses, somente vejo sentido em construi-los mo
histogramas e diagramas de disperso. Entretanto, na prtica
devemos construir grficos usando ferramentas computacionais
como o Excel.
TABELA 3 - Grficos mais teis para anlise de dados de experimentos
de pequeno e mdio porte na rea de Cincias Exatas e Engenharia.
NMERO DE VARIVEIS
ENVOLVIDAS

TIPO DE VARIVEL ANALISADA

Pizza ou setor

Uma

Categrica

Colunas (verticais)

Uma

Categrica

Barras (horizontais)

Uma

Categrica

Histograma

Uma

Quantitativa, mas categorizada numa


tabela de distribuio de frequncias

Grficos de linha

Duas

Quantitativa no eixo vertical, e


categrica no eixo horizontal

Sries histricas

Duas

Quantitativa no eixo vertical, e


o tempo no eixo horizontal

Grfico de Pareto

Uma

Categrica

Grfico misto, de
coluna e linhas

Duas

Quantitativa no eixo vertical, e


o tempo no eixo horizontal

Diagrama de
disperso

Duas

Varivel explicativa quantitativa no eixo horizontal,


e desfecho quantitativo no eixo vertical

Uma ou mais

Quantitativa

TIPO DE GRFICO

Box-plot
Fonte: Elaborado pelo autor.

026

unidade 2

ESTATSTICA E PROBABILIDADES

Como fazer os grficos? Siga regras e comentrios abaixo e voc


ter sucesso ao desenhar grficos:

1. Um grfico deve conter um ttulo, entretanto este no deve


ser colocado no prprio grfico (como o Excel insiste em
fazer...). Quando desenhamos um grfico usando o Excel,
por exemplo, este ser exportado para algum documento
do Word ou para o PowerPoint, ou para outros editores de
texto e apresentadores de slides. O ttulo do grfico ser
ento colocado no slide ou na descrio da figura no editor
de textos, sendo desnecessrio e errado coloc-lo no
meio do prprio grfico. Mesmo em casos excepcionais,
quando o grfico no exportado para nenhum outro
aplicativo, sendo impresso diretamente do Excel, o ttulo
no deve ser colocado no meio da figura. O ttulo deve ser
inserido no cabealho da planilha que contm o grfico.

2. Ao escrever um relatrio, comece pelas figuras.


impressionante, mas as pessoas leem artigos cientficos,
relatrios tcnicos, jornais e revistas de fofoca da
mesma forma: comeamos pelas figuras! Por isso, o ttulo
de grficos e tabelas deve ser o mais claro possvel: toda
informao necessria para o entendimento da figura
deve estar no seu ttulo. Essa uma tendncia das revistas
cientficas (Nature, Science, por exemplo) e tem um efeito
colateral: o ttulo da figura fica muito longo. Isso no
exatamente uma regra, mas recomendao. Se voc quer
que seu relatrio seja lido, invista nos ttulos de figuras
e tabelas e sempre coloque respostas claras para pelo
menos quatro perguntas: O que? Quem? Quando? Onde?
A interpretao das informaes no grfico tambm deve
ser colocada como subttulo da figura. Se necessrio,
coloque notas explicativas, usando siglas somente para
coisas realmente conhecidas de quem ler o seu texto
(seu chefe ou o chefe do seu chefe...). Veja um exemplo
de grfico de pizza na figura a seguir.

027

unidade 2

Mesmo em casos
excepcionais,
quando o grfico
no exportado
para nenhum
outro aplicativo,
sendo impresso
diretamente do Excel,
o ttulo no deve ser
colocado no meio da
figura.

ESTATSTICA E PROBABILIDADES

FIGURA 2 Principais ferramentas estatsticas encontradas em


artigos publicados no New England Journal of Medicine (NEJM).

A maioria absoluta (58%) dos 760 artigos publicados nos volumes 298 a 301 da NEJM utilizou somente tcnicas de
Estatstica Descritiva na anlise dos dados. Praticamente um quarto dos artigos usou teste t de student e 15% aplicou
teste de qui-quadrado nas tabelas de contingncia, ferramentas que sero discutidas na Unidade 7 deste livro.
Fonte: BAILAR & MOSTELLER,1992.

3. Caso o grfico tenha eixos (horizontal X e vertical Y), estes


devem estar rotulados para entendimento. Os rtulos dos
eixos devem conter as respectivas unidades de medida
envolvidas (g, R$, kg, m/s, etc.). Esse mais um ponto de
erro do Excel! Alm de no colocar os rtulos nos eixos,
o Excel coloca o ttulo no meio da figura e uma legenda
que no tem a menor utilidade. Na verdade, as legendas
somente devem ser colocadas se existirem mais de um
grupo de dados na figura. Veja um exemplo correto de
grfico de barras na figura a seguir.

028

unidade 2

ESTATSTICA E PROBABILIDADES

FIGURA 3 Risco de reprovao em disciplinas de cursos de Engenharia


e Tecnologia do Centro Universitrio de Belo Horizonte UniBH.

Anlise de 21 disciplinas avaliadas em sete semestres (2011/1 a 2014/1), considerando amostra de 78.399 alunos.
Quatro disciplinas tm mais de 40% de seus alunos reprovados: Clculo Diferencial, Geometria Analtica e lgebra
Linear, Clculo de Vrias Variveis e Algoritmo e Estruturas de Dados.
Fonte: Elaborado pelo autor.

4. No existe regra fixa para a escolha da escala do grfico.


Qualquer escala boa desde que os valores no grfico
no fiquem muito espalhados nem muito juntos numa
nica regio da figura.

5. Sombreamento, efeitos 3D e pequenas figuras relacionadas


com o tipo de dado usado no grfico, colocados para
dar vida figura: na maioria das vezes esses efeitos so
inteis, podendo at mesmo distorcer o grfico.

6. A maioria dos grficos apresenta o valor zero como ponto


de incio dos eixos, mas isso no necessrio se o ponto
de incio da escala devidamente marcado na figura. Na
verdade, as pessoas usualmente assumem que o valor
zero est na base do grfico. Para os grficos de linha isso

029

unidade 2

ESTATSTICA E PROBABILIDADES

no problemtico, entretanto, quando se tratar de grficos


de colunas ou de barras, o valor zero deve obrigatoriamente
estar na base da coluna. Caso isso no seja feito, ocorre
uma distoro do grfico levando a uma interpretao
errada dos dados. Veja o exemplo abaixo. O primeiro
grfico, como no comea no valor zero, est errado, ele
ilude o leitor: a auditoria foi um sucesso?!
FIGURA 4 Exemplos de grfico de colunas: o valor
zero deve obrigatoriamente ser includo na figura.

Fonte: Elaborado pelo autor.

7. Mais de uma curva ou linha pode ser desenhada em um


nico grfico com o objetivo de comparao. Entretanto,
deve-se diferenciar claramente os dados de cada linha
para que no haja erro de interpretao (use cores
diferentes ou linhas pontilhadas ou mesmo smbolos).
Linhas de grade, usualmente colocadas no grfico para
auxiliar a leitura das escalas, devem ser discretas (na cor
cinza, por exemplo) ou serem eliminadas.

030

unidade 2

ESTATSTICA E PROBABILIDADES

FIGURA 5- Exemplo de grfico com legenda identificando diferentes dados.

Fonte: Elaborado pelo autor.

8. Os grficos devem ser desenhados no formato de


paisagem, com a altura tendo aproximadamente da sua
largura. Caso isso no seja feito, poder haver distoro
da figura e da prpria informao, que fica comprometida:
o primeiro grfico est correto, mas os outros esto na
categoria como mentir com estatstica...

031

unidade 2

ESTATSTICA E PROBABILIDADES

FIGURA 6 Formato dos grficos: a figura deve ser desenhada em


formato de paisagem, com a altura tendo aproximadamente 75% da largura.

Fonte: Elaborado pelo autor.

FIGURA 7 Grfico distorcido: desenhando a figura com a altura muito pequena, em relao
largura, a informao falseada e se tem a sensao de estabilidade dos dados.

Fonte: Elaborado pelo autor.

032

unidade 2

ESTATSTICA E PROBABILIDADES

FIGURA 8 - Grfico distorcido: desenhando a figura com a altura


muito grande, em relao largura, a informao falseada e se
tem a sensao de reduo dos dados ao longo do tempo

Fonte: Elaborado pelo autor.

9. Grficos de pizza, o queridinho: Apesar de muito


engraadinhos, estes grficos so muitos confusos. Evite
o seu uso, substituindo por grficos de barra ou de colunas.
aceitvel construi-los somente quando so poucos setores
bem definidos (at cinco pedaos). Evitar grficos de pizza em
3D, com vrios pedaos. Construi-los como na figura 2.

10. D
 iagrama de disperso: Ferramenta que nos permite avaliar
o efeito de uma varivel explicativa quantitativa sobre um
desfecho. Serve tanto para visualizarmos funes matemticas
tericas (figura 9) quanto funes de relacionamentos
empricos j conhecidos (figura 10), mas a sua grande utilidade

033

unidade 2

ESTATSTICA E PROBABILIDADES

quando tentamos estabelecer a associao entre duas


variveis quantitativas (figura 11). A figura 9 um diagrama de
disperso mostrando uma relao completamente terica entre
duas variveis (x e y). Como uma relao exata, somente
desenhada a linha que liga os pontos do grfico. Na figura 10
desenhada uma relao emprica, no caso a lei de Abrams, que
relaciona a resistncia do concreto compresso (R) com o fator
gua/cimento (fx) da seguinte forma: R = /fx. Nessa figura, e
foram definidos como 100 e 10 respectivamente, de tal forma
que a equao ficou R = 100/10fx, fx variando de 0 a 3. J a figura
11 mostra o uso nobre dos diagramas de disperso, quando
tentamos explorar, criar e propor uma nova relao emprica
entre duas variveis quantitativas. Nesse exemplo, ao invs de
aplicarmos a relao emprica de Abrams, usamos dados reais
de fator fx de gua/cimento e a resistncia medida em 28 dias de
uma amostra de concretos (desfecho). Ao inserirmos uma linha
de tendncia linear, estamos sugerindo que, na faixa de variao
medida de fx (entre 0,2 e 1,0), a resistncia compresso do
concreto se relaciona com fx por meio de uma equao de reta.
FIGURA 9 Diagrama de disperso sem os marcadores e com linhas contnuas mostrando a
relao de x e sua funo f(x) = 2x3 cos(x+1) 3. Nesse caso o diagrama est mostrando uma
relao terica exata, tal como aquela encontrada nas disciplinas de Clculo Diferencial.

Fonte: Elaborado pelo autor.

034

unidade 2

ESTATSTICA E PROBABILIDADES

FIGURA 10 Diagrama de disperso com marcadores e linhas contnuas mostrando


a relao emprica da lei de Abrams que relaciona a resistncia compresso
de concretos, medida em megapascal (MPa), e o fator gua/cimento (fx),
determinado pela razo do peso de gua pelo peso em cimento do concreto.

Fonte: Elaborado pelo autor.

FIGURA 11 Diagrama de disperso somente com os marcadores e sem


linhas contnuas mostrando uma possvel relao linear entre resistncia
compresso de concretos em 28 dias (MPa) e o fator gua/cimento (fx).

Fonte: Elaborado pelo autor baseado nos dados em DAFICO, Dario de Arajo. Mtodo Simples para Explicar a
Resistncia Compresso do Concreto de Alto Desempenho. Disponvel em: http://www2.ucg.br/nupenge/pdf/Dario.
pdf. Acesso em 14 maio 2015.

035

unidade 2

ESTATSTICA E PROBABILIDADES

A figura 12 mostra possveis padres de relacionamento entre uma varivel


explicativa (X) e o desfecho (Y), ambos quantitativos. Sempre que construir
um diagrama de disperso, voc deve interpretar o grfico gerado em
um dos quatro padres mostrados na figura 12. A) Correlao positiva:
Em mdia, quando X aumenta, Y tambm aumenta, numa tendncia em
linha reta. Por exemplo, quanto maior a rea de um imvel, maior o seu
preo de venda. B) Correlao negativa: Em mdia, quando X aumenta,
Y tende a diminuir. Por exemplo, quanto mais velho um imvel, menor
o seu preo de venda. C) Associao curvilinear: Em mdia, quando X
aumenta, Y tambm aumenta, mas no numa tendncia em linha reta, e
sim em curva. Isso pode ocorrer quando, por exemplo, a relao entre a
varivel resposta (Y) e a explicativa (X) for uma equao de segundo grau
(parbola) ou cbica, de grau trs. D) Sem associao: Tambm um
padro importante, pois indica que no h relao entre as duas variveis
associadas, que a varivel explicativa, na verdade, no explica o desfecho!
Por exemplo, frequentemente se observa que a idade do aluno no est
associada sua nota na maioria das disciplinas que ele cursa.
FIGURA 12 Padres de relacionamentos entre variveis avaliadas por meio de diagrama
de disperso: correlao positiva (A), correlao negativa (B), associao curvilinear (C) e
ausncia de associao (D).

Fonte: Elaborado pelo autor.

036

unidade 2

ESTATSTICA E PROBABILIDADES

11. Histograma: A ideia deste grfico categorizar uma varivel


quantitativa, dividindo-a em intervalos ou classes, contar
quantos valores se encaixam em cada intervalo e construir
um grfico de colunas com o resultado. Ao se interpretar
um histograma, deve-se tentar responder s seguintes
questes: Qual a forma da distribuio dos dados? Existe
um ponto central bem definido? Como a amplitude de
variao dos dados? Existe apenas um pico isolado? A
distribuio simtrica? Os exemplos abaixo podem auxililo na interpretao de um histograma. Procure descobrir
com qual destes oito tipos o seu histograma se parece.
Exemplo 1 - Histograma simtrico: A frequncia de dados mais
alta no centro e decresce gradualmente esquerda e direita de
forma aproximadamente simtrica, em forma de sino.

Fonte: Elaborado pelo autor

Exemplo 2 - Histograma fortemente assimtrico: A frequncia dos


dados decresce rapidamente num dos lados e muito lentamente
no outro, provocando uma assimetria na distribuio dos valores. A
distribuio dos salrios numa empresa um exemplo comum de
histograma assimtrico: muitas pessoas ganham pouco e poucas
pessoas ganham muito (a). A situao (b), apesar de mais rara,
tambm pode acontecer.

037

unidade 2

ESTATSTICA E PROBABILIDADES

Fonte: Elaborado pelo autor

Exemplo 3 - Histograma tipo despenhadeiro: O histograma termina


abruptamente em um ou nos dois lados, dando a impresso de que
faltam dados. Na verdade, essa possivelmente deve ser a explicao
para histogramas com esse formato: os dados muito pequenos e/
ou muito grandes foram eliminados da amostra.

038

unidade 2

ESTATSTICA E PROBABILIDADES

Fonte: Elaborado pelo autor

Exemplo 4 - Histograma com dois picos: Ocorrem picos na


distribuio e a frequncia baixa entre os picos. Possivelmente,
os dados se referem a uma mistura de valores de diferentes
populaes, devendo ser avaliados com cuidado. Se houve mistura
dos dados, melhor separ-los.

Fonte: Elaborado pelo autor

Exemplo 5 - Histograma tipo plat: As classes de valores centrais


apresentam aproximadamente a mesma frequncia. Essa situao
tambm sugere mistura de valores de diferentes populaes.

039

unidade 2

ESTATSTICA E PROBABILIDADES

Fonte: Elaborado pelo autor

Exemplo 6 Histograma com uma pequena ilha isolada: Alguns


valores isolados tm frequncia elevada, formando uma espcie de
ilha. Tambm pode ter ocorrido uma mistura de dados.

Fonte: Elaborado pelo autor

Exemplo 7 Histograma tipo serrote: As frequncias de valores se


alternam formando vrios dentes. Pode indicar algum problema na
obteno (leitura) dos dados.

040

unidade 2

ESTATSTICA E PROBABILIDADES

Fonte: Elaborado pelo autor

Vamos usar como exemplo de dados para a construo de um


histograma notas de amostra de alunos em uma prova de Clculo
Diferencial (n=120):
FIGURA 13 Dados brutos de notas de amostra de alunos em prova de
Clculo Diferencial. Centro Universitrio de Belo Horizonte UniBH, 2014/2.
0 0 0 1 5 5 6 9 13
17
18
21
0 0 0 1 5 5 6 10
13
17
18
21
0 0 0 1 5 5 6 11
14
17
20
22
0 0 0 2 5 5 9 11
14
17
20
22
0 0 0 2 5 5 9 12
14
17
20
24
0 0 0 3 5 5 9 12
14
17
20
24
0 0 0 3 5 5 9 13
15
17
20
25
0 0 0 5 5 6 9 13
15
17
20
25
0 0 0 5 5 6 9 13
17
18
21
25
0 0 1 5 5 6 9 13
17
18
21
25
Fonte: Elaborado pelo autor

Passo 1 - Determinar valores mnimo, mximo e amplitude (R):


mn = 0;

mx = 25;

R = mx mn = 25 0 = 25

Passo 2 Determinar quantas classes ou intervalos (k) sero


usados para dividir os dados. O nmero de classes deve ser

041

unidade 2

ESTATSTICA E PROBABILIDADES

algo entre 5 a 20 subintervalos. Regra emprica: k


5 k 20 . No exemplo, n 120; k

120 10.

R
Passo 3 Determinar o tamanho de cada subintervalo (h). h k . No
R 25
exemplo, h k 10 . 2,5 Ou seja, no nosso exemplo, temos 120
valores que variam de 0 a 25 e vamos dividi-los em 10 classes de
tamanho 2,5.
Passo 4 - Contar a frequncia de valores em cada classe. No
exemplo, comeando em zero (valor mnimo), teremos uma
tabela de distribuio de frequncias, base para construo do
histograma, de 2,5 a 2,5 pontos cada subintervalo. Vamos verificar
na base de dados quantos valores se encaixam em cada classe.
Observe na figura 14 o smbolo --|, ele indica que o valor direita
faz parte do intervalo, mas o valor sua esquerda no! Ou seja, o
intervalo 2,5 --| 5,0 implica em valores acima de 2,5 e menores ou
iguais a 5,0. Por exemplo, alunos que tiraram 5,0 so contabilizados
somente no segundo intervalo (2,5 --| 5,0), assim como aqueles
que tiraram 7,5 pontos entram somente na terceira classe (5,0
--| 7,5). Veja tambm o smbolo |--|, ele s pode ser usado no
primeiro subintervalo e possibilita que incluamos o valor 0,0 na
primeira classe (0,0 |--| 2,5). Se no fizssemos isso, no teramos
onde colocar a frequncia de valores iguais a zero. Eventualmente
voc poder se deparar com tabelas construdas com o smbolo
invertido, |--, que indica valores maiores ou iguais ao nmero
colocado esquerda e menores que o valor colocado direita. Por
exemplo, 30 |-- 40 implica valores maiores ou iguais a 30 e menores
que 40. Usei a notao --| que o padro usado pelo Excel na
construo de histogramas (figura 14).
Lembre-se de que o total, a soma da coluna Frequncia, deve
ser exatamente o tamanho da amostra (n). Alm da coluna de
frequncia absoluta, podemos calcular a frequncia relativa ou
percentual de cada classe (em relao ao total de valores) e

042

unidade 2

Lembre-se de que
o total, a soma da
coluna Frequncia,
deve ser exatamente
o tamanho da
amostra (n).

ESTATSTICA E PROBABILIDADES

a frequncia acumulada ou percentual acumulado, til para a


construo de grficos de Pareto (que ser explicado mais frente).
FIGURA 14 Tabela de distribuio de frequncias das notas de amostra de alunos em
prova de Clculo Diferencial. Centro Universitrio de Belo Horizonte UniBH, 2014/2.
NOTA FREQUNCIA

PERCENTUAL

PERCENTUAL ACUMULADO

0,0 |--| 2,5

35

29%

29%

2,5 --| 5,0

22

18%

48%

5,0 --| 7,5

5%

53%

7,7 --| 10,0

8%

60%

10,0 --| 12,5

3%

63%

12,5 --| 15,0

12

10%

73%

15,0 --| 17,5

10

8%

82%

17,5 --| 20,0

10

8%

90%

20,0 --| 22,5

5%

95%

22,5 --| 25,0

5%

100%

Total 120

100%

Fonte: Elaborado pelo autor

FIGURA 15 Histograma com a distribuio das notas na prova de Clculo


Diferencial: os dados mostram um padro de distribuio assimtrico,
semelhante quele apresentado no histograma do exemplo 2.

Fonte: Elaborado pelo autor

043

unidade 2

ESTATSTICA E PROBABILIDADES

12. Grfico de Pareto: Esta ferramenta tima para ajudar


na definio de prioridades, quando precisamos fazer
um plano de ao para melhoria de qualidade de um
servio ou produto. Por exemplo, se um determinado
problema ou defeito pode ocorrer de diversas formas,
como escolher os tipos de defeito prioritrios para
serem corrigidos? A ideia do efeito Pareto que 80%
dos problemas esto associados a 20% dos problemas.
Nem sempre esse efeito ocorre, mas esse o objetivo
do grfico de Pareto: verificar quais itens ou problemas
ocorrem com maior frequncia num determinado
cenrio. Por exemplo, numa amostra de 400 defeitos de
fabricao de uma pea mecnica, foram observados
16 tipos de defeito: rebarbas, dimetro menor, dimetro
maior, sem usinagem, altura menor, trincas, altura maior,
borda muito fina, enviesado, base maior que o topo, borda
muito grossa, cor muito escura, estrutura pouco flexvel,
base menor que o topo, cor muito clara e estrutura frgil.
Ao se construir um grfico de Pareto com os dados
(figura 16), observa-se que a maioria absoluta (66%)
dos defeitos se refere somente a trs tipos: rebarbas
(32%), dimetro menor (21%) e dimetro maior (13%). Ou
seja, ao fazer um plano de ao para corrigir possveis
defeitos de fabricao dessa pea, ignore 13 defeitos e
priorize suas aes em apenas esses trs. Fazendo isso,
66% do problema estar corrigido!

044

unidade 2

 Grfico de Pareto:
Esta ferramenta
tima para ajudar
na definio de
prioridades, quando
precisamos fazer
um plano de ao
para melhoria de
qualidade de um
servio ou produto.

ESTATSTICA E PROBABILIDADES

FIGURA 16 Grfico de Pareto com a frequncia de defeitos de fabricao


de uma pea mecnica: 66% dos defeitos so somente de trs categorias prioritrias
para um plano de ao para melhorar a qualidade do processo de fabricao
(rebarbas, dimetro menor e dimetro maior).

Fonte: Elaborado pelo autor

13. Box-plot: Este grfico, tambm conhecido como


diagrama em caixa ou caixa e bigode, informa sobre
a distribuio dos dados. Somente se aplica a variveis
quantitativas (figura 17), informando o menor valor
(pequena linha horizontal inferior) e valor mximo
(pequena linha horizontal superior). A distncia entre
o valor mnimo e a aresta inferior da caixa cinza a
amplitude em que ocorrem os 25% dos valores mais
baixos. Este conhecido como 1 quartil, sendo
delimitado pelo percentil 25 dos dados. As duas caixas,
cinza e vermelha, mostram onde esto 50% dos dados.
A distncia entre a aresta superior da caixa vermelha
e a pequena linha horizontal superior, que equivale
ao mximo dos dados, refere-se ao intervalo em que
ocorrem 25% dos maiores valores da varivel. A linha
separando as duas caixas representa a mediana, que

045

unidade 2

ESTATSTICA E PROBABILIDADES

expressa o valor do meio se todos os dados fossem


colocados em ordem. Assim como os histogramas, o
box-plot nos informa sobre a maneira de distribuio dos
dados, tendo a vantagem de permitir a visualizao de
grupos de dados (figura 18). Nessa figura, apresentado
um resumo comparativo da taxa de aprovao de oito
disciplinas de ciclo bsico de cursos de Engenharia.
FIGURA 17 Exemplo de box-plot para uma varivel quantitativa genrica: quanto maior o
tamanho das duas caixas, vermelho e cinza, maior a variabilidade e disperso dos dados.

Fonte: Elaborado pelo autor

046

unidade 2

ESTATSTICA E PROBABILIDADES

FIGURA 18 Box-plot com as taxas de aprovao de oito disciplinas de ciclo bsico de cursos
de Engenharia: Desenho e Estatstica se destacam das outras disciplinas, que tm taxas de
aprovao bem menores e mais heterogneas. Clculo Integral a disciplina com menor taxa de
aprovao e maior variabilidade dos dados.

Fonte: Elaborado pelo autor

Sntese tabular
de dados
Na anlise exploratria de dados, em ltima instncia, todos os
resultados so apresentados ou na forma de figuras ou de tabelas.
Assim como nos grficos, invista no ttulo da tabela e sempre
coloque respostas claras para pelo menos quatro perguntas: O
que? Quem? Quando? Onde? Sugerimos que a interpretao das
informaes na tabela tambm seja colocada no prprio ttulo. Se
necessrio, coloque notas explicativas, usando siglas somente
para coisas realmente conhecidas. A tabela 4 um exemplo de
formato de tabelas, apresentando modelo para sntese de variveis
categricas de uma base de dados.

047

unidade 2

ESTATSTICA E PROBABILIDADES

TABELA 4 Anlise exploratria de variveis categricas: a sntese de variveis


categricas, sejam elas explicativas ou desfecho, resume-se a apresentar suas
categorias, a frequncia de valores em cada categoria e os respectivos percentuais.
VARIVEL

CATEGORIA

FREQUNCIA

Conceito

Aprovado 2287 49%

Reprovado 2386 51%

Local do ensino mdio

Instituio privada

1509

32%

Instituio pblica

3164

68%

Sexo

Feminino 1948 42%

Masculino 2725 58%

Turno

Manh 1153 25%


Noite

3520

Fonte: Elaborado pelo autor.

Sntese numrica
de dados
A sntese numrica de variveis categricas muito simples, basta
que voc apresente suas categorias, a frequncia de valores em
cada categoria e os respectivos percentuais, tal como apresentado
na tabela 3. J a sntese de variveis quantitativas mais ampla e
envolve resumir dois aspectos:
1. um valor tpico ou caracterstico para a varivel;
2. uma medida do grau de variabilidade ou de disperso
dos dados.

PERCENTUAL

1.

Valor tpico ou medida de posio: O objetivo


encontrar o valor caracterstico, aquele que melhor
represente os dados. Vamos discutir aqui as
duas possibilidades mais aplicadas a problemas

048

unidade 2

75%

ESTATSTICA E PROBABILIDADES

de pequeno e mdio porte na rea de Cincias


Exatas e Engenharia: a mdia ( X ) e a mediana
( Md ). A mdia obtida pelo resultado da soma
de todos os valores, dividido pelo total de dados
ou tamanho da amostra (n). Matematicamente, a
mdia obtida por:

J a mediana, na verdade uma medida de ordem, indicando o


valor do meio, aquele que divide os dados em duas metades:
Passo 1 Colocar os dados em ordem crescente.
Passo 2 Encontrar o valor do meio, isto :
se n, o tamanho da amostra, mpar, ento Md o
valor central;
se n par, ento Md a mdia dos dois valores centrais.
Exemplo A (n=11), dados j ordenados:
{3; 4; 4; 5; 9; 9; 9; 10; 10; 10; 10}

Para a mediana, como so 11 valores (n mpar) e a metade de 11


5,5, ento Md o 6 valor, ou seja, o valor do meio (lembre-se
de que os dados j esto ordenados):
Md = 9
Exemplo B (n=18), dados j ordenados:
{17; 17; 20; 20; 20; 24; 26; 28; 30; 40; 50; 50; 50; 50; 50; 51; 51; 52}

049

unidade 2

A mdia obtida pelo


resultado da soma
de todos os valores,
dividido pelo total de
dados ou tamanho
da amostra (n).

ESTATSTICA E PROBABILIDADES

Para a mediana, como so 18 valores (n par) e a metade de 18 9,


ento Md a mdia entre o 9 e o 10 valor, ou seja:
Md =

30 + 40
= 35
2

No se esquea, para obter a mediana necessrio, antes de tudo, colocar


os dados em ordem crescente. No ordenar os dados a principal fonte
de erro no clculo da mediana!

Algumas pessoas se perguntam: Quantas casas decimais devo


apresentar no resultado?. Quanto menos casas decimais voc
conseguir apresentar nos seus resultados, melhor para o entendimento
da informao! Apresente seus resultados usando o mesmo nmero
de casas decimais que os dados originais ou, no mximo, uma casa
decimal alm do original, como foi feito nos clculos anteriores.
Outra questo Quando escolher entre mdia e mediana
para melhor representar um conjunto de dados? ou Em que
situaes resumir uma varivel quantitativa usando a mdia e
quando a mediana melhor para representar os dados?. Para
essa resposta, preciso seguir uma regra prtica:
Se mdia e mediana forem semelhantes, ento usar a
mdia para representar os dados.
Se mdia e mediana forem muito diferentes, ento usar a
mediana para representar os dados.

050

unidade 2

Se mdia e mediana
forem semelhantes,
ento usar a mdia
para representar os
dados.

ESTATSTICA E PROBABILIDADES

Alm de se basear nas regras acima, que exigem uma interpretao


caso a caso do que seja mdia e mediana muito diferentes, voc
poder construir histogramas e, pelo padro do grfico, escolher
uma ou outra medida para representar os dados. Nos modelos de
histograma colocados no tpico anterior, os exemplos 1 (simtrico),
3 (despenhadeiro) e 5 (plat), a mdia a melhor medida de posio.
J nos histogramas dos exemplos 2 (fortemente assimtrico)
e 6 (ilha isolada), a mediana a melhor medida de posio que
caracteriza o conjunto de dados.
2. Medida do grau de variabilidade ou de disperso dos
dados: O objetivo quantificar o quanto os dados so
heterogneos, so imprevisveis, em suma, quantificar o
grau de variabilidade de uma varivel quantitativa.
A princpio, podemos medir a variabilidade de um dado informando
o seu valor mnimo (mn) e o valor mximo (mx), o que nos leva
sua amplitude (R): R = mx mn.
Entretanto, essa uma forma muito simplista, pois envolve
somente dois valores da varivel, o mnimo e o mximo, ignorando
todos os outros. Para uma medida mais adequada de variabilidade,
uma forma calcular a sua mdia ( X ) e, em seguida, calcular
quanto os dados esto distantes da mdia, em mdia! Soa
estranho, mas a ideia faz sentido. Por exemplo, seja uma amostra
de n = 5 pessoas e seus respectivos nmeros de filhos:
Pessoa A B C D E
Nmero de filhos

Qual o nmero mdio de filhos?

Isso mesmo, essas pessoas tm, em mdia, 1,4 filhos! Voc deve
estar se perguntado, como assim... um e 0,4 filho? No existe

051

unidade 2

ESTATSTICA E PROBABILIDADES

0,4 filho!! No se preocupe, a mdia funciona como um modelo


e, como tal, uma aproximao da realidade. A mdia o melhor
valor representativo para esses dados e, caso seja necessrio
resumir toda a informao num nico valor, ela deve ser usada
para substituir o verdadeiro nmero de filhos de cada pessoa. Bom,
voltando variabilidade, como calcular o quanto os dados esto
distantes da mdia, em mdia? Para cada indivduo, devemos
subtrair o valor observado pela mdia, calculando um resduo:
Pessoa A B C D E
Nmero de filhos
Resduo

0-1,4 =
-1,4

1-1,4 =
-0,4

1-1,4 =
-0,4

2-1,4 =
+0,6

3
3-1,4 =
+1,6

O resduo mede a distncia de cada valor em relao mdia dos


dados, ou seja, uma medida de quanto os dados esto distantes
da mdia. Para resumir os resduos num nico valor, o ideal ento
calcular uma mdia dos resduos, que refletiria o quanto os dados
esto distantes da mdia, em mdia! Infelizmente, se fizermos essa
mdia, ela sempre dar zero, pois os resduos negativos anulam os
positivos, dando uma soma dos resduos igual a zero. Para resolver
esse problema, ao invs de simplesmente calcular os resduos,
devemos calcular o resduo elevado ao quadrado:
Pessoa A B C D E
Nmero de filhos

Resduo

0-1,4 =
-1,4

1-1,4 =
-0,4

1-1,4 =
-0,4

2-1,4 =
+0,6

3-1,4 =
+1,6

Resduo elevado
ao quadrado

(-1,4)2 =

(-0,4)2 =

(-1,4)2 =

(+0,6)2 =

(+1,6)2 =

0,16

0,36

1,96

0,16

Se somarmos os resduos elevados ao quadrado teremos a soma


n

dos quadrados dos resduos ( ( Xi -X )2 ), uma mtrica que aparece


i =1

em vrias outras anlises estatsticas. Quanto maior a soma dos

052

unidade 2

2,56

ESTATSTICA E PROBABILIDADES

quadrados dos resduos, maior a variabilidade dos dados! Para


resumir essa mtrica, calculamos a sua mdia, que chamada de
varincia amostral ( s2 ):

Nessas frmulas, Xi representa cada um dos dados individuais, X


a mdia e n o tamanho da amostra ou total de dados. Observe que,
no denominador, dividimos a soma dos quadrados dos resduos
por (n - 1) e no por ( n ). Isso feito porque nossos dados foram
obtidos por meio de amostragem e no por censo. Ou seja, sempre
que tivermos dados amostrais, que a situao mais comum,
calcularemos a varincia amostral dividindo a soma dos quadrados
dos resduos por (n - 1). Se tivermos acesso populao toda,
ou melhor, se fizermos um censo (o que muito raro), ento
2

poderemos calcular a varincia populacional ( ), dividindo a soma


dos quadrados dos resduos por (n):

importante se lembrar dessa diferena, pois ela aparece nas


calculadoras cientficas e no Excel, que permite o clculo tanto de s2
2

quanto de . Na prtica (e na dvida), sempre calcule a varincia


amostral (s2).
Uma outra mtrica de variabilidade o desvio padro amostral (s).
Ele a raiz quadrada da varincia e tem uso mais difundido que
sua me (s2), porque, ao tirarmos a raiz quadrada da varincia,
o resultado tem a mesma unidade de medida que a mdia e os
dados originais. Assim, no exemplo anterior, do nmero de filhos da
amostra de n=5 pessoas, a varincia amostral :

053

unidade 2

Sempre que tivermos


dados amostrais,
que a situao
mais comum,
calcularemos a
varincia amostral
dividindo a soma
dos quadrados dos
resduos por (n - 1).

ESTATSTICA E PROBABILIDADES

O desvio padro amostral :

muito comum, ao divulgarmos uma sntese de uma varivel


quantitativa, apresentarmos a sua mdia, seguida do seu desvio
padro no formato ( X = s ). Ou seja, no exemplo anterior, essas
pessoas tm 1,4 = 1,1 filhos.
Cuidado, isso no significa que os dados variem somente dentro do
intervalo X = s , de 1,4 1,1 = 0,3 at 1,4 + 1,1 = 2,5 filhos! Essa
apenas uma forma usada para apresentar ambos os valores, de
mdia ( X ) e desvio padro (s). Na verdade, se os dados tiverem
um histograma de forma simtrica, aproximadamente 95% dos
dados ocorrero dentro do intervalo definido pela mdia mais ou
menos dois desvios padres ( X = 2s ), e 99,7% dentro da mdia
mais ou menos trs desvios padres ( X = 3s ). Se no tivermos
como avaliar a forma de distribuio dos dados, ou seja, se no
soubermos o padro do histograma dos dados, pelo menos 89%
dos dados cairo no intervalo X = 3s .
Supondo que voc j consiga calcular o desvio padro ( s ) de um
conjunto de dados, como interpretar o seu resultado? fato que,
quanto maior o desvio padro, maior a variabilidade dos dados.
Mas, o que um desvio padro grande? Essa resposta depende da
magnitude da mdia ( X ), isto , para sabermos se um desvio padro
grande ou pequeno, vai depender do valor da mdia. Por exemplo,
sejam os resultados das provas de um atleta, resumidos abaixo:
Tempo para correr 100 metros: X = 11,5 e s = 2,1 segundos;
Salto em altura: X = 2,2 e s = 0,8 e metros.
Em qual prova, salto em altura e tempo para 100 m, o atleta mais
heterogneo, tem os resultados com maior variabilidade? Se voc

054

unidade 2

muito comum, ao
divulgarmos uma
sntese de uma
varivel quantitativa,
apresentarmos a sua
mdia, seguida do
seu desvio padro no
formato ( X = s ).

ESTATSTICA E PROBABILIDADES

responder essa questo comparando os dois desvios padres,


estar cometendo dois erros:
1 No se pode comparar diferentes unidades de medida (s versus m);
2 Deve-se considerar a magnitude da mdia ao se avaliar um
desvio padro.
Ento, como efetivamente obter o grau de variabilidade de
uma varivel? Isso feito pelo coeficiente de variao (cv),
uma relao percentual entre o desvio padro e a mdia:
s
cv = x x 100 (%).
Alm de ser uma medida adimensional, o que possibilita
comparaes entre diferentes variveis, o CV pode ser interpretado
de forma absoluta:
QUADRO 2 Definio e interpretao do grau de variabilidade de um conjunto de dados.
INTERPRETAO

CV

CV <= 20% Dados com pouca variabilidade, bem comportados, homogneos. A varivel
tem um comportamento bem previsvel.
20 < CV <= 30% Dados com variabilidade intermediria.
CV > 30% Dados com muita variabilidade, heterogneos. A varivel tem um
comportamento muito imprevisvel.
CV > 100% Neste caso, o desvio padro maior que a mdia. Dados com variabilidade
extrema, muito heterognea. A varivel tem um comportamento catico,
completamente imprevisvel.
Fonte: Elaborado pelo autor.

No caso do atleta, teremos os seguintes valores de coeficiente de


variao:
Tempo para correr 100 metros: cv =
Salto em altura: cv =

2,1
11,5

x 100 = 19%;

0,8
x 100 = 36%;
2,2

055

unidade 2

ESTATSTICA E PROBABILIDADES

Podemos dizer ento que o atleta tem pouca variabilidade nos


seus resultados da corrida de 100 m e muita variabilidade nos
saltos em altura.

Quando voc fizer uma anlise exploratria de dados, lembre-se de corrigir


os grficos produzidos pelo Excel. Lembre-se tambm de colocar os
ttulos das tabelas e das figuras o mais informativo possvel. E, ao calcular
o desvio padro, no se esquea de considerar que voc tem dados
amostrais. Confira na sua calculadora e/ou no prprio Excel qual a frmula
que est sendo usada. Resuma os dados por meio de grficos, nmeros e
tabelas. Esse o primeiro e fundamental passo para entender os dados e
o problema investigado.

A anlise exploratria dos dados o primeiro passo para que


voc se torne especialista na rea investigada. Suas ferramentas
de anlise no produzem concluses definitivas sobre um
problema, mas possibilitam que hipteses sejam construdas de
forma consistente.

O artigo Avaliao do impacto do Clculo Zero no desempenho de alunos


ingressantes de cursos de Engenharia, apresentado em 2013 por COUTO
e cols. no COBENGE - Congresso Brasileiro de Educao em Engenharia,
teve como objetivo avaliar o impacto do Clculo Zero no desempenho de
alunos ingressantes em cursos de Engenharia e Cincia da Computao,
tanto em termos da nota final em Clculo Diferencial e Geometria
Analtica e lgebra Linear (GAAL), quanto na chance de aprovao nessas
disciplinas. As perguntas-chave do trabalho eram: O Clculo Zero afeta
de forma significativa o resultado dos alunos nas disciplinas obrigatrias
de Clculo Diferencial e GAAL? Vale a pena investir em projetos de Clculo
Zero? Quais so os fatores, as caractersticas que afetam o desempenho
dos alunos nessas duas disciplinas?

056

unidade 2

ESTATSTICA E PROBABILIDADES

Vrias tcnicas de anlise exploratria de dados foram utilizadas no artigo.


Por exemplo, usando um grfico de linhas, uma srie temporal, mostrouse no artigo a elevao no nmero de matrculas nas duas disciplinas-alvo
do trabalho, Clculo Diferencial e GAAL:

FIGURA 19 - Evoluo do nmero de alunos matriculados e o percentual de aprovados em


Clculo Diferencial e GAAL. Entre o 2 semestre de 2009 e o 2 semestre de 2012, o percentual
de aprovao em ambas as disciplinas apresentou elevao, principalmente em Clculo
Diferencial. O nmero de alunos matriculados nas disciplinas tambm aumentou de forma
importante no perodo, principalmente aps o 1 semestre de 2011.

Fonte: COUTO et al., 2013.

Um diagrama de disperso foi construdo mostrando claramente o efeito


das faltas s aulas na nota final de Clculo Diferencial:

057

unidade 2

ESTATSTICA E PROBABILIDADES

FIGURA 20 Grfico de disperso considerando o percentual de faltas/ausncias


s aulas de Clculo Diferencial e a nota final do aluno nessa disciplina: anlise
considerando somente alunos em que foram registradas pelo menos uma falta
s aulas durante o semestre. H uma forte correlao negativa (r= -0,77) entre
ausncias s aulas e a nota final do aluno: quanto mais faltas s aulas o aluno tiver,
menor a sua nota final em Clculo Diferencial. IET/ UniBH, 1 semestre de 2011.

Fonte: COUTO et al., 2013.

Alm de grficos, tabelas com a sntese numrica dos dados coletados no estudo
tambm foram apresentadas no artigo. O uso dessas ferramentas estatsticas
de anlise de dados mostrou de forma inequvoca que valia a pena implementar
aes como o Clculo Zero, pois o fato de se ofertar essa disciplina afetava o
resultado dos alunos nas disciplinas obrigatrias de Clculo Diferencial e GAAL.
Esse um exemplo real de como usar a anlise exploratria dos dados e
outras tcnicas de Estatstica e Probabilidades para se entender a fundo
um problema, resolvendo-o e se tornando um especialista na rea.
Referncia:
XLI CONGRESSO BRASILEIRO DE EDUCAO EM ENGENHARIA, 2013. Avaliao
do Impacto do Clculo Zero no Desempenho de Alunos Ingressantes de Cursos
de Engenharia. Paran: FADEP, 2013. Disponvel em: <http://www.fadep.br/
engenharia-eletrica/congresso/pdf/116280_1.pdf>. Acesso em 14 maio 2015.

058

unidade 2

ESTATSTICA E PROBABILIDADES

Reviso
Vimos nesta unidade os principais tpicos da anlise exploratria
de dados, tambm denominada de Estatstica Descritiva:
Sntese grfica: Uma figura vale mais que mil palavras! Isso
verdade, entretanto um grfico vale mais que mil palavras se e
somente se ele for desenhado de forma clara, correta e concisa.
Sempre desenhe grficos a partir de seus dados, mas tente fazlos de tal forma que a frase basta olhar para entender seja vlida.
Os grficos mais teis para anlise de dados de experimentos de
pequeno e mdio porte na rea de Cincias Exatas e Engenharia
so: grficos de pizza, barras, colunas, linha, sries histricas,
histograma, grfico de Pareto, grfico misto, de coluna e de linha,
diagrama de disperso e box-plot. Na prtica devemos construir
grficos usando ferramentas computacionais como o Excel.
Sntese tabular de dados: Na anlise exploratria de dados, em
ltima instncia, todos os resultados so apresentados ou na forma
de figuras ou de tabelas. Assim, invista no ttulo da tabela e sempre
coloque respostas claras para pelo menos quatro perguntas: O
que? Quem? Quando? Onde? Tambm sugiro que a interpretao
das informaes na tabela seja colocada no prprio ttulo. Se
necessrio, coloque notas explicativas, usando siglas somente para
coisas realmente conhecidas.
Sntese numrica: O resumo de uma varivel categrica muito
simples, basta que voc apresente suas categorias, a frequncia
de valores em cada categoria e os respectivos percentuais. J a
sntese de variveis quantitativas mais ampla e envolve resumir
dois aspectos:
1. Um valor tpico ou caracterstico para a varivel, que
definido pela mdia ( X ) e pela mediana (Md). Se mdia
e mediana forem semelhantes, ento a mdia deve ser
usada para representar os dados. Entretanto, caso haja

059

unidade 2

Na anlise
exploratria de
dados, em ltima
instncia, todos
os resultados so
apresentados ou na
forma de figuras ou
de tabelas.

ESTATSTICA E PROBABILIDADES

discrepncia muito grande entre mdia e mediana, ento se


deve usar a mediana para representar os dados;
2. Uma medida do grau de variabilidade ou de disperso
dos dados, calculada pelo desvio padro amostral (s) e o
coeficiente de variao (CV).

Caso voc deseje aprofundar sobre as questes discutidas nesta unidade,


leia os captulos 2 e 3 do livro texto: LEVINE, David M. et al. Estatstica:
teoria e aplicaes: usando Microsoft Excel em portugus. 6. ed. Rio de
Janeiro: LTC, 2012,

060

unidade 2

Introduo
teoria de
probabilidades
Introduo
A origem da teoria das probabilidades comumente associada
questes colocadas por MR (1607-1684) a PASCAL (16231662). Todavia, existem autores que sustentam que o clculo das
probabilidades iniciou-se na Itlia, com PACCIOLI (1445-1514),
CARDANO (1501-1576), TARTAGLIA (1499-1557) e GALILEO (15641642), dentre outros.
Contudo, foi ADOLPHE QUTELET (1796 1874) o pioneiro na
tarefa de mensurar, ou seja, quantificar uma pequena amostra do
universo de interesse da investigao, almejando inferir sobre toda
a populao em estudo, baseando-se em anlises probabilsticas e
embasando-se em rigorosos mtodos cientficos.
A teoria das probabilidades, porm, s comea a fazer sentido
nas engenharias por volta de 1930, quando surgem os primeiros
trabalhos prticos destinados aos engenheiros. O primeiro foi
executado pelo matemtico WILLIAM GOSSET (1876 1937), com
a aplicao das probabilidades no Controle de Qualidade em uma
fbrica de cervejas.

Probabilidade
clssica e
probabilidade
frequentista
Leis bsicas de
probabilidade
Unio e
interseo de
eventos
Tabelas de
contingncia
Eventos
independentes

A teoria das probabilidades uma importante rea da estatstica

Teorema de
Bayes

que possibilita ao profissional no mercado de trabalho calcular

Reviso

percentuais, trabalhar com estimativas e realizar predies em toda


e qualquer rea do conhecimento. No que tange s Engenharias, a
probabilidade est presente no controle de processos de produtos

e servios, permitindo estimar o risco e o acaso de eventos futuros.


Tambm amplamente utilizada no que tange ao planejamento de
novas tcnicas e estratgias de produo e vendas, dentre outras.
Suponha que voc o engenheiro responsvel pela qualidade
na linha de produo de uma grande marca de bebidas. Sabese que no possvel experimentar todos os produtos antes de
disponibiliz-lo ao mercado, pois ningum compraria uma bebida
j provada, e que o processo de fabricao composto por etapas,
por interferncias dos funcionrios, por equipamentos (que podem
estar ou no muito bem regulados), e por uma srie de outros
fatores controlveis ou no, como at mesmo uma simples umidade
excessiva no ambiente de fabricao devido ao perodo chuvoso.
No entanto, voc pode suspeitar que um determinado lote, devido
variabilidade inerente ao processo, apresente um percentual de itens
no conformes maior que o permitido pelos rgos fiscalizadores.
A teoria das probabilidades vem auxili-lo nesse processo de
tomada de deciso, permitindo inferir sobre a populao em estudo,
ou mesmo sobre eventos que ainda iro ocorrer, estimando as
chances de sucesso do mesmo.

ESTATSTICA E PROBABILIDADES

A teoria das
probabilidades
A teoria das probabilidades nasce na Idade Mdia com os
tradicionais jogos de azar existentes na Corte. Jogos de
cartas e dados, ou mesmo os lanamentos de moeda so
classificados como fenmenos que envolvem o acaso, assim
como a maioria dos jogos esportivos. Uma aplicao direta
da teoria das probabilidades no campo das Engenharias o
processo de deciso, seja para aumentar o investimento ou
cortar despesas, no qual o profissional do mercado de trabalho
deve arriscar-se mantendo os ps no cho.

Um dos principais conceitos matemticos amplamente estudado


no que diz respeito teoria das probabilidades o de conjunto. Um
conjunto pode ser definido como uma coleo de objetos, itens ou
servios que possuem caracterstica (s) comum (s).
No contexto da teoria das probabilidades, o conjunto de todos os
resultados possveis a ser estudado em um experimento aleatrio
denominado espao amostral.
Espao Amostral () qualquer conjunto de todos os possveis
resultados em um experimento aleatrio.
Sendo definido como experimento todo e qualquer resultado
que sugere a incerteza antes da observao, ou seja, fenmenos
que, mesmo repetidos vrias vezes sob condies semelhantes,
apresentam resultados imprevisveis (acaso). Os resultados dos
experimentos so nomeados estatisticamente como eventos.
Um

Evento

Aleatrio

(E)

qualquer

subconjunto

espao amostral.

064

unidade 3

de

um

ESTATSTICA E PROBABILIDADES

O espao amostral () essencial na teoria das probabilidades


por definir o espao de interesse da investigao, permitindo
ao pesquisador de toda e qualquer rea do conhecimento fazer
inferncias sobre o todo a partir da parte estudada. Pode ser
definido de acordo com o evento de interesse da investigao,
podendo ser caracterizado por: (1) o mesmo evento repetidas
vezes; ou (2) eventos distintos; ou (3) eventos aleatrios.
Se tivermos o mesmo evento repetidas vezes, como no
lanamento de um dado ou de uma moeda, ou mesmo nas
possibilidades de filhos de um casal, ou de peas defeituosas
em uma linha de produo, o espao amostral () dado pelas
possibilidades do evento elevado ao nmero de repeties
realizadas, por exemplo:
No lanamento de uma moeda trs vezes, temos duas
possibilidades (cara ou coroa) em cada lanamento, portanto
o espao amostral () dado por:
= ( possibilidades ) (repeties)= 2 3 = 8
Se tivermos eventos distintos, como no lanamento de um
dado e uma moeda, o espao amostral () dado pelo produto
da quantidade de possibilidades de cada evento, como:
No lanamento de uma moeda e um dado, temos duas
possibilidades da moeda (cara ou coroa) e seis possibilidades
do dado (os nmeros inteiros de 1 a 6). Portanto, o espao
amostral () dado por:
= ( possibilidades ) . ( possibilidades ) = 2.6 = 12
Se tivermos eventos aleatrios, como o nmero de funcionrios
ausentes em um dia de trabalho de uma determinada linha
de produo, ou mesmo o nmero de caminhes presentes

065

unidade 3

ESTATSTICA E PROBABILIDADES

em uma determinada rota, no h um modelo matemtico


que simplifique a mensurao dos elementos que compem
esse espao amostral. preciso apelar para o princpio
fundamental da contagem, ou seja, o servio braal.
Os eventos que compem o espao amostral podem ser
classificados de acordo com a sua ocorrncia. Os eventos nos
quais cada elemento do banco de dados pode ocorrer com a
mesma probabilidade so chamados de eventos equiprovveis.
Eventos Equiprovveis so aqueles cujos todos os elementos do banco
de dados tm a mesma probabilidade de ocorrncia.

Os eventos so classificados como mutuamente exclusivos, se


eles no puderem ocorrer simultaneamente, ou seja, A B= .
Se E = , E chamado de evento certo.
Se E = , E chamado de evento impossvel.

Probabilidade
clssica e
probabilidade
frequentista
A probabilidade de realizao de um evento A dada pelo quociente
entre o nmero de ocorrncias de A pelo nmero de eventos
possveis, ou seja:
P(A)=

nmero de orcorrncias de A
espao amostral ()

066

unidade 3

ESTATSTICA E PROBABILIDADES

A probabilidade pode ser resumida como o quociente do que se


quer pelo que se tem. Na qual primeiro determina-se o que
possvel ter e depois retira o que se quer do que se tem, no
podendo querer mais do que tem, ou seja:

Existem

duas

restries

aplicao

da

definio

da

probabilidade clssica: (1) todos os eventos possveis devem


ter a mesma probabilidade de ocorrncia, ou seja, os eventos
devem ser equiprovveis e (2) deve-se ter um nmero finito de
eventos possveis.

Leis bsicas de
probabilidades
Para qualquer evento E de um espao amostral : 0 P ( E ) 1;
P ( ) = 1;
P ( Ac ) = 1 - P ( A ), sendo Ac o evento complementar ao evento A;

067

unidade 3

A probabilidade pode
ser resumida como
o quociente do que
se quer pelo que se
tem.

ESTATSTICA E PROBABILIDADES

As operaes com os eventos utilizam as mesmas propriedades


matemticas, ou seja:

QUADRO 3 Leis Matemticas


PROPRIEDADE
Associatividade

DESCRIO MATEMTICA
(AB)C=A(BC)
(AUB)UC=AU(BUC)

Comutatividade

AB = BA
AUB = BUA

Distributividade

(AB)UC=(AUC)(BUC)
(AUB)C=(AC)U(BC)

Absoro

ACB AB=A
ACB AB=B

Modulares

A = A
A =
A =
A =A

Leis de De Morgan

Dupla negao

As operaes
com os eventos
utilizam as mesmas
propriedades
matemticas.

AB = AUB
AUB = AB
A=A

Fonte: Elaborado pelo autor.

Unio e interseo
de eventos
A unio de dois eventos A e B, indicada por A U B, o evento que
contm todos os elementos de A e todos os elementos de B.
P(AUB)=P(A)+P(B)-P(AB)
P ( A U B ) = P ( A ) + P ( B ), se A e B so mutuamente exclusivos;

068

unidade 3

ESTATSTICA E PROBABILIDADES

A interseo de dois eventos A e B, indicada por AB, o evento que


contm todos os elementos comuns a A e B.
P(A B) = P(B). P(A | B)
Sendo P ( A | B ), a probabilidade condicional, ou seja, a probabilidade
de A ocorrer sabendo que o evento B ocorreu.
TABELA 5 Tipo Sanguneo
TIPO SANGUNEO

AB

TOTAL

Positivo

156

139

37

12

344

Negativo

28

25

65

Total

184

164

45

16

409

Fonte: Elaborado pela autora.

A probabilidade de o doador ter tipo sanguneo O ou A dada por:


184 + 164 = 0,8508
409
A probabilidade de o doador ter tipo sanguneo B ou ser Rh negativo
dada por:
45 + 65 - 8 = 0,2494
409

Dois ou mais eventos podem ser classificados como mutuamente


exclusivos quando a realizao de um exclui a realizao do (s) outro
(s). No lanamento de uma moeda, o evento "tirar cara" e o evento "tirar
coroa" so mutuamente exclusivos, j que a realizao de um deles
implica, necessariamente, na no realizao do outro.

069

unidade 3

ESTATSTICA E PROBABILIDADES

Portanto, em eventos mutuamente exclusivos, a probabilidade de que um


ou outro se realize igual soma das probabilidades de que cada um
deles se realize.

Eventos mutuamente exclusivos no a mesma coisa de eventos


independentes. O primeiro utilizado quando apenas um dos eventos
pode ocorrer, excluindo qualquer probabilidade de ocorrncia do outro. J
o segundo utilizado quando a ocorrncia de um dos eventos no afeta a
ocorrncia do outro.
Exemplo: Um grupo de alunos que usa culos independente do nmero
de alunos do sexo masculino em sala de aula, mas no so eventos
mutuamente exclusivos, pois possvel ter alunos do sexo masculino em
sala de aula que usam culos.

Eventos mutuamente
exclusivos no
a mesma
coisa de eventos
independentes.

Tabelas de
contingncia
As tabelas de contingncia so aplicadas na avaliao do
relacionamento das categorias com respeito aos grupos segundo
dois modos: independncia ou homogeneidade. Ou seja, eventos
com dupla entrada.
A aplicao de tabela de contingncia dois por dois dada quando
n elementos, selecionados aleatoriamente de uma populao, so
classificados em duas categorias. Depois dos elementos serem
classificados, um tratamento aplicado e alguns so examinados
novamente e classificados nas duas categorias. O que se almeja
saber : o tratamento alterou significativamente a proporo de
objetos em cada uma das duas categorias?

070

unidade 3

ESTATSTICA E PROBABILIDADES

Em relao pratica apresentada no incio dessa unidade, suponha que


em uma amostra de 2000 produtos disponibilizados ao mercado, sejam
800 refrigerantes e 1200 cervejas, dos quais 5 e 10 apresentaram algum
tipo de defeito, respectivamente, seja no rtulo da embalagem, no volume
lquido ou qualquer outro tipo de avaria. A tabela 1 apresenta uma tabela
de contingncia para melhor visualizar esses dados.

TABELA 6 - Produtos Disponibilizados


CERVEJA

REFRIGERANTE

TOTAL

Bom

1190

795

1985

Defeito

10

15

Total

1200

800

2000

Fonte: Elaborado pela autora.

A partir dessa tabela, possvel estimar que a probabilidade dessa


empresa disponibilizar um produto (dentre cervejas e/ou refrigerantes) no
mercado com algum tipo de defeito dada por:
P (defeito) = 15 = 0,0075
2000

Portanto, apenas 0,75% dos produtos disponibilizados por essa empresa


apresentam algum tipo de defeito.

A tabela de contingncia um processo de organizar a informao


correspondente a dados dicotmicos. De uma maneira geral, uma tabela
de contingncia uma representao dos dados, quer de tipo qualitativo,
quer de tipo quantitativo, especialmente quando so de tipo bivariado, isto
, podem ser classificados segundo dois critrios.

071

unidade 3

ESTATSTICA E PROBABILIDADES

Eventos
independentes
Um ou mais eventos pode (m) ser classificado (s) como
independente (s) quando a realizao de um dos eventos no afeta
a probabilidade de ocorrncia do outro, e vice-versa.
Quando dois eventos so independentes, P ( A B ) = P ( A ) . P ( B ).

Nota na prova e ter feito a prova de chinelo;


O valor de venda de um produto e a cor do cabelo das funcionrias que
o fabricaram.

Teorema
de Bayes
A probabilidade condicional, ou seja, as chances de um evento A
ocorrer, dado que outro evento B ocorreu, dada por:
P(A|B)=

P(A B)
P(B)

para P ( B ) > 0.
O teorema de Bayes prope que, se os eventos E1,E2,,En so
parties do espao amostral , ento:
P ( Ei | B ) =

P ( B | Ei ) . P ( Ei )
P(B)

072

unidade 3

Um ou mais
eventos pode (m)
ser classificado (s)
como independente
(s) quando a
realizao de um dos
eventos no afeta
a probabilidade de
ocorrncia do outro,
e vice-versa.

ESTATSTICA E PROBABILIDADES

Recorrendo lei de probabilidade total, possvel inferir que:


P ( Ei | B ) = ( P ( B | Ei ) . P ( Ei )
P ( B | Ej ).P(Ej)

Seja B1, B2, , Bn um conjunto de eventos mutuamente exclusivos


cuja unio forma o espao amostral . Seja E outro evento no
mesmo espao amostral , tal que P ( E ) > 0, ento:
P ( E ) = P ( E B1 ) + P ( E B2 ) + P ( E B3 ) + ... + P ( E Bn )
P ( E ) = P ( B1 ) . P ( E | B1 ) + P ( B2 ) P ( E | B2 ) + P ( B3 ) P ( E | B3 ) + ... + P( Bn ) P ( E | Bn )
Portanto,
P ( E ) = P ( Bi ) . P ( E | Bi )

Numa sala de aula, sabe-se que 10% dos homens e 2% das mulheres
tm mais de 1,80 m. A sala tem 70% de mulheres e 30% de homens. Um
estudante foi escolhido aleatoriamente, e constatou-se que tem mais de
1,80 m. Qual a probabilidade de que seja homem?
0,10 . 0,70

= 0,9211

0,10.0,70+0,02.0,30

073

unidade 3

ESTATSTICA E PROBABILIDADES

A teoria das probabilidades pode auxiliar facilmente a resolver o problema


proposto no incio dessa unidade. Vejamos:
Suponha que voc o engenheiro responsvel pela qualidade na linha
de produo de uma grande marca de bebidas. Est ciente de que no
possvel experimentar todos os produtos antes de disponibiliz-lo
ao mercado, pois ningum compraria uma bebida j provada, e que
o processo de fabricao composto por etapas, por interferncias
dos funcionrios, por equipamentos (que podem estar ou no muito
bem regulados), e por uma srie de outros fatores controlveis ou
no, como at mesmo uma simples umidade excessiva no ambiente
de fabricao devido ao perodo chuvoso. Voc pode suspeitar que
um determinado lote, devido variabilidade inerente ao processo,
apresente um percentual de itens no conformes maior que o
permitido pelos rgos fiscalizadores?
Se a empresa aqui citada produzir dois lotes com duas mil unidades em
cada por semana, distribudas entre 1000 cervejas, 600 refrigerantes e 400
sucos por lote, com aproximadamente 0,2, 0,1 e 0,15 por cento de itens
defeituosos, respectivamente, podemos utilizar a teoria das probabilidades
para responder questes como:
a. Qual o percentual de refrigerantes distribudos semanalmente?
b. Qual a probabilidade do consumidor adquirir um suco?
c. Dentre as cervejas, qual a probabilidade do consumidor adquirir
uma cerveja com defeito?
d. Dentre os sucos, qual a probabilidade do consumidor adquirir um
suco sem defeito do primeiro lote?
e. Sabendo que foi adquirido um produto com defeito, qual a
probabilidade de ser um suco?
Para responder essas questes, utilizamos a probabilidade clssica para
responder o item (a); a unio de probabilidades para responder o item (b); a

074

unidade 3

ESTATSTICA E PROBABILIDADES

probabilidade condicional para responder o item (c); e o teorema de Bayes


para responder o item (d). Ou seja:

a) P (refrigerante ) = 1200 =0,30 = 30%


4000

b) P (suco) = 400 + 400 = 0,40 = 40%


2000 2000

Observe que, neste caso, tanto faz se o consumidor adquirir um suco do


primeiro lote ou do segundo lote, independente da ordem de ocorrncia
do evento.

c) P ( defeitocerveja ) =

P (cerveja com defeito )


P ( cerveja )

400
0,2.1000 + 0,2 * 1000
=
1000 + 1000
2000

= 0,20

d) P ( suco sem defeito do primeiro lote | suco ) =

0,5. 0,2 . 0,85


0,5.0,2.0,85+0,5.0,2.0,85

075

unidade 3

= 0,0850 = 0,5
0,1700

ESTATSTICA E PROBABILIDADES

P ( suco com defeito | defeito ) =

2. (0,5 . 0,2 . 0,15 )


2. ( 0,5 . 0,2 . 0,15 + 0,5 .0,3 .0,1 + 0,5 .0,5 .0,2

Reviso
A teoria das probabilidades utilizada em todas as reas do
conhecimento. Ela visa auxiliar o profissional no mercado de
trabalho a predizer valores futuros, estimando as chances de
ocorrncia de um evento antes que ele ocorra.
Para calcular a probabilidade, basta dividir o que se quer pelo que
se tem, ou seja:

Sendo imprescindvel, primeiro, definir o que se tem para somente


depois retirar do que se tem o que se quer.
Quando a ocorrncia de um evento no afeta a realizao ou no de
um outro evento, eles so classificados como eventos independentes.

076

unidade 3

= 0,0150 = 0,1875
0,0800

ESTATSTICA E PROBABILIDADES

O Teorema de Bayes aplicado em situaes cuja a probabilidade de


ocorrncia de um evento est vinculada s chances de sucesso de
um outro evento.

Filmes
A Probabilidade Estatstica do Amor Primeira Vista (Adaptado)
Jennifer E. Smith
Com uma certa atmosfera de Um dia, mas voltado para o pblico jovem
adulto, a probabilidade estatstica do amor primeira vista uma histria
romntica, capaz de conquistar fs de todas as idades. Quem imaginaria
que quatro minutos poderiam mudar a vida de algum? Mas exatamente
o que acontece com Hadley. Presa no aeroporto em Nova York, esperando
outro voo depois de perder o seu, ela conhece Oliver. Um britnico fofo,
que se senta a seu lado na viagem para Londres. Enquanto conversam
sobre tudo, eles provam que o tempo , sim, muito, muito relativo. Passada
em apenas 24 horas, a histria de Oliver e Hadley mostra que o amor,
diferentemente das bagagens, jamais se extravia.

SMITH, Jennifer E. A Probabilidade Estatstica do Amor Primeira Vista.


Rio de Janeiro: Galera Record, 2013
Quebrando a banca (Adaptado).
Ben Campbell (Jim Sturgess) um brilhante estudante do M.I.T.
(Instituto Tecnolgico de Massachusetts). O seu nico problema
no ter dinheiro para pagar as contas escolares, mas a soluo est
onde ele menos esperava: nas cartas. Ele recrutado para integrar o
grupo dos mais talentosos estudantes da escola, que todos os finsde-semana vo a Las Vegas, com falsas identidades e com as suas
mentes brilhantes, so capazes de aumentar em grande escala as
probabilidades de ganhar no blackjack.

077

unidade 3

ESTATSTICA E PROBABILIDADES

Alm disto, ainda contam com o professor de matemtica (e gnio da


estatstica) Micky Rosa (Kevin Spacey) como lder. A contagem das cartas
e um, muito bem definido esquemas de sinais, que permitem equipa
vencer nos grandes cassinos. Seduzido pelo dinheiro e pelo estilo de vida
de Vegas, e pela sua inteligente e sexy amiga Jill Taylor (Kate Bosworth),
Ben comea a ir at ao limite.
Apesar da contagem da carta no ser ilegal, o risco cada vez mais elevado
e o grande desafio prende-se agora com, no s manter a contagem
correta, mas tambm enganar o chefe de segurana dos casinos: Cole
Williams (Laurence Fishburne).

Quebrando a Banca. Direo: Robert Luketic. EUA: Sony Pictures, 2008.


(123 min), son., color., legendado.

078

unidade 3

Modelos
probabilsticos
Introduo
Assim como a Matemtica, tambm a Estatstica apresenta
funes que norteiam o comportamento de suas variveis, como
as retas, parbolas e hiprboles. Na Estatstica temos os modelos
probabilsticos. Esses modelos so funes paramtricas que
descrevem o comportamento de uma varivel em estudo.

Variveis
aleatrias
Modelos
probabilsticos
Distribuio
binomial
Distribuio
Possion
Distribuio
normal
Reviso

ESTATSTICA E PROBABILIDADES

Variveis
aleatrias
O estudo das variveis aleatrias de suma importncia nas
engenharias ou mesmo em qualquer outra rea do conhecimento
tcnico e cientfico. Isso porque, nem sempre, os dados que
compem o estudo estatstico so nmeros, sendo necessrio
descobrir um meio de transform-los em nmeros, a partir de uma
funo chamada de varivel aleatria, visando facilitar a estimativa
das medidas estatsticas.

Probabilidade
Seja um experimento aleatrio qualquer de um espao amostral e um
espao de probabilidades P. Ento a varivel aleatria X no espao de
probabilidade uma funo real definida no espao amostral , tal que
( X x ) um evento aleatrio para qualquer x real.

As

variveis

aleatrias

podem

ser

classificadas

como

contnuas ou discretas, de acordo com o domnio da varivel


abordada no estudo. So classificadas como variveis
discretas as funes para as quais possvel associar um
nico nmero real a cada evento de uma partio do espao
amostral . Portanto so variveis que resultam de processos
aleatrios nos quais os resultados possveis so casuais e
formam um conjunto enumervel.
So classificadas como variveis contnuas as funes para as
quais possvel associar infinitos valores a um intervalo ( a, b ),
sendo que para valores que no pertencem ao intervalo no qual
se limita o experimento, a probabilidade de ocorrncia zero.

081

unidade 4

As variveis
aleatrias podem
ser classificadas
como contnuas
ou discretas, de
acordo com o
domnio da varivel
abordada no
estudo.

ESTATSTICA E PROBABILIDADES

Variveis discretas
funo P ( x ) aquela nas quais se associam probabilidades aos
valores da varivel aleatria X abordada no estudo estatstico.
Ou seja, quando uma varivel aleatria X assume os valores
x1,x2,x3,,xn com as respectivas probabilidades p ( x1 ), p ( x2 ), p (
x3 ) ,, p ( xn ) definidas por uma P ( X ), na qual a soma de todas
as possveis probabilidades igual a um, conforme apresentado
na tabela 7, ou seja:
TABELA 7 - Distribuio de probabilidades discretas
X

x1 x2 x3 ... xn

P (X) p ( x1 ) p ( x2 ) p ( x3 ) ... p ( xn )
Fonte: Elaborado pelo autor.

Para uma distribuio discreta de probabilidades, possvel definir


a funo acumulada indicada por F ( x ) = P ( X xi ), ou seja, a
probabilidade da varivel aleatria assumir valores menores ou
iguais a xi.
O valor esperado, indicado por E ( x ) = , a esperana matemtica
de uma varivel aleatria discreta X que assume os valores x1, x2, x3,
, xn com as respectivas probabilidades p ( x1 ), p ( x2 ), p ( x3 ),, p ( xn )
definidas por uma P ( Xn ), ou seja, igual ao valor mdio da varivel:
E ( x ) = x1 . p ( x1 ) + x2. p ( x2 ) + x3 .p ( x3 )+...+ xn. p (xn)
n

E (x) = xi . p ( xi )
i =1

O valor esperado, indicado por E (x) = , a mdia de uma varivel discreta.

A varincia, ou seja, a medida estatstica que concentra as probabilidades


em torno da mdia indicada por Var ( x ) ou 2 e dada por:

082

unidade 4

O valor esperado,
indicado por
E (x) = , a mdia
de uma varivel
discreta.

ESTATSTICA E PROBABILIDADES

Var ( x ) = E ( x2 ) - [ E ( x ) ] 2
sendo E ( x ) o valor esperado, e E (x2 ) dada por:
E ( x2 ) = x12 . p ( x1 ) + x22. p ( x2 ) + x32 . p ( x3 ) + ... + xn2 . p ( xn )
n

E ( x2 ) = xi . p ( xi )
i =1

O desvio padro indicado por DP ( x ) = a raiz da varincia, ou seja:

DP ( x ) =

Var ( x )

Para uma varivel aleatria n-dimensional (tambm chamada


de vetor aleatrio), com n=2, denota-se por ( X,Y ) o vetor
aleatrio, sendo:
TABELA 8 - Distribuio discreta
VALORES ASSOCIADOS
VARIVEL X

P(Y)

Valores associados
varivel Y

Probabilidade conjunta
P ( X, Y )

Probabilidade
marginal de Y

P(X)

Probabilidade marginal de X

Fonte: Elaborado pelo autor.

083

unidade 4

Pois P (X,Y)
uma f.d.p.

ESTATSTICA E PROBABILIDADES

S possvel realizar anlises estatsticas sobre distribuies que


sejam uma funo densidade de probabilidade, ou seja, f.d.p. Dizemos
que uma ou mais variveis so uma f.d.p. quando a soma de todas as
probabilidades que compem o evento em estudo igual a 1, ou seja,
100%. Portanto, uma ou mais variveis podem ser classificadas como
f.d.p. quando:
n

p ( xi ) = p ( x1) + ( x2 ) + p ( x3 ) + ... + p ( xn ) = 1

i =1

As probabilidades so sempre dispostas paralelamente s suas


variveis na construo da tabela bidimensional. Portanto, se
invertermos as posies de X e Y na tabela anterior, teremos a seguinte
distribuio de probabilidades:

TABELA 9 - Distribuio discreta


VALORES ASSOCIADOS
VARIVEL Y

P(X)

Valores associados
varivel X

Probabilidade conjunta
P ( X, Y )

Probabilidade
marginal de X

P(Y)

Probabilidade marginal de Y

Fonte: Elaborado pelo autor.

O valor esperado da distribuio conjunta, indicado por E ( X, Y),


dado pelo produto entre cada valor associado varivel X, com
cada valor associado varivel Y e sua respectiva probabilidade
conjunta, ou seja:
n

E ( X, Y ) = xi . yj . p ( xi , yj )
i =1 j =1

084

unidade 4

Pois P (X,Y)
uma f.d.p.

ESTATSTICA E PROBABILIDADES

Portanto,
E ( X, Y ) = a . d . p ( a , d ) + b . d . p ( b, d ) + c . d . p ( c, d ) + a . e . p ( a, e ) + b . e . p ( b , e ) +
+ c . e . p ( c, e ) + a . f . p ( a, f ) + b . f . p ( b, f ) + c . f . p ( c, f )
Para a tabela de distribuio a seguir:
TABELA 10 - Distribuio discreta
X

P (a, d )

P ( b, d)

P ( c, d )

P(d)

P ( a, e )

P ( b, e )

P ( c, e )

P(e)

P ( a, f )

P ( b, f )

P ( c, f )

P(f)

P(X)

P ( a )

P ( b )

P(c)

Fonte: Elaborado pelo autor.

Variveis contnuas
uma funo f ( x ) aquela nas quais se associam probabilidades
aos infinitos valores da varivel aleatria X, abordada no estudo
estatstico. Ou seja, quando uma varivel aleatria X assume
infinitos valores em um determinado intervalo ( a, b ), sendo a
probabilidade igual a zero para valores fora desse intervalo e a
soma de todas as possveis probabilidades contidas nesse intervalo
igual a um. Portanto, para as variveis contnuas, temos que:

f (x) 0, x R;

+ oo

P(Y)

- oo

f ( x ) dx = 1 (toda rea sob a curva de probabilidade, ou

curva de frequncia, definida por f ( x ) vale um);


b

P ( a x b) = f ( x ) dx
a

(probabilidade correspondente

rea sob a curva limitada pelo intervalo compreendido


entre x = a e x = b ). Esse assunto ser mais detalhado
posteriormente no estudo da distribuio normal.
O valor esperado, indicado por E ( x ) = , a esperana matemtica
de uma varivel aleatria contnua X, que assume os infinitos
valores do intervalo ( a, b ), ou seja:

085

unidade 4

ESTATSTICA E PROBABILIDADES

E (x) =

x .f ( x ) dx
a

A varincia, ou seja, a medida estatstica que concentra as


probabilidades em torno da mdia indicada por Var ( x ) ou 2 e
dada por:
Var ( x ) = E ( x2 ) - [ E ( x ) ]2,
sendo E ( x ) o valor esperado, e E ( x2 ) dada por:
b

E ( x ) = x2 . f ( x ) dx
2

Para uma varivel aleatria contnua bidimensional, definida


em todos os valores dos nmeros reais, a funo densidade de
probabilidade conjunta f ( x, y ) uma funo que satisfaz:

f ( x, y ) 0, para todo ( x, y ) R2;

f ( x, y ) d x d y =1

O valor esperado da distribuio conjunta, indicado por E ( X, Y ),


dado por:

E ( X, Y ) =

x . y . f ( x, y ) d x d y

A covarincia para as variveis contnuas ou discretas, ou seja,


a medida estatstica que possibilita verificar se as variveis
envolvidas na anlise so diretamente ou inversamente
proporcionais. Isso porque medida que X aumenta o Y
tambm aumenta, ou medida que X diminui o Y aumenta,
respectivamente. Tal relao dada por:

086

unidade 4

A covarincia
para as variveis
contnuas ou
discretas, ou seja, a
medida estatstica
que possibilita
verificar se as
variveis envolvidas
na anlise so
diretamente ou
inversamente
proporcionais.

ESTATSTICA E PROBABILIDADES

Cov ( X, Y ) = E ( X, Y ) - E ( X ) . E ( Y )

E o coeficiente de correlao das variveis contnuas ou discretas,


indicado por X ,

, ou seja, a medida estatstica que mensura a

relao entre as variveis X e Y dado por:


X, Y = Cov ( X, Y )
X . Y

Sendo -1 X,Y 1.

Independentemente de a classificao da varivel aleatria ser dada


como discreta ou contnua, sendo a e b constantes e x e y variveis
aleatrias, valem as propriedades:
E(X)=

Var ( x ) = 2

E(a)=a

Var ( a ) = 0

E(ax)=a.E(x)

Var ( a x ) = a2 . Var ( x )

E(abx)=ab.E(x)

Var ( a b x ) =b2 . Var ( x )

E(axby)=a.E(x)b.E(y)

Var ( a x b y ) = a2 . Var ( x ) = b2 . Var ( y ) 2 . a . b . Cov ( x, y )

Duas variveis aleatrias X e Y so independentes se o produto das


distribuies marginais for igual distribuio conjunta, ou seja:
p ( x ) . p ( y ) = p ( x , y ) para distribuio discreta;
f ( x ) . f ( y ) = f ( x , y ) para distribuio contnua.

087

unidade 4

ESTATSTICA E PROBABILIDADES

Modelos
probabilsticos
Assim como na Matemtica, temos os modelos que representam
o comportamento da varivel abordada no estudo, ou seja,
as retas, parbolas e hiprboles dentre tantas outras funes
matemticas. Na Estatstica, os modelos probabilsticos descrevem
o comportamento de uma varivel, sendo possvel calcular
a probabilidade associada aos eventos da varivel abordada
no estudo, recorrendo apenas aos modelos probabilsticos.
Esses modelos so chamados de distribuies, apresentando
particularidades prprias que facilitam a sua identificao, podendo
ser divididos em contnuos e discretos, assim como as variveis

A distribuio
binomial denotada
por X~Bin ( n; p ),
sendo n o nmero
de amostragens
(tentativas) e p
a probabilidade
de sucesso do
experimento.

estudadas no incio deste tpico.

Distribuio
binomial
A distribuio binomial denotada por X~Bin ( n; p ), sendo
n o nmero de amostragens (tentativas) e p a probabilidade
de sucesso do experimento. Trata-se de uma distribuio
discreta, aplicada em casos dicotmicos, ou seja, experimentos
aleatrios com apenas duas possibilidades de resposta,
denotadas por sucesso ou falha. Podemos citar como exemplo
o lanamento de uma moeda, um item ter defeito ou no, um
funcionrio faltar ou no.
Para se caracterizar como distribuio binomial, a varivel aleatria
abordada no estudo deve ter:
a. n tentativas ou provas independentes, ou seja, eventos
sem reposio;

088

unidade 4

ESTATSTICA E PROBABILIDADES

b. cada uma das n tentativas s admite dois resultados


possveis, sendo eles sucesso ou falha;
c. as probabilidades de sucesso e falha so complementares
e constantes durante todo o processo de observao.
O valor esperado, ou seja, a mdia da distribuio binomial e a
varincia so dadas por:
E ( x ) = = n . p e Var ( x ) = 2 = np . ( 1 - p ), respectivamente.
A probabilidade de ocorrncia de um determinado evento na
distribuio binomial dada por:

n
n-x
P ( X = x ) = ( x ). px. ( 1 - p )

n
n
sendo: ( x ) a combinao de n elementos x a x, ou seja: ( x ) =
n!
e p a probabilidade de sucesso.

( n- x) ! . x!

A distribuio binomial amplamente aplicada para avaliar


probabilidades de eventos relacionados com controle de qualidade,
mercado de aes, risco de aplices de seguro, anlise demogrfica
e vendas, dentre outras inmeras situaes de controle da
variabilidade inerente ao processo produtivo.

Distribuio
Poisson
A distribuio Poisson denotada por X~Poisson (), sendo
1
a taxa mdia, ou seja, = e sendo tambm sempre
inversamente proporcional ao intervalo de tempo ou espao
definido no problema. Portanto, o seu valor deve corresponder
ao tamanho do intervalo apresentado. Assim, para qualquer

089

unidade 4

A distribuio
binomial
amplamente
aplicada para avaliar
probabilidades de
eventos relacionados
com controle de
qualidade, mercado
de aes, risco de
aplices de seguro,
anlise demogrfica
e vendas, dentre
outras inmeras
situaes de controle
da variabilidade
inerente ao processo
produtivo.

ESTATSTICA E PROBABILIDADES

outro intervalo, o valor da mdia deve sofrer a correo


numrica adequada.
A distribuio Poisson uma distribuio discreta, aplicada em
variveis aleatrias cujo nmero de sucessos observados num
intervalo contnuo, de tempo ou espao, pode estar relacionado
quantidade de: carros que passam em um sinal por minuto; defeitos
por metro quadrado de um revestimento; chamadas por hora numa
delegacia etc.
A probabilidade de ocorrncia de um determinado evento com
distribuio Poisson dada por:

P(X=x)=

e- . x
x!

A distribuio Poisson pode ser aplicada como um caso limite da


binomial, quando o tamanho da amostra em eventos dicotmicos
maior que 30.

Distribuio
normal
A distribuio normal denotada por X~Normal (; 2 ), sendo
o valor esperado, ou seja, a mdia da distribuio normal e a
varincia dadas por:
E ( x ) = e Var ( x ) = 2, respectivamente.
Por diversas razes, tanto na teoria quanto na prtica, a distribuio normal
a mais importante das distribuies de probabilidade. Isso porque muitas
variveis no mundo real tm comportamento bastante aproximado dessa
distribuio. Sua relevncia pode ser destacada pelo fato de:

090

unidade 4

A distribuio
Poisson pode ser
aplicada como
um caso limite da
binomial, quando
o tamanho da
amostra em eventos
dicotmicos maior
que 30.

ESTATSTICA E PROBABILIDADES

a. seus resultados serem de fcil operao matemtica;


b. muitas tcnicas estatsticas pressuporem que os dados
tm distribuio normal;
c. os dados de muitas situaes reais, embora no sejam
rigorosamente normais, podem gerar bons resultados,
facilitando o tratamento matemtico;
d. a distribuio amostral de muitas estatsticas tenderem
distribuio normal, em face do teorema do limite central.
Essa distribuio classificada como contnua, podendo a varivel
assumir qualquer valor dentro de um intervalo previamente definido.
Essa distribuio, delineada por uma curva em forma de sino com
f.d.p, dada por:

As principais propriedades da distribuio normal so:


1. ter a forma de um sino;
2. ser simtrica em relao mdia ;
3. ser assinttica1 em relao ao eixo de x;
4. ser unimodal2 e ter achatamento proporcional ao desvio
padro ou varincia;
5. ter mdia, moda e mediana iguais.

1 - No toca o eixo x.
2 - S tem uma moda.

091

unidade 4

A distribuio
amostral de
muitas estatsticas
tenderem
distribuio normal,
em face do teorema
do limite central.

ESTATSTICA E PROBABILIDADES

FIGURA 21 - Distribuio normal

Fonte: TRIOLA, 2011, p.88.

Como o clculo da rea abaixo da curva a integral da f.d.p. nos


limites desejados e esse clculo , muitas vezes, longo, a rea sob a
curva pode ser simplificada pela transformao:
z=

x-

Sendo z uma varivel aleatria com distribuio normal, mdia zero


e varincia 1, e x sendo uma varivel aleatria com distribuio
normal, mdia e varincia 2.
A rea total limitada pela curva normal e pelo eixo das abscissas
1u.a. (uma unidade de rea), ou seja, 100%, sendo as reas sob a
curva limitadas pela distncia entre o desvio padro e a mdia. Essa
rea apresentada na tabela a seguir.

092

unidade 4

ESTATSTICA E PROBABILIDADES

TABELA 11 - rea sob a curva da normal

Fonte: BARBETTA, 2010, p. 377.

Sendo a primeira coluna e a primeira linha o nmero inteiro


mais a primeira casa decimal e a segunda casa decimal,
respectivamente, do nmero z calculado pela estatstica de teste
x-
z=
e, no centro da tabela, as probabilidades correspondentes

rea entre zero e esse ponto, conforme ilustrao a seguir.

093

unidade 4

ESTATSTICA E PROBABILIDADES

FIGURA 22 - Distribuio normal padro

Fonte: Elaborado pela autora.

Uma grande indstria compra diversos novos processadores de texto no


final de cada ano, sendo que o nmero exato deles depende da frequncia
dos reparos no ano anterior. Suponha que o nmero de processadores,
indicado por X, que so comprados a cada ano, tenha a seguinte
distribuio de probabilidade:

TABELA 12 - Distribuio de frequncias


X

P(X)

0,10

0,30

0,40

3
0,20

Fonte: Elaborado pelo autor.

Se o custo do modelo desejado permanecer fixo em R$ 1500,00 durante


este ano e um desconto de 50.X2 (em reais) for fornecido em relao a
qualquer compra, quanto a empresa espera gastar E ( X ) em novos
processadores no final do ano?
E ( X ) = 0.0,1 + 1.0,3 + 2.0,4 + 3.0,2
E ( X ) = 1,7

094

unidade 4

ESTATSTICA E PROBABILIDADES

Reviso
A distribuio discreta usada em casos cujos dados analisados podem
ser alocados em uma tabela de probabilidades, sendo que aquelas
localizadas no centro da tabela so classificadas como probabilidade
conjunta e as localizadas nas laterais, como probabilidades marginais.
Probabilidades marginais so aquelas que correspondem a apenas
uma das variveis em estudo, e as probabilidades conjuntas so as
que correspondem a duas variveis analisadas concomitantemente.
A distribuio contnua usada em casos cujos dados analisados
podem ser alocados em um intervalo contnuo.
No que tange as distribuies de probabilidade, cabe ressaltar:
TABELA 13 - Reviso das medidas de tendncia central
LIMITAES

DISTRIBUIO
Binomial

QUANDO USAR

No usual para amostras com


mais de 30 elementos.

Quando os eventos estudados permitem apenas


duas respostas possveis.

Poisson

Quando o foco do estudo na quantidade do


perodo.

Normal

Quando a mdia e o desvio padro so


conhecidos.

Fonte: Elaborado pelo autor.

Para estudar mais sobre os contedos abordados nessa unida, sob perspectiva aplicada, consulte as
obras sugeridas abaixo.
MOORE, David. A estatstica bsica e sua prtica. Rio de Janeiro. LTC, 2014.
Para uma fundamentao matemtica mais aprofundada sobre o assunto, consulte a seguinte obra:
MONTGOMERY, Douglas; RUNGER, George Estatstica aplicada e probabilidade para engenheiros. 3 ed.
Rio de Janeiro: LTC, 2009.

095

unidade 4

Estimao de
mdias
e propores
Introduo
Nas unidades anteriores, voc estudou trs grandes reas do
mtodo estatstico: amostragem e coleta de dados; anlise
exploratria de dados; e teoria de probabilidades. A partir de agora,
voc vai entender como essas reas se relacionam para construir a
quarta rea do mtodo estatstico, que a deciso na presena de
incerteza ou estatstica inferencial.
A estatstica inferencial recebe esse nome por ser um conjunto de
mtodos e tcnicas que permitem, a partir dos dados provenientes
de uma amostra, inferir informaes sobre toda a populao alvo
do estudo. Logicamente existe uma incerteza associada a esse
processo, mas ela quantificada atravs dos nveis de confiana
e margens de erro do estudo. Essa a grande contribuio da
estatstica inferencial, permitir que se conhea o nvel de incerteza
da informao antes de tomar decises.
Existe uma infinidade de tcnicas de estatstica inferencial,
como os intervalos de confiana, testes de hipteses
paramtricos e no paramtricos, anlises de correlao
e regresso, dentre outras. Para que voc tenha noo da
quantidade de tcnicas, imagine que exista um curso de
graduao em Estatstica com durao de quatro anos em
que o aluno passa a maior parte do tempo estudando tcnicas
de estatstica inferencial. E ainda assim esse tempo no
suficiente para estudar todas as tcnicas!

Teorema
central do limite
Estimao
pontual e por
intervalos de
confiana para
uma mdia
populacional
Estimao
pontual e por
intervalos de
confiana para
uma proporo
populacional
Uso do Excel
no clculo de
intervalos
de confiana
para mdia e
proporo
Introduo ao
programa EpiInfo
Reviso

A boa notcia que em todas essas tcnicas existe um ponto


em comum, conceitos que so utilizados em todas elas, como
estimativa pontual, intervalos de confiana e testes de hipteses.
Esses conhecimentos esto presentes em todas as tcnicas de
estatstica inferencial. E exatamente o que estudaremos nas
prximas unidades.
Nesta unidade, especificamente, voc vai conhecer o teorema
principal da estatstica, o fundamento de grande parte das tcnicas
de estatstica inferencial: o teorema central do limite. Esse teorema
fala sobre a relao entre o modelo normal de probabilidades e a
mdia calculada a partir de uma amostra. Voc consegue imaginar
qual seja essa relao?
Aqui voc vai descobrir como so calculadas as margens de erro
das pesquisas eleitorais, que so obtidas atravs das estimativas
pontuais e intervalares para mdias e propores populacionais. Vai
descobrir como utilizar o Excel para construir uma calculadora para
intervalos de confiana. E tambm um software muito til para fazer
vrias anlises estatsticas, o EpiInfo.

ESTATSTICA E PROBABILIDADES

Teorema central
do limite
Imagine a seguinte situao: um engenheiro de produo deseja
monitorar um processo de produo de fibra sinttica de maneira
a garantir que a caracterstica de qualidade resistncia trao
esteja sempre dentro dos limites de especificao. conhecido
que a resistncia trao das fibras produzidas naquela empresa
normalmente distribuda com mdia de 75 psi (libras fora por
polegada quadrada) com desvio-padro de 3,5 psi.
Como no vivel medir a caracterstica de qualidade em todas
as peas produzidas (inspeo 100%) ele decidiu coletar amostras
periodicamente para verificar se no houve alterao na mdia
do processo. Acontece que cada vez que ele coleta uma amostra
e obtm a mdia dessa amostra existe uma variao, ou seja,
as mdias das amostras so sempre diferentes. A dvida : o
engenheiro pode afirmar que houve alterao na mdia do processo
(de todas as peas produzidas) ou a variao devida simplesmente
uma flutuao amostral?
O teorema central do limite (TCL) poder auxiliar o engenheiro a
interpretar os resultados dessas amostras e resolver a dvida. O
TCL diz que quando trabalhamos com amostras e calculamos
mdias, as mdias das amostras so normalmente distribudas
em torno da verdadeira mdia populacional. Isso acontece porque,
exatamente pelo fato de serem baseadas em sorteio aleatrio, as
amostras so sempre diferentes e, se calcularmos ento a mdia
em cada amostra, bem difcil encontrarmos exatamente os
mesmos valores.
Entretanto, apesar de as amostras serem diferentes e terem mdias
diferentes, se selecionarmos vrias amostras e obtivermos suas
mdias, podemos fazer um histograma dessas mdias. Ao realizar
esse procedimento poderemos ver que, medida que aumentamos

099

unidade 5

O TCL diz que


quando trabalhamos
com amostras
e calculamos
mdias, as mdias
das amostras
so normalmente
distribudas em torno
da verdadeira mdia
populacional.

ESTATSTICA E PROBABILIDADES

a quantidade de amostras, o histograma mais se assemelha curva


da distribuio normal de probabilidades e, ainda, a mdia dessas
mdias mais se aproxima da verdadeira mdia populacional.
Definio do teorema central do limite
Se X uma varivel aleatria com mdia e varincia 2 e

mdia de uma amostra com n elementos dessa varivel aleatria,


ento podemos dizer que a forma limite da distribuio de

z=

X-

a distribuio normal padro quando n tende ao infinito.


Podemos dizer ainda que X normalmente distribudo com mdia
X = e desvio-padro X =

n .

EXEMPLO
Pensando no exemplo das fibras sintticas, chamamos de X a
varivel aleatria resistncia trao das fibras. Sabemos que a
mdia 75 psi e o desvio-padro 3,5 psi. Encontre a probabilidade
de uma amostra aleatria de n = 25 fibras ter uma resistncia mdia
menor que 73,6 psi.
Note que a distribuio amostral de

normal, com mdia X =75

psi e um desvio-padro de
X = = 3,5 = 0,7 psi

n 25

Consequentemente, a probabilidade desejada corresponde rea


sombreada na figura abaixo.

100

unidade 5

ESTATSTICA E PROBABILIDADES

FIGURA 23 - Distribuio amostral de X - Mdia 75 e desviopadro 0,7

Fonte: Elaborada pelo autor.

Desse modo, podemos dizer que


P(

< 73,6 ) = P ( Z < z ) onde o valor de z obtido atravs da

padronizao:

z=

73,6 - 75
= -2
35
25

Ento,
P(

< 73,6 ) = P ( Z < -2 ) = 0,0228 (pela tabela da distribuio

normal padro).
O resultado acima indica que a probabilidade de selecionar
uma amostra de fibras e obter resistncia mdia menor
que 73,6 psi de 2,28%. Na Unidade 7 veremos que essa
probabilidade pode ser considerada baixa e, portanto, de posse
dessa informao, o engenheiro poderia adotar o seguinte
critrio: ao observar uma amostra de fibras com resistncia
mdia menor que 73,6 psi, o processo deve ser verificado.

101

unidade 5

ESTATSTICA E PROBABILIDADES

importante ressaltar que o TCL pode ser utilizado ainda que


a distribuio da varivel aleatria X no seja normal, ou seja, o
teorema valido para qualquer que seja a distribuio de X. Essa
a grande contribuio do TCL para o desenvolvimento dos mtodos
estatsticos. Entretanto, nas situaes em que a distribuio da
varivel aleatria X seja muito assimtrica, a aplicao do TCL
adequada para amostras grandes ( n 30 ). A figura abaixo ilustra
as distribuies amostrais de

para diferentes populaes e

diferentes tamanhos de amostra.


FIGURA 24 - Distribuies amostrais de
Populao original
(distribuio de X)

Distribuio amostral
de X para n = 2

para diferentes populaes e tamanhos de amostra


Distribuio amostral
de X para n = 5

Fonte: Elaborao do autor.

Note nos grficos acima que a aproximao pela distribuio normal


razovel para amostras com 30 ou mais observaes. Por essa
razo, a utilizao do teorema central do limite adequada quando

102

unidade 5

Distribuio amostral
de X para n = 30

ESTATSTICA E PROBABILIDADES

o tamanho da amostra for ao menos 30 ou quando a distribuio da


varivel aleatria X for normal.
Nos prximos tpicos, voc vai descobrir como aplicar o
teorema central do limite para obter estimativas intervalares
para mdias e propores populacionais a partir da mdia e
propores amostrais. Na Unidade 7, o TCL ser utilizado para
realizar testes de hipteses sobre os parmetros populacionais.

Estimao pontual
e por intervalos de
confiana para uma
mdia populacional
Neste tpico, voc vai aprender a obter uma estimativa para mdia
populacional e calcular a preciso dessa estimativa. Voc vai
entender por que apresentar a margem de erro e o nvel de confiana
da pesquisa to importante quanto apresentar a estimativa
pontual para mdia. Aps a leitura deste tpico, voc ter um novo
olhar sobre as estatsticas que lhe so apresentadas diariamente
em jornais ou revistas.
Considere que uma montadora desenvolveu um novo modelo e est
elaborando a ficha tcnica do veculo. Uma informao relevante
para o cliente o consumo mdio de combustvel. Sabe-se que
o consumo est relacionado ao tipo de combustvel (etanol ou
gasolina ), maneira de conduzir, ao tipo de via (cidade ou estrada),
qualidade do combustvel, dentre outras variveis. O consumo
pode variar tambm entre os veculos de mesmo modelo, por
essa razo podemos tratar o consumo de combustvel como uma
varivel aleatria.

103

unidade 5

ESTATSTICA E PROBABILIDADES

Para definir o consumo mdio de combustvel do novo modelo de


veculo, a montadora coletou dados sobre distncia percorrida e
consumo de combustvel de 35 veculos. Com esses dados, calculou
o consumo mdio na estrada e na cidade tanto para gasolina quanto
para etanol. Os resultados so apresentados na tabela abaixo:
TABELA 14 - Reviso das medidas de tendncia central
TRAJETO

ETANOL (KM/L)

GASOLINA (KM/L)

Cidade

8,7

12,5

Estrada

10,4

15,2

Fonte: Elaborado pelo autor.

Os 35 veculos que participaram do experimento podem ser


considerados uma amostra do total de veculos produzidos pela
montadora, j que o objetivo obter informao sobre todos os
veculos do referido modelo que so produzidos. Dessa forma, a
montadora est utilizando a mdia da amostra

para estimar , o

consumo mdio de todos os veculos.


Dizemos que a mdia da amostra

representa um nico estimador

numrico da mdia da populao. Por essa razo, recebe o nome


de estimador pontual. Observe, por exemplo, na tabela 21 que o
consumo mdio do veculo na cidade com etanol foi estimado em
8,7 km/l, mas no foi apresentada nenhuma informao quanto
preciso dessa estimativa.
No tpico anterior, vimos que a mdia amostral

pode ser

considerada uma varivel aleatria. Isso significa que, caso


selecionssemos outra amostra de 35 veculos e calculssemos
o consumo mdio na cidade com etanol, o resultado poderia
ser diferente de 8,7 km/l. Por essa razo, a estimativa pontual
deve vir sempre acompanhada da margem de erro, informando
assim sua preciso. A margem de erro pode ser obtida atravs
da equao a seguir:

104

unidade 5

ESTATSTICA E PROBABILIDADES

E = Z

/ n
2

Onde:
z 2 est relacionado ao nvel de confiana desejado para o estudo;
 o desvio-padro populacional da varivel aleatria X;
n o tamanho da amostra coletada.
O nvel de confiana do estudo definido pelo valor de z2 que
pode ser obtido da tabela da distribuio normal padro. O nvel de
confiana dado em valor percentual e deve ser sempre inferior
a 100%. Chamamos significncia () o percentual restante, de
maneira que confiana + significncia = 100%. Por exemplo, para
um estudo com 95% de confiana, o valor de ser 5%. O valor de z

= 1,96 definido ento a partir da distribuio normal padro, como


ilustra a figura abaixo:
FIGURA 25 - Definio do valor de z para confiana de 95%

Fonte: Elaborado pelo autor.

Observe tambm que, para o clculo da margem de erro, precisamos


conhecer o desvio-padro populacional da varivel aleatria X, isto
, o desvio-padro do consumo de combustvel de todos os veculos
do referido modelo produzidos pela montadora. Entretanto, como a

105

unidade 5

ESTATSTICA E PROBABILIDADES

amostra pode ser considerada grande ( n > 30 ), podemos utilizar


o desvio-padro da amostra s como aproximao de , e ento o
clculo da margem de erro ser:
E = Z

/ n
2

Vamos obter, portanto, a margem de erro para o verdadeiro consumo


mdio de etanol na cidade para esse veculo, com um nvel de 95%
de confiana, sabendo que o desvio-padro do consumo de etanol
na cidade para a amostra dos 35 veculos foi de 4 km/l.
E = 1,96

35

= 1,325

O clculo acima mostra que a margem de erro do estudo de 1,325


km/l para o consumo do veculo ao rodar com etanol na cidade.
Com isso, podemos dizer que o verdadeiro consumo mdio do
veculo de 8,7 km/l com uma margem de 1,325 km/l para mais
ou para menos, ou seja, est entre 8,7 - 1,325 = 7,375 km/l e 8,7 +
1,325 = 10,025 km/l. O intervalo que acabamos de construir (7,375;
10,025) conhecido como intervalo de confiana ou estimador
intervalar e definido pela equao:

IC [ ; ( 100 - ) % ] =

Ou seja, o intervalo de confiana para , a verdadeira mdia


populacional, com um nvel de ( 100 - ) % de confiana, dado pela

mdia amostral menos a margem de erro e a mdia amostral mais a


margem de erro.
O resultado do exemplo acima comumente interpretado da
seguinte maneira: se obtivermos vrias amostras de 35 veculos
e, para cada uma delas, calcularmos os correspondentes intervalos
com 95% de confiana, esperamos que a proporo de intervalos
que contenham o verdadeiro consumo mdio seja igual a 95%.

106

unidade 5

ESTATSTICA E PROBABILIDADES

Exemplo:
Para os dados da tabela 21, supondo que o desvio-padro para o
consumo de etanol na estrada seja de 2 km/l, obtenha o intervalo de
95% para o verdadeiro consumo mdio.
Soluo:
Para resolver a questo acima, podemos utilizar a equao:

IC [ ; 95% ] =

Precisamos, portanto, encontrar a margem de erro do estudo. Para


isso, vamos utilizar a equao:

E = Z

/ n
2

Logo:
E = 1,96 *

2
= 0,663
35

Ento:
IC [ ; 95% ] = 10,4 0,663
O intervalo comumente apresentado como segue:
IC [ ; 95% ] = [ 9,737 ; 11,063 ]
Dessa forma, afirmamos com 95% de confiana que o consumo
mdio de etanol na estrada para o novo modelo de veculo est
entre 9,737 km/l e 11,063 km/l.

107

unidade 5

ESTATSTICA E PROBABILIDADES

Estimao por intervalos de confiana


para uma mdia populacional
(amostras pequenas)
Voc deve ter observado no tpico anterior que o clculo da
margem de erro para o intervalo de confiana exige o conhecimento
do desvio-padro populacional (). Entretanto, na maioria das vezes
em que se deseja estimar a mdia populacional, o desvio-padro
populacional tambm desconhecido, o que torna inadequada a
aplicao da equao para o clculo da margem de erro.
Felizmente,

quando

trabalhamos

com

grandes

amostras

( n > 30 ), o desvio-padro amostral (s) uma boa aproximao


para o desvio-padro populacional (), o que possibilita a utilizao
da equao apresentada para o clculo da margem de erro. Mas, o
que fazer quando a amostra pequena ( n < 30 )? exatamente o
que descobriremos aqui.
Nas situaes em que a amostra pequena, nos deparamos com
dois problemas:
1. No podemos utilizar o teorema central do limite
para dizer que a mdia amostral (

) normalmente

distribuda, pois o TCL vlido somente para amostras


com mais de 30 observaes.
2. A aproximao do desvio-padro populacional pelo desviopadro amostral considerada pobre.
Para contornar o problema 1, lanamos mo do seguinte teorema:
Se X uma varivel aleatria normalmente distribuda, ao selecionar
amostras de tamanho n, a distribuio amostral de
ser uma
distribuio normal.

108

unidade 5

Felizmente, quando
trabalhamos com
grandes amostras
( n > 30 ), o desviopadro amostral
(s) uma boa
aproximao para
o desvio-padro
populacional (),
o que possibilita
a utilizao
da equao
apresentada para o
clculo da margem
de erro.

ESTATSTICA E PROBABILIDADES

Esse teorema garante que, se a varivel aleatria X normalmente


distribuda, ento a distribuio amostral de

ser normal

independente do tamanho da amostra.


Para contornar o problema 2, vamos precisar utilizar uma nova
distribuio de probabilidades, a distribuio t-student. Essa
distribuio muito semelhante distribuio normal: tem
forma de sino, simtrica e tem mdia zero. A diferena que a
distribuio t-student mais achatada (tem caudas mais pesadas).
Com isso, as estimativas obtidas a partir dessa distribuio sero
menos precisas.
FIGURA 26 - Comparao entre a distribuio normal e a distribuio t-student (5 gl)

Fonte: Elaborado pelo autor.

A figura a seguir ilustra parte da tabela dos valores mais utilizados


para distribuio t-student. Para construo de intervalos de
confiana, devemos olhar os valores para rea em duas caudas e a

rea deve se referir ao valor de + . Os graus de liberdade so


2
2
dados por n - 1, ou seja, o tamanho da amostra menos 1.

109

unidade 5

ESTATSTICA E PROBABILIDADES

FIGURA 27 -Valores tabelados para distribuio t-studen

Fonte: TRIOLLA, 2013, p. 614.

Exemplo:
Uma equipe de engenharia est desenvolvendo uma nova
mistura para concreto e deseja estimar a resistncia mdia
do produto compresso. Como o teste de resistncia
compresso um ensaio destrutivo, o mximo que a equipe
conseguiu para realizao do estudo foram 10 corpos de prova.
A resistncia mdia compresso da amostra foi de 2.500 psi
e o desvio-padro foi de 45 psi. Sabendo que a resistncia do
concreto compresso segue uma distribuio normal, obtenha
uma estimativa intervalar para a verdadeira resistncia mdia
populacional com 95% de confiana.

110

unidade 5

ESTATSTICA E PROBABILIDADES

Soluo:
Observe que o tamanho da amostra pequeno, n = 10, e o desviopadro foi obtido da amostra (no conhecemos o desvio-padro
populacional). Nesse caso, para construir o intervalo de confiana,
necessrio utilizar a distribuio t-student e a margem de erro deve
ser calculada utilizando a equao:

E = t ( 2 ; n - 1)
/

Onde t

; n-1 obtido da tabela t-student, sendo os


parmetros: 2 a rea em cada uma das duas caudas e n - 1
os graus de liberdade.
Como o intervalo de 95% de confiana, sabemos que a significncia
o = 5% (para consultar a tabela usamos o valor em decimal, 0,05).
Os graus de liberdade so obtidos calculando n-1, ou seja, 10 - 1 =
9. Assim, encontramos que o valor de t0,025;9 de 2,262.
FIGURA 28: Tabela t-student - encontrando t 0,025;9

Fonte: TRIOLA, 2013, p. 614

111

unidade 5

ESTATSTICA E PROBABILIDADES

Com isso, estimamos que a margem de erro ser:


E = 2,262 45 = 32,189
10
O intervalo de confiana pode ser ento obtido:
IC [ ; 95% ] = 2.500 32,189
IC [ ; 95% ] = [ 2.467,81 ; 2.532,19 ]
A equipe de engenharia pde interpretar o resultado como segue:
afirmamos com 95% de confiana que a resistncia mdia do
concreto compresso est entre 2.467,81 psi e 2.532,19 psi.

Estimao pontual
e por intervalos
de confiana para
uma proporo
populacional
Como so calculadas as margens de erro das pesquisas eleitorais?
Possivelmente no incio da unidade voc tenha ficado instigado a
descobrir como feito esse clculo. Antes de dar incio, preciso
entender que as pesquisas eleitorais buscam descobrir o percentual
de eleitores que so favorveis ao candidato A ou B, e esses
percentuais so tratados na estatstica como propores.
Para simplificar os clculos, vamos pensar em uma eleio que foi
para o segundo turno e, portanto, tem apenas dois candidatos. Uma
empresa de pesquisa entrevistou 2.500 eleitores quanto inteno
de voto nos candidatos A e B. Note que "candidato" uma varivel
qualitativa, e o que queremos descobrir como estimar a probabilidade

112

unidade 5

ESTATSTICA E PROBABILIDADES

de sucesso em um experimento binomial em que p a probabilidade


de que o eleitor escolhido prefira o candidato A, por exemplo. Uma
maneira bem intuitiva de estimar p para a populao usar a proporo
de sucessos da amostra:

= Nmero de eleitores que preferem o candidato A


p
Nmero de eleitores amostrados

Suponha que dos 2.500 eleitores amostrados 1.300 tenham


declarado inteno de votar no candidato A, 950 no candidato B e
250 em branco ou nulo. Assim, podemos estimar a proporo de
eleitores que votariam no candidato A por:
p = 1.300 = 0,52
Ou seja, a amostra indica que cerca de 52% dos eleitores
tm inteno de votar no candidato A. Entretanto, devemos
lembrar que caso fosse realizada outra amostragem e fossem
selecionados outros 2.500 eleitores o resultado poderia ser
diferente de 0,52. O valor de p uma estimativa pontual para p, a
verdadeira proporo de eleitores que tm inteno de votar no
candidato A em toda a populao.
Podemos tratar p como uma mdia, se pensarmos que X uma
varivel aleatria que assume 0 quando o eleitor declara votar no
candidato B, em branco ou nulo e 1 quando o eleitor declara votar
no candidato A. Nesse caso, podemos utilizar o teorema central do
limite e dizer que p normalmente distribudo com mdia p = p e
desvio-padro p =
p =

p.qn , onde q = 1-p, ou de maneira aproximada

, pois no conhecemos os verdadeiros valores de p e q.


p.q
n

113

unidade 5

ESTATSTICA E PROBABILIDADES

Sabemos que o TCL vlido apenas para amostras grandes. No caso


de estimativas para propores, dizemos que a amostra grande
quando n . p 5 e tambm n . q 5, ou seja, ambos os critrios devem
ser satisfeitos.

Caso esses critrios tenham sido satisfeitos, podemos calcular a


margem de erro atravs da equao:

E = Z

/
2

pq
n

E ento o intervalo de confiana para p ser:


IC [ p ; ( 100 - ) % ]= p E
= 2.500 * 0,52 = 1.300 e n.q
No exemplo da pesquisa eleitoral, n . p
= 2.500 * 0,48 = 1.200. Como ambos os critrios foram satisfeitos,
dizemos que temos uma amostra grande o bastante para justificar
a utilizao do TCL, logo podemos obter a margem de erro com o
nvel de 95% de confiana:

E= 1,96

0,52 0,48
2.500

= 0,0196

E o intervalo de confiana ser:


IC [ p ; 95% ] = 0,52 0,0196
IC [ p ; 95% ] = [ 0,5004 ; 0,5396 ]
Podemos afirmar com 95% de confiana que a verdadeira proporo
de eleitores que votam no candidato A em toda a populao est
entre 50,04% e 53,96%. Observe que afirmar com 95% de confiana
significa dizer que, se fossem feitas 100 pesquisas e calculados os
intervalos de confiana, cerca de 95 deles conteriam a verdadeira
proporo de eleitores que votam no candidato A.

114

unidade 5

ESTATSTICA E PROBABILIDADES

Exemplo:
A empresa XYZ compra tubos de ao do fornecedor A. Na ltima
semana, a XYZ recebeu uma proposta de comprar tubos de ao do
fornecedor B pela metade do preo do fornecedor A. Para decidir,
o gerente de compras deseja estimar qual o percentual de no
conformidade nos tubos do fornecedor B (proporo de tubos
defeituosos). Em um lote de 150 tubos havia 21 no conformes.
Obtenha o intervalo de 90% de confiana para a verdadeira
proporo de tubos no conformes do fornecedor B.
Soluo:
Uma estimativa pontual para a verdadeira proporo de tubos no
conformes dada por:
p = 21 = 0,14
150
Verificamos que a aplicao do teorema central do limite adequada,
= 21 e n . q = 150 * 0,86 = 129, ou seja, ambos so maiores
pois n . p
que 5, indicando que a amostra suficientemente grande. Podemos
estimar a margem de erro do estudo pela equao:
E = Z

E = 1,645

/2 pq
n

0,14 0,86
= 0,047
150

Ento, definimos o intervalo com 90% de confiana para p


pela equao:
E
IC [ p ; 90% ] = p
IC [ p ; 90% ] = 0,14 0,047
IC [ p ; 90% ] = [ 0,093 ;0,187 ]

115

unidade 5

ESTATSTICA E PROBABILIDADES

O gerente de compras pode afirmar, com 90% de confiana, que


a verdadeira proporo de tubos no conformes provenientes do
fornecedor B est entre 9,3% e 18,7%. O gerente far sua deciso
baseado nessa informao e em outras que julgar convenientes.

Uso do Excel no
clculo de intervalos
de confiana para
mdia e proporo
Agora que voc j sabe exatamente como so obtidos os intervalos
de confiana, vamos utilizar o Excel para construir uma calculadora
de intervalos de confiana. Comearemos pelo intervalo para mdia.
Nos tpicos anteriores, vimos que o intervalo de confiana para a
mdia populacional pode ser obtido de duas maneiras: utilizando
a distribuio normal (estatstica z) ou a distribuio t-student
(estatstica t). Vimos tambm que a distribuio t-student
utilizada quando o tamanho da amostra menor que 30 e o desviopadro populacional desconhecido. Nos outros casos, utilizamos
a distribuio normal.
Vamos construir primeiramente uma calculadora para intervalos de
confiana utilizando a distribuio normal. Utilizaremos os dados
sobre consumo de combustvel do primeiro exemplo.
A figura a seguir ilustra como deve ficar nossa calculadora nas
colunas A e B.

116

unidade 5

O intervalo de
confiana para a
mdia populacional
pode ser obtido
de duas maneiras:
utilizando a
distribuio normal
(estatstica z)
ou a distribuio
t-student
(estatstica t).

ESTATSTICA E PROBABILIDADES

FIGURA 29 - Calculadora para intervalo de confiana para mdia:


amostras grandes ou desvio-padro populacional conhecido

Fonte: Elaborado pelo autor.

Nas linhas 4 a 7 so inseridas as informaes iniciais do problema,


como: desvio-padro, que pode ser tanto da populao quanto da
amostra; a mdia amostral

; o tamanho da amostra n; e o nvel

de confiana desejado. Note que a clula B7 deve ser configurada


como porcentagem.
Nas linhas 9 a 11 so realizados clculos intermedirios
como erro padro da mdia x (ou x ), o valor de z relativo ao
nvel de confiana desejado e a margem de erro resultante.
As frmulas utilizadas para cada um dos clculos so
apresentadas exatamente sua direita. Por exemplo, na clula
B9 foi inserida a frmula = B4/RAIZ(B6), que o desvio-padro
dividido pela raiz do tamanho da amostra. Nas linhas 13 e 14
apresentado o intervalo de confiana, sendo limite inferior do

117

unidade 5

ESTATSTICA E PROBABILIDADES

intervalo o valor de
de

- E e o limite superior do intervalo o valor

+ E.

Para construir a calculadora para amostras pequenas e desviopadro populacional desconhecido, vamos utilizar os dados
do exemplo sobre a resistncia do concreto compresso.
O procedimento o mesmo do anterior, alterando apenas as
informaes relativas aos parmetros da distribuio t-student:
FIGURA 30 - Calculadora para intervalo de confiana para mdia:
amostras pequenas e desvio-padro populacional desconhecido

Fonte: Elaborado pelo autor.

Para construir a calculadora de intervalos de confiana para


propores, vamos utilizar os dados do exemplo da pesquisa
eleitoral. Nesse caso, os dados iniciais so o nmero de sucessos
e o tamanho da amostra. Lembrando que a palavra sucesso est
relacionada distribuio binomial e se refere ao nmero de vezes

118

unidade 5

ESTATSTICA E PROBABILIDADES

que ocorreu o evento de interesse. No caso do exemplo sobre as


eleies, o nmero de sucessos a quantidade de entrevistados
que declarou inteno de votar no candidato A, 1300 pessoas. O
tamanho da amostra foi de 2500 entrevistados. Com esses dados,
calcula-se a proporo estimada p dividindo o nmero de sucessos
pelo tamanho da amostra (clula B6).

O erro padro da mdia calculado atravs da equao p =

p.qn =

implementada na clula B9. As demais clulas utilizam as mesmas


frmulas j apresentadas nas calculadoras anteriores.
FIGURA 31 - Calculadora para intervalo de confiana para proporo

Fonte: Elaborado pelo autor.

119

unidade 5

ESTATSTICA E PROBABILIDADES

Introduo ao
programa EpiInfo
O software EpiInfo uma ferramenta muito til para anlise de
dados. Esse software foi desenvolvido pelo Centro de Controle de
Doenas (CDC) para anlise de dados epidemiolgicos, entretanto
pode ser utilizado em qualquer rea, inclusive em engenharia. O
software est disponvel no site www.cdc.gov/epiinfo
Veja no material web da disciplina os vdeos de instalao do EpiInfo
e de introduo anlise de dados utilizando essa ferramenta.

Um fabricante de anis para pistes de motor deseja verificar se seu


produto atende as especificaes do cliente. Para isso, resolveu estimar
o dimetro mdio dos anis produzidos. A partir de uma amostra de 40
anis, registrou-se dimetro mdio de 74,045 milmetros com desviopadro de 0,02 milmetros. Construa o intervalo com 99% de confiana
para o verdadeiro dimetro mdio dos anis.
Soluo:
Note que o enunciado no informou a distribuio de probabilidade da
varivel dimetro dos anis e, alm disso, tambm no temos informao
a respeito do desvio-padro populacional dessa varivel. Entretanto,
como a amostra considerada grande (40 anis), podemos valer do
teorema central do limite e afirmar que a distribuio amostral do dimetro
mdio dos anis normal, com mdia e desvio-padro n , onde
o verdadeiro dimetro mdio dos anis e o verdadeiro desvio-padro.
Sabemos ainda que o estimador de X, a mdia amostral e o estimador
de s, o desvio-padro amostral. Dessa forma, utilizaremos as equaes
a seguir para construir o intervalo com 99% de confiana para o verdadeiro
dimetro mdio dos anis.

120

unidade 5

ESTATSTICA E PROBABILIDADES

IC [ ;99% ] = x E

Precisamos, portanto, encontrar a margem de erro do estudo. Para isso,


vamos utilizar a equao:

E = Z

/ n
2

Logo:
E = 2,575 *

0,02

40

= 0,008

Ento:
IC [ ; 99% ] = 74,045 0,008
O intervalo comumente apresentado como segue:
IC [ ;99% ] = [ 74,037 ; 74,053]
Dessa forma, afirmamos com 99% de confiana que o dimetro mdio dos
anis est entre 74,037 milmetros e 74,053 milmetros.

Reviso
Nesta unidade, voc aprendeu a construir estimativas pontuais e por
intervalos para os verdadeiros parmetros populacionais atravs de
dados provenientes de amostras. Aprendeu tambm que existem
ao menos quatro maneiras de obter estimativas intervalares, e que
a escolha da maneira adequada para cada situao determinada
basicamente pelo tipo de dados (qualitativo ou quantitativo) e
pelo tamanho da amostra ( n < 30 ou n 30 ). O esquema abaixo
apresenta de maneira resumida o processo de deciso:

121

unidade 5

ESTATSTICA E PROBABILIDADES

FIGURA 32 Processo de deciso


Tipo de dados
Quantitativo parmetro

Qualitativo parmetro p

Amostra grande ( n 30 )

Amostra pequena ( n < 30 )

Aplicvel quando np 5 e nq 5

Pelo teorema central do


limite, o intervalo de
confiana pode ser obtido
pelas equaes 1 ou 2.

O intervalo de confiana pode


ser obtido pela equao 3
apenas se a populao tem
distribuio normal.

O intervalo de
confiana pode ser
obtido pela equao 4.

Fonte: Elaborada pelo autor

Caso voc tenha se interessado pelo assunto desta unidade e deseja


aprofundar nesse contedo, recomendo a leitura do captulo 5 do livro texto:
McCLAVE, James T. George Benson, Terry Sincich. Estatstica para
administrao e economia. trad. Fabrcio Pereira Soares e Fernando
Sampaio Filho; rev. tc. Galo Carlos Lopez Noriega. So Paulo: Pearson
Prentice Hall, 2009.
Se voc deseja uma leitura mais formal e tem interesse em demonstraes
das equaes, leia o captulo 8 do livro texto:
MONTGMOMERY, Douglas C. George C. Runger. Estatstica aplicada e
probabilidade para engenheiros. trad. e rev. tc. Vernica Calado. Rio de
Janeiro: LTC, 2009.

122

unidade 5

ESTATSTICA E PROBABILIDADES

Se voc deseja um estudo de caso com aplicao do contedo na rea de


engenharia, leia o artigo:
NETO, Antnio Peli. Intervalos de confiana, Intervalos de Predio e
Campo de Arbtrio nas Avaliaes de Imveis Urbanos. Associao
Brasileira dos Engenheiros Civis - Departamento da Bahia. Bahia, 2010.
Disponvel em: <http://www.abenc-ba.org.br/attachments/289_ANTONIO_
PELLI_ABNT%20NBR%2014653-2%20%282%C2%BAProjeto%29212751_1.
pdf>. Acesso em 16 jun. 2015.

123

unidade 5

Planejamento de
experimentos
Introduo
Na Unidade 5, Estimao de mdias e propores, voc aprendeu
a estimar parmetros populacionais a partir de dados amostrais.
Voc deve ter observado que os resultados amostrais foram
disponibilizados, mas no foram apresentados os mtodos
utilizados para seleo das amostras ou sequer a justificativa para
o tamanho amostral. Nesta unidade voc vai aprender a planejar
um experimento de pequeno e mdio porte na rea de Engenharia
e Cincias Exatas, bem como calcular o tamanho mnimo de uma
amostra que tenha representatividade estatstica.
Uma situao que utiliza o planejamento de experimentos muito
frequentemente o estudo dos efeitos do tratamento trmico de
metais sobre suas propriedades mecnicas. Considere que uma
equipe de engenharia deseja estudar o efeito de trs diferentes
tipos de banho de tmpera sobre a dureza de um determinado tipo
de ao. Os tipos de banho de tmpera utilizados so tmpera em
1

gua, tmpera em leo e tmpera em soluo aquosa de cloreto


de sdio (gua salgada). O propsito do estudo determinar qual
banho de tmpera produzir a dureza mxima do ao.
A princpio, a equipe considerou suficiente para o propsito do
estudo submeter um determinado nmero de corpos de provas a
cada meio de tmpera e medir a dureza da liga metlica. A partir

A tmpera consiste essencialmente em aquecer uma pea de ao a uma certa


temperatura e, a seguir, resfri-la rapidamente em um banho, usualmente gua, leo
ou solues salinas. Seu objetivo , em geral, aumentar a dureza do ao e tornar
mais elevadas suas resistncias trao, compresso e ao desgaste

Clculo de
tamanho de
amostra baseado
em intervalos de
confiana para
uma proporo
Clculo de
tamanho de
amostra baseado
em intervalos de
confiana para
uma mdia
Planejamento
de experimentos
Planejamento
de experimentos
- terminologia
bsica
Reviso

desses resultados calcular-se-ia a dureza mdia em cada um dos


diferentes tipos de banho. Aquele que apresentasse a maior dureza
mdia seria o mais adequado.
Entretanto, ao analisar o experimento com cautela, o engenheiro de
produo detectou vrias questes que deviam ser respondidas antes
do incio da coleta de dados: gua, leo e gua salgada so os nicos
banhos de interesse no processo de tmpera? H outros fatores que
possam afetar a dureza do ao e que devem ser pesquisados? Quantos
corpos de prova devem ser submetidos a cada banho de tmpera? De
que modo os corpos de prova devem ser alocados aos trs diferentes
banhos? Em que ordem os dados devem ser coletados? Qual mtodo de
anlise de dados deve ser utilizado? Qual diferena entre dureza mdia
ser considerada significativa do ponto de vista prtico?
Diante de todas essas questes, a equipe constatou a necessidade
de utilizar tcnicas estatsticas para planejamento do experimento,
a fim de assegurar a confiabilidade dos resultados do estudo. So
estas tcnicas que voc ir aprender nessa unidade.

ESTATSTICA E PROBABILIDADES

Clculo de
tamanho de
amostra baseado
em intervalos de
confiana para
uma proporo
Para alguns pesquisadores, a definio do tamanho da amostra
o nico cuidado necessrio para validade estatstica do estudo.
Como voc observou na introduo dessa unidade, existe uma srie
de cuidados que devem ser tomados ao conduzir experimentos em
engenharia, alm do tamanho da amostra. A comear pelo objetivo
do estudo.
Se o objetivo do estudo comparar resultados expressos em forma
de porcentagens ou propores, existe um mtodo adequado para
o clculo do tamanho amostral. Se o objetivo comparar resultados
expressos em forma de mdias, existe outro mtodo adequado para
o clculo do tamanho amostral. Diversos outros fatores podem ser
considerados nestes clculos, alterando, assim, a adequao de
cada mtodo.
Neste tpico voc aprender a calcular o tamanho amostral para um
estudo que tem o interesse de estimar uma proporo populacional.
Os parmetros controlados so o nvel de confiana e a margem de
erro mxima desejados para o estudo. Vejamos um exemplo:
Exemplo 8
Uma empresa fabricante de motores deseja comprar correias do
fornecedor Borracho, pois o atual fornecedor tem apresentado

127

unidade 6

Se o objetivo do
estudo comparar
resultados expressos
em forma de
porcentagens
ou propores,
existe um mtodo
adequado para o
clculo do tamanho
amostral.

ESTATSTICA E PROBABILIDADES

um percentual elevado de peas defeituosas (no conformes).


Para estimar o percentual de correias no conformes produzidas
pelo fornecedor Borracho, a empresa fabricante de motores
deseja adquirir uma amostra que seja representativa. A equipe
de engenharia deseja que seja conduzido um estudo com 95% de
confiana e margem de erro mxima da estimativa de 2 pontos
percentuais, para mais ou para menos. Qual o tamanho de amostra
necessrio para esse estudo? A equao abaixo dever ser utilizada
para o clculo do tamanho amostral desejado:
Equao 1: Tamanho de amostra
exigido para estimativa de uma
proporo populacional Conhecendo
uma estimativa de p

n=

2
Z/2 pq

E2

Onde:
n: o tamanho da amostra calculado
z2 : escore z que separa uma rea de /2 na cauda direita da
distribuio normal padro
 uma estimativa da verdadeira proporo populacional.
p:
q : obtido por 1-p
E:  a margem de erro mxima aceitvel para o estudo.
Note que a equao acima exige que se tenha um
conhecimento prvio da verdadeira proporo populacional.
Esse pressuposto pode no ser satisfeito na prtica. Nesse
e a equao
caso, deve-se utilizar o valor 0,5 no lugar de p,
passa a ser:

128

unidade 6

ESTATSTICA E PROBABILIDADES

Equao 2: Tamanho de amostra


exigido para estimativa de uma
proporo populacional

Desconhecendo estimativa de p

n=

Z/220,25
E2

Para o exemplo das correias, a equipe utilizou a equao 2, uma vez

que no havia conhecimento sobre a estimativa de p.


1,962 x 0,25
n=
0,022
n = 2.401
Dessa forma, a equipe concluiu que para estimar a verdadeira
proporo de correias no conformes produzidas pelo fornecedor
Borracho, com 95% de confiana e uma preciso de 2%, ser
necessrio coletar uma amostra de 1.225 correias.
Note que, caso a equipe tivesse uma informao quanto ao
verdadeiro percentual de correias no conformes e desejasse
realizar um estudo apenas para confirmao da informao o
tamanho amostral, poderia ser significativamente menor. Suponha
que o fornecedor Borracho afirmasse que o percentual de
peas no conformes fosse de 5%. A equipe poderia utilizar essa
informao como uma estimativa de p e poderia ento utilizar a
equao 1:

n=

1,962 x 0,05 x 0,95


0,022
n = 457

Observe que o tamanho de amostra necessrio para confirmar a


afirmao do fornecedor de apenas 233 correias. Isso sempre

129

unidade 6

ESTATSTICA E PROBABILIDADES

acontecer, ou seja, o tamanho amostral resultante da equao 1


ser sempre menor que o resultante da equao 2, pois na primeira
j temos um conhecimento a priori do verdadeiro valor populacional
e desejamos apenas confirm-lo.

importante destacar que, para o clculo do tamanho amostral, o


resultado deve ser sempre arredondado para cima, independentemente
do valor decimal. Assim, no exemplo anterior, caso o clculo exato
resultasse em 232,1 ainda assim arredondaramos para 233 correias.
Isso ocorre porque o tamanho de amostra mnimo necessrio para
atender aos requisitos do nvel de confiana e margem de erro seria de
232,1 correias. Como no faz sentido amostrar 0,1 correia, devemos
selecionar uma pea a mais.

Clculo de tamanho de amostra


baseado em intervalos de confiana
para uma proporo populao finita
No tpico anterior aprendemos a calcular o tamanho de
amostra para estimar uma proporo, mas observe que no foi
considerado o total de elementos na populao. Isso ocorre em
situaes em que a populao considerada infinita, ou seja, o
nmero de elementos da populao to grande que pode ser
considerado infinito. Em algumas situaes, no entanto, esse
pressuposto no minimamente razovel. Nessas situaes
precisamos utilizar um fator de correo para populao finita.
Utilizamos, ento, a equao 3:

130

unidade 6

Para o clculo do
tamanho amostral,
o resultado deve ser
sempre arredondado
para cima,
independentemente
do valor decimal.

ESTATSTICA E PROBABILIDADES

Equao 3: Tamanho de amostra


exigido para estimativa de uma
proporo populacional
Correo para populao finita

n=

(z/ )2
Npq
2

(z/2)2 + (N - 1) E2
pq

Considere que desejamos estimar o percentual de peas defeituosas


em um lote de 100 peas. Qual o tamanho de amostra necessrio,
se queremos uma estimativa com 90% de confiana e margem de
erro mxima de 3%? Utilizando a equao 2 teramos o seguinte
resultado:

n=

1,6452 x 0,25 = 752


0,032

Observe que o resultado da equao irreal, pois como poderamos


amostrar 457 peas em um lote de 100? Nessa situao devemos
utilizar a equao 3, que leva em considerao o tamanho do lote:

n=

100 x 0,5 x 0,5 (1,645)2


0,5 x 0,5 (1,645)2 + (100 - 1) 0,032
n = 89

O tamanho da amostra passa a ser ento 89 peas, o que real,


ou possvel, tendo em vista que o tamanho do lote de 100 peas.
Caso j existisse uma informao sobre o percentual de peas
defeituosas e fosse desejvel apenas confirmar a informao,
o tamanho amostral seria menor. Por exemplo, considere que
normalmente cerca de 5% das peas so defeituosas. Para
confirmar tal informao, seriam necessrias 60 peas na amostra.

n=

100 x 0,05 x 0,95 (1,645)2


0,05 x 0,95 (1,645)2 + (100 - 1) 0,032
n = 60

131

unidade 6

ESTATSTICA E PROBABILIDADES

Clculo de tamanho de
amostra baseado em
intervalos de confiana
para uma mdia
No incio dessa unidade falamos que o clculo do tamanho amostral
depende de vrios fatores, sendo o principal deles o objetivo do
estudo. Nesta seo voc aprender a calcular o tamanho amostral
para um estudo que tem o interesse de estimar uma mdia
populacional. Os parmetros controlados continuam sendo o nvel
de confiana e a margem de erro mxima desejados para o estudo.
Vejamos um exemplo:
Exemplo 9
Uma empresa fabricante de baterias automotivas desenvolveu
um novo produto e deseja estimar a sua vida mdia. De estudos
anteriores, sabe-se que a vida mdia das baterias produzidas
por esse fabricante segue uma distribuio normal, com desviopadro de seis meses. A equipe de engenharia do produto ressalta
a importncia da correta estimao da vida mdia da bateria, pois
a partir desta ser determinado o tempo de garantia. Por essa
razo, decidiu-se que o nvel de confiana do estudo ser de 99%
e a margem de erro mxima aceitvel para a estimativa de trs
meses. Utilizando a equao abaixo, a equipe poder determinar o
tamanho amostral necessrio para atender s exigncias do estudo.
Equao 4: Tamanho de amostra exigido para estimativa de uma
mdia populacional

n=

Z(/2)
E

132

unidade 6

ESTATSTICA E PROBABILIDADES

Onde:
n: o tamanho da amostra
Z/2: escore z que separa uma rea de /2 na cauda direita da
distribuio normal padro
: o desvio-padro populacional
E:  a margem de erro mxima aceitvel para a estimativa.
Utilizando a equao 4, a equipe determinou que para estimar a
vida mdia da nova bateria desenvolvida, com 99% de confiana na
estimativa e margem de erro mxima de trs meses, ser necessria
uma amostra de 27 baterias.

n=

{ 2,5753 x 6 }

Devemos sempre
arredondar o
resultado para cima.

n = 26,5 27
Ao calcular tamanho de amostra para estimativa de uma mdia
populacional, continua valendo aquela regra de arredondamento
apresentada no tpico anterior, ou seja, devemos sempre arredondar
o resultado para cima.
Voc deve ter observado no exemplo 9 que j dispnhamos de
uma estimativa a priori do desvio-padro populacional (), ou seja,
a equipe utilizou o desvio-padro das outras baterias. Em muitas
situaes prticas, o desvio-padro populacional no conhecido e
nesses casos pode-se utilizar uma das seguintes alternativas:
1. Utilizao da regra emprica da amplitude para estimao
do desvio-padro: Amplitude4. Para aplicao
dessa alternativa, necessrio coletar uma amostra
piloto de aproximadamente 87 observaes. Para maior

133

unidade 6

ESTATSTICA E PROBABILIDADES

esclarecimento sobre essa regra, consulte Triolla (2013),


seo 3-3.
2. Comece o processo de coleta sem o conhecimento de
e, como base nos primeiros resultados, obtenha o desviopadro amostral s. Use essa estimativa em lugar de .
3. Utilize o valor de estimado por outros estudos realizados
anteriormente.

Clculo de tamanho de amostra


baseado em intervalos de confiana
para uma mdia populao finita
Nos tpicos anteriores apresentamos uma frmula alternativa para
o clculo do tamanho amostral para estimativa de uma proporo
populacional, no caso de populaes finitas. Da mesma forma,
para calcular o tamanho amostral para estimativa de uma mdia
populacional, no caso de populaes finitas, existe tambm um
fator de correo. A equao abaixo apresenta o mtodo correto
para essas situaes:
Equao 5: Tamanho de amostra
exigido para estimativa de uma mdia populacional
populao finita
n=

N2 (Z/2)2
(N - 1) E2 + 2(Z/2)2

Exemplo 10
Suponha que o exrcito brasileiro deseje encomendar uma remessa
de uniformes para os novos recrutas. Para melhor adequao dos
tamanhos dos uniformes, o sargento decidiu obter uma estimativa
da altura mdia deles. Dos 100 novos recrutas, o sargento deseja

134

unidade 6

ESTATSTICA E PROBABILIDADES

obter a estimativa a partir de uma amostra com 95% de confiana


e margem de erro mxima de cinco centmetros. Sabendo que nos
anos anteriores o desvio-padro da altura dos recrutas era de 30
centmetros, o sargento utilizou a equao 4 para determinar o
tamanho da amostra necessria, encontrando o valor 139 (maior
que o total de novos recrutas):

n=

[ 1,965 x 30 ]

n = 139
Sem entender o que havia feito de errado, o sargento decidiu
conversar com um soldado que tinha conhecimento de estatstica
para auxili-lo. O soldado informou ento que, neste caso, o
sargento deveria utilizar a equao 5, que leva em considerao o
tamanho populacional. Utilizando o mtodo adequado, o sargento
decidiu, portanto, que para estimar a altura mdia dos 100 novos
recrutas, com 95% de confiana e margem de erro mxima da
estimativa de cinco cm, era necessria uma amostra de 59 recrutas:
n=

100 x 302 (1,96)2


(100 - 1) x 52 +302 x (1,96)2
n = 58,3 59

Planejamento de
experimentos
O planejamento de experimentos, tambm conhecido como
DOE (Design of Experiments), um conjunto de tcnicas
estatsticas que visa garantir uma coleta de dados eficiente
para uma anlise de dados que seja informativa e confivel.
Esse conjunto de tcnicas tem vasta utilizao em diversas

135

unidade 6

O planejamento
de experimentos,
tambm conhecido
como DOE (Design
of Experiments),
um conjunto de
tcnicas estatsticas
que visa garantir
uma coleta de
dados eficiente
para uma anlise
de dados que
seja informativa e
confivel.

ESTATSTICA E PROBABILIDADES

reas do conhecimento, desde cincias ligadas sade at as


engenharias. Em engenharia, especialmente, o DOE utilizado
principalmente em Pesquisa e Desenvolvimento, ou na rea de
qualidade e desenvolvimento do produto.
O propsito dos experimentos planejados, estatisticamente,
tornar a anlise de dados to informativa quanto possvel.
Experimentos que tenham sido mal planejados fornecem pouca
ou nenhuma informao til, mesmo com sofisticadas tcnicas
de anlise de dados, e podem levar, inclusive, concluses
completamente equivocadas.
Em engenharia, o DOE utilizado em conjunto com outras tcnicas
estatsticas, como as cartas de controle de processos, por
exemplo, ou combinado ao ciclo PDCA. Nesses casos o objetivo
, normalmente, estudar os efeitos de possveis fatores sobre o
resultado de um processo, expresso como uma caracterstica
da qualidade do produto (ou processo). O planejamento de
experimentos pode ser definido assim:
Um experimento um procedimento no qual alteraes propositais
so feitas nas variveis de entrada de um processo ou sistema,
de modo que se possa avaliar as possveis alteraes sofridas
pela varivel resposta como tambm as razes destas alteraes
(WERKEMA & AGUIAR, 1996).

Todo processo ou sistema impactado pelos insumos e por um


conjunto de fatores. O objetivo do DOE identificar quais so os
fatores que atuam sobre o processo, quais desses fatores so
controlveis e, dentre os controlveis, qual a relao que tm
com o resultado do processo ou a caracterstica de qualidade
de interesse. A figura abaixo ilustra essa situao, podem estar
aturando sobre o sistema os insumos, os equipamentos, as
informaes do processo, as condies ambientais, as pessoas,
os mtodos e os procedimentos:

136

unidade 6

O objetivo do DOE
identificar quais
so os fatores
que atuam sobre
o processo, quais
desses fatores
so controlveis
e, dentre os
controlveis, qual
a relao que tm
com o resultado
do processo ou
a caracterstica
de qualidade de
interesse.

ESTATSTICA E PROBABILIDADES

FIGURA 33 - Modelo geral de um processo ou sistema


Fatores de rudo
(no controlveis)

Entradas

SISTEMA
(PRODUTO/PROCESSO

Fatores controlveis
(especificados pelo pesquisador)
Fonte: WERKEMA & AGUIAR, p.15, 2006. Adaptado.

Considere uma situao em que se deseja estudar a resistncia


compresso de um concreto. O engenheiro civil identificou que
existem quatro tipos de tcnicas de mistura desse concreto e ele
acredita que a resistncia compresso resultante varia conforme
a tcnica de mistura utilizada. O objetivo do engenheiro determinar
qual a tcnica produzir o concreto com maior resistncia.
Com esse objetivo, decidiu produzir uma srie de corpos de prova,
utilizando cada uma das quatro tcnicas e medindo a resistncia
compresso desses concretos. A resistncia mdia seria utilizada
para determinar qual seria a melhor tcnica de mistura.
Analisando o experimento com mais cautela, o engenheiro
detectou vrias questes que deveriam ser respondidas antes do
incio da coleta de dados: existem apenas essas quatro tcnicas
de mistura ou existem outras? Por que foram escolhidas estas
quatro tcnicas? Existem outros fatores que possam afetar a
resistncia compresso do concreto? Quantos corpos de prova
devem ser produzidos com cada tcnica? De que modo os corpos
de prova devem ser alocados s diferentes tcnicas de mistura?
Qual mtodo de anlise de dados deve ser utilizado? Qual
resistncia compresso dever ser considerada significativa do
ponto de vista prtico?

137

unidade 6

Y
Varaveis resposta
(Caractersticas de
Qualidade)

ESTATSTICA E PROBABILIDADES

Em todo experimento, a forma de coleta dos dados fundamental


para interpretao dos resultados e, consequentemente, para
confiabilidade do estudo. Suponha que nesse estudo sobre a
resistncia compresso do concreto tenham sido utilizados quatro
sacos de cimento, provenientes de quatro fornecedores distintos,
sendo alocados da seguinte maneira:
-- Tcnica de mistura 1 cimento do fornecedor A
-- Tcnica de mistura 2 cimento do fornecedor B
-- Tcnica de mistura 3 cimento do fornecedor C
-- Tcnica de mistura 4 cimento do fornecedor D
Voc concorda com esse procedimento? Ao adot-lo, o engenheiro
assumiu que as caractersticas do cimento dos diferentes
fornecedores so idnticas, ou que qualquer diferena entre os
cimentos no exerceria influncia sobre a resistncia compresso
dos corpos de prova. Entretanto, no podemos tomar essa conduta,
pois bem provvel que existam caractersticas especficas de cada
fornecedor que poderiam impactar na resistncia compresso
dos corpos de prova.
Da maneira como o estudo foi conduzido pelo engenheiro, quando
forem obtidas as resistncias compresso mdias de cada
tcnica ele no ser capaz de dizer quanto da diferena observada
resultado da tcnica de mistura utilizada e quanto resultado das
diferenas inerentes aos quatro tipos de cimento utilizados. Nesse
caso, dizemos que o efeito da tcnica de mistura foi confundido com
o efeito do tipo de cimento. Vamos apresentar agora trs princpios
bsicos do planejamento de experimentos que devem ser sempre
utilizados. Estes princpios so: rplica, aleatorizao e blocagem.
As rplicas so repeties do experimento feitas sob as mesmas
condies experimentais. No exemplo que estamos considerando,
uma rplica do experimento completo consiste em medir a
resistncia compresso de um corpo de prova produzido pela

138

unidade 6

As rplicas so
repeties do
experimento
feitas sob as
mesmas condies
experimentais.

ESTATSTICA E PROBABILIDADES

tcnica de mistura 1, outro pela tcnica 2, outro pela tcnica 3


e outro pela tcnica 4. Se trs corpos de prova foram produzidos
para cada tcnica, dizemos que foram produzidas trs rplicas do
experimento (veja que teremos 3 x 4 = 12 corpos de prova, mas
apenas trs rplicas).
muito importante que as rplicas sejam produzidas sob as
mesmas condies experimentais. Isso significa que todos os
demais fatores que possam exercer impacto sobre a caracterstica
resultante de interesse devem ser mantidos constantes.
O segundo princpio bsico do DOE a aleatorizao. De acordo
com esse princpio, so definidos de maneira aleatria tanto a
ordem de realizao dos ensaios individuais do experimento,
quanto a alocao de cada corpo de prova s respectivas condies
experimentais. Esse princpio garante que o efeito dos fatores no
controlveis sejam distribudos igualmente ao longo de todos os
ensaios, evitando assim que haja confuso do efeito desses fatores
com o efeito dos fatores de interesse.
No exemplo citado, suponha que os corpos de prova sero
produzidos por operadores distintos e, como se sabe, a habilidade
dos operadores pode influenciar a qualidade do concreto produzido.
Logo, se todas as amostras produzidas atravs da tcnica de mistura
1 forem feitas pelo operador menos experiente, poderemos estar
continuamente colocando a tcnica de mistura 1 em desvantagem,
em relao s outras tcnicas de mistura. A distribuio aleatria
da ordem de produo de cada corpo de prova para cada operador
atenuaria esse problema.
O terceiro e ltimo princpio bsico o princpio da blocagem.
Chamamos de blocos os conjuntos homogneos de unidades
experimentais. No exemplo considerado, os corpos de prova so
produzidos com cimento de fornecedores distintos. Logo so
bastante heterogneos em relao a outros fatores alm da tcnica
de mistura.

139

unidade 6

Chamamos de
blocos os conjuntos
homogneos
de unidades
experimentais.

ESTATSTICA E PROBABILIDADES

Para resolver esse problema, podemos realizar o experimento


da seguinte maneira: Cada pacote de cimento ser utilizado para
produzir um corpo de prova para cada tcnica de mistura. Nesse
caso, cada bloco um pacote de cimento (fornecedor) que ser
utilizado para produzir quatro corpos de prova. A figura 34 ilustra
como ficaria o experimento. Cada retngulo vertical (azul claro)
considerado um bloco enquanto cada retngulo horizontal (azul
escuro) um corpo de prova produzido por uma das quatro tcnicas
de mistura. Logo, para o cimento proveniente do fornecedor A, por
exemplo, sero produzidos quatro corpos de prova, um para cada
tcnica de mistura. Este procedimento mais adequado que aquele
proposto pelo engenheiro no incio da seo, em que cada pacote
de cimento seria utilizado para produo de quatro corpos de prova,
utilizando uma nica tcnica de mistura.
FIGURA 34 - Blocagem dos cimentos para cada tipo de tcnica de mistura do concreto
FORNECEDOR A

FORNECEDOR B

FORNECEDOR C

FORNECEDOR D

Tc. 1

Tc. 1

Tc. 1

Tc. 1

Tc. 2

Tc. 2

Tc. 2

Tc. 2

Tc. 3

Tc. 3

Tc. 3

Tc. 3

Tc. 4

Tc. 4

Tc. 4

Tc. 4

Fonte: Elaborado pelo autor

Planejamento de
experimentos terminologia bsica
Agora que voc j aprendeu quais so os princpios bsicos do DOE,
vamos aprender alguns termos comuns e muito teis para o bom
planejamento do experimento. Sero apresentados seis termos
bsicos, a saber: Unidade Experimental, Fatores, Nveis de um
Fator, Tratamento, Ensaio e Varivel Resposta (ou desfecho). Para

140

unidade 6

ESTATSTICA E PROBABILIDADES

melhor entendimento, vamos utilizar o exemplo sobre resistncia


compresso do concreto, do tpico anterior, e definir cada termo.
A Unidade Experimental a unidade bsica para a qual ser feita a
medida da resposta. No nosso exemplo, cada unidade experimental
corresponde a um corpo de prova do concreto utilizado no estudo.
Os Fatores so os tipos distintos de condies que so manipuladas as
unidades experimentais. Ou seja, so as variveis controlveis que podem
exercer influncia sobre a varivel resposta. E desejamos conhecer essa
influncia. No exemplo citado temos um nico fator: tcnica de mistura.
Os Nveis de um fator so os diferentes modos de presena de
um fator no estudo considerado. No exemplo citado, os nveis do
fator tcnica de mistura so os diferentes tipos de tcnica: Tcnica
1, Tcnica 2, Tcnica 3 e Tcnica 4. Podemos dizer, portanto, que
nosso fator tem quatro nveis.
Chamamos de Tratamento as combinaes especficas dos nveis
de diferentes fatores. Quanto temos apenas um fator, como no
nosso exemplo, os tratamentos so os prprios nveis dos fatores,
Tratamento 1 = Tcnica 1, Tratamento 2 = Tcnica 2, Tratamento 3
= Tcnica 3 e Tratamento 4 = Tcnica 4.
Em alguns estudos podemos desejar estudar dois ou mais fatores com
diferentes nveis. Nesses casos, os tratamentos seriam a combinao
de cada nvel do fator 1 com cada um dos diferentes nveis do fator 2.
Suponha que um engenheiro deseja estudar o efeito de dois mtodos
de pintura de para-choques de automveis (imerso e asperso) e de
trs tipos de tinta (A, B e C) sobre a fora de adeso da tinta.
Aqui, o fator 1 seria o mtodo de pintura, que tem dois nveis
(Imerso e Asperso) e o fator 2 seria o tipo de tinta, que tem trs
nveis (A, B e C). Para esse estudo, teramos 2x3=6 tratamentos, a
saber: T1 = Imerso + Tinta A, Imerso + Tinta B, Imerso + Tinta C,
Asperso + Tinta A, Asperso + Tinta B e por fim, Asperso + Tinta

141

unidade 6

Os Nveis de
um fator so os
diferentes modos
de presena de um
fator no estudo
considerado.

ESTATSTICA E PROBABILIDADES

C. Observe que a unidade experimental seria cada um dos parachoques sobre os quais aplicaramos os distintos tratamentos.
Definimos como Ensaio cada realizao do experimento em uma
determinada condio de interesse (tratamento), ou seja, ao aplicar
um tratamento a uma unidade experimental, realizamos um ensaio.
No nosso exemplo sobre a resistncia compresso do concreto,
cada ensaio consiste em produzir um corpo de prova utilizando
determinada tcnica de mistura do concreto.
No exemplo sobre os mtodos de pintura de para-choques
automotivos, um ensaio seria aplicar um tratamento em uma
unidade experimental (para-choque), por exemplo, pintar um parachoque por Imerso usando tinta A.
Por fim, o termo Varivel Resposta, voc j conheceu nas unidades
anteriores, nada mais que o resultado de interesse registrado aps
a realizao de um ensaio. No exemplo sobre as tcnicas de mistura
do concreto, a varivel resposta a resistncia compresso do corpo
de prova produzido com cada uma das tcnicas de mistura. J no
exemplo sobre os mtodos de pintura de para-choques automotivos,
a varivel resposta fora de adeso da tinta sobre o para-choque,
medida aps a aplicao da tinta com cada mtodo de aplicao e tipo
de tinta.

Considere que voc tenha uma mquina de secar roupas que trabalha
com diferentes nveis de temperatura e deseja determinar o efeito do nvel
de temperatura sobre o tempo de secagem das roupas.
a. Defina para essa situao cada um dos seis termos bsicos.
b. O que seria uma rplica nesse estudo?
c. Descreva um vis de amostragem que poderia ser resolvido
pela aleatorizao.

142

unidade 6

ESTATSTICA E PROBABILIDADES

d. Descreva um vis de amostragem que poderia ser resolvido


pela blocagem.
SOLUO:
a. Unidade Experimental: Cada trouxa de roupa molhada que ser
introduzida para secagem.
Fator: O fator, nesse caso, a temperatura de operao da mquina
de lavar.
Nveis do fator: Os nveis do fator so as diferentes faixas de
temperatura da secadora, podendo ser Baixo, Mdio e Alto, por
exemplo.
Tratamento: Como estamos trabalhando com um nico fator, os
nveis do fator so o prprio tratamento, logo, T1=baixo, T2=mdio e
T3 = Alto.
Ensaio: Um ensaio seria secar uma trouxa de roupa utilizando
temperatura baixa, por exemplo. Outro ensaio seria secar outra trouxa
de roupa utilizando temperatura alta.
Varivel resposta: A varivel resposta desse estudo o tempo para
secagem das roupas, que pode ser medido em minutos, por exemplo.
b. Para este estudo, uma rplica seria secar umas trs trouxas de
roupa, sendo uma para cada nvel de temperatura da secadora, ou
seja, um ensaio para cada um dos tratamentos existentes.
c. A temperatura ambiente poderia ser um fator, de maneira
que, caso realizssemos todos os ensaios com tratamento
1 (temperatura baixa) no perodo manh (normalmente mais
frio) e todos os ensaios com tratamento 3 (temperatura alta)
no perodo da tarde (normalmente mais quente), por exemplo,
no final no saberamos dizer quanto da diferena no tempo
de secagem devido aos diferentes nveis de temperatura
da mquina, e quanto devido variao da temperatura
ambiente. Aleatorizando a ordem de realizao dos ensaios
atenuaramos esse problema.

143

unidade 6

ESTATSTICA E PROBABILIDADES

d. Diferentes tipos de roupa poderiam ser um problema, uma vez


que roupas com malhas mais grossas levam um tempo maior para
secar do que outras. Devem-se agrupar as roupas por caractersticas
semelhantes de fabricao, como leveza do pano, tamanho das
peas. A quantidade das mesmas tambm deve ser controlada para
que cada ensaio seja feito de forma mais homognea possvel. Por
exemplo, se tiver disponvel trs peas de moletom, deve-se alocar
uma a cada trouxa de roupas, ou se tiver seis peas jeans, deve-se
alocar duas para cada trouxa de roupas.

Reviso
Nesta unidade voc aprendeu que, para calcular o tamanho
amostral, diversos fatores devem ser levados em considerao.
Em especial voc aprendeu a calcular o tamanho amostral em
quatro situaes: quando o objetivo do estudo a estimativa de
uma proporo populacional, sendo o tamanho populacional finito
ou infinito. E quando o objetivo do estudo a estimativa de uma
mdia populacional, novamente, sendo o tamanho populacional
finito ou infinito. O quadro abaixo resume essas situaes:
QUADRO 4 - Equaes para clculo de tamanho amostral segundo objetivos do estudo
Estimar uma proporo populacional

Estimar uma mdia populacional

Populao Infinita: Equao 1

Populao Infinita: Equao 3


Z/2 2
n=
E

n=

pq
(Z/2)
E2

Populao Finita: Equao 2


n=

Populao Finita: Equao 4

(Z/ )2
Nqp
2

n=

(Z/ )2 + (N - 1) E2
pq
2

Fonte: Elaborado pelo autor.

144

unidade 6

N2 (Z/2)2

(N - 1) E2 + 2(Z/2)2

ESTATSTICA E PROBABILIDADES

Voc aprendeu tambm que em qualquer rea do conhecimento a


coleta de dados deve ser sempre precedida pelo planejamento do
experimento. Essa prtica assegura a confiabilidade dos resultados
e simplifica os mtodos de anlise. Por outro lado, a no observncia
dessa prtica inviabiliza a utilizao dos resultados a despeito de
qualquer tcnica estatstica, por mais sofisticada que seja.
Neste sentido, os princpios bsicos que voc aprendeu foram:
rplica, aleatorizao e blocagem. E tambm os seis termos bsicos
utilizados em qualquer planejamento de experimentos, a saber:
Unidade Experimental, Fatores, Nveis de um fator, Tratamento,
Ensaio e Varivel Resposta.

Se voc tem interesse em aprender mais sobre o clculo do tamanho de


amostra para estimao de mdias ou propores, levando em considerao
o nvel de confiana e margem de erro da estimativa, leia o captulo 8 do livro:
MONTGMOMERY, Douglas C. George C. Runger. Estatstica aplicada e
probabilidade para engenheiros. trad e rev tc Vernica Calado - Rio de
Janeiro: LTC, 2009.
Para este assunto voc pode ler tambm o captulo 7 do livro:
TRIOLLA, Mario F. Introduo Estatstica: Atualizao da tecnologia. trad
e rev tc Ana Maria Lima de Farias, Vera Regina Lima de Farias e Flores.
Rio de Janeiro: LTC, 2013.
Se voc tem interesse em aprofundar sobre Planejamento de Experimentos,
leia o captulo 13 do livro:
MONTGMOMERY, Douglas C. George C. Runger. Estatstica aplicada e
probabilidade para engenheiros. trad e rev tc Vernica Calado. Rio de
Janeiro: LTC, 2009.
Ou voc pode ler o captulo 1 do livro:

145

unidade 6

ESTATSTICA E PROBABILIDADES

WERKEMA, Maria Cristina Catarino; AGUIAR, Silvio. Planejamento e anlise


de experimentos: Como Identificar as principais variveis influentes em um
processo. Belo Horizonte: Fundao Cristiano Ottoni, Escola de Engenharia
da UFMG, 1996.

146

unidade 6

Testes de
Hipteses
Introduo
O teste de hipteses uma tcnica estatstica utilizada para avaliar
alguma afirmao feita sobre uma populao de interesse atravs
de dados amostrais. Por exemplo: um engenheiro pode estar
interessado em avaliar a hiptese de que o tempo de durao de
um fusvel seja de 1.000 horas, contra a hiptese de que tal valor
seja diferente de 1.000 horas. Essa seria uma afirmao sobre uma
mdia, uma vez que a varivel de interesse tempo de durao
quantitativa. Nesse caso, o objetivo testar se a hipottica mdia
de 1.000 horas verdadeira.
No exemplo em questo, seria impraticvel observar o tempo de
durao de todos os fusveis fabricados, ou seja, da populao
de interesse. De forma que necessria a utilizao de dados
amostrais. O engenheiro poderia selecionar alguns fusveis, calcular
o valor da mdia e comparar com o valor proposto de 1.000 horas.
Voc ir aprender que, alm de avaliar afirmaes sobre mdias,
as hipteses estatsticas tambm podem ser testadas para outros
parmetros de interesse, como propores (em caso de variveis
categricas), desvio-padro, medianas, etc.

A construo
e o significado
de uma hiptese
estatstica
Testes para uma
amostra
Testes para
duas ou mais
amostras
Reviso

ESTATSTICA E PROBABILIDADES

A construo e
o significado de
uma hiptese
estatstica
Uma hiptese estatstica pode ser construda a partir de alguma teoria
sobre determinado assunto, ou atravs de alguma afirmao sobre
certo parmetro da populao em anlise. No caso do engenheiro
interessado em testar se o tempo mdio de durao de um fusvel
1.000 horas, a hiptese no se deu atravs de uma teoria, mas
possivelmente em funo da experincia dele com o assunto.
Um teste estatstico tem como objetivo o fornecimento de
evidncias para subsidiar a deciso de rejeitar ou no rejeitar uma
hiptese sobre algum parmetro de uma populao atravs de
dados obtidos por uma amostra.
A afirmao sobre a mdia populacional tida como a hiptese
nula. Damos o nome de hiptese alternativa afirmao contrria
da hiptese nula.

Hiptese nula: Refere-se a uma afirmao do que queremos provar sobre


algum parmetro. Geralmente representada por H0.
Hiptese alternativa: Refere-se a uma afirmao contrria ao que
queremos provar. Geralmente representada por H1 ou Ha.

Exemplo 11
Um fabricante afirma que o tempo mdio de secagem da tinta de
sua marca de 30 minutos. Uma pessoa decide testar se essa

149

unidade 7

Damos o nome de
hiptese alternativa
afirmao contrria
da hiptese nula.

ESTATSTICA E PROBABILIDADES

afirmao verdadeira. Para isso, marca o tempo de secagem de


40 paredes e depois calcula a mdia. Quais seriam as hipteses
nula e alternativa?
SOLUO:
A hiptese nula o tempo de secagem, igual a 30 minutos.
A hiptese alternativa o contrrio (ou o complemento): o tempo de
secagem diferente de 30 minutos. As hipteses so representadas
da seguinte forma:
H0: = 30 minutos
H1: 30 minutos
Alm da definio acerca das hipteses, o nvel de significncia
tambm deve ser escolhido pelo analista.

Nvel de significncia: Consiste na probabilidade de rejeitar a hiptese


nula, dado que ela verdadeira. Geralmente representado pela letra grega
alfa (). O nvel de significncia tambm conhecido como erro tipo I.

Qual seria o significado da expresso ... rejeitar a hiptese nula,


dado que ela verdadeira? Assim como no exemplo do tempo de
durao do fusvel, em que o analista resolve testar se a afirmao
de que o fusvel sobrevive por 1.000 horas, a operacionalizao
do teste ocorre a partir de dados amostrais. Nesse caso, pode ser
obtida uma amostra muito ou pouco parecida com a populao.
Tanto no primeiro como no segundo caso existem probabilidades
associadas. Existem chances de coletar uma amostra que d
evidncias de que a hiptese seja rejeitada, mesmo quando, na
verdade, a hiptese seja verdadeira. O analista sempre corre o risco

150

unidade 7

Nvel de
significncia:
Consiste na
probabilidade de
rejeitar a hiptese
nula, dado que ela
verdadeira.

ESTATSTICA E PROBABILIDADES

de tomar uma deciso equivocada no que se refere rejeio ou no


da hiptese nula, cabendo a ele escolher quanto risco aceita correr.
Esse risco conhecido como nvel de significncia e geralmente
estipulado em 10%, 5% ou 1%. Dessa forma, ao efetuar um teste de
hipteses com 5% de significncia, podemos afirmar que exista 5%
de probabilidade de rejeitar a hiptese nula, quando na verdade ela
verdadeira, ou seja, 5% de chance de cometer o erro tipo I.
Os testes de hiptese com afirmaes sobre mdias ou propores
podem ser feitos principalmente com uma ou duas amostras. No
primeiro caso testada uma afirmao sobre o valor que a varivel
assume. No segundo caso so comparados os valores de mdia
ou proporo entre dois grupos. Alm disso, podemos fazer testes
unilaterais ou bilaterais. O prximo tpico aborda o teste bilateral
com uma amostra.

Testes para
uma amostra
A distribuio da estatstica de teste tende para o formato de uma
distribuio normal quando o tamanho da amostra relativamente
grande (geralmente maior ou igual a 30). Se o tamanho da amostra
for pequeno (menor do que 30) e o desvio-padro for desconhecido,
a distribuio da estatstica de teste apresenta formato mais
prximo da distribuio t de Student. Essa informao importante
porque definir at que valor da estatstica de teste a hiptese deve
ser rejeitada.

Testes de grandes amostras para uma mdia populacional


O exemplo a seguir consiste numa situao em que feita uma
afirmao acerca do valor de uma mdia (parmetro mais testado
quando trabalhamos com variveis quantitativas).

151

unidade 7

Se o tamanho da
amostra for pequeno
(menor do que 30)
e o desvio-padro
for desconhecido,
a distribuio da
estatstica de teste
apresenta formato
mais prximo da
distribuio t de
Student.

ESTATSTICA E PROBABILIDADES

Exemplo 12
Uma indstria realiza o empacotamento do produto caf em
gros. Um dos objetivos que a embalagem contenha 500
gramas de caf. natural que em situaes como essa exista
alguma variao no peso do produto empacotado. Dessa forma,
podem ter pacotes com 498 gramas, com 502 gramas, com 501
gramas, com 499 gramas, ou qualquer outro valor prximo do
especificado. No entanto, a indstria geralmente trabalha para
que exista certa margem de aceitao tanto para cima quanto
para baixo, devido aos seguintes fatores:
pacotes com volume muito alto podem provocar aumento
exagerado de custos;
pacotes com peso muito abaixo dos 500 gramas
podem provocar sanes indstria junto aos rgos
de fiscalizao.
Para certificar de que o peso esteja dentro da margem aceitvel,
pode ser invivel verificar todos os produtos embalados (ou
seja, toda a populao de interesse). Nesse contexto, tornase interessante utilizar amostras para testar se o processo
encontra-se dentro de padres aceitveis, ou seja, para testar
se o processo encontra-se sobre controle.
Suponha que um profissional especializado em controle
estatstico de processos resolva fazer esse teste. Nesse
caso, o objetivo testar a hiptese de que o processo
esteja sob controle, ou seja, que o peso mdio do caf aps
empacotamento seja de 500 gramas. Para a operacionalizao
do teste, 36 pacotes foram inspecionados (pesados). Sabendo
que a mdia obtida atravs dessa amostra foi de 502 gramas,
e que o desvio-padro foi de 3 gramas, podemos afirmar que o
processo est sob controle?
Para operacionalizar esse teste, devemos seguir as seguintes etapas:

152

unidade 7

ESTATSTICA E PROBABILIDADES

1 e
 tapa: Estabelea as hipteses de interesse
No caso em estudo, o parmetro2 a ser testado a mdia. Temos o
interesse em verificar se ela igual a 500 gramas. Ento devemos
estabelecer as hipteses nula e alternativa. Dessa forma, as
hipteses so:
H0: = 500 gramas
H1: 500 gramas
Note que o teste refere-se mdia populacional e no amostral.
A mdia amostral ser utilizada como base para tomar a deciso
sobre rejeio ou no rejeio da hiptese nula.
2 etapa: Obteno da estatstica de teste
O valor mdio obtido pela amostra foi:

= 502 gramas. Ser que

esse valor foi obtido em funo da variabilidade amostral3 , ou


seja, o valor obtido de 502 gramas prximo do valor proposto
de = 500 gramas? Para respondermos a essa questo devemos
verificar qual a probabilidade de obter o valor 502 gramas,
levando em considerao a distribuio das mdias amostrais,
ou seja, a possibilidade de obteno de resultados diferentes
de amostra para amostra. Para isso, utilizamos a distribuio
normal padronizada quando o valor de conhecido ou quando
o tamanho da amostra razoavelmente grande (geralmente
igual ou acima de 30). Quando a amostra pequena (geralmente
menor do que 30) e o desvio-padro desconhecido, utilizamos

2-U
 m parmetro refere-se determinada medida que caracterize a populao de
interesse. Os parmetros mais frequentemente investigados atravs dos testes
de hipteses so: a mdia, o desvio-padro, no caso de variveis quantitativas e a
proporo, no caso de variveis categricas.)
3-A
 variabilidade amostral ocorre porque existem chances de tomarmos tanto
amostras parecidas com a populao de interesse quanto amostras pouco
semelhantes populao. Qualquer processo de amostragem sujeita-se a essa
situao. Cabe ao pesquisador levar esse fato em considerao ao construir um
teste de hipteses

153

unidade 7

Os parmetros mais
frequentemente
investigados
atravs dos testes
de hipteses
so: a mdia, o
desvio-padro, no
caso de variveis
quantitativas e
a proporo, no
caso de variveis
categricas.)

ESTATSTICA E PROBABILIDADES

a distribuio t para avaliar a probabilidade em questo. Como


no presente exemplo temos uma amostra de tamanho igual a
36, podemos trabalhar com a distribuio normal padronizada.
Nomeamos o valor obtido da estatstica de teste, que calculada
de acordo com a frmula abaixo:
-
Z=
x
Essa frmula permite que a mdia amostral obtida passe de
qualquer escala (em gramas, no presente exemplo) para nmero
de desvio-padro. Isso possibilita traar comparaes com os
valores de probabilidade da distribuio normal padronizada (em
que a unidade de medida a quantidade de desvio-padro). Sem
esse procedimento, essa comparao seria pouco vivel. A frmula
composta dos seguintes itens:
Z: Escore da distribuio normal padronizada
: Mdia obtida atravs da amostra
: Valor da mdia populacional a ser testada
x: Valor do desvio-padro da distribuio das mdias amostrais.

x = n

Caso no se conhea o desvio-padro populacional (situao


muito comum), podemos utilizar o desvio-padro obtido atravs
da amostra:
s
s = n
x

Dessa forma, a estatstica de teste passa a ser:


-
Z = s/n

154

unidade 7

ESTATSTICA E PROBABILIDADES

Com os dados do problema, temos ento:


Z=

502 - 500
= 4,0
3/36

O nmero obtido significa que 502 gramas encontram-se a 4,0


desvios-padro de distncia da mdia populacional de 500 gramas.
Mas esse valor perto ou longe da mdia populacional?
Quando Z = 0, pode-se afirmar que a mdia amostral
exatamente igual ao valor hipottico da mdia populacional.
Quando Z = 1, a probabilidade do valor da mdia
amostral ter sido obtido devido flutuao amostral de
aproximadamente 34%, pois 68% dos dados encontram-se
a at um desvio-padro de distncia da mdia, conforme
a figura 35.
FIGURA 35: rea da distribuio normal padronizada
de acordo com o nmero de desvios-padro.

Fonte: TRIOLA, 2013, p. 88.

Quando Z = 2, a probabilidade do valor da mdia


amostral ter sido obtido devido flutuao amostral de

155

unidade 7

ESTATSTICA E PROBABILIDADES

aproximadamente 5%, pois 95% dos dados encontram-se a


at um desvio-padro de distncia da mdia4.
Quando Z = 3, a probabilidade do valor da mdia
amostral ter sido obtido devido flutuao amostral de
aproximadamente 0,2%, pois 99,8% dos dados encontramse a at um desvio-padro de distncia da mdia.
Utilizando o mesmo raciocnio, com o valor de Z = 4,0, depreendese que a probabilidade do valor da mdia amostral ter sido obtida
devido flutuao amostral seja bem menor que 0,2%. Dessa forma,
o valor de Z = 4 significa que os 502 gramas obtidos pela amostra
apresentam uma grande distncia dos 500 gramas propostos na
hiptese nula (a distncia de 2 gramas corresponde a 4 desviospadro). O fato dos valores serem tidos como distantes implica na
rejeio da hiptese nula. Para definir quais valores do escore Z
so considerados altos, utiliza-se o desenho da distribuio normal
padronizada, conforme o 3 passo.
Os valores acima podem ser obtidos atravs de um software
estatstico, ou pela tabela Z.
3 etapa: Obteno da regio de rejeio
Para tomar a deciso de rejeitar ou no a hiptese nula, podemos
utilizar o diagrama da figura 36:

4-O
 bserve pela Figura 35 que 34% + 13,5% = 47,5%. Ao multiplicarmos esse valor
por dois, obtemos os 95%.

156

unidade 7

ESTATSTICA E PROBABILIDADES

FIGURA 36 - Regies de rejeio da hiptese nula

Fonte: Elaborado pelo autor.

A figura 36 representa a distribuio normal padronizada. A rea em


vermelho refere-se regio de rejeio da hiptese nula. Valores
menores que - 1,96 desvios-padro ou maiores que + 1,96 desviospadro so considerados demasiadamente afastados quando
consideramos uma significncia de 5% para o teste bilateral (ou
seja, podemos considerar que tais valores sejam pontos de corte).
Dessa forma, cada uma das reas em vermelho representa 2,5%
dos dados. A rea total abaixo dos dados (soma da rea verde com
a rea vermelha) representa 100% dos dados.
Quando o valor da estatstica de teste encontra-se na regio em
vermelho, consideramos pouco provvel que a mdia amostral (ou
outra estatstica) tenha sido resultado das flutuaes amostrais. Os
valores crticos (- 1,96 e 1,96) foram obtidos pelo percentil 97,5 da
tabela da distribuio normal padronizada. Podem ser calculados
tambm atravs de softwares estatsticos. A figura 37 indica de
onde os dados foram obtidos.
Devemos procurar na tabela o valor do nvel de significncia dividido
por 2, ou seja 2, pois o teste bilateral, o que implica em duas
regies de rejeio (as caudas direita e esquerda da distribuio,
conforme a figura 37). Observe que a combinao da linha com a
coluna gera o valor do escore Z = 1,96. O nmero 1,96 foi obtido

157

unidade 7

ESTATSTICA E PROBABILIDADES

atravs da combinao da coluna e linha formados pelo valor 0,0250


referente rea da cauda direita (ou esquerda) da distribuio
normal padronizada.
FIGURA 37 - Distribuio normal padro

Fonte: BARBETTA, 2010, p. 377

158

unidade 7

ESTATSTICA E PROBABILIDADES

4 etapa: Concluso
Com base nos valores obtidos pela estatstica de teste e pela
regio de rejeio, tomamos uma deciso em relao hiptese
nula. No caso em questo, a deciso rejeit-la, pois o valor 4
desvios-padro (relativo aos 2 gramas de distncia entre a mdia
amostral e a mdia populacional proposta na hiptese nula) pode
ser considerado muito longe da mdia, uma vez que se encontra na
parte vermelha do diagrama. A estatstica de teste no valor de 4,00
maior do que o valor crtico de + 1,96 (nmero obtido na tabela da
Figura 37, que serve de referncia para rejeio ou no rejeio da
hiptese nula).
Exemplo 13
Um processo foi delineado para fabricar bancadas de tamanho
igual a 120 centmetros. Para verificar se o processo encontra-se
sob controle, um especialista coletou uma amostra de 64 peas.
Foi obtida uma mdia amostral

= 120,2 centmetros, com desvio-

padro s = 1,6 centmetros. Teste a hiptese de que o processo


encontra-se sob controle, ou seja, que a mdia populacional seja
igual a 120 centmetros. Use significncia de 10%.
1 e
 tapa: Estabelea as hipteses de interesse
H0: = 120 centmetros
H1: 120 centmetros
2 etapa: Obteno da estatstica de teste
Z=

-
s/n

159

unidade 7

ESTATSTICA E PROBABILIDADES

Com os dados do problema, temos ento:


Z=

120,2 - 120,0 = 1,0


1,6/64

3 etapa: Obteno da regio de rejeio


FIGURA 38 - Regies de rejeio da hiptese nula.

Fonte: Elaborado pelo autor.

O valor crtico de 1,645 positivo (ou negativo) foi obtido pela


combinao da linha e coluna relativas rea igual a 0,050 (0,100
dividido por 2)5 da tabela da distribuio normal padro da figura 38.

5-O
 valor 0,10 refere-se aos 10% escolhidos como nvel de significncia pelo
pesquisador. Tal valor consiste na probabilidade de rejeitar a hiptese nula, dado
que ela verdadeira, ou seja, probabilidade de tomar uma deciso equivocada em
relao hiptese.

160

unidade 7

ESTATSTICA E PROBABILIDADES

FIGURA 39 - Distribuio normal padro

Fonte: BARBETTA, 2010, p. 377

161

unidade 7

ESTATSTICA E PROBABILIDADES

4 etapa: Concluso
Como o valor de Z = 1,00 obtido pela estatstica de teste no supera
a valor crtico de 1,645, ou seja, no pertence regio crtica, no
rejeitamos a hiptese nula. No podemos descartar a hiptese de
que a mdia seja 120 centmetros. Portanto, h indcios de que o
processo encontra-se sob controle.

Testes de hipteses para amostras


pequenas
Nos exemplos 12 e 13 as amostras tm tamanho maior que 30.
Quando a amostra for pequena (menor do que 30) e o desviopadro for desconhecido (situao mais frequente), devemos
utilizar a Distribuio t de Student para realizar o teste.
O exemplo 14 consiste num problema de teste de mdia em que a
amostra pequena e o desvio-padro () desconhecido.
Exemplo 14
Um engenheiro acredita que um processo esteja sob controle
produzindo esferas com 10 milmetros de dimetro. Foi coletada uma
amostra com 16 esferas cujo o valor obtido para a mdia foi X = 10,2
milmetros e desvio-padro s = 0,20 milmetros. Teste a hiptese de
que a mdia seja igual a 10 milmetros. Use significncia de 5%.
1 e
 tapa: Estabelea as hipteses de interesse
H0: = 10 milmetros
H1: 10 milmetros
2 etapa: Obteno da estatstica de teste
Nesse caso, devemos utilizar o escore t no lugar do Z:

162

unidade 7

ESTATSTICA E PROBABILIDADES

Com os dados do problema, temos ento:


t=

- = 10,2 - 10,0
0,2/16 = 4,0
s/n

3 etapa: Obteno da regio de rejeio


Nesse caso, devemos trabalhar com a distribuio t:
FIGURA 40 - Distribuio t de Student

Fonte: Elaborado pelo autor.

Para saber o valor crtico, devemos consultar a tabela t. Como a


amostra conta com 16 elementos, temos 15 graus de liberdade.
Como o nvel de significncia igual a 5%, devemos procurar o
escore t na coluna do 0,05 (rea em duas caudas, pois o teste
bilateral)

163

unidade 7

ESTATSTICA E PROBABILIDADES

FIGURA 41 - Tabela da Distribuio t

Fonte: TRIOLA, 2013, p. 614.

4 etapa: Concluso
Como o valor 4,0 obtido pela estatstica de teste supera a valor
crtico 2,13 obtido pela distribuio t, rejeitamos a hiptese de que a
mdia seja de 10 milmetros. Portanto, o processo encontra-se fora
de controle.

164

unidade 7

ESTATSTICA E PROBABILIDADES

Teste para uma proporo


Quando trabalhamos com variveis quantitativas, o principal
parmetro de interesse costuma ser a mdia. Alm da mdia, outros
parmetros tambm podem ser testados, como, por exemplo, o
desvio-padro. No caso de variveis categricas, geralmente a
medida de interesse a ser testada uma proporo.
No teste de hipteses, o valor do erro padro da proporo
geralmente est baseado no uso do valor hipottico:

Sp =

(1 -)
n

A frmula para o clculo de Z para testar uma hiptese voltada para


o valor da proporo da populao :

Z=

p-
Sp

O exemplo 15 consiste num teste de proporo.


Exemplo 15
Um engenheiro acredita que 30% dos trabalhadores de uma
determinada firma ficam estressados quando fazem horas extras
durante a madrugada. Foi coletada uma amostra com 49 trabalhadores,
dos quais 12 afirmaram se estressar nessa situao. Teste a hiptese
de que a proporo seja de 30%. Use significncia de 5%.
1 e
 tapa: Estabelea as hipteses de interesse
H0: = 0,30
H1: 0,30

165

unidade 7

Quando trabalhamos
com variveis
quantitativas, o
principal parmetro
de interesse
costuma ser a
mdia.

ESTATSTICA E PROBABILIDADES

Observao 1: Enquanto a mdia representada pela letra , a


proporo representada pela letra grega (pi).
Observao 2: Para representarmos os 30% propostos na hiptese
nula, utilizamos a escala decimal. Dessa forma, o valor utilizado nos
clculos 0,30 (ou seja, 30 dividido por 100).
2 etapa: Obteno da estatstica de teste
Antes de obtermos o escore padronizado Z, devemos calcular o
desvio-padro da proporo populacional, dado pela frmula a seguir:
Sp =

= 0,004286 = 0,0655
(1n -) = 0,30 (149- 0,30) = 0,21
49

O escore padronizado ento :


Z=

p-
sp

0,2653 - 0,3000 - 0,0347


=
= -0,53
0,0655
0,0655

3 etapa: Obteno da regio de rejeio


Como o teste bilateral e com 5% de significncia, obtemos atravs
da tabela Z o valor crtico igual a - 1,96.
FIGURA 42 - Distribuio normal padronizada

Fonte: Elaborado pelo autor.

166

unidade 7

ESTATSTICA E PROBABILIDADES

4 etapa: Concluso
O valor - 0,53, obtido pela estatstica de teste, encontra-se fora da
regio de rejeio, sendo prximo de zero e longe do valor crtico de
-1,96. Dessa forma, no rejeitamos a hiptese nula. Portanto, no
h indcios de que a proporo de trabalhadores estressados na
empresa estudada seja diferente de 30%.
No prximo tpico voc ver situaes em que o pesquisador
tem como interesse comparar os valores dos parmetros de
duas amostras.

Testes para duas ou


mais amostras
Nos tpicos anteriores aprendemos a delinear testes de hipteses
bilaterais em que uma afirmao numrica feita sobre uma mdia
ou uma proporo para uma amostra. Em algumas situaes o
pesquisador tem interesse em comparar tais valores em dois grupos.
Nesse caso, podemos afirmar que temos um teste de hiptese para
a comparao de duas mdias ou de duas propores.

Teste para a comparao de duas


mdias em amostras independentes
Em vrias situaes devemos decidir se uma diferena observada
entre as mdias de dois grupos pode ser atribuda ao acaso ou se
h indcios de que os valores obtidos de fato provm de populaes
com mdias diferentes. Quando desejamos comparar as mdias
obtidas por duas amostras independentes, utilizamos a seguinte
estatstica de teste:

167

unidade 7

Temos um teste
de hiptese para a
comparao de duas
mdias ou de duas
propores.

ESTATSTICA E PROBABILIDADES

Z=

s21 s22
+
n1 n2

O numerador apresenta as mdias das duas amostras, enquanto o


denominador consiste na raiz da soma dos desvios-padro divididos
pelos respectivos tamanhos de amostras. No exemplo 16 feito um
teste em que so comparadas as mdias de duas amostras.
Exemplo 16
Um engenheiro resolveu comparar o tempo de secagem de duas
marcas diferentes de tintas para determinado tipo de parede. Para
a marca A foram verificados os tempos de secagem de 50 paredes.
O tempo mdio obtido foi

= 80 minutos, com desvio-padro s1

= 6 minutos. Para a marca B, foram verificadas 40 paredes, com


tempo mdio

= 88 minutos e desvio-padro s2 = 10 minutos.

Teste a hiptese de que no existe diferena entre as mdias. Use


significncia 1%.
1 Etapa: Estabelea as hipteses de interesse
H0: A = B
H1: A B
2 Etapa: Obteno da estatstica de teste
Aplicando a frmula, temos:
Z=

s s
+
n1 n2
2
1

2
2

80 - 88

6 10
+
50 40
2

-8

36 100
+
50 40

-8

-8

-8
= 1,7944 = -4,46
3,22

0,72 + 2,5

3 Etapa: Obteno da regio de rejeio.

168

unidade 7

ESTATSTICA E PROBABILIDADES

FIGURA 43 - Regies de rejeio da hiptese nula.

Fonte: Elaborado pelo autor.

O valor crtico de 2,33 positivo (ou negativo) foi obtido pela


combinao da linha e coluna relativas rea igual a 0,005 (0,010
dividido por 2) da tabela da distribuio normal padro.
4 Etapa: Concluso
Como o valor de Z = - 4,46 bem inferior ao valor crtico - 2,33,
obtido pela tabela da distribuio normal padronizada, rejeitamos a
hiptese nula. No h indcios de que o tempo mdio de secagem
das tintas seja diferente.

Teste para a comparao de duas


propores
Quando se deseja testar a hiptese de que as propores em duas
populaes so iguais, o procedimento anlogo ao teste para a
comparao de mdias. A frmula a seguinte:

Z=

2
p 1 - p

p (1 - p) + p (1 - p)
n1
n2

169

unidade 7

ESTATSTICA E PROBABILIDADES

Onde p = x1 e p2 = x2 (propores amostrais)


n1
n2
x +x
p = n 1 + n 2 (proporo amostral combinada)
1
2
Exemplo 17
Um especialista acredita que a proporo de trabalhadores com
estresse ocupacional no turno da manh seja estatisticamente
diferente do turno da tarde. Uma amostra de 100 trabalhadores
foi estudada, sendo 50 pela manh e 50 a tarde. No turno da
manh contou-se 10 trabalhadores nessa situao. No turno da
tarde contou-se 15. Teste a hiptese de que as propores sejam
diferentes nos respectivos turnos. Nvel de significncia: 5%.
1 Etapa: Estabelea as hipteses de interesse
H0: p1 = p2
H1: p1 p2
2 Etapa: Obteno da estatstica de teste
Aplicando a frmula, temos:

170

unidade 7

ESTATSTICA E PROBABILIDADES

3 Etapa: Obteno da regio de rejeio.


FIGURA 44 - Regies de rejeio da hiptese nula.

Fonte: Elaborado pelo autor.

O valor crtico de 1,96 positivo (ou negativo) foi obtido pela


combinao da linha e coluna relativas rea igual a 0,025 (0,050
dividido por 2) da tabela da distribuio normal padro.
4 Etapa: Concluso
O Z calculado de - 1,15 encontra-se fora da regio crtica. No
rejeitamos a hiptese nula. Portanto, no h diferena na proporo
de trabalhadores com estresse entre os turnos da manh e tarde.

Os testes de hiptese so extremamente teis na engenharia, principalmente


no delineamento de experimentos. Em vrias situaes busca-se a
otimizao de processos. Espera-se que os insumos sejam combinados
da melhor maneira possvel, de forma a obter produtos de qualidade ao
menor custo possvel. Nesse contexto, diversos fatores podem determinar o
sucesso de um processo de produo de produtos ou servios.
Num processo produtivo em que determinada mercadoria embalada
de forma manual por um trabalhador, diversos fatores (ou seja, diversas

171

unidade 7

ESTATSTICA E PROBABILIDADES

variveis) exercem influncia sobre o desempenho desse trabalhador,


como, por exemplo, a iluminao, a temperatura, o nmero de horas
trabalhadas, e talvez at a altura de uma bancada. Dessa forma, a execuo
de um experimento com diversas combinaes de valores que as variveis
possam assumir pode ser til para a otimizao do processo. Por exemplo:
o desempenho dos trabalhadores melhor quando a temperatura de um
galpo de 22 graus celsius, de 23 ou de 24? Como um experimento desse
tipo depende da utilizao de amostras, torna-se fundamental o uso de
testes de hipteses para obteno de concluses acerca do processo.

Reviso
Nessa unidade aprendemos os fundamentos dos testes de
hipteses. O principal objetivo deles contrapor uma hiptese de
interesse, conhecida como hiptese nula, a uma hiptese contrria,
conhecida como hiptese alternativa, em relao a um parmetro
de interesse (geralmente a mdia, no caso de variveis quantitativas
e a proporo, no caso de variveis categricas).
As hipteses podem ser unilaterais ou bilaterais. No primeiro caso, a
hiptese nula de igualdade contrape-se hiptese alternativa, em
que o sinal de menor ou maior. No caso dos testes bilaterais, na
hiptese alternativa temos o sinal de diferente. Todos os exemplos
dessa unidade focaram em testes bilaterais.
Para definir o tipo de teste a ser utilizado, levamos em considerao
o tamanho da amostra e o conhecimento ou no do desvio-padro
populacional. Quando desconhecemos o desvio-padro e a amostra
tem tamanho inferior a 30, utilizamos o teste t. No caso de conhecer
o desvio-padro populacional ou a amostra igual ou superior a 30,
utilizamos o teste Z. O nome do teste ocorre em funo da distribuio
da estatstica de teste, que construda atravs do conjunto de
possveis amostras, o que conhecido como distribuio amostral.

172

unidade 7

ESTATSTICA E PROBABILIDADES

Os testes podem ser utilizados para verificar uma afirmao


sobre uma amostra, sobre duas amostras ou sobre mais de duas
amostras. Os dois primeiros casos foram abordados nessa unidade.
A grande utilidade do teste de hipteses para o engenheiro ocorre
no delineamento de experimentos e no controle estatstico
de processos.

Para estudar mais sobre testes de hipteses sob perspectiva aplicada,


consulte as seguintes obras:
LEVINE, David; BERENSON, Mark; STEPHAN, David. Estatstica: teoria e
aplicaes - usando o Microsoft Excel em portugus. 6 ed. LTC, 2011, 812 p.
MOORE, David. A estatstica bsica e sua prtica. Rio de Janeiro: LTC, 2014.
TRIOLA, Mrio. Introduo Estatstica: Atualizao da Tecnologia. 11 ed.
LTC, 2013. VitalBook file.
Para uma fundamentao matemtica mais aprofundada sobre o assunto,
consulte a seguinte obra:
MONTGOMERY, Douglas; RUNGER, George Estatstica aplicada e
probabilidade para engenheiros. 3 ed. Rio de Janeiro: LTC, 2009.

173

unidade 7

Anlise de
correlao e
regresso
Introduo
Ao analisar um conjunto de dados, podemos ter interesse no
relacionamento entre duas variveis quantitativas. Dessa forma,
poderamos traar o seguinte questionamento: um aumento no valor
da varivel X se relaciona a um aumento na varivel Y? Qual seria a
magnitude dessa relao? As tcnicas de anlise de correlao e
anlise de regresso podem ser utilizadas para estudos desse tipo.
A relao entre variveis quantitativas pode ser modelada
atravs de anlise de correlao e regresso. Com a evoluo da
informtica nos ltimos 20 anos, essas tcnicas tm sido cada vez
mais utilizadas no ambiente empresarial.
Nesta unidade, voc aprender a desenvolver clculos para
correlao e regresso tanto passo a passo como atravs do
software Microsoft Excel.

Anlise de
correlao
Regresso
linear simples
Regresso
linear mltipla
Reviso

ESTATSTICA E PROBABILIDADES

Anlise de
correlao
Quando temos interesse em investigar o quanto duas variveis
quantitativas esto associadas, podemos utilizar uma medida
conhecida como coeficiente de correlao.

O coeficiente de correlao mede o grau de intensidade do relacionamento


linear entre duas variveis quantitativas.

Diagrama de disperso
Antes de calcular a correlao entre duas variveis, interessante
representar os dados num diagrama de disperso.

Diagrama de disperso: Consiste na representao grfica de duas


variveis quantitativas no plano cartesiano.

A figura 45 se refere a uma pesquisa com anncios de vendas de 58


imveis. As variveis so: REA DO IMVEL (em metros quadrados)
e VALOR DO IMVEL (em R$ mil).

176

unidade 8

O coeficiente de
correlao mede o
grau de intensidade
do relacionamento
linear entre
duas variveis
quantitativas.

ESTATSTICA E PROBABILIDADES

FIGURA 45 - rea do imvel x valor do Imvel

800

Valor do imvel (R$ mil)

700
600
500
400
300
200
100
0

50

100

150

200

rea (em metros quadrados)


Fonte: Elaborado pelo autor

Atravs do grfico de disperso possvel visualizar graficamente


alguns aspectos relativos ao comportamento conjunto das
variveis, como: direo, forma e fora da relao.
No que se refere direo, a figura 45 apresenta indcios de que
as variveis (REA e VALOR) estejam positivamente relacionadas,
ou seja, parece que a direo ascendente. H situaes em que
as variveis apresentam associao negativa6 como por exemplo
o PREO e a QUANTIDADE DEMANDADA (para a maioria das
mercadorias, quanto maior o preo, menor a quantidade demandada).
Em relao forma, na figura 45 podemos observar que a relao
entre as variveis parece ser linear. Observe a reta que resume a

6-A
 ssociao negativa: Duas variveis apresentam associao negativa quando o
crescimento de uma se associa diminuio da outra, ou o contrrio, a queda em
uma se associa ao acrscimo da outra.

177

unidade 8

250

300

ESTATSTICA E PROBABILIDADES

associao. Existem situaes em que duas variveis se encontram


associadas, porm de forma no linear, como na figura 46.
FIGURA 46 - Relao no linear entre as variveis X e Y

80
70
60
Y

50
40
30
20
10
0
0

10
X

Fonte: Elaborado pelo autor

Outro aspecto de grande importncia ao observar o diagrama


de disperso a fora da relao. Na figura 45, o VALOR DO
IMVEL se relaciona REA, mas a intensidade da relao no
parece to extrema.
A figura 47 mostra um diagrama de disperso onde as variveis
apresentam ausncia de relao.

178

unidade 8

15

20

ESTATSTICA E PROBABILIDADES

FIGURA 47: Ausncia de relao entre as variveis X e Y

15
14
14

13
13
12
12
11
11
10
0

10
X

Fonte: Elaborado pelo autor

O grau de intensidade da relao linear entre duas variveis


quantitativas dado pelo coeficiente de correlao de Pearson.

Coeficiente de correlao de Pearson


O coeficiente de correlao linear de Pearson consiste na medida
do grau de intensidade da relao linear entre duas variveis
quantitativas, podendo assumir valores entre -1 e 1. Podemos
afirmar que duas variveis esto positivamente correlacionadas
se elas caminham no mesmo sentido, ou seja, quando uma delas
aumenta de valor, o valor da outra tambm aumenta. Nesse caso,
quanto mais prxima de 1, maior a intensidade da associao entre
as variveis. Quando as variveis caminham em sentidos opostos,
dizemos que elas esto negativamente correlacionadas. Quanto
mais prxima de -1, maior a intensidade da associao, porm a
relao inversa.
importante destacar que o fato de duas variveis estarem
associadas no significa, necessariamente, que exista uma
relao de causa e efeito. Por exemplo: geralmente crianas mais

179

unidade 8

15

20

ESTATSTICA E PROBABILIDADES

novas apresentam menor peso, entretanto isso no significa que


o envelhecimento causa aumento de peso. mais provvel que a
criana aumente o peso pelo fato de aumentar a altura.
A anlise de correlao tem objetivo exploratrio servindo como
elemento auxiliar na anlise da relao entre variveis. Dessa forma,
em muitas ocasies o estudo da correlao utilizado como um
recurso a mais na anlise dos dados.
O coeficiente de correlao de Pearson dado pela frmula:

Cor ( X, Y ) = r =

( x -x ) ( y - y )
sxsy ( n - 1)

O numerador da frmula se refere ao somatrio do produto dos


desvios da varivel X e da varivel Y em relao s suas respectivas
mdias. No denominador, encontra-se o produto dos desvios
padro de cada uma das duas variveis multiplicado pelo tamanho
da amostra menos uma unidade.
Exemplo18 (adaptado de HINES et al, 2006)
Um engenheiro qumico est estudando o efeito da temperatura
de operao do processo sobre o resultado da produo. O estudo
resultou nos seguintes dados:

X - Temperatura ( Celsius) 100 110 120 130 140 150 160 170 180 190
Y - Resultado (porcentagem) 45
51
54
61
66
70
74
78
85
89
Calcule o coeficiente de correlao entre as variveis.
Soluo:
Ao realizar uma anlise de correlao, interessante construir o
diagrama de disperso para ter uma ideia sobre a associao entre
as variveis:

180

unidade 8

ESTATSTICA E PROBABILIDADES

FIGURA 48 - Resultado do processo (em %) em funo da temperatura (em C)

100
90
Y - Resultado (%)

80
70
60
50
40
30
20
10
0
0

50

100

150

200

X - Temperatura ( C)
Fonte: HINES et al (2006), pag.369

A figura 48 apresenta indcios de que as variveis esto fortemente


associadas. Para confirmar essa suspeita, podemos calcular o
coeficiente de correlao, conforme a tabela 15:
TABELA 15 - Dados para o clculo do coeficiente
de correlao entre temperatura (X) e resultado (Y)
X
Y
100
45
110
51
120
54
130
61
140
66
150
70
160
74
170
78
180
85
190
89
Mdia (X) = 145
Mdia (Y) = 67,3
Desv. Pad (X) = 30,3 Desv. Pad (Y) = 14,7

( )
100 - 145 = -45
110 - 145 = -35
120 - 145 = -25
130 - 145 = -15
140 - 145 = -05
150 - 145 = +05
160 - 145 = +15
170 - 145 = +25
180 - 145 = +35
190 - 145 = +45

( )
45 - 67,3 = -22,3
51 - 67,3 = -16,3
54 - 67,3 = -13,3
61 - 67,3 = -06,3
66 - 67,3 = -01,3
70 - 67,3 = +02,7
74 - 67,3 = +06,7
78 - 67,3 = +10,7
85 - 67,3 = +17,7
89 - 67,3 = +21,7

= 1

Fonte: Elaborado pelo autor

Cor ( X, Y ) = r =

( )( )
(-45) (-22,3) = 1003,5
(-35) (-16,3) = 570,5
(-25) (-13,3) = 332,5
(-15) (-6,3) = 94,5
(-5) (-1,3) = 6,5
(5) (2,7) = 13,5
(15) (6,7) = 100,5
(25) (10,7) = 267,5
(35) (17,7) = 619,5
(45) (21,7) = 976,5

3985
3985
=
= + 0,99
( 30,3) (14,7) (10 -1)
4008,7

181

unidade 8

( )( ) =

3985

ESTATSTICA E PROBABILIDADES

O valor + 0,99 obtido pelo coeficiente de correlao confirma que as


variveis esto fortemente associadas, conforme indcio dado pelo
diagrama de disperso (figura 48).
O exemplo 19 se refere a uma situao em que as variveis
apresentam correlao negativa.
Exemplo 19
O quadro abaixo representa o PREO (em R$) e a QUANTIDADE
DEMANDADA de uma determinada mercadoria.

Preo (X)
Quantidade (Y)

10
11
12
13
14
15
16
17
18
19
200 171 168 165 170 147 120 130 105 124

Soluo:
Antes de calcular o coeficiente de correlao, interessante
construir o diagrama de disperso para ter uma ideia da direo e
da forma da associao entre as variveis.
FIGURA 49 - Quantidade x preo

220

Y - Quantidade

200
180
160
140
120
100
8

10

12

14
X - Preo

Fonte: Elaborado pelo autor

182

unidade 8

16

18

20

ESTATSTICA E PROBABILIDADES

Para o clculo do coeficiente de correlao, temos:


TABELA 16 - Dados para o clculo do coeficiente de correlao entre preo (X) e quantidade (Y)
Preo (X)
Quantidade (Y)
10
200
11
171
12
168
13
165
14
170
15
147
16
120
17
130
18
105
19
124
Mdia (X) = 14,5
Mdia (Y) = 150
Desv. Pad (X) = 3,0 Desv. Pad (Y) = 29,6

( )
-4,5
-3,5
-2,5
-1,5
-0,5
0,5
1,5
2,5
3,5
4,5

( )
50
21
18
15
20
-3
-30
-20
-45
-26

-747
=
( 3,0) (29,6) (10 -1)

-225
-73,5
-45
-22,5
-10
-1,5
-45
-50
-157,5
-117

( )(
) =
=1

Fonte: Elaborado pelo autor

Cor ( X, Y ) = r =

( )( )

-747
= - 0,93
799,2

Portanto, as variveis apresentam forte correlao negativa,


conforme indcio do diagrama de disperso.
Observaes importantes sobre o coeficiente de correlao
de Pearson:
O valor da correlao independe da unidade de medida
dos dados. Por exemplo, se tivermos interesse em medir a
correlao entre ALTURA e PESO de um grupo de pessoas,
tanto faz a ALTURA entrar nos clculos em centmetros ou
em metros;
A correlao no se aplica a mais de duas variveis;
A correlao no faz distino sobre qual varivel se projeta
em cada eixo do plano cartesiano. Dessa forma, Cor (X,Y) =
Cor (Y,X);
As variveis devem ser quantitativas. O coeficiente de correlao
linear de Pearson no se aplica a variveis categricas;
A correlao mede o grau de associao linear. Dessa forma,
se duas variveis quantitativas se relacionam de forma
quadrtica ou exponencial, o coeficiente de correlao

183

unidade 8

-747

ESTATSTICA E PROBABILIDADES

linear no indicado, uma vez que matematicamente tem a


capacidade de captar relaes lineares.

Uso da tecnologia para o clculo do


coeficiente de correlao
O clculo do coeficiente de correlao no Excel dado pela funo:
= CORREL (matriz1;matriz2)
Onde os parmetros (matriz1 e matriz2) se referem aos dados das
duas variveis. Observe a figura 50.
FIGURA 50 - Coeficiente de correlao no Excel

Fonte: Elaborado pelo autor

184

unidade 8

ESTATSTICA E PROBABILIDADES

Regresso
linear simples
A regresso linear simples tem como objetivo estimar uma equao
que relacione matematicamente duas variveis, sendo que uma
delas explicada pela outra. A varivel explicada geralmente
denominada varivel resposta ou varivel dependente. A varivel
explicativa denominada varivel explanatria ou varivel
independente.
A anlise de regresso mltipla tem por objetivo estimar uma
equao que relacione matematicamente uma varivel resposta a
duas ou mais variveis explicativas.
A figura 51 reapresenta os dados relativos figura 45 onde a varivel
resposta VALOR se correlaciona REA DO IMVEL.
FIGURA 51 - Valor do imvel x rea do imvel

Fonte: Elaborado pelo autor

185

unidade 8

ESTATSTICA E PROBABILIDADES

Observe que os pontos do diagrama no caem exatamente sobre


a reta de regresso, mas a reta capaz de resumir o padro
geral de comportamento dos dados. Uma das tcnicas mais
utilizadas para obteno dessa reta conhecida como mtodo
dos mnimos quadrados.

Mtodo dos mnimos quadrados: uma tcnica estatstica utilizada para


resumir um conjunto de variveis quantitativas numa equao. Ela se
baseia na minimizao da distncia quadrtica de cada ponto em relao
reta.

A equao que representa o modelo de regresso linear simples


Yi = 0 + 1 X i + i

Onde:
Yi = valor da varivel dependente na i-sima tentativa, ou observao;
0 = primeiro parmetro da equao de regresso, o qual indica o
intercepto no eixo Y, ou seja, o valor de Y quando X = 0;
1= segundo parmetro da equao de regresso, chamado
coeficiente angular, que indica a inclinao da reta de regresso;
i = o valor do erro, que significa a diferena entre o valor verdadeiro
e o valor previsto pela equao de regresso ( a letra grega
psilon). Aps a estimao da equao de regresso, o erro
passa a ser denominado resduo.
Os parmetros 0 e 1 no modelo de regresso linear so estimados
pelos valores 0 e 1 que se baseiam nos dados amostrais. O
chapu sobre as letras indica que foi feita uma estimativa dos

186

unidade 8

Mtodo dos
mnimos quadrados:
uma tcnica
estatstica utilizada
para resumir um
conjunto de variveis
quantitativas numa
equao.

ESTATSTICA E PROBABILIDADES

parmetros do modelo com base em dados obtidos atravs de


uma amostra.
Dessa forma, a equao de regresso linear baseada nos dados
da amostra que usada para estimar um simples valor da varivel
dependente, onde o chapu sobre o Y indica que ele um valor
estimado, :

^
^ ^
Y = 0+ 1X

A anlise de regresso se distingue da correlao por supor uma


relao de causalidade entre as variveis resposta e explanatria.
A anlise geralmente se baseia numa referncia terica, que
justifique uma relao matemtica de causalidade.
A estimativa dos parmetros 0 e 1 do modelo se d a partir das
seguintes frmulas:
^
XY - nXY
1 =
X2 - nX2

^
o = Y - ^ 1X

Exemplo 20
Um professor acredita que a NOTA na prova de estatstica esteja
relacionada ao nmero de HORAS DE ESTUDO dos alunos. Para
tentar convencer os estudantes dessa relao, o professor resolve
fazer a pesquisa levantando dados de sete estudantes, conforme o
quadro abaixo.

187

unidade 8

A anlise de
regresso se
distingue da
correlao por supor
uma relao de
causalidade entre as
variveis resposta e
explanatria.

ESTATSTICA E PROBABILIDADES

QUADRO 5 -Dados para a estimao da reta de regresso


que relaciona nota na prova de estatstica (Y) e horas de estudo (X)

Estudante
1
2
3
4
5
6
7

Horas de
estudo (X)
20
15
35
26
30
24
18

Nota na
prova (Y)
72
62
87
77
90
83
68

Fonte: Elaborado pelo autor

[a] Determine a equao da reta de regresso para os dados


da tabela.
[b] Use a equao de regresso para estimar a nota de um estudante
que tenha dedicado 20 horas de estudo para a prova.
Soluo:
[a] P
 odemos incluir mais duas colunas na tabela para facilitar a
operacionalizao dos clculos:
QUADRO 6 - Clculos para a estimao da reta de regresso
que relaciona nota na prova de estatstica (Y) e horas de estudo (X)

Estudante
1
2
3
4
5
6
7

Horas de
estudo (X)
20
15
35
26
30
24
18
MDIA (X) = 24

Nota na
prova (Y)
72
62
87
77
90
83
68
MDIA(Y) = 77

X.Y

400
225
1225
676
900
576
324
2
X = 4.326

1440
930
3045
2002
2700
1992
1224
XY = 13.333

Fonte: Elaborado pelo autor

Na penltima coluna foram obtidos os valores da varivel X ao


quadrado. Na ltima coluna os valores de X foram multiplicados
pelos valores de Y para cada estudante. Em seguida, foram obtidas

188

unidade 8

ESTATSTICA E PROBABILIDADES

as mdias de cada varivel e, finalmente, o somatrio das duas


ltimas colunas. Colocando os dados obtidos nas frmulas, temos:

A equao estimada foi:


Y^ = 44,6 + 1,35 . X
[b] Para calcular o valor estimado da nota (Y) com base no nmero
de horas estudadas (X), basta inserir o valor de X na equao.
Considerando X = 20, temos:
^
Y = 44,6 + 1,35 . 20 = 44,6 + 27 = 71,6
Portanto, estima-se que um estudante que tenha dedicado 20 horas
de estudo obtenha aproximadamente 72 pontos na prova. Observe
abaixo o diagrama da figura 52:
FIGURA 52 - Previso da NOTA (Y) com base no nmero de HORAS DE ESTUDO (X)

Fonte: Elaborado pelo autor

189

unidade 8

ESTATSTICA E PROBABILIDADES

Interpretao do resultado da regresso


Alm de permitir a previso de uma varivel resposta em funo de
uma varivel explanatria, a anlise de regresso tambm mede a
variao de Y quando variamos X. A partir da equao obtida pelos
dados do exemplo 20, podemos afirmar que o aumento de uma
unidade na varivel X (nmero de horas estudadas) aumenta, em
mdia, 1,35 unidades na varivel Y (pontos na prova de estatstica).

Uso da tecnologia para a estimao da regresso


Com a evoluo da informtica, a tcnica de regresso mltipla
passou a ser cada vez mais utilizada pelas organizaes e pelos
cientistas, pois os clculos se tornaram menos tediosos. No
exemplo 21, os dados do exemplo 20 foram rodados no Excel.
Exemplo 21
Estime a equao de regresso com os dados do exemplo 19
utilizando o Excel.
Soluo:

Com a evoluo
da informtica, a
tcnica de regresso
mltipla passou a
ser cada vez mais
utilizada pelas
organizaes e pelos
cientistas, pois os
clculos se tornaram
menos tediosos.

DADOS > ANLISE DE DADOS > REGRESSO > OK


FIGURA 53 - Comandos utilizados no Excel para anlise de regresso

Fonte: Elaborado pelo autor

190

unidade 8

ESTATSTICA E PROBABILIDADES

Nos intervalos de entrada e sada, insira o endereo das variveis


explanatria (X horas de estudo) e resposta (Y nota na prova),
respectivamente. Em seguida, aperte OK.
FIGURA 54 - Comandos utilizados no Excel para anlise de regresso

Fonte: Elaborado pelo autor

Aps rodar a regresso, o Excel apresenta trs quadros. O primeiro


mostra, dentre outras estatsticas, o valor do R-quadrado. No
exemplo em questo, o valor observado igual a 0,843. Isso significa
que o modelo explica aproximadamente 84,3% da variabilidade em
Y a partir da variao em X.
TABELA 17 - Estatsticas para anlise de regresso

Estatstica de regresso
R mltiplo
0,918
R-Quadrado
0,843
R-quadrado ajustado
0,811
Erro padro
4,470
Observaes
7

Fonte: Elaborado pelo autor

A tabela 18 diz respeito ao teste de significncia do modelo,


conhecido como teste F, que produziu uma estatstica igual a 26,8,
que implica num valor p prximo de zero. Dessa forma, rejeitamos a
hiptese de que o modelo no se ajusta bem aos dados. Portanto, o
modelo estatisticamente significativo.

191

unidade 8

ESTATSTICA E PROBABILIDADES

TABELA 18 - Resultados do teste de adequao do modelo de regresso simples (teste F)

ANOVA
gl

Regresso
Resduo
Total

SQ
MQ
F
Valor p
1 536,085 536,085 26,8271 0,00353
5 99,915 19,983
6
636

Fonte: Elaborado pelo autor

A outra sada se refere a valores p dos testes dos coeficientes 0 e 1.


As hipteses para o intercepto so:
H0: 0 = 0
H1: 0 0
As hipteses para a varivel explanatria so:
H0: 1 = 0
H1: 1 0
Os valores p iguais a zero para o intercepto e para a varivel X1
implicam na rejeio da hiptese de que os valores sejam no
significativos. Portanto os coeficientes ( 0 e 1 ) so significativos
com base no teste t para cada um separadamente.
TABELA 19 - Coeficientes da regresso e estatsticas de interesse

Interseo
Varivel X 1

Coeficientes Erro padro


44,59
6,48
1,35
0,26

Fonte: Elaborado pelo autor

A equao estimada :
^
Y = 44,6 +1,35 . X1

192

unidade 8

Stat t
6,88
5,18

valor-P
0,00
0,00

ESTATSTICA E PROBABILIDADES

Dessa forma, o modelo se mostra til tanto para analisar o impacto


que a varivel explanatria exerce sobre a varivel resposta, quanto
para previso.
A interpretao do coeficiente da varivel X1 : o aumento de uma
unidade na varivel X (ou seja, a cada hora a mais de estudo)
consiste no aumento de 1,35 unidades na varivel Y (1,35 pontos na
prova de estatstica)
Para um estudante que tenha dedicado 30 horas ao estudo, o valor
previsto pela equao 85:
^
Y = 44,6 + 1,35 x 30 = 44,6 + 40,5 = 85

Na regresso
linear simples, uma
varivel resposta
pode ser explicada
por uma varivel
explanatria.

Regresso
linear mltipla
Na regresso linear simples, uma varivel resposta pode ser
explicada por uma varivel explanatria. Na figura 51, o valor do
imvel pode ser previsto com base no seu tamanho (em metros
quadrados). O valor obtido para o R2 foi de 0,45. Isso significa que
a varivel explanatria X explica 45% da variao na varivel Y. No
exemplo em questo, outras variveis tambm podem ser utilizadas
para explicar melhor a variao de Y (preo do imvel), como por
exemplo a idade do imvel, o preo do condomnio, o nmero de
banheiros, etc.
Dessa forma, na regresso mltipla, uma varivel resposta se
relaciona a duas ou mais variveis explanatrias. O objetivo tambm
predizer os valores de Y com base nas variveis explanatrias.
Na maioria das vezes, uma varivel resposta se relaciona a
mais de uma varivel explanatria. Nessa situao, tambm

193

unidade 8

ESTATSTICA E PROBABILIDADES

podemos utilizar o mtodo dos mnimos quadrados para obter


uma equao que relacione as variveis. Nesse caso, temos uma
regresso mltipla:
Yi = 0 + 1 X 1 + 2 X 2 + + k X k + i
Onde:
Yi = varivel resposta (varivel dependente);
0 = intercepto (valor assumido por Y quando todas as demais
variveis assumem valor igual a zero);
1, 2,..., k = coeficientes angulares;
k = nmero de variveis explanatrias (variveis independentes).
A estimao da equao de regresso linear mltipla tambm se
d atravs do mtodo dos mnimos quadrados. O objetivo obter
o hiperplano que melhor se ajuste ao conjunto de dados atravs da
minimizao dos desvios quadrticos.
Com a evoluo da informtica, a tcnica de regresso mltipla
passou a ser cada vez mais utilizada pelas organizaes e pelos
cientistas, pois os clculos se tornaram menos tediosos. No
exemplo 22, o preo do imvel estimado com base em duas
variveis: REA DO IMVEL e NMERO DE QUARTOS.
Exemplo 22
Estime a equao de regresso relacionando o VALOR DO IMVEL
s variveis: REA do apartamento e NMERO DE QUARTOS.

194

unidade 8

A estimao
da equao de
regresso linear
mltipla tambm
se d atravs do
mtodo dos mnimos
quadrados.

ESTATSTICA E PROBABILIDADES

195

unidade 8

ESTATSTICA E PROBABILIDADES

Axis Title

Chart Title
800.000,00
700.000,00
600.000,00
500.000,00
400.000,00
300.000,00
200.000,00
100.000,00
-

y = 1868,2x + 239876
R = 0,55094
Series1
Linear (Series1)

50

100

150

200

Axis Title

196

unidade 8

250

300

ESTATSTICA E PROBABILIDADES

Soluo
DADOS > ANLISE DE DADOS > REGRESSO > OK
Nos intervalos de entrada e sada, insira o endereo das variveis
explanatria e dependente, respectivamente, assim como foi feito
para a regresso simples. Em seguida, aperte OK.
Aps rodar a regresso mltipla, o Excel produz tabelas. Segue
a primeira:
TABELA 20: Estatsticas da regresso mltipla

Fonte: Elaborado pelo autor

Nesse caso, a principal estatstica a ser analisada o


R-quadrado. A tabela 20 apresenta valor igual a 0,78. Isso
significa que o modelo explica aproximadamente 78% da
variabilidade em Y a partir das duas variveis explanatrias.
A tabela 21 diz respeito ao teste de significncia conjunta do
modelo. Para essa situao utilizamos o teste F, que produziu
uma estatstica igual a 42,5, que implica num valor p igual a
zero. Portanto, rejeitamos a hiptese de que o modelo no se
ajusta bem aos dados.

197

unidade 8

ESTATSTICA E PROBABILIDADES

TABELA 21: Resultados do teste de adequao do modelo de regresso mltipla (teste F)


ANOVA
Regresso
Resduo
Total

gl
2
55
57

SQ
MQ
557.278.841.710 278.639.420.855
360.283.037.601
6.550.600.684
917.561.879.310

F
42,5

Valor p
0,000

A sada da ltima coluna se refere aos valores p do teste dos


coeficientes da regresso. A hiptese nula de que cada coeficiente
igual a zero, individualmente, versus a hiptese alternativa de que
seja diferente de zero, respectivamente.
TABELA 22 - Coeficientes de regresso e estatsticas de interesse

Coeficientes
Interseo
86.873
Varivel X 1
1.335
Varivel X 2
67.719

Erro padro
60.689
285
24.091

Fonte: Elaborado pelo autor

A equao estimada :
^
Y = 86.873 + 1.335X1 + 67.719X2
Na ltima coluna temos os valores p, que mostram que as variveis
so significativas e o intercepto no, conforme os testes t para
cada coeficiente separadamente. O intercepto no caso no tem
significado prtico nesse exemplo.

198

unidade 8

Stat t
1,43
4,68
2,81

valor-P
0,16
0,00
0,01

ESTATSTICA E PROBABILIDADES

Dessa forma, o modelo se mostra til tanto para analisar o


impacto que cada uma das variveis explanatrias exerce sobre
a varivel resposta, mantendo constantes as outras variveis,
quanto para previso.
A interpretao do coeficiente da varivel X1 : a cada uma unidade
de aumento na REA (ou seja a cada metro quadrado a mais) a
varivel Y (VALOR) aumenta em R$ 1.335,00, se mantida constante
a varivel X2 (NMERO DE QUARTOS).
A interpretao do coeficiente da varivel X2 : a cada uma unidade
de aumento na varivel X2 (NMERO DE QUARTOS), a varivel Y
(VALOR) aumenta em mdia R$ 67.719, se mantida constante a
varivel X1 (REA).
Para um apartamento que tenha 80 metros quadrados e trs
quartos, o valor previsto pela equao :
Y^ = 86.873 + 1.335 80 + 67.719 3=
^
Y = 86.873 + 106.800 + 203.157 = R$ 396.830

Os exemplos de anlise de regresso utilizados nesta unidade contm uma


varivel explicativa, no caso da regresso simples, ou duas variveis explicativas,
no caso da regresso mltipla. Tais situaes ilustram a utilizao dos modelos
de regresso para situaes mais simples. Na verdade, esses modelos podem
ser utilizados com um nmero bem maior de variveis explicativas.
Por exemplo, para prever o preo de revenda de um automvel, o analista de
dados pode utilizar diversas variveis, como: idade, nmero de quilmetros
rodados, presena de vidros eltricos, presena de ar condicionado, consumo
de combustvel na estrada, consumo de combustvel na cidade, estado de
conservao dos pneus, estado de conservao da pintura, etc.

199

unidade 8

ESTATSTICA E PROBABILIDADES

Nesse sentido, os modelos de regresso se mostram muito teis para a


realizao de previses. Outro exemplo: imagine o gestor de uma empresa
de varejo de alimentos que tem que tomar a deciso sobre a quantidade de
itens em estoque. Nesse caso, ele no pode estocar muito, pois os produtos
podem perder validade, alm do custo do espao utilizado para guardar as
mercadorias. Ao mesmo tempo, estocar uma quantidade insatisfatria pode
implicar na falta de produtos para a venda. Nesse caso, de grande valia a
utilizao de modelos de previso para estimar a quantidade de mercadorias
que sero comercializadas num certo espao de tempo.
Um terceiro exemplo do uso de modelos de regresso se refere deciso dos
bancos sobre conceder ou no um emprstimo para determinado candidato.
Para isso, o banco geralmente levanta diversas variveis para estimar a
probabilidade de o cliente ser ou no um bom pagador.
Nos trs exemplos acima, o analista deve combinar a utilizao da teoria com
um pouco de experincia no assunto para a escolha das variveis capazes de
explicar melhor o fenmeno.

Reviso
A presente unidade tratou do tema relao entre duas ou mais
variveis quantitativas. Foi demonstrado que, para o estudo de duas
variveis quantitativas simultaneamente, faz-se interessante o uso de
diagramas de disperso com o objetivo de inspecionar visualmente
se elas apresentam associao. Devemos observar, principalmente,
a forma, a intensidade e a direo da relao entre as variveis. Alm
disso, tambm importante o clculo do coeficiente de correlao,
que fornece um valor entre 0 e 1, podendo ser negativo no caso de
relacionamento linear inverso entre as variveis.
Outra tcnica bastante interessante para o estudo da relao entre
duas variveis a regresso simples, muito til para fazer previses.
Alm da regresso simples, a regresso mltipla tambm bastante

200

unidade 8

ESTATSTICA E PROBABILIDADES

utilizada, pois na maioria das situaes as variveis previstas so


associadas a diversas variveis explanatrias, tanto quantitativas
quanto categricas.
Para que o modelo de regresso seja til, o analista depende do
conhecimento da teoria acerca do assunto e de alguma experincia
prtica capaz de auxiliar na escolha das melhores variveis
candidatas e explicativas.
A utilizao dos modelos de regresso na engenharia muito
importante, uma vez que vrios experimentos so delineados na
otimizao de processos de produo.

Para estudar mais sobre os modelos de regresso, consulte as


seguintes obras:
DOANE, David, SEWARD, Lori. Estatstica Aplicada Administrao e
Economia. ArtMed, 2010. VitalBook file.
FREUND,

John,

SIMON,

Gary.

Estatstica

Aplicada:

Economia,

Administrao e Contabilidade. 9 Ed. Porto Alegre: Bookman, 2007.


LEVINE, David; BERENSON, Mark; STEPHAN, David. Estatstica: teoria e
aplicaes - usando o Microsoft Excel em portugus. 6 ed.Rio de Janeiro:
LTC, 2011, 812 p.
MONTGOMERY, Douglas, RUNGER, George. Estatstica aplicada e
probabilidade para engenheiros. 3.ed. Rio de Janeiro: LTC, 2009.
MOORE, David. A estatstica bsica e sua prtica. Rio de Janeiro: LTC, 2014.
TRIOLA, Mrio. Introduo Estatstica. 10 ed. Rio de Janeiro: LTC. 2008. 722p.

201

unidade 8

ESTATSTICA E PROBABILIDADES

Referncias
BARBETTA, Pedro Alberto, REIS, Marcelo Menezes, BORNIA, Antnio
Cezar. Estatstica: Para Cursos de Engenharia e Informtica. 3 ed. Atlas,
2010. VitalBook file.
BAILAR III, John.C.; MOSTELLER, Frederick. Medical uses of statistics. 2.
ed. Boston: NEJM Books, 1992.
CARVALHO, Danilo Heraldo; COUTO, Brulio Roberto Gonalves Marinho.
Levantamentos por amostragem ou pesquisas de survey. Relatrio
tcnico DCET, N 3/2003. 107p
DAVID M. et al. Estatstica: teoria e aplicaes usando Microsoft Excel
em portugus. 3 ed. Rio de Janeiro: LTC, 2000
DOANE, David, SEWARD, Lori. Estatstica Aplicada Administrao e
Economia. ArtMed, 2010. VitalBook file.
DOWNING, Douglas. Estatstica Aplicada. Trad. Alfedro Alves de Farias:
2ed So Paulo: Saraiva, 2003
FIELD, Andy. Descobrindo a Estatstica Usando o SPSS. 2 ed. Porto
Alegre: ARTMED, 2009. 688p
FORMULRIO GOOGLE DOCS. Disponvel em: <https://docs.google.com/
forms>. Acesso em: 15 abr. 2015
FREUND, John. Estatstica Aplicada Economia. 11 ed. Bookman, 2006.
VitalBook file.
GAZZARRRINI, Rafael. Lotus 1-2-3: o software que ajudou a mudar o
mundo. 18 fev. 2013. In: Site TecMundo. Disponvel em: <http://www.
tecmundo.com.br/tecnologia/36697-lotus-1-2-3-o-software-que-ajudoua-mudar-o-mundo.htm>. Acesso em: 15 abr. 2015

202

ESTATSTICA E PROBABILIDADES

GRIFFITHS, Dawn. Use a cabea! Estatstica. Rio de Janeiro:


Altabooks, 2009.
HINES, William, MONTGOMERY, Douglas, GOLDSMAN, Dave, BORROR,
Connie. Probabilidade e Estatstica na Engenharia. 4 ed. Rio de Janeiro:
LTC, 2006. VitalBook file.
KAZMIER, Leonard. Estatstica Aplicada Administrao e Economia.
Bookman, 2007.
LEVINE, David M. et al. Estatstica - teoria e aplicaes: usando Microsoft Excel
em portugus. 6 ed. Rio de Janeiro: LTC, 2012. 804 p
MAGALHES, Marcos Nascimento; LIMA, Antnio Carlos Pedroso.
Noes de Probabilidade e Estatstica. 6. ed. So Paulo: Editora da
Universidade de So Paulo, 2007.
MALHOTRA, Naresh K.. Pesquisa de marketing: uma orientao aplicada.
trad. Lene Belon Ribeiro, Monica Stefani. rev. tc. Janana de Moura
Engracia Giraldi. Porto Alegre: Bookman, 2012.
McCLAVE, James T.; BENSON, George; SINCICH, Terry. Estatstica para
administrao e economia. trad. Fabrcio Pereira Soares e Fernando
Sampaio Filho; rev. tc. Galo Carlos Lopez Noriega. So Paulo: Pearson
Prentice Hall, 2009.
MONTGMOMERY, Douglas C; RUNGER, George C. Estatstica aplicada e
probabilidade para engenheiros. trad. e rev. tc. Vernica Calado. Rio de
Janeiro: LTC, 2009.
MOORE, David. A estatstica bsica e sua prtica. Rio de Janeiro. LTC, 2014.
NETO, Antnio Peli. Intervalos de confiana, Intervalos de Predio e
Campo de Arbtrio nas Avaliaes de Imveis Urbanos. Associao
Brasileira dos Engenheiros Civis - Departamento da Bahia. Bahia, 2010.
Disponvel em: <http://goo.gl/6uFFSt>. Acesso em 16 jun. 2015.

203

ESTATSTICA E PROBABILIDADES

REIDEL, Adilson et al. Utilizao de efluente de frigorfico, tratado com


macrfita aqutica, no cultivo de tilpia do Nilo. R. Bras. Eng. Agrc. Ambiental,
Campina Grande, v.9, (Suplemento), p.181-185, 2005. Disponvel em: <http://
goo.gl/TQP0re>. Acesso em: 21 jan. 2015
SILVA, Nilza Nunes. Amostragem probabilstica. 2 ed. So Paulo: Editora
da Universidade de So Paulo, 2001. 120p
SHARP, Norean, DE VEAUX, Richard, VELLEMAN. Paul. Estatstica Aplicada
- Administrao, Economia e Negcios. Porto Alegre: Bookman, 2011.
SOARES, Jos Francisco; SIQUEIRA, Armanda Lcia. Introduo
Estatstica Mdica. Belo Horizonte: UFMG, 2002. 300p
STEVENSON, William. Estatstica Aplicada Administrao. ed 2001.
So Paulo: Harbra, 1981.
TRIOLA, Mario Farias. Introduo Estatstica: traduo de Vera Regina Lima
de Farias e Flores, reviso tcnica Ana Maria Lima de Farias. 10 ed. Rio de
Janeiro: LTC, 2008
TRIOLA, Mario F. Introduo Estatstica: Atualizao da Tecnologia, 11
ed. LTC, 03/2013. VitalBook file.
WERKEMA, Maria Cristina Catarino; AGUIAR, Silvio. Planejamento
e anlise de experimentos: Como Identificar as principais variveis
influentes em um processo. Belo Horizonte: Fundao Cristiano Ottoni,
Escola de Engenharia da UFMG, 1996.
WALPOLE, Ronald. Probabilidade e estatstica para engenharia e
cincias. So Paulo: Pears, 2008

204

www.animaeducacao.com.br

Anda mungkin juga menyukai