Anda di halaman 1dari 256

Mtodos

Mtodos Quantitativos Estatsticos


Mtodos Quantitativos
Quantitativos Estatsticos
Estatsticos

Fundao Biblioteca Nacional


ISBN 978-85-387-3028-6

Paulo Ricardo Bittencourt Guimares

Este material parte integrante do acervo do IESDE BRASIL S.A.,


mais informaes www.iesde.com.br
Este material parte integrante do acervo do IESDE BRASIL S.A.,
mais informaes www.iesde.com.br
Paulo Ricardo Bittencourt Guimares

Mtodos Quantitativos Estatsticos

Edio revisada

IESDE Brasil S.A.


Curitiba
2012
Este material parte integrante do acervo do IESDE BRASIL S.A.,
mais informaes www.iesde.com.br
2008 IESDE Brasil S.A. proibida a reproduo, mesmo parcial, por qualquer processo, sem autorizao por
escrito dos autores e do detentor dos direitos autorais.

CIP-BRASIL. CATALOGAO-NA-FONTE
SINDICATO NACIONAL DOS EDITORES DE LIVROS, RJ
__________________________________________________________________________________
G979m

Guimares, Paulo Ricardo Bittencourt.


Mtodos quantitativos estatsticos / Paulo Ricardo Bittencourt Guimares. - 1.ed. rev.. -
Curitiba, PR : IESDE Brasil, 2012.
252p. : 24 cm

Inclui bibliografia
ISBN 978-85-387-3028-6

1. Estatstica. 2. Administrao - Mtodos estatsticos. 3. Matemtica financeira. I.


Ttulo.

12-5696. CDD: 519.5


CDU: 519.2

10.08.12 17.08.12 038047


__________________________________________________________________________________

Capa: IESDE Brasil S.A.


Imagem da capa: Shutterstock

Todos os direitos reservados.

IESDE Brasil S.A.


Al. Dr. Carlos de Carvalho, 1.482. CEP: 80730-200
Batel Curitiba PR
0800 708 88 88 www.iesde.com.br

Este material parte integrante do acervo do IESDE BRASIL S.A.,


mais informaes www.iesde.com.br
Paulo Ricardo
Bittencourt Guimares

Doutorando em Engenharia Florestal com


concentrao em Economia e Poltica Florestal
pela Universidade Federal do Paran (UFPR).
Mestre em Estatstica pela Universidade Esta-
dual de Campinas (Unicamp). Bacharel em Es-
tatstica pela Universidade Federal do Paran
(UFPR). Professor do Departamento de Estats-
tica da Universidade Federal do Paran (UFPR).
Especialista em avaliao do Programa Nacional
de Incluso de Jovens (Projovem) da Secretaria
Geral da Presidncia da Repblica. Consultor em
Bioestatstica e Pesquisa de Mercado.

Este material parte integrante do acervo do IESDE BRASIL S.A.,


mais informaes www.iesde.com.br
sumrio
sumrio Conceitos e Aplicaes
15 | Introduo
16 | Conceitos bsicos
19 | Tcnicas de Amostragem
23 | Tipos de variveis
15

31
Anlise Exploratria de Dados
31 | Introduo
32 | Tabelas
37 | Grficos

53
Medidas de Posio e Variabilidade
53 | Introduo
53 | Medidas de Posio ou de Tendncia Central
60 | Medidas de Disperso

75
Introduo Probabilidade
75 | Introduo
75 | Conceitos iniciais de Probabilidade
79 | Definies de Probabilidades e Propriedades
84 | Varivel Aleatria Unidimensional (v. a.)

Distribuio Binomial, Distribuio 97


Poisson e Distribuio Normal
97 | Introduo
98 | Distribuio de Probabilidade Binomial
101 | Distribuio de Probabilidade Poisson
104 | Distribuio de Probabilidade Normal

Este material parte integrante do acervo do IESDE BRASIL S.A.,


mais informaes www.iesde.com.br
121
Estimao de parmetros
121 | Introduo
122 | Estimadores Pontuais (ou por ponto)
126 | Intervalos de Confiana (I.C.)
133 | Erro de Estimao e Tamanho das amostras

143
Testes de Hipteses: Conceitos
143 | Introduo
145 | Conceitos Fundamentais
150 | Testes de hipteses no paramtricos
153 | Principais planos experimentais

163
Testes de Hipteses
163 | Introduo
163 | Comparao de duas amostras independentes
169 | Comparao de duas amostras relacionadas
173 | Comparao de 3 ou mais amostras independentes
178 | Testes de aderncia

Este material parte integrante do acervo do IESDE BRASIL S.A.,


mais informaes www.iesde.com.br
sumrio
sumrio Anlise de Correlao e Medidas de Associao
189 | Introduo
190 | Diagramas de Disperso
189

190 | A Covarincia e o Coeficiente de Correlao de Pearson


198 | Medidas de Associao

209
Anlise de Regresso
209 | Introduo
209 | Regresso linear simples
214 | Mtodo dos mnimos quadrados ordinrios (MQO)
217 | Anlise de Varincia da Regresso
219 | Erro-padro de estimao e intervalos de predio
220 | Anlise de Resduos

247
Referncias

Este material parte integrante do acervo do IESDE BRASIL S.A.,


mais informaes www.iesde.com.br
Este material parte integrante do acervo do IESDE BRASIL S.A.,
mais informaes www.iesde.com.br
Este material parte integrante do acervo do IESDE BRASIL S.A.,
mais informaes www.iesde.com.br
Apresentao
Como se sabe, as portas do mercado de trabalho

Mtodos Quantitativos Estatsticos


esto muito mais abertas aos profissionais que,
por exemplo, tm habilidades em lnguas estran-
geiras. Da mesma forma, profissionais que tm
um conhecimento bsico em Estatstica esto
cada vez mais valorizados, exatamente pelo seu
preparo para auxiliar o processo de tomada de
deciso. Mas o que significa isso? Desenvolver
uma cultura estatstica significa desenvolver a
habilidade de planejar um estudo, controlando
todos os aspectos que possam causar variaes
na resposta de interesse e, com base em me-
todologias cientficas, analisar as informaes
coletadas para subsidiar com mais segurana a
difcil tarefa de tomada de deciso.
A cincia Estatstica aplicvel a qualquer ramo
do conhecimento em que se manipulem dados
experimentais. Assim, a Engenharia, a Econo-
mia, a Administrao, a Medicina, a Biologia,
as Cincias Agronmicas etc., tendem cada vez
mais a servir-se dos mtodos estatsticos como
ferramenta de trabalho, da sua grande e cres-
cente importncia.
O objetivo deste livro apresentar os principais
e mais frequentes conceitos utilizados em Esta-
tstica e as tcnicas bsicas de anlise de dados.
O aluno deve estar, ao final da disciplina, apto
a realizar um bom planejamento de um estudo
estatstico e realizar anlises estatsticas bsicas
dos dados resultantes desse estudo. Deve estar
preparado, tambm, para realizar interpreta-
es de resultados estatsticos de relatrios
analticos.

Este material parte integrante do acervo do IESDE BRASIL S.A.,


mais informaes www.iesde.com.br
Conceitos e Aplicaes

Mtodos Quantitativos Estatsticos


Em primeiro lugar, para que esta disciplina
possa ser proveitosa no sentido de habilitar o
futuro profissional no uso das tcnicas estatsti-
cas importante que sejam compreendidos os
conceitos bsicos mais frequentes e que sejam
apresentadas as diversas aplicaes da Estatsti-
ca no cotidiano de cada um de ns.

Anlise Exploratria de Dados



Em uma anlise estatstica de dados, o primeiro
passo conhecer em profundidade, e de uma
forma resumida, as informaes fornecidas pela
amostra coletada. Existem tcnicas estatsticas
especficas para ilustrar as caractersticas dessa
amostra, facilitando, dessa forma, a escolha da
tcnica estatstica mais adequada.

Medidas de Posio e Variabilidade

Ainda no processo de descrio das variveis do


estudo estatstico, importante calcular medi-
das que sejam representativas da totalidade dos
dados amostrais coletados. Essas medidas pode-
ro ser utilizadas num segundo momento para
subsidiar a construo e teste das hipteses es-
tatsticas que desejam ser testadas pelo pesqui-
sador. Alm das medidas de posio, funda-
mental obter informaes sobre a variabilidade
dos dados coletados. importante, para escolha
de uma tcnica estatstica adequada, saber se os
dados so homogneos ou heterogneos.

Este material parte integrante do acervo do IESDE BRASIL S.A.,


mais informaes www.iesde.com.br
Introduo Probabilidade

Mtodos Quantitativos Estatsticos


muito importante conhecer os elementos b-
sicos que nos ajudaro a compreender como os
mtodos estatsticos foram desenvolvidos. O
Clculo de Probabilidades a origem matem-
tica de todos os mtodos estatsticos. Desen-
volver tambm o raciocnio probabilstico nos
ajudar a compreender a noo do alcance dos
resultados obtidos em uma anlise estatstica e
sua confiabilidade.

Distribuio Binomial, Distribuio Poisson e


Distribuio Normal

As distribuies Binomial e Poisson so as mais


utilizadas para representar fenmenos de in-
teresse, que so mensurados a partir de con-
tagens. A distribuio Normal, considerada a
mais importante entre as distribuies de pro-
babilidade, tem a capacidade de se ajustar
um grande nmero de fenmenos em estudo.
tambm considerada a base para construo
de grande parte das tcnicas estatsticas, as
chamadas tcnicas clssicas. Muitas vezes ser
necessrio ajustar um modelo probabilstico aos
dados para se fazer previses e outros clculos
de probabilidades associadas.

Estimao de parmetros

Para caracterizar totalmente a amostra coleta-


da e a respectiva distribuio de probabilidade
a ela ajustada, importante que sejam esti-
madas as quantidades que especificam tais

Este material parte integrante do acervo do IESDE BRASIL S.A.,


mais informaes www.iesde.com.br
distribuies, chamadas de parmetros. Estas

Mtodos Quantitativos Estatsticos


so caractersticas populacionais estimadas
a partir de estatsticas baseadas na amostra.
Esta estimativa pode se dar pontualmente ou
por meio da construo de um intervalo de
confiana.

Testes de Hipteses: conceitos

Agora, finalizado o processo de descrio das


variveis aleatrias que fazem parte do estudo,
existe a necessidade a seguir de realizar testes
das hipteses formuladas inicialmente pelo pes-
quisador. Esses testes objetivam determinar a
existncia ou no de significncia estatstica das
hipteses. Ao final de uma anlise estatstica dos
dados amostrais, ser de interesse tirar conclu-
ses sobre toda a populao alvo. Esse processo
cauteloso deve sempre enfatizar o risco que est
se correndo ao se fazer determinada afirmao.
Deve-se sempre lembrar que os resultados al-
canados dependem consideravelmente da
qualidade da amostra coletada e uma margem
de erro sempre existir. preciso, no entanto,
saber controlar essa margem, reduzindo-a a
nveis bastante aceitveis.

Testes de Hipteses: testes paramtricos mais


usados

As hipteses definidas pelo pesquisador acerca


dos parmetros populacionais precisam ser tes-
tadas com base em dados amostrais, j que na
maioria das vezes esses valores so desconhe-
cidos. Precisa-se neste momento definir regras
de deciso que possam nos indicar a validade

Este material parte integrante do acervo do IESDE BRASIL S.A.,


mais informaes www.iesde.com.br
ou no das hipteses formuladas. Para cada

Mtodos Quantitativos Estatsticos


parmetro a ser testado existe um procedimen-
to prprio, ou seja, uma estatstica de teste pr-
pria, j que cada estatstica de teste segue uma
distribuio distinta.

Anlise de Correlao e Medidas de Associao



Muitas vezes precisamos conhecer a forma como
duas ou mais variveis esto relacionadas. Exis-
tem diversos critrios de avaliao dessa relao,
alguns prprios para variveis que seguem uma
distribuio normal e outros para variveis que
no seguem uma distribuio terica conheci-
da. Basicamente, existem mtodos de avaliao
da relao para variveis contnuas e variveis
categricas (discretas).

Anlise de Regresso

Em muitas reas da investigao cientfica, a va-


riao em observaes experimentais de uma
varivel causada por uma grande extenso
de outras variveis. possvel, atravs de pro-
cedimentos estatsticos, explorar a natureza do
relacionamento entre essas variveis. A Anlise
de Regresso a rea da Estatstica que trata
da formulao de modelos matemticos que
espelham relaes entre variveis com o obje-
tivo de se fazer predies e outras inferncias
estatsticas.

Para habilitar o estudante no uso de aplicativos


de Estatstica em suas anlises de dados, alguns
exerccios sero resolvidos fazendo uso da plani-
lha eletrnica Excel.

Este material parte integrante do acervo do IESDE BRASIL S.A.,


mais informaes www.iesde.com.br
Este material parte integrante do acervo do IESDE BRASIL S.A.,
mais informaes www.iesde.com.br
Conceitos e Aplicaes

Introduo
Geralmente, as pessoas imaginam que Estatstica uma simples coleo
de nmeros ou tem a ver com grficos e censo demogrfico. Pretendemos
mostrar que, na verdade, muito mais do que isso e o seu uso surge com
bastante frequncia em nossas vidas.

Estatstica um conjunto de tcnicas de anlise de dados, cientificamen-


te formuladas, aplicveis a quase todas as reas do conhecimento que nos
auxiliam no processo de tomada de deciso. a Cincia que estuda os pro-
cessos de coleta, organizao, anlise e interpretao de dados relevantes e
referentes a uma rea particular de investigao.

A origem da palavra Estatstica tem a ver com uma coleo de informa-


es populacionais e econmicas de interesse do Estado. O termo estatstica
surge da expresso em latim statisticum collegium palestra sobre os assuntos
do Estado, da qual surgiu a palavra em lngua italiana statista, que significa
homem de estado, ou poltico, e a palavra alem Statistik, designando a
anlise de dados sobre o Estado. A palavra foi proposta pela primeira vez
no sculo XVII, em latim, por Schmeitzel na Universidade de Lena e adotada
pelo acadmico alemo Godofredo Achenwall. Aparece como vocabulrio
na Enciclopdia Britnica em 1797, e adquiriu um significado de coleta e
classificao de dados no incio do sculo XIX.

Alguns exemplos de aplicao de tcnicas estatsticas so: pesquisa elei-


toral, pesquisa de mercado, controle de qualidade, ndices econmicos,
desenvolvimento de novos medicamentos, novas tcnicas cirrgicas e de
tratamento mdico, sementes mais eficientes, previses meteorolgicas,
previses de comportamento do mercado de aes etc., ou seja, tudo que
se diz comprovado cientificamente, em algum momento, passa por proce-
dimentos estatsticos.

Curiosamente, apesar de a Estatstica estar enquadrada entre as cincias


exatas, seus resultados esto sempre associados a uma pequena incerteza,
exatamente por estarem baseados em uma amostra. O profissional de esta-

Este material parte integrante do acervo do IESDE BRASIL S.A., 15


mais informaes www.iesde.com.br
Conceitos e Aplicaes

tstica deve ter a habilidade de controlar essa incerteza por meio de procedi-
mentos de Amostragem. A incerteza consequncia da variabilidade de um
fenmeno e dificulta a tomada de decises.

Considere um simples exemplo da vida cotidiana: a ida de uma pessoa


a uma agncia bancria. Em torno desse fenmeno h uma srie de incer-
tezas, por exemplo: a quantidade de pessoas na fila, o nmero de atenden-
tes, o tempo de atendimento, as condies do tempo, a cotao da moeda
etc.

Mesmo que um indivduo procure informaes prvias sobre todos esses


elementos, sob os quais paira a incerteza, ainda assim no ser possvel pre-
dizer o desfecho. Podemos, por exemplo, analisar as condies do tempo,
obter informaes sobre o trfego, ligar para a agncia bancria e, ainda
assim, no conseguiremos precisar o horrio em que se receber o desejado
atendimento bancrio.

Conceitos bsicos
Em seguida so apresentados os principais conceitos estatsticos, os quais
so diversas vezes citados ao longo do livro. importante, nesse momento,
o leitor se familiarizar com esses novos termos, o que facilita a compreenso
das tcnicas estatsticas apresentadas na sequncia.

Estatstica Descritiva
O objetivo da Estatstica Descritiva resumir as principais caractersticas
de um conjunto de dados por meio de tabelas, grficos e resumos numri-
cos. Descrever os dados pode ser comparado ao ato de tirar uma fotografia
da realidade. Caso a cmera fotogrfica no seja adequada ou esteja sem
foco, o resultado pode sair distorcido. Portanto, a anlise estatstica deve
ser extremamente cuidadosa ao escolher a forma adequada de resumir os
dados.

Inferncia Estatstica
Usualmente, impraticvel observar toda uma populao, seja pelo
custo alto, seja por dificuldades operacionais. Examina-se, ento, uma amos-
tra, de preferncia bastante representativa, para que os resultados obtidos

16 Este material parte integrante do acervo do IESDE BRASIL S.A.,


mais informaes www.iesde.com.br
Conceitos e Aplicaes

possam ser generalizados para toda a populao. Toda concluso tirada por
amostragem, quando generalizada para a populao, apresenta um grau de
incerteza. Ao conjunto de tcnicas e procedimentos que permitem dar ao
pesquisador um grau de confiabilidade nas afirmaes que faz para a popu-
lao, baseadas nos resultados das amostras, damos o nome de Inferncia
Estatstica.

Dessa forma, poderamos resumir os passos necessrios para se atingir


bons resultados ao realizar um experimento:

Planejar o processo amostral e experimental.

Obter inferncias sobre a populao.

Estabelecer nveis de incerteza envolvidos nessas inferncias.

Populao
a totalidade de elementos que esto sob discusso e dos quais se deseja
informao, se deseja investigar uma ou mais caractersticas. A populao
pode ser formada por pessoas, domiclios, peas de produo, cobaias, ou
qualquer outro elemento a ser investigado.

Para que haja uma clara definio das unidades que formam a popula-
o, necessria a especificao de trs elementos: uma caracterstica em
comum, localizao temporal e localizao geogrfica.

Exemplos:

Estudo da inadimplncia dos clientes do banco X no Brasil

Caracterstica comum Clientes do banco X


Tempo Cadastro atualizado em agosto de 2007
Localizao geogrfica Agncias de todo o Brasil

Estudo de salrios dos profissionais da rea de seguros no estado de


So Paulo

Caracterstica comum Profissionais da rea de seguros


Tempo Salrios pagos em julho de 2007
Localizao geogrfica Seguradoras de todo o estado de So Paulo

Este material parte integrante do acervo do IESDE BRASIL S.A., 17


mais informaes www.iesde.com.br
Conceitos e Aplicaes

Amostra aleatria
Quando queremos obter informaes a respeito de uma populao, ob-
servamos alguns elementos, os quais so obtidos de forma aleatria, o que
chamaremos de amostra aleatria.

Uma amostra uma parcela da populao utilizada para uma posterior


anlise de dados. Em vez de utilizar toda a populao, que resulta em maior
custo, tempo e por muitas vezes ser invivel, o processo de amostragem uti-
liza uma pequena poro representativa da populao. A amostra fornece
informaes que podem ser utilizadas para estimar caractersticas de toda
a populao.

preciso garantir que a amostra ou as amostras usadas sejam obtidas


por processos adequados. Se erros forem cometidos no momento de sele-
cionar os elementos da amostra, o trabalho todo fica comprometido e os re-
sultados finais sero provavelmente bastante viesados. Devemos, portanto,
tomar especial cuidado quanto aos critrios que sero usados na seleo da
amostra.

O que necessrio garantir, em suma, que a amostra seja representativa


da populao. Isso significa que, com exceo de pequenas discrepncias
inerentes aleatoriedade sempre presente, em maior ou menor grau, no
processo de amostragem, a amostra deve possuir as mesmas caractersti-
cas bsicas da populao, no que diz respeito (s) varivel(is) que desejamos
pesquisar.

Os problemas de amostragem podem ser mais ou menos complexos, de-


pendendo das populaes e das variveis que se deseja estudar. Na inds-
tria, para efeito de controle de qualidade, as amostras so frequentemente
retiradas dos produtos e materiais. Nela os problemas de amostragem so
mais simples de resolver. Por outro lado, em pesquisas sociais, econmicas ou
de opinio, a complexidade dos problemas de amostragem normalmente
bastante grande. Em tais casos, deve-se ter extremo cuidado quanto
caracterizao da populao e ao processo usado para selecionar a amostra,
a fim de evitar que os elementos constituam um conjunto com caractersticas
fundamentalmente distintas das da populao.

Em resumo, a obteno de solues adequadas para o problema de amos-


tragem exige, em geral, muito bom senso e experincia. Alm disso, muitas
vezes conveniente que o trabalho de elaborao do plano de amostragem
seja baseado em informaes de um especialista do assunto em questo.
18 Este material parte integrante do acervo do IESDE BRASIL S.A.,
mais informaes www.iesde.com.br
Conceitos e Aplicaes

Cuidado especial deve ser tomado nas concluses em situaes em que


a amostra coletada no seja extrada exatamente da populao de interes-
se (populao-alvo), e sim de uma populao mais acessvel, conveniente,
nesse caso chamada de populao amostrada.

Veja os exemplos:

1) Suponha que um socilogo deseja entender os hbitos religiosos dos


homens com 20 anos de idade em certo pas. Ele extrai uma amostra
de homens com 20 anos de uma grande cidade para estudar. Neste
caso, tem-se:

Populao-alvo homens com 20 anos do pas;

Populao amostrada homens com 20 anos da cidade grande


amostrada.

Ento, ele pode fazer concluses vlidas apenas para os elementos da


grande cidade (populao amostrada), mas pode usar o seu julgamento pes-
soal para extrapolar os resultados obtidos para a populao-alvo, com muita
cautela e certas reservas.

2) Um pesquisador agrcola est estudando a produo de certa varie-


dade de trigo em determinado estado. Ele tem a sua disposio cinco
fazendas espalhadas pelo estado, nas quais ele pode plantar trigo e
observar a produo. A populao amostrada, nesse caso, consiste das
produes de trigo nas cinco fazendas, enquanto a populao-alvo
consiste das produes de trigo em todas as fazendas do estado.

Tcnicas de Amostragem
Existem dois tipos de amostragem: probabilstica e no probabilstica.

A amostragem ser probabilstica se todos os elementos da populao ti-


verem probabilidade conhecida, e diferente de zero, de pertencer amostra.
Caso contrrio, a amostragem ser no probabilstica. Uma amostragem no
probabilstica obtida quando o acesso a informaes no to simples ou
os recursos forem limitados, assim o pesquisador faz uso de dados que esto
mais a seu alcance, a chamada amostragem por convenincia.

Por exemplo, podemos realizar um estudo para avaliar a qualidade do


servio prestado por uma operadora de telefonia celular. Caso tenhamos

Este material parte integrante do acervo do IESDE BRASIL S.A., 19


mais informaes www.iesde.com.br
Conceitos e Aplicaes

recursos suficientes, podemos realizar um plano amostral bastante abrangen-


te de toda a populao de usurios do servio. Isso caracteriza uma amostra
probabilstica. Mas se por restries oramentrias ou de outra ordem no
for possvel obter uma amostra to numerosa ou ela seja de difcil acesso,
podemos restringir nossa amostra a uma pequena regio delimitada de fcil
acesso e de custo reduzido, usurios de uma cidade, por exemplo. Essa
uma amostragem no probabilstica.

Segundo essa definio, a amostragem probabilstica implica sorteio com


regras bem determinadas, cuja realizao s ser possvel se a populao for
finita e totalmente acessvel.

A utilizao de uma amostragem probabilstica a melhor recomenda-


o que se deve fazer no sentido de garantir a representatividade da amos-
tra, pois o acaso o nico responsvel por eventuais discrepncias entre
populao e amostra. No caso em que a nica possibilidade o uso de uma
amostragem no probabilstica, deve-se ter a conscincia de que as conclu-
ses apresentam alguma limitao.

A seguir, apresentamos algumas das principais tcnicas de amostragem


probabilstica.

Amostragem aleatria simples


Esse tipo de amostragem, tambm chamada simples ao acaso, casual, ele-
mentar, randmica etc., equivalente a um sorteio lotrico. Nela, todos os
elementos da populao tm igual probabilidade de pertencer amostra e
todas as possveis amostras tm igual probabilidade de ocorrer.

Sendo N o nmero de elementos da populao e n o nmero de elemen-


tos da amostra, cada elemento da populao tem probabilidade n N de per-
tencer amostra. A essa relao n N denomina-se frao de amostragem. Por
outro lado, sendo a amostragem feita sem reposio, supomos, em geral,
que existem N possveis amostras, todas igualmente provveis.
n
Na prtica, a amostragem simples ao acaso pode ser realizada numeran-
do-se a populao de 1 a N, sorteando-se, a seguir, por meio de um disposi-
tivo aleatrio qualquer, n nmeros dessa sequncia, os quais correspondem
aos elementos sorteados para a amostra.

20 Este material parte integrante do acervo do IESDE BRASIL S.A.,


mais informaes www.iesde.com.br
Conceitos e Aplicaes

Amostragem sistemtica
Quando os elementos da populao se apresentam ordenados e a retira-
da dos elementos da amostra feita periodicamente, temos uma amostra-
gem sistemtica.

Assim, por exemplo, em uma linha de produo podemos, a cada


dez itens produzidos, retirar um para pertencer a uma amostra da pro-
duo diria. Assim, teremos uma produo total de N itens e extraire-
mos uma amostra de tamanho n, selecionando as unidades a cada dez
itens. Para seleo do primeiro item, um nmero entre 1 e 10 sorteado
aleatoriamente e os demais subsequentes so obtidos sistematicamente.
Por exemplo, as unidades sorteadas podero ser 8, 18, 28, 38, 48, e assim por
diante, repetindo-se o procedimento at o N-simo item. Denomina-se k =
N/n como a razo de amostragem. No exemplo, portanto, k = 10.

A principal vantagem da amostragem sistemtica est na grande facilida-


de na determinao dos elementos da amostra. O perigo em adot-la est
na possibilidade da existncia de ciclos de variao da varivel de interesse,
especialmente se o perodo desses ciclos coincidir com o perodo de retira-
da dos elementos da amostra. Por outro lado, se a ordem dos elementos na
populao no tiver qualquer relacionamento com a varivel de interesse,
ento a amostragem sistemtica tem efeitos equivalentes amostragem
casual simples, podendo ser utilizada sem restries.

Amostragem estratificada
Muitas vezes, a populao se divide em subpopulaes ou estratos,
sendo razovel supor que, de estrato para estrato, a varivel de interesse
apresente um comportamento substancialmente diverso, tendo, entretan-
to, comportamento razoavelmente homogneo dentro de cada estrato.
Em tais casos, se o sorteio dos elementos da amostra for realizado sem se
levar em considerao a existncia dos estratos, pode acontecer que os
diversos estratos no sejam convenientemente representados na amostra,
a qual seria mais influenciada pelas caractersticas da varivel nos estratos
mais favorecidos pelo sorteio. Evidentemente, a tendncia ocorrncia de
tal fato ser tanto maior quanto menor o tamanho da amostra. Para evitar
isso, pode-se adotar uma amostragem estratificada.

Este material parte integrante do acervo do IESDE BRASIL S.A., 21


mais informaes www.iesde.com.br
Conceitos e Aplicaes

Constituem exemplos em que uma amostragem estratificada parece


ser recomendvel, a estratificao de uma cidade em bairros, quando se
deseja investigar alguma varivel relacionada renda familiar; a estratifi-
cao de uma populao humana em homens e mulheres, ou por faixas
etrias; a estratificao de uma populao de estudantes conforme suas
especificaes etc.

Amostragem por conglomerados


Neste mtodo, em vez da seleo de unidades da populao, so selecio-
nados conglomerados dessas unidades. Essa uma alternativa para quando
no existe o cadastro das unidades amostrais. Se a unidade de interesse, por
exemplo, for um aluno, pode ser que no exista um cadastro de alunos, mas
sim de escolas. Portanto, podem ser selecionadas escolas e nelas investigar
todos os alunos. Esse tipo de amostragem induz indiretamente aleatorieda-
de na seleo das unidades que formam a amostra e tem a grande vantagem
de facilitar a coleta de dados.

Amostragem de convenincia (no probabilstica)


A amostra de convenincia formada por elementos que o pesquisador
reuniu simplesmente porque dispunha deles. Ento, se o professor tomar os
alunos de sua classe como amostra de toda a escola, est usando uma amos-
tra de convenincia.

Os estatsticos tm muitas restries ao uso de amostras de convenincia.


Mesmo assim, as amostras de convenincia so comuns na rea de sade,
em que se fazem pesquisas com pacientes de uma s clnica ou de um s
hospital. Mais ainda, as amostras de convenincia constituem, muitas vezes,
a nica maneira de estudar determinado problema.

De qualquer forma, o pesquisador que utiliza amostras de convenincia


precisa de muito senso crtico. Os dados podem ser tendenciosos. Por exem-
plo, para estimar a probabilidade de morte por desidratao no se deve
recorrer aos dados de um hospital. Como s so internados os casos graves,
possvel que a mortalidade entre pacientes internados seja maior do que
entre pacientes no internados. Consequentemente, a amostra de conveni-
ncia constituda, nesse exemplo, por pacientes internados no hospital, seria
tendenciosa.

22 Este material parte integrante do acervo do IESDE BRASIL S.A.,


mais informaes www.iesde.com.br
Conceitos e Aplicaes

Finalmente, o pesquisador que trabalha com amostras sempre pretende


fazer inferncia, isto , estender os resultados da amostra para toda a popu-
lao. Ento muito importante caracterizar bem a amostra e estender os
resultados obtidos na amostra apenas para a populao da qual a amostra
proveio.

Exemplos de planos amostrais:

Exemplo 1: uma agncia de seguros tem N = 100 clientes comerciantes. Seu


proprietrio pretende entrevistar uma amostra de 10 clientes para levantar
possibilidades de melhora no atendimento. Escolha uma amostra aleatria
simples de tamanho n = 10.

Primeiro passo atribuir a cada cliente um nmero entre 1 e 100.

Segundo passo recorrer a um gerador de nmeros aleatrios de uma


planilha eletrnica para selecionar aleatoriamente 10 nmeros de 1 a
100. Os clientes identificados pelos nmeros selecionados compem
a amostra.

Exemplo 2: uma operadora de celular tem um arquivo com N = 5 000 fichas


de usurios de um servio e selecionada, sistematicamente, uma amostra
de n = 1 000 usurios. Nesse caso, a frao de amostragem igual a n/N
= 1 000/5 000 e assim podemos definir k = 5 (N/n = 5 000/1 000 = 5), ou
seja, teremos 5 elementos na populao para cada elemento selecionado
na amostra. Na amostragem sistemtica, somente o ponto de partida sor-
teado entre as 5 primeiras fichas do arquivo. Admitamos que foi sorteado o
nmero 3, ento a amostra ser formada pelas fichas 3 , 8, 13 , 18, . . . , 4993,
4998.

Tipos de variveis
A caracterstica de interesse de estudo (varivel) pode ser dividida em
duas categorias: qualitativas e quantitativas.

As variveis qualitativas apresentam como possveis realizaes uma qua-


lidade (ou atributo) do indivduo pesquisado. Entre as variveis qualitativas,
ainda podemos fazer uma distino entre dois tipos: varivel qualitativa cate-
grica ou nominal, para a qual no existe nenhuma ordenao nas possveis
realizaes, e varivel qualitativa ordinal, para a qual existe certa ordem nos
possveis resultados.

Este material parte integrante do acervo do IESDE BRASIL S.A., 23


mais informaes www.iesde.com.br
Conceitos e Aplicaes

Exemplo 1: (varivel qualitativa nominal)

Populao: moradores de uma cidade.

Varivel: cor dos olhos (pretos, castanhos, azuis e verdes).

Exemplo 2: (varivel qualitativa ordinal)

Populao: moradores de um condomnio.

Varivel: grau de instruo (Fundamental, Mdio e Superior).

As variveis quantitativas apresentam, como possveis realizaes,


nmeros resultantes de uma contagem ou mensurao. Entre as vari
veis quantitativas, ainda podemos fazer uma distino entre dois tipos:
variveis quantitativas discretas, cujos possveis valores formam um conjun-
to finito ou enumervel de nmeros e que resultam, frequentemente, de
uma contagem; e variveis quantitativas contnuas, cujos possveis valores
formam um intervalo de nmeros reais e que resultam, normalmente, de uma
mensurao.

Exemplo 3: (varivel quantitativa discreta)

Populao: hospitais de uma determinada cidade.

Varivel: nmero de leitos (0, 1, 2, ...).

Exemplo 4: (varivel quantitativa contnua)

Populao: moradores de uma determinada cidade.

Varivel: estatura dos indivduos.

Ampliando seus conhecimentos

Pesquisa de mercado
(MATTAR, 2001)

Em qualquer pesquisa, principalmente naquelas em que o nmero inves-


tigado muito grande, torna-se quase impossvel ou invivel pesquisar todos
os elementos da populao. necessrio retirar uma amostra representativa
para ser analisada.

24 Este material parte integrante do acervo do IESDE BRASIL S.A.,


mais informaes www.iesde.com.br
Conceitos e Aplicaes

A amostra em pesquisa de mercado um fator bsico para validar ou no


um procedimento adotado. Vale dizer que esse item bastante complexo
porque, dependendo do universo a ser analisado e dos objetivos do estudo,
teremos que usar um critrio amostral.

Uma vez definida a populao a ser investigada, precisamos fazer a se-


leo do mtodo de escolha da amostra e definio do tamanho da amos-
tra. Esse mtodo vai depender do conhecimento da delimitao do univer-
so a ser pesquisado, de suas caractersticas e ordenamento, pois nem toda
amostra permite que os resultados sejam inferidos para o universo como
um todo.

Etapas de uma pesquisa


A seguir apresentado um esquema contendo as etapas para realizao
de uma pesquisa.

Etapas Fases
1. Reconhecimento e formulao Formulao, determinao ou constatao de um
do problema de pesquisa problema de pesquisa

2. Planejamento da pesquisa a) Definio dos objetivos


b) Estabelecimento das questes de pesquisa.
c) Estabelecimento das necessidades de dados e defi-
nio das variveis e de seus indicadores
d) Determinao das fontes de dados
e) Determinao da metodologia
f ) Planejamento da organizao, cronograma e ora-
mento
g) Redao do projeto de pesquisa e/ou de proposta
de pesquisa
3. Execuo da pesquisa a) Preparao de campo
b) Campo
c) Processamento e anlise
4. Comunicao dos resultados a) Elaborao e entrega dos relatrios de pesquisa
b) Preparao e apresentao oral dos resultados

Reconhecimento e formulao do problema de pesquisa: consiste na cor-


reta identificao do problema de pesquisa que se pretenda resolver e que

Este material parte integrante do acervo do IESDE BRASIL S.A., 25


mais informaes www.iesde.com.br
Conceitos e Aplicaes

possa efetivamente receber contribuies valiosas da pesquisa de marketing


em sua soluo.

Planejamento da pesquisa: compreende a definio dos objetivos da pesquisa


e de toda sua operacionalizao. Fontes de dados, mtodo de pesquisa, forma
de coleta, construo e teste do instrumento de coleta, plano amostral, proce-
dimentos de campo, plano de processamento e anlise, definio dos recursos
necessrios, definio de cronograma das etapas.

Execuo da pesquisa: coleta de dados e processamento, anlise e inter


pretao.

Comunicao dos resultados: compreende a apresentao escrita e oral


das principais descobertas da pesquisa, com sugestes e recomendaes.

Atividades de aplicao
Abaixo seguem alguns exemplos de aplicao da estatstica. Em cada um
deles so definidas algumas estratgias. Verifique se cada uma das estrat-
gias adequada para se atingir maior confiabilidade nos resultados atingi-
dos. Em seguida, justifique sua resposta, apontando os motivos que levaro
ou no a uma confiabilidade nos resultados.

1. Uma firma que est se preparando para lanar um novo produto pre-
cisa conhecer as preferncias dos consumidores no mercado de inte-
resse. Para isso, o que se deve fazer:

a) Uma pesquisa de mercado realizando entrevistas a domiclio com


uma amostra de pessoas escolhidas aleatoriamente que se adap-
tam ao perfil da populao de interesse.

b) Realizar entrevistas com todos os potenciais consumidores do referido


produto nos estabelecimentos comerciais em que este ser vendido.

c) Promover uma discusso em grupo sobre o novo produto, mode-


rada por um especialista, com cerca de 20 donas de casa em que
ser feita uma degustao e posteriormente uma avaliao.

26 Este material parte integrante do acervo do IESDE BRASIL S.A.,


mais informaes www.iesde.com.br
Conceitos e Aplicaes

2. Antes de lanar um novo remdio no mercado, necessrio fazer v-


rias experincias para garantir que o produto seguro e eficiente. Para
isso, o que se deve fazer:

a) Tomar dois grupos de pacientes to semelhantes quanto possvel,


e dar o remdio a um grupo, mas no ao outro, e verificar se os
resultados no grupo tratado so melhores.

b) Deve-se realizar um perodo de testes do novo medicamento, dis-


ponibilizando algumas amostras grtis em farmcias para serem
avaliadas pela populao durante certo perodo de tempo.

c) Tomar um grupo de pacientes de determinado hospital e sem que


sejam informados, administrar a nova droga, comparando-se os
resultados obtidos com os resultados anteriores, obtidos com a
droga antiga.

3. Se estamos recebendo um grande lote de mercadorias de um fornece-


dor, teremos de certificar-nos de que o produto realmente satisfaz os
requisitos de qualidade acordados. Para isso devemos:

a) Fazer avaliaes da qualidade de todo o lote mediante inspeo


de alguns itens escolhidos aleatoriamente, em quantidade que
seja representativa da populao.

b) Liberar uma parte do lote para comrcio. Caso exista algum pro-
blema constatado pelos consumidores, deve-se devolver o lote
inteiro ao fornecedor.

c) Avaliar a qualidade de aproximadamente 10% dos itens do lote.


Caso no sejam encontrados itens defeituosos, liberar o lote todo
ao comrcio.

Gabarito
1.

a) uma estratgia adequada. Se a amostra coletada for represen-


tativa da populao, os resultados sero bastante confiveis.

Este material parte integrante do acervo do IESDE BRASIL S.A., 27


mais informaes www.iesde.com.br
Conceitos e Aplicaes

b) Tambm pode ser considerada uma estratgia adequada. A pes-


quisa atingir, nos locais de venda, o pblico-alvo do novo pro-
duto e apresentar resultados confiveis.

c) Esta uma estratgia mais qualitativa, denominada discusso em


grupo (grupo focal). Os resultados obtidos apresentam muitas in-
formaes em profundidade, porm sem muita representativida-
de, pelo nmero reduzido da amostra.

2.

a) Esta uma estratgia adequada, pois compara dois grupos de pa-


cientes homogneos e possibilita avaliar o efeito do novo medica-
mento. preciso, no entanto, garantir que o nmero de pacientes
escolhidos seja em nmero satisfatrio.

b) No uma estratgia adequada. No se devem disponibilizar


medicamentos novos no mercado sem que antes tenham sido
avaliados em laboratrio e outros experimentos controlados. E
nada garante que ser atingida a populao-alvo de interesse
do estudo.

c) uma estratgia parcialmente adequada. Deve-se avaliar se os pa-


cientes desse hospital representam de forma satisfatria a popula-
o alvo ou se apenas uma escolha por convenincia. Pode ser
que os pacientes hospitalizados sejam pacientes em estado mais
grave, o que poder viesar os resultados do estudo.

3.

a) uma estratgia adequada. Escolhendo uma amostra representa-


tiva do lote conseguiremos, com uma boa margem de confiana,
avaliar a qualidade do lote.

b) No adequado. No devemos liberar mercadorias para o comr-


cio sem que antes a sua qualidade tenha sido avaliada.

c) No adequado. Avaliar 10% do lote pode ser exaustivo ou insufi-


ciente, dependendo do tamanho do lote. Existem maneiras defini-
das de calcular o nmero de amostras que vo representar satisfa-
toriamente a populao.

28 Este material parte integrante do acervo do IESDE BRASIL S.A.,


mais informaes www.iesde.com.br
Este material parte integrante do acervo do IESDE BRASIL S.A.,
mais informaes www.iesde.com.br
Este material parte integrante do acervo do IESDE BRASIL S.A.,
mais informaes www.iesde.com.br
Anlise Exploratria de Dados

Introduo
As tcnicas estatsticas clssicas foram concebidas para serem as melho-
res possveis, desde que se assuma um conjunto de pressupostos rgidos.
Sabe-se que essas tcnicas se comportam deficientemente medida que
esse conjunto de pressupostos no satisfeito.

As tcnicas de Anlise Exploratria de Dados contribuem para aumentar


a eficcia da anlise estatstica de forma fcil e rpida. Geralmente, devem
ser aplicadas antes da formulao das hipteses estatsticas para identificar
padres e caractersticas dos dados.

Uma amostra um subconjunto de uma populao, necessariamente


finito, pois todos os seus elementos so examinados para efeito da realiza-
o do estudo estatstico desejado.

intuitivo que, quanto maior a amostra, mais precisas e confiveis devem


ser as indues realizadas sobre a populao. Levando esse raciocnio ao ex-
tremo, concluiramos que os resultados mais perfeitos seriam obtidos pelo
exame completo de toda a populao, ao qual costuma-se denominar censo
ou recenseamento. Mas essa concluso, na prtica, muitas vezes no se veri-
fica. O emprego de amostras pode ser feito de tal modo que se obtenham
resultados confiveis.

Ocorre, em realidade, que diversas razes levam, em geral, necessidade


de recorrer-se apenas aos elementos de uma amostra. Entre elas, podemos
citar o custo do levantamento de dados e o tempo necessrio para realiz-lo,
especialmente se a populao for muito grande.

O objetivo da Estatstica Descritiva resumir as principais caractersticas


de um conjunto de dados por meio de tabelas, grficos e resumos num-
ricos. A anlise estatstica deve ser extremamente cuidadosa ao escolher a
forma adequada de resumir os dados. Apresentamos no quadro a seguir um
resumo dos procedimentos da Estatstica Descritiva.

Este material parte integrante do acervo do IESDE BRASIL S.A., 31


mais informaes www.iesde.com.br
Anlise Exploratria de Dados

Quadro 1 Principais tcnicas de estatstica descritiva

Apropriada para resumir um grande conjunto de dados, agru-


Tabelas de Frequncia pando informaes em categorias. As classes que compem a
tabela podem ser categorias pontuais ou por intervalos.

Possibilita uma visualizao das principais caractersticas da


amostra. Alguns exemplos de grficos so: diagrama de barras,
Grficos
diagrama em setores, histograma, box-plot, ramo e folhas, dia-
grama de disperso.

Por meio de medidas ou resumos numricos podemos levan-


tar importantes informaes sobre o conjunto de dados, tais
Medidas Descritivas
como: a tendncia central, variabilidade, simetria, valores ex-
tremos, valores discrepantes etc.

Um dos objetivos da Estatstica sintetizar os valores que uma ou mais


variveis podem assumir para que tenhamos uma viso global da variao
dessa ou dessas variveis. Isso se consegue, inicialmente, apresentando esses
valores em tabelas e grficos, que fornecem rpidas e seguras informaes a
respeito das variveis.

Tabelas
Uma tabela resume os dados por meio do uso de linhas e colunas, nas
quais so inseridos os nmeros. Uma tabela compe-se de:

Corpo conjunto de linhas e colunas que contm informaes sobre


a varivel em estudo.

Cabealho parte superior da tabela que especifica o contedo das


colunas.

Coluna Indicadora parte da tabela que especifica o contedo das


linhas.

Linhas retas imaginrias que facilitam a leitura, no sentido horizon-


tal, de dados que se inscrevem nos seus cruzamentos com as colunas.

Casas ou Clulas espao destinado a um s nmero.

Ttulo conjunto de informaes (as mais completas possveis) locali-


zado no topo da tabela.

Existem, ainda, elementos complementares que so: a fonte, as notas e


as chamadas, os quais devem ser colocados no rodap da tabela.
32 Este material parte integrante do acervo do IESDE BRASIL S.A.,
mais informaes www.iesde.com.br
Anlise Exploratria de Dados

As notas devem esclarecer aspectos relevantes do levantamento dos


dados ou da apurao. As chamadas do esclarecimentos sobre os dados.
Devem ser feitas de algarismos arbicos escritos entre parnteses e colo-
cados direita da coluna.

Exemplo:

Tabela 1 Populao brasileira residente, com 15 anos e mais, segundo


o estado conjugal, de acordo com o censo demogrfico de 1980

(IBGE, 1988)
Esto computados, como
Estado conjugal Frequncia Percentual separados, os desquitados e
os divorciados.
Solteiros1 25 146 484 34,18 1
Exclusive as pessoas soltei-
ras, vivendo em unio con-
sensual estvel.
Casados2 41 974 865 57,06
2
Inclusive 4 939 528 pessoas
vivendo em unio consensual
Separados 1 816 046 2,47 estvel.

Vivos 3 616 046 4,92

Sem declarao 1 005 234 1,37

Observao:

Nas casas ou clulas devemos colocar:

um trao horizontal ( __ ) quando o valor zero, no s quanto a natu-


reza das coisas, como quanto ao resultado do inqurito;

trs pontos ( ... ) quando no temos dados;

ponto de interrogao ( ? ) quando temos dvida quanto a exatido de


um valor;

zero (0) quando o valor muito pequeno para ser expresso pela unida-
de utilizada.

Tabelas de contingncia
Muitas vezes os elementos da amostra ou da populao so classificados
de acordo com dois fatores. Os dados devem ser apresentados em tabelas de
contingncia, isto , em tabelas de dupla entrada, cada entrada relativa a um
dos fatores.

Vejamos um exemplo de uma tabela que apresenta o nmero de nasci-


dos vivos registrados. Note que eles esto classificados segundo dois fatores:
o ano do registro e o sexo.
Este material parte integrante do acervo do IESDE BRASIL S.A., 33
mais informaes www.iesde.com.br
Anlise Exploratria de Dados

Tabela 2 Nascidos vivos registrados segundo o ano de registro e o sexo

(IBGE, 1988)
Ano de
Sexo Total
registro
Masculino Feminino

1984 1 307 758 1 251 280 2 559 038

1985 1 339 059 1 280 545 2 619 604

1986 1 418 050 1 361 203 2 779 253

Tabelas de distribuio de frequncias


As tabelas com grande nmero de dados so cansativas e no do ao
pesquisador viso rpida e global do fenmeno. Para isso, preciso que os
dados estejam organizados em uma tabela de distribuio de frequncias.
As distribuies de frequncias so representaes nas quais os valores da
varivel se apresentam em correspondncia com suas repeties, evitan-
do assim, que eles apaream mais de uma vez na tabela, poupando, desse
modo, espao, tempo e, muitas vezes, dinheiro.

Como exemplo, considere os dados da tabela abaixo:

Tabela 3 Rendimento mensal de fundos de investimento


2,522 3,200 1,900 4,100 4,600 3,400
2,720 3,720 3,600 2,400 1,720 3,400
3,125 2,800 3,200 2,700 2,750 1,570
2,250 2,900 3,300 2,450 4,200 3,800
3,220 2,950 2,900 3,400 2,100 2,700
3,000 2,480 2,500 2,400 4,450 2,900
3,725 3,800 3,600 3,120 2,900 3,700
2,890 2,500 2,500 3,400 2,920 2,120
3,110 3,550 2,300 3,200 2,720 3,150
3,520 3,000 2,950 2,700 2,900 2,400
3,100 4,100 3,000 3,150 2,000 3,450
3,200 3,200 3,750 2,800 2,720 3,120
2,780 3,450 3,150 2,700 2,480 2,120
3,155 3,100 3,200 3,300 3,900 2,450
2,150 3,150 2,500 3,200 2,500 2,700
3,300 2,800 2,900 3,200 2,480 -
3,250 2,900 3,200 2,800 2,450 -
34 Este material parte integrante do acervo do IESDE BRASIL S.A.,
mais informaes www.iesde.com.br
Anlise Exploratria de Dados

A partir desses dados desorganizados, chamados de dados brutos (dados


tal como foram coletados, sem nenhum tipo de organizao), difcil chegar
a alguma concluso a respeito da varivel em estudo (rendimento mensal de
fundos de investimento). Obteramos alguma informao a mais se arranjsse-
mos os dados segundo uma certa organizao como na sua ordem de magni-
tude, ou seja, se arrumssemos os dados na forma de um rol (lista em que os
valores so dispostos em uma determinada ordem, crescente ou decrescente).
Mas isso somente indicaria a amplitude de variao dos dados (isto , o menor
e o maior valor observado) e a ordem que os itens individuais ocupariam na
ordenao.

Para se ter uma ideia geral sobre o rendimento mensal dos fundos de in-
vestimento, o pesquisador no apresenta os rendimentos observados, mas o
nmero de observaes por faixas de rendimento. O procedimento mais satis-
fatrio arranjar os dados em uma distribuio de frequncias, de modo a mos-
trar a frequncia com que ocorrem certas faixas de rendimento especificados.

O primeiro passo definir o nmero de faixas de rendimento que rece-


bem, tecnicamente, o nome de classes. Embora existam frmulas apropria-
das para esse fim, em geral, no se conhecem regras precisas que levem a
uma deciso final, a qual depende, em parte, de um julgamento pessoal. Se
o nmero de classes for muito pequeno, comum acontecer que caracte-
rsticas importantes da varivel fiquem ocultas. Por outro lado, um nmero
elevado de classes fornece maior nmero de detalhes, mas resume de forma
menos precisa os dados. Em geral, convm estabelecer de 5 a 20 classes.
Uma das frmulas usadas a seguinte:

k = 1 + 3,3. log(n)

em que n o nmero total de dados. O nmero de classes um inteiro pr-


ximo de k.

importante deixar claro, aqui, que o resultado obtido por essa frmu-
la pode ser usado como referncia, mas cabe ao pesquisador determinar o
nmero de classes que pretende organizar.

Para entender como se aplica a frmula, considere os dados da tabela de


dados anterior. Como n = 100, tem-se que

k = 1 + 3,3. log(100) k = 1+3,3.2 k = 7,6

ou seja, para aqueles dados, deve-se construir 7 ou 8 classes.

Este material parte integrante do acervo do IESDE BRASIL S.A., 35


mais informaes www.iesde.com.br
Anlise Exploratria de Dados

Definido o nmero de classes a ser utilizado, deve-se determinar o intervalo de


classe (hi), ou seja, a amplitude de cada classe. Um caminho para isso dado por:
hi = AT
k
em que AT a amplitude total dos dados, isto , a diferena entre o maior e
o menor valor observado.

importante deixar claro que o resultado obtido por essa frmula ser
usado como referncia, mas cabe ao pesquisador determinar o intervalo de
classe exato.

Nos dados da tabela anterior, pode-se observar que o menor valor 1,570
e o maior 4,600. Tem-se, assim, AT = 3,03. Considerando k = 7, tem-se que
hi = 0,43. Dessa forma, podem ento ser definidas classes de 1,5 a 2,0, de 2,0 a 2,5,
e assim por diante. Logo, cada classe cobre um intervalo de 0,5, ou seja, cada in-
tervalo de classe de 0,5. mais fcil trabalhar com intervalos de classe iguais.

A distribuio de frequncias para os dados da tabela apresenta-se dessa


forma:

Classe Frequncia
1,5 | 2,0 3
2,0 | 2,5 16
2,5 | 3,0 31
3,0 | 3,5 34
3,5 | 4,0 11
4,0 | 4,5 4
4,5 | 5,0 1

Denomina-se limites de classe os extremos dos intervalos de cada classe.


O menor nmero o limite inferior (li) e o maior o limite superior (ls).

Em uma distribuio de frequncia tambm podem ser apresentados os


pontos mdios de classe (Pmi). O ponto mdio dado pela soma dos limites
de classe, dividida por 2. Desse modo, uma tabela tpica de distribuio de
frequncias tem as seguintes colunas, dadas por:

Classe Ponto mdio Frequncia Frequncia Frequncia


(i) (Pmi) (fi) relativa (fri) acumulada (Fi)
1,5 | 2,0 1,75 3 0,03 3
2,0 | 2,5 2,25 16 0,16 19
2,5 | 3,0 2,75 31 0,31 50

36 Este material parte integrante do acervo do IESDE BRASIL S.A.,


mais informaes www.iesde.com.br
Anlise Exploratria de Dados

Classe Ponto mdio Frequncia Frequncia Frequncia


(i) (Pmi) (fi) relativa (fri) acumulada (Fi)
3,0 | 3,5 3,25 34 0,34 84
3,5 | 4,0 3,75 11 0,11 95
4,0 | 4,5 4,25 4 0,04 99
4,5 | 5,0 4,75 1 0,01 100

As tabelas de distribuio de frequncias mostram a distribuio da va-


rivel, mas perdem em exatido. Isso porque todos os dados passam a ser
representados pelo ponto mdio da classe a que pertencem. Por exemplo,
a tabela anterior mostra que 16 fundos de investimento apresentam rendi-
mento com ponto mdio igual a 2,25, mas no d informao exata sobre o
rendimento de cada um deles.

Em uma tabela de distribuio de frequncias, pode-se ter, ainda, outros


dois tipos de frequncias: frequncia relativa e frequncia acumulada. A fre-
quncia relativa obtida dividindo-se a frequncia simples pelo nmero
total de observaes e a frequncia acumulada obtida somando-se as fre-
quncias simples das classes anteriores.

Grficos
A representao grfica dos dados tem por finalidade representar os re-
sultados obtidos, permitindo chegar-se a concluses sobre a evoluo do
fenmeno ou sobre como se relacionam seus valores. A escolha do grfico
mais apropriado fica a critrio do analista. Contudo, os elementos simplici-
dade, clareza e veracidade devem ser considerados quando da elaborao
de um grfico.

Os principais tipos de grficos usados na representao estatstica so:

Histograma e grfico de barras apresentam os resultados por meio


do desenho de diversas barras, em que cada categoria da varivel em
estudo associada uma barra e o comprimento da barra diz respeito
ao resultado indicado para a categoria. Pode ser usado tambm em
representaes envolvendo diversas variveis, acompanhadas em di-
versos momentos de tempo.

Grficos de linha til quando se deseja representar a evoluo


de diversas variveis ao longo de vrios momentos de tempo. um
grfico de duas dimenses formado por dois eixos perpendiculares,
Este material parte integrante do acervo do IESDE BRASIL S.A., 37
mais informaes www.iesde.com.br
Anlise Exploratria de Dados

em que o tempo representado no eixo horizontal X e os resultados


das variveis no eixo vertical Y.

Grfico em setores (pizza) composto de um crculo repartido


em n fatias, com tamanhos proporcionais ocorrncia da varivel
nos resultados da pesquisa, representando um certo instante no
tempo. Sugere-se que seja aplicado em variveis com no mximo
oito categorias.

Descrio grfica das variveis qualitativas


No caso das variveis qualitativas, a representao grfica bem simples,
basta computar as frequncias ou frequncias relativas das diversas classi-
ficaes existentes e elaborar a seguir um grfico conveniente. Esse grfico
pode ser um grfico de barras, um grfico de setores, ou outro qualquer tipo
de grfico equivalente.

Exemplo: este exemplo foi extrado do Anurio da Bolsa de Valores de So


Paulo, edio 1970. Nessa publicao, na parte Fundos Decreto Lei 157,
existe uma tabela que fornece a distribuio dos fundos relativos a cada
regio econmica do Brasil. Essa tabela reproduzida aqui.

Tabela 4 Distribuio de fundos relativos s regies do Brasil


Estado Nmero de estabelecimentos
Unidades %
So Paulo 38 28,1
Rio de Janeiro 30 22,2
Rio Grande do Sul 35 25,9
Minas Gerais 15 11,1
Demais estados 17 12,7
Total 135 100

As duas colunas referentes ao nmero de estabelecimentos contm, res-


pectivamente, as frequncias e as frequncias relativas, dadas em porcenta-
gem, com que os fundos existem nos estados considerados. A varivel quali-
tativa considerada no presente exemplo dada pelas regies consideradas.

Esses dados podem ser representados de diversas formas, conforme po-


demos notar a partir das figuras a seguir:

38 Este material parte integrante do acervo do IESDE BRASIL S.A.,


mais informaes www.iesde.com.br
Anlise Exploratria de Dados

Figura 1 Grfico de barras.

Figura 2 Grfico de setores.

Descrio grfica das variveis quantitativas discretas


No caso das variveis quantitativas discretas, a representao grfica ,
normalmente, feita por meio de um grfico de barras. A diferena do caso
anterior est em que, sendo a varivel quantitativa, seus valores numricos
podem ser representados num eixo de abscissas, o que facilita a representa-
o. Note que, aqui, existe uma enumerao natural dos valores da varivel,
o que no havia no caso das variveis qualitativas.

Exemplo: vamos representar graficamente o conjunto dado a seguir, cons-


titudo hipoteticamente por 20 valores da varivel nmero de defeitos por
unidade, obtidos a partir de aparelhos retirados de uma linha de montagem.

Este material parte integrante do acervo do IESDE BRASIL S.A., 39


mais informaes www.iesde.com.br
Anlise Exploratria de Dados

Sejam os seguintes valores obtidos:


2 4 2 1 2
3 1 0 5 1
0 1 1 2 0
1 3 0 1 2

Usando a letra x para designar os diferentes valores da varivel, podemos


construir a distribuio de frequncias dada a seguir, a partir da qual elabo-
ramos o grfico de barras correspondentes.
Distribuio de frequncias
xi fi fri
0 4 0,20
1 7 0,35
2 5 0,25
3 2 0,10
4 1 0,05
5 1 0,05
20 1

Figura 3 Grfico de barras.

Descrio grfica das variveis quantitativas


contnuas classes de frequncias
No caso das variveis quantitativas contnuas, o procedimento at a ob-
teno da tabela de frequncias pode ser anlogo ao visto no caso anterior.
40 Este material parte integrante do acervo do IESDE BRASIL S.A.,
mais informaes www.iesde.com.br
Anlise Exploratria de Dados

Entretanto, o diagrama de barras no mais se presta correta representao


da distribuio de frequncias, devido natureza contnua da varivel.

Os grficos apropriados para representar esse tipo de varivel so: o histo-


grama, o polgono de frequncias e a Ogiva de Galton.

Histograma para construir um histograma, primeiro se traa o


sistema de eixos cartesianos. Depois, se os intervalos de classe so
iguais, traam-se barras retangulares com bases iguais, correspon-
dentes aos intervalos de classe, e com alturas determinadas pelas
respectivas frequncias.

Figura 4 Histograma.

Polgono de frequncias para se construir um polgono de frequn-


cias, primeiro se traa o sistema de eixos cartesianos. Depois, se os
intervalos de classes so iguais, marcam-se pontos com abscissas
iguais aos pontos mdios de classe e ordenadas iguais s respecti-
vas frequncias. Se os intervalos de classe so diferentes, marcam-se
pontos com abscissas iguais aos pontos mdios de classe e ordena-
das iguais s respectivas densidades de frequncia relativa. Para fe-
char o polgono, unem-se os extremos da figura com o eixo horizon-
tal, nos pontos de abscissas iguais aos pontos mdios de uma classe
imediatamente inferior primeira, e de uma classe imediatamente
superior ltima.

Este material parte integrante do acervo do IESDE BRASIL S.A., 41


mais informaes www.iesde.com.br
Anlise Exploratria de Dados

Figura 5 Polgono de frequncias.

Ogiva de Galton: esse um grfico representativo de uma distribui-


o de frequncias acumuladas, seja ela crescente ou decrescente.
Consta de uma poligonal ascendente. No eixo horizontal, colocam-se
as extremidades de cada classe e no eixo vertical as frequncias acu-
muladas. Ao contrrio do polgono de frequncias, a ogiva utiliza os
pontos extremos das classes, e no os pontos mdios.

Figura 6 Ogiva de Galton Crescente.

42 Este material parte integrante do acervo do IESDE BRASIL S.A.,


mais informaes www.iesde.com.br
Anlise Exploratria de Dados

Figura 7 Grfico de linhas.

Ramo e folhas
Este tipo de grfico um modo simples de organizar os dados e que pode
facilitar a construo de tabelas de frequncias. Pode ser usado para dados
quantitativos (numricos) mas no qualitativos (por exemplo, dados nomi-
nais ou por categorias).

Veja o seguinte exemplo: considere que se tenha anotado 20 valores re-


lativos ao tempo de uma atividade, e que se deseja organiz-los em um dia-
grama de ramos e folhas. Os valores so os seguintes:
23 - 31 - 42 - 45 - 51 - 52 - 57 - 61 - 61 - 64 - 68 - 69 - 73 - 75 - 75 - 82 - 89 - 94 -
118 - 120

1o. passo: determina-se o menor e o maior valor; neste exemplo, 23 minutos


o menor valor e 120 minutos o maior.

2o. passo: constroem-se categorias nas quais se deseja agrupar os dados a


partir da menor dezena at a maior. Nas colunas, o 2 representa a dezena dos
20 minutos e o 12 representa a dezena dos 120 minutos.

Este material parte integrante do acervo do IESDE BRASIL S.A., 43


mais informaes www.iesde.com.br
Anlise Exploratria de Dados

Dezenas de minutos
2|
3|
4|
5|
6|
7|
8|
9|
10|
11|
12|
Figura 8 Passo inicial da construo de um grfico de ramos e folhas.

3o. passo: retorna-se aos dados originais e simplesmente coloca-se as uni-


dades referentes s dezenas em cada uma das linhas, ordenadamente. Por
exemplo, o nmero 23 representado por um 3 colocado na linha 2, e 118
pode ser representado na linha 11 por um 8. Uma vez feito para todos os
valores, o diagrama fica com o aspecto da Figura 9.

Dezenas de minutos Minutos


2| 3
3| 1
4| 25
5| 127
6| 11489
7| 355
8| 29
9| 4
10|
11| 8
12| 0

Figura 9 Diagrama de ramos e folhas.

Analisando a figura acima podemos observar que o tempo de atividade


mais frequente est na faixa dos 60 minutos, apresentando-se em seguida,
as faixas de 50 e 70 minutos. Se analisssemos a figura acima como se fosse
um histograma poderamos considerar que a figura apresenta certa simetria,
observa-se as maiores frequncias ao redor da mdia.

44 Este material parte integrante do acervo do IESDE BRASIL S.A.,


mais informaes www.iesde.com.br
Anlise Exploratria de Dados

Ampliando seus conhecimentos

Uma tcnica de anlise exploratria de dados: o box-plot


(HOAGLIN. D. C.; MOSTELLER. F. ; TUKEY. J. W., 1983)

O Box-Whisker-Plot, mais conhecido por Box-Plot, uma representao gr-


fica de valores, conhecidos como resumo de cinco nmeros. Essa tcnica nos
revela uma boa parte da estrutura dos dados, por meio da visualizao de ca-
ractersticas como:
tendncia central;
variabilidade;
assimetria;
outliers (valores discrepantes).
O chamado resumo de cinco nmeros constitudo pelo: mnimo (menor
valor), primeiro quartil (Q1), a Mediana (Md), o terceiro quartil (Q3) e o mximo
(maior valor).

Figura 1 Box-plot.

Este material parte integrante do acervo do IESDE BRASIL S.A., 45


mais informaes www.iesde.com.br
Anlise Exploratria de Dados

A parte central do grfico composta de uma caixa com o nvel superior


dado por Q3 e o nvel inferior por Q1. O tamanho da caixa uma medida de
disperso chamada amplitude interquartllica (AIQ = Q3 Q1).

A mediana, medida de tendncia central, representada por um trao no


interior da caixa e segmentos de reta so colocados da caixa at os valores
mximo e mnimo.

Detalharemos agora o procedimento para construo de um Box-plot para


um conjunto de dados, por meio de um exemplo relacionado com o Censo
dos EUA de 1960:
Cidade Populao Cidade Populao
(1 000 hab) (1 000 hab)
Nova York 778 Washington 76
Chicago 355 St. Louis 75
Los Angeles 248 Milwaukee 74
Filadlfia 184 So Francisco 74
Detroit 167 Boston 70
Baltimore 94 Dallas 68
Houston 94 New Orleans 63
Cleveland 88
Tabela 6 Censo dos EUA (1960) Populao das principais capitais.

Para a construo do box-plot necessrio que sejam calculadas as medi-


das que compem o resumo de cinco nmeros:

A Mediana (88) neste exemplo, a varivel em estudo tem n m-


par; a mediana ser o valor da varivel que ocupa o posto de or-
dem n +1 , ou seja, o oitavo valor.
2
n
Os Quartis Q1 e Q3 (74 e 184) devemos contar valores para se
4
achar Q1 e 3n para determinar Q3.
4
Os valores Mnimo e o Mximo (63 e 778)
1
Outliers so elementos ou
valores que distorcem a mdia As barreiras de outliers1 so obtidas por meio do clculo:
da distribuio pois encon-
tram-se distantes dos demais 3 2 3
valores da distribuio. Q1 dF (1) e Q3 + dF (2)2
2
O outlier mnimo 74 1,5 .110 2 2
= 91. O outlier mximo 184
+1,5.110 = 349 em que dF = Q3 Q1

46 Este material parte integrante do acervo do IESDE BRASIL S.A.,


mais informaes www.iesde.com.br
Anlise Exploratria de Dados

Isso significa que os valores inferiores a (1) ou superiores a (2) so conside-


rados outliers ou valores discrepantes. O Box-plot nos apresenta a localizao
(mediana), a disperso (comprimento da caixa), a assimetria (pela distncia
dos quartis mediana) e os outliers (Chicago e Nova Iorque):

Figura 2 Box-plot Populao das principais capitais (1960).

Observe que a barreira inferior de outliers 91. Entretanto, na represen-


tao grfica, substituiremos esse valor pelo mnimo observado (63). As ex-
presses utilizadas para as barreiras de outliers so de certo modo arbitrrias,
mas a experincia dos autores dessa tcnica indicou que esta definio serve
perfeitamente para a identificao de valores que requerem uma ateno
especial.

Atividades de aplicao
Resolva as questes a seguir utilizando as definies vistas neste captulo.

1. Uma firma de consultoria investiga as instituies financeiras que mais


lucraram durante a gesto do governo atual. Do cadastro de institui-
es selecionou-se uma amostra aleatria de 20 para realizao de
uma auditoria completa. Coletou-se, ento, o lucro de cada uma no
perodo especificado. Os dados seguem abaixo (em US$ milhes):
58 62 55 80 74
51 60 79 50 65
68 72 54 81 65
119 82 75 86 61

Voc, como analista da empresa de consultoria, deve elaborar um rela-


trio sucinto, realizando uma descrio do conjunto de dados acima.

Este material parte integrante do acervo do IESDE BRASIL S.A., 47


mais informaes www.iesde.com.br
Anlise Exploratria de Dados

2. A tabela de dados brutos a seguir apresenta os pesos (kg) relativos de


uma turma de alunos:
96 72 56 59 57 52 50
75 85 64 68 51 66 64
56 59 76 49 54 64 58
80 61 74 55 72 78 78
69 52 63 50 75 53 52
70 53 80 67 48 90 76
94 52 51 82 61 64 78 76

Utilizando os dados complete a tabela de distribuio de frequncia


a seguir:
i Pesos (kg) Tabulao fi Pmi fri %
1 48 | 53
2 53 | 58
3 58 | 63
4 63 | 68
5 68 | 73
6 73 | 78
7 78 | 83
8 83 | 88
9 88 | 93
10 93 | 98
TOTAL

De posse da tabela de distribuio de frequncia completa, determine:

a) O limite superior da 2a. classe.

b) O limite inferior da 5a. classe.

c) A amplitude do intervalo da 3a. classe.

d) A amplitude total.

e) O ponto mdio da 4a. classe.

f) A frequncia da 1a. classe.

g) O nmero de alunos com peso abaixo de 68kg.

h) O nmero de alunos com peso igual ou acima de 73kg.

48 Este material parte integrante do acervo do IESDE BRASIL S.A.,


mais informaes www.iesde.com.br
Anlise Exploratria de Dados

i) O nmero de alunos com peso maior ou igual a 58 e menor que 78.

j) A frequncia percentual da ltima classe.

k) A percentagem de alunos com peso inferior a 58kg.

l) A percentagem de alunos com peso superior ou igual a 78kg.

3. Faa no mesmo grfico um esboo das trs distribuies descritas


a seguir:

a) Distribuio das alturas dos brasileiros adultos.

b) Distribuio das alturas dos suecos adultos.

c) Distribuio das alturas dos japoneses adultos.

4. Para estudar o desempenho de duas companhias corretoras de aes,


selecionou-se de cada uma delas amostras aleatrias das aes nego-
ciadas. Para cada ao selecionada, computou-se a porcentagem de
lucro apresentada durante um perodo fixado de tempo. Os dados es-
to a seguir, representados pelos diagramas de ramos e folhas:

Corretora A Corretora B
3|8 5 | 0012234
4 | 588 5 | 5556677788999
5 | 44555569 6|1
6 | 00245
7|0

Que tipo de informao revela esses dados ?

Gabarito
1. Construindo-se a tabela de frequncia dos dados considerando cinco
classes:
AT
k = 1 + 3,3.log(n) hi = AT = 119 50
k
69
k = 1 + 3,3.log(20) hi = AT = 69
5
k = 1 + 3,3 . 1,30103 hi = 13,80

k = 5,29

Este material parte integrante do acervo do IESDE BRASIL S.A., 49


mais informaes www.iesde.com.br
Anlise Exploratria de Dados

Para facilitar a construo da tabela de frequncias, utilizaremos classe


igual a 5 e intervalo de classe igual a 15.

Classe Frequncia %

50 | 65 8 40

65 | 80 7 35

80 | 95 4 20

95 | 110 0 0

110 | 125 1 5

Podemos observar que a grande maioria das instituies (75%) apresen-


tou lucro de at 80 milhes de dlares enquanto que uma delas apre-
sentou um lucro muito superior s demais (119 milhes de dlares).

2. Construindo a tabela com os dados do problema obteremos:


i Pesos (kg) fi Pmi fri %
1 48 | 53 10 50,5 0,20 20
2 53 | 58 7 55,5 0,14 14
3 58 | 63 5 60,5 0,10 10
4 63 | 68 7 65,5 0,14 14
5 68 | 73 5 70,5 0,10 10
6 73 | 78 6 75,5 0,12 12
7 78 | 83 6 80,5 0,12 12
8 83 | 88 1 85,5 0,02 2
9 88 | 93 1 90,5 0,02 2
10 93 | 98 2 95,5 0,04 4
TOTAL 50 1 100

Fazendo a leitura da tabela:

a) 58 b) 68 c) 5 d) 50

e) 65,5 f) 10 g) 29 h) 16

i) 23 j) 4% k) 34% l ) 20%

50 Este material parte integrante do acervo do IESDE BRASIL S.A.,


mais informaes www.iesde.com.br
Anlise Exploratria de Dados

3. Um possvel grfico para representar a distribuio de altura da popu-


lao dos 3 pases poderia ser um histograma:

4. Podemos observar, pela interpretao dos ramos e folhas, que as duas


corretoras apresentam porcentagens mdias de lucros semelhantes, por
volta de 5,0%. Por outro lado, a corretora B apresenta uma variabilidade
muito menor que a corretora A. A corretora B, portanto apresenta um de-
sempenho muito mais homogneo que a corretora A.

Este material parte integrante do acervo do IESDE BRASIL S.A., 51


mais informaes www.iesde.com.br
Este material parte integrante do acervo do IESDE BRASIL S.A.,
mais informaes www.iesde.com.br
Medidas de Posio e Variabilidade

Introduo
Para melhor compreender o comportamento do conjunto de dados,
importante que conceituemos o que chamamos de medidas descritivas. Exis-
tem duas categorias de medidas descritivas:
Medidas de posio ou tendncia central servem para dar uma
ideia acerca dos valores mdios da varivel em estudo.
Medidas de disperso servem para dar uma ideia acerca da maior
ou menor concentrao dos valores da varivel em estudo.

Observao: quando as medidas de tendncia central e as de disperso so


calculadas sobre a populao, elas so chamadas de parmetros. Por outro
lado, quando essas medidas so obtidas considerando-se uma amostra reti-
rada de uma populao, elas so chamadas de estatsticas.

Medidas de Posio ou de Tendncia Central


Como o prprio nome indica, a medida de tendncia central visa determinar
o centro da distribuio dos dados observados. Essa determinao depende,
portanto, da definio de centro da distribuio. Todavia, o centro de um con-
junto de valores no est definido e pode ser interpretado de vrias maneiras,
cada uma das quais descreve uma propriedade da distribuio, que pode ser
razoavelmente chamada de tendncia central.
As principais medidas de tendncia central so:
mdia aritmtica;
mediana;
moda.

Mdia Aritmtica (x)


Dada uma distribuio de frequncias, chama-se de mdia aritmtica
desta distribuio, e representa-se por X, a soma de todos os valores da
varivel, dividida pela frequncia total (nmero total de observaes).
Este material parte integrante do acervo do IESDE BRASIL S.A., 53
mais informaes www.iesde.com.br
Medidas de Posio e Variabilidade

Por exemplo, considerando-se os dados da tabela a seguir, tem-se:

Tabela 1 Pacientes com hipertenso, segundo a idade em anos


completos
Idade Nmero de Idade Nmero de
em anos indivduos xi . fi em anos indivduos xi . fi
completos (frequncia - fi) completos (frequncia - fi)
22 1 22 47 1 47
27 1 27 48 1 48
30 1 30 50 2 100
31 1 31 53 3 159
34 1 34 56 1 56
35 3 105 58 1 58
36 5 180 59 2 118
40 1 40 60 1 60
42 1 42 61 1 61
43 1 43 63 1 63
44 2 88 65 3 195
45 1 45 67 2 134
46 2 92
Total 40 1 878

22+27+30+31++65+65+65+67+67
X=
40

22.1+ 27.1+ 30.1+ 31.1+ +65.3+ 67.2 1878


X= = 46, 95 anos = 46 anos
=
40 40
e 11 meses, ou seja, a idade mdia dos hipertensos igual a 46 anos e 11 meses.
De maneira geral, ao se ter a seguinte distribuio de frequncias:

Valores xi da varivel X Frequncia (fi) Produto (xi . fi)

x1 f1 x1 . f1
x2 f2 x2 . f2
. . .
. . .
. . .
xk fk xk . fk
k k
Total fi x i .fi
i=1 i=1

54 Este material parte integrante do acervo do IESDE BRASIL S.A.,


mais informaes www.iesde.com.br
Medidas de Posio e Variabilidade

A mdia aritmtica ser:

k k
xi . fi xi . fi
X = i=1k = i=1
fi n
i=1

Se os dados da tabela anterior estivessem agrupados em classes, como


mostra a tabela a seguir, seria preciso, antes de calcular X, determinar os
pontos mdios das classes.

Tabela 2 Pacientes com hipertenso, segundo a idade em anos


completos
Nmero de
Classes Ponto Mdio (Pmi) Produto Pmi . fi
pacientes (fi)
20 | 30 25 2 50
30 | 40 35 11 385
40 | 50 45 10 450
50 | 60 55 9 495
60 | 70 65 8 520
Total 40 1 900
1 900
X= = 47,5 anos = 47 anos e 6 meses ou 47 anos (completos).
40
De maneira geral, ao se ter uma distribuio de frequncias por classes, a
mdia aritmtica ser:

k k
PMi . fi PMi . fi
X = i=1 k = i=1

fi n
i=1

Observao: a idade mdia calculada a partir dos dados da tabela 2 no


coincide com a idade mdia verdadeira dos 40 hipertensos, calculada a partir
dos dados da Tabela 1. Isso se deve ao fato de ter sido suposto, para o clculo
da mdia aritmtica com os dados da Tabela 2, que todos os indivduos de
uma determinada classe tinham a idade dada pelo ponto mdio da classe, o
que, em geral, no corresponde realidade.

Da prpria definio segue que a mdia aritmtica de uma distribuio


de frequncias:
da natureza da varivel considerada;
sempre existe, e quando calculada admite um nico valor;
Este material parte integrante do acervo do IESDE BRASIL S.A., 55
mais informaes www.iesde.com.br
Medidas de Posio e Variabilidade

no pode ser calculada quando os dados estiverem agrupados em


classes e a primeira ou ltima classe tiverem extremos indefinidos;
sofre muito a influncia de valores aberrantes.

Mediana (Md)
A mediana uma quantidade que, como a mdia, tambm procura ca-
racterizar o centro da distribuio de frequncias, porm, de acordo com
um critrio diferente. Ela calculada com base na ordem dos valores que
formam o conjunto de dados.
A mediana a realizao que ocupa a posio central da srie de obser-
vaes quando estas esto ordenadas segundo suas grandezas (crescente
ou decrescente).
Dada uma distribuio de frequncias e supondo-se os valores da vari-
vel dispostos em ordem crescente ou decrescente de magnitude, h dois
casos a considerar:
1o. A varivel em estudo tem n mpar. Nesse caso a mediana ser o valor da
n+1
varivel que ocupa o posto de ordem .
2
Exemplo: admita-se que o nmero de demisses em certa empresa nos
meses de janeiro dos ltimos 7 anos, ordenando, fosse:

24, 37, 41, 52, 65, 68 e 82.

A mediana neste caso vale: Md = 52 demisses, valor que ocupa o posto


7 +1
= 4o.
2
2o. A varivel tem n par. Nesse caso, no existe na graduatria um valor que
ocupe o seu centro, isto , a mediana indeterminada, pois qualquer
n n+ 2
valor compreendido entre os valores que ocupam os postos e
2 2
pode ser considerado o centro da graduatria.

O problema resolvido por uma conveno que consiste em tomar como


mediana da graduatria a mdia aritmtica dos valores que ocupam os
n n+ 2
postos e .
2 2

56 Este material parte integrante do acervo do IESDE BRASIL S.A.,


mais informaes www.iesde.com.br
Medidas de Posio e Variabilidade

Exemplo: considerando o nmero de demisses de certa empresa nos meses


de janeiro dos 6 ltimos anos e ordenando-se os valores, tem-se:

24, 37, 41, 65, 68 e 82


A mediana ser, por conveno:
41+ 65
= 53 demisses,
2
ou seja, a mdia aritmtica dos valores que ocupam os postos 6 = 3o. e 6 + 2 = 4o.
2 2
A mediana tem interpretao muito simples quando as observaes so
diferentes umas das outras, pois ela tal que o nmero de observaes com
valores maiores a ela igual ao nmero de observaes com valores meno-
res do que ela. Todavia, quando h valores repetidos, a sua interpretao no
to simples. Assim, admitindo, como resultado da aplicao de um teste a
um conjunto de alunos, as seguintes notas:

2, 2, 5, 5, 5, 5, 7, 7, 8, 8,

a mediana seria a nota 5 e, no entanto, s existem 2 notas menores e 4 maio-


res do que 5. Essa desvantagem, unida ao fato da inadequao da sua ex-
presso para o manejo matemtico, faz com que, em anlises estatsticas, a
mediana seja menos utilizada do que a mdia aritmtica. No entanto, exis-
tem casos nos quais o emprego da mediana faz-se necessrio; assim:

Nos casos em que existem valores aberrantes, pois tm influncia mui-


to menor sobre a mediana do que sobre a mdia aritmtica.

Exemplo: se na graduatria

24, 37, 41, 52, 65, 68, 82

em lugar de 82 houvesse 1000 casos, isto ,

24, 37, 41, 52, 65, 68, 1 000,

o valor da mediana manter-se-ia o mesmo 52 demisses, ao contrrio do que


acontece com a mdia aritmtica, que passaria de 52,7 demisses a 183,85
demisses.

Nos casos em que na distribuio em estudo a primeira ou ltima clas-


se (ou ambas) tenham, respectivamente, o extremo inferior e o extre-
mo superior indefinidos e o centro da distribuio no esteja contido
em nenhuma delas. Nessas condies possvel determinar a media-
na, o que no acontece com a mdia aritmtica.
Este material parte integrante do acervo do IESDE BRASIL S.A., 57
mais informaes www.iesde.com.br
Medidas de Posio e Variabilidade

Observao: alm da mediana que, por definio, divide um conjunto orde-


nado de valores em duas partes iguais, existem outras medidas que dividem
o conjunto de valores em 4, 10 e 100 partes iguais. Conquanto essas medidas
no sejam de tendncia central, elas podem ser consideradas medidas de
posio, uma vez que fornecem pontos esquerda ou direita, dos quais
so encontradas fraes da frequncia total. Essas medidas so os quartis, os
decis e os percentis.

Os trs quartis so definidos como os valores que dividem o conjunto or-


denado de valores em quatro partes iguais; 25% dos valores so menores do
que o primeiro quartil, que denotado por Q1; 50% dos valores caem abaixo
do segundo quartil, Q2 (mediana), e 75% dos valores so menores que o ter-
ceiro quartil, Q3. O clculo de um quartil se faz de maneira anloga ao clculo
n
de uma mediana, com a diferena de que necessrio contar valores para
3n 4
se achar Q1 e para determinar Q3.
4
Os decis so valores que dividem o conjunto ordenado de valores em 10
partes iguais, isto , 10% das observaes caem abaixo do primeiro decil,
denotado por D1 etc.

Os percentis so valores que dividem o conjunto ordenado de valores em


100 partes iguais, isto , 1% das observaes caem abaixo do primeiro per-
centil, denotado por C1 etc.

Moda (Mo)
Dada uma distribuio de frequncias, a moda o valor da varivel que
corresponde frequncia mxima, isto , o valor mais frequente.

Conquanto o seu resultado seja o mais simples possvel, a moda nem


sempre existe e nem sempre nica. Quando numa distribuio existem
poucos valores da varivel, muito frequentemente no h valores repetidos,
com o que nenhum deles satisfaz condio de moda.

Exemplo: se os pesos (em quilos) correspondentes a oito adultos so:


82, 65, 59, 74, 60, 67, 71 e 73,
essas oito medidas no definem uma moda.

58 Este material parte integrante do acervo do IESDE BRASIL S.A.,


mais informaes www.iesde.com.br
Medidas de Posio e Variabilidade

Por outro lado, a distribuio dos pesos de 13 adultos:

63, 67, 70, 69, 81, 57, 63, 73, 68, 71, 71, 71, 63,

possui duas modas, a saber: Mo = 63 quilos e Mo = 71 quilos. Nesse caso, a


distribuio chamada de bimodal. Ser unimodal no caso de apresentar
uma s moda e multimodal se apresentar vrias modas.

Observao: interessante notar que a moda pode ser usada como uma
medida de tendncia central tambm no caso de a varivel considerada ser
de natureza qualitativa. De fato, quando se diz que as faltas ao trabalho cons-
tituram a causa principal de demisso em certo ano, isso quer dizer que na
distribuio das demisses, segundo a causa, a falta ao trabalho correspon-
deu a um maior nmero de demisses, isto , a rubrica falta ao trabalho a
moda da distribuio.

Em se tratando de distribuies de classes de valores, a moda pertence


classe de maior frequncia. Resta, todavia, saber qual o valor da classe deve
ser escolhido para representar a moda. Relativamente simples, o clculo da
moda, nesse caso, dado por:
f1
Mo = L + t .
f1 + f2

onde L o extremo inferior da classe em que est a moda, t a amplitude


desta classe, f1 e f2 so, respectivamente, as frequncias das classes adjacen-
tes classe da moda.

Exemplo: na tabela 2, a moda est na classe 30 | 40, logo,


L = 30
t = 10
f1 = 2
f2 = 10
e, portanto,
2 10
Mo = 30 + 10. = 30 + = 31,667
2 +10 6

= 31 anos e 8 meses = 31 anos completos.

Observao: o valor da moda, em se tratando de classes, fortemente afe-


tado pela maneira como as classes so construdas.

Este material parte integrante do acervo do IESDE BRASIL S.A., 59


mais informaes www.iesde.com.br
Medidas de Posio e Variabilidade

Medidas de Disperso
Sejam A e B duas localidades com mesma renda mdia por habitante.
Esse simples fato de igualdade das duas mdias permite concluir que a situ-
ao econmica das duas localidades a mesma? Evidentemente que no,
pois essa igualdade poderia existir mesmo que A fosse perfeitamente esta-
bilizada no sentido de que todos os seus habitantes tivessem praticamente
a mesma renda (igual renda mdia por habitante) e B tivesse uns poucos
indivduos com rendas extraordinariamente altas e a maioria com rendas
baixas. Esse simples exemplo basta para mostrar que o conhecimento da
intensidade dos valores assumidos por uma grandeza, isto , da posio de
uma distribuio, no suficiente para a sua completa caracterizao.

O fato de em A todos os indivduos terem a mesma renda pode ser tra-


duzido dizendo que em A as rendas no variam de indivduo para indivduo,
ou ainda que a distribuio das rendas no apresenta variabilidade. Analoga-
mente, o fato de em B alguns indivduos terem rendas muito elevadas em de-
trimento da grande maioria, que tem rendas muito baixas, pode ser expresso
dizendo-se que em B as rendas variam ou que a distribuio das rendas apre-
sentam variabilidade.

Nesse sentido, vrias medidas foram propostas para indicar o quanto os


dados se apresentam dispersos em torno da regio central. Caracterizam,
portanto, o grau de variao (variabilidade) existente no conjunto de dados.

Amplitude de Variao (R)


Uma das medidas mais elementares a amplitude, a qual definida como
sendo a diferena entre o maior e o menor valor do conjunto de dados:
R = xmax xmin

Evidentemente que essa medida muito precria, pois a amplitude no


d informe algum a respeito da maneira pela qual os valores se distribuem
entre os valores extremos.

Por exemplo, nos dois conjuntos de valores:


4, 6, 6, 6, 8
4, 5, 6, 7, 8

60 Este material parte integrante do acervo do IESDE BRASIL S.A.,


mais informaes www.iesde.com.br
Medidas de Posio e Variabilidade

a amplitude de variao a mesma e igual a 4 (8 4 = 4) e, no entanto, as dis-


perses desses dois conjuntos so diferentes. Alm disso, os valores mnimo
e mximo, estando muito sujeitos s flutuaes de amostras, fazem com que
a amplitude da distribuio fique igualmente sujeita a tais flutuaes. Assim,
por exemplo, se existir uma srie de indivduos cujos pesos oscilam entre 50
e 80 quilos, o aparecimento de um nico indivduo que pese 110 quilos far
a amplitude passar de 30 a 60.

Amplitude Semiquartil ou Desvio Quartil


Esta medida, que se baseia na posio ocupada pelos 50% centrais da
distribuio, definida por:
Q = Q3 Q1 ,
2
onde Q1 e Q3 so o primeiro e o terceiro quartis.

Essa medida, conquanto se baseia tambm em apenas dois valores, apre-


senta sobre a anterior a vantagem de no estar to sujeita s flutuaes
amostrais quanto os valores extremos.

A disperso poderia ser medida pela amplitude quartil, ou seja, Q3 Q1;


todavia, a diviso por 2 d a distncia mdia pela qual os quartis se desviam
da mediana.

Desvio-padro e Varincia
Para medir a disperso de uma distribuio faz-se uso da diferena entre
cada valor e a mdia aritmtica da distribuio.

As medidas que se baseiam na diferena entre cada valor e a mdia arit-


mtica da distribuio partem do fato de que a mdia aritmtica o valor
que todas as observaes teriam se fossem iguais entre si. Uma vez intro-
duzida a noo de variabilidade, essa propriedade poderia ser expressa di-
zendo-se que a mdia aritmtica o valor que todas as observaes teriam
se no houvesse variabilidade. Da resulta que o desvio (diferena) de cada
observao para a mdia aritmtica representa o quanto as observaes
variam com relao mdia. Nada mais natural, portanto, que definir uma
medida de variabilidade baseada nesses desvios. A primeira ideia foi calcu-
lar a mdia aritmtica desses desvios.

Este material parte integrante do acervo do IESDE BRASIL S.A., 61


mais informaes www.iesde.com.br
Medidas de Posio e Variabilidade

Se, por exemplo, as observaes tivessem os valores:


1, 2, 3, 4, 5
cuja mdia X = 3, calcular-se-iam as diferenas, como mostrado na tabela 3,

Tabela 3 Diferenas entre as observaes e a respectiva mdia


xi (xi - X )
1 1 3 = 2
2 2 3 = 1
3 33=0
4 43=1
5 53=2
Total (xi X ) = 0

obtendo-se para a medida de variabilidade = 0, a qual indica que na distri-


buio acima no existe variabilidade.

fcil ver que esta medida, que se apoia num argumento lgico, leva
a uma informao errnea sobre a variabilidade. A explicao desse fato
reside na propriedade da mdia aritmtica, que diz que a soma de todos
os desvios das observaes para a mdia aritmtica nula. Por essa razo, a
simples mdia aritmtica dos desvios no pode ser usada como medida de
variabilidade.

Ao se atentar para o fato de que a soma dos desvios sempre igual a


zero, porque a cada desvio positivo corresponde um desvio igual, mas de
sinal contrrio, compreende-se que a situao pode ser contornada calcu-
lando-se a mdia dos mdulos dos desvios ou apenas dos quadrados dos
desvios.

No primeiro caso ter-se-ia:

xi (xi X ) | xi X |

1 1 3 = 2 2

2 2 3 = 1 1

3 33=0 0

4 43=1 1

5 53=2 2

Total (xi X) = 0 6
62 Este material parte integrante do acervo do IESDE BRASIL S.A.,
mais informaes www.iesde.com.br
Medidas de Posio e Variabilidade

e a medida de variabilidade seria


xi X 6
= = 1,2
n 5
a qual recebe o nome de desvio mdio (DM), que por motivos de ordem te-
rica, quase no usado.

No segundo caso, ter-se-ia:

xi (xi X ) (xi X )2

1 1 3 = 2 4
2 2 3 = 1 1
3 33=0 0
4 43=1 1
5 53=2 4
Total (xi X ) = 0 10

e a medida de variabilidade seria

(
xi X )2 = 10 =2
n 5
a qual recebe o nome de varincia (Var ou 2).

Entretanto, quando calculamos a varincia de um grupo de observa-


es, esse grupo provm de um outro ainda maior, que inclui todos os
possveis valores da varivel X. Em geral, desejamos que a varincia do
nosso grupo seja uma estimativa da varincia de todas as observaes de
onde os nossos dados particulares foram retirados. Pode ser mostrado que,
quando a varincia do grupo maior definida como feito acima, a varincia
do grupo derivado deveria ser definida como

( )
2
xi X
S = Var(X) =
2
n 1
com o objetivo de obter uma boa estimativa da varincia do grupo mais
amplo. Por isso usaremos n - 1 em lugar de n como divisor.

A unidade em que a varincia expressa ser a unidade original ao qua-


drado e, para comparar a unidade da nossa medida de variabilidade com a
dos dados originais, extramos a raiz quadrada,

Este material parte integrante do acervo do IESDE BRASIL S.A., 63


mais informaes www.iesde.com.br
Medidas de Posio e Variabilidade

( )
2
xi X
S=
n 1
a qual recebe o nome de desvio-padro. O desvio-padro expresso nas
mesmas unidades dos dados originais. Tanto o desvio-padro (S) quanto a
varincia (S2 ou Var(X)), so usados como medidas de variabilidade. Confor-
me a finalidade, conveniente o uso de uma ou de outra.

De maneira geral, ao se ter uma distribuio de frequncias, utiliza-se


para o clculo da varincia a seguinte expresso:
( )
2
xi X . fi
n 1
onde, os xis podem ser os valores individuais da varivel X ou os pontos
mdios das classes.

Como exemplo, tome a Tabela 2, lembrando-se que a mdia aritmtica foi


igual a 47,5 anos:
Valores xi de X Ponto mdio
fi (xi X ) (xi X )2 (xi X )2 . fi
(anos) da classe

20 | 30 25 2 -22,5 506,25 1 012,50


30 | 40 35 11 -12,5 156,25 1 718,75
40 | 50 45 10 -2,5 6,25 62,50
50 | 60 55 9 7,5 56,25 506,25
60 | 70 65 8 17,5 306,25 2 450,00
Total 40 5 750,00

( )
2
xi X 5 750
S = 2
. fi = = 147,44 anos
n 1 39

S= S2 = 147, 44 = 12,14 anos.

Consideraes finais sobre o desvio-padro:

O desvio-padro uma quantidade essencialmente positiva.

O desvio-padro s nulo se todos os valores da distribuio forem


iguais entre si, isto , se no houver variabilidade.

O desvio-padro da mesma natureza da varivel X e depende tam-


bm de sua magnitude.

64 Este material parte integrante do acervo do IESDE BRASIL S.A.,


mais informaes www.iesde.com.br
Medidas de Posio e Variabilidade

Coeficiente de Variao
Para comparar duas distribuies quanto variabilidade, deve-se usar
medidas de variabilidade relativa, tais como o coeficiente de variao de
Pearson (CV), o qual dado por:
S
CV =
X
o qual independe da natureza e magnitude da varivel X.

Esse resultado multiplicado por 100, para que o coeficiente de variao


seja dado em porcentagem.

Exemplo: para duas emisses de aes ordinrias da indstria eletrnica, o


preo mdio dirio, no fechamento dos negcios, durante um perodo de
um ms, para as aes A, foi de R$150,00 com um desvio-padro de R$5,00.
Para as aes B, o preo mdio foi de R$50,00 com um desvio-padro de
R$3,00. Em termos de comparao absoluta, a variabilidade do preo das
aes A foi maior, devido ao desvio-padro maior. Mas em relao ao nvel
de preo, devem ser comparados os respectivos coeficientes de variao:
SA 5
CV(A) = = = 0, 033 ou 3,3%
X A 150

SB 3
CV(B) = = = 0, 060 ou 6%
XB 50

Portanto, relativamente ao nvel mdio de preos das aes, podemos


concluir que o preo da ao B quase duas vezes mais varivel que o preo
da ao A.

Ampliando seus conhecimentos


(MATTAR, 1996)

importante que um pesquisador que v realizar uma coleta de informa-


es tenha noes bsicas sobre os diferentes tipos e aplicaes de metodo-
logias de pesquisa. Veremos aqui algumas definies que iro facilitar a dife-
renciao entre os diferentes tipos de pesquisa:

Projeto de Pesquisa: cada planejamento de pesquisa realizado cienti-


ficamente tem um padro especfico para controlar a coleta de dados. Esse

Este material parte integrante do acervo do IESDE BRASIL S.A., 65


mais informaes www.iesde.com.br
Medidas de Posio e Variabilidade

padro chama-se projeto de pesquisa. Sua funo assegurar que os dados


exigidos sejam coletados de maneira precisa e econmica.

Os projetos de pesquisa podem ser agrupados nas seguintes categorias:


exploratria, descritiva e experimental.

a) Pesquisa Exploratria visa fornecer ao pesquisador um maior conhe-


cimento do tema ou problema de interesse. apropriada para os primei-
ros estgios da investigao quando a familiaridade, o conhecimento e a
compreenso do fenmeno por parte do pesquisador so insuficientes.

O projeto formal est quase ausente nos estudos exploratrios. A imagina-


o do explorador o fator principal. Entretanto, h quadro linhas de ataque
que podem ajudar na descoberta de hipteses valiosas:

Levantamentos em fontes secundrias levantamentos biblio-


grficos, levantamentos documentais, levantamentos de estatsti-
cas e levantamentos de pesquisas realizadas.

Levantamentos de experincias muitas pessoas, em funo


da posio estratgica que ocupam numa empresa ou institui-
o, acumulam experincias e conhecimentos sobre um tema ou
problema em estudo. Informaes so levantadas a partir de en-
trevistas individuais ou em grupo, realizadas com especialistas ou
conhecedores do assunto.

Estudo de casos selecionados exame de registros existentes,


observao da ocorrncia do fato, entrevistas etc. (cases). Casos
que reflitam mudanas, comportamentos ou desempenhos extre-
mados, dificuldades superadas etc.

Observao informal a utilizao do processo de observao do


dia a dia em pesquisa exploratria deve ser informal e dirigida, ou
seja, centrada unicamente em observar objetos, comportamentos
e fatos de interesse para o problema em estudo.

b) Pesquisa Descritiva destina-se a descrever as caractersticas de de-


terminada situao. Ao contrrio do que o ocorre nas pesquisas explo-
ratrias, a elaborao das questes de pesquisa pressupe profundo
conhecimento do problema a ser estudado. Os estudos descritivos

66 Este material parte integrante do acervo do IESDE BRASIL S.A.,


mais informaes www.iesde.com.br
Medidas de Posio e Variabilidade

no devem ser encarados como simples coletas de dados, embora,


infelizmente, muitos deles no so mais do que isso. Para ser valioso,
o estudo descritivo precisa coletar dados com um objetivo definido e
deve incluir uma interpretao por um investigador. Pode ser dividido
nos seguintes tipos:

Levantamentos de campo (mtodo estatstico) procuram-


-se dados representativos da populao de interesse, a amostra
gerada a partir de mtodos estatsticos, tem-se total controle so-
bre a representatividade dos dados obtidos em relao popula-
o. Permite a gerao de tabelas sumarizadas por categorias e a
generalizao dos resultados para toda a populao. No entanto
no permite aprofundar os tpicos da pesquisa pela prpria carac-
terstica de gerar sumrios estatsticos. dispendioso em termos
de tempo e isso requer grandes conhecimentos tcnicos.

Estudos de campo o mtodo de estudo intensivo de um nme-


ro relativamente pequeno de casos. Por exemplo, um investigador
pode fazer um estudo detalhado entre alguns consumidores, al-
guns varejistas, alguns sistemas de controle de vendas, ou alguns
mercados de cidades pequenas. Deve ser considerado como um
estgio diferente no desenvolvimento de um mtodo cientfico
comum. Servem para gerao de hipteses em vez de teste de hi-
pteses, recomendados quando h grande homogeneidade entre
os elementos da populao. Entretanto somente investigam aps
a ocorrncia do fato e geralmente no podem ser generalizados.

c) Pesquisa Experimental este mtodo pode ser resumido na ex-


presso: Se ocorrer isto, provavelmente ocorrer aquilo. Nesse caso,
ocorre uma observao da relao de causalidade entre vrias poss-
veis causas e o efeito pressuposto.

y = f (x, z, t, v, s,...)

onde y, a varivel dependente e as demais so independentes. Ga-


nha-se maior confiabilidade nos resultados, medida que repetidas
experimentaes com as mesmas variveis independentes e depen-
dente indicam sempre as mesmas concluses.

Este material parte integrante do acervo do IESDE BRASIL S.A., 67


mais informaes www.iesde.com.br
Medidas de Posio e Variabilidade

Atividades de aplicao
1. Em uma determinada empresa X, a mdia dos salrios 10 000 unida-
des monetrias e o 3o. quartil 5 000. Pergunta-se:

a) Se voc se apresentasse como candidato a esta empresa e se o seu


salrio fosse escolhido ao acaso entre todos os possveis salrios, o
que seria mais provvel: ganhar mais ou menos que 5 000 unida-
des monetrias? Justifique.

b) Suponha que na empresa Y a mdia dos salrios 7 000 unida-


des monetrias e a varincia praticamente zero, e l o seu salrio
tambm seria escolhido ao acaso. Em qual empresa voc se apre-
sentaria para procurar emprego X ou Y? Justifique.

2. A mdia aritmtica a razo entre:

a) o nmero de valores e o somatrio deles.

b) o somatrio dos valores e o nmero deles.

c) os valores extremos.

d) os dois valores centrais.

e) nenhuma das alternativas anteriores.

3. Na srie 60, 90, 80, 60, 50 a moda :

a) 50

b) 60

c) 66

d) 90

e) nenhuma das anteriores.

4. A estatstica que possui o mesmo nmero de valores abaixo e acima


dela :

a) a moda.

b) a mdia.

68 Este material parte integrante do acervo do IESDE BRASIL S.A.,


mais informaes www.iesde.com.br
Medidas de Posio e Variabilidade

c) a mediana.

d) o elemento mediano.

e) nenhuma das anteriores.

5. A soma dos desvios entre cada valor e a mdia sempre ser:

a) positiva.

b) negativa.

c) zero.

d) diferente de zero.

e) nenhuma das alternativas anteriores.

6. Considere a srie 6, 5, 7, 8, 9 o valor 7 ser:

a) a mdia e a moda.

b) a mdia e a mediana.

c) a mediana e a moda.

d) a mdia, a mediana e a moda.

e) nenhuma das alternativas anteriores.

7. Quando desejamos verificar a questo de uma prova que apresentou


maior nmero de erros, utilizamos:

a) moda.

b) mdia.

c) mediana.

d) qualquer das anteriores.

e) nenhuma das anteriores.

8. O coeficiente de variao uma estatstica denotada pela razo


entre:

a) desvio-padro e mdia.

b) mdia e desvio-padro.

Este material parte integrante do acervo do IESDE BRASIL S.A., 69


mais informaes www.iesde.com.br
Medidas de Posio e Variabilidade

c) mediana e amplitude interquartlica.

d) desvio-padro e moda.

e) nenhuma das alternativas anteriores.

9. Uma prova de estatstica foi aplicada para duas turmas. Os resultados


seguem abaixo
Turma 1: mdia = 5 e desvio-padro = 2,5
Turma 2: mdia = 4 e desvio-padro = 2,0

Com esses resultados podemos afirmar:

a) a turma 2 apresentou maior disperso absoluta.

b) a disperso relativa igual disperso absoluta.

c) tanto a disperso absoluta quanto a relativa so maiores para a


turma 2.

d) a disperso absoluta da turma 1 maior que a turma 2, mas em


termos relativos as duas turmas no diferem quanto ao grau de
disperso das notas.

e) nenhuma das alternativas anteriores.

10. Uma empresa possui dois serventes recebendo salrios de R$250,00


cada um, quatro auxiliares recebendo R$600,00 cada um, um chefe
com salrio de R$1.000,00 e trs tcnicos recebendo R$2.200,00 cada
um. O salrio mdio ser:

a) R$1.050,00.

b) R$1.012,50.

c) R$405,00.

d) R$245,00.

e) nenhuma das alternativas anteriores.

11. O clculo da varincia supe o conhecimento da:

a) mdia.

b) mediana.

70 Este material parte integrante do acervo do IESDE BRASIL S.A.,


mais informaes www.iesde.com.br
Medidas de Posio e Variabilidade

c) moda.

d) ponto mdio.

e) desvio-padro.

12. Em uma determinada distribuio de valores iguais, o desvio-padro :

a) negativo.

b) positivo.

c) a unidade.

d) zero.

e) nenhuma das alternativas anteriores.

13. Dados os conjuntos de nmeros X = {2, 1, 0, 1, 2} e Y = {220, 225,


230, 235, 240}, podemos afirmar, de acordo com as propriedades do
desvio-padro, que o desvio-padro de Y ser igual:

a) ao desvio-padro de X.

b) ao desvio-padro de X, multiplicado pela constante 5.

c) ao desvio-padro de X, multiplicado pela constante 5, e esse


resultado somado a 230.

d) ao desvio-padro de A mais a constante 230.

e) nenhuma das alternativas anteriores.

Gabarito
1. A. O mais provvel seria ganhar menos, pois se o terceiro quartil de
R$5.000,00, significa que 75% dos salrios so inferiores a esse valor, a
despeito da mdia ser de R$10.000,00 muito provavelmente influen-
ciada por salrios muito elevados dos altos cargos dessa empresa.

B. Apresentar-me-ia na empresa Y, pois l praticamente certo que


meu salrio seria muito prximo da mdia de R$7.000,00 dado que
os salrios praticamente no apresentam variabilidade; quase todos
recebem o mesmo salrio.

Este material parte integrante do acervo do IESDE BRASIL S.A., 71


mais informaes www.iesde.com.br
Medidas de Posio e Variabilidade

2. B. O somatrio dos valores e o nmero deles.

3. B. 60.

4. C. a mediana.

5. C. zero.

6. B. a mdia e a mediana.

7. A. moda.

8. A. desvio-padro e mdia.

9. D. A disperso absoluta da turma 1 maior que a turma 2, mas em ter-


mos relativos as duas turmas no diferem quanto ao grau de disperso
das notas.

10. A. R$1.050,00

11. A. mdia

12. D. zero

13. B. ao desvio-padro de X, multiplicado pela constante 5

X = 2 1+ 0 +1+ 2 = 0
x
5
220 + 225+ 230 + 235+ 240 1 150
XY= = = 230
5 5
Xx=0
xi (xi X) (xi X)2 (xi X)2 . fi
2 2 4 4
1 1 1 1
0 0 0 0
1 1 1 1
2 2 4 4
TOTAL 10

10
S2 = S2 = 2,5
4
S = 2,5 S = 1,58

72 Este material parte integrante do acervo do IESDE BRASIL S.A.,


mais informaes www.iesde.com.br
Medidas de Posio e Variabilidade

X Y = 230
xi (xi X ) (xi X )2 (xi X )2 . fi
220 10 100 100
225 5 25 25
230 0 0 0
235 5 25 25
240 10 100 100
TOTAL 25

250
S2 = S2 = 62,5
4
S = 62,5 S = 7,905

7, 905
= 5 (constante)
1,58

Este material parte integrante do acervo do IESDE BRASIL S.A., 73


mais informaes www.iesde.com.br
Este material parte integrante do acervo do IESDE BRASIL S.A.,
mais informaes www.iesde.com.br
Introduo Probabilidade

Introduo
O termo probabilidade usado de modo muito amplo em nosso cotidia-
no para sugerir um certo grau de incerteza sobre o que ocorreu no passado,
o que ocorrer no futuro ou o que est ocorrendo no presente.

A ideia de probabilidade desempenha papel importante em muitas situa-


es que envolvem uma tomada de deciso. Suponhamos que um empres-
rio deseja lanar um novo produto no mercado. Ele precisar de informaes
sobre a probabilidade de sucesso para seu novo produto. Os modelos pro-
babilsticos podem ser teis em diversas reas do conhecimento humano,
tais como: Administrao de empresas, Economia, Psicologia, Biologia e
outros ramos da cincia.

Probabilidade uma coleo ampla de conceitos que trata dos estudos


de experimentos aleatrios ou no determinsticos. Probabilidade pode signi-
ficar tambm, um nmero num intervalo de 0 a 1, o qual fornece um signifi-
cado ao avaliar a ocorrncia de um resultado num experimento.

Em resumo, probabilidade responsvel pelos estudos do comporta-


mento dos fenmenos aleatrios.

Conceitos iniciais de Probabilidade

Experimento Aleatrio (E)


Define-se por experimento qualquer processo de observao. Um expe-
rimento dito aleatrio quando seus resultados esto sujeitos unicamente
ao acaso. Quando o experimento executado repetidas vezes, os resultados
surgiro seguindo uma configurao definida ou regularidade. essa regu-
laridade que torna possvel construir um modelo matemtico preciso com o
qual se analisar o processo.

Este material parte integrante do acervo do IESDE BRASIL S.A., 75


mais informaes www.iesde.com.br
Introduo Probabilidade

Exemplos:

E1 : Em uma linha de produo, fabrique peas em srie e conte o nmero


de peas defeituosas produzidas em um perodo de 24 horas.

E2 : Uma asa de avio fixada por um grande nmero de rebites. Conte o


nmero de rebites defeituosos.

E3 : Uma lmpada fabricada. Em seguida ensaiada quanto durao


da vida, pela colocao em um soquete e anotao do tempo decorrido (em
horas) at queimar.

E4 : A resistncia trao de uma barra metlica medida.

O que os experimentos acima tm em comum? Os seguintes traos so


pertinentes caracterizao de um experimento aleatrio:

cada experimento poder ser repetido indefinidamente sob condi-


es essencialmente inalteradas;

muito embora no sejamos capazes de afirmar que um resultado par-


ticular ocorrer, seremos capazes de descrever o conjunto de todos os
possveis resultados do experimento;

quando o experimento for repetido um grande nmero de vezes, uma


configurao definida ou regularidade surgir.

Espao Amostral (S)


Para cada experimento aleatrio E, define-se o espao amostral como o con-
junto formado por todos os resultados possveis do experimento aleatrio E.

Exemplos:

Vamos considerar cada um dos experimentos acima e descrever um espao


amostral para cada um deles. O espao amostral Si se referir ao experimento Ei.

S1 = { 0, 1, 2, ..., N }, onde N o nmero mximo que pode ser produzido


em 24 horas.

S2 = { 0, 1, 2, ..., M }, onde M o nmero de rebites empregados.

S3 = { t / t 0 }

S4 = { T / T 0 }
76 Este material parte integrante do acervo do IESDE BRASIL S.A.,
mais informaes www.iesde.com.br
Introduo Probabilidade

Observao: os elementos de S so chamados de pontos amostrais, e so


denotados por w1, w2, ... S.

Evento Aleatrio
Evento aleatrio (relativo a um particular espao amostral S, associado a
um experimento E) simplesmente um conjunto (combinaes) de resulta-
dos possveis.

Na terminologia dos conjuntos, um evento um subconjunto do espao


amostral S.

Dizemos que um determinado evento A acontece se ocorrer um de seus


resultados.

Exemplo: Novamente, referimo-nos aos experimentos relacionados anterior-


mente: Ai se referir ao evento associado ao experimento Ei.

A1: todas a peas so perfeitas, isto , {0}

A2: mais do que dois rebites eram defeituosos, isto , { 3, 4, 5, ..., M}

A3: a lmpada queima em menos de 3 horas, isto , {t / t < 3}

Operaes com eventos


Estas operaes podem ser graficamente representadas pelo diagrama
de Venn por meio da definio da regio sombreada.

Como evento um conjunto, poderemos realizar com elas as operaes


costumeiras de unio e interseo de conjuntos. Assim:

S S
A
A S S
B
B
A A

B A

Este material parte integrante do acervo do IESDE BRASIL S.A., 77


mais informaes www.iesde.com.br
Introduo Probabilidade

1o. diagrama: Unio: A B

A B o evento que ocorre se A ocorrer ou B ocorrer ou ambos ocorre-


rem. a unio de todos os elementos que pertencem a A, pertencem a B ou
a ambos os conjuntos.

2o. diagrama: Interseo: A B

A B o evento que ocorre se A e B ocorrerem. A B corresponde


rea escura do 2.o diagrama de Venn, ou seja, um novo conjunto formado
por todos os elementos que pertencem a A e pertencem a B.

3o. diagrama: Excluso: A B =

Eventos mutuamente exclusivos: dois eventos A e B so denominados


mutuamente exclusivos se eles no puderem ocorrer simultaneamente, isto , A
interseo B = conjunto vazio. A e B so mutuamente exclusivos, pois a ocorrncia
de A impede a ocorrncia de B e vice-versa: A B = ( evento impossvel).

4o. diagrama: Negao ou evento complementar

A negao do evento A, denotada por Ac ou A (l-se A complementar


ou A trao) o evento que ocorre se A no ocorrer. Corresponde rea em
branco do 4o. diagrama.

Exemplo:

1) Seja E o experimento sortear um carto entre dez cartes numerados


de 1 a 10. Sejam os eventos A = {sair o nmero 7} e B = {sair um n-
mero par}, ento, se S = {1, 2, 3, 4, 5, 6, 7, 8, 9, 10}, teremos: A = {7} e
B = { 2, 4, 6, 8, 10}.

A B = {7, 2, 4, 6, 8, 10}; A B = ( evento impossvel)

O complementar de A ser: A = {1, 2, 3, 4, 5, 6, 8, 9, 10};

O complementar de B ser: B = { 1, 3, 5, 7, 9}

A A = S; A A = ; B B = S ; B B = .

Eventos independentes
Dois eventos so considerados independentes quando a ocorrncia de
1
L-se probabilidade de A um deles no depende ou no est vinculada com a ocorrncia do outro, isto
dado que B ocorreu.
, P(A/B)1 = P(A) e P(B/A) = P(B).
78 Este material parte integrante do acervo do IESDE BRASIL S.A.,
mais informaes www.iesde.com.br
Introduo Probabilidade

Logo, a regra do produto para dois eventos independentes dada por:

P (A B) = P(A) . P(B)

Exemplo: Aplicao da regra do produto.

1) Retira-se, com reposio, duas cartas de um baralho com 52 cartas.


Qual a probabilidade de que ambas sejam de paus?

Soluo: Sejam os eventos:

A = {a primeira carta de paus}

B = {a segunda carta de paus}

Como A e B so independentes, a ocorrncia de um deles no est vincu-


lada ocorrncia do outro.

Observem que, como o processo com reposio, o espao amostral no


alterado para o clculo da probabilidade do outro evento. Assim:

P (A B) = P(A). P(B) = 13/52 . 13/52 = 1/16 = 0,0625 6,25%

Definies de Probabilidades e Propriedades

Definio frequentista
Repetindo-se n vezes o experimento aleatrio E, o evento A ocorrer um
m
certo nmero m de vezes; m a frequncia com que o evento A ocorre e
n
a frequncia relativa de ocorrncia de A.

Chama-se de probabilidade de ocorrncia do evento A, e denota-se por


P(A), o valor limite da frequncia relativa para uma sequncia muito grande
de realizaes do experimento (n), ou seja,

m
P(A) = lim
n n

Suponha, como exemplo, que uma locadora de automveis queira esti-


mar a probabilidade de ocorrerem acidentes com a sua frota de veculos.
Para isso, verifica quantos acidentes ocorreram em determinadas vezes que
os automveis da frota foram locados. Pode ser que se n (nmero de loca-
es) for igual a 10, a probabilidade de ocorrerem acidentes no represente

Este material parte integrante do acervo do IESDE BRASIL S.A., 79


mais informaes www.iesde.com.br
Introduo Probabilidade

fielmente a realidade. No entanto, se for observado um nmero maior de


locaes (1 000, por exemplo), aos poucos surge uma estimativa da probabi-
lidade de ocorrerem acidentes cada vez mais prxima da realidade.

Definio clssica
Seja E um experimento aleatrio e S o espao amostral associado a E. Su-
ponha que S seja finito e que todos os resultados de S sejam igualmente
provveis.

Considere, ainda, o evento A S . Se nS e nA so respectivamente o nmero


de elementos de S e de A, a probabilidade de ocorrncia do evento A um
nmero real definido por:
nA
P(A) =
nS

Definio Axiomtica
Seja E um experimento e S um espao amostral associado a E. A cada
evento A associaremos um nmero real representado por P(A) e denomina-
do Probabilidade de A, que satisfaa as seguintes propriedades:

(1) 0 P(A) 1

(2) P(S) = 1

(3) Se A e B forem eventos mutuamente exclusivos, P(A B) = P(A) + P(B)

(4) Se A1, A2, ..., An, ... forem, dois a dois, eventos mutuamente exclusivos, ento,

P(Ui=1Ai ) = P(A1 ) +P(A 2 ) + ... + (An ) + ...

Observao: Caso A e B sejam dois eventos quaisquer, ento


P(A B) = P(A) + P(B) P(A B)

Na verdade, a utilizao da definio de Probabilidade e das operaes


com eventos servem para organizar o raciocnio do Clculo de Probabilida-
des, mais ou menos como feito com um fluxograma.

Agora aproveitaremos as operaes de conjuntos descritas anteriormente


para o clculo de probabilidades que envolvem eventos de nosso interesse.
Tentemos responder intuitivamente a questo abaixo para depois formalizar
o procedimento de clculo:

80 Este material parte integrante do acervo do IESDE BRASIL S.A.,


mais informaes www.iesde.com.br
Introduo Probabilidade

a) Para ter a certeza do nascimento de pelo menos um menino, um


casal planeja ter 5 bebs. Qual a chance de sucesso?

Respondendo de forma intuitiva, a probabilidade do casal ter pelo


menos 1 menino ser igual a probabilidade de ter 1, 2, 3, 4 ou 5
meninos que equivalente ao complementar da probabilidade de
no ter nenhum menino, ou seja, 1 P(5 meninas) = 1 (1/2)5 =
0,96875 ou 96,875% se presumirmos que a probabilidade de nas-
cimento de meninos e meninas igual.

b) Peas que saem de uma linha de produo so marcadas defeitu-


osas (D) ou no defeituosas (N). As peas so inspecionadas e sua
condio registrada. Isso feito at que duas peas defeituosas
consecutivas sejam fabricadas ou que todas as quatro peas do
lote tenham sido inspecionadas, aquilo que ocorrer em primeiro
lugar. Calcule a probabilidade do experimento ser interrompido
antes do lote inteiro ter sido inspecionado.

Para que o experimento seja interrompido antes do lote inteiro ser


inspecionado, devemos observar duas peas defeituosas entre as
trs primeiras peas inspecionadas. Isso pode ocorrer quando as
duas primeiras peas inspecionadas forem defeituosas e a ento
o experimento finalizado. Pode ocorrer tambm que se a 2. pea
defeituosa ocorrer na 3. pea inspecionada, ento entre as duas
primeiras inspees, haver certamente uma pea defeituosa.
Sendo assim, a probabilidade solicitada seria a soma da probabili-
dade de trs situaes: P(1. pea defeituosa e 2. pea defeituosa)
+ P(1. pea defeituosa, 2. pea perfeita e 3. pea defeituosa) + P(1.
pea perfeita, 2. pea defeituosa e 3. pea defeituosa).

Como se pode observar, das resolues acima, existe a necessidade de se


estruturar, de forma organizada, o raciocnio de clculo. Para isso, devemos
seguir alguns passos:

1. Descrever o espao amostral e o seu tamanho (n);

2. Definir o evento de interesse no problema (A);

3. Verificar o nmero de eventos que so favorveis ao evento de interes-


se (nA);
nA
4. Calcular P(A) =
n

Este material parte integrante do acervo do IESDE BRASIL S.A., 81


mais informaes www.iesde.com.br
Introduo Probabilidade

Mas ateno: isso s vale se todos os resultados do espao amostral forem


equiprovveis!

Caso os eventos A e B no sejam equiprovveis use:


P(A B) = P(A) + P(B) P(A B)
Outros procedimentos de organizao so utilizados como: regras de
Multiplicao, regras de Adio, Permutaes e Arranjos, e Combinaes.
So os chamados Mtodos de Enumerao.

Probabilidade Condicionada
Se A e B so eventos de um espao amostral S, com P(B) diferente de zero,
ento a probabilidade condicional do evento A, tendo ocorrido o evento B,
indicada por P(A/B) e definida pela relao:

P (A B )
P (A/B) =
P(B)

Para o clculo da probabilidade condicional de A em relao a B, P(A/B),


basta contarmos o nmero de casos favorveis ao evento A B e dividirmos
pelo nmero de casos favorveis do evento B:

N.C.F.a A B
P (A/B) =
N. C.F. a B
Observao: N.C.F. nmero de casos favorveis

Exemplo: Aplicao da regra do produto.

1. Retira-se, sem reposio, duas peas de um lote de 10 peas, onde 4


so boas. Qual a probabilidade de que ambas sejam defeituosas ?

Soluo: Sejam os eventos:

A = {a primeira pea ser defeituosa};

B = {a segunda pea ser defeituosa}.

Precisamos, ento, avaliar P(A B).

P(A B) = P(A). P(B/A) P(A B) = 6/10 . 5/9 = 1/3 = 0,3333... 33,33 %

Observe que P(B/A) a probabilidade de a segunda pea ser defeituosa,


dado que a primeira foi defeituosa.

82 Este material parte integrante do acervo do IESDE BRASIL S.A.,


mais informaes www.iesde.com.br
Introduo Probabilidade

2. Uma urna contm cinco bolas brancas e trs pretas. Duas bolas so
retiradas sem reposio. Qual a probabilidade de que:

a) 1. seja branca e a 2. seja preta?


P(B1 P2) = P(B1).P(P2/B1) = 5/8 . 3/7 = 15/56 = 26,79%

b) as duas sejam brancas?

P(B1 B2) = P(B1).P(B2/B1) = 5/8 . 4/7 = 20/56 = 35,71%

c) as duas sejam pretas?

P(P1 P2) = P(P1).P(P2/P1) = 3/8 . 2/7 = 6/56 = 10,71%

d) sejam uma de cada cor?

P(P1 B2) + P(B1 P2) = (3/8 . 5/7) + (5/8 . 3/7) = 30/56 = 53,57%

e) sejam ambas da mesma cor?

P(P1 P2) + P(B1 B2) = (3/8 . 2/7) + (5/8 . 4/7) = 26/56 = 46,43%

Regra de Bayes
Sejam A1, A2, A3, ..., An, n eventos mutuamente exclusivos tais que A1 A2
A3 ... An = S. Sejam P( Ai ) as probabilidades conhecidas de todos
os eventos Ai e B um evento qualquer de S tal que conhecemos todas as
probabilidades condicionais P( B/Ai ). Ento para cada i teremos:

P(Ai ) .P(B/Ai )
P(Ai /B) =
P(A1 ) .P(B/A1 ) + P(A 2 ) .P(B/A 2 ) + ... + P(An ) . P(B/An )

O resultado acima bastante importante, pois, como vimos, relaciona


probabilidades a priori: P( Ai ) com probabilidades a posteriori: P( Ai/B ), pro-
babilidade de ocorrer Ai depois que ocorrer B.

Suponhamos a seguinte configurao:


Cor Urna 1 Urna 2 Urna 3 Total
Preta 3 4 2 9
Branca 1 3 3 7
Vermelha 5 2 3 10
Total 9 9 8 26

Este material parte integrante do acervo do IESDE BRASIL S.A., 83


mais informaes www.iesde.com.br
Introduo Probabilidade

Escolheu-se uma urna ao acaso e dela extraiu-se uma bola ao acaso, veri-
ficando-se que a bola branca. Qual a probabilidade de a bola ter vindo da
urna 2?

Soluo:

Probabilidades a priori: P( U1 ) = 1/3; P( U2 ) = 1/3; P( U3 ) = 1/3;

Probabilidades a posteriori: P( br/U1 ) = 1/9; P( br/U2 ) = 1/3; P( br/U3 ) = 3/8;

P(U2 ) .P(br/U2 )
P(U2/br) = =
P(U1 ) .P(br/U1 ) + P(U2 ) .P(br/U2 )+P(U3 ) .P(br/U3 )

1/3.1/3
= = 0,4067
1/3.1/9 + 1/3.1/3+1/3.3/8

Varivel Aleatria Unidimensional (v. a.)


Na maioria dos experimentos dados at agora, ao descrevermos o espao
aleatrio, no especificamos que um resultado individual, necessariamente,
seja um nmero. Por exemplo: ao descrever uma pea manufaturada, pode-
mos usar apenas as categorias defeituosas e no defeituosas. Contudo, em
muitas situaes experimentais, estaremos interessados na mensurao de
alguma coisa e no seu registro como um nmero. Mesmo no exemplo men-
cionado, poderemos atribuir um nmero a cada resultado no numrico do
experimento. Por exemplo: podemos atribuir o valor 1 s peas no defeitu-
osas e 0 s peas defeituosas.

Exemplo: Em uma linha de montagem de engrenagens, inspecionam-se


4 peas da produo diria para se controlar a produo de engrenagens
defeituosas.

Representando por:

d: engrenagem com defeito e

b: engrenagem perfeita.

Temos o seguinte espao amostral S para esse experimento:

S = {dddd, dddb, ddbd, dbdd, bddd, ddbb, dbbd, dbdb, bddb, bdbd,
bbdd, dbbb, bdbb, bbdb, bbbd, bbbb}

84 Este material parte integrante do acervo do IESDE BRASIL S.A.,


mais informaes www.iesde.com.br
Introduo Probabilidade

Seja X uma varivel aleatria que conta o nmero de engrenagens com


defeito entre as 4 inspecionadas. Temos ento:

X = 0, 1, 2, 3, 4

Varivel Aleatria Discreta e sua funo de probabilidade


Uma varivel aleatria ser discreta se o nmero de resultados possveis
que ela pode assumir for finito ou infinito enumervel.

Exemplo: Contagem da ocorrncia de um fenmeno em um certo nmero


de repeties ou em um certo espao de tempo.

Seja X uma varivel aleatria discreta. A cada possvel resultado xi associa-


remos um nmero real p(xi) = P(X = xi), denominado de probabilidade de xi. A
funo p denominada de funo de probabilidade da varivel aleatria discreta
X. Sendo p uma funo de probabilidade, devemos ter satisfeitas as condies:

(i) p(xi) 0 , para todo i

(ii) i p(xi) = 1

O conjunto de pares [xi, p(xi)] denominado distribuio de probabilidade


da varivel aleatria X.

Varivel Aleatria Contnua e sua funo densidade de


probabilidade
Uma varivel aleatria ser contnua se o nmero de resultados possveis
que ela poder assumir for infinito no enumervel, ou seja, se o conjunto de
valores que ela pode assumir for um intervalo ou uma reunio de intervalos

Exemplo: Seja X a durao da vida (em horas) de um certo dispositivo eletrni-


co. Ento, o conjunto dos valores que X pode assumir poder ser representado
da seguinte forma: {x / x 0}, onde o conjunto dos nmeros reais.

Seja X uma varivel aleatria contnua. Define-se funo densidade


de probabilidade (f.d.p.) como sendo a funo f que satisfaz s seguintes
condies:
(i) f(x) 0 para todo x
(ii) f(x) dx = 1
Rx

Este material parte integrante do acervo do IESDE BRASIL S.A., 85


mais informaes www.iesde.com.br
Introduo Probabilidade

A propriedade (ii) indica que a rea total limitada pela curva que repre-
senta a funo f(x) e o eixo das abscissas igual a 1.

Seja o intervalo [a, b) x x. Ento, a probabilidade de um certo valor X


pertencer a esse intervalo dada por:
b
Pr(a X b) = f(x)dx ,
a

que representa a rea sob a curva no grfico da funo densidade de proba-


bilidade, entre x = a e x = b. Para isso se usa o recurso da integrao.

Algumas variveis que podem ser consideradas contnuas: salrios (em


R$), espessura de vigas metlicas (em mm), taxa de colesterol no sangue (em
mg/dl). Dessa forma, podemos estar interessados em saber, por exemplo,
a probabilidade de algum receber um salrio superior a R$10.000,00 ou a
probabilidade da espessura da viga estar dentro das especificaes ou ainda,
a probabilidade da taxa do colesterol estar dentro da normalidade.

Esperana Matemtica, Mdia ou Valor Esperado


bastante til descrever uma distribuio de probabilidade em termos
de sua mdia e de sua varincia. A mdia, denotada por E(X), chamada
valor esperado da distribuio de probabilidade. Considere X uma varivel
aleatria. A esperana matemtica, mdia ou valor esperado de X a mdia
ponderada de todos os possveis valores da varivel com os respectivos va-
lores de probabilidade tomados como pesos.

Exemplo no caso discreto:

Considere a seguinte varivel discreta e sua respectiva funo de


probabilidade.
x 0 1 2
p(x)

Assim, teremos a esperana E(X) = (0.1/2) + (1.1/4) + (2.1/4) = 3/4

Varincia
A varincia de uma varivel aleatria X, denotada por V(X), calculada
como uma medida de disperso dos dados em relao mdia E(X). Pode ser
calculada fazendo-se
2= Var(X) = E[X E(X)]2
86 Este material parte integrante do acervo do IESDE BRASIL S.A.,
mais informaes www.iesde.com.br
Introduo Probabilidade

ou ainda,

Var(X) = E(X2) [E(X)]2

Considerando os mesmos exemplos vistos acima, teremos:

Varivel discreta: E(X) = 3/4 e E(X2) =(02.1/2) + (12.1/4) + (22.1/4) = 5/4

Var(X) = 5/4 (3/4)2 = 11/16

Ampliando seus conhecimentos

Risco e Probabilidade
(Wikipdia)

O que Risco?

o resultado objetivo da combinao entre a probabilidade de ocorrncia


de um determinado evento e o impacto resultante.

O simples fato de existir uma atividade, abre a possibilidade da ocorrncia


de eventos ou situaes cujas consequncias constituem oportunidades para
obter vantagens (lado positivo) ou ento ameaas ao sucesso (lado negativo).

O risco pode ser definido como a combinao da probabilidade de um


acontecimento e das suas consequncias.

O que Anlise de Riscos?

Processo pelo qual so relacionados os eventos, os impactos e avaliadas as


probabilidades destes se tornarem reais.

Geralmente, executa-se uma anlise de riscos dentro de organizaes que


esto planejando ou desenvolvendo projetos especficos ou para negcios (fi-
nanas, compra e venda etc). Sendo a abordagem de negcios a mais utilizada.

Como orientao da confeco de uma anlise de riscos, temos os seguin-


tes passos e cuidados:

a) Construir a Matriz de Impacto


Esta matriz envolve um conjunto de itens que influenciam no
dimensionamento do impacto no caso de ocorrncia de uma
determinada ameaa, sendo, ento, relacionados a seguir:

Este material parte integrante do acervo do IESDE BRASIL S.A., 87


mais informaes www.iesde.com.br
Introduo Probabilidade

Determinar os elementos crticos do negcio que podero


ser afetados por falhas e erros no processo;

Levantar as ameaas/eventos decorrentes da execuo dos


passos do processo de negcio, que podem afetar ou causar
um determinado impacto sobre algum elemento crtico do
negcio relacionado;

Definir o impacto para o negcio no caso de ocorrncia das


ameaas/eventos relacionadas.

b) Construir a Matriz de Probabilidade

Esta matriz envolve alguns aspectos que influenciam na pro-


babilidade de ocorrncia de uma determinada ameaa/even-
to, sendo, ento, relacionados abaixo:

Levantar os controles ou protees existentes que poderiam


prevenir ou minimizar a ocorrncia das ameaas/eventos re-
lacionadas;

Definir as fraquezas ou fragilidades que possam existir nos


controles relacionados, de forma a obter uma avaliao da
sua efetividade;

Definir qual a probabilidade da ameaa/evento vir a se reali-


zar devido a falha do controle (ou este ser sobrepujado) e o
impacto previsto acontecer.

c) Definir os Riscos

Esta etapa envolve a sumarizao dos impactos relacionados e


as suas respectivas probabilidades, de forma a que seja calcu-
lado o risco real de um determinado evento (e o seu impacto)
vir a ocorrer.

88 Este material parte integrante do acervo do IESDE BRASIL S.A.,


mais informaes www.iesde.com.br
Introduo Probabilidade

Atividades de aplicao

1. Defina o espao amostral de cada um dos seguintes experimentos:

a) lanamento simultneo de trs moedas;

b) distribuio de sexo de uma famlia com trs filhos;

c) lanamento simultneo de dois dados (no viciados);

d) retirada de duas cartas de um baralho com 8 cartas, sendo 4 da-


mas e 4 valetes;

e) retirada de duas bolas sucessivamente, de uma urna com cinco


bolas, sendo trs brancas e duas amarelas.

2. Dois dados so lanados. Pede-se:

a) enumere o evento A = {a soma dos pontos 9};

b) enumere o evento B = {a soma dos pontos 7};

c) calcule a probabilidade do evento A;

d) calcule a probabilidade do evento B;

e) calcule a probabilidade de ocorrer A ou B;

f) calcule a probabilidade de ocorrer A e B;



3. So dadas duas urnas:

Cor Urna A Urna B Total


Preta 2 3 5
Branca 5 12 17
Vermelha 3 5 8
Total 10 20 30

a) Calcular a probabilidade de retirar uma bola branca da urna A;

b) Determine a probabilidade de retirarmos uma bola branca ou ver-


melha da urna A;

Este material parte integrante do acervo do IESDE BRASIL S.A., 89


mais informaes www.iesde.com.br
Introduo Probabilidade

c) Determine a probabilidade de retirarmos uma bola branca da urna


A e uma bola vermelha da urna B;

d) Qual a probabilidade de serem retiradas duas bolas vermelhas da


urna A, com reposio?;

e) Qual a probabilidade de serem retiradas duas bolas pretas da urna


B? (sem reposio);

4. A probabilidade de o aluno X resolver este problema de 3/5, e de o


aluno Y de 4/7.

Qual a probabilidade de que o problema seja resolvido por eles?

5. Um grupo de 100 pessoas apresenta, de acordo com o sexo e qualifi-


cao a seguinte composio:

Sexo Especializados No especializados Total


Homens 21 39 60
Mulheres 14 26 40
Total 35 65 100

Calcular:

a) a probabilidade de um escolhido ser homem.

b) a probabilidade de um escolhido ser mulher e no especializada.

c) Qual a porcentagem dos no especializados?

d) Qual a porcentagem dos homens no especializados?

e) Se o sorteado especializado, qual a probabilidade de ser mulher?

f) Se o sorteado for homem, qual a probabilidade de ser no especia-


lizado?

6. Uma urna contm quatro bolas brancas, cinco azuis e seis pretas em
uma outra temos cinco bolas brancas, seis azuis e duas pretas. Extrai-
-se uma bola de cada urna, na seqncia estabelecida anteriormente,
qual a probabilidade:

a) de que ambas sejam da mesma cor?

b) da primeira ser azul e a segunda ser preta?

90 Este material parte integrante do acervo do IESDE BRASIL S.A.,


mais informaes www.iesde.com.br
Introduo Probabilidade

c) de uma ser azul e a outra ser preta?

d) da primeira ser branca e a segunda no ser branca?

7. A probabilidade da classe A comprar um carro 3/4, da B 1/6 e da


C, 1/20.

A probabilidade de o indivduo da classe A comprar um carro da mar-


ca W 1/10; de B comprar da marca W 3/5 e de C 3/10. Em certa
loja um indivduo comprou um carro da marca W.

Qual a probabilidade de que o indivduo:

a) Da classe A o tenha comprado?

b) Da classe B o tenha comprado?

c) Da classe C o tenha comprado?

8. Trs mquinas M1, M2 e M3 produzem respectivamente 40%, 50% e


10% do total de peas de uma fbrica. A porcentagem de peas defei-
tuosa nas respectivas mquinas 3%, 5% e 2%. Uma pea sorteada
ao acaso e verifica-se que defeituosa. Qual a probabilidade de que a
pea tenha vindo da mquina:

a) M1

b) M2

c) M3

9. A empresa de construo Tijolo S.A. vai apresentar uma proposta de


construo de um armazm do tipo A. Considere a varivel aleatria X,
que representa o nmero de dias para construir um armazm do tipo
A, e a respectiva funo de probabilidade:

X 20 21 22 23 24
P(x) k/2 0,15 3k 0,1 0,05

a) Determine o valor da constante k, justificando.

b) Qual a probabilidade do tempo de construo demorar mais de 22


dias?

c) Qual a probabilidade do tempo de construo demorar entre 21 e


23 dias (inclusive)?

Este material parte integrante do acervo do IESDE BRASIL S.A., 91


mais informaes www.iesde.com.br
Introduo Probabilidade

d) Quantos dias espera a empresa demorar para construir o referido


armazm?

e) Calcule o valor de Var (X).

f) Os custos de construo so os seguintes:

Materiais: 16 000 euros

Mo de obra: 750 euros por cada dia de construo

Os responsveis pela empresa pretendem obter um valor espe-


rado do lucro de 2 500 euros. Atendendo aos custos que cons-
tam na tabela anterior, calcule o valor que deve ser apresentado
na proposta de construo.

Gabarito

1.
a) S={KKK, KKC, KCK, CKK, KCC, CKC, CCK, CCC}

b) S={MMM, MMF, MFM, FMM, MFF, FMF, FFM, FFF}

c) S={(1,1), (1,2), , (1,6), (2,1), , (2,6), ...,(6,1), ..., (6,6)}

d) S={DD, DV, VD, VV}

e) S={BB, BA, AB, AA}

2.

a) A={(3,6), (4,5), (5,4), (6,3)}

b) B={(1,6), (2,5), (3,4), (4,3), (5,2), (6,1)}

c) P(A) = 4/36

d) P(B) = 6/36

e) P(AB) = P(A) + P(B) P(AB) = 4/36 + 6/36 0 = 10/36

f) P(AB) = 0

92 Este material parte integrante do acervo do IESDE BRASIL S.A.,


mais informaes www.iesde.com.br
Introduo Probabilidade

3.

a) P(retirar uma bola branca da urna A) = 5/10

b) P(retirar uma bola branca ou uma vermelha da urna A) = 8/10

c) P(retirar uma bola branca e uma vermelha da urna A) = 0

d) P(retirar duas bolas vermelhas da urna A, com reposio) =


(3/10).(3/10) = 9/100

e) P(retirar duas bolas pretas da urna A, sem reposio) = (2/10).(1/10)


= 2/100

4.

P(XY) = P(X) + P(Y) P(XY) = 3/5 + 4/7 (3/5 . 4/7) = 29/35 = 82,86%

5.

a) P(H) = 60/100 = 0,6 ou 60%.

b) P(MNE) = 26/100 = 0,26 ou 26%.

c) P(NE) = 65/100 = 0,65 ou 65%.

d) P(HNE) = 39/100 = 0,39 ou 39%.

e) P(M/E) = 14/35 = 0,4 ou 40%

f) P(NE/H) = 39/60 = 0,65 ou 65%

6.

a) P((B1B2) (A1A2) (P1P2)) = (4/15 . 5/13) + (5/15 . 6/13) +


(6/15 . 2/13) = 62/195

b) P(A1P2) = 5/15 . 2/13 = 10/195

c) P((A1P2) (P1A2)) = (5/15 . 2/13) + (6/15 . 6/13) = 46/195

d) P(B1 C B2C) = 4/15 . 8/13 = 32/195

7.

P(W) = (1/10 . 3/4) + (3/5 . 1/6) + (3/10 . 1/20) = 3/40 + 3/30 + 3/200 = 0,19

a) P(A/W) = P(WA)/ P(W) = P(A) . P(W/A) / P(W) = (1/10 . 3/4)/0,19 = 0,3947

Este material parte integrante do acervo do IESDE BRASIL S.A., 93


mais informaes www.iesde.com.br
Introduo Probabilidade

b) P(B/W) = P(WB)/ P(W) = P(B) . P(W/B) / P(W) = (3/5 . 1/6)/0,19 =


0,5263

c) P(C/W) = P(WC)/ P(W) = P(C) . P(W/C) / P(W) = (3/10 . 1/20)/0,19


= 0,0789

8.

P(D) = (0,4 . 0,03) + (0,5 . 0,05) + (0,1 . 0,02) = 0,012 + 0,025 + 0,002 = 0,039

a) P(M1/D) = P(M1D)/ P(D) = P(M1) . P(D/M1) / P(D) = (0,4 . 0,03)/0,039


= 0,3077

b) P(M2/D) = P(M2D)/ P(D) = P(M2) . P(D/M2) / P(D) = (0,5 . 0,05)/0,039


= 0,6410

c) P(M3/D) = P(M3D)/ P(D) = P(M3) . P(D/M3) / P(D) = (0,1 . 0,02)/0,039


= 0,0513

9.

a) Sabemos que i p(xi) = 1, assim: k/2 + 0,15 + 3k + 0,1 + 0,05 =1, ou


seja, 3,5k + 0,30 = 1 e isto implica que k = 0,2

b) P(X>22) = P(X=23) + P(X=24) = 0,15 ou 15%

c) P(20<X<24) = P(X=21) + P(X=22) + P(X=23) = 0,85 ou 85%

d) Pela definio de esperana de uma varivel aleatria discreta:



E(X) = xi .p. ( xi ).
i=1

Assim,

E(X) = (20 . 0,1) + (21 . 0,15) + (22 . 0,6) + (23 . 0,1) + (24 . 0,05) = 21,85 dias

e) Pela definio de varincia, temos que: Var(X) = E(X2) [E(X)]2

Temos que E(X2) = (202 . 0,1) + (212 . 0,15) + (222 . 0,6) + (232 . 0,1) +
(242 . 0,05) = 478,25 e assim Var(X) = 478,25 (21,852) = 0,8275

f) Custo da obra: 16.000 + (750 . 21,85) = 32.387,50 euros.

Custo da obra + lucro = 34.887,50 euros.

94 Este material parte integrante do acervo do IESDE BRASIL S.A.,


mais informaes www.iesde.com.br
Este material parte integrante do acervo do IESDE BRASIL S.A.,
mais informaes www.iesde.com.br
Este material parte integrante do acervo do IESDE BRASIL S.A.,
mais informaes www.iesde.com.br
Distribuio Binomial, Distribuio
Poisson e Distribuio Normal

Introduo
A distribuio de probabilidade uma funo que determina probabi-
lidades para eventos ou proposies. Para qualquer conjunto de eventos
ou proposies, existem muitas maneiras de determinar probabilidades,
de forma que a escolha de uma ou outra distribuio equivalente a criar
diferentes hipteses sobre os eventos ou proposies em questo. A distri-
buio de probabilidade de uma varivel descreve como as probabilidades
esto distribudas sobre os valores da varivel aleatria.

H vrias formas equivalentes de se especificar uma distribuio de pro-


babilidade. Uma distribuio chamada de distribuio discreta se for defi-
nida em um conjunto contvel e discreto, tal como o subconjunto dos n-
meros inteiros; ou chamada de distribuio contnua se tiver uma funo
distribuio contnua, tal como uma funo polinomial ou exponencial.

A seguir, veremos as principais distribuies de probabilidade: Binomial e


Poisson para variveis aleatrias discretas e a distribuio Normal para uma
varivel aleatria contnua.

Analisemos a definio de varivel aleatria discreta: seja X uma varivel


aleatria discreta e xi um certo valor de X. A probabilidade de ocorrncia de
xi dada por P(X = xi) = p(xi), onde:

p(xi) 0

a soma de todos os p(xi) igual a 1.

Como as variveis aleatrias discretas X assumem valores inteiros (ge-


ralmente), as probabilidades associadas a esses valores (xi) so pontuais de
forma que a distribuio de probabilidade representada por quantidades
de massa localizadas nos pontos xi.

Este material parte integrante do acervo do IESDE BRASIL S.A., 97


mais informaes www.iesde.com.br
Distribuio Binomial, Distribuio Poisson e Distribuio Normal

p(x)

x
0 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18

Figura 1 Esboo de uma funo de probabilidade discreta.

Por outro lado, a probabilidade de ocorrncia de uma varivel ale-


atria contnua dentro de um determinado intervalo (a,b), dada por:
b
Pr (a X b) = f(x) dx
a
b
Onde a a notao que se usa para representar a integrao de uma de-
terminada funo em um intervalo de a at b e utilizada para clculo de
reas e aqui ser utilizada para clculo de probabilidades.

As variveis aleatrias contnuas X assumem valores dentro de um inter-


valo contnuo, e as probabilidades associadas a esses valores podem ser con-
sideradas reas abaixo de uma curva.

f(x)

(x)
Figura 2 esboo de algumas funes densidades de probabilidade contnuas.

Distribuio de Probabilidade Binomial


Antes de introduzirmos a distribuio de probabilidade Binomial, vamos
definir outra distribuio, a distribuio Bernoulli, que d origem a ela. Na
distribuio Bernoulli:

98 Este material parte integrante do acervo do IESDE BRASIL S.A.,


mais informaes www.iesde.com.br
Distribuio Binomial, Distribuio Poisson e Distribuio Normal

a) Cada experimento dito ser uma tentativa. Em cada tentativa, existem


dois resultados possveis: sucesso ou falha.
b) A probabilidade de sucesso igual a algum valor constante para todas
as tentativas.
c) Os resultados sucessivos so estatisticamente independentes. A pro-
babilidade de sucesso na prxima tentativa no pode variar, no im-
portando quantos sucessos ou falhas tenham sido obtidos.
O processo de Bernoulli comumente utilizado em aplicaes envolvendo
controle de qualidade. Cada novo item criado no processo de produo pode
ser considerado como uma tentativa resultando em uma unidade com ou sem
defeito. Esse processo no se limita a objetos; podendo ser usado em pesquisas
eleitorais e de preferncias dos consumidores por determinados produtos.
Consideremos agora n tentativas independentes de ensaios de Ber-
noulli. Cada tentativa admite apenas dois resultados complementares:
sucesso com probabilidade p ou fracasso com probabilidade q, de modo a
se ter p + q = 1. As probabilidades de sucesso e fracasso so as mesmas para
cada tentativa. A varivel aleatria X, que conta o nmero total de sucessos,
denominada Binomial.
Exemplo: suponha que peas saiam de uma linha de produo e sejam clas-
sificadas como defeituosas (D) ou como no defeituosas (N). Admita que
3 dessas peas sejam escolhidas ao acaso. Se a probabilidade de que uma
pea seja defeituosa de 0,2, calcule a probabilidade de obtermos 0, 1, 2 ou
3 peas defeituosas.

Ento teremos: n = 3 (nmero de repeties do experimento); p = 0,2


(probabilidade de sucesso, ou de obter uma pea defeituosa).

Considere, agora, a seguinte definio:

Seja E um experimento e A um evento associado a E. Considere ainda


P(A) = p, denominada Probabilidade de ocorrncia de A, que satisfaa as
seguintes propriedades:
ocorrem n repeties independentes do experimento E;
a probabilidade p sempre constante para cada repetio;
a varivel aleatria X ser definida como sendo o nmero de vezes que
o evento A ocorre;
P(AC) = 1 P(A) = q

Este material parte integrante do acervo do IESDE BRASIL S.A., 99


mais informaes www.iesde.com.br
Distribuio Binomial, Distribuio Poisson e Distribuio Normal

Ento,

n
P(X = k) = .pk .qn-k , k = 0, 1, 2, ..., n.
k
n
em que a combinao de n elementos divididos em k grupos. Pode
k
n n! n.(n 1).(n 2)(n k +1)
ser desenvolvida fazendo-se: = =
k k!. (n k )! k. (k 1).(k 2)1

Agora a resoluo da questo anterior fica muito mais simples. Basta


definirmos:

n = 3

p = 0,2

3 0 3 3! 3
P(X = 0) = .p .q = .1 . 0, 8 = 0, 512
0 0!3!
3 1 2 3! 1 2
P(X = 1) = .p .q = . 0, 2 . 0, 8 = 0, 384
1 1!2!
3 2 1 3! 2 1
P(X = 2) = .p .q = . 0, 2 . 0, 8 = 0, 096
2 2!1!
3 3 0 3! 3 0
P(X = 3) = .p .q = . 0, 2 . 0, 8 = 0, 008
3 3!0!

Utilizando a planilha eletrnica Excel, podemos resolver o problema


acima de uma forma muito fcil, simplesmente utilizando as funes. Ento,
utilizaramos a funo DISTRBINOM considerando:

Num_s (nmero de tentativas bem-sucedidas) o valor que X assu-


me, pode ser 0, 1, 2 ou 3, dependendo da probabilidade que se deseja
calcular;

Tentativas o tamanho da amostra, no caso n = 3;

Probabilidade_s a probabilidade de sucesso, no caso, p = 0,2;

Cumulativo a opo que fornece a probabilidade acumulada ou


a probabilidade individual. No caso, preencher o campo com FALSO
para considerar a probabilidade individual.
100 Este material parte integrante do acervo do IESDE BRASIL S.A.,
mais informaes www.iesde.com.br
Distribuio Binomial, Distribuio Poisson e Distribuio Normal

Notao: X ~ b(n; p)

Isso significa que a varivel aleatria X tem distribuio Binomial com pa-
rmetros n e p.
A esperana e a varincia para uma varivel aleatria com distribuio
Binomial so dadas por:

= E(X) = n.p

2 = Var(X) = n.p.(1 p)

Distribuio de Probabilidade Poisson


Na distribuio Binomial, a varivel aleatria X o nmero de sucessos
que ocorrem em n tentativas independentes do experimento. Podemos
considerar agora uma varivel aleatria X igual ao nmero de sucessos que
ocorrem num intervalo contnuo.
Por exemplo:
nmero de chamadas X que uma telefonista recebe no intervalo de
uma hora;

Este material parte integrante do acervo do IESDE BRASIL S.A., 101


mais informaes www.iesde.com.br
Distribuio Binomial, Distribuio Poisson e Distribuio Normal

o nmero de falhas em 1 m2 de tecidos;

o nmero de vezes que um computador trava em um intervalo de 8


horas.

Uma varivel aleatria assim, assume valores inteiros, ou seja, X = 0, 1, 2,


3, 4, ...

Um fenmeno ou experimento de Poisson tem as seguintes carac


tersticas:

o nmero de sucessos que ocorrem num intervalo contnuo indepen-


dente daqueles que ocorrem em qualquer outro intervalo disjunto;

em intervalos de mesmo comprimento a probabilidade de ocorrncia


de um mesmo nmero de sucessos igual;

em intervalos muito pequenos, a probabilidade de mais de um suces-


so desprezvel.

Nessas condies, a varivel aleatria X = nmero de sucessos que ocor-


rem num determinado intervalo contnuo de tem distribuio de Poisson
com parmetro e funo de probabilidade dada por:

e . x
p(x) = Pr(X = x) = , para x = 0, 1, 2, ...
x!
em que a mdia de sucessos no intervalo considerado e e a constante
exponencial que igual a 2,718281828.

Notao: X~ P()

Isso significa que a varivel aleatria X tem distribuio Poisson com pa-
rmetro .

A esperana e a varincia para uma varivel aleatria com distribuio de


Poisson so dadas por:

= E(X) =

2 = Var(X) =

102 Este material parte integrante do acervo do IESDE BRASIL S.A.,


mais informaes www.iesde.com.br
Distribuio Binomial, Distribuio Poisson e Distribuio Normal

Exemplo: Clientes em potencial chegam a um posto de gasolina de acordo


com um processo de Poisson com taxa de 20 carros por hora. Ento, a funo
de probabilidade associada dada por:

e -20 . 20 x
p(x) = , para x = 0,1, 2, ...
x!

A probabilidade de chegarem em 1 hora:

a) Exatamente 10 carros:
e -20 .2010
P(X = 10) = = 0, 0058 ou 0, 58%
10!
b) 10 carros ou menos:
10
e -20 .20 x
P(X 10) = x=0 x!
= 0, 0108 ou 1, 08%

c) Mais de 20 carros:

e -20 . 20 X
P(X > 20) =
x = 21 x!
20
e -20 . 20 X
P(X > 20) = 1- P(X 20) = 1-
X=0 x!
= 1- 0, 559 = 0, 441 ou 44,1%

d) Entre 11 e 20 carros:
20
e -20 . 20 x
P(11 X 20) =
x!

x = 11
P(11 X 20) = P(X 20) P (X 10) = 1 P(X > 20) P(X 10)

= 1 0,441 0,0108 = 0,548 ou 54,8%

Utilizando o Excel, utilizaramos a funo POISSON considerando:

X (nmero de eventos) o valor que X assume, pode ser 0, 1, 2 etc,


dependendo da probabilidade que se deseja calcular.

Mdia o valor do parmetro .

Cumulativo a opo que fornece a probabilidade acumulada ou


a probabilidade individual. No caso, preencher o campo com VERDA-
DEIRO para considerar a probabilidade acumulada.

Este material parte integrante do acervo do IESDE BRASIL S.A., 103


mais informaes www.iesde.com.br
Distribuio Binomial, Distribuio Poisson e Distribuio Normal

Distribuio de Probabilidade Normal


A distribuio normal foi estudada inicialmente no sculo XVIII, quando
uma anlise de erros experimentais levou a uma curva em forma de sino.
Embora ela tenha aparecido pela primeira vez em 1733 por DeMoivre, a
distribuio normal recebe o nome de distribuio gaussiana, em homena-
gem ao cientista alemo Karl Friedrick Gauss, que foi o primeiro a utiliz-la
em 1809.

Nos sculos XVIII e XIX, matemticos e fsicos desenvolveram uma funo


densidade de probabilidade que descrevia bem os erros experimentais ob-
tidos em medidas fsicas. Essa funo densidade de probabilidade resultou
na bem conhecida curva em forma de sino, chamada de distribuio normal
ou gaussiana. Essa distribuio fornece uma boa aproximao de curvas de
frequncia para medidas de dimenses e caractersticas humanas, como a
altura de uma populao.

A distribuio normal a mais importante das distribuies contnuas de


probabilidade, e tem sua origem associada aos erros de mensuraes. A dis-
tribuio normal desempenha papel preponderante na estatstica, e os pro-
cessos de inferncia nela baseados tm larga aplicao.
104 Este material parte integrante do acervo do IESDE BRASIL S.A.,
mais informaes www.iesde.com.br
Distribuio Binomial, Distribuio Poisson e Distribuio Normal

A distribuio normal tem sua funo densidade de probabilidade (f.d.p.)


dada por

(x )2
1
f(x) = .e 2 2

em que:

a mdia da varivel X;

o desvio-padro da varivel X;

uma constante numrica igual a 3,141593.

Notao: X ~ N(; 2)

Isso significa que a varivel aleatria X tem distribuio Normal com pa-
rmetros e 2.

So propriedades da distribuio normal:

1) A distribuio simtrica em relao a x = , ou seja, nesse ponto a


curva se divide em duas partes iguais.

2) A funo f(x) tem um ponto de mximo para x = .

3) As caudas da funo f(x) so chamadas assintticas, ou seja, s atin-


gem o ponto f(x) = 0 quando x tende a + infinito ou infinito. Isso
quer dizer que a curva jamais cruza o eixo x.

4) A funo f(x) tem dois pontos de inflexo para x = + e x = .


Nesses pontos a funo acentua sua curvatura.

5) A funo de distribuio acumulada dada por


2
1 x
1 x .
2
F(x) = P(X x) = e dx
2

A funo F(x), dada acima, pode ser colocada numa forma mais simples,
considerando-se a transformao:

z= x

que a varivel normal padronizada ou reduzida Z.
Este material parte integrante do acervo do IESDE BRASIL S.A., 105
mais informaes www.iesde.com.br
Distribuio Binomial, Distribuio Poisson e Distribuio Normal

0.4

0.3

f(x)
0.2

0.1

0.0

-4 -2 0 2 4
(x)
Figura 3 Curva da distribuio Normal padro.

Notamos que a transformao utilizada consiste em adotarmos uma nova


distribuio normal de mdia = 0 e varincia 2 = 1 ou desvio-padro = 1.
Portanto,

Z ~ N(0; 1).

Isso significa que a varivel aleatria Z assume uma distribuio Normal


com mdia zero e varincia 1.

Assim, a f.d.p. da varivel normal padronizada ser dada por

z2
1 . 2
g(z) = e , z
2

A distribuio normal padronizada pode ser tabulada utilizando-se mto-


dos de integrao numrica.

Exemplo: Uma indstria fabrica peas mecnicas cujas medidas dos dime-
tros externos so normalmente distribudas com mdia 40,0mm e desvio-
padro de 2,0mm. Vamos calcular a percentagem de peas defeituosas

106 Este material parte integrante do acervo do IESDE BRASIL S.A.,


mais informaes www.iesde.com.br
Distribuio Binomial, Distribuio Poisson e Distribuio Normal

fabricadas, sabendo-se que o setor de controle de qualidade dessa indstria


classifica como defeituosas aquelas peas cujos dimetros externos:

a) so inferiores a 37,0mm.

P(X<37) = P(Z<(3740)/2) = P(Z<1,5) = 0,067 ou 6,7%.

0.4

0.3
f(x)

0.2

0.1

0.0

-4 -2 0 2 4
(x)

Consultando a tabela da distribuio normal padro (anexo 1), iremos


procurar a linha referente ao valor 1,5 e a coluna referente ao valor zero (1,5
+ 0,00 = 1,50). Cruzando esses dois valores, obteremos, no corpo da tabela,
0,4332. Esse valor, como a figura ilustra na tabela de valores crticos, nos d
o tamanho da rea entre o ponto zero e o ponto 1,5. Utilizando as proprie-
dades de simetria da curva normal, teremos que P(Z<1,5) = 0,5 0,4332 =
0,067 que o tamanho da rea assinalada em cinza, na figura acima, pois o
valor de z nesse caso negativo.

Usando a planilha do Excel, utilizaramos a funo DIST.NORM:

X o valor cuja probabilidade se deseja calcular;

Mdia o valor do parmetro da distribuio;

Este material parte integrante do acervo do IESDE BRASIL S.A., 107


mais informaes www.iesde.com.br
Distribuio Binomial, Distribuio Poisson e Distribuio Normal

Desv_padro o valor de ;

Cumulativo a opo que fornece a probabilidade acumulada ou


a probabilidade individual. No caso, sempre preencher o campo com
VERDADEIRO.

b) So superiores a 44,0mm.

P(X>44) = P(Z>(4440)/2) = P(Z>2) = 0,023 ou 2,3%.

0.4

0.3

0.2
f(x)

0.1

0.0
-4 -2 0 2 4
(x)

108 Este material parte integrante do acervo do IESDE BRASIL S.A.,


mais informaes www.iesde.com.br
Distribuio Binomial, Distribuio Poisson e Distribuio Normal

c) Desviam-se mais de 2,0mm da mdia.

P(X<38) + P(X>42) = P(Z<(3840)/2) + P(Z>(4240)/2)

= P(Z<1) + P(Z>1) = 0,1586 + 0,1586 = 0,3164 ou 31,64%.


0.4

0.3

0.2
f(x)

0.1

0.0

-4 -2 0 2 4
x

Testes para a Distribuio Normal


Muitos testes usados em estatstica partem do princpio que os dados so
provenientes de uma populao normal. Ou seja, s podem ser utilizados se
for comprovada a suposio de normalidade dos dados. Dessa forma, testes
estatsticos devem ser feitos para verificar esse fato.

Existem os testes qualitativos e quantitativos. Entre os testes qualitativos,


existem trs representaes grficas que so comumente utilizadas: o gr-
fico de probabilidade normal (normal probability plot), o da probabilidade
normal positiva (half-normal probability plot) e o da probabilidade normal
sem tendncias (detrended normal probability plot).

As figuras 4 a 6 apresentam esses grficos gerados pelo software Statis-


tica, e selecionando-se a varivel Presso. Caso os pontos caiam prximos
linha reta, pode-se dizer que os dados seguem uma distribuio normal. No
caso da figura 6, fica claro que no h qualquer tendncia caracterstica de
normalidade para o comportamento dos dados de presso.

Este material parte integrante do acervo do IESDE BRASIL S.A., 109


mais informaes www.iesde.com.br
Distribuio Binomial, Distribuio Poisson e Distribuio Normal

Valor normal esperado

Figura 4 Grfico da Probabilidade Normal.


Valor normal esperado

Figura 5 Grfico da Probabilidade Normal Positiva.


Valor normal esperado

Figura 6 Grfico da Probabilidade Normal sem Tendncia.

110 Este material parte integrante do acervo do IESDE BRASIL S.A.,


mais informaes www.iesde.com.br
Distribuio Binomial, Distribuio Poisson e Distribuio Normal

Os testes quantitativos so mais eficientes, pois independem de qualquer


interpretao subjetiva. Eles consistem em calcular uma estatstica, caracte-
rstica de cada teste, e verificar se o seu valor significativo, dependendo do
nvel de significncia escolhido. Caso seja, ento a hiptese de que os dados
seguem uma distribuio normal deve ser rejeitada. Os testes mais usados
para verificar normalidade so:

Kolmogorov-Smirnov usado quando a mdia e o desvio-padro da


distribuio normal so conhecidos e no estimados a partir dos da-
dos. Entretanto, geralmente esses parmetros so calculados a partir
dos dados reais.

Lilliefors usado quando a mdia e o desvio-padro da populao


so desconhecidos e acabam sendo estimados a partir dos dados da
amostra.

Shapiro-Wilks (W) outra opo para verificao de normalidade, em


que se trabalha com os dados ordenados, geralmente quando se tem
menos de 50 observaes.

Caso seja verificado que a populao no seja normal, transformaes da


varivel podem ser feitas, a fim de torn-la normal. A transformao de Box-Cox
uma das transformaes mais utilizadas. Ela consiste em extrair a raiz qua-
drada ou aplicar o logaritmo nos valores da varivel em estudo.

Outra alternativa, caso a suposio de normalidade no seja atingida,


realizar um teste estatstico que no necessita de comprovao de nor-
malidade dos dados, os chamados testes no paramtricos. Apresentare-
mos a seguir o teste no paramtrico de Lilliefors para testar a suposio de
normalidade.

Teste de Lilliefors
No caso em que se deseja testar normalidade e a mdia e a varincia no
so previamente especificadas, mas sim estimados por meio dos dados da
amostra. Deve-se utilizar o teste de Lilliefors. Esse teste tem procedimento
anlogo ao teste Kolmogorov-Smirnov, porm utiliza uma tabela de valores
crticos prpria e mais adequada a esse tipo de situao.

Esse teste de aderncia avalia a concordncia entre a distribuio observa-


da da amostra e uma determinada distribuio terica. Para isso, utilizamos a

Este material parte integrante do acervo do IESDE BRASIL S.A., 111


mais informaes www.iesde.com.br
Distribuio Binomial, Distribuio Poisson e Distribuio Normal

funo distribuio acumulada observada, compara-se com a terica, deter-


mina-se o ponto em que essas distribuies mais divergem, e testamos se essa
divergncia aleatria ou no.

Seja F0 (X) uma distribuio terica acumulada e Sn (X) uma distribuio


observada em uma amostra de n observaes (distribuio emprica).

Encontra-se a seguir o maior valor das diferenas entre F0 (X) e Sn (X) , ou


seja,

D = mx F0 (X ) Sn (X )

Compara-se o valor observado com o valor crtico que se encontra na


tabela em anexo. Se o valor calculado for inferior ao valor tabelado, ento po-
demos considerar que os dados se ajustam bem a uma distribuio Normal.

Exemplo: As produes mdias (sacas) obtidas em um experimento envol-


vendo um novo adubo em plantaes de milho encontram-se tabuladas
abaixo:

Classes fi xi F(xi) S(xi) |F(xi) - S(xi)|


2 700 | 3 000 13 2 850 0,045 0,113 0,068

3 000 | 3 300 18 3 150 0,155 0,269 0,114

3 300 | 3 600 24 3 450 0,371 0,478 0,107

3 600 | 3 900 32 3 750 0,639 0,756 0,117

3 900 | 4 200 17 4 050 0,851 0,904 0,053

4 200 | 4 500 11 4 350 0,958 1,000 0,042

115

Podemos admitir que a produo mdia segue uma distribuio normal?

A coluna S(x) apresenta as probabilidades acumuladas, por exemplo, o


primeiro valor, 0,113, foi obtido pela razo: 13/115 e os demais valores foram
obtidos sempre acumulando o valor das classes anteriores, at a ltima
classe em que S =1. Os valores de F(X) so as probabilidades acumuladas de
uma distribuio normal. Mas para esse clculo, precisamos dos valores dos

112 Este material parte integrante do acervo do IESDE BRASIL S.A.,


mais informaes www.iesde.com.br
Distribuio Binomial, Distribuio Poisson e Distribuio Normal

parmetros da distribuio. Como esses valores no so conhecidos, devem


ser estimados. A estimativa do parmetro a mdia amostral e a estima-
tiva do parmetro 2 a varincia amostral. Assim, teremos a estimativa de
= 3 593,5 sacas (para calcular a mdia, nesse caso, primeiro multiplica-se
o ponto mdio de cada classe, pela sua respectiva frequncia. A partir disso,
soma-se todos os resultados obtidos e divide-se pelo nmero de elemen-
tos 115) e a estimativa da varincia = 191 601,8 (obtida atravs da frmu-
(x i X ) .fi
2

la da varincia: ). Assim, j possvel obtermos as probabilidades


n 1
acumuladas.

Dessa forma, as probabilidades acumuladas para as classes da tabela


acima so calculadas sempre em funo de seu ponto mdio (xi):

P(X 2 850) = P(Z 1,7) = 0,045

P(X 3 150) = P(Z 1,01) = 0,156

P(X 3 450) = P(Z 0,33) = 0,371

P(X 3 750) = P(Z 0,36) = 0,639

P(X 4 050) = P(Z 1,04) = 0,851

P(X 4 350) = P(Z 1,73) = 0,958

Agora, basta calcularmos as diferenas entre a distribuio acumulada ob-


servada pelos dados e a distribuio acumulada terica, calculada por meio
da distribuio Normal. Essas diferenas so apresentadas na ltima coluna.
A maior das diferenas encontrada foi 0,117. Assim, precisamos verificar se
essa diferena pode ou no ser considerada significativa. Consultando a
tabela de valores crticos, a um nvel de significncia de 5% precisaremos
informar o tamanho da amostra (n). Nesse caso, n = 115 e usamos a ltima
0,886
linha da tabela que aponta = 0,082. Como o valor calculado (0,117)
n
superior ao valor crtico tabelado (0,082) rejeitamos a hiptese nula e temos
indcios suficientes para afirmar que a distribuio normal, nesse caso, no
se ajusta aos dados.

Este material parte integrante do acervo do IESDE BRASIL S.A., 113


mais informaes www.iesde.com.br
Distribuio Binomial, Distribuio Poisson e Distribuio Normal

Ampliando seus conhecimentos

(WIKIPDIA)

Jakob Bernoulli, (Basileia, 1654 1705)

Foi professor de matemtica em Basileia,


tendo sido importantssima sua contribuio
geometria analtica, teoria das probabilidades
e ao clculo de variaes.

Em 1713, depois de sua morte, foi publica-


do seu grande tratado sobre a teoria das pro-
babilidades, Ars Conjectandi, que ainda oferece
interesse prtico na aplicao da teoria da pro-
babilidade no seguro e na estatstica.

Simon Denis Poisson (Pithiviers, 1781 Sceaux, 1840)

Engenheiro e matemtico francs, conside-


rado o sucessor de Laplace no estudo da mec-
nica celeste e da atrao de esferoides. Entrou
para a cole Polytechnique (1798), em Palaise-
au, onde se formou, estudando com professo-
res como Joseph Louis Lagrange, Pierre Simon
Laplace e Jean Baptiste Fourier.

Em Recherches sur la probabilit des juge-


ments (1837) apareceu a famosa distribuio
de Poisson de intensa aplicao em estatsti-
ca. Na teoria de probabilidades, descobriu a
forma limitada da distribuio Binomial que
posteriormente recebeu o seu nome e hoje
considerada uma das mais importantes distri-
buies na probabilidade.

114 Este material parte integrante do acervo do IESDE BRASIL S.A.,


mais informaes www.iesde.com.br
Distribuio Binomial, Distribuio Poisson e Distribuio Normal

Abraham de Moivre (Vitry 1667 Londres, 1754)

Matemtico francs que fez carreira profis-


sional na Inglaterra, onde foi professor particu-
lar e tornou-se um destacado pesquisador com
grandes contribuies no campo da teoria das
probabilidades, porm sem se tornar professor
universitrio por causa de sua nacionalidade.
Pioneiro do desenvolvimento de Geometria
Analtica e a Teoria de Probabilidade, pu-
blicou o clebre Doctrine of Chances (1718),
sobre a Teoria do Acaso, onde exps a defini-
o de independncia estatstica junto com
muitos problemas com dados e outros jogos.
Tambm pesquisou estatsticas de mortalida-
de e fundou a teoria de anuidades.

Johann Carl Friedrich Gauss (Braunschweig, 1777 Gttingen, 1855)

Trabalhou em diversos campos da Mate-


mtica e da Fsica, entre eles a Teoria dos N-
meros, Geometria Diferencial, Magnetismo,
Astronomia e ptica. Seu trabalho influenciou
imensamente outras reas.

Em probabilidade e estatstica ficou famoso


pelo desenvolvimento do mtodo dos mni-
mos quadrados e pela descoberta da distribui-
o normal, agora tambm conhecida como
a Distribuio Gaussiniana, a conhecida lei de
probabilidade, definida graficamente por meio
da chamada Curva de Gauss.

Este material parte integrante do acervo do IESDE BRASIL S.A., 115


mais informaes www.iesde.com.br
Distribuio Binomial, Distribuio Poisson e Distribuio Normal

Atividades de aplicao
1. Seja X uma varivel aleatria com distribuio Binomial, baseada em
10 repeties de um experimento. Se p = 0,3, calcule as seguintes pro-
babilidades:

a) P(X8)

b) P(X=7)

c) P(X6)

2. Um jogador de basquetebol acerta um arremesso com probabilidade


0,9. Em cinco arremessos, a probabilidade de o jogador acertar todos :

a) 0,59

b) 0,9

c) 0,81

d) 0,9 x 5

e) 0,45

3. Suponha que 5% de todas as peas que saiam de uma linha de produ-


o sejam defeituosas. Se 10 dessas peas forem escolhidas e inspe-
cionadas, qual ser a probabilidade de que no mximo 2 defeituosas
sejam encontradas?

4. O nmero de navios petroleiros que chegam a determinada refinaria, a


cada dia, tem distribuio de Poisson, com parmetro = 2. As atuais ins-
talaes do porto podem atender a trs petroleiros por dia. Se mais de 3
navios aportarem por dia, os excedentes devem seguir para outro porto.

a) Em um dia, qual a probabilidade de se ter de mandar petroleiros


para outro porto?

b) De quanto as atuais instalaes devem ser aumentadas para permitir


manobrar todos os petroleiros, em aproximadamente 90% dos dias?

c) Qual o nmero esperado de petroleiros a chegar por dia?

d) Qual o nmero mais provvel de petroleiros a serem atendidos


diariamente?

116 Este material parte integrante do acervo do IESDE BRASIL S.A.,


mais informaes www.iesde.com.br
Distribuio Binomial, Distribuio Poisson e Distribuio Normal

e) Qual o nmero esperado de petroleiros a serem atendidos diaria-


mente?

f) Qual o nmero esperado de petroleiros que voltaro a outros


portos diariamente?

5. O nmero de clientes que chegam fila de um banco durante o inter-


valo de uma hora uma varivel aleatria com distribuio de Poisson
com mdia igual a 5. A probabilidade de no haver chegada de clien-
tes durante esse intervalo :

a) e0

b) 0

c) 0,0067

d) 0,034

e) 1

6. Em uma curva Normal Padro, a rea entre -1,96 e 1,96 corresponde


a 0,95. Para uma varivel aleatria X normalmente distribuda com
mdia 10 e varincia 100, a rea correspondente a 95% centrais dessa
curva est situada entre:

a) 9,6 e 29,6

b) 8,6 e 10,6

c) 9,6 e 11,6

d) 18,6 e 20,6

e) 186 e 206

7. Suponha que a distribuio de salrios de uma empresa americana


segue uma distribuio normal, com mdia mensal de US$15.000,00
e desvio-padro de US$2.000,00. Calcule a probabilidade de algum
ganhar menos de US$5.000,00.

8. A fora (em Newton) com que um tecido sinttico se parte representa-


da por uma distribuio normal, dada por: X~N(800,144). O comprador
requer que o tecido tenha no mnimo uma fora de ruptura igual a 772 N.
A amostra de tecido escolhida aleatoriamente. Calcule P(X 772N).

Este material parte integrante do acervo do IESDE BRASIL S.A., 117


mais informaes www.iesde.com.br
Distribuio Binomial, Distribuio Poisson e Distribuio Normal

Gabarito
1.
8 10
a) P(X8) = .0,3x .0,710 x = 0,999
x=0 x

10
b) P(X=7) = .0,37.0,73 = 0,009
7

10 10
c) P(X6)= .0,3x .0,710 x = 0,047
x=7 x

2.

a) 0,95 = 0,59

3. P(no mximo duas peas defeituosas) =


2 10
P(X=0) + P(X=1) + P(X=2) = .0, 05x .0, 9510 x = 0,9885 ou 98,85%
x=0 x

4. O nmero de navios petroleiros que chegam a determinada refinaria, a


cada dia, tem distribuio de Poisson, com parmetro = 2. As atuais ins-
talaes do porto podem atender a trs petroleiros por dia. Se mais de 3
navios aportarem por dia, os excedentes devem seguir para outro porto.
3 e . x
a) P(X > 3) = 1 = 1 0, 857 = 0,143
x=0 x!

b) Se as instalaes forem ampliadas para permitir mais um petrolei-


ro, teremos:
4 e . x
P(X 4)= =0,947
x=0 x!

e . x e 2 .2x
c) E(X) = x =x =2
x=0 x! x=0 x!

d) 1 ou 2 petroleiros. P(X=1) = P(X=2) = 0,2707

e) Qual o nmero esperado de petroleiros a serem atendidos diaria-


mente?

118 Este material parte integrante do acervo do IESDE BRASIL S.A.,


mais informaes www.iesde.com.br
Distribuio Binomial, Distribuio Poisson e Distribuio Normal

Se chegarem 0, 1, 2 ou 3 petroleiros todos sero atendidos. Se vie-


rem mais de 3 petroleiros, somente 3 sero atendidos. Dessa forma:

Nmero esperado:
0.P(X=0) + 1.P(X=1) + 2.P(X=2) + 3.P(X3) = 1,78

f) Se vierem 0,1, 2 ou 3 petroleiros nenhum precisar ir a outros por-


tos. Caso mais de 3 petroleiros cheguem, apenas 3 podem ser re-
cebidos. Assim:

Nmero esperado:
1.P(X=4) + 2.P(X=5) + 3.P(X=6) + 4.P(X=7)+ ... = 0,22

5.
e 5 .50
c) P(X=0) = = 0, 0067
0!
6.

a) 9,6 e 29,6

Para obtermos o valor padronizado 1,96, faremos: X 10 = 1, 96


10
Assim, X = 29,6
X 10
Para obtermos o valor padronizado 1,96, faremos: = 1, 96
10
Assim, X = 9,6
5 000 15 000
( )
7. P X < 5 000 = P Z <
2 000 = P (Z < 5) = 0,0000002871

8. P(X772N)

772 800
=PZ
= P ( Z 2,33) =1 P(Z 2,33) =1 0, 0098 = 0, 99
144

Este material parte integrante do acervo do IESDE BRASIL S.A., 119


mais informaes www.iesde.com.br
Este material parte integrante do acervo do IESDE BRASIL S.A.,
mais informaes www.iesde.com.br
Estimao de parmetros

Introduo
muito comum, quando estudamos uma populao, conhecermos a
distribuio da caracterstica em estudo e no conhecermos os parmetros
dessa distribuio. Ento, com base numa amostra aleatria dessa popula-
o, ns deveremos estimar um valor aproximado para os parmetros da
populao. Estimao o processo que consiste em utilizar dados amostrais
para estimar os valores de parmetros populacionais.

Lembremos que parmetros so funes de valores populacionais, en-


quanto que estatsticas so funes de valores amostrais.

Inicialmente, vejamos a questo de estimao de um modo mais geral.


Consideremos uma amostra (X1, X2, ...,Xn) de uma varivel aleatria que des-
creve uma caracterstica de interesse de uma populao. Seja um parme-
tro que desejamos estimar, como por exemplo a mdia ou a varincia 2 .

Definio 1: Estimador e Estimativa

Um estimador do parmetro qualquer funo das observaes X1, X2,


...,Xn, isto , g(X1, X2, ...,Xn). O valor que g assume, isto , g(x1, x2, ..., xn), referido
como uma estimativa de e usualmente escrito assim: = g(x1, x2, ..., xn).

Note que, segundo essa definio, um estimador qualquer estatstica


cujos valores so usados para estimar (ou uma funo de ).

O problema da estimao , ento, determinar uma funo T = g(X1,


X2, ...,Xn) que seja prxima de , segundo algum critrio. Esses critrios so
vistos mais adiante.

Notao: : parmetro a ser estimado

T : um estimador de

: uma estimativa de

Este material parte integrante do acervo do IESDE BRASIL S.A., 121


mais informaes www.iesde.com.br
Estimao de parmetros

Estimadores pontuais (ou por ponto)


A estimao pontual (por ponto) consiste simplesmente em, falta de
melhor informao, adotar a estimativa disponvel como sendo o valor do
parmetro. A ideia , em sua essncia, extremamente simples, porm a qua-
lidade dos resultados depende fundamentalmente da conveniente escolha
do estimador. Assim, entre os vrios estimadores razoveis que poderemos
imaginar para um determinado parmetro, devemos ter a preocupao de
escolher aquele que melhor satisfaa s propriedades de um bom estimador.
Essas propriedades so dadas logo a seguir.

Definio 2: Estimador pontual

Seja X1, X2, ...,Xn uma amostra aleatria de uma varivel aleatria X que
descreve uma caracterstica de interesse de uma populao com uma distri-
buio fx(x; ). Ento, qualquer estatstica T = g(X1, X2, ...,Xn) um estimador
pontual de .

Notao: = T(x) = g(x1, x2, ..., xn) a estimativa pontual de .

Propriedades dos estimadores pontuais

Estimador no viesado (no viciado)


O estimador T dito um estimador no viesado de se, sua mdia (ou
esperana) for o prprio parmetro que se pretende estimar, isto ,

E(T) = .

Isso significa que os valores aleatrios de T ocorrem em torno do valor do


parmetro , o que , obviamente, desejvel.

Eficincia
Se T e T so dois estimadores no viesados de um mesmo parmetro ,
e ainda

Var(T) < Var(T),

ento, o estimador T dito mais eficiente do que o estimador T.

122 Este material parte integrante do acervo do IESDE BRASIL S.A.,


mais informaes www.iesde.com.br
Estimao de parmetros

Erro mdio quadrtico (erro quadrtico mdio EQM)


Chamaremos de

e=T

o erro amostral que cometemos ao estimar o parmetro da distribuio da


varivel aleatria X do estimador T = g(X1, X2, ...,Xn), baseado na amostra X1,
X2, ...,Xn.

Chama-se de erro quadrtico mdio (EQM) o valor

EQM(T) = E(e2) = E[(T )2].

Ou seja, EQM a esperana do quadrado dos resduos (a diferena entre


a estimativa e o verdadeiro valor do parmetro). Essa quantidade nos ajuda
a avaliar a qualidade do estimador utilizado para estimar .

Assim, chamando de preciso proximidade de cada observao de sua


prpria mdia, enquanto a acurcia mede a proximidade de cada observa-
o ao valor-alvo que se procura atingir, temos que um estimador preciso
tem varincia pequena, mas pode ter EQM grande. Por outro lado, um esti-
mador acurado no viesado e tem varincia pequena, o que implica EQM
pequeno.

Mtodos para encontrar estimadores pontuais


Veremos agora alguns critrios propostos com a finalidade de resolver
o problema de como escolher os estimadores mais adequados. Entre eles
citaremos os mtodos (ou princpios) da mxima verossimilhana e dos
momentos.

Mtodo da mxima verossimilhana


Esse mtodo desenvolvido por Ronald Fisher em 1920 bastante empre-
gado e funciona de forma a encontrar aquele valor do parmetro que ma-
ximiza a probabilidade de obter a amostra observada, na ordem particular
em que os elementos da mesma aparecem.

Exemplo: Suponha que temos n provas de Bernoulli com Pr(sucesso) = p,


0 < p < 1 e X = nmero de sucessos. Devemos tomar como estimador aquele
valor de p que torna a amostra observada a mais provvel de ocorrer.

Este material parte integrante do acervo do IESDE BRASIL S.A., 123


mais informaes www.iesde.com.br
Estimao de parmetros

Suponha, por exemplo, que n = 3 e obtemos 2 sucessos e 1 fracasso. A


funo de verossimilhana

L(p) = Pr(2 sucessos e 1 fracasso) = p2(1 p).

Agora precisamos obter o mximo dessa funo. Isso obtido atravs de


derivao:

p2. (1 p )
L(p) = =2p.(1 p) p2 p.(2 3p) = 0
p
2
do que seguem p = 0 ou p = 2/3. fcil ver que o ponto de mximo p = ,
3
que o estimador de mxima verossimilhana (E.M.V.) de p.

Definio 3: Funo de verossimilhana e estimador de mxima


verossimilhana

Uma varivel aleatria X tem densidade f(x), e x1, x2, ..., xn os valores amos-
trais. Definimos a funo de verossimilhana, L, como

L = f(X1; ). f(X2; ). ... . f(Xn; )

Ou seja, o produto de cada uma das funes de probabilidade (ou funes


de densidade) das variveis X1, X2, ..., Xn.

O estimador de mxima verossimilhana de , baseado na amostra X1, X2,


...,Xn , o valor de de que maximiza L, considerada como uma funo de
para uma dada amostra X1, X2, ...,Xn.

Observao: Para se encontrar , podemos recorrer s tcnicas de clculo di-


ferencial integral ou fazermos por inspeo da funo L. Ao recorrermos s tc-
nicas de clculo, na maioria das vezes, torna-se mais fcil trabalhar com a trans-
formao ln[L], e o valor que maximiza L o mesmo que maximiza o ln[L].
Exemplo: Considerando o exemplo anterior, de modo geral, o EMV do par-
X
metro p de uma binomial, com X sucessos em n provas p = .
n
Para se chegar nesse estimador, observe que a funo de verossimilhana
neste caso
L(p) = px (1 p)n x,

e que o mximo dessa funo ocorre no mesmo ponto que ln[L(p)]. Portanto,
ln[L(p)] = x . ln(p) + (n x) . ln(1 p),

124 Este material parte integrante do acervo do IESDE BRASIL S.A.,


mais informaes www.iesde.com.br
Estimao de parmetros

e derivando
x nx
ln[L( p )] = = 0,
p np
X
de onde obtemos p = .
n

Mtodo dos momentos


Este mtodo foi o primeiro a ser proposto e usado. Consiste em supor que
os momentos da distribuio da populao coincidem com os da amostra.
Expressando os parmetros populacionais a estimar em funo dos momen-
tos de ordem menor, obtm-se um sistema de equaes cuja soluo for-
nece as estimativas desejadas. Esse mtodo produz, em geral, estimadores
consistentes, mas que, muitas vezes, no so os mais eficientes.

Ento basicamente o que se faz montar um sistema de equaes com


tantas equaes quantos forem os parmetros a estimar. Assim, temos r o
r-simo momento em torno de zero, isto ,
r
r = E(X ),

e Mj o j-simo momento amostral em torno de zero, isto ,


1. j
Mj = Xi
n i
Podemos formar o conjunto de equaes:

M1 = 1

M2 = 2

Mk = k ,

ou seja, Mr = r , com r = 1, 2, ..., k.

soluo desse sistema de equaes chamamos de estimador de


obtido pelo mtodo dos momentos.

Este material parte integrante do acervo do IESDE BRASIL S.A., 125


mais informaes www.iesde.com.br
Estimao de parmetros

Exemplo: Considere uma amostra aleatria X1, X2, ...,Xn de X ~ N(; 2) (Leia:
X tem distribuio Normal com parmetros (; 2)). Faa = (1, 2) = (; 2).
Estime e 2 .

Soluo:

1 = E(X1) = E(X) = = 1

2 = E(X2) = 2 + 2 = 2 + 12
1.
(I) M1 = 1 Xi = = X
n i
1. 1
(Xi X )
2 2 2
(II) M2 = 2 Xi = 2 + 2 =
n i n i

Intervalos de Confiana (I.C.)


At agora todos os estimadores apresentados foram estimadores pontuais,
isto , especificam um nico valor para o estimador. Esse procedimento no
permite julgar qual a possvel magnitude do erro que estamos cometendo.
Da surge a ideia de construir os intervalos de confiana em torno da estimativa
pontual, de modo que esse intervalo tenha uma probabilidade conhecida de
conter o verdadeiro valor do parmetro.

Ao intervalo que, com probabilidade conhecida, deve conter o valor


real do parmetro chamaremos intervalo de confiana para esse parmetro.
probabilidade, que designaremos por = 1 , de que um intervalo de
confiana contenha o valor do parmetro chamaremos nvel de confiana ou
grau de confiana do respectivo intervalo. Veremos que a probabilidade
de erro na estimao por intervalo, isto , a probabilidade de errarmos ao afir-
mar que o valor do parmetro est contido no intervalo de confiana.

Exemplo: A estimativa pontual da mdia populacional feita por um valor X.


Qualquer que seja a amostra, teremos um erro que ser X . De acordo com
o Teorema do Limite Central, teremos

(
e= X ~ N 0; 2x )
2
2
com x = . Daqui podemos determinar qual a probabilidade de conter
n
erros de determinada magnitude. Por exemplo,

Pr( |e| < 1,96 x ) = 0,95


126 Este material parte integrante do acervo do IESDE BRASIL S.A.,
mais informaes www.iesde.com.br
Estimao de parmetros

ou
Pr( |X - | < 1,96 x ) = 0,95

que equivalente a

Pr( 1,96 x < X < + 1,96 x ) = 0,95 (I)

Esta afirmao probabilstica pode ser escrita do seguinte modo:

Pr( X 1,96 x < <X + 1,96 x) = 0,95 (II)

Convm lembrar que no uma varivel aleatria mas um parmetro,


e a expresso (II) deve ser interpretada do seguinte modo: construdos todos
os intervalos da forma X 1, 96 x , 95% deles contero o verdadeiro valor do
parmetro .

Sorteada uma amostra e encontrada sua mdia X , e admitindo conheci-


do x , podemos construir o intervalo

X 1,96 x .

Este intervalo pode ou no conter o parmetro , mas pelo exposto acima


temos 95% de confiana, de que contenha.

Definio 4: Seja (X1, X2, ..., Xn) uma amostra aleatria de uma populao
e o parmetro de interesse. Se T um estimador de , e conhecida distribui-
o amostral de T, sempre possvel achar dois valores t1 e t2, tal que

Pr( t1 < < t2 ) = 1 =

sendo um valor fixado e 0 < < 1.

Para uma dada amostra, teremos dois valores fixos t1 e t2, e o intervalo de
confiana para com nvel de confiana indicado do seguinte modo:

IC(: ) = [t1, t2] .

Intervalo de confiana para com 2 = 20 conhecido


O intervalo de confiana para com 100 % de confiana dado por:


I.C.( : ) = X z . 0 ; X + z . 0 ,
2 n
2 n

com Pr(Z < z) = Pr(Z > z) = .
2
Este material parte integrante do acervo do IESDE BRASIL S.A., 127
mais informaes www.iesde.com.br
Estimao de parmetros

Lembrando que z o valor da distribuio Normal padro cuja rea


2

direita igual a .
2
Exemplo: Um metalrgico fez quatro determinaes do ponto de fuso do
mangans resultando em (graus centgrados): 1 269, 1 271, 1 263 e 1 265. Vamos
construir o intervalo de confiana para a mdia dessa populao assumindo
que a amostra aleatria e que o ponto de fuso do mangans uma varivel
aleatria com distribuio normal (,25), ou seja, a varincia conhecida e igual
a 25. Use = 0,01.

Assim, basta substituirmos as informaes do problema em


0
X z 2 . ; X + z . 0 . Temos X = 1 267 e o valor de Z obtido igual
n
2 n

a 2,576 fazendo a consulta tabela da distribuio normal padro.

Este valor obtido atravs do valor 2 = 0,005 que o tamanho da rea


direita (ou esquerda) da curva normal. Como a tabela solicita o tamanho
da rea sob a curva normal que vai do ponto central (zero) at o limite, deve-
mos fazer 0,5 0,005 = 0,495 .

Assim,

. 5 . 5
1267 2,576 4 ; 1267 + 2,576 4 = [1267 6, 44; 1267 + 6, 44 ] =

= (1 260,56 ; 1 273,44) so os limites do intervalo de confiana.

Resolvendo o problema com a planilha Excel poderamos usar a funo


INT.CONFIANA fazendo:

Alfa, nvel de significncia empregado, neste caso igual a 0,01;

Desv_Padro, desvio-padro conhecido, neste caso igual a 5;

Tamanho, tamanho da amostra, aqui temos n = 4 observaes.


0
O resultado fornecido pela planilha o erro de estimativa ou seja, z . .
2 n

128 Este material parte integrante do acervo do IESDE BRASIL S.A.,


mais informaes www.iesde.com.br
Estimao de parmetros

Intervalo de confiana para com 2 desconhecido


O intervalo de confiana para com 100 % de confiana dado por:

S S
I.C.( : ) = X t . ; X + t.
n n


com Pr(t(n1) < t) = Pr(t(n1) > t) =
.
2
Lembrando que tn1 o valor da distribuio t de Student com n1 graus

de liberdade cuja rea direita igual a .
2
Portanto, agora, com a varincia desconhecida usamos a tabela t de Stu-
dent em vez da tabela Z.

Exemplo: suponhamos agora, usando o problema resolvido acima, que a va-


rincia fosse na verdade desconhecida. Assim, teramos que obter uma esti-
mativa com base na amostra. Assim, teramos S = 3,6514 (por meio da frmu-

( x i X ) . fi
2

la de varincia: ) e o intervalo seria um pouco modificado pois


n 1
tn1 = 5,8408 consultando a tabela t de Student com nvel de significncia de
1%. Ento o intervalo ser:
Este material parte integrante do acervo do IESDE BRASIL S.A., 129
mais informaes www.iesde.com.br
Estimao de parmetros

. 3, 6514 ;1 267 + 5, 8408. 3, 6514 = ( 1 267 10,66 ; 1 267 + 10,66) =


1 267 5, 8408 4
4
= (1256,34; 1277,66) . Observe que nesse caso o erro de estimativa maior
que quando consideramos a varincia conhecida.

Na planilha Excel, uma forma de obter o intervalo acima utilizando a fer-


ramenta de Anlise de dados (Estatstica Descritiva), que fornece uma srie
de resultados a respeito da amostra:

130 Este material parte integrante do acervo do IESDE BRASIL S.A.,


mais informaes www.iesde.com.br
Estimao de parmetros

Intervalo de confiana para a razo de varincias 12/ 22


O intervalo de confiana para 12/ 22 com 100 % de confiana dado por:

S12 . 1 S12 . 1
I.C.(2 : ) = 2 2
; ,
S2 F2 S2 F1

onde F1 e F2 so tais que, Pr(Fn < F1) = Pr(Fn . Esse interva- > F2) =
1 1; n21 1 1; n21
2
lo muito til para verificarmos se duas populaes so homogneas. Para
1
encontrar F1, fazemos Pr(Fn 1; n 1 > ) = .
2 1
F1 2

Lembrando que Fn 1; n 1 o valor da distribuio F com n11 e n21 graus


1 2

de liberdade.

Exemplo: Queremos verificar se duas mquinas produzem peas com a


mesma homogeneidade quanto resistncia tenso. Para isso, sortea-
mos duas amostras de 6 peas de cada mquina, e obtivemos as seguintes
resistncias:

Mquina A 145 127 136 142 141 137

Mquina B 143 128 132 138 142 132

Vamos obter o intervalo de confiana para a razo das varincias conside-


rando um nvel de significncia de 10%. Primeiramente obtemos as varin-
cias dos dados acima. S12 = 40 e S22 = 36,97. Consultando a tabela F em anexo
temos F1 = 0,198 e F2 = 5,05.

F2 foi obtido primeiro alimentando a tabela com n11=5 e n21= 5 graus de


1
liberdade e o valor fornecido foi 5,05. Para obter F1 fazemos = 0,198.
5, 05
40 . 1 40 . 1
Assim, temos o intervalo ; = ( 0,214 ; 5,46 ).
36, 97 5, 05 36, 97 0,198
Como o valor 1 est includo no intervalo, isto significa que os dois grupos
so homogneos ou seja, as varincias podem ser consideradas iguais.

Este material parte integrante do acervo do IESDE BRASIL S.A., 131


mais informaes www.iesde.com.br
Estimao de parmetros

Intervalo de confiana para proporo


Vamos agora obter um intervalo de confiana para p. Sabemos que X
= nmero de sucessos nas n provas de Bernoulli, ento X tem uma dis-
tribuio aproximadamente normal, com mdia = np e varincia
2 = n.p.(1-p). Consequentemente,

X n.p
Z= ~ N(0; 1),
n.p.(1 p )
ou ainda,
X
p p p
Z= n = ~ N(0; 1).
p.(1 p ) p.(1 p )
n n

Assim, o intervalo para P ser

(1 p )
p. (1 p )
p.
p z . p p + z . , (III)
2 n 2 n

onde z tal que Pr(Z < z) = Pr(Z > z) =.
2
Exemplo: Suponha que em n = 400 provas, obtemos k = 80 sucessos. Vamos
obter um intervalo de confiana para p, com = 0,90.

Neste caso, p = 80 = 1 0, 2 = 0, 8, ento, o intervalo de


= 0, 2 e (1 p)
400
confiana, utilizando a expresso (III), dado por:

(0, 2).(0, 8)
0, 2 (1, 64). = 0, 20, 033,
400

ou seja,

IC(p: 90%) = [ 0,167; 0,233].

Note que o valor Z/2 =1,64 foi obtido consultando a tabela Z (Normal
padro) para um nvel de significncia de 10% (1 ). Distribui-se, neste
caso, 5% de significncia para cada lado do intervalo de confiana. Assim, na
tabela, devemos procurar o valor 0,45 (0,5 0,05) que ir ser encontrado na
linha 1,6 e na coluna 0,04, ento Z/2 = 1,64.

132 Este material parte integrante do acervo do IESDE BRASIL S.A.,


mais informaes www.iesde.com.br
Estimao de parmetros

Erro de Estimao e Tamanho das amostras


Acabamos de ver como construir intervalos de confiana para os principais
parmetros populacionais. Em todos os casos, supusemos dado o nvel de con-
fiana desses intervalos. Evidentemente, o nvel de confiana deve ser fixado
de acordo com a probabilidade de acerto que se deseja ter na estimao por
intervalo. Sendo conveniente, o nvel de confiana pode ser aumentado at
to prximo de 100% quanto se queira, mas isso resulta em intervalos de am-
plitude cada vez maiores, o que significa perda de preciso na estimao.

claro que seria desejvel termos intervalos com alto nvel de confiana
e pequena amplitude, o que corresponderia a estimarmos o parmetro em
questo com pequena probabilidade de erro e grande preciso. Isso, porm,
requer uma amostra suficientemente grande, pois, para n fixo, confiana e
preciso variam em sentido opostos.

Veremos a seguir como determinar o erro de estimao e o tamanho das


amostras necessrias nos casos de estimao da mdia ou de uma propor-
o populacional.

O erro num intervalo de estimao diz respeito diferena entre a mdia


amostral e a verdadeira mdia da populao. Como o intervalo tem centro
na mdia amostral, o erro mximo provvel igual metade da amplitude do
intervalo (semiamplitude).

Vimos que o intervalo de confiana para a mdia da populao normal


quando conhecido tem semiamplitude dada por:

e = z (IV)
2 n
Fixando e e n na expresso acima, podemos determinar , o que equi-
vale a determinar a confiana de um intervalo de amplitude conhecida. Po-
demos tambm, fixados e e, determinar n, que o problema da determi-
nao do tamanho da amostra necessria para se realizar a estimao por
intervalo com confiana e a preciso desejadas. Desse modo temos que,
2
z .
n = 2 (A)
e
Esta ser a expresso usada para a determinao do tamanho da amostra
necessria, se for conhecido.

Este material parte integrante do acervo do IESDE BRASIL S.A., 133


mais informaes www.iesde.com.br
Estimao de parmetros

No conhecendo o desvio-padro da populao, deveramos substitu-lo


por sua estimativa S e usar a distribuio t de Student, ou seja, substituir por S
e usar t de Student na expresso (IV). Ocorre, porm, que, no tendo ainda sido
retirada a amostra, no dispomos, em geral, do valor de S. Se no conhecemos
nem ao menos uma limitao superior para , a nica soluo , ento, colher
uma amostra-piloto de tamanho n e, com base nela, obtermos uma estimativa
S, empregando, a seguir, a expresso
2
tn 1. S (B)
n=
e
Se n n, a amostra-piloto suficiente para a estimao. Caso contrrio,
deveremos retirar, ainda, da populao, os elementos necessrios comple-
mentao do tamanho mnimo da amostra.

Procedemos de forma anloga se desejamos estimar uma proporo po-


pulacional com determinada confiana e dada preciso. Da expresso (III)
podemos obter
2
z
n = 2 . p. (1 p ) (V)
e

O obstculo determinao do tamanho da amostra por meio da expres-


so (V) est em desconhecermos p e tampouco dispormos de sua estimativa
p , pois a amostra ainda no foi retirada. Essa dificuldade pode ser resolvida
por meio de uma amostra-piloto, analogamente ao caso descrito na estima-
o de , ou analisando-se o comportamento do fator p.(1- p) para 0 p 1.
Pode-se observar facilmente que p.(1- p) a expresso de uma parbola cujo
ponto mximo p = .

Desse modo, se substituirmos, na expresso (V), p.(1-p) por seu valor


mximo, , seguramente o tamanho de amostra obtido ser suficiente para
a estimao, qualquer que seja p. Isso equivale a considerar
2 2
z 1 z
n = 2 . = 2 (VI)
e 4 2 e

Pelo mesmo raciocnio, se sabemos que seguramente p p0 ou


p p0 , podemos usar o limite p0 em vez de p, na expresso (VI), obtendo
um tamanho de amostra suficiente, pois teremos ento p.(1p) p0.(1p0).

134 Este material parte integrante do acervo do IESDE BRASIL S.A.,


mais informaes www.iesde.com.br
Estimao de parmetros

Evidentemente, usando-se a expresso (VI), corre-se o risco de dimensio-


nar uma amostra bem maior do que a realmente necessria. Isso ocorrer se
p for, na realidade, prximo de 0 ou 1. Se o custo envolvido for elevado e pro-
porcional ao tamanho da amostra, ser desejvel evitar que tal fato ocorra,
sendo mais prudente a tomada de uma amostra-piloto. Inversamente, em
muitos casos, prefervel, por simplificao, proceder conforme indicado,
com base em uma limitao superior para o fator p.(1-p).

Exemplo: Qual o tamanho de amostra necessria para se estimar a mdia de


uma populao infinita cujo desvio-padro igual a 4, com 98% de confian-
a e preciso de 0,5?

Ao definirmos a preciso da estimativa desejada, estamos estabelecendo


o erro mximo que desejamos cometer, com a confiana dada. Logo, essa
preciso equivale numericamente prpria semiamplitude do intervalo de
confiana. Portanto, utilizando a expresso A dado que o desvio-padro
conhecido, temos:
2
z . 2,33. 4
2
2
n= = = 347,50.
e 0,5

O valor de Z/2 =2,33 foi obtido consultando a tabela Z da distribuio


normal padro considerando /2 = 0,01. Devemos encontrar, na tabela, por-
tanto, o valor referente rea 0,50 0,01 = 0,49.
Logo, necessitamos de uma amostra de 348 elementos.
Exemplo: Qual o tamanho de amostra suficiente para estimarmos a proporo
de defeituosos fornecidos por uma mquina, com preciso de 0,02 e 95% de
confiana, sabendo que essa proporo seguramente no superior a 0,20?

Agora estamos estimando uma proporo e precisamos dimensionar uma


amostra com 95% de confiana e margem de erro de 2%.

Ento usando a expresso V, temos


2
z 1, 960
2

n = 2 .p 0 .(1 p 0 ) = . 0, 20 . 0, 80=1 536, 64


e 0, 02

O valor de Z/2 = 1,96 foi encontrado na tabela da distribuio normal


padro a partir do valor 0,5 0,025 = 0,475. Somando a linha 1,90 mais a
coluna 0,06, obtemos 1,96 como sendo o valor crtico.
Logo, ser suficiente uma amostra de 1 537 elementos.
Este material parte integrante do acervo do IESDE BRASIL S.A., 135
mais informaes www.iesde.com.br
Estimao de parmetros

Ampliando seus conhecimentos

Tcnica Bootstrap
(BARROS, 2005)

O mtodo Bootstrap foi originalmente proposto por Bradley Efron em um


influente artigo publicado no Annals of Statistics, em 1979. Esse mtodo de
simulao se baseia na construo de distribuies amostrais por reamostra-
gem, e muito utilizado para estimar intervalos de confiana de parmetros,
em circunstncias em que outras tcnicas no so aplicveis, em particular
no caso em que o nmero de amostras reduzido. Essa tcnica foi extrapo-
lada para a resoluo de muitos outros problemas de difcil resoluo por
meio de tcnicas de anlise estatstica tradicionais (baseadas na hiptese de
um elevado nmero de amostras). Pode ser utilizado, por exemplo, para esti-
mar o vis e a varincia de estimadores ou de testes de hipteses calibrados.
O mtodo tem por base a ideia de que o pesquisador pode tratar sua amos-
tra como se ela fosse a populao que deu origem aos dados e usar amostra-
gem com reposio da amostra original para gerar pseudoamostras. A partir
dessas pseudoamostras, possvel estimar caractersticas da populao, tais
como mdia, varincia, percentis etc. Vrios esquemas diferentes de simula-
o Bootstrap tm sido propostos na literatura e muitos deles apresentam
bom desempenho em uma ampla variedade de situaes.

Suponha disponvel um conjunto de observaes e o interesse em fazer


inferncias a respeito do parmetro . Sabe-se que o estimador no viciado
de a mdia amostral x cujo erro padro pode ser calculado por:

1/2
1 .n 2
Erro padro da mdia = ( xi x )
n.(n 1) i=1

Por outro lado, suponha o interesse em fazer inferncia para algum outro
parmetro, como, por exemplo, o coeficiente de correlao, no h nenhuma
frmula analtica simples que permite calcular o seu erro padro. O mtodo
de Bootstrap foi projetado para fazer simulaes para este tipo de proble-
ma. A ideia bsica da simulao Bootstrap amostrar os dados originais com
reposio, obtendo-se dados analticos, em que, desses dados, calcula-se a
estatstica de interesse.

136 Este material parte integrante do acervo do IESDE BRASIL S.A.,


mais informaes www.iesde.com.br
Estimao de parmetros

Repete-se esse processo inmeras vezes at a obteno de B valores. Calcu-


la-se o erro padro desses valores e ento, tem-se o erro padro da estatstica.
Dado o custo alto e a escassez consequente de dados em muitas aplicaes,
combinadas com o custo reduzido e abundncia do poder da computao, o
mtodo de Bootstrap se torna uma tcnica muito atraente por extrair infor-
maes de dados empricos.

Atividades de aplicao
1. Para encontrar o estimador de mxima verossimilhana de um par-
metro, devemos maximizar a funo de verossimilhana atravs de
que procedimento?

a) Derivando a funo de verossimilhana.

b) Maximizando a probabilidade de sucesso.

c) Obtendo o valor da funo que minimiza o erro.

d) Encontrando um estimador que no tendencioso.

e) Aumentando o tamanho da amostra.

2. Foram sorteadas 15 famlias com filhos num certo bairro e observado


o nmero de crianas de cada famlia, matriculadas na escola. Os da-
dos foram: 1, 1, 2, 0, 2, 0, 2, 3, 4, 1, 1, 2, 0, 0, e 2. Obtenha as estimativas
correspondentes aos seguintes estimadores da mdia de crianas na
escola nesse bairro:

1 = (mnimo + mximo)/2

2 = (X1 + X2)/2

3 = X

Qual deles o melhor estimador da mdia e por qu?

3. Suponha que X tenha distribuio N(,4). Uma amostra de tamanho


25 fornece mdia amostral X = 78,3. Determine um intervalo de con-
fiana de 99% para .

Este material parte integrante do acervo do IESDE BRASIL S.A., 137


mais informaes www.iesde.com.br
Estimao de parmetros

4. Registraram-se os valores 0,28; 0,30; 0,27; 0,33; 0,31 segundos, obtidos


em 5 medies de tempo de reao de um indivduo a um certo est-
mulo. Determine os limites de confiana de:
a) 95%;
b) 99% para o tempo mdio de reao.
5. O fabricante de uma droga medicinal declarou que ela era 90% eficaz
em curar uma alergia, em um perodo de 8 horas. Em uma amostra de
200 pessoas que tinham a alergia, a droga curou 160 pessoas. Deter-
minar se a declarao do fabricante legtima. Considere = 0,01.
6. O comprimento de certo tipo de eixo, produzido por uma indstria
automobilstica tem uma pequena variao de pea por pea. Sabe-se
que o desvio-padro de 4mm. Uma amostra aleatria de 100 desses
eixos forneceu um comprimento mdio de 4,52mm.
a) Construa o intervalo de confiana 90%, para a mdia do compri-
mento desses eixos.
b) D a sua interpretao para o intervalo encontrado. Ser que po-
demos dizer que o intervalo encontrado tem probabilidade de
0,90 de conter a verdadeira mdia?
7. Interprete e comente as afirmaes abaixo:
a) A mdia de salrio inicial para recm-formados em Administrao
est entre 8 e 10 salrios mnimos com 95% de confiana.
b) Quanto maior for o tamanho da amostra, maior a probabilidade
da mdia amostral estar prxima da verdadeira mdia.
8. Desejamos coletar uma amostra de uma varivel aleatria X com dis-
tribuio Normal de mdia desconhecida e varincia 30. Qual deve ser
o tamanho da amostra para que, com 0,92 de probabilidade, a mdia
amostral no difira da mdia da populao por mais de 3 unidades?
9. Numa pesquisa de mercado, desejamos estimar a proporo de pes-
soas que compram determinada marca de xampu.
a) Que tamanho de amostra deveremos ter para que, com probabili-
dade 0,90, a proporo amostral no se desvie do verdadeiro valor
por mais de 0,05?
b) Se tivermos a informao adicional de que a aceitao do xampu
no mnimo 0,8, qual deve ser ento o tamanho da amostra?
138 Este material parte integrante do acervo do IESDE BRASIL S.A.,
mais informaes www.iesde.com.br
Estimao de parmetros

Gabarito
1.
a) derivando a funo de verossimilhana.

2. m1 = 2
m1 = 1
x 21
m3 = x = = = 1, 4
n 15
m3 o melhor estimador porque leva em considerao todos os valores da
amostra, proporcionando um resumo de dados e por isso pode ser consi-
derado mais confivel.

3. Os limites do intervalo so obtidos a partir da seguinte expresso:

. . . 2 . 2
X Z 2 n ; X+Z 2 n = 78,3 2,58 25 ; 78,3+2,58 25 = [77,27; 79,33]

4.
a) 95%
0 0
X z 2 . n ; X + z 2 . n

0, 024 0, 024
= 0,298 2,78 . ; 0,298 + 2,78 . = [ 0,268; 0,328 ]
5 5
b) 99%
0 0
X z 2 . n ; X + z 2 . n =

0, 024 0, 024
= 0,298 4, 60 . ; 0,298 + 4, 60 . = [ 0,248; 0,348 ]
5 5

p .(1 p)

p .(1 p)
5. p z 2 . p p + z . =
n 2 n
0, 80. (0,20 ) 0, 80. (0,20 )
= 0, 80 2,58. ; 0, 80 + 2,58.
200 200

= (0,723 ; 0,873)

Este material parte integrante do acervo do IESDE BRASIL S.A., 139


mais informaes www.iesde.com.br
Estimao de parmetros

O valor 0,90 declarado pelo fabricante, no est includo no intervalo.


Portanto, no temos evidncias de que a declarao do fabricante seja
legtima, ao nvel de significncia de 1%.

6.

a) X z 0,05 . 0 ; X + z 0,05 . 0 =
n n
4 4
4,52 1,64 . 100 ; 4,52+1,64. 100 = (3,864; 5,176)

b) Sim, a probabilidade do verdadeiro valor da mdia (valor popu-


lacional) estar includo nos limites do intervalo encontrado de
90%.

7.

a) O verdadeiro valor do salrio inicial mdio estar entre 8 e 10 salrios


mnimos com probabilidade de 95%.

b) Quanto maior o tamanho da amostra, menor o erro de estima-


tiva e portanto a mdia amostral estar mais prxima da mdia
populacional. Veja, por exemplo em

0 0 0
X z 2 . n ; X + z 2 . n o erro de estimativa z 2 . n menor
a medida que se aumenta o valor de n.

8. Queremos obter uma amostra para estimar a mdia de uma distribui-


o normal que respeite a seguinte probabilidade:


P X z . 0 ; X+ z . 0 = 0,92
2 n 2 n
O valor de Z na tabela ser obtido encontrando a rea 0,5 /2 =
0,5 0,04 = 0,46. Este valor 1,75.
30 30
Assim, P X 1,75 . ; X +1,75 . = 0,92
n n
Como o erro de estimativa, segundo o enunciado, no deve ser superior a
3 unidades, ento:
30
1,75 . = 3 . Isolando n, teremos que ele ser maior que 10,28.
n

140 Este material parte integrante do acervo do IESDE BRASIL S.A.,


mais informaes www.iesde.com.br
Estimao de parmetros

9. Neste problema, o nvel de confiana fixado de 90% e consequente-


mente, o nvel de significncia de 10%.

a) Como no temos uma estimativa prvia da proporo amostral,


consideramos p=0,05. Desta forma, teremos:
2 2
z 2 . 1 z 2
2
1,64
n= = n= =268,96
e 4 2 e 2.0,05

b) Agora temos uma informao prvia sobre a proporo amostral


(0,8) e assim o clculo da amostra ser:
2 2
z 1,64
n= 2 . p0 .(1 p 0 )= . 0,20 . 0,80=172,13
e 0,05

Este material parte integrante do acervo do IESDE BRASIL S.A., 141


mais informaes www.iesde.com.br
Este material parte integrante do acervo do IESDE BRASIL S.A.,
mais informaes www.iesde.com.br
Testes de Hipteses: Conceitos

Introduo

Os testes estatsticos so regras de decises, vinculadas a um fenmeno


da populao, que nos possibilitam avaliar, com o auxlio de uma amostra,
se determinadas hipteses (suposies, conjecturas, algo qualquer que um
pesquisador esteja estabelecendo) podem ser rejeitadas ou no.

No campo da Inferncia Estatstica, a busca por respostas acerca de certas


caractersticas de uma populao estudada de fundamental importncia.
Apenas com base nessas caractersticas que se devem estabelecer regras e
tomar decises sobre qualquer hiptese formulada no que se refere popu-
lao. Dessa forma, escolhida uma varivel X e colhida uma amostra aleatria
da populao, podemos estar interessados em inferir a respeito de alguns
de seus parmetros (mdia, varincia e proporo, por exemplo) e, tambm,
sobre o comportamento da varivel (a sua distribuio de probabilidade).
A realizao de testes de hipteses nos fornece meios para que possamos,
com determinado grau de certeza, concluir se os valores dos parmetros ou
mesmo a distribuio associados populao considerada, podem repre-
sent-la de forma satisfatria. Nesse contexto, temos os Testes Paramtricos,
vinculados estimao dos valores dos parmetros e os Testes de Adern-
cia, associados busca da distribuio de X. Na verdade, quando realizamos
Testes Paramtricos, esses esto intimamente ligados aos Testes de Adern-
cia, pois, para se obter a determinada certeza citada, necessrio que saiba-
mos qual a distribuio de probabilidade que melhor se ajusta s estimativas
observadas por intermdio das amostras.

A maior parte das cincias se utiliza da tcnica estatstica denominada


Teste de Hipteses. Podemos citar algumas suposies: a roleta de certo cas-
sino honesta; a propaganda de um produto veiculada na televiso surtiu o
efeito desejado; uma rao desenvolvida para certo animal proporcionou um
ganho maior de peso do que aquela j utilizada h anos; vale a pena trocar
as mquinas desta indstria por outras, mais modernas; qual medicamento
mais eficaz no tratamento de certa doena; a metodologia empregada na
educao infantil est associada ao aprendizado.

Este material parte integrante do acervo do IESDE BRASIL S.A., 143


mais informaes www.iesde.com.br
Testes de Hipteses: Conceitos

A teoria geral da construo e anlise de testes de hipteses um captu-


lo muito importante da Estatstica. Seus fundamentos tericos foram desen-
volvidos por Neyman e Pearson, e o mtodo usual de obteno de testes o
mtodo da razo de verossimilhana.

Vamos supor que exista uma hiptese, a qual considerada vlida at


prova em contrrio, referente a um dado parmetro da populao. Essa hip-
tese testada com base em resultados amostrais, sendo aceita ou rejeitada,
conforme veremos a seguir.

Sob diversos aspectos, o problema dos testes de hipteses o oposto


ao da estimao, mas h tambm vrios pontos que so comuns aos dois
casos. A estimao feita com base em uma varivel convenientemente
escolhida, funo dos elementos da amostra, denominada estimador. Nos
problemas de teste de hipteses, nossas concluses baseiam-se em vari-
veis calculadas a partir da amostra ou amostras disponveis. Os mesmos
critrios para a escolha de bons estimadores, em problemas de estimao,
vo agora nos orientar na escolha da varivel de teste adequada. Por exem-
plo, vimos que a mdia amostral X o estimador da mdia populacional .
Ento, pelas mesmas razes, se desejarmos testar uma hiptese referente
ao verdadeiro valor da mdia da populao, a varivel de teste mais ade-
quada ser X .

A seguir, introduzimos a ideia de teste de hipteses por meio de um exem-


plo hipottico que, partindo de uma situao simples, ser gradualmente
ampliado para atender situao geral de teste de hipteses.

Exemplo: Suponha que uma indstria compre de certo fabricante para-


fusos cuja carga mdia de ruptura por trao especificada em 50kg e o
desvio-padro das cargas de ruptura suposto igual a 4kg e independente
do valor mdio.

O comprador deseja verificar se um grande lote de parafusos recebidos


deve ser considerado satisfatrio. Existe alguma razo para se temer que
esse lote possa ser formado por parafusos, cuja carga mdia de ruptura seja
inferior a 50kg, o que seria indesejvel. Por outro lado, o fato de a carga mdia
de ruptura ser eventualmente superior a 50kg no preocupa o comprador,
pois, nesse caso, os parafusos seriam de qualidade superior especificada.

Ento, o comprador adota o seguinte critrio para decidir se concorda em


comprar o lote ou se prefere devolv-lo ao fabricante: tomar uma amostra

144 Este material parte integrante do acervo do IESDE BRASIL S.A.,


mais informaes www.iesde.com.br
Testes de Hipteses: Conceitos

aleatria de 25 parafusos do lote e submet-los a ensaio de ruptura; se a


carga mdia de ruptura observada nessa amostra for maior ou igual a 48kg,
ele comprar o lote; caso contrrio, ele se recusar a comprar.

Esse comprador est testando a hiptese de que a carga mdia de rup-


tura dos parafusos do lote seja 50kg, contra a alternativa de que ela seja in-
ferior a 50kg.

Suponha que, depois de realizado o teste, ns afirmssemos que a popu-


lao dos valores da carga de ruptura tem realmente = 50kg. Poderamos
estar errados nessa afirmao? A resposta sim, o que levaria o comprador
a aceitar um lote abaixo das especificaes exigidas. Ento, para melhor en-
tendermos a regra de deciso adotada, interessante estudarmos os tipos
de erros que podemos cometer.

Podemos cometer dois tipos de erro:

Erro tipo I : rejeitar o lote de parafusos quando, na verdade, o lote era satis-
fatrio, isto , rejeitar quando realmente = 50kg.

Erro tipo II : aceitar o lote de parafusos quando, na verdade, o lote no era


satisfatrio, isto , aceitar quando < 50kg.

O erro tipo I, levaria o comprador a deixar de adquirir um lote perfeita-


mente satisfatrio e o erro tipo II, levaria o comprador a adquirir um lote
insatisfatrio, com prejuzo produo.

Conceitos Fundamentais
Consideremos uma amostra (X1, X2, ..., Xn) de uma varivel aleatria que
descreve uma caracterstica de interesse de uma populao. Seja um esti-
mador (uma estatstica) de um parmetro dessa populao.

Hiptese nula e Hiptese alternativa


Uma hiptese estatstica, que denotaremos por H, qualquer afirmao
sobre a populao em estudo. Em geral, o que nos interessa so as afirma-
es sobre os parmetros da populao.

Usualmente, vamos decidir entre duas hipteses, uma bastante especfi-


ca a respeito do valor do parmetro, chamada de hiptese nula e denotada

Este material parte integrante do acervo do IESDE BRASIL S.A., 145


mais informaes www.iesde.com.br
Testes de Hipteses: Conceitos

por H0; e a segunda fornecendo uma alternativa mais geral, chamada de


hiptese alternativa e denotada por H1.

Suponha, por exemplo, que desejamos testar a afirmao de que o par-


metro da populao igual a um valor qualquer 0. Nesse caso, as hipteses
so definidas de acordo com o interesse da pesquisa e podemos estabelecer
testes especficos conforme o objetivo do pesquisador. Por exemplo:

a) Teste Bilateral (Bicaudal) : H0 : = 0 vs H1 : 0

Note que o objetivo desse teste decidir se o parmetro populacional


no difere de 0, no importando se maior ou menor do que 0.

ou

b) Teste Unilateral Direita: H0 : = 0 vs H1 : > 0

Esse teste tem por finalidade verificar se, o parmetro no s difere de 0,


mas tambm, se maior do que 0. Objetivamente, poderamos citar uma
pesquisa que visa verificar se um determinado candidato a prefeito conse-
guiu aumentar sua inteno de votos aps a realizao de um debate com
seu adversrio realizado pela televiso.

ou ainda

c) Teste Unilateral Esquerda H0 : = 0 vs H1 : < 0

Esse teste tem por finalidade verificar se o parmetro no s difere de


0, mas, tambm, se menor do que 0. Nesse contexto, poderamos esta-
belecer uma Regra de Deciso para verificar, por exemplo, se o retorno de
investimento de determinado fundo menor do que 0 . Pois, se for menor,
no recomendado continuarmos investindo nesse fundo.

Erros Tipo I e Tipo II


A hiptese nula, H0, pode ser falsa ou verdadeira. Entretanto, o proces-
so de sua rejeio ou aceitao diferente daquele usado para provar uma
proposio matemtica que tambm falsa ou verdadeira. Em contraste,
h sempre um grau de incerteza na deciso tomada a respeito de uma hip-
tese estatstica. Esse o preo a ser pago por estarmos trabalhando em uma
situao em que a variabilidade inerente.

Erro tipo I: rejeitar H0 quando esta verdadeira.

146 Este material parte integrante do acervo do IESDE BRASIL S.A.,


mais informaes www.iesde.com.br
Testes de Hipteses: Conceitos

Erro tipo II: no rejeitar H0 quando esta falsa.

A probabilidade de se cometer um erro tipo I depende dos valores dos pa-


rmetros da populao e designada por . O valor de , para H0 verdadeira,
chamado nvel de significncia do teste; isto , o nvel de significncia de um
teste a probabilidade com que desejamos correr o risco de um erro tipo I. O
resultado da amostra cada vez mais significante para rejeitar H0 quanto menor
for o nvel . Usualmente, esses valores so fixados em 5%, 1% ou 0,1%.

A probabilidade de se cometer um erro tipo II designada por . A deter-


minao do valor j mais difcil, pois, usualmente no se especificam va-
lores fixos para o parmetro na situao alternativa. Podemos atribuir alguns
valores, escolhidos dentro do caso alternativo, e encontrar o valor corres-
pondente de .

O esquema a seguir mostra os erros que podemos cometer e suas


probabilidades.

Situao especfica na populao (realidade)


H0 verdadeira H0 falsa
aceita H0 correto erro tipo II

Deciso (1) ()
rejeita H0 erro tipo I correto
() (1)

Deve-se notar que as probabilidades e so condicionadas realidade.


Fica claro, tambm, no esquema, que o erro tipo I s pode ser cometido se H0
for verdadeira, e o erro tipo II, se H0 for falsa. Da mesma forma, o erro tipo I s
pode ser cometido se H0 for rejeitada e o erro tipo II, se H0 for aceita.

O erro tipo I controlado pelo pesquisador, e ele que define a margem


de erro que est disposto a correr. Existem vrios fatores que influenciam na
escolha do nvel de significncia. Em pesquisas, como nas cincias exatas,
biolgicas, agronmicas, em que as variveis so mais fceis de mensurar, os
instrumentos de medida so confiveis, o controle de fatores intervenientes
razovel, o conhecimento da rea maior, a gravidade das consequncias do
erro menor, entre outros, permitem um maior rigor e, portanto, pode-se ser
mais exigente, diminuindo o nvel de significncia. Contudo, em pesquisas,
nas cincias humanas, que lida com pessoas, com construtos polmicos, ins-
trumentos ainda no testados, as consequncias do erro no so to graves,
podendo ser mais flexvel. Via de regra, usa-se o nvel de 5%.

Este material parte integrante do acervo do IESDE BRASIL S.A., 147


mais informaes www.iesde.com.br
Testes de Hipteses: Conceitos

Regio Crtica
A faixa de valores da varivel de teste que leva rejeio de H0 deno-
minada Regio Crtica (RC) do teste. A faixa restante constitui a regio de
aceitao.

Essa regio construda de modo que P( RC dado que Ho verdadeira)


seja igual a , um nmero fixado.

Se o valor observado da estatstica pertence a RC, rejeitamos H0; caso con-


trrio, no rejeitamos H0.

Poder de um teste
Definida uma hiptese H0 sobre um parmetro = 0, e determinada a
regio crtica RC para sua estatstica , a funo poder do teste () indica a
probabilidade de uma deciso correta, segundo as diversas alternativas do
parmetro, e pode ser usada para se decidir entre dois testes, indicando qual
deles melhor para testar uma mesma hiptese.

Regra de Deciso
Vamos tomar o seguinte exemplo referente ao rendimento bruto de um
certo fundo de investimentos. Poderamos criar uma Regra de Deciso com
base em = 0, 01 e H1: < 1,71% . Assim, poderamos estabelecer a seguinte
regra: caso coletarmos uma amostra cujo resultado observado for menor do
que 1,67%, decidiremos por rejeitar H0, pois a probabilidade disso ocorrer
menor do que = 0,01. Ou seja, sob a referncia (=0,01), a amostra coletada
dever ser vista como rara se a hiptese nula for verdadeira (H0 : = 1,71%).
Consequentemente, seria mais conveniente optarmos por afirmar que
< 1,71%.

interessante refletir sobre a seguinte pergunta: o valor 1,67% menor


do que 1,71%? Obviamente que perguntando dessa forma todos diriam que
sim. Porm, antes que saibamos como esses resultados foram obtidos, a
melhor resposta seria: depende. Considere, ento, as seguintes reflexes:

1. Se medssemos os rendimentos de dois fundos do tipo A e B, da mes-


ma maneira e obtivssemos, respectivamente, 1,67% e 1,71%. Con-
cluiramos que A , de fato, pior do que B;

148 Este material parte integrante do acervo do IESDE BRASIL S.A.,


mais informaes www.iesde.com.br
Testes de Hipteses: Conceitos

2. Se o interesse for descobrir e comparar o rendimento mdio de dois


fundos (A e B), poderamos obter essas mdias de vrias maneiras. Ve-
jamos dois casos:

a) com a coleta das duas populaes, as mdias obtidas seriam as m-


dias verdadeiras, ou seja, os valores paramtricos (A e B). Assim,
diramos novamente que 1,67% menor do que 1,71%.

b) coletando-se a populao de A e uma amostra de B, e obtidas as


mdias A = 1,67% e x B = 1,71%, no poderamos afirmar com ab-
soluta certeza que 1,67% menor do que 1,71%. Pois, sabemos
que X uma varivel aleatria e apenas com base no comporta-
mento de X A que poderamos decidir se, provavelmente, A < B.
Assim, se tanto no fundo A quanto no fundo B, ou nos dois, fo-
rem coletadas amostras, a resposta para a questo proposta sem-
pre depender do comportamento das estimativas das possveis
amostras. Comportamento esse, representado por meio de uma
distribuio de probabilidades e, portanto, toda deciso a respeito
da questo vir acompanhada de um grau de incerteza. A Infern-
cia Estatstica, por intermdio do Teste de Hipteses, visa respon-
der a essa questo.

Passos para a construo de um teste de hipteses


Daremos abaixo uma sequncia que pode ser usada sistematicamente
para qualquer teste de hipteses sobre um parmetro populacional .

Passo 1: Definir qual a hiptese nula, H0, a ser testada e qual a hiptese
alternativa H1.

Passo 2: Escolher a estatstica de teste (estimador) adequada que ser


usada para julgar a hiptese nula H0.

Passo 3: Escolher o nvel de significncia e estabelecer a regio crtica.

Passo 4: Calcular o valor da estatstica de teste com base em uma amos-


tra de tamanho n extrada da populao.

Passo 5: Rejeitar H0 se o valor calculado da estatstica pertencer regio


crtica. No rejeitar H0 se o valor calculado da estatstica no per-
tencer regio crtica.

Este material parte integrante do acervo do IESDE BRASIL S.A., 149


mais informaes www.iesde.com.br
Testes de Hipteses: Conceitos

Valor p (p-valor)
a probabilidade de cometer o erro de tipo I (rejeitar H0 quando ela
verdadeira), com os dados de uma amostra especfica. Este valor calculado
pelo software estatstico, assim o comparamos com o nvel de significncia
escolhido e tomamos a deciso. Se o p-valor for menor que o nvel de signifi-
cncia escolhido rejeitamos H0, caso contrrio, no rejeitamos H0.

Testes de hipteses no paramtricos


A Estatstica no paramtrica pode ser definida como uma coleo de
mtodos estatsticos aplicada a conjuntos de dados em que as suposies
distribucionais necessrias para aplicao de uma tcnica clssica (Interva-
lo de Confiana, Teste de Hiptese) no so satisfatoriamente atendidas.
tambm bastante til no tratamento de dados nos quais o nvel de mensura-
o das observaes no dos melhores.

Tais procedimentos so usados h muitos anos, embora no com o nome


atual. O rei Nabucodonossor aplicou informalmente o teste da permutao,
600 anos a.C. Clculos da probabilidade binomial foram feitos em 1710 pelo
mdico ingls Arbuthnott.

O primeiro livro-texto denotado aos mtodos no paramtricos foi es-


crito por Siegel (1956). No entanto, Savage designa o ano de 1936 como o
verdadeiro incio da Estatstica no paramtrica, marcado pela publicao do
artigo de Hotelling e Pabst sobre correlao por postos.

O tema central em Estatstica a chamada Inferncia Estatstica que aborda


dois tipos de problemas fundamentais: a estimao de parmetros de uma
populao e o teste de hipteses. Na Inferncia Estatstica procuramos tirar
concluses sobre um grande nmero de eventos com base na observao
de apenas parte deles. Os testes relacionados Inferncia Estatstica nos
dizem qual a margem de diferena que deve ser encontrada na amostra
para que possamos afirmar que elas representam realmente diferenas nos
tratamentos (grupos). Como nesses procedimentos, na verdade so testadas
hipteses a respeito dos parmetros populacionais, esses so chamados de
Paramtricos.

Algumas tcnicas no so to rigorosas na especificao de condi-


es acerca dos parmetros da populao da qual a amostra foi obtida.

150 Este material parte integrante do acervo do IESDE BRASIL S.A.,


mais informaes www.iesde.com.br
Testes de Hipteses: Conceitos

Consequentemente, as concluses no so to poderosas quanto s obtidas


por tcnicas paramtricas. Essas tcnicas so chamadas de distribuio livre
ou no paramtricas.

Vantagens e desvantagens

Vantagens
Dispensam normalidade dos dados.

O p-valor exato (no caso paramtrico o clculo do p-valor se baseia


numa distribuio de probabilidade terica).

So testes mais simples.

So teis quando difcil estabelecer uma escala de valores quantita-


tivos para os dados.

So mais eficientes que os paramtricos quando no existe normalidade.

Desvantagens
Proporcionam um desperdcio de informaes, j que em geral no
consideram a magnitude dos dados.

Quando as suposies do modelo estatstico so atendidas so menos


eficientes que os paramtricos.

A utilizao das tabelas dos testes mais complicada.

Escolha do teste estatstico adequado


importante a definio de critrios que nos ajudem a decidir qual o
teste ideal para determinado problema.

Um desses critrios, sem dvida, o Poder do Teste (1 ). O teste que


apresenta uma maior probabilidade de rejeitar H0 quando H0 falsa, entre
todos os testes de nvel , deve ser escolhido. Mas s isso no basta e nem
sempre simples de ser obtido, portanto precisamos de outras informaes
para escolher o teste mais adequado:

Como foi obtida a amostra, ou seja, o plano experimental.

Este material parte integrante do acervo do IESDE BRASIL S.A., 151


mais informaes www.iesde.com.br
Testes de Hipteses: Conceitos

Natureza da populao (pessoas, objetos, reas, animais etc.).

Tipo de mensurao dos dados (escala de mensurao).

Quando se usa um teste paramtrico existe uma srie de pressupostos a


serem verificados, alm do nvel mnimo de mensurao exigido ser a escala
intervalar.

Quando essas suposies no so verificadas possvel que o teste nos


leve a resultados errneos.

No caso no paramtrico, o primeiro critrio a ser verificado deve ser o


nvel de mensurao dos dados.

Nvel de Mensurao
a) Escala Nominal

o mais baixo nvel de mensurao. Utiliza smbolos ou nmeros sim-


plesmente para distinguir elementos em diferentes categorias (como
um nome), no havendo entre eles, geralmente, possibilidade de com-
parao do tipo maior-menor, melhor-pior.

Exemplos:

Masculino (M), Feminino (F)

Perfeito (1), Defeituosa (0)

Europeu (1), Americano(2), Africano (3), Asitico(4)

b) Escala Ordinal

Utiliza nmeros apenas para classificar elementos numa ordem cres-


cente ou decrescente. Existe assim algum tipo de relao entre as ca-
tegorias embora a diferena entre elas seja de difcil quantificao.

Exemplos:

Classes socioeconmicas (A, B, C, D, E)

Patentes do Exrcito (soldado, cabo, sargento, etc.)

Opinio de um determinado produto (Ruim, Regular, Bom, Muito


bom, Excelente)
152 Este material parte integrante do acervo do IESDE BRASIL S.A.,
mais informaes www.iesde.com.br
Testes de Hipteses: Conceitos

c) Escala Intervalar (Intervalo de medida)

Ocorre quando a escala tem as caractersticas da escala ordinal e ainda


possvel quantificar a diferena entre dois nmeros dessa escala.

Exemplo: Temperatura, Peso, Altura, Rendimentos

Observao: alguns autores apontam ainda a existncia de outra es-


cala: a Escala de Razo, equivalente a escala intervalar, porm o valor
zero o verdadeiro ponto de origem.

Principais planos experimentais


Existem algumas situaes que podem ser consideradas as mais frequen-
tes no cotidiano de quem aplica tcnicas estatsticas para analisar dados
amostrais. So os planos experimentais que orientam o pesquisador con-
duo do seu estudo, seguindo os princpios da metodologia cientfica. Po-
demos considerar, abaixo, os planos mais comuns:

Caso de uma amostra


Neste plano nosso interesse verificar se determinada amostra pode
provir de uma populao especificada. So usualmente conhecidos como
testes de aderncia ou bondade do ajuste. Nesse caso, retira-se uma amostra
aleatria e compara-se a distribuio amostral com uma distribuio de inte-
resse. Os principais testes utilizados nesse caso so:

Teste Z;

Teste t de Student;

Teste Qui-quadrado;

Teste de Kolmogorov-Smirnov;

Teste de Lilliefors.

Caso de duas amostras relacionadas


Muitas vezes estamos interessados na comparao de dois tratamen-
tos. No entanto muito comum ocorrer uma grande disparidade entre os
elementos dos grupos. Para evitar que um grupo de indivduos seja natu-

Este material parte integrante do acervo do IESDE BRASIL S.A., 153


mais informaes www.iesde.com.br
Testes de Hipteses: Conceitos

ralmente superior ao outro, comum proceder algum tipo de pareamento


entre os indivduos. O tipo mais comum de pareamento utilizando cada in-
divduo como seu prprio controle, submetendo-o aos dois tratamentos em
ocasies diferentes. Outro tipo de pareamento tentar selecionar, para cada
par, indivduos que sejam to semelhantes quanto possvel. Por exemplo:
gmeos, rgos (ouvidos, braos, ps etc.). So tambm conhecidos como
testes do tipo antes-depois. Os principais testes so:

Teste t para amostras dependentes;

Teste de McNemar;

Teste de Wilcoxon.

Caso de duas amostras independentes


Estes testes se aplicam a planos amostrais em que se deseja comparar
dois grupos independentes. Esses grupos podem ter sido formados de duas
maneiras diferentes:

a) Extraiu-se uma amostra da populao A e outra amostra da popu-


lao B.

b) Indivduos da mesma populao foram alocados aleatoriamente a


um dos dois tratamentos em estudo.

Diferente do caso de dados pareados, no se exige que as amostras


tenham o mesmo tamanho. Os principais testes so:

Teste Z;

Teste t de Student para amostras independentes;

Teste Qui-quadrado;

Teste de Mann-Whitney.

Caso de k amostras relacionadas


Neste tipo de plano so comparados 3 ou mais grupos (tratamentos) rela-
cionados entre si. Imagine que n indivduos sejam observados, cada um, em
3 ou mais momentos tendo sido registrada a sua respectiva evoluo. Ento
teremos a seguinte estrutura de dados:

154 Este material parte integrante do acervo do IESDE BRASIL S.A.,


mais informaes www.iesde.com.br
Testes de Hipteses: Conceitos

Tratamentos
Indivduo 1 2 3 ... k

1 X11 X21 X31 ... Xk1

2 X12 X22 X32 ... Xk2

3 X13 X23 X33 ... Xk3

... ... ... ... ... ...

n X1n X2n X3n ... Xkn

Onde as unidades amostrais utilizadas no experimento foram avaliadas


sob as k condies de avaliao ou tratamentos (tempo, dietas, distncia
etc.). Os principais testes so:

Anlise de Dados Longitudinais;

Teste de Friedman.

Caso de k amostras independentes


Neste tipo de plano so comparados 3 ou mais grupos (tratamentos) in-
dependentes entre si, cada grupo pode ter um nmero diferente de obser-
vaes. Os principais testes so:

Anlise de Varincia (ANOVA);

Teste de Kruskal-Wallis.

Ampliando seus conhecimentos

Apresentao dos resultados dos testes


(CAMPOS, 2007)

Uma vez realizados os testes adequados, estes do o seu parecer, sob a


forma de um valor numrico, apresentado (conforme o teste) como valor de
F (anlise de varincia), de t (teste t, de Student), U (Mann-Whitney), Q (teste
de Cochran), (letra grega qui, testes diversos, que usam o chamado qui-
quadrado), z (McNemar e Wilcoxon), H (Kruskal-Wallis), ou (letra grega rho,
utilizada nos testes de correlao).

Este material parte integrante do acervo do IESDE BRASIL S.A., 155


mais informaes www.iesde.com.br
Testes de Hipteses: Conceitos

No significncia estatstica (H0)


Em todos os casos, o valor numrico calculado pelo teste deve ser confron-
tado com valores crticos, que constam em tabelas apropriadas a cada teste.
Essas tabelas geralmente solicitam duas informaes, que permitem locali-
zar o valor crtico tabelado: nvel de significncia (usualmente 5% ou 1%), e o
nmero de graus de liberdade das amostras comparadas.

Valores menores que o tabelado indicam que ele no pode ser conside-
rado diferente do que se obteria se as amostras comparadas fossem iguais.
Enfim, estaria configurado o que se chama de no significncia estatstica, ou
de aceitao da hiptese nula (H0).

Significncia estatstica (H1)


Porm, se o valor calculado for igual ou maior que o tabelado, aceita-se
a chamada hiptese alternativa (H1), ou seja, a hiptese de que as amos-
tras comparadas no podem ser consideradas iguais, pois o valor calculado
supera aquele que se deveria esperar, caso fossem iguais, lembrando sempre
que a igualdade, em Estatstica, no indica uma identidade. Isso quer dizer
que pode eventualmente haver alguma diferena, mas esta no deve ultra-
passar determinados limites, dentro dos quais essa diferena decorre apenas
da variao natural do acaso, tpica da variao entre as repeties do ensaio.
No caso de o valor calculado ser maior do que o valor tabelado, diz-se que h
significncia estatstica, que pode ser ao nvel de 5%, se o valor calculado for
maior que o valor tabelado para 5%. Ou ao nvel de 1%, caso o valor calculado
seja igual ou maior que o valor tabelado para 1%.

A seguir uma tabela que resume as concluses que devem ser tomadas em
relao a cada p-valor observado:

P 0,10 No existe evidncia contra H0

P < 0,10 Fraca evidncia contra H0

P < 0,05 Evidncia signficativa

P < 0,01 Evidncia altamente significativa

P < 0,001 Evidncia extremamente significativa

156 Este material parte integrante do acervo do IESDE BRASIL S.A.,


mais informaes www.iesde.com.br
Testes de Hipteses: Conceitos

Atividades de aplicao
1. Nas situaes descritas abaixo, descreva qual a populao, a amos-
tra, o parmetro de interesse e o tipo de teste que poderiam ser usa-
dos para estimar o parmetro de interesse:

a) Para avaliar a proporo de alunos do Curso X favorveis a elimina-


o da disciplina de Estatstica do currculo, selecionou-se aleato-
riamente 80 alunos do curso.

b) Para avaliar a eficcia de um curso que orienta como fazer boa ali-
mentao e exerccios fsicos, selecionou-se uma amostra aleatria
de 20 pessoas obesas de uma certa cidade.

c) Para avaliar uma campanha contra o fumo, conduzida pela pre-


feitura de uma cidade, acompanhou-se uma amostra aleatria de
100 fumantes.

2. Com o objetivo de avaliar se o desempenho de um certo candidato,


numa apresentao em pblico, foi positivo, selecionou-se uma amos-
tra de uma grande plateia, indagando a cada um, sua opinio sobre o
candidato, antes e depois da apresentao: se melhorou ou piorou.

a) Apresente as hipteses nula e alternativa.

b) Se, numa amostra de 11 pessoas, 8 passaram a ter uma opinio


mais favorvel, enquanto 3 passaram a ter opinio menos favor-
vel sobre o candidato, o que se pode afirmar com base somente
nessas informaes?

c) Se, numa amostra de 200 pessoas, 130 passaram a ter melhor im-
presso, enquanto 70 pioraram sua impresso sobre o candidato,
o que se pode afirmar?

d) Qual o tipo de teste mais adequado para analisar estes dados?

3. Para avaliar o efeito de um brinde nas vendas de determinado pro-


duto, planeja-se comparar as vendas em lojas que vendem o produto
com o brinde, com as vendas em lojas que no oferecem o brinde.
Para reduzir o efeito de variaes devidas a outros fatores, as lojas fo-
ram agrupadas em pares, de tal forma que as lojas de um mesmo par
so as mais similares possveis, em termos, por exemplo, do volume

Este material parte integrante do acervo do IESDE BRASIL S.A., 157


mais informaes www.iesde.com.br
Testes de Hipteses: Conceitos

de vendas, localidade, identidade de preos etc. Em cada par de lojas,


uma passou a oferecer o brinde e a outra no.

a) Apresente as hipteses nula e alternativa.

b) Os resultados das vendas, em quantidade de unidades vendidas,


foram os constantes na tabela a seguir. Com base nesses dados,
responda se os mesmos mostram alguma evidncia para se afir-
mar que a oferta do brinde aumentou as vendas.

Par de loja Vendas sem brinde Vendas com brinde


1 33 43
2 43 39
3 26 33
4 19 32
5 37 43
6 27 46

c) Qual o tipo de teste mais adequado para analisar estes dados?


4. Fez-se uma pesquisa junto a 83 diretores das maiores agncias de pro-
paganda canadenses, a fim de se determinar a eficcia relativa de co-
merciais de 15 segundos em relao dos comerciais de 30 segundos.
Em uma escala de 5 pontos (1 = excelente e 5 = fraco), os entrevistados
avaliaram os comerciais de TV de 15 e 30 segundos quanto a conscien-
tizao da marca, memorizao da ideia principal, persuaso da ca-
pacidade de relatar uma histria emocional. Observe a tabela abaixo
com os resultados do estudo e responda as seguintes perguntas:

a) Qual a hiptese nula e a hiptese alternativa?

b) Que testes estatsticos poderiam ser aplicados nesse caso e qual o


nvel de significncia mais indicado?

c) O que se pode observar a respeito dos resultados obtidos?

Classificao mdia de comerciais de 15 e 30 segundos quanto s 4 variveis


de comunicao

Capacidade de
Conscientizao Memorizao Persuaso
relatar uma histria
da marca da ideia bsica
emocional
Comerciais 15 s 30 s 15 s 30 s 15 s 30 s 15 s 30 s
Escore mdio 2,5 1,9 2,7 2,0 3,7 2,1 4,3 1,9

158 Este material parte integrante do acervo do IESDE BRASIL S.A.,


mais informaes www.iesde.com.br
Testes de Hipteses: Conceitos

Gabarito
1.

a) A populao a totalidade de alunos do Curso X. A amostra com-


posta pelos 80 alunos do Curso, selecionados aleatoriamente. O
parmetro de interesse a proporo de alunos favorveis a elimi-
nao da disciplina de Estatstica do currculo. O teste adequado
seria para testar a proporo de uma amostra.

b) A populao a totalidade de pessoas obesas com certa idade. A


amostra composta pelas 20 pessoas obesas daquela faixa etria,
selecionadas aleatoriamente. O parmetro de interesse a mdia
de perda de peso, ou seja peso antes peso depois (do curso). O
teste adequado seria para comparar amostras relacionadas.

c) A populao a totalidade de moradores fumantes da cidade. A


amostra composta pelas 100 pessoas fumantes, selecionadas
aleatoriamente. Um dos parmetros de interesse pode ser a mdia
de cigarros consumidos. O teste adequado seria para testar a m-
dia de uma amostra.

2.

a) H0 = opinio antes = opinio depois

Ha = opinio antes opinio depois

b) Embora a maioria das pessoas tenha se manifestado mais favor-


vel ao candidato, no seria prudente afirmarmos que este resulta-
do possa ser considerado estatisticamente significativo.

c) Com este tamanho de amostra j possvel realizar um teste de


significncia. Muito provavelmente, iremos rejeitar a hiptese
nula, de igualdade das opinies. Poderemos, se o teste comprovar,
inferir os resultados para toda a populao e afirmar com um certo
nvel de confiana, que se passou a ter melhor impresso sobre o
candidato aps a apresentao.

d) Um teste para comparao da proporo de duas amostras relaciona-


das (antes e depois da apresentao).

Este material parte integrante do acervo do IESDE BRASIL S.A., 159


mais informaes www.iesde.com.br
Testes de Hipteses: Conceitos

3.

a) H0 = vendas sem brinde = vendas com brinde

Ha = vendas sem brinde vendas com brinde

b) Com exceo de uma loja, todas as 5 demais apresentaram maio-


res ndices de venda ao oferecer o brinde. um forte indicativo de
maiores vendas com oferta do brinde, embora o nmero de lojas
participantes deste experimento possa ser considerado baixo.

c) O tipo de teste mais adequado seria um teste para comparao


de mdias de duas amostras independentes, embora pudesse ser
utilizado tambm um teste para comparao de mdias de duas
amostras relacionadas, desde que bem justificado o critrio de pa-
reamento das unidades observadas.

4.

a) H0 = eficcia relativa comerciais de 15 segundos = eficcia relativa co-


merciais de 30 segundos

Ha = eficcia relativa comerciais de 15 segundos < eficcia relativa co-


merciais de 30 segundos

b) Caso o tamanho de amostra seja satisfatrio e a suposio de nor-


malidade seja comprovada, pode ser aplicado um teste param-
trico para comparao de duas amostras independentes. Caso os
pressupostos para aplicao de um teste paramtrico no sejam
atendidos, podemos recorrer a um teste no paramtrico para
comparao de duas amostras independentes. O nvel de signifi-
cncia mais indicado seria de 1% ou 5%.

c) Nas 4 variveis avaliadas podemos observar que os comerciais de


30 segundos apresentaram uma melhor avaliao em relao aos
comerciais de 15 segundos.

160 Este material parte integrante do acervo do IESDE BRASIL S.A.,


mais informaes www.iesde.com.br
Este material parte integrante do acervo do IESDE BRASIL S.A.,
mais informaes www.iesde.com.br
Este material parte integrante do acervo do IESDE BRASIL S.A.,
mais informaes www.iesde.com.br
Testes de Hipteses

Introduo
Apresentaremos, neste captulo, os testes de hipteses mais utilizados do
ponto de vista paramtrico e no paramtrico. Os testes paramtricos exigem
que seja verificada a pressuposio de que os dados coletados sejam normal-
mente distribudos enquanto que os testes no paramtricos no fazem essa
exigncia e por isso so considerados menos consistentes, sendo, porm, uma
alternativa a ser usada caso os pressupostos de normalidade no sejam obser-
vadas ou, ainda, quando o tamanho da amostra no suficientemente grande.
No caso paramtrico, como o nome j diz, o objetivo testar hipteses acerca
de parmetros, com base em dados amostrais. No caso no paramtrico, as
hipteses no so formuladas em termos de parmetros, j que no h preo-
cupao com a distribuio que os dados seguem. Para cada tipo de plano ex-
perimental existem testes especficos a serem utilizados. Nos preocuparemos
aqui com os seguintes planos: a) comparao de duas amostras independen-
tes; b) comparao de duas amostras relacionadas; c) comparao de trs ou
mais amostras independentes; d) teste de aderncia.

Comparao de duas amostras independentes


Neste caso estamos interessados em comparar duas populaes, repre-
sentadas cada uma por suas respectivas amostras. No necessariamente as
duas amostras tm o mesmo tamanho. Os principais testes so:

Teste t de Student para mdias;

Teste Z para propores;

Teste Mann-Whitney (no paramtrico)

Teste t de Student para comparao de mdias


A mdia de uma populao uma de suas caractersticas mais importan-
tes. muito comum desejarmos tomar decises a seu respeito, por exemplo,

Este material parte integrante do acervo do IESDE BRASIL S.A., 163


mais informaes www.iesde.com.br
Testes de Hipteses

quando so comparadas duas amostras ou dois tratamentos. Considere as


seguintes hipteses:

H0 : 1 = 2 vs H1 : 1 < 2

ou

H0 : 1 = 2 vs H1 : 1 > 2

ou ainda

H0 : 1 = 2 vs H1 : 1 2

As duas primeiras situaes definem os chamados testes unilaterais,


porque a regio de rejeio est somente em uma das caudas da distribui-
o. A ltima situao define os testes bilaterais, no qual a regio de rejeio
se distribui igualmente em ambas as caudas da distribuio.

Assim, se estivermos interessados em mostrar que um parmetro signi-


ficativamente superior ou inferior a um determinado valor, teremos que rea-
lizar um teste unilateral e teremos uma nica regio de rejeio, do tamanho
do nvel de significncia fixado. Mas se, no entanto, estivermos interessados
em mostrar que um determinado parmetro diferente de um determinado
valor (sem especificar se inferior ou superior) teremos que realizar um teste
bilateral e a regio de rejeio ser dividida em duas partes iguais, nas extre-
midades da curva do teste, em que cada regio de rejeio ter metade do
nvel de significncia.

Dessa forma, para realizao do teste, deveremos primeiramente estimar


a mdia e o desvio-padro de cada uma das amostras envolvidas e calcular
a estatstica do teste:

(X1 = X2 )
t=
S12 S22 (1)
+
n1 n2

a qual tem distribuio t de Student com n1 + n2 2 graus de liberdade. Nesse


caso, supe-se que as varincias amostrais so diferentes. Caso as varincias
no sejam diferentes, devemos usar:

(X1 - X2 )
t= (2)
1 1
Sp . +
n1 n2
164 Este material parte integrante do acervo do IESDE BRASIL S.A.,
mais informaes www.iesde.com.br
Testes de Hipteses

onde:
X1 e X 2 so as mdias amostrais do grupo 1 e 2 respectivamente;
S1e S2so os desvios-padro do grupo 1 e 2 respectivamente;
n1 e n2 so os tamanhos de amostra do grupo 1 e 2 respectivamente;

(n1 -1).S12 + (n2 -1).S22


Sp2 =
n1 + n2 - 2

A tabela a seguir resume o procedimento a ser seguido:

Tabela 1 Deciso nos testes de comparao de mdias


Hipteses Deciso

H0 : 1 = 2 vs H1 : 1 < 2 rejeita H0 se, t < t() n +n 2


1 2

H0 : 1 = 2 vs H1 : 1 > 2 rejeita H0 se, t >t() n +n 2


1 2

H0 : 1 = 2 vs H1 : 1 2 rejeita H0 se, | t | > t(/2) n +n 2


1 2

Exemplo: Um teste de resistncia a ruptura feito em seis cabos usualmen-


te utilizados acusou resistncia mdia de 3 530kg com varincia de 660kg.
Um novo cabo foi testado e verificou-se uma resistncia mdia de 3 560kg e
varincia de 600kg em uma amostra de tamanho 8. Compare as mdias dos
dois cabos, ao nvel de significncia = 5%. E se a varincia do cabo novo
fosse 850kg?

Assim, queremos testar se H0 : 1 = 2 vs H1 : 1 2. O teste bilateral pois


se deseja verificar se os dois cabos diferem em relao resistncia mdia,
sem especificar para que lado. Usaremos a expresso (2), pois vamos conside-
rar as varincias iguais (ou seja, muito prximas). Rigorosamente, essa verifi-
cao deveria ser feita atravs da aplicao do teste F para razo de varincias.
Considerando vlida essa suposio de igualdade das varincias, teremos:
(6 -1).660 + (8 -1).660 (3530 - 3560)
Sp2 = = 625 e t = = 2, 22..
6+8-2 1 1
25 +
6 8
O valor crtico t(/2)n +n 2 para = 5% dado por 2,179. Este valor en-
1 2

contrado na tabela t de Student consultando a coluna 0,025 (pois o teste


bilateral) e a linha 12 (n1 + n2 2). Assim, teremos 2 valores crticos, 2,179 e
Este material parte integrante do acervo do IESDE BRASIL S.A., 165
mais informaes www.iesde.com.br
Testes de Hipteses

+2,179. Como t < 2,179, rejeitamos a hiptese nula e afirmamos que existe
diferena significativa entre os dois tipos de cabo. Os dois cabos diferem sig-
nificativamente em relao resistncia mdia.
2
Agora, considerando que S2 = 850kg teremos,usando a expresso (1):

(3 530 - 3 560)
t= = -2, 04
660 850
+
6 8

e, neste caso, a nossa deciso ser exatamente o contrrio do que obtivemos,


ou seja, como t > 2,179 no rejeitamos a hiptese nula e no observamos
diferena entre os cabos.

Teste Z para comparao de propores


Em alguns estudos, o interesse est em comparar duas propores prove-
nientes de amostras distintas. Nesse caso, obtm-se n1 observaes da popu-
lao 1 e n2 observaes da populao 2. Verifica-se em cada uma das amos-
tras o total x1 e x2, respectivamente, de sucessos e calculam-se as propores
x1 x
amostrais p1 = e p2 = 2 . As hipteses testadas so as seguintes:
n1 n2
H0 : P1 = P2 vs H1 : P1 < P2

ou

H0 : P1 = P2 vs H1 : P1 > P2

ou ainda

H0 : P1 = P2 vs H1 : P1 P2

A estatstica do teste dada por:

p1_p2 (3)
Z=
Sp

Onde S = p.(1- p) p.(1- p) (4) e n1.p1 + n2 .p2 (5)


p + p=
n1 n2 n1 + n2

Exemplo: Em uma cidade do interior realizou-se uma pesquisa eleitoral


com 200 eleitores, na qual o candidato a presidente X aparece com 35%
166 Este material parte integrante do acervo do IESDE BRASIL S.A.,
mais informaes www.iesde.com.br
Testes de Hipteses

das intenes de voto. A mesma pesquisa tambm foi realizada na cidade


vizinha, com 500 eleitores, e o mesmo candidato surge com 28% das inten-
es de voto. Podemos afirmar estatisticamente que na primeira cidade o
candidato X apresenta uma maior inteno de voto? (nvel de significncia
= 0,05)

H0 : P1 = P2 vs H1 : P1 > P2

um teste unilateral pois est claramente verificado se na primeira pes-


quisa foi encontrada uma proporo maior do que na segunda cidade.

(200.0,35) + (500.0,28)
Pela expresso (5) temos p = = 0,3
0, 3 e pela ex-
presso (4) 200 + 500

0, 3.(1 0,3) 0 , 3.(1 0, 3)


Sp= + = 0, 038 e finalmente:
200 500

0, 3 0, 28
Z= = 1, 84
0, 038

Ao nvel de significncia de 5% temos Z () = 1,64. Esse valor crtico


obtido na tabela da distribuio normal padro, considerando uma rea
marcada em cinza de t ho 0,45, ou seja, 0,5 0,05. Localizando o valor 0,45
no corpo da tabela (ou o valor mais prximo), veremos que ele se localiza
na linha 1,6 e na coluna 0,04. Ento, somamos os dois valores e obtemos
1,64.

Como a estatstica Z calculada superior ao valor crtico, rejeitamos a hip-


tese nula. Existem evidncias para admitir que na primeira cidade o candidato
X apresenta uma proporo significativamente superior de inteno de voto.

Teste no paramtrico de Mann-Whitney


Esse teste se aplica na comparao de dois grupos independentes, para
se verificar se pertencem ou no mesma populao. a alternativa a ser
usada quando as suposies de normalidade no so verificadas. Considere,
portanto, duas amostras de tamanho n1 e n2, respectivamente. O teste con-
siste basicamente na substituio dos dados originais pelos seus respecti-
vos postos ordenados (ranks) e clculo da estatstica do teste. Alm disso, o

Este material parte integrante do acervo do IESDE BRASIL S.A., 167


mais informaes www.iesde.com.br
Testes de Hipteses

procedimento de teste depende do tamanho das amostras. Considere o


grupo 2 aquele com o maior nmero de observaes:

Quando 9 n2 20, calcula-se:


n1.(n1 +1)
U = n1.n2 + R1 , onde R1 a soma dos postos atribudos
2
aos valores do grupo 1.

n2 > 20

Utiliza-se nesse caso a aproximao normal dada por:

n1.n2 n1.n2 .(n1 + n 2 +1) U -U


U = U= z=
2 12 U
Os valores da estatstica calculada so comparados com os valores crticos
obtidos a partir de uma tabela (Mann Whitney). Caso a estatstica U calculada
seja inferior ao valor crtico deveremos rejeitar a hiptese nula.

Exemplo: Dois tipos de soluo qumica, A e B, foram ensaiadas para deter-


minao de Ph. As anlises de amostras de cada soluo esto apresentadas
na tabela que segue. Verifique se a soluo A apresenta Ph superior soluo B.

A Posto (A) B Posto (B)


7,49 13 7,28 2

7,35 4,5 7,35 4,5

7,54 19 7,52 17,5

7,48 11 7,50 14,5

H0: PhA = PhB 7,48 11 7,38 7

7,37 6 7,48 11
Ha: PhA > PhB
7,51 16 7,31 3

7,50 14,5 7,22 1

7,52 17,5 7,41 8

7,45 9

RA = 112,5 RB =77,5

(9.10)
U=(9.10) + 112,5 = 22,5
2

168 Este material parte integrante do acervo do IESDE BRASIL S.A.,


mais informaes www.iesde.com.br
Testes de Hipteses

O valor crtico para n1 = 9 e n2 = 10 em que = 0,05 (teste unilateral) ser


Uc = 24. Como o valor calculado da estatstica inferior ao valor crtico ento
iremos rejeitar H0. Assim, temos evidncias suficientes para afirmar que a so-
luo qumica A apresenta Ph superior soluo qumica B.

Comparao de duas amostras relacionadas


Neste caso estamos interessados em comparar uma amostra extrada
em dois momentos distintos. Deseja-se verificar se a diferena observada
entre os dois momentos (efeito do tratamento) significativa. Os principais
testes so:

Teste t de Student para dados pareados;

Teste de Wilcoxon (no paramtrico)

Teste t para dados pareados


Para observaes pareadas, o teste apropriado para a diferena entre as
mdias das duas amostras consiste em primeiro determinar a diferena d
entre cada par de valores e ento testar a hiptese nula de que a mdia das
diferenas na populao zero. Ento, do ponto de vista de clculo, o teste
aplicado a uma nica amostra de valores d.
d
A diferena mdia para um conjunto de observaes pareadas d =
n
e o desvio-padro das diferenas das observaes pareadas dado por:

d2 nd2
Sd =
n 1

d
e a estatstica do teste ser: t= (6)
Sd
n

Essa estatstica deve ser comparada com o valor crtico do teste t de Stu-
dent para determinado nvel de significncia e n1 graus de liberdade.

Exemplo: Considere o experimento realizado com 10 automveis de certa


fbrica. Os veculos foram avaliados com dois tipos de combustveis. Primei-
ramente, um combustvel sem aditivo e em seguida o mesmo combustvel
com aditivo. Deseja-se verificar se os automveis conseguem uma quilome-

Este material parte integrante do acervo do IESDE BRASIL S.A., 169


mais informaes www.iesde.com.br
Testes de Hipteses

tragem maior com a utilizao do combustvel com aditivo. Considerar nvel


de significncia 5%. Seguem os dados abaixo:
Quilometragem Quilometragem
Automvel d (AB)
sem aditivo (B) com aditivo (A)
1 26,2 26,7 0,5
2 25,2 25,8 0,6
3 22,3 21,9 -0,4
4 19,6 19,3 -0,3
5 18,1 18,4 0,3
6 15,8 15,7 -0,1
7 13,9 14,2 0,3
8 12,0 12,6 0,6
9 11,5 11,9 0,4
10 10,0 10,3 0,3
Total 174,6 176,8 2,2

H0: A = B vs Ha: A < B

Pelos dados da tabela temos d =0,22 e Sd = 0,361

0,22
Assim, t = = 1, 927 e comparando com o valor crtico t (0,05) com
0,361
10
9 graus de liberdade que 1,833, podemos concluir que o valor calculado
se encontra dentro da regio de rejeio, ou seja, existe diferena significa-
tiva entre as quilometragens obtidas com e sem aditivo. A quilometragem
obtida com aditivo significativamente superior.

Note que o valor crtico 1,833 foi encontrado na tabela t de Student na


coluna 0,05 (pois o teste unilateral) e linha 9.

Com a planilha Excel, possvel realizar diversos testes de significncia es-


tatstica, desde que se possuam os dados brutos. Para resolver esse exemplo,
usaramos a funo TESTET, considerando:
Matriz 1: conjunto de dados referente ao primeiro grupo;
Matriz 2: conjunto de dados referente ao segundo grupo;
Caudas: indica se o teste unilateral (1) ou bilateral (2). No caso, aqui o
teste unilateral;
Tipo: indica o tipo do teste, se pareado (1) ou de amostras independen-
tes (2 ou 3). No caso, aqui o teste pareado.
170 Este material parte integrante do acervo do IESDE BRASIL S.A.,
mais informaes www.iesde.com.br
Testes de Hipteses

Observe que a planilha ir fornecer pvalor = 0,0432, que, compara-


do com o nvel de significncia de 0,05, indica a existncia de diferena
significativa.

Teste de Wilcoxon
Neste teste no paramtrico, devemos considerar as diferenas dis, onde
di = Yi Xi. Devemos ordenar os dis, atribuindo postos do menor para o
maior, sem considerar o sinal da diferena (em mdulo). A continuao do
teste, a partir daqui, depende do tamanho da amostra:

n < 25

Considere T sendo a menor soma dos postos de mesmo sinal. Compara-


se ento o valor de T calculado com aqueles tabelados. O objetivo testar se
a mediana nula, ou seja,
H0 : Mediana = 0
Ha : Mediana > 0
Mediana < 0
Mediana 0

Este material parte integrante do acervo do IESDE BRASIL S.A., 171


mais informaes www.iesde.com.br
Testes de Hipteses

Iremos rejeitar a hiptese nula quando o valor calculado de T for inferior


ao valor crtico definido pelo nvel de significncia.

n 25

Nesse caso, T tem distribuio aproximadamente normal e podemos usar


a aproximao considerando:

N.(N+1) N.(N+1).(2N+1)
T = e T =
4 24

T T
Calcula-se assim a estatstica z = e compara-se com os valores ta-
T
belados da distribuio de Z (Normal Padro).

Podem ocorrer alguns empates. Nesse caso, deveremos considerar duas


situaes:

Quando Xi = Yi , ou seja, a informao pr equivale informao ps para


um mesmo indivduo, descarta-se esse par da anlise e redefinimos n
como sendo o nmero de pares, tais que Xi Yi para i = 1, 2, 3, ... , n.

Quando duas ou mais dis tem o mesmo valor, atribui-se como posto
a mdia dos postos que seriam atribudos a eles caso no ocorresse
empate.

Exemplo:

Di |di| Postos Clculo para Empates


-5 5 2*
1+2+3
5 5 2*
3
5 5 2*

7 7 4

10 10 5

-13 13 6,5** 6+7


= 6,5
13 13 6,5** 2
15 15 8

172 Este material parte integrante do acervo do IESDE BRASIL S.A.,


mais informaes www.iesde.com.br
Testes de Hipteses

Exemplo: Numa pesquisa realizada em dois momentos distintos em 11 em-


presas operadoras de telefonia celular, investigou-se o % de clientes que
avaliaram positivamente cada uma delas:

% de avaliao positiva
di |di| p
Operadora 1. momento 2. momento
1 8,7 7,7 1,0 1,0 4
2 18,6 9,6 9,0 9,0 9
3 8,0 16,0 8,0 8,0 6
4 12,9 13,4 0,5 0,5 2
5 10,9 9,6 1,3 1,3 5
6 13,4 13,0 0,4 0,4 1
7 11,9 23,7 11,8 11,8 11
8 14,3 6,2 8,1 8,1 7
9 20,0 9,6 10,4 10,4 10
10 14,4 13,8 0,6 0,6 3
11 6,6 15,1 8,5 8,5 8

Aplicando o teste de Wilcoxon, testaremos as seguintes hipteses:

H0 : T = 0 vs Ha : T 0

Somando-se os postos associados a diferenas negativas, teremos T = 6 +


2 + 11 + 8 = 27. O valor crtico, consultando a linha n = 11 e = 0,05 igual a
13 (na verdade, o nvel de significncia aqui acaba sendo um valor prximo de
0,05, mais precisamente, 0,0471). Assim, no podemos rejeitar H0, ou seja, a
porcentagem de avaliao positiva no se modificou nos dois momentos.

Comparao de 3 ou mais amostras independentes


Esse tipo de plano uma extenso do caso em que duas amostras indepen-
dentes esto sendo comparadas, mas agora para o caso de 3 ou mais amos-
tras. Se houver pelo menos um par de amostras diferentes, o teste ir apontar
diferena significativa. No caso paramtrico, a opo o teste F de Snedecor,
tambm chamado de Anlise de varincia ou Anova. Mais uma vez aqui no
h necessidade de os grupos que estaro sendo comparados terem tamanhos
de amostras iguais. Consideremos, ento, a seguinte estrutura de dados:

Este material parte integrante do acervo do IESDE BRASIL S.A., 173


mais informaes www.iesde.com.br
Testes de Hipteses

Tratamentos
1 2 3 ... k
X11 X21 X31 ... XK1
X12 X22 X32 ... XK2
X13
X23 X33 ... XK3
.. ... ... ... ...
X1n1 X2n2 X3n3 ... XKnK

Anlise de Varincia
Uma anlise de varincia permite que vrios grupos sejam comparados a
um s tempo, utilizando variveis contnuas. O teste paramtrico (a vari-
vel de interesse deve ter distribuio normal) e os grupos tm que ser inde-
pendentes. As hipteses testadas so as seguintes:

H0 : 1 = 2 = ...= k vs H1 : pelo menos um par i j, para i j

Os elementos que compem o clculo da Anova so sumarizados na


tabela a seguir:

Fonte de Soma dos Graus de Quadrados F


variao quadrados liberdade mdios

Entre grupos SQA k1 QMA = SQA


k 1
QMA
QME
Erro amostral SQE Nk QME = SQE
Nk

Total SQT N1

Tk2 T 2 n k T2
SQA = (7) e SQT = X2 (8) e SQE = SQT SQA
nK N i=1k=1 N

Tk a soma dos valores de um certo tratamento k;

nk o nmero de observaes no tratamento k;

T2 a soma de todos os valores amostrados elevada ao quadrado;

N o nmero total de observaes;

X cada observao amostrada.

174 Este material parte integrante do acervo do IESDE BRASIL S.A.,


mais informaes www.iesde.com.br
Testes de Hipteses

O valor calculado de F comparado com o valor crtico, definido pelo


nvel de significncia e pelos graus de liberdade k 1 e N k. Caso Fcal > Fcrit,
devemos rejeitar a hiptese nula.

Exemplo: Quinze pessoas que participaram de um programa de treinamen-


to so colocadas, de forma aleatria, sob trs diferentes tipos de ensino. Os
graus obtidos no exame de concluso do treinamento so apresentados
abaixo. Teste a hiptese de que no existe diferena significativa entre os 3
mtodos de instruo, a um nvel de significncia de 5%.
Mtodos de instruo
A1 A2 A3
86 90 82
79 76 68
81 88 73
70 82 71
84 89 81

H0 : 1 = 2 = 3 vs H1 : pelo menos um par i j, para i j i, j = 1, 2, 3.

Analisando a tabela acima, obtemos as seguintes informaes:

n1 = n2 = n3 = 5

T1 = 400 T2 = 425 T3 = 375 T = 1 200

T12 = 160 000 T22 = 180 625 T32 = 140 625 T = 1 440 000

Calculando as expresses (7) e (8):

Tk2 T 2 160 000 180 625 140 625 1 440 000


SQA = = + + = 250
nK N 5 5 5 15

n k T2
SQT = X2 = 96 698 96 000 = 698
i=1k=1 N
SQE = 698 250 = 448

A tabela da Anova fica ento:


Fonte de Soma dos Graus de Quadrados F
variao quadrados liberdade mdios
Entre grupos 250 2 125
Erro amostral 448 12 37,33 3,35
Total 698 14

Este material parte integrante do acervo do IESDE BRASIL S.A., 175


mais informaes www.iesde.com.br
Testes de Hipteses

Comparando o valor de F calculado com o valor crtico de 3,89, que


obtido considerando-se = 0,05 e cruzando a coluna n1 = 2 e linha n2 = 12
(graus de liberdade), podemos concluir que no h diferena significativa
entre os mtodos de instruo.
Com a planilha Excel, selecionamos FERRAMENTAS E ANLISE DE DADOS
e selecionamos a opo: Anova: fator nico.

A planilha nos fornecer o seguinte resultado:

176 Este material parte integrante do acervo do IESDE BRASIL S.A.,


mais informaes www.iesde.com.br
Testes de Hipteses

Teste de Kruskal-Wallis
Outro teste til na comparao de k tratamentos independentes o teste
de Kruskal-Wallis. Ele nos indica se h diferena entre pelo menos dois deles.
na verdade uma extenso do teste de Wilcoxon para duas amostras inde-
pendentes e se utiliza dos postos atribudos aos valores observados.

Primeiramente, deve-se atribuir um posto a cada valor observado, sempre


atribuindo o menor posto ao menor valor e o maior posto ao maior valor. Aps
se efetuar a soma dos postos para cada tratamento (Rj) calcula-se a estatstica H:

2
12 . k R j
H= 3.(N +1)
N.(N+1) j=1 n j

onde nj o nmero de observaes do j-simo tratamento, N o total de


observaes e Rj a soma de postos do tratamento j.

Compara-se o valor calculado H com o valor crtico, que definido pelo


nvel de significncia e pelos tamanhos de amostra n1, n2, ..., nk. Caso o valor
de H calculado seja superior ao valor crtico, rejeita-se H0.

Exemplo: Numa pesquisa sobre qualidade de vinho, foram provados trs


tipos por cinco degustadores. Cada degustador provou 12 amostras (4 de
cada tipo) e atribuiu a cada uma delas uma nota de zero a dez. As mdias das
notas atribudas pelos 5 degustadores a cada uma das amostras foram:
Tipo 1 Posto Tipo 2 Posto Tipo 3 Posto
5,0 1 8,3 7 9,2 11
6,7 2 9,3 12 8,7 9
7,0 4 8,6 8 7,3 5
6,8 3 9,0 10 8,2 6

Vamos verificar se h preferncia dos degustadores por algum dos tipos


de vinho.

H0: no existe preferncia por algum tipo de vinho

H1: existe pelo menos uma diferena nas comparaes realizadas entre
os vinhos.

Calculando-se a estatstica do teste, considerando R1 = 10, R2 = 37 e R3 = 31


12 .
H= 607,5 3.(12+1) = 7,73
12.13
Este material parte integrante do acervo do IESDE BRASIL S.A., 177
mais informaes www.iesde.com.br
Testes de Hipteses

O valor crtico ao nvel de significncia de 5% 5,6923. Este valor obtido


na tabela fazendo n1 = 4, n2 = 4 e n3 = 4. O nvel de significncia precisamen-
te 0,049. Desta forma, rejeitamos a hiptese nula. Certamente o vinho tipo 1
considerado inferior pelos degustadores.

Testes de aderncia
Estes testes so teis para verificar se determinada amostra pode provir
de uma populao ou distribuio de probabilidade especificada. So usual
mente conhecidos como testes de aderncia ou bondade do ajuste. Nesse
caso, retira-se uma amostra aleatria e compara-se distribuio amostral
com a distribuio de interesse.

Teste Qui-quadrado
um teste amplamente utilizado em anlise de dados provenientes de
experimentos, em que o interesse est em observar frequncias em diversas
categorias (pelo menos duas).

uma prova de aderncia til para comprovar se a frequncia observada


difere significativamente da frequncia esperada. Est geralmente especifi-
cada por uma distribuio de probabilidade.

Para utilizar o teste, no devemos ter mais de 20% das frequncias espe-
radas abaixo de 5 e nenhuma frequncia esperada igual a zero. Para evitar
frequncias esperadas pequenas, devem-se combinar as categorias at que
as exigncias sejam atendidas.

Aps definirmos a hiptese nula, testamos se as frequncias observadas


diferem muito das frequncias esperadas da seguinte forma:

k = nmero de categorias (classes)


k
X22 =
( oi e i ) 2 em que oi = frequncia observada na categoria i
i=1 ei
ei = frequncia esperada na categoria i

Quanto maior o valor de 2 , maior ser a probabilidade de as frequncias


observadas estarem divergindo das frequncias esperadas.

A estatstica do teste 2 tem distribuio Qui-Quadrado com k 1 graus


de liberdade. Depois de calculada a estatstica do teste, deve-se compar-la
com o seu respectivo valor crtico, definido pelo nvel de significncia e graus
de liberdade.
178 Este material parte integrante do acervo do IESDE BRASIL S.A.,
mais informaes www.iesde.com.br
Testes de Hipteses

Exemplo: Deseja-se testar se a posio de largada de um cavalo (por dentro


ou por fora) influencia o resultado de uma corrida de cavalos.
Posio 1 2 3 4 5 6 7 8
Nmero Oi 29 19 18 25 17 10 15 11
de Vitrias Ei 18* 18* 18* 18* 18* 18* 18* 18*
* Resultado esperado pela hiptese nula

H0 : f1 = f2 = = f8 versus Ha : f1 f2 f8

8 (o e ) (29 18) + (19 18) ++ (11 18) = 16,3


2 2 2 2
X2 2 = i i =
k=1 ei 18 18 18

A tabela Qui-quadrado com 7 graus de liberdade indica que o valor 14,06


est associado a um nvel de significncia de 5%. Este valor obtido na
tabela, cruzando as informaes da coluna 0,05 e linha 7. Nota-se que o valor
calculado do qui-quadrado superior ao valor crtico, o que nos leva a rejei-
tar a hiptese nula. Portanto, temos evidncia de que a posio de largada
dos cavalos influencia no resultado da corrida.
Com a planilha Excel, usaramos a funo TESTE.QUI, considerando:
Intervalo_real: posio das frequncias observadas na planilha;
Intervalo_esperado: posio das frequncias esperadas na planilha;

Este material parte integrante do acervo do IESDE BRASIL S.A., 179


mais informaes www.iesde.com.br
Testes de Hipteses

Observe que a planilha ir fornecer o pvalor = 0,022 que sendo menor


que o nvel de significncia (0,05) nos leva rejeio da hiptese nula.

Ampliando seus conhecimentos

Minerao de dados
(GONALVES, 2001)

Minerao de dados, ou data mining, definida como uma etapa na des-


coberta do conhecimento em bancos de dados que consiste no processo de
analisar grandes volumes de dados sob diferentes perspectivas, a fim de des-
cobrir informaes teis que normalmente no esto sendo visveis. Para isso
so utilizadas tcnicas que envolvem mtodos estatsticos que visam desco-
brir padres e regularidades entre os dados pesquisados.

Em um mundo globalizado, sem fronteiras geogrficas, onde as empresas


competem mundialmente, a informao torna-se um fator crucial na busca pela
competitividade. O fato de uma empresa dispor de certas informaes possibi-
lita-lhe aumentar o valor agregado de seu produto ou reduzir seus custos em
relao quelas que no possuem o mesmo tipo de informao. As informaes
e o conhecimento compem um recurso estratgico essencial para o sucesso
da adaptao da empresa em um ambiente de concorrncia. Toda empresa
tem informaes que proporcionam sustentao para suas decises, entretan-
to apenas algumas conseguem otimizar o seu processo decisrio e aquelas que
esto nesse estgio evolutivo seguramente possuem vantagem empresarial.

As ferramentas de minerao de dados, por definio, devem trabalhar


com grandes bases de dados e retornar, como resultado, conhecimento novo
e relevante; porm devemos ser cticos quanto a essa afirmao, pois esse
tipo de ferramenta ir criar inmeras relaes e equaes, o que pode tornar
impossvel o processamento desses dados.

A grande promessa da minerao de dados resume-se na afirmao de que


ela vasculha grandes bases de dados em busca de padres escondidos, que
extrai informaes desconhecidas e relevantes e as utiliza para tomar decises
crticas de negcios. Outra promessa em relao a essa tecnologia de informa-
o diz respeito forma como elas exploram as inter-relaes entre os dados.
As ferramentas de anlise disponveis dispem de um mtodo baseado

180 Este material parte integrante do acervo do IESDE BRASIL S.A.,


mais informaes www.iesde.com.br
Testes de Hipteses

na verificao, isto , o usurio constri hipteses sobre inter-relaes especfi-


cas e ento verifica ou refuta essas hipteses por meio do sistema. Esse modelo
torna-se dependente da intuio e habilidade do analista em propor hipteses
interessantes, em manipular a complexidade do espao de atributos e em refi-
nar a anlise, baseado nos resultados de consultas potencialmente complexas
ao banco de dados. J o processo de minerao de dados, para o autor, seria
responsvel pela gerao de hipteses, garantindo mais rapidez, acurcia e
completude dos resultados.

A cada ano, companhias acumulam mais e mais dados em seus bancos de


dados. Esses dados muitas vezes so mantidos mesmo depois de esgotados
seus prazos legais de existncia, como no caso de notas fiscais. Com o passar do
tempo, esse volume de dados passa a armazenar internamente o histrico das
atividades da organizao. Como consequncia, esses bancos de dados passam
a conter verdadeiros tesouros de informao sobre vrios procedimentos
dessas companhias. Toda essa informao pode ser usada para melhorar os pro-
cedimentos da empresa, permitindo que ela detecte tendncias e caractersti-
cas disfaradas e reaja rapidamente a um evento que ainda pode estar por vir.
No entanto, apesar do enorme valor desses dados, a maioria das organizaes
incapaz de aproveitar totalmente o que est armazenado em seus arquivos.

Essa informao est implcita, escondida sob uma montanha de dados, e


no pode ser descoberta utilizando-se sistemas de gerenciamento de banco de
dados convencionais. A quantidade de informao armazenada est explodindo
e ultrapassa a habilidade tcnica e a capacidade humana na sua interpretao.

Por isso, diversas ferramentas tm sido usadas para examinar os dados que
as empresas possuem, no entanto, a maioria dos analistas tem reconhecido que
existem padres, relacionamentos e regras escondidos nesses dados, os quais
no podem ser encontrados por meio da utilizao de mtodos tradicionais. A
resposta usar software de minerao de dados que utilizam algoritmos mate-
mticos avanados para examinar grandes volumes de dados detalhados.

A necessidade de transformar a montanha de dados armazenados em


informaes significativas bvia, entretanto, sua anlise ainda demorada,
dispendiosa, pouco automatizada e sujeita a erros, mal-entendidos e falta de
preciso. A automatizao dos processos de anlise de dados, com a utiliza-
o de software ligados diretamente massa de informaes, tornou-se uma
necessidade. Esse motivo deve ser o responsvel pelo crescimento do merca-
do de tecnologias de informao.

Este material parte integrante do acervo do IESDE BRASIL S.A., 181


mais informaes www.iesde.com.br
Testes de Hipteses

Atividades de aplicao
1. Um experimento foi realizado em 115 propriedades para verificar a
eficcia de um novo adubo para plantaes de milho. As produes
mdias das propriedades com o novo adubo encontram-se tabuladas
abaixo. Compare com as produes mdias garantidas pelo fabricante
nas especificaes tcnicas do produto. Considere = 0,05.

Classes i ei
(sacas/hectare)
2 700 | 3 000 13 12
3 000 | 3 300 18 20
3 300 | 3 600 24 25
3 600 | 3 900 32 25
3 900 | 4 200 17 20
4 200 | 4 500 11 13
Total 115 115

2. Em um exame a que se submeteram 117 estudantes de escolas p-


blicas, a nota mdia foi 74,5 e o desvio-padro 8. Em uma escola
particular, em que 200 estudantes foram submetidos a esse mesmo
exame, a nota mdia foi de 75,9 com desvio-padro 10. A escola
particular apresenta um melhor rendimento no exame? Considere
= 0,05.

3. Um mdico-cientista imagina ter inventado uma droga revolucionria


que baixa a febre em 1 minuto. Quinze voluntrios foram selecionados
(pacientes de uma clnica, com febre acima de 37oC) e os resultados
foram os seguintes (em graus Celsius):

Paciente 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15

Diferena* 1 0 3 4 3 2 1 1 4 1 0 0 2 3 3

* diferena de temperatura: o quanto a temperatura baixou em 1 minuto.

A droga inventada pelo mdico verdadeiramente eficiente?

4. Um criador verificou em uma amostra do seu rebanho (500 cabeas)


50 animais com verminose. Em seguida, avaliou outras 100 cabeas de

182 Este material parte integrante do acervo do IESDE BRASIL S.A.,


mais informaes www.iesde.com.br
Testes de Hipteses

gado, mas antes solicitou ao veterinrio uma soluo para o proble-


ma. O veterinrio alterou a dieta dos animais e acredita que a doena
diminuiu de intensidade. Um exame nesse grupo de 100 cabeas do
rebanho, escolhidas ao acaso, indicou 4 delas com verminose. Ao nvel
de significncia de 1%, h indcios de que a proporo menor?

5. Queremos comparar trs hospitais, com relao satisfao demons-


trada por pacientes quanto ao atendimento durante o perodo de in-
ternao. Para tanto, foram selecionados, aleatoriamente, pacientes
com grau de enfermidade semelhante. Cada paciente preencheu um
questionrio e as respostas geraram ndices variando de 0 a 100, indi-
cando o grau de satisfao. Os resultados foram:

Hospital
Pacientes A B C
1 93 60 70

2 86 58 75

3 85 47 77

4 90 62 72

5 91 58 78

6 82 61 78

7 88 63 70

8 86 64 71

9 87 68 68

10 85 58 73

11 57 74

12 67 80

13 61 68

14 56

15 58

Baseando-se nos dados apresentados, teste se as mdias populacionais


so iguais. Qual sua concluso? Use = 0, 05.

Este material parte integrante do acervo do IESDE BRASIL S.A., 183


mais informaes www.iesde.com.br
Testes de Hipteses

Gabarito

1. As hipteses a serem testadas so:

H0: As produes mdias de milho esto de acordo com a especifica-


o do fabricante;

Ha: A produo mdia de milho no se ajusta distribuio especifica-


da pelo fabricante.

Aplicando o teste Qui-quadrado para testar a aderncia dos dados


distribuio especificada pelo fabricante, temos:

2
X =
k (oi ei )2 = (13 12)2 + (18 20)2 + + (11 13)2 = 3,04
i=1 ei 12 20 13

Consultando a tabela de valores crticos, considerando k1 = 5 graus


de liberdade e a = 0,05, temos 2 = 11,1. Como o valor calculado infe-
rior ao valor crtico, no rejeitamos a hiptese nula e podemos concluir
que os dados se ajustam satisfatoriamente distribuio especificada
pelo fabricante.

2. As hipteses a serem testadas so:

H0: a nota mdia dos estudantes de escola pblica no difere da nota


mdia dos estudantes da escola particular;

Ha: a nota mdia dos estudantes de escola pblica difere da nota m-


dia dos estudantes da escola particular.

Aplicando o teste t de Student para comparao de duas amostras


independentes, temos que verificar primeiramente se as varincias
podem ser consideradas iguais. Construindo o intervalo de confiana
para a razo de varincias temos:

S12 1 S12 1 64
2. ; 2. = . 1 ; 64 .1, 4833 = ( 0,43 ; 0,94 )

S2 F2 S2 F1 100 1, 4833 100

Desta forma as varincias no so iguais.

184 Este material parte integrante do acervo do IESDE BRASIL S.A.,


mais informaes www.iesde.com.br
Testes de Hipteses

t=
( x1 x 2 ) =
(75, 9 74,5)
= 1,3682
S12 S22 64 100
+ +
n1 n2 117 200

Consultando a tabela de valores crticos, considerando n1+ n22 = 315


graus de liberdade e a = 0,05, temos tc = 1,96. Como o valor calculado
inferior ao valor crtico, no rejeitamos a hiptese nula e podemos
concluir que as notas mdias das duas escolas no diferem.

3. As hipteses a serem testadas so:

H0: a nova droga no baixa a febre, ou seja, Diferena = 0;

Ha: a nova droga baixa a febre, ou seja, Diferena 0.

Aplicando o teste t de Student para comparao de duas amostras re-


lacionadas, temos:

Sd =
2
d nd
2
=
80 15. (1,866)2 ( )
=1,408 e a estatstica do teste
n 1 14

ser:
1,866
t= =5,131
1,408
15

Consultando a tabela de valores crticos, considerando n1 = 14 graus


de liberdade e = 0,05 (bilateral), temos tc = 2,14. Como o valor calcu-
lado superior ao valor crtico, rejeitamos a hiptese nula e podemos
concluir que a nova droga baixa a febre significativamente.

4. As hipteses a serem testadas so:


H0: a proporo de animais com verminose igual nos dois grupos;
Ha: a proporo de animais com verminose inferior no grupo que
teve alterao da dieta.

O teste, portanto, unilateral e aplicando o teste Z para proporo,


temos:
n1.p1 + n2 .p2 (500.0,10 ) + (100.0,04 )
p= = = 0, 09
n1 + n2 600

Este material parte integrante do acervo do IESDE BRASIL S.A., 185


mais informaes www.iesde.com.br
Testes de Hipteses

p.(1 p) p.(1 p) 0, 09.0,91 0, 09.0,91


Sp = + = + = 0, 031
n1 n2 500 100

p1 p2 0,10 0, 04
Z= = = 1, 93
Sp 0, 031
Consultando a tabela de valores crticos da distribuio normal pa-
dro, considerando a = 0,01, temos Zc = 2,33. Como o valor calcu-
lado inferior ao valor crtico, no rejeitamos a hiptese nula e po-
demos concluir que a doena no diminuiu significativamente de
intensidade.

5. As hipteses a serem testadas so:

H0: no existe diferena de satisfao entre os 3 hospitais;

Ha: existe pelo menos uma diferena entre os hospitais, com relao
mdia de satisfao.

Realizando o Teste F, de Anlise de Varincias, temos:

Tk2 T 2 (873)2 (898 )2 (954 )2 (2725)2


SQA = = + + =
nK N 10 15 13 38
= 76 212, 9 + 53 760,267 + 70 008, 92 195 411,1842 = 4 570, 9
2
SQT = X2 T = 200 623 195 411,1842 = 5 211, 82
n k

i=1k=1 N
e SQE = SQT SQA = 5 211,82 4 570,9 = 640,92

Fonte de Soma dos Graus de Quadrados


F
variao quadrados liberdade mdios

Entre grupos 4 570,90 2 2 285,450


Erro amostral 640,92 35 18,312 124,8
Total 5 211,82 37

O valor crtico de F, definido pelo nvel de significncia (a = 0,05) e


pelos graus de liberdade 2 e 35 igual a 3,30. Como Fcal > Fcrit devemos
rejeitar a hiptese nula. Os hospitais diferem em relao satisfao
mdia.

186 Este material parte integrante do acervo do IESDE BRASIL S.A.,


mais informaes www.iesde.com.br
Este material parte integrante do acervo do IESDE BRASIL S.A.,
mais informaes www.iesde.com.br
Este material parte integrante do acervo do IESDE BRASIL S.A.,
mais informaes www.iesde.com.br
Anlise de Correlao e Medidas
de Associao

Introduo
Muitas vezes, precisamos avaliar o grau de relacionamento entre duas ou
mais variveis. possvel descobrir, com preciso, o quanto uma varivel in-
terfere no resultado de outra. As tcnicas associadas Anlise de Correlao
representam uma ferramenta fundamental de aplicao nas Cincias Sociais
e do comportamento, da Engenharia e das Cincias Naturais. A importncia
de se conhecer os diferentes mtodos e suas suposies de aplicao exa-
tamente pelo cuidado que se deve ter para no se utilizar uma tcnica inade-
quada. Existem diversos critrios de avaliao dessa relao, alguns prprios
para variveis que seguem uma distribuio normal e outros para variveis
que no seguem uma distribuio terica conhecida. comum a utilizao
do Coeficiente de Correlao de Pearson. No entanto, existem situaes em
que o relacionamento entre duas variveis no linear, ou uma delas no
contnua ou as observaes no so selecionadas aleatoriamente. Nesses
casos, outras alternativas de coeficientes devem ser aplicadas. Entre as diver-
sas alternativas, veremos aqui algumas das mais importantes: Coeficiente de
Spearman e Coeficiente de Contingncia.

Segundo o dicionrio Aurlio, correlao significa relao mtua entre dois


termos, qualidade de correlativo, correspondncia. Correlacionar, significa
estabelecer relao ou correlao entre; ter correlao. Enquanto que a pa-
lavra regresso significa ato ou efeito de regressar, de voltar, retorno, regresso;
dependncia funcional entre duas ou mais variveis aleatrias. A palavra re-
gredir significa ir em marcha regressiva, retroceder.

Mas, onde e como surgiram os termos correlao e regresso? Foi Francis


Galton (1822-1911), primo de Charles Darwin, quem usou pela primeira vez
esses termos, cujo trabalho influenciou a Estatstica e a Psicologia. Galton
publicou o livro Gnio Hereditrio, em 1869, no qual aplicou conceitos es-
tatsticos a problemas da hereditariedade. O primeiro relato em que Galton
usou o termo correlaes foi em 1888.

Este material parte integrante do acervo do IESDE BRASIL S.A., 189


mais informaes www.iesde.com.br
Anlise de Correlao e Medidas de Associao

Diagramas de Disperso
Um dos mtodos mais usados para a investigao de pares de dados a
utilizao de diagramas de disperso cartesianos (ou seja, os conhecidos dia-
gramas x-y). Geometricamente, um diagrama de disperso simplesmente
uma coleo de pontos num plano cujas duas coordenadas cartesianas so
os valores de cada membro do par de dados. E para qu fazemos um diagra-
ma de disperso? Este o melhor mtodo de examinar os dados no que se
refere ocorrncia de tendncias (lineares ou no), agrupamentos de uma
ou mais variveis, mudanas de espalhamento de uma varivel em relao
outra e verificar a ocorrncia dos valores discrepantes. Observe o exemplo
a seguir:

Podemos notar pela anlise da figura acima, a relao linear entre as duas
variveis. Os coeficientes apresentados a seguir nos auxiliam na quantifica-
o do grau de relacionamento entre as variveis de interesse.

A Covarincia e o Coeficiente de Correlao de Pearson


Quando estudamos a relao entre duas variveis X e Y, devemos pri-
meiramente compreender o conceito de covarincia. Se a varincia uma
estatstica por meio da qual chegamos ao desvio-padro que uma medida
de disperso, da mesma maneira a covarincia uma estatstica pela qual

190 Este material parte integrante do acervo do IESDE BRASIL S.A.,


mais informaes www.iesde.com.br
Anlise de Correlao e Medidas de Associao

chegamos ao coeficiente de correlao que mede o grau de associao


linear entre duas variveis aleatrias X e Y.

Observe o exemplo abaixo. Sejam X e Y duas variveis aleatrias quais-


quer, que tomam os seguintes valores:

Tabela 1 Clculo do Coeficiente de Correlao de Pearson


DesvioX DesvioY DXDY Desvio X2 Desvio Y2 PRE_1
X Y (Xi X) 2
(Yi Y) (Xi X) . (Yi Y) (Xi X)
2
(Yi Y) 2
Y=a+bX

1 0 4,50 6,00 27,00 20,25 36,00 0,92727

2 2 3,50 4,00 14,00 12,25 16,00 2,05455

3 4 2,50 2,00 5,00 6,25 4,00 3,18182

4 5 1,50 1,00 1,50 2,25 1,00 4,30909

5 5 0,50 1,00 0,50 0,25 1,00 5,43636

6 8 0,50 2,00 1,00 0,25 4,00 6,56364

7 7 1,50 1,00 1,50 2,25 1,00 7,69091

8 7 2,50 1,00 2,50 6,25 1,00 8,81818

9 11 3,50 5,00 17,50 12,25 25,00 9,94545

10 11 4,50 5,00 22,50 20,25 25,00 11,07273

55 60 0 0 93,00 82,50 114,00 60,0000

Na tabela anterior est uma ilustrao dos clculos dos componentes da


covarincia e correlao.

A figura a seguir mostra a relao entre as duas variveis X e Y, bem como


a linha ajustada a esses valores pelo mtodo de mnimos quadrados. Obser-
ve que a mdia de X 5,5 e a mdia de Y 6,0, e que elas esto formadas
pelas linhas paralelas ao eixo Y e ao eixo X respectivamente. Vejamos agora
o que significa os desvios de cada ponto em relao mdia. Observe que
cada ponto est formado pelo par ordenado (Xi,Yi), onde Xi indica o valor da
varivel X e Yi o valor da varivel Y naquele ponto.

Este material parte integrante do acervo do IESDE BRASIL S.A., 191


mais informaes www.iesde.com.br
Anlise de Correlao e Medidas de Associao

DesvioX = (X 9 X)
(X 9 , Y9 )
(9 5, 5) = +3, 5

Y = 6, 0

IV

X=5, 5 DesvioY = (Y9 Y)


(11 6, 0) = +5, 0

Tome, agora, por exemplo,

DesvioX = (X9 X ) = ( 9 5,5) = + 3,5 e DesvioY = (Y9 Y) = (11 6,0) = + 5,0

O produto dos desvios:

DesvioX . DesvioY = (X9 X ).(Y9 Y ) = (9 5,5).(11 6,0) = (+ 3,5).(+5,0) = 17,5

Se calcularmos esses produtos para todos os valores de X e Y e somarmos


temos o numerador da covarincia de X e Y:

(Xi X).(Yi Y) 93
C(X, Y) = = = 9,3 (1)
n 10

Logo, covarincia significa covariao, como as duas variveis variam de


forma conjunta. Agora, vejamos o que acontece se os pontos estivessem no
quadrante I. Nesse caso, os desvios de X seriam todos positivos, enquanto
que os desvios de Y seriam todos negativos, logo, os produtos tomam valo-
res negativos. O mesmo vai acontecer com os pontos do quadrante III, nele
os desvios de X tomam valores negativos e os desvios de Y, valores positivos,
logo, os produtos tomam valores negativos. Assim, se a maioria dos pontos
caem nos quadrantes I e III, a covarincia toma valores negativos, indicando

192 Este material parte integrante do acervo do IESDE BRASIL S.A.,


mais informaes www.iesde.com.br
Anlise de Correlao e Medidas de Associao

que essas duas variveis se relacionam de forma negativa ou inversa, ou seja,


quando uma cresce a outra diminui e vice-versa.

Quando os pontos se distribuem nos quatro quadrantes, haver valores posi-


tivos e negativos, logo a soma tende para zero, e nesse caso, afirmamos que no
existe relao linear entre essas variveis. Observamos que essa estatstica tende
para zero, mesmo havendo uma relao que no seja linear, por exemplo se os
dados tivessem o formato de uma parbola, ou relao quadrtica.

Apesar de a covarincia ser uma estatstica adequada para medir relao


linear entre duas variveis, ela no adequada para comparar graus de rela-
o entre variveis, dado que ela est influenciada pelas unidades de medida
de cada varivel, que pode ser metros, quilmetro, quilogramas, centmetros
etc. Para evitar a influncia da ordem de grandeza e unidades de cada vari-
vel, dividimos a covarincia pelo desvio-padro de X e de Y, dando origem ao
coeficiente de correlao de Pearson:

Notao:

Coeficiente de correlao amostral: r

Coeficiente de correlao populacional:

C(X,Y)
r= (2)
S Y .SX
9,3
r= = 0,95896
2,8723 . 3,3764

Onde:
82, 5
S2x = = 8, 25 S x = 2, 8723
10
114, 0
S2y = = 11, 4 Sy = 3, 3764
10
Como o coeficiente de correlao est isento de unidades e da ordem de
grandeza das variveis, este toma valores entre 1 e 1.

Relao positiva r tomar o valor 1 quando a relao perfeita.

Relao negativa r tomar o valor 1 quando a relao perfeita.

Relao difusa ou no linear r ser igual a 0.

No Excel, usando a opo Correlao em Anlise de dados, obtemos:


Este material parte integrante do acervo do IESDE BRASIL S.A., 193
mais informaes www.iesde.com.br
Anlise de Correlao e Medidas de Associao

O coeficiente de Determinao
Outro coeficiente amplamente utilizado para mensurar o grau de correla-
o entre duas variveis o coeficiente de determinao. definido elevando
o valor do coeficiente de Pearson ao quadrado e denotado por r2. Pode ser
interpretado como a proporo da variao de Y que explicada pela vari-
vel X (e vice-versa).

Muito embora o coeficiente de determinao seja relativamente fcil de


interpretar, ele no pode ser testado estatisticamente. Contudo, a raiz qua-
drada do coeficiente de determinao, que o coeficiente de correlao (r),
pode ser testada estatisticamente, pois est associada a uma estatstica de
teste que distribuda segundo uma distribuio t de Student, quando a
correlao populacional = 0.

O coeficiente de correlao para dados populacionais :

Populao: = 2

O coeficiente de correlao para dados amostrais :

Amostra: r = r 2
194 Este material parte integrante do acervo do IESDE BRASIL S.A.,
mais informaes www.iesde.com.br
Anlise de Correlao e Medidas de Associao

Significncia do coeficiente de correlao


Para comprovarmos se o coeficiente de correlao significativo, deve-
mos realizar o seguinte teste de hipteses:

Hipteses:

H0 : = 0
H1 : 0

r n2
A estatstica de teste t c =
1 r 2

com n-2 graus de liberdade na tabela t de Student. Caso o valor de tc seja supe-
rior ao valor crtico de t, devemos rejeitar a hiptese nula. Se a hiptese nula,
ao nvel de significncia , for rejeitada podemos concluir que efetivamente
existe uma relao significativa entre as variveis.

Exemplo 1: Para estudar a poluio de um rio, um cientista mediu a concen-


trao de um determinado composto orgnico (Y) e a precipitao pluvio-
mtrica na semana anterior (X):

X Y
0,91 0,10
1,33 1,10
4,19 3,40
2,68 2,10
1,86 2,60
1,17 1,00

Existe alguma relao entre o nvel de concentrao e a precipita-


o pluviomtrica? Teste sua significncia, ao nvel de 5%.

Calculando a mdia de X e de Y temos X = 2,023 e Y = 1, 717.

Calculando a covarincia entre X e Y pela expresso (1),

C(X, Y) =
(0,91 2,023). (0,10 1,717)+(1,33 2,023). (1,10 1,717)+...+(1,17 2,023). (1,00 1,717)
6

C(X,Y) = 1,0989

Este material parte integrante do acervo do IESDE BRASIL S.A., 195


mais informaes www.iesde.com.br
Anlise de Correlao e Medidas de Associao

Calculando os desvios-padro de X e Y temos: Sx = 1,125 e Sy = 1,10


E assim, pela expresso (2),
C(X,Y) 1,0989
r= = = 0, 888
S y .Sx 1,125.1,1

Testando a significncia do coeficiente,


r n2 0,888 6 2
tc = = = 3, 86
2
1 r 1 (0,888)2

O valor crtico de t para n 2 = 4 graus de liberdade e 5% de nvel de signi-


ficncia 2,78. Note que o teste de significncia do coeficiente ser sempre
bilateral.

Como o valor calculado de t superior ao valor crtico, podemos concluir


que existem evidncias suficientes para afirmar que o composto orgnico
(Y) e a precipitao pluviomtrica (X) estejam correlacionados.

Exemplo 2: Procurando quantificar os efeitos da escassez de sono sobre a


capacidade de resoluo de problemas simples, um agente tomou ao acaso
10 sujeitos e os submeteu a experimentao. Deixou-os sem dormir por di-
ferentes nmeros de horas, aps o que solicitou que os mesmos resolves-
sem os itens contas de adicionar de um teste. Obteve, assim, os seguintes
dados:

N. de erros - Y Horas sem dormir - X

8 8

6 8

6 12

10 12

8 16

14 16

14 20

12 20

16 24

12 24

196 Este material parte integrante do acervo do IESDE BRASIL S.A.,


mais informaes www.iesde.com.br
Anlise de Correlao e Medidas de Associao

Calcule o coeficiente de correlao linear de Pearson e teste a sua signifi-


cncia ao nvel de 1%.

Calculando a mdia de X e de Y temos X = 16 e Y = 10, 6 .

Calculando a covarincia entre X e Y pela expresso (1),

C(X, Y) =
(8 16). (8 10,6)+(8 16). (6 10,6)+...+(24 16). (12 10,6 ) = 15, 2
10
Calculando os desvios-padres de X e Y temos:
Sx = 5,656854 e Sy = 3,352611
E assim, pela expresso (2),
C(X,Y) 15,2
r= = = 0, 801467
S y .Sx 5,656854 .3,352611

Observao: procure sempre usar o maior nmero de casas decimais


possvel.

Usando a planilha Excel poderemos tambm obter uma matriz de covarin-


cia, que nos fornece a covarincia entre X e Y alm da varincia de X e de Y.

Este material parte integrante do acervo do IESDE BRASIL S.A., 197


mais informaes www.iesde.com.br
Anlise de Correlao e Medidas de Associao

Agora testando a significncia do coeficiente,

r n2 0,801467 10 2
tc = = = 3, 79
1 r 2 1 (0,801467)2

O valor crtico de t para n2 = 8 graus de liberdade e 1% de nvel de


significncia 3,355 (bilateral).
Como o valor calculado de t superior ao valor crtico, podemos con-
cluir que existem evidncias suficientes para afirmar que o nmero
de horas sem dormir (X) influencia significativamente o nmero de
erros (Y).

Medidas de Associao
Frequentemente, estamos interessados em verificar a existncia de asso-
ciao entre dois conjuntos de escores e tambm o grau dessa associao.
No caso paramtrico, a medida usual o coeficiente de correlao r de Pear-
son que exige mensurao dos escores no mnimo ao nvel intervalar. Ainda,
se estivermos interessados em comprovar a significncia de um valor obser-
vado de r de Pearson deveremos supor que os escores provenham de uma
distribuio normal. Quando essas suposies no so atendidas, podemos
utilizar um dos coeficientes de correlao no paramtricos e suas respecti-
vas provas de significncia.

Coeficiente de Contingncia C
Este coeficiente mede a associao entre dois conjuntos de atributos
quando um ou ambos os conjuntos so medidos em escala nominal.

Considere uma tabela de contingncia k x r, que representa as frequn-


cias cruzadas dos escores A (divididos em k categorias) e escores B (divididos
em r categorias). O grau de associao entre dois conjuntos de atributos
calculado por:

2
C= onde 2 a estatstica Qui-quadrado.
n+ 2

O p-valor associado ao valor da estatstica Qui-quadrado com (r-1) x (k-1) graus


de liberdade a prova de significncia do coeficiente de contingncia C.
198 Este material parte integrante do acervo do IESDE BRASIL S.A.,
mais informaes www.iesde.com.br
Anlise de Correlao e Medidas de Associao

O coeficiente C se caracteriza por assumir valor zero quando h inexistn-


cia de associao, porm nunca ser igual 1. O limite superior do coeficien-
te dado por k 1 (quando k = r). Note que para calcular o coeficiente C, a
k
tabela de contingncia deve satisfazer as restries do teste Qui-quadrado.
Exemplo: Estudantes de escolas particulares e de escolas pblicas selecio-
nados aleatoriamente foram submetidos a testes padronizados de conhe-
cimento e produziram os resultados abaixo. Verifique o grau de associao
entre as variveis mensuradas e teste a significncia ao nvel de 5%.

Escores
Escola 0 275 276 350 351 425 426 500
Particular 6 14 17 9
Pblica 30 32 17 3

Queremos aqui verificar o grau de associao entre as variveis Escola e


Escore de conhecimento. A varivel Escola mensurada em nvel nominal,
o que inviabiliza a utilizao do coeficiente r de Pearson.

Obtendo ento o coeficiente de Contingncia, necessitamos inicialmente


calcular o valor da estatstica :
2

Freq. 6 14 17 9
Obs. 30 32 17 3
Freq. 12,94 16,53 12,22 4,31
Esp. 23,06 29,47 21,78 7,69

=
2 (6 12,94 ) (14 16,53)
2

+
2

+ ... +
(3 7,69 )
2

= 17, 28
12,94 16,53 7,69

O coeficiente de contingncia :

2 17,28
C= = = 0, 345
n+2 128+17,28

Para testar a significncia do coeficiente, precisamos verificar o valor cr-


tico de considerando =0,05 e (r1) x (k1) = 3 graus de liberdade. Esse
2

valor igual a 7,81. Comparando com o valor calculado de 17,28, podemos


admitir a existncia de associao significativa entre a escola e o escore de

Este material parte integrante do acervo do IESDE BRASIL S.A., 199


mais informaes www.iesde.com.br
Anlise de Correlao e Medidas de Associao

conhecimento. Analisando atentamente, poderamos acrescentar que o fato


de um estudante pertencer a uma escola particular faz com que ele obtenha
um escore de conhecimento mais alto.

Coeficiente de correlao de Spearman


uma medida de associao que exige que ambas as variveis se apre-
sentem em escala de mensurao pelo menos ordinal. Basicamente, equi-
vale ao coeficiente de correlao de Pearson aplicado a dados ordenados.
Assim,
xy
r= = rs
x2 . y2

ou seja, o coeficiente de correlao de Spearman se utiliza da expresso do


coeficiente de Pearson, porm calculado com postos. Essa expresso equi-
vale
n
6 di2
rs = 1 i=1 onde di = xi yi a diferena de postos dos escores X e Y.
n n
3

Para verificar a significncia do valor observado de rs, podemos usar a ex-


presso de t de Student

n2
t = rs onde t tem n2 graus de liberdade.
1 r 2s

Exemplo: As notas obtidas por 10 estudantes de Administrao e o seu QI


(quociente de inteligncia) so apresentadas no quadro abaixo:

Notas 8 9,5 10 9,1 6,5 9 9,5 5,2 9,1 9,3


QI 127 149 150 135 122 129 142 100 136 139

Utilize o coeficiente de Spearman para verificar se as variveis esto asso-


ciadas e qual o seu grau de associao.

Inicialmente, ordenamos os valores originais, transformando-os em


postos. Aqui ento substitumos os valores originais pelos seus respectivos
postos, ou seja, o menor valor da varivel em questo ser substitudo pelo
valor 1 e assim por diante. Em seguida, calculamos as diferenas de postos:

200 Este material parte integrante do acervo do IESDE BRASIL S.A.,


mais informaes www.iesde.com.br
Anlise de Correlao e Medidas de Associao

Notas 3 8,5 10 5,5 2 4 8,5 1 5,5 7


QI 3 9 10 5 2 4 8 1 6 7
di 0 0,5 0 0,5 0 0 0,5 0 0,5 0
(di)2 0 0,25 0 0,25 0 0 0,25 0 0,25 0

Calculando o coeficiente:

rs = 1
6 di2
=1
i=1
(
6. 02 + 0,252 ++02
=1
)
6. 0,25
= 0, 998
3
n n 3
n 10 10 990

Verificando a significncia estatstica do coeficiente:

n2 8 8
t = rs = 0, 998 = 0, 998 = 44, 63
1 (0,998 )
2
1 r s
2
0,004

O valor crtico da estatstica t de Student obtido definindo-se n2 = 8


graus de liberdade e o nvel de significncia, que admitiremos igual a 1%.
Este valor igual a 3,36. Mais uma vez temos aqui um teste bilateral pois
estamos verificando se o coeficiente diferente de zero.

Assim, podemos comprovar que o coeficiente de associao altamente


significativo, ou seja, existem fortes indcios que apontam para notas altas
obtidas por aqueles que possuem maiores quocientes de inteligncia.

Ampliando seus conhecimentos

Teste de Kappa
(LANDIS; KOCH, 1977)

O Teste de Kappa uma medida de concordncia interobservador e mede


o grau de concordncia, alm do que seria esperado to somente pelo acaso.

Para descrevermos se h ou no concordncia entre dois ou mais avaliado-


res, ou entre dois mtodos de classificao, utilizamos a medida Kappa que
baseada no nmero de respostas concordantes, ou seja, no nmero de casos
cujo resultado o mesmo entre os avaliadores. Esta medida de concordncia
assume valor mximo igual a 1, que representa total concordncia ou, ainda,

Este material parte integrante do acervo do IESDE BRASIL S.A., 201


mais informaes www.iesde.com.br
Anlise de Correlao e Medidas de Associao

pode assumir valores prximos e at abaixo de 0, os quais indicam nenhuma


concordncia.

O coeficiente Kappa calculado a partir da seguinte frmula:


P0 PE
Kappa =
1PE
nmero de concordncias
onde P0=
nmero de concordncias + nmero de discordncias
n
e PE = (pi1.pi2 ) sendo que:
i=1

n o nmero de categorias;

i o ndice da categoria (que vale de 1 a n);

pi1 a proporo de ocorrncia da categoria i para o avaliador 1;

pi2 a proporo de ocorrncia da categoria i para o avaliador 2.

Para avaliar se a concordncia razovel, Landis, JR e Koch, GG (1977) su-


gerem a seguinte interpretao:

(LANDIS JR; KOCH GG.


The measurement of observer
agreementfor categorical data.
Biometrics, 1977; 33: 159-174)
Valores obtidos de Kappa Interpretao
<0 Nenhuma concordncia
0 0,19 Concordncia pobre
0,20 0,39 Concordncia leve
0,40 0,59 Concordncia moderada
0,60 0,79 Concordncia substancial
0,80 1,00 Concordncia quase perfeita

Exemplo: Em certo rgo de financiamento, em cada edital aberto, se apre-


sentam diversos pesquisadores que enviam projetos, solicitando recursos
para desenvolv-los. Estes projetos recebem uma avaliao, muitas vezes sub-
jetiva, baseada na opinio de um consultor.

Considere a tabela a seguir, que resume as avaliaes feitas por dois ava-
liadores a 30 projetos que concorrem ao financiamento. O interesse deste
estudo saber qual a concordncia entre estes dois profissionais e se h
alguma classificao com concordncia maior do que as demais.

202 Este material parte integrante do acervo do IESDE BRASIL S.A.,


mais informaes www.iesde.com.br
Anlise de Correlao e Medidas de Associao

AVALIADOR 2
A B C Total
A 14 (0,47) 1 (0,03) 1 (0,03) 16 (0,53)
AVALIADOR 1 B 3 (0,10) 3 (0,10) 2 (0,07) 8 (0,27)
C 0 (0,00) 1 (0,03) 5 (0,17) 6 (0,20)
Total 17 (0,57) 5 (0,16) 8 (0,27) 30 (1,00)

* entre parnteses as propores

Calculando o coeficiente Kappa:

14 +3+5 22
P0 = = = 0,7333
30 30
n
PE = (pi1.pi2 ) = (0,57 . 0,53) + (0,16 . 0,27) + (0,27 . 0,20) = 0,3021 + 0,0432
i=1

+ 0,054 = 0,3993

0,733 0,3993
Kappa = = 0, 556
1 0,3993
Note que a concordncia geral pode ser considerada apenas moderada.
Avaliando cada uma das trs classificaes, notamos que a concordncia
alta quando os avaliadores atribuem o conceito A e o conceito C. No entanto,
para atribuir o conceito B, um conceito intermedirio, a concordncia j no
to satisfatria.

Atividades de aplicao
1. Foi tomada uma amostra aleatria de 10 carregamentos recentes fei-
tos por caminho de uma companhia, anotada a distncia em quil-
metros e o tempo de entrega. Os dados seguem abaixo:
Carregamento 1 2 3 4 5 6 7 8 9 10
Distncia em Km (X) 825 215 1 070 550 480 920 1 350 325 670 1 215
Tempo de entrega 3,5 1,0 4,0 2,0 1,0 3,0 4,5 1,5 3,0 5,0
em dias (Y)

a) Construa o diagrama de disperso.


b) Calcule o coeficiente de correlao de Pearson para os dados desta
amostra.
Este material parte integrante do acervo do IESDE BRASIL S.A., 203
mais informaes www.iesde.com.br
Anlise de Correlao e Medidas de Associao

c) Calcule o coeficiente de determinao.

d) Verifique se o coeficiente de correlao significativo (=0,05).

2. Para uma amostra de n = 10 tomadores de emprstimos em uma com-


panhia financeira, o coeficiente de correlao entre a renda familiar
mdia e dbitos a descoberto de curto prazo foi calculado r = 0,50.
Teste a hiptese de que no existe correlao entre as duas variveis,
usando um nvel de significncia de 5%.

3. Para avaliar a relao entre habilidade verbal e habilidade matemtica,


escores de 8 estudantes foram obtidos, gerando a tabela abaixo:

Estudantes
Escore 1 2 3 4 5 6 7 8
Matemtica 80 50 36 58 72 60 56 68
Verbal 65 60 35 39 48 44 48 61

Calcule o coeficiente de correlao e teste sua significncia.

4. Em um estudo conduzido com 10 pacientes, estes foram colocados


sob uma dieta de baixas gorduras e altos carboidratos. Antes de iniciar
a dieta, as medidas de colesterol e de triglicerdeos foram registradas
para cada indivduo .
a) Construa um grfico de disperso para esses dados.
b) H alguma evidncia de relao linear entre os nveis de colesterol
e de triglicerdeos?
c) Calcule o coeficiente de correlao de Spearman e teste sua signi-
ficncia.
Paciente Colesterol (mmol/l) Triglicerdeos (mmol/l)
1 5,12 2,30
2 6,18 2,54
3 6,77 2,95
4 6,65 3,77
5 6,36 4,18
6 5,90 5,31
7 5,48 5,53
8 6,02 8,83
9 10,34 9,48
10 8,51 14,20

204 Este material parte integrante do acervo do IESDE BRASIL S.A.,


mais informaes www.iesde.com.br
Anlise de Correlao e Medidas de Associao

Gabarito
1.

a)

b) C(X ,Y )=
(X X).(Y Y ) = 4 653 = 465,3
i i

n 10
C(X, Y) 465,3
r= = = 0, 9497
S Y . SX 360,26.1,36

c) r2 = (r)2 = (0,9497)2 = 0,9019

r n2 0,9497 8
d) t c = = =8,576
1 r 2 1 0,9019

Comparando o valor calculado com o valor crtico, considerando 8


graus de liberdade e 5% de significncia temos tcrtico = 2,31. Assim, po-
demos considerar o coeficiente de correlao altamente significativo.

r n2 0,50 8
2. t c = = =1,63
1 r 2 1 0,25
Comparando o valor calculado com o valor crtico, considerando 8
graus de liberdade e 5% de significncia temos tcrtico = 2,31. Assim,
no podemos considerar o coeficiente de correlao significativo. No
existe correlao entre a renda familiar e os dbitos a descoberto de
curto prazo.

Este material parte integrante do acervo do IESDE BRASIL S.A., 205


mais informaes www.iesde.com.br
Anlise de Correlao e Medidas de Associao

3. C(X ,Y )=
(X X).(Y Y ) = 654 = 81,75
i i

n 8

C(X ,Y ) 81,75
r= = = 0,626
S Y .SX 12,77.10,22

r n2 0,626 6
tc = = = 1,967
1 r 2 1 0,392

Comparando o valor calculado com o valor crtico, considerando 6


graus de liberdade e 5% de significncia temos tcrtico = 2,45. Assim,
podemos considerar o coeficiente de correlao no significativo, ou
seja, no existem evidncias de correlao significativa entre habilida-
de verbal e habilidade matemtica.

4.

a)

b) baseado no diagrama acima, no est muito clara a existncia de


relao linear entre colesterol e triglicerdeos.

Paciente Colesterol Triglicerdeos Postos Postos di d2i


(mmol/l) (mmol/l) Colesterol Triglicerdeos
1 5,12 2,30 1 1 0 0
2 6,18 2,54 5 2 3 9
3 6,77 2,95 8 3 5 25

206 Este material parte integrante do acervo do IESDE BRASIL S.A.,


mais informaes www.iesde.com.br
Anlise de Correlao e Medidas de Associao

Paciente Colesterol Triglicerdeos Postos Postos di d2i


(mmol/l) (mmol/l) Colesterol Triglicerdeos
4 6,65 3,77 7 4 3 9
5 6,36 4,18 6 5 1 1
6 5,90 5,31 3 6 3 9
7 5,48 5,53 2 7 5 25
8 6,02 8,83 4 8 4 16
9 10,34 9,48 10 9 1 1
10 8,51 14,20 9 10 1 1
Soma 96

n
6 di2 6.96
c) rs =1 i=1
3 =1 =0,418
n n 1000 10

Para verificar a significncia do valor observado de rs podemos


usar a expresso de t de Student

n2 8
t=rs . =0,418. =1,30
1 r s
2 1 0,1748

Comparando o valor calculado com o valor crtico, considerando 8


graus de liberdade e 5% de significncia temos tcrtico = 2,31. Assim,
podemos considerar o coeficiente de associao significativo, ou
seja, existem evidncias de correlao significativa entre colesterol
e triglicerdeos.

Este material parte integrante do acervo do IESDE BRASIL S.A., 207


mais informaes www.iesde.com.br
Este material parte integrante do acervo do IESDE BRASIL S.A.,
mais informaes www.iesde.com.br
Anlise de Regresso

Introduo
Os modelos de regresso so largamente utilizados em diversas reas do
conhecimento tais como: computao, administrao, engenharias, biologia,
agronomia sade, sociologia etc. O principal objetivo dessa tcnica obter
uma equao que explique satisfatoriamente a relao entre uma varivel
resposta e uma ou mais variveis explicativas, possibilitando fazer predio
de valores da varivel de interesse. Este relacionamento pode ser por uma
equao linear ou uma funo no linear, conforme figura abaixo:

y y

x x
Linear No linear
Figura 1 Formas lineares e no lineares de relao entre pares de variveis.

Regresso linear simples


Se uma relao linear vlida para sumarizar a dependncia observada
entre duas variveis quantitativas, ento a equao que descreve esta rela-
o dada por:
Y = a + b.X

Esta relao linear entre X e Y determinstica, ou seja, ela afirma que


todos os pontos caem exatamente em cima da reta de regresso. No entanto
este fato raramente ocorre, ou seja, os valores observados no caem todos
Este material parte integrante do acervo do IESDE BRASIL S.A., 209
mais informaes www.iesde.com.br
Anlise de Regresso

exatamente sobre esta linha reta. Existe uma diferena entre o valor obser-
vado e o valor fornecido pela equao. Essa diferena, denominada erro e re-
presentada por , uma varivel aleatria que quantifica a falha do modelo
em ajustar-se aos dados exatamente. Tal erro pode ocorrer devido ao efeito,
entre outros, de variveis no consideradas e de erros de medio. Incorpo-
rando esse erro equao anterior temos:

Y = a + b.X +

que denominado modelo de regresso linear simples. a e b so os parme-


tros do modelo.

A varivel X, denominada varivel regressora, explicativa ou indepen-


dente, considerada uma varivel controlada pelo pesquisador e medida
com erro desprezvel. J Y, denominada varivel resposta ou dependente,
considerada uma varivel aleatria, isto , existe uma distribuio de proba-
bilidade para Y em cada valor possvel de X. muito frequente, na prtica,
encontrarmos situaes em que Y tenha distribuio normal. Este um dos
principais pressupostos para aplicao desta tcnica.

Exemplo 1: O preo de aluguel de automveis de uma agncia defini-


do pela seguinte equao: Y = 8 + 0,15.X, onde Y = Taxa de aluguel (R$);
X = distncia percorrida (km).

Assim, a taxa de aluguel inicia com o preo de R$8,00 e vai aumentando


medida que a distncia percorrida aumenta. Assim, se fosse percorrida uma
distncia de 100km, a taxa de aluguel seria de 8 + 0,15 x 100 = R$23,00. No
entanto, como essa equao foi obtida baseada em dados de automveis
de diversas marcas, certamente haver uma variao no preo, por causa de
diversos outros fatores. Assim, essa equao ter uma margem de erro, que
devida a esses inmeros fatores que no foram controlados.

Exemplo 2: Um psiclogo investigando a relao entre o tempo que um in-


divduo leva para reagir a um certo estmulo e sua idade obteve os seguintes
resultados:

210 Este material parte integrante do acervo do IESDE BRASIL S.A.,


mais informaes www.iesde.com.br
Anlise de Regresso

Tabela 1 Idade (em anos) e tempo de reao um certo estmulo


(em segundos)
Y Tempo de reao (segundos) X Idade (em anos)
96 20
92 20
106 20
100 20
98 25
104 25
110 25
101 25
116 30
106 30
109 30
100 30
112 35
105 35
118 35
108 35
113 40
112 40
127 40
117 40

Figura 2 Diagrama de disperso entre a idade (X) e o tempo de reao (Y).

Este material parte integrante do acervo do IESDE BRASIL S.A., 211


mais informaes www.iesde.com.br
Anlise de Regresso

A partir da representao grfica desses dados, mostrada na figura 2,


possvel visualizar uma relao linear positiva entre a idade e o tempo de
reao. O coeficiente de correlao de Pearson para esses dados resultou
em r = 0,768, bem como seu respectivo teste de significncia em tcal = 5,09,
que comparado ao valor tabelado ttab,5% = 2,1 , fornece evidncias de relao
linear entre essas duas variveis, ou seja, h evidncias de considervel rela-
o linear positiva entre idade e tempo de reao.

Podemos, ento, usar um modelo de regresso linear simples para des-


crever essa relao. Para isso, necessrio estimar, com base na amostra
observada, os parmetros desconhecidos a e b deste modelo. O mtodo de
estimao denominado Mnimos Quadrados Ordinrios (MQO) frequente-
mente utilizado em regresso linear, para essa finalidade, e ser apresentado
mais adiante.

Continuando a anlise dos dados do exemplo, possvel obter o seguinte


modelo de regresso linear simples ajustado:

Y = 80,5 + 0,9.X

Figura 3 Reta de regresso ajustada aos dados.

Como a variao dos dados em X no inclui x = 0, no h interpretao


prtica do coeficiente a = 80,5. Por outro lado, b = 0,9 significa que a cada au-
mento de 1 ano na idade das pessoas, o tempo de reao mdio (esperado)
aumenta em 0,9 segundos.
Assim, se: X = 20 anos, teremos Y = 98,5 seg.
Para X = 21 anos, Y = 99,4 seg.
X = 22 anos, Y = 100,3 seg.

212 Este material parte integrante do acervo do IESDE BRASIL S.A.,


mais informaes www.iesde.com.br
Anlise de Regresso

Dessa maneira, de ano para ano, o aumento no tempo de reao espera-


do de 0,9 segundos.

Exemplo 3: Uma certa pea manufaturada por uma companhia, uma vez
por ms, em lotes, que variam de tamanho de acordo com as flutuaes na
demanda. A tabela abaixo contm dados sobre tamanho do lote e nmero
de horas gastas na produo de 10 recentes lotes produzidos sob condies
similares. Esses dados so apresentados graficamente na Figura 4, tomando-
se horas-homem como varivel dependente ou varivel resposta (Y) e o tama-
nho do lote como varivel independente ou preditora (X).

Tabela 2 Tamanho de lote e nmero de horas gastas na produo


de cada lote

Lote (i) Horas (Yi) Tamanho do lote (Xi)


1 73 30
2 50 20
3 128 60
4 170 80
5 87 40
6 108 50
7 135 60
8 69 30
9 148 70
10 132 60

Figura 4 Relao estatstica entre Y e X, referente aos dados da Tabela 2.

Este material parte integrante do acervo do IESDE BRASIL S.A., 213


mais informaes www.iesde.com.br
Anlise de Regresso

A figura 4 sugere claramente que h uma relao linear positiva entre o


tamanho do lote e o nmero de horas, de modo que, maiores lotes tendem
a corresponder a maiores nmeros de horas-homem consumidas. Porm, a
relao no perfeita, ou seja, h uma disperso de pontos sugerindo que
alguma variao no nmero de horas no dependente do tamanho do
lote. Por exemplo, dois lotes de 30 unidades (1 e 8) demandaram quantida-
des um pouco diferentes de horas. Na figura 4, foi traada uma linha (reta) de
relacionamento descrevendo a relao estatstica entre horas e tamanho do
lote. Ela indica a tendncia geral da variao em horas-homem quando h
trocas no tamanho do lote.

Observa-se que grande parte dos pontos da figura no cai diretamente sobre
a linha de relacionamento estatstico. A disperso dos pontos em torno da linha
de relacionamento representa a variao em horas que no associada ao ta-
manho do lote, e que usualmente considerada aleatria. Relaes estatsticas
so geralmente teis, mesmo no tendo uma relao funcional exata.

Mtodo dos mnimos quadrados ordinrios (MQO)


Para estimar os parmetros do modelo, necessrio um mtodo de esti-
mao. O mtodo estatstico utilizado e recomendado pela sua preciso o
mtodo dos mnimos quadrados que ajusta a melhor equao possvel aos
dados observados.

Com base nos n pares de observaes (y1 ,x1) , (y2,x2) ,... , ( yn, xn) , o mtodo
de estimao por MQO consiste em escolher a e b de modo que a soma dos
quadrados dos erros, i (i=10 ,..., n), seja mnima.

Para minimizar esta soma, que expressa por:

n n
SQ= i2 = .(y i a b.xi )
i=1 I-1

devemos, inicialmente, diferenciar a expresso com respeito a a e b e, em


seguida, igualar a zero as expresses resultantes. Feito isso, e aps algumas
operaes algbricas, os estimadores resultantes so:

x i .y i n.y.x
b= 2 2
x i n.x
a = y b.x
onde y a mdia amostral dos yi s e x a mdia amostral dos xi s.
214 Este material parte integrante do acervo do IESDE BRASIL S.A.,
mais informaes www.iesde.com.br
Anlise de Regresso

Logo, E(Y|x) = a + b.x o modelo de regresso linear simples ajustado, em


que E(Y|x), denotado tambm Y por simplicidade, o valor mdio predito
de Y para qualquer valor X = x que esteja na variao observada de X.

No exemplo 2, as estimativas dos parmetros resultaram em a = 80,5 e


b = 0,9. Veja como esses valores foram obtidos:

Xi = 2 150 Yi = 600 n = 20 Xi Yi = 65 400

2
X = 30 Y = 107, 5 Xi = 19 000

x.i y i n.y.x 65 400 20 .107,5.30 900


b= 2 2
= 2
= = 0, 9
xi n.x 19 000 20 .(30) 1 000

a = y b.x = 107, 5 0, 9 . 30 = 80, 5

No exemplo 3, as estimativas dos parmetros a e b so:


Xi = 500 Yi = 1100 n = 10 Xi Yi = 61 800

2
X = 50 Y = 110 Xi = 28 400

x i .y i n.y.x 61 800 10 .110 . 50 6 800


b= 2 2
= 2
= =2
xi n.x 28 400 10 .(50) 3 400

Assim, a equao de regresso linear entre X e Y ser dada por:

Y = 10 + 2.X +

Interpretando o modelo acima, poderemos observar que, aumentando o


tamanho do lote em uma unidade, o nmero de horas gastas na produo
ser aumentado em 2 horas.

Obtendo a reta de regresso com ajuda da planilha Excel, teremos


que selecionar a opo REGRESSO no mdulo de Anlise de dados (em
ferramentas):

Este material parte integrante do acervo do IESDE BRASIL S.A., 215


mais informaes www.iesde.com.br
Anlise de Regresso

A sada fornecida pela planilha a seguinte:

216 Este material parte integrante do acervo do IESDE BRASIL S.A.,


mais informaes www.iesde.com.br
Anlise de Regresso

Observe que o Excel fornece, alm dos coeficientes de correlao, a Anova


da regresso para testar a sua significncia e os coeficientes estimados com
seus respectivos testes de significncia.

Anlise de Varincia da Regresso


Para verificar a adequao do modelo aos dados, algumas tcnicas podem
ser utilizadas. A anlise de varincia da Regresso uma das tcnicas mais
usadas. Assim, podemos analisar a adequao do modelo pela ANOVA da
regresso a qual geralmente apresentada como na tabela a seguir:

Fonte de Variao g.l. S.Q. Q.M. F p-valor

Regresso p-1 SQreg SQreg/p-1


QMreg/QMres
Resduos n-p SQres SQres/n-p

Total n-1 SQtotal Sqtotal/n-1

Onde:

SQreg = soma dos quadrados devido regresso:


n
2
SQreg = (Yi y)
i=1

SQres = soma dos quadrados devido aos erros:


n
SQres = SQtotal Sqreg = (y i Yi )2
i=1

SQtotal = soma dos quadrados totais:


n
SQtotal = (y i y)2
i=1

p = nmero de variveis do modelo

n = numero de observaes.

Caso o p-valor seja inferior ao nvel de significncia estabelecido, ento


consideramos a regresso como significativa.

Uma maneira auxiliar de medir o ganho relativo introduzido pelo modelo


usar o coeficiente de determinao o qual definido por R2 que calculado
por SQreg/SQtotal.

Este material parte integrante do acervo do IESDE BRASIL S.A., 217


mais informaes www.iesde.com.br
Anlise de Regresso

Para os exemplos 2 e 3, a tabela da Anova seria construda de seguinte


forma:

Exemplo 2:
nn n
(Y
SQreg = y)22 = (80, 5 + 0, 9x i 107, 5)2 = 810
(Yii y)
i=1
i=1 i=1

Para obter a soma de quadrados acima, deveremos substituir em Xi todos


os valores de idade da Tabela 1.
n n
SQtotal = (y i y)2 = (y i 107, 5)2 = 1 373
i=1 i=1

Para obter a soma de quadrados acima, deveremos substituir em Yi todos


os valores de tempo de reao da Tabela 1.

SQres = 1 373 810 = 563

Fonte de Variao g.l. S.Q. Q.M. F p-valor


Regresso 1 810 810
25,90 < 0,01
Resduos 18 563 31,27

Total 9 1 373 72,26

O que indica que a regresso entre X e Y significativa. O modelo


Y = 80,5 +0,9.X pode ser considerado adequado para realizar predies de Y.
O coeficiente r2 de determinao para esse modelo de 0,59 o que represen-
ta um poder apenas razovel de explicao dos valores de tempo de reao
pela idade. Muito provavelmente outras variveis estejam influenciando o
tempo de reao.

Exemplo 3:
n n
2 2
Yii y) = (10 + 2x i 110) = 13 600
SQreg = (Y
i=1 i=1

Para obter a soma de quadrados acima, deveremos substituir em Xi


todos os valores do tamanho do lote da Tabela 2.

n n
2 2
SQtotal = (y i y) = (y i 107, 5) =13 660
i=1 i=1

Para obter a soma de quadrados acima, deveremos substituir em Yi


todos os valores de nmeros de horas gastas da Tabela 2.

218 Este material parte integrante do acervo do IESDE BRASIL S.A.,


mais informaes www.iesde.com.br
Anlise de Regresso

SQres = 13 660 13 600 = 60

Fonte de Variao g.l. S.Q. Q.M. F p-valor


Regresso 1 13 600 13 600
1 813,33 < 0,01
Resduos 8 60 7,5

Total 9 13 660 1 517,78

O que indica que a regresso entre X e Y significativa. O modelo Y = 10 + 2.X


pode ser considerado de boa qualidade para realizar predies de Y. O coeficien-
te r2 de determinao para esse modelo de 0,996.

Erro-padro de estimao e intervalos de predio


O erro-padro da estimao um desvio-padro condicional, na medida
em que indica o desvio-padro da varivel dependente Y, dado um valor es-
pecfico da varivel dependente X. O erro-padro baseado em dados amos-
trais dado por:
2
(y Y)
u =
n2

Para fins de clculo, mais conveniente uma verso alternativa da


frmula:

(
u = S2y . 1 r 2 )
n 2
(y y )
onde S2 = i=1
y
n

O erro-padro pode ser usado para estabelecer um intervalo de pre-


dio para a varivel dependente, dado um valor especfico da varivel
independente.

Uma vez que o erro-padro de estimao est baseado em dados de


amostra, apropriado o uso da distribuio t de Student com n-2 graus de
liberdade. Assim, um intervalo de predio para a varivel dependente Y, em
anlise de regresso simples :

Y t
n 2 ; / 2 . u

Este material parte integrante do acervo do IESDE BRASIL S.A., 219


mais informaes www.iesde.com.br
Anlise de Regresso

Para os dados do exemplo 2, teramos o erro-padro da estimao dado


por:

Dado que S2y = 68,65 e r2 = 0,59 ento

( )
u = S2y . 1 r 2 = 68, 65. (1 0, 59 ) = 5, 30

E o intervalo de predio, com 95% de confiana, para um valor de Y=112


seria:

[Y tn2; /2 .
u ] = [112 2,10 . 5, 30] = [ 100, 87 ; 123,13 ]

Ou seja, para uma pessoa com 35 anos, o tempo de reao predito estaria
entre 100,87 e 123,13 segundos, com 95% de confiana.

Para os dados do exemplo 3 teramos o erro-padro da estimao dado


por:

Dado que S2y = 1 366 e r2 = 0,996 ento

( )
u = S2y . 1 r 2 = 1 366. (1 0, 996 ) = 2, 34
2

E o intervalo de predio, com 95% de confiana, para um valor predito


de Y = 110 seria:
[Y tn2;/2 . u ] = [110 2,31.2,34] = [104,59; 115,41]

Ou seja, para um lote de tamanho 50, seriam necessrias de 104,59 a


115,41 horas, com 95% de confiana.

Anlise de Resduos
^
Os desvios ei = yi yi ( i = 1, ..., n) so denominados resduos e so conside-
rados uma amostra aleatria dos erros. Por esse fato, uma anlise grfica dos
resduos , em geral, realizada para verificar as suposies assumidas para os
erros ei.

Para verificao dos pressupostos necessrios para ajuste de um modelo


de regresso necessrio realizar uma Anlise de Resduos. Os trs tipos de
resduos mais comumente utilizados so:

220 Este material parte integrante do acervo do IESDE BRASIL S.A.,


mais informaes www.iesde.com.br
Anlise de Regresso

Resduos brutos;

Resduos padronizados;

Resduos estudentizados.

Ampliando seus conhecimentos

Anlise de Regresso Mltipla


A regresso mltipla envolve trs ou mais variveis, ou seja, uma nica vari-
vel dependente, porm duas ou mais variveis independentes (explicativas).

A finalidade das variveis independentes adicionais melhorar a capacida-


de de predio em confronto com a regresso linear simples. Mesmo quando
estamos interessados no efeito de apenas uma das variveis, aconselhvel
incluir as outras capazes de afetar Y, efetuando uma anlise de regresso ml-
tipla, por duas razes:

a) Para reduzir os resduos. Reduzindo-se a varincia residual (er-


ro-padro da estimativa), aumenta a fora dos testes de signifi-
cncia;

b) Para eliminar a tendenciosidade que poderia resultar se simples-


mente ignorssemos uma varivel que afeta Y substancialmente.

Uma estimativa tendenciosa quando, por exemplo, numa pesquisa em


que se deseja investigar a relao entre a aplicao de fertilizante e o volume
de safra, atribumos erroneamente ao fertilizante os efeitos do fertilizante,
mais a precipitao pluviomtrica.

O ideal obter o mais alto relacionamento explanatrio com o mnimo


de variveis independentes, sobretudo em virtude do custo na obteno de
dados para muitas variveis e tambm pela necessidade de observaes adi-
cionais para compensar a perda de graus de liberdade decorrente da introdu-
o de mais variveis independentes.

A equao da regresso mltipla tem a forma seguinte:

Y = a + b1x1 + b2x2 ++bk xk + ei , onde:

Este material parte integrante do acervo do IESDE BRASIL S.A., 221


mais informaes www.iesde.com.br
Anlise de Regresso

a = intercepto do eixo y;

bi = coeficiente angular da i-sima varivel;

k = nmero de variveis independentes.

Enquanto uma regresso simples de duas variveis resulta na equao de


uma reta, um problema de trs variveis resulta um plano, e um problema de
k variveis resulta um hiperplano.

Tambm na regresso mltipla, as estimativas dos mnimos quadrados so


obtidas pela escolha dos estimadores que minimizam a soma dos quadrados
dos desvios entre os valores observados Yi e os valores ajustados Y .

Na regresso simples:

b = aumento em Y, decorrente de um aumento unitrio em X.

Na regresso mltipla:

bi = aumento em Y se Xi for aumentado de 1 unidade, mantendo-se cons-


tantes todas as demais variveis Xj.

Atividades de aplicao
1. Os encargos dirios com o consumo de gs propano (Y) de uma em-
presa dependem da temperatura ambiente (X). A tabela seguinte apre-
senta o valor desses encargos em funo da temperatura exterior:

Temperatura (C) 5 10 15 20 25
Encargos (dlares) 20 17 13 11 9

Seja Y = 0 + 1X + o correspondente modelo de regresso linear.

a) Determine, usando o mtodo dos mnimos quadrados, a respecti-


va reta de regresso e represente-a no diagrama de disperso.

b) Quantifique a qualidade do ajuste obtido e interprete.

c) Determine um intervalo de confiana a 95% para os encargos m-


dios com gs propano num dia em que a temperatura ambiente
de 17oC.
222 Este material parte integrante do acervo do IESDE BRASIL S.A.,
mais informaes www.iesde.com.br
Anlise de Regresso

2. Suponha que um analista toma uma amostra aleatria de 9 carrega-


mentos feitos recentemente por caminhes de uma companhia. Para
cada carregamento, registra-se a distncia percorrida em km (X) e o
respectivo tempo de entrega (Y). Obteve-se:

x i
= 6.405; y i
= 23, 5; x 2
i
= 5.628.075; y 2
i
= 74, 75; x y y i = 20.295

a) Estime, usando o modelo de regresso linear, o tempo esperado


de entrega para uma distncia de 1 050km.

b) Comente a afirmao o tempo de entrega explicado em aproxi-


madamente 94% pela distncia percorrida.

3. Seja Y o nmero de chamadas telefnicas atendidas num determinado


servio de atendimento a clientes decorridos X minutos aps as 8h30.
Em determinado dia da semana observaram-se os seguintes pares de
valores:

Tempo aps 8h30(min) 1 3 4 5 6

Nmero de chamadas atendidas 2 5 10 11 12

Seja Y = 0 + 1X + o correspondente modelo de regresso linear.

a) Estime 0 e 1 usando o mtodo dos mnimos quadrados e re-


presente a correspondente reta de regresso no diagrama de
disperso.

b) Determine o correspondente coeficiente de determinao,


bem como o coeficiente de correlao; como voc interpreta
os valores obtidos?

c) Estime a varincia do erro.

d) Seja E [Y (2)] = E [Y | x = 2]. Estime E [Y (2)]; determine um inter-


valo de confiana para E [Y (2)] com 95% de confiana.

Este material parte integrante do acervo do IESDE BRASIL S.A., 223


mais informaes www.iesde.com.br
Anlise de Regresso

Gabarito

1. 1 = x .y n.y.x = 910 5.14.15 = 0,56


i i

x n.x 1375 5.225


2
i
2

0 = y 1.x = 14 ( 0,56).15 = 22,4


^
Ento Y = 22,4 0,56X.

70
b) Dado que y = =14
5
n n
2 2
SQreg = (Yi y) = (22,4 0,65xi 14) =78,4
i=1 i=1

n n
SQres = (y i Yi )2 = (y i 22,4 0,65xi )2 = 1,6
i=1 i=1

SQtotal = 78,4 + 1,6 = 80

Fonte de
g.l. S.Q. Q.M. F p-valor
Variao
Regresso 1 78,4 78,4 147 < 0,001
Resduos 3 1,6 0,53
Total 4 80 20

224 Este material parte integrante do acervo do IESDE BRASIL S.A.,


mais informaes www.iesde.com.br
Anlise de Regresso

A regresso pode ser considerada altamente significativa (p < 0,001).


O coeficiente de determinao calculado a partir dos dados da Ano-
va, r2 = 78,4/80 = 0,98. Pode se considerar bastante satisfatria a
qualidade do ajuste.
n
(y y )
2
80
c) S2y = i=1
= =16
n 5


^ 2 2
(
= Sy . 1 r = 16. (1 0,98 ) =0,565 )
^
Y = 22,4 0,56 . 17 = 12,88

2.

a)
1 =
x .y n.y.x = 20 295 9.2,61.711,67 = 3 577,87 = 0,00334
i i

x n.x 5 628 075 9. (711,66) 106 993,4


2 2 2
i


^
Ento Y = 0,234 + 0,00334.X = 0,234 + 0,00334 . 1 050 = 3,741 dias

b) Isto significa que 94% da variao do tempo de entrega est asso-


ciada distncia a ser percorrida e outras variveis como: regio
urbana ou rural, clima durante o percurso, treinamento do moto-
rista etc., so responsveis pelos demais 6%. No entanto, essas va-
riveis no foram observadas nesse estudo.

3.

a) 1 =
x .y n.y.x = 184 5.8.3,8 = 32 =2,16
i i

x n.x 87 5. (3,8) 14,8


2 2 2
i

0 = y 1.x=8 2,16.3,8= 0,21


^
Ento Y = 0,21 + 2,16.X

Este material parte integrante do acervo do IESDE BRASIL S.A., 225


mais informaes www.iesde.com.br
Anlise de Regresso

n n
b) SQreg = (Yi y)2 = ( 0,21 +2,16xi 8)2 = 69,05
i=1 i=1

n n
SQres = (y i Yi )2 = (y i +0,21 2,16xi )2 = 4,8109
i=1 i=1

SQtotal = 69,05 + 4,8109 = 73,8609


SQres 69,05
Assim r2 = = =0,9349 e r = r 2 = 0,9668
SQtotal 73,86
O coeficiente de determinao calculado nos indica que bastante
satisfatria a qualidade do ajuste. A relao entre as duas variveis
pode ser considerada bastante forte, pela anlise do coeficiente de
correlao.

(y 2
Y) 4,8109
u=
c) = = 1,266
n2 3

d) E [Y (2)] = 0,21 + 2,16 . 2 = 4,11


^
u ] = [4,113,18.1,266] = [0,08; 8,13]
[ Y tn2; /2 .

226 Este material parte integrante do acervo do IESDE BRASIL S.A.,


mais informaes www.iesde.com.br
Este material parte integrante do acervo do IESDE BRASIL S.A.,
mais informaes www.iesde.com.br
Este material parte integrante do acervo do IESDE BRASIL S.A.,
mais informaes www.iesde.com.br
Anexo I rea

Tabela de valores crticos Normal


Z 0.00 0.01 0.02 0.03 0.04 0.05 0.06 0.07 0.08 0.09
0.0 0.0000 0.0040 0.0080 0.0120 0.0160 0.0199 0.0239 0.0279 0.0319 0.0359
0.1 0.0398 0.0438 0.0478 0.0517 0.0557 0.0596 0.0636 0.0675 0.0714 0.0753
0.2 0.0793 0.0832 0.0871 0.0910 0.0948 0.0987 0.1026 0.1064 0.1103 0.1141
0.3 0.1179 0.1217 0.1255 0.1293 0.1331 0.1368 0.1406 0.1443 0.1480 0.1517
0.4 0.1554 0.1591 0.1628 0.1664 0.1700 0.1736 0.1772 0.1808 0.1844 0.1879

0.5 0.1915 0.1950 0.1985 0.2019 0.2054 0.2088 0.2123 0.2157 0.2190 0.2224
0.6 0.2257 0.2291 0.2324 0.2357 0.2389 0.2422 0.2454 0.2486 0.2517 0.2549
0.7 0.2580 0.2611 0.2642 0.2673 0.2704 0.2734 0.2764 0.2794 0.2823 0.2852
0.8 0.2881 0.2910 0.2939 0.2967 0.2995 0.3023 0.3051 0.3078 0.3106 0.3133
0.9 0.3159 0.3186 0.3112 0.3238 0.3264 0.3289 0.3315 0.3340 0.3365 0.3389

1.0 0.3413 0.3438 0.3461 0.3485 0.3508 0.3531 0.3554 0.3577 0.3599 0.3621
1.1 0.3643 0.3665 0.3686 0.3708 0.3729 0.3749 0.3770 0.3790 0.3810 0.3830
1.2 0.3849 0.3869 0.3888 0.3907 0.3925 0.3944 0.3962 0.3980 0.3997 0.4015
1.3 0.4032 0.4049 0.4066 0.4082 0.4099 0.4115 0.4131 0.4147 0.4162 0.4177
1.4 0.4192 0.4207 0.4222 0.4236 0.4251 0.4265 0.4279 0.4292 0.4306 0.4319

1.5 0.4332 0.4345 0.4357 0.4370 0.4382 0.4394 0.4406 0.4418 0.4429 0.4441
1.6 0.4452 0.4463 0.4474 0.4484 0.4495 0.4505 0.4515 0.4525 0.4535 0.4545
1.7 0.4554 0.4564 0.4573 0.4582 0.4591 0.4599 0.4608 0.4616 0.4625 0.4633
1.8 0.4641 0.4649 0.4656 0.4664 0.4671 0.4678 0.4686 0.4693 0.4699 0.4706
1.9 0.4713 0.4719 0.4726 0.4732 0.4738 0.4744 0.4750 0.4756 0.4761 0.4767

2.0 0.4772 0.4778 0.4783 0.4788 0.4793 0.4798 0.4803 0.4808 0.4812 0.4817
2.1 0.4821 0.4826 0.4830 0.4834 0.4838 0.4842 0.4846 0.4850 0.4854 0.4857
2.2 0.4861 0.4864 0.4868 0.4871 0.4875 0.4878 0.4881 0.4884 0.4887 0.4890
2.3 0.4893 0.4896 0.4898 0.4901 0.4904 0.4906 0.4909 0.4911 0.4913 0.4916
2.4 0.4918 0.4920 0.4922 0.4925 0.4927 0.4929 0.4931 0.4932 0.4934 0.4936

2.5 0.4938 0.4940 0.4941 0.4943 0.4945 0.4946 0.4948 0.4949 0.4951 0.4952
2.6 0.4953 0.4955 0.4956 0.4957 0.4959 0.4960 0.4961 0.4962 0.4963 0.4964
2.7 0.1965 0.4966 0.4967 0.4968 0.4969 0.4970 0.4971 0.4972 0.4973 0.4974
2.8 0.4974 0.4975 0.4976 0.4977 0.4977 0.4978 0.4979 0.4979 0.4980 0.4981
2.9 0.4981 0..4982 0.4982 0.4983 0.4983 0.4984 0.4985 0.4985 0.4986 0.4986

3.0 0.4987 0.4987 0.4987 0.4988 0.4988 0.4988 0.4989 0.4989 0.4990 0.4990
3.1 0.49903

Este material parte integrante do acervo do IESDE BRASIL S.A.,


mais informaes www.iesde.com.br
Este material parte integrante do acervo do IESDE BRASIL S.A.,
mais informaes www.iesde.com.br
Anexo II

Tabela de valores crticos t de Student


df 0.05 0.025 0.01 0.005
1 6.314 12.706 31.821 63.657
2 2.920 4.303 6.965 9.925
3 2.353 3.182 4.541 5.841
4 2.132 2.776 3.747 4.604
5 2.015 2.571 3.365 4.032
6 1.943 2.447 3.143 3.707
7 1.895 2.365 2.998 3.499
8 1.860 2.306 2.896 3.355
9 1.833 2.262 2.821 3.250

10 1.812 2.228 2.764 3.169


11 1.796 2.201 2.718 3.106
12 1.782 2.179 2.681 3.055
13 1.771 2.160 2.650 3.012
14 1.761 2.145 2.624 2.977
15 1.753 2.131 2.602 2.947
16 1.746 2.120 2.583 2.921
17 1.740 2.110 2.567 2.898
18 1.734 2.101 2.552 2.878
19 1.729 2.093 2.539 2.861

20 1.725 2.086 2.528 2.845


21 1.721 2.080 2.518 2.831
22 1.717 2.074 2.508 2.819
23 1.714 2.069 2.500 2.807
24 1.711 2.064 2.492 2.797
25 1.708 2.060 2.485 2.787
26 1.706 2.056 2.479 2.779
27 1.703 2.052 2.473 2.771
28 1.701 2.048 2.467 2.763
29 1.699 2.045 2.462 2.756

30 1.697 2.042 2.457 2.750


40 1.684 2.021 2.423 2.704
50 1.676 2.009 2.403 2.678

100 1.660 1.984 2.364 2.626

1.645 1.960 2.326 2.576


Este material parte integrante do acervo do IESDE BRASIL S.A.,
mais informaes www.iesde.com.br
Este material parte integrante do acervo do IESDE BRASIL S.A.,
mais informaes www.iesde.com.br
Anexo III

Tabela de valores crticos Qui-quadrado

df 0.05 0.025 0.01 0.005


1 3.84 5.02 6.63 7.88
2 5.99 7.38 9.21 10.60
3 7.82 9.35 11.35 12.84
4 9.49 11.14 13.28 14.86

5 11.07 12.83 15.09 16.75


6 12.59 14.45 16.81 18.55
7 14.07 16.01 18.48 20.28
8 15.51 17.54 20.09 21.96
9 16.92 19.02 21.66 23.59

10 18.31 20.48 23.21 25.19


11 19.68 21.92 24.72 26.75
12 21.03 23.34 26.21 28.30
13 22.36 24.74 27.69 29.82
14 23.69 26.12 29.14 31.31

15 25.00 27.49 30.58 32.80


16 26.30 28.85 32.00 34.27
17 27.59 30.19 33.41 35.72
18 28.87 31.53 34.81 37.15
19 30.14 32.85 36.19 38.58

20 31.41 34.17 37.56 40.00


21 32.67 35.48 38.93 41.40
22 33.93 36.78 40.29 42.80
23 35.17 38.08 41.64 44.18
24 36.42 39.37 42.98 45.56

25 37.65 40.65 44.32 46.93


26 38.89 41.92 45.64 48.29
27 40.11 43.20 46.96 49.64
28 41.34 44.46 48.28 50.99
29 42.56 45.72 49.59 52.34

30 43.77 46.98 50.89 53.67


40 55.75 59.34 63.71 66.80
50 67.50 71.42 76.17 79.52
100 124.34 129.56 135.82 140.19
Este material parte integrante do acervo do IESDE BRASIL S.A.,
mais informaes www.iesde.com.br
Este material parte integrante do acervo do IESDE BRASIL S.A.,
mais informaes www.iesde.com.br
Anexo IV

Tabela de valores crticos F de Snedecor


Degrees of Freedom for the F-Ratio numerator
1 2 3 4 5 6 7 8 9 10
1 161.4 199.5 215.8 224.8 230.0 233.8 236.5 238.6 240.1 242.1
2 18.51 19.00 19.16 19.25 19.30 19.36 19.35 19.37 19.38 19.40
3 10.13 9.55 9.328 9.12 9.01 8.94 8.89 8.85 8.81 8.79
4 7.71 6.94 6.59 6.39 6.26 6.16 6.09 6.04 6.00 5.96

5 6.61 5.79 5.41 5.19 5.05 4.95 4.88 4.82 4.77 4.74
6 5.99 5.14 4.76 4.53 4.39 4.28 4.21 4.15 4.10 4.06
7 5.59 4.74 4.35 4.12 3.97 3.87 3.79 3.73 3.68 3.64
8 5.32 4.46 4.07 3.84 3.69 3.58 3.50 3.44 3.39 3.35
9 5.12 4.26 3.86 3.63 3.48 3.37 3.29 3.23 3.18 3.14
Degrees of Freedom for the F-Ratio denominator

10 4.96 4.10 3.71 3.48 3.33 3.22 3.14 3.07 3.02 2.98
11 4.84 3.98 3.59 3.36 3.20 3.09 3.01 2.95 2.90 2.85
12 4.75 3.89 3.49 3.26 3.11 3.00 2.91 2.85 2.80 2.75
13 4.67 3.81 3.41 3.18 3.03 2.92 2.83 2.77 2.71 2.67
14 4.60 3.74 3.34 3.11 2.96 2.85 2.76 2.70 2.65 2.60

15 4.54 3.68 3.29 3.06 2.90 2.79 2.71 2.64 2.59 2.54
16 4.49 3.63 3.24 3.01 2.85 2.74 2.66 2.59 2.54 2.49
17 4.45 3.59 3.20 2.96 2.81 2.70 2.61 2.55 2.49 2.45
18 4.41 3.55 3.16 2.93 2.77 2.66 2.58 2.51 2.46 2.41
19 4.38 3.52 3.13 2.90 2.74 2.63 2.54 2.48 2.42 2.38

20 4.35 3.49 3.10 2.87 2.71 2.60 2.51 2.45 2.39 2.35
22 4.30 3.44 3.05 2.82 2.66 2.55 2.46 2.40 2.34 2.30
24 4.26 3.40 3.01 2.78 2.62 2.51 2.42 2.36 2.30 2.25
26 4.23 3.37 2.98 2.74 2.59 2.47 2.39 2.32 2.27 2.22
28 4.20 3.34 2.95 2.71 2.56 2.45 2.36 2.29 2.24 2.19

30 4.17 3.32 2.92 2.69 2.53 2.42 2.33 2.27 2.21 2.16
40 4.08 3.23 2.84 2.61 2.45 2.34 2.25 2.18 2.12 2.08
50 4.03 3.18 2.79 2.56 2.40 2.29 2.20 2.13 2.07 2.03
60 4.00 3.15 2.76 2.53 2.37 2.25 2.17 2.10 2.04 1.99

120 3.92 3.07 2.68 2.45 2.29 2.18 2.09 2.02 1.96 1.91

200 3.89 3.04 2.65 2.42 2.26 2.14 2.06 1.98 1.93 1.88

500 3.86 3.01 2.62 2.39 2.23 2.12 2.03 1.96 1.90 1.85
1000 3.85 3.01 2.61 2.38 2.22 2.11 2.02 1.95 1.89 1.84
Este material parte integrante do acervo do IESDE BRASIL S.A.,
mais informaes www.iesde.com.br
Este material parte integrante do acervo do IESDE BRASIL S.A.,
mais informaes www.iesde.com.br
Anexo V

Tabela de valores crticos Mann Whitney


1- tail test at a = 0.025 or 2- tail test at a = 0.05
N1

N2 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20
1
2 0 0 0 0 1 1 1 1 1 2 2 2 2
3 0 1 1 2 2 3 3 4 4 5 5 6 6 7 7 8
4 0 1 2 3 4 4 5 6 7 8 9 10 11 11 12 13 13
5 0 1 2 3 5 6 7 8 9 11 12 13 14 15 17 18 19 20
6 1 2 3 5 6 8 10 11 13 14 16 17 19 21 22 24 25 27
7 1 3 5 6 8 10 12 14 16 18 20 22 24 26 28 30 32 34
8 0 2 4 6 8 10 13 15 17 19 22 24 26 29 21 34 36 38 41
9 0 2 4 7 10 12 15 17 20 23 26 28 31 34 37 39 42 45 48
10 0 3 5 8 11 14 17 20 23 26 29 33 36 39 42 45 48 52 55
11 0 3 6 9 13 16 19 23 26 30 33 37 40 44 47 51 55 58 62
12 1 4 7 11 14 18 22 26 29 33 37 41 45 49 53 57 61 65 69
13 1 4 8 12 16 20 24 28 33 37 41 45 50 54 59 63 67 72 76
14 1 5 9 13 17 22 26 31 36 40 45 50 55 59 64 67 74 78 83
15 1 5 10 14 19 24 29 34 39 44 49 54 59 64 70 75 80 85 90
16 1 6 11 15 21 26 31 37 42 47 53 59 64 70 75 81 86 92 98
17 2 6 11 17 22 28 34 39 45 51 57 63 67 75 81 87 93 99 105
18 2 7 12 18 24 30 36 42 48 55 61 67 74 80 86 93 99 106 112
19 2 7 13 19 25 32 38 45 52 58 65 72 78 95 92 99 106 113 119
20 2 8 13 20 27 34 41 48 55 62 69 76 83 90 98 105 112 119 127

Este material parte integrante do acervo do IESDE BRASIL S.A.,


mais informaes www.iesde.com.br
Este material parte integrante do acervo do IESDE BRASIL S.A.,
mais informaes www.iesde.com.br
Anexo V Continuao

1- tail test at a = 0.05 or 2- tail test at a = 0.10


N1
N2 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20
1
2 0 0 0 1 1 1 1 2 2 2 3 3 3 4 4 4
3 0 0 1 2 2 3 3 4 5 5 6 7 7 8 9 9 10 11
4 0 1 2 3 4 5 6 7 8 9 10 11 12 14 15 16 17 18
5 0 1 2 4 5 6 8 9 11 12 13 15 16 18 19 20 22 23 25
6 0 2 3 5 7 8 10 12 14 16 17 19 21 23 25 26 28 30 32
7 0 2 4 6 8 11 13 15 17 19 21 24 26 28 30 33 35 37 39
8 1 3 5 8 10 13 15 18 20 23 26 28 31 33 36 39 41 44 47
9 1 3 6 9 12 15 18 21 24 27 30 33 36 39 42 45 48 51 54
10 1 4 7 11 14 17 20 24 27 31 34 37 41 44 48 51 55 58 62
11 1 5 8 12 16 19 23 27 31 34 38 42 46 50 54 57 61 65 69
12 2 5 9 13 17 21 26 30 34 38 42 47 51 55 60 64 68 72 77
13 2 6 10 15 19 24 28 33 37 42 47 51 56 61 65 70 75 80 84
14 2 7 11 16 21 26 31 36 41 46 51 56 61 66 71 77 82 87 92
15 3 7 12 18 23 28 33 39 44 50 55 61 66 72 77 83 88 94 100
16 3 8 14 19 25 30 36 42 48 54 60 65 71 77 83 89 95 101 107
17 3 9 15 20 26 33 39 45 51 57 64 70 77 83 89 96 102 109 115
18 4 9 16 22 28 35 41 48 55 61 68 75 82 88 95 102 109 116 123
19 0 4 10 17 23 30 37 44 51 58 65 72 80 87 94 101 109 116 123 130
20 0 4 11 18 25 32 39 47 54 62 69 77 84 92 100 107 115 123 130 138

N1 < N2

Este material parte integrante do acervo do IESDE BRASIL S.A.,


mais informaes www.iesde.com.br
Este material parte integrante do acervo do IESDE BRASIL S.A.,
mais informaes www.iesde.com.br
Anexo VI

Tabela de valores crticos Lilliefors


n = 0,05 =0,01
5 0,337 0,405
10 0,258 0,294
15 0,220 0,257
20 0,190 0,231
25 0,173 0,200
30 0,161 0,187
>30 0,886/ n 1,031/ n

Este material parte integrante do acervo do IESDE BRASIL S.A.,


mais informaes www.iesde.com.br
Este material parte integrante do acervo do IESDE BRASIL S.A.,
mais informaes www.iesde.com.br
Anexo VII

Tabela de valores crticos Wilcoxon


Number
.05 .025 .01 .005
of pairs T T T T

N
5 0 .0313
1 .0625
6 2 .0469 0 .0156
3 .0781 1 .0313
7 3 .0391 2 .0234 0 .0078
4 .0547 3 .0391 1 .0156
8 5 .0391 3 .0195 1 .0078 0 .0039
6 .0547 4 .0273 2 .0117 1 .0078
9 8 .0488 5 .0195 3 .0098 1 .0039
9 .0645 6 .0273 4 .0137 2 .0059
10 10 .0420 8 .0244 5 .0098 3 .0049
11 .0527 9 .0322 6 .0137 4 .0068
11 13 .0415 10 .0210 7 .0093 5 .0049
14 .0508 11 .0269 8 .0122 6 .0068
12 17 .0461 13 .0212 9 .0081 7 .0046
18 .0549 14 .0261 10 .0105 8 .0061
13 21 .0471 17 .0239 12 .0085 9 .0040
22 .0549 18 .0287 13 .0107 10 .0052
14 25 .0453 21 .0247 15 .0083 12 .0043
26 .0520 22 .0290 16 .0101 13 .0054
15 30 .0473 25 .0240 19 .0090 15 .0042
31 .0535 26 .0277 20 .0108 16 .0051
16 35 .0467 29 .0222 23 .0091 19 .0046
36 .0523 30 .0253 24 .0107 20 .0055
17 41 .0492 34 .0224 27 .0087 23 .0047
42 .0544 35 .0253 28 .0101 24 .0055
18 47 .0494 40 .0241 32 .0091 27 .0045
48 .0542 41 .0269 33 .0104 28 .0052
19 53 .0478 46 .0247 37 .0090 32 .0047
54 .0521 47 .0273 38 .0102 33 .0054
20 60 .0487 52 .0242 43 .0096 37 .0047
61 .0527 53 .0266 44 .0107 38 .0053

Este material parte integrante do acervo do IESDE BRASIL S.A.,


mais informaes www.iesde.com.br
Este material parte integrante do acervo do IESDE BRASIL S.A.,
mais informaes www.iesde.com.br
Anexo VIII
Tabela de valores crticos Kruskal Wallis
n1 n2 n3 H P n1 n2 n3 H P n1 n2 n3 H P
2 1 1 2,7000 0,500 6,6667 0,010 6,9545 0,008
2 2 1 3,6000 0,200 6,1667 0,022 6,8400 0,011
4,5714 0,067 4,9667 0,048 4,9855 0,044
2 2 2 4 4 1 5 4 1
3,7143 0,200 4,8667 0,054 4,8600 0,056
3 1 1 3,2000 0,300 4,1667 0,082 3,9873 0,098
4,2857 0,100 4,0667 0,102 3,9600 0,102
3 2 1
3,8571 0,133 7,0364 0,006 7,2045 0,009
5,3572 0,029 6,8727 0,011 7,1182 0,010
4,7143 0,148 5,4545 0,046 5,2727 0,049
3 2 2 4 4 2 5 4 2
4,5000 0,067 5,2364 0,052 5,2682 0,050
4,4643 0,105 4,5545 0,098 4,5409 0,098
5,1429 0,043 4,4455 0,103 4,5182 0,101
3 3 1 4,5714 0,100 7,1439 0,010 7,4449 0,010
4,0000 0,129 7,1364 0,011 7,3949 0,011
6,2500 0,011 5,5985 0,049 5,6564 0,049
4 4 3 5 4 3
5,3611 0,032 5,5758 0,051 5,6308 0,050
3 3 2 5,1389 0,061 4,5455 0,099 4,5487 0,099
4,5556 0,100 4,4773 0,102 4,5231 0,103
4,2500 0,012 7,6538 0,008 7,7604 0,009
7,2000 0,004 7,5385 0,011 7,7440 0,011
6,4889 0,011 5,6923 0,049 5,6571 0,049
4 4 4 5 4 4
5,6889 0,029 5,6538 0,054 5,6176 0,050
3 3 3
5,6000 0,050 4,6539 0,097 4,6187 0,100
5,0667 0,086 4,5001 0,104 4,5527 0,102
4,6222 0,100 5 1 1 3,8571 0,143 7,3091 0,009
4 1 1 3,5714 0,200 5,2500 0,036 6,8364 0,011
4,8214 0,057 5,0000 0,048 5,1273 0,046
5 5 1
4 2 1 4,5000 0,076 5 2 1 4,4500 0,071 4,9091 0,053
4,0179 0,114 4,2000 0,095 4,1091 0,086
6,0000 0,014 4,0500 0,119 4,0364 0,105
5,3333 0,033 6,5333 0,008 7,3385 0,010
4 2 2 5,1250 0,052 6,1333 0,013 7,2692 0,010
4,4583 0,100 5,1600 0,034 5,3385 0,047
5 2 2 5 5 2
4,1667 0,105 5,0400 0,056 5,2462 0,051
5,8333 0,021 4,3733 0,090 4,6231 0,970
5,2083 0,050 4,2933 0,122 4,5077 0,100
4 3 1 5,0000 0,057 6,4000 0,012 7,5780 0,010
4,0556 0,093 4,9600 0,048 7,5429 0,010
3,8889 0,129 5 3 1 4,8711 0,052 5,7055 0,046
5 5 3
6,4444 0,008 4,0178 0,095 5,6264 0,510
6,3000 0,011 3,8400 0,123 4,5451 0,100
5,4444 0,046 6,9091 0,009 4,5363 0,102
4 3 2
5,4000 0,051 6,8218 0,010 7,8229 0,100
4,5111 0,098 5,2509 0,049 7,7914 0,010
5 3 2
4,4444 0,102 5,1055 0,052 5,6657 0,049
5 5 4
4,6509 0,091 5,6429 0,050
4,4945 0,101 4,5229 0,099
7,0788 0,009 4,5200 0,101
5 3 3 6,9818 0,011 8,0000 0,009
5,6485 0,049 5 5 5 7,9800 0,010
5,7800 0,049
Este material parte integrante do acervo do IESDE BRASIL S.A.,
mais informaes www.iesde.com.br
Este material parte integrante do acervo do IESDE BRASIL S.A.,
mais informaes www.iesde.com.br
Referncias

BUSSAB, W. O.; MORETIN, P. A. Estatstica Bsica. 4. ed. So Paulo: Saraiva, 2003.

BARROS, Emilio. Aplicaes e Simulaes Monte Carlo e Bootstrap. Monografia


(Bacharelado em Estatstica) Universidade Estadual de Maring, Maring, 2005.
Disponvel em: <www.des.uem.br/graduacao/Monografias/Monografia_Emilio.
pdf.>. Acesso em: 23 nov. 2007.

CAMPOS, G. M. Estatstica Prtica para Docentes e Ps-Graduados. Disponvel em:


<www.forp.usp.br/restauradora/gmc/gmc_livro/gmc_livro_cap14.html>. Acesso
em: 23 nov. 2007.

COSTA NETO, P. L. de O. Estatstica Bsica. 2. ed. So Paulo: Edgard Blcher, 2002.

GONALVES, Lren Pinto Ferreira. Avaliao de Ferramentas de Minerao de


Dados como Fonte de Dados Relevantes para a Tomada de Deciso: aplica-
o na Rede Unido de Supermercados. Dissertao (Mestrado Interinstitucio-
nal em Administrao) Universidade da Regio da Campanha (Urcamp), So
Leopoldo, 2001. Disponvel em: <http://volpi.ea.ufrgs.br/teses_e_dissertacoes/
td/000410.pdf>

HOAGLIN, D. C.; MOSTELLER, F.; TUKEY, J. W. Anlise Exploratria de Dados


Tcnicas Robustas. Lisboa: Edies Salamandra, 1983.

HOEL, PORT & STONE. Introduo Teoria da Probabilidade. Rio de Janeiro: Edi-
tora Intercincia ,1981.

KAZMIER, L. J. Estatstica Aplicada Economia e Administrao. 4. ed. So


Paulo: Bookman 2007.

LANDIS JR, Koch GG. The measurement of observer agreement for categorical
data. Biometrics 1977.

LEVINE, D. M.; BERENSON, M. L.; STEPHAN, D. et al. Estatstica: Teoria e


Aplicaes Usando Microsoft Excel. 3. ed. Rio de Janeiro: LTC, 2005.

MATTAR, F. N. Pesquisa de Marketing. So Paulo: Atlas, 2001.

______. So Paulo: Atlas, 1996. (Edio compacta).

Este material parte integrante do acervo do IESDE BRASIL S.A., 247


mais informaes www.iesde.com.br
Referncias

MEYER, P. L. Probabilidade: Aplicaes Estatstica. 2. ed. Rio de Janeiro: LTC,


2000.

SIEGEL, S.; CASTELLAN JR., N. J. Estatstica No Paramtrica para Cincias do


Comportamento. Porto Alegre: Artmed, 2006.

TRIOLA, M. F. Introduo Estatstica. 9. ed. Rio de Janeiro: LTC, 2005.

VIEIRA, S., WADA, R. O que Estatstica? 3. ed. So Paulo: Brasiliense, 1991.

WONNACOT, T. H. WONNACOTT, R. J. Estatstica Aplicada Economia e Admi-


nistrao. Rio de Janeiro: LTC, 1981.

248 Este material parte integrante do acervo do IESDE BRASIL S.A.,


mais informaes www.iesde.com.br
Anotaes

Este material parte integrante do acervo do IESDE BRASIL S.A., 249


mais informaes www.iesde.com.br
Anotaes

250 Este material parte integrante do acervo do IESDE BRASIL S.A.,


mais informaes www.iesde.com.br
Anotaes

Este material parte integrante do acervo do IESDE BRASIL S.A., 251


mais informaes www.iesde.com.br
Este material parte integrante do acervo do IESDE BRASIL S.A.,
mais informaes www.iesde.com.br
Este material parte integrante do acervo do IESDE BRASIL S.A.,
mais informaes www.iesde.com.br
Mtodos

Mtodos Quantitativos Estatsticos


Mtodos Quantitativos
Quantitativos Estatsticos
Estatsticos

Fundao Biblioteca Nacional


ISBN 978-85-387-3028-6

Paulo Ricardo Bittencourt Guimares

Este material parte integrante do acervo do IESDE BRASIL S.A.,


mais informaes www.iesde.com.br