Anda di halaman 1dari 72

UNIVERSIDADE FEDERAL DE SÃO JOÃO DEL REI

ESTATÍSTICA DESCRITIVA

CURSO: CIÊNCIA DA COMPUTAÇÃO

PROFª: LUCIANE TEIXEIRA PASSOS GIAROLA

2018
CAPÍTULO 1: O QUE É ESTATÍSTICA

O que é Estatística? Porque estudar Estatística? Em que seu estudo


pode auxiliar?
A Estatística está presente no nosso cotidiano. Veja as frases a seguir:
“Setenta por cento dos 1.500 danos à espinha dorsal em menores de
idade resultam de acidentes de carro e 68% dos feridos não estavam usando
o cinto de segurança” (Larson e Farber, 2010).
“Considerando as próximas eleições para presidente do Brasil, o
candidato A tem 41% das intenções de voto, com uma margem de erro de
2% para mais ou para menos”.

Tais informações são baseadas na coleta de dados.

Denomina-se por dados a um (ou mais) conjunto de valores,


numéricos ou não. Dados consistem em informações que vêm de
observações, contagens, medições ou respostas. Na busca pela
compreensão de dados, surgiu a Estatística.

Estatística é a ciência que coleta, organiza, analisa e interpreta dados


para a tomada de decisões em qualquer área do conhecimento. Técnicas
estatísticas são utilizadas nas mais diversas áreas da atividade humana:
• Medicina: diagnóstico, prognóstico, ensaios clínicos;
• Genética: estudos da cura de doenças;
• Epidemiologia: estudos de dados de saúde;
• Agricultura: experimentação agrícola
• Indústria: controle de qualidade, previsão de demanda,
gerenciamento eficiente, mercado e finanças;
• Governo: disseminação da informação, políticas de decisão,
serviços públicos;
• Economia: técnicas econométricas e análises de séries temporais;
• Pesquisa: artes, arqueologia, ciências agrárias, ciências exatas,
ciências sociais, literatura, meio ambiente, mercado, petróleo;
• Direito: evidência estatística, teste de DNA, investigação criminal;

Principais atuações da Estatística:


• Bioestatística: estatística aplicada às ciências da vida;
• Biometria: aspectos estatísticos e matemáticos da Biologia;
• Demografia: estudo da população humana e sua evolução no tempo;
• Econometria: estudo de problemas econômicos combinando
métodos estatísticos e matemáticos com teoria econômica;
• Epidemiologia: campo da medicina que trata do estudo de dados na
área da saúde;

2
• Sociometria: e
estudo
studo de problemas sociais através da Estatística

O crescimento e desenvolviment
desenvolvimento o da Estatística foram impulsionados
pelo avanço das técnicas computacionais. Foram desenvolvidos diversos
pacotes estatísticos utilizados no meio acadêmico, em indústrias, bancos,...,
tais como Minitab, Splus, SPSS, SAS, Sisvar, R, Biostat, Eviews,
Estatística,
ística, Origin,...
O trabalho da estatística envolve a análise exploratória do conjunto
de dados (estatística descritiva) a modelagem (probabilidade, regressão,..)
do mesmo e a tomada de decisões (inferência) em situações de incerteza.
Assim, a estatísticaa pode ser dividida em:
• Estatística Descritiva: conjunto de técnicas destinadas a descrever e
resumir os dados a fim de tirar conclusões a respeito de características
de interesse. Através dela obtem
obtem-sese a maior quantidade possível de
informações que permi
permitam
tam indicar modelos que expliquem o conjunto
de dados ou que permitam tomar decisões a cerca do problema em
questão (medidas de posição, variabilidade, assimetria e técnicas
gráficas).
• Probabilidade: teoria matemática utilizada para se estudar a
incerteza associada a fenômenos aleatórios.(modelos probabilísticos)
• Inferência Estatística: técnicas que possibilitam a extrapolação, a um
grande conjunto de dados (população), das informações e conclusões
obtidas a partir de um subconjunto de valores (amostra).

Dessa
essa forma, a Estatística busca descrever a população de forma mais
fidedigna possível.

3
CAPÍTULO 2: INTRODUÇÃO À AMOSTRAGEM

2.1 INTRODUÇÃO

Quando se deseja estudar uma ou mais características (variáveis)


de uma população, nem sempre é possível fazer um levantamento da
população por completo. Isso ocorre por diversas razões, tais como: a
população é infinita, os custos de coleta das informações para toda a
população são muito altos, o tempo de coleta é muito grande
inviabilizando a pesquisa, deseja-se analisar características da população
para as quais é necessário submeter as unidades observacionais a testes
destrutivos. Daí surge a necessidade de se investigar apenas uma parte
da população, através da coleta de uma amostra, de modo que os
resultados possam ser inferidos (generalizados) o mais legitimamente
possível para os resultados da população total, caso esta fosse
observada (censo).
A amostragem apresenta vantagens em relação ao censo1. Como
os dados são referentes a uma parte da população, a amostragem é mais
barata que o censo. A Pesquisa Nacional por Amostragem de domicílios
(PNAD) é feita pelo Instituto Brasileiro de Geografia e Estatística (IBGE)
em menos de 1% das residências. Os institutos de pesquisa avaliam a
opinião pública em pesquisas de mercado utilizando poucos milhares de
pessoas e em certos casos até mesmo algumas centenas de
consumidores (Muniz e Abreu, 1999).
A amostragem também apresenta maior rapidez que o censo em
decorrência do menor volume de dados. Também a utilização de uma
equipe bem treinada e equipamento sofisticado para obtenção dos dados
pode ser necessária e isto pode inviabilizar o censo. Nesse sentido, em
situações nas quais o censo é inviável, a amostragem pode ser utilizada,
dado sua flexibilidade.
Em decorrência da possibilidade de trabalhar com uma equipe de
melhor nível, mais bem treinada e ainda de se poder acompanhar melhor
a coleta e a tabulação dos dados, em virtude da redução do volume de
trabalho, a amostragem pode proporcionar maior exatidão nos resultados
(Muniz e Abreu, 1999). Mas, como selecionar essa amostra?
Para a seleção das amostras de tal forma que elas sejam
representativas da população é necessário a utilização de técnicas
específicas denominadas Técnicas de Amostragem. Assim, o problema
da amostragem consiste em “escolher” uma amostra que represente a

1
Censo: Estudo de todos os elementos da população.

4
população. Existem dois caminhos diferentes no processo de
amostragem para se determinar uma amostra: amostragem probabilística
e amostragem não probabilística.
Quando se planeja uma pesquisa por amostragem, considera-se
que todas as amostras possíveis da população tem probabilidade
diferente de zero de serem selecionadas. Assim, a seleção da amostra é
feita de modo aleatório, permitindo a aplicação da teoria da Probabilidade
Estatística e a obtenção de uma estimativa do erro amostral. Nesse caso,
diz-se que a amostragem é probabilística.
Em situações nas quais restrições práticas impedem que a seleção
da amostra seja totalmente aleatória, obtém-se amostras não
probabilísticas. A amostragem não probabilística é a amostragem
subjetiva, ou por julgamento, na qual a variabilidade amostral não pode
ser estabelecida com precisão.
O uso da Amostragem só não é interessante quando:

 população pequena: não há necessidade de utilizar técnicas estatísticas,


pois neste caso é aconselhável realizar o censo. (Análise de toda a
população);
 característica de fácil mensuração:talvez a população não seja tão
pequena, mas a variável que se quer observar é de tão fácil mensuração,
que não compensa investir num plano de amostragem. Por exemplo, para
verificar a porcentagem de funcionários favoráveis à mudança no horário
de um turno de trabalho, podemos entrevistar toda a população no próprio
local de trabalho. Esta atitude pode ser politicamente mais recomendável.
 necessidade de alta precisão: a cada dez anos o IBGE realiza um Censo
Demográfico para estudar diversas característica da população brasileira.
Dentre estas características têm-se o número de habitantes do país, que
é fundamental para o planejamento do país. Desta forma, o número de
habitantes precisa ser avaliado com grande precisão e, por isto, se
pesquisa toda a população.

2.2 CONCEITOS BÁSICOS

Amostragem: Estudo da relações existentes entre a amostra e a


população de onde foi extraída. A amostragem é utilizada usualmente com
o objetivo de estimar parâmetros da população, como por exemplo a média
(µ) e a variância (σ2) ou a proporção (p) de uma determinada característica.
A estimação com base nas propriedades estatísticas dos estimadores.

População (universo do estudo): Conjunto de elementos com uma ou


mais características em comum.

5
Amostra: Parte da população em que o estudo será conduzido. Um
exemplo é um grupo de tamanho n=130 dos estudantes da UFSJ, os
quais foram escolhidos por sorteio.

Figura 1: Ilustração de uma população e três amostras possíveis.

EXEMPLOS:

a) Considere uma pesquisa para estudar os salários dos


500 funcionários de uma empresa. Seleciona-se uma
amostra de 36 indivíduos, e anotam-se os seus salários.

População:
Amostra:
Variável:

b) Deseja-se estudar a proporção de indivíduos na cidade A que são


favoráveis a certo projeto governamental. Uma amostra de 200
pessoas é sorteada e a opinião de cada uma é registrada como sendo
a favor ou contra o projeto.

População:
Amostra:
Variável:

c) O interesse é investigar a duração de vida de um novo tipo de


lâmpada, pois acredita-se que ela tenha uma duração maior do que as
fabricadas atualmente. Então, 100 lâmpadas do novo tipo são deixadas
acesas até queimarem. A duração em horas de cada lâmpada é
registrada.

População:
Amostra:
Variável:

6
Se o conjunto de dados é uma população ou uma amostra depende
do contexto da vida real, da proposta da pesquisa.

Parâmetro: Valor desconhecido associado a uma característica da


população. a média (µ) e a variância (σ2) ou a proporção (p).

Estimador: Função que estimao valor de um parâmetro baseando-se nas


observações de uma amostra. As expressões:

∑x ∑ (x −X)
2
i i
x
X = i
, S2 = i
, p=
N N −1 n

são respectivamente estimadores da média (µ), da variância (σ2) e da


proporção (p).

Estimativa: Valor obtido pelo estimador para os dados de uma amostra.

Inferência estatística: Consiste em concluir sobre a população com base


nos dados obtidos na amostra. È importante salientar que inferências em
estudos de amostragem são feitas sempre considerando a margem de
erro.

7
REFERÊNCIAS:

MUNIZ, J. A.; ABREU, A. R. Técnicas de amostragem. Lavras: UFLA/FAEPE,


1999.

VIEIRA, S. Introdução à Bioestatística. 4ed. Rio de Janeiro: Elsevier, 2008.

8
CAPÍTULO 3: ESTATÍSTICA DESCRITIVA - RESUMO DE
DADOS

3.1VARIÁVEIS E SUAS CLASSIFICAÇÕES

Uma variável é qualquer característica associada a uma população,


conforme já mencionado anteriormente. Ao coletar um conjunto de dados,
para cada elemento associa-se o resultado de uma característica. O
resultado da característica (variável sob estudo) é o que se chama de
realização da variável. A realização de uma variável pode ser uma
qualidade/ atributo ou um número resultante de uma contagem ou
mensuração. De acordo com sua realização a variável é classificada como
qualitativa ou quantitativa, conforme o esquema abaixo:

NOMINAL
(sem ordenação)
QUALITATIVA
(Atributo ou qualidade)
ORDINAL
(ordenação)
VARIÁVEL

DISCRETA
QUANTITATIVA (Contagem; enumerável)
(Numérica)
CONTÍNUA
(intervalo de números reais)

Para exemplificar, considere o levantamento sobre alguns aspectos


socioeconômicos dos empregados da seção de orçamentos da Companhia
MB, dados na Tabela 1 abaixo. Este conjunto de dados será utilizado ao
longo do texto.

9
Tabela 1: Aspectos socioeconômicos dos 36 empregados da seção de
orçamentos da Companhia MB

no Estado Grau de no de Idade Região de Salário


civil instrução filhos Anos procedência (X salários
mínimos)
1 Solteiro Fundamental - 26 Interior 4.00
2 Casado Fundamental 1 32 Capital 4.56
3 Casado Fundamental 2 36 Capital 5.25
4 Solteiro Médio - 20 Outro 5.73
5 Solteiro Fundamental - 40 Outro 6.26
6 Casado Fundamental 0 28 Interior 6.66
7 Solteiro Fundamental - 41 Interior 6.86
8 Solteiro Fundamental - 43 capital 7.39
9 Casado Médio 1 34 capital 7.59
10 Solteiro Médio - 23 outro 7.44
11 Casado Médio 2 33 interior 8.12
12 Solteiro Fundamental - 27 capital 8.46
13 Solteiro Médio - 37 outro 8.74
14 Casado Fundamental 3 44 outro 8.95
15 Casado Médio 0 30 interior 9.13
16 Solteiro Médio - 38 outro 9.35
17 Casado Médio 1 31 capital 9.77
18 Casado Fundamental 2 39 outro 9.80
19 Solteiro Superior - 25 interior 10.53
20 Solteiro Médio - 37 interior 10.76
21 Casado Médio 1 30 outro 11.06
22 Solteiro Médio - 34 capital 11.59
23 Solteiro Fundamental - 41 outro 12.00
24 Casado Superior 0 26 outro 12.79
25 Casado Médio 2 32 interior 13.23
26 Casado Médio 2 35 outro 13.60
27 Solteiro Fundamental - 46 outro 13.85
28 Casado Médio 0 29 interior 14.69
29 Casado Médio 5 40 interior 14.71
30 Casado Médio 2 35 capital 15.99
31 Solteiro Superior - 31 outro 16.22
32 Casado Médio 1 36 interior 16.61
33 Casado Superior 3 43 capital 17.26
34 Solteiro Superior - 33 capital 18.75
35 Casado Médio 2 48 capital 19.40
36 Casado Superior 3 42 interior 23.30
Fonte: Bussab e Morettin (2006)

10
As variáveis como número de filhos, salário (expresso como fração do
salário mínimo), idade (medida em anos e meses), apresentam como
possíveis resultados números resultantes de uma contagem ou
mensuração, logo, estas variáveis são chamadas de variáveis
quantitativas. A realização da variável número de filhos apresenta valores
que formam um conjunto finito ou enumerável de números, e que resultam
de uma contagem. Assim, essa variável é classificada como variável
quantitativa discreta. Já as variáveis salário e idade apresentam valores
que pertencem a um intervalo de números reais e que resultam de uma
mensuração. Então, essas variáveis são classificadas como variáveis
quantitativas contínuas.
As variáveis Grau de instrução, Estado civil e Região de procedência,
apresentam como possíveis resultados uma qualidade (ou atributo) do
indivíduo pesquisado, logo, estas variáveis são chamadas de variáveis
qualitativas. Para as variáveis estado civil e região de procedência não
existe nenhuma ordenação nos possíveis resultados e, por isso, essas
variáveis são chamadas variáveis qualitativas nominais. Já para a
variável Grau de instrução existe uma ordem natural nos seus resultados e,
por isso, ela é classificada como variável qualitativa ordinal.

Outros exemplos:

• Variável qualitativa:
a) Nominal: sexo (gênero), cor dos olhos, raça.
b) Ordinal: classe social, meses do ano.

• Variável quantitativa:
a) Discreta: número de carros, número de equipamentos defeituosos.
b) Contínua: peso, altura, tempo (de vida)/duração de um
equipamento.

3.2 DISTRIBUIÇÕES DE FREQUÊNCIA

O objetivo da estatística é descrever uma população da forma mais


fidedigna possível. É sabido que se deve coletar dados, isto é, retirar uma
amostra, de uma população para estudar e compreender características de
interesse sobre ela, estudar o comportamento de uma variável através de
suas realizações.
Na maioria dos casos, o conjunto de dados é formado por uma grande
massa de dados. Então, deve-se procurar sintetizar ao máximo a informação
nele existente, a fim de facilitar o manuseio, visualização, análise dos dados
e compreensão da “situação problema”.

11
Como realizar este estudo (descrição) de forma eficiente? Uma
maneira é construir tabelas e gráficos que permitam uma melhor
visualização do problema em questão, além de subsidiar trabalhos
estatísticos posteriores. Para isso, utiliza-se a distribuição de freqüências.
Pode-se também sintetizar as informações calculando algumas medidas
numéricas como: média, mediana, desvio padrão, entre outras.
É importante salientar que para cada tipo de variável existem técnicas
apropriadas para resumir as informações. No entanto, será visto que
técnicas usadas num caso, podem ser adaptadas para outros casos.

3.2.1 Representação da variável qualitativa

Considere a variável qualitativa nominal “estado civil”, do exemplo


anterior. Deseja-se dispor o conjunto de realizações desta variável de modo
resumido a fim de se ter uma idéia global sobre elas, ou seja, de sua
distribuição.
A melhor forma de resumir os dados (informações) desta variável é
apresentando o número de ocorrências (freqüência) das possíveis
realizações (categorias) desta variável. Este número pode ser registrado
através de 5 tipos de freqüência:

• Freqüência absoluta (ni) – Número de casos ocorridos em cada


categoria
• Freqüência relativa (fi) – Número de casos de uma categoria em
relação a todas as ocorrências (total de observações - n); indica a
proporção de cada categoria. São úteis na comparação de resultados
de duas pesquisas distintas, pois envolvem o mesmo total.
n
fi = i
n
• Freqüência percentual(100fi) – é a freqüência relativa multiplicada
por cem (100); indica a porcentagem.
• Freqüência acumulada(Ni) – é a soma da frequência da categoria e
de todas as categorias que a antecedem; indica quantos elementos
estão abaixo de um certo valor.
• Porcentagem acumulada(100Fi) – é a soma da freqüência
percentual da categoria e de todas as categorias que a antecedem;
indica qual porcentagem de elementos estão abaixo de um certo valor.

Os resultados são registrados em uma tabela. De uma maneira geral


uma tabela deve conter os seguintes componentes:

• Título – deve trazer informação sobre o conteúdo existente na tabela,


sendo opcional a descrição do local e forma de coleta dos dados.

12
• Cabeçalho – local onde deve-se especificar as variáveis em estudo e
suas características (freqüências);
• Corpo – são as colunas e as sub-colunas onde são anotados os
dados apurados, podendo ter entrada: simples, dupla ou múltipla.
• Coluna indicadora – local onde são anotadas as classes da variável
em questão;
• Linha de totais – linha na qual quantificam-se os totais;
• Rodapé – são anotadas todas as informações que venham a
esclarecer a interpretação da tabela; local reservado para se colocar a
fonte dos dados e, quando necessário, a legenda. (Rocha, 2015).

Assim, vamos tomar os dados da Tabela 1 e construir sua


distribuição de freqüências (Tabela 2).

Título

Tabela 2: Distribuição de freqüências dos 36 empregados da seção


de orçamentos da Companhia MB, segundo a região de procedência.

Cabeçalho

Região de procedência ni fi 100 fi


Capital 11 0,306 30,6
Interior 12 0,333 33,3 Corpo
Outra 13 0,361 36,1
Total 36 1,000 100,0

Linha de totais
Coluna indicadora

Se a variável for qualitativa ordinal você deve escrever as


categorias respeitando sua ordem natural. Considere a variável Grau de
instrução nos dados da Tabela 1.

Tabela 3: Frequências e Porcentagens dos 36 empregados da seção de


Orçamentos da Companhia MB segundo o Grau de Instrução.

Grau de Instrução Frequência (ni) Proporção (fi) Porcentagem


(100fi)
Fundamental
Médio
Superior
Total
Fonte: Bussab e Morettin (2006)

13
Pode-se utilizar a proporção para comparar a variável Grau de
instrução para empregados da seção de orçamentos da companhia MB com
a mesma variável para todos os empregados da Companhia. Considerando
que a empresa tenha 2000 empregados e que sua distribuição de
freqüências está dada na Tabela 4, não se pode comparar diretamente as
colunas das freqüências das Tabelas 3 e 4. Mas, pode-se fazer isso com as
colunas das porcentagens dessas tabelas, pois as freqüências estão
reduzidas a um mesmo total.

Tabela 4: Frequências e porcentagens dos 2000 empregados da Companhia


MB, segundo o Grau de Instrução.

Grau de Instrução Frequência (ni) Porcentagem


(100fi)
Fundamental 650 32,50
Médio 1020 51,00
Superior 330 16,50
Total 2000 100,00
Fonte: Bussab e Morettin (2006)

Pode-se atribuir valores numéricos aos atributos de uma variável


qualitativa e, posteriormente, analisá-los da mesma forma que é feito com as
variáveis quantitativas discretas, desde que seja possível a interpretação. Se
a variável possui apenas dois atributos, atribuímos o valor zero (0) para uma
categoria e o valor um (1) para a outra categoria. Neste caso, a variável é
denominada dicotômica e dize-se que ela possui duas realizações: sucesso
e fracasso.

3.2.2 Representação da variável quantitativa discreta

É feita de maneira ordenada, de forma semelhante às qualitativas.


Basta definir as categorias, contar a freqüência em cada uma delas e dispor
esta informação em uma tabela. Para facilitar o trabalho de contagem,
ordenam-se os dados em ordem crescente antes da contagem, conforme a
Tabela 5.

Tabela 5: Variável “Número de filhos” ordenada

0 1 1 2 3
0 1 2 2 3
0 1 2 2 3
0 1 2 2 5

14
Tabela 6: Frequências e porcentagens dos empregados da seção de
orçamentos da Companhia MB, segundo o número de filhos.

Nº de filhos (Zi) Frequência (ni) Porcentagem (100fi)


0
1
2
3
5
Total
Fonte: Bussab e Morettin (2006)

Na distribuição de freqüências das variáveis discretas não existe perda


dos dados originais. Essa distribuição é adequada quando o número de
elementos distintos da série de dados é pequeno. Quando o número de
elementos distintos for grande é preferível fazer a distribuição através de
intervalos, como é feito com as variáveis quantitativas contínuas.

3.2.3 Representação da variável quantitativa contínua

Uma variável quantitativa contínua é obtida por meio de uma medição e,


portanto, pode assumir qualquer valor dentro de uma escala real. Para
construir a distribuição de freqüências deste tipo de variável, não se tem
definidas as categorias como nos exemplos anteriores. Assim, constroem-se
faixas ou classes dentro das quais os dados serão alocados (agrupados). As
classes são intervalos, geralmente semi-abertos à direita, de números reais.
Este procedimento provoca perda de informação.

Mas quantas e quais classes devem ser construídas? Bussab e


Morettin (2006) afirmam que esta escolha é arbitrária, depende da
familiaridade do pesquisador. Se for construído um pequeno número de
classes, a informação ficará bem resumida, mas a perda de informação será
grande. Por outro lado, se for construído um grande número de classes, não
se perde tanta informação, mas se perde no objetivo de resumir os dados.
Os autores sugerem a construção de 5 a 15 classes de mesma amplitude
(comprimento dos intervalos).

Considerando a variável salário nos dados da Tabela 1, construiu-se


uma possível distribuição de freqüências, considerando 5 classes de
amplitude 4. Veja a Tabela 7.

15
Tabela 7: Frequências e Porcentagens dos 36 empregados da seção de
orçamentos da Companhia MB por faixa de salário.

Classe de salários Frequência (ni) Porcentagem (100fi)


4,00 |- 8,00
8,00 |-12,00
12,00 |- 16,00
16,00 |- 20,00
20,00 |- 24,00
Total
Fonte: Bussab e Morettin (2006)

Na Tabela 8 a seguir, são apresentadas as freqüências acumuladas.

Tabela 8: Distribuição de freqüências acumuladas da variável Salário.

Classe de Frequência Frequência Porcentagem Porcentagem


salários (ni) Acumulada (100fi) Acumulada
(Ni) (100Fi)
4,00 |- 8,00 10 27,78
8,00 |-12,00 12 22 33,33
12,00 |- 16,00 8 22,22
16,00 |- 20,00 5 13,89
20,00 |- 24,00 1 2,78
Total 36 - 100,00 -
Fonte: Bussab e Morettin (2006)

A frequência acumulada que aparece na segunda linha da Tabela


8, cujo valor é 22, indica que 22 dos 36 empregados ganham até 12
salários. O mesmo ocorre com a porcentagem acumulada: 61,11% dos
36 empregados ganham até 12 salários.

Para facilitar e de certa forma padronizar a construção das classes,


Fonseca e Martins (1996) apresentam uma regra prática descrita passo a
passo a seguir:

• Passo 1 - Definir o número de classes (k):


 Em se tratando de uma população finita : 05 < k < 20.
 Em se tratando de amostra:
 Se o tamanho da amostra for menor que 100 ( n < 100): k ≈ n
 Se n ≥ 100, k ≈ 1+ 3,22logn;
• Passo 2 – Calcular amplitude total dos dados(R);
R = xmáx – xmín

• Passo 3 – Calcular a amplitude de classe (c);


R
c=
k

16
Obs: Arredondar para cima, utilizando sempre o mesmo número de
casas decimais dos dados.

• Passo 4 – Encontrar os Limites das classes


 1a Classe
 Limite Inferior (LI1 ) é menor valor observado no conjunto de
dados ou um valor um pouco inferior)
 Limite Superior = Limite inferior + amplitude de classe.

(LS1 = LI1+c)

 2a Classe
 LI2 = LS1 e LS2 = LI2 + c
a
 3 Classe
 LI3 = LS2 e LS3 = LI3 + c, e assim por diante.

• Passo 5 – Contagem dos elementos pertencentes a cada classe;


(Freqüência absoluta)
• Passo 6 – Cálculo das freqüências relativas, percentuais e
acumuladas.

EXEMPLO: Mediu-se a pluviosidade durante os últimos 30 anos em


São João del-Rei. Os dados encontram-se na Tabela 9. Com base nos
dados brutos construa a distribuição de freqüências para este caso.

Tabela 9: Índice de pluviosidade nos últimos 30 anos em São João del


Rei.

15,2 14,6 27,9 24,9 20,0 43,5

23,4 17,8 26,9 30,8 19,9 36,8

25,1 42,0 35,2 15,6 25,5 29,7

30,1 30,1 22,1 24,4 28,7 35,0

28,0 25,3 31,8 31,0 28,3 13,5

Fonte: dados hipotéticos (Rocha, 2015)

• Passo 1 - Definir o número de classes (k):

População finita⇒ Escolher 05 < k < 20 ⇒ k = 6 classes

• Passo 2 – Calcular amplitude total dos dados(R);


R = xmáx – xmín =

17
• Passo 3 – Calcular a amplitude de classe (c);
R
c= =
k

• Passo 4 – Encontrar os Limites das classes


 1a Classe
LI1 = xmín =

LS1 = LI1+c =

 2a Classe
LI2 = LS1= e LS2 = LI2 + c =
a
 3 Classe
LI3 = LS2= e LS3 = LI3 + c = ,
e assim por diante.

• Passo 5 – Cálculo da freqüência absoluta.


• Passo 6 – Cálculo das freqüências relativas, percentuais e
acumuladas.

Tabela 10 - Distribuição de freqüências da pluviosidade anual para os


últimos 30 anos em SJDR.

Pluviosidade ni Ni fi 100 fi (%)

13,5 |- 18,5 5 5 0,167 16,7

18,5 |- 23,5 4 9 0,133 13,3

23,5 |- 28,5 9 18 0,300 30,0

28,5 |- 33,5 7 25 0,233 23,3

33,5 |- 38,5 3 28 0,100 10,0

38,5 |-| 43,5 2 30 0,067 6,3

Total 30 - 1,000 100,0

Fonte: Dados hipotéticos (Rocha, 2015).

É possível, e às vezes necessário, construir classes de amplitudes


diferentes. Nesses casos, espera-se um maior número de elementos nas
classes com maior amplitude. Por isso, é importante considerar a
concentração de elementos por unidade da variável, isto é, a densidade de
frequência de cada classe ( ni ci ) . Assim, pode-se afirmar com segurança
qual a classe que possui maior concentração de dados. Para mais

18
informações sobre classes de amplitudes desiguais veja Morettin & Bussab,
2006.

EXERCÍCIOS:

1) A Tabela B abaixo mostra o índice de massa corpórea de 24 pessoas


que fizeram inscrição para um programa de condicionamento físico. Faça
a distribuição de frequências para os dados dessa tabela.

Tabela B: IMC de 24 pessoas que fizeram inscrição para um programa de


condicionamento físico.

16,4 19,1 20,9 22,0 24,9 27,6 29,4 32,6

17,5 19,3 21,3 23,7 25,1 28,2 30,9 34,6

18,3 20,6 21,9 24,8 26,7 28,4 31,5 37,9

2) As autoridades tomaram uma amostra de tamanho 50 dos 270


quarteirões que compõe a região e foram encontrados os seguintes
números de casas por quarteirão:

C2 2 3 10 13 14 15 15 16 16
o
18 18 20 21 22 22 23 24 25 25
n
s26 27 29 29 30 32 36 42 44 45
t
r45 46 48 52 58 59 61 61 61 65
u
66 66 68 75 78 80 89 90 92 97
a

Construa a tabela de distribuição de frequências.

19
3.3 ANÁLISE BIDIMENSIONAL

Frequentemente estamos interessados em estudar mais de uma


variável. No exemplo dos empregados da seção de orçamentos da
Companhia MB são registradas informações de 6 variáveis (estado civil,
número de filhos, grau de instrução, região de procedência, idade, salário),
conforme a Tabela 1. Nesses casos, é comum estudar o comportamento
conjunto de duas ou mais variáveis. Para isso, o primeiro passo é construir a
tabela da distribuição de frequências, denominada tabela de dupla entrada
(para duas variáveis), tabela de associação, tabela de contingência ou
distribuição conjunta de frequências.
Como exemplo, considere as variáveis grau de instrução e região de
procedência na Tabela 1. Abaixo, na Tabela 9, encontra-se a distribuição
conjunta de frequências dessas variáveis.

Tabela 9: Distribuição conjunta de frequências das variáveis grau de


instrução e região de procedência.

Grau de instrução Fundamental Médio Superior Total


Região de
Procedência
Capital 4 5 2 11

Interior 3 7 2 12

Outra 5 6 2 13

Total 12 18 6 36

Observe que existem diferentes tipos de total: total por grau de


instrução, total por região de procedência e o total geral.
Também podemos fazer a distribuição das frequências relativas,
como foi feito para o caso uivariado. Aqui existem três possibilidades de
expressar a proporção de cada casela:
a) em relação ao total geral;
b) em relação ao total de cada linha e
c) em relação ao total de cada coluna.

A escolha depende do objetivo do problema em estudo. Veja as


Tabelas 10 e 11 a seguir.

20
Tabela 10: Distribuição conjunta das proporções em relação ao total geral
das duas variáveis em estudo.

Grau de instrução Fundamental Médio Superior Total


Região de
Procedência
Capital 11% 14% 6% 31%

Interior 8% 19% 6% 33%

Outra 14% 17% 5% 36%

Total 33% 50% 17% 100%

Tabela 11: Distribuição conjunta das proporções em relação aos totais de


cada coluna das variáveis em estudo.

Grau de instrução Fundamental Médio Superior Total


Região de
Procedência
Capital 33% 28% 33% 31%

Interior 25% 39% 33% 33%

Outra 42% 33% 34% 36%

Total 100% 100% 100% 100%

Analogamente, também podemos construir a tdistribuição das


proporções em relação ao total das linhas. Faça isso como exercício!

3.4 GRÁFICOS

Os gráficos constituem um complemento importante da apresentação


tabular. Além de permitir uma visualização imediata da distribuição dos
valores observados, que informa sobre a variabilidade da variável, eles
servem para apresentar resultados de modo fácil, rápido, mais objetivo e
interessante, investigar a relação entre duas variáveis (diagrama de
dispersão), “ajustar” um modelo aos dados (por exemplo, uma reta), avaliar
a qualidade de um ajuste (adequacidade do modelo: gráfico de resíduos).

Para construir um gráfico de forma eficiente, três pontos são


importantes:

21
• Simplicidade - deve-se optar em fazer o mais simples
possível;
• Clareza - ter o cuidado de não resumir omitindo informações
importantes;
• Veracidade - é extremamente importante retratar a
realidade e traçar o gráfico em uma escala apropriada.

3.4.1 Gráficos para variáveis qualitativas e quantitativas discretas

Gráficos de colunas/barras:

Estes gráficos são a representação de uma tabela (ou série) por meio
de retângulos verticais (colunas) ou horizontais (barras), nos quais em
uma das coordenadas são representadas as categorias da variável em
estudo e na outra a freqüência (absoluta, relativa ou percentual) relacionada
a cada classe. Os retângulos devem seguir a um padrão como: distância
entre eles, largura, estética, etc.
Considerando a variável Grau de instrução para os dados da Tabela 1
referente ao exemplo dos 36 empregados da Companhia MB, a Figura 5
apresenta o gráfico de colunas para a referida variável.

Figura 5: Gráfico de colunas para a variável qualitativa Grau de Instrução.

22
Tabela 12: Distribuição de freqüência das formas de treinamento dos
empregados, adotados pela indústria brasileira.
Formas 100 fi
Educação básica 20
Empresas clientes ou fornecedoras 19
Consultores/instituições 40
Fora do processo do trabalho 40
“On the job” 78
Não realiza 11

Considerando-se os dados da Tabela 12 acima, pode-se construir o


gráfico de barras apresentado na Figura 6 abaixo.

Figura 6: Formas de Treinamento dos empregados

Considere agora a variável número de filhos cujos valores são


apresentados na Tabela 1. O gráfico de colunas para esta variável
encontra-se na Figura 7.

23
Figura 7: Gráfico em colunas para a frequência do número de filhos dos 36
empregados da Companhia MB.

Também podem ser construídos gráficos de barras ou colunas


compostas, como na Figura 8.

Figura 8: Gráfico de colunas compostas para uso da concorrência em


relação ao porte (tamanho) da empresa.

24
Gráficos de setores:

Este gráfico é empregado sempre que se deseja ressaltar a


participação de uma parte no todo. O todo é representado por um círculo, que
fica dividido em tantos setores quantas são as partes. Os setores são tais que
suas áreas são, respectivamente, proporcionais aos dados. Obtém-se cada
setor por meio de uma regra de três simples e direta, lembrando que o total
corresponde a 360o.

A Figura 9 abaixo apresenta o gráfico de setores para a variável


qualitativa Grau de Instrução.

Fundamental
Médio
Superior

Figura 9: Gráfico de setores para a variável grau de instrução.

Considerando-se a cidade de São João del Rei e a Universidade


Federal de São João del Rei, a Tabela 13 apresenta a distribuição de
freqüências dos locais na cidade preferidos pelos alunos da UFSJ para
estagiar.

Tabela 13: Locais preferidos pelos alunos da UFSJ para estagiar

LOCAL 100fi (%)


Indústria 69
Bancos 18
Comércio 7
Outros 6
Total 100

O gráfico de setores para esta variável é apresentado na Figura 10


abaixo. Para construir este gráfico foi necessário encontrar quanto da fatia

25
do círculo (qual tamanho de setor) correspondia a cada local. Isso foi feito
utilizando-se regras de 3.

Regras de 3

100 % ------- 360 o 100 % ------ 360 o 100 % ------ 360 o 100 % ----- 360 o

69 % ------ X 18 % ------ Y 7 % ------ Z 6 % ----- W

X = 248,4o Y = 64,8o Z = 25.2o W = 21,6o

Figura 10: Gráfico de setor para os locais preferidos pelos alunos da UFSJ
para estagiar

Gráficos de Linhas:

É comum ver este tipo de gráfico na mídia. No caso de variáveis


quantitativas ele é formado por uma linha traçada pela união de pontos que
surgem da associação dos valores da variável em estudo com valores de
outra variável, por exemplo, o tempo. Para as variáveis qualitativas, o gráfico
possui tantas linhas quantas forem as categorias da variável. As Figuras 12
e 13 apresentam gráficos de linha para variáveis quantitativa discreta e
qualitativa, respectivamente. A Tabela 14 apresenta os dados que geraram o
gráfico da Figura 12.

26
Tabela 14: Vendas da Companhia Alfa – 1980 à 1986

ANO VENDAS (em milhões)


1980 230
1981 260
1982 380
1983 300
1984 350
1985 400
1986 460
Fonte: Rocha, 2015.

Figura 12: Gráfico de linha para a variável quantitativa discreta “Total de


vendas Cia Alfa”.

Figura 13: Gráfico de linha para a variável qualitativa “Posição sobre a


adoção da pena de morte no Brasil”.

27
Gráficos de dispersão:

Os gráficos de dispersão são formados por pontos, constituem uma


“nuvem” de pontos e são construídos para variáveis quantitativas discretas.
Podem ser unidimensionais ou bidimensionais. Nos gráficos
unidimensionais os valores da variável são representados por pontos ao
longo de uma reta provida de uma escala. Valores repetidos são indicados
por um número que indica as repetições (Figura 14 (a)) ou “empilhados” um
em cima do outro (Figura 14 (b)). Também pode-se representar o ponto mais
alto da pilha (Figura 14 (c)).

Figura 14: Gráficos de dispersão unidimensionais para a variável


quantitativa discreta número de filhos do exemplo dos 36 empregados da
Companhia MB.

Os diagramas de dispersão bidimensionais são gráficos nos quais


pontos no espaço cartesiano XY são usados para representar
simultaneamente os valores de duas variáveis quantitativas medidas em
cada elemento do conjunto de dados. É usado principalmente para
visualizar a relação/associação entre duas variáveis.

Exemplo: Pesquisadores desejam encontrar uma maneira de


conhecer o peso de ursos marrons através de uma medida mais fácil de se
obter do que a direta (carregar uma balança para o meio da selva e colocar
os ursos em cima dela) como, por exemplo, uma medida de comprimento
(altura, perímetro do tórax, etc.). O problema estatístico aqui é encontrar
uma variável que tenha uma relação forte com o peso, de modo que, a partir
de seu valor medido, possa ser “calculado” o valor peso indiretamente,
através de uma equação matemática. O primeiro passo para encontrar esta
variável é fazer o diagrama de dispersão das variáveis candidatas (eixo
horizontal) versus o peso (eixo vertical), usando os pares de informações de

28
todos os ursos. Você pode tentar as variáveis: idade, altura, comprimento da
cabeça, largura da cabeça, perímetro do pescoço e perímetro do tórax. Na
Figura 15 é mostrada a relação entre peso e altura e entre peso e perímetro
do tórax, respectivamente. (Shimakura, 2016)

Figura 15: Diagrama de dispersão da altura versus o peso (a) e do


perímetro do tórax versus o peso (b) dos ursos marrons.

3.4.2 Gráficos para variáveis quantitativas contínuas

Histogramas:

Quando se trata de variáveis contínuas, a construção de gráfico de


barras ou colunas fica difícil. Pode-se utilizar o artifício de aproximar a
variável contínua por uma variável discreta, considerando-se que cada
classe (intervalo) fica representada pelo seu ponto médio. Nesse caso, para
cada ponto médio é construída uma coluna (barra) de comprimento (largura)
igual à freqüência. Porém, esse procedimento gera perda de informação.
Uma alternativa é construir um gráfico de barras contíguas (retângulos
justapostos), com bases (colocadas no eixo x) proporcionais aos intervalos
das classes e a área de cada retângulo proporcional à respectiva frequência
relativa (fi.). Este gráfico é denominado histograma. Assim, a soma das
áreas dos retângulos, isto é, a área do histograma, é igual à soma das
freqüências relativas, ou seja, 1! Para isso, é necessário que a altura de
cada retângulo seja proporcional à densidade de freqüência de cada classe
 fi 
  , sendo c a amplitude de classe.
c

Exemplo: Considerando a variável salário no banco de dados da


Tabela 1, construa o histograma. A distribuição de freqüências desta variável
é dada na Tabela 8.

29
Figura 16: Histograma da variável S: salários.

Também é possível construir histograma para variáveis agrupadas


em classes de amplitudes desiguais. Para saber mais sobre isso consulte
Morettin & Bussab, 2006.

Interpretação de um histograma

A simples observação da disposição do histograma permite algumas


conclusões. Primeiro quanto à forma. É possível perceber se a distribuição é
simétrica, assimétrica, ou se ela parece com a curva de Gauss (Normal),
Qui-quadrado, entre outras. Veja a Figura 17.

30
Figura 17: Diferentes tipos de Histogramas quanto à
simetria/assimetria.

Outra importante informação é a dispersão do conjunto de dados. É


possível perceber pela comparação de dois histogramas qual dos dois
possui maior dispersão (Figura 18).

Figura 18: Comparação de Histogramas quanto à dispersão.

Histograma alisado

Considerando novamente a variável salário e sua distribuição de


freqüências absolutas, dada na Tabela 15 (amplitude de classe igual a 2),
construiu-se o histograma dado na Figura 17.

31
Tabela 15: Distribuição de freqüências absolutas para a variável
salário, considerando-se classes de amplitude 2.

Classe de salários Frequências (ni)


4,00 |- 6,00 4
6,00 |- 8,00 6
8,00 |- 10,00 8
10,00 |- 12,00 4
12,00 |- 14,00 5
14,00 |- 16,00 3
16,00 |- 18,00 3
18,00 |- 20,00 2
20,00 |- 22,00 0
22,00 |- 24,00 1
Total 36

Figura 19: Histograma para a variável S: salário, com amplitude de


classe igual a 2.

Foi possível diminuir a amplitude dos intervalos de classe porque o


número de observações era grande. Assim, obteve-se um histograma
menos irregular que gera uma curva mais suave, denominada histograma
alisado. Essa curva permite avaliar melhor o tipo de comportamento que se
espera para a distribuição de uma dada variável. Os pontos nos quais a
curva é mais alta correspondem a uma maior densidade de observações.

32
Esse gráfico é apresentado na Figura 18, que permite observar que,
conforme aumenta o salário, a densidade de frequência vai diminuindo.

Figura 20: Histograma alisado para a variável S: salário.

Polígonos de Frequência

É a representação gráfica de uma distribuição de freqüências por meio


de um polígono, onde as coordenadas de cada ponto são obtidas a partir dos
pontos médios das classes, e de altura proporcional à freqüência de cada
uma das classes. No caso de freqüências acumuladas, os segmentos são
traçados a partir dos limites superiores das classes. (Rocha, 2015).

Exemplo:

33
Polígonos de freqüência acumulada (Ogivas de Galton)

Este gráfico é traçado verificando-se as freqüências acumuladas ao


final de cada uma das classes.

34
EXERCÍCIOS PROPOSTOS:

1. Nas situações descritas a seguir, identifique a variável a ser estudada


classificando-a, a população e a amostra.
a) Deseja-se investigar o peso real de pacotes de café, enchidos
automaticamente por uma máquina. Para isso sorteou-se 100 pacotes
e mediu-se seus pesos.
b) Para investigar a “honesticidade” de uma moeda, ela foi lançada 50
vezes e o número de caras observadas foi contado. Deseja-se obter
um possível modelo através do qual seja possível calcular a
probabilidade de se obter um determinado número de caras em função
da quantidade de lançamentos.
2. Um laboratório de fertilidade analisou 60 amostras de solo
determinando o teor de cálcio existente em cada uma delas. O
resultado desta análise está apresentado na tabela abaixo:

Tabela- Teor de Cálcio encontrado nas amostras de solo.

Lab Ca Lab Ca Lab Ca Lab Ca

1 7.97 16 3.39 31 5.62 46 5.07

2 5.28 17 3.65 32 4.94 47 6.22

3 3.33 18 5.47 33 2.31 48 3.39

4 5.82 19 5.72 34 6.45 49 4.19

5 6.31 20 8.84 35 4.77 50 4.83

6 5.51 21 5.75 36 3.29 51 5.36

7 5.70 22 3.38 37 4.66 52 7.70

8 6.05 23 5.36 38 5.30 53 5.80

9 6.67 24 5.99 39 7.24 54 3.80

10 7.48 25 5.70 40 5.28 55 5.62

11 3.08 26 4.66 41 4.93 56 7.68

12 6.70 27 5.45 42 5.96 57 6.37

13 5.27 28 7.41 43 6.56 58 8.42

14 2.25 29 5.07 44 4.67 59 5.04

15 5.04 30 1.96 45 6.10 60 4.80

Fonte: Campos (1998)

35
Pede-se:

a) Classifique a variável.
b) Construa a distribuição de freqüências.
c) Construa a distribuição de frequências acumuladas e suas respectivas
Ogivas de Galton.

3. Identifique, para cada tabela de distribuição de freqüências, a


amplitude de classe, os pontos médios das classes, os limites das
classes, a freqüência relativa, e a freqüência acumulada.

a) b)

Ausências xi c ni fi Ni Ausências xi c ni fi Ni

0 |- 6 39 0 |- 10 22

6 |- 12 41 10 |- 20 40

12 |- 18 38 20 |- 30 71

18 |- 24 40 30 |- 40 44

24 |- 30 42 40 |- 50 23

c) d)

Pesos xi c ni fi Ni Pesos xi c ni fi Ni

0,0 |- 2,0 20 0,0 |- 5,0 60

2,0 |- 4,0 32 5,0 |- 10,0 58

4,0 |- 6,0 49 10,0 |- 15,0 61

6,0 |- 8,0 31 15,0 |- 20,0 62

8,0 |- 10,0 18 20,0 |- 25,00 59

4. Faça os respectivos histogramas para as tabelas do exercício anterior


e interprete-os quanto à simetria e quanto à dispersão.

5. Foi feito um estudo para determinar como as pessoas obtêm


empregos. A tabela que segue relaciona dados de 400 pessoas
escolhidas aleatoriamente. Os dados se baseiam em resultados do
Centro Nacional de Estratégias de Carreira Americano.

36
Tabela: Formas de obtenção de empregos

Fontes de trabalho dos que responderam a Freqüência (ni)


pesquisa

Anúncios tipo “ procura-se ” 56

Firmas de pesquisas 44

Rádio e televisão 280

Envio de correspondência em massa 20

a) Construa o gráfico de colunas utilizando um software. Qual seria a


abordagem mais eficiente para uma pessoa que deseja um emprego?

b) Construa um gráfico de setores para os dados do exercício acima.


Indique qual deles melhor apresenta a importância relativa das fontes
de trabalho.

6. Com base na tabela a seguir construa:

a) Seu histograma;
b) Polígono de freqüências;
c) Ogiva de galton.

Tabela: Distribuição de freqüência com dados agrupados

Classe ni

39,5 |- 44,5 3

44,5 |- 49,5 8

49,5 |- 54,5 16

54,5 |- 59,5 12

59,5 |- 64,5 7

64,5 |- 69,5 3

69,5 |- 74,5 1

Total 50

37
7. Durante o mês de setembro de certo ano, o número de acidentes por
dia em certo trecho de rodovia apresentou a seguinte estatística:

2 0 1 2 3 1 6 1 0 0

1 2 2 1 2 0 1 4 2 3

0 1 0 2 1 2 4 1 1 1

Represente os gráficos adequados para esses dados e interprete-os.

8. Considere os dados da tabela abaixo, sobre venda de bebidas leves.

Tabela: Distribuição de freqüência da venda de bebidas leves

Classe ni fi

Cola 600 0,60

Limão 200 0,20

Laranja 100 0,10

Uva 50 0,05

Cereja 40 0,04

Outras 10 0,01

Total 50 1,00

Fonte: Stevenson (1981)

Construa um gráfico de setores e um de barras. Compare-os e diga


qual deles é o mais adequado.

9. O município de São João Del - Rei, recebeu uma verba de


R$ 1.000.000,00 do governo federal para ser aplicada pela atual
administração. Depois de algumas reuniões os recursos foram
divididos conforme a tabela abaixo. Construa o gráfico mais adequado
e interprete-o.

38
Tabela: Porcentagens da verba destinada a cada setor.

Setores 100 fi (%)

Administração 19

Educação 28

Saúde 30

Obras públicas 18

Segurança 5

Total 100,0

10. Os limites de especificação para o comprimento de uma peça são 20 e


21 mm. Uma amostra de 40 peças, tomada no mês de agosto, forneceu
os valores apresentados na tabela dada em seguida. Outra amostra de
50 peças, tomada no mês de setembro, forneceu os valores
apresentados na segunda tabela. Faça um histograma para cada
amostra. Trace os limites de especificação, compare e discuta.

Comprimento, em milímetros, de uma peça – Amostra tomada em Agosto

,32 ,73 ,49 ,62 ,51 ,59 ,60 ,35


,65 ,78 ,64 ,62 ,27 ,56 ,52 ,49
,26 ,57 ,59 ,50 ,47 ,53 ,47 ,60
,57 ,61 ,38 ,60 ,41 ,55 ,53 ,59
,58 ,21 ,77 ,38 ,46 ,83 ,58 ,52

Comprimento, em milímetros, de uma peça – Amostra tomada em


Setembro

,14 ,77 ,16 19,99 ,12 ,25 ,30 ,14 ,14 ,25
,43 ,51 ,16 ,41 ,65 ,23 ,18 ,38 ,22 ,25
,18 ,38 ,25 ,49 ,35 ,25 ,40 ,29 ,27 ,62
,58 ,19 ,72 ,72 ,25 ,11 ,49 ,40 ,31 ,20
,16 ,48 ,64 ,18 ,52 ,60 ,53 ,60 19,95 ,40

Obs – Todos os valores dados nas tabelas acima correspondem a


parte decimal de 20 mm

39
11. Abaixo encontram-se os dados referentes ao número de dias em que
20 pacientes ficaram hospitalizados. Construa uma distribuição de
freqüências e um histograma de freqüências para esses dados usando
6 classes. Descreva a forma do histograma como simétrico, uniforme,
assimétrico negativo, assimétrico positivo.

6 9 7 14 4 5 6 8 4 11 10 6 8 6 5 7
6 6 3 11

40
CAPÍTULO 4: MEDIDAS RESUMO

Neste capítulo serão estudadas medidas de posição e dispersão. Tais


medidas servem para descrever o conjunto de dados, resumi-lo utilizando
valores que sejam representativos da série.

4.1 MEDIDAS DE POSIÇÃO

As medidas de posição, também chamadas medidas de locação, são:


mínimo, máximo, moda, mediana e média.

4.1.1 Mínimo e máximo

O mínimo (min) é a medida que corresponde à menor observação do


banco de dados e o máximo (máx) à maior observação. Para se encontrar
estas medidas é necessário ordenar o banco de dados. Medidas nas quais é
necessário essa ordenação são denominadas estatísticas de ordem.
Exemplo: Considere o conjunto de dados a seguir referente a uma dada
variável x:
X: 4, 5, 4, 6, 5, 8, 4
Ordenando, tem-se: 4, 4, 4, 5, 5, 6, 8.
min(X) = 4, máx(X) =8

4.1.2 Moda

É a realização mais frequente do conjunto de valores observados.


Pode ser utilizada tanto para dados quantitativos quanto para dados
qualitativos (nominais e ordinais).
Considere o exemplo dos 36 funcionários da Companhia MB. Para a
variável número de filhos, a moda é “2”, pois é a observação mais frequente,
são 7 funcionários que possuem 2 filhos (Tabela 6). Para a variável Grau de
instrução, cuja distribuição de frequências encontra-se na Tabela 3, a moda
é “ensino médio”.
A distribuição dos dados pode ser amodal, bimodal,
trimodal,...Considere duas variáveis, B e C, cujas distribuições são dadas
abaixo.
B: 1, 2, 3, 4, 5 C: 2, 3, 2, 4, 5, 4

O conjunto B é amodal e o conjunto C é bimodal (modas: 2 e 4).

41
4.1.3 Média

É a soma das observações dividida pela quantidade delas. Por


exemplo, para o conjunto de dados 3, 4, 7, 8, 8, a média é 6
((3+4+7+8+8)/5). Esta medida só pode ser obtida para variáveis
quantitativas.
Sejam x1, ..., xn n observações da variável X. A média é dada por:
x1 + ... + xn 1 n
x= = ∑ xi
n n i =1

Considerando a variável número de filhos e denominando de Z, abaixo


é apresentada a sua distribuição de frequências.

Tabela 15: Distribuição de frequências dos 20 empregados casados da seção de


orçamentos da Companhia MB, segundo o número de filhos.

Número de filhos (zi) ni fi


0 4 0,20
1 5 0,25
2 7 0,35
3 3 0,15
5 1 0,05
Total 20 1

Utilizando a fórmula dada anteriormente, pode-se, a partir da segunda


coluna da Tabela 15, calcular o número médio de filhos por empregado:
4.0 + 5.1 + 7.2 + 3.3 + 1.5
z= = 1,65
20

Também é possível calcular a média utilizando-se a terceira coluna da


Tabela 15, isto é, as frequências relativas:

4 5 7 3 1
z= .0 + .1 + .2 + .3 + .5 = 1, 65
20 20 20 20 20

Formalizando, se tivermos ni observações da variável X iguais a xi:

n1 x1 + ... + nk xk 1 k
x= = ∑ ni xi
n n i =1

se fi=ni/n for a frequência relativa:

42
k
x = ∑ f i xi
i =1

A média é uma medida afetada por valores extremos.

4.1.4 Mediana (md)

É a realização que ocupa a posição central da série de observações


quando ordenada em ordem crescente. Devido à necessidade de
ordenação, esta medida só pode ser obtida para dados quantitativos ou
qualitativos ordinais.
Considere o conjunto de dados Y: 3, 4, 7, 8, 8. O conjunto possui 5
observações. Assim, a mediana corresponde à terceira observação (x3):
md(Y) =7.
Quando o conjunto de dados possui um número par de observações, a
mediana corresponde à média das observações centrais. Considerando o
conjunto de dados 3, 4, 7, 8, 8, 9, que possui 6 observações, a mediana é a
média entre as observações da terceira e quarta posições, isto é,
x +x 7 +8
md ( X ) = 3 4 = = 7,5 .
2 2
Formalizando, se tivermos ni observações da variável X iguais a xi,
ordenam-se as observações (x ≤ x
1 2 ≤ ... ≤ x( n−1) ≤ x( n ) ) e calcula-se a
mediana:

 x n+1  n ímpar
  2 ,

md ( X ) =  x n + x n
   
  2   2 +1
 , n par
2

A mediana é uma medida resistente, principalmente para distribuições


muito assimétricas ou contendo valores atípicos, ao contrário da média que
é afetada por valores extremos.

4.1.5 Média, Mediana e Moda para variáveis quantitativas contínuas


(dados agrupados)

Quando se trata de variáveis contínuas, a distribuição de frequências é


feita agrupando-se os dados em classes. Este procedimento gera perda de
informação e não se sabe ao certo o valor observado. Assim, para obter
medidas de posição para os dados agrupados utiliza-se uma aproximação
considerando que o valor observado corresponde ao ponto médio da classe
e procede-se da mesma maneira que nas variáveis quantitativas discretas.

Considere a variável salário (S) nos dados da Tabela 1. A Tabela 16


apresenta a distribuição de frequências desta variável.

43
Tabela 16: Distribuição de frequências dos 36 empregados da seção de
orçamentos da Companhia Mb, segundo os salários.

Classe de Ponto médio ni fi 100 Fi%


salários (si)
4 |- 8 6 10 0,278 27,8
8 |- 12 10 12 0,333 61,1
12 |- 16 14 8 0,222 83,3
16 |- 20 18 5 0,139 97,2
20 |- 24 22 1 0,028 100
Total 36 1

mo( S ) ≈ 10,
10.6 + ... + 1.22
s≈ = 11, 22
36
Quando os dados são agrupados, para calcular a mediana utilizamos
regra de três. Veja:

med ( S ) − 8 12 − 8
=
22, 2% 33,3%
[med ( S ) − 8].33,3 = 4.22, 2
22, 2
med ( S ) = 8 + .4 = 10, 67
33,3
Dessa forma obtem-se uma aproximação para o valor da mediana.
Observe que no cálculo acima foi considerada a distância entre a mediana e
8. Outras regras de três poderão ser feitas e você obterá valores próximos
de 10,67 para a mediana. Por exemplo, pode-se considerar a distância entre
a mediana e 12, entre 4 (início do primeiro intervalo) e a mediana, entre a
mediana e 24 (fim do último intervalo, entre outros.

4.1.6 Separatrizes

A Média pode não ser uma medida adequada para representar um


conjunto de dados, pois é afetada por valores extremos e sozinha não dá
idéia da simetria ou assimetria da distribuição. Já a Mediana é uma medida
mais resistente, não é afetada por valores extremos no conjunto de dados.
Assim como ela, existem outras medidas de posição resistentes e que
informam sobre a simetria ou não da distribuição dos dados. Essas medidas
são denominadas separatrizes.
Separatrizes são valores que dividemadistribuição em um certo
número de partesiguais (Reis, 2016 (aula 06)). Uma separatriz é também
denominada Quantil de ordem p ou p quantil (q(p).O p quantil é uma

44
medida de posição tal que 100p% das observações sejam menores que
q(p), sendo p uma proporção qualquer, 0<p<1. A mediana por exemplo, é
um quantil que deixa 50% das observações à sua esquerda, isto é, med =
q(0,5). Alguns quantis em particular recebem nomes específicos:
q(0,25): 1º Quartil = 25º Percentil
q(0,50): 2º Quartil = 50º Percentil = 5º Decil (Mediana)
q(0,75): 3º Quartil = 75º Percentil
q(0,40): 4º Decil
q(0,95): 95º Percentil.

Para calcular um quantil é necessário primeiro ordenar o conjunto de


dados e saber a posição desse quantil. A mediana, por exemplo, é o quantil
(n + 1)
que ocupa a posição = 0,50.(n + 1) . De modo geral, o p quantil ocupa
2
a posição p.(n+1) do conjunto de dados ordenados. Após obter a posição do
p quantil, calcula-se seu valor: se sua posição for um número inteiro k, então
q(p) = xk; senão, se a posição P não for um número inteiro, considere P- e P+
os inteiros respectivamente abaixo e acima de P e tome

xP − + xP +
q ( p) =
2

Exemplo: Considere o conjunto de dados abaixo e encontre os quartis.

1,9 2,0 2,1 2,5 3,0 3,1 3,3 3,7 6,1 7,7

O conjunto de dados já está ordenado, assim vamos encontrar a posição dos


quartis e depois os seus respectivos valores.

1º Quartil:
• Posição: p.( n + 1) = 0, 25.(10 + 1) = 2, 75
xP − + xP + x +x 2 + 2,1
• Valor: q ( p) = ⇒ q(0, 25) = 2 3 = = 2, 05
2 2 2

2º Quartil(Mediana):

• Posição: p.( n + 1) = 0,50.(10 + 1) = 5,5


x5 + x6 3 + 3,1
• Valor: q (0,50) = = = 3, 05
2 2

45
3º Quartil:

• Posição: p.( n + 1) = 0, 75.(10 + 1) = 8, 25


x8 + x9 3, 7 + 6,1
• Valor: q (0, 75) = = = 4,9
2 2

Quando a posição do quantil é inferior à posição do menor valor do


conjunto de dados x1, assume-se que esse quantil é a primeira observação
(x1). Analogamente, quando a posição do quantil é superior à posição do
maior valor observado no conjunto de dados xn , assume-se que este quantil
é o último valor observado (xn). Outra observação importante é que
diferentes quantis podem assumir o mesmo valor.
Considerando o exemplo anterior, abaixo são calculados alguns
percentis.

1º e 2º Percentis:

• Posição:
P1 : p.(n + 1) = 0, 01.(10 + 1) = 0,11
P2 : p.(n + 1) = 0, 02.(10 + 1) = 0, 22
• Valor:
q(0, 01) = x1 = 1,9
q(0, 02) = x1 = 1,9

50º e 52º Percentis:

• Posição:
P50 (mediana) : 5,5
P52 : p.(n + 1) = 0,52.(10 + 1) = 5, 72
• Valor:
x5 + x6 3 + 3,1
q (0,50) = = = 3, 05
2 2
x +x 3 + 3,1
q (0,52) = 5 6 = = 3, 05
2 2

98º e 99º Percentis:

• Posição:
P98 : p.(n + 1) = 0,98.(10 + 1) = 10,78
P99 : p.(n + 1) = 0,99.(10 + 1) = 10,89
• Valor:
q(0,98) = q(0,99) = x10 = 7, 7

46
4.1.7 Encontrando separatrizes para dados agrupados

Quando se trata de variável quantitativa contínua, os dados são


agrupados em classes, conforme já foi dito. Nestes casos, para encontrar
quantis utiliza-se a regra de três. Observe o histograma da Figura 26 abaixo
e encontre a mediana.

Figura 26: Histograma para a variável salário dos 36 empregados da


seção de orçamentos da Companhia MB.

A mediana deve corresponder ao valor da abscissa que divide a área


ao meio, ou seja, que deixa 50% de área à sua esquerda. Como a primeira
classe abrange 28% da área, faltam 22% até a mediana, ou seja, a mediana
é um valor entre 8 e 12. Utilizando proporcionalidade tem-se:

q (0,50) − 8 12 − 8
=
22% 33%
33 22
[q (0,50) − 8]. = 4.
100 100
22
q (0,50) = 8 + .4 = 10, 67
33
Este valor (10,67) é mais preciso que o valor obtido utilizando-se o
ponto médio da classe (10), conforme feito anteriormente na seção 2.1.5.
Calculou-se também o primeiro quartil, q(0,25). Este valor corresponde
a 25% de área e, portanto, encontra-se na 1ª classe.

q (0, 25) − 4 8 − 4
=
25% 28%
25
q (0, 25) = 4 + .4 = 7,57
28

47
Exercício: calcule o terceiro quartil, q(0,75).

O mesmo método pode ser utilizado quando se tem tabelas de


frequências.

Exemplo: Considere as notas de 200 alunos dadas na Tabela 21


abaixo e calcule os quartis e o segundo decil.

Tabela 21: Notas de 200 alunos e suas freqüências absolutas


Notas ni
0 |- 2 28
2 |- 4 40
4 |- 6 50
6 |- 8 65
8 |- 10 17
Total 200

Para encontrar os quartis, é necessário obter as porcentagens


acumuladas. Isto está feito na Tabela 22.

Tabela 22: Notas de 200 alunos e suas freqüências absolutas


Notas ni fi 100fi % 100fi %
Acumulada
0 |- 2 28 0,140 14,0 14,0
2 |- 4 40 0,200 20,0 34,0
4 |- 6 50 0,250 25,0 59,0
6 |- 8 65 0,325 32,5 91,5
8 |- 10 17 0,085 8,5 100,0
Total 200 1 100

O 1º quartil (q(0,25)) é a medida tal que 25% dos dados encontram-se à


sua esquerda, então, ele é um valor que se encontra na segunda classe (2 |-
4), já que a primeira contém apenas 14% dos dados. Entre a observação 2 e
o q(0,25) tem-se 11% das observações. Assim,
q (0, 25) − 2 4 − 2
=
11% 20%
11
q (0, 25) = 2 + .2 = 3,1
20

O segundo quartil, q(0,50), encontra-se na terceira classe, logo,

48
q (0,50) − 4 6 − 4
=
16% 25%
16
q (0,50) = 4 + .2 = 5, 28
25
O terceiro quartil, q(0,75), está na quarta classe, portanto,

q (0, 75) − 6 8−6


=
16% 32,5%
16
q (0, 50) = 6 + .2 = 6,98
32,5
O segundo decil, q(0,20), é encontrado na segunda classe:

q (0, 20) − 2 4 − 2
=
6% 20%
6
q (0, 20) = 2 + .2 = 2, 6
20

4.1.8 Avaliação de simetria

Os quartis q(0,25)=q1, q(0,50)=q2 e q(0,75)=q3 são medidas de


posição resistentes, isto é, são pouco afetadas por mudanças em pequenas
porções dos dados. Por isso, juntamente com x1 e xn, eles são importantes
para se ter idéia da simetria da distribuição dos dados.
Quando a distribuição dos dados é aproximadamente simétrica:
(a)q2 − x(1) ≈ x( n ) − q2
(b)q2 − q1 ≈ q3 − q2
(c)q1 − x(1) ≈ x( n ) − q3
(d )distâncias entre mediana e q1 , q3 menores do que distâncias entre os extremos q1 e q3 .

A medida q2 – x(1) é denominada dispersão inferior (di) e a medida


x(n)-q2, dispersão superior (ds).Quando a distribuição é aproximadamente
simétrica, essas medidas são aproximadamente iguais. Além disso, para
dados simétricos a distância entre a mediana e medidas cujas posições são
simétricas é aproximadamente igual, isto é,

q(0,5) − x(i ) = x( n+1−i ) − q(0,5)

Se os quantis da direita estão mais afastados da mediana do que os da


esquerda, dizemos que a distribuição dos dados é assimétrica à direita.
Caso contrário, dizemos que é assimétrica à esquerda. A Figura 27 ilustra
uma distribuição simétrica e a Figura 28 ilustra distribuições assimétricas.

49
Figura 27: Distribuição simétrica: normal ou gaussiana.

Figura 28: Distribuições assimétricas.

Exemplo: Considere o conjunto de dados de populações de municípios


brasileiros dado em Morettin e Bussab (2006). Este conjunto de dados pode
ser obtido em https://www.ime.usp.br/~pam/EstBas.html. Tome os 15
maiores valores, os quais encontram-se ordenados abaixo:

84,7 < 92,4 < 101,8 < 102,3 < 116 < 119,4 < 129,8 < 135,8 < 151,6 < 187,7 <
201,5 < 210,9 < 224,6 < 556,9 < 988,8

50
Calculando-se os quantis, obtém-se(faça os cálculos!):

q(0,25)=102,3 q(0,50)=135,8 q(0,75)=210,9

As cinco medidas (x1, q1, q2 q3 e xn) e as distâncias entre elas são


ilustradas na Figura 29. Nela, é possível perceber a assimetria da
distribuição

Figura 29: Quantis e distâncias para as 15 maiores populações dos


municípios.

Abaixo, são apresentadas as avaliações de diferentes distribuições no


que se refere à simetria e dispersão pelos quartis (Figura 30).

Figura 30: Avaliação da assimetria e dispersão pelos quartis (Reis,


2016 (aula 06))

51
4.2 MEDIDAS DE DISPERSÃO

Suponha que para preencher uma única vaga existente em uma


empresa, os candidatos foram submetidos a testes e agrupados em quatro
grupos (1, 2, 3, 4), de acordo com as notas obtidas.

Grupo 1 (X): 3,4,5,6,7


Grupo 2 (Y):1,3,5,7,9
Grupo 3 (W): 5,5,5,5,5
Grupo 4 (Z): 3,5,5,7

A empresa necessita saber em qual dos quatro grupos deve contratar.


Um critério poderia ser contratar no grupo de maior média, mas

x = y = z =w=5

Um segundo critério poderia ser então, considerar a moda ou a


mediana. Porém, os grupos 1 e 2 são amodais e a mediana é 5 para os
quatro grupos.
Então, pode-se escolher contratar no grupo que apresentou notas mais
homogêneas, isto é, o grupo que apresentou menor dispersão das notas. Na
Figura 25, podemos observar que os dados dos grupos 1, 2 e 3, por
exemplo, não estão igualmente distribuídos.Geometricamente é possível
perceber que o Grupo 2 apresenta maior dispersão dos dados e o Grupo 3
menor. Porém, precisamos de uma avaliação objetiva dessa distribuição. As
medidas de posição estudadas, como se pôde observar não são capazes de
avaliar a dispersão dos dados e distinguir um grupo do outro.

52
Figura 25: Representação gráfica dos dados de cada grupo.

Como as medidas de posição não informam sobre a variabilidade dos


dados, é necessário utilizar medidas que resumam a variabilidade de um
conjunto de observações e que permitam a comparação entre conjuntos de
diferentes valores. Estas medidas são denominadas medidas de dispersão.
Serão estudadas as seguintes medidas de dispersão: amplitude, variância,
desvio padrão, coeficiente de variação e distância interquartílica.

4.2.1 Amplitude (A)

A amplitude é obtida subtraindo-se o menor valor observado do maior:

A = xmax-xmín.

Considerando-se o exemplo anterior, tem-se:


Grupo 1: AX = 7 - 3 = 4
Grupo 2: By = 9 - 1 = 8
Grupo 3: Cw = 5 - 5 = 0
Grupo 4: Dz = 7 - 3 = 4
O grupo mais heterogêneo é o Grupo 2, pois possui maior amplitude; o
mais homogêneo é o Grupo 3; os Grupos 1 e 4 são igualmente homogêneos
(heterogêneos).

53
4.2.2 Variância

A Variância mede a dispersão dos dados em torno de sua média e é


dada por:

∑( x − x )
2

(x − x) + ( x2 − x ) + ... + ( xn − x )
i 2 2 2

var( X ) = i =1
= 1
n n

Considerando o exemplo dado na seção 5.2.1 , referente à contratação


de candidato, são calculadas abaixo as variâncias para os grupos 1 e 4 .

(3 − 5)2 + (4 − 5)2 + (5 − 5) 2 + (6 − 5) 2 + (7 − 5) 2
var( X ) = =2
5
(3 − 5) 2 + (5 − 5)2 + (5 − 5)2 + (7 − 5)2
var( Z ) = =2
4

De acordo com essa medida, os Grupos 1 e 4 são igualmente


homogêneos (heterogêneos).

Considere agora que para preencher uma única vaga existente em


uma empresa, 50 candidatos foram submetidos a 6 provas sobre
conhecimentos específicos de interesse da empresa. Três destes
candidatos destacaram-se com as notas descritas na Tabela 17 abaixo:

Tabela 17: Distribuição das notas

Candidato Provas
1 2 3 4 5 6
A 7,0 7,5 8,0 8,0 8,5 9,0
B 6,0 7 8,0 8,0 9,0 10,0
C 7,5 8 8,0 8,0 8,0 8,5

Neste caso, temos uma amostra de 3 candidatos. A variância é então


calculada por:

∑( x − x )
2
i
s2 = i =1
n −1

Assim, tem-se:

54
• Candidato A:
1
x = (7 + 7,5 + 8 + 8 + 8,5 + 9) = 8
6
1
s 2 = ( 7 − 8 ) + ( 7,5 − 8) + ( 8 − 8 ) + (8 − 8) + (8,5 − 8) + ( 9 − 8)  =
2 2 2 2 2 2

5 
1 2,5
= ( −1) + ( −0,5) + ( 0 ) + ( 0 ) + ( 0,5) + (1)  =
2 2 2 2 2 2
= 0,5
5  5
• Candidato B:

1
x = (6 + 7 + 8 + 8 + 9 + 10) = 8
6
1
s 2 =  ( 6 − 8) + ( 7 − 8) + (8 − 8) + (8 − 8) + ( 9 − 8) + (10 − 8)  =
2 2 2 2 2 2

5  
1
= ( −1) + ( −0,5) + ( 0 ) + ( 0 ) + ( 0,5) + (1)  = 2
2 2 2 2 2 2

5  

Exercício: calcule a média e a variância para o candidato C.

Alternativamente, pode-se calcular a variância utilizando-se a


fórmula

1  n 2
 ∑ ( xi ) − n ( x ) 
2
s2 =
n − 1  i =1 
1  n 1  n  
2

∑ ( i ) ∑ i 
2
s2 = x − x
n − 1  i =1 n  i =1  

Utilizando a fórmula acima vamos calcular a variância para o


candidato A:

∑( x )
2
i = 7 2 + 7,52 + 82 + 82 + 8,52 + 9 2 =
i =1

= 49 + 56, 25 + 64 + 64 + 72, 25 + 81 = 3865


1  n 2
 ∑ ( xi ) − n ( x )  = {3865 − 6.8 } = {3865 − 384} =
2 1 1 2,5
s2 = 2
= 0,5
n − 1  i =1  5 5 5

Exercício: utilizando a fórmula acima calcule a variância para os


candidatos B e C.

A dimensão da variância corresponde ao quadrado da dimensão


dos dados, o que pode gerar problemas de interpretação. Por isso,
muitas vezes trabalha-se com sua raiz.

55
4.2.3 Desvio Padrão

O desvio padrão é a raiz da variância. Ele indica em média qual será o


“erro” (desvio) cometido ao substituir cada observação pela média.

Considere a variável quantitativa discreta “número de filhos” cuja


distribuição de freqüências é dada na Tabela 15. Abaixo encontram-se os
valores da média, variância e desvio padrão para essa variável.

4.0 + 5.1 + 7.2 + 3.3 + 1.5 33


z= = = 1,65
20 20

4.( −1, 65)2 + 5.( −0, 65)2 + 7.(0,35)2 + 3.(1, 35) 2 + 1.(3,35)2
var( Z ) = = 1,528
20

dp ( Z ) = var( Z ) = 1,528 = 1, 24

Considere agora, o exemplo dos três candidatos (A, B e C),


selecionados entre 50, para preencher uma vaga em uma empresa. Abaixo
encontram-se os valores das variâncias das notas obtidas por cada
candidato e seus respectivos desvio padrão.

s A2 = 0,5 ⇒ s = s A2 = 0,5 = 0, 71
sB2 = 2, 0 ⇒ s = sB2 = 2, 0 = 1, 41
sC2 = 0,1 ⇒ s = sC2 = 0,1 = 0,32

Quando a variável é quantitativa contínua, os dados são agrupados


em classes. Nesse caso, aproxima-se seu valor pelo ponto médio da classe.
Tomando-se a variável salário e sua distribuição de freqüências dada na
Tabela 16, obtém-se:

10.(6 − 11, 22) 2 + 12.(10 − 11, 22)2 + 8.(14 − 11, 22) 2 + 5.(18 − 11, 22) 2 + 1.(22 − 11, 22)2
Var ( S ) =
36
Todos os cálculos feitos anteriormente podem ser feitos mais
Var ( S ) = 19, 40
rapidamente utilizando-se uma calculadora científica com funções
dp ( S ) = 19, 40
estatísticas. = 4,saber
Para 4 como efetuar esses cálculos, por exemplo em

56
calculadoras dos modelos Casio fx82TL, 82MS e Sharp EL-546L3,
consulte
http://www.calculo.iq.unesp.br/PDF/FuncoesEstatiticaCalculadoraCien
tifica.pdf

A variância e o desvio padrão são afetados por valores extremos, isto


é, não são medidas resistentes. Eles são boas medidas se a distribuição dos
dados é aproximadamente normal.

4.2.4 Coeficiente de Variação

Para comparar dois conjuntos de dados quanto à sua variabilidade


pode-se usar o coeficiente de variação (CV). O CV é uma medida de
dispersão que expressa a variabilidade dos dados em relação a sua média
de forma percentual. Sua expressão será dada por

s
CV = .100%
x

Exemplo 1: Imagine uma situação referente ao número de documentos


falsificados que aparecem em um determinado setor da prefeitura e o valor
arrecadado por hora de um tipo de multa em reais. Em qual das duas
variáveis ocorre maior variabilidade ou variação?

Documentos Multa (reais)


Falsificados (Nº)
Média 22 800

Desvio Padrão 5 100

Utilizando o desvio padrão para comparar a variabilidade você pode, a


princípio, considerar que a multa apresenta maior variabilidade, já que tem
maior desvio padrão. Calculando, então, o coeficiente de variação teremo os
valores apresentados a seguir:

s 5
CVDOC = .100 = .100 = 22, 7%
x 22
s 100
CVMULTA = .100 = .100 = 12,5%
x 800
Perceba então, que estávamos concluindo erroneamente que a multa
é mais variável que o número de documentos falsificados, além de termos
cometido o disparate de comparar numericamente duas variáveis expressas

57
em unidades diferentes. Portanto, o número de documentos falsificados
apresentou maior dispersão do que a multa, já que seu coeficiente de
variação foi maior, mudando, assim, a conclusão anterior.

Exemplo 2: Altura e peso de alunos

Tabela 19
Média Desvio padrão Coeficiente de
Variação
Altura 1,143m 0,063m 5,5%
Peso 50Kg 6Kg 12%

Conclusão: Os alunos são, aproximadamente,


duas vezes mais dispersos quanto ao peso do que
quanto à altura.

Exemplo 3: Altura (em cm) de uma amostra de recém nascidos e de


uma amostra de adolescentes

Tabela 20
Média Desvio padrão Coeficiente de
Variação
Recém 50 6 12%
Nascidos
Adolescentes 160 16 10%

Conclusão: Em relação às médias, as alturas dos


adolescentes e dos recém-nascidos apresentam
variabilidade quase iguais.

4.2.5 Distância Interquartílica

Outra medida muito utilizada em Estatística é a distância interquartílica,


ou Intervalo-Interquartil, que é obtida tomando-se a diferença entre o terceiro
quartil e o primeiro quartil:

d q = q (0, 75) − q (0, 25) .

A distância interquartílica é uma medida de dispersão alternativa ao


desvio padrão. Considerando o exemplo anterior, tem-se que
Exemplo: Considere o conjunto de dados abaixo utilizado
anteriormente como exemplo no cálculo de quartis.

58
1,9 2,0 2,1 2,5 3,0 3,1 3,3 3,7 6,1 7,7

Os quartis obtidos foram: q1 = 2,05; q2 = 3,05; q3 = 4,9. Assim, a


distância interquartílica é dada por:

d q = q (0, 75) − q (0, 25) = 4, 9 − 2, 05 = 2,85 .

4.3 BOX PLOT

Também chamado de Desenho Esquemático ou Box & Whisker Plot, o


Box – Plot é um gráfico com as mesmas medidas do esquema dos cinco
números. Porém, além de avaliar facilmente os valores típicos, permite
avaliar a assimetria, a dispersão e os dados discrepantes de conjuntos de
dados referentes à variáveis QUANTITATIVAS. Ele é formado basicamente
por um retângulo, representando a mediana e os quartis, e duas linhas que
se estendem. Do menor valor observado até o retângulo e deste até o maior
valor observado, considerando-se dois limites, superior e inferior. O limite
superior (LS) é dado por

LS = q3 + 1,5d q

e o limite inferior (LI) por

LI = q1 − 1,5dq
Os valores do conjunto de dados que se encontram entre os dois
limites são denominados valores adjacentes. Valores fora desses limites,
isto é, valores maiores que LS ou menores que LI, são denominados valores
discrepantes. Eles correspondem a pontos exteriores, observações
destoantes das demais que podem ou não ser o que se chama outliers ou
valores atípicos. Do ponto de vista estatístico um outlier pode ser um produto
de um erro de observação ou de arredondamento.

4.3.1 Como traçar o Box Plot.

Primeiramente calcula-se os valores da Mediana, 1º Quartil (Inferior) e


3º Quartil (Superior). Traçam-se dois retângulos (duas caixas): uma
representa a “distância” entre a Mediana e o 1º Quartil, e o outro a “distância”
entre o 3º Quartil e a Mediana. A partir dos quartis 1 e 3 são desenhadas
linhas verticais até os últimos valores não discrepantes, tanto abaixo quanto
acima. (Reis, 2016 (aula 07)). A Figura 32 ilustra a construção do Box Plot.

59
Figura 32: Construção do Box Plot ( Chiann, 2016).

4.3.2 Interpretação do Box PLot

Como dito anteriormente, o Box Plot dá Idéia da posição, dispersão,


assimetria, caudas e dados discrepantes. A posição central é dada pela
mediana e a dispersão pela distância interquartílica dq. A assimetria é
avaliada de acordo com os itens (a) a (d) descritos na seção 2.3.2. O
comprimento das caudas da distribuição é dado pelo comprimento das
linhas que vão do retângulo até os valores mais remotos e pelos valores
atípicos.

Exemplo1- (Reis, 2016 (aula 07)): Sejam as alturas de homens adultos


a seguir.

142 145 150 163 163 165 165 165 166 167 168 168 169 169 169 170 170
172 173 173 173 174 174 177 178 179 180 181 181 183 183 184 198 204
205
Construir o diagrama em caixas e analisar os resultados.

Resolução:

60
1) Ordenar os dados: já estão ordenados.
2) Calcular Mediana, Quartis Inferior e Superior

Mediana (Md)

• Posição: p.( n + 1) = 0,5.(35 + 1) = 18


• Valor: q(0,50) = x18 = 172cm

1º Quartil (q1)

• Posição: p.( n + 1) = 0, 25.(35 + 1) = 9


• Valor: q(0, 25) = x9 = 166cm

3º Quartil: (q3)

• Posição: p.( n + 1) = 0, 75.(35 + 1) = 27


• Valor: q(0,75) = x27 = 180cm

3)Identificar os extremos: superior = 205 cm inferior = 142 cm.


4) q3 - Md=180 -172=8 cm; Md – q1 = 172 - 166 = 6 cm.
5) Valores discrepantes: obtidos pelos limites LS e LI.
• d q = q3 − q1 = 180 − 166 = 14
• LI = q1 − 1,5d q = 166 − 1,5.14 = 145
• LS = q3 + 1,5d q = 180 + 1,5.14 = 201

6) Construir o gráfico ( Figura 33)

Figura 33: Box-Plot para altura de homens adultos (Reis, 2016 (aula
07))
Na Figura 33 pode ser observada uma ligeira assimetria à direita, pois a
distância entre q3 e a mediana é maior que a distância entre q1 e a mediana,

61
a distância entre xn e a mediana (33) é maior que a distância entre x1 e a
mediana (30). Observa-se também a presença de valores discrepantes,
tanto acima quanto abaixo. No que se refere à dispersão, não há um padrão
para comparação.

Exemplo 2: Na Figura 34, são apresentados 36 tempos de


sobrevivência (em dias) e o Box Plot para este conjunto de dados.
Observa-se que:

• a distância (8) entre q3 e a mediana é menor que a distância


(11,25) entre q1 e a mediana;
• a distância (74,5) entre xn (x36 = 116) e a mediana é maior que
a distância (23,5) entre x1 e a mediana;
• a distância (66,5) entre xn e q3 é maior que a distância (12,25)
entre q1 e x1.

Assim, a distribuição do conjunto é assimétrica à direita.

Figura 34: Dados de tempo de sobrevivência e Box Plot (Chiann, 2016).


No gráfico podem ser observados dois valores discrepantes. Eles
podem ser provenientes de um erro ou representar de fato algo que é real.
Se confirmado que eles são provenientes de um erro, pode-se

62
desconsiderá-los e refazer os cálculos sem esses dois dados atípicos.
Nesse caso observa-se que:
• a distância entre q3 (47,5) e a mediana (39,5) é menor que a
distância entre q1 (29,5) e a mediana;
• a distância entre xn (x34 = 61) e a mediana é igual à distância
entre x1 e a mediana;
• a distância (13,5) entre xn e q3 é maior que a distância (11,5)
entre q1 e x1.

Assim, desconsiderando-se os valores discrepantes, a distribuição dos


dados não apresenta assimetria tão acentuada quanto antes, podendo-se
dizer que é aproximadamente simétrica.

4.4TRANSFORMAÇÕES

Muitos procedimentos estatísticos pressupõem normalidade ou


simetria do conjunto de dados. Mas, em muitas situações essa
pressuposição não é atendida e existe a possibilidade de valores atípicos.
Uma alternativa para resolver o problema e obter dados mais
aproximadamente simétricos e uma distribuição próxima da normal é
transformá-los por alguma função. As principais transformações são:

 x p , se p > 0

x( p) = ln( x), se p = 0
 − x p , se p < 0

Na prática, utiliza-se mais de uma transformação; para cada valor de p


obtém-se gráficos para os dados originais e para os dados transformados e
escolhe o valor de p mais adequado, isto é, escolhe-se a transformação que
torna os dados mais simétricos.

Para distribuições assimétricas à direita, toma-se valores de p tais que


0<p<1, pois valores grandes de x decrescem mais, relativamente a valores
pequenos. Analogamente, para distribuições assimétricas à esquerda,
toma-se p>1.

Considere os dados de populações do CD-Municípios e tome alguns


valores de p: 0, 1/4, 1/3, ½. A Figura 35 abaixo apresenta os histogramas
para os dados transformados. Observa-se que p = 0 (transformação
logarítmica) e p = 1/3 (transformação raiz cúbica) fornecem distribuições
mais próximas de uma distribuição simétrica.

63
Figura 35: Histogramas para os dados Cd – Municípios transformados.

64
EXERCÍCIOS PROPOSTOS:
(Larson e Farber, 2010)

Nos exercícios 1 a 4, encontre a média, a moda e a mediana dos


dados, se possível. Se quaisquer dessas medidas não puderem ser
encontradas explique o porquê.

1. Os pontos médios por jogo marcados por cada time durante a temporada
regular de 2006.

19,6 18,2 22,1 18,8 16,9 26,7 23,3 14,9


26,6 19,9 19,1 18,8 16,7 26,7 23,2 20,7
16,2 17,6 24,1 25,8 19,8 22,2 10,5 24,9
22,1 30,8 18,6 20,9 22,9 13,2 20,2 19,2

2. As respostas de uma amostra de 1040 pessoas que foram perguntadas


se a qualidade do ar em sua comunidade está melhor ou pior do que
estava 10 anos atrás.
Melhor: 346 Pior: 450 Igual: 244.

3. A altura (em polegadas) de 18 estudantes do sexo feminino durante uma


aula de educação física.

Altura (em polegadas) Frequência (ni)


60 |- 63 4
63 |- 66 5
66 |- 69 8
69 |- 72 1
4. As distâncias (em jardas) para nove buracos de um jogo de golf são
listadas.

336 393 408 522 147 504 177 375 360


a) Encontre a média e a mediana dos dados
b) Converta as distâncias para pés. Refaça a parte (a).
c) Compare as medidas encontradas na parte (b) com os resultados na
parte (a). O que se pode notar?
d) Use os resultados da parte (c) para explicar o conjunto de dados
fornecido se as distâncias são medidas em polegadas.
5. Um serviço de teste ao consumidor obteve as seguintes milhas por galão
em cinco testes de desempenho com três tipos de carros compactos.
Teste 1 Teste 2 Teste 3 Teste 4 Teste 5
Carro A 28 32 28 30 34
Carro B 31 29 31 29 31
Carro C 29 32 28 32 30

65
a) O fabricante do carro A quer anunciar que seu carro teve o melhor
desempenho no teste. Que medida da tendência central – média,
moda ou mediana – deveria ser usada para essa afirmação? Explique.
b) O fabricante do carro B quer anunciar que seu carro teve o melhor
desempenho no teste. Que medida da tendência central – média,
moda ou mediana – deveria ser usada para essa afirmação? Explique.
c) O fabricante do carro C quer anunciar que seu carro teve o melhor
desempenho no teste. Que medida da tendência central – média,
moda ou mediana – deveria ser usada para essa afirmação? Explique.

6. Estudantes em uma aula de psicologia experimental realizaram uma


pesquisa sobre a depressão como sinal de estresse. Um teste foi
administrado com uma amostra de 30 estudantes. As notas são
fornecidas

44 51 11 90 76 36 64 37 43 72 53 62 36
74 51
72 37 28 38 61 47 63 36 41 22 37 51 46
85 13

a) Encontre a média e a mediana


b) Descreva a forma da distribuição das notas, justificando.

7. Encontre a amplitude, a média, a variância, o desvio padrão e o


coeficiente de variação do conjunto de dados populacional abaixo:
15 24 17 19 20 18 20 16 21 23 17 18 22
14

8. Encontre a amplitude, a média, a variância, o desvio padrão e o


coeficiente de variação do conjunto de dados amostral abaixo:
28 25 21 15 7 14 9 27 21 24 14 17 16.

9. Você está se candidatando a um emprego em duas empresas. A empresa


A oferece salários iniciais com µ = $31.000 e σ = $1.000. A empresa B
oferece salários iniciais com µ = $31.000 e σ = $5.000. Em qual empresa
vbocê mais provavelmente conseguirira uma oferta de $33.000 ou mais?

10. Abaixo são apresentados os Box Plot para dois conjuntos de dados,
ambos com média de 165. Um tem desvio padrão de 16 e o outro de 24.
Qual é qual? Explique seu raciocínio.

66
11. Observe os gráficos a seguir:

(i) (ii)
(iii)

a) Sem calcular, determine qual conjunto de dados tem o maior desvio


padrão amostral. Qual tem o menor desvio padrão amostral? Explique.
b) Quais as semelhanças entre os conjuntos de dados? E as diferenças?

12. Observe os gráficos a seguir:

67
(i) (ii)
(iii)

a) Sem calcular, determine qual conjunto de dados tem o maior desvio


padrão amostral. Qual tem o menor desvio padrão amostral? Explique.
b) Quais as semelhanças entre os conjuntos de dados? E as diferenças?
13. Os resultados de uma amostra aleatória do número de animais de
estimação em certa região são mostrados no histograma. Estime a média
amostral e o desvio padrão amostral do conjunto de dados.

14. A tabela seguinte mostra as alturas (em polegadas) e pesos (em libras)
dos membros de um time de basquete. Encontre o coeficiente de variação
para cada conjunto de dados. O que se pode concluir?

Alturas Pesos
72 180
74 168
68 225
76 201
74 189
69 192
72 197
79 162
70 174
69 171
77 185
73 210

68
15. Uma amostra dos salários anuais (em milhares de dólares) dos
funcionários de uma empresa é listada a seguir.

42 36 48 51 39 39 42 36 48 33 39 42 45

a) Encontre a média amostral e o desvio padrão amostral


b) Cada funcionário na amostra recebe 5% de aumento. Encontre a
média amostral e o desvio padrão amostral para o conjunto de dados
revisados.
c) Para calcular o salário mensal, divida cada salário original por 12.
Encontre a média amostral e o desvio padrão amostral para o conjunto
de dados revisados.
d) O que se pode concluir com os resultados de (a), (b) e (c)?

16. A altura (em polegadas) de 18 estudantes do sexo feminino durante uma


aula de educação física foi dada no exercício 4. Calcule a variância, o
desvio padrão e o coeficiente de variação para estes dados considerando
que:
a) Trata-se de uma população
b) Trata-se de uma amostra.

17. Encontre os três quartis e construa o Box Plot para os dados a seguir:

2 7 1 3 1 2 8 9 9 2 5 4 7 3 7 5 4
7 2 3 5 5
9 5 6 3 9 3 4 9 8 8 2 3 9 5

18. Os gols marcados por jogo por um time de futebol representam o primeiro
quartil para todos os times da liga. O que podemos concluir sobre os gols
marcados pelo time por jogo?

19. Observe o Box Plot a seguir, referente a notas dos testes de 15


funcionários matriculados em um curso de treinamento.

69
a) Qual a entrada mínima?
b) Qual a entrada máxima?
c) Identifique o primeiro, o segundo e o terceiro quartil.
d) Calcule a amplitude interquartil, isto é a distância interquartílica.
e) Avalie a distribuição dos dados quanto à simetria. Justifique sua
resposta.
20. O número de horas que uma amostra de 28 pessoas assiste televisão
diariamente e seu Box Plot, encontram-se abaixo.
2 4 1 5 7 2 5 4 4 2 3 6 4 3 5 2 0
3 5 9 4 5 2 1 3 6 7 2

De acordo com os dados e o Box Plot, responda:


a) Aproximadamente 75% das pessoas não assistem mais do que
quantas horas de televisão por dia?

70
b) Qual a porcentagem de pessoas que assistem mais do que 4 horas de
televisão por dia?
c) Se for selecionada uma pessoa aleatoriamente a partir da amostra,
qual é a probabilidade dessa pessoa assistir menos do que 2 horas de
televisão por dia? Escreva sua resposta em porcentagem.
d) Encontre o 4º decil, o 11º percentil e o 85º percentil.

21. Na tabela abaixo, esta relacionado o diâmetro interno de uma amostra


aleatória de 30 arruelas da marca XP

Tabela 1: Diâmetro Interno (mm) de arruela XP

0,483 0,584 0,436 0,535 0,451 0,373

0,413 0,518 0,364 0,389 0,433 0,554

0,366 0,436 0,395 0,325 0,448 0,323

0,435 0,501 0,541 0,456 0,497 0,441

0,533 0,446 0,554 0,364 0,451 0,440

a) calcule a média aritmética, o desvio padrão, a variância, o coeficiente


de variação e os três quartis.
b) O controle de qualidade da empresa exigia que pelo menos 65% das
arruelas produzidas tivessem seu diâmetro interno variando em pelo
menos um desvio padrão a contar com o diâmetro interno médio.
Então, diariamente era coletada uma amostra de arruelas, a fim de
verificar se a produção estava atendendo tal especificação. Com base
nos dados calculados em (a) responda: A produção de arruelas da
marca XP deve ser interrompida? (Dica: calcule os percentis
equivalentes a X − S e X + S ).
c) O IMETRO exige que diâmetro interno médio das arruelas mais dois
desvios padrão esteja acima de 95% dos diâmetros internos das
arruelas produzidas. Caso não esteja dentro das especificações
exigidas pelo INMETRO a produção deve ser interrompida.
Pergunta-se: A produção de arruelas da marca XP deve ser
interrompida?

71
REFERÊNCIAS:

• CHIANN, C. Estatística Básica. Disponível em:


http://www.ime.usp.br/~chang/home/mae116/Farmacia-residencia/farm-aul
a1.pdf. Acesso em: 29/02/2016.
• Diagrama Ramo e Folhas. Disponível em:
www.galileu.esalq.usp.br/mostra_topico.php?cod=227. Acesso em 28/02/2016.
• FONSECA, J. S.; MARTINS, G. A.; Curso de Estatística. 6ed, São
Paulo: Atlas, 1996.
• Funções estatísticas na calculadora científica. Disponível em:
http://www.calculo.iq.unesp.br/PDF/FuncoesEstatiticaCalculadoraCientifica.
pdf . Acesso em 29/02/2016.
• LARSON, R. & FARBER, B. Estatística Aplicada, 4ed, São Paulo:
Person Prentice Hall, 2010.
• MORETTIN, P. A.; BUSSAB, W. O., Estatística Básica, 5.ed. São
Paulo: Saraiva, 2007.
• REIS, M. M; Estatística - aula 06. Disponível em:
http://www.inf.ufsc.br/~marcelo/AED05.pdf. Acesso em: 29/02/2016
• REIS, M. M.; Estatística – aula 07. Disponível em:
http://www.inf.ufsc.br/~marcelo/AED06.pdf. Acesso em: 29/02/2016.
• ROCHA, R. C., Notas de aula. 2015
• SHIMAKURA, S. E.; O diagrama de dispersão. Disponível em:

http://leg.ufpr.br/~silvia/CE055/node15.html. Acesso em 22/02/2016.

72

Anda mungkin juga menyukai