fazer boxplot!
1ª LISTA DE EXERCÍCIOS
Estatística Descritiva
2 3 4 4 5 3 4
5 6 5 3 1 5 5
1 3 4 5 5 5 3
2 2 5 4 4 2 3
5 4 5 4 2 4 9
60 57 61 57 67 62 69 67 68 59
65 72 65 61 68 73 65 62 75 80
66 61 69 76 72 57 75 68 83 64
69 64 66 74 65 76 65 58 65 64
65 60 65 80 66 80 68 55 66 71
0 |⎯ 4 8
4 |⎯ 8 15
8 |⎯ 12 24
12 |⎯ 16 20
16 |⎯ 20 13
EXERCÍCIOS RESOLVIDOS
Construa o gráfico de barras e o gráfico de setores (ou gráfico “pizza”) com base nessa tabela de frequências.
264
Exportador Quantidade
Canadá 710
Estados Unidos 699
Brasil 265
China 110
Outros 539
Total 3.543
Fonte: USDA-ABIPECS
13,5 12,5 10,6 15,1 11,7 12,9 12,8 9,4 14,9 12,0
146 125 139 132 121 135 114 114 130 169 114 130 169 125 103
20 |⎯ 30 2
30 |⎯ 40 11
40 |⎯ 50 10
50 |⎯ 60 9
60 |⎯ 70 8
∑ 40
Nº de vezes: 0 1 2 3 4 5
Nº de pessoas: 18 10 3 2 1 1
Casos Controle
11
17. O gráfico a seguir apresenta a taxa de desemprego em % da população
economicamente ativa no período de 1982 a 1997:
Taxas de desemprego
4,5 4,8
6,0 4,1 4,4 4,4 3,8
5,0 3,9 3,4
4,0 2,3
3,0
%
2,0
1,0
-
1989 1990 1991 1992 1993 1994 1995 1996 1997
ano
12
18. O gráfico a seguir expressa o número de animais doentes encontrados
num levantamento de 350 propriedades rurais em MG, 1998:
120 112
100
82
freqüência
80
55 60
60
40 31
20 8
2
0
0 1 nº de2animais
3 doentes
4 5 6
a) Classifique a variável.
b) Quantos propriedades apresentaram no máximo dois animais doentes?
c) Qual é o percentual de propriedades que apresentaram somente um
animal doente?
d) Qual é o percentual de propriedades que apresentaram pelo menos um
animal doente?
e) Qual foi a moda?
f) Determine a mediana.
13
19. Foram obtidos os tempos (em segundos) decorridos entre a formulação de
um pedido e a entrega de um determinado sanduíche em uma lanchonete
McDonalds.
14
20. Em um Haras, verificou-se a taxa de protombina no plasma de cavalos.
Com base nos resultados apresentados a seguir, construa um histograma e
veja o que ele sugere em relação taxa de protombina. Calcule e interprete
as seguintes medidas: Média, Mediana, Moda, Desvio Padrão, Coeficiente
de Variação, variância, erro padrão da média.
16 --- 25 22
26 --- 35 10
36 --- 45 6
46 --- 55 2
56 --- 65 4
66 --- 75 5
76 --- 85 1
15 21) Foram obtidas em uma determinada empresa, a idade dos carros de
profissionais do Haras Cavalo de Ouro, com nível médio e profissionais com
nível superior. Determine média, Mediana, Moda, Desvio Padrão, Coeficiente
de Variação, variância, erro padrão da média. Comparando as duas amostras,
elas apresentam a mesma variabilidade?
0 --- 2 23 35
3 --- 5 33 57
6 --- 8 63 41
9 --- 11 68 10
12 --- 14 19 8
15 --- 17 10 0
18 --- 20 1 1
21 --- 23 0 0
C A P Í T U L O 7 ANÁLISE EXPLORATÓRIA DE DADOS AMOSTRAIS
EXERCÍCIOS PROPOSTOS
16
P7.1) Um erro grosseiro, mas (infelizmente) bastante comum
A partir dos dados x 1 , x 2 ,..., x n , calcula-se a variância da variável X pela expressão
2
⎛ n ⎞
n ⎜⎝ ∑ x i ⎟⎠
∑ x i − i =1
2
n
s = i =1
2
n−1
Então, se n 5, x 1 3, x 2 5, x 3 0, x 4 2, x 5 6 , temos:
5
x i 2 32 52 02 22 62 74
i 1
74 74
74 −74 −
Logo, s2 = 5 = 5 = 14,8
5−1 4
a) O que está errado nesse cálculo?
b) Qual a solução correta?
17
P7.2) Combinando duas amostras
Foram coletados os dados relativos a uma determinada variável para duas amostras distintas. Apresen-
tam-se a seguir, para cada uma delas, os resultados obtidos quanto a: tamanho da amostra, média e desvio
padrão.
a) Considerando agora a amostra combinada, ou seja, a amostra composta por todas as nove observa-
ções, qual o valor da sua média?
b) Qual o seu desvio padrão?
Quais das seguintes afirmações estão corretas e quais estão erradas? Por quê?
a) A mediana desses dados é Q2 x 6 .
b) Suponha que foi eliminada desse conjunto de dados original a maior observação x(11). Então a nova
1
mediana é agora x 1 x 10 .
2
c) Suponha que foi adicionada ao conjunto de dados original mais uma observação, de modo que ele
passou a ter 12 observações. Então a diferença entre o maior valor possível da nova mediana e o
1
menor valor possível da nova mediana é x7 x5 .
2
P R O B A B I L I D A D E E E S TAT Í S T I C A ELSEVIER
18
P7.4) Implantes mamários – raciocínio equivocado
Um determinado fabricante produz implantes mamários utilizando gel de silicone. Os dados a seguir
se referem à tensão de ruptura desses implantes, e foram obtidos por meio de testes físicos realizados com
uma amostra de tamanho n = 20:
72,2 80,1 70,4 67,8 70,9 72,1 75,1 73,0 59,4 77,2
65,1 66,5 64,1 79,0 70,6 70,3 63,1 64,4 74,9 75,3
Posição 1 2 3 4 5 6 7 8 9 10
Valor 72,2 80,1 70,4 67,8 70,9 72,1 75,1 73 59,4 77,2
Posição 11 12 13 14 15 16 17 18 19 20
Valor 65,1 66,5 64,1 79 70,6 70,3 63,1 64,4 74,9 75,3
1 20 1 1
Posição Q2 10,5 Q2 77,2 65,1 71,15
2 2 2
1 10,5 1 3
Posição(Q1) 5,75 Q1 70,9 72,1 71,8
2 4 4
10,5 20 3 1
Posição(Q3) 15,25 Q3 70,6 70,3 70,525
2 4 4
a) Algo está errado nessa solução. O que é?
b) Qual a solução correta?
Se for utilizado o critério para identificação de observações discrepantes que se baseia em medidas re-
sistentes, teremos Cerca Superior Q3 1,5 DIQ 20 1,5 14 41 . Assim, seis das 37 observações
(16%) seriam apontadas como possíveis outliers, isto é, municípios onde haveria um número anormalmente
alto de hotéis: Teresópolis (44), Penedo (55), Petrópolis/arredores (58), Petrópolis (83), Nova Friburgo (84)
e Itatiaia (121).
Responda:
a) Por que a média resultou em um valor bem maior que a mediana nesse caso?
b) Por que tantos municípios teriam sido apontados pelo critério que identifica outliers?
a. Determine os quartis.
b. Obtenha um gráfico box plot para esses dados.
c. Seria o gráfico ramo-folha adequado para representar estes dados? Por quê?
281
22
ExercÌcio 2 Houve uma den˙ncia por parte dos oper·rios de uma ind˙stria de que,
toda vez que ocorreria um acidente em uma seÁ„o da ind˙stria, ocorreriam outros em
outras seÁıes mais ou menos no mesmo hor·rio. Em outras palavras, os acidentes
n„o estavam ocorrendo ao acaso. Para veriÖcar esta hipÛtese, foi feita uma contagem
do n˙mero de acidentes por hora durante um certo n˙mero de dias (24 horas por
dia). Os resultados da pesquisa est„o abaixo:
3 CoeÖciente de CorrelaÁ„o
Vimos anteriormente que o diagrama de dispers„o (scatterplot) È usado quando
desejamos avaliar a relaÁ„o entre duas vari·veis. A visualizaÁ„o È um primeiro passo
para um entendimento dessa possÌvel ináuÍncia de uma vari·vel sobre outra, mas
h· que se medir a correlaÁ„o entre elas. O coeÖciente de correlaÁ„o (r) È a
medida comumente utilizada para se avaliar a correlaÁ„o linear entre duas vari·veis
quantitativas.
5
INF 162 Prof. Luiz Alexandre Peternelli
27
2
5) Mostre que ∑ f i ( xi − x ) = ∑ f i xi2 − i
i ∑ fi
i
6) Mostre que a soma de quadrados dos desvios (SQD) em relação à média é um
mínimo. Dica: Considere f(a) a função que representa a SQD em relação a a. Ou
n
seja, f (a ) = ∑ ( xi − a ) 2 . Usando seus conhecimentos de cálculo, mostre que f(a)
i =1
28
será mínimo quando a for igual a média dos valores de X.
7) Calcule a média, mediana, e amplitude total dos valores dispostos no seguinte
diagrama de ramos e folhas
6 05589
7 244578
8 2335789
9 0014457
10 0 2 7 8
11 0 2 4 5
12 2 4 5
24
INF 162 Prof. Luiz Alexandre Peternelli
29 Cão
1) Os dados abaixo se referem a medidas tomadas em uma amostra de 10 cães:
1 2 3 4 5 6 7 8 9 10
Peso (kg) 23,0 22,7 21,2 21,5 17,0 28,4 19,0 14,5 19,0 19,5
Comprimento (cm) 104 105 103 105 100 104 100 91 102 99
3) Considere os dados: 12, 17, 17, 17, 10, 10, 9, 9, 9, 12, 12, 6, 6, 6, 17, 17, 12, 12, 9, 9,
9, 12, 12, 12, 12. Supondo que sejam valores assumidos por uma variável aleatória
discreta X, pede-se:
a) Média, mediana e moda;
b) Erro-padrão da média e C.V.(%).
25
INF 162 Prof. Luiz Alexandre Peternelli
31
4) Duas turmas A e B com n A = 50 e n B = 80 apresentaram médias X A = 65 e X B = 70
e variâncias s2A = 225 e s2B = 235 . Qual é a turma mais homogênea?
32
5) A média de aprovação na disciplina de Estatística é 6 ou mais. Durante um período
letivo foram realizadas quatro provas, sendo que a primeira prova teve peso dois, a
segunda e a terceira o dobro do peso da primeira e a última igual ao peso da primeira.
Os resultados, incluindo os de uma prova de substituição optativa, foram os seguintes:
Estudantes 1a 2a 3a 4a Optativa
1 2,5 4,5 5,0 6,0 7,0
2 2,0 8,5 7,0 3,0 5,0
3 8,5 10,0 9,0 8,5 nc
4 3,5 5,5 8,5 7,5 6,5
5 3,0 5,0 6,0 4,5 5,0
6 6,0 3,0 4,0 5,0 2,0
7 8,0 1,5 2,0 9,0 5,0
8 1,5 2,0 1,0 2,5 nc
9 7,5 8,0 8,5 10,0 nc
10 5,5 4,5 5,0 4,5 2,5
Sabendo-se que a nota da prova optativa substitui a menor nota das provas
precedentes, determine:
a) Média de cada estudante;
b) Para cada prova: média, moda, mediana, variância, desvio-padrão, erro-padrão da
média e CV.
c) Para o período: média, variância, desvio-padrão, erro-padrão da média, CV.
d) Liste as provas em ordem crescente de homogeneidade.
26
Exercícios
Estatística Descritiva
Localização do
tamanho do cisto no
paciente sexo idade cisto (cm) pâncreas
1 F 49 6 cabeça
2 F 61 10 cabeça
3 M 34 8,2 cauda
4 F 73 3 colo
5 M 47 3,6 cabeça
6 M 58 10 colo
7 M 43 1 cabeça
8 M 71 1 cabeça
9 M 32 7 cauda
10 M 56 1 cabeça
11 M 61 6,6 corpo
12 F 49 4 cabeça
13 M 80 3,1 cauda
14 M 72 2,3 cabeça
15 M 47 10,5 cabeça
16 F 48 6,5 corpo
17 F 37 13 corpo
18 M 71 1 colo
19 M 74 7 cabeça
20 F 21 12 corpo
21 F 45 8,5 corpo
22 M 38 10 colo
Pede-se:
1 – Construa uma tabela e um gráfico de distribuição de freqüências para a localização do cisto no pâncreas dos pacientes;
2 – Construa uma tabela e um gráfico de distribuição de freqüências conjuntas para as variáveis sexo e localização do cisto no
pâncreas. Com base na tabela e gráfico obtidos, você suspeita que exista relação entre o sexo e a localização do cisto?
3 – Construa uma tabela e um gráfico de distribuição de freqüências para os tamanhos dos cistos;
4 – São fornecidos gráficos dos tamanhos dos cistos segundo o sexo dos pacientes e suas localizações no pâncreas. Interprete os
gráficos apresentados.
5 – Construa um gráfico que permita avaliar a relação entre a idade do paciente e o tamanho do cisto. Comente o resultado.
6 – Calcule as medidas de posição e dispersão estudadas para os tamanhos dos cistos. Depois, calcule-as novamente, para cada sexo.
Você suspeita que exista relação entre o tamanho dos cistos e o sexo dos pacientes?
Box-plots – gráficos geralmente utilizados no estudo da distribuição dos valores de uma variável quantitativa para diferentes
Representação:
! Uma caixa, delimitada inferiormente pelo 1º quartil* (Q1) e superiormente pelo 3º quartil* (Q3), e segmentada em duas partes
pela mediana (Med).
! A partir da extremidade superior da caixa, estende-se uma linha até o valor adjacente superior (VAS), valor da maior
observação que esteja a uma distância inferior a uma vez e meia o tamanho da caixa (1,5*(Q3-Q1)) de Q3.
! O mesmo procedimento é adotado abaixo de Q1, tomando como valor adjacente inferior (VAI) a menor observação que esteja
a uma distância inferior a uma vez e meia o tamanho da caixa.
! As observações afastadas da caixa por mais de 1,5*(Q3-Q1) são representadas por pontos e consideradas pontos discrepantes.
1ª lista de exercícios
34 1. Os dados apresentados na tabela a seguir constituem uma amostra obtida num estudo sobre incidência de problemas no cotovelo entre
jogadores de tênis.
Tabela - Dados de 20 membros de diversos clubes de tênis de Boston, EUA, que
tiveram problema no cotovelo pelo menos uma vez. 1993.
No de vezes Tamanho+ Peso++ Material- Material--
Membro Idade Sexo** que teve o da da da armação do trançado
(anos) problema raquete* raquete* da raquete* da raquete*
1 53 M 3 C L A C
2 57 M 3 M M AL N
3 43 M 1 C M G N
4 35 F 2 C L FV C
5 43 M 2 C L AL C
6 31 M 1 C L G C
7 36 M 1 C M M C
8 36 F 1 M L AL C
9 33 F 1 C M M N
10 55 M 1 G L AL N
11 35 F 1 M L AL C
12 44 F 3 C L AL N
13 45 F 8 C L FV N
14 47 F 2 M L O N
15 40 F 1 C L AL C
16 41 F 1 C L M N
17 40 F 8 C L O C
18 40 F 3 M L AL N
19 47 F 1 C L M N
20 55 M 8 C M AL N
Fonte: Rosner, B. Fundamentals of biostatistics. 4.ed. Duxbury Press, 1995. 682p. (Adaptação).
* Raquete usada correntemente. -M = Madeira.
AL = Alumínio.
+
C = Convencional. FV = Fibra de vidro.
M = Médio. G = Grafite.
G = Grande. A = Aço.
C= Composto.
++
L = Leve. O = Outros.
M = Médio.
--
P = Pesado. N = Nylon.
C= Corda.
a) Classifique as variáveis observadas em qualitativas (nominais ou ordinais) ou quantitativas (discretas ou contínuas);
b) Construa uma tabela de distribuição de freqüências para os tamanhos das raquetes utilizadas.
c) Represente a tabela obtida no item ‘b’ por meio de um gráfico de colunas e de um gráfico de setores;
2. Para determinar as preferências de consumo na refeição principal, foi elaborado um estudo em indivíduos de ambos os sexos na cidade de
Itajubá. A tabela seguinte resume os resultados obtidos:
Tipo de refeição
Sexo
Saladas Carnes Massas
Masculino 12 41 27
Feminino 35 15 30
3. A taxa de mortalidade infantil corresponde ao número médio de mortes, dentre 1000 crianças nascidas vivas, antes de completarem um
ano de vida. Os dados abaixo representam a Taxa de mortalidade infantil dos municípios da Microrregião Oeste Catarinense (1982) e
foram extraídos da publicação Municípios Catarinenses - Dados Básicos, 1987, GAPLAN - SC, que utiliza dados levantados pelo IBGE.
32,3 62,2 10,3 22,0 13,1 9,9 18,3 33,0 20,0 22,7 27,2 11,9
36,4 23,5 18,0 22,6 20,3 38,3 32,9 29,9 29,7 39,2 25,4 19,6
28,9 18,4 27,3 21,7 23,7 13,9 23,8 15,7 17,0 36,3
35 4. Em uma investigação dos fatores de risco para as doenças cardiovasculares, os níveis séricos de cotinina (produto metabólico da nicotina)
foram registrados para um grupo de fumantes e um grupo de não fumantes, As distribuições de freqüências correspondentes são
mostradas abaixo.
Nível de cotinina
Fumantes Não fumantes
(mg/ml)
0-13 78 3300
14-49 133 72
50-99 142 23
100-149 206 15
150-199 197 7
200-249 220 8
250-259 151 9
300-399 412 11
Total 1539 3445
a) É correto comparar as distribuições dos níveis de cotinina para fumantes e não fumantes, com base nas freqüências absolutas em cada
intervalo? Por que?
b) Caso sua resposta para o item “a” seja negativa, construa uma nova tabela, em que as distribuições dos níveis de cotinina para fumantes e
não fumantes possam ser comparadas.
c) Construa um gráfico com os polígono de freqüências para fumantes e não fumantes.
d) Com base nos resultados obtidos nos itens “b” e “c”, o que você pode dizer sobre a distribuição dos níveis de cotinina registrados para
cada grupo?
e) Para todos os indivíduos nesse estudo, o status do fumo é auto-registrado. Você acha que algum dos indivíduos pode estar mal
classificado? Por que?
36 5. Em uma pesquisa sobre a concentração de minerais no leite materno, foram coletados no período de 1984 a 1985, dados de 55 mães do
Hospital Maternidade Odete Valadares em Belo Horizonte. As mães foram divididas em dois grupos, segundo o período de lactação:
colostro e leite maduro.Os minerais considerados foram cálcio, cobre, magnésio e zinco. Os dados a seguir referem-se ao cálcio e ao
zinco.
Exercícios de Bioestatística
1- O nível de colesterol no sangue é uma variável com distribuição Normal, de média µ desconhecida e desvio padrão σ = 60mg / 100ml .
a) Qual deve ser o valor de n para que apenas 10% das médias amostrais excedam a média populacional em 10 unidades ou mais?
b) Teste a hipótese de que µ = 260 , contra a alternativa de que µ > 260 com base numa amostra de 50 pacientes, em que se observou uma média
amostral x = 268 . Utilize um nível de significância de 5%.
c) Construa um intervalo com 95% de confiança (bilateral) para o nível médio populacional de colesterol.
d) Qual deve ser o tamanho amostral para que um intervalo de 99% de confiança para µ tenha um comprimento de 30 unidades?
2- A fim de acelerar o tempo que um analgésico leva para penetrar na corrente sangüínea, um químico analista acrescentou certo componente à fórmula
original, que acusava um tempo médio de 43 minutos. Em 36 observações com a nova fórmula, obteve-se um tempo médio de 42 minutos, com desvio
padrão de 6 minutos.
a) O que podemos concluir, ao nível de 5% de significância, sobre a eficiência do novo componente?
b) Qual seria a resposta ao nível de 1%?
c) Que tipo de erro pode ser cometido?
d) Estime o tempo médio que o analgésico leva para penetrar na corrente sanguínea com um nível de 95% de confiança.
3- Entre milhares de casos de pneumonia não tratada com sulfa, a porcentagem que desenvolveu complicações foi de 10%. Com o intuito de saber se o
emprego da sulfa diminuiria essa porcentagem, 120 casos de pneumonia foram tratados com sulfapiridina e destes, 6 apresentaram complicações.
74 74
74 − 74 −
Logo, s2 = 5 = 5 = 14,8
5−1 4
a) O que está errado nesse cálculo?
b) Qual a solução correta?
a) Considerando agora a amostra combinada, ou seja, a amostra composta por todas as nove observa-
ções, qual o valor da sua média?
b) Qual o seu desvio padrão?
Quais das seguintes afirmações estão corretas e quais estão erradas? Por quê?
a) A mediana desses dados é Q2 x 6 .
b) Suponha que foi eliminada desse conjunto de dados original a maior observação x(11). Então a nova
1
mediana é agora x 1 x 10 .
2
c) Suponha que foi adicionada ao conjunto de dados original mais uma observação, de modo que ele
passou a ter 12 observações. Então a diferença entre o maior valor possível da nova mediana e o
1
menor valor possível da nova mediana é x7 x5 .
2
277