Anda di halaman 1dari 22

Nos exerçícios abaixo, sempre que possível,

fazer boxplot!
1ª LISTA DE EXERCÍCIOS

Estatística – Administração Integral e Noturno

Estatística Descritiva

1 1. Classifique as variáveis (qualitativa nominal, qualitativa ordinal, quantitativa


discreta, quantitativa contínua):
a) Vitamina (A, B1, B2, B6, B12)
b) Quantidade de caloria na batata frita.
c) Desfecho de uma doença (curado, não curado)
d) Classificação de uma lesão (lesão fatal; severa; moderada; pequena).
e) Grupo sangüíneo (A,B,AB,O)
f) Paridade (primeira gestação, segunda gestação, terceira ...)
g) Estado geral de um paciente (bom, regular, ruim)
h) Número de nascidos vivos em certo hospital em junho/99
i) Idade
j) Concentração de flúor na água
k) Atividade esportiva preferida

2. Os dados abaixo referem-se ao número de pessoas que residem em uma


amostra de 35 domicílios do bairro Esperança no 1°sem/99:

2 3 4 4 5 3 4
5 6 5 3 1 5 5
1 3 4 5 5 5 3
2 2 5 4 4 2 3
5 4 5 4 2 4 9

Construa uma distribuição de freqüência em classes.

2 3. Os dados seguintes são referentes ao nível de glicose de 60 crianças:


56 61 57 77 62 75 63 55 64 60

60 57 61 57 67 62 69 67 68 59

65 72 65 61 68 73 65 62 75 80

66 61 69 76 72 57 75 68 83 64

69 64 66 74 65 76 65 58 65 64

65 60 65 80 66 80 68 55 66 71

a) Construa uma distribuição de freqüência


b) Determine as freqüências simples acumuladas de cada classe.
c) Determine as freqüências relativas de cada classe.
d) Determine as freqüências relativas acumuladas de cada classe.

3 4. Os dados a seguir referem-se ao tempo, em horas, que 80 pacientes


hospitalizados dormiram durante a administração de certo anestésico:

Tempo (horas) N.de pacientes

0 |⎯ 4 8

4 |⎯ 8 15

8 |⎯ 12 24

12 |⎯ 16 20

16 |⎯ 20 13

a) Encontre a freqüência relativa de cada classe.


b) Determine a freqüência acumulada de cada classe.
c) Determine o ponto médio de cada classe.
d) Dê a interpretação para a freqüência relativa de 3a classe.
e) Qual o percentual de pacientes que dormiram menos de 12 horas?

5. Uma amostra de gaúchos foi investigada em relação ao consumo de sal


diário, obtendo-se o seguinte:
em encontrar aqueles valores de a e b que minimizam:
n
(y i (a bx i )) 2 .
i 1

As fórmulas para calcular a e b a partir dos dados são:


n n
n i 1
xi i 1
yi
n
xi x yi y i 1
xiyi s xy
b i 1 n
n 2 2
i 1
xi x n
x s2x
n 2 i 1 i
i 1
x i
n
n n
yi b xi
a y bx i 1 i 1
n

EXERCÍCIOS RESOLVIDOS

4 R7.1) O problema mais grave do estado do RJ


Considere uma pesquisa por amostragem feita em 1986 junto à população do estado do Rio de Janeiro.
Foram ouvidas 1.230 pessoas que, entre outras coisas, apontaram qual era, em sua opinião, o problema mais
grave do estado naquele momento. Com base nos dados brutos, foi obtida a tabela a seguir.

Frequências e percentuais dos 1.230 respondentes da Pesquisa junto à população


do estado do RJ em 1986, segundo o problema mais grave do Estado

Problema mais grave do Estado Frequências Percentuais


Segurança / Violência 360 29,27
Educação 160 13,01
Saúde 152 12,36
Saneamento 118 9,59
Alimentação/Fome/Pobreza 73 5,93
Transporte 63 5,12
Outros 304 24,72
Total 1.230 100,00
Fonte: Pesquisa de Opinião sobre as Eleições do Rio de Janeiro 1986
Ibase / Serpro / IM-UFRJ

Construa o gráfico de barras e o gráfico de setores (ou gráfico “pizza”) com base nessa tabela de frequências.

264

book.indb 264 07/08/2012 09:54:28


10. Maiores exportadores de carne suína (mil t), em 2001:

Exportador Quantidade

União Européia 1.220

Canadá 710
Estados Unidos 699
Brasil 265
China 110
Outros 539

Total 3.543
Fonte: USDA-ABIPECS

a) A tabela é identificada como dados agrupados ou não agrupados?


b) Utilize as medidas de tendência central para descrever os dados.

5 11. Um levantamento realizado em uma amostra de pessoas normais, segundo


a quantidade de hemoglobina ( g/ 100 ml) existente no sangue forneceu os
seguintes resultados:

13,5 12,5 10,6 15,1 11,7 12,9 12,8 9,4 14,9 12,0

Calcule o desvio padrão e o coeficiente de variação.

6 12. Os dados seguintes são referentes a uma amostra de diâmetros de


coração de adultos normais, em mm (medidas em radiografias 36 x 43 cm):

146 125 139 132 121 135 114 114 130 169 114 130 169 125 103

a) Determine a média, a moda e a mediana.


b) Calcule a variância e o desvio padrão.

7 13. Um farmacêutico comprou um material específico de dois diferentes


fornecedores. Para comparar o nível de impurezas presentes nas compras
feitas aos dois fornecedores, o farmacêutico mediu a porcentagem de
impurezas presentes em cada um dos grupos, obtendo o que segue:
Fornecedor A: 1,8 2,5 1,5 1,2 1,0

Fornecedor B: 1,6 2,5 1,2 2,3 1,5

Qual das compras apresenta maior uniformidade nas impurezas? Justifique


adequadamente.

8 14. A tabela abaixo indica a idade de uma amostra de pacientes com


hipertensão arterial:

Idade (anos) Nº de pacientes

20 |⎯ 30 2
30 |⎯ 40 11
40 |⎯ 50 10

50 |⎯ 60 9

60 |⎯ 70 8

∑ 40

a) Determine e interprete a idade média.


b) Determine interprete a idade modal.
c) Calcule o desvio padrão da idade.
d) Qual o percentual de pacientes hipertensos com no mínimo 50 anos?
e) Qual o percentual de pacientes hipertensos com menos de 40 anos?

9 15. Número de vezes que 35 indivíduos com lombalgia procuram o serviço de


fisioterapia. Calcule o desvio padrão da amostra.

Nº de vezes: 0 1 2 3 4 5
Nº de pessoas: 18 10 3 2 1 1

10 16. O Hospital de Clínicas de Porto Alegre realizou um estudo sobre Síndrome


de Down: características clínicas, perfil epidemiológico e citogenético em
recém-nascidos. Foi realizado um rastreamento em todos os nascidos com
peso acima de 500 gramas no HCPA entre junho de 1988 e março de
1995, sendo anotado a idade das mães de crianças com Síndrome de
Down no grupo de caso e a idade das mães de crianças normais no grupo
de controle. Com base nas informações dadas abaixo, qual das amostras
de mães é mais homogênea em relação à idade? Justifique a resposta.

Casos Controle

Média 31,67 anos 26,00 anos


Desvio padrão 7,08 anos 5,08 anos

11
17. O gráfico a seguir apresenta a taxa de desemprego em % da população
economicamente ativa no período de 1982 a 1997:

Taxas de desemprego

4,5 4,8
6,0 4,1 4,4 4,4 3,8
5,0 3,9 3,4
4,0 2,3
3,0
%

2,0
1,0
-
1989 1990 1991 1992 1993 1994 1995 1996 1997
ano

a) Classifique a variável de interesse.


b) Qual a moda da variável?
c) Determine e interprete a média.
d) Determine e interprete a mediana.

12
18. O gráfico a seguir expressa o número de animais doentes encontrados
num levantamento de 350 propriedades rurais em MG, 1998:

120 112

100
82
freqüência

80
55 60
60

40 31

20 8
2
0
0 1 nº de2animais
3 doentes
4 5 6
a) Classifique a variável.
b) Quantos propriedades apresentaram no máximo dois animais doentes?
c) Qual é o percentual de propriedades que apresentaram somente um
animal doente?
d) Qual é o percentual de propriedades que apresentaram pelo menos um
animal doente?
e) Qual foi a moda?
f) Determine a mediana.

13
19. Foram obtidos os tempos (em segundos) decorridos entre a formulação de
um pedido e a entrega de um determinado sanduíche em uma lanchonete
McDonalds.

135 90 85 121 83 69 159 177

120 133 90 80 70 93 80 110

Calcule média, mediana, moda, desvio padrão e coeficiente de variação.


Interprete os resultados e comente sobre como está sendo o atendimento
nesta loja.

14
20. Em um Haras, verificou-se a taxa de protombina no plasma de cavalos.
Com base nos resultados apresentados a seguir, construa um histograma e
veja o que ele sugere em relação taxa de protombina. Calcule e interprete
as seguintes medidas: Média, Mediana, Moda, Desvio Padrão, Coeficiente
de Variação, variância, erro padrão da média.

Taxa de protombina Freqüência

16 --- 25 22
26 --- 35 10
36 --- 45 6
46 --- 55 2

56 --- 65 4
66 --- 75 5
76 --- 85 1
15 21) Foram obtidas em uma determinada empresa, a idade dos carros de
profissionais do Haras Cavalo de Ouro, com nível médio e profissionais com
nível superior. Determine média, Mediana, Moda, Desvio Padrão, Coeficiente
de Variação, variância, erro padrão da média. Comparando as duas amostras,
elas apresentam a mesma variabilidade?

Idade (anos) Nível Médio Nível Superior

0 --- 2 23 35

3 --- 5 33 57
6 --- 8 63 41
9 --- 11 68 10
12 --- 14 19 8
15 --- 17 10 0
18 --- 20 1 1
21 --- 23 0 0
C A P Í T U L O 7 ANÁLISE EXPLORATÓRIA DE DADOS AMOSTRAIS

EXERCÍCIOS PROPOSTOS

16
P7.1) Um erro grosseiro, mas (infelizmente) bastante comum
A partir dos dados x 1 , x 2 ,..., x n , calcula-se a variância da variável X pela expressão
2
⎛ n ⎞
n ⎜⎝ ∑ x i ⎟⎠
∑ x i − i =1
2

n
s = i =1
2

n−1
Então, se n 5, x 1 3, x 2 5, x 3 0, x 4 2, x 5 6 , temos:
5
x i 2 32 52 02 22 62 74
i 1

74 74
74 −74 −
Logo, s2 = 5 = 5 = 14,8
5−1 4
a) O que está errado nesse cálculo?
b) Qual a solução correta?

17
P7.2) Combinando duas amostras
Foram coletados os dados relativos a uma determinada variável para duas amostras distintas. Apresen-
tam-se a seguir, para cada uma delas, os resultados obtidos quanto a: tamanho da amostra, média e desvio
padrão.

Amostra No de Obs. Média Desvio Padrão


1 5 7,4 6,309
2 4 11,5 9,983

a) Considerando agora a amostra combinada, ou seja, a amostra composta por todas as nove observa-
ções, qual o valor da sua média?
b) Qual o seu desvio padrão?

P7.3) Atualização da mediana


Temos um conjunto de dados com 11 observações já devidamente ordenadas:
x (1) < x (2) < x (3) < ... < x (11).

Quais das seguintes afirmações estão corretas e quais estão erradas? Por quê?
a) A mediana desses dados é Q2 x 6 .
b) Suponha que foi eliminada desse conjunto de dados original a maior observação x(11). Então a nova
1
mediana é agora x 1 x 10 .
2
c) Suponha que foi adicionada ao conjunto de dados original mais uma observação, de modo que ele
passou a ter 12 observações. Então a diferença entre o maior valor possível da nova mediana e o
1
menor valor possível da nova mediana é x7 x5 .
2
P R O B A B I L I D A D E E E S TAT Í S T I C A ELSEVIER

18
P7.4) Implantes mamários – raciocínio equivocado
Um determinado fabricante produz implantes mamários utilizando gel de silicone. Os dados a seguir
se referem à tensão de ruptura desses implantes, e foram obtidos por meio de testes físicos realizados com
uma amostra de tamanho n = 20:

72,2 80,1 70,4 67,8 70,9 72,1 75,1 73,0 59,4 77,2
65,1 66,5 64,1 79,0 70,6 70,3 63,1 64,4 74,9 75,3

Com base nesses dados, obtenha os quartis Q1, Q2 e Q3.


Foi apresentada a seguinte solução:

Posição 1 2 3 4 5 6 7 8 9 10
Valor 72,2 80,1 70,4 67,8 70,9 72,1 75,1 73 59,4 77,2
Posição 11 12 13 14 15 16 17 18 19 20
Valor 65,1 66,5 64,1 79 70,6 70,3 63,1 64,4 74,9 75,3

1 20 1 1
Posição Q2 10,5 Q2 77,2 65,1 71,15
2 2 2

1 10,5 1 3
Posição(Q1) 5,75 Q1 70,9 72,1 71,8
2 4 4

10,5 20 3 1
Posição(Q3) 15,25 Q3 70,6 70,3 70,525
2 4 4
a) Algo está errado nessa solução. O que é?
b) Qual a solução correta?

P7.5) Preços de automóveis


A tabela de frequências a seguir se refere aos preços (em reais) pelos quais foram anunciados 2.695
automóveis para venda em um determinado site.

Faixa de preço Frequência


Até R$ 7.000 344
De R$ 7.001 a R$ 10.000 419
De R$ 10.001 a R$ 15.000 530
De R$ 15.001 a R$ 20.000 443
De R$ 20.001 a R$ 25.000 320
De R$ 25.001 a R$ 30.000 229
De R$ 30.001 a R$ 40.000 220
De R$ 40.001 a R$ 50.000 99
De R$ 50.001 a R$ 100.000 80
Acima de R$ 100.000 11
Média 22, 027
Mediana 12
Q1 6
Q3 20
DIQ 14

Se for utilizado o critério para identificação de observações discrepantes que se baseia em medidas re-
sistentes, teremos Cerca Superior Q3 1,5 DIQ 20 1,5 14 41 . Assim, seis das 37 observações
(16%) seriam apontadas como possíveis outliers, isto é, municípios onde haveria um número anormalmente
alto de hotéis: Teresópolis (44), Penedo (55), Petrópolis/arredores (58), Petrópolis (83), Nova Friburgo (84)
e Itatiaia (121).

Responda:
a) Por que a média resultou em um valor bem maior que a mediana nesse caso?
b) Por que tantos municípios teriam sido apontados pelo critério que identifica outliers?

21 P7.11) Déficit habitacional no Estado do Rio de Janeiro


A tabela a seguir contém o número de domicílios rústicos em alguns municípios do Estado do Rio de
Janeiro no ano 2000.

Número de domicílios rústicos no RJ – 2000

Angra dos Reis 572 Miracema 216


Araruama 117 Niterói 914
Barra do Piraí 741 Nova Friburgo 295
Barra Mansa 250 Nova Iguaçu 457
Belford Roxo 339 Petrópolis 1.839
Cabo Frio 566 Queimados 81
Campos dos Goytacazes 1.119 Resende 66
Duque de Caxias 556 Rio das Ostras 123
Guapimirim 51 Sto. Antônio de Pádua 88
Itaboraí 132 São Gonçalo 394
Itaguaí 70 São João de Meriti 103
Itaperuna 74 São Pedro da Aldeia 77
Japeri 122 Saquarema 289
Macaé 143 Seropédica 159
Magé 567 Teresópolis 329
Maricá 64 Valença 229
Fonte: Fundação João Pinheiro (FJP), Centro de Estatística e Informações (CEI)

a. Determine os quartis.
b. Obtenha um gráfico box plot para esses dados.
c. Seria o gráfico ramo-folha adequado para representar estes dados? Por quê?

281

book.indb 281 07/08/2012 09:54:31


MÈdia: 22; 30 Mediana: 22; 00
Moda: 22; 00 1o Quartil: 20; 00
Sexo Masculino:
3o Quartil: 25; 00 Vari‚ncia: 7; 51
MÌnimo: 17; 00 M·ximo: 26; 00

MÈdia: 20; 88 Mediana: 21; 00


Moda: 22; 00 1o Quartil: 19; 00
Sexo Feminino:
3o Quartil: 23; 00 Vari‚ncia: 11; 93
MÌnimo: 10; 00 M·ximo: 28; 00

(a) Qual dos grupos (masculino ou feminino) evidencia desempenho mais


heterogÍneo? JustiÖque com base a uma medida estatÌstica apropriada.
(b) H· evidÍncia de dados discrepantes (outliers) no grupo masculino? Jus-
tiÖque.
(c) H· evidÍncia de dados discrepantes (outliers) no grupo feminino? Jus-
tiÖque.
(d) Analise a assimetria da distribuiÁ„o dos escores do grupo masculino.
(e) Analise a assimetria da distribuiÁ„o dos escores do grupo feminino.

22
ExercÌcio 2 Houve uma den˙ncia por parte dos oper·rios de uma ind˙stria de que,
toda vez que ocorreria um acidente em uma seÁ„o da ind˙stria, ocorreriam outros em
outras seÁıes mais ou menos no mesmo hor·rio. Em outras palavras, os acidentes
n„o estavam ocorrendo ao acaso. Para veriÖcar esta hipÛtese, foi feita uma contagem
do n˙mero de acidentes por hora durante um certo n˙mero de dias (24 horas por
dia). Os resultados da pesquisa est„o abaixo:

N˙mero de Acidentes por Hora 0 1 2 3 4 5 6 7 8


N˙mero de Horas 200 152 60 30 13 9 7 5 4

(a) Qual o n˙mero mÈdio de acidentes por hora?


(b) E o n˙mero mediano?
(c) Qual È a moda?
(d) Qual È o desvio-padr„o?
(e) Avalie os dados quanto ‡ assimetria.
(f) Avalie os dados quanto ‡ curtose.

3 CoeÖciente de CorrelaÁ„o
Vimos anteriormente que o diagrama de dispers„o (scatterplot) È usado quando
desejamos avaliar a relaÁ„o entre duas vari·veis. A visualizaÁ„o È um primeiro passo
para um entendimento dessa possÌvel ináuÍncia de uma vari·vel sobre outra, mas
h· que se medir a correlaÁ„o entre elas. O coeÖciente de correlaÁ„o (r) È a
medida comumente utilizada para se avaliar a correlaÁ„o linear entre duas vari·veis
quantitativas.

5
INF 162 Prof. Luiz Alexandre Peternelli

(d) Usando a distribuição de frequência conforme obtido em a calcule a média


novamente. Para tal, considere os pontos médios de cada classe (média entre os
dois limites de cada classe) para serem os valores da variável no cálculo da média.
(e) Obtenha a variância para os dados originais conforme feito para a média em c.
(f) Obtenha a variância a partir da distribuição de frequência conforme feito para a
média no ítem d.
obs.: use 7 intervalos de classe. Amplitude da classe igual a 0,5. E o início do
intervalo mais baixo em 1,5.
(∑ f i x i ) 2

27
2
5) Mostre que ∑ f i ( xi − x ) = ∑ f i xi2 − i
i ∑ fi
i
6) Mostre que a soma de quadrados dos desvios (SQD) em relação à média é um
mínimo. Dica: Considere f(a) a função que representa a SQD em relação a a. Ou
n
seja, f (a ) = ∑ ( xi − a ) 2 . Usando seus conhecimentos de cálculo, mostre que f(a)
i =1

28
será mínimo quando a for igual a média dos valores de X.
7) Calcule a média, mediana, e amplitude total dos valores dispostos no seguinte
diagrama de ramos e folhas
6 05589
7 244578
8 2335789
9 0014457
10 0 2 7 8
11 0 2 4 5
12 2 4 5

24
INF 162 Prof. Luiz Alexandre Peternelli

UNIVERSIDADE FEDERAL DE VIÇOSA


--Departamento de Informática / CCE
INF 161 - Iniciação à Estatística / INF 162 – Estatística I
Lista de Exercícios: Estatística Descritiva

29 Cão
1) Os dados abaixo se referem a medidas tomadas em uma amostra de 10 cães:

1 2 3 4 5 6 7 8 9 10

Peso (kg) 23,0 22,7 21,2 21,5 17,0 28,4 19,0 14,5 19,0 19,5
Comprimento (cm) 104 105 103 105 100 104 100 91 102 99

Pede-se, para as características avaliadas, peso e comprimento, as estatísticas:


a) Média;
b) Variância;
c) Desvio-padrão;
d) Erro-padrão da média;
e) Coeficiente de variação;
f) Qual das duas características é a mais homogênea;
g) Mediana;
h) Moda.

30 2) Um pesquisador dispõe das seguintes informações, a respeito dos valores de uma


amostra:
- a média de todos os valores é igual a 50,34;
- a soma dos quadrados dos valores é igual a 150.000;
- a amostra é constituída de 52 valores distintos.
Pergunta-se:
Com essas informações é possível obter alguma(s) medida(s) de dispersão dos
valores amostrais? Em caso afirmativo, efetue os cálculos e obtenha a(s) respectiva(s)
medida(s).

3) Considere os dados: 12, 17, 17, 17, 10, 10, 9, 9, 9, 12, 12, 6, 6, 6, 17, 17, 12, 12, 9, 9,
9, 12, 12, 12, 12. Supondo que sejam valores assumidos por uma variável aleatória
discreta X, pede-se:
a) Média, mediana e moda;
b) Erro-padrão da média e C.V.(%).

25
INF 162 Prof. Luiz Alexandre Peternelli

31
4) Duas turmas A e B com n A = 50 e n B = 80 apresentaram médias X A = 65 e X B = 70
e variâncias s2A = 225 e s2B = 235 . Qual é a turma mais homogênea?

32
5) A média de aprovação na disciplina de Estatística é 6 ou mais. Durante um período
letivo foram realizadas quatro provas, sendo que a primeira prova teve peso dois, a
segunda e a terceira o dobro do peso da primeira e a última igual ao peso da primeira.
Os resultados, incluindo os de uma prova de substituição optativa, foram os seguintes:

Estudantes 1a 2a 3a 4a Optativa
1 2,5 4,5 5,0 6,0 7,0
2 2,0 8,5 7,0 3,0 5,0
3 8,5 10,0 9,0 8,5 nc
4 3,5 5,5 8,5 7,5 6,5
5 3,0 5,0 6,0 4,5 5,0
6 6,0 3,0 4,0 5,0 2,0
7 8,0 1,5 2,0 9,0 5,0
8 1,5 2,0 1,0 2,5 nc
9 7,5 8,0 8,5 10,0 nc
10 5,5 4,5 5,0 4,5 2,5

Sabendo-se que a nota da prova optativa substitui a menor nota das provas
precedentes, determine:
a) Média de cada estudante;
b) Para cada prova: média, moda, mediana, variância, desvio-padrão, erro-padrão da
média e CV.
c) Para o período: média, variância, desvio-padrão, erro-padrão da média, CV.
d) Liste as provas em ordem crescente de homogeneidade.

26
Exercícios
Estatística Descritiva

33 O conjunto de dados fornecido apresenta características de 22 pacientes com cisto no pâncreas:

Localização do
tamanho do cisto no
paciente sexo idade cisto (cm) pâncreas
1 F 49 6 cabeça
2 F 61 10 cabeça
3 M 34 8,2 cauda
4 F 73 3 colo
5 M 47 3,6 cabeça
6 M 58 10 colo
7 M 43 1 cabeça
8 M 71 1 cabeça
9 M 32 7 cauda
10 M 56 1 cabeça
11 M 61 6,6 corpo
12 F 49 4 cabeça
13 M 80 3,1 cauda
14 M 72 2,3 cabeça
15 M 47 10,5 cabeça
16 F 48 6,5 corpo
17 F 37 13 corpo
18 M 71 1 colo
19 M 74 7 cabeça
20 F 21 12 corpo
21 F 45 8,5 corpo
22 M 38 10 colo
Pede-se:
1 – Construa uma tabela e um gráfico de distribuição de freqüências para a localização do cisto no pâncreas dos pacientes;
2 – Construa uma tabela e um gráfico de distribuição de freqüências conjuntas para as variáveis sexo e localização do cisto no
pâncreas. Com base na tabela e gráfico obtidos, você suspeita que exista relação entre o sexo e a localização do cisto?
3 – Construa uma tabela e um gráfico de distribuição de freqüências para os tamanhos dos cistos;
4 – São fornecidos gráficos dos tamanhos dos cistos segundo o sexo dos pacientes e suas localizações no pâncreas. Interprete os
gráficos apresentados.
5 – Construa um gráfico que permita avaliar a relação entre a idade do paciente e o tamanho do cisto. Comente o resultado.
6 – Calcule as medidas de posição e dispersão estudadas para os tamanhos dos cistos. Depois, calcule-as novamente, para cada sexo.
Você suspeita que exista relação entre o tamanho dos cistos e o sexo dos pacientes?

Box-plots – gráficos geralmente utilizados no estudo da distribuição dos valores de uma variável quantitativa para diferentes

resultados de uma variável qualitativa.

Representação:

! Uma caixa, delimitada inferiormente pelo 1º quartil* (Q1) e superiormente pelo 3º quartil* (Q3), e segmentada em duas partes
pela mediana (Med).
! A partir da extremidade superior da caixa, estende-se uma linha até o valor adjacente superior (VAS), valor da maior
observação que esteja a uma distância inferior a uma vez e meia o tamanho da caixa (1,5*(Q3-Q1)) de Q3.
! O mesmo procedimento é adotado abaixo de Q1, tomando como valor adjacente inferior (VAI) a menor observação que esteja
a uma distância inferior a uma vez e meia o tamanho da caixa.
! As observações afastadas da caixa por mais de 1,5*(Q3-Q1) são representadas por pontos e consideradas pontos discrepantes.
1ª lista de exercícios

34 1. Os dados apresentados na tabela a seguir constituem uma amostra obtida num estudo sobre incidência de problemas no cotovelo entre
jogadores de tênis.
Tabela - Dados de 20 membros de diversos clubes de tênis de Boston, EUA, que
tiveram problema no cotovelo pelo menos uma vez. 1993.
No de vezes Tamanho+ Peso++ Material- Material--
Membro Idade Sexo** que teve o da da da armação do trançado
(anos) problema raquete* raquete* da raquete* da raquete*
1 53 M 3 C L A C
2 57 M 3 M M AL N
3 43 M 1 C M G N
4 35 F 2 C L FV C
5 43 M 2 C L AL C
6 31 M 1 C L G C
7 36 M 1 C M M C
8 36 F 1 M L AL C
9 33 F 1 C M M N
10 55 M 1 G L AL N
11 35 F 1 M L AL C
12 44 F 3 C L AL N
13 45 F 8 C L FV N
14 47 F 2 M L O N
15 40 F 1 C L AL C
16 41 F 1 C L M N
17 40 F 8 C L O C
18 40 F 3 M L AL N
19 47 F 1 C L M N
20 55 M 8 C M AL N
Fonte: Rosner, B. Fundamentals of biostatistics. 4.ed. Duxbury Press, 1995. 682p. (Adaptação).
* Raquete usada correntemente. -M = Madeira.
AL = Alumínio.
+
C = Convencional. FV = Fibra de vidro.
M = Médio. G = Grafite.
G = Grande. A = Aço.
C= Composto.
++
L = Leve. O = Outros.
M = Médio.
--
P = Pesado. N = Nylon.
C= Corda.
a) Classifique as variáveis observadas em qualitativas (nominais ou ordinais) ou quantitativas (discretas ou contínuas);
b) Construa uma tabela de distribuição de freqüências para os tamanhos das raquetes utilizadas.
c) Represente a tabela obtida no item ‘b’ por meio de um gráfico de colunas e de um gráfico de setores;

2. Para determinar as preferências de consumo na refeição principal, foi elaborado um estudo em indivíduos de ambos os sexos na cidade de
Itajubá. A tabela seguinte resume os resultados obtidos:

Tipo de refeição
Sexo
Saladas Carnes Massas
Masculino 12 41 27
Feminino 35 15 30

a) Construa uma tabela com as freqüências relativas para cada sexo;


b) Represente os dados através de um gráfico de colunas;
c) Com base nos resultados obtidos nos itens anteriores, compare as preferências de consumo de homens e mulheres.

3. A taxa de mortalidade infantil corresponde ao número médio de mortes, dentre 1000 crianças nascidas vivas, antes de completarem um
ano de vida. Os dados abaixo representam a Taxa de mortalidade infantil dos municípios da Microrregião Oeste Catarinense (1982) e
foram extraídos da publicação Municípios Catarinenses - Dados Básicos, 1987, GAPLAN - SC, que utiliza dados levantados pelo IBGE.

32,3 62,2 10,3 22,0 13,1 9,9 18,3 33,0 20,0 22,7 27,2 11,9
36,4 23,5 18,0 22,6 20,3 38,3 32,9 29,9 29,7 39,2 25,4 19,6
28,9 18,4 27,3 21,7 23,7 13,9 23,8 15,7 17,0 36,3

a) Agrupe convenientemente esses dados em classes e apresente a tabela de distribuição de freqüências.


b) Construa o histograma e o polígono de freqüências.
c) Calcule as medidas de posição e dispersão vistas em aula para as taxas de mortalidade.

35 4. Em uma investigação dos fatores de risco para as doenças cardiovasculares, os níveis séricos de cotinina (produto metabólico da nicotina)
foram registrados para um grupo de fumantes e um grupo de não fumantes, As distribuições de freqüências correspondentes são
mostradas abaixo.
Nível de cotinina
Fumantes Não fumantes
(mg/ml)
0-13 78 3300
14-49 133 72
50-99 142 23
100-149 206 15
150-199 197 7
200-249 220 8
250-259 151 9
300-399 412 11
Total 1539 3445

a) É correto comparar as distribuições dos níveis de cotinina para fumantes e não fumantes, com base nas freqüências absolutas em cada
intervalo? Por que?
b) Caso sua resposta para o item “a” seja negativa, construa uma nova tabela, em que as distribuições dos níveis de cotinina para fumantes e
não fumantes possam ser comparadas.
c) Construa um gráfico com os polígono de freqüências para fumantes e não fumantes.
d) Com base nos resultados obtidos nos itens “b” e “c”, o que você pode dizer sobre a distribuição dos níveis de cotinina registrados para
cada grupo?
e) Para todos os indivíduos nesse estudo, o status do fumo é auto-registrado. Você acha que algum dos indivíduos pode estar mal
classificado? Por que?

36 5. Em uma pesquisa sobre a concentração de minerais no leite materno, foram coletados no período de 1984 a 1985, dados de 55 mães do
Hospital Maternidade Odete Valadares em Belo Horizonte. As mães foram divididas em dois grupos, segundo o período de lactação:
colostro e leite maduro.Os minerais considerados foram cálcio, cobre, magnésio e zinco. Os dados a seguir referem-se ao cálcio e ao
zinco.

Cálcio ( µ g / mL de leite) – Grupo colostro


113 145 163 163 167 181 221 225 231 241
254 256 275 296 303 311 312 313 323 325
334 344 372 375 437
Cálcio ( µ g / mL de leite) – Grupo maduro
159 175 181 188 200 206 213 214 217 231
238 238 242 244 256 259 260 263 264 275
277 279 281 293 303 314 344 394
Zinco ( µ g / mL de leite) – Grupo colostro
1,07 1,20 1,30 3,13 3,20 3,70 4,40 4,57 5,20 5,82
6,07 6,13 6,50 6,82 6,82 6,90 7,23 7,42 7,43 7,43
7,45 8,25 8,40 8,77 9,54
Zinco ( µ g / mL de leite) – Grupo maduro
0,52 0,60 0,78 0,86 1,08 1,23 1,28 1,31 1,40 1,55
1,55 1,60 1,92 2,15 2,27 2,40 2,41 2,52 2,57 2,60
2,63 2,92 3,02 3,05 3,57 3,88 5,50 7,38

Para as concentrações de cálcio e zinco em cada grupo:


a) Calcule medidas de tendência central e de variabilidade, o coeficiente de variação e os quartis. Apresente essas estatísticas em uma tabela
contendo inclusive o título. Comente os resultados.
b) Construa boxplots e verifique a existência de outliers.
c) Com base nos resultados dos itens anteriores, compare as concentrações dos minerais nos dois grupos.

Exercícios de Bioestatística

1- O nível de colesterol no sangue é uma variável com distribuição Normal, de média µ desconhecida e desvio padrão σ = 60mg / 100ml .
a) Qual deve ser o valor de n para que apenas 10% das médias amostrais excedam a média populacional em 10 unidades ou mais?
b) Teste a hipótese de que µ = 260 , contra a alternativa de que µ > 260 com base numa amostra de 50 pacientes, em que se observou uma média
amostral x = 268 . Utilize um nível de significância de 5%.
c) Construa um intervalo com 95% de confiança (bilateral) para o nível médio populacional de colesterol.
d) Qual deve ser o tamanho amostral para que um intervalo de 99% de confiança para µ tenha um comprimento de 30 unidades?

2- A fim de acelerar o tempo que um analgésico leva para penetrar na corrente sangüínea, um químico analista acrescentou certo componente à fórmula
original, que acusava um tempo médio de 43 minutos. Em 36 observações com a nova fórmula, obteve-se um tempo médio de 42 minutos, com desvio
padrão de 6 minutos.
a) O que podemos concluir, ao nível de 5% de significância, sobre a eficiência do novo componente?
b) Qual seria a resposta ao nível de 1%?
c) Que tipo de erro pode ser cometido?
d) Estime o tempo médio que o analgésico leva para penetrar na corrente sanguínea com um nível de 95% de confiança.

3- Entre milhares de casos de pneumonia não tratada com sulfa, a porcentagem que desenvolveu complicações foi de 10%. Com o intuito de saber se o
emprego da sulfa diminuiria essa porcentagem, 120 casos de pneumonia foram tratados com sulfapiridina e destes, 6 apresentaram complicações.
74 74
74 − 74 −
Logo, s2 = 5 = 5 = 14,8
5−1 4
a) O que está errado nesse cálculo?
b) Qual a solução correta?

P7.2) Combinando duas amostras


Foram coletados os dados relativos a uma determinada variável para duas amostras distintas. Apresen-
tam-se a seguir, para cada uma delas, os resultados obtidos quanto a: tamanho da amostra, média e desvio
padrão.

Amostra No de Obs. Média Desvio Padrão


1 5 7,4 6,309
2 4 11,5 9,983

a) Considerando agora a amostra combinada, ou seja, a amostra composta por todas as nove observa-
ções, qual o valor da sua média?
b) Qual o seu desvio padrão?

P7.3) Atualização da mediana


Temos um conjunto de dados com 11 observações já devidamente ordenadas:
x (1) < x (2) < x (3) < ... < x (11).

Quais das seguintes afirmações estão corretas e quais estão erradas? Por quê?
a) A mediana desses dados é Q2 x 6 .
b) Suponha que foi eliminada desse conjunto de dados original a maior observação x(11). Então a nova
1
mediana é agora x 1 x 10 .
2
c) Suponha que foi adicionada ao conjunto de dados original mais uma observação, de modo que ele
passou a ter 12 observações. Então a diferença entre o maior valor possível da nova mediana e o
1
menor valor possível da nova mediana é x7 x5 .
2
277

k.indb 277 07/08/2012 0

Anda mungkin juga menyukai