c) Classe de renda dos operrios do bairro B (baixa, mdia, alta). d) Raa dos bovinos da estncia E (holands, nelore, zebu). Obs. As variveis qualitativas so classificadas em ordinais e nominais. Variveis qualitativas ordinais: quando houver um sentido de ordenao em seus possveis valores, como nas variveis citadas nos itens a e c. Variveis qualitativas nominais: quando no houver sentido de ordenao, em seus valores, como nas variveis citadas nos itens b e d. Variveis Bidimensionais ou multidimensionais Em problemas prticos, pode-se ter interesse em estudar, simultaneamente, dois ou mais atributos quantitativos e/ou qualitativos. Exemplo: Visando planejar uma dieta alimentar padro para os funcionrios de certa empresa, um nutricionista anotou o peso e a altura de 10 deles. Tomando X e Y para descrever, respectivamente, as variveis quantitativas contnuas peso em kg e altura em cm, temos a varivel bidimensional (X, Y) e um conjunto de pares ordenados (xi, yi). Por exemplo: (X, Y) = {(65, 175), (82, 181), ... , (70, 172)}. Note que o nutricionista poderia ter julgado relevante tomar a idade Z dos funcionrios. Neste caso, teramos uma varivel tridimensional (X, Y, Z) descrita por ternas ordenadas (xi, yi, zi). Poderia-se incluir, tambm, a varivel sexo (qualitativa).
Nota a informao de natureza geral, que tem por objetivo conceituar ou esclarecer o contedo apresentado nas tabelas, ou indicar a metodologia utilizada para o levantamento e elaborao dos dados.
Exemplo: PRODUO DE CAF BRASIL (1978/82) ANOS PRODUO (1000 t) 1978 2 535 1979 2 666 1980 2 122 1981 3 750 1982 2 007 FONTE: IBGE
1.3.2 Grficos
O grfico uma forma de apresentao dos dados, cujo objetivo o de produzir, no investigador ou no pblico em geral, uma impresso mais rpida e viva do fenmeno em estudo. A representao grfica de um fenmeno deve obedecer a certos requisitos fundamentais. a) Simplicidade: o grfico deve ser destitudo de detalhes de importncia secundria. b) Clareza: o grfico deve possibilitar uma correta interpretao dos valores representativos do fenmeno em estudo. c) Veracidade: o grfico deve expressar a verdade sobre o fenmeno em estudo.
a representao de uma tabela por meio de retngulos dispostos verticalmente (em colunas) ou horizontalmente (em barras). Exemplo: Para a varivel n de defeitos por unidade, cujos valores so dados na tabela abaixo, obtm-se um grfico de colunas da seguinte forma. Xi 0 1 2 3 4 5 Total Frequncia 4 7 5 2 1 1 20
Frequncia
N de defeitos
Este grfico geralmente empregado quando queremos representar, simultaneamente, dois ou mais fenmenos estudados com o propsito de comparao.
Exemplo: BALANA COMERCIAL BRASIL 1984/88 ESPECIFICAO VALOR (US$ 1.000.000) 1984 1985 1986 1987 Exportao 27 005 25 639 22 348 26 224 Importao 13 916 13 153 14 044 15 052
FONTE: Ministrio da Economia
BALANA COMERCIAL - BRASIL (1984-88) 40000 35000 30000 US$ Milhes 25000 20000 15000 10000 5000 0
Exportao Importao
1984
1985
1986
1987
1988
Grfico em linhas
Sua construo requer a representao da varivel tempo no eixo das abcissas (horizontal) e a frequncia no eixo das ordenadas (vertical). Utiliza-se, geralmente, para estudos de sries temporais (cronolgica). Seus objetivos so: em primeiro lugar descrever o comportamento passado desses dados e em segundo lugar analisar este comportamento. Exemplo:
PRODUO DE VECULOS DE AUTOPROPULSO BRASIL / 1984-1989 ANOS 1984 1985 1986 1987 1988 1989
FONTE: ANFAVEA
PRODUO DE VECULOS DE
AUTOPROPULSO - BRASIL (1984-89)
1200 1000 800 Mil unidades 600 400 200 0
1984
1985
1986 Anos
1987
1988
1989
Grfico em setores
Este grfico construdo com base em um crculo, e empregado sempre que desejamos ressaltar a participao do dado no total. O total representado pelo crculo, que fica dividido em tantos setores quantas so as partes. Os setores so tais que suas reas so, respectivamente, proporcionais aos dados da tabela. Obtemos cada setor por meio de uma regra de trs simples e direta, lembrando que o total da tabela corresponde a 360.
temos:
x1 = 248
Com estes dados (valores em graus), marcamos num crculo de raio arbitrrio, com um transferidor, os arcos correspondentes, obtendo o grfico:
Rebanhos Brasileiros-1988
10% 16%
Obs: 1. O grfico em setores s deve ser empregado quando h, no mximo, sete classificaes. 2. Se a tabela j apresenta os dados em porcentagem, obtemos os respectivos valores em graus multiplicando o valor percentual por 3,6.
Amostra Considerando-se a impossibilidade, na maioria das vezes, do tratamento de todos os elementos da populao, retira-se uma amostra. Portanto, amostra um subconjunto da populao. Os procedimentos para a representao das distribuies de frequncias so dados a seguir. 1. Dados brutos. O conjunto dos dados numricos obtidos aps a crtica dos valores coletados constitui-se nos dados brutos. 2. Rol. o arranjo dos dados brutos em ordem de frequncia crescente ou decrescente. 3. Amplitude total ou range (R). a diferena entre o maior e o menor valor observado. 4. Frequncia absoluta (fi). o nmero de vezes que o elemento aparece na amostra, ou o nmero de elementos pertencentes a uma classe. 5. Distribuio de frequncia. o arranjo dos valores e suas respectivas frequncias. 6. Nmero de classes (K). No h uma frmula exata para o clculo do nmero de classes. So dadas duas solues. a) K = 5 para n 25 e K n , para n > 25; b) Frmula de Sturges K 1 + 3,22 log n .
7. Amplitude das classes (h). h R K Assim como no caso do nmero de classes (K), a amplitude das classes (h) deve ser aproximada para o maior inteiro. 8. Limites das classes. Existem diversas maneiras de expressar os limites das classes. a) a | b, a classe compreende valores de a, inclusive, at b, exclusive. b) a | b, a classe compreende valores de a, exclusive, at b, inclusive. c) a b, a classe compreende valores de a, exclusive, at b, exclusive. d) a || b, a classe compreende valores de a, inclusive, at b, inclusive. 9. Ponto mdio das classes (xi). a mdia aritmtica entre o limite superior e o limite inferior da classe. 10. Frequncia absoluta acumulada (Fac). a soma das frequncias dos valores inferiores ou iguais ao valor dado. 11. Frequncia relativa (ri). dada por ri =
fi . n
12. Frequncia relativa acumulada (Ri). o quociente entre a frequncia acumulada da classe e o total de elementos, Ri =
Fac . n
13. Histograma. a representao grfica de uma distribuio de frequncias por meios de retngulos justapostos. 14. Polgono de frequncias. Unindo por linhas retas os pontos mdios das bases superiores dos retngulos do histograma, obtm-se outra representao dos dados, denominado polgono de frequncias.
Exemplo: Dado o rol de 50 notas, formar uma distribuio de frequncias e construir o histograma.
33 50 61 69 80 Soluo: Amplitude total (R): R = 97 33 = 64; Nmero de classes (K): K 1 + 3,22 log 50 1 + 3,22(1,7) 7 ; Amplitude das classes (h): h = 35 52 64 71 81 35 53 65 73 84 39 54 65 73 85 41 55 65 74 85 41 55 66 74 88 42 57 66 76 89 45 59 66 77 91 47 60 67 77 94 48 60 68 78 97
fi 4 6 8 13 9 7 3 50
Fac 4 10 18 31 40 47 50 -
xi 35 45 55 65 75 85 95 -
30
40
50
60 Notas
70
80
90
100
10
Vamos construir o ramo e folhas dos salrios dos 36 empregados. Assim, para os salrios 4,00 e 4,56, o 4 o ramo e 00 e 56 so as folhas. 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 21 22 23 30 00 25 26 39 12 13 53 06 00 23 69 99 22 26 75 40 61 56 73 66 44 46 35 76 59 79 60 71 85 86 59 74 77 95 80
Algumas informaes que se obtm deste ramo e folhas so: a) H um destaque para o valor 23,30; b) Os demais valores esto razoavelmente concentrados entre 4,00 e 19,40; c) Um valor mais ou menos tpico para este conjunto de dados poderia ser, por exemplo, 10,00; d) H uma leve assimetria em direo aos valores grandes.
11
LISTA DE EXERCCIOS N 1
Utilizando os dados da tabela 1.
1. Classifique as variveis Estado civil, Grau de instruo, N de filhos, Salrio, Idade e Regio de procedncia, quanto aos tipos de variveis. 2. Faa uma tabela de distribuio de frequncias e um grfico de setores para a varivel grau de instruo. Comente os resultados. 3. Faa uma tabela de distribuio de frequncias e o histograma para as variveis salrio e idade (uma tabela e o grfico para cada varivel). Comente os resultados. 4. Repita o exerccio 2 para a varivel regio de procedncia, utilizando um outro tipo de grfico para representar esta varivel. 5. As taxas mdias geomtricas de incremento anual (por 100 habitantes) dos 30 maiores municpios do Brasil esto abaixo. 3,67 1,28 3,96 2,93 7,77 2,78 1,82 8,14 6,54 2,82 4,65 5,54 3,73 2,43 5,84 8,45 1,88 0,90 4,10 4,17 7,35 5,28 2,12 5,09 4,30 5,36 3,63 5,41 4,26 4,07
12
Tabela 1. Informaes sobre estado civil, grau de instruo, salrio, idade e procedncia de 36 funcionrios da Companhia Milsa. N Estado Grau de N de Salrio Idade Regio de civil instruo Filhos (X sal. Min.) anos meses procedncia 1 solteiro 1 grau --4,00 26 03 Interior 2 casado 1 grau 1 4,56 32 10 Capital 3 casado 1 grau 2 5,25 36 05 Capital 4 solteiro 2 grau --5,73 20 10 Outro 5 solteiro 1 grau --6,26 40 07 Outro 6 casado 1 grau 0 6,66 28 00 Interior 7 solteiro 1 grau --6,86 41 00 Interior 8 solteiro 1 grau --7,39 43 04 Capital 9 casado 2 grau 1 7,59 34 10 Capital 10 solteiro 2 grau --7,44 23 06 Outro 11 casado 2 grau 2 8,12 33 06 Interior 12 solteiro 1 grau --8,46 27 11 Capital 13 solteiro 2 grau --8,74 37 05 Outro 14 casado 1 grau 3 8,95 44 02 Outro 15 casado 2 grau 0 9,13 30 05 Interior 16 solteiro 2 grau --9,35 38 08 Outro 17 casado 2 grau 1 9,77 31 07 Capital 18 casado 1 grau 2 9,80 39 07 Outro 19 solteiro superior --10,53 25 08 Interior 20 solteiro 2 grau --10,76 37 04 Interior 21 casado 2 grau 1 11,06 30 09 Outro 22 solteiro 2 grau --11,59 34 02 Capital 23 solteiro 1 grau --12,00 41 00 Outro 24 casado superior 0 12,79 26 01 Outro 25 casado 2 grau 2 13,23 32 05 Interior 26 casado 2 grau 2 13,60 35 00 Outro 27 solteiro 1 grau --13,85 46 07 Outro 28 casado 2 grau 0 14,69 29 08 Interior 29 casado 2 grau 5 14,71 40 06 Interior 30 casado 2 grau 2 15,99 35 10 Capital 31 solteiro superior --16,22 31 05 Outro 32 casado 2 grau 1 16,61 36 04 Interior 33 casado superior 3 17,26 43 07 Capital 34 solteiro superior --18,75 33 07 Capital 35 casado 2 grau 2 19,40 48 11 Capital 36 casado superior 3 23,30 42 02 Interior FONTE: Bussab, W. O.; Morettin, P. A. Estatstica bsica , 2002.
13
x=
x
i =1
x=
x
i =1
3 + 7 + 8 + 10 + 12 40 = =8. 5 5
x=
Exemplos:
xi fi
i =1
, onde n = f i .
i =1
Um dispositivo prtico para esse clculo a composio da seguinte tabela. xi 1 2 3 4 Total fi 1 3 5 1 10 xifi 1 6 15 4 26
14
Ento, x=
x f
i =1
i i
26 = 2,6 . 10
b) Determinar a renda mdia da distribuio. Renda Familiar (Salrio Mnimo) 2 | 4 4 | 6 6 | 8 8 | 10 10 | 12 Nmero de famlias 5 10 14 8 3
Neste caso, as classes so representadas pelos seus pontos mdios. Renda Familiar (Salrio Mnimo) 2 | 4 4 | 6 6 | 8 8 | 10 10 | 12 Total Nmero de Famlias (fi) 5 10 14 8 3 40 Ponto mdio xi 3 5 7 9 11 -
xifi 15 50 98 72 33 268
Ento, x=
x f
i =1
i i
268 = 6,7. 40
Portanto, podemos afirmar que a renda mdia deste grupo de 40 famlias de 6,7 salrios mnimos.
n .x n
i i =1 i i
15
1.6.4 Mediana
Colocados os valores em ordem crescente, mediana o elemento que ocupa a posio central. Indicando a mediana por Md e o nmero de observaes por n, dois casos devem ser considerados: n +1 . 1) Se n for mpar, a mediana ser o elemento de ordem 2 2) Se n for par, a mediana ser a mdia aritmtica entre os elementos centrais, de ordem n n e +1. 2 2
b) 10, 14, 15, 5, 7, 8. n= 6 (par), ento, colocados os valores em ordem, a mediana ser a mdia entre os elementos de n 6 n ordem = = 3 e + 1 = 4 . 2 2 2 Ordenando os valores temos: 5, 7, 8, 10, 14, 15. Logo, 8 + 10 Md = = 9. 2
16
2) Calcular a mediana para as seguintes distribuies. a) fi Fac xi 1 1 1 2 3 4 3 5 9 contm o 4 2 11 6 elemento Total 11 n + 1 11 + 1 = = 6. 2 2 Atravs da frequncia acumulada (Fac) encontra-se o valor xi correspondente mediana. n = 11, n mpar, logo a mediana ser o elemento de ordem Portanto, Md = 3. b) xi 82 85 87 89 90 Total fi 5 10 15 8 4 42 Fac 5 15 30 21 e 22 38 42 n 42 = = 21 e 2 2
n = 42, n par, logo a mediana ser a mdia entre os elementos de ordem n 87 + 87 + 1 = 22 , ou seja, Md = = 87. 2 2
n 2
f ).h , onde: f Md
f a soma das frequncias anteriores classe Md; fmd a frequncia absoluta da classe Md; h a amplitude da classe Md.
17
Exemplo: Determinar a mediana para a varivel renda familiar usada no exemplo b do item
1.6.2. Renda Familiar (Salrio Mnimo) 2 | 4 4 | 6 6 | 8 8 | 10 10 | 12 Total n 40 = = 20 ; 2 2 Nmero de Famlias (fi) 5 10 14 8 3 40 Fac 5 15 29 37 40 -
1 passo:
2 passo: pela frequncia acumulada identifica-se a classe que contm a mediana, ou seja, 6 | 8 a classe mediana. 3 passo: aplica-se a frmula: Md = lmd +
n 2
Portanto, 50% dos elementos esto abaixo de Md = 6,71, ou seja, 50% das famlias ganham menos que 6,71 salrios mnimos.
1.6.6 Moda
Moda (Mo) o valor que aparece mais vezes, isto , o valor ao qual esteja associada frequncia absoluta mais alta. Um conjunto pode no apresentar moda, sendo ento , denominado conjunto amodal, caso em que todos os valores da varivel ocorrem com a mesma intensidade. Por outro lado, podemos ter conjuntos plurimodais, quando houver mais de um valor predominante.
c) 1, 2, 2, 2, 3, 3, 4, 5, 5, 5, 6, 6 d) 1, 2, 3, 4, 5
Conjunto amodal.
18
1) Moda bruta
Uma idia aproximada da moda e muito til em problemas prticos a moda bruta, definida como o ponto mdio da classe modal.
Mo = l +
l
d1 h, d1 + d 2
onde:
d1 a diferena entre a frequncia da classe modal e a imediatamente anterior; d2 a diferena entre a frequncia da classe modal e a imediatamente posterior; h a amplitude da classe modal.
fi 5 10 14 8 3 40
Observa-se, ento, que para o conjunto de dados utilizado, obteve-se: Mdia = 6,7 Mediana = 6,71 Moda = 6,8
19
x = Md = Mo
Mo Md
x Md Mo
20
a) Escolha da mdia i) Quando necessrio o tratamento matemtico; Quando os dados tm distribuio aproximadamente simtrica; ii) iii) Quando for necessrio obter posteriormente outros parmetros que podem depender da mdia, como o desvio padro, a varincia, etc. b) Escolha da mediana i) Quando h valores discrepantes que podem distorcer a mdia; ii) Quando desejamos conhecer o ponto central exato da distribuio; iii) Quando a distribuio dos dados muito assimtrica. c) Escolha da moda i) Quando a medida de interesse o ponto mais tpico ou popular dos dados; ii) Quando precisamos apenas de uma rpida idia sobre a tendncia central dos dados.
1.6.8 Quartis Os quartis dividem um conjunto de dados em quatro partes iguais. Assim:
Q1 = 1 quartil, deixa 25% dos elementos abaixo. Q2 = 2 quartil, coincide com a mediana, deixa 50% dos elementos abaixo. Q3 = 3 quartil, deixa 75% dos elementos abaixo. As frmulas para a determinao dos quartis Q1 e Q3 so semelhantes usada para o clculo da mediana.
Determinao de Q1:
1 Passo: calcula-se n/4. 2 Passo: identifica-se a classe Q1 pela frequncia acumulada. 3 Passo: aplica-se a frmula:
Q1 = lQ1 +
( n4 f ).h .
f Q1
21
Determinao de Q3:
1 Passo: calcula-se 3n/4. 2 Passo: identifica-se a classe Q3 pela frequncia acumulada. 3 Passo: aplica-se a frmula:
Q3 = lQ3
( n f ).h . +
3 4
f Q3
Exemplo: Determinar os quartis (Q1 e Q3) para a distribuio usada no exemplo b do item 1.6.2.
Renda Familiar (Salrio Mnimo) 2 | 4 4 | 6 6 | 8 8 | 10 10 | 12 Total 1 Passo: n = 40; n 40 = = 10 (Q1); 4 4 3n 3(40) = = 30 (Q3); 4 4 Nmero de Famlias (fi) 5 10 14 8 3 40 Fac 5 15 (Q1) 29 37 (Q3) 40 -
2 Passo: pela frequncia acumulada identifica-se a classe Q1 e a classe Q3. 3 Passo: aplicam-se as frmulas:
Q1 = lQ1 +
f Q1
10
Q3 = lQ3 +
f Q3
Ento, 25% dos elementos esto abaixo de Q1 = 5, ou seja, 25% das famlias ganham menos que 5 salrios mnimos e 75% dos elementos esto abaixo de Q3 = 8,25, ou seja, 75% das famlias ganham menos que 8,25 salrios mnimos.
22
1.6.9 Decis
Os decis so valores que dividem um conjunto de dados em 10 partes iguais. O clculo dado por: in 1 Passo: calcula-se , onde i = 1, 2, 3, 4, 5, 6, 7, 8 e 9. 10 2 Passo: identifica-se a classe Di pela frequncia acumulada. 3 Passo: aplica-se a frmula:
Di = lDi +
1.6.10 Percentis
( in f ).h .
10
f Di
So medidas que dividem um conjunto de dados em 100 partes iguais. O clculo dado por: 1 Passo: calcula-se in , onde i = 1, 2, 3, ... , 98, 99. 100
Pi = lPi +
( in f ).h .
100
f Pi
Exemplo: determinar o decil 8 (D8) e o percentil 95 (P95) para a distribuio usada no exemplo
b do item 1.6.2. Renda Familiar (Salrio Mnimo) 2 | 4 4 | 6 6 | 8 8 | 10 10 | 12 Total 1 Passo: n = 40; in 8(40) = = 32 (D8); 10 10 in 95(40) = = 38 (P95); 100 100 Nmero de Famlias (fi) 5 10 14 8 3 40 Fac 5 15 29 37 40 -
2 Passo: pela frequncia acumulada identifica-se a classe D8 e a classe P95. 3 Passo: aplicam-se as frmulas:
23
D8 = lD8
( +
in 10
f ).h f D8
=8+
P95 = lP95 +
in 100
f ).h f p95
= 10 +
Portanto, 80% das famlias ganham menos que 8,75 salrios mnimos e 95% ganham menos que 10,67 salrios mnimos.
Obs. Md = Q2 = D5 = P50.
1.7.2 Varincia
A varincia pode ser definida como a soma dos quadrados dos desvios dividida pelo nmero de elementos da amostra menos 1 (n 1). Este valor chamado de graus de liberdade. obtida pela frmula: s2 = 1 n ( x i x )2 . n 1 i =1
1 2 s = x i n 1 i
2
( x )
i
24
x i2
4 16 25 36 64 145
( x f )
i i
Obs. s2 indica a varincia amostral. Se os dados so provenientes de uma populao, usase 2 para indicar a varincia e no lugar de n 1 usa-se n.
Exemplo. Determinar a varincia e o desvio padro para os dados da varivel renda familiar.
Renda Familiar (Salrio mnimo) 2 | 4 4 | 6 6 | 8 8 | 10 10 | 12 Nmero de famlias 5 10 14 8 3
25
Utilizando-se de uma tabela auxiliar, para os clculos, obtm-se Renda Familiar (Salrio mnimo) 2 | 4 4 | 6 6 | 8 8 | 10 10 | 12 Total Nmero de Famlias (fi) 5 10 14 8 3 40
xi
xi f i
xi2 f i
3 5 7 9 11 -
15 50 98 72 33 268
268 = 6,7 . 40
CV =
Sua vantagem caracterizar a disperso dos dados em termos relativos ao seu valor mdio. Assim, uma pequena disperso absoluta pode ser, na verdade, considervel quando comparada com a ordem de grandeza dos valores da varivel e vice-versa.
26
Exemplo: Considere amostras de dois grupos, referentes a idades de pessoas. Obtenha o coeficiente de variao.
Grupo A: 1, 3 e 5; Grupo B: 53, 55 e 57. Para o grupo A, tem-se que: x = 3 anos; s2 = 4 s = 2 anos; CV = s 2 (100) = (100) = 66,67 % . x 3
Um CV = 66,67 % indica uma disperso dos dados em relao mdia muito grande, ou seja, a disperso relativa alta. J um CV = 3,64 % indica que a disperso dos dados em relao mdia pequena.
Quando |As(P)| < 0,15, podemos considerar a distribuio como praticamente simtrica. Por outro lado, costuma-se considerar a assimetria como moderada se 0,15 < |As(P)| < 1, e forte se |As(P)| > 1.
27
Curtose: o coeficiente de curtose de uma distribuio fornece uma medida do achatamento da curva que a descreve.
Uma distribuio cuja curva tem a forma da curva 1, tem seu coeficiente de curtose C = 0,263 e dita mesocrtica. Se ela tem uma curva mais afilada, como a curva 2, ela dita leptocrtica e tem C < 0,263. Se a curva mais achatada, como a curva 3, ela dita platicrtica e tem coeficiente de curtose C > 0,263. Dentre os vrios coeficientes de curtose disponveis, tem-se o coeficiente de Keley, definido com base nas separatrizes: C(K ) = Q3 Q1 dQ = em que, 2(D9 D1 ) D9 D1
Q3 Q1 o desvio semi-quartil, uma medida de disperso que, em geral, pouco afetada 2 por valores extremos. dQ = Para a varivel renda familiar, utilizada anteriormente, temos C(K ) = Q3 Q1 8,25 5 = = 0,264 . 2(D9 D1 ) 2(9,75 3,6 )
Portanto, a curva que descreve os dados tem uma tendncia para a forma platicrtica (C > 0,263). Lembrando que esta distribuio praticamente simtrica.
28
Ttulo Md Q1 l Q3 L
Q3 + 2dQ L
Q3 Md Q1
l Q1 - 2dQ
Regio de Alerta
Obs. As linhas tracejadas seguem, abaixo e acima da caixa, at encontrar l ou L, tendo como limites Q1 - 2dQ e Q3 + 2dQ, respectivamente.
O grfico box plot mostra, a posio, a disperso, a (as)simetria, o comprimento das caudas (distribuio) e outliers (pontos discrepantes). A posio resumida pela mediana, a faixa no interior da caixa. O comprimento da caixa mostra a dQ (desvio semi-quartil). Das posies da mediana e dos quartis vemos a (as) simetria. O box plot especialmente til para comparao de vrios grupos de dados.
Estatstica Prof. Wilson Alves de Oliveira
29
Exemplo: Considere os dados referentes a comprimentos (mm) das asas de 40 insetos de certo experimento. Construir o resumo de cinco nmeros e o grfico de caixa.
6,0 4,1 4,1 2,6 2,3 2,2 4,1 3,5 4,3 4,2 6,0 6,0 8,5 4,6 2,5 5,8 3,9 7,7 13,8 4,4 5,3 5,0 7,2 4,4 6,0 6,9 6,0 3,5 4,1 3,0 7,1 4,3 11,3 6,5 5,0 3,8 3,8 4,9 8,3 4,1
Como vamos utilizar as separatrizes, de grande auxlio, a ordenao dos dados. Ento, fazendo o rol temos: 2,2 4,1 4,6 6,0 2,3 4,1 4,9 6,5 2,5 4,1 5,0 6,9 2,6 4,1 5,0 7,1 3,0 4,1 5,3 7,2 3,5 4,2 5,8 7,7 3,5 4,3 6,0 8,3 3,8 4,3 6,0 8,5 3,8 4,4 6,0 11,3 3,9 4,4 6,0 13,8
n 40 = = 20 e 2 2
n + 1 = 20 + 1 = 21 . 2
Clculo do Q1: o 1 quartil (dados no agrupados) a mdia aritmtica dos elementos de ordem
n 40 = = 10 e 4 4 Portanto, Q1 = 3,9 + 4,1 = 4,0 mm 2 n + 1 = 10 + 1 = 11 . 4
De modo anlogo, Q3 a mdia dos elementos de ordem 3n 3(40) = = 30 e 4 4 Portanto, Q3 = 6,0 + 6,0 = 6,0 mm . 2 3n + 1 = 30 + 1 = 31 . 4
30
4,5 4,0 2,2 e o desvio semi-quartil (dQ) dQ = Q3 Q1 6,0 4,0 = = 1,0 mm . 2 2 6,0 13,8
Assim, o limite superior do rol, L = 13,8 mm parece ser um valor discrepante dos demais.
Box plot comprimento das asas (mm) de 40 insetos 16 14 12 10 8 6 4 2 0 Max = 13,80000 Min = 2,200000 75% = 6,000000 25% = 4,000000 Median value: Med = 4,500000
Os valores 8,3 e 8,5 esto na regio de alerta, pois, Q1 2dQ = 4 2(1) = 2 Q1 3dQ = 4 3(1) = 1 e Q3 + 2dQ = 6 + 2(1) = 8 Q3 + 3dQ = 6 + 3(1) = 9 e devem ser vistos com cautela. J os valores 11,3 e 13,8 que esto alm do ponto crtico Q3+3dQ so candidatos a valores discrepantes e devem ser estudados. Detalhes sobre o assunto podem obtidos em Tukey (1977), entre outros.
31
LISTA DE EXERCCIOS N 2
1) Para cada distribuio, determine a mdia, a mediana e a moda.
a) Xi fi b) Xi fi c) Xi Fac 2 3 3 5 4 8 5 4 7 2 Resp. x = 3,95 ; Md = Mo = 4
77 12
173 2
181 2
275 10
279 5
x = 186,35 ; Md = 181; Mo = 77
12 5
13 10
15 18
17 20
x = 13,95 ; Md = 14; Mo = 15
a) Calcular a mdia aritmtica, a mediana e a moda. Comente sobre a distribuio; b) Obtenha o primeiro quartil (Q1), o quinto decil (D5) e o percentil 40 (P40). Interprete os resultados. Resp. Mdia = 53,5; Md = 52,83; Mo = 52,08; Q1 = 48,625 e P40 = 51,3 3) a) b) c) Para a srie 5, 5, 5, 6, 6, 6, 6, 7, 7, 7, 7, 7, 7, 8, 8, 8, 9, 9. Construir a distribuio simples de frequncia; A varincia e o desvio padro populacional; 1,47 e 1,21 O coeficiente de variao. 17,72 %
a) b) c) d) e) f) g)
Calcular a mdia aritmtica; 65 Obtenha Q1 e D5. Acima de que valor tem-se 25% das observaes? 56,25 e 62,5; 75 A varincia e o desvio padro; 184,21 e 13,57 O coeficiente de variao; 20,88 % O coeficiente de assimetria; 0,37 O coeficiente de curtose; 0,256 Interpretar os resultados obtidos.
__________________________
Estatstica Prof. Wilson Alves de Oliveira
32
5) a) b) c) d)
Considere a distribuio de frequncias do exerccio n 2 e obtenha. A varincia e o desvio padro; (Varincia = 45) O coeficiente de variao; (12,52 %) O coeficiente de assimetria; (0,21) Interpretar os resultados obtidos.
6) Um fabricante de caixas de cartolina fabrica trs tipos de caixa. Testa-se a resistncia de cada caixa, tomando-se uma amostra de 100 caixas e determinando-se a presso necessria para romper cada caixa. So os seguintes os resultados dos testes:
Tipos de Caixa Presso mdia de ruptura (bria) Desvio padro das presses (bria) A 150 40 B 200 50 C 300 60
a) Que tipo de caixa apresenta a menor variao absoluta na presso de ruptura? b) Que tipo de caixa apresenta a maior variao relativa na presso de ruptura? c) Que tipo de caixa voc indicaria para compra? Comente.
7) Cronometrando o tempo para vrias provas de uma gincana automobilstica, encontramos: EQUIPE 1: 40 provas tempo mdio: 45 segundos varincia: 400 segundos ao quadrado tempo: 20 n de provas: 10 40 15 50 30 80 5
EQUIPE 2:
a) Qual o coeficiente de variao relativo a equipe 1? 44,44% b) Qual a mdia da equipe 2? 45 seg. c) Qual o desvio padro relativo equipe 2? 15,13 seg. d) Qual a mdia aritmtica referente s duas equipes consideradas em conjunto? e) Qual a equipe que apresentou resultados mais homogneos?
45 seg.
8) Encontrar a frequncia correspondente terceira classe da distribuio abaixo, sabendo-se que a mdia igual a 11,50. xi fi 5 4 8 5 13 .... 18 3 25 1
9)
Obtenha o resumo de cinco nmeros e o grfico de caixa para os dados, salrios de 36 empregados de uma companhia, utilizados na tabela 1 (lista de exerccios n 1). Comente os resultados.