Anda di halaman 1dari 32

Bioestatstica

Heyder Diniz Silva


28 de marco de 2005

Sum
ario
1 An
alise explorat
oria de dados
1.1 Apresentacao Grafica . . . . .
1.1.1 Variaveis qualitativas 1.1.2 Variaveis quantitativas
1.1.3 Variaveis quantitativas
1.2 Medidas resumo . . . . . . .
1.2.1 Medidas de Posicao .
1.2.2 Medidas de disperssao

. . . . . . .
categoricas
discretas .
contnuas .
. . . . . . .
. . . . . . .
. . . . . . .

.
.
.
.
.
.
.

.
.
.
.
.
.
.

.
.
.
.
.
.
.

.
.
.
.
.
.
.

.
.
.
.
.
.
.

.
.
.
.
.
.
.

.
.
.
.
.
.
.

.
.
.
.
.
.
.

.
.
.
.
.
.
.

.
.
.
.
.
.
.

.
.
.
.
.
.
.

.
.
.
.
.
.
.

.
.
.
.
.
.
.

.
.
.
.
.
.
.

.
.
.
.
.
.
.

.
.
.
.
.
.
.

.
.
.
.
.
.
.

.
.
.
.
.
.
.

.
.
.
.
.
.
.

.
.
.
.
.
.
.

.
.
.
.
.
.
.

.
.
.
.
.
.
.

.
.
.
.
.
.
.

9
9
10
13
15
20
21
27

SUMARIO

Lista de Tabelas
1.1

1.2
1.3
1.4
1.5
1.6
1.7
1.8
1.9

Configuracao de 40 pacientes com infarto agudo do miocardio atendidos no HCUFU-FAEPU, quanto ao sexo, idade, tabagismo, Nveis de Colesterol total, n
umero
de vasos acometidos, e genotipo para enzima conversora do angiotensinogenio - ECA
Distribuicao de freq
uencias de 40 pacientes com IAM, atendidos no HC-FAEPUUFU quanto ao sexo . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
Distribuicao de freq
uencias de 40 pacientes com IAM, atendidos no HC-FAEPUUFU quanto ao genotipo da ECA . . . . . . . . . . . . . . . . . . . . . . . . . . . .
Distribuicao de freq
uencias de 40 pacientes com IAM atendidos no HC-FAEPUUFU quanto ao sexo e genotipo da ECA . . . . . . . . . . . . . . . . . . . . . . . .
Distribuicao acumulada no n
umero de vasos acometidos em 40 pacientes com IAM
atendidos na HC-FAEPU-UFU . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
Distribuicao de freq
uencias dos nveis de Colesterol Total (mg/dl ) em 40 pacientes
com IAM atendidos no HU-FAEPU-UFU. . . . . . . . . . . . . . . . . . . . . . . .
Distribuicao de freq
uencias dos nveis de Colesterol Total (mg/dl ) em 40 pacientes
com IAM atendidos no HU-FAEPU-UFU. . . . . . . . . . . . . . . . . . . . . . . .
Distribuicoes acumuladas da concentracao de colesterol total em 40 pacientes com
IAM atendidos mo HC-FAEPU-UFU . . . . . . . . . . . . . . . . . . . . . . . . . .
Media, mediana, variancia, desvio padrao e coeficiente de variacao do nvel de colesterol e do n
umero de vasos acometidos em 40 pacientes com IAM atendidos no
HC-FAEPU-UFU . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .

10
11
12
13
14
17
17
20

31

LISTA DE TABELAS

Lista de Figuras
1.1

Distribuicao de freq
uencias de 40 pacientes com infarto agudo do miocario atendidos
no HC-FAEPU-UFU de acordo com o sexo . . . . . . . . . . . . . . . . . . . . . .
1.2 Distribuicao de freq
uencias de 40 pacientes com infarto agudo do miocario atendidos
no HC-FAEPU-UFU de acordo com o genotipo da ECA . . . . . . . . . . . . . . .
1.3 Distribuicao freq
uencias de 40 pacientes com infarto agudo do miocario atendidos
no HC-FAEPU-UFU de acordo com o sexo e o genotipo da ECA . . . . . . . . . .
1.4 Distribuicao de 40 pacientes com infarto agudo do miocario atendidos no HCFAEPU-UFU quanto ao n
umero de vasos acometidos . . . . . . . . . . . . . . . . .
1.5 Distribuicao de 40 pacientes com infarto agudo do miocario atendidos no HCFAEPU-UFU quanto ao n
umero de vasos acometidos . . . . . . . . . . . . . . . . .
1.6 Distribuicao de freq
uencia acumulada de 40 pacientes com infarto agudo do miocario
atendidos no HC-FAEPU-UFU quanto ao n
umero de vasos acometidos . . . . . . .
1.7 Distribuicao de freq
uencias dos nveis de colesterol total em 40 pacientes com infarto
agudo do miocario atendidos no HC-FAEPU-UFU . . . . . . . . . . . . . . . . . .
1.8 Distribuicao de freq
uencias dos nveis de colesterol total em 40 pacientes com infarto
agudo do miocario atendidos no HC-FAEPU-UFU . . . . . . . . . . . . . . . . . .
1.9 Distribuicao de freq
uencias dos nveis de colesterol total em 40 pacientes com infarto
agudo do miocario atendidos no HC-FAEPU-UFU . . . . . . . . . . . . . . . . . .
1.10 Classificacao das distribuicoes de freq
uencias comumente encontradas na area biomedica . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
1.11 Distribuicao de freq
uencias acumuladas dos nveis de colesterol total em 40 pacientes
com infarto agudo do miocario atendidos no HC-FAEPU-UFU . . . . . . . . . . .
1.12 Box-plot dos nveis de colesterol total em 40 pacientes com infarto agudo do miocario
atendidos no HC-FAEPU-UFU . . . . . . . . . . . . . . . . . . . . . . . . . . . . .

11
12
13
14
14
15
18
18
19
19
20
26

LISTA DE FIGURAS

Captulo 1

An
alise explorat
oria de dados
Na area biomedica, os dados a serem analisados sao, geralmente, coletados em prontuarios individuais, nos quais existem v
arias caractersticas dos pacientes. Antes de inciar-se a analise dos dados,
esses dados devem ser organizados, ou tabulados, (termo usualmente adotados na area). A melhor
maneira de se organizar um conjunto de dados e na forma de uma tabela (dai o termo tabular
os dados) na qual as colunas referem-se as variaveis a serem estudadas (sexo, idade, presenca de
alguma anomalia, tipo de tratamento, etc) e as linhas aos indivduos. Na tabela 1.1 estao apresentadas algumas caractersticas de 40 pacientes com infarto agudo do miocariodo (IAM) atendidas
no HC-FAEPU-UFU. As caractersticas, ou melhor dizendo variaveis anotadas formam: Sexo,
idade, se o paciente era fumante eu nao, o n
umero de vasos acometidos e o genotipo para para o
polimorfismo da ECA, ensima conversora do angiotensinogenio.
Observando as variaveis apresentadas na tabela 1.1, nota-se que elas apresentam caractersticas
peculiares, que permitem agrupa-las ou classifica-las em categorias distintas. A classificacao mais
comum para as variavies e:

Ordinais
Qualitativas ou Categ
oricas
N ominais

Discretas
Quantitativas
Continuas
As variaveis qualitativas sao aquelas que expressam uma qualidade, ou especificam uma categoria a qual o paciente (indivduo) pertence. Subdividem-se em nominais como por exemplo o
sexo, gen
otipo e o fato de ser ou nao tabagista ou ordinais quando expressam uma seq
uencia ou
ordenamento como a ordem de nascimento (primeiro filho, segundo, etc) a classificacao em um
determinado concurso, etc.. As variavie quantitativas sao aquelas quantificaveis, seja por meio de
medicoes como peso, altura e pressao sang
uinea, ou por contagem como n
umero de vasos acometidos, n
umero de filhos, etc.. Quando uma variavel quantitativa e obtida por medicoes, podendo,
entao, assumir qualquer valor em um determinado intervalo ela e dita contnua, ao passo que se for
uentemente so puder assumir valores inteiros e chamada discreta.
obtida por contagem, e, conseq
Os dados na forma em que se encontram na tabela ?? sao chamados dados brutos e de forma
geral trazem pouca informacao ao pesquisador. O primeiro passo para analise estatstica destes
dados e realizar uma analise exploratoria dos mesmos, no intuito d verificar a natureza de sua distribuicao (forma de organizacao), a presenca de dados discrepantes (outliers), possveis relacoes
entre as variaveis coletadas, dentre outras. A analise exploratoria de dados e realizada por meio
de tabelas, graficos e medidas resumos.

1.1

Apresentac
ao Gr
afica

De acordo com o tipo de variavel sob analise, ha um tipo de apresentacao grafica mais adequada,
pois, um grafico que e u
til para representar uma variavel categorica pode nao ser o mais adequado
9

CAPITULO 1. ANALISE
EXPLORATORIA
DE DADOS

10

Tabela 1.1: Configuracao de 40 pacientes com infarto agudo do miocardio atendidos no HC-UFUFAEPU, quanto ao sexo, idade, tabagismo, Nveis de Colesterol total, n
umero de vasos acometidos,
e gen
otipo para enzima conversora do angiotensinogenio - ECA
Paciente

Sexo

Idade

Tabagismo

1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
21
22
23
24
25
26
27
28
29
30
31
32
33
34
35
36
37
38
39
40

Masc
Fem
Masc
Fem
Fem
Fem
Masc
Fem
Fem
Fem
Fem
Masc
Masc
Masc
Masc
Fem
Masc
Masc
Fem
Fem
Masc
Masc
Masc
Masc
Fem
Fem
Fem
Masc
Masc
Masc
Masc
Masc
Masc
Fem
Masc
Masc
Masc
Masc
Masc
Masc

62
74
55
79
69
49
58
75
49
70
67
66
66
81
52
49
64
63
59
61
57
70
77
65
50
52
66
57
86
50
34
69
75
44
76
77
63
69
42
84

N
ao
Sim
N
ao
Sim
Sim
N
ao
Sim
N
ao
Sim
N
ao
Sim
Sim
N
ao
Sim
N
ao
N
ao
Sim
N
ao
N
ao
N
ao
Sim
N
ao
Sim
Sim
Sim
N
ao
Sim
Sim
Sim
Sim
N
ao
N
ao
Sim
N
ao
N
ao
N
ao
Sim
Sim
Sim
Sim

Colesterol
total
226
201
211
224
220
177
242
278
289
249
268
229
218
178
202
158
213
211
232
174
213
219
232
182
163
218
216
246
212
207
242
260
203
241
182
161
246
197
179
151

Vasos
acometidos
2
2
1
2
2
2
3
2
3
3
3
1
3
2
2
2
2
3
3
3
2
1
1
2
1
1
3
3
3
2
1
3
3
2
1
1
3
3
3
3

Gen
otipo
ECA
ID
DD
DD
ID
ID
ID
ID
ID
ID
ID
II
ID
ID
DD
DD
ID
DD
DD
DD
ID
ID
ID
II
ID
II
DD
DD
DD
ID
II
ID
ID
ID
II
ID
DD
DD
DD
II
DD

para representar uma variavel quantitativa contnua e vice-versa.

1.1.1

Vari
aveis qualitativas - categ
oricas

Existem varias alternativas de graficos, u


teis para se representar uma variavel qualitativa dentre
estes pode-se destacar os graficos de barras e de setores (pizza). Em ambos os casos o ponto inicial
uencias das categorias
para construcao e a construcao de uma tabela com a distribuicao de freq

GRAFICA

1.1. APRESENTAC
AO

11

observadas, ou seja com o n


umero de indivduos pertencentes a cada categoria (freq
uencia absoluta)
ou a porcentagem (freq
uencia relativa). A contagem do n
umero de observacoes por categoria em
um conjunto de dados e facilmente, utilizando a funcao table do R, cuja sintaxe e mostrada a
seguir:
> table(Sexo)
Sexo
Fem Masc
15
25
Com estes resultados fica construir a tabela 1.2, na qual observa-se que dos 40 pacientes com
IAM 15 ou 37,5% eram do sexo feminino e 25 (32,5%) do sexo masculino, o que mostra uma
predominancia dos pacientes do sexo masculino em relacao ao feminino. Nesta amostra ha 1,67
homens para cada mulher ( 25
em 1,67 vezes a chance de ter
15 ), assim pode-se dizer que os homens t
um IAM do que as mulheres ou um risco 0,67 vezes maior, em comparacao as mulheres
Tabela 1.2: Distribuicao de freq
uencias de 40 pacientes com IAM, atendidos no HC-FAEPU-UFU
quanto ao sexo
Sexo
Feminino
Masculino
Total

Pacientes
15
25
40

%
37,5
62,5
100,0

Estas mesmas informacoes podem ser apresentadas na forma de um grafico de setores, (pizza)
que e formado por um circulo, dividido em setores cujas areas sao proporcionais `a freq
uencia da
categoria que representa, como apresentado na figura 1.1.
> library(graphics)
> pie(table(Sexo), main = "Gr\341fico de setores" )
Grfico de setores

Fem

Masc

Figura 1.1: Distribuicao de freq


uencias de 40 pacientes com infarto agudo do miocario atendidos
no HC-FAEPU-UFU de acordo com o sexo
Para determinar a area de cada crculo basta lembrar que area destes e funcao do raio do
crculo, que e constante, e do angulo interno do setor (). Sabendo-se que a soma dos angulos
internos e igual a 360o tem-se:

CAPITULO 1. ANALISE
EXPLORATORIA
DE DADOS

12

360o
f em

100%
37, 5%

f em

=
=

360x37,5
100
o

De modo analogo obtem-se masc = 225


Para a o genotipo dos pacientes tem-se:

135

> table(ECA)
ECA
DD ID II
14 20 6

Tabela 1.3: Distribuicao de freq


uencias de 40 pacientes com IAM, atendidos no HC-FAEPU-UFU
quanto ao genotipo da ECA
Gen
otipo
DD
ID
II
Total

Pacientes
14
20
6
40

%
35,0
50,0
15,0
100,0

Neste caso sera adotado um grafico de barras, que e um grafico formado por barras perpendiculares ao eixo das categorias e cujos tamanhos (altura) sao proporcionais `a freq
uencia das classes,
como mostrado na figura 1.2.
> library(graphics)
> barplot(table(ECA), main = "Gr\341fico de barras" )

10

15

20

Grfico de barras

DD

ID

II

Figura 1.2: Distribuicao de freq


uencias de 40 pacientes com infarto agudo do miocario atendidos
no HC-FAEPU-UFU de acordo com o genotipo da ECA
Tabelas de conting
encia:
Pode-se explorar, ainda, a distribuicao conjunta de duas variaveis categoricas montando uma
tabela de dupla entrada ou tabela de contingencia, como ilustrado a seguir:
> table(ECA, Sexo)

GRAFICA

1.1. APRESENTAC
AO

13

Sexo
ECA Fem Masc
DD 4 10
ID 8 12
II 3
3
Observa-se, na tabela 1.4 e na figura 1.3 que dos 25 pacientes do sexo masculino, 10 possuam
genotipo DD, 12 ID e 3 II, (40%,48% e 12%). Dentre as pacientes do sexo feminino as proporcoes
genotpicas observadas foram de (26,6%, 53,3% e 20,1%).
Tabela 1.4: Distribuicao de freq
uencias de 40 pacientes com IAM atendidos no HC-FAEPU-UFU
quanto ao sexo e genotipo da ECA
Genotipo
DD
ID
II
Total

Sexo
Fem Masc
4
10
8
12
3
3
15
25

total
14
20
6
40

20

> library(graphics)
> plot(ECA, Sexo)

10

15

Masc
Fem

DD

ID

II

Figura 1.3: Distribuicao freq


uencias de 40 pacientes com infarto agudo do miocario atendidos no
HC-FAEPU-UFU de acordo com o sexo e o genotipo da ECA

1.1.2

Vari
aveis quantitativas discretas

Para as variaveis discretas utiliza-se os mesmos graficos que as variaveis categoricas (graficos de
barras e de setores). Sendo a escolha dentre estes mais estetica do que tecnica. A ttulo de exemplo
considere-se o caso do n
umero de vasos acometidos, cuja distribuicao de freq
uencias e apresentada
na figura 1.4. Verifica-se, nesta figura, que 22,5% dos pacientes tiveram um u
nico vaso acometido,
35,0% dois e 42,5% tiveram tres vasos acometidos.
Na figura 1.6 observa-se o n
umero de vasos acometidos de cada paciente (Index), nesta figura e
facil observar que os pacientes n
umeros 1, 2, 4, 5 e 6 apresentaram dois vasos acometidos, enquanto
os pacientes 3 e 12 apresentaram apenas um vaso acometido.

CAPITULO 1. ANALISE
EXPLORATORIA
DE DADOS

14

10

15

> library(graphics)
> barplot(table(Vasos.acometidos))

Figura 1.4: Distribuicao de 40 pacientes com infarto agudo do miocario atendidos no HC-FAEPUUFU quanto ao n
umero de vasos acometidos

2.0
1.0

1.5

Vasos.acometidos

2.5

3.0

> library(graphics)
> plot(Vasos.acometidos)

10

20

30

40

Index

Figura 1.5: Distribuicao de 40 pacientes com infarto agudo do miocario atendidos no HC-FAEPUUFU quanto ao n
umero de vasos acometidos

Sabe-se que, quanto maior o n


umero de vasos acometidos, em um paciente com infarto, mais
grave e o caso. Assim uma distribuicao de freq
uencias aculumada, com a apresenta na tabela 1.5,
cuja apresentacao grafica encontra-se na figura ?? torna-se muito u
til.
Tabela 1.5: Distribuicao acumulada no n
umero de vasos acometidos em 40 pacientes com IAM
atendidos na HC-FAEPU-UFU
Vasos acometidos
1
ate 2
ate 3

Pacientes
9
23
40

GRAFICA

1.1. APRESENTAC
AO
library(graphics)
x <- c(1, 2, 3)
y <- c(9, 23, 40)
plot(x, y, type = "S", xlab = "N\372mero de vasos\nacometidos" ,
ylab = "Freq. Acumulada")

30
25
20
10

15

Freq. Acumulada

35

40

>
>
>
>
+

15

1.0

1.5

2.0
Nmero de vasos
acometidos

2.5

3.0

Figura 1.6: Distribuicao de freq


uencia acumulada de 40 pacientes com infarto agudo do miocario
atendidos no HC-FAEPU-UFU quanto ao n
umero de vasos acometidos

1.1.3

Vari
aveis quantitativas contnuas

No caso das variaveis contnuas como os nveis de colesterol total e idade dos pacientes a construcao
de distribuicoes de freq
uencias e um pouco mais trabalhosa, pois estas variaveis nao apresentam
categorias claramente distintas. Torna-se necessario entao definir classes nas quais as variaveis
serao agrupadas. Estas classes nada mais sao que intervalos predeterminados, nos quais os dados
serao agrupados. Tais intervalos sao chamados intervalos de classe, sendo delimitados pelo limite
inferior (Li ) e pelo limite superior (Ls). A diferenca entre o limite superior e o limite inferior
de uma classe e denominada amplitude de classe (c). Assim, se por exemplo, deseja-ser agrupar
em uma u
nica classe os indivduos com nveis de nveis de colesterol total entre 150 e 200 mg/dl,
o intervalo de classe a ser considerado seria se 150 a 200 mg/dl, que apresenta Li = 150mg/dl,
Ls = 200mg/dl e c = 50mg/dl (200 150). Uma outra classe poderia ser formada pelos indivduos
que apresentem entre 200 e 250 mg/dl e assim por diante. Deve-se ressaltar que o nvel de colesterol
total e uma variavel quantitativa contnua, e portanto, pode assumir qualquer valor dentro de um
determinado intervalo. Deste modo e perfeitamente possvel encontrar um indivduo que apresente
um nvel de colesterol total de 200mg/dl de sangue, entao surge uma d
uvida. A qual classe das
duas classes ele pertence? A que vai de 150 a 200 mg/dl ou a de 200 a 250 mg/dl? Uma alternativa
seria definir a primeira classes como sendo de 150 a 200 mg/dl e a segunda de 201 a 250 mg/dl.
Mas e se aparecer um indivduo cujo nvel de colesterol total e de 200,5 mg/dl? Para evitar este
tipo de problema e recomendavel que se definam classes com intervalos de classes mistos, ou seja
que o limite inferior pertenca a classe e o superior nao. Pois deste modo todos os possveis valores
da variavel em estudo estarao contemplados na tabela de distribuicao de freq
uencias ou no grafico.
No caso das duas classes, utilizadas como exemplo, os intervalos ficariam: 150 ` 200 e 200 ` 250.
Uma d
uvida que sempre surge ao se agrupar variaveis quantitativas contnuas e o n
umero de
classes a ser utilizado. Alguns criterios que podem ser adotados para definicao do n
umero de
classes sao:
1. Emprico:

n se n 100

(1.1)

CAPITULO 1. ANALISE
EXPLORATORIA
DE DADOS

16

= 5log(n) se n 100

(1.2)

n e o n
umero de dados.
2. Criterio de Sturges:
k = log2 (n) + 1

(1.3)

3. Criterio de Scott(Baseado na normalidade dos dados):


k=

A
3, 5 n

1
3

(1.4)

Definido o n
umero de classes nos quais os dados serao divididos deve-se entao definir quais
serao estas classes. Uma forma rapida e simples consiste definir classes de mesma amplitude.
Assim obtem-se a amplitude de classe (c) por:
A
;
(1.5)
k
em que A e a amplitude total e k e o n
umero de classes.
Em seguida determina-se as classes, tomando como limite inferior da primeira classe o menor
valor observado, o limite superior desta classe sera entao Li+c. Adotando-se classes com intervalos
mistos, este valor sera tambem o limite inferior da segunda classes. repete-se o processo ate que
todas as classes sejam definidas.
Tomando
como exemplo os nveis de colesterol total apresentados na tabela 1.1 tem-se:

k = 40 = 6, 32 6 classes
A = 289 151 = 138
c = 138
6 = 23
classes:
c=

151` 174
174` 197
197` 220
220 ` 243
243 ` 266
266 ` 289
Os limites de classe podem ser facilmente obtidos, utilizado o software R, como ilustrado a
seguir:
> n <- length(Colesterol.total)
[1] 40
> A <- max(Colesterol.total) - min(Colesterol.total)
[1] 138
> k <- floor(sqrt(n))
[1] 6
> c <- A/k
[1] 23

GRAFICA

1.1. APRESENTAC
AO

17

> limites <- seq(min(Colesterol.total), max(Colesterol.total),


+
by = c)
[1] 151 174 197 220 243 266 289
Determinadas as classes, basta verificar o n
umero de indivduos que se encaixa em categoria e
montar a distribuicao de freq
uencias apresentada na tabela 1.6. Nesta tabela, verifica-se que os
nveis de colesterol total dos 40 pacientes em estudo variaram de 151 mg/dl a 289 mg/dl, com uma
maior concentracao entre 197 e 220 mg/dl, que se situa na faixa intermediaria da distribuicao.
Nota-se ainda que a quantidade de pacientes com nveis de colesterol acima desta faixa e superior
`a de pacientes com nveis inferiores. Note que estas informacoes nao podiam ser claramente
obtidas a partir dos dados brutos. Uma maneira de facilitar a leitura e interpretacao de uma
distribuicao de freq
uencias e apresentar as freq
uencias de classe na forma de freq
uencias relativas
ou em porcentagem do total de pacientes como mostrado na tabela 1.7
Tabela 1.6: Distribuicao de freq
uencias dos nveis de Colesterol Total (mg/dl ) em 40 pacientes
com IAM atendidos no HU-FAEPU-UFU.
Nveis de colesterol total
151` 174
174` 197
197` 220
220 ` 243
243 ` 266
266 ` 289
Total

N
umero de pacientes
5
6
14
8
4
3
40

Tabela 1.7: Distribuicao de freq


uencias dos nveis de Colesterol Total (mg/dl ) em 40 pacientes
com IAM atendidos no HU-FAEPU-UFU.
Nveis de colesterol total

Freq
uencia relativa

151` 174
174` 197
197` 220
220 ` 243
243` 266
266 ` 289
Total

0,125
0,150
0,350
0,200
0,100
0,075
1,000

12,5
15,0
35,0
20,0
10,0
7,5
100,0

As informacoes contidas em uma distribuicao de freq


uencia podem ser apresentada graficamente
por meio de um histograma. Um histograma e um grafico de analise formado por retangulos, cujas
bases assentadas sobre o eixo x sao proporcionais `as amplitudes de classes e as areas `as freq
uencias
de classes. Na figura 1.7 encontra-se apresentado o histograma referente `a tabela 1.6, bem como a
linha de comando utilizada para gera-lo. Nesta linha, limitese a seq
uencia anteriormente gerada
com os limites das classes (151,174,197,220,243,266,289). Vale ressaltar que caso esta seq
uencia
nao seja fornecida o programa determina, automaticamente, o n
umero de classes nos quais os
dados ser
ao agrupados e os limites das classes, utilizando o criterio de Sturges. Para gerar um
histograma com as freq
uencias relativas basta acrescentar o comando (prob=T), como na figura
1.8

CAPITULO 1. ANALISE
EXPLORATORIA
DE DADOS

18

> library(graphics)
> hist(Colesterol.total, limites, xlab = "Colesterol Total (mg/dl)",
+
ylab = "N\372mero de\nPacientes" , main = "Histograma")

8
6
0

Nmero de
Pacientes

10

12

14

Histograma

160

180

200

220

240

260

280

Colesterol Total (mg/dl)

Figura 1.7: Distribuicao de freq


uencias dos nveis de colesterol total em 40 pacientes com infarto
agudo do miocario atendidos no HC-FAEPU-UFU

> library(graphics)
> hist(Colesterol.total, limites, prob = T, xlab = "Colesterol Total (mg/dl)",
+
ylab = "Freq
u\352ncia Relativa" , main = "Histograma", col = "Blue")

0.010
0.005
0.000

Freqncia Relativa

0.015

Histograma

160

180

200

220

240

260

280

Colesterol Total (mg/dl)

Figura 1.8: Distribuicao de freq


uencias dos nveis de colesterol total em 40 pacientes com infarto
agudo do miocario atendidos no HC-FAEPU-UFU

GRAFICA

1.1. APRESENTAC
AO

19

Outro grafico muito u


til para representar vari
aveis contnuas e o polgono de freq
uencias (figura
1.9), que um grafico de analise formado por perpendiculares erguidas sobre o ponto medio das
classes e cujas alturas sao proporcionais `as freq
uencias das classes. O polgono e formado entao
pela uniao dos pontos medios destas classes. O modo mais facil de construir um polgono de
freq
uencias, utilizando o R, e a partir de um histograma. Constroi-se um histograma e o armazena
em um objeto qualquer, em seguida extrai-se, deste objeto, as informacoes necessarias `a construcao
do polgono.
> pm <- hist(Colesterol.total, limites)$mids
> freq <- hist(Colesterol.total, limites)$counts
> library(graphics)
> plot(pm, freq, type = "l", xlab = "Colesterol\nTotal (mg/dl)",
+
ylab = "Pacientes", main = "Pol
gono de Freq
u\352ncias" )

Pacientes

10

12

14

Polgono de Freqncias

160

180

200

220
240
Colesterol
Total (mg/dl)

260

280

Figura 1.9: Distribuicao de freq


uencias dos nveis de colesterol total em 40 pacientes com infarto
agudo do miocario atendidos no HC-FAEPU-UFU
A partir da observacao do polgono de freq
uencias pode-se facilmente classificar a distribuicao
de freq
uencias quanto a sua forma. Os tipos de distribuicoes mais comuns de serem encontrados
na area biomedica estao apresentados na figura 1.10
Assimtrica a direita

0.0

0.00

0.2

0.06

0.4

Simtrica

10

20

40

Jota

0.00

0.04

1500

3000

Assimtrica a esquerda

30

10

20

30

40

Jota
invertido

0.0

0.2

Uniforme

10

Figura 1.10: Classificacao das distribuicoes de freq


uencias comumente encontradas na area biomedica
Nas distribuicoes de freq
uencias acumuladas das concentracoes de colesterol total destes 40
pacientes (tabela 1.8).O grafico utilizado para representar este tipo de distribuicao chama-se ogiva

CAPITULO 1. ANALISE
EXPLORATORIA
DE DADOS

20

e encontra-se apresentado na figura 1.11


Tabela 1.8: Distribuicoes acumuladas da concentracao de colesterol total em 40 pacientes com
IAM atendidos mo HC-FAEPU-UFU
Colesterol total (mg/dl)
151
174
197
220
243
266
289

>
>
>
>
>
+
>
>

abaixo
0
5
11
25
33
37
49

acima
40
35
29
15
7
3
0

library(graphics)
Colesterol <- c(151, 174, 197, 220, 243, 266, 289)
abaixo <- c(0, 5, 11, 25, 33, 37, 40)
acima <- c(40, 35, 29, 15, 7, 3, 0)
plot(Colesterol, abaixo, type = "l", ylab = "N\372mero de Pacientes" ,
xlab = "Concentra
c~
ao de\nColesterol total (mg/dl)", main = "Ogivas")
lines(Colesterol, acima)
text(268, 35, "Abaixo")

NULL
> text(268, 5, "Acima")

40

Ogivas

20
10

Nmero de Pacientes

30

Abaixo

Acima

160

180

200
220
240
Concentrao de
Colesterol total (mg/dl)

260

280

Figura 1.11: Distribuicao de freq


uencias acumuladas dos nveis de colesterol total em 40 pacientes
com infarto agudo do miocario atendidos no HC-FAEPU-UFU

1.2

Medidas resumo

Um modo mais sintetico de apresentar as informacoes contidas em um conjunto de dados e a


utilizacao de medidas resumo. Estas medidas de resumo sao classificadas em dois tipos, as de
posicao e as de dispersao. As medidas de posicao dao uma ideia da localizacao dos dados observados
enquanto que as de dispersao da organizacao ou concentracao dos mesmos. As principais medidas
de posic
ao sao a media, a mediana, a moda e os quartis. Dentre as de dispersao destacam-se

1.2. MEDIDAS RESUMO

21

a amplitude total, a variancia, o desvio padrao, o coeficiente de variacao e a amplitude interquartlica.

1.2.1

Medidas de Posi
c
ao

M
edia
A media aritmetica ou simplesmente media de um conjunto de n observacoes, x1 , x2 , . . . , xn e
definida como:
Pn
xi
(1.6)
x
= i=1
n
Ex.: Dados os pesos ao nascer (kg) de cinco criancas;
3,350; 3,500; 3,800; 3,800; 3,900.
Temos que o peso medio ao nascer destas criancas e
3, 350 + 3, 500 + 3, 800 + 3, 800 + 3, 900
= 3, 670kg
5
Interpretacao: O peso medio ao nascer das cinco criancas foi de 3, 670kg, isto quer dizer que,
algumas pesaram menos de 3, 670kg, outras pesaram mais, mas em media, o peso ao nascer foi
3, 670kg. Ou seja 3, 670kg e um valor em torno do qual os pesos ao nascer destas cinco criancas
se concentram, sendo entao, um valor de referencia para estes dados.
O calculo da media de um conjunto de dados utilizando o R e extremamente facil, como pode
ser observado a seguir:
x
=

> pesos <- c(3.35, 3.5, 3.8, 3.8, 3.9)


[1] 3.35 3.50 3.80 3.80 3.90
> mean(pesos)
[1] 3.67
De modo semelhante, pode-se obter a media das concentracoes de colesterol total e do n
umero
de vasos acometidos nos 40 pacientes com IAM (tabela 1.1)
> mean(Colesterol.total)
[1] 214.25
> mean(Vasos.acometidos)
[1] 2.2
Pode-se afirmar, entao, que as concentracoes de colesterol total dos 40 pacientes em estudo se
concentram entorno de 214,25 mg/dl e que, em media, estes pacientes tiveram 2,2 vasos acometidos.
Se os dados estiverem agrupados na forma de uma distribuicao de freq
uencia, lanca-se mao da
Hip
otese tabular basica, para o calculo da media.

Hip
otese Tabular B
asica
Todas as observac
oes contidas numa classe s
ao consideradas iguais ao ponto medio da classe.

Entao, a media e obtida, neste caso, pela seguinte expressao:

CAPITULO 1. ANALISE
EXPLORATORIA
DE DADOS

22

Pk
k
X
x i F ai
x
= Pi=1
=
xi F ri
k
i=1 F ai
i=1

(1.7)

em que,
xi
= ponto medio da classe i;
F ai = freq
uencia absoluta da classe i;
F ri = freq
uencia relativa da classe i.
Para as concentracoes de colesterol total apresentadas na tabela 1.6 tem-se:

x
=

(162, 5)(5) + (185, 5)(6) + (208, 5)(14) + (231, 5)(8) + (254, 5)(4) + (277, 5)(3)
= 213, 675mg/dl
40

A media obtida a partir dos dados tabulados (213,675) e ligeiramente diferente da obtida a
partir dos dados originais (214,25). Logicamente 214,25 e o valor exato da media, uma vez que
todas as observacoes foram consideradas com seus valores proprios, ao passo que no caso dos dados
tabulados utilizou-se da hipotese tabular basica.
Propriedades da Media
i. A soma dos desvios de um conjunto de dados em relacao a sua media e nula
Ex.: Dados: 2, 3, 4;
x
=3
(2 3) + (3 3) + (4 3) = 0
ii. A soma dos quadrados dos desvios de um conjunto de dados em relacao a uma constante k e
mnima quando k for a media.
Ex.: Dados 2, 3, 4; x
=3
k
2,0
2,5
3,0
3,5
4,0

Soma dos quadrados dos desvios


5,00
2,75
2,00
2,75
5,00

iii. Somando-se ou subtraindo-se uma constante k a todos os dados a media fica somada ou
subtrada desta constante
Ex.: Dados 2, 3, 4 x
=2
=5=3+2=x
k=2 novos dados: 4, 5, 6 x
+k
iv. Multiplicando-se todos os dados por uma constante k, a nova media fica multiplicada por k.
Ex.: Dados: 2, 3, 4 x
=2
= 9 = (3)(3) = k
k=3 novos dados: 6, 9, 12 x
x
Caractersticas e importancia:
muito influenciada pelos valores extremos da distribuicao;
i. E
ii. Localiza-se, em geral, na classe de maior freq
uencia;
iii. Na sua determinacao sao considerados todos os dados da distribuicao;
umero de observacoes com que e calculada;
iv. A sua precisao esta na razao direta do n

1.2. MEDIDAS RESUMO

23

u
v. E
nica para um conjunto de dados.
vi. Nao pode ser calculada para dados agrupados que apresentam classes extremas abertas.
Ex.:
Classe
0 a 500
mais de 500

Fa
5
6

Mediana
Para um conjunto de dados ordenados (Rol) a mediana e o valor que e precedido e seguido pelo
mesmo n
umero de dados (observacoes). Isto e 50% dos dados sao superiores `a mediana e 50% sao
inferiores.
Calculo da mediana
i. Quando o n
umero de dados (n) for mpar, a mediana e dada por:
M d = x( n+1 )
2

(1.8)

Ex.: 0, 1, 2, 3, 4 n = 5 (impar)
M d = x( 5+1 ) = x(3) = 2
2

ii. Quando o n
umero de dados for par, a mediana sera dada por:

Md =

x( n ) + x( n+2 )
2
2
2

Ex.: 0, 1, 2, 3 n = 4 (par)
x

Md =

( 42 )

+x

( 4+2
2 )

x(2) +x(3)
2

No R:
> a <- c(0, 1, 2, 3, 4)
> median(a)
[1] 2
> b <- c(0, 1, 2, 3)
> median(b)
[1] 1.5
> median(Colesterol.total)
[1] 214.5
> median(Vasos.acometidos)
[1] 2

1+2
2

= 1, 5

(1.9)

CAPITULO 1. ANALISE
EXPLORATORIA
DE DADOS

24
Dados agrupados:

n
M d = Li +

Fa
+ c,
FM d

(1.10)

em que,
Li = e o limite inferior da classe mediana;
Fa = e a freq
uencia acumulada das classes anteriores a classe mediana;
FM d e a freq
uencia da classe mediana; e
c e amplitude da classe mediana.
Ex.: Para os dados da Tabela 1.6 tem-se:
n = 40 observacoes. o valor da mediana encontra-se entre a posicao 20 e 21 x n2 e x n+2 , que
2
pertencem `a 3a classe (197 ` 220). Aplicando-se a formula da mediana vem:
n

Md

Fa
+ c
FM d

40
2 11
= 197 +
+ 23
14
= 211, 78 mg/dl

= Li +

Interpretacao: A mediana igual a 211,78 mg/dl indica que metade dos pacientes avaliados
apresentavam concentracao de colesterol total inferior a 211,78 mg/l.
Propriedades da Mediana:
i. A soma dos modulos dos desvios dos dados em relacao `a mediana e mnima.
n
X

|xi M d| = minimo

i=1

ii. Somando-se ou subtraindo-se uma constante (k) a todas as observacoes, a mediana fica somada
ou subtrada desta constante (k).
x = X k M d = M d k
iii. Multiplicando-se todas as observacoes por uma constante (k), a mediana fica multiplicada por
esta constante (k).
x = kx M d = kM d
Caractersticas e Importancia:
uencias que apresentem classes com limites indefinidos;
i. Pode ser obtida em distribuicoes de freq
muito empregada em pesquisas nas quais os valores extremos tem pouca importancia;
ii. E
iii. Nao e influenciada por valores extremos e sim pelo n
umero de observacoes;
mais realista do que a media para representar certas variaveis, cuja a distribuicao e exiv. E
tremamente assimetrica, como por exemplo o nvel salarial de uma empresa.

1.2. MEDIDAS RESUMO

25

Moda
A moda de um conjunto de dados e o valor que ocorre com maior freq
uencia, isto e, o valor mais
comum. Para um conjunto de dados a moda pode nao ser u
nica, bem como pode nao existir.
Ex.:
2,
1,
1,

3,
2,
2,

4,
3,
3,

5,
4,
4,

7,
7,
4,

7,
9,
8,

7,
10,
10,

8,
13,
10

9
20
13

M o = 7;
nao possui moda;
M o = 4 e M o = 10.

Dados Agrupados
Quando os dados estao agrupados, na forma de uma distribuicao de freq
uencias, a moda e
o ponto do eixo x, correspondente `a ordenada maxima da distribuicao. O processo para calculo
da moda em dados agrupados e o geometrico, a partir do histograma de freq
uencias (Metodo de
Czuber). Este metodo e baseado na influencia que as classes adjacentes exercem sobre a moda,
deslocando-a no sentido da classe de maior freq
uencia.
M o = Li +

1
c,
1 + 2

(1.11)

em que:
Li e o limite inferior da classe modal;
1 e a diferenca entre a freq
uencia da classe modal e da imediatamente anterior;
2 e a diferenca ente a freq
uencia da classe modal e da imediatamente anterior;
c e a amplitude da classe modal.
Utilizando os dados referentes `a concentracao de colesterol total (tabela 1.6) tem-se:

Mo

1
c
1 + 2
8
= 197 +
23 = 210, 14,
8+6

= Li +

Indicando que a concentracao de colesterol total mais comum de ser observada entre estes 40
pacientes foi de 210,14 mg/dl
Caractersticas e Importancia
i. Nao e afetada por valores extremos, a nao ser que estes constituam a classe modal;
uma medida bastante utilizada em Estatstica Economica;
ii. E
iii. Nao apresenta boas propriedades algebricas;
umero de desvios iguais a zero.
iv. Maximiza o n
Propriedades da Moda
i. Somando-se ou subtraindo uma constante a todos os dados, a moda fica somada ou subtrada
da mesma constante.
ii. Multiplicando-se todos os dados por uma constante k, a moda fica multiplicada por esta
constante.

CAPITULO 1. ANALISE
EXPLORATORIA
DE DADOS

26
Quartis

Os quartis separam um conjunto de dados ordenados (Rol) em quatro partes iguais. Assim:
Q1 e o 1o quartil, deixa 25% dos elementos abaixo dele;
Q2 = 2o quartil, coincide com a mediana, deixa 50% dos elementos abaixo dele;
Q3 = 3o quartil, deixa 75% dos elementos abaixo dele.
Determinacao de Q1
n
Q1 = LiQ1 +

F aQ 1
c
FQ1

(1.12)

em que:
LiQ1 e o limite inferior da classe que contem Q1 ;
F aQ1 e a freq
uencia acumulada das classes anteriores `a classe que contem Q1 ;
FQ1 e a freq
uencia da classe que contem Q1 e
c e a amplitude da classe que contem Q1 .
Determinacao de Q3
3n
Q3 = LiQ3 +

F aQ3
c
FQ3

(1.13)

em que:
LiQ3 e o limite inferior da classe que contem Q3 ;
F aQ3 e a freq
uencia acumulada das classes anteriores `a classe que contem Q3 ;
FQ3 e a freq
uencia da classe que contem Q3 e
c e a amplitude da classe que contem Q3 .
Uma modo facil de se obter algumas medidas resumo dos dados, tais como os quartis, a
mediana e a media de um conjunto de dados, utilizando o R, e por meio da funcao summary, como
apresentado a seguir:
> summary(Colesterol.total)
Min. 1st Qu.
151.0
193.3

Median
214.5

Mean 3rd Qu.


214.3
234.3

Max.
289.0

A partir destes resultados, pode-se afirmar que as concentracoes de colesterol total nos 40
pacientes avaliados variou de 151 a 289 mg/dl, 25% destes pacientes (5 pacientes) apresentaram
concentracoes inferiores a 193,3 mg/dl, 50% inferiores a 214,5 mg/dl e 25% apresentaram concentracoes acima de 234,3 mg/dl. Em media, estes pacientes apresentaram uma concentracao de
colesterol total de 214,3 mg/dl.
Estas informacoes podem ser graficamente apresentada por meio de um Box-Plot, como mostrado
na figura 1.12. Nesta figura as barras representam o menor e valor observado, a caixa o primeiro e
o terceiro quartil e a linha dentro da caixa a mediana dos dados. Os pontos extremos aos valores
mnimos e maximo, que por ventura aparecam neste tipo de grafico, sao considerados outliers,
isto e valores extremos (aberrantes) ao conjunto de dados. Tais observacoes merecem uma avaliacao criteriosa pois, podem ser erros de leitura ou de digitacao. Em geral devem ser eliminados
da analise. Sao considerados outliers as observacoes que estejam fora do intervalo mediana
1.5(amplitude inter-quartlica), em que amplitude inter quartilica = Q3 Q1 .
Relacoes empricas entre media, mediana, moda e as distribuicoes de dados:
Distribuicao
Simetrica
Assimetrica a direita (assimetrica positiva)
Assimetrica a esquerda (assimetrica negativa)

Relacao
x
= Md = Mo
x
> Md > Mo
x
< Md < Mo

1.2. MEDIDAS RESUMO

27

160

180

200

220

240

260

280

> boxplot(Colesterol.total)

Figura 1.12: Box-plot dos nveis de colesterol total em 40 pacientes com infarto agudo do miocario
atendidos no HC-FAEPU-UFU

1.2.2

Medidas de disperss
ao

A utilizacao de uma medida de posicao para substituir um conjunto de dados e insuficiente para
sintetizar toda a informacao nele contida, como pode ser observado nos conjuntos de dados a
seguir, referentes ao n
umero de dias de internacao de 30 pacientes, em tres diferentes hospitais:
Hospital
A
B
C

Dias de internacao
10, 10, 10, 10, 10, 10, 10
1, 8,10, 10, 11, 12, 18
1, 2, 10, 10, 10, 13, 24

Calculando a media (eq 1.6), mediana (eq 1.8 e moda desses tres conjuntos tem-se:
x
A = x
B = x
c = 10 dias
M dA = M dB = M dc = 10 dias
M oA = M oB = M oc = 10 dias
Assim, verifica-se que os tres hospitais (A,B,C) apresentam medias, medianas e modas iguais
a 10dias, porem observando-os, percebe-se que eles sao bem diferentes entre si, pois enquanto
no hospital A todos os pacientes ficaram 10 dias internados, os demais apresentam uma certa
variacao, sendo que esta variacao e maior no hospital C. Deste modo, para sintetizar eficientemente
a informacao de um conjunto de dados tem-se que associar `a medida de posicao utilizada, uma
medida de disperssao, que vai informar como estes dados se comportam em torno da medida de
posicao em questao. Dentre as medidas de disperssao disponveis, merecem destaque a amplitude
total, a variancia, o desvio padrao, coeficiente de variacao e o erro padrao da media, as quais serao
detalhadas a seguir.
Amplitude Total (A)
A amplitude total e a diferenca entre o maior e o menor valor observado
A = M V O mvo,
em que:
M V O e o maior valor observado, e
mvo e o menor valor observado.
Para os conjuntos A,B e C tem-se:

(1.14)

CAPITULO 1. ANALISE
EXPLORATORIA
DE DADOS

28

AA = 10 10 = 0 dias
AB = 18 1 = 17 dias e
AC = 24 1 = 23 dias.
Nota-se, entao, que a amplitude do n
umero de dias de internacao no hospital C e bem maior
que nos demais. A amplitude e uma medida de dispersao facil de ser calculada e e certamente
a maneira mais natural. Porem sua interpretacao depende do n
umero de observacoes, e, no seu
calculo nao sao consideradas todas as observacoes, pois utiliza apenas os valores extremos.
Vari
ancia
Uma boa medida de dispersao deve basear-se em todos os dados, ser facilmente calculavel e compreensvel, alem de prestar-se bem ao tratamento algebrico. Uma medida com todas estas caractersticas e obtida considerando-se os desvios de cada observacao em relacao a media (chamados
erros) :
ei = x i x
.
(1.15)
Para obter um u
nico n
umero que represente a dispersao dos dados, pensou-se inicialmente na
media destes desvios, mas deve-se lembrar que a soma dos desvios de um conjunto de dados em
relacao a sua media e nula. Entao, optou-se por utilizar a soma dos quadrados dos desvios, pois
elevando-se cada desvio ao quadrado elimina-se o sinal negativo, que estava trazendo complicacoes,
e dividindo-se a soma dos quadrados dos desvios pelo n
umero de observacoes obtem-se a variancia
populacional que e uma medida quantitativa da dispersao de um conjunto de dados entorno da
sua media, alem do fato, de esta soma de quadrados de desvios ser mnima, como ja foi visto em
propriedades da media.
n
SQD
1 X
V (x) = 2 =
(xi x
)2
(1.16)
=
N
N i=1
Na pratica raramente tem-se acesso a toda populacao, sendo utilizado nos trabalhos uma
amostra da mesma. Quando estiver trabalhando com amostras, a variancia e dada pela soma dos
quadrados dos desvios dividida por n 1 (n
umero de observacoes menos um) que e denominado
graus de liberdade. Assim:
n
SQD
1 X
s2 =
=
(xi x
)2
(1.17)
n1
n 1 i=1
Deste modo, tem-se as seguintes estimativas para o n
umero de dias de internacao nos Hopitais
A, B e C:

>
>
>
>

2
A

2
B

2
A

(10 10)2 + (10 10)2 + . . . + (10 10)2


= 0 dias2
6
(1 10)2 + (8 10)2 + . . . + (18 10)2
= 225, 67 dias2
6
(1 10)2 + (2 10)2 + . . . + (24 10)2
= 58, 33 dias2
6

A <- c(10, 10, 10, 10, 10, 10, 10)


B <- c(1, 8, 10, 10, 11, 12, 18)
C <- c(1, 2, 10, 10, 10, 13, 24)
var(A)

[1] 0
> var(B)
[1] 25.66667

1.2. MEDIDAS RESUMO

29

> var(C)
[1] 58.33333
> var(Colesterol.total)
[1] 1086.756
> var(Vasos.acometidos)
[1] 0.625641
Uma expressao mais facil para o calculo da variancia e
" n
#
Pn
2
X
( i=1 x)
1
2
s =
x
n 1 i=1
n
2

(1.18)

Para dados tabulados o calculo da variancia e realizado por meio das seguintes expressoes:
" k
#
X
1
2
(xi x
) Fi
s =
n 1 i=1

(1.19)

" n
#
Pn
2
X
( i=1 xi Fi )
1
2
x Fi
s =
n 1 i=1 i
n

(1.20)

ou,

em que:
k e o n
umero de classes;
xi e o ponto medio da i-esima classe, e
Fi e a freq
uencia absoluta da i-esima classe.
Propriedades da variancia
i. A variancia de uma constante k e nula
V (k) = 0, k = constante.
ii. A variancia de uma soma ou diferenca entre variaveis e a soma das variancias das variaveis se
estas forem independentes.
V (X Y ) = V (X) + V (Y ) se X e Y f orem independentes
para W = X + Y tem-se:V (W ) = V (X) + V (Y ) + 2cov(X, Y )
iii. Somando-se ou subtraindo-se uma constante k a todos os dados a variancia nao se altera.
X = X k V (X ) = V (X)
iv. Multiplicando-se todos os dados por uma constante k, a variancia fica multiplicada por k 2
X = X.k V (X ) = k 2 V (X)

CAPITULO 1. ANALISE
EXPLORATORIA
DE DADOS

30
Desvio Padr
ao

Um inconveniente da variancia e que ela e expressa em unidades ao quadrado, ou seja, caso esteja-se
trabalhando com o peso corporal de indivduos, tomados em kg, a variancia destes pesos e expressa
em kg 2 , o que causa algumas dificuldades de interpretacao. No intuito de resolver este problema
trabalha-se com o desvio padrao que e definido como a raiz quadrada positiva da variancia, o qual
e expresso na mesma unidade em que os dados foram coletados.
s=

s2

(1.21)

Para o n
umero de dias de internac
ao tem-se:

A
B
A

>
>
>
>

=
0 = 0 dias
p
=
25, 67 = 5, 06 dias
p
58, 33 = 7, 63 dias
=

A <- c(10, 10, 10, 10, 10, 10, 10)


B <- c(1, 8, 10, 10, 11, 12, 18)
C <- c(1, 2, 10, 10, 10, 13, 24)
sd(A)

[1] 0
> sd(B)
[1] 5.066228
> sd(C)
[1] 7.637626
> sd(Colesterol.total)
[1] 32.96599
> sd(Vasos.acometidos)
[1] 0.7909747
Propriedades do desvio padrao
i. Somando-se ou subtraindo-se uma constante k a todos os dados o desvio padrao nao se altera.
X = X k s(X ) = s(X)
ii. Multiplicando-se todos os dados por uma constante k, o desvio padrao fica multiplicada por k
X = kX s(X ) = ks(X)

1.2. MEDIDAS RESUMO

31

Coeficiente de varia
c
ao
A variancia e o desvio padrao sao medidas de dispersao absolutas, deste modo so podem ser
utilizadas para comparar a variabilidade de dois ou mais conjuntos de dados quando estes apresentarem a mesma media, mesmo n
umero de observacoes e estiverem expressos nas mesmas
unidades. Entao para comparar qualquer conjunto de dados quanto `a sua variabilidade deve-se
lancar mao de uma medida de dispersao relativa como o coeficiente de variacao (CV ), que expressa
a variabilidade dos dados em relacao `a sua media.
s
CV = 100
X
CVA

CVB

CVA

(1.22)

0
100 = 0%
10
5, 06
100 = 50, 6%
10
7, 63
100 = 76, 3%
10

> 100 * sd(A)/mean(A)


[1] 0
> 100 * sd(B)/mean(B)
[1] 50.66228
> 100 * sd(C)/mean(C)
[1] 76.37626
> 100 * sd(Colesterol.total)/mean(Colesterol.total)
[1] 15.38669
> 100 * sd(Vasos.acometidos)/mean(Vasos.acometidos)
[1] 35.9534
Na tabela 1.9 encontram-se apresentadas as medidas resumo do nvel de colesterol total e do
n
umero de vasos acometidos nos 40 pacientes com IAM apresentados na tabela 1.1. Verifica-se
nesta tabela que estes pacientes apresentaram uma concentracao media de colesterolo total de
214,25 mg/dl, com desvio padrao 32,96 mg/dl. O n
umero medio de vasos acometidos nestes pacientes foi de 2,2 vasos com desvio padrao 0,79 vasos. Verifica-se assim que a variabilidade dos
pacientes em relacao ao n
umero de vasos acometidos e bem maior do que em relacao `as concentracoes de colesterol total, pois enquanto o coeficiente de variacao da concentracao de colesterol
total foi de 15,38% o do n
umero de vasos acometidos foi de 35,95%. Ou seja estes pacientes sao
muito mais homogeneos em relacao `as concentracoes de colesterol total do que em relacao ao
n
umero de vasos acometidos.
Erro padr
ao da m
edia
uma medida que fornece uma ideia da precisao com que a media foi estimada.
E
s
sX =
n

(1.23)

CAPITULO 1. ANALISE
EXPLORATORIA
DE DADOS

32

Tabela 1.9: Media, mediana, variancia, desvio padrao e coeficiente de variacao do nvel de colesterol
e do n
umero de vasos acometidos em 40 pacientes com IAM atendidos no HC-FAEPU-UFU
Estatstica
Media
Mediana
Variancia
s
CV%

Colesterol Total (ml/dl)


214,25
214,50
1086,75
32,96
15,38

Vasos Acometidos
2,2
2,00
0,62
0,79
35,95

Anda mungkin juga menyukai