Anda di halaman 1dari 25

Piana & Machado

Estatstica Descritiva

Unidade II
Estatstica Descritiva

2.1. Apresentao de dados..................................................................................................

11

2.1.1. Conceitos fundamentais............................................................................................

11

2.1.2. Sries estatsticas.......................................................................................................

12

2.1.3. Tabelas.........................................................................................................................

16

2.1.4. Grficos........................................................................................................................

19

2.2. Distribuies de freqncias e grficos..................................................................

22

2.2.1. Tabelas de classificao simples..............................................................................

22

2.2.2. Tabelas de classificao cruzada..............................................................................

31

2.3. Medidas descritivas.........................................................................................................

34

2.3.1. Medidas de posio ou tendncia central................................................................

34

2.3.2. Medidas de variao ou disperso............................................................................

42

2.3.3. Momentos, assimetria e curtose...............................................................................

45

2.3.4. Medidas descritivas para dados agrupados em classe..........................................

47

2.4. Anlise exploratria de dados....................................................................................

52

Piana & Machado

Estatstica Descritiva

A Estatstica Descritiva definida como a parte da estatstica que se preocupa com a


organizao, o resumo, a descrio e a apresentao de um conjunto de dados, atravs de tabelas,
grficos e medidas descritivas.

2.1. Apresentao de dados


2.1.1. Conceitos Fundamentais
Varivel: uma caracterstica ou atributo populacional que pode ser medida de acordo com
alguma escala.
Dados: conjunto de nmeros, taxas e outras informaes, coletados em experimentos ou
levantamentos. Todo dado um valor de uma varivel (numrico ou no numrico).
De modo geral, as variveis podem ser divididas em dois grupos: variveis categricas e
variveis numricas.
As variveis categricas, tambm denominadas fatores de classificao ou simplesmente
fatores, so aquelas cujos valores representam categorias ou classes. Caracterizam-se por possuir um
conjunto limitado de valores que usualmente se repetem para todas as observaes. Cada valor distinto
dessa varivel denominado nvel. As variveis categricas podem ser qualitativas ou quantitativas.
Variveis categricas qualitativas descrevem qualidades e, de acordo com a escala de medida,
so classificadas em:
Nominais: quando no houver um sentido de ordenao entre os seus possveis
valores. Exemplos: sexo (com os nveis masculino e feminino), raa de cavalos (com os nveis mangalarga, crioulo e rabe, por exemplo), regio geogrfica (com os nveis norte, sul, sudeste e leste), estado
civil (com os nveis solteiro, casado e divorciado, por exemplo), linhagens de uma cultivar em um
processo de melhoramento vegetal, etc.
Ordinais: quando houver um sentido de ordenao entre os seus possveis valores.
Exemplos: faixas de idade (criana, adolescente, adulto, idoso), intensidade de cor (claro, escuro),
intensidade de infestao (forte, mdia, fraca), nvel de instruo (primrio, secundrio, universitrio,
ps-graduao) etc.
Variveis categricas quantitativas descrevem quantidades. Possuem os mesmos atributos das
variveis qualitativas, mas, uma vez que seus nveis expressam quantidade, a cada nvel est associado
um valor, denominado valor do nvel. Por exemplo, se uma varivel exprime a quantidade de um
tranqilizante utilizado contra a insnia, ento os nveis podero ser Dose 1, Dose 2 e Dose 3 e as
quantidades (valores) associadas podero ser 0, 2 e 4 mg.
As variveis numricas so aquelas cujos valores so nmeros reais, de modo que cada valor
representa um valor da varivel e no uma categoria ou uma classe. De acordo com o processo de
obteno dos seus dados (valores), as variveis numricas so classificadas em:
Discretas: descrevem dados discretos ou de enumerao, ou seja, obtidos por
processo de contagem. As variveis discretas s podem assumir valores do conjunto dos nmeros
inteiros no negativos (0, 1, 2, 3, ...). Exemplos: nmero de sementes germinadas, nmero de pacientes
que se recuperam, nmero de frutos estragados, nmero de filhos de um casal, etc.
Contnuas: descrevem dados contnuos ou de mensurao, ou seja, obtidos por
processo de medio. As variveis contnuas podem assumir qualquer valor do conjunto dos reais (-10,
0,

2 , ). Exemplos: peso, altura, tempo de sono, teor de umidade, temperatura corporal. etc.

Observe que variveis categricas quantitativas so, de certa forma, variveis numricas, mas,
nesse caso, os valores representam valores associados a uma categoria, o nvel.
A classificao correta de uma varivel fundamental, uma vez que esta discriminao que ir
indicar a possibilidade e a forma de utilizao dos procedimentos estatsticos disponveis.
10

Piana & Machado

Estatstica Descritiva

As variveis so representadas por letras maisculas (X, Y, Z, etc) e os seus valores (dados)
por letras minsculas (x, y, z, etc.). Assim, se uma varivel representada por X (xis maisculo), todos
os seus valores sero representados por x (xis minsculo). Para diferenciar ou individualizar os valores
de uma varivel, acrescenta-se um ndice i ao x (xi), sendo i = 1, 2, ..., n. Deste modo, um conjunto de n
valores de uma varivel ser representado por x1, x2, x3, ..., xn.
Unidade de Observao: aquela unidade onde so medidas as variveis de interesse.
Exemplos: aluno, planta, animal, parcela, etc.
Observao: o conjunto de valores referentes a todas as variveis medidas em uma unidade
de observao. Ex: peso de matria seca, estatura e nmero de perfilhos de uma planta.
Conjunto de dados: o conjunto de todas as observaes.
Exemplo:
Observao (i)

Sexo (X)

No de irmos (Y)

Altura (Z)

Cidade (W)

1
2
3
...
n

x1
x2
x3
...
xn

y1
y2
y3
...
yn

z1
z2
z3
...
zn

w1
w2
w3
...
wn

2.1.2. Sries Estatsticas


A reunio ou agrupamento de dados estatsticos, quando apresentados em tabelas ou em
grficos, para apreciao ou investigao, determina o surgimento das sries estatsticas.
As sries estatsticas resumem um conjunto ordenado de observaes atravs de trs fatores
fundamentais:
a) tempo: refere-se a data ou a poca em que o fenmeno foi investigado;
b) espao: refere-se ao local ou regio onde o fato ocorreu;
c) espcie: refere-se ao fato ou fenmeno que est sendo investigado e cujos valores
numricos esto sendo apresentados.
As sries estatsticas so classificadas de acordo com o fator que estiver variando, podendo ser
simples ou mistas.

2.1.2.1. Sries simples: so aquelas em que apenas um fator varia. Podem ser de trs tipos:
Srie histrica ou temporal (cronolgica ou evolutiva): onde varia o tempo permanecendo fixos
o espao e a espcie do fenmeno estudado.
Exemplo:
11

Piana & Machado

Estatstica Descritiva

Tabela 2.1. Casos de sarampo notificados no Brasil de 1987 a 1992.


Ano

Nmero de casos

1987
1988
1989
1990
1991
1992

65.459
26.173
55.556
61.435
45.532
7.934

Fonte: Anurios estatsticos IBGE.

Srie geogrfica ou territorial (regional): onde varia o espao permanecendo fixos o tempo e a
espcie do fenmeno estudado.
Exemplo:
Tabela 2.2. Necessidades mdias de energia em alguns pases, em 1973.
Pas

kcal/per capita/dia

Brasil
Estados Unidos
Etipia
Japo
Mxico

2.174
2.397
2.120
1.125
2.114

Fonte: Necessidades Humanas de Energia IBGE.

Srie especificativa ou qualitativa (categrica): onde varia a espcie do fenmeno estudado


permanecendo fixos o tempo e espao.
Exemplo:
Tabela 2.3. Abate de animais, por espcie, no Brasil, em 1993.
Espcie

Nmero de cabeas

Aves
Bovinos
Sunos
Ovinos
Caprinos
Eqinos

1.232.978.796
14.951.359
13.305.932
926.818
803.188
165.691

Fonte: Anurio Estatstico do Brasil - 1992.

2.1.2.2. Sries mistas: so aquelas onde mais de um fator varia ou um fator varia mais de uma
vez.
Exemplos:
12

Piana & Machado

Estatstica Descritiva

Srie histrica geogrfica ou geogrfica histrica


Tabela 2.4. Taxa de atividade feminina urbana (em percentual) em trs regies
do Brasil, 1981/90.
Ano

Regio

1981

1984

1986

1990

28,9
30,2
34,9

30,3
32,6
37,2

34,0
34,3
40,1

37,1
37,8
40,7

Norte
Nordeste
Sudeste

Fonte: Anurio Estatstico do Brasil - 1992.

Srie especificativa geogrfica ou geogrfica especificativa


Tabela 2.5. Consumo, em Kg, de alguns tipos de alimentos per capita anual,
em algumas regies metropolitanas do Brasil 1988.
Alimento

Cidade
Belo Horizonte
Rio de Janeiro
So Paulo
Curitiba
Porto Alegre

Hortalias

Carnes

Pescado

44,5
54,3
46,7
36,2
48,9

21,6
24,7
26,1
24,1
34,2

1,3
4,9
2,9
1,7
1,5

Fonte: Anurio Estatstico do Brasil - 1992.

Srie especificativa histrica geogrfica


Tabela 2.6. Vtimas em acidentes segundo as grandes regies do Brasil, nos anos de
1991 e 1992.

Regio
Norte
Nordeste
Sudeste
Sul
Centro-Oeste
Brasil

Fatais

No fatais

1991

1992

1.188
3.857
11.555
4.402
2.220
23.222

1.165
3.843
10.217
4.213
1.949
21.387

1991

1992

10.229
23.774
130.938
61.797
22.147
248.885

9.739
23.942
159.669
58.832
22.086
274.268

Fonte: Anurio Estatstico do Brasil - 1994.

Srie especificativa histrica ou histrica especificativa


Tabela 2.7. Taxa de mortalidade de menores de um ano (em percentual), segundo as
trs principais causas, no Brasil, de 1984 a 1987.
Causa

Ano
1984

1985

1986

1987

Doenas infecciosas intestinais

20,6

17,3

17,9

16,8

Pneumonia

12,1

11,7

12,0

10,8

Perinatal

42,4

45,8

45,3

48,0

Fonte: Informe Epidemiolgico SUS.

13

Piana & Machado

Estatstica Descritiva

2.1.2.3. Srie distribuio de freqncias: ocorre quando nenhum dos fatores varia. Nesta
srie os dados so agrupados em classes (intervalos com limites predeterminados) segundo suas
respectivas freqncias. Segundo a natureza dos dados, as distribuies de freqncias, podem ser de
dois tipos.
Para dados de enumerao
Tabela 2.8. Nmero de alarmes falsos, acionados acidentalmente
ou por mau funcionamento do equipamento, recebidos
diariamente por uma empresa de segurana, na
cidade de Pelotas, durante o ms de abril de 2003.
Classes
(Nmero de alarmes falsos)

Freqncia
(Nmero de dias)

2
3
4
5
6
7
8
Total

2
6
8
4
5
3
2
30

Fonte: Dados fictcios.

Para dados de mensurao


Tabela 2.9. Peso de 80 estudantes da escola X, em 1980.
Classes
(Peso, em kg)

Freqncia
(Nmero de estudantes)

40 | 50
50 | 60
60 | 70
70 | 80
80 | 90
Total

12
28
25
10
5
80

Fonte: Dados fictcios.

A srie distribuio de freqncias ser abordada com maiores detalhes na Seo 2.3 desta
unidade.

14

Piana & Machado

Estatstica Descritiva

2.1.3. Tabelas
A tabela a forma no discursiva de apresentar informaes, das quais o dado numrico se
destaca como informao central. Sua finalidade apresentar os dados de modo ordenado, simples e de
fcil interpretao, fornecendo o mximo de informao num mnimo de espao.
A construo de uma tabela, entretanto, deve obedecer a uma srie de normas tcnicas. Estas
normas podem ser encontradas na publicao do IBGE intitulada "Normas de Apresentao Tabular"
que tem como objetivo orientar a apresentao racional e uniforme de dados estatsticos na forma
tabular.
Seguem abaixo algumas das principais normas e recomendaes.
Elementos da tabela
Uma tabela estatstica composta de elementos essenciais e elementos complementares. Os
elementos essenciais so:
Ttulo: a indicao que precede a tabela contendo a designao do fato observado, o local e
a poca em que foi estudado.
Corpo: o conjunto de linhas e colunas onde esto inseridos os dados.
Cabealho: a parte superior da tabela que indica o contedo das colunas.
Coluna indicadora: a parte da tabela que indica o contedo das linhas.
Os elementos complementares so:
Fonte: entidade que fornece os dados ou elabora a tabela.
Notas: informaes de natureza geral, destinadas a esclarecer o contedo das tabelas.
Chamadas: informaes especficas destinadas a esclarecer ou conceituar dados numa parte
da tabela. Devero estar indicadas no corpo da tabela, em nmeros arbicos entre parnteses,
esquerda nas casas e direita na coluna indicadora.
Os elementos complementares devem situar-se no rodap da tabela, na mesma ordem em que
foram descritos.
Nmero da tabela
Uma tabela deve ter nmero para identific-la sempre que o documento apresentar uma ou mais
tabelas, permitindo, assim, a sua localizao. A identificao da tabela deve ser feita em nmeros
arbicos, de modo crescente, precedidos da palavra Tabela, podendo ou no ser subordinada a
captulos ou sees de um documento. Exemplos: Tabela 5, Tabela 10.4.
Apresentao de dados numricos
Toda tabela deve ter dado numrico para informar a quantificao de um fato especfico
observado, o qual deve ser apresentado em nmeros arbicos.
A parte inteira dos dados numricos deve ser separada por pontos ou espaos de trs em trs
algarismos, da direita para a esquerda. Exemplo: 12.243.527 ou 12 243 527.
A separao da parte inteira da decimal deve ser feita por vrgula. Exemplo: 25,67.
No sistema ingls, a separao da parte inteira feita por vrgula, e a separao da parte
inteira da decimal feita por ponto, ou seja, o inverso do sistema brasileiro.
15

Piana & Machado

Estatstica Descritiva

Sinais convencionais
Sempre que um dado numrico no puder ser apresentado, o mesmo deve ser substitudo por
um sinal convencional. A substituio de um dado numrico deve ser feita por um dos sinais abaixo,
conforme o caso.
a) (trao): indica dado numrico igual a zero no resultante de arredondamento;
b) .. (dois pontos): indica que no se aplica dado numrico;
c) ... (trs pontos): indica dado numrico no disponvel;
d) x (xis): indica dado numrico omitido a fim de evitar a individualizao da informao;
e) 0, 0,0 ou 0,00: indica dado numrico igual a zero resultante de arredondamento.
f) ? (interrogao): quando h dvida sobre a veracidade da informao.
Quando uma tabela contiver sinais convencionais, estes devero ser apresentados em nota
geral com seus respectivos significados.
Arredondamento
Quando o primeiro algarismo a ser abandonado for 0, 1, 2, 3 ou 4, fica inalterado o ltimo
algarismo a permanecer. Exemplo: 48,23 48,2.
Quando o primeiro algarismo a ser abandonado for 5, 6, 7, 8 ou 9, aumenta-se de uma unidade
o ltimo algarismo a permanecer. Exemplo: 23,87 23,9.
Unidade de medida
Uma tabela deve ter unidade de medida, inscrita no cabealho ou nas colunas indicadoras,
sempre que houver necessidade de se indicar, complementarmente ao ttulo, a expresso quantitativa ou
metrolgica dos dados numricos.
Esta indicao deve ser feita com smbolos ou palavras, entre parnteses. Exemplos: (m) ou
(metros), (t) ou (toneladas), (R$) ou (reais).
Quando os dados numricos forem divididos por uma constante, esta deve ser indicada por
algarismos arbicos, smbolos ou palavras, entre parnteses, precedendo a unidade de medida, quando
for o caso. Exemplos:
(1.000 t): indica dados numricos em toneladas que foram divididos por mil;
(1.000 R$): indica dados numricos em reais que foram divididos por mil;
(%) ou (percentual): indica dados numricos proporcionais a cem;
(1/1.000): indica dados numricos divididos por 1/1.000, ou seja, multiplicados por mil.
Classe de freqncia
A classe de freqncia cada um dos intervalos no superpostos em que se divide uma
distribuio de freqncias. Toda classe deve ser apresentada, sem ambigidade, por extenso ou com
notao.
Toda a classe que inclui o extremo inferior do intervalo (EI) e exclui o extremo superior (ES),
deve ser apresentada de uma destas duas formas:

EI | ES

ou

[EI; ES)

Apresentao de tempo
Toda a srie histrica consecutiva deve ser apresentada por seus pontos inicial e final, ligados
por hfen (). Exemplos:
1892-912: quando varia o sculo;
1960-65: quando variam os anos dentro do sculo;
out 1991 - mar 1992: quando variam os meses dentro de anos.
Toda a srie histrica no consecutiva deve ser apresentada por seus pontos inicial e final,
ligados por barra (/). Exemplos:
1981/85: indica dados no apresentados para pelo menos um ano do intervalo;
out 1991 / mar 1992: indica dados no apresentados para pelo menos um ms do intervalo.
16

Piana & Machado

Estatstica Descritiva

Apresentao da tabela
O corpo da tabela deve ser delimitado, no mnimo, por trs traos horizontais.
Recomenda-se no delimitar as tabelas direita e esquerda por traos verticais. facultativo
o uso de traos verticais para a separao de colunas no corpo da tabela.
Quando, por excessiva altura, a tabela tiver que ocupar mais de uma pgina, no deve ser
delimitada inferiormente, repetindo-se o cabealho na pgina seguinte. Deve-se usar no alto do
cabealho a palavra continuao ou concluso, conforme o caso.
Se possuir muitas linhas e poucas colunas, poder ser apresentada em duas ou mais partes
dispostas lado a lado e separadas por trao duplo.
A disposio da tabela deve estar na posio normal de leitura. Caso isso no seja possvel, a
apresentao ser feita de forma que a rotao da pgina seja no sentido horrio.
Exemplo:
Tabela 2.10. Total de estabelecimentos, pessoal ocupado, valor da produo e valor da transformao
industrial das indstrias metalrgicas, por Unidade da Federao do Brasil, 1982.

Unidade da Federao

Total de
estabelecimentos

Pessoal ocupado
(1)

Valor da produo
(1.000 Cr$)
(2)

Valor da transformao
industrial (1.000 Cr$)

Rondnia
Acre
Amazonas
Roraima
Par
Amap
Maranho
Piau
Cear
Rio Grande do Norte
Paraba
Pernambuco
Alagoas
Sergipe
Bahia
Minas Gerais
Esprito Santo
Rio de Janeiro
So Paulo
Paran
Santa Catarina
Rio Grande do Sul
Mato Grosso do Sul
Mato Grosso
Gois
Distrito Federal

1
2
31
2
43

14
12
74
11
30
105
20
20
116
736
42
847
4.699
449
305
706
29
13
106
28

x
x
1.710
x
1.675

328
193
5.336
343
794
5.171
439
423
5.527
54.264
2.281
40.768
272.983
11.118
10.816
30.103
485
528
2.686
843

x
x
21.585
x
6.492

498
454
21.732
1.267
2.089
44.673
4.101
1.447
89.072
954.258
22.923
635.731
2.531.363
43.797
84.294
156.680
1.643
884
9.860
2.577

x
x
10.103
x
3.287

251
159
10.878
383
1.265
14.506
1.768
534
27.679
306.856
6.297
177.358
939.032
22.014
41.894
74.316
623
686
4.800
1.301

Brasil

8.452

448.932

4.637.512

1.646.043

Fonte: Pesquisa Industrial - 1982-1984. Dados gerais, Brasil. Rio de Janeiro: IBGE, v.9, 410p.
Nota: Sinais convencionais utilizados:
x Dado numrico omitido a fim de evitar a individualizao da informao.
Dado numrico igual a zero no resultante de arredondamento.
(1) Em 31.12.1982.
(2) Inclui o valor dos servios prestados a terceiros e a estabelecimentos da mesma empresa.

17

Piana & Machado

Estatstica Descritiva

2.1.4. Grficos
Outro modo de apresentar dados estatsticos sob uma forma ilustrada, comumente chamada
de grfico. Os grficos constituem-se numa das mais eficientes formas de apresentao de dados.
Um grfico , essencialmente, uma figura construda a partir de uma tabela; mas, enquanto a
tabela fornece uma idia mais precisa e possibilita uma inspeo mais rigorosa aos dados, o grfico
mais indicado para situaes que visem proporcionar uma impresso mais rpida e maior facilidade de
compreenso do comportamento do fenmeno em estudo.
Os grficos e as tabelas se prestam, portanto, a objetivos distintos, de modo que a utilizao de
uma forma de apresentao no exclui a outra.
Para a confeco de um grfico, algumas regras gerais devem ser observadas:
2.1.4.1. Normas para representao grfica
Os grficos, geralmente, so construdos num sistema de eixos chamado sistema cartesiano
ortogonal. A varivel independente localizada no eixo horizontal (abscissas), enquanto a varivel
dependente colocada no eixo vertical (ordenadas). No eixo vertical, o incio da escala dever ser
sempre zero, ponto de encontro dos eixos.
Iguais intervalos para as medidas devero corresponder a iguais intervalos para as escalas.
Exemplo: Se ao intervalo 10-15 kg corresponde 2 cm na escala, ao intervalo 40-45 kg tambm dever
corresponder 2 cm, enquanto ao intervalo 40-50 kg corresponder 4 cm.
O grfico dever possuir ttulo, fonte, notas e legenda, ou seja, toda a informao necessria
sua compreenso, sem auxlio do texto.
O grfico dever possuir formato aproximadamente quadrado para evitar que problemas de
escala interfiram na sua correta interpretao.
2.1.4.2. Tipos de grficos
Podemos considerar quatro tipos principais de representao grfica:
Estereogramas: so grficos onde as grandezas so representadas por volumes. Geralmente
so construdos num sistema de eixos bidimensional, mas podem ser construdos num sistema
tridimensional para ilustrar a relao entre trs variveis. Exemplo:
Hortalias

Carnes

Pescado

60
50
40
30
20
10
0

Belo
Horizonte

Rio de
Janeiro

So Paulo

Curitiba

Porto
Alegre

Figura 2.1. Consumo, em Kg, de alguns tipos de alimentos per capita


anual em algumas regies metropolitanas do Brasil 1988.
Fonte: Dados da Tabela 2.5.
18

Piana & Machado

Estatstica Descritiva

Cartogramas: so representaes em cartas geogrficas (mapas).


Pictogramas ou grficos pictricos: so grficos puramente ilustrativos, construdos de modo
a ter grande apelo visual, dirigidos a um pblico muito grande e heterogneo. No devem ser utilizados
em situaes que exijam maior preciso. Exemplo:

Figura 2.2. Problemas a serem solucionados pelo governo brasileiro de


acordo com um levantamento encomendado pelo Ministrio
da Educao, em 1985.
Fonte: Curso de Estatstica, v.1, 1989.

Diagramas: so grficos geomtricos de duas dimenses, de fcil elaborao e grande


utilizao. Podem ser ainda subdivididos em: grficos de colunas, de barras, de linhas ou curvas e de
setores.
a) Grfico de colunas: neste grfico as grandezas so comparadas atravs de retngulos de
mesma largura, dispostos verticalmente e com alturas proporcionais s grandezas. A distncia entre os
retngulos deve ser, no mnimo, igual a 1/2 e, no mximo, 2/3 da largura da base dos mesmos. Exemplo:
Cabeas
(milhes)
12
10
8
6
4
2
0
Sul

Nordeste

Sudeste

Norte

CentroOeste

Regies

Figura 2.3. Efetivo do rebanho suno no Brasil, segundo as


grandes regies em 1992.
Fonte: Anurio Estatstico do Brasil IBGE 1994.
19

Piana & Machado

Estatstica Descritiva

b) Grfico de barras: segue as mesmas instrues que o grfico de colunas, tendo a nica
diferena que os retngulos so dispostos horizontalmente. usado quando as inscries dos
retngulos forem maiores que a base dos mesmos. Exemplo:
Estados
Paran
Minas Gerais
Rio Grande do Sul
Rio de Janeiro
So Paulo
Casos
0

1000

2000

3000

4000

5000

6000

Figura 2.4. Casos notificados de AIDS nos cinco estados brasileiros de


maior incidncia em 1992.
Fonte: Anurio Estatstico do Brasil IBGE 1994.
c) Grfico de linhas ou curvas: neste grfico os pontos so dispostos no plano de acordo com
suas coordenadas, e a seguir so ligados por segmentos de reta. muito utilizado em sries histricas e
em sries mistas quando um dos fatores de variao o tempo, como instrumento de comparao.
Exemplo:
Eleitores
(milhes)
90
80
70
60
50
40
30
20
10
0
1978

Anos
1980

1982

1984

1986

1988

1990

Figura 2.5. Eleitores inscritos para as eleies brasileiras - 1978/90.


Fonte: Anurios Estatsticos IBGE.

d) Grfico em setores: recomendado para situaes em que se deseja evidenciar o quanto


cada informao representa do total. A figura consiste num crculo onde o total (100%) representa 360,
subdividido em tantas partes quanto for necessrio representao. Essa diviso se faz por meio de
uma regra de trs simples. Com o auxlio de um transferidor efetua-se a marcao dos ngulos
correspondentes a cada diviso. Exemplo:

20

Piana & Machado

Estatstica Descritiva

7%
18%
Privado
Pblico
Universitrio
75%

Figura 2.6. Hospitalizaes pagas pelo SUS, segundo a natureza


do prestador de servio 1993.
Fonte: Anurio Estatstico do Brasil IBGE 1994.

21

Piana & Machado

Estatstica Descritiva

2.2. Distribuio de freqncias, grficos e medidas


Um grande nmero de dados necessita de uma forma eficiente de sumarizao. Uma das formas
mais comuns de resumir e apresentar dados atravs de tabelas de distribuio de freqncias. Estas
tabelas podem ser de dois tipos: de classificao simples ou de classificao cruzada.
2.2.1. Tabelas de classificao simples
As tabelas de classificao simples so tabelas de freqncias relativas a uma varivel. As
caractersticas dessas tabelas variam de acordo com o tipo de varivel em estudo. Se a varivel do
tipo categrica (fator), ento so obtidas as freqncias de ocorrncia de cada nvel dessa varivel. Se a
varivel do tipo numrica contnua, primeiro so obtidos intervalos de mesma amplitude e depois
contados os valores que ocorrem em cada intervalo.
2.2.1.1. Distribuio de freqncias de variveis categricas
Quando a varivel em estudo for categrica ou, em alguns casos, numrica discreta, a tabela de
distribuio de freqncias apresentar a seguinte caracterstica: cada valor da varivel constituir uma
classe.
Construo da tabela
A construo da tabela de distribuio de freqncia para variveis categricas envolve apenas
dois passos bastante simples:
1o passo: Ordenar os nveis do fator, ou seja, coloc-los em ordem crescente de grandeza (rol).
Cada nvel constituir uma classe. O nmero de cada classe da distribuio ser representado por j, tal
que j = 1, 2, ..., k.
2o passo: Contar o nmero de elementos em cada classe, ou seja, contar quantas vezes o dado
est repetido.
Veremos, atravs dos exemplos a seguir, como construir uma tabela de distribuio de
freqncias para os dados de uma varivel categrica (Exemplo 1) e de uma varivel numrica discreta
(Exemplo 2).
Exemplo 1.
Seja a varivel em estudo o conceito obtido por 60 estudantes na disciplina de Estatstica, para o
qual os dados observados foram os seguintes:
ruim, mdio, bom, mdio, ruim, mdio, ruim, mdio, ruim, bom, mdio, mdio, bom, mdio, mdio, mdio,
timo, mdio, bom, timo, bom, timo, mdio, timo, mdio, ruim, mdio, timo, mdio, mdio, bom,
ruim, bom, bom, mdio, ruim, mdio, mdio, timo, mdio, bom, ruim, ruim, bom, mdio, mdio, ruim,
bom, mdio, mdio, bom, bom, bom, mdio, ruim, bom, mdio, mdio, ruim, mdio
Podemos observar que esta varivel categrica qualitativa ordinal apresenta quatro nveis (ruim,
mdio, bom e timo). Como cada nvel deve constituir uma classe da distribuio de freqncias, j est
determinado que o nmero total de classes (k) quatro. O primeiro passo a ordenao dos nveis da
varivel. Assim, temos
Nmero da
classe (j)

Classe

1
2
3
4

Ruim
Mdio
Bom
timo
22

Piana & Machado

Estatstica Descritiva

O passo seguinte a contagem do nmero de estudantes em cada nvel. Estes valores so


denotados por Fj e chamados de freqncias absolutas das classes. A partir da freqncia absoluta
podemos obter outras freqncias de interesse numa distribuio, tais como:
-

freqncia absoluta acumulada na classe j, denotada por Fj , que expressa o nmero de


elementos (observaes) acumulados at a classe j;

freqncia relativa da classe j, denotada por f j , que expressa a proporo de elementos


(observaes) na classe j;

freqncia relativa acumulada na classe j, denotada por f j , que expressa a proporo de


elementos (observaes) acumulados at a classe j.

As freqncias obtidas so ento apresentadas na forma tabular.


Tabela 2.11. Distribuio de freqncias da varivel o conceito obtido
por 60 estudantes na disciplina de Estatstica. UFPel,
2001.

Classe

Fj

Fj

fj

f j

1
2
3
4

Ruim
Mdio
Bom
timo

12
27
15
6

12
39
54
60

0,2
0,45
0,25
0,1

0,2
0,65
0,9
1

60

Exemplo 2.
Muito freqentemente, as tabelas de distribuio de freqncia de variveis numricas discretas
so construdas da mesma forma que as das variveis categricas. Consideremos agora que a varivel
em estudo seja o nmero de animais portadores de brucelose em 350 propriedades rurais. Os valores
observados para esta varivel foram:
2, 5, 6, 0, 4, 4, 3, 4, 2, 2, 3, 3, 5, 3, 5, 1, 2, 4, 2, 3, 5, 4, 3, 3, 2, 3, 0, 4, 4, 3, 4, 0, 2, 0, 2, 3, 3, 1, 2, 4, 2, ...
Como cada valor da varivel deve constituir uma classe e foram observados apenas sete
valores diferentes para esta varivel, a tabela de distribuio de freqncias ter sete classes.

Nmero da
classe (j)

Classe

1
2
3
4
5
6
7

0
1
2
3
4
5
6

Atravs da contagem do nmero de vezes que cada valor apareceu, ou seja, do nmero de
observaes em cada classe, obtemos as freqncias absolutas, relativas e acumuladas, apresentadas
na tabela a seguir.
23

Piana & Machado

Estatstica Descritiva

Tabela 2.12. Distribuio de freqncias da varivel nmero de animais


portadores de brucelose em 350 propriedades rurais.
UFPel, 2001.

Classe

Fj

Fj

fj

f j

1
2
3
4
5
6
7

0
1
2
3
4
5
6

55
60
112
82
31
8
2

55
115
227
309
340
348
350

0,1571
0,1714
0,32
0,2343
0,0886
0,0229
0,0057

0,1571
0,3286
0,6486
0,8829
0,9714
0,9943
1,0000

350

1,0000

Devemos observar, ainda, que to importante quanto saber construir uma tabela saber
interpretar os seus valores. Vejamos, como exemplo, o significado de alguns valores da tabela:

F4 = 82 significa que, das 350 propriedades rurais consultadas, 82 possuem trs animais
portadores de brucelose.
F3 = 227 significa que, das 350 propriedades rurais consultadas, 227 possuem menos de trs
animais portadores de brucelose.
f 2 = 0,1714 significa que a proporo de propriedades rurais que possuem apenas um animal
portador de brucelose de 0,1714 (em percentual: 17,14).
f 5 = 0,9714 significa que a proporo de propriedades rurais que possuem menos de quatro
animais portadores de brucelose de 0,9714 (em percentual: 97,14).

2.2.1.2. Distribuio de freqncias de variveis numricas contnuas


Ao contrrio das variveis discretas, as variveis contnuas assumem, em geral, muitos valores
e, em sua grande maioria, diferentes uns dos outros. Para contornar problemas desse tipo, as tabelas
de distribuio de freqncias para variveis contnuas so construdas de modo que cada classe seja
constituda por um intervalo de valores da varivel.
Devemos observar, no entanto, que em algumas situaes uma varivel discreta tambm
poder assumir tantos valores diferentes que a construo de uma tabela onde cada valor constitui uma
classe seja impraticvel. Em outras palavras, pode ocorrer que ela tenha tantas linhas que sua
construo pouco auxilie na descrio resumida dos dados. Nesses casos, por uma questo de
simplificao, usual agrupar os dados discretos em intervalos de classe, da mesma forma que se
agrupam os dados contnuos.
Construo da tabela
O processo de construo da tabela de distribuio de freqncia para variveis numricas
segue os seguintes passos:
1o passo: Ordenar o conjunto de dados, ou seja, colocar os dados brutos em ordem crescente de
grandeza (rol).
2o passo. Determinar o nmero de classes da tabela. De modo geral, este valor no dever ser
inferior a 5 e nem superior a 15. A definio do nmero de classes dever ser orientada pelos objetivos
do trabalho, mas existem algumas regras objetivas de determinao, como, por exemplo:

k = 1 + 3,32 log n (Frmula de Sturges)

ou

k= n,

onde:
24

Piana & Machado

Estatstica Descritiva

k = nmero de classes;
n = nmero de observaes;
log = logaritmo base 10.
3o passo. Determinar a amplitude do intervalo. Para isto, podemos utilizar a seguinte expresso:

i=

a
k

onde:

i = amplitude do intervalo;
a = ES EI: amplitude total do conjunto de valores;
k = nmero de classes.
Vamos convencionar, tambm, que sempre que houver necessidade de arredondamento no
nmero de classes (k) ou na amplitude do intervalo (i), este ser feito para cima.
4o passo. Construir os intervalos de classe. O limite inferior da primeira classe ser sempre o
menor valor do conjunto de dados (x(1)) e o limite superior ser o limite inferior acrescido do valor da
amplitude do intervalo de classe (i). Na seqncia, o limite inferior da segunda classe ser o limite
superior da primeira e o limite superior da segunda classe ser este limite inferior acrescido da amplitude
do intervalo. Para todas as classes subseqentes, os intervalos devero ser construdos da mesma
forma que para a segunda:

Classe

x(1) | x(1) + i

x(1) + i | x(1) + 2i

x(1) + 2i | x(1) + 3i

...

...

x(1) + (k-1)i | x(1) + ki

Notamos, assim, que a amplitude do intervalo constante para todas as classes. O intervalo
fechado esquerda e aberto direita, representado por | , garante a no superposio de classes.
Exemplo:
Tomemos a seguinte varivel

X = peso ao nascer (em kg) de 60 bovinos machos da raa Ibag, para a qual os valores
observados (e j ordenados) foram:
16, 17, 17, 18, 18, 18, 19, 20, 20, 20, 20, 20, 21, 21, 22, 22, 23, 23, 23, 23, 23, 23, 23, 23,
23, 25, 25, 25, 25, 25, 25, 26, 26, 27, 27, 27, 27, 28, 28, 28, 29, 29, 29, 30, 30, 30, 30, 30,
30, 30, 31, 32, 33, 33, 33, 34, 34, 35, 36, 39
Sendo o Peso uma varivel contnua cujos valores poderiam ser todos diferentes entre si, no
podemos considerar cada valor como sendo uma classe, de modo que no podemos saber de antemo
o nmero de classes da distribuio de freqncia. Este valor dever ser determinado e, para isto,
usaremos a frmula de Sturges. Para n = 60, temos

25

Piana & Machado

Estatstica Descritiva

k = 1 + 3,32 log n
k = 1 + 3,32 log 60
k = 1 + 3,32 1,778 = 6,9
Como o nmero de classes tem que ser um nmero inteiro, teremos que arredondar o valor 6,9.
Usaremos como regra o arredondamento para cima. Deste modo, o nmero de classes ser k = 7.
Uma vez determinado o valor de k, temos que obter a amplitude dos intervalos. Sendo k = 7 e a
amplitude total do conjunto de dados

a = ES EI
a = 39 16 = 23

temos

i=

a 23
=
= 3,2857
k 7

Por uma questo de praticidade, vamos arredondar o valor da amplitude do intervalo para uma
casa decimal, lembrando que o arredondamento, tambm neste caso, dever ser sempre para cima.
Assim, temos i = 3,3.
O prximo passo ser a construo dos intervalos de classe. Tomamos como limite inferior da
primeira classe o menor valor do conjunto de dados x(1) = 16. Somando ao 16 o valor da amplitude do
intervalo i = 3,3, obtemos o limite superior deste intervalo. Todos os demais intervalos so construdos
considerando como limite inferior o limite superior do intervalo de classe que o precede e como limite
superior, a soma do limite inferior com o valor 3,3. Assim temos

Classes

16,0 | 19,3

19,3 | 22,6

22,6 | 25,9

25,9 | 29,2

29,2 | 32,5

32,5 | 35,8

35,8 || 39,1

Para a obteno das freqncias absolutas das classes, contamos quantos valores
(observaes) do conjunto de dados pertencem a cada intervalo. As demais freqncias, como j vimos
anteriormente, derivam da freqncia absoluta.
Em distribuies de freqncias de variveis contnuas, geralmente existe interesse em uma
outra quantidade conhecida como ponto mdio ou centro de classe, denotada por cj. Os centros de
classe so calculados da seguinte forma:

cj =

EI j + ES j
2

onde:

EI j = extremo inferior da classe j


ES j = extremo superior da classe j
No exemplo, temos
26

Piana & Machado

Estatstica Descritiva

16 + 19,3 35,3
=
= 17,65
2
2
19,3 + 22,6 41,9
=
= 20,95
c2 =
2
2
L
35,8 + 39,1 74,9
c7 =
=
= 37,45
2
2
c1 =

A tabela de freqncias completa apresentada a seguir.


Tabela 2.13. Distribuio de freqncias da varivel peso ao nascer (em kg) de
60 bovinos machos da raa Ibag. UFPel, 2001.
j

Classes

Fj

Fj

fj

f j

cj

16 | 19,3

0,1167

0,1167

17,65

19,3 | 22,6

16

0,15

0,2667

20,95

22,6 | 25,9

15

31

0,25

0,5167

24,25

25,9 | 29,2

12

43

0,2

0,7167

27,55

29,2 | 32,5

52

0,15

0,8667

30,85

32,5 | 35,8

58

0,1

0,9667

34,15

35,8 || 39,1

60

0,0333

1,0000

37,45

60

1,0000

A interpretao das freqncias da tabela exemplificada atravs de alguns valores:

F3 = 15 significa que 15 dos 60 bovinos nasceram com peso entre 22,6 e 25,9 kg (exclusive).
F5 = 52 significa que 52 dos 60 bovinos nasceram com peso entre 16,0 e 32,5 kg (exclusive).
f 2 = 0,15 significa que a proporo de bovinos que nasceram com peso entre 19,3 e 22,6 kg
(exclusive) de 0,15 (em percentual: 15).
f 6 = 0,9667 significa que a proporo de bovinos que nasceram com peso entre 16 e 35,8 kg
(exclusive) de 0,9667 (em percentual: 96,67).

Exerccios propostos:
2.1. Os dados a seguir se referem aos nmeros de pes no vendidos em uma certa padaria at a hora
do encerramento do expediente:
0

Construa a distribuio de freqncias para esses dados.

27

Piana & Machado

Estatstica Descritiva

2.2. Os dados em rol (ordenao horizontal) abaixo se referem aos valores gastos (em reais) pelas
primeiras 50 pessoas que entraram em um determinado Supermercado, no dia 01/01/2000.
3,11

8,88

9,26

10,81

12,69

13,78

15,23

15,62

17,00

17,39

18,36

18,43

19,27

19,50

19,54

20,16

20,59

22,22

23,04

24,47

24,58

25,13

26,24

26,26

27,65

28,06

28,08

28,38

32,03

36,37

38,98

38,64

39,16

41,02

42,97

44,08

44,67

45,40

46,69

48,65

50,39

52,75

54,80

59,07

61,22

70,32

82,70

85,76

86,37

93,34

Faa a distribuio de freqncias desses dados.

28

Piana & Machado

Estatstica Descritiva

2.3.1.3. Representao grfica das distribuies de freqncias


As distribuies de freqncias podem ser representadas graficamente de duas formas distintas
e exclusivas, so elas: o histograma e o polgono de freqncias.
Histograma
O histograma consiste de um conjunto de retngulos contguos cuja base igual amplitude do
intervalo e a altura proporcional freqncia das respectivas classes.
Na figura abaixo podemos observar o histograma da distribuio de freqncias da Tabela 2.13.
Fj

Figura 2.6. Peso ao nascer (em kg) de 60 bovinos machos da raa


Ibag. UFPel, 2001.
Quando trabalhamos com variveis discretas, os retngulos dos histogramas se reduzem a retas
e, conseqentemente, deixam de ser contguos. Vejamos um exemplo de polgono de freqncias na
figura a seguir representando a distribuio da Tabela 2.12.
Fj

Figura 2.7. Nmero de animais portadores de brucelose em 350


propriedades rurais. UFPel, 2001.

29

Piana & Machado

Estatstica Descritiva

Polgono de freqncia
O polgono de freqncias constitudo por segmentos de retas que unem os pontos cujas
coordenadas so o ponto mdio e a freqncia de cada classe. O polgono de freqncias fechado
tomando-se uma classe anterior a primeira e uma posterior a ltima, uma vez que ambas possuem
freqncia zero.
Na Figura 2.8 podemos observar o polgono de freqncias da distribuio da Tabela 2.13.

Figura 2.8. Peso ao nascer (em kg) de 60 bovinos machos da raa


Ibag. UFPel, 2001.

Exerccios propostos:
2.3. Faa a representao grfica (histograma e polgono de freqncias, quando for o caso) das
distribuies de freqncias construdas nos Exerccios 2.1 e 2.2, pginas 27 e 28.

30

Piana & Machado

Estatstica Descritiva

2.2.2. Tabelas de classificao cruzada


Em algumas situaes, pode haver interesse no estudo de duas ou mais variveis
simultaneamente. Da surgem as distribuies conjuntas de freqncias. As tabelas de classificao
cruzada so tabelas de freqncias relativas a duas variveis, numricas ou categricas. Existe um
nmero razovel de tipos de tabelas e grficos para descrever esses casos.
2.2.2.1. Freqncias cruzadas de variveis categricas
Quando um estudo envolve duas variveis categricas (fatores), as tabelas de freqncias
cruzadas dessas duas variveis so conhecidas tambm como tabelas de dupla entrada, tabelas de
associao ou tabelas de contingncia. As regras bsicas para sua construo so semelhantes s das
tabelas de classificao simples. A diferena que agora a tabela apresenta duas margens, cada qual
com os totais referentes a um dos fatores.
Na Tabela 2.14, por exemplo, os 60 alunos da escola E foram classificados segundo duas
variveis categricas: Conceito em Estatstica e Hbito de fumar. Para isso, primeiramente, os alunos
foram classificados de acordo com o Conceito em Estatstica e, posteriormente, dentro de cada nvel
deste fator, foram classificados quanto ao Hbito de fumar.
Tabela 2.14. Distribuio dos alunos da escola E, segundo
o hbito de fumar e conceito em Estatstica.
Hbito de fumar

Conceito

Totais

Sim

No

Ruim

13

Mdio

10

16

26

Bom

10

15

timo

Totais

22

38

60

Podemos observar que, com as freqncias marginais (totais) da tabela cruzada, poderamos
resgatar a tabela de classificao simples de cada fator.
A representao grfica de distribuies de freqncias de variveis categricas pode ser feita
atravs de dois tipos de grficos:
Grficos tridimensionais (estereogramas): compostos por paralelogramos, dispostos em eixos
tridimensionais, separados entre si, cujas bases so determinadas pelos nveis dos fatores e as alturas
pelas suas respectivas freqncias (Figura 2.8).

16
14
12
10
8
6
4
2
No Fumante

Ruim

Mdio

Fumante

Bom

timo

Figura 2.8. Distribuio dos alunos da escola E, segundo o


hbito de fumar e conceito em Estatstica.
31

Piana & Machado

Estatstica Descritiva

Grficos em duas dimenses (diagramas): descrevendo a variao de um fator dentro dos


nveis do outro.
Por exemplo, na Figura 2.9, observamos a variao do fator Hbito de fumar dentro de cada
nvel do fator Conceito em Estatstica, enquanto que, na Figura 2.10, fica mais evidente a variao do
fator Conceito em Estatstica dentro de cada nvel do fator Hbito de fumar.
Pode no ser necessrio apresentar os dois grficos simultaneamente. mais comum
apresentar apenas um deles, de acordo com o fato que se desejamos ressaltar. Assim, no exemplo, se
for mais importante ressaltar a distribuio de fumantes e no fumantes dentro de cada conceito,
utilizamos a Figura 2.9. Se for mais importante ressaltar a distribuio do conceito em estatstica dentro
dos grupos de fumantes e no fumantes, utilizamos a Figura 2.10. Naturalmente, se ambas as situaes
forem relevantes podemos usar os dois.

Nmero de
alunos 18

Nmero de
alunos

No Fumante

16
14
12
10
8
6
4
2
0
Ruim

Mdio

Bom

Conceito

timo

Ruim
Mdio

18
16
14
12
10
8
6
4
2
0

Fumante

Bom
timo

Fumante

Figura 2.9. Distribuio dos alunos da escola E,


segundo o hbito de fumar e conceito em Estatstica.

No Fumante

Figura 2.10. Distribuio dos alunos da escola E,


segundo o hbito de fumar e conceito em Estatstica.

A observao atenta destes grficos j pode fornecer uma idia da possvel associao existente
entre os fatores. Por exemplo, se o um fator apresenta o mesmo comportamento dentro de todos os
nveis do outro, podemos supor que eles no esto associados, ou seja, comportam-se
independentemente um do outro. Devemos observar, entretanto, que os grficos fornecem apenas
indicaes, para verificar tais hipteses (suposies) devemos utilizar os testes apropriados que sero
vistos posteriormente.
2.2.2.2. Freqncias cruzadas de variveis numricas
Ao estudarmos conjuntamente duas variveis numricas, as tabelas de classificao cruzada
so, agora, denominadas tabelas de correlao. As idias bsicas sobre tais tabelas j foram vistas em
itens anteriores.
As tabelas de freqncias cruzadas de duas variveis contnuas tambm so construdas de
modo similar s de classificao simples, ou seja, seguindo todos os passos j descritos na Seo
2.3.1.2. Primeiramente, procede-se a classificao das observaes segundo uma das variveis, para
em seguida, dentro de cada classe da primeira, classific-las de acordo com a outra varivel.Por
exemplo, na Tabela 2.16, observamos a classificao dos 400 alunos do Colgio C, segundo duas
variveis contnuas: Nota em Estatstica e Nota em Matemtica.
Tabela 2.16. Distribuio dos alunos do Colgio C, segundo
suas notas em Estatstica e Matemtica.
Estatstica

Matemtica

Totais

0 | 4

4 | 7

7 | 10

0 | 4

32

25

62

4 | 7

20

183

82

285

7 | 10

27

19

53

Totais

59

235

106

400
32

Piana & Machado

Estatstica Descritiva

Os grficos geralmente utilizados para descrever dados como estes so os histogramas em trs
dimenses (estereogramas), nos quais os retngulos cedem lugar aos paralelogramos. Agora, a base de
cada paralelogramos definida pelas amplitudes das classes das variveis envolvidas. Este tipo de
grfico pouco utilizado em trabalhos cientficos pela dificuldade de execuo e interpretao atravs
dos meios disponveis.
A relao entre duas variveis contnuas tambm comumente representada por diagramas de
disperso. Tomemos outro exemplo: para estudar o relacionamento entre as variveis Peso do pai (X) e
Peso do filho (Y), foram medidos os pesos (em Kg) de dez alunos do Colgio C e de seus respectivos
pais. Os resultados so apresentados numa tabela de correlao:
Observao ( i )

10

Peso dos pais (xi)

78

65

86

68

83

68

75

80

82

66

Peso dos filhos (yi)

60

52

68

53

65

57

58

62

65

53

Esta tabela possibilita a construo do diagrama de disperso de pontos (Figura 2.11). Este tipo
de grfico pode fornecer uma indicao do tipo de relacionamento que existe entre as duas variveis.
Por exemplo, se os pontos apresentarem a forma de elipse indicam a existncia de uma relao linear
(positiva ou negativa) entre as variveis. A Figura 2.11 parece evidenciar um relacionamento linear
positivo entre os pesos dos dez alunos e os pesos dos seus respectivos pais, sugerindo um estudo mais
aprofundado desta correlao.

Figura 2.11. Grfico de disperso dos pesos (em kg) de dez


alunos do Colgio C e de seus respectivos pais.
Atravs da anlise de regresso linear, que ser abordada mais adiante, possvel obter uma
equao do tipo Y = a + bX, que descreve o peso dos filhos (Y) como uma funo linear do peso dos
pais (X).

33

Anda mungkin juga menyukai