Anda di halaman 1dari 4

Praticando estatı́stica com o software R

Prof. Carlos A. S. de Andrade


UFCG/CH/DEF
cantonio@ch.ufcg.edu.br

2 de maio de 2005

1 Introdução
Vamos praticar os comandos do R para realizar uma análise de dados hipotéti-
cos retirados do livro de Fox e Merril 1 . Trata-se de uma análise com estatı́stica descritiva
do problema a seguir:

1. Um pesquisador da estação de rádio WOW de Coolwater, Iowa, aborda, ao acaso,


30 transeuntes e pergunta-lhes a idade. O resultado é a tabela seguinte:

Tabela 1: Idades dos transeuntes entrevistados


30 32 21 15 26 43
18 37 23 14 27 44
16 32 39 21 28 39
42 40 39 22 21 40
35 26 39 25 39 22

Pede-se:

(a) Resuma as informações sob a forma de uma distribuição de freqüência.

2 Resolvendo
Iniciar o software R dando um duplo clique no ı́cone do programa. Aguardar
o prompt no formato do sinal “maior que”(>).
1
Merril, W. C; Fox, K. A. Estatı́stica Econômica: uma introdução, São Paulo: Atlas, 1980. p.52

1
Estando então no ambiente de operação, passamos aos comandos necessários
à realização da tarefa.

Entrada dos dados Para entrar com os dados devemos antes designar uma variável
para recebê-los. Nomearemos esta variável com o nome idade. Assim, para entrar
com os dados fazemos no prompt:

> idade = c(n1,n2,n3,...nn)

Para verificarmos a introdução dos dados digitamos no prompt o nome da variável +


Enter e serão mostrados os valores armazenados. O comando length(variável)
informa a quantidade de valores armazenados, o que também ajuda a conferir a
entrada dos dados.

Comandos de análise Uma vez conferidos os dados armazenados na variável idade,


pode-se passar à análise desta. Os comandos a seguir são comentados depois do
sinal #.

>range(idade) #retorna o menor valor e


# o maior valor da distribuiç~ao
>mean(idade) # retorna a média aritmética
# da variável idade
>sd(idade) # retorna o desvio-padr~ao da distribuiç~
ao
>var(idade) # retorna a vari^ancia da distribuiç~
ao
>fivenum(idade)# retorna uma descriç~
ao sintética
# da distribuiç~
ao

O comando fivenum tem uma especial peculiaridade: informa a caracterı́stica da


distribuição através de 5(cinco) dados: menor valor, primeiro quartil, segundo quar-
til, terceiro quartil e o maior valor. Este sumário também pode ser obtido com o
comando summary(variável) de forma mais extensiva.

2.1 Montando a tabela de distribuição de freqüência


Com os dados fornecidos pelos comandos acima, pode-se classificar a distribui-
ção de acordo com os manuais de estatı́stica. Porém, espera-se em um relatório tabelas

2
de distribuição de freqüência e gráficos que ajudem a visualizar o fenômeno sob análise.
Nesta aula trataremos só da tabela de distribuição de freqüência montada com o R.
O software R é ao mesmo tempo um aplicativo e uma linguagem de progra-
mação orientada a objeto com uso primordial na estatı́stica computacional. Assim, o
que desejamos obter tem de ser primeiro armazenado em um “objeto”, ou seja, em uma
variável 2 .
Desta forma, para obtermos nossa tabela de distribuição de freqüência criamos
a variável frq.idade que armazenará os atributos da tabela, conforme o comando abaixo:

>frq.idade=factor(cut(idade,breaks=14+6*(0:5),include.lowest=T))
>table(frq.idade) #retorna a freqü^
encia absoluta em 5 classes
>table(frq.idade)/length(idade) # retorna a freqü^
encia relativa

3 Resultado
Com o resultado dos comandos acima montou-se a tabela abaixo. Contudo,
o software R tem pacotes que permitem exportar para outros aplicativos, como Word e
outros, a tabela já no formato apresentado.

Tabela 2: Distribuição dos ouvintes por


faixa etária

Faixa etária Freq. Abs. Freq. Relat.

14 a 20 anos 4 0,13
20 a 26 anos 9 0,30
26 a 32 anos 5 0,17
32 a 38 anos 2 0,07
38 a 44 anos 10 0,33
Total 30 1,00
a
Fonte: Merril, W. C.; Fox, K A.Estatı́stica
Econômica: uma introdução.p.52, Exercı́cio
2 Seção 2.1

2
Programação orientada a objeto é um assunto especializado na Ciência da Computação, mas nada
de intransponı́vel para o Cientista Social que queira se aprofundar no uso de ferramentas computacionais
no auxı́lio à análise de fenômenos que se possa quantificar. Na equa equipe do R participam tanto
economistas, bioengenheiros, sociólogos quanto matemáticos e estatı́sticos.

3
4 Exercı́cio
1. Os dados na tabela abaixo referem-se às renda de 50 indivı́duos. Elabore um breve
relatório com as estatı́sticas descritivas e elabore e redija uma conclusão.

(a) Monte uma tabela de distribuição de freqüência para os dados.


(b) Faça uma tabela com as estatı́sticas-resumo para os dados: média aritmética,
mediana, quartis, desvio-padrão e variância.

Tabela 3: Rendas de 50 indivı́duos


5700 1790 3710 9730 4810
8950 3690 1800 4290 2750
940 1560 880 9290 2990
1630 4550 2640 8860 3940
8050 7270 6640 7340 1860
4180 670 4900 5060 2790
6620 9570 3140 950 8520
4230 9620 590 9840 8170
9080 3500 1580 4140 7720
3340 720 3360 1950 4920