Anda di halaman 1dari 104

Apostila

Bioestatstica - MTM 363


Clandio Marques e Rodrigo Fioravanti
Contedo
1 Princpios 4
1.1 Introduo . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 4
1.2 O Mtodo Cientco . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 5
1.3 Denio de Estatstica . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 6
1.4 Fases do Mtodo Estatstico . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 7
1.4.1 Coleta dos Dados . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 7
1.4.2 Crtica dos Dados . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 8
1.4.3 Apurao dos Dados . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 8
1.4.4 Exposio ou Apresentao dos Dados . . . . . . . . . . . . . . . . . . . . . . 8
1.4.5 Anlise dos Resultados . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 8
1.5 Leitura Complementar . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 8
2 Conceitos Bsicos 10
2.1 Populao e Amostra . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 10
2.2 Variveis Estatsticas . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 10
2.3 Exerccios . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 11
3 Apresentao Tabular e Distribuio de Frequncias 13
3.1 Dados Absolutos e Dados Relativos . . . . . . . . . . . . . . . . . . . . . . . . . . . . 15
3.2 Distribuio de Frequncias . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 15
3.3 Exerccios no Excel . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 18
3.4 Grcos de Colunas e Histogramas . . . . . . . . . . . . . . . . . . . . . . . . . . . . 19
3.5 A Distribuio Normal . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 21
3.6 Distribuio de Probabilidade . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 22
4 Medidas de Posio 25
4.1 Introduo . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 25
4.2 Mdia Aritmtica (x) . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 25
4.3 Moda (M
o
) . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 28
4.4 Mediana (M
d
) . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 29
4.5 Exerccios . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 29
5 Separatrizes 33
5.1 Quartis . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 33
5.2 Percentis . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 33
5.3 Exerccios . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 33
6 Medidas de Disperso 35
6.1 Disperso ou Variabilidade . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 35
6.2 Varincia e Desvio Padro . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 36
6.3 Exerccios . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 36
6.4 Coeciente de Variao . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 37
6.5 Exerccios . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 38
1
CONTEDO CONTEDO
7 Outros Grcos 40
7.1 Grco de Pizza . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 40
7.2 Box Plots . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 41
7.3 Trabalho 02 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 42
I Teoria da Amostragem
com Bioestat 44
8 Amostragem 45
8.1 Amostragem vs Censo . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 45
8.2 Amostragem Probabilstica . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 47
8.3 Amostragem Aleatria Simples . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 47
8.4 Amostragem Aleatria Estraticada . . . . . . . . . . . . . . . . . . . . . . . . . . . 48
8.5 Amostragem Aleatria Sistemtica . . . . . . . . . . . . . . . . . . . . . . . . . . . . 49
8.6 Amostragem Aleatria por Conglomerados . . . . . . . . . . . . . . . . . . . . . . . . 50
8.7 Amostragem No-Probabilstica: . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 51
8.8 Exerccios . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 52
8.9 Tamanho Mnimo da Amostra . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 54
8.10 Exerccios . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 58
8.11 Leitura Complementar . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 58
8.12 Trabalho 03 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 59
II Estatstica Inferencial
com Bioestat 61
9 Probabilidade 63
9.1 Interpretaes da Probabilidade . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 64
9.2 A Interpretao da Probabilidade Segundo o Jogador . . . . . . . . . . . . . . . . . . 65
9.3 Probabilidade de Ocorrncia de Um Evento . . . . . . . . . . . . . . . . . . . . . . . 65
9.4 Probabilidade Condicional . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 65
9.5 Eventos Independentes . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 66
9.6 Nvel de Conana e de Signicncia . . . . . . . . . . . . . . . . . . . . . . . . . . . 66
10 Estimao de Parmetros 68
10.1 Estimativas pontuais e intervalares . . . . . . . . . . . . . . . . . . . . . . . . . . . . 68
10.2 Intervalo de Conana para Mdia Populacional quando a Varincia Conhecida . . 68
10.3 Intervalo de Conana para Proporo . . . . . . . . . . . . . . . . . . . . . . . . . . 70
10.4 Exerccios . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 71
11 Testes de Hipteses 74
11.1 A Hiptese Nula e a Hiptese Alternativa . . . . . . . . . . . . . . . . . . . . . . . . 74
11.2 Erro Tipo 1 e Tipo 2 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 75
11.3 Uso dos Testes de Hipteses . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 77
11.4 Classicao dos Testes de Hipteses . . . . . . . . . . . . . . . . . . . . . . . . . . . 77
11.4.1 Testes uni e bilateral . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 78
11.4.2 Testes Paramtricos e No-Paramtricos . . . . . . . . . . . . . . . . . . . . . 80
12 Testes Paramtricos 81
12.1 Teste t . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 81
12.2 Exerccios . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 83
2
CONTEDO CONTEDO
13 Teste No Paramtricos 87
13.1 Vantagens e Desvantagens dos Testes No Paramtricos . . . . . . . . . . . . . . . . 87
13.2 Teste Qui-Quadrado . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 88
13.2.1 Aplicao do Teste Qui-Quadrado . . . . . . . . . . . . . . . . . . . . . . . . 88
13.2.2 Cuidados com o Teste Qui-Quadrado . . . . . . . . . . . . . . . . . . . . . . . 89
13.3 Exerccios . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 89
13.4 Trabalho 04 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 90
13.5 Teste Exato de Fisher . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 91
13.6 Exerccios . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 92
13.7 Teste de Kruskal-Wallis . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 92
13.8 Exerccios . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 93
13.9 Trabalho 05 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 94
14 Correlao Linear 96
14.1 Diagrama de Disperso . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 96
14.2 Coeciente de Correlao Linear - r . . . . . . . . . . . . . . . . . . . . . . . . . . . 98
14.3 Regresso Linear Simples . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 100
14.4 Exerccios . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 102
3
Captulo 1
Princpios
1.1 Introduo
Por Sidia C. Jaques
Na literatura cientca, consultada por prossionais das reas biolgica e da sade, encontramos
expresses como "diferena estatisticamente signicativa", "teste qui-quadrado de associao"e "P
< 0,01", que reetem a importncia, cada vez maior, dada pelos pesquisadores ao tratamento esta-
tstico de seus dados. Quais sero as razes para o emprego de mtodos estatsticos nos trabalhos
cientcos?
Em primeiro lugar, a estatstica, longe de ser mais uma complicao matemtica, tem se mos-
trado um instrumento extremamente til na organizao e na interpretao dos dados. Em segundo
lugar, esta cincia propicia uma avaliao adequada da variabilidade observada nos processos bio-
lgicos. sabido que existem diferenas entre os indivduos e que eles reagem de forma diferente a
estmulos idnticos; por outro lado, o mesmo indivduo apresenta variaes de um momento para
outro. Em vista disto, o pesquisador consciencioso deseja saber qual o grau de conabilidade de
seus resultados. Ele se pergunta, por exemplo, se os resultados poderiam ter sido obtidos por acaso,
se o novo tratamento proposto foi realmente mais eciente, se a associao observada entre as va-
riveis real, se o mtodo de seleo de indivduos foi adequado, se a anlise dos dados empregou
os mtodos adequados s variveis estudadas. Todas essas questes podem ser respondidas com o
auxlio da estatstica.
O papel da estatstica na investigao cientca vai alm de indicar a sequncia de clculos
a serem realizados com os dados obtidos. No planejamento, ela auxilia na escolha das situaes
experimentais e na determinao da quantidade de indivduos a serem examinados. Na anlise
dos dados, indica tcnicas para resumir e apresentar as informaes, bem como para comparar as
situaes experimentais. Na elaborao das concluses, os vrios mtodos estatsticos permitem
generalizar a partir dos resultados obtidos. De um modo geral, no existe certeza sobre a correo
das concluses cientcas; no entanto, os mtodos estatsticos permitem determinar a margem de
erro associada s concluses, com base no conhecimento da variabilidade observada nos resultados.
Inicialmente, a estatstica ocupava-se em descrever quantitativamente os vrios aspectos dos
assuntos de um governo ou estado
1
, remontando poca em que surgiram as primeiras cidades.
Comeava, ento, a necessidade de se enumerarem coisas e pessoas para a avaliao das riquezas e
para o cadastramento das propriedades. Os censos
2
j eram realizados anualmente em Atenas e, a
cada quadrinio, em Roma, nas festas de puricao da comunidade, quando era necessrio saber
se todos estavam presentes ou representados.
1
O termo estatstica surge da expresso em latim statisticum collegium palestra sobre os assuntos do Estado, de
onde surgiu a palavra em lngua italiana statista, que signica "homem de estado", ou poltico, e a palavra alem
Statistik, designando a anlise de dados sobre o Estado. A palavra foi proposta pela primeira vez no sculo XVII,
em latim, por Schmeitzel na Universidade de Jena e adotada pelo acadmico alemo Godofredo Achenwall. Aparece
como vocabulrio na Enciclopdia Britnica em 1797, e adquiriu um signicado de coleta e classicao de dados, no
incio do sculo XIX.
2
Ela vem do Latim CENSUS, lista de nomes e propriedades dos cidados romanos
4
1.2. O MTODO CIENTFICO CAPTULO 1. PRINCPIOS
Um dos primeiros censos de que se tem notcia escrita foi o ordenado pelo imperador romano
Csar Augusto, realizado na Palestina, por volta do ano zero da era crist. Outro recenseamento
famoso foi o realizado, na Inglaterra, por Guilherme I, duque normando que havia derrotado os
ingleses. O cadastro geral das coisas inglesas com ns de tributao, feito em 1085-1086, foi chamado
pelos ingleses de "Domesday (ou Doomsday) Book", o livro do juzo nal, nome que bem revela as
expectativas da populao quanta carga tributria por vir.
Por muito tempo, o aspecto descritivo da estatstica manteve-se como a nica faceta desta ci-
ncia. As coisas comearam a mudar no sculo XVII, com as primeiras interpretaes de dados.
Em 1693, foram publicados, em Londres, os primeiros totais anuais de falecimentos, discriminados
por sexo. Eram o resultado de levantamentos iniciados em 1517, quando a peste atacava periodi-
camente a Europa. Christian Huygens (1629-1695), fsico e astrnomo holands, construiu depois
uma curva de mortalidade a partir dos dados publicados.
O estudo formal da teoria de probabilidades, iniciado por Blaise Pascal (1623-1662) e Pierre de
Fermat (1601-1665), constitui-se em importante marco no desenvolvimento da estatstica. Graas
a esses conceitos, a estatstica comeou a ser estruturada de modo a poder desempenhar seu papel
mais nobre, o de auxiliar na tomada de decises cientcas.
Estudiosos de diferentes campos do conhecimento zeram a ligao entre os aspectos tericos de
probabilidade e estatstica e a prtica. Lambert Adolphe Jacques Quetelet (1796-1874), astrnomo
e matemtico belga, foi o primeiro a usar a curva normal fora do contexto da distribuio dos erros
e aplicou conhecimentos estatsticos na soluo de problemas de biologia, medicina e sociologia.
Francis Galton (1822-1911) , por sua vez, empregou a estatstica no estudo da variao biolgica
e tentou, sem sucesso, resolver problemas de hereditariedade. Karl Pearson (1857-1936) tambm
interessou-se pela aplicao dos mtodos estatsticos biologia, em especial, a estudos sobre a
seleo natural. Alm de ser o pai do teste qui-quadrado, a ele se devem inmeros estudos e medidas
de correlao entre variveis. Um aluno de Pearson, William S. Gosset (1876-1937), dedicou-se a
solucionar problemas prticos com amostras pequenas. Um dos resultados de seus estudos a
distribuio t, de ampla aplicao em vrios campos da cincia.
Uma das guras modernas mais importantes da bioestatstica (e da estatstica em geral, j
que desenvolveu mtodos para solucionar vrios tipos de problemas) foi, sem dvida, Fisher , que
assentou as bases para a experimentao estatisticamente controlada. Vrios modos de analisar os
dados de amostras pequenas foram propostos por Fisher, que tambm tem importantes contribui-
es na anlise simultnea de muitas variveis, dando considervel impulso ao uso da estatstica
em inmeras reas do conhecimento, particularmente na agronomia, na biologia e na gentica.
Figura 1.1: Sir Ronald Aylmer Fisher (1890-1962)
1.2 O Mtodo Cientco
Muitos dos conhecimentos que temos foram obtidos na Antiguidade por acaso e, outros, por neces-
sidades prticas, sem aplicao de um mtodo.
5
1.3. DEFINIO DE ESTATSTICA CAPTULO 1. PRINCPIOS
Atualmente, quase todo acrscimo de conhecimento resulta da observao e do estudo. Mesmo
que muitos desses conhecimentos possam ter sido observados inicialmente por acaso, a verdade
que desenvolvemos processos cientcos para seu estudo.
Mtodo um conjunto de meios dispostos convenientemente para se chegar a um m que se
deseja.
Mtodo Experimental
Mtodo experimental consiste em manter constantes todas as causas (fatores), menos uma, e variar
esta causa de modo que o pesquisador possa descobrir seus efeitos, caso existam.
o mtodo preferido no estudo da Fsica, da Qumica etc.
Mtodo Estatstico
Muitas vezes temos necessidade de descobrir fatos em um campo em que o mtodo experimental
no se explica (nas cincias sociais, humanas ou da sade, por exemplo), j que os vrios fatores
que afetam o fenmeno em estudo no podem permanecer constantes enquanto fazemos variar a
causa que, naquele momento, nos interessa.
Quando no possvel xar variveis, lanamos mo de outro mtodo, embora mais difcil e
menos preciso, o denominamos de mtodo estatstico.
Mtodo estatstico, diante da impossibilidade de manter as causas constantes, admite todas essas
causas presentes variando-as, registrando essas variaes e procurando determinar, no resultado
nal, que inuncias cabem a cada uma delas.
1.3 Denio de Estatstica
Para Magalhes
3
estatstica a cincia que utiliza-se das teorias probabilsticas para explicar a
frequncia da ocorrncia de eventos, tanto em estudos observacionais quanto em experimentos que
visam a modelar a aleatoriedade e a incerteza de forma a estimar valores nesses eventos.
claro que nem todas as pessoas tm formao para entender os clculos feitos por quem
trabalha na rea, mas todos devem compreender as informaes passadas por eles, pois lidamos
com estatstica o tempo todo, armou Magalhes. A compreenso se daria a partir do momento em
que os professores desmisticam a matemtica, fazendo isso, principalmente, com a alfabetizao
estatstica, isto , fazer os estudantes entender grcos e diagramas encontrados no cotidiano das
pessoas, de modo a contextualizar a importncia do que est sendo dito (Magalhes).
A palavra estatstica de do latim STATUS que signica ESTADO. Em suma, a Estatstica a
cincia que aplica processos prprios para coletar, apresentar e interpretar adequadamente os dados,
sendo numricos ou no. Tem como objetivo apresentar informaes sobre dados em anlises para
que se tenha maior compreenso dos fatos que os mesmos representam.
considerada um mtodo cientco pois resulta de um conjunto de regras e princpios que
produzem resultados controlados ou previsveis a partir de dados aleatrios levando a um
objetivo almejado.
H trs ramos da estatstica: descritiva, probabilstica e inferencial.
Estatstica Descritiva:
Como o prprio nome diz, descreve, ou seja, organiza, sumariza e descreve um conjunto de dados,
atravs da construo de grcos, tabelas, e com clculo de medidas com base em uma coleo de
dados numricos. Ou seja, tenta tornar os dados mais fceis de ler, interpretar e discuti-los.
A estatstica descritiva, descreve os dados de trs maneiras:
Tabela: um quadro que resume um conjunto de observaes.
3
Marcos Magalhes, do Departamento de Estatstica (MAE) do Instituto de Matemtica e Estatstica da Univer-
sidade de So Paulo (IME-USP)
6
1.4. FASES DO MTODO ESTATSTICO CAPTULO 1. PRINCPIOS
Grcos: so formas didticas udios-visuais de apresentar os dados, com o objetivo de pro-
duzir uma impresso mais rpida dos dados ou fenmenos.
Medidas descritivas: so formulaes matemticas usadas para interpretar grandes quanti-
dades de dados agrupados.
Estatstica Probabilstica:
onde estuda-se o acaso, ou seja, atravs de clculos matemticos, pretende-se prever a ocorrncia
de dados aleatrios.
Estatstica Inferencial:
Destina-se anlise e interpretao de dados amostrais, ou seja, consiste em efetuar determinada
mensurao sobre uma parcela pequena, mas tpica, de determinada populao e utilizar essa
informao para fazer inferncias sobre a populao toda. A exemplo: colocar a ponta do p na
gua para avaliar a temperatura desta na piscina.
1.4 Fases do Mtodo Estatstico
Os dados estatsticos lidam com nmeros, ou seja, envolvem a anlise e interpretao de nmeros.
Para interpretar estes nmeros faz-se necessria uma organizao racional dos dados, portanto,
inicia-se determinando a diferena entre dados e informao.
Dados so nmeros ou valores coletados primariamente, e quase sempre no tem sentido. J
a informao compreende o processamento dos dados, reduzindo a quantidade de detalhes e facili-
tando o encontro de relaes. Portanto os dados, quando coletados, so reunidos atravs de tcnicas
estatsticas e posteriormente apresentados na forma de TABELAS ou GRFICOS; isto faz com
que sejam eliminados detalhes no importantes e enfatizados os aspectos cruciais dos dados.
Estes dados estatsticos so obtidos atravs de um processo que envolve a observao; e os itens
observados so chamados de variveis. Variveis so valores que tendem a exibir certo grau de
variabilidade quando se fazem mensuraes sucessivas.
1.4.1 Coleta dos Dados
Aps o cuidadoso planejamento e a devida determinao das caractersticas mensurveis do fen-
meno coletivamente tpico que se quer pesquisar, damos incio coleta de dados numricos neces-
srios a sua descrio.
A coleta pode ser direta ou indireta.
A coleta direta quando feita sobre elementos informativos de registro obrigatrio (nascimento,
casamento e bitos, importao e exportao de mercadorias), elementos pertinentes aos prontu-
rios dos alunos de uma escola ou, ainda, quando os dados so coletados pelo prprio pesquisador
atravs de inquritos e questionamentos, como e o caso das notas de vericao e de exames, do
censo demogrco, etc..
A coleta direta de dados pode ser classicada relativamente ao fator tempo em:
Contnua (registro) quando feita continuamente, tal como a de nascimento e bitos e a de
frequncia dos alunos nas aulas;
Peridica quando feita em intervalos constantes de tempo, como os censos (de 10 em 10 anos)
e as avaliaes mensais dos alunos;
Ocasional quando feita extemporaneamente, a m de atender a uma conjuntura ou a uma
emergncia, como no caso de epidemias.
A coleta se diz indireta quando inferida de elementos conhecidos (coleta direta) e/ou do co-
nhecimento de outros fenmenos relacionados com o fenmeno estudado. Como exemplo, podemos
citar a pesquisa sobre a mortalidade infantil, que e feita atravs de dados colhidos por uma coleta
direta.
Mas se levarmos em considerao a natureza dos dados estes podem ser:
7
1.5. LEITURA COMPLEMENTAR CAPTULO 1. PRINCPIOS
Contnuos: trata-se de dados quantitativos em que as variveis podem assumir virtualmente
qualquer valor num intervalo de valores, ou quando feita continuamente.
Exemplo: altura, peso, comprimento, espessura, velocidade, etc.
Discretos: tambm so dados quantitativos que s podem assumir valores inteiros. Os dados
discretos surgem na contagem do nmero de itens com determinada caracterstica.
Exemplo: nmero dirio de clientes, alunos numa sala, nmero de acidentes dirios numa fbrica
e outros.
Nominais: so dados qualitativos e caracterizam-se pela denominao de categorias ou nomes,
geralmente compreendem variveis que no relacionam-se a priori com nmeros.
Exemplo: sexo, cor dos olhos, campo de estudo, desempenho no trabalho, etc.
Por Posto: apesar de lidarem com nmeros, so considerados dados de natureza qualitativa, pois
se referem a avaliaes subjetivas; quando se dispem os itens segundo preferncia ou desempenho.
So valores relativos atribudos para denotar ordem.
Exemplo: primeiro, segundo, terceiro ...
1.4.2 Crtica dos Dados
Obtidos os dados, eles devem ser cuidadosamente criticados a procura de possveis falhas e im-
perfeies, a m de no incorrermos em erros grosseiros ou de certo vulto, que possam inuir
sensivelmente nos resultados.
A crtica externa quando visa as causas dos erros por parte do informante, por distrao ou
m interpretao das perguntas que lhe foram feitas; e interna, quando visa observar os elementos
originais dos dados da coleta.
1.4.3 Apurao dos Dados
Nada mais do que a soma e o processamento dos dados obtidos e a disposio mediante critrios
de classicao. Pode ser manual, eletromecnica ou eletrnica.
1.4.4 Exposio ou Apresentao dos Dados
Por mais diversa que seja a nalidade que se tenha em vista, os dados devem ser apresentados sob
forma adequada (tabela ou grco), tornando mais fcil o exame daquilo que est sendo objeto de
tratamento estatstico e ulterior obteno de medidas tpicas.
1.4.5 Anlise dos Resultados
O objetivo da Estatstica e tirar concluses sobre o todo (populao) a partir de informaes forne-
cidas por parte representativa do todo (amostra). Assim, realizadas as fases anteriores (Estatstica
Descritiva), fazemos uma anlise dos resultados obtidos, atravs dos mtodos da Estatstica Indu-
tiva ou Inferencial e tiramos desses resultados as concluses e previses.
1.5 Leitura Complementar
INFORMAO EM SADE
Arlinda B. Moreno
Claudia Medina Coeli
Sergio Munck
GNESE DO CONCEITO E DESENVOLVIMENTO HISTRICO
Para reetir sobre a expresso Informao em Sade podemos nos remeter necessidade exis-
tente, desde a antiguidade, do ser humano comunicar algo a algum (ou a alguma coletividade)
8
1.5. LEITURA COMPLEMENTAR CAPTULO 1. PRINCPIOS
sobre sua prpria sade ou sobre a sade de algum (ou de algum grupo de pessoas) a ele relacio-
nado. Ou seja, preliminarmente, a Informao em Sade pode ser pensada como um compsito de
transmisso e/ou recepo de eventos relacionados ao cuidado em sade.
Assim sendo, podemos inferir que no tarefa fcil demarcar o incio do uso dessa terminologia
no campo da sade. Mas, certamente, a partir do sculo XIX, perodo que marca o recrudesci-
mento dos estudos em epidemiologia, que a necessidade de comunicar questes relacionadas sade
das populaes se torna a grande alavanca para a disseminao das Informaes em Sade. Quase
que concomitantemente, a estatstica do nal desse sculo XIX e incio do sculo XX, inspiradora
de estudiosos como Benthan, Price, Laplace, Galton (Rosen, 1994) pode ser vista, tambm, como
um ponto de partida importante para a gerao de Informaes em Sade de forma agregada e
preditiva. Da, pode-se partir, sem muito pecado, para as primeiras peas da Informao em Sade,
compostas pelas Estatsticas Vitais, pelas Tbuas de Sobrevida, enm, por instrumentos de predi-
o e inferncia de estados de sade a partir do status atual de um grupo de pessoas em determinado
contexto de sade. E, no correr da histria, numerosos desdobramentos para a expresso Informa-
o em Sade transformaram-se, praticamente, em subreas distintas e dirigidas, principalmente,
a subsidiar, no apenas a populao em geral, mas tambm gestores da rea sade: sobre: perl
da populao (de que adoece e morre, dados demogrcos e socioeconmicos); servios prestados;
materiais e medicamentos consumidos; fora de trabalho envolvida; para conhecer: necessidades
da populao atendida; uso potencial e real da rede instalada; investimentos necessrios; a m de
planejar, controlar e avaliar as aes e servios de sade (EPSJV, 2005).
Como marcos histricos para tanto, tem-se, no sculo XVII, na Alemanha, o surgimento da
chamada topograa poltica ou uma descrio das condies atuais do pas, proposta por Leibniz,
em cuja descrio deveriam constar: o nmero de cidades (maiores e menores) e de aldeias; a
populao total e a rea do pas em acres; a enumerao de soldados, mercadores, artesos e
diaristas; as informaes sobre as relaes entre os ofcios; o nmero de mortes e das causas de
morte (Rosen, 1980). Em decorrncia dessa e de outras aes semelhantes, surgiram os inquritos
de morbidade e as estatsticas dos servios de sade. Na gnese da vigilncia epidemiolgica,
inegvel a inuncia de Farr, que realizou atividades de coleta, processamento e anlise de dados e
sua divulgao para as autoridades sanitrias. Quando observamos o clebre estudo sobre o clera
realizado por Snow, impossvel negar o uso das Informaes em Sade constantes dos mapas de
ponto e do raciocnio epidemiolgico no controle desta doena, j no sculo XIX.
A essa altura , tambm, de suma importncia destacar o papel fundamental do desenvolvimento
das cincias da computao, no sculo XX, e, portanto, da informtica como instrumental necessrio
e multiplicador tanto das metodologias estatsticas quanto das Informaes em Sade. Ressalte-se,
tambm, que esse desenvolvimento tecnolgico tem papel crucial em inovaes intrnsecas rea da
sade, tais como: a) a disseminao e facilitao da acessibilidade s bases de dados em sade; b) o
surgimento e a propagao da informtica mdica; c) a concepo e a implementao do pronturio
eletrnico do paciente, entre outros.
9
Captulo 2
Conceitos Bsicos
2.1 Populao e Amostra
Populao o conjunto de entes portadores de, pelo menos, uma caracterstica comum. Ex. fazer
uma pesquisa entre os alunos das escolas de Ensino Fundamental: precisamos denir quais so os
alunos que formam o universo, ou seja, os que atualmente esto no colgio ou devemos incluir os que
j passaram pela escola? A soluo do problema depende de cada caso em particular. Na maioria
das vezes, por impossibilidade ou inviabilidade econmica ou temporal, limitamos a pesquisa a
apenas uma parte da populao. A essa parte proveniente da populao em estudo denominamos
amostra.
Exemplo: O nmero de enfermeiros de um hospital 233. Uma pesquisa sobre opo de
horrio de trabalho pode ser feita com apenas 20 enfermeiros tomados ao acaso.
Tabela 2.1: Exemplos de Populao e Amostra
Varivel de Interesse Populao Amostra
1 Insalubridade Todos os enfermeiros do hospital 20 enfermeiros do hospital
2 Tipo Sanguneo Total de enfermeiros do hospital enfermeiros do bloco cirrgico
3 Tipo Sanguneo Sangue num indivduo de 70kg 3 gotas de sangue
4 Salrio Enfermeiros no territrio brasileiro Alguns enfermeiros de cada estado
5 Anos de Trabalho Total de enfermeiros do hospital enfermeiros do pronto socorro
6 Nmero de Filhos Total de enfermeiros do hospital enfermeiros da pediatria
2.2 Variveis Estatsticas
Qualquer atributo medido numa pesquisa: renda familiar, nmero de indivduos de uma famlia,
etc.
Variveis Qualitativas: expressam qualidade. Representadas por palavras.
Exemplo: sexo (masculino ou feminino), grau de instruo (fundamental, mdio ou superior),
estado civil (solteiro, casado, ...).
10
2.3. EXERCCIOS CAPTULO 2. CONCEITOS BSICOS
Nominal: Os indivduos so classicados em categorias segundo uma caracterstica.
Exemplo: hbito de fumar (fumante, no fumante), sobrepeso (sim, no).
No existe ordem entre as categorias e suas representaes, se numricas, so destitudas
de signicado numrico.
Exemplo: sexo masculino = 1, sexo feminino = 2. Os valores 1 e 2 so apenas rtulos.
Exemplo: Voc tem diabetes? Sim. No. No sei.
Voc fumante? Sim. No. J fui.
Exemplo: Qual o seu tipo de sangue? A. B. AB. O. No sei.
Ordinal: Os indivduos so classicados em categorias que possuem algum tipo inerente
de ordem. Neste caso, uma categoria pode ser "maior"ou "menor"do que outra.
Exemplo: nvel scio-econmico (A, B, C e D; onde A representa maior poder aquisi-
tivo); nvel de retinol srico (alto, aceitvel, baixo, deciente) onde alto: maior ou igual
a 50,0 g/dl; aceitvel: 20,0 a 49,9 g/dl, baixo: 10,0 a 19,9 g/dl e deciente: menor
ou igual a 10,0 g/dl. Estes critrios so do Commitee on Nutrition for National Defense
ICNND/USA, 1963 (in Prado MS et al , 1995).
Variveis Quantitativas: expressam quantidade. Representadas por nmeros.
Discretas: o resultado numrico da mensurao um valor inteiro.
Exemplo: nmero de refeies em um dia (nenhuma, uma, duas, trs, quatro, ...),
frequncia de consumo semanal de determinado alimento (1 vez, 2 vezes, 3 vezes, 4
vezes, 5 vezes, 6 vezes, 7 vezes), nmero de lhos.
Contnuas: podem assumir qualquer valor do intervalo.
Exemplo: estatura, salrio, nvel de retinol srico (g/dl), circunferncia da cintura
(cm).
Observao: incorreto fazer a simplicao "se tem nmero quantitativo", pois muitas
vezes, os nmeros podem ser meros rtulos, tal como o nmero na camisa de um jogador.
Exerccio: Preencha o quadro abaixo VQO(varivel qualitativa ordinal), VQN(varivel quali-
tativa nominal), VQTD(varivel quantitativa discreta), VQTC(varivel quantitativa contnua)
2.3 Exerccios
1. Foi encomendado um estudo para avaliao de uma entidade de ensino superior. Para isso, aplicou-se
um questionrio e obtiveram-se respostas de 110 alunos. Indique:
(a) a varivel em estudo;
(b) a populao em estudo;
(c) a amostra escolhida.
2. Os dados abaixo referem-se a medidas de prostaglandina (pg/ml) e clcio (ml/dl) em pacientes com
cncer apresentando ou no hipercalcemia. Classique as variveis envolvidas no estudo, o tamanho
amostral e as populaes de interesse.
3. Classique as seguintes variveis em: Quantitativas (Discretas ou Contnuas) ou Qualitativas (Nomi-
nais ou Ordinais).
(a) A cor da pele de pessoas (ex.: branca, negra, amarela). Varivel do tipo e
.
(b) O nmero de consultas mdicas feitas por ano por um associado de certo plano de sade. Varivel
do tipo e .
(c) O teor de gordura, medido em gramas por 24 horas, nas fezes de crianas de 1 a 3 anos de idade.
(Ex: 23,4 g) Varivel do tipo e .
11
2.3. EXERCCIOS CAPTULO 2. CONCEITOS BSICOS
Tabela 2.2: Tipos de variveis
Populao Varivel Opo para a varivel Classicao
Enfermeiros Salrio bruto R$ 2003,52
do Brasil mensal
Odontlogos de Anos de 1,5/2/4
uma clnica trabalho
Professores do Produo 0, 1, 2, 3,...
curso de Farmcia cientca
Funcionrios Tipo A, B, AB, O
de um hospital sanguneo
Enfermeiros Insalubridade Recebe, no recebe
de um hospital
Candidatos ao Sexo M, F
curso de Nutrio
Professores Nmero de 0, 1, 2, 3, ...
UNIFRA nutricionistas
Professores Nvel de stress Alto, mdio, baixo
de um curso
Tabela 2.3: Prostaglandina e clcio em pacientes com cncer.
IPGE Calcium status
500.00 13.30 hyper
301.00 13.40 hyper
254.00 10.10 nonhyper
150.00 8.60 nonhyper
100.00 9.70 nonhyper
(d) O tipo de droga que os participantes de certo estudo tomaram, registrados como: Droga A,
Droga B e placebo. Varivel do tipo e .
(e) A presso intra-ocular, medida em mmHg, em pessoas. Varivel do tipo e .
(f) O nmero de lhos das pacientes participantes de certo estudo. Varivel do tipo e
.
12
Captulo 3
Apresentao Tabular e Distribuio
de Frequncias
Um dos objetivos da Estatstica sintetizar os valores que uma ou mais variveis podem assumir,
para que tenhamos uma viso global da variao desta ou destas variveis. E isso ela consegue,
inicialmente, apresentando esses valores em tabelas e grcos, que iro nos fornecer rpidas e
seguras informaes a respeito das variveis em estudo.
Tabela um quadro que resume um conjunto de observaes.
As tabelas devem obedecer ao seguinte postulado:
"Obter um mximo de esclarecimentos com um mnimo de espao e tempo."
Exemplos:
Tabela 3.1: Taxa de Colesterol (mg/dl) em 30 pacientes.
248 157 124 124 215 312 254 156 132 145
214 256 258 298 189 178 186 231 301 265
298 178 196 152 144 185 132 289 264 256
Tabela 3.2: Distribuio de idade dos pacientes portadores de mieloma mltiplo.
Idade (anos) Frequncia Absoluta Frequncia Relativa
10 - 19 57 18,54
20 - 29 113 37,42
30 - 39 57 18,87
40 - 49 32 10,62
50 - 59 19 6,29
60 - 69 7 2,29
> 70 2 0,67
Indeterminada 13 4,3
Total 302 100
Tabela 3.3: Pacientes portadores de mieloma mltiplo.
Ano do Diagnstico Sexo Total
Masculino Feminino
1998 50 44 94
1999 54 46 100
2000 59 49 108
Total 163 139 302
13
CAPTULO 3. APRESENTAO TABULAR E DISTRIBUIO DE FREQUNCIAS
Uma tabela e mesmo um grco podem ser decompostos em partes: Cabealho, Corpo e Ro-
dap.
Figura 3.1: Partes de uma tabela.
Cabealho - O cabealho, que a apresentao do que a tabela est procurando representar,
deve conter o suciente para que sejam respondidas as seguintes questes: O QU? (referente ao
fato), ONDE? (relativo ao lugar), QUANDO? (correspondente ao tempo).
Exemplo: Acidentes de trabalho ocorridos no Hospital X em 2006.
O qu? - (fato): Acidentes de trabalho.
Onde? - (lugar): Hospital X.
Quando? - (tempo): 2006.
Corpo - O corpo de uma tabela representado por uma srie de colunas e subcolunas, dentro
das quais so colocados os dados apurados.
Segundo o corpo, as tabelas podem ser: de Entradas Simples, de Dupla Entrada e de Mltipla
Entrada.
Rodap - No rodap de uma tabela devemos colocar a legenda e todas as observaes que venham
a esclarecer a interpretao da tabela Geralmente tambm no rodap que se coloca a fonte dos
dados embora em alguns casos ela possa ser colocada tambm no cabealho. A fonte serve para
dar maior autenticidade tabela.
CONSIDERAES
O ttulo da tabela deve indicar a natureza e a abrangncia geogrca e/ou temporal dos
dados. colocado na parte superior, precedido da palavra Tabela e de seu nmero de ordem
seguido de travesso.
As tabelas so numeradas consecutivamente e independentemente das ilustraes, em alga-
rismos arbicos.
A tabela no deve ser fechada lateralmente.
No h obrigatoriedade de linha vertical entre as colunas, mas esta pode ser utilizada desde
que seja necessrio, o que ocorre quando a tabela apresenta muita informao (muitas colunas
e/ou muitas linhas).
No devem ser utilizados traos horizontais separando as linhas com exceo do cabealho e
da ltima linha.
As linhas pontilhadas facilitam a leitura, mas no so obrigatrias.
14
3.1. DADOS ABSOLUTOS E DADOS RELATIVOS CAPTULO 3. APRESENTAO TABULAR E DISTRIBUIO DE FREQUNCIAS
Nenhuma clula deve car em branco; a ausncia do dado expressa por um trao (-) e a falta
de conhecimento deste (dado ignorado) expressa por trs pontos (...). Quando h dvida
quanto a um fato numrico, pode-se ainda segui-lo de um ponto de interrogao (?).
Notas so utilizadas para claricar os dados. As notas fornecem informaes de natureza
geral, destinadas a explicitar ou a esclarecer o contedo da tabela ou a indicar a metodologia
adotada no levantamento de dados e so colocadas no rodap da tabela, abaixo da fonte,
sendo listadas assim: 1, 2, 3 etc.
A fonte da tabela deve ser citada aps a linha de fechamento da mesma. Recomenda-se a
citao da fonte quando reproduzidas de outros documentos. A prvia autorizao do autor
se faz necessria, no sendo mencionada na mesma. Quando os dados apresentados na tabela
foram levantados pelo autor do trabalho por meio de uma pesquisa de campo (questionrios,
formulrios, entrevistas), pode-se utilizar como fonte as expresses o autor ou pesquisa de
campo.
As tabelas devem estar centralizadas em relao s margens esquerda e direita.
3.1 Dados Absolutos e Dados Relativos
Os dados estatsticos resultantes da coleta direta da fonte, sem outra manipulao seno a contagem
ou medida, so chamados dados absolutos. A leitura dos dados absolutos sempre enfadonha e
inexpressiva; embora esses dados traduzam um resultado exato e el, no tem a virtude de ressaltar
de imediato as suas concluses numricas.
Dados relativos so o resultado de comparaes por quociente (razes) que se estabelecem
entre dados absolutos e tem por nalidade realar ou facilitar as comparaes entre quantidades.
Traduzem-se os dados relativos, em geral, por meio de percentagens, ndices, coecientes e taxas.
Exemplo: A tabela abaixo apresenta o nmero de irmos relatados por 115 estudantes univer-
sitrios da UFRGS (dados obtidos entre 1986 e 1992)
Tabela 3.4: Quantidade de irmos de alunos da UFRGS.
N
o
de irmos Frequncia
0 8
1 20
2 40
3 26
4 9
5 7
6 4
7 0
8 0
9 1
Total
Determine o percentual de estudantes que tm 3 irmos.
3.2 Distribuio de Frequncias
uma srie estatstica especca, onde os dados encontram-se dispostos em classes ou categorias
juntamente com as frequncias correspondentes. Desta forma, podemos dividir as distribuies de
15
3.2. DISTRIBUIO DE FREQUNCIAS CAPTULO 3. APRESENTAO TABULAR E DISTRIBUIO DE FREQUNCIAS
frequncias em dois tipos:
Tipo A ou Tipo I: Dados No Agrupados
Usada para variveis qualitativas ou ento quantitativas discretas com poucos valores diferentes.
Tabela 3.5: Nmero de mdicos na populao, pases selecionados, 1984.
Pas Habitantes por Mdico
Chile 1.230
Brasil 1.080
Frana 320
EUA 470
Argentina 370
Exemplo: nmero de cries dos alunos do 1
o
ano do Colgio X; quantidade de livros de
bioestatstica na biblioteca da UNIFRA.
Eis um exemplo de distribuio de frequncias para varivel discreta (tipo A):
Tabela 3.6: Nmero de cries por aluno em uma escola X da cidade (Santa Maria/2008).
Nmero de Cries (X
i
) Nmero de Alunos (f
i
)
0 35
1 20
2 13
3 6
4 4
5 ou mais 2
Total 80
Tipo B ou Tipo II: Dados Agrupados
Usada para variveis quantitativas contnuas ou discretas com muitos valores diferentes. No
possvel enumerar todos os valores. Geralmente esta varivel provm de medies.
Exemplo: peso dos alunos de uma turma; presso arterial; nota de aproveitamento dos alunos.
Exemplo:
Tabela 3.7: Notas nais de 50 estudantes da disciplina de bioestatstica.
22 46 9 40 57 22 22 13 50 42
35 2 15 41 34 52 32 75 69 44
26 42 60 56 30 3 17 79 45 37
0 12 62 50 45 41 59 11 66 39
43 33 70 50 47 20 36 40 67 29
Ento a distribuio de frequncia ser expressa pela tabela:
Onde f
i
a frequncia absoluta das classes.
Para explicar a colocao das notas dos alunos, segundo uma distribuio do tipo B, necessitar
de algumas denies.
Assim:
1. Dados Brutos: Aqueles que no foram numericamente organizados, como o caso das 50
notas dos alunos.
2. Rol: o arranjo dos dados brutos em ordem de grandeza crescente ou decrescente. Portanto,
teramos:
16
3.2. DISTRIBUIO DE FREQUNCIAS CAPTULO 3. APRESENTAO TABULAR E DISTRIBUIO DE FREQUNCIAS
Tabela 3.8: Notas nais de estudantes da disciplina de bioestatstica.
Notas f
i
010 4
1020 5
2030 6
3040 8
4050 12
5060 7
6070 5
7080 3
Total 50
0 2 3 9 11 12 13 15 17 20
22 22 22 26 29 30 32 33 34 35
36 37 39 40 40 41 41 42 42 43
44 45 45 46 47 50 50 50 52 56
57 59 60 62 66 67 69 70 75 79
3. Intervalo de Classe: Existem vrias maneiras de apresentarmos o intervalo de classes:
iguais ou diferentes entre si. Porm, sempre que possvel, deveremos optar por intervalos
iguais, o que facilitar os clculos posteriores.
Mas mesmo com intervalos iguais, as distribuies podero apresentar-se da seguinte forma:
0 10: compreende todos os valores entre 0 e 10, exclusive os extremos.
0 10: compreende todos os valores entre 0 e 10, inclusive os extremos.
0 10: compreende todos os valores entre 0 e 10, inclusive o 10 e exclusive o 0.
0 10 (ou 0 10): compreende todos os valores entre 0 e 10, inclusive o 0 e exclusive o 10.
Como optaremos por este ltimo tipo (0 10), poderemos denir como intervalo de classe
a diferena entre o limite superior e o limite inferior da classe. Portanto, no exemplo, 10 0
= 10 o intervalo ou amplitude da classe.
4. Amplitude Total ou "Range": a diferena entre o maior e o menor dado. Em nosso
caso, a nota maior 79 a menor 0; logo, nossa amplitude total 79 0 = 79. Cumpre
observar que, quando no dispusermos dos dados, o clculo da amplitude se far levando-se
em considerao a diferena entre o limite superior da ltima classe e o limite inferior da
primeira classe.
5. Nmero de Classes (K): quantas classes sero necessrias para representar o fato? Existem
vrios critrios que podem ser utilizados a m de possuirmos uma idia do melhor nmero
de classes, porm tais critrios serviro apenas como indicao e nunca como regra xa, pois
caber sempre ao pesquisador estabelecer o melhor nmero, levando-se em conta o intervalo
de classe e a facilidade para os posteriores clculos numricos.
6. Amplitude ou Intervalo de Classes (h):
h =
amplitude total
nmero de classes
Teramos no exemplo:
79
7
= 12
Dessa forma, o pesquisador, usando o bom-senso e a sua experincia, vericar que seria mais
conveniente a utilizao de um intervalo de classe igual a 10 e de um nmero de classes igual
a 8, para que facilite as operaes posteriores. Assim sendo:
17
3.3. EXERCCIOS NO EXCEL CAPTULO 3. APRESENTAO TABULAR E DISTRIBUIO DE FREQUNCIAS
Tabela 3.9: Exemplo de intervalos de classe.
Classe (i) Notas (c
i
) Freq. (f
i
)
1 0 10 4
2 10 20 5
3 20 30 6
4 30 40 8
5 40 50 12
6 50 60 7
7 60 70 5
8 70 80 3
Total 50
Observao: O nmero de classes e a amplitude so usados como base para a montagem de
uma tabela. Podemos aumentar ou diminuir o nmero de classes e arredondar uma amplitude
decimal. Use o bom senso.
7. Frequncia Relativa da Classe
Corresponde ao quociente entre a frequncia absoluta da classe e o total de elementos.
No exemplo, a frequncia relativa da 7
a
classe : f
r7
=
5
50
= 0, 1 = 10%
Resumindo, teramos:
Tabela 3.10: Exemplo de intervalos de classe.
Classe (i) Notas (c
i
) Freq. (f
i
) F.Rel.(f
(ri)
)
1 0 10 4
2 10 20 5
3 20 30 6
4 30 40 8
5 40 50 12
6 50 60 7
7 60 70 5
8 70 80 3
Total 50
3.3 Exerccios no Excel
1. Os pesos dos 40 alunos de uma classe esto abaixo descritos:
Tabela 3.11: Pesos de 40 alunos.
69 57 72 54 93 68 72 58 64 62 65 76 60 49 74
59 66 83 70 45 60 81 71 67 63 64 53 73 81 50
67 68 53 75 65 58 80 60 63 53
Construir a distribuio de frequncia simples da tabela 3.11.
2. Organizar os dados da tabela 3.12 em uma tabela de frequncia simples e relativa.
3. Os dados da tabela 3.13 se referem taxa de creatinina na urina de 24 horas (mg/100 ml), em
uma amostra de 36 homens normais. Represente a frequncia e a frequncia relativa simples.
4. Os dados da tabela 3.14 mostram o peso (kg) de 80 mulheres. Apresente-os em uma tabela
de frequncia.
18
3.4. GRFICOS DE COLUNAS E HISTOGRAMAS CAPTULO 3. APRESENTAO TABULAR E DISTRIBUIO DE FREQUNCIAS
Tabela 3.12: Dados brutos.
154 160 164 166 170 155 160 164 166 170 156
160 164 166 171 157 161 164 167 172 158 161
164 167 172 158 161 165 168 173 159 162 165
168 173 159 162 165 168 174 159 162 165 169
176 159 164 165 169 177
Tabela 3.13: Nvel de creatinina na urina (24h)
1,51 1,61 1,69 1,49 1,67 2,18 1,46 1,89 1,76 1,08
1,66 1,52 1,40 1,22 1,46 1,43 1,49 1,54 1,38 1,47
1,73 1,60 1,43 1,58 1,66 1,26 1,59 1,40 1,44 1,52
1,37 1,86 2,02 1,75 1,83 1,66
5. Substituir por uma nica tabela o trecho do relatrio a seguir: Assim sendo, podemos
concluir que este banco, em 1995, contou com a colaborao de 345 funcionrios, distribudos
pelas nossas 5 agncias, a saber: Niteri, 43; Rio de Janeiro, 102; So Paulo, 98; Belo
Horizonte, 75; Vitria, 27. Em Niteri, 38 eram do sexo masculino e no Rio de Janeiro,
87. Apenas em Vitria no existiam funcionrias, mas em So Paulo trabalharam 11 delas,
enquanto que em Belo Horizonte, apenas 3.
6. A taxa de mortalidade infantil corresponde ao nmero mdio de mortes, dentre 1000 crianas
nascidas vivas, antes de completarem um ano de vida. Os dados da tabela 3.15 representam
a Taxa de mortalidade infantil dos municpios da Microrregio Oeste Catarinense (1982) e
foram extrados da publicao Municpios Catarinenses - Dados Bsicos, 1987, GAPLAN -
SC, que utiliza dados levantados pelo IBGE.
Agrupe convenientemente os dados da tabela 3.15 em classes (Distribuio de frequncias).
3.4 Grcos de Colunas e Histogramas
Histograma uma representao grca da distribuio de frequncias, normalmente um grco de
barras verticais. um grco composto por retngulos justapostos onde a base de cada um deles
corresponde ao intervalo de classe e a sua altura respectiva frequncia.
Exemplo: Construa o histograma da distribuio de frequncia abaixo:
Presso arterial sistlica de 96 recm-nacidos.
PAS(mmHg) f
55 59 3
59 63 5
63 67 40
67 71 24
71 75 15
75 79 8
79 83 1
Copie a tabela para o grid do Excel:
19
3.4. GRFICOS DE COLUNAS E HISTOGRAMAS CAPTULO 3. APRESENTAO TABULAR E DISTRIBUIO DE FREQUNCIAS
Tabela 3.14: Pesos de 80 mulheres.
Tabela 3.15: Taxa de mortalidade infantil da microrregio.
32,3 62,2 10,3 22,0 13,1 9,9 18,3 33,0 20,0
22,7 27,2 11,9 36,4 23,5 18,0 22,6 20,3 38,3
32,9 29,9 29,7 39,2 25,4 19,6 28,9 18,4 27,3
21,7 23,7 13,9 23,8 15,7 17,0 36,3
Selecione toda a tabela e clique sobre inserir > colunas > colunas 2D (primeira opo)
Voc vai obter o seguinte grco de colunas:
20
3.5. A DISTRIBUIO NORMAL CAPTULO 3. APRESENTAO TABULAR E DISTRIBUIO DE FREQUNCIAS
Agora basta transformar este grco de colunas num histograma, para isto, clique com o boto
direito sobre qualquer uma das colunas e selecione Formatar Sries de Dados. Na janela que se
abre, dena Largura do Espaamento como 0% e clique sobre "fechar". Voc obter o histograma
abaixo.
A construo de histogramas tem carter preliminar em qualquer estudo e um importante
indicador da distribuio de dados. Podem indicar se uma distribuio aproxima-se de uma funo
normal, como pode indicar mistura de populaes quando se apresentam bimodais.
3.5 A Distribuio Normal
Suponha que voc faa um grco das probabilidades dos nmeros de caras esperados em 15 jogadas
sucessivas de uma moeda (gura 3.2 ou suponha 1.000 pessoas na rua, escolhidas aleatoriamente,
para cujas alturas voc faz um diagrama de frequncia (gura 3.3.
Esses dois grcos so semelhantes. Essa curva em forma de sino, chamada curva normal,
a curva mais importante da estatstica. H inmeros exemplos de grandezas que se distribuem
segundo a curva normal:
a altura, o peso, ou o QI de uma populao;
os resultados da medida de uma grandeza fsica, como o peso molecular de um composto
qumico;
o total que aparece quando vrios dados so jogados simultaneamente;
o nmero de clientes semanais em muitos negcios.
21
3.6. DISTRIBUIO DE PROBABILIDADE CAPTULO 3. APRESENTAO TABULAR E DISTRIBUIO DE FREQUNCIAS
Figura 3.2: Distribuio de probabilidade.
Figura 3.3: Histograma
A distribuio normal se aplica frequentemente em situaes em que valores extremos so menos
povveis do que valores moderados.
3.6 Distribuio de Probabilidade
A frequncia relativa de um valor estima a probabilidade de ocorrncia deste valor.
Exemplo: A tabela 3.16 tem sua representao grca dada pela gura 3.4.
A frequncia relativa associada a x = 2 irmos de 0,35 na amostra estudada. Estima-se,
ento, que 35% dos universitrios tem 2 irmos. Isto equivale a dizer que se estima em 0,35 a
probabilidade de que um universitrio, selecionado ao acaso desta populao, tenha dois irmos.
No grco de bastes, a probabilidade estimada para cada valor a altura do basto.
Exemplo: A gura 3.5 traz o histograma da tabela 3.17.
No histograma da gura 3.17, a rea do retngulo referente ao intervalo 45 50 corresponde
a 14% da rea de todo o histograma (100%). Portanto, a rea deste retngulo a representao
geomtrica da probabilidade estimada de se encontrar valores entre 45 e 50 na populao.
22
3.6. DISTRIBUIO DE PROBABILIDADE CAPTULO 3. APRESENTAO TABULAR E DISTRIBUIO DE FREQUNCIAS
Tabela 3.16: Nmero de irmos relatados por 115 estudantes da UFRGS entre 1986 e 1992.
N
o
de irmos f f
r
F
r
0 8 0,07 0,07
1 20 0,17 0,24
2 40 0,35 0,59
3 26 0,23 0,82
4 9 0,08 0,90
5 7 0,06 0,96
6 4 0,03 0,99
7 0 0,00 0,99
8 0 0,00 0,99
9 1 0,01 1,00
Figura 3.4: Grco de colunas relativo tabela 3.16
Tabela 3.17: Pesos (kg) de 256 alunas da UFRGS.
Peso (kg) f f
r
40 45 9 0,035
45 50 36 0,141
50 55 78 0,304
55 60 55 0,215
60 65 53 0,207
65 70 11 0,043
70 75 7 0,027
75 80 5 0,020
80 85 1 0,004
85 90 1 0,004

256 1,000
23
3.6. DISTRIBUIO DE PROBABILIDADE CAPTULO 3. APRESENTAO TABULAR E DISTRIBUIO DE FREQUNCIAS
Figura 3.5: Histograma relativo tabela 3.17
24
Captulo 4
Medidas de Posio
4.1 Introduo
O estudo que zemos sobre distribuies de frequncia, at agora, permite-nos descrever, de modo
geral, os grupos dos valores que uma varivel pode assumir. Dessa forma, podemos localizar a
maior concentrao de valores de uma dada distribuio, isto , se ela se localiza no incio, no meio
ou no nal, ou ainda, se h uma distribuio por igual.
Porm, para ressaltar as tendncias caractersticas de cada distribuio, isoladamente, ou em
confronto com outras, necessitamos introduzir conceitos que se expressem atravs de nmeros, que
nos permitam traduzir essas tendncias. Esses conceitos so denominados elementos tpicos da
distribuio e so as:
a. medidas de posio;
b. medidas de variabilidade ou disperso;
c. medidas de assimetria;
d. medidas de curtose.
Dentre os elementos tpicos, destacamos, nesta unidade, as medidas de posio: estatsticas que
representam uma srie de dados orientando-nos quanto posio da distribuio em relao ao eixo
horizontal (eixo das abscissas).
As medidas de posio mais importantes so as medidas de tendncia central, que recebem
tal denominao pelo fato de os dados observados tenderem, em geral, a se agrupar em torno
dos valores centrais. Dentre as medidas de tendncia central, destacamos: a mdia aritmtica; a
mediana e a moda.
As outras medidas de posio so as separatrizes, que englobam a prpria mediana; os quartis
e os percentis.
4.2 Mdia Aritmtica (x)
Existem vrios tipos de mdia (aritmtica, ponderada, geomtrica, harmnica, etc.), mas estuda-
remos apenas a mdia aritmtica.
Mdia aritmtica o quociente da diviso da soma dos valores da varivel pela quantidade deles:
x =

x
i
n
onde, x a mdia aritmtica, x
i
so os valores da varivel e n a quantidade de valores.
Dados No-agrupados
Quando desejamos conhecer a mdia dos dados no-agrupados, determinamos a mdia aritm-
tica simples.
25
4.2. MDIA ARITMTICA (X) CAPTULO 4. MEDIDAS DE POSIO
Exemplo: Sabendo-se que a produo leiteira diria da vaca A, durante uma semana, foi de
10, 14, 13, 15, 16, 18 e 12 litros, temos, para produo mdia da semana:
x =
10 + 14 + 13 + 15 + 16 + 18 + 12
7
=
98
7
= 14
Logo, a mdia da produo de leite foi de 14 litros por dia.
s vezes, a mdia pode ser um nmero diferente de todos os da srie de dados que ela representa.
o que acontece quando temos os valores 2, 4, 8 e 9, para os quais a mdia 5. Esse ser o nmero
representativo dessa srie de valores, embora no esteja nos dados originais. Neste caso, diz-se que
a mdia no tem existncia concreta.
Exemplo: Determine a mdia dos volumes respiratrios forados em um segundo para 10
adolescentes que sofrem de asma, representados na tabela 4.1:
Tabela 4.1: Volumes respiratrios por indivduo.
Indivduo FEV(litros)
1 2,30
2 2,15
3 3,50
4 2,60
5 2,75
6 2,82
7 4,05
8 2,25
9 2,68
10 3,00

=
Resp.: 2,81 litros
Consideremos a distribuio relativa a 34 famlias de 4 lhos, tomando para varivel o nmero
de lhos do sexo masculino (tabela 4.2:
Tabela 4.2: Nmero de lhos por famlia.
Nmero de meninos f
i
0 2
1 6
2 10
3 12
4 4

= 34
Neste caso, como as frequncias so nmeros indicadores da intensidade de cada valor da va-
rivel, elas funcionam como fatores de ponderao, o que nos leva a calcular a mdia aritmtica
ponderada, dada pela frmula:
x =

x
i
f
i

f
i
Um modo prtico de obteno da mdia ponderada abrir, na tabela, uma coluna correspondente
aos produtos x
i
f
i
. Assim, temos:
Observao: O valor mdio obtido acima de 2,3 meninos sugere, neste caso, que o maior n-
mero de famlias tem 2 meninos e 2 meninas, sendo, porm, a tendncia geral uma leve superioridade
numrica em relao ao nmero de meninos.
26
4.2. MDIA ARITMTICA (X) CAPTULO 4. MEDIDAS DE POSIO
Tabela 4.3: Nmero de lhos por famlia.
Nmero de meninos f
i
x
i
f
i
0 2
1 6
2 10
3 12
4 4
TOTAL 34
Com Intervalos de Classes
Neste caso, convencionamos que todos os valores includos em um determinado intervalo de
classe coincidem com o seu ponto mdio, e determinamos a sua mdia aritmtica ponderada por
meio da frmula que j conhecemos: x =

x
i
f
i

f
i
, porm, agora, x
i
o ponto mdio de cada classe.
Exemplo (tabela 4.4:
Tabela 4.4: Altura de 40 alunos da escola X - Santa Maria - 2007.
i Estaturas (cm) f
i
1 150 154 4
2 154 158 9
3 158 162 11
4 162 166 8
5 166 170 5
6 170 174 3
TOTAL 40
Primeiro vamos abrir uma coluna para os pontos mdios e outra para os produtos x
i
f
i
(tabela
4.5.
Tabela 4.5: Altura de 40 alunos da escola X - Santa Maria - 2007.
i Estaturas (cm) f
i
x
i
x
i
f
i
1 150 154 4
2 154 158 9
3 158 162 11
4 162 166 8
5 166 170 5
6 170 174 3
TOTAL 40
Resp.: 161cm
Exerccio:
Determine a mdia de nveis sricos de colesterol entre os homens indicados na tabela 4.6.
Resp.: 199,34
Vantagens e desvantagens da mdia aritmtica
Por ser muito inuenciada por valores extremos da srie, a mdia aritmtica no representa
bem as distribuies em que existem valores extremos em relao aos demais, como, por exemplo,
a srie cujos elementos so os seguintes: 18, 20, 22, 24 e 850 (onde a mdia aritmtica igual a
186,8, resultado que foi muito inuenciado pelo elemento 850).
27
4.3. MODA (M
O
) CAPTULO 4. MEDIDAS DE POSIO
Tabela 4.6: Frequncia absoluta de nveis sricos de colesterol para homens de Santa Maria com
idades entre 25 e 34 anos.
Nvel de colesterol(mg/10ml) f
i
x
i
x
i
f
i
80 120 13
120 160 150
160 200 442
200 240 299
240 280 115
280 320 34
320 360 9
360 400 5
TOTAL 1067
1) Apesar de a mdia aritmtica situar-se entre o menor e o maior resultado da distribuio
de frequncias, ela no tem, necessariamente, a existncia real. Podemos obter, por exemplo, uma
mdia do tamanho de famlia de 4,5 pessoas, que um valor inexistente.
2) Pode ser calculada para distribuies com classes, mas os seus resultados no so considerados
reais.
3) Pode ser calculada diretamente usando qualquer calculadora eletrnica.
4) Depende de todos os valores da distribuio.
5) Evidencia bastante estabilidade de amostra para amostra, ou seja, se pesquisarmos numerosas
amostras extradas de uma mesma populao, os valores das mdias obtidas tendem a variar pouco
(pouca variabilidade com amostras da mesma populao).
4.3 Moda (M
o
)
Denominamos moda o valor que ocorre com maior frequncia em uma srie de valores.
Dados No-agrupados
Quando lidamos com valores no-agrupados, a moda facilmente reconhecida: basta procurar
o valor que mais se repete.
28
4.4. MEDIANA (M
D
) CAPTULO 4. MEDIDAS DE POSIO
Exemplo: A srie de dados: 7, 8, 9, 10, 10, 10, 11, 12, 13, 15 tem moda igual a 10.
Podemos, entretanto, encontrar sries nas quais no exista valor modal, isto , nas quais nenhum
valor aparea mais vezes que outros.
o caso da srie: 3, 5, 8, 10, 12, 13, que no apresenta moda (amodal).
Em outros casos, ao contrrio, pode haver dois ou mais valores de concentrao.
Dizemos, ento, que a srie tem dois ou mais valores modais. Na srie: 2, 3, 4, 4, 4, 5, 6, 7, 7,
7, 8, 9 temos duas modas: 4 e 7 (bimodal).
A moda utilizada:
quando desejamos obter uma medida rpida e aproximada de posio;
quando a medida de posio deve ser o valor mais tpico da distribuio.
4.4 Mediana (M
d
)
A mediana outra medida de posio, denida como o nmero que se encontra no centro de uma
srie de nmeros, estando estes dispostos segundo uma ordem (em Rol). Em outras palavras, a
mediana de um conjunto de valores, ordenados segundo uma ordem de grandeza, o valor situado
de tal forma no conjunto que o separa em dois subconjuntos de mesmo nmero de elementos.
Exemplo: Seja a seguinte srie de valores: 5, 13, 10, 2, 18, 15, 6, 16, 9. O primeiro passo
ordenar os nmeros (ordem crescente ou decrescente): 2, 5, 6, 9, 10, 13, 15, 16, 18.
Em seguida, tomamos aquele valor central que apresenta o mesmo nmero de elementos direita
e esquerda. Em nosso exemplo, esse valor o 10, j que, h quatro elementos acima dele e quatro
abaixo.
Temos, ento: M
d
= 10
Se, porm, a srie dada tiver um nmero par de termos, a mediana ser, por denio, qualquer
dos nmeros compreendidos entre os dois valores centrais da srie. Convencionou-se utilizar o ponto
mdio. Assim, a srie de valores: 2, 6, 7, 10, 12, 13, 18, 21 tem para mediana a mdia aritmtica
entre 10 e 12.
M
d
=
10 + 12
2
= 11
Vericamos que, estando ordenados os valores de uma srie e sendo n o nmero de elementos
da srie, o valor mediano ser:
o termo de ordem
n+1
2
, se n for mpar;
a mdia aritmtica dos termos de ordem
n
2
e
n
2
+ 1 , se n for par.
A mediana utilizada:
quando desejamos obter o ponto que divide a distribuio em partes iguais;
quando h valores extremos que afetam de uma maneira acentuada a mdia.
Observao: No clculo da mdia, todos os valores da amostra so levados em conta, ao passo
que no caso da mediana isto no acontece. Por esta razo, valores muito grandes ou muito pequenos,
comparados aos demais valores da amostra, causam grandes variaes na mdia, o que em geral
no ocorre com a mediana. Por isso, dizemos que a mediana robusta, isto , ela resistente a
valores atpicos.
4.5 Exerccios
1. A tabela 4.7 lista as duraes das terapias para dez pacientes inscritos em um estudo que
investiga os efeitos da interrupo das transfuses de sangue. Determine a mdia desses
valores.
Resp.: 8,6 anos
2. Na sequncia temos a massa (peso) em gramas, de ratos da raa Wistar com 30 dias de idade.
(Fonte: Vieira, S., 1980). Calcule a mdia aritmtica.
29
4.5. EXERCCIOS CAPTULO 4. MEDIDAS DE POSIO
Tabela 4.7: Durao da terapia de transfuso para 10 pacientes com doenas falciformes.
Indivduo Durao
1 12
2 11
3 12
4 6
5 11
6 11
7 8
8 5
9 5
10 5
TOTAL
50 62 70 86 66 55 60 77 82 64 58 74
Resp.: 67
3. Os tempos de reao de um indivduo a determinados estmulos foram medidos por um psi-
cologista como sendo 0,53; 0,46; 0,50; 0,49; 0,52; 0,53; 0,44 e 0,55 segundos, respectivamente.
Determinar: os tempos mdio, modal e mediano de reao do indivduo a esses estmulos.
Resp.: 0,50; 0,53; 0,51
4. Calcule a mdia dos nmeros de dentes perdidos ou danicados em uma amostra de 50 pessoas
tratadas em determinada clnica dentria (Tabela 4.8) (Fonte: Callegari- Jacques, S. 2003).
Tabela 4.8: Dentes perdidos ou danicados.
Nmero de dentes (x) Nmero de pessoas (f
i
) x f
i
0 9
1 5
2 6
3 7
4 9
5 5
6 4
7 3
8 2
TOTAL 50
Resp.: 3,2 dentes
5. Calcule o nmero mdio de dentes cariados, para cada sexo, a partir dos dados apresentados
na tabela 4.9:
6. Quinze indivduos foram sujeitos recolha de urina em dois momentos, antes da toma de um
diurtico e aps a tomada desse diurtico, tendo-se obtido os valores em litros/dia mostrados
na tabela 4.10:
a) Determine as medidas de localizao central da urina sem diurtico.
Resp.: x = 1, 25; M
d
= 1, 2 e M
o
= 1, 2.
b) Determine as medidas de tendncia central da urina com diurtico.
Resp.: x = 1, 41; M
d
= 1, 4 e M
o
= 1, 4.
30
4.5. EXERCCIOS CAPTULO 4. MEDIDAS DE POSIO
Tabela 4.9: Nmero de dentes cariados das pessoas tratadas em uma clnica dentria Santa
Maria/RS.
Nmero de Sexo
dentes cariados Masculino Feminino
0 16 14
1 2 6
2 3 7
3 2 8
4 2 5
Total 163 139
Tabela 4.10: Coleta de urina.
Indiv. 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15
Sem 1,2 1,2 1,2 1,2 1,1 1,3 1,8 1,2 1,1 1,4 1,1 1,3 1,1 1,2 1,3
Com 1,4 1,3 1,5 1,4 1,3 1,6 2,1 1,4 1,3 1,5 1,2 1,4 1,2 1,2 1,3
7. Durante uma epidemia de escarlatina, recolheu-se um certo nmero de mortos, em 40 cidades
de um pas, obtendo-se os dados da tabela 4.11.(DIAZ e LOPEZ, 2007)
a) Calcule as medidas de posio central. Resp.: x = 1, 98; M
d
= 2 e M
o
= 1.
b) Calcule a porcentagem de cidades com pelo menos dois mortos. Resp.: 55%
c) Calcule a porcentagem de cidades com no mximo 2 mortos. Resp.: 70%
d) Calcule a porcentagem de cidades com no mnimo 3 mortos. Resp.: 30%
8. A tabela 4.12 mostra a composio por idade e sexo de um grupo de trabalhadores, com
tuberculose pulmonar, numa determinada cidade.
Pede-se:
Qual a mdia de idade dos trabalhadores do sexo masculino e feminino com tuberculose
pulmonar.
Resp.: F: 30,38 anos; M: 32,23 anos
31
4.5. EXERCCIOS CAPTULO 4. MEDIDAS DE POSIO
Tabela 4.11: Quantidade de mortos devido escarlatina.
Mortos(nmero) 0 1 2 3 4 5 6 7
Cidades 7 11 10 7 1 2 1 1
Tabela 4.12: Distribuio da tuberculose por sexo.
Idade(anos) Homem Mulher Total
14 19 2 2 4
19 24 10 5 15
24 29 33 9 42
29 34 45 12 57
34 39 39 8 47
39 44 21 4 25
Total
32
Captulo 5
Separatrizes
Como vimos, a mediana separa uma srie de valores em dois grupos que apresentam a mesma
quantidade de elementos.
Assim, alm das medidas de posio que estudamos, h outras que, consideradas individual-
mente, no so medidas de tendncia central, j que se baseiam em sua posio na srie. Essas
medidas os quartis, os percentis e os decis so, juntamente com a mediana, conhecidas pelo
nome genrico de separatrizes.
5.1 Quartis
Denominamos quartis os valores de uma srie que a dividem em quatro partes iguais. H, portanto,
trs quartis:
a) O primeiro quartil (Q
1
): valor situado de tal modo na srie que uma quarta parte (25%) dos
dados menor que ele e as trs quartas partes restantes (75%) so maiores.
b) O segundo quartil (Q
2
): evidentemente, coincide com a mediana (Q
2
= M
d
).
c) O terceiro quartil (Q
3
) valor situado de tal modo que as trs quartas partes (75%) dos
termos so menores que ele e uma quarta parte (25%) maior.
5.2 Percentis
Denominamos percentis os noventa e nove valores que separam uma srie em 100 partes iguais.
Indicamos por P
1
, P
2
, P
3
, , P
32
, , P
99
.
P
50
= M
d
, P
25
= Q
1
e P
75
= Q
3
5.3 Exerccios
1. Com o objetivo de estudar a eccia de um regime alimentar para tratamento de diabetes
foram recolhidas 12 amostras de sangue em diabticos e analisada a quantidade de acar.
Obtiveram-se os resultados mostrados na tabela ?? :
33
5.3. EXERCCIOS CAPTULO 5. SEPARATRIZES
Tabela 5.1: Glicose de amostras sanguneas (mg/100ml)
187.45 187.57 187.37 187.49 187.58 187.37
187.46 187.62 187.47 187.53 187.39 187.46
a) Determine a mdia, moda e mediana. Resp.: x = 187.48 ; M
o
= 187.37; M
d
= 187.465
b) Determine os quartis Q
1
e Q
3
. Resp.: Q
1
= 187.39 ; Q
3
= 187.53
2. Os dados referentes ao nmero de dentes cariados, perdidos ou obturados em uma amostra
de 20 pessoas tratadas em uma determinada clnica dentria esto apresentados na tabela
5.2. Considerando dados brutos, pede-se:
Tabela 5.2: Dentes cariados, perdidos ou obturados.
6 4 1 0 2 3 0 5 0 4
4 6 0 1 3 5 8 3 2 7
Primeiro quartil, terceiro quartil e nonagsimo percentil. Interprete os resultados.
Resp.: Q
1
= 1 (25% do total tem 0 ou 1 crie); 3
10
4
= 15 (15
o
elemento) Q
3
= 3;
90
20
100
= 18 (18
o
elemento) P
90
= 6
3. Um laboratrio resolveu divulgar, alm do valor da dosagem , a ordem do percentil para
pessoas sadias a ela associada. Interprete os seguintes resultados de uma pessoa que fez
exames neste laboratrio:
Albumina 5,3 g/dl percentil 95.
Colesterol 180 mg/dl percentil 5.
4. Considerando 12 observaes (ordenadas) do tempo de internao (dias) de acidentados no
trabalho, em um certo hospital: 1, 4, 7, 9, 10, 13, 15, 17, 17, 18, 19, 21. Obtenha os quartis
e interprete estes valores.
34
Captulo 6
Medidas de Disperso
6.1 Disperso ou Variabilidade
Vimos anteriormente que um conjunto de valores pode ser convenientemente sintetizado, por meio
de procedimentos matemticos, em poucos valores representativos mdia aritmtica, mediana
e moda. Tais valores podem servir de comparao para dar a posio de qualquer elemento do
conjunto.
No entanto, quando se trata de interpretar dados estatsticos, mesmo aqueles j convenien-
temente simplicados, necessrio ter-se uma idia retrospectiva de como se apresentavam esses
mesmos dados nas tabelas.
Assim, no o bastante dar uma das medidas de posio para caracterizar perfeitamente um
conjunto de valores, pois, mesmo sabendo, por exemplo, que a temperatura mdia de duas cidades
a mesma, e igual a 24

C, ainda assim somos levados a pensar a respeito do clima dessas cidades.


Em uma delas poder a temperatura variar entre limites de muito calor e de muito frio e haver,
ainda, uma temperatura mdia de 24

C. A outra poder ter uma variao pequena de temperatura


e possuir, portanto, no que se refere temperatura, um clima mais favorvel.
Vemos, ento, que a mdia ainda que considerada como um nmero que tem a faculdade de
representar uma srie de valores no pode, por si mesma, destacar o grau de homogeneidade ou
heterogeneidade que existe entre os valores que compem o conjunto.
Exemplo: Consideremos os seguintes conjuntos de valores das variveis x, y e z:
X: 70, 70, 70, 70, 70.
Y: 68, 69, 70, 71, 72.
Z: 5, 15, 50, 120, 160.
Calculando a mdia aritmtica de cada um desses conjuntos, obtemos:
X =
350
5
= 70 , Y =
350
5
= 70 e Z =
350
5
= 70.
Vemos, ento, que os trs conjuntos apresentam a mesma mdia aritmtica: 70.
Entretanto, fcil notar que o conjunto X mais homognea que os conjuntos Y e Z, j que
todos os valores so iguais mdia.
O conjunto Y, por sua vez, mais homogneo que o conjunto Z, pois h menor diversicao
entre cada um de seus valores e a mdia representativa.
Chamando de disperso ou variabilidade a maior ou menor diversicao dos valores de uma
varivel em torno de um valor de tendncia central tomado como ponto de comparao, podemos
dizer que o conjunto X apresenta disperso ou variabilidade nula e que o conjunto Y apresenta uma
disperso ou variabilidade menor que o conjunto Z.
Portanto, para qualicar os valores de uma dada varivel, ressaltando a maior ou menor disper-
so ou variabilidade entre esses valores e a sua medida de posio, a Estatstica recorre s medidas
de disperso ou de variabilidade.
Dessas medidas, estudaremos a amplitude total, a varincia, o desvio padro e o coeciente de
variao.
35
6.2. VARINCIA E DESVIO PADRO CAPTULO 6. MEDIDAS DE DISPERSO
Exemplo: Consideremos quatro grupos de alunos cujas notas so:
Grupo A 7, 5, 6, 9 e 8;
Grupo B 9, 10, 4, 1, 8 e 10;
Grupo C 5, 7, 7, 7,7, 7, 7, 7, 7 e 9;
Grupo D 7, 7, 7 e 7.
Com base na amplitude ou intervalo total, qual o mais homogneo?
Resp.: Grupo B, Grupos A e C (empatados) e Grupo D.
Comentrio: Vimos acima que os grupos A e C so considerados igualmente homogneos por
terem o mesmo intervalo total. No entanto, um simples exame visual das notas respectivas nos leva
a concluir que certamente o grupo C o mais homogneo, uma vez que d para perceber que os
seus elementos esto mais prximos entre si que os elementos do grupo A.
O que de fato ocorre que, infelizmente, o intervalo total no uma medida capaz de quanticar
de modo eciente a disperso de uma srie, uma vez que no seu clculo interferem apenas os
elementos extremos (mximo e mnimo) da srie, no avaliando o comportamento dos demais
elementos. Utilizamos, assim, o intervalo total apenas para ter uma primeira informao sobre a
disperso da srie, visando quase que somente a identicar o campo de variao dos seus elementos.
6.2 Varincia e Desvio Padro
Como vimos, a amplitude total instvel, por se deixar inuenciar pelos valores extremos, que so,
na sua maioria, devidos ao acaso.
A varincia e o desvio padro so medidas que fogem a essa falha, pois levam em considerao
a totalidade dos valores da varivel em estudo, o que faz delas ndices de variabilidade bastante
estveis e, por isso mesmo, os mais geralmente empregados.
A varincia baseia-se nos desvios em torno da mdia aritmtica, porm determinando a mdia
aritmtica dos quadrados dos desvios. Assim, representando a varincia por S
2
, temos:
S
2
=

(x
i
x)
2

f
i
Sendo a varincia calculada a partir dos quadrados dos desvios, ela um nmero em unidade
quadrada em relao varivel em questo, o que, sob o ponto de vista prtico, um inconveniente.
Por isso mesmo, imaginou-se uma nova medida que tem utilidade e interpretaes prticas,
denominada desvio padro, denida como a raiz quadrada da varincia e representada por s. Assim:
S =

S
2
Observaes: Tanto o desvio padro como a varincia so usados como medidas de disperso
ou variabilidade. O uso de uma ou de outra depender da nalidade que se tenha em vista.
A varincia uma medida que tem pouca utilidade como estatstica descritiva, porm extre-
mamente importante na inferncia estatstica e em combinaes de amostras.
6.3 Exerccios
1. Quatorze indivduos que deram entrada no servio de urgncia de um Hospital apresentavam
as seguintes presses arteriais sistlicas:
Ind. 1 2 3 4 5 6 7 8 9 10 11 12 13 14
PAS 115 125 128 135 126 124 112 125 127 133 119 127 121 120
a) Determine as medidas de tendncia central da PAS e comente os resultados.
Resp.: x = 124, 07, M
e
= 125, M
o
= 125e127
b) Determine o desvio padro. Resp.: 6,08
c) Determine os quartis. Resp.: Q
1
= 120 Q
2
= 125 Q
3
= 127
36
6.4. COEFICIENTE DE VARIAO CAPTULO 6. MEDIDAS DE DISPERSO
2. Foram analisados os nveis de concentrao de albumina em dez adultos tendo-se obtido os
seguintes resultados (g/l):
Indivduo 1 2 3 4 5 6 7 8 9 10
Albumina 19,7 19,9 20,9 20,7 20,9 20,8 20,9 21 19,5 19,4
a) Determine as medidas de localizao de tendncia central que conhece.
Resp.: x = 20, 37 M
e
= 20, 75 M
o
= 20, 9
b) Determine o desvio padro. Resp.: 0,62
6.4 Coeciente de Variao
O desvio padro por si s no nos diz muita coisa. Assim, um desvio padro de duas unidades
pode ser considerado pequeno para uma srie de valores cujo valor mdio 200; no entanto, se a
mdia for igual a 20, o mesmo no pode ser dito.
Alm disso, o fato de o desvio padro ser expresso na mesma unidade dos dados limita o seu
emprego quando desejamos comparar duas ou mais sries de valores, relativamente sua disperso
ou variabilidade, quando expressas em unidades diferentes.
Para contornar essas diculdades e limitaes, podemos caracterizar a disperso ou variabilidade
dos dados em termos relativos a seu valor mdio, medida essa denominada coeciente de variao
(CV).
CV =
S
x
100
Exemplo: Tomemos os resultados das medidas das estaturas e dos pesos de um mesmo grupo
de indivduos:
x S
Estaturas 175 cm 5 cm
Pesos 68 kg 2 kg
CV
E
=
5
175
100 = 2, 85% CV
P
=
2
68
100 = 2, 94%
Conclui-se que neste grupo de indivduos, os pesos apresentam maior grau de disperso que as
estaturas.
Exemplo: Admitamos, por exemplo, ser do nosso interesse comparar entre si, tendo em vista
a homogeneidade, as sries relacionadas a seguir, juntamente com suas mdias aritmticas e seus
desvios padres:
Srie Mdia Aritmtica Desvio Padro
A(t) 80,8 t 10,0 t cm
B(cm) 450,0 cm 10,0 cm
C(
o
C) 32,6
o
C 4,2
o
C
D(
o
C) 30,0
o
C 2,6
o
C
E(
o
C) 8200,0 t 700,0 t
Vamos calcular o coeciente de variao para cada uma das sries do exemplo acima:
srie A: V = 100 X 10,0/80,8 = 12,4% srie D: V = 100 X 2,6/30,0 = 8,7%
srie B : V = 100 X 10,0/450,0 = 2,2% srie E: V = 100 X 700,0/8 200,0 = 8,5
srie C : V = 100 X 4,2/32,6 = 12,9%
37
6.5. EXERCCIOS CAPTULO 6. MEDIDAS DE DISPERSO
Podemos, assim, por possuir o menor coeciente de variao, armar que:
a srie B mais homognea que a srie A;
a srie D mais homognea que a srie C;
a srie E mais homognea que a srie A.
Listando as sries em questo, em ordem crescente de homogeneidade ou decrescente de dis-
perso, quanticada pela medida mais conveniente no caso, que o coeciente de variao, temos:
srie C, srie A, srie D, srie E e srie B.
Conforme acabamos de ver, alm de ter o seu uso recomendado para a anlise da disperso de
sries heterogneas (unidades de medidas diferentes: metros, toneladas, litros etc.), o coeciente
de variao serve ainda para compararmos sries que apresentam ordens de grandeza diferenciadas
dos seus elementos (unidades, dezenas etc.). Como desvantagens, podemos citar a impossibilidade
de usarmos o coeciente de variao para sries com mdias aritmticas nulas e sua inconvenincia
de uso (como toda percentagem que se preza) no caso de termos sries com mdias aritmticas
muito pequenas (ou prximas de zero) que, ao sofrerem uma reduzida alterao, normalmente
provocam grandes variaes no coeciente de variao.
6.5 Exerccios
1. Em um exame nal de Matemtica, o grau mdio de um grupo de 150 alunos foi 7,8 e o
desvio padro, 0,80. Em Estatstica, entretanto, o grau mdio nal foi 7,3 e o desvio padro,
0,76. Em que disciplina foi maior a disperso? Resp.: Estatstica
2. Medidas as estaturas de 1.017 indivduos, obtivemos x = 162,2 cm e S = 8,01 cm. O peso
mdio desses mesmos indivduos 52 kg, com um desvio padro de 2,3 kg. Esses indivduos
apresentam maior variabilidade em estatura ou em peso? Resp.: Estatura
3. Um grupo de 85 moas tem estatura mdia de 160,6 cm, com um desvio padro igual a 5,97
cm. Outro grupo de 125 moas tem uma estatura mdia de 161,9 cm, sendo o desvio padro
igual a 6,01 cm. Qual o coeciente de variao de cada um dos grupos? Qual o grupo mais
homogneo?
Resp.: 3,72 e 3,71, respectivamente; o segundo grupo
4. Um estudo foi realizado por um professor em trs turmas, obtendo a mdia e o desvio pa-
dro das notas de sua disciplina, conforme abaixo. Qual a turma com menor variabilidade?
Justique adequadamente.
Turma A B C
Mdia 6,5 8,0 cm 8,0
Desvio Padro 2,2 cm 1,7 2,0
Resp.: Turma B
5. So fornecidos valores de nvel de triglicrides (mg/dL) de 9 pessoas:
166 158 202 162 135 82 150 86 121
Calcule, apresentando o desenvolvimento da frmula:
a) o nvel mdio de triglicrides; Resp.: 140,22
b) o nvel mediano de triglicrides; Resp.: 150
c) o desvio padro do nvel de triglicrides; Resp.: 36,66
d) o coeciente de variao do nvel de triglicrides. Resp.: 26,14%
38
6.5. EXERCCIOS CAPTULO 6. MEDIDAS DE DISPERSO
6. Considere as seguintes medidas descritivas das notas nais dos alunos de trs turmas de
Bioestatstica. Com base nesses dados, considere as seguintes armativas:
Turma N. alunos Mdia Desvio Padro
A 15 6 1,31
B 15 6 3,51
C 14 6 2,61
1. Apesar de as mdias serem iguais nas trs turmas, as notas dos alunos da turma B foram
as que se apresentaram mais heterogneas.
2. As trs turmas tiveram a mesma mdia, mas com variao diferente.
3. As notas da turma A se apresentaram mais dispersas em torno da mdia.
Assinale a alternativa correta:
a) Somente a armativa 3 verdadeira.
b) Somente a armativa 2 verdadeira.
c) Somente as armativas 2 e 3 so verdadeiras.
d) Somente as armativas 1 e 2 so verdadeiras.
e) Somente as armativas 1 e 3 so verdadeiras.
Resp.: d
39
Captulo 7
Outros Grcos
7.1 Grco de Pizza
Um grco de setores (pizza) apresenta uma circunferncia onde as "fatias"tm tamanhos propor-
cionais s frequncias da distribuio considerada.
Para o exemplo da presso arterial visto acima, criamos um grco de pizza selecionando: inserir
> pizza > pizza 2D (primeira opo), obtendo a gura abaixo:
40
7.2. BOX PLOTS CAPTULO 7. OUTROS GRFICOS
7.2 Box Plots
O boxplot (grco de caixa) um grco utilizado para avaliar a distribuio do dados. O boxplot
formado pelo primeiro e terceiro quartil e pela mediana.
As linhas que se projetam para fora da caixa em ambos os lados estendem-se para valores
adjacentes do grco. Os valores adjacentes so as observaes mais extremas no conjunto de
dados que no esto a mais de 1,5 vez a altura da caixa alm dos quartis. Todos os pontos fora do
intervalo dos dados adjacentes so repesentados por crculos. Essas observaes so consideradas
fora do padro e so chamadas de valores extremos.
Exemplo: A tabela abaixo categoriza 10614 visitas ao consultrio de especialistas de doenas
cardiovasculares por durao de cada visita. Uma durao de 0 minuto implica que o paciente no
teve contato direto com o especialista.
Durao Visitas
(min) (milhares)
0 390
1 a 5 227
6 a 10 1023
11 a 15 3390
16 a 30 4431
31 a 60 968
mais de 61 185
No Bioestat:
Grcos > Box-Plot: mediana e quartis
Obs: O Bioestat no mostra os valores extremos para o grco Box-Plot: mediana e quartis.
Para saber quais so os valores mostrados no grco preciso fazer a estatstica descritiva:
Estatsticas > Estatstica Descritiva
41
7.3. TRABALHO 02 CAPTULO 7. OUTROS GRFICOS
7.3 Trabalho 02
Instrues:
As questes devero ser respondidas no Excel ;
Cada planilha deve conter uma questo. O nome da planilha deve indicar o nmero da
questo, por exemplo: Questo 1.
As perguntas e os comentrios das respostas devem estar em caixas de texto dentro da res-
pectiva planilha.
O nome do arquivo deve conter o seu nome e o nome do curso, por exemplo: RodrigoMate-
matica;
O arquivo deve ser enviado para o e-mail rodrigopereira@unifra.br
O assunto do email ser Trabalho 02.
Utilize o seu email da Unifra (acesse-o atravs do Alunonet).
1. Os dados abaixo representam as alturas de 60 indivduos. Calcule a estatstica descritiva
(mdia, mediana, desvio padro, Q1, Q3 e o coeciente de variao).
159 159 159 160 160 160 161 161 162 162 162 163 163 163 164
164 164 165 165 165 166 166 166 167 167 167 168 168 169 169
169 170 170 170 171 171 171 172 172 172 173 173 173 174 174
174 175 175 176 176 176 177 177 177 178 178 178 179 179 179
Responda:
42
7.3. TRABALHO 02 CAPTULO 7. OUTROS GRFICOS
(a) Por que o CV deu um resultado to baixo?
(b) Explique o valor da mediana?
(c) Explique o valor do Q3?
(d) Construa um histograma para esta distribuio no Excel e responda se uma distribuio
normal ou no.
2. As amostras de exames bioqumicos de sangue de 3 diferentes laboratrios apresentaram os
nveis de creatinina mostrados no quadro:
Exame 1 2 3 4 5 6 7
Laboratrio A 0,6 0,4 0,5 0,8 0,2 0,8 -
Laboratrio B 0,7 0,8 0,6 0,9 0,5 1,1 0,3
Laboratrio C 0,6 0,7 2,0 0,5 0,8 0,9 0,9
a) Calcule a mdia das creatininas de cada um dos laboratrios.
b) Qual dos 3 laboratrios teve a menor disperso? Qual das medidas estatsticas explica a
tua resposta?
43
Parte I
Teoria da Amostragem
com Bioestat
44
Captulo 8
Amostragem
De uma forma geral, as populaes ou universos nos quais o pesquisador est interessado so
grandes demais para serem estudados na sua totalidade. O tempo necessrio para estudar toda a
populao, as despesas e o nmero de pessoas envolvidas so de tal monta que tornam o estudo
proibitivo. Por isso, o mais comum se estudarem amostras retiradas da populao de interesse.
Para que os resultados obtidos em uma amostra possam ser generalizados para a populao, isto
, para que se possam realizar inferncias vlidas, a amostra deve ser representativa da populao.
A melhor maneira de se obter uma amostra representativa empregar um procedimento aleatrio
para a seleo dos indivduos.
Uma vantagem de se usarem amostras aleatrias que, para este tipo de amostras, existem
inmeros mtodos estatsticos que podero auxiliar o pesquisador. Alm disto, tal tipo de amostra-
gem no d oportunidade ao pesquisador de escolher, mesmo de forma inconsciente, uma amostra
que favorea a hiptese que ele gostaria de ver conrmada.
8.1 Amostragem vs Censo
Quando estudamos todos os elementos de uma populao, estamos realizando o que denominamos
censo. O IBGE, por exemplo, realiza periodicamente (de dez em dez anos) o censo relativo a
inmeras caractersticas do Brasil; obtm dados a respeito da sade, ensino, habitao, produo
vegetal e animal, prestao de servios, etc., em todo o territrio nacional, pesquisando todos os
elementos da populao.
O censo, porm, nem sempre pode ou deve ser utilizado, devido impossibilidade de estudar a
populao, por apresentar pouca preciso e em razo de seu custo econmico.
Custo Reduzido
Sendo os dados obtidos apenas de uma frao da populao, as despesas so menores do que as
oriundas de um censo. Tratando-se de grandes populaes, pode-se obter resultados sucientemente
precisos, para serem teis, de amostras que representam apenas uma pequena frao da populao.
Segundo COCHRAN (1977), nos Estados Unidos, os mais importantes levantamentos peridicos,
realizados pelo governo, usavam amostras de cerca de 100.000 pessoas, ou, aproximadamente uma
pessoa em cada 1800.
Maior Rapidez
Os dados podem ser apurados e sintetizados mais rapidamente em uma amostragem do que
em uma contagem completa. Este um fator primordial, quando se necessita urgentemente das
informaes. O objetivo de uma investigao o de conhecer a situao de um determinado
fenmeno, no momento da coleta da informao, para que de acordo com a informao obtida, se
possam tomar as medidas possveis para resolver algum problema. Se o resultado dessa pesquisa
for conhecido muito tempo depois, bem possvel que a situao que se pretendia resolver, seja
nesse momento, completamente diferente da que existia no momento da coleta dos dados.
45
8.1. AMOSTRAGEM VS CENSO CAPTULO 8. AMOSTRAGEM
Maior Amplitude e Flexibilidade
Em certos tipos de investigao, tem-se que utilizar pessoal bem treinado e equipamento alta-
mente especializado, cuja disponibilidade limitada para a obteno de dados. O censo completo
torna-se impraticvel e resta a escolha entre obter as informaes por meio de uma amostra, ou
no consegui-las de todo. Dessa forma, os levantamentos que se fundamentam na amostragem tem
maior amplitude e exibilidade.
Maior Exatido
Em virtude de se poder empregar pessoal de melhor qualidade e intensivamente treinado, e
por se tornar exeqvel a superviso mais cuidadosa do campo de trabalho e do processamento
de dados, dada a reduo no volume de trabalho, portanto, uma amostragem pode, na realidade,
proporcionar resultados mais exatos que o censo.
No Destruio da Populao
Pode ser impraticvel investigar toda a populao em determinados procedimentos de controle
de qualidade. Por exemplo, se quisermos vericar a qualidade de uma marca de fsforos, necessi-
taremos risc-los a m de vericar o seu funcionamento. Se inspecionarmos toda a populao de
fsforos, riscando-os, acabaremos com a populao, pois o processo de aferio da qualidade do
fsforo o destri. Novamente, o estudo da populao torna-se impraticvel.
Representatividade da Amostra
Para que as concluses da teoria de amostragem sejam vlidas, as amostras devem ser escolhidas
de modo a serem representativas da populao. Isso signica que a amostra deve possuir as mesmas
caractersticas bsicas da populao, no que diz respeito a (s) varivel (eis) que desejamos estudar.
Um plano de amostragem deve ser formulado para garantir a representatividade.
Alguns procedimentos bsicos para a obteno de amostras aleatrias so apresentados a seguir:
46
8.2. AMOSTRAGEM PROBABILSTICA CAPTULO 8. AMOSTRAGEM
8.2 Amostragem Probabilstica
Note-se bem que o termo probabilstico se aplica a amostra escolhida de forma aleatria. Por
envolver o sorteio, a seleo independe do pesquisador e elimina-se a possvel tendenciosidade do
mesmo. As amostragens probabilsticas geram amostras probabilsticas e os resultados podem ser
projetveis para a populao total
8.3 Amostragem Aleatria Simples
Uma amostra aleatria simples aquela obtida de tal modo que todos os indivduos da populao
tm igual probabilidade de serem selecionados.
Para se obter uma amostra aleatria simples, atribui-se, inicialmente, um nmero a cada ele-
mento da populao. A seguir, por meio de um dispositivo aleatrio qualquer (sorteio), seleciona-se
a quantidade desejada de indivduos. Um procedimento aleatrio a ser utilizado pode ser colocar
em uma urna todos os nmeros que sero submetidos ao sorteio, retirando depois alguns s cegas.
Pode-se ainda usar os nmeros de loteria sorteados nos ltimos anos, ou uma tabela de nmeros
aleatrios, ou ainda programas de computador para selecionar aleatoriamente os componentes da
amostra.
Um ponto importante a salientar que, usando este procedimento, nenhum indivduo, por ter
esta ou aquela caracterstica, ter oportunidade maior de ser escolhido, pois a escolha independe
da vontade do selecionador da amostra.
Podemos realizar uma amostragem aleatria simples atravs do programa Bioestat, vejamos um
exemplo:
Exemplo: Um hospital precisa selecionar uma amostra contendo 5 de seus enfermeiros. Os
nomes de todos os enfermeiros do hospital mostrada a seguir:
Populao: Lista dos enfermeiros do hospital.
Aristteles Anastcia Arnaldo Bartolomeu Bernardino Cardoso Carlito
Cludio Ermlio Erclio Ernestino Endevaldo Francisco Felcio
Fabrcio Geraldo Gabriel Getlio Hiraldo Joo Joana
Joaquim Jos Josena Mauro Paula Paulo
Primeiro precisamos associar cada elemento da populao a um nmero. Por simplicidade,
consideraremos nmeros inteiros sucessivos, com a mesma quantidade de algarismos, iniciando-se
por 1 (um).
Numerao dos elementos da populao:
Populao: Lista dos enfermeiros do hospital.
01.Aristteles 02.Anastcia 03.Arnaldo 04.Bartolomeu 05.Bernardino 06.Cardoso
07.Carlito 08.Cludio 09.Ermlio 10.Erclio 11.Ernestino 12.Endevaldo
13.Francisco 14.Felcio 15.Fabrcio 16.Geraldo 17.Gabriel 18.Getlio
19.Hiraldo 20.Joo 21.Joana 22.Joaquim 23.Jos 24.Josena
25.Mauro 26.Paula 27.Paulo
Para extrairmos uma amostra aleatria simples de tamanho n = 5, precisamos sortear 5 nmeros
dentre os N = 27 disponveis.
No Bioestat: Estatsticas > Amostragem > Aleatria > Sem Reposio
Com isto obtemos a janela abaixo, onde inserimos os valores N = 27 e n = 5:
47
8.4. AMOSTRAGEM ALEATRIA ESTRATIFICADA CAPTULO 8. AMOSTRAGEM
Em seguida, clicamos em "Executar"e teremos uma janela semelhante a esta:
Os nmeros sorteados pelo Bioestat foram: 1-2-10-11-24
Estes nmeros correspondem aos enfermeiros: Aristteles - Anastcia - Erclio - Ernestino -
Josena, que so os 5 enfermeiros que iro compor a amostra.
8.4 Amostragem Aleatria Estraticada
s vezes, a populao constituda de subpopulaes ou estratos e pode ser razovel supor que
a varivel de interesse apresenta comportamento diferente em cada estrato. Neste caso, para que
uma amostra seja representativa, ela deve apresentar a mesma estraticao do universo de origem.
Para garantir que o procedimento aleatrio produza uma amostra estraticada adequada, devemos:
1. Vericar quais os estratos presentes na populao.
2. Calcular seus tamanhos relativos (propores).
3. Determinar o tamanho dos estratos na amostra, observando estas mesmas propores.
4. Obter aleatoriamente os elementos para cada estrato, ou sorteando dentro de cada estrato,
ou sorteando dentro da populao e preenchendo os espaos reservados para cada estrato.
Exemplo: Deseja-se avaliar o nmero mdio de cries em escolares de 8 anos de certa escola.
Como parece razovel supor que esta varivel depende do nvel socioeconmico da criana, o
procedimento de amostragem escolhido o de amostragem por estratos. Para tanto:
1. Vericamos, inicialmente, quais os nveis socioeconmicos existentes nessa escola (suponha
que sejam trs: A, B e C).
2. Avaliamos a participao relativa de cada um, por exemplo, o nvel A abrange 3% da popu-
lao, o nvel B, 22% e o C, 75%.
3. Determinamos ento que, para uma amostra de 120 crianas, quatro devero ser do nvel A
(pois 3% de 120 3,6), 26 do nvel B e 90 do C.
4. Sorteamos, aleatoriamente, quatro dentre as crianas do nvel A, 26 do B e 90 do C. Ou
ento realizamos o sorteio diretamente do total de crianas da escola e preenchemos as suba-
mostras conforme os indivduos vo sendo selecionados. Caso seja sorteado um nmero que
corresponda a um aluno A e j tenham sido selecionadas quatro crianas para este estrato, o
nmero desprezado e o sorteio prossegue.
48
8.5. AMOSTRAGEM ALEATRIA SISTEMTICA CAPTULO 8. AMOSTRAGEM
Para podermos utilizar o Bioestat, precisamos do total de elementos da populao, veja outro
exemplo:
Exemplo: Uma equipe de nutricionistas atende a uma populao de 460 pessoas distribudas
nas classes A, B e C, sendo 40 pessoas na classe A, 120 na B e 300 na C. A equipe quer saber se
existem diferenas nutricionais entre as classes desta populao, para isto, pretende selecionar uma
amostra com 50 pessoas, como proceder?
No Bioestat: Estatsticas > Amostragem > Estraticada
Esta janela contm o nmero de estratos que dividem a populao, o total de elementos da
amostra e a quantidade de elementos da populao em cada estrato. Ao clicar em "Executar"surge
uma janela semelhante a que segue:
Esta janela contm o tamanho da amostra proporcional a cada estrato e os elementos sorteados
em cada estrato.
Perceba que o nmero 17 est no estrato 1 e no estrato 2, isto indica que para os elementos do
estrato 1 foram atribudos nmeros de 1 a 40, para o estrato 2 foram atribudos nmeros de 1 a
120 e nmeros de 1 a 300 para o estrato 3.
Note tambm que existe uma barra de rolagem direita da janela. No esquea de descer esta
barra para ver o restante dos elementos sorteados.
8.5 Amostragem Aleatria Sistemtica
Se os elementos da populao esto ordenados de alguma maneira (em listas, las, prateleiras,
linhas de produo), possvel realizar uma amostragem sistemtica, a qual feita do seguinte
modo:
49
8.6. AMOSTRAGEM ALEATRIA POR CONGLOMERADOS CAPTULO 8. AMOSTRAGEM
1. Escolhe-se uma constante conveniente;
2. Sorteia-se o primeiro indivduo;
3. Evitam-se tantos indivduos quantos forem indicados pela constante e toma-se o indivduo
seguinte;
4. Repete-se o processo a partir do segundo passo at obter o tamanho amostral desejado.
Exemplo: Em um hospital h 10 mil chas de pacientes. Deseja-se uma amostra de 500
pacientes, isto , 5% ou um a cada 20 indivduos da populao. O ponto de partida ser uma cha
selecionada aleatoriamente dentre as primeiras 20, por exemplo, a de nmero 9. A prxima a ser
retirada ser a 29
a
, a seguinte a 49
a
, etc.
Vejamos um outro exemplo, agora aplicado ao Bioestat:
Exemplo: Uma clnica deseja conhecer melhor o perl de seus pacientes, para isto, precisa
retirar uma amostra de 15 pacientes dentre os 100 que vo clinica diariamente. Como neste
estudo, importante a ordem de chegada dos pacientes, a clnica resolveu fazer uma amostragem
sistemtica. Conduza esta amostragem com o auxilio do Bioestat.
No Bioestat: Estatsticas > Amostragem > Sistemtica
Na imagem acima temos o tamanho da populao e o da amostra, ao clicarmos em Executar,
obtemos uma janela parecida com a seguinte:
Perceba que os 100 elementos da populao foram separados em grupos de 7 elementos (intervalo
sistemtico), no primeiro grupo foi sorteado o 5
o
elemento, no segundo grupo o 12
o
(5 +7) e assim
sucessivamente, at o ltimo grupo onde foi sorteado o 98
o
elemento.
8.6 Amostragem Aleatria por Conglomerados
Se a populao apresenta-se subdividida em pequenos grupos ou conglomerados, muitas vezes
conveniente a realizao da amostragem diretamente nos conglomerados, do seguinte modo:
1. Identicam-se os conglomerados por meio de nmeros de ordem.
50
8.7. AMOSTRAGEM NO-PROBABILSTICA: CAPTULO 8. AMOSTRAGEM
2. Sorteiam-se os conglomerados.
3. Analisam-se todos os indivduos pertencentes aos conglomerados sorteados.
Exemplo: Epidemiologistas desejam fazer uma pesquisa em uma vila. A vila possui 10 quar-
teires. Em cada quarteiro, estima-se que existam 20 casas. Deseja-se sortear 40 casas de 4
quarteires para o estudo. Use o Bioestat para realizar esta amostragem.
No Bioestat:
Estatsticas > Amostragem > Conglomerados
Como o sorteio se dar tanto nos quarteires quanto nas casas, temos dois conglomerados (est-
gios). O Bioestat permite que os conglomerados tenham nomes prprios. Em seguida, completamos
a coluna "N
o
de unidades do estgio"com a quantidade de elementos de cada estgio e na coluna
"N
o
de unidades para sorteio"entramos com a quantidade de elementos da amostra de cada um dos
estgios.
Ao clicarmos em "Executar"obtemos uma janela semelhante a que segue:
O Bioestat numerou os elementos do segundo estgio (casas) de 1 a 20, e numerou os elementos
do primeiro estgio (quarteires) de 1 a 10. Em seguida, sorteou 4 quarteires (neste caso o 10 - 9
- 7 - 3) e em seguida sorteou 10 casas dentro de cada um destes quarteires, obtendo um total de
40 casas amostradas.
8.7 Amostragem No-Probabilstica:
Nos mtodos no-probabilsticos, no temos conhecimento da probabilidade de escolha de deter-
minado elemento da amostra. Nesse caso, a seleo no utiliza o sorteio, o que acarreta na sua
51
8.8. EXERCCIOS CAPTULO 8. AMOSTRAGEM
subjetividade e a inuncia do pesquisador sobre que elementos da populao faro parte da amos-
tra. os resultados no podem ser generalizados.
Inacessibilidade a toda a populao: quando a amostra retirada na parte da populao
que nos acessvel. Surge aqui uma distino entre populao objeto e populao amostrada.
A populao objeto aquela que temos em mente ao realizar o trabalho estatstico. Apenas
uma parte dessa populao, porm, est acessvel para que dele retiremos a amostra. Essa
parte a populao amostrada.
Exemplo: Controle de qualidade numa linha de produo de cigarros. S tem-se acesso aos
cigarros que j esto prontos, embora os que ainda sero produzidos fazem parte da populao
de cigarros produzidos por aquela linha produo.
Amostragem a esmo ou sem norma: a amostragem onde o amostrador, para sim-
plicar o processo, procura ser aleatrio, sem realizar propriamente o sorteio, usando algum
dispositivo aleatrio.
Exemplo: Amostrar 80 frangos num galpo com 3000 frangos, amostrar peixes em um lago,
pessoas em uma praia, etc.
Populao formada por material contnuo: Nesse caso impossvel realizar amostragem
probabilstica devido impraticabilidade de um sorteio rigoroso.
Exemplo: Processo utilizado para se amostrar lquidos, gases ou slidos. Homogeniza-se o
material a ser amostrado e em seguida colhe-se a amostra.
Amostragem intencional: aquela em que o amostrador deliberadamente escolhe cer-
tos elementos para pertencer amostra, por julgar tais elementos bem representativos da
populao.
Exemplo: Pesquisa de mercado para lanar uma nova marca de leite longa vida tipo A.
O pesquisador selecionar indivduos com poder aquisitivo mdio/alto, que so os principais
consumidores deste produto (pblico alvo), embora toda a populao independentemente do
poder aquisitivo possa ser consumidora deste produto.
8.8 Exerccios
1. Se uma populao se encontra dividida em quatro estratos, com tamanhos N
1
= 90, N
2
= 120,
N
3
= 60 e N
4
= 480 e temos possibilidade de retirar 100 amostras, quantas amostras devem
ser retiradas de cada estrato?
2. Numa sala de aula temos 36 homens e 28 mulheres. Faa uma amostragem estraticada
proporcional de tamanho 16 considerando o sexo como varivel estraticadora. Quantos de
cada sexo sero analisados?
3. De uma populao de 2.500 funcionrios de uma empresa composta por 1700 funcionrios do
sexo feminino e 800 do sexo masculino, deseja-se usar a tcnica da amostragem proporcional
estraticada para se analisar uma amostra de 5% num estudo com o objetivo de se estimar
o salrio mdio. Os estratos so em relao ao sexo dos funcionrios. Calcule o tamanho da
amostra para cada estrato.
4. Os alunos de uma escola foram selecionados por faixas etrias, em cinco grupos diferentes,
com quantidades, respectivamente, de N
1
= 70, N
2
= 90, N
3
= 80, N
4
= 50, N
5
= 10.
Sabendo que ao ser realizada uma amostragem estraticada proporcional, 12 elementos da
amostra foram retirados do terceiro estrato, (considere trs casas depois da vrgula nos arre-
dondamentos para propores) determine:
a) o nmero total de elementos da amostra;
b) o nmero de elementos retirados de cada estrato.
52
8.8. EXERCCIOS CAPTULO 8. AMOSTRAGEM
5. Uma populao composta por 280 elementos que esto ordenados. Se devesse ser retirada
uma amostra sistemtica de 20 elementos desta populao, como voc procederia?
6. Os pronturios dos pacientes de uma clnica esto organizados em um arquivo, por ordem
alfabtica. Qual a maneira mais rpida de amostrar 1/5 do total de pronturios?
7. Analise as situaes descritas abaixo e decida se a pesquisa deve ser feita por amostragem ou
por censo, justicando sua resposta.
(a) Numa linha de produo de empacotamento de remdio em uma indstria farmacutica,
observar o peso especicado.
(b) Em uma sala de aula composta por 40 alunos, analisar suas idades.
(c) Observar se a gua de uma lagoa est contaminada.
(d) Vericar a carga horria diria de trabalho dos funcionrios do PA de Santa Maria.
8. Identique o tipo de amostragem utilizado.
(a) Ao escalar um jri um tribunal de justia decidiu selecionar aleatoriamente 4 pessoas
brancas, 3 morenas, e 4 negras.
(b) Um cabo eleitoral escreve o nome de cada senador do Brasil, em cartes separados,
mistura e extra 10 nomes.
(c) Um administrador hospitalar faz uma pesquisa com as pessoas que esto na la de espera
para serem atendidas pelo sistema SUS, entrevistando uma a cada 10 pessoas da la.
(d) Um mdico est interessado em obter informao sobre o nmero mdio de vezes em
que 1500 especialistas prescreveram certa droga no ano anterior (N = 1500). Deseja-se
obter uma amostra n = 100.
(e) Suponha que existem N = 100 chas de pacientes das quais uma amostra aleatria de
n = 20 deve ser selecionada. Determine que chas devem ser escolhidas na amostra de
tamanho n = 20. Diga que tipo de amostragem deve ser feita e como foram selecionadas
as chas.
Questionrio:
1. O que amostra? Qual sua relao com populao?
Amostra representa uma parcela extrada da populao, so os elementos extrados desta, sem
modicar as caractersticas essenciais da populao, para represent-la em uma anlise, da a sua
relao com populao.
2. O que signica teoria da amostragem?
A teoria da amostragem o estudo das relaes existentes entre uma dada populao e as
amostras extradas dela.
3. Qual a diferena entre amostras com e sem reposio?
Amostragem com reposio aquela em que cada elemento de uma populao pode ser escolhido
mais de uma vez, enquanto na amostragem sem reposio os elementos no podem ser escolhidos
mais de uma vez.
4. Quanto e quais so os planos de amostragem probabilstica existem?
Existem quatro planos de amostragem probabilstica: aleatrio, sistemtico, estraticado e por
conglomerado.
5. Qual a diferena entre amostragem probabilstica e amostragem no probabilstica?
53
8.9. TAMANHO MNIMO DA AMOSTRA CAPTULO 8. AMOSTRAGEM
Amostragem probabilstica uma amostra no qual se conhece a probabilidade de todas as poss-
veis combinaes amostrais, esta objetiva, enquanto na amostragem no probabilstica a variabi-
lidade amostral no pode ser estabelecida com preciso.
6. O que representam amostras aleatrias?
Representa uma maneira de se adquirir uma amostra representativa, na qual cada elemento da
populao tem a mesma chance de ser includo na amostra.
7. Dentro do plano de amostragem probabilstica, o que signica amostragem sistemtica?
A amostragem sistemtica uma amostra que necessita de uma lista dos elementos da populao
e onde a seleo dos elementos ocorre de forma sistemtica e seqencial.
8. O que signica amostra aleatria em relao populao discreta?
Para a populao discreta, a amostra aleatria aquela em que cada elemento da populao
tenha a mesma chance de ser selecionado para a amostra.
9. Numa grande comunidade, deseja-se fazer uma pesquisa da porcentagem de pessoas que
contraram uma doena muito contagiosa. Nesta situao, prefervel a utilizao de um censo ou
amostragem?
Neste caso prefervel usar a amostragem, pois, tratando-se de uma grande populao, analisar
o nmero de pessoas contagiadas levaria muito tempo, seria custoso e uma comunidade ao longo
de sua existncia tende a se modicar, provocando a alterao da comunidade original, ou seja,
nesse perodo poderiam surgir diversas variveis, como o alcance de um novo estgio da doena,
alastramento e diferentes atuaes nas regies que provocassem uma combinao de populaes
devido propagao da doena. Ou seja, as variveis modicariam a populao original, o que
tornaria invlido o censo.
10. Diferencie o censo da amostragem e explique quais as vantagens e desvantagens da amos-
tragem.
O censo um processo de inferncia em que se analisam todos os elementos de uma populao.
A amostragem a anlise de uma parte (amostra) do todo que seria a populao. Uma das vanta-
gens da amostragem que, dependendo do tipo de informao requerida, pode ser mais atualizada.
Tambm pode ser usada para testes destrutivos e populao innita. Como desvantagem, cita-se o
perigo de erro da generalizao. A depender das caractersticas dos elementos da populao anali-
sada, pode ocorrer a perda ou modicao das informaes, tornando a amostra no representativa
do todo.
8.9 Tamanho Mnimo da Amostra
muito comum ao pesquisador indagar sobre o nmero de elementos para uma amostra, quando
pretende realizar uma pesquisa de campo, laboratrio ou uma simples investigao.
No existe nmero xo para o tamanho da amostra a ser estudada. H uma soluo para cada
caso, dependendo:
1. Do tipo de problema que se quer resolver. Exemplos de problemas possveis so: caracterizar
uma varivel ainda no investigada na populao; comparar duas populaes quanto a uma
varivel dada; vericar se duas variveis esto associadas.
2. Do tipo de varivel. Estudos envolvendo variveis qualitativas geralmente exigem amostras
maiores. Dentre as variveis quantitativas, as que apresentam maior variabilidade nos dados
tambm exigem amostras maiores.
3. Da magnitude do erro estatstico aceito pelo pesquisador. Quanto menos o pesquisador quer
errar em suas concluses, maior dever ser o tamanho da amostra.
54
8.9. TAMANHO MNIMO DA AMOSTRA CAPTULO 8. AMOSTRAGEM
4. Do tamanho da diferena considerada importante pelo pesquisador em uma comparao entre
grupos. Diferenas menores exigem amostras maiores.
5. Do poder desejado para o teste, isto , da probabilidade de que a mostra identique uma
diferena ou um efeito real.
6. Do tempo, verbas e pessoal disponveis, bem como da diculdade em se obterem os dados e
da complexidade do experimento.
Tamanho Mnimo da Amostra para a Estimao da Mdia Populacional
Trabalhamos com dois casos, quando o tamanho da populao for conhecido e quando no for
conhecido.
Para realizar os clculos, usamos uma planilha do Excel disponvel em www.siqueiracampos.com/downloads.
Exemplos:
1. Deseja-se estimar a mdia da glicemia em pessoas normais, admitindo um erro mximo de 2
mg/100ml para mais ou para menos e sabendo que o desvio padro populacional deve estar
em torno de 4 mg/100ml. Vamos admitir 99% de conana. Quantas pessoas devemos tomar
como amostra?
Soluo: Perceba que neste exemplos no temos o tamanho da populao.
Assim, precisaremos tomar 27 pessoas como amostra para que tenhamos 99% de chances de
que a mdia da glicemia varie entre -2 mg/100ml e +2 mg/100ml.
2. Com o objetivo de estudar a variao do peso de um determinado produto, preciso coletar
uma amostra a partir de uma populao de 600 peas. Sabe-se que o produto possui um
desvio padro entre as peas de 10kg. Admitindo um nvel de conana de 95% e um erro
amostral de 1,5 kg, determine quantas amostras devero ser analisadas.
Soluo: Neste exemplo temos o tamanho da populao.
55
8.9. TAMANHO MNIMO DA AMOSTRA CAPTULO 8. AMOSTRAGEM
Assim, para termos 95% de chances que o peso do produto varie em 1,5 kg para mais ou para
menos, precisaremos medir 134 produtos na amostra.
Obs.: Veja que para estes exemplos sempre contamos com o desvio padro da populao.
Quando no tivermos esta informao podemos substituir o valor do desvio padro populacional
pelo desvio padro obtido a partir de uma pr-amostra, tendo o cuidado de que esta estimativa
seja apropriadamente calculada.
Tamanho Mnimo da Amostra para a Estimao da Proporo Populacional
Exemplos:
1. Qual deve ser o tamanho da amostra para que possamos estimar a porcentagem de pessoas
portadoras de problemas de viso em uma determinada cidade, de modo que o intervalo entre
os valores estimados no exceda 2% para um nvel de conana de 95%, sabendo que esta
porcentagem deve estar em torno de 40%?
Soluo:
56
8.9. TAMANHO MNIMO DA AMOSTRA CAPTULO 8. AMOSTRAGEM
Assim, para que a pesquisa levante uma amostra com 95% de chance de conter uma variao
na proporo de no mximo 2%, precisamos de 2305 elementos amostrados.
2. Um enfermeiro pretende estimar a proporo de retornos ao hospital aps certo tempo de
um grupo de 500 pacientes. Para isto, selecionou, ao acaso 50 pacientes e vericou que 20
deles retornou ao hospital no tempo de estudo (pr-amostra). Determinar o tamanho da
amostra necessrio para se estimar a taxa de retorno sobre toda a populao, com um nvel
de conana de 90% e erro mximo de 5%.
57
8.10. EXERCCIOS CAPTULO 8. AMOSTRAGEM
Assim, ser preciso amostrar 172 pessoas do universo de 500 pessoas para que se tenha uma
chance de 90% de se obter uma variao de 5% na proporo de retorno ao hospital.
8.10 Exerccios
No esquea de escrever a frase de interpretao e coloc-la aps o print dos clculos.
1. Se quer a proporo de moradores de uma comunidade com idade superior a 40 anos que
sofrem de dores de coluna com preciso de 4%(erro = 4%). Quantos moradores se devem
entrevistar para obter essa preciso com 95% de conana. A comunidade tem 1500 pessoas
com idade maior que 40 anos. Resp.: 429
2. Vericar quantos dos 100 empregados de uma cantina cumprem corretamente as normas de
higiene e segurana do trabalho. Presume-se que esse n
o
no seja superior a 30% do total;
deseja-se um nvel de conana de 95% e tolera-se um erro at 3%. Se a populao fosse de
10000 qual seria o tamanho da amostra? Resp.: 91 e 823
3. Determinado trabalho, realizado para investigar a prevalncia de hansenase em trabalhadores
rurais, apresentou um valor igual a 22%. Para estimar o tamanho da amostra para novo
projeto sobre hansenase, desejamos um nvel de conana de 95% e erro de amostragem de
5%. Determine n, o tamanho da amostra necessria para uma populao de tamanho N =
100.000. Resp.: 263
Cuidados com a escolha da amostra
Com o que foi visto sobre amostragem at agora, destacamos alguns cuidados a serem tomados:
Imparcialidade: todos os elementos devem ter a mesma probabilidade e oportunidades de
ser escolhido.
Representatividade: deve conter em proporo todas as caractersticas que a populao
possui, qualitativa e quantitativamente, de modo a que no se torne tendenciosa.
Tamanho: sucientemente grande de modo a fornecer as principais caractersticas, por outro
lado pequena para economizar tempo, dinheiro e pessoal.
8.11 Leitura Complementar
O tamanho da amostra
Uma pergunta muito frequente em estudos na rea da sade qual deve ser o tamanho da minha
amostra?. Esta uma questo delicada e muitas vezes polmica. Considere o seguinte exemplo: se
nos fosse perguntado quanto de dinheiro preciso levar para as minhas frias? a resposta imediata
seria depende. Depende do lugar que deseja ir, quanto tempo pretende car, quantas pessoas,
qual o meio de transporte e, claro, entre outros detalhes, qual o dinheiro disponvel. Da mesma
forma, arbitrar um tamanho adequado de amostra envolve conhecimento da natureza das medidas
realizadas, do plano de anlise, do nvel de erro aceitvel para estimativas etc.
H com frequncia uma nfase excessiva ao clculo do tamanho de amostra em detrimento da
concepo cuidadosa de um plano amostral, que so as estratgias a serem adotadas para garantir
que a amostra a ser estudada seja representativa do universo real do fenmeno a ser estudado.
Os vcios de seleo, de deteco, de exposio, de informao ou de memria no sero preve-
nidos por qualquer denio de tamanho de amostra, mas sim por um plano amostral cuidadoso.
O tamanho da amostra vai depender da viabilidade de coleta de dados, que envolve principalmente
tempo, custos e disponibilidade de casos para serem estudados. Isto no signica que o clculo
de tamanho de amostra seja dispensvel. O que desejamos salientar aqui que ele deve ser utili-
zado como planejamento, isto , como parte de um estudo bem delineado onde ele no substitua o
58
8.12. TRABALHO 03 CAPTULO 8. AMOSTRAGEM
compromisso do investigador de analisar a representatividade dos casos estudados, seja qual for o
nmero a ser observado.
Uma das vantagens de se calcular corretamente o tamanho da amostra a possibilidade de
economia. Por exemplo, um estudo bem planejado pode, a partir de uma amostra no muito
grande, obter as mesmas concluses de um estudo que envolveu uma amostra muito maior por
no ter sido previamente planejado. Entretanto, o clculo do tamanho da amostra no garante um
resultado signicante. conveniente planejar o tamanho da amostra para que se possa ter amostras
grandes o suciente para detectar diferenas importantes (amostras muito pequenas podem deixar
que diferenas importantes passem desapercebidas). Por outro lado, amostras exageradamente
grande alm de elevar o custo do estudo, podem tornar diferenas clinicamente irrelevantes em
estatisticamente signicativas.
Para o planejamento do tamanho da amostra o investigador precisa estabelecer algumas de-
nies como: tipo de estudo que pretende realizar (ex. estudo de prevalncia, ensaio clnico,
coorte, caso-controle); o tipo de medida que deve utilizar (ex. medidas contnuas, categorizadas,
prevalncia, incidncia); o tipo de anlise (ex. diferenas entre mdias, diferena entre propores,
clculo de risco); a margem de erro que pode assumir para o estudo (ex. o nvel de signicncia e o
poder do teste estatstico que pretende aplicar). Estes conceitos podem ser mais bem esclarecidos
na homepage do Laboratrio de Epidemiologia e Estatstica (www.lee.dante.br) que apresenta um
servio que calcula tamanhos de amostra para alguns dos desenhos de pesquisa mdica/biolgica
mais frequentes, alm de oferecer textos de apoio para compreenso de cada item envolvido no
clculo e referncias bibliogrcas para orientarem interessados num estudo autnomo.
8.12 Trabalho 03
Instrues:
As questes devero ser respondidas no Word;
O nome do arquivo deve conter o seu nome e o nome do curso, por exemplo: RodrigoMate-
matica;
O arquivo deve ser enviado para o e-mail rodrigopereira@unifra.br
O assunto do email ser Trabalho 03.
Utilize o seu email da Unifra (acesse-o atravs do Alunonet).
1. Temos uma populao de 250 pacientes. Explique como ser feita a escolha da amostra
utilizando uma amostragem:
a) Aleatria de tamanho 50.
b) Sistemtica de tamanho 50.
c) Estraticada de tamanho 50 sendo a varivel estraticadora o sexo (temos 150 masculinos
e 100 femininos).
2. A hemoglobina, importante pigmento transportador de oxignio e C0
2
, um tetrmero com-
posto de duas cadeias e duas . A -talassemia uma anemia hereditria causada pela
diminuio parcial ou total da sntese da cadeia da hemoglobina. Suponha que certo pes-
quisador deseja saber qual a mdia para a contagem de eritrcitos (por mm
3
de sangue)
em crianas com -talassemia. Quantas crianas ele deve estudar para obter tal estimativa,
considerando que a literatura traz um desvio padro para a contagem de eritrcitos de 0,6
milhes/mm
3
e que foi escolhido um nvel de 95% de conana.
3. Um assistente social deseja saber o tamanho da amostra (n) necessrio para determinar a
proporo da populao atendida por uma Unidade de Sade, que pertence ao municpio de
Cariacica. No foi feito um levantamento prvio da proporo amostral e, portanto, seu valor
59
8.12. TRABALHO 03 CAPTULO 8. AMOSTRAGEM
desconhecido. Ela quer ter 90% de conana que o erro mximo de estimativa seja de 5%
(ou 0,05). Quantas pessoas necessitam ser entrevistadas? (Lembre-se que se no h uma
proporo j estabelecida, usa-se uma aproximao de 50%
60
Parte II
Estatstica Inferencial
com Bioestat
61
Em termos estatsticos, inferir signica tirar concluses do todo apenas observando a parte.
Fazemos isto no nosso dia-a-dia mesmo sem nos darmos conta, basta ver como se faz para vericar-
mos o sal da comida que estamos preparando ou como decidimos comprar uma dzia de laranjas
depois de experimentarmos um pedao de uma delas, estas so decises baseadas em amostras.
A inferncia estatstica um ramo da estatstica cujo objetivo fazer armaes a partir de
um conjunto de valores representativo (amostra) sobre um universo. A inferncia estatstica
geralmente distinta da estatstica descritiva, pois descrio estatstica pode ser vista como a simples
apresentao dos fatos, nos quais o modelo de decises feito pelo analista tem pouca inuncia
(Magalhes
1
)
1
Marcos Magalhes, do Departamento de Estatstica (MAE) do Instituto de Matemtica e Estatstica da Univer-
sidade de So Paulo (IME-USP)
62
Captulo 9
Probabilidade
Quando conhecemos todos os valores de uma varivel aleatria juntamente com suas respectivas
probabilidades, temos uma distribuio de probabilidades.
A distribuio de probabilidades associa uma probabilidade a cada resultado numrico de um
experimento, ou seja, d a probabilidade de cada valor de uma varivel aleatria. Por exemplo, no
lanamento de um dado cada face tem a mesma probabilidade de ocorrncia que 1/6.
Como os valores das distribuies de probabilidades so probabilidades, e como as variveis
aleatrias devem tomar um de seus valores, temos as duas regras a seguir que se aplicam a qualquer
distribuio de probabilidades:
1. A soma de todos os valores de uma distribuio de probabilidades deve ser igual a 1.
2. A probabilidade de ocorrncia de um evento deve ser maior do que zero e menor do que 1.
Exemplo: No lanamento de um dado, como todas as faces tm a mesma probabilidade de
ocorrncia que 1/6 ao som-las obtemos o valor 1, que corresponde a primeira regra citada acima.
O valor 1/6 maior do que zero e menor do que 1, assim satisfaz a segunda regra acima.
A distribuio de probabilidades pode ser representada por um histograma de probabilidades.
Este se assemelha ao histograma de freqncias apresentado na Parte I, entretanto a escala vertical
representa probabilidades, em lugar das freqncias relativas.
O histograma de probabilidades nos permite visualizar a forma da distribuio. A mdia, a
varincia e o desvio-padro traduzem outras caractersticas.
Ao calcularmos a mdia de uma distribuio de probabilidades, obtemos o valor mdio que
esperaramos ter se pudssemos repetir as provas indenitivamente. No obtemos o valor que
esperamos ocorrer com maior frequncia.
J o desvio-padro nos d uma medida de quanto a distribuio de probabilidades se dispersa
em torna da mdia. Um grande desvio-padro reete disperso considervel, enquanto que um
desvio-padro menor traduz menor variabilidade, com valores relativamente mais prximos da
mdia.
A mdia de uma varivel aleatria discreta o resultado mdio terico de um nmero innito
de provas. Podemos encarar essa mdia como o valor esperado no sentido de que o valor mdio
que esperaramos obter se as provas se prolongassem indenitivamente.
Exemplo: Na tabela abaixo so fornecidas as probabilidades de ocorrncias de um determinado
evento.
Probabilidade de ocorrncia de cada evento x.
63
9.1. INTERPRETAES DA PROBABILIDADE CAPTULO 9. PROBABILIDADE
X P(x)
0 0,210
1 0,367
2 0,275
3 0,115
4 0,029
5 0,004
6 0
7 0
Total 1,000
Abaixo vemos o histograma de probabilidades:
As distribuies de frequncias construdas a partir de observaes podem ser representadas
atravs de formas matemticas. Ento, as formas matemticas utilizadas para a idealizao dos
dados reais so referidas como distribuies tericas.
As distribuies tericas representam os dados aproximadamente, embora em muitos casos a
aproximao pode ser muito boa.
Uma distribuio terica um modelo matemtico. A natureza especca de uma distribuio
terica determinada por valores particulares atravs de uma entidade chamada parmetros da
distribuio. As distribuies tericas tambm so chamadas de distribuies paramtricas, porque
seus atributos especcos dependem dos valores numricos de seus parmetros.
9.1 Interpretaes da Probabilidade
Exatamente, o que probabilidade? Eis uma questo difcil (e, por vezes, controvertida).
Consideremos a armao: se jogamos uma moeda, h uma probabilidade de 1/2 de aparecer
cara. Determinar exatamente o que essa armao signica uma questo losca difcil. De
acordo com a interpretao da probabilidade como frequncia relativa, a armao signica que
o nmero de caras estar prximo de 1/2 do total de jogadas, desde que joguemos a moeda um
grande nmero de vezes.
H alguns eventos para os quais a interpretao como frequncia relativa difcil. O meteoro-
logista costuma dizer: h 20% de chance de chover hoje. Entretanto, no podemos fazer o hoje
repetir-se 100 vezes para vericar se chove em 20% das vezes.
64
9.2. A INTERPRETAO DA PROBABILIDADE SEGUNDO O JOGADOR CAPTULO 9. PROBABILIDADE
A interpretao subjetiva da probabilidade arma que a probabilidade uma estimativa
do que um indivduo pensa que seja a viabilidade de ocorrncia de um evento. Nesse caso, dois
indivduos podem estimar diferentemente uma probabilidade. A interpretao subjetiva possibilita
falar signicativamente sobre as probabilidades de uma classe mais ampla de eventos, mas as
probabilidades se tornam mais intangveis porque no podemos especicar objetivamente o que
elas so.
9.2 A Interpretao da Probabilidade Segundo o Jogador
Outra perspectiva da probabilidade a viso do jogador (recorde que a matemtica probabilstica
primitiva foi estabelecida por jogadores): a probabilidade de um evento pode ser denida como a
chance que deveramos oferecer a algum antes de ele apostar na ocorrncia de um evento. Por
exemplo, se uma pessoa est querendo apostar com chances iguais (ganhar ou perder a mesma
quantia) que vai chover amanh, ela deve acreditar, talvez inconscientemente, que h ao menos
50% de chance de chover amanh. Se algum quer apostar R$ 10 em uma partida de tnis, mas s
se tiver chance de ganhar R$ 30, ento ela cr que tem 1 em 4 chances de ganhar e 3 em 4 chances
de perder.
O modo como o jogador encara a probabilidade intuitivo, mas a intuio da maioria das
pessoas inconsistente.
Na abordagem matemtica, ou axiomtica, da probabilidade, o termo probabilidade permanece
sem denio. Formulam-se algumas hipteses (axiomas) sobre o comportamento da probabilidade.
Essas hipteses seguem nossa ideia intuitiva do que a probabilidade signica, e so ento utilizadas
para demonstrar teoremas.
9.3 Probabilidade de Ocorrncia de Um Evento
Na abordagem clssica da probabilidade, a denio formal da probabilidade de um evento A
dada pela diviso da quantidade de resultados do evento A pela quantidade total de resultados.
P(A) =
N(A)
n
onde N(A) a quantidade de vezes que o evento A ocorre e n o nmero total de resultados
possveis.
9.4 Probabilidade Condicional
Como vimos, ao lidar com eventos aleatrios, estamos quase sempre no escuro quanto ao que pode
acontecer. No obstante, s vezes podemos obter alguma informao sobre a ocorrncia de um
evento aleatrio ser mais, ou menos, vivel.
Suponha-se, por exemplo, que queiramos saber a probabilidade de obter o total 8 na jogada de
dois dados. Essa probabilidade 5/36. Entretanto, jogando um dos dados primeiro, teremos uma
ideia melhor da possibilidade de obter 8. Se, por exemplo, obtemos um 5 com o primeiro dado,
precisamos de um 3 no segundo, e a probabilidade desse resultado 1/6. Portanto, se o primeiro
dado acusou 5, nossa chance de obter o total 8 melhorou de 5/36 para 1/6.
Por outro lado, suponhamos que o primeiro dado tenha apresentado a face 1. Ento, no h
como obtermos o total 8, qualquer que seja o resultado do segundo dado. Por conseguinte, a
probabilidade de obtermos a soma 8, quando obtivemos 1 com o primeiro dado, zero.
Suponhamos, ainda, que estejamos interessados na probabilidade de obter quatro caras em
sequncia. A probabilidade desse evento 1/16. Mas, se j tivermos jogado a moeda duas vezes,
conseguindo cara em ambas as jogadas, a probabilidade de sair cara mais duas vezes e 1/4. Por
outro lado, se jogamos a moeda duas vezes e aparece cara primeiro e coroa em seguida, no h
possibilidade de ocorrer uma sequncia de quatro caras.
65
9.5. EVENTOS INDEPENDENTES CAPTULO 9. PROBABILIDADE
Todas as situaes acima so exemplos de probabilidade condicional. Uma probabilidade condi-
cional nos diz a possibilidade de ocorrncia de determinado evento, se j sabemos que outro evento
especco ocorreu. Em particular, suponha que o evento B tenha ocorrido; queremos determinar
a probabilidade de ocorrncia do evento A. A probabilidade condicional de ocorrncia de A, dado
que B ocorreu, se escreve:
P(A[B)
A barra vertical signica dado que.
9.5 Eventos Independentes
Como vimos, frequentemente o conhecimento da ocorrncia de um evento auxilia na avaliao da
viabilidade de outro evento. H, entretanto, alguns casos em que o conhecimento da ocorrncia de
um evento nada nos diz sobre a possibilidade da ocorrncia de outro. Suponhamos, por exemplo,
que o leitor saiba que uma famlia acaba de ter uma lha. Qual a probabilidade de o prximo
rebento da mesma famlia ser tambm menina? Nesse caso, o conhecimento a respeito do ltimo
lho nada nos diz quanto ao prximo.
Suponhamos que aparea um 3 na primeira jogada de um dado. Qual a probabilidade de
aparecer um 5 na prxima jogada? O fato de sabermos que apareceu 3 na primeira jogada nada
nos diz a respeito do resultado da prxima jogada. Nesse caso, chamando A o evento 3 na primeira
jogada e B o evento 5 na segunda jogada, P(A) = 1/6, P(B) = 1/6 e P(A[B) = 1/6, pois o fato
de B ter ocorrido no afeta a probabilidade de ocorrncia de A.
Daremos um nome especial a essa situao: diremos que esses dois eventos so eventos in-
dependentes. uma expresso coerente, pois dois eventos independentes no afetam um ao
outro.
O fato de sabermos que um dos eventos ocorreu nada nos diz sobre se o outro ocorrer ou no.
A denio formal de independncia :
Os eventos A e B so independentes se P(A[B) = P(A).
Eis mais alguns exemplos de eventos independentes:
A probabilidade de tirarmos dois pares em um jogo de cartas no afetada pelo fato de
termos tirado dois pares em um jogo ontem.
A probabilidade de tirar 4 na jogada de um dado no afetada pelo fato de termos tirado
cara, ou coroa, na jogada de uma moeda.
Parmetros e Estatsticas
comum a confuso entre parmetros da distribuio e estatsticas da amostra. Os parmetros
da distribuio so as caractersticas de uma distribuio terica particular. Eles representam
sucintamente as propriedades fundamentais de uma populao.
J as estatsticas so quantidades calculadas a partir de uma amostra de dados.
9.6 Nvel de Conana e de Signicncia
O nvel de conana representa a probabilidade de acerto na estimativa, enquanto que o nvel de
signicncia apresenta a eventual probabilidade de erro.
66
9.6. NVEL DE CONFIANA E DE SIGNIFICNCIA CAPTULO 9. PROBABILIDADE
Assim, se uma pesquisa na rea da sade detecta que 60% das pessoas analisadas esto infec-
tadas por uma determinada bactria com uma margem de erro igual a 3% e um nvel de conana
igual a 95%, existem 95% de probabilidade das pessoas infectadas estarem entre 60% + 3%, ou
57% e 60% - 3%, ou 63%. Se o nvel de signicncia da pesquisa de 5%, existem 5% de chances
de que o nmero construdo esteja errado. Em outras palavras, existe uma probabilidade igual a
5% de a percentagem no universo ser menor que 57% ou maior que 63%.
Karl Pearson
67
Captulo 10
Estimao de Parmetros
Um dos objetivos da Estatstica a realizao de inferncias acerca de uma populao, baseadas nas
informaes amostrais. Como as populaes so caracterizadas por medidas numricas descritivas,
denominadas parmetros, a inferncia estatstica diz respeito realizao de inferncias sobre esses
parmetros populacionais.
Os mtodos de realizar inferncias a respeito dos parmetros pertencem a duas categorias.
Pode-se tomar decises relativas ao valor do parmetro, atravs de um teste de hiptese ou pode-se
estimar ou prever o valor do mesmo.
A estimao o processo que consiste em utilizar dados amostrais para estimar os valores
de parmetros populacionais desconhecidos. Qualquer caracterstica de uma populao pode ser
estimada a partir de uma amostra aleatria. Entre as mais comuns, esto a mdia e o desvio padro
de uma populao e a proporo populacional.
Parmetros: valores calculados com dados da populao (mdia da populao, desvio padro).
Estimativas: valores calculados com dados da amostra (mdia da amostra).
10.1 Estimativas pontuais e intervalares
Uma estimativa chamada pontual quando se baseia em um nico valor ou ponto. Por exemplo, se
a mdia da taxa de glicose de indivduos diabticos for estimada em 200 mg/100ml, esta estimativa
pontual porque considera como possvel um nico valor para a mdia de todos os diabticos.
Embora este tipo de estimativa seja muito precisa (alis, tem preciso mxima), suas chances de
ser verdadeira so provavelmente nulas. Dessa forma, armativas desse tipo no so seguras.
O fato de as estimativas pontuais serem pouco conveis impe a alternativa de denir um
intervalo de valores provveis para a estimativa. Este tipo de procedimento acarreta no que se
denomina intervalo de conana. O intervalo de conana , na verdade, uma consequncia lgica
da ideia, esplanada anteriormente a respeito dos parmetros populacionais serem desconhecidos.
Se assim, qualquer noo que se tenha deles, representada por um conjunto de valores possveis,
no 100% segura, a no ser que se tome um intervalo innito. Um exemplo de estimativa por
intervalo seria estimar que a taxa mdia de acar em diabticos est entre 180 e 220 mg/100 ml,
em um nvel de conana de 90%.
10.2 Intervalo de Conana para Mdia Populacional quando a
Varincia Conhecida
Conhecendo a distribuio de x, podemos ser mais precisos sobre a validade da estimativa. Sabemos
que o verdadeiro valor de deve estar prximo do valor de x mas, quo prximo? x estar
1 unidade distante de ? Ou 50 unidades? interessante conhecermos a probabilidade de a
distncia de x a ser inferior a um valor especco c. Em outras palavras, desejamos determinar
a probabilidade de estar entre (x c) e (x +c).
68
10.2. INTERVALO DE CONFIANA PARA MDIA POPULACIONAL QUANDO A
VARINCIA CONHECIDA CAPTULO 10. ESTIMAO DE PARMETROS
Obviamente, a probabilidade depende em grande parte do valor escolhido de c. Se escolhermos
um valor muito grande de c, podemos ter quase certeza de que o verdadeiro valor de estar no
intervalo.
Fazendo, por exemplo, c innito, a probabilidade de estar no intervalo 100%, pois, obvi-
amente, deve estar entre (x ) e (x + ). Mas um intervalo com essa amplitude no tem
qualquer utilidade. Reduzindo o intervalo mediante a escolha de um valor menor para c, podemos
ser mais precisos sobre o verdadeiro valor de . Todavia, quando reduzimos o intervalo, tambm
h maior chance de no estar no intervalo.
O procedimento estatstico normal o seguinte. Primeiro, escolhemos a probabilidade desejada
em outras palavras, xamos antecipadamente a probabilidade de estar no intervalo. comum
xarmos em 95% essa probabilidade. Calculamos, ento, qual deve ser a amplitude do intervalo
para que haja 95% de chance de ele conter o verdadeiro valor. Esse tipo de intervalo chamado
intervalo de conana, e 95% o nvel de conana.
Desta forma, precisamos determinar o valor de c que satisfaa a equao:
P(x c < < x +c) = 0, 95
Conhecido o valor de c, sabemos qual deve ser a amplitude do intervalo de conana onde h
95% de chance de encontrarmos o verdadeiro valor de .
Um intervalo de conana de 95% para um parmetro populacional fornece um intervalo no
qual estaramos 95% conantes de cobertura do verdadeiro valor do parmetro.
Tecnicamente, 95% de todos os intervalos de conana que construmos contero o verdadeiro
valor do parmetro (dado que todas as suposies envolvidas estejam corretas). Ou ainda, se
obtivermos um intervalo de conana para o parmetro teremos que para cada uma dentre 100
amostras aleatrias da populao, somente 5, em mdia, desses intervalos de conana no contero
.
O bom senso justica duas caractersticas desse resultado. Primeiro, o intervalo de conana
mais amplo (isto , mais incerto) se o desvio padro (quadrado da varincia) maior. Se a varincia
de cada observao individual maior, ento ser mais difcil incluirmos o verdadeiro valor de .
Segundo, o intervalo de conana menor se n maior. Signica que, se zermos um nmero cada
vez maior de observaes, poderemos predizer com maior preciso o verdadeiro valor de .
Se quisermos, poderemos ser ainda mais cautelosos. Suponha que queiramos ter 99% de certeza
de que nosso intervalo de conana contenha o verdadeiro valor de . Ento, teremos de xar um
intervalo mais amplo, menos preciso.
Exemplo: Uma pesquisadora do vcio do fumo est interessada em estimar a idade mdia em
que os usurios de cigarros comeam a fumar. Tomando uma amostra aleatria de 25 fumantes,
ela calcula uma mdia amostral de 16,8 anos e um desvio padro amostral de 1,5 anos. Construa
um intervalo de 95% de conana para estimar a idade mdia em que a populao comea a fumar.
No Bioestat:
Estatsticas > Estimao de Parmetros > Da Mdia
69
10.3. INTERVALO DE CONFIANA PARA PROPORO CAPTULO 10. ESTIMAO DE PARMETROS
Assim, temos uma chance de 95% de a mdia de idade que os usurios de cigarros comeam a
fumar estar entre 16,18 e 17,42 anos.
10.3 Intervalo de Conana para Proporo
Os procedimentos que envolvem a estimativa de propores populacionais a partir de dados amos-
trais so similares aos preocedimento empregados na estimao de mdias populacionais.
A proporo amostral funciona como estimativa pontual da verdadeira proporo. Algebrica-
mente, a estimativa pontual pode ser apresentada como:
= p =
x
n
Onde:
a proporo populacional ou verdadeira;
p a proporo amostral;
x a quantidade de elementos com a caracterstica desejada na amostra;
n a quantidade de elementos da amostra.
Exemplo: Uma indstria farmacutica analisou uma amostra com 180 procedimentos onde 18
apresentaram falhas de algum tipo. Empregando um nvel de conana de 95%, pede-se calcular
o erro inferencial e estimar o valor da porcentagem de procedimentos que mostravam falhas no
universo.
No Bioestat:
Estatsticas > Estimao de Parmetros > Da Proporo
70
10.4. EXERCCIOS CAPTULO 10. ESTIMAO DE PARMETROS
Assim, pode-se dizer que, em relao ao universo, uma porcentagem entre 5,6% e 14,4% dos
procedimentos deve apresentar falhas de algum tipo.
Note o seguinte:
O valor c = 0, 044 o erro inferencial.
10.4 Exerccios
1. Uma pesquisa com 1000 entrevistados, indica que 55% deles so favorveis ao programa fome
zero. O prefeito e outros membros do governo desejam estar 95% certos que contam com o
apoio da maioria antes de prosseguir com o projeto. O IC de 95% garante que eles tm mais
de 50% de apoio? Resp: 51, 9% 58, 1%
2. Uma pesquisa realizada junto aos 800 familiares dos pacientes internados em um hospital de
referncia da regio obteve-se uma proporo de 53% totalmente satisfeitos com o atendimento
em geral. O diretor quer saber qual o IC de satisfao da populao atendida com 95%de
conana.
Resp: 53% 3,4%
3. A m de determinar os pontos de vista dos estudantes de determinado campus sobre associa-
es estudantis, administrou-se uma escala de atitudes de 11 pontos a uma amostra aleatria
de 40 estudantes. Essa pesquisa deu uma media amostral de 6 (quanto mais alto o escore,
mais favorvel s associaes) e um desvio padro de 1,5.
a) Estime o erro padro da mdia(95%). Resp: erro = 0,46
71
10.4. EXERCCIOS CAPTULO 10. ESTIMAO DE PARMETROS
b) Determine o intervalo de 95% de conana para a mdia populacional. Resp: 6 0,46
c) Determine o intervalo de 99% de conana para a mdia populacional. Resp: 6 0,6
4. Uma organizao de pesquisa entrevistou, por telefone, 400 adultos selecionados aleatoria-
mente, na cidade de Nova York, sobre sua opinio a respeito de um teste do uso de drogas
para motoristas de txi e constatou que 38% eram favorveis a essa regulamentao.
a) Determine o intervalo de 95% de conana para a proporo populacional.
Resp: 38% 4,8%
b) Determine o intervalo de 99% de conana para a proporo populacional.
Resp: 38% 6,2%
5. Um distrito escolar local deseja monitorar as atitudes dos pais em relao proposta de
eliminao dos esportes aps as aulas, como uma medida para reduzir custos. Em vez de
enviar um questionrio por intermdio dos alunos, o comit da escola decide fazer uma pes-
quisa telefnica. De 120 pais entrevistados, 74 apoiaram o plano de suprimir o programa de
esportes.
a) Estime o erro padro da proporo. Resp: 8,7%
b) Determine o intervalo de 95% de conana para a proporo populacional.
Resp: intervalo de 52,3% a 69,7%
6. Um estudante de Farmcia fez uma pesquisa para saber o % de alunos, de uma escola que
apresentavam excesso de peso (IMC>24,9). Para isso, avaliou 140 alunos encontrando 52 com
excesso de peso. A escola tem 500 alunos. Calcule o intervalo de conana com = 0, 05.
Resp: 37, 1%6, 8% (com excesso de peso)
7. A m de estimar a proporo de estudantes de determinado campus favorveis a uma cam-
panha geral contra o uso de lcool, um pesquisador entrevistou uma amostra aleatria de
50 estudantes dentre a populao de uma faculdade, constatando que 36% da amostra era
favorvel proibio do lcool. De posse dessa informao, determine:
a) Erro padro da proporo com ndice de conana de 95%. Resp: 13,3%
b) Um intervalo de conana de 95% para a proporo populacional. Resp: 36%13, 3%
8. Num experimento, doentes contaminados com cercaria, que uma das formas do verme da
esquistossomose, recebem um certo medicamento e observa-se a proporo de cura. De 200
pacientes medicados, 160 foram curados. Determine um intervalo de 90% de conana para
a proporo populacional de pacientes curados pelo medicamento. Resp: 80%4, 65%
9. Entre milhares de casos de pneumonia no tratada com sulfa, a porcentagem que desenvol-
veu complicaes foi de 10%. Com o intuito de saber se o emprego da sulfa diminuiria essa
porcentagem, 120 casos de pneumonia foram tratados com sulfapiridina e destes, 6 apresen-
taram complicaes. Construa um intervalo com 95% de conana para a porcentagem de
complicaes para doentes tratados com sulfa. Resp: 5%3, 9%
10. Suponha que se deseja estimar o dimetro pupilar mdio de coelhos adultos normais, a partir
de uma amostra de 12 animais, cuja mdia foi de 5,2 mm e considerando que o desvio padro
do dimetro pupilar de 1,2 mm. Empregue um grau de conana de 95% para a estimativa.
Resp: Este resultado indica que se pode ter uma conana de 95% de que a mdia
verdadeira dos dimetros pupilares em coelhos adultos esteja entre 4,52 e 5,88 mm.
11. O Centro de Acompanhamento Pr-Natal, para dependentes de drogas qumicas, da Escola de
Medicina da Universidade de Northwestern Chicago acompanhou a gravidez de 55 mulheres
dependentes de cocana. Destas, apesar de todo o esforo do centro, apenas 19 conseguiram
parar de usar a droga durante o 1
o
trimestre. O quadro abaixo apresenta os resultados dos
72
10.4. EXERCCIOS CAPTULO 10. ESTIMAO DE PARMETROS
pesos de recm-nascidos do grupo 1, lhos de mes que usaram cocana apenas no 1
o
trimestre
de gravidez, e do grupo 2, lhos de mes que usaram cocana durante toda a gravidez.
Informao Grupo 1 Grupo 2
Tamanho da amostra 19 36
Mdia(g) 3160 2829
Desvio-padro(g) 453 708
Estime o efeito da cocana no peso dos recm-nascidos e construa o intervalo de conana
(95%). Comente os resultados.
Grupo 1: 3160 204; Grupo 2: 2829 323
12. A m de acelerar o tempo que um analgsico leva para penetrar na corrente sangunea, um
qumico analista acrescentou certo componente frmula original, que acusava um tempo
mdio de 43 minutos. Em 36 observaes com a nova frmula, obteve-se um tempo mdio de
42 minutos, com desvio padro de 6 minutos.
a) Estime o tempo mdio que a nova frmula leva para penetrar na corrente sangunea por
meio de um intervalo com 95% de conana. 42 1, 96min
b) Caso voc desejasse reduzir a margem de erro do intervalo apresentado no item anterior
pela metade, em quantas vezes voc deveria aumentar o tamanho da amostra? 144
observaes
13. Alguns pesquisadores pensam que a vitamina C pode ser til para reduzir os depsitos forma-
dores do colesterol situados na parte inferior das paredes arteriais, e, por conseguinte, pensam
que a vitamina C concorre tambm para a reduo da possibilidade de ataques cardacos. O
nvel de colesterol de cada uma de 36 pessoas com nvel de colesterol acima do normal foi
anotado antes e aps um perodo de regime de 1 ms, regime este que obrigou cada pessoa
a ingerir 500 mg de vitamina C por dia. Os dados obtidos mostraram 64,3 mg por 100 ml
para a queda mdia do nvel de colesterol. Suponha conhecido o desvio padro populacional,
igual a 18,9 mg por 100 ml.
a) Estime a queda mdia do nvel de colesterol por pessoa, utilizando um intervalo de 95%
de conana. Resp.: 64, 3 6, 2
b) Qual o erro associado estimativa? Resp.: 6,2 mg/100 ml
c) Qual o tamanho de amostra necessrio para reduzirmos o erro para 3mg por 100ml?
Resp.: 153 pessoas
73
Captulo 11
Testes de Hipteses
Considere uma moeda equilibrada isto , em qualquer jogada h uma chance de 50% de obter
cara e de 50% de obter coroa. Como podemos ter certeza de que a moeda realmente equilibrada?
preciso saber responder a essa pergunta especialmente se estiver jogando uma moeda com um
desconhecido de aparncia suspeita em uma cidade estranha. Formalmente, se p representa a
probabilidade de a moeda apresentar "cara", como sabemos que p = 1/2?
No caso da moeda deve-se, naturalmente, comear fazendo uma vericao bvia. Se a moeda
tem duas caras, ento p = 1; se tem duas coroas, p = 0. Feito isso, ainda assim e muito difcil
armar que a moeda equilibrada (ou honesta) simplesmente olhando-a. Intuitivamente, no h
qualquer razo por que deva ser mais provvel aparecer "cara"do que "coroa"(ou vice-versa); mas
a moeda pode no ser equilibrada, fazendo um resultado ter mais chance do que o outro. jogando
a moeda apenas uma vez, nao temos como dizer se ela ou nao equilibrada. Todavia, com um
grande nmero de jogadas, j dispomos de alguma base para julgar.
11.1 A Hiptese Nula e a Hiptese Alternativa
Problemas desse tipo so chamados de teste de hiptese. Primeiro, decidimos quanto hiptese
a ser testada. No caso em estudo, nossa hiptese p = 1/2. A hiptese que vai ser testada
frequentemente chamada hiptese nula (H
0
). A outra nica possibilidade que a hiptese nula
seja falsa. A hiptese que arma A hiptese nula falsa chamada hiptese alternativa (H
1
). Em
nosso caso, a hiptese alternativa que a moeda no seja equilibrada (p ,= 1/2). Sabemos que
uma das hipteses a hiptese nula ou a hiptese alternativa deve ser verdadeira, pois elas
constituem as duas nicas possibilidades. A questo : aceitamos a hiptese nula e dizemos que a
moeda equilibrada, ou rejeitamos a hiptese nula e armamos que a moeda no equilibrada?
claro, intuitivamente, que devemos jogar a moeda muitas vezes; seja n o nmero de jogadas.
Ento, se o nmero de caras que aparecem est prximo de n/2, aceitamos a hiptese de que a
moeda honesta. Se o nmero de caras muito diferente de n/2, rejeitamos a hiptese de que
a moeda seja honesta. A grande questo : quo diferente de n/2 o resultado deve ser, para que
possamos dizer que a moeda no equilibrada?
Nosso processo de teste o seguinte: escolhemos um nmero c. Se o nmero de caras (h) est
entre (n/2c) e (n/2 + c), aceitamos a hiptese nula e conclumos que a moeda equilibrada; em
caso contrrio, dizemos que a moeda no equilibrada. A regio de (n/2c) a (n/2 +c) chamada
zona de aceitao. Se h no est na zona de aceitao, no aceitamos a hiptese. Portanto, a regio
para a qual a hiptese ser rejeitada chamada regio de rejeio ou regio crtica.
74
11.2. ERRO TIPO 1 E TIPO 2 CAPTULO 11. TESTES DE HIPTESES
O problema agora : quo distante de n/2 podemos admitir o nmero de caras antes de ar-
marmos que a moeda no honesta isto , quo grande deve ser c?
11.2 Erro Tipo 1 e Tipo 2
claro que gostaramos de fazer o julgamento correto sobre nossa hiptese nula. Podemos estar
corretos de duas maneiras: aceitando a hiptese quando ela verdadeira, ou rejeitando-a quando
falsa. Mas isso signica que h tambm duas possibilidades de estarmos errados: rejeitando a
hiptese quando ela verdadeira, ou aceitando-a quando falsa. O primeiro tipo de erro chamado
erro tipo 1 e o segundo, erro tipo 2.
Se escolhemos um valor grande para c, temos uma ampla zona de aceitao, tendo maior chance
de aceitar a hiptese do que com um valor pequeno de c. Isso signica que h menos chance de
cometer um erro tipo 1 isto , no vivel rejeitarmos a hiptese quando ela , de fato, verdadeira.
Entretanto, se ampliamos a zona de aceitao, estamos aumentando o risco de aceitar a hiptese
mesmo quando falsa, cometendo um erro tipo 2.
A outra estratgia consiste em estreitar a zona de aceitao. Assim procedendo, menos prov-
vel cometermos um erro tipo 2 (e improvvel que aceitemos a hiptese se ela falsa), mas corremos
um risco muito maior de cometer um erro tipo 1 (rejeitar a hiptese quando ela verdadeira).
Obviamente, h como que uma compensao inerente envolvida no teste de uma hiptese. No se
pode, por meio de um nico processo de teste, minimizar as chances de cometer ambos os tipos de
erro.
Em geral, preocupa-nos mais a possibilidade de rejeitar erroneamente a hiptese, de modo que
teremos mais cuidado em evitar erros do tipo 1. Para dizermos ao desconhecido que sua moeda
no honesta, devemos estar quase certos do fato. (De outra forma, poderamos ofend-lo.) Em
trabalhos cientcos, se decidimos aceitar a hiptese, em geral prosseguimos na busca de mais
evidncias para ver se conseguimos um caso convincente. Se, por outro lado, decidimos rejeitar a
hiptese, isso signica que estamos realmente convencidos de que ela falsa, e paramos por a.
O que se costuma fazer em estatstica xar um limite superior para a probabilidade de cometer
um erro tipo 1. Em geral, esse limite xado em 10% ou 5%. No incio, pode causar confuso
lembrar a diferena entre erros tipo 1 e tipo 2. Basta ter em mente que nossa prioridade evitar
erros tipo 1, certicando-nos de que s rejeitaremos a hiptese se estivermos plenamente seguros
de que ela falsa.
Decidido isso, o proximo passo xar a amplitude de nossa zona de aceitao. Suponhamos
que a moeda seja honesta. Se n o nmero de jogadas e h o nmero de caras, isso signica que
queremos ter certeza de que h uma chance de apenas 10% de nosso processo de teste indicar que
a moeda viciada, quando ela, de fato, equilibrada.
Suponhamos n = 20. Podemos construir uma tabela das probabilidades para h = 0, h = 1,
h = 2 etc. A Figura abaixo ilustra essas probabilidades.
75
11.2. ERRO TIPO 1 E TIPO 2 CAPTULO 11. TESTES DE HIPTESES
Queremos escolher nossa zona de aceitao de modo que haja cerca de 90% de chance de h
estar nessa regio e de somente 10% de h estar fora dela. Somando as probabilidades para h = 7,
h = 8, h = 9, h = 10, h = 11, h = 12 e h = 13, constatamos que, se a moeda honesta, h uma
probabilidade de 0,8847 de h tomar um desses sete valores. Ento, planejaremos nosso teste assim:
Jogaremos a moeda 20 vezes e contaremos o nmero de caras (h). Se h estiver entre 7 e 13,
aceitaremos a hiptese e armaremos que a moeda honesta. Se h no mximo igual a 6, ou no
mnimo igual a 14, diremos que a moeda no honesta.
Resultados de 20 jogadas de uma moeda.
Podemos, ento, assegurar que a probabilidade de rejeitar erroneamente a hiptese (erro tipo
1) de apenas 12%. Suponhamos, por exemplo, que aparecam 5 caras em 20 jogadas. Podemos
dizer, com um grau razovel de certeza, que a moeda no honesta. No podemos armar isso
com certeza absoluta, porque existe uma chance de 1,48% de apenas 5 caras aparecerem em 20
jogadas de uma moeda honesta. Assim, h ainda uma possibilidade de cometermos um erro tipo 1,
armando que a hiptese falsa quando ela , na realidade, verdadeira. Todavia, asseguramo-nos
de que a probabilidade de isso ocorrer inferior a 12%.
76
11.3. USO DOS TESTES DE HIPTESES CAPTULO 11. TESTES DE HIPTESES
Naturalmente, se quisermos, poderemos ser ainda mais cautelosos. Suponha que estejamos
preocupados com a possibilidade de rejeitar erroneamente a hiptese de moeda honesta e desejamos
ter certeza de que a chance de isso ocorrer seja inferior a 4%. Nesse caso, podemos modicar o
processo de teste, de forma a aceitar a hiptese de moeda honesta se h est entre 6 e 14. Com esse
procedimento, teremos ainda maior certeza de que no consideraremos a moeda no-honesta quando
ela , de fato, honesta. Entretanto, ao ampliarmos a zona de aceitao, estamos aumentando as
chances de cometer um erro tipo 2 isto , armar que a moeda honesta quando ela, de fato,
no . No h maneira de calcular a probabilidade de um erro tipo 2, pois desconhecemos as
probabilidades dos diferentes nmeros de caras se a moeda no honesta. Portanto, mesmo aps
termos decidido aceitar a hiptese, no estamos certos de que a moeda seja realmente honesta.
Suponhamos, por exemplo, que a probabilidade de cara seja 0,51. Ento, muito provvel que
aceitemos a hiptese de moeda honesta, mesmo quando a moeda no o seja. A nica maneira de
melhorar essa situao consiste em aumentar o nmero de jogadas.
11.3 Uso dos Testes de Hipteses
A utilizao dos testes de hipteses ou de signicncia passa pela inferncia estatstica.
A tomada de deciso quanto recomendao ou no do emprego de uma droga pressupe que,
ao experimentarmos determinado tratmento frente a um controle (placebo), a comparao seja
realizada e que o valor encontrado para o teste empregado inclua o valor de p; e que considerando
os critrios previamente observados, possamos concluir pela aceitao ou rejeio da hiptese nula.
H uma innidade de testes de hipteses, tanto paramtricos como no-paramtricos, e a apli-
cabilidade dos mesmos ser ditada por sua melhor adequao aos objetivos do trabalho realizado,
assim como dos dados que sero avaliados.
Concluindo:
11.4 Classicao dos Testes de Hipteses
H uma quantidade considervel de testes, e dependendo dos objetivos do trabalho e dos dados
obtidos na(s) amostra(s), emprega-se o teste adequado, cujo valor resultar na aceitao ou rejeio
de H
0
.
77
11.4. CLASSIFICAO DOS TESTES DE HIPTESES CAPTULO 11. TESTES DE HIPTESES
Surge ento a classicao que considera os testes paramtricos e no-paramtricos.
Os testes paramtricos devem ser utilizados em dados que apresentem uma distribuio con-
siderada normal ou aproximadamente normal. So mais comuns quando utilizamos as variveis
contnuas.
Exemplo: Teor de hemoglobina, peso ao nascer, presso arterial sistlica.
Os testes mais conhecidos so: t de Student, F, Tukey e Duncan, entre outros.
Os testes no-paramtricos so empregados em distribuio de dados no-conhecida ou que
apresente variao acentuada.
Exemplo: tempo de seguimento em pacientes com doena crnica, dias de internao hospita-
lar. Os testes mais utilizados so: Wilcoxon, Mann-Whitney, Kruskal-Wailis, Friedman, X
2
(qui-
quadrado), McNemar, Kendall.
11.4.1 Testes uni e bilateral
As hipteses a serem testadas so denominadas hiptese nula (H
0
) e a hiptese contrria chamada
hiptese alternativa (H
1
).
Considerando um parmetro (mdia populacional), desejamos testar a hiptese H
0
onde
=
0
, onde
0
pode corresponder a um valor especco.
Neste caso, h trs formas diferentes para hipteses alternativas:
H
1
: >
0
(unilateral)
H
1
: <
0
(unilateral)
H
1
: ,=
0
(bilateral)
Nos testes unilaterais formulamos normalmente a hiptese nula (H
0
), mas quanto hiptese
alternativa, esta poder ser formulada considerando que a mdia aritmtica ou proporo possam
a ser maiores ou menores do que o valor de referncia para comparao.
Exemplo: Eccia do AZT - Um estudo para prolongar a vida dos pacientes com AIDS
levantou os seguintes dados:
Grupo Vivo Morto Total
AZT 144 1 145
Placebo 121 16 137
Total 265 17 282
Alguns clculos podem ser feitos:
144/145 = 99,3% dos pacientes vivos depois de 24 semanas (AZT);
121/137 = 88,3% dos pacientes vivos depois de 24 semanas (Placebo);
Parece que o AZT tem efeito de prolongar a vida. Mas antes de aceitar a concluso preciso
afastar a hiptese do acaso, ou seja, temos que testar as hipteses:
H
0
Inexistncia de diferena entre os 2 tratamentos.
H
1
inexistncia de igualdade entre os 2 tratamentos.
O prximo passo construir um critrio baseado no qual a hiptese nula ser julgada. O critrio
de deciso baseado na estatstica do teste. Esta estatstica mede a discrepncia entre o que foi
observado na amostra e o que seria esperado se a hiptese nula fosse verdadeira. Uma grande
distncia medida pela distribuio de probabilidade indicao de H
0
no verdadeira, devendo,
portanto ser rejeitada.
Existem duas opes para expressar a concluso nal de um teste de hiptese:
A primeira consiste em comparar o valor da estatstica do teste com o valor obtido a partir da
distribuio terica, especca para o teste, para um valor prexado do nvel de signicncia (por
exemplo 1% ou 5%).
Na segunda abordagem, atualmente a mais usada, o interesse quanticar a chance do que foi
observado ou resultados mais extremos, sob a igualdade dos grupos.
Este nmero chamado de probabilidade de signicncia ou valor-p e frequentemente indicado
apenas por p. Quanto menor o valor-p maior a evidncia para se rejeitar H
0
. De um modo geral
78
11.4. CLASSIFICAO DOS TESTES DE HIPTESES CAPTULO 11. TESTES DE HIPTESES
a rea mdica considera que se p menor ou igual a 0,05 indica que h diferena signicativa entre
os grupos comparados.
Como Interpretar a Signicncia Estatstica
Dr. Augusto Pimazoni Netto - 20/03/2007
Consultor para Assuntos de Educao e Controle do Diabetes
Quase todos os dias nos deparamos com o conceito de signicncia estatstica dos resultados
de um estudo clnico, geralmente avaliada atravs da expresso p < 0,05 ou semelhantes. Mas,
na realidade, o que signica isso em termos de verdade cientca?
O termo nvel de signicncia no costuma ser adequadamente entendido pelos mdicos na
prtica clnica. Na linguagem coloquial, o termo signicante quer dizer algo importante ao
passo que, na linguagem estatstica, esse termo tem o signicado de provavelmente verdadeiro
e, portanto, no resultante de uma situao aleatria. Um achado cientco pode ser verdadeiro
sem ser necessariamente importante. Quando os estatsticos dizem que um resultado altamente
signicante, isto signica que a hiptese que est sendo testada muito provavelmente verda-
deira. Da mesma forma, em cincia, o fato de uma diferena entre tratamentos, por exemplo, ser
estatisticamente signicante, isso no signica necessariamente que esta diferena seja clinicamente
importante ou interessante.
A denio do limite do valor de p deve ser feita antes do incio do estudo. Em geral, o
valor de p < 0,05 ou menor signica que estamos assumindo uma probabilidade de apenas 5% de
que a diferena encontrada no estudo clnico no seja verdadeira, apesar de, estatisticamente, ter
sido assim demonstrada. Quanto menor o valor de p, menor ser a probabilidade disso acontecer.
De uma forma geral, os resultados de um estudo clnico podem variar de no signicante at
extremamente signicante, como mostra a tabela a seguir:
Signicncia Estatstica conforme o valor de p.
Valor de P Signicado
>0,05 No signicante
0,01 a 0,05 Signicante
0,001 a 0,01 Muito signicante
<0,001 Extremamente signicante
79
11.4. CLASSIFICAO DOS TESTES DE HIPTESES CAPTULO 11. TESTES DE HIPTESES
11.4.2 Testes Paramtricos e No-Paramtricos
Principais Testes
Testes Paramtricos
Testes t
Teste para duas amostras independentes
Teste para duas amostras emparelhadas
Teste para uma s amostra
Testes ANOVA
Os testes ANOVA diferencia-se dos testes t porque os testes t s podem ser usados para testar
diferenas entre duas situaes para uma varivel. Os testes ANOVA podem ser usados para
testar diferenas entre diversas situaes e para duas ou mais variveis.
Testes No-Paramtricos
Testes para amostras emparelhadas
Teste do sinal, Teste de McNemar, Teste Q de Cochran, Teste de Wilcoxon, Teste de Friedman
Testes para amostras independentes
Teste de Mann-Whitney, Teste de Kruskal-Wallis
Outros testes
Teste binomial, Teste de ajustamento do qui-quadrado, Teste de independncia do qui-
quadrado, Teste exato de Fisher
80
Captulo 12
Testes Paramtricos
Exigem que amostra tenha uma distribuio normal especialmente se tiverem uma dimenso inferior
a 30.
12.1 Teste t
Nas amostras de dimenso superior a 30, a distribuio aproxima-se da distribuio normal e
tambm se aplicam os testes t.
H certas ocasies em que o pesquisador deseja realizar a comparao de duas amostras que
provm de populaes diferentes. Neste caso, ao contrastar as mdias destas amostras para vericar
se h diferena entre elas, estar indiretamente comparando as duas populaes. E por analogia,
poderamos proceder a um experimento em que um grupo receberia uma droga, enquanto outro
grupo nada receberia.
O efeito do tratamento aplicado seria vericado pela comparao dos dois grupos.
Nestes casos, o teste t seria o indicado para tal comparao, salientando que a varivel em
anlise teria que apresentar os dados em distribuio normal ou aproximadamente normal.
Teste t para dados pareados
Trata-se do estudo de um tipo de tratamento em que se utilizam pares de indivduos ou animais.
H uma preocupao em que haja um pareamento entre os indivduos para que eles diram somente
no aspecto, tratado e no-tratado.
H trabalhos realizados com utilizao de pares de gmeos ou alguns casos em que prossionais
de odontologia comparam os dois lados das arcadas dos indivduos, considerando que os dados so
pareados.
Exemplo: Consideremos o peso de dez pessoas, antes e depois de se submeterem a uma dieta.
Verique se houve uma diferena signicativa entre os pesos dos dois grupos.
Antes Depois
78 74
75 73
74 74
79 73
82 80
84 81
88 81
59 54
72 70
73 68
Formulando as Hipteses Nula e Alternativa:
H
0
: A mdia de peso do grupo "Antes" igual mdia de peso do grupo "Depois".
81
12.1. TESTE T CAPTULO 12. TESTES PARAMTRICOS
H
1
: A mdia de peso do grupo "Antes" diferente mdia de peso do grupo "Depois". Neste
caso usamos um teste bilateral (H
1
: ,=
0
).
Aplicando o Teste T para dados pareados:
Como o peso "Antes"e "Depois"refere-se a mesma pessoa, temos que os dados so pareados:
No Bioestat: Digite os dados no grid, tal como aparecem na tabela acima, e em seguida faa:
Estatsticas > Duas Amostras Relacionadas > Teste t > Dados Amostrais
Como resultado, o Bioestat retornar o seguinte:
A maneira mais simples de interpretar estes resultados utilizando o valor de p bilateral p =
0.0005 < 0.05, logo rejeita-se a hiptese nula, ou seja, o uso da dieta parece contribuir para a
diminuio do peso mdio dos indivduos. Lambramos novamente que uma anlise estatstica deve
ser to abrangente quanto possvel, levando-se em conta todos os fatores disponveis.
Teste t para dados no-pareados
Esta aplicao do teste t de Student realizada quando comparamos as mdias aritmticas de duas
amostras independentes, nas quais as varincias apresentam valores aproximadamente iguais.
Exemplo: Para vericar se duas dietas para emagrecer so igualmente ecientes, um pesqui-
sador separou, ao acaso, um grupo de indivduos em dois subgrupos. Aps certo tempo obteve a
perda de peso, em kg, em cada indivduo de cada grupo. Os dados coletados foram:
A B
12 15
8 19
15 15
13 12
10 13
12 16
14 15
11
12
13
82
12.2. EXERCCIOS CAPTULO 12. TESTES PARAMTRICOS
H
0
: A mdia de perda de peso do grupo "A" igual mdia de perda de peso do grupo "B".
H
1
: A mdia de perda de peso do grupo "A" diferente da mdia de perda de peso do grupo
"B". Neste caso usamos um teste bilateral (H
1
: ,=
0
).
No Bioestat:
Estatsticas > Duas Amostras Independentes > Teste t: Dados Amostrais
Neste caso, o valor de p bilateral (p = 0.0109 < 0.05) permite que rejeitemos a hiptese nula,
assim, a mdia de perda de peso do grupo A tem grande chance de ser diferente da mdia de perda
de peso do grupo B e como a mdia de perda de peso do grupo B ( = 15kg) maior do que a
mdia de perda de peso do grupo A ( = 12kg), te-se forte indcio de que a dieta aplicada ao grupo
B mais eciente.
12.2 Exerccios
1. Suponha que voc esteja interessado em examinar os efeitos da transio da circulao fetal
para o ps-natal em prematuros. Para cada um dos 14 recm-nascidos saudveis, a taxa
respiratria medida em dois diferentes momentos uma vez quando o beb tem menos de
15 dias e outra quando tem mais de 25 dias.
Taxa Respiratria (respirao/minuto)
83
12.2. EXERCCIOS CAPTULO 12. TESTES PARAMTRICOS
Indivduo Momento 1 Momento 2
1 62 46
2 35 42
3 38 40
4 80 42
5 48 36
6 48 46
7 68 45
8 26 40
9 48 48
10 27 42
11 43 46
12 67 31
13 52 44
14 88 48
Podemos armar que a taxa respiratria mdia diferente no primeiro e segundo momento?
2. Os seguintes dados foram obtidos de um estudo que compara adolescentes que tm bulimia
e adolescentes saudveis com composies corpreas e nveis de atividades fsicas similares.
Os dados consistem de medidas de ingesto calrica diria de amostras aleatrias de 23
adolescentes bulmicos e 15 saudveis.
Ingesto calrica diria (kcal/kg)
Bulmico Saudvel
15,9 18,9 25,1 20,7 30,6
16,0 19,6 25,2 22,4 33,2
16,5 21,5 25,6 23,1 33,7
17,0 21,6 28,0 23,8 36,6
17,6 22,9 28,7 24,5 37,1
18,1 23,6 29,2 25,3 37,4
18,4 24,1 30,9 25,7 40,8
18,9 24,5 30,6
a) Conduza um teste bicaudal assumindo de 5%, para vericar se a ingesto calorica diria
igual nos dois grupos.
b) Voc acredita que os adolescentes com bulimia exigem uma ingesto calrica diria mais
baixa dos que os saudveis?
3. Dezenove indivduos com asma foram inscritos em um estudo que investiga os efeitos res-
piratrios do dixido de enxofre. Durante o estudo duas medidas foram obtidas para cada
indivduo. A primeira o aumento da resistncia area especca (SAR, Specic Airway
Resistence) uma medida de broncoconstrio do momento em que o indivduo est em
repouso at depois que ele se exercitou por cinco minutos; o segundo o aumento na SAR
para o mesmo indivduo depois que ele fez um teste de exerccio similar, conduzido em uma
atmosfera com 0,25 ppm de dixido de enxofre. Os dados so apresentados na tabela abaixo:
Aumento da SAR
84
12.2. EXERCCIOS CAPTULO 12. TESTES PARAMTRICOS
Indivduo Ar SO
2
1 0,82 0,72
2 0,86 1,05
3 1,86 1,4
4 1,64 2,3
5 12,57 13,49
6 1,56 0,62
7 1,28 2,41
8 1,08 2,32
9 4,29 8,19
10 1,37 6,33
11 14,68 19,88
12 3,64 8,87
13 3,89 9,25
14 0,58 6,59
15 9,5 2,17
16 0,93 9,93
17 0,49 13,44
18 31,04 16,25
19 1,66 19,89
a) Ao nvel de signicncia de 0,05, teste a hiptese nula de que no h diferena no aumento
da resistncia area especca para as duas ocasies. O que voc conclui?
b) Voc acha que teria sido apropriado usar um teste t pareado para avaliar esses dados? Por
qu?
4. Para testar o efeito de um novo analgsico nos casos de cefalia, foi feito um ensaio clnico
casualizado com 17 pacientes. O ensaio, duplo-cego, utilizou placebo para comparao. O
novo analgsico foi designado para 8 pacientes, que constituram o grupo experimental, e o
placebo foi designado para 9 pacientes, que constituram o grupo controle. Uma hora depois
de ingerir o comprimido, os pacientes registraram a dor em uma escala analgica que variava
de 0 a 10, conforme a tabela abaixo. Pode-se armar que o novo analgsico ecaz?
Experimental Controle
1 2
1,5 3,5
2 4
2 5
3,5 8
5,5 8,5
7 9
7,5 9,5
10
5. Um estudo cross over foi conduzido para investigar se o farelo de aveia auxilia a baixar
os nveis sricos de colesterol em homens hipercolesterolmicos. Catorze indivduos foram
aleatoriamente colocados em uma dieta que inclua farelo de aveia ou ocos de milho; depois
de duas semanas, seus nveis de colesterol de lipoprotena de baixa densidade (LDL low-
density lipoprotein) foram registrados:
LDL (mmol/l)
85
12.2. EXERCCIOS CAPTULO 12. TESTES PARAMTRICOS
Indivduo Flocos de milho Farelo de aveia
1 4,61 3,84
2 6,42 5,57
3 5,4 5,85
4 4,54 4,8
5 3,98 3,68
6 3,82 2,96
7 5,01 4,41
8 4,34 3,72
9 3,8 3,49
10 4,56 3,84
11 5,35 5,26
12 3,89 3,73
13 2,25 1,84
14 4,24 4,14
As duas amostras so de dados pareados ou independentes? Quais so as hipteses apropri-
adas para um teste bilateral? Conduza o teste ao nvel de signicncia de 5%. O que voc
conclui?
86
Captulo 13
Teste No Paramtricos
As tcnicas estatsticas clssicas usadas para estimar parmetros e testar hipteses possuem exi-
gncias claras: especicam, por exemplo, que os valores da varivel estudada devem ter distribuio
normal ou aproximadamente normal. Na prtica, porm, muitas variveis no apresentam este tipo
de distribuio; as vezes, difcil at mesmo determinar que tipo de distribuio apresentam, pois
as amostras nem sempre so sucientemente grandes para tal tipo de avaliao.
Outra pressuposio frequente nos testes clssicos a da homogeneidade de varincias (ho-
mocedasticidade) entre as populaes que esto sendo comparadas. No entanto, muitas vezes as
varincias so heterogneas e, mesmo transformando os dados, no se consegue homocedasticidade.
Os testes sugeridos para analisar dados que no satisfazem as exigncias das tcnicas clssicas
denominam-se testes de distribuio livre, por no dependerem do conhecimento da distribuio
da varivel na populao, ou testes no paramtricos.
13.1 Vantagens e Desvantagens dos Testes No Paramtricos
Os testes no paramtricos apresentam as seguintes vantagens em relao s tcnicas clssicas:
So as mais apropriadas quando no se conhece a distribuio dos dados na populao. So
tambm teis quando essa distribuio assimtrica e no se deseja realizar uma transforma-
o dos dados, quando existe heterogeneidade nas varincias ou ainda quando, na comparao
entre tratamentos, a distribuio gaussiana em alguns grupos e assimtrica em outros. So,
por isso, testes de aplicao mais ampla do que os paramtricos.
So os indicados quando a varivel medida em escala ordinal. tambm existem tcnicas no
paramtricas para variveis cujas categorias no so ordenveis.
Quando as exigncias das tcnicas clssicas no podem ser satisfeitas, os mtodos no param-
tricos so mais ecientes do que os testes paramtricos (nas situaes em que tais exigncias
so satisfeitas, os paramtricos so mais ecientes).
As desvantagens dos testes no-paramtricos so:
Quando utilizados em dados que satisfazem as exigncias dos testes clssicos, os mtodos no
paramtricos apresentam uma ecincia menor. Isto equivale a dizer que para se detectar
uma diferena real entre duas populaes por um teste no paramtrico, o tamanho amostral
deve ser um pouco maior do que seria necessrio com um teste clssico. Por exemplo, em
amostras de tamanho moderado, o teste de Wilcoxon-Mann-Whitney (WMW) tem um poder
de aproximadamente 95% quando comparado com o teste t de Student. Assim, se o tamanho
da amostra necessrio para identicar uma diferena usando o teste de WMW de 100
indivduos, usando-se o teste t so necessrios 95 indivduos.
Alguns autores armam que os testes no-paramtricos extraem menos informao do expe-
rimento porque so tcnicas empregadas em dados mensurados em escalas no-quantitativas
87
13.2. TESTE QUI-QUADRADO CAPTULO 13. TESTE NO PARAMTRICOS
(ou dados quantitativos reduzidos para uma escala qualitativa ordenvel). Realmente, em
muitos testes no-paramtricos o valor real medido substitudo pelo posto ocupado na or-
denao dos valores obtidos; neste caso, h perda de informao relativa a variabilidade da
caracterstica (uma diferena numericamente grande pode representar apenas uma mudana
para o posto seguinte).
13.2 Teste Qui-Quadrado
O teste no-paramtrico de
2
(qui-quadrado) foi desenvolvido por Pearson e por ele designado
pela letra minscula grega seguida do expoente 2, sendo muito aplicado em pesquisas biolgicas.
Tabela de Contingncia
Suponha que queiramos testar se h alguma diferena entre quatro remdios antigripais concorren-
tes. No se garante que qualquer um deles seja ecaz - apenas cada um promete reduzir as chances
de contrair uma gripe. Portanto, o nmero de pessoas que tomam cada remdio e contraem gripe
pode ser considerado como uma varivel aleatria. A hiptese nula : no h diferena entre os
remdios. Outra maneira de dizer: a condio de uma pessoa (se ela adoece ou no) independente
do remdio que ela toma. Suponha que faamos um teste em 495 pessoas, perguntando-lhes que
remdio tomaram, e se contraram, ou no, resfriado. Os resultados foram:
Remdio 1 Remdio 2 Remdio 3 Remdio 4
Quantos se resfriaram 15 26 9 14
Quantos caram imunes 111 107 96 117
Esse tipo de tabela uma tabela de contingncia nesse caso, com duas linhas e quatro colunas.
Cada localizao uma clula. A tabela tem oito clulas.
As tabelas de contingncia mostram quantas observaes (Frequncias) esto em cada clula,
em que as clulas representam todas as combinaes possveis de dois fatores.
13.2.1 Aplicao do Teste Qui-Quadrado
Podemos ver, pela tabela, que o remdio 3 parece ser o mais ecaz; apenas 8,5% dos que o tomaram
contraram gripe. Todavia, h muitos outros fatores a considerar. Possivelmente, as pessoas que
tomaram este remdio estiveram menos expostas aos germes do resfriado; nesse caso, o fato de
estas terem contrado menos resfriados uma ocorrncia aleatria que nada tem a ver com o fato
de terem tomado o remdio 3.
Por conseguinte, nossa hiptese nula seria: no h diferena bsica entre os quatro remdios.
As diferenas observadas so devidas exclusivamente ao acaso.
No Bioestat: Preenchemos o grid tal como a tabela e fazemos:
Estatsticas > Qui-Quadrado > Tabelas de Contingncia (L x C)
e assim obtemos:
88
13.3. EXERCCIOS CAPTULO 13. TESTE NO PARAMTRICOS
Ao nvel de 5%, temos que p = 0, 0538 > 0, 05 o que sugere que aceitemos a hiptese nula,
entretanto, como o valor de p muito prximo de 0, 05, percebemos que devemos aprofundar nossa
investigao.
13.2.2 Cuidados com o Teste Qui-Quadrado
Recomenda-se aplicar o teste qui-quadrado de associao quando o tamanho da amostra for
razoavelmente grande, devendo ser aplicado com maior cuidado quando existirem frequencias
esperadas menores que 5. Nestas situaes, recomenda-se o agrupamento de classes, evitando-
se frequencias esperadas menores que 5;
Em tabelas 2 x 2 deve-se usar a correo de Yates (o Bioestat faz o clculo);
Se uma das variveis contiver nveis que contemplem todas as categorias da populaa, como
a varivel sexo - s existem as possibilidades masculino e feminino, diz-se que o teste de
homogeneidade;
O grau de associaa entre duas variveis analisadas pelo teste do qui-quadrado pode ser
rerpresentado pelo coeciente de contingncia que pode variar entre 0 e 1. Quanto maior
o valor do coeciente, maior ser a associao entre as variveis, na prtica, quanto maior for
a tabela de contingncia, maior ser o valor do coeciente.
13.3 Exerccios
1. Em um estudo experimental, com 300 pacientes, para testar uma nova droga contra AIDS, 240
receberam o medicamento A, ao passo que, 60 receberam um placebo. A taxa de mortalidade
em 2 anos foi de 88 e 12 pacientes, respectivamente. No presente estudo a reduo da
mortalidade est associada ao uso da droga?
Morte sim Morte no
Droga A 88 152
Placebo 12 48
2. Perguntamos a 50 fumantes e a 50 no fumantes se eles acreditam que o fumo pode conduzir ao
cncer do pulmo e outras doenas srias. As respostas esto tabuladas da seguinte maneira
Acreditam No acreditam
Fumantes 11 39
No fumantes 28 22
89
13.4. TRABALHO 04 CAPTULO 13. TESTE NO PARAMTRICOS
Voc diria que a opinio dos fumantes a mesma dos no fumantes?
3. Dois grupos de 100 pacientes foram acompanhados quanto a incidncia de cncer do pulmo
associado ao tabagismo. No grupo de fumantes a incidncia de cncer foi igual a 28 pacientes,
no grupo controle (no-fumantes) foi igual a 8 pacientes. No presente estudo a incidncia de
cncer de pulmo est associada ao tabagismo?
Cncer sim Cncer no
Tabagismo sim 28 72
Tabagismo no 8 92
4. Em um estudo para vericar a relao entre asma e incidncia de gripe no outono, 150 crianas
foram escolhidas ao acaso, dentre aquelas acompanhadas pelo Posto de Sade de um bairro.
Os dados referentes a uma semana so apresentados na tabela a seguir.
Gripe sim Gripe no
Asma sim 27 34
Asma no 42 47
Existem evidncias de que a ocorrncia de gripe inuenciada pela presena de asma nesta
populao?
5. Um estudo para determinar a taxa de fumantes entre pessoas de diferentes grupos etrios
originou os dados amostrais aleatrios. Com base nestes dados, a incidncia de fumantes est
associada faixa etria?
Fumante No fumante
20-24 anos 18 32
25-34 anos 15 35
25-44 anos 17 33
45-64 anos 15 35
13.4 Trabalho 04
Instrues:
As questes devero ser respondidas no Word;
O nome do arquivo deve conter o seu nome e o nome do curso, por exemplo: RodrigoMate-
matica;
O arquivo deve ser enviado para o e-mail rodrigopereira@unifra.br
O assunto do email ser Trabalho 04.
Utilize o seu email da Unifra (acesse-o atravs do Alunonet).
1. Os seguintes dados vm de um estudo que examina a eccia da cotinina na saliva como um
indicador para a exposio fumaa do tabaco. Em uma parte do estudo, a sete indivduos
- nenhum dos quais grandes fumante e todos eles se abstiveram de fumar pelo menos uma
semana antes do estudo - foi solicitado fumar um nico cigarro. Foram tomadas amostras da
saliva de todos os indivduos 2, 12, 24 e 48 horas depois de terem fumado o cigarro. Os nveis
de cotinina a 12 horas e a 24 horas so mostrados abaixo. O que se pode armar sobre estes
nveis?
90
13.5. TESTE EXATO DE FISHER CAPTULO 13. TESTE NO PARAMTRICOS
Nveis de Cotinina (mmol/l)
Indivduo Depois de 12 horas Depois de 24 horas
1 73 24
2 58 27
3 67 49
4 93 59
5 33 0
6 18 11
7 147 43
2. Os dados da tabela a seguir foram extrados de uma pesquisa realizada com crianas de at
12 anos de idade em Florianpolis. Tal pesquisa tem por objetivo analisar se a severidade
das cries dentrias observadas tem ou no relao com as condies familiares da criana.
Categorias Baixa Alta
Severidade Severidade
Tempo de residncia (em anos) At 2 anos 48 40
Mais de 2 anos 22 30
Nmero mdio 0.25 - 0.83 20 20
de residentes por cmodo 0.84 - 1.25 30 20
1.26 ou mais 30 40
Responsvel pelo domiclio Pai/Me 40 30
Avs 20 20
Outros 20 30
Responsvel pelo Pai/Me 30 30
sustento da famlia Pai 30 20
Me 15 20
Outros 15 20
Com base na tabela, deseja-se fazer 4 testes de hipteses, para vericar se as variveis tempo de
residncia, nmero mdio de residentes por cmodo, responsvel pelo domiclio e responsvel
pelo sustento da famlia esto associadas com a severidade das cries. Construa a hiptese
nula e alternatva e conclua sobre elas atravs do teste Qui-Quadrado.
13.5 Teste Exato de Fisher
O teste de Fisher usado para amostras pequenas e produz menos erro em relao ao teste do
qui-quadrado. O teste de Fisher permite calcular a probabilidade de associao das caractersticas
que esto em anlise, ou seja, de elas serem independentes.
O teste de Fisher utilizado nas seguintes situaes:
a) n < 20
b) n > 20 e < 40 e a menor frequncia esperada for menor que 5.
O teste de Fisher calcula a probabilidade de que a tabela usada tenha sido obtida por acaso
e, portanto, sem mudar os totais das colunas e linhas, o teste de Fisher contrai todas as tabelas
possveis. Este teste faz uso de tabelas de contingncia 2X2, para se comparar 2 grupos.
indicado quando o tamanho das duas amostras independentes pequeno e consiste em determinar
a probabilidade exata de ocorrncia de uma frequncia observada, ou de valores mais extremos.
Exemplo: Numa classe de 24 alunos, comparou-se o rendimento de estudantes provenientes
de escolas particulares e escolas pblicas. Os resultados seguem abaixo:
Acima mdia Abaixo mdia
Particular 5 7
Pblica 10 2
Realize o teste exato de Fisher e interprete os resultados.
91
13.6. EXERCCIOS CAPTULO 13. TESTE NO PARAMTRICOS
13.6 Exerccios
1. De uma maneira geral os doentes psiquitricos podem ser classicados em psicticos e neu-
rticos. Um psiquiatra realiza um estudo sobre os sintomas suicidas em duas amostras de 20
doentes de cada grupo. os resultados tabelados so:
Psictico Neurtico
Sintoma presente 2 6
Sintoma ausente 18 14
A nossa hiptese de que a proporo de psicticos com sintomas suicidas igual a proporo
de neurticos com estes sintomas (em um teste de independncia, a hiptese nula seria, a
presena ou ausncia de sintomas suicidas independente do tipo de doente envolvido).
2. Testar se a alterao da cor fator de aparecimento de bactrias.
Presena de Bactrias
No Sim
No alterao da cor 2 12
Sim alterao da cor 1 5
3. Na tabela abaixo temos um grupo de bovinos vacinados contra aftosa e outro de no-vacinados
e a presena ou no de aftosa.
Presena de aftosa No presena de aftosa
Vacinados 2 12
No vacinados 1 5
Houve associao entre a vacinao e a presena de aftosa?
4. Num estudo sobre fecundidade de duas raas bovinas foram feitos acasalamentos obtendo-se
os seguintes resultados:
Fecundos No fecundos
Raa A 3 7
Raa B 4 1
Verique se as duas raas diferem quanto fecundidade.
5. Segundo o quadro abaixo, as respostas das pessoas so inuenciadas pelo grupo a que per-
tence?
Resposta Sim Resposta No
Grupo A 6 3
Grupo B 16 0
13.7 Teste de Kruskal-Wallis
O teste de Kruskal-Wallis aplicado quando esto em comparao trs ou mais grupos indepen-
dentes e a varivel deve ser de mensurao ordinal.
Exemplo: Trs mtodos de preveno de cries so testados em um grupo de 30 crianas.
As crianas foram divididas em trs grupos igualmente, de maneira aleatria. Em cada grupo foi
aplicado um mtodo de preveno de cries. No nal do tratamento as crianas foram examinadas
e observou-se o nmero de dentes com cries que os mtodos no conseguiram evitar. Vericar
atravs do teste de Kruskal-Wallis se h diferenas signicativas, a 5%, para os mtodos.
Mtodo A 1 0 2 1 2 1 2 1 1 0
Mtodo B 1 1 0 1 2 1 1 0 1 1
Mtodo C 2 1 2 2 3 2 2 2 1 1
92
13.8. EXERCCIOS CAPTULO 13. TESTE NO PARAMTRICOS
13.8 Exerccios
1. Foram selecionadas amostras aleatrias de trs diferentes tipos de lmpadas utilizadas nos
equipamentos odontolgicos e testadas para vericar quanto tempo as lmpadas funcionavam,
com os seguintes resultados
Lmpada A 73 64 67 62 70
Lmpada B 84 80 81 77
Lmpada C 82 79 71 75
Teste ao nvel de 5%, a hiptese de igualdade das trs mdias.
2. Um pesquisador deseja comparar o ndice de IMC entre homens casados (grupo 1), solteiros
(grupo 2) e vivos ou separados (grupo 3). Os resultados esto no quadro abaixo.
Grupo 1 26,5 22,5 25 26,4 27,6 28,1
Grupo 2 32,7 31,6 19,3 22,7 25,1 30,1
Grupo 3 20,4 30,2 31,7 36,5 36,9 33,2 28,7
O IMC so iguais para os trs grupos?
3. Suponha-se que um pesquisador resolva investigar o comprimento (mm) de ratos de labo-
ratrio, importantes para estudos de reparao ssea. Foram utilizados 3 raas de ratos de
laboratrio (A, B e C). As medidas esto apresentadas abaixo. Vericar se h diferena entre
os grupos.
Ratos A Ratos B Ratos C
96 82 115
128 124 149
83 132 166
61 135 147
101 109 -
4. Uma determinada experincia consiste em vericar os efeitos de 3 dosagens (A, B e C) de
um antibitico (azitromicina) no organismo. No quadro abaixo so mostradas as idades dos
participantes de cada um desses 3 grupos de indivduos que foram submetidos experincia.
Suponha que um pesquisador alegue que os supostos resultados diferentes das dosagens do
antibitico possam estar associados ao fato de que os grupos (populaes) so heterogneos
quanto s idades. Seria correto dar crdito essa observao?
A B C
12 6 10
15 7 13
23 8 17
25 11 24
31 18 27
36 20 28
50 21 32
52 30 35
93
13.9. TRABALHO 05 CAPTULO 13. TESTE NO PARAMTRICOS
13.9 Trabalho 05
Instrues:
As questes devero ser respondidas no Word;
O nome do arquivo deve conter o seu nome e o nome do curso, por exemplo: RodrigoMate-
matica;
O arquivo deve ser enviado para o e-mail rodrigopereira@unifra.br
O assunto do email ser Trabalho 05.
Utilize o seu email da Unifra (acesse-o atravs do Alunonet).
1. Uma tcnica suspeita que as amostras de matrias-primas da variedade de aveia UPF16
fornecidas diferem signicantemente no contedo de -glucanas. H um grande nmero
de amostras corrente em seu armazm. Trs dessas so escolhidas aleatoriamente para um
estudo. Foram feitas seis determinaes em cada amostra e obtiveram-se os seguintes dados:
Amostra 1 4,88 4,89 4,63 4,91 5,32 5,31
Amostra 2 4,18 4,30 3,61 3,29 3,40 3,35
Amostra 3 1,77 1,81 1,72 1,74 2,02 2,02
H variao signicante no contedo de -glucanas de amostra a amostra? Use = 0, 05.
Formule as hipteses.
2. Um fabricante suspeita que os lotes de matrias-primas fornecidas por seu fornecedor difere
signicantemente no contedo de clcio. H um grande nmero de lotes corrente em seu
depsito. Cinco desses so escolhidos aleatoriamente para um estudo. Um qumico faz cinco
determinaes em cada lote e obtm os seguintes dados:
Lote 1 Lote 2 Lote 3 Lote 4 Lote 5
23,46 23,59 23,51 23,28 23,29
23,48 23,46 23,64 23,40 23,46
23,56 23,42 23,46 23,37 23,37
23,39 23,49 23,52 23,46 23,32
23,40 23,50 23,49 23,39 23,38
3. Utilize um teste para testar ao nvel de 5%, a hiptese da igualdade das mdias para os trs
grupos de alunos que foram submetidos a esquemas diferenciados de aulas. Foram registradas
as notas obtidas para uma mesma prova.
Aulas Expositivas Aulas com recursos audiovisuais Aulas atravs de ensino programado
65 60 61
62 71 69
68 66 67
70 63 72
60 64 74
59
4. bem conhecido que daltonismo hereditrio. Devido ao fato do gene responsvel ser ligado
ao sexo, o daltonismo ocorre mais frequentemente nos homens do que nas mulheres. Numa
grande populao humana, 1000 indivduos foram selecionados ao acaso e a distribuio de
daltonismo da cor vermelha-verde segundo sexo foi:
94
13.9. TRABALHO 05 CAPTULO 13. TESTE NO PARAMTRICOS
Masculino Feminino
Presente 42.00 7.00
Ausente 485.00 466.00
Os eventos ser daltnico e sexo so independentes?
95
Captulo 14
Correlao Linear
Neste captulo iremos avaliar se existe associao entre duas variveis quantitativas, tais como
presso arterial e idade do indivduo. Quando se pode demonstrar que existe associao entre duas
variveis quantitativas, isto quando se constata que elas variam junts, dizemos que as variveis
esto correlacionadas.
Neste sentido, Correlao uma relao estatstica para determinar se h algum relacionamento
signicativo entre duas variveis.
Existem muitos meios de se determinar a existncia ou no da correlao entre duas variveis.
Iremos utilizar dois mtodos, o grco (diagrama de disperso) e o algbrico (coecientes).
14.1 Diagrama de Disperso
Normalmente, num estudo estatstico, temos os dados das duas variveis dispostos numa tabela.
Podemos representar estes dados atravs de um grco de pontos.
Exomplo: Seja a tabela abaixo composta pela massa (Kg) e altura em (cm) de crianas com
10 meses de idade.
Altura (cm) Massa (Kg)
75 9,0
70 9,2
73 8,9
78 8,5
80 9,5
69 9,6
71 9,1
72 10,0
74 8,7
77 9,4
Construmos o grco de disperso colocando a varivel Altura no eixo x e a Massa no eixo y.
Em seguida marcamos os pontos correspondentes a cada indivduo.
Bioestat: Digite os valores da tabela, tal como apararecem, no grid do Bioestat.
Em seguida, clique em:
Estatsticas > Regresso > Linear Simples
O resultado ser a janela abaixo:
96
14.1. DIAGRAMA DE DISPERSO CAPTULO 14. CORRELAO LINEAR
Agora, clique primeiro sobre a coluna que deseja que que no eixo y (Massa) e em seguida na
coluna que car no eixo x (Altura) e por ltimo em "Executar Estatstica". O resultado ser o
seguinte:
Clique sobre "Grco"para ver o diagrama de disperso:
97
14.2. COEFICIENTE DE CORRELAO LINEAR - R CAPTULO 14. CORRELAO LINEAR
Note que existe um grande espalhamento de pontos ao redor da reta, isto indica que a correlao
entre as variveis no boa, de acordo com os dados disponveis.
Alm disso, veja que a reta est inclinada para a esquerda, signicando uma correlao decres-
cente, ou seja, de acordo com os dados disponveis, na medida em que a Altura (eixo x) aumenta,
a Massa (eixo y) diminui.
Exemplo: As taxas sanguineas de insulina e glicose apresentam correlao negativa, j a taxa
do hormnio glucagnio tem correlao positiva com a glicemia.
14.2 Coeciente de Correlao Linear - r
A anlise grca feita acima o primeiro passo para a determinao da correlao mas ela somente
um indcio desta correlao, precisamos de uma anlise numrica para reforar nossa deciso.
O coeciente de correlao mede o grau de relao linear
1
entre os valores emparelhados x e y
em uma amostra. Tambm conhecido como coeciente de correlao de Pearson, o valor de r deve
estar entre 1 e +1, inclusive.
Se o valor de r est prximo de 0, conclumos que no h correlao linear signicativa entre x
e y, mas se r est prximo de 1 ou +1, conclumos pela existncia de correlao linear signicativa
entre x e y.
1
Signica o espalhamento dos pontos do diagrama de dispeso ao redor de uma reta chamada de ajuste linear.
98
14.2. COEFICIENTE DE CORRELAO LINEAR - R CAPTULO 14. CORRELAO LINEAR
O valor mximo de r (-1 ou +1) atingido quando os pontos do diagrama esto sobre uma reta
(guras "a"e "b") e representam uma correlao linear perfeita entre as variveis.
Quando no existe correlao, os pontos distrtibuem-se em forma de nuvens circulares, tal como
nas guras "c"e "f".
As correlaes lineares intermedirias formam nuvens inclinadas relativamente prximas da reta
de ajuste (guras "d"e "e").
Existem tambm outros tipos de correlaes que, embora boas, no esto em torno de uma
reta, mas formam outras formas, como mostram as guras "g"e "h". Estas correlaes no so bem
calculadas pelo coeciente de correlao pois este foi criado para correlaes lineares.
Voltando ao nosso exemplo, como podemos determinar o coeciente de correlao?
Simplesmente olhando a gura abaixo:
99
14.3. REGRESSO LINEAR SIMPLES CAPTULO 14. CORRELAO LINEAR
O coeciente de correlao que procuramos r = 0, 2482, que indica uma baixa correlao entre
as variveis "Altura"e "Massa", pelo menos para este conjunto de dados.
Antes de continuarmos, preciso entender bem a seguinte observao:
14.3 Regresso Linear Simples
Aps analisarmos um diagrama de disperso possvel que veriquemos um comportamento linear
entre as variveis, vejamos um exemplo:
Exemplo: Os dados abaixo referem-se ao peso (gramas) e a idade (semanas), de codornas:
Idade (X) 1 2 3 4 5 6 7 8 9 10
Peso (Y ) 60 100 120 150 200 210 310 320 330 360
Qual o peso estimado de uma codorna com nove semanas e meia de vida?
Iniciamos analisando o diagrama de disperso:
100
14.3. REGRESSO LINEAR SIMPLES CAPTULO 14. CORRELAO LINEAR
A reta "ajusta"os pontos do diagrama, ou seja, ela capaz de resumir (ao menos teoricamente)
tais pontos, j que os pontos se encontro pouco dispersos ao redor da reta. Isto signica que
podemos trocar este conjunto de pontos pela expresso matemtica da reta pontilhada, este processo
chamado de Regresso Linear.
Um problema de regresso
2
consiste em determinar a funo que descreve a relao entre duas
variveis. Estudaremos somente o caso em que esta relao descrita por uma funo linear (reta).
A reta a regresso linear entre as grandezas y e x conforme as medies indicados pelos pontos.
Portanto, a relao a equao de uma reta:
Y = a +b X
Determinar a regresso linear signica achar os valores dos coecientes a e b (calculados pelo
Bioestat).
No Bioestat:
Estatsticas > Regresso > Linear Simples
Pela imagem, o valor de a 22,6667 e o de b 35,1515, o que nos permite montar a equao da
reta:
Y = 22, 6667 + 35, 1515 X
Agora que podemos contar com a equao da reta, temos a ferramenta matemtica necessria
para estimar o peso de uma codorna com 9 semanas e meia de vida:
No Bioestat:
Estatsticas > Regresso > Linear Simples; clique sobre "Estimar Y"
2
A palavra Regresso atribuda a sir Francis Galton, que, em 1886, procurou explicar por que pais mais altos
tinham lhos com estatura em mdia mais baixa que a deles, este fenmeno foi chamado de regresso mdia.
101
14.4. EXERCCIOS CAPTULO 14. CORRELAO LINEAR
Perceba que o Bioestat substituiu o valor desejado (9,5) pelo X da equao de ajuste, obtendo
356,6060 de valor estimado para Y, com isto, temos que se estima um peso de 356,6060 gramas
para uma codorna com 9 semanas e meia de vida.
14.4 Exerccios
1. Em um estudo conduzido na Itlia, 10 pacientes com hipertrigliceridemia foram colocados
sob dieta de baixas gorduras e altos carboidratos. Antes de inicia-la, as medidas de colesterol
e de triglicerdeos foram registradas para cada indivduo:
Paciente Nvel de colesterol (mmol/l) Nvel de triglicerdeos (mmol/l)
1 5,12 2,3
2 6,18 2,54
3 6,77 2,95
4 6,65 3,77
5 6,36 4,18
6 5,9 5,31
7 5,48 5,53
8 6,02 8,83
9 10,34 9,48
10 8,51 14,2
Existe alguma correlao entre os nveis de colesterol e de triglicerdeos antes da dieta? Ela
signicativa?
2. esperado que a massa muscular de uma pessoa diminua com a idade. Para estudar essa
relao, uma nutricionista selecionou 18 mulheres, com idade entre 40 e 79 anos, e observou
em cada uma delas a idade (x) e a massa muscular (y).
102
14.4. EXERCCIOS CAPTULO 14. CORRELAO LINEAR
Massa muscular (Y) Idade (X)
82.0 71.0
91.0 64.0
100.0 43.0
68.0 67.0
87.0 56.0
73.0 73.0
78.0 68.0
80.0 56.0
65.0 76.0
84.0 65.0
116.0 45.0
76.0 58.0
97.0 45.0
100.0 53.0
105.0 49.0
77.0 78.0
73.0 73.0
78.0 68.0
a) Calcule o coeciente de correlao linear entre X e Y;
b) Ajuste uma reta de regresso para a relao entre as variveis Y: massa muscular (depen-
dente) e X: idade (independente);
c) Considerando a reta estimada dada no item (b), estime a massa muscular mdia de mulheres
com 50 anos.
3. Um pesquisador deseja vericar se um instrumento para medir a concentrao de determinada
substncia no sangue est bem calibrado. Para isto, ele tomou 15 amostras de concentraes
conhecidas (X) e determinou a respectiva concentrao atravs do instrumento (Y), obtendo:
x 2,0 2,0 2,0 4,0 4,0 4,0 6,0 6,0 6,0 8,0 8,0 8,0 10,0 10,0 10,0
y 2,1 1,8 1,9 4,5 4,2 4,0 6,2 6,0 6,5 8,2 7,8 7,7 9,6 10,0 10,1
a) Calcule o coeciente de correlao entre as variveis x e y;
b) Obtenha a reta de regresso da varivel y em funo de x.
4. As medidas da concentrao de uma substncia no soro sanguneo de 10 pessoas com idades
diferentes foram indicadas abaixo. Calcular o coeciente de correlao entre a concentrao
dessa substncia e a idade e ajustar a equao da concentrao em funo da idade.
Idade(x) 16 25 25 39 39 40 50 64 65 72
Concentrao(y) 1,6 1,6 1,5 4 2,7 2,5 4 5 5 6,3
103

Anda mungkin juga menyukai