Estatística e Bioestatística
Estatística: Ramo do conhecimento que consta de processos os quais têm por objeto a observação, a
classificação e a análise de fenômenos coletivos com a finalidade de obter inferências indutivas a partir dos
dados. Estatística pode ser conceituada ainda como:
A Estatística descritiva: refere-se à coleta, organização, descrição dos dados, cálculos e interpretação de
coeficientes. Desta forma a estatística descritiva, visa descrever o real de forma de forma a permitir melhor
entendê-lo. Trata da organização, apresentação, tratamento e síntese de dados, a fim de descrever e
interpretar a realidade atual ou fatos passados relativos ao conjunto observado. O objetivo é informar,
prevenir, esclarecer.
Estatística indutiva ou Inferencial: refere-se a análise e a interpretação dos dados, associado a uma margem
de incerteza. Desta forma a estatística indutiva ou Inferencial constitui o conjunto de métodos cuja finalidade
é a tomada de decisões em situações onde há incerteza e variação.
Estabelece conclusões relativas a um conjunto mais vasto de indivíduos (população) a partir da observação
de um subconjunto (amostra) com base na estrutura matemática que lhe confere o cálculo das
probabilidades. Estatística inferencial é por tanto, o conjunto de métodos estatísticos que visam caracterizar
uma POPULAÇÃO ou inferir sobre a mesma a partir de uma parte dela (AMOSTRA). Por exemplo:
Bioestatística–É a aplicação da estatística nas ciências biológicas e da saúde. Ela é essencial ao planejamento, coleta,
avaliação e interpretação de todos os dados obtidos em pesquisa. Os princípios fundamentais são resumir a
informação, resumir as relações e estimar a magnitude das relações.
1
Hipótese, Método e Ciência
Hipótese Científica
Uma hipótese é um conjunto estruturado de argumentos e explicações que possivelmente justifica dados e
informações, porém, que ainda não foi confirmada. Uma hipótese é considerada científica se for possível
encontrar uma situação em que ela seja testada.
Portanto, uma hipótese científica deve ser comprovável. Assim, deverão existir observações que permitam
confirmar ou não uma hipótese. Uma hipótese que não pode ser testada é denominada especulação.
Pode ser:
Positiva - Exemplo: Há perigo de contaminação por gripe aviária, ao ingerir carne crua de aves.
Negativa - Exemplo: Não há perigo de contaminação por gripe aviária sem ingestão de carne crua
de aves.
Condicional - Exemplo: Se não houver o contato humano direto com aves, não há perigo de
contaminação por gripe aviária.
Variável de Confundimento: Alheia ao experimento, mas que pode ter influência nos resultados.
Variável de Exposição: É o fator que será estudado, o qual precede o desfecho. É a causa de uma
modificação; é experimental e pode ser manipulada e controlada pelo pesquisador. Sinônimo de
variável preditora ou variável independente.
Variável de Desfecho: Aquilo que vai acontecer durante uma investigação na mensuração da
condição de saúde-doença. Sinônimo de Variável Dependente (é o efeito).
2
Segundo o critério de medição (aferição), as variáveis dividem-se em: Qualitativas e Quantitativas
São essencialmente descritivas têm a visão do processo e dão importância ao ambiente e às relações como
sujeito (fenômeno). A avaliação dos dados deve ser criativa e rigorosa; geralmente gera um volume grande
de dados. Busca padrões e regularidades, corre o risco das distorções por parte do observador.
Nominal: São nomeadoras, dividem os indivíduos iguais ou não em relação a uma característica (p.ex.,
gênero, estado civil, nacionalidade etc.).
Variáveis expressas na escala nominal podem ser apenas "iguais" ou "diferentes" entre si. Não é feito
qualquer ranking, ou seja, não são ordenadas. Os números atribuídos servem a penas para identificar se
pertencem ou não pertencem a uma categoria ou identificação.
Ordinal (ordenadas ou graduadas naturalmente) – Classificam os indivíduos segundo a ordem que ocupam
(p.ex., ordem de chegada, ordem de nascimento etc.). A variável utilizada para medir uma determinada
característica identifica que esta é pertencente a uma classe e pressupõe que as diferentes classes estão
ordenadas sob um determinado ranking. Nenhuma dessas variáveis é medida em uma escala de medição exata.
Cada observação faz a associação do indivíduo medido a uma determinada classe, sem, no entanto, quantificar
Exemplos: Grau de instrução, aparência, estágio da doença, status social, grau de dor, escores
Podem ser:
3
População: É o conjunto de elementos com determinada característica (todo), ou seja, todos os
indivíduos com uma ou mais características em comum; todo o grupo de interesse para uma futura
inferência. Assim, a amostra é qualquer fração de uma população.
4
Parâmetros e Estimativas
PARÂMETRO: É um valor que resume na população a informação relativa a uma variável. Os parâmetros
são difíceis de serem obtidos, pois implicam o estudo de toda a população e costumam ser substituídos por
estimativas do parâmetro.
ESTIMATIVA: É o valor numérico de uma estatística, usado para realizar inferências sobre o parâmetro; é o
valor calculado em amostras representativas da população-alvo.
Estimativa do parâmetro é o dado obtido de uma amostra representativa da população-alvo.
5
6
Medidas de valores central
Multiplica cada valor por seu respectivo peso, somar todos os resultados e depois dividir pela soma
dos pesos do numeres.
Exemplo:
Calcule a nota média de uma prova realizada por 12 alunos, cujas notas são apresentadas a seguir:
N° alunos Notas
4 10,0 4 × 10 = 40 𝑆𝑜𝑚𝑎 𝑑𝑜𝑠 𝑝𝑒𝑠𝑜𝑠 = 4 + 2 + 3 + 3 = 12
2 8,5 2 × 8,5 = 17
3 6,0 3 × 6,0 = 18 40 + 17 + 18 + 15
𝑚é𝑑𝑖𝑎 𝑝𝑜𝑛𝑑𝑒𝑟𝑎𝑑𝑎 = = 7,5
3 5,0 3 × 5 = 15 12
Mediana: Mediana é uma medida de tendência central que indica exatamente o valor central de uma
𝑛° 𝑒𝑙𝑒𝑚𝑒𝑛𝑡𝑜𝑠 +1
amostra de dados, cuja 𝑝𝑜𝑠𝑖çã𝑜 𝑐𝑒𝑛𝑡𝑟𝑎𝑙 = 2
. O cálculo da mediana da seguinte forma:
7
Exemplos:
Moda (MO)
Moda é a medida de tendência central que consiste no valor observado com mais frequência em um conjunto de dados.
Se um determinado time fez, em dez partidas, a seguinte quantidade de gols: 3, 2, 0, 3, 0, 4, 3, 2, 1, 3, 1; a moda desse
conjunto é de 3 gols.
Medidas separatrizes
Quartis e percentis: São valores que separa um conjunto de dados ordenados em partes com iguais números
de observação. Os percentis, também chamados de quartis, são as porcentagens das observações abaixo do
ponto indicado, quando todas as observações são ordenadas; muito utilizados em conjunto com a mediana em
séries assimétricas.
Quartil
São valores que dividem um conjunto de elementos ordenados em quatro partes iguais, ou seja, cada parte
contém 25% desses elementos. Há, portanto, três quartis: Q1, Q2 e Q3.
Q1 – é chamado de primeiro quartil, ou seja, valor que deixa 25% dos elementos à sua esquerda e 75% dos
elementos à sua direita. Q1 significa um quarto.
Q2 – é chamado de segundo quartil e coincide com a mediana (Q2 = Md), ou seja, 50% dos elementos estão
à sua esquerda e 50% à sua direita.
Q3 – é chamado de terceiro quartil, ou seja, valor que deixa 75% dos elementos à sua esquerda e 25% à sua
direita. Q3 significa três quartos.
8
Exemplo: O percentil 75 é o ponto abaixo do qual estão 75% das observações, ao passo que 25 é o percentil abaixo do
qual estão 25% das observações.
𝒊 × (𝒏 + 𝟏)
𝑸𝒊 =
𝟒
𝒏 = 10 termos
3 × (10 + 1) 33
𝑸𝟑 = = = 8,25 posição, então:
4 4
12,2 + 12,9
8,25 é a média aritmética entre o 8° e o 9° elemento = = 12,55
𝟐
Amplitude
É definida como sendo a diferença entre o maior e o menor valor do conjunto de dados, quanto
maior a amplitude, maior a variação.
Exemplo:
Aluno A Aluno B
Notas: 5 e 9 Notas: 7 e 7
Média: 7 Média: 7
Variância do aluno A:
9
Variância do aluno B:
Desvio padrão: O desvio padrão é uma medida que indica a dispersão dos dados dentro de uma amostra
com relação à média.
Desvio padrão A= √4 = 2
Desvio padrão B= √0 = 0
O erro padrão: é o desvio padrão da distribuição das medidas das amostras de uma população. O
seja, é uma medida de variação de uma média amostral em relação à média da população.
Para se chegar a uma estimativa do erro padrão, basta dividir o desvio padrão pela raiz quadrada do tamanho
amostral. O resultado obtido também estará na mesma unidade de medida do valor amostral.
Método
Método é um procedimento ordenado, passível de ser repetido, para atingir algo material (tangível)
ou conceitual (intangível). A palavra vem do grego, "Métodos", que significa "caminho para chegar a um fim".
Tipos de Método
Indutivo
Dedutivo
Hipotético-dedutivo
Dialético,
Comparativo,
Histórico, entre outros.
10
Gráfico de setores (pizza ou torta): Variável qualitativa nominal (com poucas categorias). Raro em
publicações científicas.
Gráfico de barras: Variável qualitativa nominal (com muitas categorias) ou variável qualitativa
ordinal.
X1 = Q1 – (1,5 x IQR)
X2 = Q2 + (1,5 x IQR)
7°. Determinar L1 e L2
8°. Montar a box seguindo a ordem: L1; Q1; mediana; Q3; L3 e ponto
discrepante.
11
Por exemplo: Construir o Box pot para os valores apresentados:
3 – 3,5 – 4,5 – 5 – 5 – 5,5 – 6,5 – 6,5 – 6,5 – 7,5 – 7,6 – 7,9 – 8,0 – 8,0 – 9,0 – 9,5 – 10,0 – 15,0
L1 Q1 Calcular a mediana Q3 L2
6,5+7,5 14
1°. Determinar a mediana do conjunto: 𝑀𝑒𝑑𝑖𝑎𝑛𝑎 = = =7
2 2
Verificar o Q1= 5
Verificar o Q3 = 8
12
O box plot possui as seguintes vantagens:
Ao contrário de muitas outras formas de mostrar os dados, o box plot mostra os outliers.
Utilizando o box plot para cada variável categórica de lado a lado no mesmo gráfico, pode-se facilmente comparar
os dados.
Um detalhe do box plot é que ele tende a enfatizar as caudas da distribuição, que são os pontos. Também
fornece detalhes da distribuição dos dados. Mostrar o histograma em conjunto como box plot ajuda a entender
a distribuição dos dados, constituindo-se como um gráfico importante para a análise exploratória.
13
14
15
Testes que comparam média
16
17
18
19
20
1. Qual é a diferença entre as variáveis discretas e contínuas e por que essa diferença é
importante para determinar sua distribuição estatística?
As variáveis discretas têm valores distintos que podem elas assumir, enquanto as contínuas podem
assumir qualquer valor entre dois pontos e não são fáceis de prever. Essa diferença é importante
porque a distribuição das variáveis discretas é determinada pela tabulação, enquanto a das contínuas
requer que o estatístico leve em consideração todos os valores possíveis das variáveis e a
probabilidade de as variáveis assumirem esses valores.
Para entender os resultados da pesquisa, resumir os dados e comunicar os resultados de forma rápida
e eficiente. E também, os gráficos facilitam a visualização de resultados de forma sucinta e enfatizam
o texto escrito do relatório.
Uma hipótese bilateral afirma que um parâmetro simplesmente não é igual ao valor dado pela hipótese
nula.
Ela permite que os estatísticos tirem conclusões sobre uma população da amostra. Essa metodologia
permite que se faça inferências sobre a relação entre dois ou mais fatores a partir de amostras que
podem refletir o padrão da população da qual fazem parte.
21
6. Você está organizando um grupo de estudo de mulheres com diabetes tipo II. Sete mulheres
se inscreveram.
Quando o grupo de estudo é iniciado as mulheres precisam informar sua idade. Natália, a mulher mais
nova do grupo tem 28 anos. Patrícia, a mais velha, tem 49. As idades das outras mulheres no grupo
de estudo são as seguintes: 32, 35, 39, 43 e 47. Qual o intervalo de idades das mulheres no grupo de
estudo?
7. Para acompanhar as idades de todas as mulheres que participam do grupo de estudo você
cria o seguinte quadro
8. Em preparação para o grupo de estudo foi solicitado a cada participante que fizesse em casa
um teste do seu nível A1C (glicose) e que levasse os resultados. O nível de A1C de cada mulher foi
escrito ao lado de seu nome e idade.
Para encontrar o ponto médio, ou média, você deve somar todos os dados
pertinentes (6,7 + 6,8 + 6,5 + 6,9 + 6,7 + 6,9 + 6,7 = 47,2) e depois dividir
a soma pela quantidade de valores (47,2 / 7) para encontrar a resposta (6,74).
22
10. Agora que você identificou a média dos dados, qual o DP (desvio padrão baseado na
variância imparcial) dos níveis A1C das participantes?
Resposta: Para calcular o DP dos níveis de A1C das participantes, subtraia a média (6,74) de cada
número do conjunto de dados, em seguida eleve a diferença ao quadrado:
11. Você está agora na segunda reunião do grupo de estudo para mulheres com diabetes tipo II.
Hoje, as participantes discutirão o controle de sua diabetes. Algumas delas já iniciaram uma mudança
em seus comportamentos de saúde. Outras ainda precisam começar. Isso reflete a resposta de cada
participante a uma pesquisa sobre comportamentos para controle da diabetes:
11.1. Os dados coletados de cada participante foram colocados no gráfico de barras abaixo.
23
11.2. Exercícios regulares podem manter a diabetes sob controle. Quantas mulheres ainda
precisam começar a fazer exercícios?
Resposta: De acordo com a legenda do gráfico, a barra vermelha indica as mulheres que ainda não
começaram a praticar atividades saudáveis específicas, enquanto o número de mulheres que já
começaram essas atividades é indicado pela barra azul. Ao lado do comportamento saudável
‘Exercícios’, a barra azul toca na linha correspondente a 5 mulheres, indicando que 5 mulheres já
começaram os exercícios. A barra vermelha toca na linha correspondente a 2 mulheres, indicando
que 2 mulheres ainda não começaram os exercícios
11.3. Pessoas com diabetes devem fazer exames oculares e dos pés regularmente para evitar
cegueira e amputação. Quantas mulheres fizeram consultas com ambos, oculistas e podólogos?
Resposta: Embora o gráfico de barras mostre que 1 mulher marcou uma consulta com o podólogo e
2 mulheres marcaram uma consulta com o oculista, não temos como saber que mulheres concluíram
ou não cada atividade sem consultar o quadro usado para criar o gráfico de barras.
11.4. A funcionária encarregada do teste examina os dados e questiona a validade dos seus
resultados. Ela pede para você comparar o gráfico de barras com o quadro usado para registrar os
dados durante a pesquisa. Depois de verificar seu trabalho, você percebe que uma das categorias de
comportamento saudável no gráfico de barras está realmente errada. Compare o gráfico de barras com
seu quadro original. Que dados estão registrados incorretamente?
Resposta: O gráfico de barras mostra que 5 mulheres começaram a fazer ajustes saudáveis em suas
dietas, enquanto 3 mulheres ainda não fizeram esses ajustes. Entretanto, nosso tamanho de amostra
para o grupo de estudo é composto somente por 7 mulheres. 1 mulher a mais é representada como
tendo iniciado os ajustes saudáveis em sua dieta do que realmente aconteceu.
12. Os bebês de 1 ano pesam mais do que costumavam pesar? Um estudo realizado há 50 anos
estimou o peso médio de um bebê de 1 ano em 9 quilos. Esses pesos seguiam uma distribuição
Normal. Para sua experiência, você coletou uma simples amostra randômica do peso de 25 bebês em
seu primeiro aniversário. A amostra apresentou um peso médio de 9,4 quilos com um desvio padrão
de 1 quilo. Qual a estatística do teste, valor p e a conclusão da sua experiência?
Resposta: T = 2, p = 0,0285, sim – bebês de 1 ano agora têm um peso médio significativamente maior.
24
A hipótese nula é que atualmente os bebês de 1 ano têm o mesmo peso médio de 9 quilos como
anteriormente. A hipótese alternativa é que este peso médio aumentou. Em razão do pequeno tamanho
da amostra e dos dados Normal, um teste t é apropriado.
Há 25-1 = 24 graus de liberdade. O valor p é a possibilidade de que uma distribuição t com 24 graus
de liberdade seja maior do que 2.
O valor p de 0,0285 é menor do que o nível de significância padrão que é igual a 0,05, assim
rejeitamos a hipótese nula. Desse modo, concluímos que o peso médio de bebês de 1 ano aumentou
consideravelmente.
13. Como parte da garantia de qualidade, você está verificando a taxa de defeitos no suprimento
de tubos de ensaio de seu laboratório. A meta para remessas típicas corresponde a uma taxa de
defeitos de 1% ou menos. Seu laboratório fez uma amostragem randômica de 1024 tubos de ensaio e
constatou que 16 deles estavam quebrados. Você deveria ficar preocupado com esses resultados?
Qual a estatística do teste, valor p e conclusão da sua experiência?
Resposta: Z = 1,81, p = 0,035, sim – a taxa observada de defeitos neste embarque é significativamente
mais alta do que 1%.
A hipótese nula é que a taxa de defeitos é de 0,01, e a alternativa unilateral é que a taxa seja maior do
que 1% -- ficaríamos muito felizes se taxa declinasse, assim um teste unilateral seria adequado.
Usaremos um teste de proporções. A proporção observada de defeitos na amostra é de 16/1024 =
0,015625.
25
14. Você deseja saber se a prevalência de diabetes difere por região no país. Usando uma amostra
randômica simples, você coletou os seguintes dados:
15. Na terceira reunião do grupo de estudo de mulheres com diabetes Tipo II, você toma
conhecimento de que Eugénia aceitou um trabalho na Itália e não retornará. O número de participantes
do grupo de estudo é agora de 6. Natália, Mercedes e Lorena concordam em tentar uma técnica
diferente de controle de diabetes por semana durante duas semanas. Elas concordam em:
Márcia, Rebeca e Patrícia não se sentem ainda prontas para esse tipo de ação e preferem visitar um
conselheiro de comportamentos de saúde.
Natália, Mercedes e Lorena fazem relatos ao final de cada semana e individualmente classificam o
grau de dificuldade da nova técnica em uma escala de 1 a 5 (1- muito fácil e 5 - muito difícil).
Resposta: Não haverá diferença entre as técnicas; elas são todas iguais
26
A hipótese nula (H 0) é uma hipótese que o pesquisador tenta contestar, rejeitar ou invalidar. O termo
'nulo' normalmente se refere à visão comum de algo, enquanto a hipótese alternativa é o que o
pesquisador realmente pensa que seja a causa de um fenômeno.
16. Para acompanhar os relatórios das participantes, você organiza suas respostas individuais
à consulta de dificuldade na tabela abaixo.
Resposta: A análise da variância (ANOVA) testa a hipótese de que as médias de duas ou mais
populações são iguais. A variância mede a distância que cada número do conjunto se encontra em
relação à média. A variância é calculada tomando-se as diferenças entre cada número do conjunto e
a média, elevando as diferenças ao quadrado (para torná-las positivas) e dividindo a soma dos
quadrados pelo número de valores do conjunto.
17. A coordenadora da pesquisa deste teste tem dúvidas se os dados coletados são
estatisticamente significativos. Ela pede que você execute um teste t correlacionado sobre esses
dados para ter certeza.
Para encontrar o numerador, identifique a média das diferentes pontuações:
Resposta: O cálculo para as médias das diferentes pontuações é como segue:
3-1=2 Média: 2 + 0 + -2 = 0,00
2-2=0
A média de Exercícios menos Frutas/vegetais é igual a
1 - 3 = -2
0,00 (2 - 2 = 0).
27
19. Que afirmação é verdadeira nesses dados?
Resposta: As duas afirmativas são verdadeiras, pois na maioria das análises, um alfa de 0,05 é usado
como limite superior para significância. Se o valor p é menor do que 0,05, nós rejeitamos a hipótese
nula de que não há diferença entre as médias e concluímos que uma diferença significativa realmente
existe.
20. Você recebeu a tarefa de determinar a eficácia de um novo medicamento para controlar os
níveis de colesterol no sangue. Para realizar esse estudo você precisa determinar a estatística inicial
da população incluída no estudo. Os níveis iniciais de colesterol no sangue foram determinados em
25 participantes do estudo e os resultados são os seguintes:
a. Qual é o ponto estimado para essa população? Escreva sua resposta aqui:
Para encontrar o ponto estimado, ou o nível médio de colesterol no sangue dessa população, some os
valores iniciais de colesterol no sangue de todos os participantes, depois devida pelo tamanho da
amostra.
158 + 178 + 240 + 218 + 358 + 255 + 189 + 214 + 266 + 314 + 371 + 212 + 315 + 169 + 199 + 302
+ 265 + 176 + 370 + 289 + 318 + 244 + 210 + 284 + 217 = 6331
6331 / 25 = 253.2
28
b. Qual a variância para esse conjunto de dados?
Para encontrar a variância, subtraia a média de cada valor e eleve o resultado ao quadrado, desse modo:
Agora encontre a média dos resultados ao quadrado somando todos e dividindo pelo tamanho da amostra, 25.
8873.6 + 5565.0 + 174.2 + 1239.0 + 10,983.0 + 3.2 + 4121.6 + 1536.6 + 163.8 + 3696.6 + 13,876.8 + 1697.4
+ 3819.2 + 7089.6 + 2937.6 + 2381.4 + 139.2 + 5959.8 + 13,642.2 + 1281.6 + 4199.0 + 84.6 + 1866.2 + 948.6
+ 1310.4 = 97,589.6
97,589.6 / 25 = 3903.58
c. Qual o desvio padrão desse conjunto de dados? Escreva sua resposta aqui:
Resposta: Para encontrar o desvio padrão, calcule a raiz quadrada da variância: = 62.48
d. Qual o erro padrão para esse conjunto de dados? Escreva sua resposta aqui:
Para descobrir o erro padrão, divida o desvio padrão pela raiz quadrada do tamanho da amostra:
62.48/ = 12.5
29
e. Qual a margem de erro nesse conjunto de dados? Escreva sua resposta aqui:
Resposta: Para encontrar a margem de erro, multiplique o erro padrão pela pontuação z (2):
12.5 * 2 = 25
Resposta: Para encontrar o intervalo de confiança desse conjunto de dados, subtraia a margem de erro da
média, ou ponto estimado, para encontrar a extremidade de menor valor do intervalo:
253.2 – 25 = 228.2
Para encontrar a extremidade de maior valor do intervalo, adicione a margem de erro à média, ou ponto
estimado:
253.2 + 25 = 278.2
g. Se desejamos fazer a pergunta “A pessoa média tem níveis de colesterol elevados ao ponto de exigir
medicamentos para controlá-lo (>200mg/dl)? ”, gere as hipóteses nula e alternativa para este estudo.
Resposta: A declaração da hipótese, como no problema de palavras, é que a pessoa média com níveis de
colesterol acima de 200 mg/dl precisaria de medicação para controle. Agora convertemos a declaração da
hipótese para matemática, onde H1 é igual à hipótese e μ igual a média: H1: μ > 200
Para encontrar a hipótese nula, nós simplesmente declaramos o que aconteceria se a hipótese não se
confirmasse, onde H0 é igual à hipótese nula. Se a pessoa média não tem níveis de colesterol maiores ou
iguais a 200: H0 : μ≤200
Para encontrar a hipótese alternativa, nós simplesmente declaramos o contrário da hipótese nula, onde Ha
é igual à hipótese alternativa. Se a pessoa média TEM níveis de colesterol maiores do que 200: Ha: μ>200
h. Qual a estatística do teste para essa hipótese? Escreva sua resposta aqui: Para encontrar a estatística
do teste, primeiro subtraia a média da população hipotética da média da amostra:
253.2 – 200 = 53.20
Agora dívida a diferença pelo erro padrão do conjunto de dados, 12.5:
53.20 / 12.5 = 4.256
30
PERGUNTA 1: Corresponda os seguintes termos com suas definições:
Estatística do teste
Erro de tipo I
Erro de tipo I
Valor P
Nível de significância
Correlação
a. A probabilidade de observar uma estatística do teste pelo menos tão extrema como a calculada com base
nos dados da amostra, dado que a hipótese nula é verdadeira.
e. Um processo para estabelecer teorias concorrentes para a realidade, reunir dados, avaliar a evidência e
tirar conclusões probabilísticas sobre as hipóteses.
f. Um limiar para o valor P, que definimos para decidir se rejeitaremos ou não a hipótese nula. Qualquer valor
P menor que esse número forneceria uma forte evidência contra a hipótese nula.
g. Um valor calculado com base nos dados da amostra, usado para avaliar a força da evidência para a hipótese
nula.
PERGUNTA 2: Uma candidata política precisa da maioria dos votos para ganhar as eleições. Para aproximar
os resultados, uma pesquisa de 400 eleitores é realizada, usando uma amostragem aleatória simples. Entre
os eleitores, 222 dizem que pretendem votar na candidata, enquanto 178 planejam votar no oponente. Esse
resultado parece promissor, mas as pesquisas têm uma certa variação aleatória e podem cometer erros. A
candidata pode concluir com segurança que ela tem a maioria dos votos atualmente?
a. Sim, a candidata tem uma maioria significativa com um valor P bilateral de 0,028.
b. Não, a candidata tem uma maioria, mas não é estatisticamente significativa, com um valor P de 0,094.
c. Sim, a candidata tem uma maioria significativa com um valor P unilateral de 0,014.
d. Não, não é possível concluir muita coisa com uma amostra de apenas 400 eleitores.
31
PERGUNTA 3: O gráfico de dispersão a seguir mostra a distância e o tempo de deslocamento até o trabalho
de 100 trabalhadores incluídos em uma amostragem aleatória. Qual declaração a seguir é verdadeira?
Selecione todas as opções aplicáveis.
Existe uma relação positiva entre a distância e o tempo de deslocamento. Maiores valores de distância estão
associados aos maiores tempos de deslocamento.
PERGUNTA 4: Uma fábrica produz bolas de golfe. Todos os meses, eles produzem uma nova remessa. O peso
médio de suas bolas de golfe tem sido historicamente de 45 gramas. É importante para a empresa que essa
medida seja consistente em todas as remessas. Parte da garantia de qualidade é verificar isso. Em
experimento para verificar o peso médio das bolas de golfe, quais são as hipóteses nula e alternativa
corretas?
a. H_0:μ=45.H_1:μ>45.
b. H_0:μ=45.H_1:μ=46.
c. H_0:μ=45.H_1:μ≠45.
d. H_0:μ≠45.H_1:μ=45.
PERGUNTA 5: Uma fábrica produz bolas de golfe. Todos os meses, eles produzem uma nova remessa. No
momento, eles estão realizando uma garantia de qualidade de sua produção recente de bolas de golfe. Eles
querem garantir que o peso médio seja de 45 gramas, para verificar se nada mudou em seu processo de
fabricação. Foram selecionadas aleatoriamente e pesadas 100 bolas de golfe. Na amostra, o peso médio foi
45,05 gramas com um desvio padrão de 0,2 grama. Calcule o valor da estatística do teste.
a.2,5
b.-0,75
c.1
d.0,9
32
PERGUNTA 1: Você é o gerente de uma equipe de profissionais médicos no hospital. Ultimamente, você
notou que muitos trabalhadores estão faltando por doença nas segundas ou sextas-feiras. Isso pode ser um
subterfúgio para conseguir folgas extras.
Parte 1: Ocorrem mais erros cirúrgicos nos fins de semana? Com diferentes níveis de pessoal e recursos de
suporte nos fins de semana, há motivos para se preocupar. Sua equipe analisou alguns dos registros do
hospital quanto a um tipo específico de cirurgia. No último mês, o hospital realizou essa cirurgia 213 vezes,
das quais 172 ocorreram durante a semana e as outras 41 nos fins de semana. As cirurgias resultaram em
complicações em 13 casos durante a semana e 5 do fim de semana. Considerando tudo isso, você acha que
o hospital tem diferentes taxas de complicações nos fins de semana?
p = 0,3374; o hospital não tem taxas significativamente elevadas de complicações nos fins de semana. Os
números observados estavam dentro da amplitude esperada de variação.
p = 0,0172; o hospital tem taxas de complicações 1,72% mais altas nos fins de semana e isso é
estatisticamente significativo.
p = 0,0691; a diferença do hospital nas taxas dos fins de semana é quase estatisticamente significativa e
próxima o suficiente para causar preocupação.
PERGUNTA 2: Você é o gerente de uma equipe de profissionais médicos no hospital. Ultimamente, você
notou que muitos trabalhadores estão faltando por doença nas segundas ou sextas-feiras. Isso pode ser um
subterfúgio para conseguir folgas extras.
Parte 3: Deveríamos ter usado o Teste exato de Fisher em vez de um teste do Qui-quadrado? Qual seria o
valor P se o tivéssemos usado?
Não, não precisamos usar o Teste exato de Fisher porque todas as contagens das amostras são valores
grandes. O valor P de 0,0172 é quase exatamente o mesmo que o teste do Qui-quadrado.
Sim, precisamos usar o Teste exato de Fisher porque todas as contagens das amostras são valores grandes.
O valor P de 0,6209 é bastante diferente do que calculamos anteriormente e mais preciso que o teste do Qui-
quadrado.
Sim, precisamos usar o Teste exato de Fisher porque todas as contagens das amostras incluem valores
pequenos. O valor P de 0,3514 é mais preciso que os resultados do Qui-quadrado. O teste de Fisher é um
método exato, enquanto o teste do Qui-quadrado depende de uma aproximação que requer contagens
maiores que a nossa.
Não, não precisamos usar o Teste exato de Fisher porque todas as contagens das amostras incluem valores
pequenos. O valor P de 0,5803 confirma que teríamos obtido uma resposta similar, independentemente do
teste que escolhemos.
33
PERGUNTA 3: Você é o gerente de uma equipe de profissionais médicos no hospital. Ultimamente, você
notou que muitos trabalhadores estão faltando por doença nas segundas ou sextas-feiras. Isso pode ser um
subterfúgio para conseguir folgas extras.
Parte 2: Como o valor P mudaria se você usasse a Correção de continuidade de Yate no teste de Qui-quadrado
de Mantel-Haenszel?
B. O valor P corrigido seria 0,0493. Isso altera completamente nossa conclusão e agora achamos que as taxas
cirúrgicas diferem significativamente nos fins de semana.
C. O valor P corrigido seria 0,4583. Isso nos torna mais seguros de que existem diferenças reais nas taxas
cirúrgicas.
D. O valor P corrigido seria 0,5177. Esse resultado reconfirma que não existe diferença significativa entre os
dias da semana e os fins de semana em termos de taxas de complicações e a diferença observada é ainda
menor que os resultados de teste não corrigidos fornecidos.
PERGUNTA 4: Quais são as suposições necessárias para o teste t de uma amostra? Selecione todas as opções
aplicáveis
PERGUNTA 5: O gráfico de dispersão a seguir mostra as alturas e os pesos de 100 adultos incluídos em uma
amostragem aleatória. Qual declaração a seguir é verdadeira? Selecione todas as opções aplicáveis.
D. Uma pessoa mais alta provavelmente pesará mais que alguém mais baixo.
E. Uma pessoa mais alta pesará 1 kg extra para cada centímetro de altura.
34
Avaliação Bioestatística de 10 perguntas – Nota 5
PERGUNTA 1: _______ são declarações referentes aos dados ou à população que nos permitem conhecer a
distribuição da estatística do teste e calcular os valores p. a. Hipóteses
PERGUNTA 2: Por qual das seguintes razões os gráficos são uma ótima primeira etapa na análise dos dados?
d. Nem a nem b
PERGUNTA 5: Use as informações abaixo para mostrar o contorno de um diagrama em caixa em uma folha
de papel separada:
O AVC é uma das principais causas de deficiência e morte em homens e mulheres. Os efeitos de um AVC
poderão ser minimizados se você ligar para o 190 e chegar ao hospital nas primeiras 3 horas após reconhecer
que está sofrendo um AVC. Em uma pesquisa recente, 100 pessoas que sofreram um AVC relataram o
sintoma que apresentaram assim que perceberam que deveriam ligar para o 190. Entre as 100 pessoas, 20
relataram fala enrolada, 30 declararam incapacidade de levantar o braço, 12 relataram tropeços ao caminhar
e 15 relataram uma cefaleia que provocava uma sensação como punhaladas na cabeça. As outras 23 disseram
que não reconheceram nenhum sintoma, mas alguém próximo a elas reconheceu. Qual é o sintoma que
constitui o maior valor? Fraqueza no braço
PERGUNTA 6: Podemos encontrar uma nuvem de pontos em que tipo de gráfico? c. Um gráfico de dispersão
PERGUNTA 7: Qual tipo de hipóteses declara que "nenhuma mudança será observada na análise de dados"?
a. Hipótese alternativa
PERGUNTA 8: Um processo para estabelecer teorias concorrentes para a realidade, reunir dados, avaliar a
evidência e tirar conclusões probabilísticas sobre as hipóteses é conhecido como: d. teste de hipóteses
bicaudais
PERGUNTA 9: A variância imparcial é encontrada ___ a __ dos quadrados pelo número de pontos de dados
menos 1 (N - 1). c. dividindo; soma
PERGUNTA 10: As pessoas que foram submetidas a uma cirurgia de coração aberto normalmente têm um
tempo de recuperação em casa por 6 semanas, embora a recuperação possa levar de 4 a 12 semanas. Como
o período de recuperação típico foi determinado como sendo de 6 semanas? a. teste ANOVA
35
1. Bioestatística (Tentativa 1): Nota 10
PERGUNTA 1 Por que um pesquisador poderia projetar um estudo duplo cego? b. para reduzir o viés
PERGUNTA 2 Uma variância de amostra é sempre __ porque __ inteiros. b. positiva; calculamos o quadrado dos
PERGUNTA 3: Quem sabe se o participante está no grupo de casos ou de controle em um estudo duplo cego? c. Nenhum
deles
PERGUNTA 4: Qual é a amplitude deste conjunto de dados? 1, 1, 5, 5, 7, 7, 13, 13, 13, 19, 19, 19, 19.
PERGUNTA 5: Os participantes de um estudo de pesquisa frequentemente estão em grupos chamados: b. Caso, controle
PERGUNTA 2: Quem sabe se o participante está no grupo de casos ou de controle em um estudo duplo cego? Nenhum
deles (certo)
PERGUNTA 3: Qual é a mediana deste conjunto de dados? 1, 5, 7, 13, 19. Resp: 7 (certo)
PERGUNTA 4: O que é uma variância padrão? b. É a distância quadrática média da mediana (errado).
PERGUNTA 5: Se você dividir a soma dos quadrados pelo número de pontos de dados menos 1 (N - 1), a resposta será:
variância da amostra (errado).
PERGUNTA 1: Uma variância de amostra é sempre __ porque __ inteiros. b. positiva; calculamos o quadrado dos
PERGUNTA 2. Como as variáveis independentes e dependentes são usadas em um estudo? O pesquisador estuda a
variável independente e mede a variável dependente no experimento (???).
PERGUNTA 3. Qual é o termo para uma estatística que mede o grau de partida da simetria? Assimetria
PERGUNTA 5: Se uma distribuição é perfeitamente simétrica, então: Ela não tem desvio padrão
36
PERGUNTA 1: Qual é o modo deste conjunto de dados? 1, 1, 5, 5, 7, 7, 13, 13, 13, 19, 19, 19, 19
d. 19
a. Caso, controle
PERGUNTA 3. Ao projetar um estudo de pesquisa, é importante reconhecer que sua hipótese pode não ser
nova. Como você poderia estabelecer se sua hipótese já foi respondida ou não?
PERGUNTA 5
37
2. Bioestatística (Tentativa 1): Nota 3,33
PERGUNTA 1: Este gráfico de pizza mostra os sintomas que as mulheres relataram que apresentaram assim que
perceberam que estavam tendo um ataque cardíaco. Qual sintoma foi o mais relatado? c. Dor toráxica
PERGUNTA 2: Uma pontuação extrema que cumpra determinados critérios, a serem definidos como notavelmente
diferente do resto dos dados, é conhecida como: b. caixa externa
PERGUNTA 3: Corresponda o tipo de gráfico com sua definição (Resposta acima – Precisa arrumar).
Gráfico de barras
Gráfico de dispersão
Gráfico de pizza
Gráfico de pontos multidirecionais
Gráfico de pontos simples
Histograma
a. Mostra pontuações em duas variáveis quantitativas diferentes, com cada variável com sua própria linha numérica ou
eixo (eixo X e eixo Y).
b. Mostra uma variável quantitativa, representando dados contínuos usando barras. As barras se tocam.
PERGUNTA 4: Use as informações abaixo para mostrar o contorno de um diagrama em caixa em uma folha de papel
separada. Em seguida, responda às perguntas. Foi mostrado que as mulheres experimentam os sintomas de ataque
cardíaco de forma diferente dos homens, frequentemente por meio de sintomas sutis (como a falta de ar) que
frequentemente são ignorados até se tornarem mais sérios. Em uma pesquisa recente, 100 mulheres que sofreram um
ataque cardíaco relataram o sintoma que apresentaram assim que perceberam que estavam tendo um ataque cardíaco.
Entre as 100 mulheres, 50 relataram dores torácicas, 20 relataram sudorese, 15 relataram fadiga, 10 relataram dor maxilar
e 5 relataram náuseas. Qual(is) sintoma(s) constitui(em) o segundo quartil? Clique em todas as opções aplicáveis. c. Fadiga
38
PERGUNTA 1: Uma hipótese ___ significa que um parâmetro é maior ou menor que o valor dado pela
hipótese nula. Uma hipótese ___ afirma que um parâmetro simplesmente não é igual ao valor dado pela
hipótese nula.
PERGUNTA 2: Um parâmetro é:
a. uma característica numérica de uma população b. uma característica descritiva de uma população
PERGUNTA 3: Um par de números que contêm uma amplitude de valores que são mais prováveis de conter
o valor verdadeiro do parâmetro que está sendo estimado descreve um(a):
PERGUNTA 4: este gráfico de pizza mostra os sintomas que as mulheres relataram que apresentaram assim
que perceberam que estavam tendo um ataque cardíaco. Qual sintoma foi o menos relatado? Dores torácicas
PERGUNTA 5
Use as informações abaixo para mostrar o contorno de um diagrama em caixa em uma folha de papel
separada. Em seguida, responda às perguntas. Foi mostrado que as mulheres experimentam os sintomas de
ataque cardíaco de forma diferente dos homens, frequentemente por meio de sintomas sutis (como a falta
de ar) que frequentemente são ignorados até se tornarem mais sérios. Em uma pesquisa recente, 100
mulheres que sofreram um ataque cardíaco relataram o sintoma que apresentaram assim que perceberam
que estavam tendo um ataque cardíaco. Entre as 100 mulheres, 50 relataram dores torácicas, 20 relataram
sudorese, 15 relataram fadiga, 10 relataram dor maxilar e 5 relataram náuseas. Ordene os sintomas, da
menor para a maior quantidade relatada.
39
PERGUNTA 1: Um estudo queria determinar se o início da doença cardíaca ocorre em uma idade mais
precoce do que antigamente. Um estudo de 10 anos atrás descobriu que o paciente na média com doença
cardíaca era inicialmente diagnosticado aos 60 anos. Um novo estudo com 100 pacientes foi realizado. No
diagnóstico inicial, a média da idade do grupo foi 58 anos, com desvio padrão de 10. Qual é o valor P para o
teste de hipóteses?
a. p = 0,05 b. p = 0,1349
c. p = 0,0227 d. p = 0,0454
PERGUNTA 2 (aberta): Um dado justo tem seis lados. Quando ele é arremessado, cada lado é igualmente
provável de cair voltado para cima. Você trabalha para a Autoridade de Jogos de Azar e quer testar um dado.
Você o arremessa 60 vezes, com os lados 1 a 6 pousando 12, 6, 14, 11, 9 e 8 vezes. Você quer realizar o teste
do Qui-quadrado de Pearson para avaliar se o dado é justo. Produza uma planilha de teste com os resultados.
PERGUNTA 3: Seu professor acompanha a idade de cada estudante. Nos últimos 20 anos, o estudante na
média tinha 19,5 anos no primeiro dia de aula. A distribuição dos dados também é razoavelmente próxima
do Normal. A classe deste ano terá uma média diferente? No primeiro dia de aula, o professor coleta as
idades de todos os 25 estudantes. O valor médio é de 19,8 anos com um desvio padrão de 1 ano.
Arredondado para 3 casas decimais, qual é o valor P e a conclusão do teste?
a. p = 0,043, rejeitar a hipótese Nula e concluir que a classe deste ano tem uma média de idade
significativamente mais alta.
b. p = 0,147, não rejeitar a hipótese Nula e concluir que a classe deste ano não tem uma média de idade
significativamente diferente.
c. p = 0,081, rejeitar a hipótese Nula e concluir que a classe deste ano tem uma média de idade
significativamente diferente.
d. p = 0,074, não rejeitar a hipótese Nula e concluir que a classe deste ano não tem uma média de idade
significativamente diferente.
PERGUNTA 4: O gráfico de dispersão a seguir mostra as alturas e os pesos de 100 adultos incluídos em uma
amostragem aleatória. Qual declaração a seguir é verdadeira? Selecione todas as opções aplicáveis.
40