Anda di halaman 1dari 72

Estatística / Bioestatística /

Métodos Estatísticos / Slide 0

Bioestatística e Epistemologia
da Investigação

Ana M. Abreu - 2006/07


Capítulo 1 Slide 1

Estatística Descritiva
I-1 Introdução à organização e ao processamento
de dados.
I-2 Amostra e população; cuidados a ter na
recolha da amostra.
I-3 Ordenação dos dados. Agrupamento dos
dados. Tabela de frequências.
I-4 Medidas de localização e de dispersão.
I-5 Representação gráfica dos dados: gráfico de
barras, gráfico de sectores, gráfico de caule-e-
folhas, caixa-de-bigodes, histograma.

Ana M. Abreu - 2006/07


Introdução Slide 2

Um objectivo comum dos inquéritos e de


outros processos de obtenção de dados é a
recolha de informação de uma parte de um
grupo maior, de modo a aprender algo sobre o
grupo maior. Por exemplo, podemos perguntar
a 10% dos alunos qual a sua nota de entrada
na Universidade e assim ter alguma
informação sobre a totalidade dos alunos.

Ana M. Abreu - 2006/07


Definições Slide 3

Dados estatísticos
são observações (como medidas, respostas de inquéritos,
registos de idade, sexo, naturalidade, ...) que foram recolhidas.

Estatística
a informação estatística é constituída por dados, os quais
são organizados, sumariados, apresentados, analizados,
interpretados de modo a retirar conclusões baseadas nos
dados.

Ana M. Abreu - 2006/07


Definições Slide 4

População
a colecção completa de todos os elementos
(pessoas, animais, medidas, ...) a serem estudados.
A colecção é completa no sentido de incluir todos
os indivíduos a serem estudados.

Amostra
Um subconjunto da população escolhido
correctamente, de modo a poder ser considerado
como representativo da população.

Ana M. Abreu - 2006/07


Definições Slide 5

 Parâmetro
uma medida numérica que descreve
alguma característica de uma população.

população

parâmetro

Ana M. Abreu - 2006/07


Definições Slide 6

Estatística
uma medida numérica que descreve
alguma característica de uma amostra.

amostra

estatística
Ana M. Abreu - 2006/07
Definições Slide 7

Dados quantitativos
números que representam contagens ou
medidas.
Exemplo: medidas dos modelos!

Ana M. Abreu - 2006/07


Definições Slide 8

Dados qualitativos
(ou categorizados ou atributos)
podem ser separados em diferentes
categorias, que se distinguem por alguma
característica não numérica.
Exemplo: sexo (masculino/feminino) dos
doentes.

Ana M. Abreu - 2006/07


Definições Slide 9

Os dados quantitativos podem ser de tipo


discreto ou contínuo.

Dados discretos
surgem quando o número de valores
possíveis é finito ou contável.
0, 1, 2, 3, . . .
Exemplo: O número de ovos que uma
galinha põe.
Ana M. Abreu - 2006/07
Definições Slide 10

Dados contínuos
(ou numéricos) surgem quando o número de valores
possíveis é infinito e corresponde a alguma escala
contínua que contempla uma amplitude de valores sem
interrupções ou saltos.
2 3

Exemplo: As alturas dos alunos da UMa.

Ana M. Abreu - 2006/07


Definições Slide 11

Outra forma de classificar os dados consiste


em usar escalas.

 escala nominal
caracterizada por dados tais como nomes,
etiquetas ou categorias. Os dados não têm
qualquer relação de ordem (do mais pequeno
para o maior)

Exemplo: inquéritos cujas respostas são sim,


não, sem opinião.
Ana M. Abreu - 2006/07
Definições Slide 12

 escala ordinal
envolve dados que podem ser ordenados, mas
as diferenças entre eles ou não podem ser
calculadas ou não fazem sentido.

Exemplo: O nível de escolaridade.

Ana M. Abreu - 2006/07


Definições Slide 13

 escala intervalar
como a escala ordinal, mas onde é possível calcular
diferenças. No entanto, não existe um zero natural (que
pudesse corresponder a ausência da característica).

Exemplo: As temperaturas em graus Celsius e em graus


Fahrenheit (ºF=ºC(9/5)+32).

Ana M. Abreu - 2006/07


Definições Slide 14

 escala absoluta ou de razões


o zero da escala corresponde à anulação da
característica em estudo. São possíveis
comparações quer através de diferenças quer
através de quocientes.
Exemplo: Preço das propinas (0€ representa
ausência de custo).

Ana M. Abreu - 2006/07


Resumo - Slide 15

Escalas para os dados

 Nominal - só categorias.
 Ordinal - categorias com alguma ordem.
 Intervalar - diferenças possíveis mas sem zero
natural.

Absoluta ou de razões - diferenças possíveis e


com zero natural.

Ana M. Abreu - 2006/07


Recapitulando Slide 16

Até agora vimos:


 Definições e termos básicos para descrever
os dados
 Parâmetros versus estatísticas
 Tipos de dados (quantitativos e qualitativos)
 Escalas de medidas

Ana M. Abreu - 2006/07


Cuidados a ter na Slide 17

recolha da amostra

Ana M. Abreu - 2006/07


Pontos fundamentais Slide 18

 Se uma amostra não é recolhida de forma


apropriada, os dados podem ser tão inúteis,
tal que, qualquer que seja a tortura a que
sejam submetidos, não confessam seja o
que for.
 Tipicamente a aleatoriedade tem um papel
importante na recolha de dados.

Ana M. Abreu - 2006/07


Pontos fundamentais Slide 19

 Dimensão da amostra
usar uma amostra com dimensão
suficiente para conseguir captar as
características dos dados e recolhida de forma
apropriada, tal como baseada na aleatoriedade.

Ana M. Abreu - 2006/07


Definições Slide 20

 Amostra Aleatória
os membros da população são
seleccionados de tal forma que cada membro
tem igual possibilidade de ser escolhido.

Amostra Aleatória Simples (de


dimensão n)
os indivíduos são seleccionados de tal forma
que cada possível amostra de dimensão n tem a
mesma possibilidade de ser escolhida.
Ana M. Abreu - 2006/07
Amostra Aleatória Slide 21

Selecção tal que cada um tem igual possibilidade


de ser escolhido.

Ana M. Abreu - 2006/07


Amostragem Sistemática Slide 22

Seleccionar a partir de um ponto inicial e depois


seleccionar a cada K elemento na população.

Ana M. Abreu - 2006/07


Slide 23
Amostragem por conveniência
Usar os resultados que são fáceis de obter.

Ana M. Abreu - 2006/07


Amostragem Estratificada Slide 24

subdividir a população em, pelo menos, dois


subgrupos distintos que partilham alguma
característica e, em seguida, recolher uma amostra
de cada um dos subgrupos (ou estratos).

Ana M. Abreu - 2006/07


Amostragem por Clusters Slide 25

dividir a população em secções


(ou clusters); seleccionar aleatoriamente alguns
desses clusters; escolher todos os membros dos
clusters seleccionados.

Ana M. Abreu - 2006/07


Slide 26

Métodos de Amostragem

 Aleatória
 Sistemática
 Por conveniência
 Estratificada
 Por clusters

Ana M. Abreu - 2006/07


Generalidades Slide 27

Estatística Descritiva
resume ou descreve as características
importantes de um conjunto conhecido de dados
populacionais.

 Estatística Inferencial
usa dados amostrais para fazer inferências (ou
generalizações) sobre uma população.

Ana M. Abreu - 2006/07


Características importantes dos dados Slide 28

1. Localização: Um valor representativo ou médio


indica onde se situa o centro dos dados.

2. Variação: Uma medida do quanto os valores da


amostra variam entre si.

3. Distribuição: A natureza ou a forma de


distribuição dos dados (tal como em forma de
sino, uniforme ou assimétrica)

4. Outliers: Valores amostrais que se situam muito


afastados da maioria dos restantes valores
amostrais.

5. Tempo: Algumas características podem se


alterar ao longo do tempo.
Ana M. Abreu - 2006/07
Distribuição de Frequência Slide 29

Distribuição de Frequência
lista dos valores dos dados (ou
individuais ou por grupos de intervalos),
juntamente com as correspondentes
frequências ou contagens.

Ana M. Abreu - 2006/07


Distribuição de Frequência Slide 30

Ana M. Abreu - 2006/07


Ponto Médio de uma Classe Slide 31

O ponto médio de uma classe determina-se


adicionando os limites da classe (inferior e
superior) e dividindo por dois.

49.5
Pontos
149.5
Médios
249.5
349.5
449.5

Ana M. Abreu - 2006/07


Amplitude da Classe Slide 32

é a diferença entre dois limites superiores consecutivos


ou dois limites inferiores consecutivos.

100
Amplitude 100
da Classe 100
100
100

Ana M. Abreu - 2006/07


Razões para construir Slide 33
distribuições de frequência

1. Conjuntos de dados grandes podem


ser resumidos.

2. Pode-se ganhar alguma perspectiva


sobre a natureza dos dados.

3. Base para a construção de gráficos.

Ana M. Abreu - 2006/07


Como construir uma tabela de
Slide 34
frequências
1. Decidir o número de classes (habitualmente entre 5 e 20).
Regra de Sturges: k=nº de classes ≈ 1+[log2n]
2. Calcular (aproximando por excesso) a
(maior valor) – (menor valor)
amplitude da classe ≈
número de classes
3. Escolher o limite inferior da primeira classe.
4. Usar o limite inferior da primeira classe e a amplitude de
classe para listar, numa coluna vertical, todos os limites
inferiores.
5. Em seguida, listar os correspondentes limites
superiores.
6. Percorrer os dados, assinalando com um traço vertical a
classe onde se encontra cada dado.
Ana M. Abreu - 2006/07
Frequência Relativa Slide 35

frequência da classe
Frequência relativa =
soma de todas as frequências

11/40 = 28%

12/40 = 30%
Frequência total = 40
etc.
Ana M. Abreu - 2006/07
Frequência acumulada Slide 36

Frequências
acumuladas

Ana M. Abreu - 2006/07


Recapitulando Slide 37

Acabamos de ver
 Características importantes dos dados.
 Distribuições de frequências.
 Procedimentos para construir as
distribuições de frequência.
 Frequências relativas.
 Frequências acumuladas.

Ana M. Abreu - 2006/07


Medidas de localização Slide 38

e de dispersão

Ana M. Abreu - 2006/07


Notação Slide 39

Σ denota a soma de um conjunto de valores.

x é a variável usada usualmente para representar


os valores individuais.

n representa o número de valores na amostra, ou


seja, a dimensão da amostra.

N representa o número de valores na população

Ana M. Abreu - 2006/07


Notação Slide 40

x pronuncia-se ‘x-barra’ e denota a média dos valores


Σx
da amostra.

x =
n
µ pronuncia-se ‘mu’ e denota a média de todos os valores
da população.

Σx
µ =
N
Ana M. Abreu - 2006/07
Definições Slide 41

 Mediana
o valor central quando os dados estão
ordenados.

❖ Se a dimensão da amostra é ímpar, a mediana


corresponde ao valor que está no centro da
amostra.

❖ Se a dimensão da amostra é par, a mediana


corresponde à média dos dois valores que estão
no centro da amostra.

Ana M. Abreu - 2006/07


Slide 42
5.40 1.10 0.42 0.73 0.48 1.10
0.42 0.48 0.73 1.10 1.10 5.40

(amostra de dimensão par – os dois valores


centrais são distintos)
0.73 + 1.10
2
MEDIANA é 0.915

5.40 1.10 0.42 0.48 1.10 0.66


0.42 0.48 0.66 0.73 1.10 1.10 5.40
(amostra de dimensão ímpar - valor exacto)

MEDIANA é 0.73
Ana M. Abreu - 2006/07
Definições Slide 43

 Moda
o valor que ocorre com maior frequência.

A moda nem sempre é única. Um conjunto de


dados pode ser:
Bimodal
Multimodal
Não ter Moda

 é a única medida de localização que


pode ser usada para os dados em escala
nominal.
Ana M. Abreu - 2006/07
Exemplos Slide 44

a. 5.40 1.10 0.42 0.73 0.48 1.10 Moda é 1.10


b. 27 27 27 55 55 55 88 88 99 Bimodal - 27 e 55

c. 1 2 3 6 7 8 9 10 Não existe Moda

Ana M. Abreu - 2006/07


Média para dados agrupados Slide 45

Assuma que, em cada classe, todos os


valores são iguais ao ponto médio da
classe.
Σ (f • x)
x =
Σf
x = ponto médio
f = frequência
Σf=n
Ana M. Abreu - 2006/07
Definições Slide 46

 Simetria
Os dados distribuem-se de forma
simétrica quando a metade esquerda do
histograma correspondente é
sensivelmente um espelho da metade
direita.
 Assimetria
Os dados distribuem-se de forma
assimétrica se se prolongam mais para um
dos lados do que para o outro.
Ana M. Abreu - 2006/07
Slide 47

Ana M. Abreu - 2006/07


Definições Slide 48

A amplitude de um conjunto de
dados é a diferença entre o
valor mais elevado e o valor
mais pequeno.
valor valor
mais - mais
elevado pequeno

Ana M. Abreu - 2006/07


Definições Slide 49

O desvio padrão de uma amostra é


uma medida da variação dos valores
em torno da média.

Σ (x - x) 2

S=
n-1

Ana M. Abreu - 2006/07


Slide 50

• Uma forma mais simples do desvio


padrão amostral, para efeitos de
cálculo, é a que se segue:

Σx ) - (Σ
n (Σ Σx) 2 2

s=
n (n - 1)

Ana M. Abreu - 2006/07


Desvio padrão amostral -
Slide 51
algumas características

 O desvio padrão é uma medida de variação de todos


os valores da amostra em torno da média

 O valor do desvio padrão s é positivo

 O valor do desvio padrão s pode aumentar


dramaticamente com a inclusão de um ou mais outliers
na amostra

 As unidades do desvio padrão s são as mesmas dos


elementos da amostra.

Ana M. Abreu - 2006/07


Desvio padrão Slide 52
populacional

Σ (x - µ) 2

σ = N
Esta fórmula é semelhante à anterior, mas
neste caso é usada a média populacional e a
dimensão da população.

Ana M. Abreu - 2006/07


Definições Slide 53

 A variância é uma medida de variação de um


conjunto de valores e é igual ao quadrado do desvio
padrão

 Variância amostral: quadrado do desvio padrão


amostral s

 Variância populacional: quadrado do desvio


padrão populacional σ

Ana M. Abreu - 2006/07


Variância - Notação Slide 54

quadrado do desvio padrão

Notação
} s 2
Variância amostral

σ
2
Variância populacional

Ana M. Abreu - 2006/07


Definições Slide 55

O coeficiente de variação (ou CV) de uma amostra,


expresso em percentagem, descreve o desvio
padrão relativamente à média. É uma medida sem
unidades.

Amostra População

s σ
CV = •100% CV = •100%
x µ

Ana M. Abreu - 2006/07


Desvio padrão para Slide 56
dados agrupados

n [Σ(f • x 2)] - [Σ(f • x)]2


S= n (n - 1)

Usar os pontos médios de cada classe

Ana M. Abreu - 2006/07


Definições Slide 57

 Q1 (1º Quartil) separa os primeiros 25% da


amostra ordenada dos restantes 75%.

 Q2 (2º Quartil) o mesmo do que a mediana;


separa os primeiros 50% da amostra
ordenada dos restantes 50%.

 Q3 (3º Quartil) separa os primeiros 75% da


amostra ordenada dos restantes 25%.

Ana M. Abreu - 2006/07


Quartis Slide 58

Q1, Q2, Q3
dividem os valores ordenados em 4 partes iguais

25% 25% 25% 25%

(mínimo)
Q1 Q2 Q3 (máximo)

(mediana)

Ana M. Abreu - 2006/07


Percentis Slide 59

Assim como os quartis dividem os


dados em 4 partes iguais, existem 99
percentis denotados P1, P2, . . . P99,
os quais particionam os dados em
100 grupos.

nº de valores menores que x


Percentil do valor x = • 100
nº total de valores

Ana M. Abreu - 2006/07


Representação Slide 60

gráfica dos dados

Ana M. Abreu - 2006/07


Histograma Slide 61

Um gráfico de barras, em que o eixo horizontal


representa as classes dos valores da amostra e o
eixo vertical a correspondente frequência.

Ana M. Abreu - 2006/07


Histograma com as frequências Slide 62
relativas
Tem a mesma forma e escala horizontal que o
anterior, mas no eixo vertical estão indicadas as
frequências relativas.

Ana M. Abreu - 2006/07


Polígono de frequências Slide 63

Usa segmentos de recta para ligar os pontos


médios das classes.

Ana M. Abreu - 2006/07


Ogiva Slide 64

Semelhante ao anterior mas com as frequências


acumuladas

Ana M. Abreu - 2006/07


Gráfico de barras Slide 65

Forma de representação gráfica para dados


qualitativos

Ana M. Abreu - 2006/07


Gráfico de sectores Slide 66

Gráfico para dados qualitativos, representados por


sectores circulares

Ana M. Abreu - 2006/07


Gráfico de dispersão Slide 67

Representação de pares de dados (x,y), onde no


eixo horizontal marcam-se os valores de x e no
eixo vertical os valores de y

Ana M. Abreu - 2006/07


Gráfico de caule-e-folhas Slide 68

Representa os dados, separando cada valor em


duas partes: o caule (valor à esquerda do traço
vertical) e a folha (algarismo à direita do traço
vertical)

Ana M. Abreu - 2006/07


Caixa-de-bigodes Slide 69

Ana M. Abreu - 2006/07


Caixa-de-bigodes Slide 70

Ana M. Abreu - 2006/07


Definições Slide 71

❖ A caixa-de-bigodes é um gráfico que


consiste numa linha desde o mínimo até
ao máximo, e numa caixa com extremos
nos 1º e 3º quartis e divisão na mediana.
❖ Para um conjunto de dados, o resumo de
5 números é formado pelo mínimo, 1º
quartil, mediana, 3º quartil e máximo.

Ana M. Abreu - 2006/07

Anda mungkin juga menyukai