Anda di halaman 1dari 48

Estatística Descritiva (III)

Variáveis Qualitativas

Os dados podem ser resumidos construindo-se


uma tabela de distribuição de freqüências, que
quantifica a freqüência das distintas categorias.

Variáveis qualitativas no arquivo PULSE


Ran
Smokes
Sex
Activity
Variáveis qualitativas no arquivo PULSE
MTB > Tally 'Sex' 'Smokes' 'Activity';
SUBC> Counts;
SUBC> Percents.
Summary Statistics for Discrete Variables
Sex Count Percent Smokes Count Percent
1 57 61,96 1 28 30,43
2 35 38,04 2 64 69,57
N= 92 N= 92

Activity Count Percent


0 1 1,09
1 9 9,78
2 61 66,30
3 21 22,83
Relacionamento entre
variáveis qualitativas


Tabelas de Contingência
Podemos também construir tabelas de freqüências
conjuntas (tabelas de contingência),
contingência relacionando
duas variáveis qualitativas.
Exemplo 1:
1 Há indícios de associação entre Sexo e
Hábito de fumar?
Hábito de Fumar
Sexo Fuma Não Fuma Total
Masculino 20 37 57
Feminino 8 27 35
Total 28 64 92

Qual é o significado dos valores desta tabela?


Como concluir?
MTB > Table 'Sex' 'Smokes';
SUBC> Counts.

Rows: Sex Columns: Smokes

1 2 All

1 20 37 57
2 8 27 35
All 28 64 92
Verificar associação através da:
- porcentagem segundo as colunas, ou
- porcentagem segundo as linhas.

Hábito de Fumar
Sexo Fuma Não Fuma Total
Masculino 71,43% 57,81% 61,96%
Feminino 28,57% 42,19% 38,04%
Total 100% 100% 100%

Qual é o significado dos valores desta tabela?


Como concluir?
MTB > Table 'Sex' 'Smokes';
SUBC> ColPercents.
(RowPercents/TotPercents)

Rows: Sex Columns: Smokes

1 2 All

1 71,43 57,81 61,96


2 28,57 42,19 38,04
All 100,00 100,00 100,00
MTB > Table 'Sex' 'Smokes';
SUBC> Counts;
SUBC> RowPercents.

Rows: Sex Columns: Smokes


1 2 All
1 20 37 57
35,09 64,91 100,00
2 8 27 35
22,86 77,14 100,00
All 28 64 92
30,43 69,57 100,00
Cell Contents – Count - % of Row
Exemplo 2:
2 Dentre os que correram, qual é a
porcentagem de mulheres?
MTB > Table 'Ran' 'Sex';
SUBC> Counts;
SUBC> RowPercents.
Rows: Ran Columns: Sex
1 2 All
1 24 11 35
68,57 31,43 100,00
2 33 24 57
57,89 42,11 100,00
All 57 35 92
61,96 38,04 100,00

Resposta: 31,43%
Variáveis Qualitativas

Gráficos

• Gráfico de setores
• Gráfico de barras
Gráfico de setores

Consiste de um círculo dividido em tantos


setores quantas forem as categorias da
variável.
A área de cada setor é proporcional à
freqüência da categoria.
Arquivo PULSE — Gráfico de setores para a
variável Ran

MTB > %Pie c3.


Pie Chart of Ran

1 (35; 38,0%)

2 (57; 62,0%)
Arquivo PULSE - Gráfico de setores para a
variável Activity
Gráfico de barras

Sobre um eixo, são representados retângulos,


um para cada categoria da variável.
A altura do retângulo é proporcional à
freqüência da categoria.
Arquivo PULSE - Gráfico de barras para a
variável RAN
MTB > Chart C3

60

50
Count of Ran

40

30

20

10

1 2
Ran
Arquivo PULSE — Gráfico de barras para
a variável Activity
MTB > Chart C8

60

50
Count of Activity

40

30

20

10

0 1 2 3
Activity
Relacionamento entre
variáveis quantitativas


Correlação e Regressão
Objetivo
Estudar a relação entre duas variáveis quantitativas.

Exemplos:
Idade e altura das crianças
Tempo de prática de esportes e ritmo cardíaco
Tempo de estudo e nota na prova
Taxa de desemprego e taxa de criminalidade
Expectativa de vida e taxa de analfabetismo
Investigaremos a presença ou ausência de
relação linear sob dois pontos de vista:

a) Quantificando a força dessa relação: correlação

b) Explicitando a forma dessa relação: regressão

Representação gráfica de duas variáveis quantitativas:


Diagrama de dispersão
Exemplo 1: Nota da prova e tempo de estudo
X : tempo de estudo (em horas)
Y : nota da prova

Pares de observações (Xi , Yi) para cada estudante


Tempo(X) Nota(Y)
Diagrama de Dispersão
3,0 4,5
9,5
7,0 6,5
8,5
2,0 3,7 7,5
1,5 4,0 Nota
6,5

12,0 9,3 5,5

No MINITAB 4,5

C1:valores de X 3,5
0 5 10
C2:valores de Y Tempo

MTB > plot C2*C1


Coeficiente de correlação linear
É uma medida que avalia o quanto a “nuvem de pontos”
no diagrama de dispersão aproxima-se de uma reta.

O coeficiente de correlação linear de Pearson é dado por:


n
 ( X i  X )(Yi  Y )
i 1
r ,
(n  1) S X SY
sendo que,
X e Y são as médias amostrais de X e Y, respectivamente,
SX e SY são os desvios padrão amostrais de X e Y, respectivamente.
Fórmula alternativa:

n
 X iYi  nXY
i 1
r
(n  1) S X SY
No exemplo:
- - - -
Tempo (X) Nota (Y) (X - X) (Y - Y) (X - X) (Y - Y)
3,0 4,5 -2,1 -1,1 2,31
7,0 6,5 1,9 0,9 1,71
2,0 3,7 -3,1 -1,9 5,89
1,5 4,0 -3,6 -1,6 5,76
12,0 9,3 6,9 3,7 25,53
25,5 28,0 0 0 41,2
- -
X  5,1 Y  5,6

2 (-2,1) 2  ...  (6,9) 2 78,2


Sx    19,55  S x  4,42
4 4

2 (-1,1) 2  ...  (3,7) 2 21,9


Sy    5,47  S y  2,34
4 4

Então,
41,2
r  0,9959
4 . 4,42 . 2,34
No MINITAB temos:

MTB > corr C1 C2

Pearson correlation of Tempo and Nota = 0,996


Propriedade: -1  r  1

Casos particulares:

r = 1  correlação linear positiva e perfeita


r = -1  correlação linear negativa e perfeita
r = 0  inexistência de correlação linear
r = 1, correlação linear positiva e perfeita

r = -1, correlação linear negativa e perfeita


r 0

40

30

Y
20

10

10 20 30 40 50
X
r 1 r  -1
Exemplo 2: criminalidade e analfabetismo

Considere as duas variáveis observadas em 50


estados norte-americanos.

Y: taxa de criminalidade
X: taxa de analfabetismo
Diagrama de dispersão

Podemos notar que, conforme aumenta a taxa de


analfabetismo (X), a taxa de criminalidade (Y) tende
a aumentar. Nota-se também uma tendência linear.
Cálculo da correlação
_
Y = 7,38 (média de Y) e SY = 3,692 (desvio padrão de Y)
_
X =1,17 (média de X) e SX = 0,609 (desvio padrão de X)
 XiYi = 509,12

Correlação entre X e Y:
n
 X iYi  nXY
i 1
r
( n  1) S X SY
509,12  50  7,38  1,17 77,39
r   0,702
49  3,692  0,609 110 ,17
Exemplo 3: Expectativa de vida e analfabetismo

Considere as duas variáveis observadas em 50


estados norte-americanos.
Y: expectativa de vida
X: taxa de analfabetismo
Diagrama de dispersão

Podemos notar que, conforme aumenta a taxa de


analfabetismo (X), a expectativa de vida (Y) tende
a diminuir. Nota-se também uma tendência linear.
Cálculo da correlação
_
_ = 70,88 (média de Y) e SY = 1,342 (desvio padrão de Y)
Y
X = 1,17 (média de X) e SX = 0,609 (desvio padrão de X)

 XiYi = 4122,8

Correlação entre X e Y:
n
 X iYi  nXY
i 1
r
( n  1) S X SY
4122,8  50  70,88  1,17  23,68
r   0,59
49  1,342  0,609 40,047
Regressão Linear
OBJETIVO: Encontrar uma reta que represente bem a
tendência observada nos dados.
Por exemplo:
Reta ajustada:

Yˆ  a  bX
O que são a e b?
a: intercepto
b: inclinação

Interpretação de b:
Para cada aumento de uma unidade em X, temos
um aumento médio de b unidades em Y.
Reta ajustada
(método de mínimos quadrados)

Os coeficientes a e b são calculados da seguinte maneira:

n
 X iYi  nXY
i 1
b
(n  1) S X2

a  Y  bX
Pelo MINITAB,

em que C1: variável Y


C2: variável X

utilizando comando:
MTB > regress C1 1 C2

ou pelo menu:
<stat>  <regression>  <regression>

e escolher <response> e <predictors> da planilha.


No Exemplo 2,
a reta ajustada é:

Yˆ  2,397  4,257 X
Y^ : valor predito para a taxa de criminalidade
X : taxa de analfabetismo

Interpretação de b:
Para um aumento de uma unidade na taxa do
analfabetismo (X), a taxa de criminalidade (Y)
aumenta,
aumenta em média,
média 4,257 unidades.
Graficamente, temos

Como desenhar a reta no gráfico?


Escolha dois pontos:
• X = 0,5:
^
y = 2,397+4,257x0,5 = 4,5255  (0,5;4,53)
• X = 1,5:
^
y = 2,397+4,257x1,5 = 8,7825  (1,5;8,78)
No Exemplo 3,
a reta ajustada é:

Yˆ  72,395  1,296 X
Y^ : valor predito para a expectativa de vida
X : taxa de analfabetismo

Interpretação de b:
Para um aumento de uma unidade na taxa do
analfabetismo (X), a expectativa de vida (Y)
diminui,
diminui em média,
média 1,296 anos.
Graficamente, temos
Exemplo 4: Consumo de cerveja e temperatura

Y: consumo de cerveja diário por mil habitantes, em litros.


X: temperatura máxima (em ºC).

As variáveis foram observadas em nove localidades


com as mesmas características demográficas e sócio-
econômicas.
Dados:
Localidade Temperatura Consumo
(X) (Y)
1 16 290
2 31 374
3 38 393
4 39 425
5 37 406
6 36 370
7 36 365
8 22 320
9 10 269
Diagrama de dispersão

400
Consumo

350

300

10 20 30 40
Temperatura

A correlação amostral entre X e Y é r = 0,962.


0,962
A reta ajustada é: Yˆ  217,37  4,74 X

Qual é a interpretação de b?
Aumentando-se um grau de
temperatura (X), o consumo
de cerveja (Y) aumenta, em
média, 4,74 litros por mil
habitantes.

Qual é o consumo previsto para uma temperatura de 25ºC?

^
Y  217,37  4,7425 335,87 litros

Anda mungkin juga menyukai