Anda di halaman 1dari 13

AULA: 13-16

Análise Bidimensional

Prof. Víctor Hugo Lachos Dávila


Introdução
• Freqüentemente estamos interessados em analisar duas
variáveis conjuntamente
• P.E. nos dados da empresa podemos estar interessados em
comparar os salários dos casados e solteiros.

• Quando consideramos duas variáveis, podemos ter 3 situações e as


técnicas de análise são diferentes.
a) as duas qualitativas (tabela de contingência)
b) as duas quantitativas (gráficos de dispersão)
c) uma qualitativa e outra quantitativa (tabela de
contingência)

• É possível quantificar a relação entre as variáveis em estudo

2
Variáveis Qualitativas
• Analisamos o comportamento conjunto de X: grau de
instrução e Y: região de procedência.
Tabela 1:Tabela de freqüências absolutas das variáveis X e Y

Ensino
Y\X
Fundamental Ensino Médio Superior Total Tabela de
Capital 4 5 2 11
dupla
Interior 3 7 2 12
Outra 5 6 2 13 entrada
Total 12 18 6 36

• Podemos construir tabelas de freqüências relativas.


• Existe varias possibilidades de construção e depende
do objetivo do problema.

3
Relativa ao total geral

Tabela 1:Tabela de freqüências relativas ao total geral das


variáveis X e Y

Ensino
Y\X
Fundamental Ensino Médio Superior Total
Capital 11% 14% 6% 31%
Interior 8% 19% 6% 33%
Outra 14% 17% 6% 36%
Total 33% 50% 17% 100%

• 11% dos empregados vêm da capital e tem ensino fundamental.


• 31% dos indivíduos vêm da capital, 33% do interior e 36% de
outras regiões.
• 33% tem ensino fundamental.

4
Relativa ao total de colunas

Tabela 1:Tabela de freqüências relativas ao total de coluna das


variáveis X e Y

Ensino
Y\X
Fundamental Ensino Médio Superior Total
Capital 33% 28% 33% 31%
Interior 25% 39% 33% 33%
Outra 42% 33% 33% 36%
Total 100% 100% 100% 100%

• Entre os empregados com instrução até o ensino fundamental,


33% vêm da capital.
• Entre os empregados com ensino médio, 28% vêm da capital.
• Comparamos a distribuição da procedência conforme o grau de
instrução.
• De modo análogo, podemos construir a distribuição do grau de
instrução conforme a procedência.!!!

5
Gráfico 1:Distribuição da região de procedência por grau de
instrução

100%
90%
80%
70%
60% Outra
50% Interior
40% Capital
30%
20%
10%
0%
Ensino Ensino Médio Superior Total
Fundamental

6
Associação entre variáveis qualitativas
Exemplo: Queremos verificar se existe ou não associação
entre o sexo (X) e a carreira escolhida (Y) por 200 alunos
de economia e administração
Tabela 4:Tabela de freqüências absolutas (relativas) dos alunos
segundo o sexo (X) e curso escolhido (Y)
Y\X Masculino Feminino Total
Economia 85 (61%) 35 (58%) 120 (60%)
Administração 55 (39%) 25 (42%) 80 (40%)
Total 140 (100%) 60 (100%) 200 (100%)

• Independente do sexo 60% preferem economia e 40% preferem


administração.
• No sexo masculino essas proporções são 61% e 39% e no
feminino 58 e 42%, as quais são próximas d e 60 e 40 (marginais)
• Forte indicio de não haver dependência entre as variáveis sexo e
curso (não associadas)
7
Exemplo: Queremos verificar se existe ou não associação
entre o sexo (X) e a carreira escolhida (Y) por 200 alunos
de Física e Ciências Sociais
Tabela 5:Tabela de freqüências absolutas (relativas) dos alunos
segundo o sexo (X) e curso escolhido (Y)

Y\X Masculino Feminino Total


Física 100 (71%) 20 (33%) 120 (60%)
Ciências Sociais 40 (29%) 40 (67%) 80 (40%)
Total 140 (100%) 60 (100%) 200 (100%)

• Independente do sexo 60% preferem economia e 40% preferem


administração.
• No sexo masculino essas proporções são 71% e 29% e no
feminino 33 e 67%. Disparidade bem acentuada nas proporções
•Forte indicio de haver dependência entre as variáveis sexo e
curso (associadas)

8
Exemplo: Queremos verificar se a criação de determinado
tipo de cooperativa está associada com algum fator regional
Tabela 6:Cooperativas autorizadas a funcional por tipo e estado

Tipo de Cooperativa
Estado Consumidor Produtor Escola Outras Total
São Paulo 214 (33%) 237(37%) 78 (12%) 119 (18%) 648(100%)
Paraná 51(17%) 102(34%) 126(42%) 22 (7%) 301(100%)
Rio G. do Sul 111 (18%) 304(51%) 139(23%) 48(8%) 602(100%)
Total 376(24%) 643 (42%) 343 (22%) 189 (12%) 1551(100%)

• Notamos que existe certa associação entre as variáveis.


• Caso não houvesse associação, esperaríamos que em cada
estado tivéssemos 24% de escolas e 12% de outros tipos.
• Assim, o número esperado de cooperativas de consumidores no
estado de São Paulo seria 648*0.24=156 e no Paraná
301*0.24=72....

9
Tabela 7:Valores esperados assumindo independência entre as
variáveis tipo de cooperativa e fator regional
Tipo de Cooperativa
Estado Consumidor Produtor Escola Outras Total
São Paulo 156 (24%) 272(42%) 142 (22%) 78 (12%) 648(100%)
Paraná 72(24%) 127(42%) 66(22%) 36 (12%) 301(100%)
Rio G. do Sul 144 (24%) 254(42%) 132(22%) 72(12%) 602(100%)
Total 376(24%) 643 (42%) 343 (22%) 189 (12%) 1551(100%)
• Notamos fortes discrepâncias entre os valores observados (O), e
esperados (E) assumindo que as variáveis
 não fossem associadas.
2

• Uma medida de afastamento global pode ser dada pela soma de


todas essas medidas. (Qui-quadrado de Pearson)
Colunas Filas
 2
  (O
i 1 j 1
ij  Eij ) / Eij
2

. Um valor grande de X2 indica associação entre as variáveis. No


exemplo acima temos:
  (214  156) / 156  ...  (48  72) / 72  173,24
2 2 2

10
Associação entre variáveis quantitativas
• Quando as duas variáveis são quantitativas podemos usar o
mesmo tipo de análise para variáveis qualitativas. (transformando
as variáveis)
• Uma ferramenta bastante útil é o gráfico de dispersão.
• Exemplo:
Tabela 8: Número de anos de serviço (X) por número de
clientes (Y) de agentes de uma companhia de seguros
Anos de Serviço (X) Número de Clientes (Y)
2 48
3 50
4 56
5 52
4 43
6 60
7 62
8 58
8 64
10 72

• Notamos que à medida que aumenta o tempo de serviço, aumenta


o número de clientes, logo parece haver uma associação entre
essas variáveis
11
Gráfico 2: Gráfico de dispersão para as variáveis X: anos de
serviço e Y: número de clientes
80
70
Número de Cleintes 60
50
40
30
20
10
0
0 2 4 6 8 10 12
Anos de Serviço

Gráfico 3: Tipos de associações entre duas variáveis

25 10
8
20 6
4
15 2
0
10 -2 0 2 4 6 8 10 12
-4
5 -6
-8
0 -10
0 2 4 6 8 10 12 -12

12
Coeficiente de correlação
Nun conjunto de dados com n pares de valores para as variáveis
Xe Y o coeficiente de correlação (r) que mede a dependência
linear entre elas é calculado como:
n n

 ( x  x )( y
i i i  yi )  (x y i i  nxi yi )
rXY  i 1
 i 1
n n n n
[ ( xi  xi ) ][  ( yi  yi ) ] [ xi  nxi ][  ( y  nyi ]
2 2 2 2
i
i 1 i 1 i 1 i 1

Propriedades
• é sempre um número entre -1 e 1
• Correlação igual a zero não indica independência entre as
variaveis
• |r| próximo a 1, indica alta associação entre as variáveis
• |r| próximo a 0, indica não associação entre as variáveis
•|r| próximo a 0.5, indica associação moderada
13