2. DESCRIPCION
VARIAS VARIABLES
Objetivo
Mostrar la relaci
on entre dos (o m
as) variables
discretas o categ
oricas.
Bibliografia recomendada
Pe
na y Romo (1997), Captulo 7.
Indice
1.
2.
La distribuci
on conjunta de frecuencias
3.
4.
Ideas de independencia
5.
Introducci
on
Puede que, exista una relaci
on entre dos variables. Midiendo los valores de ambas variables
simultaneamente, podemos intentar medir la
relaci
on.
Ejemplo 55
1.
2.
N
umero de partidos ganados y posici
on en
la clasificaci
on.
3.
N
umero de votos y n
umero de esca
nos
4.
5.
(O,Cas)
(O,Cas)
(P,Cas)
(O,Cas)
(O,Gal)
(G,Cas)
(G,Cas)
(O,Cas)
(C,Cat)
(C,Cat)
(O,Cas)
(O,Otr)
(G,Gal)
(O,Otr)
(O,Cas)
(P,Cas)
(O,Cas)
(C,Cat)
(O,Otr)
(C,Cas)
(C,Cat)
(C,Cat)
(G,Cas)
(G,Gal)
(P,Cas)
(O,Cas)
(P,Cas)
(C,Cas)
(O,Cas)
(P, Otr)
(G,Cas)
(C,Cat)
(O,Cas)
108
Cas
Cat
Lengua Eus
Gal
Otr
Provincia
C G O P
2 5 14 5
6 0 0 0
0 0 0 1
0 2 1 0
0 0 3 1
40
Es decir que tenemos 14 personas en la muestra que provienen de otras provincias y hablan
Castellano.
Podemos convertir la tabla en una tabla de
frecuencias relativas, dividiendo cada frecuencia por 40.
109
Cas
Cat
Lengua Eus
Gal
Otr
C
,050
,150
,000
,000
,000
Provincia
G
O
,125 ,350
,000 ,000
,000 ,000
,050 ,025
,000 ,075
P
,125
,000
,025
,000
,025
1
110
La distribuci
on marginal
Cas
Cat
Lengua Eus
Gal
Otr
C
,050
,150
,000
,000
,000
Provincia
G
O
,125 ,350
,000 ,000
,000 ,000
,050 ,025
,000 ,075
P
,125
,000
,025
,000
,025
,650
,150
,025
,075
,100
1,000
111
Cas
Cat
Lengua Eus
Gal
Otr
C
,050
,150
,000
,000
,000
,200
Provincia
G
O
,125 ,350
,000 ,000
,000 ,000
,050 ,025
,000 ,075
,175 ,450
P
,125 ,650
,000 ,150
,025 ,025
,000 ,075
,025 ,100
,175 1,000
112
La distribuci
on condicionada
Queremos la frecuencia de Castellanoparlantes
en las otras provincias. Miramos la columna de
frecuencias absolutas.
Cas
Cat
Eus
Gal
Otr
O
14
0
0
1
3
18
14
18
0
0
1
18
3
18
Es decir que 14
18 de la gente de otras provincias
en la muestra hablan Castellano.
113
C
alculo a trav
es de la tabla de frecuencias
relativas
Supongamos que queremos la distribuci
on de
las provincias de donde provienen la gente que
habla Castellano.
C
G
O
P
Cas ,050 ,125 ,350 ,125 ,650
Dividimos todas las entradas por la frecuencia
total (,650).
C
G
O
P
Cas ,077 ,192 ,538 ,192 1
Casi un 54 % de la gente que hablan Castellano
provienen de las otras provincias.
114
F
ormula General
Supongamos que medimos los valores de 2
variables X e Y con I y J distntas categoras o
valores (x1, . . . , xI e y1, . . . , yJ ) en una muestra
de n personas.
La tabla de doble entrada de frecuencias absolutas es la siguiente
Y
x1
x2
...
X
xI
y1 y2 . . . yJ
n11 n12 . . . n1J n1
n21 n22 . . . n2J n2
...
...
...
...
...
nI1 nI2 . . . nIJ nI
n1 n2 . . . nJ
n
where nij es el n
umero de veces que ocurre
PI
PJ
la pareja (xi, yj ) y n = i=1 j=1 nij . Las frecuencias marginales son ni =
PJ
j=1 nij y nj =
PI
i=1 nij
115
Y
y1
y2 . . .
yJ
n11
n12
n1J
x1 f11 = n f12 = n . . . f1J = n f1 = nn1
x2 f21 = nn21 f22 = nn22 . . . f2J = nn2J f2 = fn2
...
...
...
...
...
...
xI fI1 = nnI1 fI2 = nnI2 . . . fIJ = fnIJ fI = nnI
f1 = nn1 f2 = nn2 . . . fJ = nnJ
1
La distribuci
on condicionada de Y dado X = xi
es
f (Y = y1 |X = xi ) =
fi1
,
fi
f (Y = y2 |X = xi ) =
fi2
,
fi
...,
f (Y = yJ |X = xi ) =
fiJ
fi
La distribuci
on condicionada de X dado Y = yj
es
f (X = x1 |Y = yj ) =
f1j
,
fj
f (X = x2 |Y = yj ) =
f2j
,
fj
...,
f (X = xi |Y = yj ) =
116
fIj
fj