Anda di halaman 1dari 32

ESTADÍSTICA I

TEMA: DISTRIBUCIONES BIDIMENSIONALES


PROFESOR: Econ. NATALY LILLIAN DELGADO AGUILAR
DISTRIBUCIONES BIDIMENSIONALES

1.1. INTRODUCCIÓN

• Estudiaremos dos características de un mismo elemento de la población (altura y peso, dos


asignaturas, longitud y latitud, etc.).
• De forma general, si se estudian sobre una misma población y se miden por las mismas unidades
estadísticas una variable X y una variable Y, se obtienen series estadísticas de las variables X e Y.
• Considerando simultáneamente las dos series, se suele decir que estamos ante una variable
estadística bidimensional.
1.2. CLASIFICACIÓN SEGÚN LA NATURALEZA DE LAS VARIABLES

a. Los dos caracteres cualitativos. Por ejemplo, nivel educacional y religión

b. Uno cualitativo, otro cuantitativo. Estos pueden ser:


- Uno cualitativo, otro cuantitativo discreto. Por ejemplo, nivel educacional y número de hijos de las personas.
- Uno cualitativo, otro cuantitativo continuo. Por ejemplo, edad y estado civil de las personas.

c. Los dos cuantitativos. Estos pueden ser:


- Los dos cuantitativos discretos. Por ejemplo, número de horas extras trabajadas y número de accidentes de
trabajo.
- Uno discreto y el otro continuo. Por ejemplo, número de horas extras trabajados y edad de la persona.
- Los dos continuos. Por ejemplo, estatura y peso de las personas.
1.3. TABLAS ESTADÍSTICAS BIDIMENSIONALES

Consideremos un conjunto de n observaciones descritos simultáneamente, según dos variables o


características x e y. Designaremos por:
x1, x2, … xk, los k valores de la variable x;
y1, y2, … yl, los k valores de la variable y.
Sea nij el número de observaciones que presentan al valor xi de la variable x y el valor yj de la
variable y. La suma de las frecuencias absolutas nij es igual al total de las observaciones:

𝒌 𝒍

𝒏𝒊𝒋 =n
𝒊=𝟏 𝒋=𝟏
1.4. TABLA DE DISTRIBUCIÓN DE FRECUENCIA BIDIMENSIONAL ABSOLUTA

Es la tabla que describe a las n observaciones, es


una tabla de doble entrada, donde figuran en las
Valores de y
filas las modalidades o valores de la característica 𝑙
y1 y2 … yj … yl = 𝑗=1 𝑛𝑖𝑗=ni*
x, y en las columnas los valores de la Valores de x
característica y (tabla de k filas y de l columnas).
x1 n11 n12 … nij … n1l n1*
x2 n21 n22 … n2j … n2l n2*
Se supondrá que todas las frecuencias absolutas … … … … … … … …
de una misma fila (o de una misma columna) no xi ni1 ni2 … nij … nil ni*
se anulan simultáneamente. Si ocurriese, bastará … … … … … … … …
no considerar la modalidad o valor xk nk1 nk2 … nkj … nkl nk*
correspondiente de x (o de y) o bien agruparla 𝑘 𝒌 𝒍
= 𝑖=1 𝑛𝑖𝑗 =𝑛∗𝑗 n*1 n*2 … n*j … n*l n**= 𝒊=𝟏 𝒋=𝟏 𝒏𝒊𝒋=n
con otra modalidad.
Donde: se designa por un punto el total según el índice i o el índice j. Es decir; n i* es la suma total de las frecuencias absolutas nij según el
índice j, esto es
𝑙
ni* = 𝑗=1 𝑛𝑖𝑗

n*j es la suma total de las frecuencias absolutas nij según el índice i, o sea,
𝑘
n*j = 𝑖=1 𝑛𝑖𝑗
Veamos algo más sencillo

• Variables estadísticas bidimensionales.


En numerosas ocasiones interesa estudiar simultáneamente dos (o más) caracteres de una
población.
En el caso de dos (o más) variables estudiadas conjuntamente se habla de variable
bidimensional (multidimensional ); si se trata de dos caracteres cualitativos, de par de atributos.
Si de una cierta población se estudian dos caracteres simultáneamente se obtienen dos series de
datos.

Individuos A B C .......

Carácter X x1 x2 x3 ........

Carácter Y y1 y2 y3 ..........
Ejemplo 1:
La lista de pares de datos correspondientes a cada individuo de la población (repetidos o no), es lo que llamamos variable
estadística bidimensional.
A cada uno de los trabajadores de una fábrica se les talla y pesa. Se trata de dos variables cuantitativas.

xi ( tallas en m ) 1,70 1,69 1,68 1,70 ........


yi ( peso en kg ) 75 70 66 67 .........

Ejemplo 2:
Entre los empleados de una empresa se ha realizado una encuesta sobre el consumo del tabaco, que ha arrojado los
siguientes resultados:
A cada uno de los trabajadores de una fábrica se les talla y pesa. Se trata de dos variables cuantitativas.
Hábito
Fumadores No fumadores Totales de filas
Sexo
Varones 49 64 113
Mujeres 43 37 80
Totales de columnas 92 101 Total general 193
1.4. TABLA DE DISTRIBUCIÓN DE FRECUENCIA BIDIMENSIONAL

n** (igual a n) es la suma total de las frecuencias absolutas nij según los índices i y j, así como también la suma
total de los totales ni* según j o de los totales n*j según i, esto es.

𝒌 𝒍

𝑘 𝑙
𝑛 ** = 𝒊=𝟏 𝒋=𝟏
𝒏𝒊𝒋
= 𝑖=1 𝑛𝑖 ∗ = 𝑗=1 𝑛 ∗ 𝑗 =𝑛
La frecuencia absoluta ni* es el número de observaciones que presentan el valor xi de la característica x, independiente de
los valores de la característica y. Análogamente, n*j es el número de observaciones que corresponden al valor yi de la
característica e independiente de los valores de la variable x.

Nota 1.4.1. Si la variable x (y/o la variable y) es contínua xi (y/o yj) representará la marca de clase número i (o j), de tal
manera que se reducirá el caso contínuo al caso discreto como al estudiar las variables estadísticas de una dimensión.

Nota 1.4.2. Si las variables x e y son cualitativas la tabla de distribución bidimensional se llama Tabla de Contingencia.
1.4.1 Frecuencias relativas
Se llama frecuencia relativa o simplemente
frecuencia de la pareja de valores xi e yj (o DISTRIBUCIÓN DE FRECUENCIAS RELATIVAS BIDIMENSIONALES
bien frecuencia total) a la proporción de Valores de y 𝑙
observaciones que presentan = 𝑗=1 ℎ𝑖𝑗 =hi*
y1 y2 … yj … yl
simultáneamente los valores xi e yj . Es Valores de x
decir,
x1 h11 h12 … hij … h1l h1*
x2 h21 h22 … h2j … h2l h2*
𝑛 𝑖𝑗
hij = 𝑛
… … … … … … … …
xi hi1 hi2 … hij … hil hi*
… … … … … … … …

La tabla de distribución de frecuencias xk hk1 hk2 … hkj … hkl hk*


𝑘
relativas es la siguiente: = 𝑖=1 𝑛𝑖𝑗 =𝑛∗𝑗 𝒌 𝒍
h*1 h*2 … h*j … h*l h**= 𝒊=𝟏 𝒋=𝟏 𝒉𝒊𝒋=1
1.4.1 Frecuencias relativas
La suma de las frecuencias relativas de todos los pares de valores posibles es igual. Es decir,
𝒌 𝒍
𝒊=𝟏 𝒋=𝟏 𝒉𝒊𝒋=1
Las sumas parciales se designan igualmente por un punto (*) en lugar del índice, que hace la función de la
sumatoria.
𝑙 𝑛𝑖
hi* = 𝑗=1 ℎ𝑖𝑗 = 𝑛∗
𝑙 𝑛𝑗
h*j = 𝑖=1 ℎ𝑖𝑗 = 𝑛∗
𝑘 𝑙

𝑖=1 𝑖 ∗ = 𝑗=1 ℎ ∗ 𝑗 = 1

En algunas situaciones de acuerdo a objetivos específicos, podrá definirse las frecuencias con relación al total
de cada o de cada fila. Es decir tendrá:

𝑛𝑖𝑗 𝑛𝑖𝑗
y , i = 1, 2, …, k; j = 1, 2, …, l
𝑛𝑖 𝑛𝑗
∗ ∗
1.4.2. Distribuciones marginales

DISTRIBUCIÓN MARGINAL DE X Consideremos la columna marginal (columna de los totales horizontales) de la


tabla de doble entrada. Las frecuencias absolutas ni* definen lo que se llama distribución marginal de la
variable x. Es una distribución de una sola característica.
𝑙
ni* = 𝑗=1 𝑛𝑖𝑗
La frecuencia relativa marginal del valor o modalidad xi e igual a hi* , es decir,
𝑛𝑖
hi* = 𝑛

Como ya hemos visto, la suma de las frecuencias absolutas marginales es n:


𝑘
𝑖=1 𝑛𝑖 ∗ = n** = n
Y También la suma de las frecuencias relativas marginales, como hemos visto es igual a la unidad:
𝑘
𝑖=1 ℎ𝑖 ∗ = 1
1.4.2. Distribuciones marginales: Tablas

A. DISTRIBUCIÓN MARGINAL DE X B. DISTRIBUCIÓN MARGINAL DE Y

Valores Frec Frec Valores Frec Frec


de x Absol. ni* Rel. hi* de y Absol. n*j Rel. h*j

x1 n1* n1* y1 n*1 h*1


x2 n2* n2* y2 n*2 h*2
… … … … … …
xi n1* ni* yi n*j h*j
… … … … … …
xk nk* nk* yk n*l h*l
Total n** 1 Total n** 1
DISTRIBUCIÓN MARGINAL DE Y Análogamente, la distribución marginal de la característica y está definida por
las frecuencias absolutas marginales n*j .

La frecuencia marginal relativa del valor o modalidad yj es:

𝑛 𝑗
h*j = ∗
𝑛
Caso 1:
Un grupo de estudiantes de la facultad de Ingeniería de la UCCI están a punto de iniciar sus prácticas pre profesionales
en diferentes regiones de nuestro país (costa, sierra, selva). Se ha encuestado a un grupo de ellos para conocer su
género y la región elegida para llevar a cabo dichas prácticas. Los datos se muestran a continuación:

GÉNERO REGIÓN GÉNERO REGIÓN GÉNERO REGIÓN


M Sierra F Selva F Selva
F Selva M Sierra M Selva
M Sierra M Sierra F Selva
M Costa M Costa F Selva
F Selva F Costa M Costa
M Selva M Selva M Sierra
F Costa M Selva F Selva
F Selva M Sierra M Sierra

Organiza los datos en una tabla de contingencia. Luego elabore la distribución de frecuencias marginales y construya
su gráfico de barras agrupadas.
Solución: Caso 1
Primero.- Construimos la tabla considerando la variable “Género” en las filas y “Región” en las columnas:

Segundo.- Completamos cada celda de la tabla con el número de veces que aparece cada dato bivariado. Para
ello contamos la cantidad de estudiantes de género masculino que viajarán a la costa, que viajarán a la sierra y
a la selva. Hacemos lo propio con las estudiantes de género femenino. Luego sumamos para calcular los totales
de fila y columna.
Tercero.- Elaboramos las tablas de frecuencias marginales:
Cuarto.- Se elabora el gráfico de barras agrupadas.

Distribución de estudiantes, por género, según región de


práctica pre profesional
8
8
7
7

5 4
4
3
3
2
2

1
0
0

Costa Sierra Selva


Masculino Femenino
Caso 2:
Las notas en Lengua y en Idioma de los 30 alumnos de una clase en la última evaluación han sido:

Lengua: 3, 7, 8, 7, 5, 2, 5, 9, 5, 4, 3, 5, 3, 6, 3, 8, 5, 7, 7, 6, 2, 4, 9, 4, 9 , 7, 6, 7, 1, 7

Idioma: 2, 6, 10, 6, 4, 2, 5, 9, 5, 5, 2, 4, 1, 5, 1, 10, 4, 7, 8, 4, 2, 5, 9, 5, 9, 8, 5, 7,0,7

Nueva tabla en la que se ha añadido una fila y una columna más con los totales:
X Distribuciones
0 1 2 3 4 5 6 7 8 9 10 marginales de Y
Y Total
0 1 1
1 2 2
2 2 2 4
3 0
4 3 3
5 3 2 2 7
6 1 2 3
7 3 3
8 2 2
9 3 3
10 2 2
Distribuciones
marginales de X 0 1 2 4 4 5 2 7 2 3 0 30
Total
Distribuciones marginales

Se denomina distribución marginal de una variable bidimensional a la distribución que se obtiene al estudiar
independientemente cada variable.
Si tomamos la primera columna y la última columna en la tabla anterior, obtenemos la distribución de frecuencias
marginales de la variable estadística Y.

Y 0 1 2 3 4 5 6 7 8 9 10
nj 1 2 4 0 3 7 3 3 2 3 2

Si tomamos la primera fila y la última, obtenemos la distribución de frecuencias de X:

x 0 1 2 3 4 5 6 7 8 9 10
n´j 0 1 2 4 4 5 2 7 2 3 0
EJEMPLO 1:

Suponga que la población masculina de 7 ciudades se ha clasificado en casados y solteros, obteniéndose la siguiente
tabla.

Ciudades y
A B C D E F G
Condición x
Casados 133 164 155 106 153 123 146

Solteros 36 57 40 37 55 39 36

Hallar:
a. La tabla de distribución de frecuencias relativas.
b. La distribución marginal de x y de y.
c. El porcentaje de casados y e porcentaje de solteros.
d. La tabla de distribución de frecuencia acumulada absoluta.
Solución 1: La tabla de distribución conjunta de frecuencias relativas de las variables x e y, se construye usando
la relación hij = nij / n, con n= 1280 = Σσnij:

ciudades y Suma
A B C D E F G
Condición x horizontales
Casados 133 164 155 106 153 123 146 980
Solteros 36 57 40 37 55 39 36 300
Suma Verticales 169 221 195 143 208 162 182 1280

1. TABLA DE DISTRIBUCIÓN DE FRECUENCIAS RELATIVAS


ciudades y
A B C D E F G Total
Condición x
Casados 0.104 0.128 0.121 0.083 0.120 0.096 0.114 0.766
Solteros 0.028 0.045 0.031 0.029 0.043 0.030 0.028 0.234
Total 0.132 0.173 0.152 0.112 0.163 0.127 0.142 1.000
b. Las distribuciones marginales de las frecuencias absolutas para x, se obtiene por:

7
n1* = 𝑗=1 𝑛𝑖𝑗 = 133+164+155+106+153+123+146 =980
7
n2* = 𝑗=1 𝑛𝑖𝑗 = 36+57+40+37+55+39+36 =300

Para y:
2
n*1 = 𝑗=1 𝑛𝑖𝑗 = 133+36 = 169
2
n*2 = 𝑗=1 𝑛𝑖𝑗 = 164+57 = 221

2
n*7 = 𝑗=1 𝑛𝑖𝑗 = 146+36=182
Las frecuencias marginales están calculadas en la tabla de la pregunta (a). Entonces, se tiene las tablas
siguientes:

A. DISTRIBUCIÓN MARGINAL DE X B. DISTRIBUCIÓN MARGINAL DE Y

Condición X ni* hi* Ciudades y n*j h*j


Casado 980 0.766 A 169 0.132
Soltero 300 0.234 B 221 0.173
Total 1280 1.000 C 195 0.152
D 143 0.112
E 208 0.163
F 162 0.126
G 182 0.142
Total 1280 1.000

c. El porcentaje de casados es 76.6%


El porcentaje de solteros es 23.4%
b. Las frecuencias absolutas acumuladas bidimensionales están definidas por,
𝑖 𝑗
N ij = 𝑟=1 𝑝=1 𝑛𝑟𝑝

Entonces,
1 1 1
N11 = 𝑟=1 𝑝=1 𝑛𝑟𝑝 = 𝑟=1 𝑛𝑟1 = n11 = 133;
1 2 1
N12 = 𝑟=1 𝑝=1 𝑛𝑟𝑝 = 𝑟=1(𝑛𝑟1 + nr2) = n11 + n12 = 133 + 164 = 297;
2 1 2
N21 = 𝑟=1 𝑝=1 𝑛𝑟𝑝 = 𝑟=1 𝑛𝑟1 = n11 + n21 = 133 + 36 = 169;
2 2 2 2 2
N22 = 𝑟=1 𝑝=1 𝑛𝑟𝑝 = 𝑛 (n
𝑟=1 𝑟1 r1 + n r2 )= 𝑛
𝑟=1 𝑟1 + 𝑟=1 𝑛𝑟2
N22 = n11 + n21 + n12 + n22 = 133 + 36 + 164 + 57 = 390
Así sucesivamente:
2 7
N27 = 𝑟=1 𝑝=1 𝑛𝑟𝑝 = 1280
La tabla de distribución acumulada absoluta es la siguiente:

y
A B C D E F G
x
Casado 133 164 155 106 153 123 146

Soltero 169 221 195 143 208 162 182


1.5. REPRESENTACIÓN GRÁFICA
Si las variables X e Y son cualitativas, se pueden hacer varias representaciones gráficas, dependiendo de qué se quiere representar.
Por ejemplo, si queremos representar:
Por ejemplo, si queremos representar: la distribución de uno de ellos respecto del otro o la distribución total de cada uno de ellos, se
pueden usar las ya conocidas barras proporcionales. En cambio si queremos representar: la distribución de las frecuencias absolutas
o relativas, se pueden usar paralelepípedos de alturas proporcionales a nij (o hij) perpendiculares al plano XY, con centro en el puno
(xi , yj), siguiendo los mismos criterios para el caso unidimensional.
Ejemplo 2:
En una muestra de 20 pacientes se obtuvo los resultados de recuperación y muerte de cierta enfermedad que se muestran en la tabla
siguiente:
y
Recuperados Muertos Total
x
Casado 10 2 12
Soltero 1 7 8
Total 11 9 20
La representación gráfica de la distribución de frecuencias absolutas se muestra:

10
9
8
7
6
5
4
3
2 Muertos
1
0
X
Recuperados
Tratados
No tratados
2. RECONSTRUCCIÓN DE TABLAS

Complete la siguiente tabla de frecuencias.

Intervalos fi hi Fi Hi
[ - 29 >
[ - > 0,10
[ - > 0,30 14 0,47
[ - > 7
[ 41 - > 0,90
[ - > 30
Solución:
Primero.- Para completar los intervalos necesitamos la amplitud, la cual se obtiene de la siguiente manera:

Intervalos fi hi Fi Hi
[ - 29 > (41 – 29) / 3
[ 29 - > 0,10 = 4 (amplitud)
[ - > 0,30 14 0,47
[ - 41 > 7
[ 41 - > 0,90
[ - > 30
n = 30
Segundo.- Al multiplicar el número de datos (n) por la frecuencia relativa se obtiene la frecuencia absoluta.
Además, completamos las frecuencias absolutas y relativas que faltan (sumando frecuencias).

Intervalos fi hi Fi Hi
[ 25 - 29 > 2 2
[ 29 - 33 > 3 0,10 5
[ 33 - 37 > 9 0,30 14 0,47
[ 37 - 41 > 7 21
[ 41 - 45 > 6 0,90
[ 45 - 49 > 3 0,10 30 1,00
n = 30

30 x 0.30
=9
0,90 + 0,10 = 1,00
Tercero.- Al tener las frecuencias absolutas es más fácil completar toda la tabla.

Intervalos fi hi Fi Hi

[ 25 - 29 > 2 0,07 2 0,07

[ 29 - 33 > 3 0,10 5 0,17

[ 33 - 37 > 9 0,30 14 0,47

[ 37 - 41 > 7 0,23 21 0,70

[ 41 - 45 > 6 0,20 27 0,90

[ 45 - 49 > 3 0,10 30 1,00

n = 30 1
Econ: Nataly Lillian Delgado Aguilar