ESTADSTICA
Ejercicios. Estadstica descriptiva bivariante.
Ejercicio 1 De la poblacin de alumnos matriculados en primero de Ciencias Ambientales durante
el curso 2010-2011 y que se presentaron a los exmenes de Matemticas y Fsica, se extrajo una
muestra al azar de tamao 20. Las calificaciones obtenidas en ambas asignaturas se encuentran
en la siguiente tabla (fichero Calificaciones.mtw):
Fis.
3.2
8.2
9.0
6.9
4.4
5.0
1.0
10
4.0
4.9
Y = Fsica
0
6
7
X = Matemticas
[8, 10]
4
Histograma de Fsica
10
10
8
Frecuencia
6
5
4
3
6
4
4
3
2
1
1
0
4
6
X = Matemticas
10
10
Y = Fsica
Ejercicio 2 A partir de las calificaciones del Ejercicio 1, agrupar las calificaciones de cada
asignatura en las siguientes categoras: SB=suspenso bajo para puntuaciones entre [0; 2.5],
S=suspenso para puntuaciones en (2.5; 5), A=aprobado para puntuaciones entre [5; 7.5) y
AA=aprobado alto para puntuaciones en [7.5; 10.0].
1. Formar una tabla de datos agrupados de las dos calificaciones utilizando las cuatro clases
SB, SA, AB y AA como modalidades.
2. Indicar la pauta que se puede observar en la tabla anterior sobre el comportamiento de las
calificaciones.
Soluciones. Para crear la tabla de doble entrada, representamos las modalidades de las variables
X e Y, y computamos la frecuencia bivariante de cada cruce de modalidades:
(X, Y)
X = Matemticas
Frec. SB
S
A
AA
SB
0
0
1
0
Y =Fsica
S
1
5
3
1
A
0
0
5
1
AA
0
1
1
3
Tabla 4. Distribucin conjunta muestral de (X; Y).
Intervalos (Y)
[0, 2)
[2, 4)
[4, 6)
[6, 8)
Frecuencias
1
2
10
3
Tabla 3. Frecuencias absolutas de Fsica.
10
[8, 10]
4
Histograma de Matemticas
Soluciones. En el plano, cada alumno se podr representar en el mismo por un punto (x, y) en el
que: x es la calificacin obtenida en Matemticas, e y es la calificacin obtenida en Fsica.
Realizando el proceso para los 20 alumnos, resulta la siguiente nube de puntos:
Intervalos (X)
[0, 2)
[2, 4)
[4, 6)
[6, 8)
Frecuencias
0
3
8
5
Tabla 2. Frecuencias absolutas de Matemticas.
Ahora, se construyen las tablas de frecuencias agrupadas siguientes para cada una de las
variables (Tablas 2 y 3), y a partir de ellas los correspondientes histogramas (Grficos 2 y 3):
Frecuencia
Alumno Mat.
Fis.
Alumno
Mat.
01
4.0
3.5
11
5.3
02
5.4
4.1
12
3.5
03
9.3
8.0
13
8.0
04
4.4
4.9
14
6.5
05
6.0
5.5
15
4.7
06
7.3
7.5
16
5.6
07
5.1
4.3
17
7.0
08
8.7
5.2
18
9.0
09
5.0
5.0
19
2.5
10
7.4
6.2
20
3.4
Tabla 1. Calificaciones en Matemticas y Fsica.
3. Puesto que las frecuencias marginales de (X,Y) son las frecuencias de cada componente,
siendo X e Y univariantes, sus histogramas se obtienen como vimos en el tema anterior. As, al
ser el nmero de clases k = 5, y el intervalo de modalidades de ambas variables es [0, 10], la
longitud de cada clase ser l=10/5=2, es decir, los intervalos de clase para los histogramas son la
coleccin de intervalos: [0, 2), [2, 4), [4, 6), [6, 8) y [8, 10].
10
Para realizar el conteo de la tabla anterior, podemos utilizar el siguiente grfico de lanube
de puntos con el retculo determinado por las modalidades indicadas:
sepus procedeos al conteo de los individuos que hay en cada celdilla, es decir, la
frecuencia absoluta fi j de cada modalidad (ai, bj)
Edad
Raza
a1 = 1
a2 = 2
10,0
Fsica
7,5
b1 = 1
b2 = 2
b3 = 3
b4 = 4
b5 = 5
b6 = 6
b7 = 7
b8 = 8
b9 = 9
1
3
2
2
3
4
10
5
5
3
2
1
1
3
4
5
11
5
Tabla 5. Tabla de datos agrupados de la variable (Raza, Edad).
2,5
0,0
0,0
2,5
5,0
Matemticas
7,5
12
10,0
8
Frecuencia
Raza
0
4 5
Edad
a1 = 1
a2 = 2
b1 = 1
b2 = 2
b3 = 3
b4 = 4
b5 = 5
b6 = 6
b7 = 7
b8 = 8
b9 = 9
3
4
10
5
5
3
2
1
2
35
1
1
3
4
5
11
5
3
2
35
Tabla 6. Tabla para la obtencin de las frecuencias marginales de Raza.
Los dos nmeros situados en esta ltima columna son las frecuencias absolutas
correspondientes a las modalidades a1 y a2 de la variable Raza, esto es, f1 = 35 y f2 = 35:
Modalidades ai de Y
Frecuencias marginales fi
a1 = 1
a2 = 2
f1 = 35
f2 = 35
b1 = 1
b2 = 2
b3 = 3
b4 = 4
b5 = 5
b6 = 6
b7 = 7
b8 = 8
b9 = 9
a1 = 1
3
4
10
5
5
3
2
1
2
a2 = 2
1
1
3
4
5
11
5
3
2
4
5
13
9
10
14
7
4
4
Tabla 8. Tabla para la obtencin de las frecuencias marginales de Edad.
Modalidades bj de X
Frecuencias f j
b7=7
7
b8=8
4
b9=9
4
Ejercicio 4 En relacin a los datos del Ejercicio 1, correspondientes a las calificaciones en dos
asignaturas de 20 alumnos de Ciencias Ambientales durante el curso 2010-2011, responder a las
siguientes cuestiones:
1. Determinar el centro de gravedad de la nube de puntos y situarlo en la misma.
2. Calcular las varianzas y desviaciones tpicas marginales de X e Y.
3. Calcular la covarianza y el coeficiente de correlacin entre X e Y.
4. Utilizando los resultados anteriores, decidir cul de las siguientes opciones parece ms
plausible y elegir los estadsticos apropiados que apoyen la decisin tomada.
Los alumnos con mayores puntuaciones en Matemticas obtienen mayores
puntuaciones en Fsica.
Los alumnos con mayores puntuaciones en Fsica obtienen mayores puntuaciones en
Matemticas.
No existe relacin entre las puntuaciones obtenidas en cada una de las asignaturas.
Soluciones.
Para calcular los momentos marginales y mixtos de estas variables, procedemos como se
muestra en la siguiente tabla, bien de forma manual o con ayuda de cualquier programa u hoja de
clculo:
2
Alumno
xi
yi
xiyi
xi
1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
4,0
5,4
9,3
4,4
6,0
7,3
5,1
8,7
5,0
7,4
5,3
3,5
8,0
6,5
4,7
5,6
7,0
9,0
2,5
3,4
3,5
4,1
8,0
4,9
5,5
7,5
4,3
5,2
5,0
6,2
3,2
8,2
9,0
6,9
4,4
5,0
1,0
10,0
4,0
4,9
14,00
22,14
74,40
21,56
33,00
54,75
21,93
45,24
25,00
45,88
16,96
28,70
72,00
44,85
20,68
28,00
7,00
90,00
10,00
16,66
16,00
29,16
86,49
19,36
36,00
53,29
26,01
75,69
25,00
54,76
28,09
12,25
64,00
42,25
22,09
31,36
49,00
81,00
6,25
11,56
yi
A 118,10
B 110,80
= 5,91, y = =
= 5,54,
=
n
20
n
20
D 769,61
E 704,00
= 38,48, y 2 =
= 35,20.
x2 = =
=
n
20
n
20
C 692,75
= 34,64,
x.y = =
n
20
x=
10
n
n
n
n
n
Fsica
Esta nueva fila son las frecuencias marginales de la variable Edad, correspondientes a las
modalidades a1, a2,..., a9, es decir, f1 = 4, f2 = 5,..., f9 = 4:
Gn
n
n
n
n
n
n
n
2
n
0
2
6
Matemticas
10
12,25
16,81
64,00
24,01
30,25
56,25
18,49
27,04
25,00
38,44
10,24
67,24
81,00
47,61
19,36
25,00
1,00
10,00
16,00
24,01
2. Para obtener las varianzas y desviaciones tpicas marginales utilizamos su relacin a travs de
los momentos, obtenindose los siguientes valores para las varianzas sesgadas de X e Y:
Sx =
cov x ,y
sx .sy
1,90
= + 0,48.
1,95.2,18
4. Por ltimo, utilizando la medida de correlacin entre ambas variables, podemos descartar la
tercera opcin, dado que el coeficiente de correlacin es no nulo, rx,y=0,48, lo que indica que si
existe relacin entre las puntuaciones de ambas asignaturas. Adems, al ser positivo, indica
que dicha relacin en positiva, es decir, cuando aumenta una calificacin tiende a aumentar la
otra. No obstante, su valor es muy inferior a 1, por lo que la relacin lineal entre ambas
puntuaciones es baja, es decir, no estn muy alineados.
AF(xi)
5
6
6
8
6
7
5
8
7
4
LF(yi)
21
21
33
21
27
35
25
37
25
18
Hoja
11
12
13
14
15
16
17
18
19
20
AF(xi) LF(yi)
Hoja AF(xi) LF(yi)
7
21
21
9
43
9
37
22
7
22
10
45
23
11
41
5
27
24
8
33
5
18
25
9
37
8
35
26
8
34
6
21
27
7
29
4
23
28
9
34
10
31
29
10
31
6
24
30
8
34
Tabla 12. Amplitud y longitud foliar.
Hoja
31
32
33
34
35
36
37
38
39
40
AF(xi)
4
11
7
5
8
10
7
6
9
8
LF(yi)
20
29
30
24
24
42
32
35
33
30
Soluciones.
Para la representacin de la nube de puntos de la amplitud frente a la longitud, AF vs. LF,
se procede como en los ejercicios anteriores representando los pares de puntos (xi, yi), 1 < i < 40,
de (X = AF, Y = LF) dados en la Tabla 12. Por ejemplo, ayudndose del programa estadstico
Minitab, se obtiene el siguiente diagrama de dispersin:
Por tanto, las varianzas marginales y sus desviaciones tpicas se obtienen a partir de los
momentos anteriores, siendo las varianzas sesgadas:
Sx2 =
Sy2 =
n
n 1
n
n 1
.s x2 = 3,71, Sx =
Sx2 = 1,93,
Por ltimo, obtenemos los valores de la covarianza y el coeficiente de correlacin que nos
pide el ejercicio, a travs del momento mixto o producto de orden (1,1):
x.y =
C 9043
= 226,10,
=
n
40
cov x ,y
sx .sy
9,87
= + 0,71.
1,93.7,23
Observar que en este caso, el coeficiente de correlacin rx,y = +0,71 tiene un valor positivo
(indica que existe relacin de dependencia positiva entre ambas variables) y ms prximo a 1 que
en el caso de las calificaciones anteriores, por lo que hay ms relacin lineal, podra clasificarse
como linealidad media, reservando el trmino de alta linealidad para valores muy prximos a 1.
Ejercicio 6 En un estudio de longevidad de cobayas en un laboratorio, se analiza la distribucin
conjunta de los tiempos de supervivencia X e Y de pares de cobayas, siendo X el de la madre e Y
el del primer hijo. Los datos observados en el experimento son los siguientes:
Nube de puntos de LF vs AF
45
42
39
X
Y
Y = LF
36
33
0
1
2
3
30
27
24
21
18
4
10
11
X = AF
x=
A 293
B 1182
= 7,325, y = =
= 29,55,
=
n
40
n
40
x2 =
D 2291
E 36966
= 57,27, y 2 =
= 924,20.
=
=
n
40
n
40
2
3
1
1
7
2
4
4
2
12
1
3
8
6
18
0
0
7
6
13
5
10
20
15
50
1
79.2
54.3
2670
2
64.0
44.3
820
3
67.0
47.8
1210
4
78.4
53.9
2678
5
66.0
47.5
1205
6
63.0
43.0
815
7
65.9
47.1
1200
8
63.1
44.0
1180
9
73.2
44.1
1850
10
66.5
48.3
1260
11
61.9
43.5
1170
12
72.5
43.3
1852
13
101.1
66.4
1790
14
66.2
47.5
1250
15
99.9
66.1
1789
Ejercicio 8 Utilizando los datos del Ejercicio 3 sobre la edad (X) y la raza (Y) de una muestra de
70 perros (EdadPerros.mtwj).
1. Determinar los perfiles o distribuciones condicionadas de la variable Edad por cada una de
las modalidades de la variable raza y representarlos grficamente.
2. Calcular las medias, las desviaciones tpicas y los coeficientes de variacin de la edad
condicionadas a cada raza.
3. Utilizando los resultados del apartado anterior, argumentar a favor o en contra de la
hiptesis: la edad tiene un comportamiento similar en ambas razas.
Soluciones.
1. Dado que la variable Y=Raza slo tiene las modalidades a1=caniche y a2=malts, al
condicionar X por Y slo se pueden obtener dos distribuciones condicionadas:
X(1)=X/(Y=caniche) e X(2)=X/(Y=malts), siendo sus distribuciones condicionadas los perfiles de
la raza caniche y de la raza malts, respectivamente.
Por ser ambas caractersticas de la edad condicionadas a la raza dos nuevas variables
unidimensionales, sus distribuciones quedarn totalmente determinadas a partir de las frecuencias
de sus modalidades, siendo estas las mismas que las de la variable original X para cada una de
lass razas. No obstante, al trabajar con distribuciones de frecuencias condicionadas, se utilizan las
frecuencias relativas para que evitar el efecto del tamao muestral de cada modalidad de la
variable condicionante, aunque en este caso al ser el mismo no tendra efecto al comparar las
edades entre ambas razas. As, se construyen las tablas de frecuencias relativas condicionadas a
cada raza dividiendo cada una de las frecuencias de X por la frecuencia marginal de dicha raza.
i
i
Por tanto, de la Tabla 6, obtenemos las siguientes frecuencias relativas h( 1 ) y h( 2 ) , con 1< i < 9,
para X(1) y X(2), respectivamente,
X(1)=X/(Y=1) b1 = 1 b2 = 2 b3 = 3 b4 = 4 b5 = 5 b6 = 6 b7 = 7 b8 = 8 b9 = 9
Frecuencias 3/35
4/35 10/35 5/35
5/35
3/35
2/35
1/35
2/23 1
Tabla 13. Frecuencias condicionadas de la variable Edad para la modalidad caniche.
X(2)=X/(Y=2) b1 = 1 b2 = 2 b3 = 3 b4 = 4 b5 = 5 b6 = 6 b7 = 7 b8 = 8 b9 = 9
Frecuencias 1/35
1/35
3/35
4/35
5/35 11/35 5/35
3/35
2/35
1
Tabla 14.Frecuencias condicionadas de la variable edad para la modalidad malts.
Estas frecuencias condicionadas de las Tablas 13 y 14, se pueden representar en el
siguiente grfico tridimisional para observar el diferente comportamiento de la distribucin de la
edad de las dos razas:
2. Veamos ahora las medias y las desviaciones tpicas condicionadas, las cuales se calculan
utilizando las frmulas usuales en las variables univariantes con frecuencias en las Tablas 13
y 14:
Medias condicionadas:
9
b .h
i
i
( 1)
b .h
i
i
(2)
Moscas
0,3
Frecuencia
Sexo
0,2
0,1
0,0
Raza
1
Edad
13
. + 2.4 + 310
. + 4.5 + 5.5 + 6.3 + 7.2 + 8.1 + 9.2
= 4,11 aos.
35
11
. + 2.1 + 3.3 + 4.4 + 5.5 + 6.11 + 7.5 + 8.3 + 9.2
=
= 5,60 aos.
35
Machos
Hembras
AA
6
7
13
Genotipo
Aa
11
13
24
aa
5
8
13
22
28
50
Ejercicio 11 De una gran explotacin ganadera se obtuvo una muestra de 50 vacas. Los
elementos de la muestra se agruparon atendiendo a dos criterios: la raza a la que pertenecan (A,
B o C), y su produccin de leche (baja, media o alta).
10
Ejercicio 13. La Universidad de Murcia realiza anualmente encuestas a alumnos con varias
preguntas (tems) sobre el profesorado. Cada tem se valora entre 1 y 5:
1: significa estoy muy en desacuerdo
2: significa estoy algo en desacuerdo,
3: significa no estoy ni de acuerdo ni en desacuerdo,
4: significa estoy un poco de acuerdo,
5: significa estoy muy de acuerdo.
Produccin
Raza
Baja
5
10
10
25
A
B
C
Media
3
6
8
17
Alta
2
2
4
8
10
18
22
50
1. Obtn los perfiles de las tres modalidades de raza para la variable produccin y compara
dichos perfiles utilizando los grficos.
2. A partir de estos resultados, argumenta a favor o en contra de la afirmacin de que la
produccin de leche es la misma en las tres razas.
Soluciones.
1. En primer lugar, se calculan las distribuciones condicionadas determinadas por las frecuencias
relativas de la produccin de leche condicionadas a cada una de las razas:
A* = Perfil de la raza A = Distribucin Y/(X = A):
h1/1 = h(Y = baja /X = A) = f11/f*1 = 5/10
h2/1 = h(Y = media/X = A) = f21/f*1 = 3/10
h3/1 = h(Y = alta /X = A) = f31/f*1 = 2/10
B* = Perfil de la raza B = Distribucin Y/(X = B):
h1/2 = h(Y = baja /X = B) = f12/f*2 = 10/18
h2/2 = h(Y = media/X = B) = f22/f*2 = 6/18
h3/2 = h(Y = alta /X = B) = f32/f*2 = 2/18
C* = Perfil de la raza C = Distribucin Y/(X = C):
h1/3 = h(Y = baja /X = C) = f13/f*3 = 10/22
h2/3 = h(Y = media/X = C) = f23/f*3 = 8/22
h3/3 = h(Y = alta /X = C) = f33/f*3 = 4/22
Perfil de la raza A
Perfil de la raza B
Perfil de la raza C
0,5
0,4
0,4
Frecuencias
Frecuencias
0,2
0,2
0,1
0,1
0,0
Frecuencias
0,3
0,3
Baja
Media
Y = Produccin
Alta
0,0
0,3
Media
Y = Produccin
Alta
0,0
Alumnos
A1 A2 A3 A4 A5
2
1
3
3
4
1
2
1
1
3
3
4
4
5
1
5
3
2
2
2
4
5
3
4
2
donde, Ai representa la encuesta la variable del alumno i, e ITj el nmero del tem de la encuesta.
1. Calcular el coeficiente de correlacin de Spearman entre cada 2 alumnos.
2. Calcular los coeficientes de correlacin de Spearman entre cada pareja de tems.
Soluciones. Para facilitar la presentacin, agregamos columnas en la tabla para calcular las
diferencias entre cada dos alumnos:
Alumnos
Diferencias
A1 A2 A3 A4 A5 A1-A2 A1-A3 A1-A4 A1-A5 A2-A3 A2-A4 A2-A5 A3-A4 A3-A5 A4-A5
2
1
3
3
4
1
-1
-1
-2
-2
-2
-3
0
-1
-1
1
2
1
1
3
-1
0
0
-2
1
1
-1
0
-2
-2
3
4
4
5
1
-1
-1
-2
2
0
-1
3
-1
3
4
5
3
2
2
2
2
3
3
3
1
1
1
0
0
0
4
5
3
4
2
-1
1
0
2
2
1
3
-1
1
2
Tabla 15. Diferencias valoraciones entre cada dos encuestas.
0,2
0,1
Baja
IT1
IT2
tems IT3
IT4
IT5
IT1
IT2
IT3
IT4
IT5
0,4
Se eligen al azar n=5 encuestas realizadas por alumnos respecto a los k=5 primeros tems
de una misma asignatura, cuyos valoraciones se muestran en la siguiente tabla:
Baja
Media
Y = Produccin
Alta
rs = 1
6. di2
1
n.(n2 1)
se obtiene la siguiente tabla de valores del coeficiente de asociacin de Spearman entre cada dos
alumnos:
Coeficientes de
A1
A2 A3
A4
A5
Spearman
A1
1,0 0,6 0,4 0,3 -0,25
A2
0,6 1,0 0,5 0,6 -0,45
A3
0,4 0,5 1,0 0,9 0,25
A4
0,3 0,6 0,9 1,0 -0,25
A5
-0,25 -0,45 0,25 -0,25 1,0
Tabla 16. Correlaciones de Spearman entre alumnos.
donde se observa que la diagonal de la tabla est formada por todos 1, ya que entre las
diferencias en una misma encuesta son nulas: el mismo alumno.
Por ltimo, dejamos como ejercicio el clculo de la tabla de coeficientes de Spearman
entre tems.
11
12