Test de hiptesis
Para utilizar las tcnicas estadstico-matemticas que se exponen en este texto es
necesario la ayuda de herramientas computacionales. En particular, en el estudio y
resolucin de la mayora de los problemas basados en datos reales la ayuda de un
programa informtico de Estadstica es imprescindible porque el gran nmero de
variables y datos que se manejan hacen inabordable el clculo de los algoritmos propios
de los modelos de diseo de experimentos y de regresin sin la ayuda del ordenador.
Existen muchos programas estadsticos en el mercado, la mayora de ellos tienen una
gran capacidad estadstica tanto analtica como grfica. Por su sencillez de manejo y
elevadas prestaciones estadsticas, en este texto, se ha optado por utilizar el
Statgraphics en su versin para Windows. Tambin se pueden utilizar otros programas
estadsticos (buenas opciones son el SPSS, S-plus, Statistics,...etc.) para el desarrollo de
las prcticas y resolucin de los problemas propuestos.
. (Comando rnormal).
plot>scatterplots>univariate plots
6. Generar una variable de clasificacin C de forma que los 100 primeros valores
formen la clase 1, los 100 siguientes la 2, los 100 siguientes la 3, los 100
siguientes la 4 y los 100 ltimos la 5. Utilizar el comando (rep: repeat).
7. Calcular los estadsticos bsicos de la muestra segn la clase C. Utilizar el anlisis
describe >numeric data >subset analysis
Fijarse en la tabla que compara las medias de la variable X segn la clase a la que
pertenece.
describe>distributions>probability distributions
se pueden estudiar las 24 funciones de distribucin ms utilizadas.
El apartado ofrece las siguientes posibilidades:
Trabajar con cinco modelos de probabilidad del mismo tipo.
Calcular la funcin de distribucin de los modelos seleccionados.
Calcular la inversa de la funcin de distribucin de los modelos seleccionados. (Estos
dos ltimos apartados constituyen las tablas estadsticas de funciones de distribucin).
Permite calcular muestras aleatorias de los modelos seleccionados sin necesidad de
utilizar comandos.
Permite obtener las grficas de la funcin de densidad, funcin de distribucin y
funcin razn de fallo, entre otras, de los modelos seleccionados.
En este texto se utilizarn bsicamente los siguientes modelos de probabilidad
relacionados con las tcnicas clsicas de Inferencia Estadstica: Normal, chi-cuadrado, t
de Student y F de Fisher. Es conveniente tener un conocimiento bsico de estas
distribuciones.
Para ello, utilizando este apartado,
'
N(0,0 8 ) y , N(2,1 ).
2. Dibujar en un mismo grfico las funciones de densidad de una chi-cuadrado: ,
, ,y
3. Dibujar en un mismo grfico las funciones de densidad de una t: t , t , t , y t
4. Dibujar en un mismo grfico las funciones de densidad de una F: F , F , F ,
F yF .
'
10
30.
20,20
80,4
10
30.
50,50
100,100
4,80
5. Para algunos de los modelo anteriores calcular F(-2), F(0) y F(1 5), siendo F la
'
funcin de distribucin.
6. Para algunos de los modelo anteriores calcular F (0 05), F (0 90) y F (0 95), siendo
-1
'
-1
'
-1
'
= 0 10.
'
3. La curva de potencia del test sobre la media de una poblacin normal se puede
estudiar en el siguiente anlisis de Statgraphics:
describe >hypothesis tests
En este mismo apartado tambin se puede estudiar la funcin de potencia de
otros contrastes (sobre la desviacin tpica de una normal, la proporcin de una
binomial o la razn de una de Poisson).
6.
7.
8.
22 56
'
22 33
'
24 58
'
23 14
'
19 03
'
26 76
'
18 33
'
23 10
'
21 53
'
9 06
16 75
'
23 29
'
22 14
'
16 28
18 89
'
27 48
'
10 44
'
26 86
'
27 27
'
18 74
'
19 88
15 76
'
30 77
'
21 16
'
24 26
'
22 90
'
27 14
'
18 02
21 53
'
24 99
'
19 81
'
11 88
'
24 01
'
22 11
21 91
14 35
11 14
9 93
20 22
17 73
19 05
'
'
'
'
'
'
'
'
'
'
'
'
Problema 1.2.
Una empresa de software est investigando la utilidad de dos lenguajes diferentes
para mejorar la rapidez de programacin. A doce programadores, familiarizados con
ambos lenguajes, se les pide que programen un cierto algoritmo en ambos lenguajes, y
se anota el tiempo que tardan, produciendo los siguientes datos en minutos:
Lenguaje 1 17
16
21
14
18
24
16
14
21
23
13
18
Lenguaje 2 18
14
19
11
23
21
10
13
19
24
15
20
10
Grupo1
10 10 10
10
10
11
11
14
15
18
11
14
16
20
11
15
16
22
12
15
16
25
12
15
17
27
13
15
17
35
13
15
17
38
13
15
17
40
14
15
18
A otro grupo de 69 alumnos les hizo la misma pregunta pero ahora les pidi la respuesta
en pies (3 28 pies = 1 metro). Ahora, las respuestas fueron:
'
24
32
36
40
42
45
50
25
32
36
40
43
45
50
27
33
37
40
43
45
51
Grupo2
30 30 30
34 34 34
37 40 40
40 41 41
44 44 44
46 46 47
54 54 54
30
35
40
42
45
48
55
30
35
40
42
45
48
55
30
36
40
42
45
50
60
'
Problema 1.4.
Una empresa constructora est interesada en estudiar la tensin de ruptura de las
barras de acero que utiliza en las estructuras de hormign armado. Para ello, selecciona
de forma aleatoria cincuentas barras y las prueba para determinar sus tensiones de
ruptura. Los resultados de la prueba, en kilogramos por centmetro cuadrado, son los de
la tabla adjunta
2244
2147
2240
2342
1951
2345
2001
1800
1995
2033
2208
1699
2037
2087
2185
1792
2033
2112
2001
2490
2132
2070
1917
2015
2150
1960
2086
1824
1869
2278
1846
1950
2027
1699
1972
2073
2282
1889
1897
2322
1964
1809
2009
2412
1746
2304
2015
2035
1974
2191
Problemas propuestos.
Problema 1.5.
El gobierno francs est interesado en analizar los datos obtenidos en experimentos
atmicos. En particular est interesado en el estudio de la potencia desarrollada por una
determinada bomba nuclear. Los resultados de 15 explosiones de estas bombas,
realizadas entre Marzo de 1994 y Enero de 1996, son los siguientes (en kilotones): 724,
718, 776, 760, 745, 759, 795, 756, 742, 740, 761, 749, 739, 747, 742.
1. Calcular intervalos de confianza al 90, 95 y 99% para la media de la potencia.
2. Calcular tres intervalos de confianza distintos al 95% para la varianza de la
potencia.
3. Contrastar la hiptesis de que la media de la potencia es 750.
4. Dibujar la curva de potencia de este contraste.
5. Qu hiptesis se han supuesto en el desarrollo de este problema.
Datos d el problema [ASCII] [spss-10] [sgplus-5]
Problema 1.6.
El nivel de colesterol es un factor de alto riesgo en el desarrollo de la enfermedad
de artoesclerosis cardaca y de la enfermedad de arteria coronaria, por tanto, es
importante determinar los niveles que esperamos en los diferentes grupos de edad y
sexo. Para comparar el nivel de colesterol en varones de entre 20 y 29 aos de edad
frente a mujeres del mismo grupo de edad se realiz un estudio cuyos estadsticos
bsicos son los de la tabla adjunta y los datos del experimento se encuentran en el
fichero Problema-1-6.
Hombres
Mujeres
n = 96
H
= 170.81 mg/dl
n = 85
M
= 181.08 mg/dl
= 30.55 mg/dl
= 30.79 mg/dl
1
235
174
9
18
165
2
120
204
10
216
180
3
210
200
11
233
163
4
220
200
12
210
180
5
191
184
13
221
163
6
215
186
14
230
155
7
221
186
15
120
180
8
204
153
1023
1369
950
1436
957
634
821
882
942
904
984
1067
570
1063
1307
1212
1045
1047
1178
633
501
565
1039
1000
1227
1118
843
696
820
1092
934
968
1191
996
1089
936
568
1056
1006
749
812
1096
1183
1409
1200
1197
985
848
1281
Sujeto
Nivel previo
(x), mg/dl
182
232
191
200
148
249
276
Nivel posterior
(y), mg/dl
198
210
194
220
138
220
249
10
11
12
13
14
Nivel previo
(x), mg/dl
213
241
480
262
242
185
205
Nivel posterior
(y), mg/dl
161
210
313
270
235
164
207
15
16
17
18
19
20
175
217
236
243
252
375
Sujeto
Sujeto
Nivel previo
(x), mg/dl
Nivel posterior
(y), mg/dl
156
200
219
201
232
335
Problema 1.10.
Se ha realizado un estudio de igualacin transversal preoperatoria en ciruga
electiva. La operacin elegida es la histerectoma abdominal electiva. Y la variable de
inters es X=el nmero de unidades sanguneas contrastadas transversalmente
inmediatamente disponibles. El objetivo del estudio es comparar el nmero medio de
unidades disponibles en 1.990 con el nmero medio de unidades disponibles en la
actualidad. Los estadsticos bsicos de la muestra del estudio son los de la tabla adjunta
y los datos muestrales se encuentran en el fichero Problema-1-10. En base a este estudio
Hay evidencia de que se produzca un descenso del nmero medio de unidades
disponibles desde 1.990 hasta la actualidad?
En 1.990
Actualidad
n = 120
n = 137
= 2.67 unid.
= 2.21 unid.
= 0.69
= 0.87
Sujeto
Antes (x),
en sgs
Despus (y),
en sgs.
7.6
9.9
8.6
9.5
8.4
9.2
6.4
14.7
14.1
11.8
16.1
14.7
14.1
13.2
Sujeto
Antes (x),
en sgs
Despus (y),
en sgs.
10
11
12
13
14
9.9
8.7
10.3
8.3
8.8
8.2
9.3
12.7
13.5
12.1
13.4
11.5
15.2
11.9
'
N(0,0 8 ) y , N(2,1 ).
2. Dibujar en un mismo grfico las funciones de densidad de una chi-cuadrado:
, ,y
'
10
30.
20,20
80,4
10
30.
50,50
100,100
yF .
4,80
5. Para algunos de los modelo anteriores calcular F(-2), F(0) y F(1 5), siendo F la
'
funcin de distribucin.
6. Para algunos de los modelo anteriores calcular F (0 05), F (0 90) y F (0 95), siendo
F la inversa de la funcin de distribucin.
-1
'
-1
'
-1
'
-1
= 0 10.
'
3. La curva de potencia del test sobre la media de una poblacin normal se puede
estudiar en el siguiente anlisis de Statgraphics:
describe >hypothesis tests
En este mismo apartado tambin se puede estudiar la funcin de potencia de
otros contrastes (sobre la desviacin tpica de una normal, la proporcin de una
binomial o la razn de una de Poisson).
6.
7.
8.
22 56
'
22 33
'
24 58
'
23 14
'
19 03
'
26 76
'
18 33
23 10
'
21 53
'
9 06
16 75
'
23 29
'
22 14
'
16 28
18 89
'
27 48
'
10 44
'
26 86
'
27 27
'
18 74
'
19 88
15 76
'
30 77
'
21 16
'
24 26
'
22 90
'
27 14
'
18 02
21 53
'
24 99
'
19 81
'
11 88
'
24 01
'
22 11
21 91
14 35
11 14
9 93
20 22
17 73
19 05
'
'
'
'
'
'
'
'
'
'
'
'
'
Problema 1.2.
Una empresa de software est investigando la utilidad de dos lenguajes diferentes
para mejorar la rapidez de programacin. A doce programadores, familiarizados con
ambos lenguajes, se les pide que programen un cierto algoritmo en ambos lenguajes, y
se anota el tiempo que tardan, produciendo los siguientes datos en minutos:
Lenguaje 1
Lenguaje 2
17
18
16
14
21
19
14
11
18
23
24
21
16
10
14
13
21
19
23
24
13
15
Problema 1.3.
Un profesor realiz el siguiente experimento, le pregunt a 44 alumnos que
calculasen de forma aproximada, en metros, el ancho de la clase. Obtuvo las siguientes
respuestas:
8
11
14
15
18
9
11
14
16
20
10
11
15
16
22
Grupo1
10 10 10
12 12 13
15 15 15
16 17 17
25 27 35
10
13
15
17
38
10
13
15
17
40
11
14
15
18
A otro grupo de 69 alumnos les hizo la misma pregunta pero ahora les pidi la respuesta
en pies (3 28 pies = 1 metro). Ahora, las respuestas fueron:
'
24
32
36
40
42
45
50
25
32
36
40
43
45
50
27
33
37
40
43
45
51
Grupo2
30 30 30
34 34 34
37 40 40
40 41 41
44 44 44
46 46 47
54 54 54
30
35
40
42
45
48
55
30
35
40
42
45
48
55
30
36
40
42
45
50
60
'
18
20
2147
2240
2342
1951
2345
2001
1800
1995
2033
2208
1699
2037
2087
2185
1792
2033
2112
2001
2490
2132
2070
1917
2015
2150
1960
2086
1824
1869
2278
1846
1950
2027
1699
1972
2073
2282
1889
1897
2322
1964
1809
2009
2412
1746
2304
2015
2035
1974
2191
Problemas propuestos.
Problema 1.5.
El gobierno francs est interesado en analizar los datos obtenidos en experimentos
atmicos. En particular est interesado en el estudio de la potencia desarrollada por una
determinada bomba nuclear. Los resultados de 15 explosiones de estas bombas,
realizadas entre Marzo de 1994 y Enero de 1996, son los siguientes (en kilotones): 724,
718, 776, 760, 745, 759, 795, 756, 742, 740, 761, 749, 739, 747, 742.
Mujeres
n = 96
n = 85
= 170.81 mg/dl
= 181.08 mg/dl
= 30.55 mg/dl
= 30.79 mg/dl
Antes
23 5
12 0
21 0
22 0
19 1
21 5
22 1
20 4
Despus
17 4
20 4
20 0
20 0
18 4
18 6
18 6
15 3
'
'
3
'
'
4
'
'
5
'
'
6
'
'
7
'
'
8
'
'
'
'
Trabajador
10
Antes
18 3
21 6
23 3
21 0
22 1
23 0
12 0
Despus
16 5
18 0
16 3
18 0
12 8
15 5
18 0
'
11
'
'
'
12
'
'
13
'
14
'
'
15
'
'
'
'
'
1023
1369
950
1436
957
634
821
882
942
904
984
1067
570
1063
1307
1212
1045
1047
1178
633
501
565
1039
1000
1227
1118
843
696
820
1092
934
968
1191
996
1089
936
568
1056
1006
749
812
1096
1183
1409
1200
1197
985
848
1281
182
232
191
200
148
249
276
198
210
194
220
138
220
249
10
11
12
13
14
213
241
480
262
242
185
205
161
210
313
270
235
164
207
Sujeto
Sujeto
15
16
17
18
19
20
175
217
236
243
252
375
156
200
219
201
232
335
n = 120
P
Actualidad
n = 137
A
= 2.67 unid.
= 2.21 unid.
= 0.69
= 0.87
Sujeto
7.6
9.9
8.6
9.5
8.4
9.2
6.4
Despus (y), en
sgs.
14.7
14.1
11.8
16.1
14.7
14.1
13.2
10
11
12
13
14
9.9
8.7
10.3
8.3
8.8
8.2
9.3
Despus (y), en
sgs.
12.7
13.5
12.1
13.4
11.5
15.2
11.9
Sujeto
Problema 2.1.
Una fbrica de herramientas desea comprobar si la resistencia de unas piezas
mecnicas que le proporcionan cuatro suministradores diferentes depende del
suministrador. Para ello recoge una muestra aleatoria de cada suministrador y somete a
cada una de las piezas elegida a una prueba de resistencia consistente en observar el
nmero de veces que cada pieza soporta una presin hasta estropearse. Los resultados
del experimento son los de la tabla adjunta:
ministrador Sumin. A
Sumin. B
Sumin. C
Sumin. D
sistencia
205
229
238
214
242
225
209
204
242
253
226
219
251
212
224
247
242
220
237
259
265
229
218
262
242
234
235
250
220
240
212
244
229
272
255
3. Para estudiar la influencia del factor se construye la tabla ANOVA segn el anlisis
compare >analysis of variance >one-way anova
Este mdulo permite realizar un estudio completo del problema, ya que se
pueden hacer los siguientes anlisis:
Hacer un estudio descriptivo anlogo al del apartado anterior.
Construir la tabla ANOVA y contrastar la influencia del factor.
Calcular intervalos de confianza para las medias de grupos.
Hacer contrastes mltiples por diferentes mtodos.
Contrastar la hiptesis de homocedasticidad.
Hacer el contraste no paramtrico de Krustal-Wallis sobre la influencia del factor.
Hacer grficos descriptivos anlogos a los del apartado anterior.
Hacer diferentes grficos de residuos para contrastar las hiptesis bsicas.
233
224
245
215
240
x : impactos en la cuadrcula 0
o : frecuencia observada
211
93
35
229
A partir de estos datos se puede deducir si el bomardeo se haca de una forma aleatoria
o se persegua un determinado objetivo militar
Solucin al Problema 2.3.
En la Figura 4.25 se presenta el histograma de los datos y se observa que el ajuste de
una normal no parece adecuado.
= 0 929
'
E = p . 576
0 395
227 52
229
0 01
0 367
211
211
0 00
0 170
98
93
0 26
0 053
30
35
0 83
0 012
0 00
0 003
17
0 29
'
'
'
'
'
'
'
'
'
'
'
'
'
'
Q = 1 39
'
Bajo la hiptesis nula, Q sigue una distribucin con 6-1-1 grados de libertad, de donde
2 99 3 03 3 68 4 70 7 32 9 72 15 87 16 16 18 39
'
'
'
'
'
'
'
'
'
y, la funcin de distribucin es
. De donde,
1 69
0 183
0 00
0 10
0 183
2 99
0 301
0 10
0 20
0 201
3 03
0 304
0 20
0 30
0 104
3 68
0 356
0 30
0 40
0 056
4 70
0 430
0 40
0 50
0 070
7 32
0 584
0 50
0 60
0 084
9 72
0 688
0 60
0 70
0 088
15 87
'
0 850
0 70
0 80
0 150
16 16
'
0 855
0 80
0 90
0 055
18 39
0 889
0 90
1 00
0 111
'
'
'
'
'
'
'
'
'
'
'
'
'
'
'
'
'
'
'
'
'
'
'
'
'
'
'
'
'
'
'
'
'
'
'
'
'
'
'
'
'
'
'
'
'
'
'
'
KS = 0 201
'
Consultando en la tabla KS se observa que a un valor KS = 0 201 le corresponde un p valor = 0 81, y se acepta la hiptesis de que las observaciones siguen una distribucin
exponencial.
Problema 2.5.
El ordenador DEC-20 era utilizado en las universidades americanas en la dcada de
los ochenta. Los datos de la tabla adjunta indican el nmero de averas que tena uno de
estos ordenadores en 128 semanas consecutivas de funcionamiento. Se puede ajustar a
estos datos una distribucin de Poisson? En caso negativo proponer una distribucin
alternativa.
0
0
0
3
2
0
0
11
12
10
17
10
11
'
'
10
13
16
22
11
17 3
18 4
20 9
16 8
18 7
20 5
17 9
20 4
18 3
19 0
17 5
18 1
17 1
18 8
20 0
19 1
19 1
17 9
18 2
18 9
19 4
18 9
19 4
20 8
17 3
18 5
18 3
19 0
19 0
20 5
19 7
18 5
17 7
19 4
18 3
19 6
19 0
20 5
20 4
19 7
18 6
19 9
18 3
19 8
19 6
20 4
17 3
16 1
19 2
19 6
18 8
19 3
19 1
21 0
18 3
18 3
18 7
20 6
18 5
16 4
17 2
17 5
18 0
19 9
18 4
18 8
20 1
20 0
18 5
17 5
18 5
17 9
18 7
18 6
17 3
18 8
17 8
19 0
19 6
19 3
18 1
20 9
19 8
18 1
17 1
19 8
20 6
17 6
19 1
19 5
17 7
20 2
19 9
18 6
16 6
19 2
20 0
17 4
17 1
19 1
18 5
19 6
18 0
19 4
17 1
19 9
16 3
18 9
19 7
18 5
18 4
18 7
19 3
16 3
16 9
18 2
18 5
18 1
18 0
19 5
20 3
20 1
17 2
19 5
18 8
19 2
'
'
'
'
'
'
'
'
'
'
'
'
'
'
'
'
'
'
'
'
'
'
'
'
'
'
'
'
'
'
'
'
'
'
'
'
'
'
'
'
'
'
'
'
'
'
'
'
'
'
'
'
'
'
'
'
'
'
'
'
'
'
'
'
'
'
'
'
'
'
'
'
'
'
'
'
'
'
'
'
'
'
'
'
'
'
'
'
'
'
'
'
'
'
'
'
'
'
'
'
'
'
'
'
'
'
'
'
'
'
'
'
'
'
'
'
'
'
'
'
'
'
'
'
'
'
Problema 2.7.
En la tabla adjunta se presentan los datos del tiempo transcurrido, en das, entre
dos terremotes ocurridos en algn lugar. Se consideran los terremotos con una magnitud
superior a 7 5 grados en la escala Richter o en el que murieron ms de 1.000 personas.
Los datos se recogan entre el 16 de Diciembre de 1902 y el 4 de Marzo de 1977. En base
a estos datos, los terremotos ocurren de forma aleatoria?, el tiempo entre dos
terremotos se puede ajustar por una distribucin exponencial?
'
840
157
145
144
33
121
150
280
434
736
584
887
263
1901
695
294
562
721
76
710
46
402
194
759
319
460
40
1336
335
1354
454
36
667
40
556
99
304
375
567
139
780
203
436
30
384
129
209
599
83
832
328
246
1617
638
937
735
38
365
92
82
220
Arquitectura I. Informtica
48
37
24
18
31
29
16
6
31
24
22
24
36
38
10
30
39
41
25
24
11
15
Derecho
I. Caminos
37
43
19
13
40
40
26
21
51
35
31
26
49
33
13
24
36
39
12
12
24
55
16
21
35
40
30
26
=
= 11 537 (desviacin tpica muestral)
Por tanto, la suma de cuadrados global es:
'
A la vista de los resultados del cuadro anterior se puede intuir que se va a rechazar la
hiptesis nula y que por tanto el factor facultad influye en la variable de inters.
Se calcula la tabla ANOVA. Para ello, se tiene en cuenta que las predicciones
coinciden con las medias condicionadas:
i=1
4
2
4
i=1
+ 12
+ 15
+ 13
Finalmente, se obtiene la suma de cuadrados residual
2
i
2
+
2
= 4101 33
'
La tabla ANOVA es
Se rechaza la hiptesis nula para cualquier valor de > 0 0001 y se concluye que el
factor facultad es significativo.
La scR se calcula a partir de los residuos
'
sc
R
eij2 =
ij
ij
+ ... +
+ ... +
+ ... +
+ ... +
= 2553 47
'
Se calculan intervalos de confianza al 90% para los diferentes parmetros del modelo:
Intervalo de confianza para la varianza:
2
31 44 =
'
<
46
40 64 =
Intervalo de confianza para
<
<
'
46
'
= 81 22
'
n-I
'
<
= 62 83
- 1 68 = t
46
<
46
46
<t
46
= 1 68
'
35 4 2 36 . 1 68 = 35 4 3 96 =
.
De forma anloga se obtienen intervalos de confianza para las otras medias,
1
'
'
'
IC
'
'
IC
IC
=
.
Intervalo de confianza para la diferencia de medias. Se hace para
- 1 68 = t
'
46
<
46
n-I
<t
46
= 1 68
'
16 65 3 19 . 1 68 = 16 65 5 36 =
.
Puede considerarse que existe una diferencia significativa entre la media de
Arquitectura y la media de Informtica.
Haciendo todos los intervalos de confianza para la diferencias de medias se obtienen
dos grupos homogneos:
Grupo 1: Informtica y Caminos
Grupo 2: Arquitectura y Derecho.
En las siguientes figuras se representan grficas que ayudan a entender la influencia del
factor y que los residuos verifican las hiptesis estructurales.
'
'
'
'
'
Figura 4.27. Grfico de cajas mltiple para los datos del problema 2.8.
Figura 4.28. Grfico de medias condicionadas para los datos del problema 2.8.
Oper.2.
Oper.3.
Oper. 4.
Oper.5.
72
75
78
69
65
75
70
79
65
60
71
77
84
61
63
69
73
72
75
68
67
79
83
70
70
71
77
77
68
64
75
72
80
67
62
73
78
83
63
64
69
73
71
76
69
65
69
85
72
62
De donde
i=1
4
i=1
= 10
= 1224 2.
Finalmente, se obtiene la
'
La tabla ANOVA es
Se rechaza la hiptesis nula para cualquier valor de > 0 0001 y se concluye que el
factor operador es significativo, esto es, hay variabilidad entre los diferentes
operadores.
Se estiman las varianzas del modelo: R2
'
Figura 4.30. Grfico de cajas mltiple para los datos del problema 2.9.
Figura 4.32. Grfico de residuos frente a predicciones para los datos del
problema 2.9.
68
'
64
'
70
'
66
'
77
'
72
69
'
90
'
66
'
81
93
'
92
'
86
49
'
55
'
46
'
45
53
56
55
51
62
58
58
'
'
'
'
'
'
'
'
'
'
'
69
'
Dieta B
Dieta C
Dieta D
62 8
63 5
63 1
687
68 0
68 5
56 2
63 7
60 3
61 2
67 3
62 9
66 2
70 2
62 4
59 9
63 9
71 0
69 8
71 8
65 3
60 3
58 0
59 2
64 8
64 5
67 1
64 5
61 5
62 2
60 8
65 5
68 7
63 8
60 2
64 1
66 5
68 6
64 4
63 3
'
'
'
'
'
'
'
'
'
'
'
'
'
'
'
'
'
'
'
'
'
'
'
'
'
'
'
'
'
'
'
'
'
'
'
'
'
'
'
26
40
14
36
22
40
23
52
68
54
31
57
50
37
57
45
47
30
48
24
24
17
48
24
61
45
38
32
27
0 000
0 083
0 290
0 500
0 860
62 6
64 6
50 9
50 4
45 5
38 5
29 5
24 1
24 9
22 1
59 6
50 9
44 3
35 2
41 1
30 2
22 8
22 6
17 2
22 6
64 5
56 2
47 5
49 9
29 8
27 0
19 2
32 7
78
16 8
59 3
52 3
49 5
42 6
38 3
40 0
20 6
24 4
10 5
15 9
58 6
62 8
48 5
41 6
40 2
33 9
29 2
29 6
17 8
88
Datos del problema [ASCII] [spss-10] [sgplus-5]
Problema 2.14.
Una empresa de enlatado decide comprar nuevas mquinas para lo que dispone de
cuatro ofertas. Antes de elegir una decide realizar una prueba para saber si las cuatro
mquinas ofertadas pueden producir la misma cantidad de unidades por hora. Para ello,
observa la produccin de las cuatro mquinas y observa los resultados que se reflejan en
la tabla adjunta. Qu conclusiones se deducen de este experimento?
maq. A
maq. B
maq. C
maq. D
'
'
'
'
'
'
'
'
'
'
'
'
'
'
'
'
'
'
'
'
'
'
'
'
'
'
'
'
'
'
'
'
'
'
'
'
'
'
'
'
'
'
'
'
'
'
'
'
'
'
'
'
'
'
'
89
88
97
94
84
77
92
79
81
87
87
85
87
92
89
84
79
81
80
88
Cajero.1.
Cajero.5
7 08
8 99
6 88
11 87
7 08
8 88
9 60
'
9 55
8 28
7 88
8 08
9 56
8 73
6 07
5 20
10 57
5 51
6 26
0 14
4 09
7 01
9 63
'
3 18
2 93
5 68
6 46
12 66
1 15
5 51
14 41
12 40
'
6 35
6 13
5 46
'
6 73
9 33
8 67
11 13
9 57
14 37
3 50
'
3 86
10 32
'
8 96
8 04
2 73
11 12
11 90
7 01
10 79
'
6 10
7 48
6 64
8 35
12 47
5 50
'
'
'
'
'
'
'
5 08
'
'
'
'
'
'
'
'
'
'
'
'
'
'
'
'
'
'
'
'
'
'
'
'
'
'
'
'
'
'
4 14
'
'
'
'
'
'
'
'
'
'
'
'
'
'
'
'
'
'
'
'
'
'
'
'
'
'
'
'
'
'
'
'
'
'
'
'
'
'
'
'
'
'
'
1.
2.
3.
4.
5.
Norte
Este
Sur
Oeste
Norte
Este
Sur
Oeste
72
60
56
41
32
30
39
42
37
66
53
57
29
32
35
39
43
40
76
66
64
36
35
34
31
31
31
77
63
58
38
36
26
27
25
25
91
56
79
81
78
46
39
32
60
79
68
65
80
55
38
35
30
50
99
47
70
68
67
37
34
30
67
75
50
61
58
60
38
37
32
54
33
32
63
54
47
29
30
45
46
51
27
34
74
60
52
36
28
63
52
43
35
39
50
43
48
37
36
34
37
54
48
39
37
39
57
39
31
40
50
43
0 34
0 12
1 23
0 70
1 75
0 12
Mtodo 2
0 91
2 94
2 14
2 36
2 86
4 55
Mtodo 3
6 31
8 37
9 75
6 09
9 82
7 24
Mtodo 4
17 15
11 82
10 95
17 20
14 35
16 82
'
'
'
'
'
'
'
'
'
'
'
'
'
'
'
'
'
'
'
'
'
'
'
'
10
11
47
75
90
73
92
110
33
44
49
65
87
67
85
95
35
antes
despus
despus
dif
1. Con los datos del problema crear tres variables de 32 observaciones, una es la
variable respuesta Y, otra el factor de inters con dos niveles (antes y despus), y
la tercera es el factor bloque fbrica con 16 niveles.
2. Se utilizar el siguiente anlisis
describe >numeric data >multifactor anova,
sin interaccin (mximo orden de interaccin=1).
Este mdulo proporciona un amplio estudio analtico y grfico para responder al
problema planteado.
Cmo son el p-valor del test de la t utilizado en la tcnica de datos apareados y
el p-valor del test de la F utilizado en la tcnica de la tabla ANOVA?
Es influyente la variable bloque fbrica? En consecuencia es adecuada la
recogida muestral para la resolucin del problema?
47
elemento de soldadura que se utilice de entre tres posibles: nquel, hierro o cobre.
Como pueden existir muchas diferencias entre los elementos a soldar se ha utilizado un
diseo de bloques completamente aleatorizados. Para ello, se han utilizado diez lingotes
(bloques) y de cada uno de ellos se han soldado dos componentes utilizando los tres
agentes de soldadura. Finalmente se mide la fuerza (expresada en 100 libras por pulgada
cuadrada) necesaria para romper la soldadura. Los resultados obtenidos son los de la
tabla adjunta. En base a estos datos estudiar la influencia de factor tipo de soldadura,
cambian los resultados si no se tiene en cuenta el bloque lingote? .
B2
B3
B4
B5
B6
B7
B8
B9
66 3
68 9
74 7
73 0
72 7
80 0
83 6
61 2
74 1
70 7
75 4
66 7
65 0
70 8
76 2
66 0
73 4
69 7
74 7
60 2
61 2
71 7
57 0
58 5
'
'
'
'
'
'
'
'
'
'
'
'
'
'
'
'
'
'
'
'
'
'
'
'
como F1, F2 y F3. Y el nmero de buffers del sistema, que tambin se ha estudiado con
tres niveles: 10, 20 o 30 buffers. Se ha hecho una prueba con cada una de las nueve
combinaciones posibles. Cada una de las pruebas consisti en observar el sistema un da
completo y calcular el tiempo de respuesta media al compilar un programa en lenguaje
C en ese perodo de tiempo. Se ha replicado el experimento tres veces. Los resultados
obtenidos se presentan en la tabla adjunta. En base a estos datos existe influencia de
alguno de los dos factores en el tiempo de respuesta del sistema informtico?, existe
interaccin entre ambos factores?
B1
0
2.7
F1 2.4
2.3
B2
0
2.0
2.2
1.9
B3
B1 B2
0
0
0
1.8
2.9 2.7
F2
1.5
3.4 2.4
1.6
3.3 2.5
B3
B1 B2
0
0
0
2.2
3.7 2.9
F3
1.9
3.4 3.4
2.3
3.9 3.3
B3
0
3.5
3.4
3.8
E2
E3
E4
P1
10 F1
9 5 F2
7 F4
11 5 F3
P2
8 F2
10 F1
8 5 F3
9 F4
P3
7 F3
6 5 F4
7 F1
8 F2
P4
6 F4
5 F3
6 F2
9 F1
'
'
'
'
Prog.1
Prog.2
Prog.3
Prog.4
Prog.5
Ord.1
13
'
16
'
05
'
12
'
11
Ord.2
22
'
24
'
04
'
20
'
18
Ord.3
18
'
17
'
06
'
15
'
13
Ord.4
39
44
20
41
34
'
'
'
'
'
'
'
'
Factor fila
= Factor ordenador, i = 1,2,3,4.
Factor columna
= Factor programa, j = 1,2,3,4,5.
Ahora se calculan las predicciones de cada casilla. Utilizando
ij
ij
Observar que al sumar los residuos por filas o por columnas se obtiene cero en cada
fila y en cada columna.
Se calculan las sumas de cuadrados:
scT
= scT
=5
4
i=1
2
i
=5
scT
=
= 18 044.
'
= scT
=4
j=1
2
j
= 6 693.
'
De donde
La variabilidad total es
scG =
i=1
=
= 25 688.
o bien
'
j=1
2
=
2
+ ... +
El contraste
Al calcular grupos homogneos de los ordenadores se obtienen dos: O1 y O3 - O2 -O4. Esto se puede
observar en el siguiente grfico de medias
Al calcular grupos homogneos de los ordenadores se obtienen tres grupos: P3 - P4; P5 - P4 y P1 - P2.
Esto se observa en el siguiente grfico de medias de los programas.
Temperatura
Material
Baja
Media
Alta
M1
130
74
155
180
34
80
40
75
20
82
70
58
M2
150
159
188
126
136
106
122
115
25
58
70
45
M3
138
168
110
160
174
150
120
139
96
82
104
60
ij
scT = scT
+ scT
+ scT
= 10.683 70 + 39.118 70 + 9.613 78 = 59.416 18.
'
scR =
3
i=1
'
3
j=1
k=1
'
e =
ijk
3
i=1
'
3
j=1
k=1
= 18.230 7.
'
Finalmente para analizar las hiptesis del modelo se presenta el grfico de residuos
frente a predicciones
Tipo de papel
Letra
satinado
blanco
color
grande
258 A
230 C
240 B
normal
235 B
270 A
240 C
pequea
220 C
225 B
260 A
donde el factor fila representa al factor tipo de letra, el factor columna representa al
factor tipo de papel y el factor letra (cuadrado latino) representa el
factor iluminacin. Es un modelo con tres factores, cada uno de los cuales tiene tres
niveles, se supone que no existen interacciones entre los factores y puede resolverse con
solo 3 = 9 observaciones por medio del diseo fraccional de cuadrado latino.
Se calculan las medias,
2
y los residuos
scT = scT
+ scT
+ scT
= 268 67 + 122 00 + 1.938 67 = 2.329 34.
'
scR =
i=1
'
j=1
ij
'
3
i=1
'
3
j=1
=
= 8 67.
'
Se rechaza para niveles de > 0 031 (por ejemplo = 0 05) la hiptesis nula de no
influencia del factor tipo de letra. Una interpretacin de sto puede observarse en el
grfico de medias
'
'
Se acepta para niveles de < 0 066 (por ejemplo = 0 05) la hiptesis nula de no
influencia del factor tipo de papel. El grfico de medias del factor tipo de papel es
'
'
Se rechaza para niveles de > 0 004 (por ejemplo = 0 05) la hiptesis nula de no
influencia del factor tipo de iluminacin. Esto puede observarse en el grfico de medias
del factor
'
'
Sistlica
Pac
1
2
3
4
5
6
7
8
Antes
210
169
187
160
167
176
185
206
Diastlica
Despus Antes
201
130
165
122
166
124
157
104
147
112
145
101
168
121
180
124
Despus Pac
125
9
121
10
121
11
106
12
101
13
85
14
98
15
105
Sistlica
Diastlica
Despus
103
98
90
98
110
103
82
Muestreo 1
Da
nmero de bajas por da
Lunes
26 37 22 55 23 38 46 25 25 23
Martes
35 20 28 12 17 17 57 42 25 63
Mircoles
25 40 63 18 62 30 38 23 37 26
Jueves
51 20 30 13 42 28 17 73 25 22
Viernes
30 62 40 15 26 37 52 12 16 25
Un segundo estudio se realiz en base a los mismos datos pero cambiando el esquema
del muestreo, ahora se eligieron al azar diez semanas completas de los cinco aos y los
resultados que se obtuvieron son los siguientes:
Muestreo 2
Semana (nmero de bajas por da)
Da
S1
Lunes
40 32 56 65 18 43 30 51 46 38
32 51 34 35 23 22 45 35 32 58
Martes
S2
S3
S4
S5
S6
S7
S8
S9
S10
Jueves
42 30 29 30 15 30 42 51 31 26
20 32 30 40 21 28 46 36 36 22
Viernes
26 27 27 17 23 37 53 22 15 22
Mircoles
89
84
81
87
79
88
77
87
92
81
97
92
87
89
80
94
79
85
84
88
Reloj
Mano
R1 R2
R3
R4
Derecha 11 11 10 18 18 16 12 14
16 12 20 17 1720 15 16
11 13
16
15
Izquierda 17 17 30 22 21 25 21 16
11 17 28 22 22 23 18 21
16 20 26
18
Datos del problema [ASCII] [spss-10] [sgplus-5]
Problema 3.12.
Se ha realizado un experimento para comprobar si existen diferencias significativas
en el tiempo de ejecucin entre tres programas que calculan el factorial de un nmero.
Tambin se desea investigar si influye en la variable de inters el intervalo al que
pertenece el nmero del que se calcula el factorial.
Los programas utilizados son:
- Recfact, que calcula el factorial de forma recursiva.
- Tailfact, calcula el factorial de usando tail-recursion.
Program I.1.
a
Recfact 1 6 7 9
I.2.
I.3.
I.4.
I.5.
17 3 13 3 28 8 35 2 39 9 44 9 51 5 51 7
7 8 11 8 14 7 23 4 31 9 29 2 40 9 44 8 52 6 50 1
8 5 4 5 19 0 22 2 32 0 31 0 36 9 39 5 55 1 50 6
5 7 2 8 19 3 14 8 29 9 31 1 46 4 43 1 49 0 56 6
8 2 4 6 24 8 15 0 34 5 26 5 37 5 39 2 49 1 55 9
3 2 11 7 21 5 28 4 46 3 51 6 58 9 68 0 85 6 74 1
Tailfact
10 9 17 0 36 6 27 9 52 6 43 7 55 9 65 2 76 6 84 7
1 7 7 9 25 5 21 6 43 0 39 5 59 6 55 1 78 2 79 6
5 9 11 2 22 0 32 8 47 6 44 8 60 2 67 5 83 5 75 8
6 1 11 9 34 5 34 5 46 4 47 8 70 2 61 9 77 6 74 1
10
7 1 7 33 7 21 5 42 5 46 4 53 4 54 5 72 4 76 3
Loopfact
11 0 3 2 27 8 21 0 46 7 41 8 58 7 66 1 74 6 77 4
7 8 11 7 24 9 21 1 50 3 43 5 68 3 63 4 82 6 75 8
6 0 11 6 35 8 27 3 38 4 45 1 57 4 57 8 72 2 83 5
5 9 16 7 18 9 32 0 45 2 51 3 65 8 60 4 74 0 81 3
En base a estos datos,
1. Estudiar de la influencia de los tres factores.
2. Qu modelo estadstico se debe utilizar? Se ajusta bien el modelo propuesto a
los datos? Existe interaccin entre los factores?, en caso afirmativo interpretar la
interaccin.
3. Analizar las hiptesis bsicas del modelo.
'
'
'
'
'
'
'
'
'
'
'
'
'
'
'
'
'
'
'
'
'
'
'
'
'
'
'
'
'
'
'
'
'
'
'
'
'
'
'
'
'
'
'
'
'
'
'
'
'
'
'
'
'
'
'
'
'
'
'
'
'
'
'
'
'
'
'
'
'
'
'
'
'
'
'
'
'
'
'
'
'
'
'
'
'
'
'
'
'
'
'
'
'
'
'
'
'
'
'
'
'
'
'
'
'
'
'
'
'
'
'
'
'
'
'
'
'
'
'
'
'
'
'
'
'
'
'
'
'
'
'
'
'
'
'
'
'
'
'
'
'
'
'
'
'
'
'
'
'
'
Problema 3.13.
Se disea un experimento para estudiar la influencia del tipo de cinta (dos
niveles) y del tipo de impresora (dos niveles) en la variable duracin de la cinta en
horas. Los datos se recogen en la tabla adjunta:
17 1
16 5
14 9
15 2
'
'
'
'
194
189
201
17 2
'
12 3
13 8
10 8
11 6
'
'
'
'
15 6
17 2
16 7
16 1
'
'
'
'
16 7 207 Duracin
12 1
18 3
Datos del problema [ASCII] [spss-10] [sgplus-5]
En base a estos datos
1. Escribir el modelo matemtico asociado al problema y las hiptesis que se
suponen.
2. Calcular la tabla ANOVA y obtener los contrastes que se deducen de la tabla
ANOVA.
3. Si suponemos que la interaccin es nula cmo influye en la tabla ANOVA? Se
modifican las conclusiones?
4. Calcular un intervalo de confianza al 90% para la duracin media de la cinta con
la impresora I1.
Duracin
'
'
'
Problema 3.14.
Se realiza un experimento para ver el efecto del tipo de material y el tratamiento
empleado en el desgaste de unas piezas mecnicas. Los datos obtenidos son los de la
tabla adjunta. En base a estos datos analizar la influencia de los dos factores (diseo
anadidado o jerarquizado).
A
23
25
30
31
42
44
45
50
37
38
39
39
41
42
44
49
20
25
B.2.
B.3.
B.4.
B.5.
B.6.
B.7.
B.8
rrer
14
'
15
'
18
'
17
'
16
'
15
'
17
'
20
minar
11
'
12
'
13
'
13
'
07
'
12
'
11
'
13
dalear
07
08
07
08
01
07
04
06
'
'
'
'
'
'
'
'
'
'
Se estn investigando los efectos que sobre la resistencia del papel producen el
porcentaje de concentracin de fibra de madera (hardwood) en la pulpa, la presin del
tanque y el tiempo de coccin de la pulpa. Se seleccionan tres niveles de concentracin
de madera y de presin, y dos niveles de tiempo de coccin. Por tanto, los factores son:
concentracin porcentual de fibra que se estudia a tres niveles (2, 4 y 8); presin
durante el tiempo de coccin que se estudia a tres niveles (400, 500 y 650); y tiempo de
coccin que se estudia a dos niveles, 3 y 4 horas.
Se realiza un experimento completamente aleatorizado con dos rplicas y se
registran los datos que se recogen en el archivo Problema-3-16.sf3
1. Analizar los datos y obtener conclusiones.
2. Obtener los grficos de residuos apropiados y comentar la adecuacin del
modelo.
Datos del problema [ASCII] [spss-10] [sgplus-5]
DC
LR
10 7
65
29 4
17 2
18 4
19 7
16 3
'
'
'
'
'
'
'
DC
95
50
23 0
15 2
11 4
11 8
14 6
LR
16 6
29 0
40 5
14 2
11 7
25 6
95
'
'
'
'
'
'
'
'
'
'
'
'
'
'
DC
12 1
22 0
28 2
12 1
98
19 0
83
'
'
'
'
'
'
LR
28 8
31 2
65
25 7
26 5
33 1
'
'
'
'
'
'
21 6
26 5
48
21 7
18 0
28 0
'
'
'
'
'
'
'
'
2
73
<
<
54 3245
2
73
'
<
< 94 0592
85 325 <
< 147 735
Intervalo de confianza para
'
'
'
73
<
<t
73
- 1 6664
'
<
< 1 6664
8 108 0 7142 =
Intervalo de confianza para
1
'
'
'
<
73
- 1 6664
'
<t
73
<
< 1 6664
13 515 4 378 =
Contraste de hiptesis para
0
'
'
'
=
=
= 18 917 ~ t
p - valor = 0 0000 Se rechaza H
Contraste de hiptesis para
'
'
n-2
=
=
= 5 144 ~ t
p - valor = 0 0000 Se rechaza H
El coeficiente de correlacin es
'
'
n-2
Grfico de residuos
Se calcula la tabla ANOVA del modelo y se obtiene
scR =
75 2
i=1
i
scG =
75
i=1
e = 8025 61
'
= 75 . sy2 = 47.368 95
'
75
scE =
= V T - V NE = 39.343 34
i=1
que permite construir la siguiente tabla
2
'
75
i=1
scR =
75
i=1
= 2.765 84
'
= 5.259 77
'
75 2
75
scR =
= 8.025 61
i = 1 ei =
i=1
Que permite construir la siguiente tabla ANOVA ms completa
2
'
= 0 013857
'
V ar
=
= 1 5235
= 1 2343.
El estimador de la media condicionada es
'
'
es
'
'
73
'
Con varianza
V ar
=
+ 109 94 = 111 4635
= 10 5576.
Por tanto, el intervalo de prediccin al 90% es
.
y 62 163 t
10 5576
y 62 163 17 593 =
.
Anlogamente, se realizan los clculos para x = 12, su valor de influencia es
h == 0 08523
'
'
'
'
'
'
73
'
'
V ar
=
= 9 3707
= 3 0612.
'
'
El estimador es
'
'
73
'
V ar
= 109 94
= 119 31
= 10 923.
y el intervalo de prediccin al 90% es
.
y 110 811 t
10 923
y 110 811 18 202 =
.
En resumen, al comparar las longitudes de los intervalos calculados se obtiene
'
'
'
'
'
'
73
'
es
precio
pginas
precio
pginas
precio
310
3 50
400
8 00
420
2 50
300
3 50
170
1 80
610
5 00
280
3 50
430
7 00
420
5 40
310
7 30
230
3 20
450
3 70
'
'
'
'
'
'
'
'
'
'
'
'
1. Ajustar una recta de regresin que explique el precio en funcin del nmero de
pginas e interpretar los resultados.
Resistencia (kg/cm )
2
13 0 13 3 11 8
21 9 24 5 24 7
'
'
'
'
'
'
29 8 28 0 24 1 24 2 26 2
'
'
'
'
'
32 4 30 4 34 5 33 1 35 7
28
41 8 42 6 40 3 35 7 37 3
'
'
'
'
'
'
'
'
'
'
Y
1920
1925
1930
1935
1940
X
1.006
1.162
1.479
805
795
ao
55
48
78
82
86
'
'
'
'
'
Y
1945
1950
1955
1960
1965
X
747
732
683
686
493
ao
97
96
89
11 4
10 6
'
'
'
Y
1970
1975
1980
'
'
X
476
386
368
Salario
26 1
33 2
36 1
16 5
26 4
19 1
Exper.
31
19
20
1
4
10
'
'
'
'
'
'
Salario
36 4
33 8
36 5
16 9
19 8
24 6
Exper.
27
25
7
15
13
'
'
'
'
'
Salario
36 0
36 5
21 4
31 0
31 4
'
'
'
'
'
'
y
77
137
117
94
116
102
111
93
88
x
84
116
123
128
155
101
118
113
104
y
102
91
104
107
112
113
110
125
x
88
104
129
86
96
144
139
113
y
133
115
105
87
91
100
76
66
146
128
115
79
85
120
60
51
Y1
Y2
Y3
X4
Y4
10
8 04
9 14
7 46
6 58
6 95
8 14
6 77
'
5 76
13
7 58
8 74
12 74
7 71
8 81
8 77
7 11
8 84
11
8 33
9 26
7 81
8 47
14
9 96
8 10
8 84
7 04
7 24
6 13
6 08
5 25
4 26
'
3 10
5 39
5 56
12
10 84
9 13
8 15
7 91
4 82
7 26
6 42
6 89
5 68
4 74
5 73
19
12 50
'
'
'
'
'
'
'
'
'
'
'
'
'
'
'
'
'
'
'
'
'
'
'
'
'
'
'
'
'
'
'
'
'
'
'
'
'
'
'
'
'
'
99 971
99 979
99 982
99 971
99 957
99 961
99 830
18 8
18 9
21 7
21 9
22 8
24 2
83 6
'
'
'
'
'
'
'
'
'
'
'
'
'
'
99 942
99 932
99 908
99 970
99 985
99 933
99 718
46 8
46 8
58 1
62 3
70 6
71 1
99 5
'
'
'
'
'
'
'
'
'
'
'
'
'
'
99 863
99 811
99 877
99 798
99 855
99 788
99 642
12 3
71 3
12 5
12 6
15 9
16 7
111 2
'
'
'
'
'
'
'
'
'
'
'
'
'
'
99 956
99 821
99 972
99 889
99 961
99 982
99 658
25 8
18 8
30 6
36 2
39 8
44 3
'
'
'
'
'
'
'
Consumo
Dif. temp
Consumo
Dif. temp
Consumo
10 3
11 4
11 5
12 5
13 1
69 81
82 75
81 75
80 38
85 89
13 4
13 6
15 0
15 2
15 3
75 32
69 81
78 54
81 29
99 20
15 6
16 4
16 5
17 0
17 1
86 35
110 23
106 55
85 50
90 02
'
'
'
'
'
'
'
'
'
'
'
'
'
'
'
'
'
'
'
'
'
'
'
'
'
'
'
'
'
'
'
'
'
'
'
'
Altura
Peso
Altura
Peso
Altura
Peso
Altura
26
33
55
50
32
25
44
141
136
154
151
155
137
143
28
28
36
48
36
31
36
149
147
152
140
143
146
133
46
36
47
33
42
35
31
148
149
141
164
146
137
135
32
34
29
47
37
34
30
149
141
Qui
25
22
17
21
20
13
16
14
28
Mag
18
20
21
20
21
15
16
15
25
Qui
19
10
23
20
19
15
16
16
36
Mag
17
19
16
15
15
13
24
22
32
Qui
12
15
15
15
15
17
18
16
40
Mag
21
24
15
20
20
25
27
22
28
Qui
18
22
20
21
21
25
22
18
33
Mag
20
24
24
23
29
27
23
19
25
Qui
21
18
20
25
20
18
19
16
33
1960
1961
1962
1963
1964
1965
1966
PNB
737 2
756 6
800 3
832 5
876 4
929 3
984 8
GC
452 0
461 4
482 0
500 5
528 0
557 5
585 7
Ao
1967
1968
1969
1970
1971
1972
1973
PNB
1.011 4
1.058 1
1.087 6
1.085 6
1.122 4
1.185 9
1.255 0
GC
602 7
634 4
657 9
672 1
696 8
737 1
768 5
Ao
1974
1975
1976
1977
1978
1979
1980
PNB
1.248 0
1.233 9
1.300 4
1.371 7
1.436 9
1.483 0
1.480 7
763 6
780 2
823 7
863 9
904 8
930 9
935 1
GC
'
'
'
'
'
'
'
'
'
'
'
'
'
'
'
'
'
'
'
'
'
'
'
'
'
'
'
'
'
'
'
'
'
'
'
'
'
'
'
'
'
'
de los cien libros muestrales se obtena de los catlogos de las editoriales y si algn libro
estaba descatalogado su valor se calculaba utilizando el precio de un libro de similares
caractersticas. Los precios estn en peniques.
Dado que el valor de los libros era muy variable, en un intento de conseguir una
mayor exactitud, se utiliz como variable regresora para explicar el precio de un libro el
ancho del lomo del mismo (medido en milmetros). El ancho total de los 1.554 libros era
de 25.182 mm.
Los datos de los cien libros se encuentran en el fichero problema-4-18. En base a
estos resultados, se pide:
Datos del problema [ASCII] [spss-10] [sgplus-5]
1. Analizar las variables precio y ancho del libro.
2. Estudiar la existencia de una relacin entre ambas variables.
3. Estimar el coste de toda la coleccin. En una primera aproximacin sin tener en
cuenta la variable ancho de los libros y, despus, tenindola en cuenta.
Problema 4.19. En el fichero problema-4-19 se presentan dos nubes de puntos
bidimensionales (
y
) que eran generados por simulacin por Wampler para
comprobar cuando un determinado programa estadstico realizaba con exactitud el
ajuste por mnimos cuadrados.
Ajustar a estas dos nubes de puntos un polinomio qu grado de polinomio se debe
ajustar?, es el ajuste bueno?, es exacto?.
Datos del problema [ASCII] [spss-10] [sgplus-5]
Problema 4.20. Los datos de la tabla adjunta son el conjunto clsico de datos del test
psicolgico de Strong sobre retencin de memoria. Los datos se tomaban de la siguiente
manera: un conjunto de individuos memorizaban una lista de objetos inconexos y pasado
un tiempo la recordaban. La variable p indica el porcentage de retencin de memoria en
promedio y la variable t es el tiempo transcurrido. El objetivo del estudio era explicar la
variable p en funcin de t.
t
p
1
5
15
30
t
0 84
0 71
0 61
0 56
'
'
'
'
p
60
120
240
480
t
0 54
0 47
0 45
0 38
'
'
'
'
720
1440
2880
5760
0 36
0 26
0 20
0 16
p
10080
'
'
'
'
0 08
'
Dureza
484
427
413
517
549
648
587
704
979
914
1070
1020
Densidad
39 4
39 9
40 3
40 6
40 7
40 7
42 9
45 8
46 9
48 2
51 5
51 5
'
'
'
'
'
'
'
'
'
'
'
'
Dureza
1210
989
1160
1010
1100
1130
1270
1180
1400
1760
1710
2010
Densidad
53 4
56 0
56 5
57 3
57 6
59 2
59 8
66 0
67 4
68 8
69 1
69 1
'
'
'
'
'
'
'
'
'
'
'
'
Dureza
1880
1980
1820
2020
1980
2310
1940
3260
2700
2890
2740
3140