Anda di halaman 1dari 83

Prctica 1. Estadstica bsica.

Test de hiptesis
Para utilizar las tcnicas estadstico-matemticas que se exponen en este texto es
necesario la ayuda de herramientas computacionales. En particular, en el estudio y
resolucin de la mayora de los problemas basados en datos reales la ayuda de un
programa informtico de Estadstica es imprescindible porque el gran nmero de
variables y datos que se manejan hacen inabordable el clculo de los algoritmos propios
de los modelos de diseo de experimentos y de regresin sin la ayuda del ordenador.
Existen muchos programas estadsticos en el mercado, la mayora de ellos tienen una
gran capacidad estadstica tanto analtica como grfica. Por su sencillez de manejo y
elevadas prestaciones estadsticas, en este texto, se ha optado por utilizar el
Statgraphics en su versin para Windows. Tambin se pueden utilizar otros programas
estadsticos (buenas opciones son el SPSS, S-plus, Statistics,...etc.) para el desarrollo de
las prcticas y resolucin de los problemas propuestos.

Prctica 1.1. Estadstica descriptiva de una variable.


Prctica 1.2. Modelos de probabilidad.
Prctica 1.3. Test de hiptesis e intervalos de confianza de una y dos
muestras.
Prctica 1.4. Problemas de intervalos de confianza y test de hiptesis.
Problemas propuestos.

Prctica 1.1. Estadstica descriptiva de una variable.


Objetivo: En este prctica se genera una muestra aleatoria con dos variables, la
primera es la variable de inters que sigue una distribucin normal y la segunda es una
variable de clasificacin. Se hace el estudio descriptivo (analtico y grfico) de la
variable de inters.
Desarrollo:
1. Generar una muestra de 500 observaciones de una variable X que sigue una
distribucin N

. (Comando rnormal).

2. Calcular los estadsticos bsicos. Utilizar el anlisis


describe >numeric data >one-variable analysis

3. Estudiar los estadsticos bsicos de esta muestra y comprobar si son adecuados al


algoritmo de generacin de la misma.
4. Estudiar la tabla de frecuencias y el diagrama de representacin de tallo y hojas:
(stem-and-leaf display).
5. Calcular e interpretar los siguientes grficos que permiten conocer la distribucin
de la muestra:
Grfico de puntos (scatterplot).

Grfico de cajas (box-and-whisker plot (notched)).


Histograma.
Grfico de quantiles.
Suavizado de la densidad (density trace).
Grfico de simetra.
Grfico de la serie en funcin del ndice, sto es, x frente a t. Utilizar el anlisis
t

plot>scatterplots>univariate plots
6. Generar una variable de clasificacin C de forma que los 100 primeros valores
formen la clase 1, los 100 siguientes la 2, los 100 siguientes la 3, los 100
siguientes la 4 y los 100 ltimos la 5. Utilizar el comando (rep: repeat).
7. Calcular los estadsticos bsicos de la muestra segn la clase C. Utilizar el anlisis
describe >numeric data >subset analysis
Fijarse en la tabla que compara las medias de la variable X segn la clase a la que
pertenece.

8. Este anlisis tambin proporciona diferentes grficos que permiten comparar la


variable X segn la clase C, y que nos permite comparar medidas de
centralizacin (media y mediana) segn la clase, medidas de dispersin
(desviacin tpica y rango) y la distribucin de X segn la clase C. Son los
siguientes:
Plot de puntos (scatterplot).
Grfico de medias.
Grfico de medianas.
Grfico de desviaciones tpicas.
Grfico de rangos.
Grfico de cajas mltiple.
Algunos de estos grficos y otros de menor inters se encuentran en el apartado:
exploratory plots.
Repetir la prctica anterior con las siguientes variaciones:
La muestra X proviene de una distribucin no normal, por ejemplo, una exponencial
(comando rexponential) o de una distribucin gamma (rgamma).
Utilizando los datos del fichero coches (fichero de datos de coches que proporciona el
paquete Statgraphics), estudiar la variable MPG (miles per galon, inversa del
consumo) y/o la variable PRICE (precio de los coches), utilizando como variable de
clasificacin ORIGIN (origen de los coches, que toma los valores Japan, U.S.A. y
Europe).

Prctica 1.2. Modelos de probabilidad.


Objetivo: Con la ayuda del paquete estadstico se revisan los principales modelos de
distribucin, su funcin de probabilidad o de densidad y su funcin de distribucin, as
como la generacin de muestras aleatorias.
Desarrollo:
En el apartado de Statgraphics

describe>distributions>probability distributions
se pueden estudiar las 24 funciones de distribucin ms utilizadas.
El apartado ofrece las siguientes posibilidades:
Trabajar con cinco modelos de probabilidad del mismo tipo.
Calcular la funcin de distribucin de los modelos seleccionados.
Calcular la inversa de la funcin de distribucin de los modelos seleccionados. (Estos
dos ltimos apartados constituyen las tablas estadsticas de funciones de distribucin).
Permite calcular muestras aleatorias de los modelos seleccionados sin necesidad de
utilizar comandos.
Permite obtener las grficas de la funcin de densidad, funcin de distribucin y
funcin razn de fallo, entre otras, de los modelos seleccionados.
En este texto se utilizarn bsicamente los siguientes modelos de probabilidad
relacionados con las tcnicas clsicas de Inferencia Estadstica: Normal, chi-cuadrado, t
de Student y F de Fisher. Es conveniente tener un conocimiento bsico de estas
distribuciones.
Para ello, utilizando este apartado,

1. Dibujar en un mismo grfico las funciones de densidad de una N(0,1 ), N(0,1 5 ),


2

'

N(0,0 8 ) y , N(2,1 ).
2. Dibujar en un mismo grfico las funciones de densidad de una chi-cuadrado: ,
, ,y
3. Dibujar en un mismo grfico las funciones de densidad de una t: t , t , t , y t
4. Dibujar en un mismo grfico las funciones de densidad de una F: F , F , F ,
F yF .
'

10

30.

20,20

80,4

10

30.

50,50

100,100

4,80

Qu conclusiones se deducen de estos grficos?

5. Para algunos de los modelo anteriores calcular F(-2), F(0) y F(1 5), siendo F la
'

funcin de distribucin.

6. Para algunos de los modelo anteriores calcular F (0 05), F (0 90) y F (0 95), siendo
-1

'

-1

'

-1

'

F la inversa de la funcin de distribucin.


-1

Prctica 1.3. Test de hiptesis e intervalos de confianza de una y dos


muestras.
Objetivo: A partir de una muestra de una poblacin calcular intervalos de confianza de
la media y de la desviacin tpica de la poblacin, bajo la hiptesis de normalidad o no.
A partir de dos muestras (pareadas o no) calcular intervalos de confianza de la diferencia
de medias y del cociente de varianzas.
Desarrollo:
Considrese la variable PRICE del fichero de datos coches:
1. Calcular intervalos de confianza al 90% para la media y la desviacin tpica de
esta variable. Utilizar el anlisis
describe >numeric data >one-variable analysis
En este anlisis se proporcionan dos tipos de intervalos de confianza: el primero
bajo la hiptesis de normalidad de las observaciones y el segundo se basa en
tcnicas de remuestreo (bootstrap).

2. Contrastar la hiptesis estadstica H : E(PRICE) = 4.500, frente a diferentes


0

alternativas. Trabajar con un nivel de significacin

= 0 10.
'

Se puede utilizar el anlisis anterior que proporciona tres contrastes: el primero


acerca de la media de la poblacin bajo la hiptesis de normalidad y dos no
paramtricos basados en los rangos acerca de la mediana. Los test basados en
rangos son menos potentes pero son menos sensibles a la presencia de datos
atpicos (outliers).

3. La curva de potencia del test sobre la media de una poblacin normal se puede
estudiar en el siguiente anlisis de Statgraphics:
describe >hypothesis tests
En este mismo apartado tambin se puede estudiar la funcin de potencia de
otros contrastes (sobre la desviacin tpica de una normal, la proporcin de una
binomial o la razn de una de Poisson).

4. Se est interesado en comparar los precios de los coches de USA (origin=1) y


japoneses (origin=3). En particular se desea:
Calcular un intervalo de confianza al 90% para el cociente de varianzas.
Calcular un intervalo de confianza al 90% para la diferecia de medias.
Contrastar la hiptesis de que los precios medios de los coches de ambas poblaciones
son iguales.
5.
Estos estudios pueden hacerse en

6.

compare>two samples>two-sample comparison

7.

En este caso poner datos y cdigos en columnas, data=price,


code=origin, select=origin<>2.

8.

Analizar los diferentes resultados sobre la comparacin de dos muestras


que proporciona este completo anlisis del programa.

9. La curva de potencia del test sobre la diferencia de medias de dos poblaciones


puede estudiarse en
compare>two samples>hypothesis tests

Prctica 1.4. Problemas de intervalos de confianza y test de hiptesis.


Problema 1.1.
Se ha observado una muestra de 41 datos del tiempo de respuesta de un sistema
informtico a las doce horas de un da laborable. Obtenindose los datos de la tabla
adjunta,

22 56
'

22 33
'

24 58
'

23 14
'

19 03
'

26 76
'

18 33
'

23 10
'

21 53
'

9 06

16 75
'

23 29
'

22 14
'

16 28

18 89
'

27 48
'

10 44
'

26 86
'

27 27
'

18 74
'

19 88

15 76
'

30 77
'

21 16
'

24 26
'

22 90
'

27 14
'

18 02

21 53
'

24 99
'

19 81
'

11 88
'

24 01
'

22 11

21 91

14 35

11 14

9 93

20 22

17 73

19 05

'

'

'

'

'

'

'

'

'

'

'

'

Datos del problema [ASCII] [spss-10] [sgplus-5]


En base a esta muestra, calcular:
1. Intervalos de confianza al 90% y 95% del tiempo medio de respuesta.
2. Es razonable mantener la hiptesis de que la varianza del tiempo de respuesta es
25 con un nivel de significacin del 5%?
3. Resolver el contraste H : = 20 frente H : > 20 en base al nivel crtico.
0

Problema 1.2.
Una empresa de software est investigando la utilidad de dos lenguajes diferentes
para mejorar la rapidez de programacin. A doce programadores, familiarizados con
ambos lenguajes, se les pide que programen un cierto algoritmo en ambos lenguajes, y
se anota el tiempo que tardan, produciendo los siguientes datos en minutos:

Lenguaje 1 17

16

21

14

18

24

16

14

21

23

13

18

Lenguaje 2 18

14

19

11

23

21

10

13

19

24

15

20

Datos del problema [ASCII] [spss-10] [sgplus-5]


En base a estos datos, calcular:
1. Un intervalo de confianza al 95% para la diferencia de medias en el tiempo de
programacin.
2. Puede considerarse que uno de los dos lenguajes es preferible al otro?
3. Para responder a la pregunta anterior est bien diseado el experimento?
Considerar alguna alternativa.
Problema 1.3.
Un profesor realiz el siguiente experimento, le pregunt a 44 alumnos que
calculasen de forma aproximada, en metros, el ancho de la clase. Obtuvo las siguientes
respuestas:

10

Grupo1
10 10 10

10

10

11

11
14
15
18

11
14
16
20

11
15
16
22

12
15
16
25

12
15
17
27

13
15
17
35

13
15
17
38

13
15
17
40

14
15
18

A otro grupo de 69 alumnos les hizo la misma pregunta pero ahora les pidi la respuesta
en pies (3 28 pies = 1 metro). Ahora, las respuestas fueron:
'

24
32
36
40
42
45
50

25
32
36
40
43
45
50

27
33
37
40
43
45
51

Grupo2
30 30 30
34 34 34
37 40 40
40 41 41
44 44 44
46 46 47
54 54 54

30
35
40
42
45
48
55

30
35
40
42
45
48
55

30
36
40
42
45
50
60

Datos del problema [ASCII] [spss-10] [sgplus-5]


El ancho del aula era de 13 1 metros (43 0 pies). En base a estos datos,
1. Hacer un estudio descriptivo de estas dos muestras.
2. Calcular intervalos de confianza al 95% para la media y la varianza de la primera
muestra.
3. Calcular intervalos de confianza al 95% para la diferencia de medias y el cociente
de varianzas de las dos muestras.
4. Puede afirmarse que el error en la aproximacin es igual si se hace en metros
que en pies?
'

'

Problema 1.4.
Una empresa constructora est interesada en estudiar la tensin de ruptura de las
barras de acero que utiliza en las estructuras de hormign armado. Para ello, selecciona
de forma aleatoria cincuentas barras y las prueba para determinar sus tensiones de
ruptura. Los resultados de la prueba, en kilogramos por centmetro cuadrado, son los de
la tabla adjunta

2244

2147

2240

2342

1951

2345

2001

1800

1995

2033

2208

1699

2037

2087

2185

1792

2033

2112

2001

2490

2132

2070

1917

2015

2150

1960

2086

1824

1869

2278

1846

1950

2027

1699

1972

2073

2282

1889

1897

2322

1964

1809

2009

2412

1746

2304

2015

2035

1974

2191

Datos del problema [ASCII] [spss-10] [sgplus-5]


En base a estos datos,
1. Hacer un estudio descriptivo de la muestra.
2. Calcular intervalos de confianza al 95% y 99% para la media de la tensin de
ruptura de las barras de acero.
3. Calcular intervalos de confianza al 95% y 99% para la varianza de la tensin de
ruptura de las barras de acero.
4. Qu tamao muestral es necesario para obtener el intervalo de confianza al 95%
para la media de la tensin de ruptura de las barras de acero con una longitud
inferior a 50 unidades? Y, si el intervalo de confianza fuese al 99%?

Problemas propuestos.
Problema 1.5.
El gobierno francs est interesado en analizar los datos obtenidos en experimentos
atmicos. En particular est interesado en el estudio de la potencia desarrollada por una
determinada bomba nuclear. Los resultados de 15 explosiones de estas bombas,
realizadas entre Marzo de 1994 y Enero de 1996, son los siguientes (en kilotones): 724,
718, 776, 760, 745, 759, 795, 756, 742, 740, 761, 749, 739, 747, 742.
1. Calcular intervalos de confianza al 90, 95 y 99% para la media de la potencia.
2. Calcular tres intervalos de confianza distintos al 95% para la varianza de la
potencia.
3. Contrastar la hiptesis de que la media de la potencia es 750.
4. Dibujar la curva de potencia de este contraste.
5. Qu hiptesis se han supuesto en el desarrollo de este problema.
Datos d el problema [ASCII] [spss-10] [sgplus-5]
Problema 1.6.
El nivel de colesterol es un factor de alto riesgo en el desarrollo de la enfermedad
de artoesclerosis cardaca y de la enfermedad de arteria coronaria, por tanto, es
importante determinar los niveles que esperamos en los diferentes grupos de edad y
sexo. Para comparar el nivel de colesterol en varones de entre 20 y 29 aos de edad
frente a mujeres del mismo grupo de edad se realiz un estudio cuyos estadsticos
bsicos son los de la tabla adjunta y los datos del experimento se encuentran en el
fichero Problema-1-6.
Hombres
Mujeres
n = 96
H

= 170.81 mg/dl

n = 85
M

= 181.08 mg/dl

= 30.55 mg/dl

= 30.79 mg/dl

Datos del problema [ASCII] [spss-10] [sgplus-5]


En base a estos datos:
1. Hacer un estudio descriptivo de la muestra de hombres y de la muestra de
mujeres. Conclusiones.
2. Calcular intervalos de confianza al 90, 95 y 99% para la diferencia de medias del
nivel de colesterol entre hombres y mujeres.
3. Calcular un intervalo de confianza al 90% para el cociente de varianzas del nivel
de colesterol entre hombres y mujeres.
4. Puede suponerse que el nivel de colesterol en los hombres es igual al de las
mujeres?
Problema 1.7.
A una empresa le ofrecen impartir un curso de capacitacin para aumentar el
rendimiento de sus trabajadores. La empresa decide enviar a quince de sus trabajadores
elegidos al azar de toda la plantilla. Para comprobar si el curso es beneficioso, se
controla el tiempo que tardaban estos trabajadores en realizar un trabajo antes de
realizar el curso y despus de realizar el curso. Los resultados se reflejan en la tabla
adjunta.
Trabajador
Antes
Despus
Trabajador
Antes
Despus

1
235
174
9
18
165

2
120
204
10
216
180

3
210
200
11
233
163

4
220
200
12
210
180

5
191
184
13
221
163

6
215
186
14
230
155

7
221
186
15
120
180

8
204
153

Datos del problema [ASCII] [spss-10] [sgplus-5]


Puede afirmarse que la realizacin del curso mejora el rendimiento del trabajo? Se ha
diseado bien el experimento?
Problema 1.8.
En cincuenta das lectivos consecutivos y a la misma hora se ha observado el
nmero de terminales de una universidad conectados a internet. Los resultados son los
de la tabla adjunta
1027

1023

1369

950

1436

957

634

821

882

942

904

984

1067

570

1063

1307

1212

1045

1047

1178

633

501

565

1039

1000

1227

1118

843

696

820

1092

934

968

1191

996

1089

936

568

1056

1006

749

812

1096

1183

1409

1200

1197

985

848

1281

Datos del problema [ASCII] [spss-10] [sgplus-5]


En base a estos datos,
1. Hacer un estudio descriptivo de la muestra.
2. Calcular intervalos de confianza al 90% y 95% para el nmero medio de terminales
conectados a internet.
3. Calcular intervalos de confianza al 90% y 95% para la varianza del nmero de
terminales conectados a internet.
4. Qu tamao muestral es necesario para obtener el intervalo de confianza al 90%
para el nmero medio de terminales conectados a internet tenga una longitud
inferior a 30 unidades? Y, si el intervalo de confianza fuese al 95%?
Problema 1.9.
Se ha realizado un estudio para investigar el efecto del ejercicio fsico en el nivel
de colesterol en suero. Veinte individuos tomaron parte en el estudio, de los que se
tomaron muestras de sangre para determinar el nivel de colesterol de cada sujeto.
Despus los individuos fueron sometidos a un programa de ejercicios que se centraba
diariamente en realizar carreras y marchas. Al final del perodo de ejercicios, se
tomaron nuevas muestras de sangre y se obtuvo una segunda lectura del nivel de
colesterol en suero. Los datos obtenidos son los de la tabla adjunta. Puede afirmarse
que el ejercicio fsico disminuye el nivel de colesterol en suero?

Sujeto

Nivel previo
(x), mg/dl

182

232

191

200

148

249

276

Nivel posterior
(y), mg/dl

198

210

194

220

138

220

249

10

11

12

13

14

Nivel previo
(x), mg/dl

213

241

480

262

242

185

205

Nivel posterior
(y), mg/dl

161

210

313

270

235

164

207

15

16

17

18

19

20

175

217

236

243

252

375

Sujeto

Sujeto
Nivel previo

(x), mg/dl
Nivel posterior
(y), mg/dl

156

200

219

201

232

335

Datos del problema [ASCII] [spss-10] [sgplus-5]

Problema 1.10.
Se ha realizado un estudio de igualacin transversal preoperatoria en ciruga
electiva. La operacin elegida es la histerectoma abdominal electiva. Y la variable de
inters es X=el nmero de unidades sanguneas contrastadas transversalmente
inmediatamente disponibles. El objetivo del estudio es comparar el nmero medio de
unidades disponibles en 1.990 con el nmero medio de unidades disponibles en la
actualidad. Los estadsticos bsicos de la muestra del estudio son los de la tabla adjunta
y los datos muestrales se encuentran en el fichero Problema-1-10. En base a este estudio
Hay evidencia de que se produzca un descenso del nmero medio de unidades
disponibles desde 1.990 hasta la actualidad?
En 1.990

Actualidad

n = 120

n = 137

= 2.67 unid.

= 2.21 unid.

= 0.69

= 0.87

Datos del problema [ASCII] [spss-10] [sgplus-5]


Problema 1.11.
Se pens que un programa de ejercicios regulares moderadamente activos podra
beneficiar a los pacientes que haban sufrido un infarto de miocardio. Catorce individuos
participaron en un estudio para comprobar este argumento. Antes de que empezar el
programa, se determino la capacidad de trabajo de cada persona midiendo el tiempo
que se tom para alcanzar una tasa de 160 latidos por minuto mientras caminaba sobre
una rueda de andar. Despus de 25 semanas de ejercicio controlado, se repitieron las
medidas en la rueda de andar y se registr la diferencia en tiempo para cada sujeto. Los
datos obtenidos son los de la tabla adjunta. Sostienen estos datos los argumentos de los
investigadores?

Sujeto
Antes (x),
en sgs
Despus (y),
en sgs.

7.6

9.9

8.6

9.5

8.4

9.2

6.4

14.7

14.1

11.8

16.1

14.7

14.1

13.2

Sujeto
Antes (x),
en sgs
Despus (y),
en sgs.

10

11

12

13

14

9.9

8.7

10.3

8.3

8.8

8.2

9.3

12.7

13.5

12.1

13.4

11.5

15.2

11.9

Datos del problema [ASCII] [spss-10] [sgplus-5]


Un estudio ms detallado de los conceptos y tcnicas estadsticas introducidos en este
captulo puede verse en el texto de Cao, R. y otros (2001) u otro texto de Estadstica
General Bsica.

Prctica 1.2. Modelos de probabilidad.


Objetivo: Con la ayuda del paquete estadstico se revisan los principales modelos de
distribucin, su funcin de probabilidad o de densidad y su funcin de distribucin, as
como la generacin de muestras aleatorias.
Desarrollo:
En el apartado de Statgraphics
describe>distributions>probability distributions
se pueden estudiar las 24 funciones de distribucin ms utilizadas.
El apartado ofrece las siguientes posibilidades:
Trabajar con cinco modelos de probabilidad del mismo tipo.
Calcular la funcin de distribucin de los modelos seleccionados.
Calcular la inversa de la funcin de distribucin de los modelos seleccionados. (Estos
dos ltimos apartados constituyen las tablas estadsticas de funciones de distribucin).
Permite calcular muestras aleatorias de los modelos seleccionados sin necesidad de
utilizar comandos.
Permite obtener las grficas de la funcin de densidad, funcin de distribucin y
funcin razn de fallo, entre otras, de los modelos seleccionados.
En este texto se utilizarn bsicamente los siguientes modelos de probabilidad
relacionados con las tcnicas clsicas de Inferencia Estadstica: Normal, chi-cuadrado, t
de Student y F de Fisher. Es conveniente tener un conocimiento bsico de estas
distribuciones.
Para ello, utilizando este apartado,

1. Dibujar en un mismo grfico las funciones de densidad de una N(0,1 ), N(0,1 5 ),


2

'

N(0,0 8 ) y , N(2,1 ).
2. Dibujar en un mismo grfico las funciones de densidad de una chi-cuadrado:
, ,y
'

10

30.

3. Dibujar en un mismo grfico las funciones de densidad de una t: t , t , t , y t


4. Dibujar en un mismo grfico las funciones de densidad de una F: F , F , F ,
1

20,20

80,4

10

30.

50,50

100,100

yF .
4,80

Qu conclusiones se deducen de estos grficos?

5. Para algunos de los modelo anteriores calcular F(-2), F(0) y F(1 5), siendo F la
'

funcin de distribucin.
6. Para algunos de los modelo anteriores calcular F (0 05), F (0 90) y F (0 95), siendo
F la inversa de la funcin de distribucin.
-1

'

-1

'

-1

'

-1

Prctica 1.3. Test de hiptesis e intervalos de confianza de una y dos


muestras.
Objetivo: A partir de una muestra de una poblacin calcular intervalos de confianza de
la media y de la desviacin tpica de la poblacin, bajo la hiptesis de normalidad o no.
A partir de dos muestras (pareadas o no) calcular intervalos de confianza de la diferencia
de medias y del cociente de varianzas.
Desarrollo:
Considrese la variable PRICE del fichero de datos coches:
1. Calcular intervalos de confianza al 90% para la media y la desviacin tpica de
esta variable. Utilizar el anlisis
describe >numeric data >one-variable analysis
En este anlisis se proporcionan dos tipos de intervalos de confianza: el primero
bajo la hiptesis de normalidad de las observaciones y el segundo se basa en
tcnicas de remuestreo (bootstrap).

2. Contrastar la hiptesis estadstica H : E(PRICE) = 4.500, frente a diferentes


0

alternativas. Trabajar con un nivel de significacin

= 0 10.
'

Se puede utilizar el anlisis anterior que proporciona tres contrastes: el primero


acerca de la media de la poblacin bajo la hiptesis de normalidad y dos no
paramtricos basados en los rangos acerca de la mediana. Los test basados en
rangos son menos potentes pero son menos sensibles a la presencia de datos
atpicos (outliers).

3. La curva de potencia del test sobre la media de una poblacin normal se puede
estudiar en el siguiente anlisis de Statgraphics:
describe >hypothesis tests
En este mismo apartado tambin se puede estudiar la funcin de potencia de
otros contrastes (sobre la desviacin tpica de una normal, la proporcin de una
binomial o la razn de una de Poisson).

4. Se est interesado en comparar los precios de los coches de USA (origin=1) y


japoneses (origin=3). En particular se desea:
Calcular un intervalo de confianza al 90% para el cociente de varianzas.

Calcular un intervalo de confianza al 90% para la diferecia de medias.


Contrastar la hiptesis de que los precios medios de los coches de ambas poblaciones
son iguales.
5.
Estos estudios pueden hacerse en

6.

compare>two samples>two-sample comparison

7.

En este caso poner datos y cdigos en columnas, data=price,


code=origin, select=origin<>2.

8.

Analizar los diferentes resultados sobre la comparacin de dos muestras


que proporciona este completo anlisis del programa.

9. La curva de potencia del test sobre la diferencia de medias de dos poblaciones


puede estudiarse en
compare>two samples>hypothesis tests

Prctica 1.4. Problemas de intervalos de confianza y test de hiptesis.


Problema 1.1.
Se ha observado una muestra de 41 datos del tiempo de respuesta de un sistema
informtico a las doce horas de un da laborable. Obtenindose los datos de la tabla
adjunta,

22 56
'

22 33
'

24 58
'

23 14
'

19 03
'

26 76
'

18 33

23 10
'

21 53
'

9 06

16 75
'

23 29
'

22 14
'

16 28

18 89
'

27 48
'

10 44
'

26 86
'

27 27
'

18 74
'

19 88

15 76
'

30 77
'

21 16
'

24 26
'

22 90
'

27 14
'

18 02

21 53
'

24 99
'

19 81
'

11 88
'

24 01
'

22 11

21 91

14 35

11 14

9 93

20 22

17 73

19 05

'

'

'

'

'

'

'

'

Datos del problema [ASCII] [spss-10] [sgplus-5]


En base a esta muestra, calcular:
1. Intervalos de confianza al 90% y 95% del tiempo medio de respuesta.

'

'

'

'

'

2. Es razonable mantener la hiptesis de que la varianza del tiempo de respuesta es


25 con un nivel de significacin del 5%?

3. Resolver el contraste H : = 20 frente H : > 20 en base al nivel crtico.


0

Problema 1.2.
Una empresa de software est investigando la utilidad de dos lenguajes diferentes
para mejorar la rapidez de programacin. A doce programadores, familiarizados con
ambos lenguajes, se les pide que programen un cierto algoritmo en ambos lenguajes, y
se anota el tiempo que tardan, produciendo los siguientes datos en minutos:

Lenguaje 1
Lenguaje 2

17
18

16
14

21
19

14
11

18
23

24
21

16
10

14
13

21
19

23
24

13
15

Datos del problema [ASCII] [spss-10] [sgplus-5]


En base a estos datos, calcular:
1. Un intervalo de confianza al 95% para la diferencia de medias en el tiempo de
programacin.
2. Puede considerarse que uno de los dos lenguajes es preferible al otro?
3. Para responder a la pregunta anterior est bien diseado el experimento?
Considerar alguna alternativa.

Problema 1.3.
Un profesor realiz el siguiente experimento, le pregunt a 44 alumnos que
calculasen de forma aproximada, en metros, el ancho de la clase. Obtuvo las siguientes
respuestas:

8
11
14
15
18

9
11
14
16
20

10
11
15
16
22

Grupo1
10 10 10
12 12 13
15 15 15
16 17 17
25 27 35

10
13
15
17
38

10
13
15
17
40

11
14
15
18

A otro grupo de 69 alumnos les hizo la misma pregunta pero ahora les pidi la respuesta
en pies (3 28 pies = 1 metro). Ahora, las respuestas fueron:
'

24
32
36
40
42
45
50

25
32
36
40
43
45
50

27
33
37
40
43
45
51

Grupo2
30 30 30
34 34 34
37 40 40
40 41 41
44 44 44
46 46 47
54 54 54

30
35
40
42
45
48
55

30
35
40
42
45
48
55

30
36
40
42
45
50
60

Datos del problema [ASCII] [spss-10] [sgplus-5]


El ancho del aula era de 13 1 metros (43 0 pies). En base a estos datos,
1. Hacer un estudio descriptivo de estas dos muestras.
'

'

18
20

2. Calcular intervalos de confianza al 95% para la media y la varianza de la primera


muestra.

3. Calcular intervalos de confianza al 95% para la diferencia de medias y el cociente


de varianzas de las dos muestras.
4. Puede afirmarse que el error en la aproximacin es igual si se hace en metros
que en pies?
Problema 1.4.
Una empresa constructora est interesada en estudiar la tensin de ruptura de las
barras de acero que utiliza en las estructuras de hormign armado. Para ello, selecciona
de forma aleatoria cincuentas barras y las prueba para determinar sus tensiones de
ruptura. Los resultados de la prueba, en kilogramos por centmetro cuadrado, son los de
la tabla adjunta
2244

2147

2240

2342

1951

2345

2001

1800

1995

2033

2208

1699

2037

2087

2185

1792

2033

2112

2001

2490

2132

2070

1917

2015

2150

1960

2086

1824

1869

2278

1846

1950

2027

1699

1972

2073

2282

1889

1897

2322

1964

1809

2009

2412

1746

2304

2015

2035

1974

2191

Datos del problema [ASCII] [spss-10] [sgplus-5]


En base a estos datos,
1. Hacer un estudio descriptivo de la muestra.
2. Calcular intervalos de confianza al 95% y 99% para la media de la tensin de
ruptura de las barras de acero.
3. Calcular intervalos de confianza al 95% y 99% para la varianza de la tensin de
ruptura de las barras de acero.
4. Qu tamao muestral es necesario para obtener el intervalo de confianza al 95%
para la media de la tensin de ruptura de las barras de acero con una longitud
inferior a 50 unidades? Y, si el intervalo de confianza fuese al 99%?

Problemas propuestos.
Problema 1.5.
El gobierno francs est interesado en analizar los datos obtenidos en experimentos
atmicos. En particular est interesado en el estudio de la potencia desarrollada por una
determinada bomba nuclear. Los resultados de 15 explosiones de estas bombas,
realizadas entre Marzo de 1994 y Enero de 1996, son los siguientes (en kilotones): 724,
718, 776, 760, 745, 759, 795, 756, 742, 740, 761, 749, 739, 747, 742.

1. Calcular intervalos de confianza al 90, 95 y 99% para la media de la potencia.


2. Calcular tres intervalos de confianza distintos al 95% para la varianza de la
potencia.
3. Contrastar la hiptesis de que la media de la potencia es 750.
4. Dibujar la curva de potencia de este contraste.
5. Qu hiptesis se han supuesto en el desarrollo de este problema.
Datos d el problema [ASCII] [spss-10] [sgplus-5]
Problema 1.6.
El nivel de colesterol es un factor de alto riesgo en el desarrollo de la enfermedad
de artoesclerosis cardaca y de la enfermedad de arteria coronaria, por tanto, es
importante determinar los niveles que esperamos en los diferentes grupos de edad y
sexo. Para comparar el nivel de colesterol en varones de entre 20 y 29 aos de edad
frente a mujeres del mismo grupo de edad se realiz un estudio cuyos estadsticos
bsicos son los de la tabla adjunta y los datos del experimento se encuentran en el
fichero Problema-1-6.
Hombres

Mujeres

n = 96

n = 85

= 170.81 mg/dl

= 181.08 mg/dl

= 30.55 mg/dl

= 30.79 mg/dl

Datos del problema [ASCII] [spss-10] [sgplus-5]


En base a estos datos:
1. Hacer un estudio descriptivo de la muestra de hombres y de la muestra de
mujeres. Conclusiones.
2. Calcular intervalos de confianza al 90, 95 y 99% para la diferencia de medias del
nivel de colesterol entre hombres y mujeres.
3. Calcular un intervalo de confianza al 90% para el cociente de varianzas del nivel
de colesterol entre hombres y mujeres.
4. Puede suponerse que el nivel de colesterol en los hombres es igual al de las
mujeres?
Problema 1.7.
A una empresa le ofrecen impartir un curso de capacitacin para aumentar el
rendimiento de sus trabajadores. La empresa decide enviar a quince de sus trabajadores
elegidos al azar de toda la plantilla. Para comprobar si el curso es beneficioso, se
controla el tiempo que tardaban estos trabajadores en realizar un trabajo antes de
realizar el curso y despus de realizar el curso. Los resultados se reflejan en la tabla
adjunta.
Trabajador

Antes

23 5

12 0

21 0

22 0

19 1

21 5

22 1

20 4

Despus

17 4

20 4

20 0

20 0

18 4

18 6

18 6

15 3

'

'

3
'

'

4
'

'

5
'

'

6
'

'

7
'

'

8
'

'

'

'

Trabajador

10

Antes

18 3

21 6

23 3

21 0

22 1

23 0

12 0

Despus

16 5

18 0

16 3

18 0

12 8

15 5

18 0

'

11
'

'

'

12
'

'

13
'

14
'

'

15
'

'

'

'

'

Datos del problema [ASCII] [spss-10] [sgplus-5]


Puede afirmarse que la realizacin del curso mejora el rendimiento del trabajo? Se ha
diseado bien el experimento?
Problema 1.8.
En cincuenta das lectivos consecutivos y a la misma hora se ha observado el
nmero de terminales de una universidad conectados a internet. Los resultados son los
de la tabla adjunta
1027

1023

1369

950

1436

957

634

821

882

942

904

984

1067

570

1063

1307

1212

1045

1047

1178

633

501

565

1039

1000

1227

1118

843

696

820

1092

934

968

1191

996

1089

936

568

1056

1006

749

812

1096

1183

1409

1200

1197

985

848

1281

Datos del problema [ASCII] [spss-10] [sgplus-5]


En base a estos datos,
1. Hacer un estudio descriptivo de la muestra.
Sujeto

Nivel previo (x), mg/dl

182

232

191

200

148

249

276

Nivel posterior (y), mg/dl

198

210

194

220

138

220

249

10

11

12

13

14

Nivel previo (x), mg/dl

213

241

480

262

242

185

205

Nivel posterior (y), mg/dl

161

210

313

270

235

164

207

Sujeto

Sujeto

15

16

17

18

19

20

Nivel previo (x), mg/dl

175

217

236

243

252

375

Nivel posterior (y), mg/dl

156

200

219

201

232

335

2. Calcular intervalos de confianza al 90% y 95% para el nmero medio de terminales


conectados a internet.

3. Calcular intervalos de confianza al 90% y 95% para la varianza del nmero de


terminales conectados a internet.

4. Qu tamao muestral es necesario para obtener el intervalo de confianza al 90%


para el nmero medio de terminales conectados a internet tenga una longitud
inferior a 30 unidades? Y, si el intervalo de confianza fuese al 95%?
Problema 1.9.
Se ha realizado un estudio para investigar el efecto del ejercicio fsico en el nivel
de colesterol en suero. Veinte individuos tomaron parte en el estudio, de los que se
tomaron muestras de sangre para determinar el nivel de colesterol de cada sujeto.
Despus los individuos fueron sometidos a un programa de ejercicios que se centraba
diariamente en realizar carreras y marchas. Al final del perodo de ejercicios, se
tomaron nuevas muestras de sangre y se obtuvo una segunda lectura del nivel de
colesterol en suero. Los datos obtenidos son los de la tabla adjunta. Puede afirmarse
que el ejercicio fsico disminuye el nivel de colesterol en suero?
Datos del problema [ASCII] [spss-10] [sgplus-5]
Problema 1.10.
Se ha realizado un estudio de igualacin transversal preoperatoria en ciruga
electiva. La operacin elegida es la histerectoma abdominal electiva. Y la variable de
inters es X=el nmero de unidades sanguneas contrastadas transversalmente
inmediatamente disponibles. El objetivo del estudio es comparar el nmero medio de
unidades disponibles en 1.990 con el nmero medio de unidades disponibles en la
actualidad. Los estadsticos bsicos de la muestra del estudio son los de la tabla adjunta
y los datos muestrales se encuentran en el fichero Problema-1-10. En base a este estudio
Hay evidencia de que se produzca un descenso del nmero medio de unidades
disponibles desde 1.990 hasta la actualidad?
En 1.990

n = 120
P

Actualidad

n = 137
A

= 2.67 unid.

= 2.21 unid.

= 0.69

= 0.87

Datos del problema [ASCII] [spss-10] [sgplus-5]


Problema 1.11.

Sujeto

Antes (x), en sgs

7.6

9.9

8.6

9.5

8.4

9.2

6.4

Despus (y), en
sgs.

14.7

14.1

11.8

16.1

14.7

14.1

13.2

10

11

12

13

14

Antes (x), en sgs

9.9

8.7

10.3

8.3

8.8

8.2

9.3

Despus (y), en
sgs.

12.7

13.5

12.1

13.4

11.5

15.2

11.9

Sujeto

Se pens que un programa de ejercicios regulares moderadamente activos podra


beneficiar a los pacientes que haban sufrido un infarto de miocardio. Catorce individuos
participaron en un estudio para comprobar este argumento. Antes de que empezar el
programa, se determino la capacidad de trabajo de cada persona midiendo el tiempo
que se tom para alcanzar una tasa de 160 latidos por minuto mientras caminaba sobre
una rueda de andar. Despus de 25 semanas de ejercicio controlado, se repitieron las
medidas en la rueda de andar y se registr la diferencia en tiempo para cada sujeto. Los
datos obtenidos son los de la tabla adjunta. Sostienen estos datos los argumentos de los
investigadores?
Datos del problema [ASCII] [spss-10] [sgplus-5]
Un estudio ms detallado de los conceptos y tcnicas estadsticas introducidos en este
captulo puede verse en el texto de Cao, R. y otros (2001) u otro texto de Estadstica
General Bsica.

Prctica 2. Diseo de experimentos con un factor.


Prctica 2.1. Problemas de diseo de experimentos con un factor.
Prctica 2.2. Contrastes de hiptesis no paramtricas.
Prctica 2.3. Problemas resueltos de diseo de experimentos con un factor.
Prctica 2.4. Problemas propuestos de diseo de experimentos con un factor.

Prctica 2.1. Problemas de diseo de experimentos con un factor.

Problema 2.1.
Una fbrica de herramientas desea comprobar si la resistencia de unas piezas
mecnicas que le proporcionan cuatro suministradores diferentes depende del
suministrador. Para ello recoge una muestra aleatoria de cada suministrador y somete a
cada una de las piezas elegida a una prueba de resistencia consistente en observar el
nmero de veces que cada pieza soporta una presin hasta estropearse. Los resultados
del experimento son los de la tabla adjunta:
ministrador Sumin. A
Sumin. B
Sumin. C
Sumin. D

sistencia

205
229
238
214

242
225
209
204

242
253
226
219
251

212
224
247
242
220

237
259
265
229
218
262

242
234
235
250
220
240

212
244
229
272
255

Desarrollo del Problema 2.1.


Se siguen los siguientes pasos, utilizando el Statgraphics.
1. Crear un fichero con los datos del problema. El fichero tendr cuatro variables
con los datos de cada suministrador, una variable con todos los datos de la
variable respuesta (resistencia) y la variable del factor (suministrador).
2. Hacer un estudio descriptivo analtico y grfico de la variable resistencia segn el
factor resistencia. Utilizar el anlisis
describe >numeric data >subset analysis.
Obtener conclusiones de los estadsticos bsicos de cada grupo y de la tabla de
medias. Observar con atencin los siguientes grficos: grfico de puntos de la
variable respuesta frente al factor, grfico de medias de los grupos, grfico de las
desviaciones tpicas de los grupos y el grfico de cajas mltiple.

3. Para estudiar la influencia del factor se construye la tabla ANOVA segn el anlisis
compare >analysis of variance >one-way anova
Este mdulo permite realizar un estudio completo del problema, ya que se
pueden hacer los siguientes anlisis:
Hacer un estudio descriptivo anlogo al del apartado anterior.
Construir la tabla ANOVA y contrastar la influencia del factor.
Calcular intervalos de confianza para las medias de grupos.
Hacer contrastes mltiples por diferentes mtodos.
Contrastar la hiptesis de homocedasticidad.
Hacer el contraste no paramtrico de Krustal-Wallis sobre la influencia del factor.
Hacer grficos descriptivos anlogos a los del apartado anterior.
Hacer diferentes grficos de residuos para contrastar las hiptesis bsicas.

233
224
245
215
240

4. Para continuar el estudio de este problema se guardan los residuos en una


variable (tambin se pueden calcular los residuos estandarizados).

5. Hacer un anlisis detallado acerca del cumplimiento de las hiptesis bsicas:


Hiptesis de normalidad: el siguiente anlisis
describe >distribution >distribution fitting
proporciona diferentes contrastes de normalidad y grficos que ayudan a estudiar
la hiptesis de normalidad (grfico de simetra, histograma, emprica y densidad
terica, grfico Q-Q). El grfico de normalidad descrito en este captulo se
obtiene en
plot >exploratory plot >normal probability plot.

6. Hiptesis de homocedasticidad: el one-way anova proporciona diferentes


contrastes de homocedasticidad (Cochran, Bartlett, Hartley y Levene) y grficos,
pero trabajando con la variable de residuos se puede hacer el contraste de
Romero-Znica (tabla ANOVA con la variable residuos al cuadrado) y el grfico de
cajas mltiple de los residuos frente al factor.
7. Detectar datos atpicos: en el siguiente comando
describe >numeric data >outlier identification
se presentan diferentes mtodos numricos y grficos para detectar datos
atpicos entre los residuos.

8. Hiptesis de independencia: tratando la variable de residuos como una serie de


tiempo se puede estudiar la independencia de la misma en el siguiente anlisis:
special >time-series analysis >descriptive methods
donde se obtiene la funcin de autocorrelacin, los contrastes de rachas y el
contraste de Box-Pierce (Box-Ljung), tambin se presentan las grficas de
residuos frente al ndice y el correlograma.
Si se considera que los residuos tienen mucha variabilidad se pueden suavizar por
mltiples mtodos en
special >time-series analysis >smoothing.
Problema 2.2.
El fichero coches contiene datos de una muestra de 155 coches. En base a esta
muestra, estudiar:
1. La influencia del origen de los coches (origin) en la variable de inters inversa del
consumo (mpg: millas por galn).
2. La influencia del ao de fabricacin (year) en la variable de inters aceleracin
de los coches (accel).
3. La influencia del ao de fabricacin (year) en el precio de los coches (price).

Datos del problema [ASCII] [spss-10] [sgplus-5]

Prctica 2.2. Contrastes de hiptesis no paramtricas.


Problema 2.3.
Durante la segunda guerra mundial se dividi el mapa de Londres en cuadrculas de
1/4 Km y se cont el nmero de bombas cadas en cada cuadrcula durante un
bombardeo alemn. Los resultados obtenidos fueron los siguientes:
2

x : impactos en la cuadrcula 0

o : frecuencia observada

211

93

35

229

A partir de estos datos se puede deducir si el bomardeo se haca de una forma aleatoria
o se persegua un determinado objetivo militar
Solucin al Problema 2.3.
En la Figura 4.25 se presenta el histograma de los datos y se observa que el ajuste de
una normal no parece adecuado.

Figura 4.25. Histograma y ajuste de una normal a los datos.


Del contexto de los datos y del histograma parece razonable ajustar una distribucin de
Poisson. Para ello se necesita estimar el parmetro
= =

= 0 929
'

Se calculan las probabilidades tericas

Lo que permite calcular la siguiente tabla del contraste chi cuadrado


x

E = p . 576

0 395

227 52

229

0 01

0 367

211

211

0 00

0 170

98

93

0 26

0 053

30

35

0 83

0 012

0 00

0 003

17

0 29

'

'

'

'

'

'

'

'

'

'

'

'

'

'

Q = 1 39
'

Bajo la hiptesis nula, Q sigue una distribucin con 6-1-1 grados de libertad, de donde

Se acepta la hiptesis de que la distribucin de la variable en estudio es de Poisson.


En la Figura 5.26. se representa la distribucin ajustada.

Figura 4.26. Histograma y distribucin de Poisson ajustado.


Problema 2.4.
Se ha observado el tiempo de funcionamiento de diez impresoras de un determinado
modelo antes de tener la primera avera, los datos se han tomado con unidad cien horas
de funcionamiento. Los resultados son los de la tabla adjunta, una vez ordenada la
muestra de menor a mayor:
1 69
'

2 99 3 03 3 68 4 70 7 32 9 72 15 87 16 16 18 39
'

'

'

'

'

'

'

'

'

En base a estos datos ajustar una distribucin utilizando el contraste de KolmogorovSmirnov.


Solucin al Problema 2.4:
Por el contexto del problema se supone que las observaciones siguen una distribucin
exponencial. La funcin de densidad es

y, la funcin de distribucin es

Se necesita estimar el parmetro =

Se calcula la tabla del contraste K-S:

. De donde,

1 69

0 183

0 00

0 10

0 183

2 99

0 301

0 10

0 20

0 201

3 03

0 304

0 20

0 30

0 104

3 68

0 356

0 30

0 40

0 056

4 70

0 430

0 40

0 50

0 070

7 32

0 584

0 50

0 60

0 084

9 72

0 688

0 60

0 70

0 088

15 87
'

0 850

0 70

0 80

0 150

16 16
'

0 855

0 80

0 90

0 055

18 39

0 889

0 90

1 00

0 111

'

'

'

'

'

'

'

'

'

'

'

'

'

'

'

'

'

'

'

'

'

'

'

'

'

'

'

'

'

'

'

'

'

'

'

'

'

'

'

'

'

'

'

'

'

'

'

'

KS = 0 201
'

Consultando en la tabla KS se observa que a un valor KS = 0 201 le corresponde un p valor = 0 81, y se acepta la hiptesis de que las observaciones siguen una distribucin
exponencial.
Problema 2.5.
El ordenador DEC-20 era utilizado en las universidades americanas en la dcada de
los ochenta. Los datos de la tabla adjunta indican el nmero de averas que tena uno de
estos ordenadores en 128 semanas consecutivas de funcionamiento. Se puede ajustar a
estos datos una distribucin de Poisson? En caso negativo proponer una distribucin
alternativa.
0
0
0
3
2
0
0

11

12

10

17

10

11

'

'

10

13

16

22

11

Datos del problema [ASCII] [spss-10] [sgplus-5]


Problema 2.6.
Los datos de la tabla adjunta indican los tiempos, en segundos, que tarda en
realizar una operacin un cajero automtico de una entidad bancaria.

17 3

18 4

20 9

16 8

18 7

20 5

17 9

20 4

18 3

19 0

17 5

18 1

17 1

18 8

20 0

19 1

19 1

17 9

18 2

18 9

19 4

18 9

19 4

20 8

17 3

18 5

18 3

19 0

19 0

20 5

19 7

18 5

17 7

19 4

18 3

19 6

19 0

20 5

20 4

19 7

18 6

19 9

18 3

19 8

19 6

20 4

17 3

16 1

19 2

19 6

18 8

19 3

19 1

21 0

18 3

18 3

18 7

20 6

18 5

16 4

17 2

17 5

18 0

19 9

18 4

18 8

20 1

20 0

18 5

17 5

18 5

17 9

18 7

18 6

17 3

18 8

17 8

19 0

19 6

19 3

18 1

20 9

19 8

18 1

17 1

19 8

20 6

17 6

19 1

19 5

17 7

20 2

19 9

18 6

16 6

19 2

20 0

17 4

17 1

19 1

18 5

19 6

18 0

19 4

17 1

19 9

16 3

18 9

19 7

18 5

18 4

18 7

19 3

16 3

16 9

18 2

18 5

18 1

18 0

19 5

20 3

20 1

17 2

19 5

18 8

19 2

'

'

'

'

'

'

'

'

'

'

'

'

'

'

'

'

'

'

'

'

'

'

'

'

'

'

'

'

'

'

'

'

'

'

'

'

'

'

'

'

'

'

'

'

'

'

'

'

'

'

'

'

'

'

'

'

'

'

'

'

'

'

'

'

'

'

'

'

'

'

'

'

'

'

'

'

'

'

'

'

'

'

'

'

'

'

'

'

'

'

'

'

'

'

'

'

'

'

'

'

'

'

'

'

'

'

'

'

'

'

'

'

Datos del problema [ASCII] [spss-10] [sgplus-5]


1. Hacer un estudio descriptivo de estos datos.
2. Puede suponerse que estos datos siguen una distribucin normal?
3. Los datos de la muestra han sido recogidos de forma consecutiva durante un da,
puede suponerse que son independientes? .

'

'

'

'

'

'

'

'

'

'

'

'

'

'

Problema 2.7.
En la tabla adjunta se presentan los datos del tiempo transcurrido, en das, entre
dos terremotes ocurridos en algn lugar. Se consideran los terremotos con una magnitud
superior a 7 5 grados en la escala Richter o en el que murieron ms de 1.000 personas.
Los datos se recogan entre el 16 de Diciembre de 1902 y el 4 de Marzo de 1977. En base
a estos datos, los terremotos ocurren de forma aleatoria?, el tiempo entre dos
terremotos se puede ajustar por una distribucin exponencial?
'

840

157

145

144

33

121

150

280

434

736

584

887

263

1901

695

294

562

721

76

710

46

402

194

759

319

460

40

1336

335

1354

454

36

667

40

556

99

304

375

567

139

780

203

436

30

384

129

209

599

83

832

328

246

1617

638

937

735

38

365

92

82

220

Datos del problema [ASCII] [spss-10] [sgplus-5]

Prctica 2.3. Problemas resueltos de diseo de experimentos con un factor.


Problema 2.8. (Diseo de experimentos con un factor fijo)
Un campus universitario tiene cuatro facultades. Se quiere estudiar la variable
tiempo que tarda un alumno en hacer una consulta en la base de datos de la biblioteca
de su facultad. Para ello se ha recogido una muestra aleatoria cuyos resultados son los
de la tabla adjunta. Analizar estos datos y estudiar la influencia del factor facultad en la
variable de inters.

Arquitectura I. Informtica
48
37
24
18
31
29
16
6
31
24
22
24
36
38
10
30
39
41
25
24
11
15

Derecho
I. Caminos
37
43
19
13
40
40
26
21
51
35
31
26
49
33
13
24
36
39
12
12
24
55
16
21
35
40
30
26

Datos del problema [ASCII] [spss-10] [sgplus-5]


Solucin al Problema 2.8.
Se calcula la media y desviacin tpica de cada una de las facultades y del total:

= 11 654 (cuasi-desviacin tpica muestral)


'

=
= 11 537 (desviacin tpica muestral)
Por tanto, la suma de cuadrados global es:
'

Razonando igual en cada grupo, se obtiene

El contraste de inters es el siguiente:

A la vista de los resultados del cuadro anterior se puede intuir que se va a rechazar la
hiptesis nula y que por tanto el factor facultad influye en la variable de inters.
Se calcula la tabla ANOVA. Para ello, se tiene en cuenta que las predicciones
coinciden con las medias condicionadas:

Se calcula la suma de cuadrados explicada por el factor


scT(facultad)
=
= 10

i=1

4
2

4
i=1

+ 12

+ 15
+ 13
Finalmente, se obtiene la suma de cuadrados residual
2

i
2

+
2

= 4101 33
'

La tabla ANOVA es

Se rechaza la hiptesis nula para cualquier valor de > 0 0001 y se concluye que el
factor facultad es significativo.
La scR se calcula a partir de los residuos
'

sc
R

eij2 =

ij

ij

+ ... +

+ ... +

+ ... +
+ ... +

= 2553 47
'

Se calculan intervalos de confianza al 90% para los diferentes parmetros del modelo:
Intervalo de confianza para la varianza:
2

31 44 =
'

<

46

40 64 =
Intervalo de confianza para

<

<

'

Intervalo de confianza para

46

'

= 81 22
'

n-I

'

<

= 62 83

- 1 68 = t

46

<

46

46

<t

46

= 1 68
'

35 4 2 36 . 1 68 = 35 4 3 96 =
.
De forma anloga se obtienen intervalos de confianza para las otras medias,
1

'

'

'

IC

'

'

IC

IC
=
.
Intervalo de confianza para la diferencia de medias. Se hace para

- 1 68 = t
'

46

<

46

n-I

<t

46

= 1 68
'

16 65 3 19 . 1 68 = 16 65 5 36 =
.
Puede considerarse que existe una diferencia significativa entre la media de
Arquitectura y la media de Informtica.
Haciendo todos los intervalos de confianza para la diferencias de medias se obtienen
dos grupos homogneos:
Grupo 1: Informtica y Caminos
Grupo 2: Arquitectura y Derecho.
En las siguientes figuras se representan grficas que ayudan a entender la influencia del
factor y que los residuos verifican las hiptesis estructurales.
'

'

'

'

'

Figura 4.27. Grfico de cajas mltiple para los datos del problema 2.8.

Figura 4.28. Grfico de medias condicionadas para los datos del problema 2.8.

Figura 4.29. Grfico de residuos frente a predicciones.


Problema 2.9. (Diseo de experimentos con un factor aleatorio).
En una empresa de montaje trabajan 135 operarios que realizan un determinado
trabajo (T). La direccin de la empresa est interesada en conocer si influye el factor
operario en la variable tiempo de realizacin del trabajo T. Para ello se eligen cinco
operarios al azar y se les controla el tiempo en minutos que tardan en realizar el trabajo
T en diez ocasiones.
Los resultados del experimento son los de la tabla adjunta. Qu conclusiones se
deducen de este experimento?
Oper.1.

Oper.2.

Oper.3.

Oper. 4.

Oper.5.

72

75

78

69

65

75

70

79

65

60

71

77

84

61

63

69

73

72

75

68

67

79

83

70

70

71

77

77

68

64

75

72

80

67

62

73

78

83

63

64

69

73

71

76

69

65

69

85

72

62

Datos del problema [ASCII] [spss-10] [sgplus-5]


Solucin al Problema 2.9.
En este caso el diseo de experimentos tiene un factor, pero el factor es aleatorio.
Se calculan las medias y cuasi-desviaciones tpicas en cada grupo (operador)

De donde

En este caso el modelo matemtico es

Siendo el objetivo la realizacin del contraste:

Teniendo en cuenta que las predicciones son las siguientes:

Se calcula la suma de cuadrados explicada por el factor


scT(operador)
=

i=1

4
i=1

= 10
= 1224 2.
Finalmente, se obtiene la
'

La tabla ANOVA es

Se rechaza la hiptesis nula para cualquier valor de > 0 0001 y se concluye que el
factor operador es significativo, esto es, hay variabilidad entre los diferentes
operadores.
Se estiman las varianzas del modelo: R2
'

Al igual que en el problema anterior las siguientes grficas ayudan a comprender e


interpretar la resolucin del problema.

Figura 4.30. Grfico de cajas mltiple para los datos del problema 2.9.

Figura 4.31. Grfico de medias condicionadas.

Figura 4.32. Grfico de residuos frente a predicciones para los datos del
problema 2.9.

Prctica 2.4. Problemas propuestos de diseo de experimentos con un factor.


Problema 2.10.
Se ha estudiado el contenido en plata (tanto por ciento de plata) de monedas de
Bizancio descubiertas en Chipre. Nueve de las monedas eran de la Epoca I, en el reinado
del Rey Manuel I (1143-1180), siete monedas eran de la Epoca II, cuatro de la Epoca III y
siete de la Epoca IV. En base a estos datos existen diferencias significativas del
contenido de plata en las monedas segn las diferentes pocas?. En particular, hay una
diferencia significativa del contenido en plata de las monedas del reinado del Rey
Manuel I con las otras pocas?
59
'

68
'

64
'

70
'

66
'

77
'

72

69
'

90
'

66
'

81

93
'

92
'

86

49
'

55
'

46
'

45

53

56

55

51

62

58

58

'

'

'

'

'

'

'

'

'

'

'

Datos del problema [ASCII] [spss-10] [sgplus-5]


Problema 2.11.
En la tabla adjunta se presentan los tiempos, en segundos, de coagulacin de la
sangre extrada a 40 animales alimentados con cuatro dietas distintas (A, B, C, D). El
muestreo se ha realizado de forma que las dietas se han asignado al azar y las muestras
de sangre fueron extradas y analizadas en un orden aleatorio. Se pregunta hay
evidencia suficiente que indique que existen diferencias reales entre los valores medios
de los distintos tratamientos (dietas)?

69
'

Analizar cuidadosamente los residuos. En particular, se tienen dudas acerca de la


hiptesis de normalidad y de la hiptesis de homocedasticidad
Dieta A

Dieta B

Dieta C

Dieta D

62 8

63 5

63 1

687

68 0

68 5

56 2

63 7

60 3

61 2

67 3

62 9

66 2

70 2

62 4

59 9

63 9

71 0

69 8

71 8

65 3

60 3

58 0

59 2

64 8

64 5

67 1

64 5

61 5

62 2

60 8

65 5

68 7

63 8

60 2

64 1

66 5

68 6

64 4

63 3

'

'

'

'

'

'

'

'

'

'

'

'

'

'

'

'

'

'

'

'

'

'

'

'

'

'

'

'

'

'

'

'

'

'

'

'

'

'

'

Datos del problema [ASCII] [spss-10] [sgplus-5]


Problema 2.12.
Un departamento universitario desea contrastar si en los resultados de los alumnos
en el aprendizaje de una determinada asignatura influye el profesor que la imparte. Para
ello se eligen aleatoriamente muestras de alumnos de los cuatro profesores que
imparten la asignatura: Juan, Luis, Pedro y Pablo, para que realizen un examen
obteniendo los siguientes resultados, en una puntuacin de 0 a 80.
40

26

40

14

36

22

40

23

52

68

54

31

57

50

37

57

45

47

30

48

24

24

17

48

24

61

45

38

32

27

Datos del problema [ASCII] [spss-10] [sgplus-5]


Problema 2.13.
Se sabe que el dixido de carbono tiene un efecto crtico en el crecimiento
biolgico. Cantidades pequeas de CO estimulan el crecimiento de muchos organismos,
mientras que altas concentraciones inhiben el crecimiento de la mayor parte de ellos.
Este ltimo efecto se utiliza comercialmente cuando se almacenan productos
alimenticios perecederos. Se realiz un estudio para investigar el efecto de CO sobre la
tasa de crecimiento del Pseudomonasfragi, un corruptor de alimentos. Se administr CO
a cinco presiones atmosfricas diferentes. La respuesta anotada es el cambio porcentual
en la masa celular despus de un tiempo de crecimiento de una hora. Se utilizaron diez
cultivos en cada nivel, obtenindose los datos de la tabla adjunta. Qu conclusiones se
deducen del estudio estadstico de estos datos?
Los resultados del experimento se presentan en la tabla adjunta.
2

Nivel del factor, presin en atmsferas de CO

0 000
0 083
0 290
0 500
0 860
62 6
64 6
50 9
50 4
45 5
38 5
29 5
24 1
24 9
22 1
59 6
50 9
44 3
35 2
41 1
30 2
22 8
22 6
17 2
22 6
64 5
56 2
47 5
49 9
29 8
27 0
19 2
32 7
78
16 8
59 3
52 3
49 5
42 6
38 3
40 0
20 6
24 4
10 5
15 9
58 6
62 8
48 5
41 6
40 2
33 9
29 2
29 6
17 8
88
Datos del problema [ASCII] [spss-10] [sgplus-5]
Problema 2.14.
Una empresa de enlatado decide comprar nuevas mquinas para lo que dispone de
cuatro ofertas. Antes de elegir una decide realizar una prueba para saber si las cuatro
mquinas ofertadas pueden producir la misma cantidad de unidades por hora. Para ello,
observa la produccin de las cuatro mquinas y observa los resultados que se reflejan en
la tabla adjunta. Qu conclusiones se deducen de este experimento?
maq. A
maq. B
maq. C
maq. D
'

'

'

'

'

'

'

'

'

'

'

'

'

'

'

'

'

'

'

'

'

'

'

'

'

'

'

'

'

'

'

'

'

'

'

'

'

'

'

'

'

'

'

'

'

'

'

'

'

'

'

'

'

'

'

89

88

97

94

84

77

92

79

81

87

87

85

87

92

89

84

79

81

80

88

Datos del problema [ASCII] [spss-10] [sgplus-5]


Problema 2.15.
Una cadena de supermercados desea determinar si los empleados de caja, que se
supone tienen un mismo nivel de capacidad, tardan el mismo tiempo en atender a los
clientes. Para ello, se han seleccionado cinco empleados al azar y se ha observado el
tiempo que han tardado en atender a los clientes. Los resultados son los de la tabla
adjunta,
Cajero.2.
Cajero.3.
Cajero. 4.

Cajero.1.

Cajero.5

7 08

8 99

6 88

11 87

7 08

8 88

9 60
'

9 55

8 28

7 88

8 08

9 56

8 73

6 07

5 20

10 57

5 51

6 26

0 14

4 09

7 01

9 63
'

3 18

2 93

5 68

6 46

12 66

1 15

5 51

14 41

12 40
'

6 35

6 13

5 46
'

6 73

9 33

8 67

11 13

9 57

14 37

3 50
'

3 86

10 32
'

8 96

8 04

2 73

11 12

11 90

7 01

10 79
'

6 10

7 48

6 64

8 35

12 47

5 50

'

'

'

'

'

'

'

5 08
'

'

'

'

'

'

'

'

'

'

'

'

'

'

'

'

'

'

'

'

'

'

'

'

'

'

'

'

'

'

4 14
'

'

'

'

'

'

'

'

'

'

'

'

'

'

Datos del problema [ASCII] [spss-10] [sgplus-5]


En base a estos datos:
1. Escribir el modelo matemtico adecuado al problema. Cal es la hiptesis nula a
contrastar?
2. Calcular la tabla ANOVA. Contrastes relacionados. Conclusiones.
3. Qu fraccin de la varianza en el tiempo se puede atribuir a diferencias entre los
empleados?
4. Analizar los residuos del modelo.
Problema 2.16.
Los datos de la tabla adjunta indican la salinidad (partes por mil) de diferentes
muestras tomadas en el lago Binimi (Bahamas) en tres zonas diferentes, elegidas de
forma aleatoria entre toda la extensin del lago. En base a estos datos, podemos
afirmar que la salinidad en el lago es constante?
Zona I
Zona II
Zona III
37 54 37 32 37 63 40 17 40 79 39 04 38 53
38 51
37 01 37 01 36 75 40 80 40 44 39 21 38 71
40 08
36 71 37 03 37 45 39 76 39 79 39 05 38 89
37 03 37 70 38 85 39 70 39 38 38 24 38 66
'

'

'

'

'

'

'

'

'

'

'

'

'

'

'

'

'

'

'

'

'

'

'

'

'

'

'

'

'

'

Datos del problema [ASCII] [spss-10] [sgplus-5]


Problema 2.17.
Los datos de la tabla adjunta indican el peso de los depsitos de corcho de 28
rboles, en cada una de las cuatro direcciones: norte, sur, este y oeste. Se quiere
contrastar la hiptesis de que las medias de los pesos son iguales en todas las
direcciones.

1.
2.
3.
4.
5.

Hacer un estudio descriptivo de cada una de las cuatro variables.


Calcular la tabla ANOVA. Conclusiones.
Anlisis de los residuos.
Calcular intervalos de confianza para las medias y para la diferencia de medias.
Se ha elegido la muestra de forma conveniente?. Proponer un muestreo
alternativo.
6. Sera razonable utilizar un modelo de bloques? En caso afirmativo cmo se
recogera la muestra? Con el nuevo modelo cambian las conclusiones?

Norte

Este

Sur

Oeste

Norte

Este

Sur

Oeste

72
60
56
41
32
30
39
42
37

66
53
57
29
32
35
39
43
40

76
66
64
36
35
34
31
31
31

77
63
58
38
36
26
27
25
25

91
56
79
81
78
46
39
32
60

79
68
65
80
55
38
35
30
50

99
47
70
68
67
37
34
30
67

75
50
61
58
60
38
37
32
54

33
32
63
54
47

29
30
45
46
51

27
34
74
60
52

36
28
63
52
43

35
39
50
43
48

37
36
34
37
54

48
39
37
39
57

39
31
40
50
43

Datos del problema [ASCII] [spss-10] [sgplus-5]


Problema 2.18.
Un ingeniero civil est interesado en determinar si cuatro mtodos diferentes para
estimar la frecuencia de inundaciones producen estimaciones equivalentes del flujo
mximo (medido en pies cbicos por segundo) cuando se aplican a una misma cuenca.
Cada procedimiento se evalu seis veces en la misma cuenca y las observaciones son las
de la tabla adjunta. Realizar el anlisis estadstico y comprobar la heterocedasticidad de
los residuos. Qu transformacin es ms apropiada para conseguir varianza constante?.
Mtodo 1

0 34

0 12

1 23

0 70

1 75

0 12

Mtodo 2

0 91

2 94

2 14

2 36

2 86

4 55

Mtodo 3

6 31

8 37

9 75

6 09

9 82

7 24

Mtodo 4

17 15

11 82

10 95

17 20

14 35

16 82

'

'

'

'

'

'

'

'

'

'

'

'

'

'

'

'

'

'

'

'

Datos del problema [ASCII] [spss-10] [sgplus-5]


Problema 2.19.
(Richard Davis de la Universidad de Ohio en 1987) Interesa determinar el efecto de
cambiar el nmero de revoluciones por minuto (rpm) de una bomba rotatoria que
impulsa un lquido por un circuito. Las rpm se controlan directamente mediante el
tacmetro situado en la consola de la bomba. La tasa de corriente del fludo se mide en
litros por minuto. Se seleccionan 5 niveles equiespaciados de rpm: 10, 75, 100, 125 y 150
rpm (codificados respectivamente del 1 al 5). Los datos estn en el fichero Problema-219.
Datos del problema [ASCII] [spss-10] [sgplus-5]
1. Realizar el anlisis de la varianza y testar la hiptesis el nmero de rpm
no afecta a la tasa de corriente del lquido.
2. Conclusiones del estudio
3. Calcular un intervalo de confianza para la varianza al 90%.
Problema 2.20.
En el archivo Problema-2-20 se presentan diferentes conjuntos de residuos
obtenidos al ajustar un diseo de experimentos de un factor con cinco niveles (se tienen
veinte observaciones en cada nivel). Analizar cada uno de estos conjuntos de residuos y
estudiar si verifican las hiptesis estructurales del modelo ajustado.
Datos del problema [ASCII] [spss-10] [sgplus-5]

'

'

'

'

Prctica 3. Diseo de experimentos con dos o ms


factores.
Prctica 3.1. Problemas de diseo de experimentos con ms de un factor.
Prctica 3.2. Problemas resueltos.
Prctica 3.3. Problemas propuestos.

Prctica 3.1. Problemas de diseo de experimentos con ms de un factor.


Problema 3.1. Datos Apareados.
El Ministerio de Trabajo desea saber si un plan de seguridad en el trabajo es
efectivo en la reduccin del nmero de accidentes laborables y, por tanto, en la prdida
de horas de trabajo debido a accidentes. Para ello, hace un seguimiento en 16 fbricas
observando las horas de trabajo semanales prdidas a causa de accidentes, antes y
despus de implantar el plan de seguridad. Los datos son los de la tabla adjunta.
4

10

11

47

75

90

73

92

110

33

44

49

65

87

67

85

95

35

Datos del problema [ASCII] [spss-10] [sgplus-5]


Analizar estos datos y obtener conclusiones acerca del problema planteado.
Desarrollo del Problema 3.1.
Como se ha indicado en las secciones previas este problema puede resolverse de dos
formas distintas pero equivalentes, este es, los dos mtodos llevan a las mismas
conclusiones.
En primer lugar se supone que la variable bloque fbrica es influyente, entonces se
considera la variable diferencia Y = Y
-Y
, y se contrasta la hiptesis de que la E
= 0. Utilizando el Statgraphics se utiliza el siguiente anlisis
dif

antes

despus

compare >two samples >paired sample comparison


En este mdulo se introducen las variables Y
eY
. El programa proporciona
resultados analticos y grficos acerca de la variable diferencia Y . Utilizando el test de
la t resuelve el contraste H : E
= 0.
antes

despus

dif

Utilizando los datos de la tabla podra resolverse este problema contrastando la


hiptesis H : E
=E
, frente a la alternativa de que las medias son
diferentes?
0

En el supuesto de que se quisiera resolver el problema de esta forma cmo se


recogera la muestra?, los resultados obtenidos por ambos procedimientos son iguales?,
cul de los dos procedimientos es mejor?
La resolucin de este problema tambin puede hacerse por medio de una tabla
ANOVA. Para ello se siguen los siguientes pasos:

1. Con los datos del problema crear tres variables de 32 observaciones, una es la
variable respuesta Y, otra el factor de inters con dos niveles (antes y despus), y
la tercera es el factor bloque fbrica con 16 niveles.
2. Se utilizar el siguiente anlisis
describe >numeric data >multifactor anova,
sin interaccin (mximo orden de interaccin=1).
Este mdulo proporciona un amplio estudio analtico y grfico para responder al
problema planteado.
Cmo son el p-valor del test de la t utilizado en la tcnica de datos apareados y
el p-valor del test de la F utilizado en la tcnica de la tabla ANOVA?
Es influyente la variable bloque fbrica? En consecuencia es adecuada la
recogida muestral para la resolucin del problema?

3. Finalmente se contrastan las hiptesis bsicas estructurales utilizando las


tcnicas expuestas en el captulo anterior.
Problema 3.2. (Diseo de experimentos en bloques completamente aleatorizados)
Se ha realizado un diseo de experimentos para estudiar la calidad de las
soldaduras. El objetivo es determinar si existen diferencias entre las soldaduras segn el

47

elemento de soldadura que se utilice de entre tres posibles: nquel, hierro o cobre.
Como pueden existir muchas diferencias entre los elementos a soldar se ha utilizado un
diseo de bloques completamente aleatorizados. Para ello, se han utilizado diez lingotes
(bloques) y de cada uno de ellos se han soldado dos componentes utilizando los tres
agentes de soldadura. Finalmente se mide la fuerza (expresada en 100 libras por pulgada
cuadrada) necesaria para romper la soldadura. Los resultados obtenidos son los de la
tabla adjunta. En base a estos datos estudiar la influencia de factor tipo de soldadura,
cambian los resultados si no se tiene en cuenta el bloque lingote? .
B2

B3

B4

B5

B6

B7

B8

B9

66 3

68 9

74 7

73 0

72 7

80 0

83 6

61 2

74 1

70 7

75 4

66 7

65 0

70 8

76 2

66 0

73 4

69 7

74 7

60 2

61 2

71 7

57 0

58 5

'

'

'

'

'

'

'

'

'

'

'

'

'

'

'

'

'

'

'

'

'

Datos del problema [ASCII] [spss-10] [sgplus-5]


Desarrollo del Problema 3.2.
Se utiliza el siguiente anlisis
compare >two samples >multifactor anova
En este mdulo al introducir como variable dependiente resistencia y los dos factores
(el factor-tratamiento tipo de soldadura y el factor-bloque lingote, se obtiene un
completo anlisis de la varianza, que comprende: la tabla ANOVA que permite contrastar
la influencia de los dos factores; la tabla de medias, que permite calcular la media de
cada nivel de cada uno de los factores e intervalos de confianza para las mismas; el test
de rangos mltiples, que permite obtener los grupos homogneos en ambos factores as
como las diferencias significativas entre las medias de dos niveles de un factor, siendo
posible utilizar diferentes mtodos (LSD, Scheff, Tuckey,.. ).
El estudio grfico que ofrece el paquete es bastante completo, el grfico de puntos y
el de medias permiten contrastar graficmente las conclusiones obtenidas de la tabla
ANOVA, los tres grficos de residuos permiten tener una idea acerca del cumplimiento de
las hiptesis bsicas del modelo.
Indicando interacciones de orden 2 se obtienen grficos de interacciones que pueden
dar una idea aproximada acerca de la posible existencia o no de interacciones, tambin
se puede calcular el test de Tuckey sobre la no existencia de interaccin..
Es recomendable guardar los residuos y analizar con detalle si se verifican las
hiptesis bsicas estructurales como se indico en el captulo anterior. El estudio de la
heterocedasticidad debe hacerse en cada uno de los dos factores.
Qu ocurre si no se tiene en cuenta el factor-bloque?, para ello se debe repetir el
estudio introduciendo solamente el factor tipo de soldadura, lo que puede hacerse en
este mismo mdulo o en el
compare >two samples >one-way anova
Problema 3.3. (Diseo de experimentos de dos factores con interaccin).
Se desea analizar el efecto que sobre el tiempo medio de respuesta tienen dos
factores: la distribucin de los ficheros, que se estudia en tres variantes, codificadas

'

'

'

como F1, F2 y F3. Y el nmero de buffers del sistema, que tambin se ha estudiado con
tres niveles: 10, 20 o 30 buffers. Se ha hecho una prueba con cada una de las nueve
combinaciones posibles. Cada una de las pruebas consisti en observar el sistema un da
completo y calcular el tiempo de respuesta media al compilar un programa en lenguaje
C en ese perodo de tiempo. Se ha replicado el experimento tres veces. Los resultados
obtenidos se presentan en la tabla adjunta. En base a estos datos existe influencia de
alguno de los dos factores en el tiempo de respuesta del sistema informtico?, existe
interaccin entre ambos factores?

B1
0
2.7
F1 2.4
2.3

B2
0
2.0
2.2
1.9

B3
B1 B2
0
0
0
1.8
2.9 2.7
F2
1.5
3.4 2.4
1.6
3.3 2.5

B3
B1 B2
0
0
0
2.2
3.7 2.9
F3
1.9
3.4 3.4
2.3
3.9 3.3

B3
0
3.5
3.4
3.8

Datos del problema [ASCII] [spss-10] [sgplus-5]


Desarrollo del Problema 3.3.
El desarrollo de este problema es anlogo al anterior, se utiliza el anlisis
compare >two samples >multifactor anova
Se introduce como variable dependiente tiempo y los dos factores fichero y
buffers. En un primer estudio conviene introducir el factor rplica que indica el
orden en el que se repiti el experimento, y si ste se ha replicado correctamente la
tabla ANOVA indicar que el factor rplica no influye. En este caso, se deshecha este
factor y se repite el estudio considerando la posibilidad de interaccin entre los dos
factores en estudio (interaccin de orden 2) y se obtienen conclusiones segn los
resultados obtenidos. Se finaliza con el anlisis de residuos.
Problema 3.4. (Diseo de experimentos en cuadrado latino).
Se estudia la eficacia de cuatro frmacos diferentes (F1, F2, F3 y F4) en el
tratamiento de una enfermedad, para ello, se observa el nmero de das que tardan en
curar enfermos tratados con estos frmacos. Se considera que el factor edad y el factor
peso pueden influir en el experimento, por ello, se controlan estos factores y se
consideran cuatro niveles de edad (E1, E2, E3 y E4) y cuatro de peso (P1, P2, P3 y P4).
Los resultados del experimento diseado segn la tcnica del cuadrado latino son los de
la tabla adjunta. Qu conclusiones se deducen del experimento?
E1

E2

E3

E4

P1

10 F1

9 5 F2

7 F4

11 5 F3

P2

8 F2

10 F1

8 5 F3

9 F4

P3

7 F3

6 5 F4

7 F1

8 F2

P4

6 F4

5 F3

6 F2

9 F1

Datos del problema [ASCII] [spss-10] [sgplus-5]


Desarrollo del Problema 3.4.

'

'

'

'

Una dificultad del problema es la de introducir los datos de forma correcta en el


fichero, una vez realizado sto, se utiliza el anlisis anterior, siendo la variable
respuesta tiempo y los tres factores peso, edad y frmaco. Al calcular la tabla
ANOVA si alguno de los factores no es significativo se elimina del modelo y se calcula la
nueva tabla ANOVA.

Prctica 3.2. Problemas resueltos.


Problema 3.5. (Diseo de experimentos con bloques completamente aleatorizado)
Problema 3.6. (Diseo de experimentos con dos factores e interaccin)
Problema 3.7. (Diseo de experimentos en cuadrado latino).

Problema 3.5. (Diseo de experimentos con bloques completamente aleatorizado)


El servicio bibliotecario de una universidad est intresado en un programa para
gestionar la localizacin de un libro en la base de datos. Le ofrecen cinco programas
para tal fin: P1, P2, P3, P4, P5. En la universidad se dispone de cuatro tipos de
ordenadores y se desea saber si el tiempo de respuesta de los cinco programas ofertados
es el mismo. Para ello se disea el siguiente experimento, se eligen diez libros al azar y
se localizan utilizando los cinco programas y los cuatro tipos de ordenadores. Los
tiempos medio de respuesta (en segundos) en cada caso son los de la tabla adjunta: .

Prog.1

Prog.2

Prog.3

Prog.4

Prog.5

Ord.1

13
'

16
'

05
'

12
'

11

Ord.2

22
'

24
'

04
'

20
'

18

Ord.3

18
'

17
'

06
'

15
'

13

Ord.4

39

44

20

41

34

'

'

'

Datos del problema [ASCII] [spss-10] [sgplus-5]


Solucin al Problema 3.5.
Se calculan las medias condicionadas y se obtiene

'

'

'

'

'

Factor fila
= Factor ordenador, i = 1,2,3,4.
Factor columna
= Factor programa, j = 1,2,3,4,5.
Ahora se calculan las predicciones de cada casilla. Utilizando

se obtiene las predicciones

A partir de este cuadro se calculan los residuos e = y ij

ij

ij

Observar que al sumar los residuos por filas o por columnas se obtiene cero en cada
fila y en cada columna.
Se calculan las sumas de cuadrados:
scT

= scT

=5

4
i=1

2
i

=5
scT

=
= 18 044.
'

= scT

=4

j=1

2
j

= 6 693.
'

De donde

La variabilidad total es
scG =

i=1

=
= 25 688.
o bien
'

j=1
2

=
2

+ ... +

Si se resuelve este problema con calculadora, lo ms sencillo es calcular la scT y la


scG. Finalmente, obtener la scR a partir de la diferencia de las dos anteriores.
La Tabla ANOVA que se obtiene

De esta tabla se deducen los siguientes contrastes:

Se rechaza la hiptesis nula de no influencia del factor programa.


El segundo contraste es

Se rechaza la hiptesis nula de no influencia del factor ordenador y, por tanto, ha


sido conveniente bloquear.
Los coeficientes de determinacin de los factores son R
2

Si no se tiene en cuenta el factor ordenador se obtiene la siguiente tabla ANOVA, que


se deduce fcilmente de la anterior

El contraste

Se acepta la hiptesis nula de no influencia del factor programa, en contradiccin


con lo obtenido anteriormente. Por ello, es fundamental controlar los factores
influyentes en la variable respuesta.
Las siguientes grficas permiten examinar las hiptesis bsicas del modelo:
En la Figura 5.8. se observa el grfico de residuos frente a predicciones

Figura 5.8. Grfico de residuos.

Figura 5.9. Grfico de interaccin respecto a programa.

Figura 5. 10. Grfico de interaccin respecto a ordenador.


En las figuras (5.9. y 5.10.) se presentan los grficos de interacciones y de ellos se
deduce la no existencia de interaccin entre ambos factores.
Se calculan intervalos de confianza para los parmetros del modelo:
Intervalo de confianza para la varianza,
utilizando nivel de confianza 0 90,
'

Intervalo de confianza para los efectos, por ejemplo, para

Al calcular grupos homogneos de los ordenadores se obtienen dos: O1 y O3 - O2 -O4. Esto se puede
observar en el siguiente grfico de medias

Figura 5. 11. Grfico de medias de los ordenadores.


Intervalo de confianza para los efectos (programa), por ejemplo, para

Al calcular grupos homogneos de los ordenadores se obtienen tres grupos: P3 - P4; P5 - P4 y P1 - P2.
Esto se observa en el siguiente grfico de medias de los programas.

Figura 5. 12. Grfico de medias de los programas.

Problema 3.6. (Diseo de experimentos con dos factores e interaccin)


Una empresa dedicada a la fabricacin de bateras est interesada en disear una
batera que sea relativamente insensible a la temperatura ambiente. Para ello decide
probar con tres materiales distintos: M1, M2, y M3. Para estudiar el efecto del material y
la temperatura se disea el siguiente experimento: comprobar la duracin de las
bateras en horas, fabricando bateras con los tres materiales y trabajando las bateras a
tres niveles de temperatura: Baja, Media y Alta. El experimento se replicaba cuatro
veces y los resultados obtenidos son los de la tabla adjunta:

Temperatura
Material

Baja

Media

Alta

M1

130
74

155
180

34
80

40
75

20
82

70
58

M2

150
159

188
126

136
106

122
115

25
58

70
45

M3

138
168

110
160

174
150

120
139

96
82

104
60

Datos del problema [ASCII] [spss-10] [sgplus-5]


Analizar estos datos y estudiar la influencia de los factores material y temperatura en
el rendimiento de la batera. Conclusiones.
Solucin al Problema 3.6.
El modelo matemtico a ajustar es

donde es el efecto del factor material, i = 1,2,3 I = 3


es el efecto del factor temperatura, j = 1,2,3 J = 3
es el efecto de la interaccin entre ambos factores.
Para estimar estos parmetros, se calcula en una primera tabla las medias de cada
casilla y las medias de cada fila y cada columna
i

ij

En base a estos resultados se calculan estimaciones de los parmetros

Ahora se obtienen las predicciones del modelo,

Los residuos son

Observar que la suma de residuos de cada casilla vale cero.


Se calculan las sumas de cuadrados y se obtiene

scT = scT
+ scT
+ scT
= 10.683 70 + 39.118 70 + 9.613 78 = 59.416 18.
'

scR =

3
i=1

'

3
j=1

k=1

'

e =

ijk

3
i=1

'

3
j=1

k=1

= 18.230 7.
'

Los coeficientes de determinacin que se obtienen son

La Tabla ANOVA que se obtiene es

De esta tabla se deducen los siguientes contrastes:

Se rechaza la hiptesis nula de no influencia del factor material. Hecho que se


observa claramente en el grfico de medias del factor material,

Figura 5.13. Grfico de medias respecto a material.


El segundo contraste es

Se rechaza la hiptesis nula de no influencia del factor temperatura. Esto se observa


en el grfico de medias del factor temperatura,

Figura 5.14. Grfico de medias respecto a la temperatura.


El tercer contraste es

Se rechaza la hiptesis nula de no influencia de la interaccin de los factores para


niveles superiores a 002. Esto se puede observar en los grficos de interacciones.
Grfico de interacciones respecto al factor material

Figura 5.15. Grfico de interacciones respecto a material.


Grfico de interacciones respecto al factor temperatura

Figura 5.16. Grfico de interacciones respecto a temperatura.

Finalmente para analizar las hiptesis del modelo se presenta el grfico de residuos
frente a predicciones

Figura 5.17. Grfico de residuos frente a predicciones.

Problema 3.7. (Diseo de experimentos en cuadrado latino).


Para estudiar el efecto de la iluminacin (A=natural, B=muy fuerte, C=escasa) en la
velocidad de lectura se realiza un experimento que consiste en contar el nmero de
palabras ledas en un minuto para distintos tipos de papel (b=blanco, c=en color,
s=satinado) y diferente tipografa (g=letra grande, p=letra pequea, n=normal).
Obtenindose los resultados expuestos en la siguiente tabla:

Tipo de papel
Letra

satinado

blanco

color

grande

258 A

230 C

240 B

normal

235 B

270 A

240 C

pequea

220 C

225 B

260 A

Datos del problema [ASCII] [spss-10] [sgplus-5]


Analizar estos datos y estudiar la posible influencia de los factores iluminacin, tipos de
papel y diferente tipografa en la variable de inters velocidad de lectura.
Solucin al Problema 3.7.
El modelo matemtico-estadstico a ajustar es

donde el factor fila representa al factor tipo de letra, el factor columna representa al
factor tipo de papel y el factor letra (cuadrado latino) representa el
factor iluminacin. Es un modelo con tres factores, cada uno de los cuales tiene tres
niveles, se supone que no existen interacciones entre los factores y puede resolverse con
solo 3 = 9 observaciones por medio del diseo fraccional de cuadrado latino.
Se calculan las medias,
2

Se calculan las predicciones

y los residuos

Se calculan las sumas de cuadrados

scT = scT
+ scT
+ scT
= 268 67 + 122 00 + 1.938 67 = 2.329 34.
'

scR =

i=1

'

j=1

ij

'

3
i=1

'

3
j=1

=
= 8 67.
'

Los coeficientes de determinacin son

La Tabla ANOVA que se obtiene es

De esta tabla se deducen los siguientes contrastes:

Se rechaza para niveles de > 0 031 (por ejemplo = 0 05) la hiptesis nula de no
influencia del factor tipo de letra. Una interpretacin de sto puede observarse en el
grfico de medias
'

'

Figura 5.18. Grfico de medias respecto al tipo de letra.


Respecto al segundo factor, tipo de papel, se deduce el siguiente contraste

Se acepta para niveles de < 0 066 (por ejemplo = 0 05) la hiptesis nula de no
influencia del factor tipo de papel. El grfico de medias del factor tipo de papel es
'

'

Figura 5.19. Grfico de medias respecto al tipo de papel.


Respecto al tercer factor, tipo de iluminacin, se deduce el siguiente contraste

Se rechaza para niveles de > 0 004 (por ejemplo = 0 05) la hiptesis nula de no
influencia del factor tipo de iluminacin. Esto puede observarse en el grfico de medias
del factor
'

'

Figura 5.20. Grfico de medias respecto al tipo de iluminacin.

Prctica 3.3. Problemas propuestos.


Problema 3.8.
Los siguientes datos proporcionan la presin de la sangre sistlica y diastlica (en
mm Hg) de 15 pacientes con hipertensin moderada, medidas antes y despus de probar
un nuevo frmaco. En base a estos datos puede afirmarse que el nuevo frmaco es
efectivo para bajar la tensin arterial?
.

Sistlica
Pac
1
2
3
4
5
6
7
8

Antes
210
169
187
160
167
176
185
206

Diastlica

Despus Antes
201
130
165
122
166
124
157
104
147
112
145
101
168
121
180
124

Despus Pac
125
9
121
10
121
11
106
12
101
13
85
14
98
15
105

Sistlica

Diastlica

Antes Despus Antes


173
147
115
146
136
102
174
151
98
201
168
119
198
179
106
148
129
107
154
131
100

Despus
103
98
90
98
110
103
82

Datos del problema [ASCII] [spss-10] [sgplus-5]


Problema 3.9.
Una empresa desea contrastar si el lunes es el da de la semana en que se presentan
ms bajas por enfermedad comn. Para ello, en base a los datos de cinco aos, se eligen
al azar 10 lunes, 10 martes, 10 mircoles, 10 jueves y 10 viernes, anotando el nmero de
bajas durante tales das. Los resultados obtenidos son los de la tabla adjunta

Muestreo 1
Da
nmero de bajas por da
Lunes

26 37 22 55 23 38 46 25 25 23

Martes

35 20 28 12 17 17 57 42 25 63

Mircoles

25 40 63 18 62 30 38 23 37 26

Jueves

51 20 30 13 42 28 17 73 25 22

Viernes

30 62 40 15 26 37 52 12 16 25

Un segundo estudio se realiz en base a los mismos datos pero cambiando el esquema
del muestreo, ahora se eligieron al azar diez semanas completas de los cinco aos y los
resultados que se obtuvieron son los siguientes:

Muestreo 2
Semana (nmero de bajas por da)

Da

S1

Lunes

40 32 56 65 18 43 30 51 46 38
32 51 34 35 23 22 45 35 32 58

Martes

S2

S3

S4

S5

S6

S7

S8

S9

S10

Jueves

42 30 29 30 15 30 42 51 31 26
20 32 30 40 21 28 46 36 36 22

Viernes

26 27 27 17 23 37 53 22 15 22

Mircoles

Datos del problema [ASCII] [spss-10] [sgplus-5]


En base a estos datos:
1. Indicar los modelos matemticos asociados a ambos tipos de muestreo.
2. Calcular en ambos casos la tabla ANOVA. Conclusiones.
3. Utilizando los dos tipos de muestreo existe un da o ms en que el nmero de
bajas por enfermedad comn sea significativamente mayor?
4. En ambos casos se verifican las hiptesis del modelo? En caso negativo,
transformar los datos y recalcular los modelos.
5. Comparar razonadamente ambos esquemas de muestreo. Proponer un modelo de
muestreo ms correcto.
Problema 3.10.
Se realiza un experimento para investigar el proceso de obtencin de la penicilina,
siendo la variable de inters la produccin obtenida. El estudio se centra en observar los

resultados de 4 variantes del proceso bsico denominadas tratamientos A, B, C y D. Pero


se quiere controlar una materia prima importante, el licor de maz, para ello se utilizan
cinco mezclas de licor de maz (bloques) con los que se realiza el experimento. Los
resultados observados son los de la tabla adjunta. En base a estos datos influye la
variante del proceso en la produccin obtenida? El resultado sera el mismo si no se
tiene en cuenta el tipo de maz utilizado?.
Tratamientos
Bloque
Mezcla 1
Mezcla 2
Mezcla 3
Mezcla 4
Mezcla 5

89
84
81
87
79

88
77
87
92
81

97
92
87
89
80

94
79
85
84
88

Datos del problema [ASCII] [spss-10] [sgplus-5]


Problema 3.11.
Un experimento consiste en anotar las dcimas de segundo que se tarda en parar el
cronmetro despus de ponerlo en marcha. Para ello, se inicializa el cronmetro en
0:00:00, se pone en marcha pulsando un botn para, despus, pararlo pulsando el mismo
botn. Se anota el tiempo que se ha tardado en pararlo, sto es, el tiempo que aparece
indicado en el cronmetro.
Con este experimento se desea estudiar la influencia en la variable de inters (tiempo
que se tarda en detener el cronmetro en dcimas de segundo) de dos factores: el tipo
de reloj utilizado (se han utilizado cuatro relojes: R1, R2, R3 y R4) y de la mano utilizada
(derecha (D) o izquierda (I)).
Todos los datos de este experimento han sido realizados por una sola persona que ha
realizado cinco rplicas de cada tratamiento. Los datos obtenidos son los de la tabla
adjunta. En base a ellos estudiar la influencia de los factores y analizar la existencia de
interaccin entre los dos factores, verifican los residuos las hiptesis del modelo?.

Reloj
Mano
R1 R2
R3
R4
Derecha 11 11 10 18 18 16 12 14
16 12 20 17 1720 15 16
11 13
16
15
Izquierda 17 17 30 22 21 25 21 16
11 17 28 22 22 23 18 21
16 20 26
18
Datos del problema [ASCII] [spss-10] [sgplus-5]
Problema 3.12.
Se ha realizado un experimento para comprobar si existen diferencias significativas
en el tiempo de ejecucin entre tres programas que calculan el factorial de un nmero.
Tambin se desea investigar si influye en la variable de inters el intervalo al que
pertenece el nmero del que se calcula el factorial.
Los programas utilizados son:
- Recfact, que calcula el factorial de forma recursiva.
- Tailfact, calcula el factorial de usando tail-recursion.

- Loopfact, calcula el factorial de la forma normal, usando un bucle en el que calcula


en sucesivas iteraciones el producto final.
Los intervalos elegidos para hacer el estudio son de longitud cien unidades: [1,100],
[101,200], [201,300], [301,400], [401,500].
Los datos del experimento son los de la tabla adjunta. La forma de obtenerlos fu la
siguiente: se generaba para cada uno de los cinco intervalos diez nmeros aleatorios
(diez rplicas) y para cada nmero se calculaba el tiempo de ejecucin de los tres
programas que calculan el factorial. Por tanto, las variables en estudio son:
Programa: programa utilizado (1=Recfact, 2=Tailfact, 3=Loopfact)
Intervalo: intervalo del que se elega el nmero (1,2,3,4, 5).
Rplica: rplica del experimento (1,...,10)
Tiempo: tiempo de ejecucin en cada caso.
Intervalo

Program I.1.
a
Recfact 1 6 7 9

I.2.

I.3.

I.4.

I.5.

17 3 13 3 28 8 35 2 39 9 44 9 51 5 51 7
7 8 11 8 14 7 23 4 31 9 29 2 40 9 44 8 52 6 50 1
8 5 4 5 19 0 22 2 32 0 31 0 36 9 39 5 55 1 50 6
5 7 2 8 19 3 14 8 29 9 31 1 46 4 43 1 49 0 56 6
8 2 4 6 24 8 15 0 34 5 26 5 37 5 39 2 49 1 55 9
3 2 11 7 21 5 28 4 46 3 51 6 58 9 68 0 85 6 74 1
Tailfact
10 9 17 0 36 6 27 9 52 6 43 7 55 9 65 2 76 6 84 7
1 7 7 9 25 5 21 6 43 0 39 5 59 6 55 1 78 2 79 6
5 9 11 2 22 0 32 8 47 6 44 8 60 2 67 5 83 5 75 8
6 1 11 9 34 5 34 5 46 4 47 8 70 2 61 9 77 6 74 1
10
7 1 7 33 7 21 5 42 5 46 4 53 4 54 5 72 4 76 3
Loopfact
11 0 3 2 27 8 21 0 46 7 41 8 58 7 66 1 74 6 77 4
7 8 11 7 24 9 21 1 50 3 43 5 68 3 63 4 82 6 75 8
6 0 11 6 35 8 27 3 38 4 45 1 57 4 57 8 72 2 83 5
5 9 16 7 18 9 32 0 45 2 51 3 65 8 60 4 74 0 81 3
En base a estos datos,
1. Estudiar de la influencia de los tres factores.
2. Qu modelo estadstico se debe utilizar? Se ajusta bien el modelo propuesto a
los datos? Existe interaccin entre los factores?, en caso afirmativo interpretar la
interaccin.
3. Analizar las hiptesis bsicas del modelo.
'

'

'

'

'

'

'

'

'

'

'

'

'

'

'

'

'

'

'

'

'

'

'

'

'

'

'

'

'

'

'

'

'

'

'

'

'

'

'

'

'

'

'

'

'

'

'

'

'

'

'

'

'

'

'

'

'

'

'

'

'

'

'

'

'

'

'

'

'

'

'

'

'

'

'

'

'

'

'

'

'

'

'

'

'

'

'

'

'

'

'

'

'

'

'

'

'

'

'

'

'

'

'

'

'

'

'

'

'

'

'

'

'

'

'

'

'

'

'

'

'

'

'

'

'

'

'

'

'

'

'

'

'

'

'

'

'

'

'

'

'

'

'

'

'

'

'

'

'

'

Problema 3.13.
Se disea un experimento para estudiar la influencia del tipo de cinta (dos
niveles) y del tipo de impresora (dos niveles) en la variable duracin de la cinta en
horas. Los datos se recogen en la tabla adjunta:

Impresora Tipo de cinta


I1
Cinta A Cinta
B

17 1
16 5
14 9
15 2
'
'
'
'

194
189
201
17 2
'

Impresora Tipo de cinta


I2
Cinta A Cinta B

12 3
13 8
10 8
11 6
'
'
'
'

15 6
17 2
16 7
16 1
'
'
'
'

16 7 207 Duracin
12 1
18 3
Datos del problema [ASCII] [spss-10] [sgplus-5]
En base a estos datos
1. Escribir el modelo matemtico asociado al problema y las hiptesis que se
suponen.
2. Calcular la tabla ANOVA y obtener los contrastes que se deducen de la tabla
ANOVA.
3. Si suponemos que la interaccin es nula cmo influye en la tabla ANOVA? Se
modifican las conclusiones?
4. Calcular un intervalo de confianza al 90% para la duracin media de la cinta con
la impresora I1.

Duracin

'

'

'

Problema 3.14.
Se realiza un experimento para ver el efecto del tipo de material y el tratamiento
empleado en el desgaste de unas piezas mecnicas. Los datos obtenidos son los de la
tabla adjunta. En base a estos datos analizar la influencia de los dos factores (diseo
anadidado o jerarquizado).
A

23
25

30
31

42
44

45
50

37
38

39
39

41
42

44
49

20
25

Datos del problema [ASCII] [spss-10] [sgplus-5]


Problema 3.15.
Se realiza un experimento para comparar la energa que se requiere para llevar a
cabo tres actividades fsicas: correr, pasear y montar en bicicleta. La variable de inters
es Y =nmero de kilocaloras consumidas por kilmetro recorrido. Se cree que las
diferencias metablicas entre los individuos puede afectar al nmero de kilocaloras
requeridas para llevar a cabo una determinada actividad y se quiere controlar esta
variable extraa. Para ello se seleccionan ocho individuos al azar y se les pide que hagan
las tres actividades mencionadas. Se mide el nmero de kilocaloras consumidas por
kilmetro obteniendo los datos de la tabla adjunta. Las actividades se realizan en orden
aleatorio con tiempo de recupeacin entre una y otra. Puede pensarse que no influye la
actividad realizada en el nmero de kilocaloras consumidas?.
B.1.

B.2.

B.3.

B.4.

B.5.

B.6.

B.7.

B.8

rrer

14
'

15
'

18
'

17
'

16
'

15
'

17
'

20

minar

11
'

12
'

13
'

13
'

07
'

12
'

11
'

13

dalear

07

08

07

08

01

07

04

06

'

'

'

'

Datos del problema [ASCII] [spss-10] [sgplus-5]


Problema 3.16.

'

'

'

'

'

'

Se estn investigando los efectos que sobre la resistencia del papel producen el
porcentaje de concentracin de fibra de madera (hardwood) en la pulpa, la presin del
tanque y el tiempo de coccin de la pulpa. Se seleccionan tres niveles de concentracin
de madera y de presin, y dos niveles de tiempo de coccin. Por tanto, los factores son:
concentracin porcentual de fibra que se estudia a tres niveles (2, 4 y 8); presin
durante el tiempo de coccin que se estudia a tres niveles (400, 500 y 650); y tiempo de
coccin que se estudia a dos niveles, 3 y 4 horas.
Se realiza un experimento completamente aleatorizado con dos rplicas y se
registran los datos que se recogen en el archivo Problema-3-16.sf3
1. Analizar los datos y obtener conclusiones.
2. Obtener los grficos de residuos apropiados y comentar la adecuacin del
modelo.
Datos del problema [ASCII] [spss-10] [sgplus-5]

Prctica 4. Regresin lineal simple.


Prctica 4.1. Anlisis de problemas de regresin lineal simple con ordenador.

Prctica 4.2. Problema resuelto de regresin lineal simple.


Prctica 4.3. Problemas propuestos de regresin lineal simple.
Prctica 4.1. Anlisis de problemas de regresin lineal simple con ordenador.
Problema 4.1.
Los datos de la tabla adjunta proporcionan la distancia en lnea recta (LR) y por
carretera (DC) entre veinte pares de puntos geogrficos (localidades) de Sheffield.
1. Existe una relacin lineal entre las dos variables?
2. Es suficientemente bueno el modelo de regresin lineal que explica la variable
de inters DC en funcin de la variable regresora LR?. Estimar el modelo de
regresin lineal. Calcular intervalos de confianza al 90% para los parmetros del
modelo.
3. Calcular la tabla ANOVA del modelo. Interpretacin de la misma.
4. Predecir la distancia por carretera entre dos ciudades cuya distancia en lnea
recta es 25. Calcular un intervalo de prediccin al 90%. Repetir el apartado si la
distancia (LR) es 50.
5. Existe un modelo linealizable mejor?

DC

LR
10 7
65
29 4
17 2
18 4
19 7
16 3
'
'
'
'
'
'
'

DC
95
50
23 0
15 2
11 4
11 8
14 6

LR
16 6
29 0
40 5
14 2
11 7
25 6
95

'

'

'

'

'

'

'

'

'

'

'

'

'

'

DC
12 1
22 0
28 2
12 1
98
19 0
83
'
'
'
'
'
'

LR
28 8
31 2
65
25 7
26 5
33 1
'
'
'
'
'
'

21 6
26 5
48
21 7
18 0
28 0
'
'
'
'
'
'

'

Datos del problema [ASCII] [spss-10] [sgplus-5]


Desarrollo del Problema 4.1.
En primer lugar se representa grficamente la nube de puntos haciendo el siguiente
anlisis de Statgraphics
plot >scatterplots >x-y plot
Que permite tener una primera idea acerca del comportamiento del ajuste lineal.
Un estudio detallado del ajuste lineal se obtiene con el siguiente anlisis
relate >simple regression
En el apartado de analysis summary se obtiene la recta de regresin estimada
(estimacin de los coeficientes de
y
y de sus desviaciones tpicas lo que permite
calcular intervalos de confianza de los mismos). En este mismo apartado se obtiene la
tabla ANOVA del modelo y los coeficientes de determinacin. En este caso dado que el
coeficiente de correlacin es r = 0 969 se concluye que el ajuste lineal es bueno.
0

'

El apartado forecasts permite calcular predicciones e intervalos de confianza y de


prediccin.

Si se desea tener una idea acerca de la existencia de modelos linealizables que


mejoren el ajuste lineal, sto se puede hacer en el apartado comparison of alternatives
models que proporciona la correlacin de doce ajustes. En este problema los ajustes
doble recproco y multiplicativo mejoran ligeramente (en correlacin) al lineal y
habra que evaluar la conveniencia de trabajar con estos modelos. El ajuste de alguno de
estos modelos se hace en analysis summary en el apartado de opciones.
Este anlisis tambin proporciona las observaciones con residuos grandes (unusual
residuals), las observaciones influyentes (influential points) y diferentes grficos que
permiten evaluar la bondad del ajuste y el cumplimiento de las hiptesis bsicas.
Problema 4.2. (Datos simulados)
Este problema consta de dos partes. En un primer apartado se simula un conjunto
de datos bidimensional
que sigue un modelo de regresin lineal simple con diseo
fijo. En el segundo apartado se estudia el modelo de regresin que mejor se ajusta a los
datos simulados en el apartado anterior.
La variable regresora X toma los valores 5,8,12,15,20,22,25,27,30 y 33, y para cada
valor de X se tienen 15 observaciones de la variable respuesta Y, en total, 150
observaciones. Los valores se generan a partir del modelo matemtico

donde E, sigue una distribucin N


1. Generacin de la muestra.
2. Hacer un estudio estadstico bsico de la variable condicionada Y/X.
3. Calcular la recta de regresin ajustada a las observaciones simuladas: estimacin
de los parmetros, tabla ANOVA, contraste de regresin y de linealidad,
intervalos de confianza. Se obtienen resultados congruentes, la recta de
regresin ajustada est prxima a la recta generadora de las observaciones?
4. Contrastar las hiptesis estructurales del modelo. Existen datos atpicos?
5. Hacer predicciones para X = 10,20,30,40,50,100. Calcular intervalos de confianza
y de prediccin.
6. Estudiar otros modelos linealizables.
Desarrollo del Problema 4.2.
Para generar la muestra por simulacin se siguen los siguientes pasos:
Se crea la variable valor_x = 5,8,12,15,20,22,25,27,30y33.
Se genera la variable x = rep(15;valor_x).
Se genera la variable recta = 40 + 1,5 * x.
Se genera la variable de error, error = rnormal(150;0;10).
Finalmente se obtiene la variable respuesta como y = recta + error .
La muestra (simulada) se representa en un grfico bidimensional segn el anlisis
plot >scatterplots >x-y plot
En este caso, en el que se dispone de varias observaciones de la variable respuesta para
cada valor de X conviene hacer un anlisis estadstico de la variable condicionada Y/X.
Para ello se utiliza el anlisis
describe >numeric data >subset analysis
Introduciendo en el campo codes = x.

Igual que en el problema anterior el anlisis de regresin se realiza en


relate >simple regression
En este caso se puede hacer una tabla ANOVA ms completa y el contraste de linealidad
en la opcin lack-of-fit-test.
El desarrollo del resto del problema es anlogo al anterior, aunque como se dispone
de un nmero relativamente grande de observaciones se puede hacer un estudio ms
completo acerca del cumplimiento de las hiptesis del modelo.

Prctica 4.2. Problema resuelto de regresin lineal simple.


Problema 4.3.
Los datos de la tabla adjunta muestran el tiempo de impresin
de trabajos que
se han imprimido en impresoras de la marca PR. Se est interesado en estudiar la
relacin existente entre la variable de inters tiempo de impresin de un trabajo y la
variable explicativa
nmero de pginas del trabajo. Hacer el estudio en base a los
datos obtenidos en el muestreo y que son los de la tabla adjunta.

Datos del problema [ASCII] [spss-10] [sgplus-5]


Solucin Problema 4.3.
Se calculan los estadsticos bsicos de las variables X e Y,

Que permiten calcular las estimaciones de los parmetros de la recta de regresin

Ahora, se pueden calcular las predicciones

La suma de cuadrados de los residuos es

Que permite calcular la varianza residual

Las varianzas de los parmetros son

De donde se deducen los siguientes intervalos de confianza (al 90%) y contrastes de


hiptesis:
Intervalo de confianza para
2

2
73

<

<

54 3245

2
73

'

<
< 94 0592
85 325 <
< 147 735
Intervalo de confianza para
'

'

'

73

<

<t

73

- 1 6664
'

<

< 1 6664
8 108 0 7142 =
Intervalo de confianza para
1

'

'

'

<

73

- 1 6664
'

<t

73

<

< 1 6664
13 515 4 378 =
Contraste de hiptesis para
0

'

'

'

=
=
= 18 917 ~ t
p - valor = 0 0000 Se rechaza H
Contraste de hiptesis para
'

'

n-2

=
=
= 5 144 ~ t
p - valor = 0 0000 Se rechaza H
El coeficiente de correlacin es
'

'

n-2

En el siguiente grfico se representa la nube de puntos y la recta ajustada

Nube de observaciones y recta ajustada.


El grfico de residuos frente a las predicciones se observa en el siguiente grfico,

Grfico de residuos
Se calcula la tabla ANOVA del modelo y se obtiene
scR =

75 2
i=1
i

scG =

75
i=1

e = 8025 61
'

= 75 . sy2 = 47.368 95
'

75
scE =
= V T - V NE = 39.343 34
i=1
que permite construir la siguiente tabla
2

'

A partir de esta tabla se puede realizar el contraste de regresin

Se rechaza la hiptesis nula y se asume que el modelo ajustado es significativo.


En este problema para cada valor de x se dispone de varias observaciones de Y, se
puede hacer el contraste de linealidad

Para ello se descompone la scR en dos trminos:


scR =

75
i=1

scR =

75
i=1

= 2.765 84
'

= 5.259 77
'

75 2
75
scR =
= 8.025 61
i = 1 ei =
i=1
Que permite construir la siguiente tabla ANOVA ms completa
2

'

Se rechaza la hiptesis nula y se deduce que el modelo lineal no es el que mejor se


ajusta a la nube de observaciones.
Predicciones.
Calcular intervalos de confianza al 90% para el tiempo medio de impresin de los
trabajos que tienen 6 y 12 hojas respectivamente.
Calcular, tambin, intervalos de prediccin al 90% para el tiempo de impresin de un
trabajo que tiene 6 hojas. Calcular el intervalo de prediccin para el tiempo de
impresin de un trabajo de 12 hojas.
Sea x = 6, su valor de influencia (leverage) es
t

= 0 013857
'

= = 72 1651 (es el nmero de observaciones equivalente).


La varianza del estimador de la media condicionada m = E
'

V ar

=
= 1 5235
= 1 2343.
El estimador de la media condicionada es
'

'

es

De ambos resultados se obtiene que el intervalo de confianza al 90% es


.
m 62 163 t
1 2343
m 62 163 2 0568 =
.
La prediccin para x = 6 es
'

'

'

73

'

Con varianza
V ar

=
+ 109 94 = 111 4635
= 10 5576.
Por tanto, el intervalo de prediccin al 90% es
.
y 62 163 t
10 5576
y 62 163 17 593 =
.
Anlogamente, se realizan los clculos para x = 12, su valor de influencia es
h == 0 08523
'

'

'

'

'

'

73

'

'

= = 11 7323 (es el nmero de observaciones equivalente).


Por tanto, la varianza del estimador de la media condicionada m = E
'

V ar

=
= 9 3707
= 3 0612.
'

'

El estimador es

y el intervalo de confianza al 90% se obtiene como


.
m 110 811 t
3 0612
m 110 811 5 1011 =
.
La prediccin para x = 12 es
'

'

'

73

'

V ar

= 109 94
= 119 31
= 10 923.
y el intervalo de prediccin al 90% es
.
y 110 811 t
10 923
y 110 811 18 202 =
.
En resumen, al comparar las longitudes de los intervalos calculados se obtiene
'

'

'

'
'

'

73

'

es

Prctica 4.3. Problemas propuestos de regresin lineal simple.


Problema 4.4. En la tabla adjunta se presentan el nmero de pginas y el precio de
doce libros tcnicos:
pginas

precio

pginas

precio

pginas

precio

310

3 50

400

8 00

420

2 50

300

3 50

170

1 80

610

5 00

280

3 50

430

7 00

420

5 40

310

7 30

230

3 20

450

3 70

'

'

'

'

'

'

'

'

'

'

'

'

Datos del problema [ASCII] [spss-10] [sgplus-5]


Con estos datos se obtienen los siguientes resultados: (siendo X el nmero de pginas e Y
el precio):

1. Ajustar una recta de regresin que explique el precio en funcin del nmero de
pginas e interpretar los resultados.

2. Construir la tabla ANOVA asociada. Es el ajuste adecuado?


3. Calcula intervalos de confianza al 90% para los parmetros del modelo.
4. Calcula un intervalo de confianza al 90% para el precio de un libro de 500
pginas.
Nota: se recomienda no utilizar el ordenador en la resolucin de este problema.
Problema 4.5. La resistencia del cemento depende, entre otras cosas, del
tiempo de secado del cemento . En un experimento se obtuvo la resistencia de
bloques de cemento con diferente tiempo de secado los resultados fueron los siguientes
Tiempo (das)

Resistencia (kg/cm )
2

13 0 13 3 11 8

21 9 24 5 24 7

'

'

'

'

'

'

29 8 28 0 24 1 24 2 26 2
'

'

'

'

'

32 4 30 4 34 5 33 1 35 7

28

41 8 42 6 40 3 35 7 37 3

'

'

'

'

'

'

'

'

'

'

Datos del problema [ASCII] [spss-10] [sgplus-5]


(Hald, A. (1952) Statistical theory with engneering applications. Wiley & Sons). En base
a esta muestra,
1. Analizar la posible existencia de una relacin entre estas dos variables.
2. Qu conclusiones se deducen del contraste de regresin y del contraste de
linealidad?
3. Si se utilizase un ajuste cuadrtico se obtienen mejores resultados?
4. Estudiar el modelo paramtrico propuesto por Hald, A, y que consiste en estudiar
la relacin del logaritmo de la resistencia del cemento sobre la inversa del
tiempo de secado.
Problema 4.6. La variable
representa en miles, el nmero de asnos en Espaa y la
el tanto por ciento del presupuesto del Estado dedicado a Educacin.
ao

Y
1920
1925
1930
1935
1940

X
1.006
1.162
1.479
805
795

ao
55
48
78
82
86
'
'
'
'
'

Y
1945
1950
1955
1960
1965

X
747
732
683
686
493

ao
97
96
89
11 4
10 6
'
'
'

Y
1970
1975
1980

'
'

Datos del problema [ASCII] [spss-10] [sgplus-5]


1. Representar graficamente estos datos.
2. Construir la recta de regresin que explique el comportamiento de la variable
tanto por ciento del presupuesto del Estado dedicado a Educacin en funcin
de la variable el nmero de asnos en Espaa e interpretar los resultados
3. Es significativa el coeficiente de correlacin entre estas dos variables?
4. Los residuos asociados al ajuste de una regresin lineal son independientes?
5. Representar las variables X e Y frente al tiempo. Calcular los coeficientes de
correlacin y rectas de regresin de las variables X e Y respecto al tiempo.
Nota: Estos datos son recogidos del texto de Daniel Pea Estadstica modelos y
mtodos. Vol. 2. Modelos lineales y series temporales. Alianza Universidad Textos. Y es
un claro ejemplo de variables entre las que existe una alta correlacin estadstica pero
no existe relacin entre las mismas (correlaciones espreas), su relacin estadstica es
debida a la relacin que ambas tienen con una tercera (el tiempo) y que no se tiene en
cuenta en el estudio.

X
476
386
368

Problema 4.7. Se llev a cabo un estudio para determinar la relacin entre el


nmero de aos de experiencia
y el salario mensual, en miles de pesetas,
entre
los informticos de una regin espaola. Para ello, se tom una muestra aleatoria de 17
informticos y se obtuvieron los siguientes datos
Exper.
13
16
30
2
8
6

Salario
26 1
33 2
36 1
16 5
26 4
19 1

Exper.
31
19
20
1
4
10

'
'
'
'
'
'

Salario
36 4
33 8
36 5
16 9
19 8
24 6

Exper.
27
25
7
15
13

'
'
'
'
'

Salario
36 0
36 5
21 4
31 0
31 4
'
'
'
'
'

'

Datos del problema [ASCII] [spss-10] [sgplus-5]


1. Calcular la regresin lineal de la variable salario frente a aos de experiencia.
Calcular intervalos de confianza al 95% para los coeficientes de este modelo.
2. Calcular el coeficiente de correlacin lineal y el coeficiente de determinacin.
Puede rechazarse la hiptesis nula de que el coeficiente de determinacin es
cero con = 0 05?
3. Estimar y calcular un intervalo de confianza al 90% y 95% para la prediccin del
salario de un informtico que tiene 8 aos de experiencia.
4. Se observa alguna anomala en el grfico de los residuos frente a la variable
regresora.
'

Problema 4.8. El siguiente conjunto de datos era tomado sobre grupos de


trabajadoras de Inglaterra y Gals en el perodo de 1970-72. Cada grupo est formado
por trabajadores de la misma profesin (mdicos, trabajadores textiles,
decoradores,...etc,) y en cada uno de los veinticinco grupos muestrados se han
observado dos variables: el ndice de estandarizado de consumo de cigarrillos (variable
regresora, x) y el ndice de muertes por cncer de pulmn (variable dependiente, y).
(Occupational mortality: the registar generals decennial supplement for England
and Wales, 1970-72, series Ds, n.1, London:HMSO,149).
1. Estudiar el modelo de regresin lineal del ndice de mortalidad frente al ndice de
fumadores.
2. Calcular la tabla ANOVA. Conclusiones.
3. Comprobar si se verifican las hiptesis del modelo.

y
77
137
117
94
116
102
111
93
88

x
84
116
123
128
155
101
118
113
104

y
102
91
104
107
112
113
110
125

x
88
104
129
86
96
144
139
113

y
133
115
105
87
91
100
76
66

146
128
115
79
85
120
60
51

Datos del problema [ASCII] [spss-10] [sgplus-5]


Problema 4.9. Anscombe utiliz el siguiente conjunto de datos para demostrar la
importancia de los grficos en el anlisis de regresin y correlacin. Hay cuatro
conjuntos de datos bidimensionales
, el vector X es el mismo para los tres
primeros conjuntos.
X1 = X2 = X3

Y1

Y2

Y3

X4

Y4

10

8 04

9 14

7 46

6 58

6 95

8 14

6 77
'

5 76

13

7 58

8 74

12 74

7 71

8 81

8 77

7 11

8 84

11

8 33

9 26

7 81

8 47

14

9 96

8 10

8 84

7 04

7 24

6 13

6 08

5 25

4 26
'

3 10

5 39

5 56

12

10 84

9 13

8 15

7 91

4 82

7 26

6 42

6 89

5 68

4 74

5 73

19

12 50

'

'

'

'

'

'

'

'

'

'

'

'

'

'

'

'

'

'

'

'

'

'

'

'

'

'

'

'

'

'

'

'

'

'

'

'

'

'

'

'

'

'

Datos del problema [ASCII] [spss-10] [sgplus-5]


1. Calcular la recta de regresin de Y frente a X en estos cuatro conjuntos de datos.
Calcular el coeficiente de correlacin en los cuatro casos.
2. Dibujar la grfica de Y frente a X, y la grfica de los residuos frente a las
predicciones en los cuatro casos. Qu conclusiones se deducen?
Problema 4.10. Los datos de la tabla adjunta muestran la cantidad de ozono registrada
y su presin parcial
para cada capa de altitud, donde cada capa tiene
aproximadamente un kilmetro de altura. Por conveniencia las capas se han escalado a
un intervalo de -7 a +7.
1. Hacer una grfica de estos datos, es razonable un ajuste lineal?
2. Ajustar una funcin de regresin lineal del ozono frente a la capa. Calcula la
tabla ANOVA y los contrastes de regresin y de linealidad. Conclusiones.
3. Analizar detenidamente los residuos. Se verifican las hiptesis estructurales del
modelo? Son los datos homocedsticos?
4. Existe un modelo no lineal que mejore el ajuste lineal?.

Datos del problema [ASCII] [spss-10] [sgplus-5]


Problema 4.11. En el fichero problema-4-11 se presentan once variables de 200 datos.
La primera variable es la prediccin de un ajuste lineal simple y las restantes diez
variables se correponden con diferentes conjuntos de residuos del ajuste. Utilizando
bsicamente mtodos grficos (grfico de residuos frente a predicciones, histograma,
grfico de normalidad, grfico de residuos frente al ndice, correlograma,....) contratar
si se verifican las hiptesis bsicas estructurales del modelo de regresin lineal o indagar
la existencia de posibles problemas en el ajuste.
Datos del problema [ASCII] [spss-10] [sgplus-5]
Problema 4.12. En 34 lotes de 120 libras de cacahuetes se observ el nivel medio de
aflatoxin (partes por billn)
y el porcentaje de cacahuetes no contaminados en cada
lote
.

99 971
99 979
99 982
99 971
99 957
99 961
99 830

18 8
18 9
21 7
21 9
22 8
24 2
83 6

'
'
'
'
'
'
'

'
'
'
'
'
'
'

99 942
99 932
99 908
99 970
99 985
99 933
99 718

46 8
46 8
58 1
62 3
70 6
71 1
99 5

'
'
'
'
'
'
'

'
'
'
'
'
'
'

99 863
99 811
99 877
99 798
99 855
99 788
99 642

12 3
71 3
12 5
12 6
15 9
16 7
111 2

'
'
'
'
'
'
'

'
'
'
'
'
'

'

99 956
99 821
99 972
99 889
99 961
99 982
99 658

25 8
18 8
30 6
36 2
39 8
44 3

'
'
'
'
'
'
'

Datos del problema [ASCII] [spss-10] [sgplus-5]


1. Analizar estos datos e investigar la relacin entre estas dos variables para
predecir Y en funcin de X. Es adecuado el ajuste lineal?
2. Verifican los residuos las hiptesis estructurales?
3. Intentar encontrar un ajuste paramtrico que mejore al ajuste lineal.
Problema 4.13. En quince casas de la ciudad de Milton Keynes se observ durante un
perodo de tiempo la diferencia de temperatura promedio (en grados centgrados) entre
la temperatura en la calle y la temperatura en casa, y el consumo de gas diario en kWh.
Dif. temp

Consumo

Dif. temp

Consumo

Dif. temp

Consumo

10 3
11 4
11 5
12 5
13 1

69 81
82 75
81 75
80 38
85 89

13 4
13 6
15 0
15 2
15 3

75 32
69 81
78 54
81 29
99 20

15 6
16 4
16 5
17 0
17 1

86 35
110 23
106 55
85 50
90 02

'
'
'
'
'

'
'
'
'
'

'
'
'
'
'

'
'
'
'
'

'
'
'
'
'

'

'
'

'
'

Datos del problema [ASCII] [spss-10] [sgplus-5]


1. Hacer una grfica de los datos. Existe relacin entre estas dos variables?
2. Se puede explicar el consumo de gas por una relacin lineal con la diferencia de
temperatura?.

'
'
'
'
'
'

3. Ajustando un polinomio de mayor grado, se obtiene un mayor coeficiente de


determinacin?, qu modelo es preferible?.
Problema 4.14. Se midi la altura (en centmetros) y el peso (en kilogramos) de treinta
chicas de once aos del Heaton Meiddle School de Bradford. Estudiar estos datos y la
relacin entre ambas variables.
Peso

Altura

Peso

Altura

Peso

Altura

Peso

Altura

26
33
55
50
32
25
44

141
136
154
151
155
137
143

28
28
36
48
36
31
36

149
147
152
140
143
146
133

46
36
47
33
42
35
31

148
149
141
164
146
137
135

32
34
29
47
37
34
30

149
141

Datos del problema [ASCII] [spss-10] [sgplus-5]


1. Dibujar la grfica de estas observaciones y calcular la recta de regresin de peso
frente a altura y la de altura frente a peso.
2. En la regresin lineal de peso frente a altura, se observa alguna observacin
atpica?.
3. Existen observaciones influyentes?
4. Contrastar las hiptesis estructurales del modelo.
Problema 4.15. El contenido en hierro de las escorias de los altos hornos puede ser
determinada por una prueba qumica en laboratorio o, de forma ms barata y ms
rpida, por un test magntico. Se est interesado en estudiar la relacin entre los
resultados del test qumico y del test magntico. En particular, se desea saber si a partir
de los resultados del test magntico se pueden estimar los resultados del test qumico
sobre el contenido del hierro. Para ello, se han realizado los dos test a un conjunto de
lotes recogidos secuencialmente en el tiempo. Los resultados obtenidos los de la tabla
adjunta.
1. Analizar estos datos. Hacer un estudio descrptivo y grfico de los mismos.
2. Estudiar la relacin entre los tests.
3. Chequear las hiptesis del modelo.

Qui
25
22
17
21
20
13
16
14
28

Mag
18
20
21
20
21
15
16
15
25

Qui
19
10
23
20
19
15
16
16
36

Mag
17
19
16
15
15
13
24
22
32

Qui
12
15
15
15
15
17
18
16
40

Mag
21
24
15
20
20
25
27
22
28

Qui
18
22
20
21
21
25
22
18
33

Mag
20
24
24
23
29
27
23
19
25

Qui
21
18
20
25
20
18
19
16
33

Datos del problema [ASCII] [spss-10] [sgplus-5]


Problema 4.16. Trabajando con los datos del fichero de coches=cardata (problema-416.)
1. Estudiar la regresin lineal entre mpg (miles per galon: inversa del consumo) y la
variable regresora accel (aceleracin). Puede mejorarse este ajuste?
2. Estudiar la regresin lineal entre mpg y la variable regresora weight (peso).
3. Estudiar la regresin lineal entre mpg y la variable regresora price (precio).
4. Estudiar la regresin lineal entre mpg y la variable regresora displace.
5. Estudiar la regresin lineal entre price y la variable regresora accel
(aceleracin).
Utilizando un ajuste linealizable se mejoran los ajustes lineales estudiados? Estudiar la
existencia de datos atpicos y datos influyentes en los ajustes lineales o linealizables
obtenidos.
Datos del problema [ASCII] [spss-10] [sgplus-5]
Problema 4.17. Los siguientes datos representan el Producto Nacional Bruto de USA
y los gastos de consumo en miles de millones de dlares de 1972, entre los aos
1960-1980
Ao

1960

1961

1962

1963

1964

1965

1966

PNB

737 2

756 6

800 3

832 5

876 4

929 3

984 8

GC

452 0

461 4

482 0

500 5

528 0

557 5

585 7

Ao

1967

1968

1969

1970

1971

1972

1973

PNB

1.011 4

1.058 1

1.087 6

1.085 6

1.122 4

1.185 9

1.255 0

GC

602 7

634 4

657 9

672 1

696 8

737 1

768 5

Ao

1974

1975

1976

1977

1978

1979

1980

PNB

1.248 0

1.233 9

1.300 4

1.371 7

1.436 9

1.483 0

1.480 7

763 6

780 2

823 7

863 9

904 8

930 9

935 1

GC

'

'

'

'

'

'

'

'

'

'

'

'

'

'

'

'

'

'

'

'

'

'

'

'

'

'

'

'

'

'

'

'

'

'

'

'

Datos del problema [ASCII] [spss-10] [sgplus-5]


1. Ajustar un modelo lineal e interpretar los coeficientes de regresin estimados.
2. Hacer la grfica de los residuos estandarizados frente al tiempo. Estudiar la
hiptesis de independencia.
3. Si existe una autocorrelacin positiva, transformar los datos y ajustar el modelo
de regresin lineal a los datos (mnimos cuadrados generalizados).
Problema 4.18. Para las compaas de seguros de hogar tiene inters estimar el coste
de reemplazar algunos objetos, una de ellas estaba interesada en estimar el coste de
reemplazar una coleccin de 1554 libros a partir de una muestra de 100 libros. El coste

'

'

'

'

'

'

de los cien libros muestrales se obtena de los catlogos de las editoriales y si algn libro
estaba descatalogado su valor se calculaba utilizando el precio de un libro de similares
caractersticas. Los precios estn en peniques.
Dado que el valor de los libros era muy variable, en un intento de conseguir una
mayor exactitud, se utiliz como variable regresora para explicar el precio de un libro el
ancho del lomo del mismo (medido en milmetros). El ancho total de los 1.554 libros era
de 25.182 mm.
Los datos de los cien libros se encuentran en el fichero problema-4-18. En base a
estos resultados, se pide:
Datos del problema [ASCII] [spss-10] [sgplus-5]
1. Analizar las variables precio y ancho del libro.
2. Estudiar la existencia de una relacin entre ambas variables.
3. Estimar el coste de toda la coleccin. En una primera aproximacin sin tener en
cuenta la variable ancho de los libros y, despus, tenindola en cuenta.
Problema 4.19. En el fichero problema-4-19 se presentan dos nubes de puntos
bidimensionales (
y
) que eran generados por simulacin por Wampler para
comprobar cuando un determinado programa estadstico realizaba con exactitud el
ajuste por mnimos cuadrados.
Ajustar a estas dos nubes de puntos un polinomio qu grado de polinomio se debe
ajustar?, es el ajuste bueno?, es exacto?.
Datos del problema [ASCII] [spss-10] [sgplus-5]
Problema 4.20. Los datos de la tabla adjunta son el conjunto clsico de datos del test
psicolgico de Strong sobre retencin de memoria. Los datos se tomaban de la siguiente
manera: un conjunto de individuos memorizaban una lista de objetos inconexos y pasado
un tiempo la recordaban. La variable p indica el porcentage de retencin de memoria en
promedio y la variable t es el tiempo transcurrido. El objetivo del estudio era explicar la
variable p en funcin de t.
t

p
1
5
15
30

t
0 84
0 71
0 61
0 56
'
'
'
'

p
60
120
240
480

t
0 54
0 47
0 45
0 38
'
'
'
'

720
1440
2880
5760

0 36
0 26
0 20
0 16

p
10080

'
'
'
'

Datos del problema [ASCII] [spss-10] [sgplus-5]


1. Analizar este conjunto de datos y estudiar la relacin de la variable p respecto a
t.
2. Estudiar analtica y graficmente un modelo del tipo p = exp(- t), que sugiere
una prdida geomtrica de la memoria.
3. Estudiar analtica y graficmente un modelo del tipo log p = + t. Qu
interpretacin tiene este modelo?, Qu ajuste es mejor?.
0

Problema 4.21. En el fichero problema-4-21 se presentan datos de 78 ciervos de


Escocia en los que se estudia el crecimiento de los dientes. Para todos los ciervos de un
rebao se supone que el crecimiento de los dientes finaliza a la misma edad y despus la
velocidad de desgaste es la misma para todos los animales y constante en el tiempo. La
aleatoriedad en los resultados es debida al peso de la corona en la madurez que sigue

0 08
'

una distribucin normal y la edad de la madurez no es conocida con exactitud. A los


ciervos de la muestra se les tomo la edad y el peso en gramos del primer molar. En base
a estos datos,
1. Estudiar la relacin del peso respecto a la edad.
2. En el anlisis de regresin lineal hacer los contrastes de regresin y de linealidad.
3. Analizar los residuos, se verifican las hiptesis bsicas?.
Datos del problema [ASCII] [spss-10] [sgplus-5]
Problema 4.22. En los sitemas productivos de ovejas tiene un gran inters controlar las
necesidades energticas de cada animal ya que influyen en la prediccin de la
produccin de carne. Por ello, se ha tomado una muestra de 64 ovejas australianas y, a
cada una de ellas, se le control su peso, x (en kilogramos), y sus necesidades
energticas diarias, Y medidas en Mcal/da. Los resultados de la muestra se presentan en
el fichero problema-4-22. En base a estos datos muestrales,
1. Estudiar la relacin lineal de Y respecto a x.
2. Estimar la media de consumo energtico de las ovejas que pesan 30, 40, 50 y 60
Kgr. Calcular intervalos de confianza al 90% para estos valores. Hacer el mismo
clculo pero considerando la prediccin del consumo energtico de una oveja de
ese peso. Calcular intervalos de prediccin.
Datos del problema [ASCII] [spss-10] [sgplus-5]
Problema 4.23. En el fichero problema-4-23 se presentan dos conjuntos de datos
bidimensionales en los que no existe una relacin lineal pero si es fcil encontrar la
relacin existente entre las dos variables.
El primer conjunto tiene 25 observaciones de molinos de viento para la produccin
de energa elctrica, la variable X1 mide la velocidad del viento y la variable Y 1 mide la
corriente elctrica obtenida.
El segundo conjunto tiene 19 observaciones relativas a la produccin del papel, la
variable X2 mide la resistencia del papel fabricado y la variable Y 2 mide la proporcin
de madera en la pulpa a partir de la cual se obtiene el papel.
En ambos casos
1. Dibujar la grfica de la nube de puntos.
2. Obtener el modelo de regresin que mejor se ajusta a la nube de observaciones.
Mejora al ajuste lineal?, es el ajuste bueno?
3. Analizar los residuos.
Datos del problema [ASCII] [spss-10] [sgplus-5]
Problema 4.24. En el fichero problema-4-24 se presenta datos relativos al peso del
cuerpo (X, en kilogramos) y el peso del cerebro (Y, en gramos) de 28 especies de
animales. En base a estos datos,
1. Se observa en esta nube de observaciones algn dato atpico?
2. Transformar los datos para que se pueda hacer una grfica de los mismos.
Realizar la grfica de los datos transformados.
3. Ajustar un modelo de regresin lineal. Es el ajuste adecuado? Interpretarlo.
4. En el modelo transformado Existen datos atpicos?.
Datos del problema [ASCII] [spss-10] [sgplus-5]
Problema 4.25. La dureza de los rboles es difcil de medir directamente, sin embargo
la densidad si es relativamente fcil de medir. Por ello es de gran inters disponer de un
modelo que permita predecir la dureza de un rbol a partir de su densidad. Por este

motivo se ha tomado una muestra de 36 eucaliptos australianos y se les midi su


densidad (X) y su dureza (Y ). Los resultados obtenidos son los de la tabla adjunta.
Densidad
24 7
24 8
27 3
28 4
28 4
29 0
30 3
32 7
35 6
38 5
38 8
39 3
'
'
'
'
'
'
'
'
'
'
'
'

Dureza
484
427
413
517
549
648
587
704
979
914
1070
1020

Densidad
39 4
39 9
40 3
40 6
40 7
40 7
42 9
45 8
46 9
48 2
51 5
51 5
'
'
'
'
'
'
'
'
'
'
'
'

Dureza
1210
989
1160
1010
1100
1130
1270
1180
1400
1760
1710
2010

Densidad
53 4
56 0
56 5
57 3
57 6
59 2
59 8
66 0
67 4
68 8
69 1
69 1
'
'
'
'
'
'
'
'
'
'
'
'

Dureza
1880
1980
1820
2020
1980
2310
1940
3260
2700
2890
2740
3140

Datos del problema [ASCII] [spss-10] [sgplus-5]


En base a estos datos,
1. Estudiar el modelo de regresin lineal de Y respecto a X.
2. Ajustar a estos datos un polinomio de grado a determinar. Se mejora de forma
apreciable el ajuste lineal?
3. Con el mejor ajuste estimar la dureza media y predecir la dureza de un rbol de
densidad 20, 40, 60 y 80.
4. Calcular intervalos de confianza y de prediccin al 90% para las estimaciones del
apartado anterior.
5. Analizar los residuos del modelo ajustado.
6. Considerar una transformacin de los datos de la dureza (Y ) y ajustar un modelo
de regresin. El modelo ajustado con los datos transformados mejora al ajuste
polinmico?
Nota: Muchos de los conjuntos de datos utilizados en estos problemas han sido tomados
del libro A handbook of small data sets, editado por D.J. Hand, F. Daly, A.D. Lunn, K.J.
McConway y E Ostrowsky. Chapman & Hall.

Anda mungkin juga menyukai