Jose R. Berrendero
Departamento de Matematicas
Universidad Autonoma de Madrid
Modelos estadsticos.
El modelo unifactorial.
El contraste de igualdad de medias y la tabla de analisis de la
varianza (ANOVA).
Intervalos y contrastes para los parametros del modelo.
Comparaciones multiples.
Diagnostico del modelo.
Estructura de un modelo estadstico
6,27 5,36 6,39 4,85 5,99 7,14 5,08 4,07 4,35 4,95
3,07 3,29 4,04 4,19 3,41 3,75 4,87 3,94 6,28 3,15
4,04 3,79 4,56 4,55 4,55 4,53 3,53 3,71 7,00 4,61
Modelo:
Modelo:
Yi = + ui , i = 1, . . . , n,
donde es un parametro que representa la cosecha media (la misma para
todas las respuestas) y ui es una v.a. que recoge el efecto de otras
variables que hacen que las cosechas no sean iguales a la media.
El modelo es equivalente a:
= Y ,
Pn 2
(Y1 Y )2 + + (Yn Y )2
2 2 n i=1 Yi 2
= S = = Y
n1 n1 n
Varianza y grados de libertad
(Y1 Y ) + + (Yn Y ) = 0
(Y1 Y )2 + + (Yn Y )2
Varianza y grados de libertad
La suma de cuadrados no se puede utilizar directamente para medir la
variabilidad porque aumenta al incrementarse el numero de datos, incluso
cuando la variabilidad no aumenta.
Para corregir por n dividimos la suma de cuadrados por sus gl. Esta
operacion nos da la (cuasi)varianza:
(Y1 Y )2 + + (Yn Y )2
S2 =
n1
El modelo unifactorial
Fert. 1 6,27 5,36 6,39 4,85 5,99 7,14 5,08 4,07 4,35 4,95
Fert. 2 3,07 3,29 4,04 4,19 3,41 3,75 4,87 3,94 6,28 3,15
Fert. 3 4,04 3,79 4,56 4,55 4,55 4,53 3,53 3,71 7,00 4,61
Una variable explicativa cualitativa se llama factor. Los valores que toma
se llaman niveles. En este modelo los niveles son los distintos
tratamientos que aplicamos a las unidades experimentales.
6
Cosecha
5
4
3
1 2 3
Fertilizante
Cosecha
0 5 10 15 20 25 30
Num. parcela
Principios basicos del diseno: replicas
Muestra ni Yi. Si
1 10 5,445 0,976
2 10 3,999 0,972
3 10 4,487 0,975
Formulacion del modelo unifactorial
Si Yij representa la respuesta j para el nivel i,
Yij = i + uij , i = 1, . . . , I , j = 1, . . . , ni .
Si definimos
1 + + I
=
I
y i = i , entonces
Yij = + i + uij , i = 1, . . . , I , j = 1, . . . , ni .
Por que no comparar las tres medias de dos en dos utilizando el contraste
que ya hemos estudiado?
Cosecha
0 5 10 15 20 25 30
Num. parcela
7
6
Cosecha
4
3
0 5 10 15 20 25 30
Num. parcela
Variabilidad explicada
Cosecha
0 5 10 15 20 25 30
Num. parcela
7
6
Cosecha
4
3
0 5 10 15 20 25 30
Num. parcela
Cosecha
0 5 10 15 20 25 30
Num. parcela
Variabilidad residual
SCR es una combinacion lineal de las varianzas de cada grupo. Los grupos
de mayor tamano reciben mas peso.
Cuantos gl tiene?
Siempre se cumple:
X ni
I X I
X ni
I X
X
2 2
(Yij Y.. ) = ni (Yi. Y.. ) + (Yij Yi. )2 .
i=1 j=1 i=1 i=1 i=1
Por lo tanto:
SCT = SCE + SCR
30
25
20
15
10
1 2 3 4
Replica T 1 T 2 T 3 T1 T2 T3
1 20 22 24 45 8 15
2 19 22 24 0 30 44
3 20 22 23 10 38 2
4 21 22 25 25 12 35
Medias 20 22 24 20 22 24
Replica T1 T2 T3 T4
1 16 15 16 17
2 15 17 16 16
3 17 16 17 15
4 16 16 15 16
Media 16 16 16 16
Replica T1 T2 T3 T4
1 19.5 15 16.5 13
2 19.5 15 16.5 13
3 19.5 15 16.5 13
4 19.5 15 16.5 13
Media 19.5 15 16.5 13
Cuadrados medios y estadstico F
Los cuadrados medios se obtienen dividiendo las sumas de cuadrados por
sus grados de libertad.
SCE/(I 1)
F =
SCR/(n I )
0.6
0.4
0.2
0.0
0 2 4 6 8
x
Tablas de la distribucion F
n1 y n2 : grados de libertad del numerador y del denominador respectivamente
Fn1 ,n2 ; SAGE 4.7.1
Ejemplo: para n1 = 5, n2 = 10 y = 0.01, F5,10;0.01 = 5.636, significa que P (F5,10 > 5.636) = 0.01
n1
n2 1 2 3 4 5 6 7 8 9 10 12 15 16 18 20 24
1 4052 5000 5403 5625 5764 5859 5928 5981 6022 6056 6106 6157 6170 6192 6209 6235
2 98.50 99.00 99.17 99.25 99.30 99.33 99.36 99.37 99.39 99.40 99.42 99.43 99.44 99.44 99.45 99.46
3 34.12 30.82 29.46 28.71 28.24 27.91 27.67 27.49 27.35 27.23 27.05 26.87 26.83 26.75 26.69 26.60
4 21.20 18.00 16.69 15.98 15.52 15.21 14.98 14.80 14.66 14.55 14.37 14.20 14.15 14.08 14.02 13.93
5 16.26 13.27 12.06 11.39 10.97 10.67 10.46 10.29 10.16 10.051 9.888 9.722 9.680 9.610 9.553 9.466
6 13.75 10.92 9.780 9.148 8.746 8.466 8.260 8.102 7.976 7.874 7.718 7.559 7.519 7.451 7.396 7.313
7 12.25 9.547 8.451 7.847 7.460 7.191 6.993 6.840 6.719 6.620 6.469 6.314 6.275 6.209 6.155 6.074
8 11.26 8.649 7.591 7.006 6.632 6.371 6.178 6.029 5.911 5.814 5.667 5.515 5.477 5.412 5.359 5.279
9 10.56 8.022 6.992 6.422 6.057 5.802 5.613 5.467 5.351 5.257 5.111 4.962 4.924 4.860 4.808 4.729
10 10.04 7.559 6.552 5.994 5.636 5.386 5.200 5.057 4.942 4.849 4.706 4.558 4.520 4.457 4.405 4.327
11 9.646 7.206 6.217 5.668 5.316 5.069 4.886 4.744 4.632 4.539 4.397 4.251 4.213 4.150 4.099 4.021
12 9.330 6.927 5.953 5.412 5.064 4.821 4.640 4.499 4.388 4.296 4.155 4.010 3.972 3.909 3.858 3.780
13 9.074 6.701 5.739 5.205 4.862 4.620 4.441 4.302 4.191 4.100 3.960 3.815 3.778 3.716 3.665 3.587
14 8.862 6.515 5.564 5.035 4.695 4.456 4.278 4.140 4.030 3.939 3.800 3.656 3.619 3.556 3.505 3.427
15 8.683 6.359 5.417 4.893 4.556 4.318 4.142 4.004 3.895 3.805 3.666 3.522 3.485 3.423 3.372 3.294
16 8.531 6.226 5.292 4.773 4.437 4.202 4.026 3.890 3.780 3.691 3.553 3.409 3.372 3.310 3.259 3.181
17 8.400 6.112 5.185 4.669 4.336 4.102 3.927 3.791 3.682 3.593 3.455 3.312 3.275 3.212 3.162 3.084
18 8.285 6.013 5.092 4.579 4.248 4.015 3.841 3.705 3.597 3.508 3.371 3.227 3.190 3.128 3.077 2.999
19 8.185 5.926 5.010 4.500 4.171 3.939 3.765 3.631 3.523 3.434 3.297 3.153 3.116 3.054 3.003 2.925
20 8.096 5.849 4.938 4.431 4.103 3.871 3.699 3.564 3.457 3.368 3.231 3.088 3.051 2.989 2.938 2.859
21 8.017 5.780 4.874 4.369 4.042 3.812 3.640 3.506 3.398 3.310 3.173 3.030 2.993 2.931 2.880 2.801
22 7.945 5.719 4.817 4.313 3.988 3.758 3.587 3.453 3.346 3.258 3.121 2.978 2.941 2.879 2.827 2.749
23 7.881 5.664 4.765 4.264 3.939 3.710 3.539 3.406 3.299 3.211 3.074 2.931 2.894 2.832 2.781 2.702
24 7.823 5.614 4.718 4.218 3.895 3.667 3.496 3.363 3.256 3.168 3.032 2.889 2.852 2.789 2.738 2.659
25 7.770 5.568 4.675 4.177 3.855 3.627 3.457 3.324 3.217 3.129 2.993 2.850 2.813 2.751 2.699 2.620
26 7.721 5.526 4.637 4.140 3.818 3.591 3.421 3.288 3.182 3.094 2.958 2.815 2.778 2.715 2.664 2.585
27 7.677 5.488 4.601 4.106 3.785 3.558 3.388 3.256 3.149 3.062 2.926 2.783 2.746 2.683 2.632 2.552
28 7.636 5.453 4.568 4.074 3.754 3.528 3.358 3.226 3.120 3.032 2.896 2.753 2.716 2.653 2.602 2.522
29 7.598 5.420 4.538 4.045 3.725 3.499 3.330 3.198 3.092 3.005 2.868 2.726 2.689 2.626 2.574 2.495
30 7.562 5.390 4.510 4.018 3.699 3.473 3.304 3.173 3.067 2.979 2.843 2.700 2.663 2.600 2.549 2.469
35 7.419 5.268 4.396 3.908 3.592 3.368 3.200 3.069 2.963 2.876 2.740 2.597 2.560 2.497 2.445 2.364
40 7.314 5.179 4.313 3.828 3.514 3.291 3.124 2.993 2.888 2.801 2.665 2.522 2.484 2.421 2.369 2.288
La region crtica
R = {F > FI 1,nI ; }
Descriptivos
cosecha
ANOVA
cosecha
Suma de
Total 36,445 29
Coeficiente de determinacion
SCE
R2 =
SCT
Yij = Yi.
Observaciones:
Siempre se verifica que Yij = Yij + eij .
Cuanto vale la media de los residuos?
Que relacion hay entre SCR y los residuos?
Estimacion de la varianza
Distribucion de SR2 :
PI
SCR (n I )SR2 i=1 (ni 1)Si2
= = 2nI
2 2 2
2
P[ > 15.99] = 0.10
2
Tabla de la distribucion
0.995 0.99 0.975 0.95 0.9 0.75 0.5 0.25 0.1 0.05 0.025 0.01 0.005
1 3.93E-05 1.57E-04 9.82E-04 3.93E-03 1.58E-02 0.102 0.455 1.323 2.71 3.84 5.02 6.63 7.88 1
2 1.00E-02 2.01E-02 5.06E-02 0.103 0.211 0.575 1.386 2.77 4.61 5.99 7.38 9.21 10.60 2
3 7.17E-02 0.115 0.216 0.352 0.584 1.213 2.37 4.11 6.25 7.81 9.35 11.34 12.84 3
4 0.207 0.297 0.484 0.711 1.064 1.923 3.36 5.39 7.78 9.49 11.14 13.28 14.86 4
5 0.412 0.554 0.831 1.145 1.610 2.67 4.35 6.63 9.24 11.07 12.83 15.09 16.75 5
6 0.676 0.872 1.237 1.635 2.20 3.45 5.35 7.84 10.64 12.59 14.45 16.81 18.55 6
7 0.989 1.239 1.690 2.17 2.83 4.25 6.35 9.04 12.02 14.07 16.01 18.48 20.3 7
8 1.344 1.647 2.18 2.73 3.49 5.07 7.34 10.22 13.36 15.51 17.53 20.1 22.0 8
9 1.735 2.09 2.70 3.33 4.17 5.90 8.34 11.39 14.68 16.92 19.02 21.7 23.6 9
10 2.16 2.56 3.25 3.94 4.87 6.74 9.34 12.55 15.99 18.31 20.5 23.2 25.2 10
11 2.60 3.05 3.82 4.57 5.58 7.58 10.34 13.70 17.28 19.68 21.9 24.7 26.8 11
12 3.07 3.57 4.40 5.23 6.30 8.44 11.34 14.85 18.55 21.0 23.3 26.2 28.3 12
13 3.57 4.11 5.01 5.89 7.04 9.30 12.34 15.98 19.81 22.4 24.7 27.7 29.8 13
14 4.07 4.66 5.63 6.57 7.79 10.17 13.34 17.12 21.1 23.7 26.1 29.1 31.3 14
15 4.60 5.23 6.26 7.26 8.55 11.04 14.34 18.25 22.3 25.0 27.5 30.6 32.8 15
16 5.14 5.81 6.91 7.96 9.31 11.91 15.34 19.37 23.5 26.3 28.8 32.0 34.3 16
17 5.70 6.41 7.56 8.67 10.09 12.79 16.34 20.5 24.8 27.6 30.2 33.4 35.7 17
18 6.26 7.01 8.23 9.39 10.86 13.68 17.34 21.6 26.0 28.9 31.5 34.8 37.2 18
19 6.84 7.63 8.91 10.12 11.65 14.56 18.34 22.7 27.2 30.1 32.9 36.2 38.6 19
20 7.43 8.26 9.59 10.85 12.44 15.45 19.34 23.8 28.4 31.4 34.2 37.6 40.0 20
21 8.03 8.90 10.28 11.59 13.24 16.34 20.3 24.9 29.6 32.7 35.5 38.9 41.4 21
22 8.64 9.54 10.98 12.34 14.04 17.24 21.3 26.0 30.8 33.9 36.8 40.3 42.8 22
23 9.26 10.20 11.69 13.09 14.85 18.14 22.3 27.1 32.0 35.2 38.1 41.6 44.2 23
24 9.89 10.86 12.40 13.85 15.66 19.04 23.3 28.2 33.2 36.4 39.4 43.0 45.6 24
25 10.52 11.52 13.12 14.61 16.47 19.94 24.3 29.3 34.4 37.7 40.6 44.3 46.9 25
26 11.16 12.20 13.84 15.38 17.29 20.8 25.3 30.4 35.6 38.9 41.9 45.6 48.3 26
27 11.81 12.88 14.57 16.15 18.11 21.7 26.3 31.5 36.7 40.1 43.2 47.0 49.6 27
28 12.46 13.56 15.31 16.93 18.94 22.7 27.3 32.6 37.9 41.3 44.5 48.3 51.0 28
29 13.12 14.26 16.05 17.71 19.77 23.6 28.3 33.7 39.1 42.6 45.7 49.6 52.3 29
30 13.79 14.95 16.79 18.49 20.6 24.5 29.3 34.8 40.3 43.8 47.0 50.9 53.7 30
40 20.7 22.2 24.4 26.5 29.1 33.7 39.3 45.6 51.8 55.8 59.3 63.7 66.8 40
50 28.0 29.7 32.4 34.8 37.7 42.9 49.3 56.3 63.2 67.5 71.4 76.2 79.5 50
60 35.5 37.5 40.5 43.2 46.5 52.3 59.3 67.0 74.4 79.1 83.3 88.4 92.0 60
70 43.3 45.4 48.8 51.7 55.3 61.7 69.3 77.6 85.5 90.5 95.0 100.4 104.2 70
80 51.2 53.5 57.2 60.4 64.3 71.1 79.3 88.1 96.6 101.9 106.6 112.3 116.3 80
90 59.2 61.8 65.6 69.1 73.3 80.6 89.3 98.6 107.6 113.1 118.1 124.1 128.3 90
100 67.3 70.1 74.2 77.9 82.4 90.1 99.3 109.1 118.5 124.3 129.6 135.8 140.2 100
Z
-2.58 -2.33 -1.96 -1.64 -1.28 -0.674 0.000 0.674 1.282 1.645 1.96 2.33 2.58 Z
Intervalos de confianza para i y 2
Un IC para 2 (nivel 1 ) es:
" # " #
(n I )S 2 (n I )S 2
SCR SCR
IC1 ( 2 ) = , = R
, R
2nI ,/2 2nI ,1/2 2nI ,/2 2nI ,1/2
El error tpico de i = Yi. es SR / ni .
Bilateral: H0 : i = i frente a H1 : i 6= i
|Yi. i |
R= > tnI ,/2
SR / ni
Yi. i
R= > tnI ,
SR / ni
IC para i j :
" s #
1 1
IC1 (i j ) = (Yi. Yj. ) tnI ,/2 SR +
ni nj
Calcular = T /m.
Para que el nivel de significacion global sea T llevar a cabo cada
contraste individual a nivel .
Para que el nivel de confianza global sea 1 T calcular cada IC
individual a nivel 1 .
Por ejemplo si queremos comparar todos los pares de medias, tenemos que
contrastar m = I (I 1)/2 hipotesis de la forma H0 : i = j frente a
H1 : i 6= j .
Total 36,445 29
Comparaciones mltiples
cosecha
Bonferroni
(I) (J)
fertilizant fertilizant Diferencia de
e e medias (I-J) Error tpico Sig. Intervalo de confianza al 95%
Cuando las varianzas son distintas en las poblaciones se dice que hay
heterocedasticidad.
1.0
0.5
0.0
Residuos
Residuos
Residuos
0.0
1
0.5
0.5
2
1.0
1.0
1.0 1.5 2.0 2.5 3.0 1.0 1.5 2.0 2.5 1.5 2.0 2.5 3.0 3.5
0.6
1.5
0.5
0.4
1.0
0.2
0.5
Residuos
Residuos
Residuos
0.0
0.0
0.0
0.2
0.5
0.5
0.4
1.0
0.6
1.0
1.0 1.5 2.0 2.5 3.0 1.5 2.0 2.5 3.0 1.0 1.5 2.0 2.5 3.0
1
Residuos
Valores ajustados
En este ejemplo:
max{S1 , S2 , S3 }
=
mn{S1 , S2 , S3 }
La hipotesis de normalidad
1.5
2
2
1.0
0.5
1
1
0.0
0.5
0
1
1.0
1
1.5
2.0
2
2 1 0 1 2 2 1 0 1 2 2 1 0 1 2
2
1
1
1
0
0
1
1
2 1 0 1 2 2 1 0 1 2 2 1 0 1 2
Cuales de estas muestras (n = 50) proceden de una
distribucion normal?
1.0
2
0.8
0
0.6
2
0.4
4
0.2
2
6
0.0
2 1 0 1 2 2 1 0 1 2 2 1 0 1 2
2
8
1
6
0
4
1
2
2
0
2 1 0 1 2 2 1 0 1 2 2 1 0 1 2
Datos de fertilizantes
Histograma Grfico de probabilidad
3
0.4
2
0.3
1
Density
0.2
0
0.1
0.0
2 1 0 1 2 3 2 1 0 1 2
residuos
Soluciones
Ejemplo:
sociedad desayuno y rendimiento escolar Salud
desayunan mal cr
valorado todos los macronu-
Fuente: El Pas, 11 de trientes, protenas, hidratos de
carbono y grasas, y los micronu-
rinden menos
trientes ms importantes, como
noviembre de 2008. hierro, calcio, sodio, vitaminas
C y del grupo B. Pero hay mu-
La po
chos ms que pueden estar rela-
Slo un tercio de los chicos de 12 a 17 cionados con la funcin cogniti-
Grupo 1 2 3 4 5
ni 21 125 291 15 15
Media 7,17 6,84 6,61 6,48 6,18
Si 1,74 0,30 0,16 0,01 1,89
Sumas de cuadrados y estadstico F
SCE/(I 1) 14,02/4
F = = 12,54
SCR/(n I ) 129,15/462
Tabla ANOVA
F4,462,0,05 2,39
Los datos aportan evidencia a nivel = 0,05 de que las medias no son
iguales, es decir, el tipo de desayuno influye en la nota media.