ANLISIS DE VARIANZA
Se supone el caso de un fabricante y tres consumidores de latas cuyo fondo
tengan al menos 0.25 libras de recubrimiento de estao. Mediante un tratamiento
qumico, se puede medir el peso de este recubrimiento, pero desgraciadamente no se
puede repetir la experiencia con la misma muestra en lo cuatro laboratorios.
Un ensayo experimental puede consistir en cortar discos a enviar a cada
laboratorio, pero puede haber diferencias en el promedio debido: a) diferencias
sistemticas en la tcnica de medicin, b) variabilidad aleatoria.
Por otro lado, est la incgnita de cuntos discos deberan cortarse para enviar a
cada laboratorio. Una forma de determinar este valor es utilizando la desviacin
estndar de la distribucin muestral entre dos medias. Se supondr que este nmero est
en el orden de 12 por laboratorio (en total 48 discos).
La pregunta ahora es cmo seleccionar esos 48 discos de una chapa, la primera
que viene a la mente es enviar segn este formato:
Si las medias de las mediciones realizadas por cada uno de los laboratorios estn
muy dispersas, indica falta de consistencia en las mediciones. Esto puede ser porque
todos miden distinto o quiz porque la distribucin del depsito en la chapa es irregular.
Es decir, se confunde la inconsistencia de los laboratorios con la cantidad de estao
depositado en la tira.
Una solucin posible para esto sera numerar aleatoriamente los discos, por
medio de una Tabla de Nmeros Aleatorios o con una computadora, destinando a cada
uno de los laboratorios los siguientes discos:
Laboratorio A: 3, 10, 22 .
Laboratorio B: 33, 42, 8 .
Laboratorio A: 15, 12, 28 .
Laboratorio A: 45, 21, 35 .
Esta alternativa disuelve el patrn de la disposicin de estao sobre la chapa
(por ejemplo, ms espesor en el centro que en los bordes). Al aleatorizar el total de los
48 discos slo queda atribuir a variacin aleatoria las causas extraas.
Otra solucin podra ser entregar los 48 de una misma tira (experimentacin
controlada), pero los resultados seran slo aplicables a distancias fijas del extremo de la
lmina.
Rara vez se fijan todos o la mayora de los factores extraos a lo largo de un
experimento, se consigue as una estimacin de la variacin aleatoria que no est
inflada por variaciones debidas a otras causas.
Ctedra Estadstica II
Universidad de Mendoza
En la prctica, los experimentos debern planearse de tal manera que las fuente
conocidas de variabilidad sean deliberadamente consideradas sobre un rango tan
amplio como sea necesario. Ms an, debern variarse en tal forma que su variabilidad
pueda eliminarse en la estimacin de la variable aleatoria.
Un modo es repetir el experimento en varios bloques en los que la fuente
conocida de variabilidad (esto es, variables extraas) se mantienen fijas en cada bloque,
pero variando de bloque en bloque:
Tira 1
8, 4, 10
2, 6, 12
1, 5, 11
7, 3, 9
Laboratorio A
Laboratorio B
Laboratorio C
Laboratorio D
Tira 2
23, 24, 19
21, 15, 22
16, 20, 13
17, 18, 14
Tira 3
26, 29, 35
34, 33, 32
36, 29, 30
28, 31, 25
Tira 4
37, 44, 48
45, 43, 46
41, 38, 47
39, 40, 42
De este modo, las diferencias entre medias obtenidas por los 4 laboratorios, no
pueden atribuirse a variaciones entre tiras.
DISEOS COMPLETAMENTE ALEATORIOS
Se supone que el experimentador cuenta con los resultados de k muestras
aleatorias independientes, cada una de tamao n, de k diferentes poblaciones (datos
relativos a k tratamientos, k grupos, k mtodos de produccin, etc.). Interesa probar la
hiptesis de que las medias de esas k poblaciones son todas iguales.
Se denota a la j-sima observacin de la i-sima muestra por yij. El esquema
general para un criterio de clasificacin es:
Medias
Muestra 1
Muestra 2
.
Muestra i
.
Muestra k
y11
y21
yi1
yk1
y12
y22
yi2
yk2
y1j
y2j
yij
ykj
y1n
y 2n
yin
ykn
Ctedra Estadstica II
Universidad de Mendoza
i 1
1
k
i 1
1
k
i 1
1
k
i 1
1
n 1
yij yi
j 1
cada una de las varianzas muestrales si2 est basada en (n-1) grados de libertad y
entonces
est basada en k.(n-1) grados de libertad.
Por otro lado, la varianza de las k medias muestrales est dada por:
Ctedra Estadstica II
Universidad de Mendoza
son estimaciones
las muestras,
, cuando la Hiptesis Nula es falsa, por eso Ho ser rechazada si
F>F.
Con el argumento anterior se ha indicado cmo la prueba de las k medias se
puede fundamentar en la comparacin de dos estimaciones de varianzas.
Es notable el hecho de que las dos estimaciones en cuestin [excepto para los
divisores (k-1) y k.(n-1)] pueden obtenerse partiendo o analizando la varianza total de
las n.k observaciones en dos partes. La varianza muestral de las n.k observaciones est
dada por:
Demostracin:
k
i1 j1
k
n
i1 j1
y y 2
ij i
y y y y
ij i i .
i1 j1
i1
2
2
y y 2 y y y y y y
ij i
ij i i . i .
y y
i .
j1
y y n
ij i
i1
y y
i .
y como:
n
j1
y y
ij i
Universidad de Mendoza
yij y.
SST
i 1 j 1
b) Suma de Cuadrados de Error, SSE:
SSE
k ( n1)
Grados de
Libertad
k-1
k.(n-1)
n.k-1
Suma
de Media Cuadrada
Cuadrados
SS(Tr)
MS(Tr)=SS(Tr)/(k-1)
SSE
MSE=SSE/k.(n-1)
SST
F
MS(Tr)/MSE
.25
.18
.19
.23
.27
.28
.25
.30
.22
.21
.27
.28
.30
.23
.24
.28
.27
.25
.18
.24
.28
.20
.26
.34
.32
.27
.28
.20
.24
.19
.24
.18
.31
.24
.25
.24
.26
.22
.20
.28
.21
.29
.21
.22
.28
.16
.19
.21
3.21
2.72
2.76
3.00
11.69
del que se quiere probar que las medias obtenidas por cada uno de ellos es
significativamente igual (Hiptesis Nula) con =0.05. Construir una Tabla de anlisis
de varianza.
Para facilitar clculos, se utilizan las frmulas:
k
SST
i 1 j 1
yij
SS ( Tr)
1
n
Ti C
i 1
Demostracin:
Ctedra Estadstica II
Universidad de Mendoza
y y
ij i
SST
ij
y
i1 j1
k
n
2
yij 2yijy. y.
y y
ij .
i1 j1
k
n
i1 j 1
k
1
2 y ( k n )
.
( k n )
2
y k n y
ij
i1 j 1
2
yij k n y.
i1 j1
n
k
y
ij
i1 j1
( k n )
2
k n y
.
k
( k n )
k
n
y
ij
k n
i 1 j 1
2
yij C
SST
i1 j1
i1
i
k
SS( Tr)
i 1
1
n
y 2 y
.
i
y C
ij
n
i1 j1
SS( Tr)
i1
y y
i .
1 n
n
y C
ij
n
i1 j1
2
2
y ( n k) y
2
y k y
i
i1
2
Ti C
i1
k
n
yij
k n
i 1 j 1
Ti
yij
j 1
Ctedra Estadstica II
Universidad de Mendoza
Grados de
Libertad
3
44
47
Suma
de Media Cuadrada
Cuadrados
0.0130
0.0043
0.0679
0.0015
0.0809
F
2.87
Ya que F (2.87) excede a F0.05= 2.82, se rechaza la Hiptesis Nula, luego los
laboratorios no estn logrando resultados consistentes.
Un segmento de programa Matlab que realiza esta prueba trabajando sobre una
matriz experimental, se describe a continuacin:
function anova1
% Determinacion del estadistico F para un diseo completamente aleatorio
% con datos presentes en el archivo ascii cuadro.txt
% Entradas: u, matriz, obtenida del archivo ascii "cuadro.txt"
%
% Salida: F, real, Estadistico
%
load cuadro.txt;u=cuadro';n=size(u,1);k=size(u',1);
% Calculo de las medias de cada tratamiento (filas)
for i=1:k, m=0;
for j=1:n, m=m+u(j,i); end
med(i)=m;
end
gran_media=mean(med);
% Calculo de la correccion
Ctedra Estadstica II
Universidad de Mendoza
Luego ejecutando:
>> anova1
F=
2.8667
Para estimar los parmetros , 1, 2, 3 y 4 se puede emplear mnimos
cuadrados minimizando:
k
yij i2
i 1 j 1
2 yij i
i 1 j 1
k
n
yij
yij k n 0
i 1 j 1
k
n
i 1 j 1
i 1 j 1
i 1 j 1
Ctedra Estadstica II
Universidad de Mendoza
para un i dado:
n
2 yij i
j 1
j 1
yij
j 1
j 1
Ejemplo: Estimar los parmetros del modelo con un criterio de clasificacin para los
revestimientos de estao del ejemplo anterior.
11.69
1
3
0.244
48
3.21 11.69
12
48
2.76 11.69
12
48
0.024
0.0135
2.72
12
3.00
12
11.69
48
11.69
48
0.017
0.006
y11
y21
yi1
yk1
y12
y22
yi2
yk2
y1j
y2j
yij
ykj
si
1
ni 1
y y
ij
Ctedra Estadstica II
Universidad de Mendoza
SST
ni
yij
Ti 2
SS ( Tr)
i 1 j 1
ni
i 1
siendo:
ni
k
yij
N
i 1 j 1
Ti
yij
i 1
Marca A
Ctedra Estadstica II
0.5
0.0
3.2
1.4
0.0
1.0
8.6
2.9
Total
17.6
10
Universidad de Mendoza
Marca B
Total
4.7
6.2
0.0
10.5 2.1
0.8
24.3
41.9
a) Emplear Anlisis de Varianza para probar si las dos marcas difieren en en contenido
de aflatoxina, con un nivel de significancia a=0.05.
b) Probar la misma hiptesis usando la prueba t-bimuestral.
Respuesta:
a)
y1 2.2
y2 4.05
SST
y1j 3
SS ( Tr)
y. 2.2
y2j 3 2
146.25
ni yi 3
8 ( 2.2 3) 6 ( 4.05 3)
11.74
i 1
SSE = SST SS(Tr) = 146.25 11.74 = 134.51
Fuentes de
Variacin
Tratamientos
Error
Total
Grados de Suma
de Media Cuadrada
F
Libertad Cuadrados
1
11.74
11.74
12
134.51
11.21
13
146.25
1.05
Dado que 1.05 < 4.75 (valor de F, de Tablas, con =0.05, =1 y =12) se rechaza
la Hiptesis de que las dos marcas difieren en el contenido de aflatoxina.
b) El estadstico para esta prueba es:
x1 x2
n1 1 s12 n2 1 s22
2
s1
t
8.15
s2
n1 n2 n1 n2 2
n1 n2
15.48
2.2 4.05
( 8 1) 8.15 ( 6 1) 15.48
8 6 ( 8 6 2)
8 6
1.0234
Ctedra Estadstica II
11
Universidad de Mendoza
Tratamiento 1
Tratamiento 2
.
Tratamiento i
.
Tratamiento k
Medias
B1
y11
y21
yi1
ya1
B2
y12
y22
yi2
ya2
Bj
y1j
y2j
yij
Yaj
Bb
Medias
.
y1b
.
y 2b
.
yib
.
Yab
i 1
j 1
Ctedra Estadstica II
12
Universidad de Mendoza
donde:
C es el trmino de correccin
es la suma de las b observaciones para el i-simo tratamiento
es la suma de las a observaciones para el j-simo bloque
es la suma de todas las observaciones
Empleando esta sumas de cuadrados, se puede rechazar la Hiptesis Nula de que
las i son todas nulas, con un nivel de significancia si:
SS ( T r)
F Tr
MS( Tr)
a1
MSE
SSE
( a1) ( b1)
excede F con (a-1) y (a-1).(b-1) grados de libertad. La Hiptesis Nula de que todas las
i son todas nulas, con un nivel de significancia si:
Ctedra Estadstica II
13
Universidad de Mendoza
SS ( Bl)
F Bl
MS( Bl)
b1
MSE
SSE
( a1) ( b1)
excede F con (b-1) y (a-1).(b-1) grados de libertad. Ntese que las medias de los
cuadrados MS(Tr), MS(Bl) y MSE se definen otra vez como las correspondientes sumas
de cuadrados divididas entre sus grados de libertad.
La siguiente tabla resume todo el procedimiento:
Fuentes de
Variacin
Tratamientos
Bloques
Error
Total
Grados de
Libertad
a-1
b-1
(a-1).(b-1)
a.b-1
Suma de
Cuadrados
SS(Tr)
SS(Bl)
SSE
SST
Media Cuadrada
MS(Tr)=SS(Tr)/(a-1)
MS(Bl)=SS(Bl)/(b-1)
MSE=SSE/(a-1).(b-1)
FTr = MS(Tr)/MSE
FBl = MS(Bl)/MSE
Detergente A
Detergente B
Detergente C
Detergente D
Totales
Lavadora 1
45
47
48
42
182
Lavadora 2
43
46
50
37
176
Lavadora 3
51
52
55
49
207
Totales
139
145
153
128
565
Considerando los detergentes como tratamientos y las lavadoras como bloques, obtener
la Tabla de Anlisis de Varianza y probar, con un nivel de significacin 0.01, si existen
diferencias entre los detergentes y/o entre las lavadoras.
1
23-
Hiptesis Nula: 12 = 3 =4 = 0, 12 = 3 = 0
Hiptesis Alternativa: no todas las y tampoco las iguales a 0.
Nivel de significancia: =0.01.
Se rechaza Ho si F > 9.78 (este valor corresponde a F0.01 con 1y2
O si F > 10.9 (este valor corresponde a F0.01 con 1y2
4 Clculos:
a = 4 b = 3 T1. = 139 T2. = 145 T3. = 153 T4. = 128
T.1 = 182 T.2 = 176 T.3 = 203 T. . = 565
yij2 = 26867
C = 5652 / 12 = 26602
SST = 452 + 432 ++ 492 - 26602 = 265
Ctedra Estadstica II
14
Universidad de Mendoza
Grados de Suma
de Media Cuadrada
F
Libertad Cuadrados
3
111
37.0
2
135
67.5
6
19
3.2
11
265
11.6
21.1
5- Dado que FTr = 11.6 > 9.78 se Rechaza la primera Hiptesis Nula, por lo tanto hay
diferencia significativa entre la eficacia de los detergentes, y dado que FBl = 21.1 > 10.9
tambin hay diferencia significativa entre la eficacia de las lavadoras.
Un segmento de programa Matlab que realiza esta prueba trabajando sobre una
matriz experimental, se describe a continuacin:
function bloques
% Determinacion del estadistico F para un diseo en bloques aleatorios
% con datos presentes en el archivo ascii cuadro1.txt
% Entradas: u, matriz, obtenida del archivo ascii "cuadro1.txt"
%
% Salida: FTr, real, Estadistico
%
FBl, real, Estadistico
%
load cuadro1.txt;u=cuadro1';b=size(u,1);a=size(u',1);
% Calculo de la suma de todas las observaciones
T=0; for i=1:a, for j=1:b, T=T+u(j,i); end, end
C=T^2/(a*b);
% Calculo de la Suma de cuadrados total
SST=0; for i=1:a, for j=1:b, SST=SST+u(j,i)^2; end, end
SST=SST-C;
% Calculo de la Suma de cuadrados de tratamientos
SSTr=0; for i=1:a, ss=0; for j=1:b, ss=ss+u(j,i); end
SSTr=SSTr+ss^2 ;
end
SSTr=SSTr/b-C;
% Calculo de la Suma de cuadrados de bloques
SSBl=0; for j=1:b, ss=0; for i=1:a, ss=ss+u(j,i); end
SSBl=SSBl+ss^2 ;
end
SSBl=SSBl/a-C;
% Calculo de la Suma de cuadrados de error
SSE=SST-SSBl-SSTr;
FTr=SSTr/(a-1)/(SSE/((a-1)*(b-1)))
FBl=SSBl/(b-1)/(SSE/((a-1)*(b-1)))
Luego ejecutando:
>> bloques
Ctedra Estadstica II
15
Universidad de Mendoza
FTr =
11.7788
FBl =
21.5310
COMPARACIONES MLTIPLES
Con las pruebas F empleadas se demostraba si las diferencias entre varias
medias eran significativas, pero no informaban si una media en particular (o medias)
difieren en forma significativa de otra media considerada (o grupo de medias). En el
caso de los pesos de los recubrimientos puede ser importante que los laboratorios
difieran unos de los otros.
Si un experimentador tiene ante s k medias, parece razonable probar entre todos
los pares posibles, esto es efectuar k.(k-1)/2 pruebas t bimuestrales. Esto no es eficiente.
Para ello se utilizan Pruebas de Comparaciones Mltiples, y entre ellas la Prueba del
Rango Mltiple de Duncan.
Las suposiciones bsicas son, en esencia, las del anlisis de la varianza en una
dimensi para tamaos muestrales iguales.
La prueba compara el Rango de Mnima Significancia, Rp, dado por:
Rp
aqu
s r p
x
x
n
MSE
Ctedra Estadstica II
B
C
D
A
0.227 0.230 0.250 0.268
usando MSE = 0.0015 del Anlisis de Varianza:
16
Universidad de Mendoza
s
x
0.0015
12
0.011
2
2.85
3
3.00
4
3.09
3
0.033
4
0.034
= 0.011:
2
0.031
El rango de las cuatro medias es 0.268 0.227 = 0.041, que excede a R4 = 0.034,
que es el rango significativo mnimo.
Esto era de esperar, porque la prueba F indic que las diferencias entre las cuatro
medias eran significativas con a = 0.05.
Para probar que hay diferencias significativas entre tres medias adyacentes, se
obtienen los rangos de 0.038 y 0.023 respectivamente para 0.230, 0.250, 0.268 y 0.227,
0.230, 0.250. Puesto que el primero de estos valores sobrepasa a R3 = 0.033, las
diferencias correspondientes no son significativas.
Por ltimo en el caso de parejas adyacentes de medias, ningn par adyacente
tiene rango mayor que el rango significativo mnimo R2 = 0.031. Esto se resume:
donde se ha dibujado una lnea bajo cualquier conjunto de medias adyacentes para las
cuales el rango es menor que un valor correspondiente de Rp , esto es, bajo cualquier
conjunto de medias adyacentes, para las cuales las diferencias no son significativas.
Se concluye as que el Laboratorio A obtiene los pesos medios de
recubrimiento ms alto que los Laboratorios B y C.
OTROS DISEOS EXPERIMENTALES
Para el diseo de Cuadro Latino, se supone que es necesario comparar tres
tratamientos A, B y C en presencia de otras dos fuentes de variabilidad. Por ejemplo, los
tres tratamientos pueden ser tres mtodos de soldadura para conductores elctricos y las
dos fuentes de variabilidad pueden ser:
1) Diferentes operarios
2) La utilizacin de diferentes fundentes para soldar.
Si se consideran tres operarios y tres fundentes, el experimento puede disponerse
as:
Ctedra Estadstica II
17
Universidad de Mendoza
Fundente 1 Fundente 2
A
B
Operador 1
C
A
Operador 2
B
C
Operador 3
Fundente 3
C
B
A
aqu cada mtodo de soldadura se aplica slo una vez por cada operario junto con cada
fundente.
Un arreglo experimental como el descripto de denomina Cuadro Latino. Un
Cuadro Latino n x n es una arreglo cuadrado de n letras distintas, las cuales aparecen
slo una vez en cada rengln y en cada columna. Ntese que en un experimento en
Cuadro Latino de n tratamientos es necesario incluir n2 observaciones, n por cada
tratamiento.
Un experimento en Cuadro Latino sin repeticin da solo (n-1).(n-2) grados de
libertad para estimar el error experimental. De modo que tales experimentos son
efectuados en contadas ocasiones sin repeticin cuando n es pequeo.
Si existe un total de r repeticiones, el anlisis de los datos presupone el siguiente
modelo, donde yij(k)l es la observacin en el i-simo rengln, en la j-sima columna, de
la l-sima repeticin y el subndice k indica el k-simo tratamiento:
yij(k)l = + i + j + k + l + ij(k)l
0.0015
0.0112
con
12 las restricciones:
n
i 1
j 1
para i, j, k = 1, 2, , n y l = 1, 2, , r
k1
l 1
donde:
i
j
k
l
ij(k)l
es la gran media
es el efecto de la i-sima fila o rengln
es el efecto de la j-sima columna
es el efecto del k-simo tratamiento
es el efecto de la l-sima repeticin
variable aleatoria independiente normal con = 0 y varianza comn 2.
ntese que por los efectos de los renglones y los efectos de las columnas se
entienden los efectos de las dos variables extraas y que se incluyen los efectos de la
repeticin como una tercera variable extraa. k est entre parntesis ya que para un
diseo de Cuadro Latino dado, k es automticamente determinada cuando i y j se
conocen.
La hiptesis principal a probar es la Hiptesis Nula k = 0, para toda k, es decir
la Hiptesis Nula de que no existe diferencia en la eficacia de n tratamientos.
Tambin se puede probar si i = 0, para todo i y j = 0, para todo j con el fin de
comprobar si las dos variables extraas tienen algn efecto sobre el fenmeno que se
est considerando.
Mas an, se puede probar es la Hiptesis Nula l = 0, para toda l, contra la
alternativa que no todas las l son iguales a cero, y esta prueba del efecto de las
repeticiones puede ser importante si las partes del experimento , que representan los
Cuadros Latinos individuales, fueron realizados en distintos das, a diferentes
temperaturas, etc..
Ctedra Estadstica II
18
Universidad de Mendoza
Grados de
libertad
n 1
n 1
n 1
r 1
(n-1)(r.n+r-3)
r.n2 - 1
Suma de
cuadrados
SS(Tr)
SSR
SSC
SS(Rep)
SSE
SST
Cuadrados Medios
MS(Tr)=SS(Tr)/(n-1)
MSR=SSR/(n-1)
MSC=SSC/(n-1)
MS(Rep)=SS(Rep)/(r-1)
MSE=SSE/[(n-1).( r.n+r-3)
MS(Tr)/MSE
MSR/MSE
MSC/MSE
MS(Rep)/MSE
Ctedra Estadstica II
19
Universidad de Mendoza
12 = 3 = 0; 12 = 3 = 0 ; 12 = 3 = 0; 12 = 0
Hiptesis Alternativa: no todas las , , , iguales a 0.
Nivel de significancia: =0.01.
Para tratamientos, renglones y columnas se rechaza Ho si F > 7.56 (este valor
corresponde a F0.01 con 1y2
Para repeticiones se rechaza Ho si F > 10.0 (este valor corresponde a F0.01 con
1y2
4 Clculos:
n = 3 r = 2 T1.. = 81 T2.. = 79.5 T3.. = 75.5 T.1. = 70.0
T.2. = 92.0 T.3 . = 78.0 T..1 = 119.5 T..2 = 120.5 T(A) = 87.5
T(B) = 86.5
T(C) = 66.0
T = 240.0
yij(k)l2 = 3304.5
C = 2402 / 18 = 3200.0
SST = 142 + 16.52 ++ 11.52 3200.0 = 104.5
SS(Tr) = ( 87.52 + 86.52 + 66.02 ) / 6 3200.0 = 49.1
SSR = ( 812 + 79.52 +79.52 ) / 6 3200.0 = 0.2
SSC = ( 702 + 922 +782 ) / 6 3200.0 = 41.2
Ctedra Estadstica II
20
Universidad de Mendoza
Grados de Suma de
Libertad Cuadrados
Media Cuadrada
49.1
24.6
17.6
0.2
0.1
0.1
41.3
20.6
14.7
1
10
17
0.1
13.8
104.5
0.1
1.4
0.1
Media
Mtodo B
14.4
Mtodo A
14.6
B
A
D
C
C
D
A
B
D
C
B
A
Operador 1
Ctedra Estadstica II
Fundente 1
A
Fundente 2 Fundente 3
B
C
21
Universidad de Mendoza
Operador 2
Operador 3
C
B
A
C
B
A
Ctedra Estadstica II
22