ANALISIS DE LAS
VARIANZAS
En
particular, con el
trmino tratamiento
se
identifican
las
poblaciones diferentes
que se examinan.
5
Ing. William len Velsquez
EJEMPLO DIDACTICO
El gerente de un centro financiero, desea comparar la productividad, medida por
el nmero de clientes atendidos entre tres empleados.
Selecciona cuatro das en forma aleatoria y se registra el nmero de clientes
atendidos por cada empleado.
Los resultados son:
Walter
Willy
Kike
55
66
47
54
76
51
59
67
46
56
71
48
EJEMPLO DIDACTICO
Habr alguna diferencia en el nmero de clientes atendidos?
EJEMPLO DIDACTICO
Walter
Kike
Willy
Servicio al cliente
Walter
Kike
Willy
Servicio al cliente
8
La prueba ANOVA
Si se desea determinar si varias medias muestrales provienen
de una sola poblacin o de poblaciones con medias diferentes.
Lo que se hace en realidad, es que estas medias muestrales se
comparan mediante sus varianzas.
La prueba ANOVA
10
La prueba ANOVA
Se definir algunos conceptos que nos ayudaran a entender mejor en
problemas posteriores, a travs del ejemplo planteado.
11
EJEMPLO DIDACTICO
X G 58
Ing. William len Velsquez
12
EJEMPLO DIDACTICO
SS= (55-58)2+(54-58)2+(59-58)2+(56-58)2+
(66-58)2+(76-58)2+(67-58)2+(71-58)2+
(47-58)2+(51-58)2+(46-58)2+(48-58)2=
SS= 1082.
13
EJEMPLO DIDACTICO
Luego se divide esta variacin total en dos componentes:
SS = SST + SSE
Para
14
La prueba ANOVA
VARIACIN DE TRATAMIENTO (SST) Suma de las diferencias elevadas al
cuadrado entre la media de cada tratamiento y la media global
15
Ing. William len Velsquez
EJEMPLO DIDACTICO
EJEMPLO DIDACTICO
La suma de los cuadrados debida a los
tratamientos es:
La prueba ANOVA
La otra fuente de variacin se le conoce como componente aleatoria o
componente de error.
18
EJEMPLO DIDACTICO
Las medias de
cada empleado
Walter es 56
Willy es 70
Kike es 48
19
EJEMPLO DIDACTICO
En resumen:
La suma de la diferencia entre el valor particular y la media global elevado al
cuadrado es la variacin total, y es igual 1082.
=
Ing. William len Velsquez
90
+
20
La prueba ANOVA
El estadstico de prueba, es la razn de los dos estimados de la varianza poblacional,
se determina a partir de la siguiente ecuacin:
21
La prueba ANOVA
S 2T m 1
F 2
S E nm
m-1
n -m
22
EJEMPLO DIDACTICO
El primer estimado de la varianza poblacional
entre los tratamientos, es decir, de la diferencia
entre las medias.
ste es 992/2.
Por qu se divide entre 2?
Recuerde que para encontrar una varianza muestral ,
se divide entre el nmero de observaciones menos
uno (n-1).
Entre grupos
23
EJEMPLO DIDACTICO
24
EJEMPLO DIDACTICO
Por tanto
S 2T m 1
F 2
S E nm
Entre grupos
Dentro de cada grupos
25
EJEMPLO DIDACTICO
Como esta razn es muy distinta a 1, se concluye que las medias de los
tratamientos no son iguales.
Por lo tanto hay una diferencia en el nmero medio de clientes atendidos
por los tres empleados.
Al igual que en la prueba de hiptesis de dos muestras y una muestra se
sigue la regla de los cinco pasos.
26
27
El problema
Se tiene varias medias muestrales y se desea
saber si realmente son evidencia de una
diferencia entre los diferentes grupos.
28
Esquema ANOVA
Variable Independiente o
Explicativa
Variable dependiente o
Respuesta
Cualitativa
Cuantitativa
Y
Medicin que puede
RESPONDER a los varios
posibles tratamientos del
factor estudiado
29
La Hiptesis
Ho: No hay relacin entre X e Y
Ho: Las medias de Y en los diferentes grupos son
iguales
Ho: 1 = 2 = 3
Ha:
30
Lnea 2
Lnea 3
Produccin promedio
(unidades)
11.1
15.9
22.7
Desviacin estndar
(unidades)
5.6
6.2
5.9
Base n
244
206
139
31
Lnea 2
Lnea 3
Media
general
Produccin
promedio
15.5
15.5
15.5
15.5
Base (n)
244
206
139
589
32
Media general
Y=
Error aleatorio
Ing. William len Velsquez
33
En el ejemplo
X es el factor analizado:
variable cualitativa
Y : cantidad producida
La
34
Resultados de ANOVA
Efecto del factor Lnea de Produccin
35
Supuestos de ANOVA
La dispersin debe ser la misma en cada grupo
o categora (igualdad de varianza)
La distribucin de las observaciones en cada
grupo debe ser normal
ANOVA es ms sensible al primer supuesto que la segundo
36
Ejemplo 1
Una gran ciudad est dividida en cuatro distritos. El jefe de polica quiere
determinar si hay alguna diferencia en el nmero promedio de infracciones
cometidos en cada distrito.
Se registr el nmero de infracciones reportados en cada distrito en una
muestra de seis das.
Al nivel de significancia 0,05; puede el funcionario concluir que hay diferencia
en el nmero promedio de infracciones?
Distrito 01
Distrito 02
Distrito 03
Distrito 04
37
Ejemplo 1
a) Formulacin de las hiptesis
Ho: 1 = 2 = 3 = 4
H1: Al menos una de las i es diferente
38
Ejemplo 1
c) Clculo del valor del estadstico de la prueba:
Distrito 01
x (T)
n
x2
13
15
14
15
14
15
86
x2
Distrito 02
169
225
196
225
196
225
21
13
18
19
18
19
108
x2
Distrito 03
441
169
324
361
324
361
1236
12
14
15
13
12
15
81
x2
Distrito 04
144
196
225
169
144
225
1980
16
17
18
15
20
18
104
total
x2
256
289
324
225
400
324
1103
1818
x
379
x2
6137
39
Ejemplo 1
=
24
= 151.958
(86)2 (108)2
(81)2 (104)2
(379)2
SST=------ + ------ + ------ + -------- - -------6
6
6
6
24
SST= 1232.67
+ 1944.00 +
1093.50
1802.67
5985.04
SSE=SSTotal SST
SSE=151.958 87.79 =64.188
40
87.79
Ejemplo 1
Suma de
Cuadrados
G.L.
Media
Cuadrado
Tratamientos
Error
87.770
64.188
3
20
29.256
3.2094
Total
151.958
23
F. Variacin
F
9.118
d) Criterio de decisin
41
Ejemplo 2
Empresa2
Empresa3
Empresa4
12
14
18
12
10
14
12
10
12
16
14
16
12
10
42
Ejemplo 2
a) Formulacin de las hiptesis
Ho:1 = 2 = 3 = 4
H1: Al menos una de las i es diferente
43
Ejemplo 2
C) Obtencin del F de los datos de la muestra
Empresa 01
X2
Empresa 02
X2
Empresa 03
X2
Empresa 04
X2
Total
44
Ejemplo 2
SStotal X
2
X
SST
T c n
n
c
45
Ejemplo 2
Como el valor Fcrtico 3.71 es mayor que el valor Fcalculado de 2.360 no se rechaza
la Ho, y se concluye que no existe alguna diferencia entre las cuatro empresas, en el
nmero medio de meses antes de recibir un aumento de sueldo
46
Ejemplo 3
Los miembros de un equipo ciclista se dividen al azar en tres grupos que
47
Ejemplo 3
Los tiempos empleados fueron los siguientes
Mtodo I
Mtodo II
Mtodo III
15
16
14
13
13
12
14
15
17
15
16
14
11
14
11
A un nivel de confianza del 95% Puede considerarse que los tres mtodos producen
resultados equivalentes? O por el contrario Hay algn mtodo superior a los dems?
48
Ejemplo 3
Se calcula los totales y los cuadrados de los totales divididos por el numero de
observaciones
49
Ejemplo 3
X
2984
2940
nc
SS = SST + SSE
SST = SS -SSE
50
Ejemplo 3
Los cuadrados medios sern:
MSA=
CM(entre) = 26,8/2 = 13,4
MSerror= CM(intra) = 17,2/12 = 1,43
S m 1
F 2
S E nm
2T
51
Ejemplo 3
52
Ejemplo 4
Un estudio muestra en la pantalla de cuatro computadores una lista de palabras
sin sentido con procedimientos diferentes, asignados aleatoriamente a un grupo
de personas.
Luego se les realiza una prueba de memoria de dichas palabras, obtenindose los
siguientes resultados:
53
Ejemplo 4
Solucin:
Calcular los totales y los cuadrados de los totales divididos por el nmero de
observaciones:
54
Ejemplo 4
Luego calcular los cuadrados de las observaciones y su total
55
Ejemplo 4
A partir de estas cantidades bsicas calcular las Sumas de Cuadrados:
=
=
56
Ejemplo 4
Por lo tanto el estadstico de prueba ser:
27.3
=7.0
3.9
Conclusin
Como el F calculado es mayor que el Fcritico se rechaza
la hiptesis nula y se concluye que los cuatro
procedimientos de presentacin producen diferencias
significativas.
Ing. William len Velsquez
57
59
Media general
Efecto del tratamiento
especfico del primer factor
Y=
60
Media general
Y=
Error aleatorio
Ing. William len Velsquez
61
62
Ho : 1 2 3 ......... a
Ha : A lg unas. ' s.son.diferentes
Para el factor de bloqueo en columnas
63
Maquinas
Maq 1
Maq 2
Maq 3
Ing. William len Velsquez
65
ANOVA de 2 factores
Suma de cuadrados, gl. y Cuadrado medio para el factor de bloqueo (en cols)
SCBl
a( X
X)
j 1
gl.SCBl b 1
CMBl SCBl /( b 1)
Ing. William len Velsquez
66
67
MCTr
Fc
MCE
Ftabla FALFA , g l. S CTr, g l. S CE
68
MCBl
Fc
MCE
Ftabla FALFA , g l. S CBl, g l. S CE
69
FUENTE DE VARIACIN
SUMA DE
CUADRADOS
GRADOS DE CUADRADO
LIBERTAD
MEDIO
VALOR F
SCTR
a-1
CMTR
CMTR/CME
SCBl
b-1
CMBL
CMBL/CME
SCE
(a-1)(b-1)
CME
Variacin total
SCT
n-1
CMT
Regla: No rechazar si la F de la muestra es menor que la F de tabla para una cierta alfa
70
Distribucin F
Ftabla
Alfa
Zona de no rechazo
Zona de no rechazo de Ho
O de no aceptar Ha
Zona de rechazo
De Ho o aceptar Ha
Fc: Tr o Bl
71
72
Ejemplo 1
Se ha diseado una prueba de vocabulario para detectar la afinidad
hacia la mecnica.
73
Ejemplo 1
Las calificaciones (cantidad de palabras bien definidas) de las personas
clasificadas de acuerdo a las dos variables fueron las siguientes:
Urbano
C
p
a
a
n
l
t d a
i e b
d
r
a
a
d
s
Hombre
4
9
9
10
Ing. William len Velsquez
Rural
Mujer
1
4
5
6
Hombre
3
7
7
7
Mujer
4
4
4
8
74
Ejemplo 1
75
Pasos
1.- Establecer Hiptesis
Se tiene que establecer hiptesis para cada uno de los tratamientos y para
la interaccin de ambos:
a)
Primer tratamiento:
Ho: Con respecto al sexo no existe diferencia en las calificaciones
obtenidas, que mide la afinidad hacia la mecnica
76
Ejemplo 1
1.- Establecer Hiptesis
b) Respecto al segundo tratamiento:
Ho: Con respecto al lugar donde viven no existe diferencia en las
calificaciones obtenidas, que mide la afinidad hacia la mecnica
Ha: Con respecto al lugar donde viven existe diferencia en las
calificaciones obtenidas, que mide la afinidad hacia la mecnica
77
Ejemplo 1
78
Ejemplo 1
2.- Establecer el Criterio de Contraste
a=2
b=2
n=16
gl T1
gl T2
gl Iter
gl Tot
gl SCE
a-1
b-1
(a-1)(b-1)
n-1
1
1
1
15
12
Gl T1 =1
Gl SCE= 12
F= 4 .75
Gl T2 =1
Gl SCE= 12
F= 4 .75
Gl Iter =1
Gl SCE= 12
F= 4 .75
79
Ejemplo 1
3.- Calcular el Estadstico de Prueba
Sumatoria de los totales
Urbano
X =
X =
n
Rural
Hombre
x2
Mujer
x2
Hombre
x2
Mujer
x2
4
9
9
10
16
81
81
100
1
4
5
6
1
16
25
36
3
7
7
7
9
49
49
49
4
4
4
8
16
16
16
64
32
16
278
24
78
20
156
92
112
624
16
4
80
Ejemplo 1
FC
Ing. William len Velsquez
92
16
529
81
Ejemplo 1
Clculo de la Suma Total de Cuadrados
SCTotal = X 2 -
FC
= 624 - 529 = 95
82
Ejemplo 1
Calcular la suma de cuadrados por cada tipo de tratamiento
SCT1 (por el lugar donde viven)
83
Ejemplo 1
Calcular la suma de cuadrados por cada tipo de tratamiento
SCT2 (por sexo)
Hombre
Mujer
84
Ejemplo 1
Calcular la suma de cuadrados por grupos
85
Ejemplo 1
Calcular la suma de cuadrados de la interaccin de los dos tratamientos
SCI = SCG SCT1 SCT2 =
= 35 1 25 = 9
86
Ejemplo 1
Construir la Tabla ANOVA
FUENTE
TRATAMIENTO 1
TRATAMIENTO 2
POR GRUPOS
INTERACCION
ERROR
TOTAL
SC
1.0
25.0
35
9.0
60
95
GL
1
1
MC
1
25
F
0.2
5
1
12
15
9
5
1.8
87
Ejemplo 02
4.- Tomar Decisin y Conclusin
Decisin
FDATOS
Conclusin
FT1= 4 .75
0.2
Se rechaza la Ho
FT2= 4 .75
No se rechaza la Ho
1.8
No se rechaza la Ho
FCRITICO
FCrtico
FINT= 4 .75
Como los Estadsticos de Prueba, en los casos de las variables de localidad (F*1 = 0.2) y la
combinacin de sexo y localidad (F*i =1.8) son mas pequeos que sus respectivos criterios de
contraste (F = 4.75), en estos casos no se rechaza la hiptesis nula,
Mientras que en el caso del sexo el Estadstico de Prueba (F*2 = 5.0) es mas grande que el
Criterio de Contraste (F = 4.75), entonces por lgica inferimos que F* queda dentro de la zona
crtica y por lo tanto se rechaza la hiptesis nula por lo tanto aceptamos la hiptesis alterna
Ing. William len Velsquez
88
Ejemplo 1
y la conclusin :
89
Ejemplo 02
El departamento de nutricin de cierta universidad
lleva a cabo un estudio para determinar si hay
diferencia o no en el contenido de cido ascrbico
entre tres diferentes marcas de concentrado de jugo
de naranja.
90
Ejemplo 02
Los resultados, en miligramos de cido ascrbico por litro, son los siguientes:
MARCA
RICA
BUENA
BARATA
0
52.6
49.8
56.0
49.6
52.5
51.8
54.2
46.5
48.0
48.4
52.0
53.6
TIEMPO ( DAS )
3
49.4
49.2
42.8
53.2
48.8
44.0
44.0
42.4
48.0
47.0
48.2
49.6
7
42.7
40.4
49.2
42.0
48.5
45.2
48.8
47.6
44.0
43.2
43.3
47.6
91
Ejemplo 02
a)
Ha: Los contenidos de cido ascrbico por tiempo de congelamiento son diferentes
Ho: Los contenidos de cido ascrbico son iguales debido a la interaccin de las dos variables.
Ha: Los contenidos de cido ascrbico son diferentes debido a la interaccin de las dos
variables.
92
Ejemplo 2
2.-
a
3
b
3
n
36
Gl T1 =2
Gl SCE= 27
F=3.35
gl T1
gl T2
gl Iter
gl Tot
gl SCE
a-1
b-1
(a-1)(b-1)
n-1
2
2
4
35
27
3.35
Gl T2 =2
Gl SCE= 27
F= 3.35
3.35
Gl Iter =4
Gl SCE= 27
F=2.73
2.73
93
Ejemplo 02
Elaborar la tabla ANOVA
n
RICA
BUENA
BARATA
52.6
49.8
56
49.6
52.5
51.8
54.2
46.5
48
48.4
52
53.6
49.4
42.8
48.8
44
48
48.2
7
49.2
53.2
44
42.4
47
49.6
42.7
40.4
49.2
42
48.5
45.2
48.8
47.6
44
43.2
43.3
47.6
Tratamientos
615
566.6
542.5
12
12
12
12
577.2
12
559.6
12
587.3
1724.1
1724.1
36
94
Ejemplo 02
1- Clculo del Factor de correccin
( X )
FC
n
Ing. William len Velsquez
(1724.1) 2 2972520.81
2
2972520.81
FC
----------------
82570.0225
36
FC
82570
95
Ejemplo 02
2- Clculo de la Suma cuadrado de totales
SCTotales X 2 FC
SCTotales=
Ing. William len
Velsquez
83102.01 -
82570 =
531.9875
96
Ejemplo 02
3- Clculos de los tratamientos
X/ n0
2
X
SCT1
FC
n
X/ n3
X/ n7
6152
566.6 2 542.52
SCT1
FC
12
12
12
TIEMPO
SCT1
SCT1=
31518.75
26752.96
24525.52
- 82570.02
2
X
n FC 82797.23 82570.02
SCT1=
82797.23
82570.02
227.212
97
Ejemplo 02
2
X
SCT2
FC
n
X/ nBUENA
X/ nRICA
X/ nBARATA
- FC
577.2
559.66
587.3
SCT2
FC
12
12
12
MARCA
SCT2
27763.32
26096.01
2
X
n 82602.77
SCT =
82602.77
82570.02
32.752
28743.44
82570.02
Ejemplo 02
4- Calcular la suma de cuadrados por bloques
SGG
SCG
203.1
=
+
+
FC
41249.61
10312.4
4
10312.40 +
10201 +
11014.50 +
9467.29 +
8028.16 +
9292.96 +
n=4
RICA
BUENA
0
203.1
202
3
194.6
179.2
7
179.5
178.4
BARATA
209.9
192.8
184.6
8055.06 +
7956.64 +
8519.29 -
82570.02 =
277.29
99
Ejemplo 02
5- Calcular la suma de cuadrados de la interaccin de los dos
tratamientos
277.29
227.212
32.752
= 17.322
100
Ejemplo 02
6- Calcular la suma de cuadrados del error
531.9875
277.29
254.703
101
Ejemplo 02
Construir la Tabla ANOVA
FUENTE
SC
GL
MC
TRATAMIENTO 1
227.21
113.606
12.0429
TRATAMIENTO 2
32.75
16.376
1.7359
POR GRUPOS
INTERACCION
ERROR
TOTAL
277.29
17.32
254.70
531.99
4
27
35
4.330
9.433
0.4591
102
Ejemplo 02
Conclusin
FDATOS
Conclusin
FT1= 3.35
12.0429
Se rechaza la Ho
FT2= 3.35
1.7359
No se rechaza la Ho
0.4591
No se rechaza la Ho
FCRITICO
FINT= 2.73
FCrtico
103
Ejemplo 03
104
Ejemplo 03
Los resultados del experimento (en millas por galn) se presenta a
continuacin:
AUTOMOVILES
A
B
C
D
E
MARCA DE GASOLINA
I
18
24
30
22
20
II
21
26
29
25
23
III
20
27
34
24
24
105
Ejemplo 03
Utilice un nivel de significancia de .05 para probar la hiptesis de que:
Los consumos de gasolina por marca de automvil son diferentes
Los consumos de gasolina por marca de gasolina son diferentes
Como la relacin entre la marca de gasolina y la marca de automvil es de uno
a uno no existir prueba de interaccin entre las dos variables.
106
Ejemplo 3
2.-
a
3
b
5
n
15
gl T1
gl T2
a-1
b-1
2
4
gl Tot
gl SCE
n-1
14
8
glTot-gl T1 -gl T2
T1
Gl T1 =2
Gl SCE= 8
F=4.459
Gl T2 =4
Gl SCE= 8
F= 3.838
T2
4.459
Ing. William len Velsquez
3.838
2.73
107
Ejemplo 02
Elaborar la tabla ANOVA
I
II
III
X2
18
21
20
59
1165
24
26
27
77
1981
30
29
34
93
2897
22
25
24
71
1685
20
23
24
67
1505
114
124
129
367
X2
2684
3112
3437
9233
X2
15 n
108
Ejemplo 02
1- Clculo del Factor de correccin
( X )
FC
n
2
Factor de correccin
FC
(367)2
----------15
8979.267
Suma total de
cuadrados
SSTot
Ing. William len Velsquez
9233
8979.267 =
253.733
109
Ejemplo 03
3- Clculos de los tratamientos
X
SCT
FC
2
(124)2
--------5
(77)2
--------3
(129)2
--------5
(93)2
--------3
23.3333
8979.26667
(71)2
--------3
217.067
23.3333
(67)2
--------3
- 8979.26667
13.3333333
217.067
Ejemplo 03
Construir la Tabla ANOVA
FUENTE
T1
T2
ERROR
TOTAL
SS
23.33333
217.0667
13.33333
253.7333
GL
2
4
8
14
SM
11.66667
54.26667
1.666667
F
7
32.56
Conclusin
FCRITICO
FDATOS
Conclusin
FT1= 4.459
Se rechaza la Ho
FT2= 3.838
32.56
Se rechaza la Ho
FCrtico
Ing. William len Velsquez
111
FIN
wjleonv@yahoo.com