Anda di halaman 1dari 12

ANOVA

Prof. Mg Ken Matsuda Oteza

ANALISIS DE VARIANZA DE UNA VA o DIRECCIN


(ANOVA 1 VIA)
El anlisis de la varianza de un criterio (ANOVA) es una metodologa para analizar la variacin
entre muestras y la variacin al interior de las mismas mediante la determinacin de varianzas. Es
llamado de un criterio porque analiza un variable independiente o Factor ej: Velocidad. Como tal, es
un mtodo estadstico til para comparar dos o ms medias poblacionales. El ANOVA de un criterio
nos permite poner a prueba hiptesis tales como:

H 0 1 2 3 .... k

H 1 : Al menos dos medias poblacionales son diferentes.


Los supuestos en que se basa la prueba t de dos muestras que utiliza muestras independientes
son:
1. Ambas poblaciones son normales.
2. Las varianzas poblacionales son iguales, esto es,

12 22 .

Como el ANOVA de un criterio es una generalizacin de la prueba de t para dos muestras, los
supuestos para el ANOVA de un criterio son:
1. Todas las poblaciones k son normales.
2
2
2
2
2
2. 1 2 3 ..... k

El mtodo de ANOVA con un criterio requiere del clculo de dos estimaciones independientes para
2
2
2
2 , la varianza poblacional comn. Estas dos estimaciones se denotan por s b y s w . s b se
2

denomina estimacin de la varianza entre muestras y s w se denomina estimacin de la varianza al


interior de las muestras. El estadstico tiene una distribucin muestral resultando:

s b2
F 2
sw
El valor crtico para la prueba F es:

F ( k 1, k ( n 1))
Donde el nmero de grados de libertad para el numerador es k-1 y para el denominador es k(n-1),
siendo el nivel de significancia.
k = nmero de muestras.

El Procedimiento es el siguiente1:
1

Estadstica. Richard C.Weimer. CECSA. Segunda Edicin.2000

Pgina 1

ANOVA

Prof. Mg Ken Matsuda Oteza

1. Determinar si las muestras provienen de poblaciones normales.


2. Proponer las hiptesis.
3. Encontrar las medias poblacionales y las varianzas.
2
4. Encontrar la estimacin de la varianza al interior de las muestras s w y sus grados de libertad
asociados glw.
5. Calcular la gran media para la muestra de las medias mustrales.
2
6. Determinar la estimacin de la varianza entre muestras s b y sus grados de libertad asociados.
7. Hallar el valor del estadstico de la prueba F.
8. Calcular el valor crtico para F basado en glb y glw.
9. Decidir si se rechaza H0.
Calculo Manual
Se utilizan las frmulas siguientes:
Suma de cuadrados total (SST o SCT)
r

SCT

i 1

( Xij X )

j 1

***
*

**
***

Xi valores individuales

**
X

*
*

**
**

Suma de cuadrados de los tratamientos o niveles (SSTr o SCTr):


r

SCTR rj ( X j X ) 2
j 1

Media
X3

*
5

Media X2

Media X1

Pgina 2

Media de medias

ANOVA

Prof. Mg Ken Matsuda Oteza

Suma de cuadrados del error (SSE o SCE):


r

SCE
i 1

(X
j 1

ij

X j )2
**

Xi
*

**
***

Xi
*

**

*
*

X media 1
*

Xmedia 2

Xmedia 3
** *
Xi
*

O tambin SCE = SCT - SCTr


Grados de libertad:
Gl. Totales = n 1
Gl. Tratamientos = c -1
Gl. Error = n c
Cuadrados medios (MS o CM):
CMT = SCT / Gl. SCT
CMTr = SCTr / Gl. SCTr
CME = SCE / Gl. SCE
Estadstico calculado Fc:
Fc = CMTr / CME
P value = distr.f (Fc, Gl. CMtr, Gl. CME)
F crtica de tables o Excel = distr.f.inv(alfa, Gl. CMT, Gl. CME)
Si P es menor a alfa o Fc es mayor a Ft se rechaza Ho indicando que los efectos de los diferentes
niveles del factor tienen efecto significativo en la respuesta.
Distr. F

NO RECHAZAR

ZONA DE RECHAZo
Alfa

La tabla de ANOVA final queda como sigue:

Pgina 3

ANOVA

Prof. Mg Ken Matsuda Oteza

TABLA DE ANOVA

FUENTE DE VARIACIN

Entre muestras (tratam.)

SUMA DE
CUADRADOS

GRADOS
DE
LIBERTAD

CUADRADO
MEDIO

SCTR

c-1

CMTR

Dentro de muestras
(err.)

SCE

n-c

CME

Variacin total

SCT

n-1

CMT

VALOR F

CMTR/CME

Regla: No rechazar si la F de la muestra es menor que la F de Excel para una cierta alfa
Si las medias son diferentes se
puede aplicar la prueba de Tukey o
DMS como sigue:
PRUEBA DE TUKEY
Se utiliza para diseos balanceados (todos los tratamientos tienen
asignado el mismo nmero de elementos)
Se utiliza el estadstico
T

CME

T absoluto
q ,c ,n c de
Se compara T vs la diferencia en valor
r
cada par de medias, si esta dif. Excede a T, las medias son diferentes
o iguales en caso contrario.
n = 16
r=4
c=
4 Alfa=0.05
Por ejemplo:
3.6
CME =
19.6875
T
Medias
q.05,4,12=
4.2
9.31
X1 =
145
!X1 - X2!=
0.25 X1=X2
X2=
145.25
!X1-X3! =
12.75 X1<>X3
X3=
132.25
!X1-X4!=
15.75 X1<>X4
X4=
129.25
!X2-X3!=
13 X2<>X3
!X2-X4!=
16 X2<>X4
!X3-X4!=
3 X3=X4

Pgina 4

ANOVA

Prof. Mg Ken Matsuda Oteza

X4

X3

DMS
=3.41

X1 X2

129.25 132.25

145 145.2

DMS
MEDIAS
IGUALES

MEDIAS
DIFERENTES
9.45

Otro mtodo ms conservador es el la DIFERENCIA MNIMA SIGNIFICATIVA


DMS

DMS

r=4
F = DISTR.F.INV(alfa, gl. =1, gl. CME
=12)

2(CME ) F ,1,nc
r

CME =
r=
F.05,1,12

19.6875
4
4.75

187.0313

46.75781 6.837968

Para el caso de diseos no balanceados se utiliza el mtodo DMS


para comparar cada par de muestras

DMS j , k

1
1
(CME ) F ,c 1, n c

rk
rj

r j es el nmero de elementos asignados al tratamiento j


r k es el nmero de elementos asignados al tratamiento k
Verificar si X1 = X2
DMS 1,2 ?
Por ejemplo:

y si X2 = X3 en el ejemplo de empleados.
DMS 2,3 ?
3.4

Para comparar X1-X2


r1 = 5
r2=4
DMS =

X1=21.74 X2=21.5
X1-X2=

Pgina 5

F=3.34
Alfa =.05
CME=0.02571
0.24

ANOVA

Prof. Mg Ken Matsuda Oteza

0.1965

Se concluye que X1 y X2 son diferentes


Utilizando los paquetes de Excel y Minitab se tiene:
Ejemplo 1:
Tres tipos distintos de motores de gasolina fueron probados para determinar cunto tiempo son
tiles antes de necesitar una reparacin; si los tiempos de vida de los motores de cada tipo se
distribuyen normalmente y tienen la misma varianza, haga una prueba usando 0.05 para
determinar si difieren las medias de vida til antes de requerir una reparacin. En la tabla aparecen
los tiempos de vida til, en decenas de miles de millas para cada tipo de motor.

A
6
2
4
1
7

B
8
7
7
2
6

C
3
2
5
4
1

Mediante Minitab determinamos si las muestras provienen de una poblacin Normal.


Seleccione en el menu para cada muestra:
Stat > Basic statistics > Normality test
Variable Columnas de datos
Test for normality Seleccionar Ryan Joiner OK
.

Hay normalidad si P value es >=0.05

Probability Plot of A
Normal
99

Mean
StDev
N
RJ
P-Value

95
90

Percent

80
70
60
50
40
30
20
10
5

-2

4
A

10

Pgina 6

4
2.550
5
0.982
>0.100

ANOVA

Prof. Mg Ken Matsuda Oteza

Probability Plot of B
Normal
99

95
90

Mean
StDev
N
RJ
P-Value

6
2.345
5
0.909
>0.100

Mean
StDev
N
RJ
P-Value

3
1.581
5
0.998
>0.100

Percent

80
70
60
50
40
30
20
10
5

6
B

10

12

Probability Plot of C
Normal
99

95
90

Percent

80
70
60
50
40
30
20
10
5

-1

3
C

Analizando las grficas nos damos cuenta de que las muestras provienen de poblaciones
normales.

Si denotamos por 1, 2 y 3 las medias poblacionales de los tiempos de vida til para los tipos A,
B y C, respectivamente, entonces podemos escribir las hiptesis estadsticas como:

H 0 : 1 2 3
H1: Al menos dos medias poblacionales no son iguales.

Pgina 7

ANOVA

Prof. Mg Ken Matsuda Oteza

Procedimiento en Excel:

En el men herramientas seleccione la opcin Anlisis de datos, en funciones para


anlisis seleccione Anlisis de varianza de un factor.
En Rango de entrada seleccionar la matriz de datos.

Alfa = 0.05
En Rango de salida indicar la celda donde se inciar la presentacin de resultados.

Anlisis de varianza de un factor


RESUMEN
Grupos
Columna 1
Columna 2
Columna 3

ANLISIS DE VARIANZA
Origen de las variaciones
Entre grupos
Dentro de los grupos
Total

Cuenta

Suma
5
5
5

Promedio
20
30
15

4
6
3

Varianza
6.5
5.5
2.5

Suma de cuadrados Grados de libertad Promedio de los cuadrados


F
Probabilidad Valor crtico para F
23.33333333
2
11.66666667 2.413793103 0.13150932
3.885290312
58
12
4.833333333
81.33333333

14

En la tabla observamos que el estadstico de prueba Fc es menor al valor crtico para F


2.41<3.88, por lo cual no rechazamos al Hiptesis nula H 0. No tenemos evidencia estadstica para
afirmar que los tiempos de vida til de los motores, antes de requerir una reparacin son diferentes.

Pgina 8

ANOVA

Prof. Mg Ken Matsuda Oteza

ANOVA en Minitab.
Utilice 0.05 para calcular si difiere el rendimiento de los motores.
Seleccionar:
Stat > ANOVA > One Way (Unstacked)
Response in separate columns A, B, C
Seleccionar ! Store Residuals ! Store Fits

Confidence level 95%

Graphs
Seleccionar Normal plot of residuals
Comparisons
Seleccionar Tukeys Family error rate OK
Resultados:
La grfica normal de residuos debe mostrar los residuos aproximados por una recta para validar el
modelo:

Normal Probability Plot of the Residuals


(responses are A, B, C)
99

95
90

Percent

80
70
60
50
40
30
20
10
5

-5.0

-2.5

0.0
Residual

2.5

5.0

Ecuentre los errores en las siguientes pginas:

One-way ANOVA: A, B, C
Source
Factor
Error
Total

DF
2
12
14

SS
23.33
58.00
81.33

MS
11.67
4.83

F
2.41

P
0.132

Como este valor P es mayor a 0.05 se acepta la hiptesis nula, es decir, A, B y C


(tratamientos) no tienen efecto en la respuesta.
S = 2.198

R-Sq = 28.69%

R-Sq(adj) = 16.80%

Pgina 9

ANOVA

Level
A
B
C

Prof. Mg Ken Matsuda Oteza

N
5
5
5

Mean
4.000
6.000
3.000

StDev
2.550
2.345
1.581

Individual 95% CIs For Mean Based on


Pooled StDev
------+---------+---------+---------+--(----------*----------)
(----------*----------)
(----------*----------)
------+---------+---------+---------+--2.0
4.0
6.0
8.0

Pooled StDev = 2.198

Los intervalos de confianza de los tres niveles A, B, C del factor se pueden


traslapar por tanto sus efectos no son diferentes.
Tukey 95% Simultaneous Confidence Intervals
All Pairwise Comparisons
Individual confidence level = 97.94%
A subtracted from:
B
C

Lower
-1.707
-4.707

Center
2.000
-1.000

Upper
5.707
2.707

---------+---------+---------+---------+
(----------*---------)
(---------*----------)
---------+---------+---------+---------+
-3.5
0.0
3.5
7.0

Upper
0.707

---------+---------+---------+---------+
(---------*----------)
---------+---------+---------+---------+
-3.5
0.0
3.5
7.0

B subtracted from:
C

Lower
-6.707

Center
-3.000

Como el cero pertenece al intervalo de confianza de las diferencias entre A y B; A


y C y entre B y C no hay diferencia entre el efecto entre estos niveles.
A continuacin se muestran los residuos y los valores estimados para la respuesta Y por el modelo:

RESI1
2
-2
0
-3
3

RESI2
2
1
1
-4
0

RESI3
0
-1
2
1
-2

FITS1
4
4
4
4
4

FITS2
6
6
6
6
6

FITS3
3
3
3
3
3

Donde cada residuo es Eij = Yij observado Yij estimado


Yij estimado es el promedio en cada columna.
Ejemplo 2: La tabla adjunta contiene el nmero de palabras escritas por minuto por cuatro
secretarias de la universidad en cinco ocasiones diferentes usando la misma mquina.

Pgina 10

ANOVA

Prof. Mg Ken Matsuda Oteza

A
82
79
75
68
65

B
55
67
84
77
71

C
69
72
78
83
74

D
87
61
82
61
72

La grfica de residuos es la siguiente, mostrando que el modelo es vlido:


Normal Probability Plot of the Residuals
(responses are A, B, C, D)
99

95
90

Percent

80
70
60
50
40
30
20
10
5

-20

-10

0
Residual

10

20

One-way ANOVA: A, B, C, D
Source
Factor
Error
Total

DF
3
16
19

SS
52.2
1367.6
1419.8

MS
17.4
85.5

F
0.20

P
0.892

Como el valor P de 0.892 es mayor a alfa de 0.05 no hay efecto en la respuesta cambiando los
niveles del factor A, B, C y D.
S = 9.245

Level
A
B
C
D

N
5
5
5
5

R-Sq = 3.68%

Mean
73.800
70.800
75.200
72.600

StDev
7.190
10.918
5.450
11.887

R-Sq(adj) = 0.00%
Individual 95% CIs For Mean Based on
Pooled StDev
-------+---------+---------+---------+-(--------------*--------------)
(--------------*--------------)
(-------------*--------------)
(--------------*--------------)
-------+---------+---------+---------+-66.0
72.0
78.0
84.0

Pooled StDev = 9.245

Se pueden traslapar los intervalos de confianza de los niveles del factor, por tanto no hay diferencia
significativa en sus efectos.

Pgina 11

ANOVA

Prof. Mg Ken Matsuda Oteza

Tukey 95% Simultaneous Confidence Intervals


All Pairwise Comparisons
Individual confidence level = 98.87%
A subtracted from:
B
C
D

Lower
-19.745
-15.345
-17.945

Center
-3.000
1.400
-1.200

Upper
13.745
18.145
15.545

--------+---------+---------+---------+(-------------*------------)
(-------------*-------------)
(-------------*-------------)
--------+---------+---------+---------+-12
0
12
24

Upper
21.145
18.545

--------+---------+---------+---------+(-------------*-------------)
(------------*-------------)
--------+---------+---------+---------+-12
0
12
24

Upper
14.145

--------+---------+---------+---------+(-------------*-------------)
--------+---------+---------+---------+-12
0
12
24

B subtracted from:
C
D

Lower
-12.345
-14.945

Center
4.400
1.800

C subtracted from:
D

Lower
-19.345

Center
-2.600

En la prueba de Tukey como el cero pertenece a los intervalos de confianza de todas las
diferencias entre niveles A, B, C y D, no hay diferencia entre sus efectos en la respuesta.

Pgina 12

Anda mungkin juga menyukai