Concepto:
El análisis de la varianza es un método estadístico para determinar si diversos conjuntos
de muestras aleatorias de una determinada variable proceden de la misma población o de
poblaciones distintas.
En general, cada conjunto muestral se caracteriza por estar afectado por un tratamiento
específico, que eventualmente pueden influir en los valores que tome la variable objetivo
de estudio.
¿Que es un factor de varianza?
Se denomina factor a la variable que supuestamente ejerce una influencia sobre la variable
estudiada a la que se denomina dependiente
En el análisis de la varianza, el factor cuya influencia se quiere corroborar se introduce de
forma discreta, independientemente que sea de naturaleza continua o no.
Cuando un factor sea de naturaleza discreta, que será la situación mas frecuente, se
utilizan de forma equivalente los términos de un grupo o nivel para referirse a una
característica concreta.
Finalidad del análisis de varianza
El análisis de varianza lo vamos a utilizar para verificar si hay
diferencias estadísticamente significativas entre medias cuando tenemos
más de dos muestras o grupos en el mismo planteamiento. En estos casos
no utilizamos la t de Student que solamente es un procedimiento válido
cuando comparamos únicamente las medias de dos muestras. cuando
tenemos más de dos muestras y comparamos las medias de dos en dos
suben las probabilidades de error al rechazar la hipótesis de no diferencia
porque queda suficientemente explicada por factores aleatorios (que
también se denomina error muestral).
Una varianza grande indica que hay mucha variación entre los sujetos, que
hay mayores diferencias individuales con respecto a la media; una varianza
pequeña nos indica poca variabilidad entre los sujetos, diferencias
menores entre los sujetos. La varianza cuantifica todo lo que hay de
diferente entre los sujetos u observaciones.
H 0 : 1 2 K
El procedimiento comienza por obtener las medias poblacionales de los datos
correspondientes a cada población, es decir:
1 ni
xi xij i 1,, K
ni j 1
El siguiente paso es obtener la media común de todos los datos a partir de la
muestra completa. Es decir:
1 K ni
x xij
n i 1 j 1
K
siendo n ni el número total de datos de la muestra completa. Una forma alternativa
i 1
para x es:
1 K
x ni x i
n i 1
Ya hemos dicho en la introducción que la base del procedimiento de análisis de varianza es la
comparación entre los dos tipos de variabilidad que se pueden observar en los datos:
Denominaremos variabilidad dentro de los grupos a la variabilidad en torno a los valores muestrales
de la media para cada una de las K poblaciones.
Denominaremos variabilidad entre grupos a la variabilidad entre las medias de los K grupos.
Vamos a estimar esas dos fuentes de variabilidad. En primer lugar, obtendremos una medida de la
variabilidad dentro de los grupos. Para cada grupo sumaremos los valores de las diferencias al cuadrado
de los valores en ese grupo y la media muestral del grupo. Es decir:
La variabilidad total dentro de los grupos la obtendremos como la suma de los K valores anteriores, es decir:
En segundo lugar, vamos a estimar la variabilidad entre grupos. Una
forma razonable de proceder sería evaluar las diferencias entre la
media muestral de cada grupo y la media muestral global. Es decir:
xi x 2 .
i 1 j 1 i 1 j 1 i 1 j 1
Esta ecuación expresa que la desviación total de los datos respecto a la media global
total se puede expresar como la suma de las desviaciones de los grupos respecto a la
media global, de los bloques respecto a la media global, y la desviación de error
residual
Si denominamos:
Suma de cuadrados total:
SCT xij x
K H
2
i 1 j 1
i 1
i 1 j 1
en donde la igualdad anterior se obtiene por simple manipulación algebraica sin más que
tener en cuenta que n KH .