Anda di halaman 1dari 45

Anlisis de varianza

Mayo, 2010

Qu es y para qu sirve el Anlisis de Varianza


Compara SI los valores de un
conjunto de datos numricos son
significativamente distintos a los
valores de otro o ms conjuntos de
datos.
Se utiliza para decidir si las medias de dos o ms
poblaciones son iguales.
Los datos se obtienen tomando una muestra de
cada poblacin y calculando la media muestral y la
varianza en el caso de cada muestra.

Los tres supuestos.

Las muestras deben ser


de tipo aleatorio
independiente.

Las muestras deben ser


obtenidas a partir de
poblaciones normales.

Las poblaciones deben tener


varianzas iguales

Pretenda medir la influencia que tiene en la venta


de un producto, la posicin en que se exhibe.
NIVEL

ESTABLECIMIENTO
BAJO

MEDIO

VENTAS
ALTO

10

Se pretende responder.
1.Tiene alguna influencia el posicionamiento del producto en la
venta del mismo?.
2.Qu posicionamiento es ms eficaz?
3.Son estadsticamente significativas las diferencias obtenidas?

El anlisis de varianza ser til en supuestos en los


que queramos analizar distintas situaciones o
alternativas de actuacin y donde de alguna forma
podemos intervenir en la realizacin del experimento.
A diferencia de otros anlisis donde las series histricas
son dadas y no podemos repetir la situacin, ni
modificar alguna de las condiciones o variables
(pensemos en el P.I.B., inflacin, etc.)

Varianza muestral.
Es

el promedio de las desviaciones elevadas al


cuadrado de la media del grupo.

Procedimiento :
1. Calcular la media muestral.
2. Restar la media de cada valor de la muestra.
3. Elevar al cuadrado cada una de las diferencias.
4. Sumar las diferencias elevadas al cuadrado.
5. Dividir entre n -1.

Explicacin del anlisis de varianza.


Si las dos estimaciones son aproximadamente
iguales,
esto tiende a confirmar Ho
Si una de las dos estimaciones es mucho mayor que
la otra, esto tiende a confirmar

H1

Se utilizan dos mtodos un poco diferentes para estimar las


varianzas de la poblacin:
ESTIMACIN INTERNA DE VARIANZA

(Sw2)
ESTIMACIN INTERMEDIANTE DE VARIANZA

(Sb2)

Estimacin interna de varianza.


Sw2=S12+S22+S32+S42++Sk2
k
En la cual:
S12=varianza de la varianza de una muestra
S22=varianza de la varianza de dos muestras
Sk2=varianza de la varianza de k muestras
K= nmero de muestras

Estimacin intermediante de varianza.


Sb2
Obtener X, que es la media de los valores medios de la
muestra:
X= 15.2+15.0+15.4+15.6 = 15.3
4
Determinar las desviaciones elevadas al cuadrado,
sumarlas y dividirlas entre K-1:
(15.2-15.3)2+(15.0-15.3)2+(15.4-15.3)2+(15.6-15.3)2 =
0.067
4-1
Como cada muestra consta de 6 observaciones, n =6 y
la estimacin de las varianzas de poblacin es:
Sb2=nsx2= 6(0.067)= 0.402

Estimacin intermediante de varianza.


Sb2
Obtener X, que es la media de los valores medios de la
muestra:
X= 15.2+15.0+15.4+15.6 = 15.3
4
Determinar las desviaciones elevadas al cuadrado,
sumarlas y dividirlas entre K-1:
(15.2-15.3)2+(15.0-15.3)2+(15.4-15.3)2+(15.6-15.3)2 =
0.067
4-1
Como cada muestra consta de 6 observaciones, n =6 y
la estimacin de las varianzas de poblacin es:
Sb2=nsx2= 6(0.067)= 0.402

Estimaciones.
Sw2
Es

la norma de comparacin
No se afecta si Ho es verdadera o falsa
Sb2
Aproximadamente

igual a Sw2 cuando Ho es

verdadera.
Mayor que Sw2 cuando Ho es falsa

Distribucin F.
Definicin.
En muchas situaciones estamos interesados en probar si dos poblaciones
independientes tiene la misma variabilidad.
Con el fin de probar la igualdad de las varianzas de dos poblaciones
independientes, se ha diseado un procedimiento estadstico, basado en el
cociente de los varianzas de muestra. Si se supone que los datos obtenido de
cada poblacin estn distribuidos normalmente, entonces el
cociente
sigue una distribucin denominada distribucin F que recibe
su nombre al famoso estadstico Ronald Fisher.
Dependen de dos conjuntos de grados de libertad los grados de libertad en el
numerador y en el denominador.

Donde:
n1 = tamao de muestra en el grupo 1
n2 = tamao de muestra en el grupo 2
n1 - 1 = grados de libertad en el grupo 1
n2 - 1 = grados de libertad en el grupo 2
= varianza de la muestra en el grupo 1
= varianza de la muestra en el grupo 2

Al probar la igualdad de dos varianzas se


pueden emplear pruebas de una cola o de dos
colas como se muestra a continuacin.

Si deseamos determinar la variabilidad en la cantidad de


llenado de cajas de cereales en la planta A que en la planta B,
se puede establecer una prueba de cola de la siguiente
manera:

Para este ejemplo el grupo 1 consta de cajas de cereales


llenadas en la planta A y el grupo 2 llenadas en la
planta B, la regin de rechazo est ubicada en la cola de la
distribucin.

Tenemos un valor de significacin de 0.01 con 24 y 19 grados de libertad

En este caso el valor de SA = 16.71 y SB = 14.20

Como 1.385 < 2.92, no se rechaza H0

El gerente concluir que no es evidente la


variabilidad en la cantidad de cereal de llenado
sea mayor en la planta A.

Ejemplo.
Suponga que un investigador de mercados
quisiera estudiar el efecto de la ubicacin del
producto sobre las ventas de hojas de afeitar
desechables, de hecho querra determinar si
hay alguna diferencia en las ventas, si las
hojas de afeitar se colocaron en la caja
registradora y en las otras seis tiendas en el
departamento de cosmticos. Se seleccion
una muestra aleatoria de 13 tiendas de igual
tamao de la cadena de supermercados; en
7 tiendas las hojas de afeitar se colocaron en
la caja registradora y en las otras seis
tiendas en el departamento de cosmticos.
El
investigador
de
mercados
desea
determinar si hay alguna diferencia en la
variabilidad entre la caja registradora y el
departamento de cosmticos.
Se puede establecer una prueba de dos
colasen la forma siguiente:

Ejemplo.

Ejemplo.
Puesto que es una prueba de dos colas, la regin de rechazo se
decide en las colas inferior y superior de la distribucin F. Si se
selecciona el nivel de significancia 0.05, cada regin de rechazo
contendra 0.025.

En este caso deseamos obtener el valor superior de 0.025 con 5 grados


de libertad en el numerador y 6 grados de libertad en el denominador.
La tabla nos indica que este valor es de 5.99

Ejemplo.
Si sustituimos la frmula que nos permite verificar esto
tenemos:

Para este ejemplo si

= 945 y

La regla de expresin se puede


expresar as:
Rechazar H0 si F6,5 > 6.98
O bien si F6,5 < 0.167
De lo contrario H0

= 17.37 utilizando la frmula:

Tenemos que
Por lo tanto F6,5 = 54.50 >
6.98 se rechaza H0
Existe una variabilidad
del nmero de hojas de
afeitar
vendidas
cada
semana
segn
su
ubicacin.

Tabla ANOVA.
Los

resultados del anlisis de varianza se


presentan en una tabla ANOVA que resume los
valores importantes de la prueba.

En

dicha tabla se resumen los clculos


necesarios para la prueba de igualdad de las
medias poblacionales usando anlisis de
varianza.

Tabla ANOVA.

Tabla ANOVA.
Donde:
j = Nmero de la columna
i

= Nmero de la fila
k = Nmero de columnas (grupos)
n = Nmero de elementos en cada grupo
(tamao de la muestra)

Tabla ANOVA.
Esta

Tabla nos muestra tres puntos importantes:

Realmente existen tres formas diferentes de estimar la varianza


real de la poblacin si la hiptesis nula es verdadera.

Los clculos fueron ideados de manera deliberada para mostrar lo


que ocurre cuando las estimaciones de varianza de la poblacin son
exactamente iguales.

Los grados de libertad totales, pueden servir como una rpida


comprobacin de los valores de los grados de libertad Internos
(Dentro) e Intermediantes (Entre). En teora, la suma total de los
cuadrados puede tambin servir como comprobacin de la suma de
los cuadrados internos e intermediantes, pero, debido a que en la
prctica los clculos son muy laboriosos, se evita llegar al total, a
menos que los clculos se realicen mediante computadora.

Ejemplo.
Una analista de una cadena de supermercados,
quiere saber si las tres tiendas tienen el mismo
promedio en dlares por compra. Se elige una
muestra aleatoria de seis compras en cada
tienda. La tabla nmero 1 presenta los datos
recolectados de esta muestra junto con las
medias maestrales para cada tienda y la media
global de todos los datos. Har una prueba con
un nivel de significancia de 0.01.

La hiptesis nula que se quiere probar es que todas las poblaciones de las
que se obtuvieron los datos maestrales tienen la misma media. La hiptesis
alternativa es que las poblaciones no tienen la misma media. Las primeras
dos medias maestrales en la tabla nmero 1 sugieren que la hiptesis nula
es cierta, ya que son muy cercanas. La tercera media muestral, es
considerablemente mas pequea que las otras dos. Pero, Se debe esta
diferencia a la aleatoriedad del muestreo o al hecho de que las poblaciones
tienen medias distintas? Esta es la pregunta que vamos a responder con el
procedimiento de ANOVA.

Ejemplo.
Tabla nmero 1 Datos maestrales para ANOVA (en dlares) para el ejemplo.

Ejemplo.
Se usan ambos mtodos, dentro y entre, para estimar la varianza de las tres
poblaciones.
Recuerde la suposicin fundamental de ANOVA: todas las poblaciones tienen la
misma varianza sin importar si tienen la misma media.
La tabla nmero 2 contiene los clculos para el mtodo dentro, y la tabla nmero 3 da
los clculos para el mtodo entre.
Tabla nmero 2 Clculos del mtodo dentro para el ejemplo.

Tienda 1 (12.05 18.73)2 + (23.94 18.73)2 + (14.63 18.73)2 + (25.78


18.73)2 + (17.52 18.73)2 + (18.45 18.73)2 = 139.82
Tienda 2 (15.17 18.14)2 + (18.52 18.14)2 + (19.57 18.14)2 + (21.40
18.14)2 + (13.59 18.14)2 + (20.57 18.14)2 = 48.25
Tienda 3 (9.48 8.72)2 + (6.92 8.72)2 + (10.47 8.72)2 + (7.63 8.72)2 +
(11.90 8.72)2 + (5.92 8.72)2 = 26.02
Suma de cuadrados dentro (SCw) = 139.82 + 48.25 + 26.02 = 214.09

Ejemplo.
Tabla nmero 3 Clculos del mtodo entre para el ejemplo.
(18.73 15.20)2 + (18.14 15.20)2 + (8.72 15.20)2 = 63.09
Suma de los cuadrados entre (SCb) = 6(63.09) = 378.54
Los valores calculados en las tablas 2 y 3 se usan para llenar la tabla
ANOVA.
Como se tienen tres poblaciones en la prueba, k = 3. Se obtuvo una
muestra de seis valores de cada poblacin, as que n = 6. La tabla
nmero cuatro presenta la tabla ANOVA para este ejemplo.

Ejemplo.
Tabla nmero 4 Tabla ANOVA para el ejemplo.

Ejemplo.
Como se puede ver en la tabla nmero 4, el mtodo entre para estimar
la varianza, produce un valor de 189.27, mientras que la estimacin del
mtodo dentro es de 14.27. El cociente F indica que la estimacin del
mtodo ente es 13.26 veces el valor del mtodo dentro.
Se debe esta diferencia al error de muestreo, o se debe a que
la hiptesis nula es falsa? Para contestar a esta pregunta se
consulta la tabla F y se determina un valor crtico.
Dos grados de libertad estn asociados con el numerador del cociente
de F, y se asocian quince grados de libertad con el denominador. De la
tabla F el valor crtico es 6.36 para estos grados de libertad a un nivel
de significancia de 0,01. El valor F calculado de 13.26 es mayor que el
valor crtico, lo que significa que se tiene suficiente evidencia muestral
para rechazar la hiptesis nula de medias poblacionales iguales.

Anlisis de Varianza.

Pruebas Paramtricas
Cuando una prueba de
significancia, requiere de
normalidad y de una medida de
nivel por intervalos.
Estas pruebas son:

F
t

Pruebas No
Paramtricas
Pruebas cuya lista de requisitos no
incluye una distribucin normal o el
nivel de medicin por intervalos.
Tienen exigencias menos estrictas y
constituyen pruebas de significancia
menos poderosas.

La chi cuadrada.
Prueba de la mediana.
Anlisis de varianza Kruskal-Wallis
Anlisis de varianza Friedman.

Pruebas No Paramtricas (La Chi Cuadrada).


Definicin
Es la prueba de significancia no paramtrica ms popular en la investigacin
social.
Se utiliza para hacer comparaciones entre dos o ms muestras.
Se emplea para hacer comparaciones entre frecuencias ms que entre
puntajes medios.
La frmula se representa de la siguiente manera:

= Chi Cuadrada.

fo = La frecuencia obtenida.
fe = La frecuencia esperada.

Clculo de Chi Cuadrada.


Tiene que ver esencialmente con la distribucin
esperadas

entre las frecuencias

(fe) y las frecuencias obtenidas (fo).

Las frecuencias esperadas se refieren a los trminos de la hiptesis nula. En


contraste las frecuencias obtenidas se refieren a los resultados que obtenemos
realmente al realizar el estudio.
Slo si la diferencia entre las frecuencias esperadas y obtenidas es lo
suficientemente grande, rechazamos la hiptesis nula y decidimos que existe una
diferencia poblacional verdadera.

Otras frmulas involucradas en Clculo de Chi Cuadrada .

Grados de Libertad

gl=(r-1)(c-1)

Donde:
gl = Grados de libertad.
r = Nmero de renglones en la
tabla de frecuencias obtenidas
.
c = Nmero de columnas en la
tabla de frecuencias
obtenidas.

Frecuencias Esperadas (fe)


fe =

(total marginal de rengln)(total marginal de columna)

Donde:
N = Total de la muestra

Ejemplo del clculo de chi cuadrada.


Situacin
Supongamos que queremos estudiar el uso de drogas en estudiantes de bachillerato, con
relacin a sus planes de ingreso a la universidad.
Las hiptesis se platearan de la siguiente manera:
Hiptesis nula: La proporcin de estudiantes de bachillerato orientados hacia la
universidad y que usan drogas es igual a la de los estudiantes que no piensan asistir a la
universidad.
Hiptesis alternativa: La proporcin de estudiantes de bachillerato orientados hacia la
universidad y que usan drogas no es igual a la de los estudiantes que no piensan asistir a
la universidad.
Para verificar esta hiptesis al nivel de confianza de 0.05, digamos que debemos
entrevistar a dos muestras aleatorias de la poblacin de una escuela de bachillerato
acerca del uso de drogas: una muestra de 21 estudiantes que van a ingresar a la
universidad y una muestra de 15 estudiantes que no planean extender su educacin ms
all del bachillerato.

Ejemplo del clculo de chi cuadrada.


Paso 1. Vaciar los datos en una tabla de frecuencias obtenidas (fo).

Paso 2. Reordenar los datos en forma de Tabla 2 x 2.

En este espacio
integraremos la
frecuencia
esperada (fe)

Ejemplo del clculo de chi cuadrada.


Paso 3. Obtener la frecuencia esperada (fe) para cada casilla.

Ejemplo del clculo de chi cuadrada.


Paso 4. Restar las frecuencias esperadas (fe) e las frecuencias obtenidas (fo).

Paso 5. Elevar al cuadrado esta diferencia.

Ejemplo del clculo de chi cuadrada.


Paso 6. Dividir entre la frecuencia esperada (fe).

Paso 7. Sumar estos cocientes para obtener el valor de chi cuadrada.

Ejemplo del clculo de chi cuadrada.


Paso 8.Encontrar los grados de libertad.

Ejemplo del clculo de chi cuadrada.


Paso 9. Comparar el valor de chi cuadrada obtenido con el valor de chi cuadrada
correspondiente en la Tabla de Valores de Chi Cuadrada a los Niveles de
Confianza de 0.05 y 0.01.

Ejemplo del clculo de chi cuadrada.


Conclusin.
Para rechazar la hiptesis nula, al nivel de confianza de 0.05 con 1 grado de
libertad, nuestro valor de chi cuadrada calculado tendra que ser de 3.84 ms.
Como hemos obtenido un valor de chi cuadrada de 5.13 podemos rechazar la
hiptesis nula y aceptar la hiptesis de investigacin.
Nuestros resultados sugieren que la proporcin de consumidores de alguna droga
es mayor entre los estudiantes de bachillerato que van a ingresar a la universidad
que entre los estudiantes cuyos planeas no incluyen el ingreso a la universidad.

Fuentes.
LEVIN, Jack y William C. Levin, Fundamentos de estadstica en la
investigacin social, Edit. Oxford University Press, Mxico, 2008, 305 pp.
STEVENSON, William, Estadstica para administracin y economa:
Conceptos y aplicaciones, Edit. Oxford University Press, Mxico, 2004, 585 pp.