Mira, trata de darle una interpretación a los cálculos que se hacen para sacar la varianza: se calcula la
diferencia de cada uno de los datos con respecto a la media. Y esta diferencia se eleva al cuadrado, para
hacer más notoria esa diferencia entre datos.
Como los datos arrojados por la varianza están elevados al cuadrado, a veces, cuando los datos tienen
unidades pues resulta difícil darles una interpretación física real. Por eso es que existe la desviación
estándar, que no es más que la raíz cuadrada de la varianza.
DEFINICIÓN DE VARIANZA
La noción de varianza se suele emplear en el ámbito de la estadística. Se trata de una
palabra impulsada por el matemático y científico inglés Ronald Fisher (1890–1962) y
sirve para identificar a la media de las desviaciones cuadráticas de una variable de
carácter aleatorio, considerando el valor medio de ésta. Lo que hace la varianza
es establecer la variabilidad de la variable aleatoria. Es importante tener en cuenta
que, en ciertos casos, es preferible emplear otras medidas de dispersión ante
las características de las distribuciones.
Se denomina varianza muestral cuando se calcula la varianza de una comunidad, grupo
o población en base a una muestra. La covarianza, por otra parte, es la medida de
dispersión conjunta de un par de variables.
Los expertos hablan de análisis de la varianza para nombrar a la colección de modelos
estadísticos y sus procedimientos asociados en la cual la varianza aparece particionada en
distintos componentes.
Además de los campos anteriores existen tres botones cuya utilidad es la siguiente:
Suma de Media
cuadrados gl cuadrática F Sig.
Inter-grupos 190239,152 5 38047,830 47,177 ,000
Intra-grupos 59680,480 74 806,493
Total 249919,632 79
Example 5.2. Puesto que el análisis ha dado significativo, veamos cuáles de los niveles del
factor difieren entre sí. Para ello, volvemos a entrar en el procedimiento Anova de un factor, y
con las mismas variables seleccionadas pulsamos en el botón POST HOC. Se muestra a
continuación otro cuadro donde aparece una serie de posibles constrastes a posteriori. Supuestas
las varianzas iguales, están el de Bonferroni, Scheffe, Tuckey, Duncan, etc., y entre los que se
asume varianzas distintas el T2 de Tamnhane, el T3 de Dunnett, etc. Elegimos el test
de Tuckey y pulsamos CONTINUAR y ACEPTAR.
Los resultados obtenidos indican que los tiempos medios dedicados a la investigación para los
catedráticos de escuela, los titulares de universidad y los titulares de escuela se pueden
considerar iguales, y por otro lado, también ocurre lo mismo con los de los profesores asociados
y los de los ayudantes.
Se consideran tanto los modelos balanceados como los que no. Esto es, un diseño es balanceado
si cada casilla del modelo contiene el mismo número de casos. Además de contrastar las
hipótesis el procedimiento MLGU genera las estimaciones de los parámetros.
También están disponibles en esta opción los contrastes a priori de uso más habitual. Por otra
parte, si en el análisis de la varianza global la F ha mostrado cierta significación, se pueden
emplear las pruebas Post Hoc para evaluar las diferencias entre las medias especificadas. Las
medias marginales estimadas ofrecen estimaciones de los valores de las medias pronosticadas
para las casillas del modelo; los Gráficos de Perfil de estas medias (gráficos de interacciones)
permiten observar fácilmente algunas de las relaciones entre los factores.
Calcula los residuos, valores pronosticados, distancia de Cook, y valores de influencia como
variables nuevas para comprobar los supuestos, información toda ella que permite guardar en un
archivo de datos.
Para seleccionar este procedimiento elegimos de forma seguida las siguientes opciones desde el
menú principal:
Entonces se abre un cuadro de diálogo con una serie de campos y botones. Entre los campos nos
encontramos con:
Especificar modelo. Por defecto está activa la opción Factorial Completo, la cual considera los
efectos principales de todos los factores, los efectos principales de todas las covariables y todas
las interacciones entre los factores. No contempla las interacciones entre las covariables, ni de
los factores con las covariables. Para especificar un determinado conjunto de interacciones se ha
de seleccionar el campo Personalizado. En este caso se activan los campos:
Factores y Covariables: muestra una lista de los factores y las covariables, etiquetando con F a
los factores fijos, con C a las covariables y con R a los factores aleatorios.
Modelo: depende de la naturaleza de los datos. Aquí mediante el campo Construir término, se
pueden elegir los efectos principales y las interacciones que sean de interés en el análisis, y que
se quieren contemplar en el modelo.
Suma de Cuadrados. Aquí se indica el método para calcular las sumas de cuadrados, que por
defecto es el Tipo III. Los otros tipos de sumas de cuadrados se utilizan según sea un modelo
balanceado o no, anidado o no, con o sin categorías o combinación de categorías vacías. Así por
ejemplo, si para alguna combinación de niveles el grupo está vacío se recomienda utilizar la
suma de cuadrados Tipo IV.
b) CONTRASTES. Este botón se usa para contrastar las diferencias entre los niveles de un factor.
A los contrastes de este tipo se les denomina Contrastes Planificados o a Priori. Se puede
especificar un contraste para cada factor en el modelo. Los contrastes representan las
combinaciones lineales de los parámetros.
Desviación. Compara las medias de los distintos niveles del factor, excepto la media de la
categoría de referencia, con la media global de la variable dependiente de todos los
niveles.
Simples. Compara la media de cada nivel, excepto la del nivel de referencia con la media
del nivel de referencia.
Diferencia. Compara la media de cada nivel (excepto la del primero) con la media de
todos los niveles que le preceden.
Helmet. Compara la media de cada nivel (excepto la del último) con la media del resto de
los niveles que le siguen.
Repetida. Se compara la media de cada nivel del factor con la media del nivel que le
precede.
Polinomial. Cada fator es contrastado a través de un polinomio lineal, cuadrático, cúbico,
etc.
c) GRÁFICOS DE PERFIL. Son gráficos de líneas en el que cada punto indica la media marginal
estimada de una variable dependiente (corregida respecto a las covariables) en un nivel de un
factor. Los niveles de un segundo factor se pueden utilizar para generar líneas diferentes,
mientras que cada nivel de un tercer factor se utilizaría para crear gráficos distintos. Permiten
visualizar la posible interacción entre factores. Si las líneas en el gráfico se cruzan existe
interacción, si por el contrario, las líneas son paralelas no la hay. También con ellos, se puede
observar la tendencia de los valores promedios de la variable dependiente para los distintos
niveles de cada factor.
Una vez se ha elegido los factores a representar, se debe pulsar el botón AÑADIR para incluirlos
en la lista de gráficos. En caso contrario, el sistema muestra un aviso.
d) POST HOC. Tras saber que existen diferencias entre las medias, las pruebas de rango Post
Hoc y las comparaciones múltiples por parejas permiten determinar las medias que difieren. Las
comparaciones se realizan sobre valores sin corregir, y sólo se utilizan tales pruebas para
factores de efectos fijos.
e) GUARDAR. Este botón nos abre un cuadro que nos permite guardar los valores pronosticados
por el modelo, los residuos y las medidas relacionadas como variables nuevas en el editor de
datos. Muchas veces, estas variables se pueden utilizar para examinar supuestos sobre los datos.
Dentro de este cuadro se tiene:
Valores pronosticados: nos referimos a los pronosticados no tipificados y los errores tipificados
de los valores pronosticados. Si ha seleccionado una variable de ponderación MCP, dispondrá
así mismo de los valores pronosticados no tipificados ponderados.
Diagnósticos: son medidas para identificar casos con combinaciones pocos usuales de valores
para las variables independientes, y casos que puedan tener un gran impacto en el modelo. Las
opciones disponibles incluyen la distancia de Cook y los valores de influencia no centrados.
Residuos: un residuo no tipificado es el valor real de la variable dependiente menos el valor
pronosticado por el modelo. También se encuentran disponibles residuos eliminados,
estudentizados y tipificados. Si ha seleccionado una variable de ponderación MCP, contará
además con residuos no tipificados ponderados.
Guardar en archivo nuevo: las estimaciones del modelo. Para cada variable dependiente habrá
una fila de las estimaciones de los parámetros, una fila de valores de significación para los
estadísticos t de Student correspondientes a las estimaciones de los parámetros, y una fila de
grados de libertad.
f) OPCIONES. El cuadro de diálogo que se abre al pulsar este botón contiene estadísticos
opcionales. Tales estadísticos se calculan utilizando un modelo de efectos fijos.
- Medias marginales estimadas. Se trata de las medias marginales para cada grupo. Estas medias
se corrigen respecto a las covariables, si las hay.
Comparar los efectos principales: lleva a cabo comparaciones por parejas no corregidas,
entre las medias marginales estimadas para cualquier efecto principal del modelo, tanto para los
factores entre sujetos como para los de dentro de los sujetos. Este elemento sólo se encuentra
disponible si los efectos principales están seleccionados en la lista de Mostrar las medias para.
Ajuste del Intervalo de Confianza: nos permite seleccionar un ajuste de menor diferencia
significativa (DMS), Bonferroni o Sidak para los intervalos de confianza y la significación. Este
elemento sólo estará disponible si se selecciona Comparar los efectos principales.
Estadísticos Descriptivos: entre los que se encuentran medias muestrales, desviaciones típicas y
frecuencias para cada variable dependiente en todos los grupos.
Estimaciones del tamaño del efecto: ofrece un valor parcial de eta-cuadrado para cada efecto y
cada estimación de los parámetros. El estadístico eta-cuadrado describe la proporción de
variabilidad total atribuible a un factor.
Estimaciones de los parámetros: genera las estimaciones de los parámetros, los errores típicos,
las pruebas t de Student donde se contrastan los parámetros con el valor 0, los intervalos de
confianza y la potencia observada de la prueba.
Las pruebas de homogeneidad: realiza el test de Levene para contrastar la igualdad de varianzas
para cada variable dependiente en todas las combinaciones de niveles de los factores entre
sujetos.
Diagramas de dispersión por nivel y Gráfico de los residuos: son útiles para comprobar los
supuestos sobre los datos. Estos elementos no están activos si no hay factores.
Gráficos de los residuos: produce un gráfico de los residuos observados respecto a los
pronosticados, y respecto a los tipificados para cada variable dependiente. Estos gráficos son
útiles para investigar el supuesto de varianzas iguales.
Falta de ajuste: para comprobar si el modelo puede describir de forma adecuada la relación
entre la variable dependiente y las variables independientes.
- Nivel de significación. Para indicar el nivel de significación usado en las pruebas Post Hoc y el
nivel de confianza empleado para construir intervalos de confianza. El valor especificado
también se utiliza para calcular la potencia observada para la prueba. Si especifica un nivel de
significación, el cuadro de diálogo mostrará el nivel asociado de los intervalos de confianza.
Ejemplo 5.3. Veamos la influencia sobre el tiempo dedicado a la docencia (variable respuesta)
de los factores Categoría y Número de Asignaturas que imparte el profesor. Para ello
seleccionamos:
Entonces se abre el cuadro de diálogo en el que se introduce la variable Tiemdoc
como Variable Dependiente, y las variables Categoría y Numasig como Factores de Efectos
Fijos.
- En la primera se muestra un simple resumen del número de profesores de cada categoría y del
número de profesores según el número de asignaturas que imparte.
Contrasta la hipótesis nula de que la varianza error de la variable dependiente es igual a lo largo de todos los
grupos.
a.Diseño: Intercept + Categoría + Numasig + Categoría*Numasig
- La última tabla que muestra 7 recoge el Anova. En ella, los p-valores son todos menores que
0.05, salvo el de la interacción que es de 0.685. Esto quiere decir, que tanto la categoría del
profesor como el número de asignaturas que imparte influyen en el tiempo que dedica a la
docencia, pero la interacción no. El sistema también muestra el R cuadrado que vale en este
caso, 0.789, lo que indica que el 78.9% del tiempo dedicado a la docencia por los profesores es
explicado por el modelo.
Suma de
cuadrados Media
Fuente tipo III gl cuadrática F Significación
Dentro de los resultados también se encuentran los siguientes gráficos. El Gráfico de los
Residuos que muestra la Figura 7 y el Gráfico de Perfil que recoge la Figura 8. A partir del
Gráfico de los Residuos se puede concluir que el modelo es relativamente bueno, ya que el
gráfico de observados frente a pronosticados tiene una tendencia a estar sobre una recta
creciente. Mientras que en los gráficos de los residuos frente a observados, y residuos frente a
pronosticados, los puntos están al azar sin haber un patrón definido. Tal vez un poco menos en
el gráfico de residuos frente a observados.
En el Gráfico de Perfil, se puede apreciar que existe cierta interacción entre los factores, ya que
las rectas no son paralelas, y algunas se intersectan.
Ya que el Anova nos da que los tiempos medios difieren, podemos saber que grupos tienen
medias iguales o distintas. Para ello, entramos de nuevo en el procedimiento MLGU y con las
mismas variables seleccionadas, pulsamos el botón POST HOC. Entonces elegimos la variable
Categoría y el Test de Duncan. Tras esto, el sistema mostrará dos tablas: en la primera de ellas
se muestra las diferencias de medias, el error típico de tal diferencia, el p-valor para el contraste
de cada par de medias y el intervalo de confianza. Mientras que en la segunda se recogen los
subconjuntos homogéneos.
Las conclusiones que se obtienen es que hay dos grupos homogéneos, en cuanto al tiempo
medio dedicado a la docencia, el de profesores ayudante y asociados; y el de titulares de
universidad, de escuela y catedráticos de escuela.
V. Abraira
Bibliografía:
Análisis de la varianza
El análisis de la varianza (o Anova: Analysis of variance) es un método para comparar dos o más medias,
que es necesario porque cuando se quiere comparar más de dos medias es incorrecto utilizar repetidamente
el contraste basado en la t de Student. por dos motivos:
Por otro lado, en cada comparación la hipótesis nula es que las dos muestras provienen de la misma
población, por lo tanto, cuando se hayan realizado todas las comparaciones, la hipótesis nula es que todas las
muestras provienen de la misma población y, sin embargo, para cada comparación, la estimación de la
varianza necesaria para el contraste es distinta, pues se ha hecho en base a muestras distintas.
El método que resuelve ambos problemas es el anova, aunque es algo más que esto: es un método que
permite comparar varias medias en diversas situaciones; muy ligado, por tanto, al diseño de experimentos y,
de alguna manera, es la base del análisis multivariante