Es posible afirmar que la asignatura con mejor calificacin promedio es Biologa y la que menos apreciacin
promedio recibe es Filosofa.
Matriz de varianzas y covarianzas:
Matriz de correlaciones:
Las asignaturas que presentan correlacin ms alta son Sociales y Filosofa.
Varianza generalizada
Determinante de la matriz de varianzas y covarianzas:
El resultado anterior permite afirmar que los datos en cuestin ocupan 32683.48 unidades de hipervolumen.
2. Representacin grfica de los datos
Diagrama de dispersin:
Casi el 50% de los colegios tenidos en cuenta en este estudio son entidades oficiales y trabajan en jornada
Sabatina-Dominical.
Caras de Chernoff
Para este caso, la altura del rostro indica el puntaje de matemticas, el estilo del cabello el puntaje de
Quimica y la sonrisa muestra la calificacin de ingles. En ese orden de ideas, el colegio nmero uno presenta
el mejor puntaje en matemticas y en qumica, tambin presenta una buena calificacin en ingls.
Curvas de Andrews para los datos correspondientes a las asignaturas de matemticas, biologia e
ingls.(1,2,3 respectivamente)
Perspectiva tridimensional de los puntajes de las asignaturas:
3. Matriz de precisin:
Si se continua iterando se espera llegar a un valor aproximado a 33.57, que es el valor que aparece en
la matriz de datos original.
5. Dimensionalidad
Teniendo en cuenta slo las variables cuantitativas de mi base de datos, es decir ocho variables (los
puntajes en cada materia), se requieren (8 11)/2 = 44 parmetros para describir estos datos. Por
otra parte, si se pretendiera realizar inferencia estadstica sobre estos datos, los resultados que se
obtengan carecern de confiabilidad ya que la muestra no se considera representativa en trminos
estadsticos. Se requieren al menos 160 unidades de observacin para garantizar representatividad de la
muestra.
6. Distancia de Mahalanobis y Datos atpicos
Al calcular la distancia de los puntos al vector de medias, estos valores nos permiten ver en qu punto
existen datos atpicos, (en este caso utilizamos la distancia de Mahalanobis), en R se procede como
sigue:
Con base en esto se puede afirmar, por ejemplo, que la observacin del colegio nmero 24 contiene
datos atplcos. (Al menos un dato atpico en alguna variable).
Revisando los datos detalladamente se logra deducir que el dato atpico se encuentra en el puntaje de la
asignatura de Biologia. En los dems colegios dicho puntaje se encuentra entre 40 y 44.
7. Contraste de esfericidad
Sistema de hiptesis:
Ho: V= 2I ( la varianza del puntaje promedio de las ocho asignaturas es la misma y no hay correlacin
entre los puntajes de las materias)
Vs
Ha: V cualquier matriz
Procedimiento en R:
Conclusin:
Puesto que el valor p obtenido es menor que cualquier nivel de significancia, hay evidencia para rechazar
la hiptesis nula. Por tanto se concluye que la varianza es diferente en cada variable y adems las
variables estn correlacionadas.
8. Componentes principales
Reduciendo la dimensin a dos componentes principales, se puede afirmar que el primer componente
expresa ms del 90% de la informacin de la variable puntaje en matemticas. Tambin se ve que
aproximadamente el 91% de la informacin del puntaje en lenguaje es expresada el primer componente.