Análisis Estadístico Multivariado

ANLISIS ESTADSTICO MULTIVARIADO
Alumno: Manuel Arturo Nova M
Docente: Reinaldo Alarcn
Universidad Pedaggica y Tecnolgica de Colombia

Lic. Matemticas y Estadstica
2016
Los datos con los que se trabajar corresponden a los resultados promedio obtenidos en las pruebas saber
11 por 43 colegios de Boyac.
1. Descripcin de los datos
Vector de medias:
Es posible afirmar que la asignatura con mejor calificacin promedio es Biologa y la que menos apreciacin
promedio recibe es Filosofa.
Matriz de varianzas y covarianzas:
Matriz de correlaciones:
Las asignaturas que presentan correlacin ms alta son Sociales y Filosofa.
Varianza generalizada
Determinante de la matriz de varianzas y covarianzas:
El resultado anterior permite afirmar que los datos en cuestin ocupan 32683.48 unidades de hipervolumen.
2. Representacin grfica de los datos
Diagrama de dispersin:
Diagrama de caja y bigotes:

Diagrama de barras entre la jornada y la naturaleza del colegio:
Casi el 50% de los colegios tenidos en cuenta en este estudio son entidades oficiales y trabajan en jornada
Sabatina-Dominical.
Caras de Chernoff
Para este caso, la altura del rostro indica el puntaje de matemticas, el estilo del cabello el puntaje de
Quimica y la sonrisa muestra la calificacin de ingles. En ese orden de ideas, el colegio nmero uno presenta
el mejor puntaje en matemticas y en qumica, tambin presenta una buena calificacin en ingls.
Curvas de Andrews para los datos correspondientes a las asignaturas de matemticas, biologia e
ingls.(1,2,3 respectivamente)
Perspectiva tridimensional de los puntajes de las asignaturas:
3. Matriz de precisin:
Para el caso de Matemticas se tiene:

Varianza de los residuales de Matematicas en regresin con el resto de asignaturas:
1
2 (1) = = 4.21
0.2374879128
Se puede proponer el modelo:
Mate = Intercepto - 0.63Qui 0.44Fis 0.758Bio + 0.23Filo 0.36Ing 0.088Leng.
El coeficiente de sociales es cero. El modelo propuesto permite afirmar, por ejemplo, que por cada punto
que aumente el puntaje promedio obtenido en filosofia, se espera que el puntaje en matemticas aumente
en 0.23 puntos.
Para las dems variables la regresin es anloga.
4. Procedimiento para datos faltantes:
Si se continua iterando se espera llegar a un valor aproximado a 33.57, que es el valor que aparece en
la matriz de datos original.
5. Dimensionalidad
Teniendo en cuenta slo las variables cuantitativas de mi base de datos, es decir ocho variables (los
puntajes en cada materia), se requieren (8 11)/2 = 44 parmetros para describir estos datos. Por
otra parte, si se pretendiera realizar inferencia estadstica sobre estos datos, los resultados que se
obtengan carecern de confiabilidad ya que la muestra no se considera representativa en trminos
estadsticos. Se requieren al menos 160 unidades de observacin para garantizar representatividad de la
muestra.
6. Distancia de Mahalanobis y Datos atpicos
Al calcular la distancia de los puntos al vector de medias, estos valores nos permiten ver en qu punto
existen datos atpicos, (en este caso utilizamos la distancia de Mahalanobis), en R se procede como
sigue:
Con base en esto se puede afirmar, por ejemplo, que la observacin del colegio nmero 24 contiene
datos atplcos. (Al menos un dato atpico en alguna variable).
Revisando los datos detalladamente se logra deducir que el dato atpico se encuentra en el puntaje de la
asignatura de Biologia. En los dems colegios dicho puntaje se encuentra entre 40 y 44.
7. Contraste de esfericidad
Sistema de hiptesis:
Ho: V= 2I ( la varianza del puntaje promedio de las ocho asignaturas es la misma y no hay correlacin
entre los puntajes de las materias)
Vs
Ha: V cualquier matriz
Procedimiento en R:
Conclusin:
Puesto que el valor p obtenido es menor que cualquier nivel de significancia, hay evidencia para rechazar
la hiptesis nula. Por tanto se concluye que la varianza es diferente en cada variable y adems las
variables estn correlacionadas.
8. Componentes principales
Reduciendo la dimensin a dos componentes principales, se puede afirmar que el primer componente
expresa ms del 90% de la informacin de la variable puntaje en matemticas. Tambin se ve que
aproximadamente el 91% de la informacin del puntaje en lenguaje es expresada el primer componente.

Análisis Estadístico Multivariado

Diunggah oleh

Informasi Dokumen

Deskripsi Asli:

Judul Asli

Hak Cipta

Format Tersedia

Bagikan dokumen Ini

Bagikan atau Tanam Dokumen

Opsi Berbagi

Apakah menurut Anda dokumen ini bermanfaat?

Apakah konten ini tidak pantas?

Hak Cipta:

Format Tersedia

Análisis Estadístico Multivariado

Diunggah oleh

Hak Cipta:

Format Tersedia

ANLISIS ESTADSTICO MULTIVARIADO

Alumno: Manuel Arturo Nova M

Docente: Reinaldo Alarcn

Universidad Pedaggica y Tecnolgica de Colombia

Diagrama de caja y bigotes:

Para el caso de Matemticas se tiene:

Anda mungkin juga menyukai