Anda di halaman 1dari 12

​ Pontificia Universidad Católica de Chile

Facultad de Historia, Geografía y Ciencia Política


Instituto de Geografía

Trabajo Práctico 1
Métodos Cuantitativos

Curso: Métodos Cuantitativos


Profesor: Luis Carvacho
Ayudantes: Oscar Urtubia
Estudiante: Valentina Cáceres

4 de Octubre 2016

1
Indice

Portada ………………………………………………………………………...1

Indice ……………………………………………………………………….. 2

Introducción ​ ​ ………………………………………………………………………. 3

Desarrollo ………………………………………………………………………. .4-8

Resultados y Explicación………….........…………………………………………... 9-11

Conclusión ………………………………………………………………………. 12

2
Introducción

El presente informe ahondará en hacer una regresión múltiple a partir de variables


independientes para predecir la tendencia o comportamiento de una variable
dependiente a través de una ecuación de regresión. Se tendrán 9 variables, en las que
el objetivo, es trabajar con programas computacionales para determinar cuales son
más significativas como factores de casos de obesidad infantil, de un grupo de 31
comunas durante el año 2015.
Se utilizarán los programas excel y PSPP, el último versión 0.85 y software de
distribución gratuita. En la primera parte se utilizará excel para obtener datos
anómalos, hacer una correlación simple con el objetivo de borrar datos colineales,
posteriormente se operará en PSPP la regresión simple.

Las nueve variables a trabajar, son las siguientes :

-Cantidad de población menor a 18 años en la comuna el año 2015


-Proporción de estudiantes con jornada escolar completa
-Horas de actividad física promedio a la semana realizadas por los menores de edad
en colegios
-Proporción de población urbana de la comuna
-Menores de 18 años cuyos ambos padres trabajan tiempo completo
-Proporción de la población que vive a menos de 1000 m de un parque o área verde
-Promedio de distancia de un hogar a un centro comercial
-Porcentaje de la comuna con acceso a televisión por cable
-Casos de obesidad de menores de 18 años registrados en la comuna el 2015
La última corresponde a la variable dependiente que se busca explicar a través de una
ecuación.

Además, el informe se enfocará en el sentido de las variables explicativas con


respecto a la explicada, ya sea directo o inverso, la ecuación obtenida para explicar el
fenómeno, ecuación de regresión múltiple, que comuna es la mejor y peor estimada
según la ecuación. Por último, se explicarán algunas posibles causas de los resultados
obtenidos.

3
Desarrollo

Los datos son entregados por el profesor con respecto a 31 comunas y 9 variables
inventadas, las cuales están en la siguiente tabla Excel.

Fuente: Elaboración Propia

La primera parte consiste en eliminar los datos anómalos, para esto se obtiene el
promedio y la desviación estándar a través de Excel. A través del comando PROM Y
DESVprom. Con estos datos se calcula el score zeta en una columna nueva, arrojando
los datos que estarían fuera de -3 y 3 desviaciones estándar. La comuna que poseía
un dato por sobre 3 desviaciones estándar es la comuna de Vista Nublada, la que se
considera anómala y se elimina.

El siguiente paso consiste en hacer la correlación de los datos. Para esto se ajusta el
excel a través de opciones de excel - complementos - herramientas para análisis -
administrar complementos de excel. Después en la pestaña Datos aparecerá “Análisis
de datos” y coeficiente de correlación.

Fuente: Elaboración Propia

4
En el siguiente paso, se eliminan la variable tv cable y población menor a 18 años, por
ser colineales, es decir, presentar un coeficiente de correlación mayor a 0,7 o menor a
-0,7. La explicación de estas variables colineales recae en que estas variables inciden
directamente en la variable dependiente obesidad infantil, ya que son los infantes
menores de 18 años, que pasan muchas horas viendo televisión, fomentado por la
tenencia de tv cable, los que tienen índices de obesidad mayores.

A continuación se muestra la tabla de correlación con las variables colineales


eliminadas:

Fuente: Elaboración Propia

Ahora se necesita trabajar con el PSPP, para ello se ocupa la tabla de datos original,
se le borran las variables colineales tv cable y población menor a 18 años y la fila de la
comuna con el dato anómalo. Acto seguido, se desea ocupar un formato que sea
compatible en PSPP, para esto se, configura desde panel de control, el cambio de
formato de comas por puntos, además se guarda la tabla de excel en formato CSV
(MS-DOS), y posteriormente se abre en PSPP.

Se importa la tabla en el programa PSPP, este pide mencionar que los nombres de las
variables están sobre la línea seleccionada, se escoge el separador coma, también
pide clasificar en variables dependientes e independientes.Se cargan las 5 variables
independientes en el PSPP y se considera casos de obesidad infantil como variable
dependiente. La siguiente tabla muestra como queda importado en PSPP.

5
Fuente: Elaboración propia

Se hace click en la pestaña Analizar - Regresión - Lineal. La regresión pide clasificar


en variable dependiente(casos de obesidad infantil) y variables independientes( todas
las demás).

El programa entrega la siguiente tabla:

Fuente:Elaboración propia

6
El siguiente paso es seleccionar las variables que posee t significativos, estos son:

Para la variable Jornada escolar completa es -3.33, horas actividad física -9.71,
población urbana 0.24, Padres trabajando 10.17, Parque -0.85, Distancia al mall 0.91.
Se descartan las variables significativas comparando si el t significativo es mayor a 2 o
menor a -2, en este caso se descarta población urbana, cantidad de parques y
distancia al mall. La variable con el t menos significativo es población urbana y el más
significativo es padres trabajando.

Se hace otra tabla excel, con las 3 variables que tienen t significativo, eliminando las
que tienen t no significativo y se guarda en formato CSV (MS-DOS).

Fuente:Elaboración propia

Posteriormente se importa la nueva tabla en el programa PSPP, se hace regresión


simple, obteniendo los siguientes datos y fórmula.

7
Fuente: Elaboración propia

La constante es 8019.65

El coeficiente Beta de Padres trabajando es 0.09

El coeficiente Beta de Horas actividad física es -2500.32

El coeficiente Beta de Jornada escolar completa es -2818.95

Los datos anteriores ayudan a formular la ecuación final de regresión, que es:

Y= 8019.65 + 0.09*(padres trabajando)+


-2500.32(hrs.act.fisica)+-2818.95*(Jornada esc.completa).

La variable dependiente(Y) es los casos de obesidad infantil, en esta, influyen las


variables predictoras independientes de padres trabajando, la que es directa, mientras
que horas de actividad física y jornada escolar completa influyen inversamente. Con
respecto coeficientes beta, el mayor es de -2818.95 para la jornada escolar completa,
en esta caso es negativo y el menor coeficiente Beta para la proporción de padres
trabajando, el cual es de 0.09.

8
Resultados y Explicación

Las explicaciones de las variables predictoras elegidas, podrían recaer en que el


trabajo de los padres influye, en cierta forma, en el tiempo que le dedican al cuidado y
atención a los hijos. El hecho que la mamá o el papá trabajen, influye en que tiene
menos tiempo para cocinar comida casera, la que es más saludable que comida
rápida, por ejemplo. Como también tienen menos tiempo para fiscalizar de que se
alimenta su hijo.

Las horas de actividad física en las que ejercita el niño, le ayudan a disminuir su
índice de sobrepeso y obesidad.

La jornada escolar completa, se sabe que desordena los horarios de comida, dado lo
largo de la jornada. En este caso, ayuda a bajar los casos de obesidad; por lo que
probablemente los niños comen menos, porque no llevan colaciones al colegio o
existe poca preocupación de alimentarse durante la jornada escolar.

El “r”o coeficiente de correlación es 0.93, es decir, la variable dependiente es estimada


en un 93% por las tres variables independientes. El r cuadrado o coeficiente de
determinación dice el porcentaje de varianza explicada, en este caso, el 86% de los
casos están explicados por la ecuación final y por ende, por las variables
independientes predictoras. Entonces, un 14% de los casos están siendo explicados
por otras variables no consideradas.

Acto seguido, se utiliza el excel, para crear una tabla con una nueva columna de los
casos estimados de obesidad, en esta se coloca la fórmula de regresión final. Para
ello, se copia la constante y el coeficiente beta de cada variable multiplicado por la
magnitud de cada variable en cada comuna.

9
Fuente: Elaboración Propia

Después se restan los casos estimados menos los observados, y también se realiza
una proporción de los casos estimados divididos en los casos observados. Entre más
cercano a uno es la proporción más certera es la ecuación en esa comuna.

Tabla Final de Resultados

Fuente:Elaboración propia

10
Las comunas donde la fórmula calculada está peor ajustada, y por ende son las
peores estimadas son: La comuna del Palomar , ya que se tiene una proporción de -77
veces los casos estimados por sobre los observados, seguido de La comuna de Pozo
Negro, ya que tiene una proporción de 18 veces los casos observados sobre los
estimados, el siguiente es Las Bandurrias con 5.29 veces, Camino corto con 3.48
veces, Tierra Morada con 3.19, Rajatablas con -2.86, Río Lento -2.11. Se debe
mencionar que los casos estimados negativos no tienen interpretación lógica, ya que
no se pueden tener casos negativos.

Las comunas donde la fórmula está mejor ajustada y es más confiable la estimación,
son “Ministro Dávalos” con una proporción de 1.0116 de los casos estimados divididos
en los observados, muy cercana a uno, y una resta de casos observados menos
estimados de 18.91. Seguido de Los Villares con 0.977 veces, Los Melonares con
1.036, San Eustaquio 0.9749 veces, Villa Topo 0.9524. Estas tendrían hasta un 5% de
error, ya sea sobrestimado o subestimado.

Por otro lado la comuna con menores casos de obesidad infantil sería Palomar,
probablemente porque la proporción de niños en jornada escolar completa es mayor.
Dado políticas públicas de cobertura de la jornada escolar completa. También sus
ingresos son más altos, justificandose en que trabajan los dos jefes de hogar, en esta
comuna existen oportunidades laborales tanto para mujeres como hombres. Por último
se han implementado planes deportivos para niños en el gimnasio y la municipalidad;
está también es la peor estimada en la ecuación, dado que no responde al
comportamiento general o al promedio del resto de las comunas.

La comuna con mayor casos de obesidad infantil es Buitre enfermizo, porque existe
poco fomento de la actividad física, tampoco es obligatorio en los colegios, como
tampoco se ha implementado la jornada completa en su totalidad. También existe un
fomento de la inclusión de las mujeres en la fuerza laboral, entonces los dos padres
trabajan.

11
Conclusión

Se pudo concretar el objetivo de obtener una ecuación de regresión lineal que estime
los casos de obesidad infantil, estas variables seleccionadas son: Horas de actividad
física, proporción de padres trabajando y proporción de la jornada escolar completa en
la comuna. Fueron seleccionadas a partir del descarte del coeficiente de significancia,
obtenido en la regresión con el programa PSPP.
Después, se hizo la ecuación de regresión simple con estas tres variables y a partir de
esta ecuación, se obtuvieron los casos estimados. Finalmente se compararon, a través
de una resta y proporción con los observados.

La comuna con menores casos observados de obesidad infantil es Palomar y con


mayores casos es Buitre enfermizo.
Además se observa que la comuna que peor se ajusta a la ecuación de regresión es
Palomar, con -77 veces los casos estimados por sobre los observados y Ministro
Dávalos es la mejor, teniendo sólo una diferencia de -18 casos entre estimados y
observados y una proporción de 1.0116 casos observados por sobre estimados.

El coeficiente de determinación es de 83%, por esto y por el ejemplo de la comuna


Palomar, se puede concluir que la ecuación estimaría muy mal los casos de obesidad
en algunas comunas, por lo que no es conveniente generalizar o usarla para todas.

12