Anda di halaman 1dari 12

MAESTRA EN

CIENCIAS SOCIALES Y HUMANIDADES

ESTADSTICA

1.

Anlisis de Correlacin

Si tenemos dos variables cuantitativas (en nuestro caso slo trabajaremos con dos variables aunque el estudio puede hacerse para ms cantidad) puede interesarnos analizar la existencia o no de alguna relacin entre ellas. Por ejemplo, puede interesarnos ver si existe alguna relacin entre la edad semanales y la cantidad de materias aprobadas de los pasantes cuyos datos se encuentran en la matriz que les mand la clase 8. Una primera aproximacin a este problema consiste en realizar un diagrama de puntos o una nube de puntos1 que nos puede mostrar visualmente si existe algn tipo de relacin lineal o no entre las variables.

Formalmente, si queremos cuantificar o medir, la intensidad de la relacin lineal entre las variables podemos recurrir al parmetro que nos da tal cuantificacin y ese parmetro es el denominado: Coeficiente de correlacin lineal de Pearson r 2.
1 2

En el asistente de grficos de excel se elige XY(Dispersin) r en el caso de obtenerse de una muestra (ro, letra del alfabeto griego) en el caso de obtenerse de una poblacin.

Mara Eugenia Angel

MAESTRA EN

CIENCIAS SOCIALES Y HUMANIDADES

ESTADSTICA
En este ejemplo el coeficiente de correlacin es r = 0,2469 Para calcular el coeficiente de correlacin con excel hay dos caminos. 1- Elegir de las funciones estadsticas COEF.DE.CORREL

En Matriz1 hay que pintar la columna de una de las variables y en Matriz 2 la columna de la otra. El valor obtenido: 0,2469 est indicando que para la muestra de pasantes existe correlacin lineal positiva dbil entre la edad y la cantidad de materias aprobadas. 2- Elegir de las herramientas: anlisis de datos y luego: Coeficiente de correlacin y se obtiene la tabla:
Edad en aos Cantidad de materias Edad en aos Cantidad de materias 1 0,24692518 1

Observamos que el valor al que se llega por cualquiera de los dos caminos es el mismo, pueden hacerlo por el que quieran

Mara Eugenia Angel

MAESTRA EN

CIENCIAS SOCIALES Y HUMANIDADES

ESTADSTICA
Coeficiente de correlacin Este coeficiente es un valor que oscila entre 1 y 1, cuanto ms se acerca a 1 a +1 ms fuerte es la asociacin, y cuanto ms cerca est de 0 ms dbil es la asociacin.

Si el coeficiente es 0 quiere decir que no hay correlacin lineal entre las variables. No hay relacin lineal.

12

Correlacin NO lineal, r = 0
18 12

No hay correlacin, r = 0

Y
6 0
0 1 2 3 4 5 6 7 8 9 10 11 12

10 11 12

Si el signo del coeficiente es positivo quiere decir que las variables estn directamente relacionadas. Al aumentar una de ellas la otra tambin aumenta. Relacin lineal directa.
Correlacin lineal positiva, r se acerca a +1

14 12 10 8 6 4 2 0

9 10 11 12

Mara Eugenia Angel

MAESTRA EN

CIENCIAS SOCIALES Y HUMANIDADES

ESTADSTICA
Si el signo es negativo quiere decir que estn inversamente relacionadas. Al aumentar una de las variables la otra disminuye. Relacin lineal inversa.
Correlacin lineal negativa, r se acerca a -1 12 10 8 6 4 2 0 0 1 2 3 4 5 6 7 8 9 10 11 12

Observacin: si no existe correlacin de ningn tipo entre dos variables aleatorias entonces no habr correlacin lineal (r = 0). Sin embargo si r = 0 slo indica que no hay correlacin lineal pero puede haber de otro tipo. En sntesis segn el valor de r la correlacin puede ser

No siempre las variables estn relacionadas en forma lineal, existen otro tipo de relaciones que implican otros tipos de anlisis (esto nosotros no lo tratamos). Podra darse el caso que las variables estn relacionadas por ejemplo en forma exponencial, logartmica, etc.

Mara Eugenia Angel

MAESTRA EN

CIENCIAS SOCIALES Y HUMANIDADES

ESTADSTICA

2.

Anlisis de Regresin

Si el coeficiente de correlacin utilizado para medir el grado de asociacin lineal entre un par de variables es cercano a 1 o a +1 puede considerarse la ecuacin de la recta que mejor ajuste a la nube de puntos, denominada tambin recta de mnimos cuadrados. Para determinar la recta consideramos como independiente a una de las variables aleatorias (la variable independiente puede no ser aleatoria sino ser fijada por el investigador) y como dependiente a la otra. La ecuacin de la recta es la que va a permitirnos estimar o pronosticar valores de la variable dependiente para distintos valores de la variable independiente. A partir del anlisis de regresin lineal se obtiene una recta de la forma: y = b . x + a Donde y es la variable dependiente; x es la variable independiente; a es la ordenada al origen (donde la recta corta al eje y) y b es la pendiente de la recta (la que determina la inclinacin). En el siguiente diagrama de dispersin se observa la nube de puntos del ejemplo con la recta de regresin3.

En excel clicleamos con el botn derecho del mouse en los puntos de la nube (se iluminan todos), elegimos y aceptamos la leyenda Agregar lnea de tendencia y en el cuadro de tipo elegimos lineal.

Mara Eugenia Angel

MAESTRA EN

CIENCIAS SOCIALES Y HUMANIDADES

ESTADSTICA
La recta de regresin es aquella recta que mejor se ajusta a los datos, es la que pasa ms cerca de todos los puntos del diagrama de puntos, se apoya en el mtodo de mnimos cuadrados. La distancia (marcada con lnea de puntos en el grfico) que existe entre un punto (valor observado o real) y la recta (valor estimado) se llama residuo o error 4. La mejor recta de regresin es aquella donde la suma de todos los residuos es mnima, pero para que los valores positivos (de arriba de la recta) no anulen a los valores negativos (debajo de la recta), los residuos se elevan al cuadrado; luego la condicin es que la suma de los residuos al cuadrado sea mnima 5. Ecuacin de la recta de regresin Para hallar la ecuacin de la recta, cuando se grafica la lnea de tendencia en el excel se tilda en opciones presentar ecuacin en el grfico y presentar el valor R cuadrado en el grfico, obtenindose:

Los supuestos ms importantes para el anlisis de regresin son: 1- Todos los errores referidos a la misma x tienen esperanza cero. 2- Todos los errores referidos a la misma x tienen la misma varianza. 3- Todos los errores referidos a la misma x tienen distribucin normal. 4- Los errores son independientes entre s. 5 (residuos)2 = mnima. Por eso se llama mtodo de mnimos cuadrados. Mara Eugenia Angel

MAESTRA EN

CIENCIAS SOCIALES Y HUMANIDADES

ESTADSTICA
Entonces la ecuacin de la recta es: y = 0,2144x + 8,9113 donde la ordenada al origen vale 8,9113 y la pendiente 0,2144. La pendiente es positiva dado que la recta es creciente porque la relacin entre las variables es directa. La pendiente de la recta tiene siempre el mismo signo que el coeficiente de correlacin. Esta recta permite estimar valores de cantidad de materias aprobadas en funcin de la edad siempre y cuando nos mantengamos dentro del rango de edades estudiado porque no se sabe si el modelo o la tendencia se conserva si nos alejamos mucho del mismo. Pero cuidado, estimar en este ejemplo no tiene mucho sentido ya que la correlacin lineal entre las variables es muy baja. Coeficiente de determinacin El valor R2 = 0,061 que aparece junto a la ecuacin de la recta es muy importante en el anlisis de regresin. R2 se denomina coeficiente de determinacin (es el valor de r elevado al cuadrado). Indica la bondad de ajuste de la recta y se lo expresa en porcentaje. En el ejemplo este coeficiente de 0,061 indica que el modelo explica en un 6,1% la variacin de la cantidad de materias aprobadas en funcin de la edad de los pasantes. A mayor coeficiente de determinacin mejor ser el ajuste del modelo lineal. Si todos los valores observados estuvieran sobre la misma recta este coeficiente sera del 100% y el de correlacin valdra 1 o 1.

Mara Eugenia Angel

MAESTRA EN

CIENCIAS SOCIALES Y HUMANIDADES

ESTADSTICA

3.

Otro ejemplo

Los siguientes datos se refieren a la edad y al promedio de calificaciones obtenidos por una muestra de 21 estudiantes de un mismo curso. Analizaremos si existe relacin lineal entre ambas variables.
Edad 11 11 11 12 12 12 12 13 13 13 14 14 14 15 15 16 16 16 16 17 17 Promedio 8,7 7,3 4,9 4,3 7,4 3,7 8,2 7,8 5,6 3,7 7,8 8,4 7,5 5,5 1,8 6 4,6 3,4 1,8 3,2 2

En este caso el coeficiente de correlacin es r = -0,54841547 El diagrama de dispersin con la recta de mnimos cuadrados es:
Diagrama de dis pe rsin
10 8

y = -0,6261x + 14,055 R = 0,3008


2

Promedio

6 4 2 0 10 11 12 13 14 15 16 17 18

Edad

Observamos que la recta es decreciente, tanto la pendiente como el coeficiente de correlacin son negativos.

Conclusiones En funcin de lo realizado podemos decir que el promedio de calificaciones de los alumnos y la edad tienen cierto grado de correlacin lineal inversa, dado que el coeficiente de correlacin es negativo, esto indica que a mayor edad menor ser el promedio de calificaciones. El modelo lineal explica en un 30,08% la variacin de las calificaciones en funcin de la edad (no es mucho).

Mara Eugenia Angel

MAESTRA EN

CIENCIAS SOCIALES Y HUMANIDADES

ESTADSTICA
Se puede estimar la calificacin promedio de un alumno de por ejemplo 13,5aos, esta ser de aproximadamente 5,60 puntos (5,60 = -0,6261.13,5 + 14,055). De igual forma podemos estimar el promedio de un alumno de 18 aos dado que no nos alejamos demasiado del valor mximo de la variable (17) pero no sera conveniente estimar el promedio de un alumno de 20 aos ni de uno de 9 aos.

Un tratamiento ms completo
Un tratamiento ms completo se obtiene al utilizar directamente Regresin de Anlisis de datos de las herramientas de excel donde aparece, entre otras cosas lo siguiente: Resumen Estadsticas de la regresin Coeficiente de correlacin mltiple Coeficiente de determinacin R^2 R^2 ajustado Error tpico Observaciones 0,54841547 Valor absoluto del coeficiente r (nmero sin signo) 0,30075952 Coeficiente de determinacin R2 0,26395739 1,97396541 21

Edad Curva de re gre sin ajus tada


1 0 9 8 7 6 5 4 3 2 1 0 1 0 1 1 1 2 1 3 1 4 1 5 1 6 1 7 1 8

Promedio

Edad

Promedio

Pronstico Promedio

Lineal (Pronstico Promedio)

Mara Eugenia Angel

MAESTRA EN

CIENCIAS SOCIALES Y HUMANIDADES

ESTADSTICA
Coeficiente Estadstico Probabilida s Error tpico t d Intercepcin 14,0554513 3,05491553 4,60092961 0,00019505 Edad -0,62608441 0,21900785 -2,8587305 0,01004839
Ordenada al origen de la recta Pendiente de la recta

p- valores

Los P- valores que aparecen sirven para realizar las pruebas de hiptesis sobre los parmetros poblacionales pendiente y ordenada de la recta. El estadstico de prueba para ambos casos es una distribucin llamada T de Student (muy parecida a la normal) La prueba sobre la pendiente de la recta es importante porque si la pendiente de la recta es cero esto quiere decir que entre la variable independiente y la dependiente no hay relacin. Es decir que si la pendiente es cero no hay correlacin lineal (grficamente la recta es paralela el eje x). La prueba sobre la ordenada no es tan importante porque el valor de la ordenada no incide en la relacin entre las variables, si la ordenada es cero slo indica que la recta pasa por el origen de coordenadas. Las hiptesis que se plantean para la prueba sobre la pendiente son: Ho: la pendiente de la recta es cero H1: la pendiente es distinta de cero El nivel de significacin que se suele utilizar para comparar es = 0,05 El p valor = 0,01004839 aparece directamente en la tabla.

Mara Eugenia Angel

10

MAESTRA EN

CIENCIAS SOCIALES Y HUMANIDADES

ESTADSTICA
Como el p-valor es menor que el nivel de significacin (0,01 < 0,05), se rechaza la hiptesis nula, esto nos est indicando que la pendiente es distinta de cero con un nivel de significacin de 0,05.

4.

Un ejemplo ms.

1- Se tiene la siguiente tabla que relaciona las variables x e y


X 1 1 1 2 3 3 3 3 4 4 4 5 5 5 Y 6 4 8 7 6 8 7 9 9 8 10 10 13 12

Utilizando Excel, al ingresar en Herramientas y luego Anlisis de datos y seleccionar Regresin, aparece la siguiente informacin:
14 12 10 Y 8 6 4 2 0 0 1 2 3 Variable X 1 4
Y P ronst ico para Y Lineal (P ronst ico para Y)

y = 1,3454x + 4,1289

Mara Eugenia Angel

11

MAESTRA EN

CIENCIAS SOCIALES Y HUMANIDADES

ESTADSTICA
Tabla 1 Resumen Estadsticas de la regresin Coeficiente de correlacin mltiple Coeficiente de determinacin R^2 R^2 ajustado Error tpico Observaciones Tabla 2 Intercepcin Variable X 1 1 Coeficiente s Error tpico 4,12886598 0,94507185 1,34536082 0,27445731 3 4

0,81665844 0,66693101 0,63917526 1,44486292 14

Inferior Estadstico t Probabilidad 95% Superior 95% 4,36883817 0,00091405 2,06973134 6,18800062 4,90189468 0,00036478 0,74736973 1,94335192

Cmo se interpreta toda la informacin brindada? a- Las variables x e y estn correlacionadas linealmente, esta correlacin es muy buena y directa (el coeficiente es 0,8166 de tabla 1) b- El modelo de regresin lineal explica en un 66,69% la variacin de y respecto de x (el coeficiente de determinacin es 0,6669, de tabla 1) c- Observando la columna 1 de la tabla 2 se obtiene que la recta de regresin lineal es y = 1,3454 x + 4,12. Si x es cero y es 4,12, adems para una variacin en una unidad de la variable x, la variable y vara es 1,34 unidades. d- Observando las columnas 3 y 4 de la segunda tabla se puede afirmar que la pendiente y la ordenada al origen de la recta son distintas de cero. (El p de la pendiente es 0,00036, mucho menor a 0,05) e- Se puede estimar valores de y para distintos valores de x que no se alejen demasiado del rango por ejemplo puede interesarnos saber cul ser el valor de y si la x vale 6. Reemplazando en la recta se tiene: y = 1,3454 . 6 + 4,12 = 12,19. No se podra estimar el valor de y si x es 9 porque se aleja demasiado del rango.
Mara Eugenia Angel

12

Anda mungkin juga menyukai