Anda di halaman 1dari 27

UNIVERSIDAD RAFAEL LANDVAR FACULTAD DE CIENCIAS ECONMICAS Y EMPRESARIALES SEDE: ANTIGUA GUATEMALA CURSO: ESTADSTICA APLICADA

CORRELACIN Y REGRESIN LINEAL SIMPLE

8 7 6 5 4 3 2 1 0 0 5 10 15 20 25

ENERO 2014

La relacin entre variables

Muchas veces necesitamos establecer si existe alguna relacin entre dos variables numricas presentes en elementos de una misma poblacin, esto nos permitir estimar por ejemplo que ocurre cuando una de ellas cambia de valor, es decir cul ser el comportamiento de la otra variable.

Para establecer una relacin entre dos variables cualesquiera, necesitamos en primer lugar definir a qu le vamos a llamar variables numricas.
Una variable numrica es una caracterstica de los elementos de una poblacin, que puede cambiar en magnitud de uno a otro, (es numrica).

As podemos hablar de las variables rendimiento, salario, ventas, gastos, etc. Cuando el cambio de una variable, parece influir en el cambio de otra, generalmente decimos que estas variables estn asociadas, o que existe algn nivel de correlacin.

La correlacin en este caso se dice que es simple, ya que la variable dependiente asumimos que depende de una sola variable independiente. En el caso de la correlacin mltiple se asume que una variable dependiente depende de ms de una variable independiente.

El descubrimiento de la existencia de una relacin entre dos variables, no dice mucho acerca del grado de asociacin o correlacin entre dos ellas, por ejemplo si establecemos que a mayor inversin en publicidad ms ganancia, esto parece lgico, sin embargo pueden existir excepciones.

Las correlaciones realmente varan respecto a su fuerza; podemos visualizar diferencias en la fuerza de la correlacin por medio de un diagrama de dispersin, que es una grfica que muestra la forma en que los puntajes de dos variables cualesquiera (x, y) estn dispersas, en todos los valores de los puntajes que se tengan en observacin.

En el arreglo convencional, un diagrama de dispersin se construye de manera que la variable x (llamada independiente), se coloca a lo largo de la lnea base horizontal, y la variable y (llamada dependiente) se mide en la lnea vertical.

Relacin entre aos de estudio y salario de 10 empleados


8 7 6 5 4 3 2 1 0 0 2 4 6 Aos de Estudio 8 10 12

La fuerza de la correlacin se observa en la medida que los puntos van describiendo una lnea recta a 45 grados.

Salario Miles de Q.

Direccin de la correlacin

La correlacin se puede definir como positiva o negativa, respecto a una direccin. Una correlacin positiva indica que a medida que el valor de la variable independiente crece, tambin lo hace la dependiente. La correlacin negativa implica que a medida que la variable independiente crece, la dependiente decrece.

Una correlacin positiva o negativa representa un tipo de correlacin lineal, si los puntos del diagrama a dispersin tienden a describir una lnea recta.
Otro tipo de correlaciones como las curvilneas, se estudian y analizan con otros mtodos distintos a los de la correlacin lineal.

Cmo se mide la fuerza de la correlacin lineal?

Con el coeficiente de correlacin lineal de Pearson r, el cual expresa numricamente no solo la fuerza, sino la direccin de la correlacin lineal

-1 -.95 -.5 -.1 0 .1 .5 .95 1

Correlacin Negativa perfecta Negativa fuerte Negativa moderada Negativa dbil Ninguna correlacin Positiva dbil Positiva moderada Positiva fuerte Positiva perfecta

Clculo de la r de Pearson
NSXY (SX) (SY)

r=
[NSX2 (SX)2] [NSY2 - (SY)2]

El coeficiente r2
El coeficiente r2 o coeficiente de determinacin se interpreta como la proporcin de la variabilidad de y que explica la variable x, as un valor r cuadrado de 0.90 se interpretara en el sentido que la variable x explica en un 0.90 (90%) la variabilidad de y. El r2 es simplemente el cuadrado de r.

Anlisis de regresin lineal

Establecer una correlacin entre dos variables puede ser til para establecer un modelo matemtico (una ecuacin lineal) que permita predecir los valores de una variable (y) conociendo los valores de la otra variable (x). La tcnica que se emplea para esto se conoce como anlisis de regresin lineal simple.

En primer lugar se necesita establecer el modelo de regresin lineal de mejor ajuste a la trayectoria de los puntos (x,y).

El modelo lineal se establece como:


= b1x + b0

El mtodo para obtener los coeficientes de la regresin se denomina de mnimos cuadrados

Mtodo de mnimos cuadrados

Basado en el hecho que iguala a cero la sumatoria de las diferencias entre los valores que se observan en la muestra y los que se pronostican con la ecuacin, es decir:

Tambin el modelo logra que la suma de las diferencias al cuadrado de los valores observados y los pronosticados, sea la mnima (de all su nombre de mtodo de mnimos cuadrados, es decir:

Las frmulas

Estas sern desarrolladas en clase, mediante un ejercicio y utilizadas solo en caso de tener que hacer los clculos sin computadora.
Por lo tardado del clculo, es mejor procesar los datos a travs de Excel, tal como se indicar en clase.

Requisitos para el uso del coeficiente de correlacin de Pearson

Las variables deben ser razonablemente relacionadas, evitar el error de encontrar correlaciones entre dos variables que no tienen nada que ver unas con otras; en este caso de habla de correlaciones espreas.

Comprobando la significancia de r

El coeficiente de correlacin nos da una medida exacta de la fuerza y la direccin de la correlacin en la muestra que se est estudiando. Si hemos tomado una muestra aleatoria de una poblacin especfica, es posible que an busquemos determinar si la asociacin entre x y y existe en la poblacin y no se debe solamente al error de muestreo.

Para comprobar la significancia de una medida de correlacin, usualmente planteamos la hiptesis nula de que no existe correlacin en la poblacin; con respecto al coeficiente de correlacin de Pearson, la hiptesis nula afirma que R=0 En tanto que la hiptesis de investigacin establece que R 0

Los valores calculados de r se pueden comparar con valores de r de tablas, a niveles de confianza de 5 y 1%, y concluir en que:
Si r calculada es mayor a r de tablas
Existe correlacin entre las variables.

Si r calculada es menor a r de tablas


No existe correlacin entre las variables.

Tambin se puede realizar una prueba F (ANDEVA). Los resultados de esta prueba se pueden obtener directamente de MegaStat o Anlisis de Datos de Excel.

Requisitos para el uso del coeficiente de correlacin de Pearson


Una relacin lineal recta: la r de Pearson es til solamente para detectar una correlacin lineal recta entre x, y. Se deben asignar puntajes a las variables de x, y. Las muestras deben haberse tomado al azar. Las variables deben distribuirse de manera normal.

Supuestos del modelo lineal


Aleatoriedad de los errores Homocedasticidad No autocorrelacin (Prueba Durbin Watson Linealidad