Anda di halaman 1dari 7

Regresin Lineal y Correlacin 1.

Ecuacin lineal simple Si tenemos dos variables como X e Y, y estas estn relacionadas tal que Y = 3 + 1.5 X; esta relacin nos permite calcular cualquier valor de Y dado un valor de X. Adems nos describe el efecto de un cambio en la variable X en los valores que toma Y. Especficamente el coeficiente de X indica el cambio en el valor de Y originado por el cambio en una unidad de X. En nuestra ecuacin Y vara en 1.5 unidades cuando X varia en una unidad. En este caso Y aumente cuando X aumenta, por lo que se dice que estn relacionadas directamente. Si tenemos una ecuacin como Y = 100 - 25 X, el valor de Y disminuir en 2 unidades por cada unidad que aumente X; luego en este caso diremos que X e Y estn relacionadas inversamente. El signo del coeficiente nos indica el tipo de relacin que existe entre las variables. Y = 3 + 1.5X Primer Grado Y = 3 + 2X + 4X2 Segundo Grado 3 Y = 3 + 7X + 5X Tercer Grado Las ecuaciones anteriores tienen diferentes grados, los que dependen del mayor exponente incluido en la ecuacin, pero todas son ecuaciones simples pues ellas solo expresan una relacin entre dos variables. Si tuviramos una ecuacin tal como Y = 3X + 8Z, esta expresa una relacin entre ms de dos variables (X, Y, Z ) y se llama una ecuacin mltiple. Ecuaciones simples se representan por Diagramas de dispersin. Una ecuacin con la forma genrica Y = a + b X, que es una ecuacin simple de primer grado y su representacin grfica es una recta, se le denomina ecuacin lineal simple. 2. Regresin lineal simple La finalidad de! anlisis de regresin simple es establecer una relacin cuantitativa (ecuacin) entre dos variables relacionadas. Una vez hecho esto podemos predecir valores de una variable en base a los valores conocidos de otra. La variable cuyo valor se predice se denomina variable dependiente y se designa con la letra Y. La variable conocida se llama variable independiente y se designa con la letra X. Para establecer esta relacin entre X e Y es necesario contar con informacin muestral. Esta informacin es un conjunto de pares de observaciones de X e Y; cada par pertenece a un elemento de la muestra.

Una vez recopilados los datos necesarios, la relacin entre variables puede establecerse grficamente o matemticamente (mnimos cuadrados). Tenemos la siguiente informacin recolectada referida a la altura que alcanza una muestra de plantas versus la edad de las mismas. Altura cms. Edad meses 9 3 5 1 7 2 14 5 10 4

3. Mtodos de clculo a. Grfico Cada par de observaciones representa un punto en el diagrama. La variable independiente X se grfica en el eje horizontal y la dependiente Y en el eje vertical. A este diagrama se le conoce con el nombre de Diagrama de dispersin o puntos. Una vez graficados todos los puntos, trazamos una recta que trate de unirlos (relacionarlos) a todos; a esta recta se le conoce con ei nombre de recta estimada de regresin (Y'), Esta recta nos permitir predecir el valor de Y para cualquier valor de X. Este mtodo es simple y directo. Su principal inconveniente es la naturaleza subjetiva del procedimiento, existirn diferentes rectas dependiendo de las personas que la confeccionen

b. Matemtico o de los mnimos cuadrados Sabemos que la ecuacin genrica de una recta es:

Y = a + bX (Ecuacin de regresin)
Este mtodo nos permitir hallar las constantes a y b que se denominan coeficientes de regresin. Para hallar estos coeficientes tambin nos Pasamos en los pares observados con los cuales se llevan a cabo los siguientes clculos preliminares: n 1 2 3 4 5 Y 9 5 7 14 10 Y=45 X 3 1 2 5 4 X=15 Y2 81 25 49 196 100 Y2=451 X2 9 1 4 25 16 X2=55 XY 27 5 14 70 40 XY=156

La siguiente etapa consiste en estas en las llamadas ecuaciones normales:

Donde n es el nmero de pares observados empleados en el clculo de la regresin, a y b son los coeficientes de regresin, remplazando los datos podemos construir un sistema de ecuaciones con dos incgnitas: 45 = 5a+15b (1) *(-3) 156= 15a + 55b (2) Resolviendo el sistema (1) y (2) b = 2.1 Remplazando en (1) a = 2.7 Remplazando los coeficientes a y b en la ecuacin de regresin tenemos: Y=2.7 + 2.1X El clculo de los coeficientes se podr efectuar de manera abreviada, es decir sin tener que construir un sistema de ecuaciones, empleando una variacin de las ecuaciones normales, las que se vern el la parte final de este captulo. Es conveniente efectuar una distincin entre el valor observado y el valor estimado de Y. El primero se refiere a la observacin efectiva (hecho o dato real) mientras que el segundo se refiere a un valor hallado o calculado en base a los datos observados y a la ecuacin de regresin (valor estimado). Estos dos valores pueden no ser iguales.

Para evitar confusiones se designa con la letra Y a los valores observados y con Y a los valores estimados, quedando la ecuacin de la siguiente forma: Y = 2.7 + 2.1X La diferencia la podemos apreciar en el siguiente grfico.

4. Error estndar de estimacin Designado por Syx, mide la disparidad promedio entre los valores efectivos y estimados de la variable Y. Empleando los datos de nuestro ejemplo tenemos: N 1 2 3 4 5 Y 9 5 7 14 10 X 3 1 2 5 4 Y 9.0 4.8 6.9 13.2 11.1 (Y-Y) 0.0 0.2 0.1 0.8 -1.1 (Y-Y)2 0.00 0.04 0.01 0.64 1.21 (Y-Y)2=1.90

Reemplazando en la formula: SYX = 0.80 cms. SYX podemos considerarlo como un indicador del grado de precisin con que la ecuacin de regresin describe la relacin entre variables. Si SYX, es pequeo es una buena descripcin de la relacin entre las variables, si se acerca a CERO entonces Y = Y' luego la relacin es exacta.

Si SYX es grande, hay una gran disparidad entre Y e Y', luego la ecuacin describe deficientemente la relacin entre las variables. SYX se mide en las mismas unidades que Y. Al SYX no se le considera como una buena medida del grado de relacin entre los valores de las variables, pues es afectada por las unidades en que se expresa. Para determinar un adecuado grado de relacin emplearemos el coeficiente de correlacin. 5. Coeficiente de Correlacin (r) y Determinacin (r2) De nuestro ejemplo, podemos calcular cul es la altura promedio de las observaciones ( ) =9 cm. La variacin en las alturas se mide calculando la suma de las diferencias cuadrticas (a semejanza de una varianza), es decir ) , a esta variacin se le denomina variacin total. ( Esta variacin total puede deberse a muchos factores, luego separaremos a la variacin total en variacin explicada (altura - edad) y en variacin no explicada (otros factores). La variacin explicada es la suma de las diferencias cuadrticas entre los datos estimados (Y) y ) . el promedio ( ) ( La variacin no explicada es la suma de las diferencias cuadrticas ) . entre los datos observados (Y) y los estimados ( ) ( Grficamente:

Efectuando los clculos: Y 9 9 5 4.8 7 6.9 14 13.2 10 11.1

9 9 9 9 9

) 0 16 4 25 1 =46

) 0.0 17.64 4.41 17.64 4.41 =44.10

0.00 0.04 0.01 0.64 1.21 =1.90

Variacin total = Variacin explicada + Variacin no explicada 46 = 44.10 + 1.90

La razn o cociente de la variacin explicada respecto a la total se conoce con el nombre de coeficiente de determinacin (r2).
( ( ) )

En nuestro caso tendremos: r2 = 0.96. Esto quiere decir que el 96% de la variacin de la altura (Y) est explicada por la variacin de la edad de las plantas (X). Si existiera una relacin exacta entre las variables X e Y entonces la ) variacin no explicada sera CERO, es decir ( , luego la variacin explicada ser igual a la variacin total, lo cual nos da que r 2 = 1 , por tanto se puede decir que existe una correlacin perfecta (r = 1), por el contrario si las variables no se encontraran relacionadas entonces 2 ) la variacin explicada seria CERO, es decir ( , luego r = 0. El coeficiente de correlacin es la raz cuadrada del coeficiente de determinacin (r2). Los valores de r van de 0 a 1 , pero pueden ser positivos o negativos, lo que indica si las variables se encuentran relacionadas directamente o indirectamente, el coeficiente de correlacin tiene el mismo signo de b. El coeficiente ms significativo es r 2 , pues mide el porcentaje de la variacin de la variable dependiente Y que es explicada por la variacin de la variable independiente X.

6. Mtodo abreviado de clculo Podemos hallar rpidamente los valores de a, b, Syx, y r siguiendo los siguientes pasos

1. Hallar N 1 2 3 4 5

Y 9 5 7 14 10 Y=45

X 3 1 2 5 4 X=15

Y2 81 25 49 196 100 Y2=451

X2 9 1 4 25 16 X2=55

XY 27 5 14 70 40 XY=156

2. Calcular e

3. Calcular y2, x2 y xy
4. Calcular b ( ) ( ) ()

5.

Calcular a

6.

Calcular Sxy

7. Calcular r

Anda mungkin juga menyukai