Anda di halaman 1dari 12

CORRELACIN Y REGRESIN

ANLISIS DE CORRELACIN.-ES EL CONJUNTO DE TCNICAS ESTADSTICAS EMPLEADO


PARA MEDIR LA INTENSIDAD DE LA ASOCIACIN ENTRE DOS VARIABLES.EL PRINCIPAL OBJETIVO DEL ANLISIS DE CORRELACIN CONSISTE EN DETERMINAR QUE TAN INTENSA ES LA RELACIN ENTRE DOS VARIABLES.NORMALMENTE,EL PRIMER PASO ES MOSTRAR LOS DATOS EN UN DIAGRAMA DE DISPERSIN.

DIAGRAMA DE DISPERSIN.-ES AQUEL GRFICO QUE REPRESENTA LA RELACIN ENTRE


DOS VARIABLES.

VARIABLE DEPENDIENTE.-ES LA VARIABLE QUE SE PREDICE O SE CALCULA.CUYA


REPRESENTACIN ES Y.

VARIABLE INDEPENDIENTE.-ES LA VARIABLE QUE PROPORCIONA LAS BASES PARA EL


CLCULO.CUYA REPRESENTACIN ES X.

No obstante, puede que exista una relacin que no sea lineal, sino exponencial, parablica, etc. En estos casos, el coeficiente de correlacin lineal medira mal la intensidad de la relacin las variables, por lo que convendra utilizar otro tipo de coeficiente ms apropiado. Para ver, por tanto, si se puede utilizar el coeficiente de correlacin lineal, lo mejor es representar los pares de valores en un grfico y ver que forma describen.

COEFICIENTE DE CORRELACIN.-DESCRIBE LA INTENSIDAD DE LA RELACIN ENTRE DOS


CONJUNTOS DE VARIABLES DE NIVEL DE INTERVALO.ES LA MEDIDA DE LA INTENSIDAD DE LA RELACIN LINEAL ENTRE DOS VARIABLES.EL VALOR DEL COEFICIENTE DE CORRELACIN PUEDE TOMAR VALORESDESDE MENOS UNO HASTA UNO,INDICANDO QUE MIENTRAS MAS CERCANO A UNO SEA EL VALOR DE L COEFICIENTE DE CORRELACIN,EN CUALQUIER DIRECIN MS FUERTE SER LA ASOCIACIN LINEAL ENTRE LAS DOS VARIABLES.MIENTRAS MAS CERCANO A CERO SEA EL COEFICIENTE DE CORRELACIN INDICARA QUE MS DEBIL ES LA ASOCIACIN ENTRE AMBAS VARIABLES.SI ES IGUAL A CERO SE CONCLUIRA QUE NO EXISTE RELACIN LINEAL ALGUNA ENTRE AMBAS VARIABLES.

RELACINES LINEALES ENTRE VARIABLES


IMAGINEMOS QUE TENEMOS DOS PRUEBAS:UNA DE HABILIDAD MENTAL Y LA OTRA UNA PRUEBA DE INGRESO A LA UNIVERSIDAD.SELECCIONAMOS CINCO ESTUDIANTES Y TENEMOS LOS SIGUIENTES PUNTAJES:

*
ESTUDIANTES

**

***

PRUEBA DE EXAMEN DE EXAMEN DE EXAMEN DE HAB.MENT. ADMISIN ADMISIN ADMISIN X Y Y Y MAGALY 18 82 18 18 ALDO 15 68 32 82 OSCAR 12 60 60 68 LAURA 9 32 68 60 JOS 3 18 82 32 *AFIRMAMOS QUE HAY UNA RELACIN LINEAL POSITIVA ENTRE ESE CONJUNTO DE PARES DE VALORES X y Y. **PODEMOS DEFINIR UNA RELACIN LINEAL NEGATIVA ENTRE UN CONJUNTO DE PARES DE VALORES X y Y. ***EN ESTE CASO DECIMOS QUE NO EXISTE UNA RELACIN LINEAL ENTRE LAS VARIABLES X y Y.

DIAGRAMA DE DISPERSIN
SE LE CONOCE COMO GRFICO DE DISPERSIN O NUBE DE PUNTOS.CONSISTE EN HACER UNA GRFICA DE LOS VALORES X y Y EN UN SISTEMA DE CORDENADAS RECTANGULARES.

COEFICIENTE DE CORRELACIN RECTILINEA DE PEARSON


LA GRFICA NOS PERMITE TENER UNA IDEA DE LA RELACIN LINEAL SI ES POSITIVA O NEGATIVA,PERO NO PODEMOS CUANTIFICAR LA FUERZA DE LA RELACIN.PARA ESO UTILIZAMOS EL COEFICIENTE r DE PEARSON.

-1

SI r =1 r=-1 TIENE UNA CORRELACIN PERFECTA POSITIVA NEGATIVA. r = 0 NO TIENE NINGUNA RELACIN.

SE CALCULA MEDIANTE LA SIGUIENTE FORMULA:

r=

][

EJEMPLO:

ESTUDIANTES MAGALY ALDO OSCAR LAURA JOS TOTAL X 18 15 12 9 3 57 Y 82 68 60 32 18 260 X*X 324 225 144 81 9 783 Y*Y XY 6724 1476 4624 1020 3600 720 1024 288 324 54 16296 3558

r=

][

=0.98

*UNA CORRELACIN DE 0.98 ES IGUAL A UNA CORRELACIN DE -0.98 DIFIERE SOLAMENTE LA DIRECCIN. EL COEFICIENTE DE CORRELACIN ES SIEMPRE ALGO PURAMENTE RELATIVO A LAS CIRCUNSTANCIAS EN QUE SE HA OBTENIDO Y SE HA DE INTERPRETAR A LA LUZ DE ESAS CIRCUNSTANCIAS Y SLO MUY RARA VEZ EN ALGN SENTIDO ABSOLUTO. CALCULAR LAS DEMAS:

r=

= - 0.96 VEMOS QUE LA CORRELACIN ES FUERTE Y NEGATIVA.

Y POR ULTIMO: r= =0.07 LA CORRELACIN ES MUY DEBIL Y POSITIVA.

ANALISIS DE REGRESIN.-ES LA TCNICA EMPLEADA PARA DESARROLLAR LA ECUACIN Y


DAR ESTIMACIONES.

ECUACIN DE REGRESIN.-ES UNA ECUACIN QUE DEFINE LA RELACIN LINEAL ENTRE


DOS VARIABLES.

ECUACIN DE REGRESIN LINEAL: = a+bx

ECUACIN DE REGRESIN LINEAL MLTIPLE:


= a+ + + +..

PRINCIPIO DE MNIMOS CUADRADOS:ES LA TCNICA EMPLEADA PARA OBTENER LA


ECUACIN DE REGRESIN,MINIMIZANDO LA SUMA DE LOS CUADRADOS DE LA DISTANCIA VERTICAL ENTRE LOS VALORES VERDADEROS DE Y Y LOS VALORES PRONOSTICADOS DE Y.

ESTIMACIN POR EL MTODO DE MNIMOS CUADRADOS


SEAN nPARES DE OBSERVACIONES ( , ),,( , ).NOS GUSTARA ENCONTRAR LA RECTA QUE SE AJUSTE MEJOR A ESTOS DATOS,EN ALGN SENTIDO.DICHA RECTA SE DEFINE COMO:

Y = a + bx ( , ) = a + bx a+b ( ,a+b ) =Y - = Y- (a + b )

BUSCAMOS QUE LA SUMA DE LOS CUADRADOS DE LA DIFERENCIA DE LAS ORDENADAS SEA MNIMA.

S.C.D.=

(a+b

SEA MNIMA.

ESTA RECTA ES LA MEJOR PARA UN a Y b PTIMOS QUE HAGAN EL VALOR DE LA SUMA DE CUADRADOS EL MNIMO. DERIVAMOS CON RESPECTO a Y b E IGUALAMOS A CERO.

=2 = 2

[ [

](-1) = 0 ](- ) = 0

LUEGO OPERAMOS:

a-b )=0 - b =0 =0

na - b

a=

- b -b
( )

= na

b= b=

LA RECTA : = a + bx SE DENOMINA RECTA DE REGRESIN MUESTRAL DE Y SOBRE X. b :TIENE INTERPRETACIN ECONMICA. a :SOLO TIENE INTERPRETACIN MATEMTICA. EJEMPLO: LOS DATOS SIGUIENTES MUESTRAN LAS VENTAS (EN MILLONES)DE CAJAS Y LOS GASTOS DE PUBLICIDAD(EN MILLONES DE DOLARES)PARA 7 MARCAS PRINCIPALES DE REFRESCOS: GASTOS DE PUBLICIDAD VENTAS DE CAJAS

MARCA

COCA COLA 131.3 1929.2 PEPSI 92.4 1384.6 INKA KOLA 60.4 811.4 CONCORDIA 55.7 541.5 COLA REAL 40.2 536.9 SPRITE 29 535.6 7 UP 11.6 219.5 a) TRACE UN DIAGRAMA DE DISPERSIN PARA ESTOS DATOS,CON LOS GASTOS DE PUBLICIDAD COMO VARIABLE INDEPENDIENTE. b) Qu PARECE INDICAR ESTE DIAGRAMA ACERCA DE LA RELACIN ENTRE LAS DOS VARIABLES?.TRACE UNA RECTA QUE PASE POR LOS DATOS,PARA APROXIMAR UNA RELACIN LINEAL ENTRE LOS GASTOS DE PUBLICIDAD Y LAS VENTAS. c) APLIQUE EL MTODO DE LOS MNIMOS CUADRADOS PARA PLANTEAR LA ECUACIN ESTIMADA DE REGRESIN. d) PRESENTE UNA INTERPRETACIN DE LA PENDIENTE EN ESTA ECUACIN. SOLUCIN: VARIABLE INDEPENDIENTE:GASTOS DE PUBLICIDAD. VARIABLE DEPENDIENTE :VENTA DE CAJAS.

DIAGRAMA DE DISPERSIN:
2500 2000 1500 1000 500 0 0 20 40 60 80 100 120 140 Series1

EL DIAGRAMA PARECE INDICAR QUE LA RELACIN ENTRE LAS VARIABLES ES LINEALMENTE POSITIVA. APLICANDO LAS FORMULAS PARA r,a y b. MARCA COCA COLA PEPSI INKA KOLA CONCORDIA COLA REAL SPRITE 7 UP TOTAL r = 0.9781014 GASTOS DE PUBLICIDAD VENTAS DE CAJAS X Y 131.3 1929.2 92.4 1384.6 60.4 811.4 55.7 541.5 40.2 536.9 29 535.6 11.6 219.5 420.6 5958.7

X*X 17239.69 8537.76 3648.16 3102.49 1616.04 841 134.56 35119.7

Y*Y 3721812.64 1917117.16 658369.96 293222.25 288261.61 286867.36 48180.25 7213831.23

X*Y 253303.96 127937.04 49008.56 30161.55 21583.38 15532.4 2546.2 500073.09

COMO r SE APROXIMA A UNO,DIREMOS QUE LA RELACIN QUE HAY ENTRE LAS DOS VARIABLES ES BASTANTE FUERTE. LA ECUACIN QUE MEJOR SE AJUSTA A LOS DATOS ES UNA RECTA,COMO SE APRECIA EN LA GRFICA.
2500 2000 1500 1000 500 0 0 20 40 60 80 100 120 140 Series1

LA ECUACIN DE DICHA RECTA ES Y = a + bx ENTONCES CON LAS FORMULA:

a=

-b

b=

b = 14.42378282 a= -14.424*
a =- 15.42 POR LO TANTO: Y = -15.42 + 14.424X a :SABEMOS QUE TIENE INTERPRETACIN MATEMTICA. b :POR CADA INCREMENTO EN LA V.I. SE ESPERA UNA VARIACIN DE 14.424 ADEMAS PODEMOS DECIR CON LA AYUDA DEL COEFICIENTE DE DETERMINACIN (

= = 0.9567 PUEDE AFIRMARCE QUE EL 95.67% DE LA VARIACIN EN EL NMERO DE CAJAS VENDIDAS SE EXPLICA POR LOS GASTOS DE PUBLICIDAD.

OTRA FORMA: DEFINICIN.-EL COEFICIENTE DE CORRELACIN (O NDICE DE CORRELACIN LINEAL DE


PEARSON)ENTRE DOS VARIABLES X y Y SE DEFINE POR:

r=
LA COVARIANZA:

COV(X,Y)=
DONDE
Es decir:

XY

SON LAS DESVIACIONES TPICAS DE X y DE Y RESPECTIVAMENTE.

Numerador: se denomina covarianza y se calcula de la siguiente manera: en cada par de valores (x,y) se multiplica la "x" menos su media, por la "y" menos su media. Se suma el resultado obtenido de todos los pares de valores y este resultado se divide por el tamao de la muestra. Denominador se calcula el produto de las varianzas de "x" y de "y", y a este produto se le calcula la raz cuadrada. Los valores que puede tomar el coeficiente de correlacin "r" son: -1 < r < 1 Si "r" > 0, la correlacin lineal es positiva (si sube el valor de una variable sube el de la otra). La correlacin es tanto ms fuerte cuanto ms se aproxime a 1. Por ejemplo: altura y peso: los alumnos ms altos suelen pesar ms. Si "r" < 0, la correlacin lineal es negativa (si sube el valor de una variable disminuye el de la otra). La correlacin negativa es tanto ms fuerte cuanto ms se aproxime a -1. Por ejemplo: peso y velocidad: los alumnos ms gordos suelen correr menos.

Si "r" = 0, no existe correlacin lineal entre las variables. Aunque podra existir otro tipo de correlacin (parablica, exponencial, etc.) De todos modos, aunque el valor de "r" fuera prximo a 1 o -1, tampoco esto quiere decir obligatoriamente que existe una relacin de causa-efecto entre las dos variables, ya que este resultado podra haberse debido al puro azar.

PARA VER EL GRADO DE DEPENDENCIA DEBEMOS CONSIDERAR :

EL COEFICIENTE DE DETERMINACIN.-(

OTRA FORMA:
La v a r i an z a es la m ed i a a r i t m t i c a d e l c u a d r a d o d e l a s d e s v i a c i o n es r es p e c t o a l a m e d i a de una distribucin estadstica. La varianza se representa por O Varianza para datos no agrupados .

Varianza para datos agrupados DONDE

Para simplificar el c l c u l o d e l a v a r i a n z a vamos o utilizar las siguientes expresiones que son equivalentes a las anteriores. Varianza para datos no agrupados

Varianza para datos agrupados

La recta de regresin es la que mejor se ajusta a la nube de puntos. La recta de regresin pasa por el punto llamado centro de gravedad .

Recta de regresin de Y sobre X La recta de regresin de Y sobre X se utiliza para estimar los valores de la Y a partir de los de la X. La pendiente de la recta es el cociente entre la covarianza y la varianza de la variable X.

Recta de regresin de X sobre Y La recta de regresin de X sobre Y se utiliza para estimar los valores de la X a partir de los de la Y. La pendiente de la recta es el cociente entre la covarianza y la varianza de la variable Y.

Si la correlacin es nula, r = 0, las rectas de regresin son pe rpendiculares entre s, y sus ec U aciones son: y = x =
EJEMPLO: 1 . - L a s n o t as d e 1 2 a l u m n o s d e u n a c l a s e e n M a t em t i c a s y F s i c a s o n l a s s ig u i e n t es : Matemticas 2 3 4 4 5 6 6 7 7 8 10 10 Fsica 1 3 2 4 4 4 6 4 6 7 9 H a l l a r l a s r e c t a s d e r e g r e s i n y re p r e s en t a r l a s . S O L UC I N : 10

xi 2 3 4

yi 1 3 2

xi yi 2 9 8

xi2 4 9 16

yi2 1 9 4

4 5 6 6 7 7 8 10 10 72

4 4 4 6 4 6 7 9 10 60

16 20 24 36 28 42 56 90 100 431

16 25 36 36 49 49 64 100 100 504

16 16 16 36 16 36 49 81 100 380

1 Hallamos las medias arimticas.

2 Calculamos la covarianza.

3 Calculamos las varianzas.

4Recta de regresin de Y sobre X.

4Recta de regresin de X sobre Y.

2. Cinco nios de 2, 3, 5, 7 y 8 aos de edad pesan, respectivamente, 14, 20, 32, 42 y 44 kilos. a.- Hallar la ecuacin de la recta de regresin de la edad sobre el peso. b.- Cul sera el peso aproximado de un nio de seis aos?
SOLUCIN: xi 2 3 5 7 8 25 yi 14 20 32 42 44 152 xi2 4 9 25 49 64 151 yi2 196 400 1 024 1 764 1 936 5 320 xi yi 28 60 160 294 352 894

3. Los valores de dos variables X e Y se distribuyen segn la tabla siguiente: Y/X 100 50 25 14 18 1 2 1 3 0 0

22 0 1 2 Se pide: a.- Calcular la covarianza. b.- Obtener e interpretar el coeficiente de correlacin lineal. c.- Ecuacin de la recta de regresin de Y sobre X.

Anda mungkin juga menyukai