Anda di halaman 1dari 22

UNIVERSIDAD DE GUAYAQUIL

FACULTAD DE CIENCIAS ADMINISTRATIVAS


ESTADISTICAS

Tema: REGRESION LINEAL Y CORRELACION


GRUPO :

INTEGRANTES:

MASSON VACA LEONEL ARTURO


PILAY HERNANDEZ MARICELA ROSAURA

PARALELO:

4/3

AULA:

202

TUTOR:

Ing. Luis Fernando Lpez

PERIODO:

2014 - 2015

REGRESION LINEAL Y CORRELACION

Anlisis de Regresin: Es un procedimiento estadstico que estudia la relacin


funcional entre variables. Con el objeto de predecir una en funcin de la/s otra/s.

Anlisis de Correlacin: Un grupo de tcnicas estadsticas usadas para medir la


intensidad de la relacin entre dos variables

Diagrama de Dispersin: Es un grfico que muestra la intensidad y el sentido de la


relacin entre dos variables de inters.

Variable dependiente (respuesta, predicha, endgena): es la variable que se desea


predecir o estimar
Variables independientes (predictores, explicativas exgenas). Son las variables que
proveen las bases para estimar.

TERMINOS

VARIABLES

DEPENDIENTES

INDEPENDIENTES
En la terminologa que se emplea en regresin, a la variable que se va a predecir se le llama
variable dependiente. A la variable o variables que se usan para predecir el valor de la
variable dependiente se les llama variables independientes. Por ejemplo, al analizar el
efecto de los gastos en publicidad sobre las ventas, como lo que busca el gerente de
mercadotecnia es predecir las ventas, esto indica que las ventas sern la variable
dependiente.

COEFICIENTE

DE

CORRELACION,

COEFICIENTE

DE

DETERMINACION Y ERROR ESTANDAR DE ESTIMACION


Correlacin Lineal
En ocasiones nos puede interesar estudiar si existe o no algn tipo de relacin entre dos
variables aleatorias. As, por ejemplo, podemos preguntarnos si hay alguna relacin entre las
notas de la asignatura Estadstica I y las de Matemticas I. Una primera aproximacin al
problema consistira en dibujar en el plano R2

un punto por cada alumno: la primera

coordenada de cada punto sera su nota en estadstica, mientras que la segunda sera su
nota en matemticas. As, obtendramos una nube de puntos la cual podra indicarnos

visualmente la existencia o no de algn tipo de relacin (lineal, parablica, exponencial, etc.)


entre ambas notas.
Otro ejemplo, consistira en analizar la facturacin de una empresa en un periodo de tiempo
dado y de cmo influyen los gastos de promocin y publicidad en dicha facturacin. Si
consideramos un periodo de tiempo de 10 aos, una posible representacin sera situar un
punto por cada ao de forma que la primera coordenada de cada punto sera la cantidad en
euros invertidos en publicidad, mientras que la segunda sera la cantidad en euros obtenidos
de su facturacin. De esta manera, obtendramos una nube de puntos que nos indicara el
tipo de relacin existente entre ambas variables.
En particular, nos interesa cuantificar la intensidad de la relacin lineal entre dos variables.
El parmetro que nos da tal cuantificacin es el coeficiente de correlacin lineal de Pearson
r, cuyo valor oscila entre 1 y +1 :

Como se observa en los diagramas anteriores, el valor de r se aproxima a +1 cuando la


correlacin tiende a ser lineal directa (mayores valores de X significan mayores valores de
Y), y se aproxima a 1 cuando la correlacin tiende a ser lineal inversa.
Es importante notar que la existencia de correlacin entre variables no implica causalidad.
Si no hay correlacin de ningn tipo entre dos v.a., entonces tampoco habr correlacin
lineal, por lo que r = 0. Sin embargo, el que ocurra r = 0 slo nos dice que no hay correlacin
lineal, pero puede que la haya de otro tipo.

El siguiente diagrama resume el anlisis del coeficiente de correlacin entre dos variable:

COEFICIENTE DE DETERMINACIN
El objetivo principal del anlisis de regresin es proyectar el valor de la variable
dependiente conociendo o suponiendo valores para la variable independiente. La
confiabilidad de las proyecciones est dada por la confiabilidad de la ecuacin, la cual se
mide a travs del coeficiente de determinacin y de los errores de los coeficientes de
regresin. El coeficiente de determinacin (R2 ) nos dice qu tanto se ajusta la lnea de
regresin a los datos.

Figura 4.2 Descomposicin de la variacin de Y

Para deducir este coeficiente se tiene en cuenta la figura 4.2 en donde se tiene la ecuacin
ajustada a unos datos. Para un valor dado de X se ha tomado el correspondiente valor de Y.

La distancia que hay entre el valor observado y la media

, puede descomponerse

en dos partes que son: la distancia entre el valor observado y el estimado con la ecuacin de

regresin

y la distancia entre el valor estimado y el promedio

, es

decir:

Siendo:

: Distancia Total.

: Distancia de una observacin a la regresin o residuo

: Distancia de la lnea de regresin a la media o distancia de la regresin


Como se tienen n observaciones, para cada caso se presenta la misma situacin, por lo tanto
se toma la suma de estas distancias al cuadrado:

En el anexo B se presenta la demostracin de que:

Es decir: SCT = SCR + SCE

(4.4)

Lo cual indica que la SCT puede descomponerse en dos partes, una describe la variacin de
los residuos (SCR) y representa aquella parte de la SCT que no ha sido explicada por la
ayuda de X y la otra parte describe los valores ajustados de Y, es decir, representa aquella
porcin de la SCT que ha sido explicada por la regresin de Y sobre X.
Dividiendo la ecuacin 4.4 por SCT se obtiene:

El segundo trmino es el coeficiente de determinacin, as que:

Donde:

Como puede observarse, el coeficiente de determinacin es la proporcin de la variable


dependiente explicada por la variable independiente y por lo tanto est entre 0 y 1. Es
decir: 0 R 2 1.

A medida que el R 2 se acerca a 1, la ecuacin de regresin es ms confiable, ya que de la


expresin 4.5 se deduce que la SCR tiende a cero y entre ms cercano est el R 2 de cero,
la ecuacin es menos confiable ya que la SCE tiende a cero.

Una medida estrechamente relacionada a R 2 pero conceptualmente diferente es


el coeficiente de correlacin (R) que es una medida del grado de asociacin entre dos

variables. Puede calcularse como:


Donde: Sx y Sy son las desviaciones estndar de X y Y respectivamente.

A continuacin se presentan algunas propiedades del coeficiente de correlacin (R):


- -1

- El signo de R depende del signo de la covarianza o de la pendiente (

- R es de naturaleza simtrica; lo anterior implica que el coeficiente de correlacin entre X


y Y (Rxy ) es igual al coeficiente de correlacin entre Y y X (Rxy ).
- Si X y Y son estadsticamente independientes, el coeficiente de correlacin entre ellos es
cero, pero si R=0, no se puede inferir que las dos variables sean independientes. En otras
palabras, una correlacin igual a cero no implica necesariamente independencia.
- Es una medida de asociacin lineal o dependencia lineal nicamente; por consiguiente no
tiene sentido, utilizarlo para describir relaciones no lineales.
En el contexto del anlisis de regresin, R 2 es una medida ms significativa que R, debido a
que el primero muestra la proporcin de la varianza en la variable dependiente explicada por
la(s) variable(s) explicativa(s) y, por tanto, proporciona una medida global de la magnitud del
efecto que ejerce la variacin existente en una variable sobre la variabilidad de la otra. De
otro lado R no nos permite realizar inferencias de este gnero. Adems, la interpretacin
de R en un modelo de regresin mltiple es de un valor dudoso" 1
El coeficiente de determinacin (R2) es til para evaluar la ecuacin de regresin
integralmente, pero es necesario evaluar la confiabilidad de cada uno de los coeficientes de
regresin, lo cual se hace con los errores de estos coeficientes y ms especficamente con
las pruebas de hiptesis para cada uno de ellos.

ERROR ESTNDAR DE ESTIMACIN


Un mismo estimador ofrece distintos valores para distintas muestras del mismo tamao
extradas de la misma poblacin. Por lo tanto deberamos tener una medida de la
variabilidad del estimador respecto del parmetro que se trata de estimar. Esta
variabilidad se mide en trminos de la desviacin estndar del estimador, la cual recibe el
nombre de error estndar.

El error estndar de un estimador T de un parmetro


estimador.

es la desviacin estndar del

As por ejemplo, si tomamos

dado por

como estimador de

, entonces el error estndar est

Error de estimacin es el valor absoluto de la diferencia entre una estimacin particular y


el valor del parmetro.
En realidad por cada valor estimado del parmetro se tiene un error de estimacin por lo
general diferente. Sin embargo, es posible fijar un intervalo dentro del cual se encontrarn
la mayora de los valores de error de estimacin para un estimador y parmetro dados.
En la tabla siguiente se dan las frmulas de los errores de estimacin para algunos
estimadores y los estimadores para tales errores. Los estimadores se usan cuando los
parmetros que se incluyen en las frmulas de los errores de estimacin son desconocidos.

EJERCICIO:
Un presidente de la sociedad de

alumnos de la Universidad de Guayaquil, se ocupa de

estudiar el costo de los libros de texto. l cree que hay una relacin entre el nmero de
pginas en el texto y el precio de venta del libro. Para proporcionar una prueba, selecciona
una muestra de ocho libros de texto actualmente en venta en la librera.

Dibuje un diagrama de dispersin.

Compruebe el coeficiente de correlacin, coeficiente de determinacin.

DATOS
Libro

Pginas

Precio ($)

Intr. a la Historia

500

84

lgebra

700

75

Intr.a la Psicologa

800

99

Intr. a la Sociologa 600

72

Mercadotecnia

400

69

Intr. a la Biologa

500

81

Fund. de Jazz

600

63

Intr.a la Enfermera 800

93

Dibuje
un diagrama de dispersin.

Compruebe el coeficiente de correlacin, coeficiente de determinacin.

Libro

Pginas

Precio ($)

XY

X2

Y2

Intr. a la Historia 500

84

42,000

250,000

7,056

lgebra

75

52,500

490,000

5,625

Intr. a la Psicologa 800

99

79,200

640,000

9,801

Intr. a la Sociologa 600

72

43,200

360,000

5,184

Mercadotecnia

69

27,600

160,000

4,761

700

400

Intr. a la Biologa 500

81

40,500

250,000

6,561

Fund. de Jazz

63

37,800

360,000

3,969

93

74,400

640,000

8,649

636

397,200

3,150,000

51,606

600

Intr. a la Enfermera800
Total

4,900

Encuentre el error estndar de estimacin para el problema que implica el nmero de


pginas en un libro y el precio de venta.

PRUEBA DE HIPOTESIS PARA DETERMINAR SI EL


COEFICIENTE DE CORRELACION EN LA POBLACION ES
CERO
Correlacin entre X y Y
Una manera descriptiva de determinar la bondad de ajuste del modelo, es a travs del
coeficiente de correlacin.
o coeficiente de correlacin momento-producto de Pearson.
Este es una medida que acta como indicadora de la intensidad, o fuerza, de la relacin
lineal entre dos variables
valores de

oscilan entre

que no depende de sus respectivas escalas de medicin. Los


y

. Entre ms cercano sea el valor a

mejor es el

ajuste de la recta de regresin. Un valor de


indica que no existe relacin lineal
entre las dos variables pero puede existir otro tipo de relacin (curvilnea figura 1).
Un valor positivo de
indica que la recta sube hacia la derecha; un valor negativo,
que la recta baja hacia la derecha (Figura 1).

Figura 1. Algunos diagramas de dispersin tpicos con valores aproximados de

Ejemplo
En el ejemplo tratado, se calcula con el fin de medir la fuerza de asociacin lineal existente
entre la concentracin de biomasa ( ) y la densidad ptica ( ). En este caso

, un

valor positivo cercano a


, por lo cual puede decirse que el modelo parece ser correcto y
existe una correlacin positiva fuerte. Este valor positivo coincide con el tipo de pendiente
obtenida (positiva), lo que indica que a medida que se incrementa la concentracin de
biomasa aumenta la densidad ptica.

Prueba del coeficiente de correlacin. igual a cero


Esta prueba es equivalente a la prueba de hiptesis sobre el coeficiente de
regresin
indicar que

, debido a que si los datos proporcionan evidencia suficiente para


, entonces tambin indican que

. Similarmente, un apoyo para la

hiptesis alternativa
es equivalente a apoyar la hipteSis alternativa
. Para
deteminar si el coeficiente de correlacin poblacional es diferente de cero se deben
plantear las siguientes hiptesis:

El estadstico de prueba utilizado para esta hiptesis es:

el cual se distribuye
con
caso se estn estimando dos parmetros).

grados de libertad (se resta 2 porque en este

EJEMPLO
En este ejemplo la prueba se realiz con un nivel de significacin de 5%. Al reemplazar en la
estadstica

de

prueba

los

valores

estadstico calculado es

se

tiene

que

el

. Al comparar este valor calculado con el

obtenido de la tabla con

grados de libertad (prueba de dos colas) dado

por
, para una prueba de dos colas, se puede concluir que la hiptesis nula
se debe rechazar; es decir existe una asociacin lineal entre la densidad ptica y la
concentracin.
Sea

una muestra aleatoria de una distribucin normal

bivariable. el estimador de mxima verosimilitud de


correlacin muestral

est dado por el coeficiente de

Donde
suma de productos cruzados
suma de cuadrados de

suma de cuadrados de

El coeficiente de correlacin se puede escribir de manera equivalente como

Observe que el nmerador

es exactamente igual al numerdor del estimador para

como ambos denominadores de

son positivos, entonces tienen el mismo signo.

El coeficiente de correlacin poblacional es dado por

donde

, y

covarianza entre

varianza poblacional de

, la cual es calculada como

. calculada como

con

Coeficiente de correlacin y el coeficiente de regresin


Entre el coeficiente de correlacin y el coeficiente de regresin existe la siguiente
equivalencia

Demostrar que

Prueba del coeficiente de correlacin igual a un valor diferente de cero


Para muestras moderamente grandes
nula

el estadstico de prueba de la hiptesis

versus las alternativas

es dado por

cuyo valor calculado se debe comparar con los valores apropiados de la distribucin normal
estndar.

RECTA DE REGRESION POR MINIMOS CUADRADOS

Cuando la nube de puntos adopta una forma definida, se pueden aproximar sus puntos
mediante una lnea curva en general, que llamamos curva de regresin.
Slo nos ocuparemos del caso en el que la curva de regresin es una recta, llamada recta
de regresin. Nos centraremos entonces en calcular la ecuacin de una recta que "mejor
se adapte" a una nube de puntos dada. En los ejemplos anteriores lo hemos hecho a ojo,
ahora lo haremos con un criterio ms preciso.
Para ello existen varios mtodos, siendo el ms utilizado el de los mnimos
cuadrados. Consiste en hacer mnima la suma de los cuadrados de las diferencias
entre los valores experimentales y los obtenidos mediante la recta. Por lo tanto,
si consideramos la Y=aX+b, mediramos lo bien (o mal) que se ajusta a nuestros
puntos por medio de la cantidad
i=1 N ( y i ( a x i +b ) ) 2 = i=1 N ( y i a x i b ) 2
y la recta que estamos buscando es la que haga esta cantidad lo ms
pequea posible.
Una vez realizados los clculos correspondientes, se tiene que la ecuacin de la recta
de regresin es:
y y = xy x 2 (x x )
donde x y son las desviaciones tpicas de x e y.
Se comprueba que, como indicamos anteriormente, la recta obtenida pasa por el
punto (x, y) que coincide con el centro de gravedad de la nube de puntos.
Ejemplo:
Para el ejemplo de Pesos (kgs.) - Estaturas (cms.)
Peso en Kgs.

60

65

70

70

68

50

60

Altura en cms.

167

170

170

180

170

155

160

Frecuencias (ni)

y - y = 1.11(x-x )
atan (1.11) = 47,89

EJERCICIO

Se public un trabajo Efecto de la temperatura en el pH de la leche descremada,


donde se estudia x= la temperatura en grado Celcius bajo diferentes condiciones
experimentales e y= el pH de la leche. Los datos usados en la investigacin son:

Temperatura

24

24

25

38

38

40

pH

6,9

6,8

6,6

6,7

6,7

6,6

6,6

6,5

Temperatura

45

50

55

56

60

67

70

78

pH

6,5

6,5

6,4

6,4

6,4

6,3

6,3

6,3

7.0
6.9
6.8
6.7
6.6
6.5
6.4

PH

6.3
6.2
0

20

40

60

80

Temperatura

INTERVALOS DE CONFIANZA Y PRONSTICO PARA LA


VARIABLE DEPENDIENTE
Como solucin al inconveniente planteado, para medir la asociacin lineal entre dos variables X e
Y se utiliza una medida adimensional denominada coeficiente de correlacin lineal, dado por:
p

E[(X E(X ))(Y E(Y )]


r=

V AR(X )

= p

V AR(X )V AR(Y )

V AR(Y )

y su estimacin a partir de datos de una muestra resulta:

SSxy

r= p

SSxx

SSxx

SSyy = p

SSyy

El coeficiente de correlacin lineal toma valores entre -1 y 1 y su inter- pretacin es la


siguiente:

Un valor cercano o igual a 0 indica respectivamente poca o ninguna relacin lineal entre las
variables.

Cuanto ms se acerque en valor absoluto a 1 mayor ser el grado de aso- ciacin lineal entre
las variables. Un coeficiente igual a 1 en valor absoluto indica una dependencia lineal exacta entre
las variables.

Un coeficiente positivo indica asociacin lineal positiva, es decir, tienden a variar en el mismo
sentido.

Un coeficiente negativo indica asociacin lineal negativa, es decir, tienden a variar en sentido
opuesto.
Ntese que si 1 = 0 entonces r = 0 , en cuyo caso hay ausencia de linealidad. Por lo
tanto, contrastar si el coeficiente de correlacin lineal es significativamente distinto de 0 sera
equivalente a contrastar si 1 es significativamente distinto de cero, contraste que ya vimos en la
seccin anterior.

El coeficiente de determinacin
Segn hemos visto, el coeficiente de correlacin lineal puede interpretarse como una medida de la
bondad del ajuste del modelo lineal, concretamente, un valor del coeficiente igual a 1 o -1
indica dependencia lineal exacta, en cuyo caso el ajuste es perfecto.
No obstante, para
cuantificar la bondad del ajuste de un modelo, lineal o no, se utiliza una medida que se
denomina coeficiente de determinacin lineal R2 , que es la proporcin de variabilidad de la
variable Y que queda explicada por el modelo de entre toda la presente, y cuya expresin
es:
n
P

R2 =

(
y i y )2

=1

i=1
n

SSE
,
SSyy

(y i y
)2

i=1

que en modelo de regresin lineal coincide con el cuadrado del coeficiente de correlacin
lineal:
R2 = r 2

El coeficiente de determinacin toma valores entre 0 y 1, y cuanto ms se aproxime a


1 mejor ser el ajuste y por lo tanto mayor la fiabilidad de las predicciones que con l
realicemos.

Ntese que si el coeficiente de correlacin lineal r es igual a 1 o -1 entonces


R2 = 1 y por lo tanto el ajuste lineal es perfecto.
Ejemplo 9.4 En el Ejemplo 9.1 r = 0.90 y R2 = 0.82. Esto indica que el grado de
asociacin lineal entre las variables es alto, y concretamente el 82% de
la variacin total de los valores de la compresin pueden ser explicados mediante la recta de
regresin ajustada.

Prediccin a partir del modelo


Recordamos que en el modelo ajustado de la recta de regresin,

y = 0 + 1 x

y, por otro lado,


E[Y /X = x] = 0 + 1 x,

luego y puede interpretarse de dos formas:

1. Como prediccin del valor que tomar Y cuando X = x.

2. Como estimacin del valor medio en Y para el valor X = x, es decir,


E[Y /X = x].

Ambas cantidades estn sujetas a incertidumbre, que ser tanto mayor cuanto peor sea el
ajuste realizado mediante la recta de regresin. Para concluir el tema, establecemos un
intervalo de confianza para estas cantidades.

Proposicin. Podemos decir que con un (1 )x100% de confianza que cuando X = x, el


valor predicho en Y o el valor medio estimado en Y, E[Y /X = x], se encuentran en el intervalo:

x)2

y t1/2,n2 ,
sR

(x

SSxx

Ejemplo 9.4. Para los datos del Ejemplo 9.1,

Pieza
1
2
3
4
5

Presn (x)
1
2
3
4
5

Compresin (y)
1
1
2
2
4

a. Predecir el valor en la compresin para un nivel de presin igual a 6.

La recta de regresin ajustada era Y = 0.1 + 0.7X, con lo cual para un

x = 6 se predice un valor en Y igual a y = 0.1 + 0.7 6 = 4.1

b. En qu medida son fiables las predicciones realizadas con la recta de


regresin ajustada?

Como el coeficiente de determinacin es igual a 0.81, las predicciones realizadas con la recta sern fiables en un 81%.

c. Determinar un Intervalo al 95% de confianza para el valor medio de compresin a una presin de 6 .

El intervalo de confianza resulta:

y t1/2,n2
sR

x)2

(6 3)2

(x
= 4.1 3.18 0.6

+
n

"

SSxx

10

= [2.1, 6.1]

BIBLIOGRAFIA
ESTADISTICA PARA ADMINISTRACION Y ECONOMIA 11AVA. EDICION
MARCHAL, MASSON.
http://www.ugr.es/~bioestad/_private/cpfund5.pdf
http://tarwi.lamolina.edu.pe/~fmendiburu/index-filer/academic/metodos1/Regresion.pdf
http://www.fao.org/docrep/003/x6845s/x6845s02.htm
http://www.uoc.edu/in3/emath/docs/RegresionLineal.pdf
http://www.inpahu.edu.co/tecnologias/Estadistica/analisis.html
http://www.uv.es/webgid/Descriptiva/6_coeficiente_de_determinacin.html
http://benasque.org/benasque/2005tae/2005tae-talks/232s5.pdf

Anda mungkin juga menyukai