Anda di halaman 1dari 40

Regresin y Correlacin

Regresin y Correlacin

Relaciones entre variables


El trmino regresin fue introducido por Galton
en su libro Natural inheritance (1889)
refirindose a la ley de la regresin universal

Cada peculiaridad en un hombre es compartida por


sus descendientes, pero en promedio , en un grado
menor. Regresin a la media

Regresin y Correlac

Francis Galton
Primo de Darwin
Estadstico y aventurero
Fundador (con otros) de
la estadstica moderna
para explicar las teoras
de Darwin.

Conclusin
Padres

muy altos tienen tendencia a tener hijos que


heredan parte de esta altura, aunque tienen tendencia
a acercarse (regresar) a la media. Lo mismo puede
decirse de los padres muy bajos.

Hoy

en da el sentido de regresin es el de prediccin


de una medida basndonos en el conocimiento de otra.

Regresin y Correlac

Modelo de Regresin Lineal

El Modelo es la expresin terica del comportamiento


de la poblacin

Yi x i i
Parmetros

Error
Residual

Parte sistemtica
Regresin y Correlac

Elementos del Modelo

= Es el valor medio terico que asume la variable Y cuando x=0

= Es el valor medio terico del aumento o decremento de la


variable Y cuando x varia una unidad.

= Es el trmino de error en l se incluyen los errores casuales, de


medicin, deficiencias del modelo, etc.

Regresin y Correlac

Supuestos del Modelo

La variable "explicativa" X toma valores predeterminados por el


investigador.

Para cada valor fijo de X , la variable Y se distribuye Normal .

La relacin entre las variables X e Y es lineal , es decir, la


regresin del promedio es lineal Simblicamente : E(Y/X) = +
.X , ya que E() = 0

Los valores de la variable Y son independientes entre si ya que


existe Homocedasticidad ,significa que la variancia de los
errores es constante , no depende del valor de X. La variancia
de Y no depende del valor que tome la variable X

Regresin y Correlac

CALCULO DE LA RECTA DE REGRESIN

( x1 , y1 ) , ( x2 , y2 ) , ... , ( xn , yn )

Modelo de Regresin

Yi x i i
y i ~ N ( E (Y / x i ), 2 )

Recta de Estimacin

Regresin y Correlac

y a b. x

Regresin Lineal
Algebra de la Muestra.

El anlisis de regresin sirve para predecir una medida


en funcin de otra medida (o varias).
Y = Variable dependiente
Predicha
Explicada

X = Variable independiente
Predictora
Explicativa

Regresin y Correlac

Estudio conjunto de dos variables


fila = datos de un individuo
columna =representa los valores que toma una
variable sobre los mismos.
Las individuos no muestran ningn orden
particular.
Las observaciones se representan en un diagrama
de dispersin.
Objetivo ser intentar reconocer a partir del mismo
si hay relacin entre las variables, de qu tipo, y
si es posible predecir el valor de una de ellas en
funcin de la otra.

Regresin y Correlac

Altura
en cm.

Peso
en Kg.

162

61

154

60

180

78

158

62

171

66

169

60

166

54

176

84

163

68

...

...

Diagramas de dispersin o nube de puntos

Alturas y pesos de 30 individuos representados en un diagrama de dispersin

Pesa 50 kg.
Mide 161 cm.

Regresin y Correlac

Mide 187 cm.

Pesa 76 kg.

Relacin entre variables.

au
o
es
p
El

a
r
u
alt
a
l
n
co
a
nt
e
m

Regresin y Correlac

Prediccin de una variable en funcin de la otra.


El peso aumenta 10Kg por cada 10 cm de altura... o sea,
el peso aumenta en una unidad por cada unidad de altura.

10 kg.

10 cm.

Regresin y Correlac

Estimacin

a
b

Existen dos mtodos para hallar los estimadores de y


que dan los mismos resultados.

Mtodo de Mxima Verosimilitud


Mtodo de los Mnimos Cuadrados
n

y a b. x i

2 n 2
( yi yi ) ei mnimo
i 1

i 1

Regresin y Correlac

2 n
2
(
y

y
)

[
y

(
a

b
.
x
)]
i i i
i
i 1

i 1

(a, b) [ yi a b. x i ]2 mn
i 1

(a, b)
0
a

a Y b. X

(a , b)
0
b
n

xi . yi n. X .Y
i 1

x
i 1

Regresin y Correlac

2
i

n. X

( xi . X ).( yi Y )
i 1

( xi X ) 2
i 1

Cov ( x , y )
V ( x)

Covarianza de X e Y

1
cov( x , y ) ( x i x )( yi y )
n i

La covarianza entre dos variables, Cov(x,y), nos indica si la


posible relacin entre dos variables es directa o inversa.

Directa: Cov(x,y), >0

Inversa: Cov(x,y), <0

No existe relacin : Cov(x,y), =0

El signo de la covarianza indica el comportamiento entre las


variables. Esta puede ser directa, inversa o que no exista relacin
lineal.

Regresin y Correlac

Relacin directa e inversa.


330
280
230
180
130
80
30
140

150

160

170

180

190

Para valores de X por encima de la media


tenemos valores de Y por encima y por debajo
en cantidades similares. No existe relacin

200

Para los valores de X mayores que la media le


corresponden valores de Y mayores tambin.
Para los valores de X menores que la media le
corresponden valores de Y menores tambin.
Esto se llama relacin directa o creciente entre X e Y.

Para los valores de X mayores que la media


le corresponden valores de Y menores. Esto
es relacin inversa o decreciente.

Regresin y Correlac

Supuestos de los errores

e i yo yc
2

i ~ N (0, )
cov( i , j ) 0 i j

Regresin y Correlac

yo

ei
e1

Regresin y Correlac

en

y a bx

Interpretacin de los coeficientes

a = ordenada al origen cuando x=0 ; y=a

b= pendiente de la recta

b>0 :existe una relacin lineal directa entre las variables


b<0: existe una relacin lineal inversa entre las variables
b=0 no existe relacin lineal entre las variables .

Regresin y Correlac

Otros modelos de Regresin

Se pueden considerar otros tipos de


modelos, en funcin del aspecto que
presente el diagrama de dispersin
(regresin no lineal)

Incluso se puede considerar el que una


variable dependa de varias (regresin
mltiple).

Regresin y Correlac

Interpretacin de la variabilidad en Y
En primer lugar olvidemos que existe la
variable X. Veamos cul es la variabilidad
en el eje Y.

La franja sombreada indica la zona donde


varan los valores de Y.
Proyeccin sobre el eje Y = olvidar X

Regresin y Correlac

Interpretacin del residuo


Ahora en los errores de prediccin (lneas
verticales). Los proyectamos sobre el eje Y.
Se observa que los errores de prediccin,
residuos, estn menos dispersos que la
variable Y original.
Cuanto menos dispersos sean los residuos,
mejor ser la bondad del ajuste.

Regresin y Correlac

Coeficiente de Determinacin = r2

Error no Explicado
Error Explicado

yo

Error total

Regresin y Correlac

Error total

= Error no Explicado

Error Explicado

Y y i y i y i Y
Y

y
n

i 1

yi Y
n

i 1

i y
i Y
yi y

y
n

i 1


i 1

i y
i Y
y

y i y i y i Y
2

i 1

V .T .V . N .E V .E .

Regresin y Correlac

V .T . V . N .E .V .E .
V . N .E . V .E .

V .T .
V .T .
V .T .
V .T .

V . N .E . V .E .
2
1

r
V .T .
V .T .
0 r2 1
r 2 0 VE 0 VNE VT
r 2 1 VE VT VNE 0
No detecta el tipo de relacion
Regresin y Correlac

Coeficiente de Determinacin
Resumiendo:

La dispersin del error residual ser una fraccin


de la dispersin original de Y
Cuanto menor sea la dispersin del error residual
mejor ser el ajuste de regresin.
Eso hace que definamos como medida de
bondad de un ajuste de regresin,
o coeficiente de determinacin a:

VNE
R 1
VT
2

S
Regresin y Correlac

2
e

2
Y

Resumen sobre bondad de un ajuste

La bondad de un ajuste de un modelo de regresin se mide


usando el coeficiente de determinacin r2

r2 es una medida adimensional que slo puede tomar valores en


[0, 1]

Cuando un ajuste es bueno, r2 ser cercano a uno.

Cuando un ajuste es malo r2 ser cercano a cero.

A r2 tambin se le denomina porcentaje de variabilidad explicado


por el modelo de regresin.

Regresin y Correlac

Coef. de correlacin lineal de Pearson

La coeficiente de correlacin lineal de Pearson de dos


variables, r, nos indica si los puntos tienen una tendencia a
disponerse alineadamente (excluyendo rectas horizontales
y verticales).

tiene el mismo signo que cov(x,y) por tanto de su signo


obtenemos el que la posible relacin sea directa o inversa.

r es til para determinar si hay relacin lineal entre dos


variables, pero no servir para otro tipo de relaciones
(cuadrtica, logartmica,...)
r

Regresin y Correlac

cov( x , y )
Sx Sy

Coeficiente de Correlacin :r

X e Y son variables aleatorias . Luego, no existe una variable explicativa y


otra explicada.

La poblacin de la cual se extrae la muestra es Normal Bivariada .

Existe una relacin lineal entre las variables, la cual est medida por el
coeficiente de correlacin poblacional definido como :

X e Y estn Normalmente distribudas con


E ( x ) x V( x ) 2x

E( y) y V( y) 2y

Coeficiente de Correlacin Poblacional


E[(X x )(Y y )]
Cov( x , y)

xy
E[(X x ) 2 ]E[(Y y ) 2 ]
r Coeficiente de Corr. Muestral

Regresin y Correlac

1 1

cov( x , y )
r

S ( x ).S ( y ) 1
n

1 n
( x i X )( yi Y )

n i 1

( xi X ) 2 ( yi Y ) 2

x i y i n XY
i 1

( x nX )( y nY )
2
i

2
i

1 r 1

i 1

r =-1 *Existe relacin inversa y perfecta entre las variables


r =1 *Existe relacin directa y perfecta entre variables
r =0 *No existe relacin lineal entre las variables -Variables no
correlacionadas
-1 < r < 0 *Existe relacin inversa entre las variables
0 < r < 1 * Existe relacin directa entre las variables

Regresin y Correlac

(r ) 0 r

1; 1 r 1

Correlaciones Negativas

Regresin y Correlac

correlaciones positivas

Regresin y Correlac

casi perfectas y positivas

Regresin y Correlac

Animacin: Residuos del modelo de regresin

Regresin y Correlac

INFERENCIA SOBRE EL COEFICIENTE DE CORRELACIN


Distribucin del coeficiente de correlacin muestral

Para = 0

r es simtrica alrededor de

r
( n ) es pequeo

1 r
n2

n .

~ t n2

H0 : = 0

H0 : X e Y son independientes

H1 : 0

H1 : X e Y no son independientes

Regresin y Correlac

Normal

DISTRIBUCIN DE LOS ESTIMADORES DE y


a ~ N ( , a )

a
~ N (0,1)
a

entonces

b ~ N ( , b )

Regresin y Correlac

a e.

n. ( x i X )

e es desconocido

a
~ t n2
Sa

b
~ N (0,1)
b

entonces

con

xi2

como b

b
~ t n2 ,
Sb

( xi X )

e es desconocido

VARIANCIA DE LA RECTA DE REGRESIN

Y X
i

Yi X i

con

i ~ N (0, 2 )

a bx i

E (Yi ) E (a ) E (b) x i

xi

E ( y i ) x i E ( yi )
y i es un estimador no viciado de x i
Regresin y Correlac

V {Y b( x i X )}

V (Yi ) V (a bx i )

V (Yi ) V (Y ) ( x i X ) 2V (b)
2
V (Y )
n

V ( i )
2

2
e

2
2

V (Yi )
( xi X ) 2 .
n
( xi X ) 2

(
x

X
)
1
2
i
V (Yi )
2
n ( xi X )

Regresin y Correlac

ESTIMACIN DE LA MEDIA DE Yi
Correspondiente a un valor conocido de xi

Yi ~ N ( . x i , e )
y i ( . x i ) y i yi

y i
y i

y i

S ( y i )

~ N (0,1)
y i ( . x i ) y i yi

S ( y i )
S ( y i )

~ t n2

y i t n 2; / 2 .S ( y i ) yi y i t n 2; / 2 .S ( y i )
Regresin y Correlac

ESTIMACION DE UN FUTURO VALOR Yi

la variacin propia

la

PARA Xi FIJO

de los errores

la variacin de la recta de ajuste.


1
( xi X ) 2
V(y /x i ) V ( i ) V ( y i ) .
2
n
(
x

X
)
i

V ( y / x i ) S

2
( yi )

1
( xi X ) 2
S . 1
2
n
(
x

X
)
i

2
e

y i t n 2; / 2 .S ( yi ) y y i t n 2; / 2 .S ( yi )
Regresin y Correlac

Anda mungkin juga menyukai