Anda di halaman 1dari 40

BIOESTADISTICA I UNIDAD TEMATICA 11

FACULTAD DE VETERINARIA - AREA BIOESTADISTICA

JUNIO 2012

11.

Correlacin y Regresin lineal simple


Objetivos:

Al finalizar esta unidad el estudiante ser capaz de:


11.1 Definir la finalidad de un anlisis de regresin simple.
11.2. Definir la finalidad de un anlisis de correlacin lineal
11.3 Describir los componentes de una ecuacin lineal.

y a bx

11.4 Comprender el mtodo de estimacin por mnimos cuadrados.


11.5 Estimar los parmetros de la recta de regresin

11.6 Calcular e interpretar el coeficiente de determinacin


11.7 Comprender el concepto y calcular la Covarianza
11.8 Calcular el coeficiente de correlacin lineal

R2

11.9 Formular hiptesis relativa a asociacin de variables

Ho : 0

11.10 Interpretar los resultados de la prueba de hiptesis.

SITUACION BASICA
DOS VARIABLES NUMERICAS :

DEPENDIENTE

INDEPENDIENTE

DOS Preguntas principales :


Es posible descubrir una relacin funcional y f ( x )
que permita predecir una medida y en funcin de otra
Problema de regresin
medida x (o varias) ?.

Es posible descubrir una asociacin


las variables 3?
Problema deentre
correlacin

REGRESION LINEAL Y METODO


DE MINIMOS CUADRADOS

Diagramas de dispersin , nube de puntos o Scaterplot


Tenemos las alturas y los pesos de 30 individuos representados en un
diagrama de dispersin.
Variable dependiente

y (peso)

Pesa 50 kg.
Mide 161 cm.

Mide 187 cm.

Pesa 76 kg.

Variable independiente

x (altura)

Finalidad

Modelo

Estimar los valores de y (variable


dependiente) a partir de los valores
de x (variable independiente)

y (peso)

Y x u
Y 0 1 x u
y

y
b
x
y

b =tg coeficiente de regresin


(pendiente)

a
Ordenada en el
origen
(intercepto)

x (altura)
6

Interpretacin de los parmetros

el valor medio de la respuesta


: Representa
( y ) cuando x vale 0

: Representa el incremento de y cuando


x aumenta 1 unidad

Modelo en la Poblacin

Y x u
Modelo en la Muestra

y a bx

: Perturbacin debida a la naturaleza de


los fenmenos

y (peso)

y y

Error de estimacin

Variable independiente

x (altura)

Dado los puntos en el diagrama de dispersin


cul es la recta que explica o que resume mejor esos puntos?

III
I
II

tener un criterio de
aproximacin que diga
no solo la altura de la
linea sino tambin la
pendiente
8

METODO DE MINIMOS CUADRADOS


Estima los parmetros , minimizando la suma de cuadrados
de errores

Min

( yi yi )
2

i 1

i 1

Supuestos

1.- E() = 0

2.- E( |x) = E() = 0


3.- E(y|x) = + .x
+

E(y|x= 170)

E(y|x= 150)

10

11

12

METODO DE MINIMOS CUADRADOS


ventaja : Se consigue el Mejor estimador linealmente insesgado

E b

ECUACIONES NORMALES

y ( a bx,) para determinar a y b tales que


Siendo y y
sea mnimo (estimacin por mnimos cuadrados) .
Se requiere que:

2
0
b

Operando se obtienen las ecuaciones normales:


1.

y na b x

2.

2
xy

a
x

b
x

13

La ecuacin 1.

implica que:.

ECUACIONES NORMALES
y na b x , si se divide todo por n

y a bx

La recta de regresin pasa siempre por el centroide x, y


Se puede expresar como

a y bx

Sustituyendo a por
se obtiene:

y bx

y y b( x x )

en la ecuacin

xy y bx x b x

xy y x bx x b x
xy x y / n
b
2
2
x x /n

a x b

x y
b
xy
n

2
x

2
2
x ( x)

n
Cov ( x, y )
( x x )( y y ) SXY
b
b

Var ( x )
2
SCX
(x x)
14

DESCOMPOSICION DE LA SUMA DE CUADRADOS DE y

y y ( y y ) ( y y )

y y ( y y ) b( x x )

elevando al cuadrado y sumando

2
2
2
2

y y ( y y) b ( x x )
SCtotal

SCresidual

los dobles
productos
se anulan

SC Regresin

2
2

(
y

y
)

s 2y.x

n2
n2
Varianza residual (insesgada)

Grados de
libertad
15

ESTADISTICOS USUALES

2
2

(
y

y
)

s 2y.x

n2
n2

Varianza residual (insesgada)

s y.x s 2y.x

Error tipico de estimacin de y

sb s y.x

Error tipico de estimacin de b

Coeficiente
de Determinacin R

2
S
2
R 1 e2
SY

SCRegresi n
SCtotal

SCX
2

(0 R 1)

Varianza residual
Varianza de las y originales
16

Cmo medir la bondad de una regresin?

Imaginemos un diagrama de dispersin, y vamos


a tratar de comprender en primer lugar qu es
el error residual, su relacin con la varianza de Y,
y de ah, cmo medir la bondad de un ajuste.

17

Interpretacin de la variabilidad en Y

En primer lugar olvidemos que existe


la variable X. Veamos cul es la
variabilidad en el eje Y.

La franja sombreada indica la zona


donde varan los valores de Y.
Proyeccin sobre el eje Y = olvidar X

2
Y
18

Interpretacin del residuo ( y


Fijmonos ahora en los errores de prediccin
(lneas verticales). Los proyectamos sobre el
eje Y.

y )

Se observa que los errores de prediccin,


residuos, estn menos dispersos que la
variable Y original.
Cuanto menos dispersos sean los
residuos,
mejor ser la bondad del ajuste.

2
e
19

Bondad de un ajuste
Resumiendo:

La dispersin del error residual ser una fraccin de


la dispersin original de Y
Y
Cuanto menor sea la dispersin del error
residual mejor ser el ajuste de regresin.

Eso hace que definamos


como medida de
bondad de un ajuste de
regresin, o coeficiente
de determinacin a:

S
R 1
S
2

2
e
2
Y

S 20 S
2
e

2
Y

Consecuencia sobre las estimaciones de

b tsb
b b tsb

faja de
confianza
para

y x

y
faja de
confianza
para y
x

A medida que los valores se alejan del centroide ( x,


las estimaciones de y son ms imprecisas

y)
21

Relacin directa e inversa


330
280

No hay relacion

230
180
130
80
30
140

150

160

170

180

190

Para valores de X por encima de la


media tenemos valores de Y por
encima y por debajo en proporciones
similares.

200

Para los valores de X mayores que la media


le corresponden valores de Y mayores
tambin.
Para los valores de X menores que la media
le corresponden valores de Y menores
tambin. : relacin directa.
Para los valores de X mayores que la
media le corresponden valores de Y
menores. Esto es relacin inversa o
decreciente.
22

MIR LO QUE LE HAGO


HACER A PAVLOV!! EN CUANTO
YO EMPIECE A BABEAR, L
SONREIR Y ESCRIBIR
EN SU LIBRETA!!

CORRELACION
CAUSACION

23

COVARIANZA
Es una medida de la variacin lineal conjunta de dos variables

y
centroide

yy

xy

x x

( y y )( x x )
N
Estimacin de xy

( y y )( x x )

cov
n

Es un estimador sesgado

xy <

0 asociacin lineal con pendiente negativa

xy =

0 ausencia de asociacin lineal

xy

> 0 asociacin lineal con pendiente positiva

24

El

signo de la covarianza nos dice si el aspecto


de la nube de puntos es creciente o no, pero no
nos dice nada sobre el grado de relacin entre
las variables.
Coef. de correlacin lineal de Pearson

Valor en la muestra

(Rho ) en la poblacin

El coeficiente de correlacin lineal de Pearson de dos variables, r,


indica si los puntos tienen una tendencia a disponerse
alineadamente (excluyendo rectas horizontales y verticales).

25

CORRELACION LINEAL

Finalidad
Medir la intensidad de la asociacin lineal entre dos variables
aleatorias
coeficiente de correlacin

xy / x y
covarianza poblacional

r s xy / s x s y
coeficiente de
determinacin

r2

Proporcin de varianza compartida por las


dos variables

26

Propiedades de r

Es adimensional
Slo toma valores entre -1y +1
Las variables NO estn correlacionadas r=0
Relacin lineal perfecta entre dos variables r = +1 o r=-1
Excluimos los casos de puntos alineados horiz. o
verticalmente.
Cuanto ms cerca est r de +1 o -1 mejor ser el grado de relacin
lineal.
Siempre que no existan observaciones anmalas.
Relacin
inversa
perfecta

-1

Variables
NO correlacionadas

Relacin
directa
casi
perfecta

+1

27

Correlacin negativa

-1 r 0

r=-1
Correlacin positiva

0 r +1

r=+1

28

r=0
Ausencia de correlacin

29

Animacin: Evolucin de r y diagrama de dispersin

30

ESTIMACION DE

PRUEBA DE

(rho) r Cov s .s
x y

Ho : 0 t calc

r n2
1 r 2

Se compara con el valor


critico (t tabulado)

CONSIDERACIONES PARA LA VALIDEZ DEL TEST


Los residuos ( e ) deben ser :Normales
Homocedasticos
Independientes
Testar la Ho: = 0 equivale a ensayar la Ho: = 0
31

ABUSOS QUE SE PUEDEN COMETER EN


REGRECION Y CORRELACION LINEALES

32

Buen ajuste a la recta en el intervalo PQ

NO implica que la relacin sea lineal fuera del mismo


33

34

35

Precauciones en la interpretacin de r

r significativo NO implica relacin de


causalidad entre las variables

x
r = 0.98 (p=0.001)

y
El coeficiente de correlacin entre dos variables SE VE AFECTADO
por la existencia de otras variables
Un tercer factor no considerado an (llamado "factor de confusin
o "variable escondida").

36

r = 0 NO implica ausencia de asociacin entre las


variables

r = 0.92
un coeficiente de correlacin alto no
siempre se corresponde con una
relacin lineal entre las variables
37

Los problemas de regresin y de correlacin lineales


se parecen pero difieren
En la finalidad
En las variables
REGRESION

CORRELACION

x variable
independiente fija

NO hay distincin entre


variable dependiente e
independiente

y variable

x e y son variables

dependiente aleatoria

aleatorias

38

39

Clculos en correlacin y regresin


PARA CALCULADORAS SIN MODULO DE REGRESION

x y s x Borrar la memoria estadstica


y y s y Borrar la memoria estadstica
IMPORTANTE: tanto s x como s y deben calcularse con n en el

Hallar
Entrar y Hallar
Entrar x

denominador
Entrar los productos (x y) Hallar
Calcular:

Cov x y x. y
r Cov

rs y

sx

s x .s y

a y bx

xy

Testar:

Ho : 0

y a bx
40

Anda mungkin juga menyukai