Anda di halaman 1dari 49

Material Preparado por Hugo Delfino

Anlisis de
Regresin y Correlacin
Material Preparado por Hugo Delfino
Muchas veces las decisiones gerenciales
se basan en la relacin entre dos o ms
variables
Ejemplos:
Despus de revisar la relacin entre los gastos de
publicidad y las ventas, un gerente de marketing
podra tratar de predecir las ventas para
determinado nivel de gastos de publicidad.

Se quiere estimar el consumo de un bien en
funcin de los ingresos de la familia.
Introduccin
Material Preparado por Hugo Delfino
En general uno desea conocer la relacin
existente entre las variables y cuantificarla.
La representacin grfica es eficaz para
obtener una informacin intuitiva sobre la
relacin entre variables.
Diagrama de Dispersin: Es un grfico que
muestra la intensidad y el sentido de la
relacin entre dos variables de inters.

Introduccin
Material Preparado por Hugo Delfino
Los diagramas de dispersin no slo muestran la
relacin existente entre variables, sino tambin resaltan
las observaciones individuales que se desvan de la
relacin general. Estas observaciones son conocidas
como outliers o valores inusitados, que son puntos de
los datos que aparecen separados del resto.
Diagrama de dispersin
Material Preparado por Hugo Delfino
Anlisis de Correlacin: Un grupo de
tcnicas estadsticas usadas para medir la
intensidad de la relacin entre dos
variables
Anlisis de Regresin: Es un
procedimiento estadstico que estudia la
relacin funcional entre variables. Con el
objeto de predecir una en funcin de la/s
otra/s.

Conceptos bsicos
Material Preparado por Hugo Delfino
Variable dependiente (Y): es la variable que se desea
predecir o estimar
Variables independientes (X
i
). Son las variables que
proveen las bases para estimar.
Regresin simple: interviene una sola variable
independiente
Regresin mltiple: intervienen dos o ms variables
independientes.
Regresin lineal: la funcin es una combinacin lineal
de los parmetros.
Regresin no lineal: la funcin que relaciona los
parmetros no es una combinacin lineal

Conceptos bsicos
Material Preparado por Hugo Delfino
Coeficiente de correlacin lineal
Coeficiente de Correlacin (r) requiere variables
medidas en escala de intervalos o de proporciones
Vara entre -1.00 y 1.00.
Valores de -1.00 o 1.00 indican correlacin
perfecta.
Valor igual a 0.0 indica ausencia de correlacin.
Valores negativos indican una relacin lineal
inversa y valores positivos indican una relacin
lineal directa
Material Preparado por Hugo Delfino
Correlacin Negativa Perfecta
0 1 2 3 4 5 6 7 8 9 10
10
9
8
7
6
5
4
3
2
1
0
X
Y
Material Preparado por Hugo Delfino
0 1 2 3 4 5 6 7 8 9 10
10
9
8
7
6
5
4
3
2
1
0
X
Y
Correlacin Positiva Perfecta
Material Preparado por Hugo Delfino
0 1 2 3 4 5 6 7 8 9 10
10
9
8
7
6
5
4
3
2
1
0
X
Y
Ausencia de Correlacin
Material Preparado por Hugo Delfino
0 1 2 3 4 5 6 7 8 9 10
10
9
8
7
6
5
4
3
2
1
0
X
Y
Correlacin Fuerte y Positiva
Material Preparado por Hugo Delfino
Coeficiente de correlacin (r) Pearson
) ( * ) (
) ( a Covarianci
Y Var X Var
XY
r =
| || |
2 2 2 2
) ( ) ( ) ( ) (
) )( ( ) (
Y Y n X X n
Y X XY n
r
E E E E
E E E
=
Material Preparado por Hugo Delfino
Test de hiptesis del coeficiente de correlacin
1. Hiptesis: H
0
: la correlacin en la poblacin es 0. H
1
: la
correlacin en la poblacin no es 0.
2. Nivel de significacin: o = 0.05.
t
r n
r
=

2
1
2
3. Estadstica de la prueba: se distribuye
como un t de Student con n-2 grados de libertad.
4. Regla de decisin: Rechazamos H
0
si, y solo si, el valor de
t calculado es mayor que el valor t terico, o el valor p es
menor que el o fijado . En caso contrario, se acepta H
0
.
5. Conclusin: Si rechazo H
0
concluyo que hay evidencias de
correlacin entre las variables. En caso contrario no
Material Preparado por Hugo Delfino
Modelo de Regresin
Un modelo de regresin, es una manera de
expresar dos ingredientes esenciales de una
relacin estadstica:
Una tendencia de la variable dependiente Y
a variar conjuntamente con la variacin de
la o las X de una manera sistemtica
Una dispersin de las observaciones
alrededor de la curva de relacin
estadstica
Material Preparado por Hugo Delfino
Modelo de Regresin
Estas dos caractersticas estn implcitas en
un modelo de regresin, postulando que:
En la poblacin de observaciones
asociadas con el proceso que fue
muestreado, hay una distribucin de
probabilidades de Y para cada nivel de X.
Las medias de estas distribuciones varan
de manera sistemtica al variar X.
Material Preparado por Hugo Delfino
Representacin grfica del modelo de
Regresin Lineal
Nota: en esta figura se muestran las distribuciones de probabilidades
de Y para distintos valores de X
Material Preparado por Hugo Delfino
Anlisis de Regresin
Objetivo: determinar la ecuacin de regresin
para predecir los valores de la variable
dependiente (Y) en base a la variable
independiente (X).
Procedimiento: seleccionar una muestra a
partir de la poblacin, listar pares de datos
para cada observacin; dibujar un diagrama de
puntos para dar una imagen visual de la
relacin; determinar la ecuacin de regresin.
Material Preparado por Hugo Delfino
Proceso de estimacin de la regresin lineal simple
Modelo de regresin
y=|
0
+|
1
x+c
Ecuacin de regresin
E(y)=|
0
+|
1
x
Parmetros desconocidos
|
0
.|
1

Datos de la muestra
x

y
x
1


y
1

x
2


y
2

.

.
.

.
.

.
x
n


y
n



b
0
y

b
1
proporcionan estimados
|
0
y |
1
Ecuacin estimada de
regresin
y=b
0
+b
1
x
Estadsticos de la muestra
b
0
.b
1

Material Preparado por Hugo Delfino
Posibles modelos en la regresin lineal simple
x
x
E
y
Seccin A
Relacin lineal positiva
Lnea de regresin
La pendiente |
1

es positiva
*
x
E
y
Seccin B
Relacin lineal negativa
Lnea de regresin
La pendiente |
1

es negativa
*
Seccin C
No hay relacin
E
y
Lnea de regresin
La pendiente |
1

es 0
*
Ordenada al origen |
0
*
Material Preparado por Hugo Delfino
Estimacin de la ecuacin de
Regresin
= b
0
+ b
1
x
i
, donde:
es el valor estimado de y para distintos x.
b
0
es la interseccin o el valor estimado de y
cuando x=0
b
1
es la pendiente de la lnea, o el cambio promedio
de y para cada cambio en una unidad de x
el principio de mnimos cuadrados es usado para
obtener b
0
y b
1
:
i
y

i
y

n
x
b
n
y
b
x x n
y x xy n
b



=

=
1 0
2 2 1
) ( ) (
) )( ( ) (
Material Preparado por Hugo Delfino
Interpretacin grfica de coeficientes de
regresin
Material Preparado por Hugo Delfino
En economa, la funcin de demanda de un producto a
menudo se estima mediante la regresin de la cantidad
vendida (Q) sobre el precio (P). Una compaa est
tratando de estimar la funcin de demanda para su nuevo
producto, y ha recabado los siguientes datos:
Ejemplo
Material Preparado por Hugo Delfino
Represente estos datos
Desarrolle un modelo para estimar la demanda a
partir de estos precios
Cmo interpreta la ecuacin de regresin estimada
de la demanda.
Cul sera el error estndar de la estimacin?
Calcule un intervalo de prediccin de
aproximadamente el 95% para la demanda cuando
el precio es de 13.0


Preguntas
Material Preparado por Hugo Delfino
Regresin mltiple
Para dos variables independientes, la forma
general de la ecuacin de Regresin mltiple es:

X
1
y X
2
son las variables independientes .
a es la intercepcin con Y cuando X
1
y X
2
son
iguales a cero

.
b
1
es el porcentaje de cambio en Y por cada
unidad de cambio en X
1
manteniendo X
2

constante. La misma interpretacin se aplica a b
2
.
b
1
. y b
2
. son llamados coeficientes de Regresin
Parciales.
Y a b X b X ' = + +
1 1 2 2
Material Preparado por Hugo Delfino
Ecuacin de regresin mltiple
Modelo de regresin
mltiple
y=|
0
+|
1
x
1
+

|
2
x
2+
... + |
p
x
p
+c
E(y)= |
0
+|
1
x
1
+

|
2
x
2+
... + |
p
x
p

Son parmetros desconocidos
|
0
.|
1
|
2
... |
p
b
0
.b
1
.b
2
....b
p
proporcionan estimados
|
0
.|
1
.|
2.....
.|
p



Ecuacin estimada de
regresin
y= b
0
.b
1
x
1
+b
2
x
2
+...
+b
p
x
p
b
0
b
1
b
2
...b
p
son
estadsticos de la
muestra
Proceso de estimacin de la regresin mltiple
Datos de la muestra
x
1


x
2


x
p


y

.

.

.

.

.

.

.

.

.

.

.

.

Material Preparado por Hugo Delfino
Modelo general
La Regresin Mltiple General con k variables
independientes esta dada por:


El criterio de Mnimos cuadrados es utilizado para
estimar los parmetros de la ecuacin.
Calcular b
1
, b
2
, etc.es muy tedioso. Hay software que
puede utilizarse para resolver el algebra matricial que
se usa en la estimacin de los parmetros
Y a b X b X b X
k k
' ... = + + + +
1 1 2 2
Material Preparado por Hugo Delfino
Linealidad.
Independencia de los residuos.
Homocedasticidad
Normalidad
No colinealidad.
Supuestos
Material Preparado por Hugo Delfino
La relacin entre las variables
independientes y dependientes es lineal.
Cmo se prueba?
Diagrama de dispersin entre las
variables
Linealidad
Material Preparado por Hugo Delfino
Los diagramas de dispersin no slo muestran la
relacin existente entre variables, sino tambin resaltan
las observaciones individuales que se desvan de la
relacin general. Estas observaciones son conocidas
como outliers o valores inusitados, que son puntos de
los datos que aparecen separados del resto.
Diagrama de dispersin
Material Preparado por Hugo Delfino
Los residuos son una variable aleatoria.
No deben estar autocorrelacionados. Es
comn que ocurra en series temporales.
Cmo diagnosticar?
Durbin Watson


Varia entre 0 y 4 alrededor de 2 significa
independencia de los residuos.

Independencia de los Residuos

=

=
n
i
i
i i
n
i
e
e e
DW
1
2
2
1
2
) (
Material Preparado por Hugo Delfino
Para cada valor de la variable independiente la
variacin alrededor de la lnea de regresin de
la variable dependiente es constante.
Cmo diagnosticar?
Grfico de dispersin entre las valores
pronosticados y los residuales (ambos
estandarizados)
Homocedasticidad
Material Preparado por Hugo Delfino
Anlisis de residuos
valores pronosticados
residuos
estandarizados
Los residuos deberan estar:
Distribuidos aleatoriamente alrededor del 0, es decir
que haya aproximadamente la misma cantidad de
valores positivos y negativos.
Variar entre -3 y +3.
Esto indica que el modelo que se especifico es correcto
Material Preparado por Hugo Delfino
Anlisis de residuos
valores pronosticados
residuos
estandarizados
Caso 1: Se requieren mas variables en el modelo.
Caso 2: La relacin no es lineal entre las variables.
Caso 3: Hay heterocedasticidad.
Material Preparado por Hugo Delfino
Residuo:
Residuo tipificado:
Los residuos deben seguir una distribucin
Normal.
Cmo probarlo?
Histograma de los residuos.
Grfico de probabilidad normal
Normalidad de los Residuos
Y Y e
i i

=
o
e e
z
i
i

=
Material Preparado por Hugo Delfino
Colinealidad lineal perfecta cuando una
variable se relaciona de forma perfectamente
lineal con otra.
Colinealidad perfecta: no se pueden estimar los
parmetros.
Colinealidad parcial: aumenta los residuos tipificados
y produce coeficientes de regresin inestables.
Cmo diagnosticar?
FIV (Factores de Inflacin de la Variancia)
No colinealidad
Material Preparado por Hugo Delfino
Estimacin de la variancia de los trminos
del error (o
2
)
Debe ser estimada por varios motivos
Para tener una indicacin de la variabilidad
de las distribuciones de probabilidad de Y.
Para realizar inferencias con respecto a la
funcin de regresin y la prediccin de Y.
La lgica del desarrollo de un estimador de
o
2
para el modelo de regresin es la misma
que cuando se muestrea una sola poblacin
La variancia de cada observacin Yi es o
2
, la
misma que la de cada trmino del error
Material Preparado por Hugo Delfino
Estimacin de la variancia de los trminos
del error (o
2
)
Dado que los Y
i
provienen de diferentes distribuciones de
probabilidades con medias diferentes que dependen del
nivel de X, la desviacin de una observacin Y
i
debe ser
calculada con respecto a su propia media estimada
Por tanto, las desviaciones son los residuales



i i i
e = Y

Y -

= = =
= = =
n
i
n
i
i i
n
i
i i e
e X b b Y Y Y SC
1 1
2 2
1 1 0
2
1
) ( )

(
Y la suma de cuadrados es:
i
Y

Material Preparado por Hugo Delfino


Material Preparado por Hugo Delfino
Estimacin de la variancia de los trminos
del error (o2)
La suma de cuadrados del error, tiene n-(k+1)
grados de libertad asociados con ella, ya que se
tuvieron que estimar k parmetros.
Por lo tanto, las desviaciones al cuadrado dividido
por los grados de libertad, se denomina cuadrados
medios




Donde CM es el Cuadrado medio del error o
cuadrado medio residual. Es un estimador
insesgado de o
2
) 1 ( ) 1 (
2
1
+
=
+
=

=
k n
e
k n
SC
CM
i
n
i
e
e
Material Preparado por Hugo Delfino
Anlisis de Variancia en el anlisis de
regresin
El enfoque desde el anlisis de variancia se basa
en la particin de sumas de cuadrados y grados
de libertad asociados con la variable respuesta Y.
La variacin de los Y
i
se mide convencionalmente
en trminos de las desviaciones

La medida de la variacin total SCtot, es la suma
de las desviaciones al cuadrado
) Y Y (
i i


2
) Y Y (
i i
Material Preparado por Hugo Delfino
Desarrollo formal de la particin
Consideremos la desviacin

Podemos descomponerla en


T R E
(T): desviacin total
(R): es la desviacin del valor ajustado por la
regresin con respecto a la media general
(E): es la desviacin de la observacin con respecto a
la lnea de regresin

) Y Y (
i i

( ) ) Y

Y ( ) Y Y

( Y Y
i i i i
+ =
Material Preparado por Hugo Delfino
Desarrollo formal de la particin
Si consideremos todas las observaciones y elevamos al
cuadrado para que los desvos no se anulen


SC
tot
SC
reg
SC
er

(SC
tot
): Suma de cuadrados total
(SC
reg
): Suma de cuadrados de la regresin
(SC
er
): Suma de cuadrados del error
Dividiendo por los grados de libertad, (n-1), (k) y
(n-2), respectivamente cada suma de cuadrados, se
obtienen los cuadrados medios del anlisis de variancia.

( )
2 2
2

+ = ) Y

Y ( ) Y Y

( Y Y
i i i i
Material Preparado por Hugo Delfino
Coeficiente de Determinacin
Coeficiente de Determinacin, R
2
- es la proporcin
de la variacin total en la variable dependiente Y
que es explicada o contabilizada por la variacin en
la variable independiente X.
El coeficiente de determinacin es cuadrado del
coeficiente de correlacin, y varia entre 0 y 1.

Para calcular el R
2
se utiliz la siguiente frmula:

=
2
2
2
) (
)

(
y y
y y
R
o
c
Material Preparado por Hugo Delfino
La prueba global es usada para investigar
si la combinacin lineal de variables
independientes es significativa.
Las hiptesis son :
H
H Al menos un coeficiente de regresin
es distinto de cero.
k
a
0 1 2 3
0 : . . .
:
| | | | = = = = =
Prueba de Hiptesis Global
La distribucin estadstica F es usada en esta prueba
,con k (nmero de variables independientes) y n-(k+1)
grados de libertad , donde n es el tamao de muestra.
Material Preparado por Hugo Delfino
La prueba t de Student es utilizada para
determinar cual variable independiente tiene
coeficientes de de regresin distinto de cero. Son
llamadas pruebas parciales.
Las variables con coeficiente de regresin cero son
eliminadas.
La estadstica t se utiliza en este caso con n -
(k+1) grados de libertad.
Prueba de Hiptesis Parciales
Material Preparado por Hugo Delfino
Queremos predecir la demanda anual de un
cierto producto (DEMANDA), utilizando las
siguientes variables independientes:
PRECIO: precio del producto en $
INGRESO: ingreso del consumidor (en $)
SUB: precio de un bien sustituto (en $)
Ejemplo
Material Preparado por Hugo Delfino
Datos del Ejemplo
Material Preparado por Hugo Delfino
Encuentre la ecuacin de regresin de mejor ajuste para
estos datos.
Son los signos (+ o -) de los coeficientes de regresin de
las variables independientes como cabe esperar? Explique
brevemente la respuesta.
Establezca e interprete el coeficiente de determinacin
mltiple del problema.
Establezca e interprete el error estndar de la estimacin
para el problema.
Utilizando la ecuacin de regresin obtenida qu valor de
DEMANDA predecira si el precio de los productos fue de
$6, el ingreso del consumidor de $1200 y el precio del bien
sustituto fue de 8 ?.
Preguntas
Material Preparado por Hugo Delfino
Suponga que se quiere estimar una funcin de gasto con tarjeta para 20
individuos con los siguientes datos, diferenciados segn zona de residencia
Cmo tendra en cuenta la posibilidad de un desplazamiento de la funcin entre
consumidores urbanos y rurales y cul sera la estimacin correspondiente, si cree que
tienen la misma propensin marginal, pero distintas propensiones medias?

Gasto en
tarjeta
Ingreso
anual
7809

17.665
7927
17.516
8422
18.486
8281
18.806
8568
19.136
7816
17.858
8528
19.625
8244
18.530
8415
18.544
Gasto en
tarjeta
Ingreso anual
7259

16.434
7861 17.933
8008 18.607
7678 18.223
8119 19.138
7681 18.534
7824 18.447
7885 18.650
7613 18.157
7703 18.290
7963 19.013
Metropolitana Interior

Anda mungkin juga menyukai