Anda di halaman 1dari 27

Estadstica I I

Monica Gerber
Facultad de Sociologa - Universidad de Chile
I ntroduccin al anlisis de regresin
a. Covarianza y coeficiente de correlacin: estimacin muestral y
poblacional
b. Modelo de regresin lineal simple: estructura y supuestos
del modelo
c. Estimacin de los parmetros: mtodo de mnimos
cuadrados
d. I ntervalos de confianza y pruebas de hiptesis en el modelo
de regresin lineal simple
e. Modelo de regresin lineal mltiple: estructura y supuestos
del modelo
f. Coeficiente de determinacin

Mdulo 5. I nferencia estadstica para correlacin y regresin
lineal
Modelos de regresin lineal
3
Supuestos
Contamos con dos variables (X e Y) de nivel de medicin de
intervalo/ razn (ms adelante veremos cmo utilizar variables
independientes nominales/ ordinsles)
La muestra fue seleccionada de manera aleatoria
No existe un n mnimo pero a mayor n, mejor
La relacin entre ambas variables es lineal
Modelos de regresin lineal
4
Ingreso (X)
E
d
u
c
a
c
i

n

(
Y
)

o
Ingreso (X)
E
d
u
c
a
c
i

n

(
Y
)

o
Ingreso (X) Educacin (Y)
2 3
5 1
4 1
2 1
5 4

Pregunta: existe una relacin entre los aos de educacin y el nivel de
ingreso de las personas?
Asociacin entre dos variables:
Y: variable dependiente escala de intervalo/ razn
X: variable independiente escala de intervalo/ razn
Modelos de regresin lineal
5
Ingreso (X)
E
d
u
c
a
c
i

n

(
Y
)

o
Ingreso (X)
E
d
u
c
a
c
i

n

(
Y
)

o
Ingreso (X) Educacin (Y)
2 3
5 1
4 1
2 1
5 4

Se identifica una recta de regresin que se ajuste mejor a los puntos
observados: mtodo de los mnimos cuadrados
Se define esta recta por medio de una ecuacin de regresin
Modelos de regresin lineal
6
Modelo de regresin lineal simple:
y
i
: Valor de y para el individuo i (y

cuando se trata del modelo estimado)


o: constante o intercepto - valor esperado de y cuando x es 0
[
1

: pendiente cambio en el valor esperado de y por cada aumento en una unidad en
x (coeficiente de regresin)
e
i
: residuo para el individuo i (diferencia entre el valor observado y el valor estimado
por el modelo)
Modelo de regresin

y

=o +[
1
x
1
+ci



Modelo estimado

y

=o +[
1
x
1
X
Y
o
1

Modelos de regresin lineal
7
describe la asociacin entre X e Y en trminos de direccin y fuerza
est expresado en las unidades de medida de las variables consideradas
Por cada aumento en un punto en X, Y aumenta en promedio en
Por ejemplo, si Y=ingreso, X=educacin y para educacin es 0,5: por cada ao
adicional de educacin, el ingreso de las personas aumentar en un promedio de 0,5
puntos.
Asociacin positiva > 0 Asociacin negativa < 0

Ausencia de asociacin = 0


Modelos de regresin lineal
8
Si no tomamos en cuenta la variable independiente X, nuestra mejor
estimacin del valor Y de una persona sera el promedio de Y.
Sin embargo, la ecuacin de regresin se puede utilizar para identificar la
mejor estimacin del valor de una persona en Y segn su valor en X

Por ejemplo, si obtenemos la siguiente ecuacin para explicar ingreso:

ingrcso

=20+0,5 cJucocion

Podemos utilizarla para calcular el ingreso de alguien con 15 aos de
educacin:

ingrcso

=20+0,5 10
ingrcso

=25

Nuestra mejor estimacin segn este modelo es que uns persona con 15 aos
de educacin tendr un ingreso de 25

Modelos de regresin lineal
9
I nferencia del coeficiente de regresin
H
0
: =0 (ausencia de efecto en la poblacin)
H
1
: 0 (presencia de efecto en la poblacin)
Realizamos una prueba t para evaluar si el coeficiente es significativamente
distinto de 0 o no
t =
[
crror cstnJor([)


Comparamos el valor t obtenido con una distribucin t con gl=n-2
En este curso utilizaremos SPSS para llevar a cabo anlisis de regresin y
observamos directamente el valor p


Modelos de regresin lineal
10
Valor p para
A menor valor p, mayor evidencia en contra de la hiptesis nula
p<0.05: rechazamos la hiptesis nula y concluimos que existe una asociacin
significativa al 95% de confianza
p>0.05: fallamos en rechazar la hiptesis nula y concluimos que no existe una
asociacin significativa al 95% de confianza
Modelos de regresin lineal
11
Porcentaje de varianza explicada: coeficiente de determinacin mltiple R
2

Dos interpretaciones:
Proporcin de la variabilidad en la variable dependiente es explicada por la
recta de regresin
Reduccin en los errores de prediccin cuando utilizamos el modelo para
predecir valores de de la variable dependiente, comparado a cuando
utilizamos la media
Frecuentemente se describe como un porcentaje (multiplicndolo por 100)


Modelos de regresin lineal
12
Ejemplo considerando dos variables continuas:
Encuesta CASEN 2009, jefes de hogar (n=71.460)
y: I ngreso medido en 100.000 pesos
x: Aos de educacin completados (0-20 aos)
Ecuacin de regresin
ingrcso

=0.097+0,419 cJucocion
R
2
: 0,099 (9,9%)




Coef.
Error
Estndar
t Sig
Constante 0.097 0.045 2.160 0.03 0.009 0.184
Educacin (aos) 0.419 0.005 86.510 <0.01 0.409 0.428
Intervalo de confianza
(95%)
Modelos de regresin lineal
13
Ejemplo:
Por cada ao adicional en educacin, el valor esperado de ingreso aumenta en
41.900 pesos (0,419 100.000)
Dado que el valor p es menor a 0,01, conclumos que existe una asociacin
significativa al 99% de confianza entre los aos de educacin y los ingresos de
los jefes de hogar
Dado que R
2
: 0.099, concluimos que el 9,9% de la variabilidad en ingreso es
explicada por los aos de educacin




Coef.
Error
Estndar
t Sig
Constante 0.097 0.045 2.160 0.03 0.009 0.184
Educacin (aos) 0.419 0.005 86.510 <0.01 0.409 0.428
Intervalo de confianza
(95%)
Modelos de regresin lineal
14
Modelo de regresin lineal mltiple
Necesidad de controlar por posibles terceras variables
Dos o ms variables independientes:

y

=o +[
1
x
1
+[
2
x
2





Educacin
(aos)
I ngreso
Edad
ingrcso

= +[
1
cJuc +[
2
cJoJ
Modelos de regresin lineal
15
Modelo de regresin lineal mltiple
ingrcso

=1,044+0,447 cJuc +0,017 cJoJ


Por cada ao adicional en educacin, el valor esperado de ingreso aumenta en
44.700 pesos, controlando por edad
Por cada diez aos adicionales en edad, el valor esperado de ingreso aumenta
en (10*0,017)*100.000=17.000 pesos, controlando por nivel educacional
R
2
: 0.107, es decir, educacin y edad explican el 10,7% de la variabilidad en el
ingreso
Ojo: en regresin lineal mltiple los efectos son parciales y siempre es
necesario agregar que el efecto es controlando por las dems variables en el
modelo

Coef.
Error
Estndar
t Sig
Constante -1.044 0.115 -9.110 <0.01 -1.268 -0.819
Educacin (aos) 0.447 0.006 81.110 <0.01 0.436 0.458
Edad 0.017 0.002 10.800 <0.01 0.014 0.020
Intervalo de confianza
(95%)
Modelos de regresin lineal
16
Variables independientes dicotmicas
Frecuentemente queremos utilizar variables nominales u ordinales como
variables independientes
Podemos utilizar variables dummy (binarias o dicotmicas) con valores 0 y 1
Opcin de codificacin de categoras puede ser arbitraria:
Por ejemplo, para sexo: 0=hombre, 1=mujer
En otros casos podemos utilizar 0 para la ausencia de algn atributo y 1 para la
presencia de algn atributo
Por ejemplo, fumar: 0=no fuma, 1=si fuma
I ntroducimos la variable dummy (ej. x
2
) al modelo al igual que las dems
variables:

El coeficiente de regresin (ej. [
2

) ser interpretado como la diferencia entre las
categoras (1) y (0) en la variable dependiente

y

=o +[
1
x
1
+[
2
x
2

Modelos de regresin lineal
17
Variables independientes dicotmicas
Ejemplo:
I ncluir sexo (0=hombre y 1=mujer) en el modelo de regresin
Las mujeres jefe de hogar tienen un ingreso inferior en 161.100 pesos al de
los hombres jefe de hogar, controlando por nivel educacional y edad
La diferencia es significativa al 99% de confianza (p<0,01)

Coef.
Error
Estndar
t Sig
Constante -0.807 0.114 -7.090 <0.01 -1.030 -0.584
Educacin (aos) 0.444 0.005 81.210 <0.01 0.433 0.455
Edad 0.022 0.002 13.930 <0.01 0.019 0.025
Sexo (0=hombre,
1=mujer)
-1.611 0.048 -33.540 <0.01 -1.705 -1.516
Intervalo de confianza
(95%)
Modelos de regresin lineal
18
Variables nominales con ms de 2 categoras
Cuando las variables nominales tienen ms de 2 categoras debemos crear una
variable dummy para cada categora
Por ejemplo, ocupacin del jefe de hogar
Ocupado = 1 si est ocupado, 0 de lo contrario
Desocupado = 1 si est desocupado, 0 de lo contrario
I nactivo = 1 si est inactivo, 0 de lo contrario
Cada persona tendr un 1 en una de las variables dummy y ceros en las
dems





Modelos de regresin lineal
19
Variables nominales con ms de dos categoras
I ntroducimos todas las variables dummy excepto una al modelo
La variable que dejemos fuera funcionar como la categora de referencia
Por ejemplo, si dejamos fuera inactivo:


El modelo es el mismo, sin importar cul es la variable de referencia
(solamente afecta la interpretacin)
El coeficiente de regresin (ej. [
2

) ser interpretado como la
diferencia entre la categora (ocupado) y la categora de referencia
(inactivo) en la variable dependiente


y

= +[
1
x
1
+[
2
ocupoJo +[
3
JcsocupoJo
Modelos de regresin lineal
20
Variables categricas con ms de dos categoras
Los jefes de hogar ocupados ganan en promedio 265.200 pesos ms que los
jefes de hogar inactivos, controlando por educacin, edad y sexo.
La diferencia entre ocupados e inactivos es significativa al 99% de confianza
(p<0.01)
No existen diferencias significativas en el ingreso entre desocupados e
intactivos (p>0.05)





Coef.
Error
Estndar
t Sig
Constante -4.573 0.145 -31.540 <0.01 -4.857 -4.289
Educacin (aos) 0.411 0.005 75.580 <0.01 0.400 0.422
Edad 0.061 0.002 33.540 <0.01 0.057 0.064
Sexo (0=hombre,
1=mujer)
-0.967 0.049 -19.550 <0.01 -1.064 -0.870
Ocupado (ref: inactivo) 2.652 0.062 43.090 <0.01 2.531 2.772
Desocupado (ref:
inactivo)
-0.067 0.151 -0.440 >0.05 -0.363 0.230
Intervalo de confianza
(95%)
Modelos de regresin lineal
21
I nteracciones entre variables
Cuando el efecto de una variable depende del valor de otra variable
Es decir, el efecto de X en Y est moderado por una tercera variable Z
Por ejemplo:
Tienen los aos de escolaridad el mismo efecto en el ingreso para jefes de
hogar hombres y jefes de hogar mujeres?
Para evaluar efectos de interaccin, agregamos el producto de dos variables en
el modelo (adems de los efectos principales)
Por ejemplo, la interaccin entre sexo y educacin:



Cuando sexo=0 (hombres), el efecto de educacin es [
2

Cuando sexo=1 (mujeres), el efecto de educacin es [
2
+[
3



y

= +[
1
scxo +[
2
cJucocion +[
3
scxo cJucocion
Modelos de regresin lineal
22
I nteracciones entre variables
Para hombres, por cada ao adicional de educacin, el ingreso esperado
aumenta en (0,516*100.000)=51.600 pesos.
Para mujeres, por cada ao adicional de educacin, el ingreso esperado
aumenta en (0,516-0.233)*100.000=28.300 pesos








Coef.
Error
Estndar
t Sig
Constante -1.317 0.116 -11.390 <0.01 -1.544 -1.091
Educacin (aos) 0.516 0.006 81.860 <0.01 0.503 0.528
Edad 0.020 0.002 13.010 <0.01 0.017 0.023
Sexo (0=hombre,
1=mujer)
0.202 0.093 2.170 <0.05 0.019 0.385
Sexo * educacin -0.233 0.010 -22.620 <0.01 -0.253 -0.213
Intervalo de confianza
(95%)
Modelos de regresin lineal
23
I nteracciones entre variables








Regresin lineal en SPSS
24
Para realizar una
regresin lineal
seleccionamos
Analizar>Regresin
>Lineal


Regresin lineal en SPSS
25
Variable
dependiente de
nivel escala
Variables
independientes
de nivel escala o
dummy
Regresin lineal en SPSS
26
R
2
: proporcin de
varianza
explicada
Coeficientes de
regresin
Estadstico t
Valor p
Ojo: SPSS llama B a
lo que nosotros
hemos estado
llamando . El Beta
en SPSS corresponde
al valor estandarizado
de y no lo
consideraremos en
este curso
Actividad
27
Datos: Latinobarmetro 2009
(Chile, n=1200).

Existen relaciones
significativas entre la edad, el
sexo, la posicin poltica y la
religin en la justificacin de
la homosexualidad (1=nunca
y 10=siempre se justifica)?

1. I nterpreta los coeficientes
de regresin en trminos
de la direccin y fuerza
2. Para cada variable,
existe una asociacin
significativa?
3. Qu porcentaje de la
varianza en justificacin
de la homosexualidad es
explicada por las variables
del modelo?

Anda mungkin juga menyukai