Anda di halaman 1dari 16

APEA CHILI CHRISTIAN IVAN

RETAMOZO LLANTOY CARLOS ALBERTO

Anlisis de Regresin

Multicolinealidad
Dos predictores X1 y X2 son exactamente colineales si
existe una relacin lineal tal que c1X1+c2X2=c0 para
algunas constantes c1, c2 y c0.
Un conjunto de predictoras X1, X2,.Xp son
colineales si para constantes co,c1,..cp, la ecuacin
X k (co c j X j ) / ck
j k

Si el coeficiente de determinacin de la regresin de


Xk con las otras es cercano a 1 se puede concluir
tentativamente que hay multicolinealidad.

Medidas remediales al problema de


multicolinealidad
Bsicamente hay tres propuestas:
a) Regresin Ridge (Hoerl and Kennard, 1970)
b) Componentes principales (Hotelling, 1965)
c) Mnimos Cuadrados Parciales (H. Wold, 1975)
Sin embargo el problema de multicolinealidad tambin est
relacionado con los mtodos de seleccin de variables y esto
puede ser considerado como una cuarta manera de resolver el
problema de multicolinealidad.
Anlisis de Regresin

Regresin Ridge
~
El error cuadrtico medio del estimador se define como
~
~
~
~
MSE( ) = E( -) = Var( ) + [E( -)]
~
~
~
MSE( ) = Var( ) + [sesgo en ]

La pequea varianza
del
estimador
sesgado
implica
~
tambin que es un estimador ms estable de que
el estimador insesgado .

Regresin Ridge
~
La idea en regresin Ridge es encontrar un estimador que
aunque sea sesgado sea ms corto que
El estimador mnimo cuadrtico ser escogido hacia el origen.
Hoerl y Kennard (1970 ) propusieron el siguiente estimador
~
( X ' X kI ) 1 X ' Y

Donde, k es el parmetro de sesgo (0<k<1) que


debe ser estimado de los datos tomados.

Regresin Ridge

~
~
~
~
MSE( ) = E( -) = Var( ) + [E( -)]
~

Var( )= (XX + kI) XX (XX + kI)


~
MSE( ) =

+ k (XX + kI)

Al usar ridge sera bueno escoger un valor de k, tal que la

reduccin en el trmino de varianza sea mayor que el


aumento en el sesgo al cuadrado.

Traza Ridge
Hay varias propuestas acerca de la eleccin de k, pero lo que ms
se recomienda consiste en hacer un plot de los coeficientes del
modelo para varios valores de k (generalmente entre 0 y 1) este
plot es llamado la Traza Ridge .
Para elegir k hay que considerar los siguientes aspectos
1. Que los valores de los coeficientes de regresin se estabilizen.
2. Que los coefcientes de regresin que tenan un valor
demasiado grande comienzen a tener valores razonables.
3. Que los coeficientes de regresin que inicialmente tenan el
signo equivocado cambien de signo.

Traza Ridge para los datos de longley

k ptimo
Es un estimado de la razn entre la varianza poblacional 2
y la varianza del estimador ridge.
k opt

ps 2
p

*2
b
i (0)
i 1

Donde p es el nmero de variables predictoras, s2 es la


estimacin de la varianza de los errores del modelo de
mnimos cuadrados trabajando con las variables originales y
sin usar ningn tipo de estandarizacin. Finalmente, bi*2 (0) ,
es el cuadrado del i-smo coeficiente de la regresin por
mnimos cuadrados.
Anlisis de Regresin

Aplicacin de Regresin Ridge a


Seleccin de variables
Segn Hoerl y Kennard la regresin ridge puede usarse
para seleccionar variables de la siguiente manera:
Eliminar las variables cuyos coeficientes sean estables pero

de poco valor. Si se trabaja con variables previamente


estandarizadas, se pueden comparar directamente los coeficientes.
Eliminar las variables con coeficientes inestables que

tienden a cero.
Eliminar las variables con coeficientes inestables.
Anlisis de Regresin

10

APLIACION DE LA REGRESIN DE RIDGE:


Aplicamos a regresin de Ridge mediante el uso del software
estadstico SAS
Tenemos la base de datos:
year
1960
1961
1962
1963
1964
1965
1966
1967
1968
1969
1970
1971
1972
1973
1974
1975
1976
1977
1978
1979
1980
1981
1982

y
27
29.9
29.8
30.8
31.2
33.3
35.6
36.4
36.7
38.4
40.4
40.3
41.8
40.4
40.7
40.1
42.7
44.1
66.7
50.6
50.1
51.7
72.9

x2
397.5
413.3
439.2
459.7
492.9
528.6
560.3
624.6
666.4
717.8
768.2
843.3
911.6
931.1
1021.5
1165.9
1349.6
1449.4
2575.5
1759.1
1994.2
2258.1
2478.7

x3
42.2
38.1
40.3
35.9
37.3
38.1
39.3
37.8
38.4
40.1
38.6
39.8
39.7
52.1
48.9
58.3
57.9
56.5
63.7
61.6
58.9
66.4
80.4

x4
50.7
52
54
55.3
54.7
63.7
69.8
65.9
64.5
70
73.2
67.8
79.1
95.4
94.2
123.5
129.9
117.6
130.9
129.8
128
141
168.2

x5
78.3
79.2
79.2
79.2
77.4
80.2
80.4
83.9
85.5
93.7
106.1
104.8
114
124.1
127.6
142.9
143.6
139.2
165.5
203.3
219.6
221.6
232.6

x6
65.8
66.9
67.8
69.6
58.7
73.6
76.3
77.2
78.1
84.7
93.3
89.7
100.7
113.5
115.3
136.7
139.2
132
132.1
154.4
174.9
180.8
189.4

11

1960.00
1961.00
1962.00
1963.00
1964.00
1965.00
1966.00
1967.00
1968.00
1969.00
1970.00
1971.00
1972.00
1973.00
1974.00
1975.00
1976.00
1977.00
1978.00
1979.00
1980.00
1981.00
1982.00

27.00
29.90
29.80
30.80
31.20
33.30
35.60
36.40
36.70
38.40
40.40
40.30
41.80
40.40
40.70
40.10
42.70
44.10
66.70
50.60
50.10
51.70
72.90

Utilizando el editor del SAS


data regresion;
input year y x2 x3 x4 x5 x6;
cards;
397.50
42.20
50.70
413.30
38.10
52.00
439.20
40.30
54.00
459.70
35.90
55.30
492.90
37.30
54.70
528.60
38.10
63.70
560.30
39.30
69.80
624.60
37.80
65.90
666.40
38.40
64.50
717.80
40.10
70.00
768.20
38.60
73.20
843.30
39.80
67.80
911.60
39.70
79.10
931.10
52.10
95.40
1021.50
48.90
94.20
1165.90
58.30
123.50
1349.60
57.90
129.90
1449.40
56.50
117.60
2575.50
63.70
130.90
1759.10
61.60
129.80
1994.20
58.90
128.00
2258.10
66.40
141.00
2478.70
80.40
168.20
;
proc reg outest=betas ridge=0.00 to 0.2 by 0.01;
model y= x2 x3 x4 x5 x6/noint;
plot/ridgeplot;
run;
proc print data=betas;
run;
quit;

78.30
79.20
79.20
79.20
77.40
80.20
80.40
83.90
85.50
93.70
106.10
104.80
114.00
124.10
127.60
142.90
143.60
139.20
165.50
203.30
219.60
221.60
232.60

65.80
66.90
67.80
69.60
58.70
73.60
76.30
77.20
78.10
84.70
93.30
89.70
100.70
113.50
115.30
136.70
139.20
132.00
132.10
154.40
174.90
180.80
189.40

12

13

14

15

16

Anda mungkin juga menyukai