186
posibles ecuaciones de regresin a ser evaluadas. Para evaluar estos submodelos existen
una variedad de mtodos y procedimientos que permiten seleccionar variables regresoras,
tales como los mtodos paso a paso stepwise, forward y backward, los cuales utilizan
tambin una variedad de medidas o criterios como R2, R2_ajustado, CME y Cp. Cuando el
propsito de la construccin de un modelo de regresin es la prediccin de datos, estos
mtodos clsicos no aseguran que el submodelo seleccionado proporcionar predicciones
precisas. Entonces, es necesario contar con mtodos que permitan seleccionar y validar
submodelos de regresin de acuerdo a su mejor capacidad predictiva. Adems se debe
considerar que los procedimientos de seleccin de variables son una parte de un proceso
ms general de construccin de modelos, que esta comprometido con el trato de outliers,
heterocedasticidad, etc.
En el anlisis de regresin se debe distinguir entre ajuste de los datos y la validacin del modelo. El chequeo del ajuste del modelo incluye anlisis de residuos, pruebas de
bondad de ajuste, presencia de observaciones influyentes o outliers y otros anlisis internos que permiten analizar el ajuste del modelo de regresin a los datos disponibles. La
validacin del modelo esta directamente relacionada con su performance, en cuanto a su
funcin y propsito por el cual fue construido.
Un mtodo alternativo es el uso de la validacin cruzada, con la finalidad seleccionar y evaluar modelos de regresin de acuerdo a su capacidad predictiva, a travs de la
estimacin del error cuadrtico de prediccin promedio. El mtodo de validacin cruzada,
consiste en dividir el conjunto de datos disponibles en dos partes ; una parte es usada
para la construccin del modelo y la otra parte para la validacin del modelo.
El mtodo clsico de validacin cruzada es el que hace una exclusin de una observacin a la vez 1-exclusin, para conformar el conjunto de datos de validacin (nv=1). Este
mtodo es denotado por CV(1), es asintticamente equivalente a otros mtodos de seleccin
y evaluacin de variables, tales como el Criterio de Informacin de Akaike (AIC), el Cp de
Mallow, el Jackknife y Bootstrap ; estos tienen el inconveniente de ser asintticamente inconsistentes y tiende a seleccionar innecesariamente modelos grandes. Esta deficiencia puede
ser rectificada usando un nv grande, el nmero de datos separados para la validacin del
modelo. Estos son llamados mtodos de validacin cruzada de nv-exlusiones y denotados
por CV(nv). As, para n datos disponibles existirn
187
REVISIN DE LITERATURA
En la literatura se encuentra una variedad de tcnicas y mtodos usados para evaluar
y validar modelos de regresin; que incluyen el anlisis de coeficientes y predicciones, comparacin de resultados con clculos de modelos tericos y la divisin de datos, este ltimo
conocido como validacin cruzada. SNEE (1977), considera que la prediccin y estimacin de
parmetros no son un problema separado, y el chequeo de ambos debera formar parte del
proceso de validacin de modelos.
Mtodos de Validacin de Modelos de Regresin
En esta seccin se presentarn los principales mtodos clsicos usados para la validacin de un modelo de regresin.
1. Anlisis de Coeficientes y Valores Predecidos del Modelo
dos con experiencias a priori, con la teora fsica, modelos analticos y resultados simulados ;
permiten validar un modelo de regresin. Predicciones no realistas, tales como valores negativos de una cantidad tericamente positiva o coeficientes con signos inesperado o demasiados
grandes en valor absoluto que caen fuera del rango permisible, son indicadores de un inapropiado o pobre modelo estimado. Un procedimiento analtico para validar un modelo, es a travs
del anlisis de los coeficientes del modelo asociados a los factores de inflacin de variancia
(FIVj). Los FIVj, son los elementos de la diagonal de la matriz inversa de correlaciones calculada entre las variables regresores, y miden la colinealidad entre las variables Xs.
MARQUART Y SNEE (1975), en un estudio de un proceso qumico concerniente al
porcentaje de conversin de n-heptano para acetileno y considerando tres variables predictoras,
ajustan los datos a tres modelos de regresin cuadrticos de superficie de respuesta con la
finalidad de evaluar la precisin de la prediccin de los modelo; dos por mnimos cuadrados de
9-trmino y 5-trmino y uno por mnimo cuadrado cresta de 9-trmino. Cuando se considera
los modelos para la interpolacin los tres obtuvieron valores predecidos y observados muy
cercanos. Sin embargo, cuando se consideran los modelos con el propsitos de extrapolacin,
el modelo 9-trmino por regresin cresta es el que se comporta mejor para la prediccin en
comparacin de los otros dos modelos que producen predicciones negativas lo cual es fsicamente imposible.
2. Coleccin de Nuevos Datos
Este mtodo consiste en adicionar nuevos datos al modelo los cuales pueden
ser comparados directamente con las predicciones del modelo. La validez de las suposiciones matemticas y fsicas usadas en el desarrollo y estimacin de los coeficientes del modelo, permiten evaluar si el modelo da predicciones exactas para los nuevos
datos.
188
189
porcin de los datos es una clara violacin del principio de suficiencia . Sin embargo, el uso de
divisin de datos puede ser justificado por la reduccin del costo en mantenimiento del modelo.
Adems, en moderados y grandes conjuntos de datos su divisin es ms prctica. Una segunda objecin al usar la divisin de datos concierne a la estabilidad de los resultados de la
validacin.. La variabilidad de la evaluacin podra depender entre otras cosas, del nmero de
observaciones reservadas para la validacin, y as influenciar el resultado de la validacin.
190
MATERIALES Y METODOS
Materiales y Equipos
Con propsito evaluar y comparar los cuatro mtodos de validacin cruzada propuestos en el presente trabajo de investigacin, se ha realizado una aplicacin con los datos de un
experimento sobre aplicacin de N-P en maiz amarillo duro ; conducido en un diseo de bloques completamente al azar con 4 repeticiones y ejecutado en la Estacin de Experimental de
Chincha - Ica. El experimento pertenece al Proyecto de investigacin Estudios de niveles de
fertilizacin N-P (Fuente : Banco de datos de la oficina de Biometra-INIA). As mismo, se ha
desarrollado el programa REGVAL.PAS en Pascal, el cual permite obtener las correspondientes estimaciones de los coeficientes de regresin, medidas de comparacin de modelos R2,
R2ajustado, CMRes y CP, as como los correspondientes estimadores de error cuadrtico de prediccin promedio para cada uno de los cuatro mtodos de validacin cruzada presentados.
Mtodos
La validacin cruzada, ser usada como un mtodo que permita seleccionar y validar
modelos de acuerdo a su mejor capacidad predictiva promedio. Los n datos disponibles para
un modelo de regresin, son divididos en dos conjuntos. El primer conjunto contiene nc datos
usados para ajustar el modelo (construccin del modelo), mientras el segundo conjunto contiene nv=n-nc datos reservados para evaluar la capacidad predictiva del modelo (validacin del
modelo).
La deficiencia de la validacin cruzada para seleccionar modelos de regresin con nv=1 puede ser rectificada usando una validacin cruzada con un nv grande
dependiendo de n, denominada nv-exclusiones. El procedimiento de validacin cruzada asintticamente correcta necesita seleccionar nv, teniendo la misma razn de
n
divergencia para n ; esto es, nv/n 1 cuando n . As mismo, existen ( nv ) diferen-
191
y = x ' + e
(1)
mi = E [ y i / x i ] = x i' b
Var y i / x i = s 2
i=1,2,...,n
En el modelo lineal dado en (1) algunos componentes de pueden ser 0. Por consiguiente, para identificar los 2p-1 submodelos diferentes que se pueden obtener con los p
regresores, se define a como un subconjunto de indices que puede formarse del conjunto de
enteros {1,2,...,p} y denotando su tamao por da. As, se pueden definir xia y ba como subvectores
de xi y b respectivamente, conteniendo los componentes de xi y b indexados por los enteros en
el subconjunto a. Entonces se puede definir el modelo respecto a (1) como :
y = x' + e
(2)
donde :
a
xa
Similarmente se tiene :
i = E[ y i / x i ] = x i'
Var[ y i / x i ] = 2 i=1,2,...,n
contiene coeficientes cero, el modelo (2) puede ser el modelo correcto y puede existir
ms de uno.
192
I:
Los modelos en la Categora I son modelos incorrectos puesto que no contienen todos
los componentes de diferente de cero y los modelos en la Categora II pueden ser ineficientes
porque tienden a poseer modelos con un nmero de predictores innecesariamente grande y la
seleccin de uno de ellos implica eliminar todas las variables no relacionadas con la variable
respuesta. Entonces se puede definir un modelo ptimo, denotado por M*, como un modelo en
la categora II con la mnima cantidad de predictores. Por consiguiente, la seleccin de un
modelo de la Categora I, indicar la falta de al menos un predictor importante, mientras que la
seleccin de un modelo de la Categora II indicar la eliminacin de todas las variables que no
estn relacionadas con la variable respuesta.
Para un a dado el modelo Ma el estimador mnimo cuadrado de a es :
1 n
Ln (a ) = mi - xi'a ba
n i=1
donde
m - ma
=
n
'
= ( 1 , 2 ,..., n ) , = X y a = a' a para cualquier vector a. Despus
de observar los datos, se desea seleccionar el modelo Ma para aeA, tal que Ln(a) sea lo ms
pequeo posible.
193
El error cuadrtico de prediccin promedio (ECPP), es una medida que permite evaluar
la capacidad de prediccin de un modelo de regresin ajustado a un conjunto de datos. Definiendo zi como el valor futuro de la variable respuesta yi a ser predecida, cuando la variable
predictora es igual a xi y considerando el uso del modelo Ma ajustado a los datos (yi,xi) i=1,2,...,n,
se define el ECPP por la expresin :
1 n
'
ECPP = z i x i
n i=1
As, mismo dada la variable y, se determina el esperado condicional del error cuadrtico
de prediccin promedio por :
2
E[ECPP] =s +
1
( xi' b - xi'a ba )2 = s 2 + Ln (a)
n i
Ga ,n = s 2 + n-1das 2 + Da ,n
donde :
,n por:
(3)
D a , n = n -1 b ' X ' ( I n - Pa ) X b
Da ,n = n-1b ' X ' ( In - Pa ) Xb
,n en la expresin (3)
,n bajo todo aeA es equivalente a seleccionar el modelo con la mejor capacidad predictiva
Ga ,n = s 2 + n-1das 2
(4)
194
{(yi,xi), ieSc }
Conjunto de datos para la construccin del modelo. Donde Sc es el complemento de S conteniendo nc enteros; siendo nv+nc=n.
2
nv-1 yS - ya,Sc = nv-1 ( Inv - Qa,S )-1( yS - Xa,S ba )
(5)
Xa,S
y ,S c
Qa,S
=Xa,S (XaXa)-1Xa,S
( nnv ) diferentes subconjuntos S de tamao nv. Para cada modelo Ma, el esti-
mador de validacin cruzada de Ga,n es obtenido promediando las cantidades en (5) bajo todos
o algunos subconjuntos diferentes S de tamao nv. Por lo tanto, el modelo seleccionado por
validacin cruzada es el modelo que minimiza el error cuadrtico de prediccin promedio del
estimador de validacin cruzada bajo todo aeA.
195
El Mtodo CV(1)
El ms simple de los mtodos CV(nv) es cuando nv=1. En este caso el conjunto de
datos para la validacin del modelo es determinado por S={i} y teniendo en cuenta (5) el
estimador CV(1) para Ga,n resulta ser :
-1
1
GaCV,n = (1 - wia ) yi - xi'a ba
n i
)]
XX = O(n) y (XX)-1=O(n-1)
(6)
ii)
(7)
CV,n = ,n + O p (1)
(8)
(9)
no asegura que la razn de error dada en (9) se desprecie cuando n . SHAO (1993), muestra
que el CV(1) es asintticamente incorrecto y es demasiado conservador en el sentido que
puede seleccionar un modelo de excesivo tamao a menos que el modelo ptimo sea de
tamao p.
El Mtodo CV(nv) Incompleto Balanceado (BICV(nv))
La deficiencia del CV(1) puede ser rectificada por el CV(nv) con nv grande. Como puede
notarse es imprctico e innecesario realizar la validacin cruzada para todas las
tes divisiones de las n observaciones, cuando nv>1.
( nnv ) diferen-
196
El estimador de validacin cruzada Ga,n es entonces obtenido promediando las cantidades en (5) bajo todos los subconjuntos SeB. Este mtodo es denominado CV(nv) incompleto balanceado denotado por BICV(nv), porque B es en realidad un diseo de bloques
incompleto balanceado, donde cada subconjunto es tratado como un bloque y cada valor i
como un tratamiento. El tamao de repeticin bn es usualmente una funcin lineal de n;
esto es, b=O(n). Entonces el BICV(nv) selecciona un modelo por la minimizacin de :
1
BICV
=
y y ,S c
,n
n v b S B S
a eA
lim max
s B
1
nv
x x
is
'
i
1
nc
x x
is
'
i
=0
(10)
(11)
= n 1e' e + ,n + O p (1) + Rn
BICV
,n
b)
(12)
(13)
Consecuentemente
(14)
197
Este Teorema permite afirmar que el BICV(nv) es mejorado en relacin al CV(1) cuando
nv es seleccionado de acuerdo a (10).
Mtodo CV(nv) Monte Carlo (MCCV(nv))
El uso del BICV(nv) requiere un coleccin balanceada B de subconjuntos. Si B no
est disponible o es difcil de obtener, dos mtodos alternativos el CV(nv) Monte Carlo o el
CV(nv) Aproximacin pueden ser usados.
El mtodo CV(nv) Monte Carlo, es un mtodo fcil y simple que disea aleatoriamente
(con o sin reemplazo) una coleccin R de b subconjuntos de {1,2,...,n} que tienen tamao nv y
selecciona el modelo por minimizacin de :
1
MCCV
=
y y ,sc
,n
n v b sR s
(15)
En el MCCV(nv) la expresin (15) ser obtenido por divisin aleatoria de los datos b
veces y luego promediando el error cuadrado de prediccin bajo esta divisin. Este mtodo fue
considerado por PICARD y COOK (1984).
Similarmente el MCCV(nv) es mejor que el CV(1) como se muestra en el siguiente
Teorema que involucra la probabilidad conjunta correspondiente a la variable y y la seleccin de
subconjuntos Monte Carlo. La Prueba se presenta en SHAO (1993).
Teorema 2. Suponga que (6) y (7) se cumple y que nv es seleccionado tal que se cumple (11),
adems se tiene que :
max
sR
1
nv
x x
is
'
i
1
nc
x x
is
'
i
= O p (1)
(16)
donde R contiene b subconjuntos seleccionados aleatoriamente con b satisfaciendo la siguiente condicin que impone restricciones a b y nc.:
b-1nc-2 n2 0
Entonces se tiene las siguientes conclusiones :
a)
1
es' es + ,n + O p (1) + Rn
=
MCCV
,n
n v b sR
(18)
donde
es = y s X s
(17)
198
b)
1
=
MCCV
es' es + nc1 + nc1d 2 + O p ( nc1 )
,n
nv b
c)
(19)
Consecuentemente
; por este motivo este llamado un mtodo de aproximacin. As, se puede definir el
BICV
,n
1
y X
=
APCV
,n
n
n + nc
w ( y xi' )2
nc ( n 1) i i i
(20)
Bajo (6), (7) y (11), los resultados dados en (12), (13) y (14) darn similares resultados reemplazando
a)
= n 1e' e + ,n + O p (1) + Rn
APCV
,n
b)
n + nc
= n 1e' ( I n P )e +
APCV
[d 2 + O p (1)]
,n
nc ( n 1)
c)
(21)
Consecuentemente
(22)
199
RESULTADOS Y DISCUSION
Los datos son ajustados al siguiente modelo de regresin polinomial:
yi = b0 + b1 xi1 + b2 xi2 + b3 xi3 + b4 xi4+ b5 xi5 + ei
Y
X1
X3
N2
X4 P2
i=1, 2, ..., 54
X5 NxP
era de esperar el mtodo CV(1) tiende a seleccionar modelos demasiados grandes, esto es
modelos innecesariamente con muchos regresores.
200
Categoria
CMRes
CV(1)
BICV(nv)
MCCV(nv)
APCV(nv)
II
II
I
II
II
II
I
I
II
I
II
I
I
I
II
I
I
I
I
I
I
I
I
I
I
I
I
I
I
I
I
1.2292
2.7284
3.2061
1.4025
2.7369
0.7660
1.2531
1.2482
0.7747
2.7817
0.9427
2.7761
1.4298
2.7903
0.9514
0.7812
0.7761
0.7754
1.2729
0.7900
0.7849
0.9614
2.8314
0.9556
0.9702
0.7918
0.7910
0.7859
0.8007
0.9750
0.8021
1.0932
2.4430
2.8629
1.2435
2.4477
0.6442
1.0513
1.0515
0.6523
2.3499
0.7883
2.3386
1.1958
2.3544
0.7970
0.6190
0.6187
0.6120
1.0105
0.6268
0.6275
0.7574
2.2477
0.7531
0.7658
0.5941
0.5876
0.5872
0.6025
0.7230
0.5633
1.3611
2.3980
2.9036
1.2619
2.4496
0.8711
1.3907
1.3902
0.9322
2.4276
0.7873
2.4552
1.2915
2.4792
0.8304
0.9007
0.9212
1.0616
1.4198
0.9618
0.9870
0.8169
2.4848
0.9617
0.8600
0.9508
1.0912
1.1100
1.0166
0.9913
1.1396
1.1673
3.1683
3.8772
1.2450
3.1755
0.6734
1.2611
1.6743
0.6681
3.3032
0.7685
3.1810
1.3298
3.3168
0.7296
0.6837
0.7552
0.6697
1.8931
0.6721
0.7794
0.7673
3.3332
0.7619
0.7285
0.8089
0.6757
0.7587
0.8241
0.7606
0.8023
1.3014
2.8671
3.3786
1.4900
2.8797
0.8277
1.3570
1.3456
0.8358
2.9908
1.0246
2.9929
1.5535
3.0038
1.0320
0.8616
0.8508
0.8584
1.4010
0.8700
0.8580
1.0664
3.1163
1.0596
1.0742
0.8845
0.8920
0.8813
0.8921
1.1011
0.9147
,n y
tamaos del conjunto de validacin nv. Se observa que el modelo (X1,X2) es seleccionado
201
en los diferentes valores de nv, y en segundo lugar el modelo (X1,X5). El Grfico No.1 permite
observar lo descrito anteriormente, y adems evidenciar el comportamiento esperado por
el mtodo MCCV(nv), esto es la disminucin de las estimaciones del error de prediccin
Categora
nv=10
nv=20
nv=30
nv=40
X1
X2
X3
X4
X5
X1X2
X1X3
X1X4
X1X5
X2X3
X2X4
X2X5
X3X4
X3X5
X4X5
X1X2X3
X1X2X4
X1X2X5
X1X3X4
X1X3X5
X1X4X5
X2X3X4
X2X3X5
X2X4X5
X3X4X5
X1X2X3X4
X1X2X3X5
X1X2X4X5
X1X3X4X5
X2X3X4X5
X1X2X3X4X5
II
II
I
II
II
II
I
I
II
I
II
I
I
I
II
I
I
I
I
I
I
I
I
I
I
I
I
I
I
I
I
2.5455
2.2173
2.8399
2.873
2.2949
1.4456
2.5763
2.5472
1.5835
2.4282
1.6702
2.2544
2.9344
2.4562
1.8344
1.4674
1.4225
1.6063
2.5827
1.6215
1.5653
1.715
2.4324
1.9264
1.9015
1.4428
1.6574
1.5839
1.6037
2.0232
1.6363
1.1657
3.6522
3.9057
1.3255
3.8597
0.7242
1.185
1.1749
0.8229
3.9304
0.8822
3.917
1.3579
4.0832
0.9762
0.7352
0.7576
0.8178
1.1878
0.8271
0.8693
0.8877
4.0975
0.9684
0.9767
0.7806
0.8206
0.8673
0.8825
0.9689
0.8774
1.5065
2.896
3.6781
1.6811
2.8827
0.8913
1.5967
1.5029
0.9466
2.9726
1.0546
2.8959
1.7093
2.9668
1.0823
0.9224
0.896
1.0008
1.6113
0.9568
0.9555
1.0565
2.9573
1.1393
1.0819
0.9441
1.0043
1.0014
0.9758
1.1426
1.0119
1.3828
2.675
3.3608
1.6668
2.6133
0.732
1.4709
1.4169
0.7774
2.744
0.9204
2.7118
1.8028
2.6712
0.9304
0.7687
0.761
0.7446
1.5958
0.8284
0.8157
1.0189
2.8042
0.9118
1.0393
0.7651
0.7884
0.7849
0.8302
1.0166
0.7913
202
4.5
4
3.5
Estimaciones
Nv=10
Nv=20
2.5
Nv=30
Nv=40
1.5
1
0.5
0
X1
X2
X4
X5
X1X2
X1X5
X2X4
X4X5
Modelos
,n cuyos
203
Categora
n v=10
n v=20
n v=30
n v =40
II
II
I
II
II
II
I
I
II
I
II
I
I
I
II
I
I
I
I
I
I
I
I
I
I
I
I
I
I
I
I
1.5566
3.315
4.9046
1.9358
3.3572
0.869
1.8986
1.5557
0.8697
3.4929
1.0388
3.3149
2.3909
3.5214
1.0299
1.0056
0.8563
0.8565
1.9139
0.9923
0.859
1.2786
3.4812
1.023
1.2548
0.9851
0.9868
0.8443
0.9712
1.2603
0.9654
1.8701
3.0208
3.8056
2.1069
3.0512
1.2357
1.8968
1.8641
1.2821
3.0459
1.4272
3.0274
2.1849
3.0712
1.4684
1.2506
1.2258
1.2768
1.8929
1.2905
1.2727
1.488
3.0565
1.4669
1.5178
1.2351
1.2836
1.2652
1.2769
1.5117
1.2685
1.3698
3.1192
3.9888
1.5985
3.1457
0.8251
1.58
1.38
0.8981
3.3044
1.0777
3.2119
1.8101
3.2914
1.1747
0.8876
0.8283
0.9495
1.5879
0.9358
0.9201
1.1475
3.3642
1.3003
1.2104
0.8903
0.9908
0.9936
0.9553
1.3396
1.0319
1.2364
2.6695
3.3919
1.4654
2.638
0.9199
1.2652
1.8735
0.8951
2.9563
1.1134
2.8781
1.538
2.9647
1.095
0.9318
1.0895
0.9197
2.3079
0.9188
1.0334
1.1739
3.0593
1.1261
1.1788
1.2654
0.9291
1.1142
1.2264
1.1778
1.2839
X1
X2
X3
X4
X5
X 1X 2
X 1X 3
X 1X 4
X 1X 5
X 2X 3
X 2X 4
X 2X 5
X 3X 4
X 3X 5
X 4X 5
X 1X 2X 3
X 1X 2X 4
X 1X 2X 5
X 1X 3X 4
X 1X 3X 5
X 1X 4X 5
X 2X 3X 4
X 2X 3X 5
X 2X 4X 5
X 3X 4X 5
X 1 X 2 X 3X 4
X 1 X 2 X 3X 5
X 1 X 2 X 4X 5
X 1 X 3 X 4X 5
X 2 X 3 X 4X 5
X 1 X 2 X 3X 4X 5
Estimaciones
3
2.5
N v=10
N v=30
N v=20
N v=40
1.5
1
0.5
0
X1
X2
X4
X5
X 1X 2
M odelos
X 1X 5
X 2X 4
X 4X 5
204
Categora
nv=10
nv=20
nv=30
nv=40
II
II
I
II
II
II
I
I
II
I
II
I
I
I
II
I
I
I
I
I
I
I
I
I
I
I
I
I
I
I
I
0.6852
1.9806
2.5784
0.6252
2.1934
0.7456
0.7905
0.7704
0.7644
1.9835
0.6388
2.2109
0.7128
2.2110
0.6564
0.7836
0.8141
0.7523
0.8804
0.8481
0.8484
0.6665
2.2420
0.6438
0.7241
0.8550
0.8116
0.8283
0.9363
0.6891
0.8933
1.6463
2.8735
3.1646
1.7838
2.9908
1.0068
1.6525
1.6440
1.1123
2.8721
1.1128
2.9915
1.7990
2.9897
1.1942
1.0116
1.0342
1.2253
1.6482
1.1157
1.1620
1.1250
2.9903
1.2615
1.2043
1.0353
1.2273
1.2981
1.1615
1.2700
1.2959
1.4791
2.6081
3.2556
1.6381
2.6908
0.9744
1.5267
1.4713
0.9894
2.6186
1.1402
2.8378
1.7093
2.6929
1.1504
0.9774
0.9670
1.0345
1.5175
0.9996
0.9826
1.1389
2.8382
1.1743
1.1530
0.9707
1.0476
1.0338
0.9941
1.1781
1.0492
1.3727
2.7237
4.1281
1.5299
2.8679
1.0027
1.6378
1.3660
1.0739
2.9685
1.3612
3.0081
1.6017
2.9439
1.3486
1.0396
1.0723
1.1103
1.8668
1.1863
1.0850
2.0964
3.0766
1.3467
2.1229
1.4158
1.2199
1.1096
1.3630
2.1623
1.3405
205
Estimaciones
3.0000
2.5000
Nv=10
2.0000
Nv=20
Nv=30
1.5000
Nv=40
1.0000
0.5000
0.0000
X1
X2
X4
X5
X1X2
Modelos
X1X5
X2X4
X4X5
206
CONCLUSIONES y RECOMENDACIONES
Las conclusiones del presente trabajo de investigacin son las siguientes :
1.
2.
3.
Los mtodos de validacin cruzada CV(nv) rectifican la deficiencia del CV(1). El mtodo de Monte Carlo es el que mejor comportamiento presenta para validar y seleccio
nar modelos de regresin. Adems el ms sencillo para conformar el conjunto de
validacin y el conjunto de estimacin. El mtodo de Incompleto Balanceado, esta
influenciado por la tcnica de la distribucin de los datos para formar los conjuntos de
datos de validacin y el conjunto de datos de estimacin.
4.
5.
207
BIBLIOGRAFIA
AITKIN M. A. (1974) Simultaneous Inference and choice of Variable Subsets, Technometrics,
Vol. 16, Pag. 221-227.
ALLEN D.M. (1974) The Relationship Between Variable Selection an Data Augmentation and
a Method Prediction, Technometrics, Vol. 36, Pag. 125-127.
(1971), The Prediction Sum of Squares As a Criterion For Selecting
Predictor Variables, Technical Report No. 23, Department of Statistics,
University of Kentucky.
BERK K.N. (1978) Comparing Subset Regression Procedures, Technometrics, Vol. 20, Pag.
1-6.
CADY F.B. AND ALLEN D.M. (1972) Combining Experiments to Predict Future Yield Data,
Agronomy Journal, Vol. 64, Pag. 211-214.
DRAPER N.R. AND SMITH A. (1981) Applied Regression Analysis, 2da. Ed. Wiley
New York.
EDWARD J. B. (1969) The Relation Between the F-test and R2, The American Statistics, Vol.
23, Pag. 28-32.
EFRON B. (1983) Estimating the Error Rate of a Prediction Rule : Improvement on CrossValidation, Journal of the American Statistical Association-JASA,Vol. 78, Pag.
316-331.
(1986) How Biased Is the Apparent Error Rate of a Prediction Rule,
Journal of the American Statistical Association-JASA, Vol. 81 Pag.
461-470.
FURNIVAL G. M. (1971) All Possible Regression With Less Computation, Technometrics,
Vol. 13, Pag. 403-408.
FURNIVAL G. M. AND WILSON R.W.M. (1974) Regression By Leaps and Bounds
Technometrics, Vol. 16, Pag. 499-511.
GARSIDE M.J. (1965) The Best Subset in Multiple Regression Analysis, Applied Statistics
Vol. 14, Pag. 196-200.
GARSIDE M.J. (1971) Some Computational Procedures For the Best Subset Problen, Applied
Statistics, Vol. 20, Pag. 8-15.
GEISSER S. (1975) The predictive Sample Reuse Method With Applications, Journal of
the American Statistical Association-JASA, Vol. 70, Pag. 320-328.
208
HAITOVSKI Y. (1969 A Note on the Maximization of R2 Ajust. , The American Statistics, Vol. 23,
Pag. 20-21.
HELMS R. W. (1974) The Average Estimated Variance Criterion For the Seleccin of Variables
Problen in General Linear Models, Technometrics, Vol. 16, Pag. 261-273.
HERBERG G. AND TSUKANOV S. (1986) A Note on Modifications of the Jacnife Criterion on
Model Selection Utilitas Mathematics, Vol. 29, Pag. 209-216.
HILL R. C., JUDGE G.G. AND FOMBY T.B. (1978) On Testing The Adequacy of a Regression
Model, Technometrics, Vol. 20, Pag. 491-494.
HOCKING R.R. (1972) Criteria For Selection of a Subset Regression :Which One Should Be
Used, Technometrics, Vol. 14, Pag. 967-970.
HOCKING R.R. (1974) Misspecification in Regression, American Statistics, Vol. 28,
Pag. 39-40.
HOCKING R.R. (1976) The Analysis and Selection of Variables in Linear Regression,
Biomatrics, Vol. 32, Pag. 1-49.
KERNNARD R.L. AND STONE L. (1969) Computer Aided Design of Experiments,
Technometrics Vol. 11, Pag. 137-148.
LA MOTTE L.R. (1972) The SELECT routines : A Program for Identifyng Best Subset
Regression, Applicated Statistics, Vol. 21, Pag. 92-93.
LARSEN W.A. AND MC CLEARY (1972) The Use of Partial Residual Plots in Regression
Analysis, Technometrics, Vol. 14, Pag. 781-790.
LI K.C. (1987) Asymptotic Optimality for CP, CL, Cross-Validation and Generakized CrossValidation : Discrete Index Set, The Annals Statistics, Vol. 15, Pag. 958975.
MALLOWS C.L. (1973) Some Comments on Cp, Technometrics, Vol. 15, Pag. 661-675.
McCARTHY P.J. (1976) The Use of Balanced Half-sample Replication in Cross-Validation
Studies, Journal of the American Statistical Association-JASA, Vol. 71,
Pag. 596-604
MARQUARDT D.W. and SNEE R.D. (1975) Ridge Regression in Practice, American Statistical,
Vol. 29, Pag. 3-20.
MORGAN J.A. AND TATAR J.F. (1972) Calculationof The Residual Sum of Squares for all
Possible Regressions, Technometrics, Vol. 14, Pag. 317-325.
209
WAHBA G. and WOLD S. (1970) A Completely Automatic French Curve Fitting Spline
Functions by Cross-Validation, Communications in Statistics, Vol. 4 Pag.
1-17.
ZHANG P. (1991) Model Selection Via Multifold Cross-Validation, Pre-print.