Valiadcon Cruzada Metodos Lineales

185
MTODOS DE VALIDACIN CRUZADA PARA MODELOS DE REGRESIN LINEAL

Csar H. Menacho Chiok1
RESUMEN
En este trabajo de investigacin se presenta y compara cuatro mtodos de
validacin cruzada para seleccionar y evaluar submodelos de regresin, de acuerdo a
su capacidad predictora. La metodologa de estos mtodos se basan en el uso del
error cuadrtico de prediccin promedio y tcnicas de divisin de datos. Los resultados
de la aplicacin mostraron que estos mtodos son ms consistentes para validar modelos de regresin cuando el propsito es la prediccin, en comparacin de los mtodos clsicos.
SUMMARY
Cross Validation Methods For Regression Lineal Models
In is the investigation there are and compare four methods of cross validation for
selecting and evaluating regression submodels, according to the predictive ability models.
The methodoly is based on squared prediction average and techniques of data division.
Results of applying demostrated that methods are consistents for valited regression models
when purposed is prediction in comparation of classic methods.
INTRODUCCION
Los modelos de regresin son extensamente usados con los propsitos de estimar y predicir datos, estimar parmetros, describir los datos y controlar la variable
respuesta. Para un modelo de regresin lineal con p variables regresoras habr 2 p-1
Ing. Magister en Estadstica. Profesor del Dpto. de Estadstica e Informtica. UNALM
186
Anales Cientficos UNALM
posibles ecuaciones de regresin a ser evaluadas. Para evaluar estos submodelos existen
una variedad de mtodos y procedimientos que permiten seleccionar variables regresoras,
tales como los mtodos paso a paso stepwise, forward y backward, los cuales utilizan
tambin una variedad de medidas o criterios como R2, R2_ajustado, CME y Cp. Cuando el
propsito de la construccin de un modelo de regresin es la prediccin de datos, estos
mtodos clsicos no aseguran que el submodelo seleccionado proporcionar predicciones
precisas. Entonces, es necesario contar con mtodos que permitan seleccionar y validar
submodelos de regresin de acuerdo a su mejor capacidad predictiva. Adems se debe
considerar que los procedimientos de seleccin de variables son una parte de un proceso
ms general de construccin de modelos, que esta comprometido con el trato de outliers,
heterocedasticidad, etc.
En el anlisis de regresin se debe distinguir entre ajuste de los datos y la validacin del modelo. El chequeo del ajuste del modelo incluye anlisis de residuos, pruebas de
bondad de ajuste, presencia de observaciones influyentes o outliers y otros anlisis internos que permiten analizar el ajuste del modelo de regresin a los datos disponibles. La
validacin del modelo esta directamente relacionada con su performance, en cuanto a su
funcin y propsito por el cual fue construido.
Un mtodo alternativo es el uso de la validacin cruzada, con la finalidad seleccionar y evaluar modelos de regresin de acuerdo a su capacidad predictiva, a travs de la
estimacin del error cuadrtico de prediccin promedio. El mtodo de validacin cruzada,
consiste en dividir el conjunto de datos disponibles en dos partes ; una parte es usada
para la construccin del modelo y la otra parte para la validacin del modelo.
El mtodo clsico de validacin cruzada es el que hace una exclusin de una observacin a la vez 1-exclusin, para conformar el conjunto de datos de validacin (nv=1). Este
mtodo es denotado por CV(1), es asintticamente equivalente a otros mtodos de seleccin
y evaluacin de variables, tales como el Criterio de Informacin de Akaike (AIC), el Cp de
Mallow, el Jackknife y Bootstrap ; estos tienen el inconveniente de ser asintticamente inconsistentes y tiende a seleccionar innecesariamente modelos grandes. Esta deficiencia puede
ser rectificada usando un nv grande, el nmero de datos separados para la validacin del
modelo. Estos son llamados mtodos de validacin cruzada de nv-exlusiones y denotados
por CV(nv). As, para n datos disponibles existirn
CnnV subconjuntos de datos tamao nv que
pueden formarse para la validacin del modelo.

El objetivo del presente trabajo de investigacin es presentar y evaluar cuatro mtodos de validacin cruzada; el CV(1), el CV(nv) Incompleto Balanceado, el CV(nv) Monte
Carlo y el CV(nv) de Aproximacin, como mtodos para seleccionar y validar modelos de
regresin lineal de acuerdo a su capacidad predictiva. Con el propsito de comparar y
evaluar el comportamiento de los mtodos de validacin cruzada propuestos, as como con
el comportamiento terico esperado, se realiza una aplicaciones y se desarrollan programas en el lenguaje Pascal. Para la aplicacin se incluye los datos experimentales de una
investigacin de N-P en maiz realizada en la Estacin Experimental de Chincha.
187
REVISIN DE LITERATURA
En la literatura se encuentra una variedad de tcnicas y mtodos usados para evaluar
y validar modelos de regresin; que incluyen el anlisis de coeficientes y predicciones, comparacin de resultados con clculos de modelos tericos y la divisin de datos, este ltimo
conocido como validacin cruzada. SNEE (1977), considera que la prediccin y estimacin de
parmetros no son un problema separado, y el chequeo de ambos debera formar parte del
proceso de validacin de modelos.
Mtodos de Validacin de Modelos de Regresin
En esta seccin se presentarn los principales mtodos clsicos usados para la validacin de un modelo de regresin.
1. Anlisis de Coeficientes y Valores Predecidos del Modelo
La comparacin de los coeficientes estimados
j y los valores predecidos yi obteni-
dos con experiencias a priori, con la teora fsica, modelos analticos y resultados simulados ;
permiten validar un modelo de regresin. Predicciones no realistas, tales como valores negativos de una cantidad tericamente positiva o coeficientes con signos inesperado o demasiados
grandes en valor absoluto que caen fuera del rango permisible, son indicadores de un inapropiado o pobre modelo estimado. Un procedimiento analtico para validar un modelo, es a travs
del anlisis de los coeficientes del modelo asociados a los factores de inflacin de variancia
(FIVj). Los FIVj, son los elementos de la diagonal de la matriz inversa de correlaciones calculada entre las variables regresores, y miden la colinealidad entre las variables Xs.
MARQUART Y SNEE (1975), en un estudio de un proceso qumico concerniente al
porcentaje de conversin de n-heptano para acetileno y considerando tres variables predictoras,
ajustan los datos a tres modelos de regresin cuadrticos de superficie de respuesta con la
finalidad de evaluar la precisin de la prediccin de los modelo; dos por mnimos cuadrados de
9-trmino y 5-trmino y uno por mnimo cuadrado cresta de 9-trmino. Cuando se considera
los modelos para la interpolacin los tres obtuvieron valores predecidos y observados muy
cercanos. Sin embargo, cuando se consideran los modelos con el propsitos de extrapolacin,
el modelo 9-trmino por regresin cresta es el que se comporta mejor para la prediccin en
comparacin de los otros dos modelos que producen predicciones negativas lo cual es fsicamente imposible.
2. Coleccin de Nuevos Datos
Este mtodo consiste en adicionar nuevos datos al modelo los cuales pueden
ser comparados directamente con las predicciones del modelo. La validez de las suposiciones matemticas y fsicas usadas en el desarrollo y estimacin de los coeficientes del modelo, permiten evaluar si el modelo da predicciones exactas para los nuevos
datos.
188
KERNNARD y STONE (1969), tienen desarrollado el algoritmo CADEX que permite

chequear puntos uniformemente distribuidos, iniciando el diseo bsico con una cuadrcula de puntos que cubren la regin del diseo. Por consiguiente, si el modelo proporciona
predicciones precisas de nuevos datos se tendr una mayor confianza en el modelo y en el
proceso de su construccin.
SNEE (1975), realiza un estudio de las mezclas de lubricantes para determinar la
cantidad de aditivo que podra ser usado para producir un nivel deseado, y as tener un
criterio de las propiedades fsicas. Las propiedades fsicas de los resultados de las mezclas fueron luego determinadas y comparados con las propiedades fsicas predecidas.
Como resultado se observa que la desviacin entre los datos sobre la propiedad fsica
observada y los datos predecidos con el modelo estimado fueron pequeas. Luego el modelo fue continuamente validado conforme era utilizado dando confianza para su uso.
3. Divisin de Datos
Este mtodo se basa en dividir el conjunto de datos en dos. El primer conjunto de
datos es denominado datos de estimacin, estos son usados para estimar los coeficientes del
modelo. El otro conjunto de datos conformado por el resto de datos es denominado datos de
prediccin, estos son usados para medir la precisin de la prediccin del modelo. Este mtodo
es conocido en la literatura como validacin cruzada.
SNEE (1977), recomienda como una regla prctica, que se debe considerar una
divisin de datos si se cumple que n 2 p + 25, donde p es el nmero de variables
regresoras y n el nmero de observaciones. Esto obedece a tener un nmero adecuado de
grados de libertad para el error, garantizando una potencia razonable para las pruebas de
significacin y anlisis de residuales principalmente. El tamao del conjunto de datos de
estimacin nc podra ser mayor a p+10 (o p+15) donde p es el nmero ms grande de
coeficientes que se podra tener.
Entre los criterios usados para la divisin de los datos se encuentran: El uso del
tiempo, por el cual se escoge un punto en el tiempo para dividir los datos y as formar los
conjuntos de estimacin y prediccin. El algoritmo DUPLEX tiene como objetivo dividir los
datos en dos conjuntos, los cuales cubran aproximadamente la misma regin y tengan
similares propiedades estadsticas. El algoritmo DUPLEX fue desarrollado por Kennard K. y
es similar al algoritmo CADEX de KENNARD R.W. Y STONE L. (1969). Los errores de
prediccin, la estadstica suma de cuadrados de los errores de prediccin (PRESS), usada
para evaluar modelos cuando el objetivo es la prediccin, puede ser considerada como un
criterio para la divisin de datos. El clculo del PRESS, se basa en seleccionar y separar del
conjunto total de n datos de la variable dependiente una observacin yi. Luego ajustar el
modelo de regresin usando las n-1 observaciones retenidas y utilizar esta ecuacin para
predecir la observacin separada.. Divisin Aleatoria, en el caso que no exista una base
lgica para la divisin de datos, se podra asignar observaciones aleatoriamente para obtener
el conjunto de datos de estimacin y de prediccin. Un inconveniente de este procedimiento
algo arbitrario para la divisin de datos, es que a menudo no se tiene suficiente confianza en el
189
conjunto de datos de prediccin. As, la divisin aleatoria de los datos no necesariamente

asegura que algunos puntos del conjunto de datos de prediccin son puntos de extrapolacin
tal que la validacin podra no evaluar bien la forma como el modelo puede extrapolar.
CADY y ALLEN (1972), usa el algoritmo PRESS para desarrollar una ecuacin de
prediccin del rendimiento de maiz con datos mensuales de cuatro aos. Los datos de los tres
primeros aos fueron usados para la estimacin y los del ltimo ao para la prediccin.
DRAPER y SMITH (1981), discuten una variacin sobre el uso del tiempo como criterio
para la divisin de datos. En este caso se tiene datos anuales, recomendando que el modelo
puede ser ajustado en cada ao separadamente y los coeficientes pueden ser examinados de
acuerdo a su estabilidad, siendo consistentes de ao en ao se tendra un buen modelo. Este
chequeo es posible si las correlaciones entre las variables predictoras son todas pequeas.
Sin embargo, si la correlaciones son grandes y consistentes de ao en ao, el modelo podra
dar predicciones pobres para otros conjuntos de datos cuya estructura de correlacin difiera de
los datos iniciales. Este mtodo de anlisis es particularmente usado cuando la tendencia de
los datos corresponden a una estructura de comportamiento lgico en el tiempo.
SNEE (1977), describe y usa el algoritmo DUPLEX como un procedimiento de divisin
de datos, sugiriendo el uso de un anlisis de Cluster para identificar las observaciones ms
cercanas que permitan conformar los conjuntos de estimacin y prediccin.
SNEE (1977), en su investigacin manifiesta que un inconveniente de la divisin de
datos, es que las variancias de los coeficientes estimados obtenidos a partir del conjunto de
datos de estimacin son mayores con respecto a los producidos por el ajuste sobre todo el
conjunto de datos. Sin embargo, para un conjunto grande de datos las variancias de los coeficientes podran ser menores, si la mitad de los datos son usados para la estimacin de los
coeficientes.
PICARD (1984), presenta una metodologa para la validacin de modelos de regresin
a travs de la evaluacin de la capacidad predictiva por validacin cruzada, usando el algoritmo
DUPLEX como procedimiento de divisin de datos. Menciona dos importantes objeciones respecto a la divisin de datos. Una primera objecin del uso de divisin de datos es la prdida de
informacin incurrida en el modelo construido. As, el estimador
usando solamente una
porcin de los datos es una clara violacin del principio de suficiencia . Sin embargo, el uso de
divisin de datos puede ser justificado por la reduccin del costo en mantenimiento del modelo.
Adems, en moderados y grandes conjuntos de datos su divisin es ms prctica. Una segunda objecin al usar la divisin de datos concierne a la estabilidad de los resultados de la
validacin.. La variabilidad de la evaluacin podra depender entre otras cosas, del nmero de
observaciones reservadas para la validacin, y as influenciar el resultado de la validacin.
190
MATERIALES Y METODOS
Materiales y Equipos
Con propsito evaluar y comparar los cuatro mtodos de validacin cruzada propuestos en el presente trabajo de investigacin, se ha realizado una aplicacin con los datos de un
experimento sobre aplicacin de N-P en maiz amarillo duro ; conducido en un diseo de bloques completamente al azar con 4 repeticiones y ejecutado en la Estacin de Experimental de
Chincha - Ica. El experimento pertenece al Proyecto de investigacin Estudios de niveles de
fertilizacin N-P (Fuente : Banco de datos de la oficina de Biometra-INIA). As mismo, se ha
desarrollado el programa REGVAL.PAS en Pascal, el cual permite obtener las correspondientes estimaciones de los coeficientes de regresin, medidas de comparacin de modelos R2,
R2ajustado, CMRes y CP, as como los correspondientes estimadores de error cuadrtico de prediccin promedio para cada uno de los cuatro mtodos de validacin cruzada presentados.
Mtodos
La validacin cruzada, ser usada como un mtodo que permita seleccionar y validar
modelos de acuerdo a su mejor capacidad predictiva promedio. Los n datos disponibles para
un modelo de regresin, son divididos en dos conjuntos. El primer conjunto contiene nc datos
usados para ajustar el modelo (construccin del modelo), mientras el segundo conjunto contiene nv=n-nc datos reservados para evaluar la capacidad predictiva del modelo (validacin del
modelo).
La deficiencia de la validacin cruzada para seleccionar modelos de regresin con nv=1 puede ser rectificada usando una validacin cruzada con un nv grande
dependiendo de n, denominada nv-exclusiones. El procedimiento de validacin cruzada asintticamente correcta necesita seleccionar nv, teniendo la misma razn de
n
divergencia para n ; esto es, nv/n 1 cuando n . As mismo, existen ( nv ) diferen-
tes maneras de dividir el conjunto de datos, aumentando la complejidad computacional

cuando nv se incrementa y la validacin cruzada puede llegar a ser imprctica. Se
presentarn cuatro mtodos, los cuales se diferencian en el procedimiento que usan
para dividir y seleccionar el conjunto de datos para la validacin (nv).
191
Modelo de Regresin para la Validacin Cruzada

Considerando el modelo de regresin lineal :
y = x ' + e
(1)
donde y es la variable respuesta, x es un p-vector de variables predictoras, es un p vector de

parmetros desconocidos y e es el vector de errores aleatorio con media cero y variancia
comn s2. As, mismo se asume que X=(x1,x2,...,xn) es de rango completo y de valores fijos,
adems se tiene que :
mi = E [ y i / x i ] = x i' b
Var y i / x i = s 2
i=1,2,...,n
En el modelo lineal dado en (1) algunos componentes de pueden ser 0. Por consiguiente, para identificar los 2p-1 submodelos diferentes que se pueden obtener con los p
regresores, se define a como un subconjunto de indices que puede formarse del conjunto de
enteros {1,2,...,p} y denotando su tamao por da. As, se pueden definir xia y ba como subvectores
de xi y b respectivamente, conteniendo los componentes de xi y b indexados por los enteros en
el subconjunto a. Entonces se puede definir el modelo respecto a (1) como :
y = x' + e
(2)
donde :
a
Subconjunto de tamao da ,de enteros positivos distintos menores o iguales a p
Es el vector dax1conteniendo los componentes de , indexado por los enteros en a
xa
Es el vector dax1 conteniendo los componentes de x, indexado por los enteros en a
Similarmente se tiene :
i = E[ y i / x i ] = x i'
Var[ y i / x i ] = 2 i=1,2,...,n
Para un a dado, el submodelo que se define con da regresores no es necesariamente

es un modelo correcto, puesto que
E y i / x i no es siempre igual a x i' . Si ba contiene
todos los componentes diferentes de cero, entonces
x i' = x i' para cualquier xi dado que
contiene coeficientes cero, el modelo (2) puede ser el modelo correcto y puede existir
ms de uno.
192
Los 2 p-1 posibles modelos diferentes de la forma (2) y considerando a un

subcosubconjunto a de enteros positivos y se denotar por Ma. y su dimensin ser definido
por da, el nmero de predictores en Ma. Adems, sea A el conjunto de todos los subconjuntos
no nulos del conjunto {1,2,...,p}, entonces se tiene que aeA. Si se conoce que cada componente de es cero o diferente de cero, entonces los modelos Ma pueden ser clasificados dentro
de dos categoras:
Categora
Categora
I:
Los modelos a que le falta al menos un componente de diferente

de cero.
II : Los modelos a que contienen todos los componentes de diferentes
de cero.
Los modelos en la Categora I son modelos incorrectos puesto que no contienen todos
los componentes de diferente de cero y los modelos en la Categora II pueden ser ineficientes
porque tienden a poseer modelos con un nmero de predictores innecesariamente grande y la
seleccin de uno de ellos implica eliminar todas las variables no relacionadas con la variable
respuesta. Entonces se puede definir un modelo ptimo, denotado por M*, como un modelo en
la categora II con la mnima cantidad de predictores. Por consiguiente, la seleccin de un
modelo de la Categora I, indicar la falta de al menos un predictor importante, mientras que la
seleccin de un modelo de la Categora II indicar la eliminacin de todas las variables que no
estn relacionadas con la variable respuesta.
Para un a dado el modelo Ma el estimador mnimo cuadrado de a es :
bbaa = ( X a' X a ) -1 X a' y

donde :
y=(y1, y 2, ..., yn)

Xa=(x1a, x2a, ..., xna)
Es un vector nx1 de observaciones de la variable respuesta

Es una matriz nxda, de rango completo para cualquier aeA.
Error Cuadrtico de Prediccin Promedio

La eficiencia del modelo Ma puede ser medida por la prdida cuadrtica promedio
1 n
Ln (a ) = mi - xi'a ba
n i=1
donde
m - ma
=
n
'
= ( 1 , 2 ,..., n ) , = X y a = a' a para cualquier vector a. Despus
de observar los datos, se desea seleccionar el modelo Ma para aeA, tal que Ln(a) sea lo ms
pequeo posible.
193
El error cuadrtico de prediccin promedio (ECPP), es una medida que permite evaluar
la capacidad de prediccin de un modelo de regresin ajustado a un conjunto de datos. Definiendo zi como el valor futuro de la variable respuesta yi a ser predecida, cuando la variable
predictora es igual a xi y considerando el uso del modelo Ma ajustado a los datos (yi,xi) i=1,2,...,n,
se define el ECPP por la expresin :
1 n
'
ECPP = z i x i
n i=1
As, mismo dada la variable y, se determina el esperado condicional del error cuadrtico
de prediccin promedio por :
2
E[ECPP] =s +
1
( xi' b - xi'a ba )2 = s 2 + Ln (a)
n i
y se define el esperado incondicional del error cuadrtico de prediccin denotado
Ga ,n = s 2 + n-1das 2 + Da ,n
donde :
,n por:
(3)
D a , n = n -1 b ' X ' ( I n - Pa ) X b
Da ,n = n-1b ' X ' ( In - Pa ) Xb
Pa = Xa ( Xa' Xa )-1 Xa'
Pa es la matriz de proyeccin bajo el modelo Ma. Se observa que
,n en la expresin (3)
consiste de dos componentes, la variabilidad de las observaciones futuras s2 y el error en el

modelo de estimacin y seleccin n-1+das2+Da,n. As, seleccionar un modelo con el menor
,n bajo todo aeA es equivalente a seleccionar el modelo con la mejor capacidad predictiva
bajo todo aeA.

Cuando Ma est en la categora II, se cumple que Xb = Xaba y por lo tanto (3) queda
reducida a la expresin :
Ga ,n = s 2 + n-1das 2
(4)
puesto que Pa es la matriz de proyeccin de una submatriz Xa de X, Da,n>0 para cualquier n

fijo, si Ma esta en la Categora I (modelo incorrecto).
194
Mtodos de Validacin Cruzada

Los mtodos de validacin cruzada seleccionan un modelo minimizando el estimador
de Ga,n para todo a. S el conjunto de datos es dividido en dos partes :
{(y i,x i ), ieS }
Conjunto de datos para la validacin del modelo. Donde S es un subconjunto

de {1,2,...,n} conteniendo nv enteros
{(yi,xi), ieSc }
Conjunto de datos para la construccin del modelo. Donde Sc es el complemento de S conteniendo nc enteros; siendo nv+nc=n.
El modelo Ma es ajustado usando los datos de construccin {(yi,xi), ieSc} y el error de

prediccin es evaluado usando los datos de validacin {(yi,xi), ieS}, tratadas como si fueran las
observaciones futuras.
Por lo tanto el error cuadrado de prediccin promedio queda expresado para el modelo
Ma y los conjuntos para la construccin y prediccin por :
2
2
nv-1 yS - ya,Sc = nv-1 ( Inv - Qa,S )-1( yS - Xa,S ba )
(5)
donde se tiene que :

ys
Es el vector nvx1 conteniendo las observaciones de y indexados por los ieS
Xa,S
Es la matriz nvxda conteniendo las filas de Xa indexados por los ieS
y ,S c
Es la prediccin de yS usando los datos de construccin y el mtodo de los mnimos

cuadrados bajo el modelo Ma
Qa,S
=Xa,S (XaXa)-1Xa,S
Es el estimador mnimo cuadrado de a usando todas las n observaciones.

Existen
( nnv ) diferentes subconjuntos S de tamao nv. Para cada modelo Ma, el esti-
mador de validacin cruzada de Ga,n es obtenido promediando las cantidades en (5) bajo todos
o algunos subconjuntos diferentes S de tamao nv. Por lo tanto, el modelo seleccionado por
validacin cruzada es el modelo que minimiza el error cuadrtico de prediccin promedio del
estimador de validacin cruzada bajo todo aeA.
195
El Mtodo CV(1)
El ms simple de los mtodos CV(nv) es cuando nv=1. En este caso el conjunto de
datos para la validacin del modelo es determinado por S={i} y teniendo en cuenta (5) el
estimador CV(1) para Ga,n resulta ser :
-1
1
GaCV,n = (1 - wia ) yi - xi'a ba
n i
)]
donde wia es el i-simo elemento de la diagonal de la matriz de proyeccin Pa.

El CV(1) es asintticamente inconsistente y tiende a seleccionar modelos de excesivos tamaos, a menos que el modelo ptimo sea uno con tamao p. Bajo las condiciones
siguientes :
i)
XX = O(n) y (XX)-1=O(n-1)
(6)
ii)
lim max wi = 0 para cualquier aeA

i n
(7)
Bajo las condiciones anteriores se cumple los siguiente :

Si Ma esta en la Categora I, entonces :
CV,n = ,n + O p (1)
(8)
.Si Ma esta en la Categora II, entonces :
CV,n = n 1e' e + 2 n 1 d 2 n 1e' P e + O p ( n 1 )

Puesto que n-1ee converge a s2,
(9)
CV,n es un estimador consistente para Ga,n. Pero esto
no asegura que la razn de error dada en (9) se desprecie cuando n . SHAO (1993), muestra
que el CV(1) es asintticamente incorrecto y es demasiado conservador en el sentido que
puede seleccionar un modelo de excesivo tamao a menos que el modelo ptimo sea de
tamao p.
El Mtodo CV(nv) Incompleto Balanceado (BICV(nv))
La deficiencia del CV(1) puede ser rectificada por el CV(nv) con nv grande. Como puede
notarse es imprctico e innecesario realizar la validacin cruzada para todas las
tes divisiones de las n observaciones, cuando nv>1.
( nnv ) diferen-
196
Sea B una coleccin de b subconjuntos de {1,2,...,n}, cada uno de un tamao nv. B es

seleccionado de acuerdo a las siguientes condiciones de balance :
a)
b)
Para todo i, 1 i n, que aparece en el mismo nmero de subconjuntos en B

Para todo par (i,j), 1 i<jn, aparece en el mismo nmero de subconjuntos en B.
El estimador de validacin cruzada Ga,n es entonces obtenido promediando las cantidades en (5) bajo todos los subconjuntos SeB. Este mtodo es denominado CV(nv) incompleto balanceado denotado por BICV(nv), porque B es en realidad un diseo de bloques
incompleto balanceado, donde cada subconjunto es tratado como un bloque y cada valor i
como un tratamiento. El tamao de repeticin bn es usualmente una funcin lineal de n;
esto es, b=O(n). Entonces el BICV(nv) selecciona un modelo por la minimizacin de :
1
BICV
=
y y ,S c
,n
n v b S B S
a eA
El siguiente Teorema cuya demostracin esta en SHAO (1993), muestra que el

BICV(nv) es asintticamente correcto en el sentido de seleccionar el modelo ptimo ; if
nc y nv/n 1,
Teorema 1. Suponga que (6) y (7) se cumple y adems se tiene :
lim max
s B
1
nv
x x
is
'
i
1
nc
x x
is
'
i
=0
(10)
suponga tambin que nv es seleccionado tal que :

nv/n 1 y nc=n-nv
(11)
Entonces se tienen las siguientes conclusiones :

a)
Si Ma esta en la Categora I, entonces existe un Rn0 tal que :
= n 1e' e + ,n + O p (1) + Rn
BICV
,n
b)
Si Ma esta en la Categora II, entonces
= n 1e' e + nc1 d 2 + O p ( nc1 )

BICV
,n
c)
(12)
(13)
Consecuentemente
lim P(el modelo seleccionado es M )=1
(14)
197
Este Teorema permite afirmar que el BICV(nv) es mejorado en relacin al CV(1) cuando
nv es seleccionado de acuerdo a (10).
Mtodo CV(nv) Monte Carlo (MCCV(nv))
El uso del BICV(nv) requiere un coleccin balanceada B de subconjuntos. Si B no
est disponible o es difcil de obtener, dos mtodos alternativos el CV(nv) Monte Carlo o el
CV(nv) Aproximacin pueden ser usados.
El mtodo CV(nv) Monte Carlo, es un mtodo fcil y simple que disea aleatoriamente
(con o sin reemplazo) una coleccin R de b subconjuntos de {1,2,...,n} que tienen tamao nv y
selecciona el modelo por minimizacin de :
1
MCCV
=
y y ,sc
,n
n v b sR s
(15)
En el MCCV(nv) la expresin (15) ser obtenido por divisin aleatoria de los datos b
veces y luego promediando el error cuadrado de prediccin bajo esta divisin. Este mtodo fue
considerado por PICARD y COOK (1984).
Similarmente el MCCV(nv) es mejor que el CV(1) como se muestra en el siguiente
Teorema que involucra la probabilidad conjunta correspondiente a la variable y y la seleccin de
subconjuntos Monte Carlo. La Prueba se presenta en SHAO (1993).
Teorema 2. Suponga que (6) y (7) se cumple y que nv es seleccionado tal que se cumple (11),
adems se tiene que :
max
sR
1
nv
x x
is
'
i
1
nc
x x
is
'
i
= O p (1)
(16)
donde R contiene b subconjuntos seleccionados aleatoriamente con b satisfaciendo la siguiente condicin que impone restricciones a b y nc.:
b-1nc-2 n2 0
Entonces se tiene las siguientes conclusiones :
a)
1
es' es + ,n + O p (1) + Rn
=
MCCV
,n
n v b sR
(18)
donde
es = y s X s
(17)
198
b)
Si Ma esta en la Categora II, entonces
1
=
MCCV
es' es + nc1 + nc1d 2 + O p ( nc1 )
,n
nv b
c)
(19)
Consecuentemente
Mtodo CV(nv) de Aproximacin (APCV(nv))

Un mtodo alternativo de BICV(nv) esta definido en base del trmino principal del mtodo
; por este motivo este llamado un mtodo de aproximacin. As, se puede definir el
BICV
,n
mtodo CV(nv) de Aproximacin denotado por APCV(nv) como :
1
y X
=
APCV
,n
n
n + nc
w ( y xi' )2
nc ( n 1) i i i
(20)
Bajo (6), (7) y (11), los resultados dados en (12), (13) y (14) darn similares resultados reemplazando
a)
APCV . As, tenemos que :

BICV
por
,n
,n
= n 1e' e + ,n + O p (1) + Rn
APCV
,n
b)
Si Ma esta en la Categora II, entonces :
n + nc
= n 1e' ( I n P )e +
APCV
[d 2 + O p (1)]
,n
nc ( n 1)
c)
(21)
Consecuentemente
(22)
199
RESULTADOS Y DISCUSION
Los datos son ajustados al siguiente modelo de regresin polinomial:
yi = b0 + b1 xi1 + b2 xi2 + b3 xi3 + b4 xi4+ b5 xi5 + ei
Y
Rendimiento en grano (Kg./Ha)
X1
Nitrgeno (N) : 0, 100 y 150 Kg./Ha
X3
N2
X4 P2
i=1, 2, ..., 54
X2 Fsforo (P) : 0, 50 y 100 Kg./Ha
X5 NxP
En el Cuadro No.1 se presenta el resultado para los 25-1 ecuaciones de regresin

ajustadas y los respectivos estimadores
,n para cada uno de los mtodos de validacin
cruzada propuestos. Para el Mtodo Incompleto Balanceado se consider valores para el

tamao del conjunto de prediccin nv=18, conjunto de datos de estimacin nc=36 y el nmero de subconjuntos b=3 ; estos valores fueron tomados de acuerdo a la distribucin de un
diseo incompleto balanceado con parmetro de balance igual a uno. Para el caso del
mtodo de Monte Carlo se consider el tamao del conjunto de datos de validacin nv=30,
nc=24 y b=50. Similarmente se han etiquetado con I o II a cada ecuacin de regresin ajustado, de acuerdo si pertenece a la categora I o Categora II respectivamente. As, los
modelos que estn etiquetados con I, son modelos incorrectos, puesto que les faltan alguna variable predictora. Mientras los modelos con etiqueta II, son modelos correctos pero
ineficientes, puesto que incluyen innecesariamente muchas variables predictoras. Por consiguientes, el modelo ptimo ser aquel que pertenece a la Cateoria II y que tenga el
menor nmero de variables predictoras.
Entonces, se apreciua en este cuadro, que los modelos seleccionados considerando
el menor valor estimado del error cuadrado de prediccin promedio
CV(1) selecciona el modelo (X1,X2,X3,X4,X5) con un valor de
el modelo (X2,X4) con un
,n , result que el mtodo
,n igual a 0.5633, el mtodo BICV(nv)
,n igual a 0.7873, el mtodo MCCV(nv) y el mtodo APCV(nv) el
modelo (X1,X5) con valores de
,n iguales a 0.6681 y 0.8358 respectivamente. Tambin como
era de esperar el mtodo CV(1) tiende a seleccionar modelos demasiados grandes, esto es
modelos innecesariamente con muchos regresores.
200
Cuadro No. 1 Estimaciones de

Modelos
Ajustados
X1
X2
X3
X4
X5
X1 X2
X1 X3
X1 X4
X1 X5
X2 X3
X2 X4
X2 X5
X3 X4
X3 X5
X4 X5
X1 X2 X3
X1 X2 X4
X1 X2 X5
X1 X3 X4
X1 X3 X5
X1 X4 X5
X2 X3 X4
X2 X3 X5
X2 X4 X5
X3 X4 X5
X1 X2 X3 X4
X1 X2 X3 X5
X1 X2 X4X5
X1 X3 X4 X5
X2 X3 X4 X5
X1 X2 X3 X4 X5
Ga,n para cada uno de los mtodos
Categoria
CMRes
CV(1)
BICV(nv)
MCCV(nv)
APCV(nv)
II
II
I
II
II
II
I
I
II
I
II
I
I
I
II
I
I
I
I
I
I
I
I
I
I
I
I
I
I
I
I
1.2292
2.7284
3.2061
1.4025
2.7369
0.7660
1.2531
1.2482
0.7747
2.7817
0.9427
2.7761
1.4298
2.7903
0.9514
0.7812
0.7761
0.7754
1.2729
0.7900
0.7849
0.9614
2.8314
0.9556
0.9702
0.7918
0.7910
0.7859
0.8007
0.9750
0.8021
1.0932
2.4430
2.8629
1.2435
2.4477
0.6442
1.0513
1.0515
0.6523
2.3499
0.7883
2.3386
1.1958
2.3544
0.7970
0.6190
0.6187
0.6120
1.0105
0.6268
0.6275
0.7574
2.2477
0.7531
0.7658
0.5941
0.5876
0.5872
0.6025
0.7230
0.5633
1.3611
2.3980
2.9036
1.2619
2.4496
0.8711
1.3907
1.3902
0.9322
2.4276
0.7873
2.4552
1.2915
2.4792
0.8304
0.9007
0.9212
1.0616
1.4198
0.9618
0.9870
0.8169
2.4848
0.9617
0.8600
0.9508
1.0912
1.1100
1.0166
0.9913
1.1396
1.1673
3.1683
3.8772
1.2450
3.1755
0.6734
1.2611
1.6743
0.6681
3.3032
0.7685
3.1810
1.3298
3.3168
0.7296
0.6837
0.7552
0.6697
1.8931
0.6721
0.7794
0.7673
3.3332
0.7619
0.7285
0.8089
0.6757
0.7587
0.8241
0.7606
0.8023
1.3014
2.8671
3.3786
1.4900
2.8797
0.8277
1.3570
1.3456
0.8358
2.9908
1.0246
2.9929
1.5535
3.0038
1.0320
0.8616
0.8508
0.8584
1.4010
0.8700
0.8580
1.0664
3.1163
1.0596
1.0742
0.8845
0.8920
0.8813
0.8921
1.1011
0.9147
As mismo, con la finalidad de evaluar el comportamiento del mtodo Monte Carlo,

se muestran en los Cuadros No. 2, 3 y 4; las correspondientes estimaciones
,n y
considerando diferentes valores del nmero de subconjuntos bs (b=10, 30 y 50) y para

cinco valores del tamao del conjunto de validacin( nv=10, 20, 30 y 40).
El Cuadro No. 2 muestra las estimaciones para
,n , para b=10 y para diferentes
tamaos del conjunto de validacin nv. Se observa que el modelo (X1,X2) es seleccionado
201
en los diferentes valores de nv, y en segundo lugar el modelo (X1,X5). El Grfico No.1 permite
observar lo descrito anteriormente, y adems evidenciar el comportamiento esperado por
el mtodo MCCV(nv), esto es la disminucin de las estimaciones del error de prediccin
,n , cuando se incrementa el tamao del conjunto de validacin nv.

Cuadro No.2 Estimaciones de Ga ,n para el mtodo MCCV(nv) con diferentes
valores de nv y para el valor b=10
Modelos
Ajustados
Categora
nv=10
nv=20
nv=30
nv=40
X1
X2
X3
X4
X5
X1X2
X1X3
X1X4
X1X5
X2X3
X2X4
X2X5
X3X4
X3X5
X4X5
X1X2X3
X1X2X4
X1X2X5
X1X3X4
X1X3X5
X1X4X5
X2X3X4
X2X3X5
X2X4X5
X3X4X5
X1X2X3X4
X1X2X3X5
X1X2X4X5
X1X3X4X5
X2X3X4X5
X1X2X3X4X5
II
II
I
II
II
II
I
I
II
I
II
I
I
I
II
I
I
I
I
I
I
I
I
I
I
I
I
I
I
I
I
2.5455
2.2173
2.8399
2.873
2.2949
1.4456
2.5763
2.5472
1.5835
2.4282
1.6702
2.2544
2.9344
2.4562
1.8344
1.4674
1.4225
1.6063
2.5827
1.6215
1.5653
1.715
2.4324
1.9264
1.9015
1.4428
1.6574
1.5839
1.6037
2.0232
1.6363
1.1657
3.6522
3.9057
1.3255
3.8597
0.7242
1.185
1.1749
0.8229
3.9304
0.8822
3.917
1.3579
4.0832
0.9762
0.7352
0.7576
0.8178
1.1878
0.8271
0.8693
0.8877
4.0975
0.9684
0.9767
0.7806
0.8206
0.8673
0.8825
0.9689
0.8774
1.5065
2.896
3.6781
1.6811
2.8827
0.8913
1.5967
1.5029
0.9466
2.9726
1.0546
2.8959
1.7093
2.9668
1.0823
0.9224
0.896
1.0008
1.6113
0.9568
0.9555
1.0565
2.9573
1.1393
1.0819
0.9441
1.0043
1.0014
0.9758
1.1426
1.0119
1.3828
2.675
3.3608
1.6668
2.6133
0.732
1.4709
1.4169
0.7774
2.744
0.9204
2.7118
1.8028
2.6712
0.9304
0.7687
0.761
0.7446
1.5958
0.8284
0.8157
1.0189
2.8042
0.9118
1.0393
0.7651
0.7884
0.7849
0.8302
1.0166
0.7913
202
Grfico No.1 Estimaciones de
Ga ,n para el mtodo MCCV(nv) con diferentes
4.5
4
3.5
Estimaciones
Nv=10
Nv=20
2.5
Nv=30
Nv=40
1.5
1
0.5
0
X1
X2
X4
X5
X1X2
X1X5
X2X4
X4X5
Modelos
En el Cuadro No. 3 se considera cuando el nmero de subconjuntos a formarse b=30,

el modelo seleccionado tambin es (X1,X2) para los diferentes valores del conjunto de validacin
nv . El Grfico No. 2 muestra que el comportamiento de las estimaciones de
,n cuyos
valores son similares para los diferentes valores de nv,

El Cuadros No. 4 seleccionan tambin el modelo (X1,X2). El Grficos No. 3 presentan
las estimaciones de los errores de prediccin para valores b=50, notndose una tendencia a
aumentar los estimadores de
,n , conforme se incrementan los valores de nv aumentan ; esto
se debe al aumento del nmero de subconjuntos que se estn tomando.

El APCV(nv) es consistente y requiere menos clculos computacionales que cualquiera de los mtodos el BICV(nv) o el MCCV(nv). Sin embargo, a diferencia del BICV(nv) y el
MCCV(nv), el APCV(nv) depende de la naturaleza de los modelos lineales, y sus extensiones
no se ajustan fcilmente a otros modelos.
203
Ga ,n para el mtodo MCCV(n v) con diferentes
Cuadro No. 3 Estimaciones de
valores de n v y para el valor b=30

Modelos
Ajustados
Categora
n v=10
n v=20
n v=30
n v =40
II
II
I
II
II
II
I
I
II
I
II
I
I
I
II
I
I
I
I
I
I
I
I
I
I
I
I
I
I
I
I
1.5566
3.315
4.9046
1.9358
3.3572
0.869
1.8986
1.5557
0.8697
3.4929
1.0388
3.3149
2.3909
3.5214
1.0299
1.0056
0.8563
0.8565
1.9139
0.9923
0.859
1.2786
3.4812
1.023
1.2548
0.9851
0.9868
0.8443
0.9712
1.2603
0.9654
1.8701
3.0208
3.8056
2.1069
3.0512
1.2357
1.8968
1.8641
1.2821
3.0459
1.4272
3.0274
2.1849
3.0712
1.4684
1.2506
1.2258
1.2768
1.8929
1.2905
1.2727
1.488
3.0565
1.4669
1.5178
1.2351
1.2836
1.2652
1.2769
1.5117
1.2685
1.3698
3.1192
3.9888
1.5985
3.1457
0.8251
1.58
1.38
0.8981
3.3044
1.0777
3.2119
1.8101
3.2914
1.1747
0.8876
0.8283
0.9495
1.5879
0.9358
0.9201
1.1475
3.3642
1.3003
1.2104
0.8903
0.9908
0.9936
0.9553
1.3396
1.0319
1.2364
2.6695
3.3919
1.4654
2.638
0.9199
1.2652
1.8735
0.8951
2.9563
1.1134
2.8781
1.538
2.9647
1.095
0.9318
1.0895
0.9197
2.3079
0.9188
1.0334
1.1739
3.0593
1.1261
1.1788
1.2654
0.9291
1.1142
1.2264
1.1778
1.2839
X1
X2
X3
X4
X5
X 1X 2
X 1X 3
X 1X 4
X 1X 5
X 2X 3
X 2X 4
X 2X 5
X 3X 4
X 3X 5
X 4X 5
X 1X 2X 3
X 1X 2X 4
X 1X 2X 5
X 1X 3X 4
X 1X 3X 5
X 1X 4X 5
X 2X 3X 4
X 2X 3X 5
X 2X 4X 5
X 3X 4X 5
X 1 X 2 X 3X 4
X 1 X 2 X 3X 5
X 1 X 2 X 4X 5
X 1 X 3 X 4X 5
X 2 X 3 X 4X 5
X 1 X 2 X 3X 4X 5
G rfico N o. 2 E stim aciones d e
Ga ,n para el m todo M C C V(n v ) con diferentes
valores de n v y para el valor b=30

4
3.5
Estimaciones
3
2.5
N v=10
N v=30
N v=20
N v=40
1.5
1
0.5
0
X1
X2
X4
X5
X 1X 2
M odelos
X 1X 5
X 2X 4
X 4X 5
204
Cuadro No. 4 Estimaciones de Ga,n para el mtodo MCCV(nv) con diferentes

Modelos
Ajustados
X1
X2
X3
X4
X5
X1X2
X1X3
X1X4
X1X5
X2X3
X2X4
X2X5
X3X4
X3X5
X4X5
X1X2X3
X1X2X4
X1X2X5
X1X3X4
X1X3X5
X1X4X5
X2X3X4
X2X3X5
X2X4X5
X3X4X5
X1X2X3X4
X1X2X3X5
X1X2X4X5
X1X3X4X5
X2X3X4X5
X1X2X3X4X5
Categora
nv=10
nv=20
nv=30
nv=40
II
II
I
II
II
II
I
I
II
I
II
I
I
I
II
I
I
I
I
I
I
I
I
I
I
I
I
I
I
I
I
0.6852
1.9806
2.5784
0.6252
2.1934
0.7456
0.7905
0.7704
0.7644
1.9835
0.6388
2.2109
0.7128
2.2110
0.6564
0.7836
0.8141
0.7523
0.8804
0.8481
0.8484
0.6665
2.2420
0.6438
0.7241
0.8550
0.8116
0.8283
0.9363
0.6891
0.8933
1.6463
2.8735
3.1646
1.7838
2.9908
1.0068
1.6525
1.6440
1.1123
2.8721
1.1128
2.9915
1.7990
2.9897
1.1942
1.0116
1.0342
1.2253
1.6482
1.1157
1.1620
1.1250
2.9903
1.2615
1.2043
1.0353
1.2273
1.2981
1.1615
1.2700
1.2959
1.4791
2.6081
3.2556
1.6381
2.6908
0.9744
1.5267
1.4713
0.9894
2.6186
1.1402
2.8378
1.7093
2.6929
1.1504
0.9774
0.9670
1.0345
1.5175
0.9996
0.9826
1.1389
2.8382
1.1743
1.1530
0.9707
1.0476
1.0338
0.9941
1.1781
1.0492
1.3727
2.7237
4.1281
1.5299
2.8679
1.0027
1.6378
1.3660
1.0739
2.9685
1.3612
3.0081
1.6017
2.9439
1.3486
1.0396
1.0723
1.1103
1.8668
1.1863
1.0850
2.0964
3.0766
1.3467
2.1229
1.4158
1.2199
1.1096
1.3630
2.1623
1.3405
205
Grfico No. 3 Estimaciones de
Ga,n para el mtodo MCCV(nv) con diferentes

3.5000
Estimaciones
3.0000
2.5000
Nv=10
2.0000
Nv=20
Nv=30
1.5000
Nv=40
1.0000
0.5000
0.0000
X1
X2
X4
X5
X1X2
Modelos
X1X5
X2X4
X4X5
206
CONCLUSIONES y RECOMENDACIONES
Las conclusiones del presente trabajo de investigacin son las siguientes :
1.
La validacin cruzada permite seleccionar modelos de regresin de a cuerdo a su mejor

capacidad predictiva. La validacin cruzada de 1-exclusin (nv=1) es usada generalmente, como un mtodo de seleccionar y validar modelos de regresin, sin embargo dicho
mtodo es ineficiente en cuanto que selecciona modelos con demasiados regresores
innecesariamente. La validacin de modelos de regresin que rectifica la deficiencia
presentada cuando nv =1.
2.
Las aplicaciones que se realizaron confirman los resultados tericos, en cuanto al

comportamiento que tiene el mtodo CV(1). Este mtodo tiende a seleccionar modelos
con demasiados regresores. Esto es evidenciado en los Cuadros N 2 y Cuadro N 4,
que permiten identificar los modelos en la Categora I y en la Categora II.
3.
Los mtodos de validacin cruzada CV(nv) rectifican la deficiencia del CV(1). El mtodo de Monte Carlo es el que mejor comportamiento presenta para validar y seleccio
nar modelos de regresin. Adems el ms sencillo para conformar el conjunto de
validacin y el conjunto de estimacin. El mtodo de Incompleto Balanceado, esta
influenciado por la tcnica de la distribucin de los datos para formar los conjuntos de
datos de validacin y el conjunto de datos de estimacin.
4.
Los resultados de las aplicaciones confirman el comportamiento esperado terico de los

mtodos de validacin propuestos en el presente trabajo de investigacin. De las
corridas efectuadas con el programa desarrollado para estos mtodos, se evidencia que
existe una disminucin de las estimaciones del error de prediccin cuando se
incrementa el tamao del conjunto de validacin n v. Este comportamiento es
n
msevidente cuando se usa un nmero reducido del total de CnV , posibles subconjuntos
que se forman para b igual a 10,30 y 50.
5.
Se recomienda usar estos mtodos cuando el propsito del modelo es la prediccin de

nuevos datos y usar el mtodo de Monte Carlo, en cuanto que facilita mejor la formacin
del conjunto de validacin.
207
BIBLIOGRAFIA
AITKIN M. A. (1974) Simultaneous Inference and choice of Variable Subsets, Technometrics,
Vol. 16, Pag. 221-227.
ALLEN D.M. (1974) The Relationship Between Variable Selection an Data Augmentation and
a Method Prediction, Technometrics, Vol. 36, Pag. 125-127.
(1971), The Prediction Sum of Squares As a Criterion For Selecting
Predictor Variables, Technical Report No. 23, Department of Statistics,
University of Kentucky.
BERK K.N. (1978) Comparing Subset Regression Procedures, Technometrics, Vol. 20, Pag.
1-6.
CADY F.B. AND ALLEN D.M. (1972) Combining Experiments to Predict Future Yield Data,
Agronomy Journal, Vol. 64, Pag. 211-214.
DRAPER N.R. AND SMITH A. (1981) Applied Regression Analysis, 2da. Ed. Wiley
New York.
EDWARD J. B. (1969) The Relation Between the F-test and R2, The American Statistics, Vol.
23, Pag. 28-32.
EFRON B. (1983) Estimating the Error Rate of a Prediction Rule : Improvement on CrossValidation, Journal of the American Statistical Association-JASA,Vol. 78, Pag.
316-331.
(1986) How Biased Is the Apparent Error Rate of a Prediction Rule,
Journal of the American Statistical Association-JASA, Vol. 81 Pag.
461-470.
FURNIVAL G. M. (1971) All Possible Regression With Less Computation, Technometrics,
Vol. 13, Pag. 403-408.
FURNIVAL G. M. AND WILSON R.W.M. (1974) Regression By Leaps and Bounds
Technometrics, Vol. 16, Pag. 499-511.
GARSIDE M.J. (1965) The Best Subset in Multiple Regression Analysis, Applied Statistics
Vol. 14, Pag. 196-200.
GARSIDE M.J. (1971) Some Computational Procedures For the Best Subset Problen, Applied
Statistics, Vol. 20, Pag. 8-15.
GEISSER S. (1975) The predictive Sample Reuse Method With Applications, Journal of
the American Statistical Association-JASA, Vol. 70, Pag. 320-328.
208
HAITOVSKI Y. (1969 A Note on the Maximization of R2 Ajust. , The American Statistics, Vol. 23,
Pag. 20-21.
HELMS R. W. (1974) The Average Estimated Variance Criterion For the Seleccin of Variables
Problen in General Linear Models, Technometrics, Vol. 16, Pag. 261-273.
HERBERG G. AND TSUKANOV S. (1986) A Note on Modifications of the Jacnife Criterion on
Model Selection Utilitas Mathematics, Vol. 29, Pag. 209-216.
HILL R. C., JUDGE G.G. AND FOMBY T.B. (1978) On Testing The Adequacy of a Regression
Model, Technometrics, Vol. 20, Pag. 491-494.
HOCKING R.R. (1972) Criteria For Selection of a Subset Regression :Which One Should Be
Used, Technometrics, Vol. 14, Pag. 967-970.
HOCKING R.R. (1974) Misspecification in Regression, American Statistics, Vol. 28,
Pag. 39-40.
HOCKING R.R. (1976) The Analysis and Selection of Variables in Linear Regression,
Biomatrics, Vol. 32, Pag. 1-49.
KERNNARD R.L. AND STONE L. (1969) Computer Aided Design of Experiments,
Technometrics Vol. 11, Pag. 137-148.
LA MOTTE L.R. (1972) The SELECT routines : A Program for Identifyng Best Subset
Regression, Applicated Statistics, Vol. 21, Pag. 92-93.
LARSEN W.A. AND MC CLEARY (1972) The Use of Partial Residual Plots in Regression
Analysis, Technometrics, Vol. 14, Pag. 781-790.
LI K.C. (1987) Asymptotic Optimality for CP, CL, Cross-Validation and Generakized CrossValidation : Discrete Index Set, The Annals Statistics, Vol. 15, Pag. 958975.
MALLOWS C.L. (1973) Some Comments on Cp, Technometrics, Vol. 15, Pag. 661-675.
McCARTHY P.J. (1976) The Use of Balanced Half-sample Replication in Cross-Validation
Studies, Journal of the American Statistical Association-JASA, Vol. 71,
Pag. 596-604
MARQUARDT D.W. and SNEE R.D. (1975) Ridge Regression in Practice, American Statistical,
Vol. 29, Pag. 3-20.
MORGAN J.A. AND TATAR J.F. (1972) Calculationof The Residual Sum of Squares for all
Possible Regressions, Technometrics, Vol. 14, Pag. 317-325.
209
MONTGOMERY D. (1982) Introduction to Linear Regression Analysis, John Wiley &

Sons, Inc.
NARULA S. AND RAMBERG J.S. (1972) Letter to the Editor, American Statistics, Vol. 26,
Pag. 42.
NETER J. AND WASSERMAN W. (1974) Applied Linear Statistical Models, Richard D.
Irwin, INC.
PICARD R.R. AND COOK R.D. (1984) Croos-Validation of Regression Models, Journal of the
American Statistical Association-JASA, V ol. 79, pag. 575-583.
RAO P. (1971) Some notes On Misspecification In Regressin, American Statistics, Vol. 25,
Pag. 37-39.
SCHATZOFF M., TSAO R. AND FIENBERG S. (1968) Efficient Calculation of All Possibles
Regressions, Technometrics, Vol. 10, Pag. 87-104.
SEBER G.A.F. (1977) Linear Regression Analysis, John Wiley & Sons, Inc.
SHAO JUN (1993) Linear Model Selection by Croos-Validation, Journal of the American
Statistical Association-JASA, Vol. 88, Pag. 486-494.
SNEE RONALD D. (1977) Validation of Regression Models : Methods and Example,
Technometrics, Vol. 19, Pag. 415-428.
STONE M. (1974) Croos-Validation Choice and Assessment of Statistical Predictions, Journal
of the Royal Statistical Society, Serie B, Vol. 36, Pag. 111-147.
(1977) Asymptotics For and Against Cross-Validation, Biomatrics, Vol. 64,

Pag. 29-38.
WAHBA G. and WOLD S. (1970) A Completely Automatic French Curve Fitting Spline
Functions by Cross-Validation, Communications in Statistics, Vol. 4 Pag.
1-17.
ZHANG P. (1991) Model Selection Via Multifold Cross-Validation, Pre-print.

Valiadcon Cruzada Metodos Lineales

Diunggah oleh

Informasi Dokumen

Hak Cipta

Format Tersedia

Bagikan dokumen Ini

Bagikan atau Tanam Dokumen

Opsi Berbagi

Apakah menurut Anda dokumen ini bermanfaat?

Apakah konten ini tidak pantas?

Hak Cipta:

Format Tersedia

Valiadcon Cruzada Metodos Lineales

Diunggah oleh

Hak Cipta:

Format Tersedia

185

MTODOS DE VALIDACIN CRUZADA PARA MODELOS DE REGRESIN LINEAL

Ing. Magister en Estadstica. Profesor del Dpto. de Estadstica e Informtica. UNALM

Anales Cientficos UNALM

CnnV subconjuntos de datos tamao nv que

pueden formarse para la validacin del modelo.

MTODOS DE VALIDACIN CRUZADA PARA MODELOS DE REGRESIN LINEAL

La comparacin de los coeficientes estimados

j y los valores predecidos yi obteni-

Anales Cientficos UNALM

KERNNARD y STONE (1969), tienen desarrollado el algoritmo CADEX que permite

MTODOS DE VALIDACIN CRUZADA PARA MODELOS DE REGRESIN LINEAL

conjunto de datos de prediccin. As, la divisin aleatoria de los datos no necesariamente

usando solamente una

Anales Cientficos UNALM

tes maneras de dividir el conjunto de datos, aumentando la complejidad computacional

MTODOS DE VALIDACIN CRUZADA PARA MODELOS DE REGRESIN LINEAL

Modelo de Regresin para la Validacin Cruzada

donde y es la variable respuesta, x es un p-vector de variables predictoras, es un p vector de

Subconjunto de tamao da ,de enteros positivos distintos menores o iguales a p

Es el vector dax1conteniendo los componentes de , indexado por los enteros en a

Es el vector dax1 conteniendo los componentes de x, indexado por los enteros en a

Para un a dado, el submodelo que se define con da regresores no es necesariamente

E y i / x i no es siempre igual a x i' . Si ba contiene

todos los componentes diferentes de cero, entonces

x i' = x i' para cualquier xi dado que

Anales Cientficos UNALM

Los 2 p-1 posibles modelos diferentes de la forma (2) y considerando a un

Los modelos a que le falta al menos un componente de diferente

bbaa = ( X a' X a ) -1 X a' y

y=(y1, y 2, ..., yn)

Es un vector nx1 de observaciones de la variable respuesta

Error Cuadrtico de Prediccin Promedio

MTODOS DE VALIDACIN CRUZADA PARA MODELOS DE REGRESIN LINEAL

y se define el esperado incondicional del error cuadrtico de prediccin denotado

Pa = Xa ( Xa' Xa )-1 Xa'

Pa es la matriz de proyeccin bajo el modelo Ma. Se observa que

consiste de dos componentes, la variabilidad de las observaciones futuras s2 y el error en el

bajo todo aeA.

puesto que Pa es la matriz de proyeccin de una submatriz Xa de X, Da,n>0 para cualquier n

Anales Cientficos UNALM

Mtodos de Validacin Cruzada

Conjunto de datos para la validacin del modelo. Donde S es un subconjunto

El modelo Ma es ajustado usando los datos de construccin {(yi,xi), ieSc} y el error de

donde se tiene que :

Es el vector nvx1 conteniendo las observaciones de y indexados por los ieS

Es la matriz nvxda conteniendo las filas de Xa indexados por los ieS

Es la prediccin de yS usando los datos de construccin y el mtodo de los mnimos

Es el estimador mnimo cuadrado de a usando todas las n observaciones.

MTODOS DE VALIDACIN CRUZADA PARA MODELOS DE REGRESIN LINEAL

donde wia es el i-simo elemento de la diagonal de la matriz de proyeccin Pa.

lim max wi = 0 para cualquier aeA

Bajo las condiciones anteriores se cumple los siguiente :

.Si Ma esta en la Categora II, entonces :

CV,n = n 1e' e + 2 n 1 d 2 n 1e' P e + O p ( n 1 )

CV,n es un estimador consistente para Ga,n. Pero esto

Anales Cientficos UNALM

Sea B una coleccin de b subconjuntos de {1,2,...,n}, cada uno de un tamao nv. B es

Para todo i, 1 i n, que aparece en el mismo nmero de subconjuntos en B

El siguiente Teorema cuya demostracin esta en SHAO (1993), muestra que el

suponga tambin que nv es seleccionado tal que :

Entonces se tienen las siguientes conclusiones :

Si Ma esta en la Categora I, entonces existe un Rn0 tal que :

Si Ma esta en la Categora II, entonces