Anda di halaman 1dari 21

Introduccin a la regresin de

mnimos cuadrados parciales


(PLS)
Aplicaciones:

Principalmente en:
Qumica analtica (prediccin de
propiedades de materiales a partir
de datos instrumentales)
Control de procesos industriales
Dos casos de regresin en sistemas lineales:

Dado:
y = Xb + f
Consideremos dos
casos:
La regresin de mnimos cuadrados parciales (PLS) es el caballo
de batalla de la quimiometra. Es un mtodo relacionado con el
anlisis de componentes principales (PCA). Estos mtodos tienen
ventajas intrnsecas cuando se le compara con mtodos
univariados. Todas las variables relevantes son incluidas en el
modelo PLS. En lo que sigue, se har referencia al llamado modelo
PLS1, donde se considera una variable dependiente, representada
por el vector y. Cuando se consideran varias variables
dependientes, el modelo es denominado PLS2, y las variables se
representan por una matriz Y. La suposicin bsica de todos estos
modelos es que el sistema o proceso estudiado depende de un
nmero pequeo de variables latentes (V.L.). Este concepto es
similar al de componentes principales. Las variables latentes son
estimadas como combinaciones lineales de las variables
observadas.
Variables latentes
En conjuntos de datos con muchas variables, en muchos casos grupos
de stas estn relacionadas. Una razn es que ms de una variable est
influenciada por los mismos factores que gobiernan el comportamiento
del sistema. Cuando existen variables dependientes e independientes,
es posible determinar , en muchos sistemas, un nmero pequeo de
variables latentes que permiten predecir los valores de las variables
independientes. La disponibilidad de instrumentacin permite medir
muchas variables en un sistema fsico.
En esos casos, es posible aprovechar la redundancia existente y
simplificar el problema reemplazando un grupo de variables con unas
pocas nuevas variables. Esto es posible hacerlo cuantitativamente y de
manera precisa con el la regresin de mnimos cuadrados parciales
(PLS).
Variables latentes
Considrese una descomposicin en matrices unitarias
(de la matriz centrada o centrada y escalada):

La matriz X es descompuesta en scores (t) y loadings(p). La


matriz T contiene un nmero a de scores, con a <= rango(X)
El algoritmo NIPALS para PLS1
(calibracin)
X y el vector y son previamente
centrados o centrados y escalados a
varianza 1
f0 = y; E0 = X Aqu se maximiza la
Para la iteracin h (con h = 1, 2,....a, donde covarianza entre t y y
a es el nmero de variables latentes):
(1) wTh = fTh-1Eh-1 / fTh-1fh-1 La relacin entre y y T
(2) wTh = wTh /||wTh|| (normalizacin) es: y = Tb + f
(3) th = Eh-1wh / wThwh donde b se calcula de
(4) pTh = tThEh-1 / tThth modo de minimizar f, el
(5) th = th ||pTh|| vector error en esta
(6) wTh = wTh ||pTh|| expresin.
(7) pTh = pTh / ||pTh|| (normalizacin)
(8) bh = fThth / tThth Como se observa, este
(9) Eh = Eh-1 thpTh algoritmo produce una
(Clculo de los residuales de X) deflacin de la matriz X y
(10) fh = fh-1 bhth el vector y.
(Clculo de los residuales de y)
(11) h = h + 1
De aqu se vuelve al paso (1)
El algoritmo PLS1 (prediccin)

Los vectores wT, pT, y b son necesarios


para predecir la propiedad dependiente y
para un nuevo conjunto de muestras. En
ese caso, se determina experimentalmente
X2 y se calcula (utilizando los vectores w
y p) la matriz T2. El vector y es estimado
usando los coeficientes b previamente
calculados durante la calibracin:
ypred = T2*b
Algoritmo de prediccin

Dado un nuevo conjunto de muestras, la matriz X2


es previamente centrada o centrada y escalada,
utilizando los parmetros de promedio y desviacin
estndar calculados en la etapa de calibracin.
Asimismo, en los siguientes pasos, se usan los valores
de w, p, y b encontrados en la calibracin.
E0 = X2
Para la iteracin h (con h = 1, 2,....a):
(1) th = Eh1wh / whwh
(2) Eh = Eh1 thph
(3) h = h + 1
De aqu se vuelve al paso (1)
El vector y es estimado como sigue:
y = bhth = T2*b
donde bh es un escalar, y h = 1, 2,...., a.
En este caso, se consideran un nmero a de variables latentes.
Propiedades de las Variables
Latentes
Los vectores y matrices calculados por este
algoritmo tienen las siguientes propiedades:
Los t (scores) son vectores ortogonales entre s, y
tienen promedio cero.
Los p (weights) tienen magnitud unidad.
Los w (weights) son ortogonales entre s.
El residual f es ortogonal a los t previos.
El nmero mximo de variables latentes no excede el
rango de la matriz X .
La aproximacin obtenida cuando se consideran
todas las variables latentes es idntica a la solucin
por la matriz seudo-inversa.
Modelo de regresin
Es posible representar el modelo de regresin con un vector :
Dado:
R = W(PTW)1
La matriz de scores T puede ser calculada por la siguiente ecuacin:
T = XR
Por consiguiente, el modelo final de regresin se puede expresar por:
ycalc = XRb = XPLS
donde PLS = Rb. Adems, si se toman en cuenta todas las variables
latentes, los coeficientes PLS son idnticos a los coeficientes del
modelo de regresin lineal mltiple MLR (incluyendo todas las
variables), cuando ste sea aplicable:
MLR = (XTX)1XTY
Modelo de regresin (cont.)
Hay dos formas equivalentes de predecir los valores de las variables
independientes:

Aqu se
consideran a
variables
latentes
Ejemplo: prediccin de aromticos totales
en gasolina de aviacin (datos del SWRI)
Modelo PLS1
creado a partir
del conjunto de
muestras de
referencia

Se determina el
nmero de V.L.
con el conjunto de
muestras de
prueba
Valores por
Espectros de NIR mtodo de
referencia
Ejemplo: prediccin de aromticos
totales en gasolina de aviacin

Espectros
derivados,
infrarrojo
cercano (NIR)
Ejemplo: prediccin de aromticos
totales en gasolina de aviacin
Varianza capturada por el modelo PLS1
(entrenamiento)
Ejemplo: prediccin de aromticos
totales en gasolina de aviacin
Otra informacin importante:

Desviacin estndar de los datos de prueba (ytest):


ytestdesv = 6.0487

Rms del error de prediccin:


errorpred = 0.6307

Relacin entre los anteriores:


cociente = 9.5911

Nmero ptimo de variables latentes:


ind = 11

El tiempo de ejecucin (en seg.):


TTPLS = 3.9844
Ejemplo: prediccin de aromticos
totales en gasolina de aviacin

El nmero ptimo de V.L. es 11


Ejemplo: prediccin de aromticos
totales en gasolina de aviacin
Ejemplo: prediccin de aromticos
totales en gasolina de aviacin

Para nmero ptimo de V.L. (11)


Ejemplo: prediccin de aromticos
totales en gasolina de aviacin

ytestdesv = 6.0487

errorpred = 0.6307

cociente = 9.5911

Para nmero ptimo de V.L. (11)

Anda mungkin juga menyukai