Anda di halaman 1dari 19

APRENDIZAJE WIDROW- HOFF

Objetivo:
Aplicar los principios de aprendizaje del rendimiento a redes lineales de una sola
capa.

El aprendizaje Widrow-Hoff es una aproximacin del algoritmo del Decenso por
gradiente, en el cual el ndice de rendimiento es el error cuadrtico medio.

Importancia del algoritmo:
Se usa ampliamente en aplicaciones de procesamiento de seales.
Es el precursor del algoritmo Backpropagation para redes multicapas.

En 1960, Bernard Widrow y Marcian Hoff, introdujeron la red ADALINE
(Adaptive Linear Neuron) y una regla de aprendizaje que llamaron LMS (Least
mean square).

La adaline es similar al perceptrn, slo que su funcin de transferencia es lineal,
en lugar del escaln.
Igual que el perceptrn, slo puede resolver problemas linealmente separables.
El algoritmo LMS es ms poderoso que la regla de aprendizaje del perceptrn.
La regla de aprendizaje del perceptrn garantiza convergencia a una solucin
que clasifica correctamente los patrones de entrenamiento. Esa red es sensible al
ruido, debido a que los patrones con frecuencia estn muy cerca de las fronteras
de decisin.
El algoritmo LMS minimiza el error cuadrtico medio, desplaza las fronteras de
decisin lejos de los patrones de entrenamiento.
El algoritmo LMS tiene ms aplicaciones prcticas que la regla de aprendizaje
del perceptrn, especialmente en el procesamiento digital de seales, como por
ejemplo, para cancelar echo en lneas telefnicas de larga distancia.
La aplicacin de este algoritmo a redes multicapas no prosper por lo que
Widrow se dedic a trabajar en el campo del procesamiento digital adaptativo, y
en 1980 comenz su investigacin con la aplicacin de las Redes al control
adaptativo, usando backpropagation temporal, descendiente del LMS.
La Red ADALINE:
W
b
+
a n
p
1
SxR
Sx1
Sx1
S
Sx1
Rx1
La diferencia con el perceptrn, es que la salida est dada por:
a = purelin(Wp+b)

El i-simo elemento del vector de salida:
a
i
purelin n
i
( ) purelin w
T
i
p b
i
+ ( ) w
T
i
p b
i
+ = = =
Con

w
i
w
i 1 ,
w
i 2 ,
w
i R ,
=
Una adaline de dos entradas:
W
b
a n
p
1
1x2
1x1
1x1
1
1x1
2x1
+
a purelin n ( ) purelin w
T
1
p b + ( ) w
T
1
p b + = = =
a w
T
1
p b + w
1 1 ,
p
1
w
1 2 ,
p
2
b + + = =
As como el perceptrn tiene una frontera de decisin, determinada por los
vectores de entrada para los cuales la entrada de red n es cero, la frontera de
decisin de la adaline tambin se encuentra con: n = a = 0
La adaline se puede usar para clasificar objetos en dos categoras linealmente
separables, por lo tanto tiene las mismas limitaciones que el perceptrn.
p
1
p
2
P
1
= -b/w
1,1
P
2
=-b/w
1,2
n = 0
1w
a < 0
a > 0
Error cuadrtico medio
El algoritmo LMS es del tipo de entrenamiento supervisado, en el cual la regla
de aprendizaje cuenta con un conjunto de patrones de ejemplos del
comportamiento deseado de la red:
p
1
t
1
{ , } p
2
t
2
{ , } p
Q
t
Q
{ , } , , ,
Cada entrada aplicada a la red se compara con su salida deseada.
El algoritmo LMS ajusta los pesos y los sesgos de la adaline con el fin de
minimizar el error cuadrtico medio. El error es la diferencia entre la salida
deseada y la salida de la red. Ese es el ndice de rendimiento que se evala.
Sea x el vector de los parmetros que se ajustarn:
x
w
1
b
=
Y z el vector de entradas
z
p
1
=
La salida de la red ser:
a w
T
1
p b + = a x
T
z =
El error cuadrtico medio para la red est dado por:
F x ( ) E e
2
] [ = E t a ( )
2
] [ E t x
T
z ( )
2
] [ = =
El valor esperado del error se calcula sobre todos los pares entradas/salidas
deseadas.
Expandiendo la expresin anterior:
F x ( ) E t
2
2tx
T
z x
T
zz
T
x + ] [ =
F x ( ) E t
2
] 2x
T
E tz [ ] x
T
E zz
T
[ ]x + [ =
F x ( ) c 2 x
T
h x
T
Rx + =
c E t
2
] [ = h E tz [ ] = R E zz
T
[ ] =
d 2h = A 2R =
El vector h representa la correlacin cruzada entre el vector de entrada y su
salida deseada, R representa la matriz de correlacin de entrada. Los elementos
diagonales de esta matriz son iguales a los cuadrados medios de los elementos
de los vectores de entrada (para cada vector, no para todos a la vez).

Si se hace:
De la forma general de la funcin cuadrtica vemos que
el error cuadrtico medio para la adaline es una funcin cuadrtica .
F x ( ) c d
T
x
1
2
--- x
T
Ax + + =
En este caso el Hessiano es dos veces la matriz de correlacin R. Todas las
matrices de correlacin son definidas positivas o semidefinidas positivas, no
tienen autovalores negativos.
Si la matriz de autocorrelacin tiene solo autovalores positivos, el ndice de
rendimiento tendr un mnimo global nico, y si tiene algn autovalor de valor
cero, tendr un mnimo dbil o ningn mnimo (ningn punto estacionario)
dependiendo del vector d=-2h.

Bsqueda del punto estacionario del ndice de rendimiento
El gradiente de la funcin cuadrtica:
F x ( ) c d
T
x
1
2
--- x
T
Ax + +
. ,
| `
d Ax + 2h 2Rx + = = =
igualando el gradiente a cero encontramos el punto estacionario:
2h 2Rx + 0 =
Si R es definida positiva entonces tendremos un nico punto estacionario, que
ser un mnimo local:
x

R
1
h =
Por lo tanto, los vectores de entrada determinan la existencia de solucin nica
o no.
Algoritmo LMS
Algoritmo para localizar el mnimo local. No es conveniente ni deseable calcular
h y R, por lo que se usa una aproximacin al algoritmo del decenso por
gradiente.

Se estima el error cuadrtico medio F(x) como:
F

x ( ) t k ( ) a k ( ) ( )
2
e
2
k ( ) = =
Se ha reemplazado el valor esperado del error cuadrtico por el error
cuadrtico en cada iteracin k.
En cada iteracin se estima el gradiente de la forma

F x ( ) e
2
k ( ) =
Los primeros R elementos de e
2
(k) son derivadas respecto a los pesos,
mientras que elemento R+1 es derivado respecto al sesgo.
e
2
k ( ) [ ]
j
e
2
k ( )
w
1 j ,

---------------- 2e k ( )
e k ( )
w
1 j ,

------------- = =
e
2
k ( ) [ ]
R 1 +
e
2
k ( )
b
---------------- 2e k ( )
e k ( )
b
-------------
= =
j 1 2 R , , , =
Evaluando las derivadas parciales de e(k) respecto a los pesos y al sesgo:
e k ( )
w
1 j ,

-------------
t k ( ) a k ( ) [ ]
w
1 j ,

----------------------------------
w
1 j ,

t k ( ) w
T
1
p k ( ) b + ( ) [ ] = =
e k ( )
w
1 j ,

-------------
w
1 j ,

t k ( ) w
1 i ,
p
i
k ( )
i 1 =
R

b +
. ,

| `
=
e k ( )
w
1 j ,

------------- p
j
k ( ) =
e k ( )
b
------------- 1 =
Observamos que p
j
(k) y 1 son elementos del vector de entrada z, por lo tanto,
el gradiente del error cuadrtico en la iteracin k se puede escribir como:

F x ( ) e
2
k ( ) 2e k ( )z k ( ) = =
Este gradiente estimado, se usa en el algoritmo del decenso por gradiente
con tasa de aprendizaje constante:
x
k 1 +
x
k
F x ( )
x x
k
=
=
x
k 1 +
x
k
2e k ( )z k ( ) + =
El algoritmo LMS se conoce tambin como la regla Delta o el algoritmo de
Widrow-Hoff:
w
1
k 1 + ( ) w
1
k ( ) 2e k ( )p k ( ) + =
b k 1 + ( ) b k ( ) 2e k ( ) + =
(Esto se cumple por neurona, es decir se actualiza una columna de pesos
considerando por neurona el error introducido por cada entrada, ver la entrada
de sesgo ms abajo )

Para el caso de mltiples salidas, es decir, mltiples neuronas, cada elemento de
la i-sima fila de la matriz de pesos, se calcula como:
w
i
k 1 + ( ) w
i
k ( ) 2 e
i
k ( )p k ( ) + =
e
i
(k) es el i-simo componente del vector de error en la iteracin k.
De la misma manera el i-simo elemento del sesgo es:
b
i
k 1 + ( ) b
i
k ( ) 2e
i
k ( ) + =
En forma matricial general el algoritmo LMS se expresa como:
W k 1 + ( ) W k ( ) 2e k ( )p
T
k ( ) + =
b k 1 + ( ) b k ( ) 2e k ( ) + =
Anlisis de Convergencia
Se busca la tasa de aprendizaje mxima estable para este algoritmo.
En el algoritmo LMS, los pesos en x(k+1), dependen de las entradas pasadas, es
decir, de z(k-1), z(k-2), ...., z(0).
Suponiendo esas entradas independientes estadsticamente, entonces x(k) es
independiente de z(k), puesto que no depende de la entrada actual.
Como el algoritmo LMS est dado por:
x
k 1 +
x
k
2e k ( )z k ( ) + =
Tomando el valor esperado a ambos lados:
E x
k 1 +
[ ] E x
k
[ ] 2E e k ( )z k ( ) [ ] + =
Sustituyendo el error t(k) - x
t
k
z(k)
E x
k 1 +
[ ] E x
k
[ ] 2 E t k ( )z k ( ) [ ] E x
k
T
z k ( ) ( )z k ( ) [ ] { + =
E x
k 1 +
[ ] E x
k
[ ] 2 E t
k
z k ( ) [ ] E z k ( )z
T
k ( ) ( ) x
k
[ ] { + =
por independencia de x(k) y z(k):
E x
k 1 +
[ ] E x
k
[ ] 2 h RE x
k
[ ] { + =
E x
k 1 +
[ ] I 2R [ ]E x
k
[ ] 2h + =
0 1
max
< <

Este sistema dinmico ser estable si los autovalores de la matriz [I-2 R]
caen dentro del crculo unitario.
La condicin de estabilidad es:
Los autovalores de R son los
i
y los autovalores de [I-2 R] estn dados por
1-
i
.

Si se satisface esa condicin de estabilidad, la solucin en estado estacionario
ser:
E(x
ee
) = [I-2 R] E(x
ee
) + 2 h
x
ee
= x
ee
- 2 R x
ee
+ 2 h
0 = - 2 R x
ee
+ 2 h
x
ee
= R
-1
h (la solucin, el mnimo local para el ndice de rendimiento).
Esta es la solucin que se obtiene de aplicar un vector de entrada a la vez, que
es el error cuadrtico medio mnimo.

Prueba de la Adaline y del algoritmo LMS: Supongamos una adaline de
sesgo cero.

Clculo de la tasa de aprendizaje mxima:
p
1
1
1
1
t
1
,
1
= =


' '


p
2
1
1
1
t
2
,
1
= =


' '


Suponiendo que los dos vectores de entrada se generaron aleatoriamente con
igual probabilidad, se obtiene la matriz de correlacin como:
R E pp
T
[ ]
1
2
--- p
1
p
1
T
1
2
--- p
2
p
2
T
+ = =
R
1
2
---
1
1
1
1 1 1
1
2
---
1
1
1
1 1 1
+
1 0 0
0 1 1
0 1 1
= =
Despus de calcular los autovalores de R:

1
1.0
2
0.0
3
2.0 = , = , =

max
------------ <
1
2.0
------- 0.5 = =
(en la prctica se escoge la tasa de aprendizaje por ensayo y error, puesto
que no es fcil calcular R).

Trabajando con una tasa de aprendizaje de 0.2 y comenzando con todos los
pesos en cero, se aplican las entradas una a una y se calculan los pesos
despus de aplicada cada entrada:
a 0 ( ) W 0 ( )p 0 ( ) W 0 ( ) p
1
0 0 0
1
1
1
0 = = = =
Con p
1

e 0 ( ) t 0 ( ) a 0 ( ) t
1
a 0 ( ) 1 0 1 = = = =
W 1 ( ) W 0 ( ) 2e 0 ( )p
T
0 ( ) + =
W 1 ( )
0 0 0
2 0.2 ( ) 1 ( )
1
1
1
T
0.4 0.4 0.4
= + =
Ahora se aplica p
2

a 1 ( ) W 1 ( ) p 1 ( ) W 1 ( ) p
2 0.4 0.4 0.4
1
1
1
0.4 = = = =
e 1 ( ) t 1 ( ) a 1 ( ) t
2
a 1 ( ) 1 0.4 ( ) 1.4 = = = =
W 2 ( )
0.4 0.4 0.4
2 0.2 ( ) 1.4 ( )
1
1
1
T
0.96 0.16 0.16
= + =
a 2 ( ) W 2 ( ) p 2 ( ) W 2 ( ) p
1 0.96 0.16 0.16
1
1
1
0.64 = = = =
Aplicamos p
1
otra vez
e 2 ( ) t 2 ( ) a 2 ( ) t
1
a 2 ( ) 1 0.64 ( ) 0.36 = = = =
W 3 ( ) W 2 ( ) 2e 2 ( )p
T
2 ( ) +
1.1040 0.0160 0.0160
= =
Si se continua el procedimiento, el algoritmo converge a :
W ( )
1 0 0
=
Nota: Este algoritmo intenta mover la frontera de decisin lejos de los patrones
de referencia tanto como sea posible, a diferencia de la regla de perceptrn que
se detiene cuando los patrones son correctamente clasificados la primera vez,
aun cuando algunos estn cerca de la frontera de decisin.
Ejemplo de uso de la Adaline como Filtro adaptativo
La adaline es la red que ms se usa en la prctica. Una de la mayores
aplicaciones se encuentra en el campo del filtraje adaptativo.
Para que la adaline se use como un filtro adaptativo, se requiere un bloque
llamado lnea de retardo (tapped delay line).
D
D
D
.
.
.
P
1
(k) = y(k)
P
2
(k) = y(k-1)
P
R
(k) = y(k-R+1)
Y(k)
Hay una lnea de retardo de R salidas. Tenemos la salida actual como la entrada
actual y R-1 valores pasados de esa seal.

Combinando esta unidad de retardo con una adaline se crea un filtro adaptativo:
D
D
D
.
.
.
Y(k)
b
+
a(k) n(k)
1
W
1,1
W
1,2
W
1,R
La salida del filtro est dada por:
a k ( ) purelin Wp b + ( ) w
1 i ,
y k i 1 + ( )
i 1 =
R

b + = =
(se cre un filtro de respuesta de impulso finito, FIR).