2014 3 MEstructuras NNModelos Tras

PERCEPTRON
MODELOS DE RNA
PERCEPTRON (Rosenblatt-58)
Red feedforward binaria. Capas Ent. /Sal.

(Entrada no procesa info.). A. Supervisado.
Activ. por Umbral. Realiza un hiperplano
para separar regiones (
).
W x U 0
ij j
Puede Aprender todo lo que

puede Representar.
A
B
A XOR B
Minsky-Paper (66): 'Las funciones no separables

linealmente no pueden representarse.'.
No puede representar la funcin lgica XOR.
Si n = 2, 14 / 16 funciones lgicas son linealmente separables. Si
n = 3, 104 de las 256 , y Si n = 4, 1882 de las 65536.
El libro de Minsky-Papert Perceptron, trata a fondo lo que los
perceptrones no pueden hacer. Duro Golpe a las RNAs.
Se resuelve con capas ocultas. Entrenamiento?
Modelos de RN. M.r Estructuras. ETSICCP. Nov 11. I. Requena. 1 / 23
PERCEPTRON 2
PARN a las RN:
20 Aos Oscuros.
Algoritmo: Minimizar el nmero de errores en la salida (Y <> T).

RESUMEN: El algoritmo
del perceptron es un
proceso iterativo que
transforma 2 conjuntos de
puntos linealmente separables (en su caso) en un
hiperplano que los separa.
As, puede servir para
problemas de clasificacin.
Entrenamiento = Minimizar
una funcin del error entre
lo que calcula la RNA y lo
que queremos que aprenda.
0.- Fijar Pesos Wij i = 1..p, j = 1..q

1.- Repetir 2-5 mientras haya errores
2.- Coger un ejemplo (X, T) mientras haya
3.- Introducir X, calcular Y, comparar con T:
Yj = 1 Si i XiWij >U ( 0 en otro caso)
4.- a) Si salida es correcta (Yj = Tj) , ir a 2.b) Sino. b1) Si Yj = 0, Wij = Wij + Xi
b2) Si Yj = 1, Wij = Wij - Xi
[4.- Wij = Wij +Xi ( = sig(Yj -Tj ) = 1) ]
5.- Ir a 3.-
SOLUCIN del Problema

XOR con una capa oculta, se
puede obtener fcil (cuenta de la vieja), pero es necesario

generalizar para todos los problemas.
MADALINE y la regla delta (Widrow-1962)
MADALINE
1
-U
MADALINE (Many ADApter LINEar), similar a Perceptron, con

valores continuos. Activacin Lineal (Umbral por NA de tendencia)
Algoritmo: Minimizar Error Cuadrtico
1
2
t
p, j
pj
y pj
E = (T W X)2 . Derivando (P = TX, R=XX), en el

mnimo
W* = R-1 P, pero R-1 suele no existir Proceso
iterativo
Derivar respecto a los pesos (solo Y = Wij xj depende ), lleva a la
REGLA DELTA ( = tasa aprendizaje, necesaria para el gradiente):
W(t+1) = W(t) + l(t) Xl ; l(t) = Tl Yl(t)

Esta idea se generalizar para entrenar las redes multicapa.
PERCEPTRON MULTICAPA 1
EL PERCEPTRON MULTICAPA
Despus de 20 aos, varios investigadores (Hopfield, Kohonen,
Rumelhart, ) encontraron la manera de hacer tiles las RNA.
Retropropagacin del
Error (Algoritmo). En
las capas ocultas, no hay
salida esperada (no hay
medida del error). Se
retropropaga el error
desde la capa posterior.
El Error Cuadrtico se acumula en la salida, sobre todos los
ejemplos. Derivando (regla de la cadena para la funcin de
activacin). Si la activacin es sigmoide, no hay entradas de
tendencia (umbral como peso), y la derivada de la f. activacin es ,
f ' y pj 1 y pj
y aplicando
con:
la regla delta los pesos se ajustan
p w ji pj x pi
p indica nmero de ejemplo)
pj t pj y pj y pj 1 y pj
pj y pj 1 y pj pk' w kj
si j de salida
si j es oculta
pk se refieren a valores
obtenidos en capa posterior

Se termina si el error cuadrtico
es suficientemente pequeo.
PROBLEMAS :
Nmero de capas y de neuronas. Conjunto de entrenamiento.
Preparacin de Datos. Preprocesamiento
Es un conjunto de Aproximadores Universales, pero no se sabe
como obtener la funcin concreta aproximadora.
Velocidad de convergencia..
Mnimos Locales..
Sobreentrenamiento.
Saturacin.
VARIANTES (Reducir tiempo cmputo, o resolver problemas).

-
Trmino Momentun. (direccin de ajuste de iteracin previa).
Usar Tendencias (bias). Entrada con valor cte 1 (hace de umbral).
Tasa de aprendizaje variable.

- Reducirla si el error disminuye, y aumentarla si el error crece.
- Tasa diferente en cada peso (conexin).
- Tasa proporcional a las entradas del PE extremo de conexin
Aadir/quitar neuronas. Mejorar el aprendizaje / Eliminar PE

cuyos pesos se modifican muy poco.
Entrenamiento estocstico. Se modifica aleatoriamente un peso
p w ji n 1 pj x pi p w ji n
Variantes sobre el gradiente: Gradiente hacia delante y atrs

Retroprogacin en el tiempo
Regla Delta-Bar-Delta
Alg. FullPropagation
Alg. QuickPropagation
Gradiente conjugado.
Mtodo quasi-Newton
Mtodo direcciones aleatorias
Alg. Levenberg-Marquart.
Hibridacin con A. Genticos y Tcnicas Difusas. P.e., para
optimizar la topologa, o para aplicaciones concretas.
SOM
MAPAS AUTOORGANIZADOS DE KOHONEN (SOM)

EL ALGORITMO SOM: (Aprend.
no supervisado, competitivo = winner
take all). Los pesos intracapa (salida)
no se consideran en programacin.
Se actualizan los pesos de los PE vecinos del ganador , segn tipo
de vecindad, y siguiendo la idea del sombrero mejicano. As se
consigue la autoorganizacin.
El SOM tiene dos efectos claros con la entrada actual:

Concentracin de la actividad de la Red en el entorno de los PE
que mejor la aceptan. (Autoorganizacin).
Ms sensibilidad de PE cercanos a otros PE sensibles a entradas
cercanas a la actual. (Conserva Topologa)
SOM 2
ALGORITMO
1.- Inicializar: Pesos (wij), Iteraciones, Tasa aprendi. (), Vecindad.
2.- Para cada muestra del espacio de entrada x:
2.1.- Obtener PE ganador k tal que |x-wk| = mini|x-wi|
2.2.- Actualizar sus pesos, y los de las unidades vecinas (cjto. S):
wi (t + 1) = wi (t) + (t)h(i, k)(x(t) - wi (t)) iS
3.- Modificacin del parmetro de aprendizaje (t).

4.- Repetir pasos 2 y 3 hasta completar iteraciones.
Algunas cuestiones a tener en cuenta:
Topologa Red. Kohonen: Malla rectangular y vecindad hexagonal.
Inicializacin pesos: Aleatorio (en [0, 0.1] o ejemplos entrenamie)
Nmero de iteraciones: Kohonen: 500*Num PE
Distancia: Eucldea y el ngulo de la muestra y el vector peso si
estn normalizados
Coeficiente de aprendizaje: (t) = 0.9 (1-t/1000)
(t) = 0.1- 0.8*(t/11000).
Vecindad: Sintonizacin (1000 iterac?) - Autoorganizacin
h(j, k) = exp (- d2(j, k) /2 a2); d distancia, [ a(t) = 1/ t; a(t) =1rt].
REDES RECURRENTES. MEMORIAS
MEMORIA ASOCIATIVA BAM. RED DE HOPFIELD

L pares de vectores binarios a almacenar.
La matriz de pesos se calcula directamente:
w = (y 1 x 1 + y 2 x 2 + ... +y L x L )
B
Para recuperar la informacin almacenada:

1.- Se aplica el vector inicial Xo a las capas X ( Yo a la Y).
2.- Se propaga Xo a la capa Y; se actualizan Y 1 (Umbral 0)
3.- Se propaga Y1 hacia X y se actualiza (X 1 )
S1 = j wij xj
4.- Se repiten 2 y 3 hasta que no haya cambios
Y1i = 0 si Si < 0
Y1i = 1 si Si > 0
RED de HOPFIELD: Aunque
anterior, es una BAM autoasociativa
(una sola capa), con entradas externas y
umbral no nulo. La matriz de pesos
suele ser simtrica. La salida en una
iteracin k (xi(k)) de una neurona es su estado. El estado de la
Red es el vector de estados de las neuronas.
B
RED DE HOPFIELD
Como Memoria funciona como la BAM;

almacena los vectores en los mnimos
locales de la funcin de energa (son los
estados de la Red estables, si la matriz de
pesos es simtrica con la diagonal 0).
E (k )
N
N
N
1
wij xi ( k ) x j ( k ) i 1U i xi ( k )
i 1 j 1, j i
2
I i xi
La RH almacena tambin los complementarios de los vectores

almacenados. Al presentar un vector (incluso con ruido), recupera
el vector almacenado cuya distancia de Hamming al presentado
sea menor. Los vectores almacenados deben ser muy diferentes
entre s, para un correcto funcionamiento. Esto se puede
conseguir aumentando mucho la dimensin de la Red.
El modelo continuo es un sistema dinmico apropiado para problemas de optimizacin como el del viajante de comercio. En la
prctica, como las transiciones de estado se hacen en tiempo
finito,DE
noBOLTZMANN
hay mucha
MAQUINA
1
diferencia, salvo que permite usar vectores

con valores reales y activacin logstica.
LA MQUINA DE BOLTZMANN
RNA de unidades binarias, estados posibles
{0,1} y conexin total (autoconexiones (i,i))
Es Red recurrente. Algunas neuronas de E/S.
La Funcin Energa
E(s) = - (i,j) wij si sj

B
se establece para cada estado o configuracin de la Red. Se

cambia a configuraciones vecinas, modificando el estado de una
neurona, x r , que se selecciona con probabilidad uniforme, G(r).
B
Se puede ver como una generalizacin de la RH, donde las transiciones se hacen como en el Enfriamiento Simulado (annealing).
Se toma T0 inicial alta y una Configuracin inicial aleatoria. La
B
transicin a un estado vecino se acepta si reduce la energa, y si

no,con una probabilidad As(r,T) que depende de la Distribucin
MAQUINA DE BOLTZMANN 2
asociada (Boltzmann), para escapar de los mnimos locales.
Es asintticamente convergente en probabilidad. En la prctica

requiere un Esquema de Enfriamiento en tiempo finito.
Puede
usarse en
diferentes
formas,
segn el
esquema.
Hay diversas posibilidades, segn se definan los parmetros de
aprendizaje y los del esquema del enfriamiento simulado
(annealing). (lo veremos en la parte prctica)
MB DIFUSA. OPTIMIZAR
Algoritmo Modificado de la Mquina de Boltzmann.

Las variables son bivaloradas (dos valores diferentes, indicativos
de activacin (incluida en la solucin) y no activacin (valor 0)
Los valores de las variables intervienen en la FE.
El esquema bsico es la MB, modificada al intervenir las salidas
de las neuronas (valores difusos o valores reales asociados por el
ndice promedio o el IP del decisor), en la FE del sistema global.
Vector de activacin y Configuraciones.
Cada unidad i tiene un valor s(i)/vi, (1 si la unidad est activada,
y 0 si no lo est). s= v= (v1, v2, ..,vN), es el vector de activacin.
Una configuracin es un vector c = (g1, g2, .., gN), donde gi es el
valor (activacin) de la unidad i, en la configuracin c, dado por
gi = yi con Yk
si s (k ) 0
IPD(c%
si s (k ) 1
k)
Funcin de Energa del sistema. Se define:
E(s) i, j wij gi g j donde gk
si s(k ) 0
IPD(U%) si s(k ) 1
Uij = gi gj es el potencial local de la conexin (i, j).
(4)
RN de FUNCIN BASE RADIAL.
REDES DE FUNCION BASE RADIAL
Origen en Clasificadores Bayesianos y Regresin Estadstica.

Red hacia-adelante. Son conjuntos de aproximadores universales.
No hay Pesos en la capa oculta. Cada PE filtra una entrada, grupo
de entradas, segn 2 parmetros: valor medio y amplitud.
Mejor que Backpropagation: Parlisis. Mnimos Locales.
Entrenamiento rpido.
Peor: Lentas en modo USO
Capa oculta con Respuesta Gaussiana. hi = exp [-Di2/(22)]
Di2 = (x-ui)t (x-ui) ; x = entrada ; ui = valor medio (pesos?).
Salida = suma lineal ponderada: y = hi wi . Pesos de la salida
se entrenan. RBF = Filtro (capa oculta) + Madaline (capa salida)

Dos entradas: F. Base radial(mente simtrica)
Campo receptivo (respu.
apreciable) (u- u+
F. Exponencial = mejor
aproximacin. Respuesta
NO exponencial
Campo receptivo pequeo.
Normalizacin optativa:
zi = i hi wij / i hi
RED HOPFIEL MULTI ESTADO 1
RED de HOPFIELD MULTIESTADO

RN recurrente, donde el estado de cada neurona i en t (salida Si(t)),
toma valores en un conjunto M = {1, 2, . . . ,N} (un intervalo real).
Cada neurona tiene asociada una funcin de umbral i(x) R, que
indica la oposicin de la neurona i-sima a presentar la salida x.
i(x) = a + bd(x, x0), (b > 0) o i(x) = a + b d2(x, x0), (b > 0), donde d
representa una distancia ( d(x, x0) = |x x0| ).
Cada estado de la red, en cada instante t, tiene una energa (FE E):
f : MM R mide la analoga o similitud entre las salidas de las

neuronas i, j. f(x, y) = a b d(x, y), f(x, y) = a b d2(x, y), b > 0.
Condiciones de similitud (1. y 2. son las importantes)
1) Coincidencia: xM, f(x, x) = C, C=constante.
2) Simetra: x, y M, f(x, y) = f(y, x).
3) Si no coincidencia la salida es menor: x y f(x, y) C
Dinmica de la red
La red evoluciona en el espacio de estados, al que ms disminuya
la FE, o sea, al de mayor incremento potencial
Dinmica asncrona. Una neurona a cambia al estado x de mayor

incremento potencial Uxa(t). Si no es nico, el de menor ndice.
La convergencia se asegura en condiciones similares a las de la RH.
Caso Discreto: f(x, y) se puede poner como una matriz FNxN
La RHME generaliza las siguientes:
Red de Hopfield binaria: M= {0, 1}, la funcin f(x, y) = xy, (o
bien f(0,0) = f(0,1) = f(1,0) = 0, f(1,1)=1), y i(x) = x,
Si salidas {1, 1}, f(x, y) = xy (f(-1,1) = f(1,-1) = -1, f(1,1) = f(1,-1) = 1) cumple las condiciones de similitud.
Red de Hopfield continua es caso particular de RHME continua.
El modelo funciona tambin como Memoria Asociativa.

APLICACIONES de la RHME (estados y tiempo discreto)
Nmero de Neuronas (P) y de Estados (N).
Matrices: Pesos WPxP ; Similitud FNxN ; Umbral PxN
FE
E(t)
Dinmica de la Computacin.
Asncrona, Sncrona y otras: Elegir Esquema de Interrogacin
(forma de seleccin) y obtener Estados Adyacentes (posibles nuevos).
Tomar el estado adyacente con < Energa (> Incremento Potencial).
La neurona elegida a (Sa(t) = k), modifica su estado segn la regla:
Sa(t+1) =k sii (Uk(t) Ui(t), i=1, ., N) Y (k=miniI ; I= {m/Um(t)=Ul(t)})
Otras dinmicas para la red.
Seleccionar 2, 3,.., k neuronas para modificarlas (k-asncrona).
Permitir solo algunos estados adyacentes factibles (condicionado)
Esquema secuencial completo + selecciones adicionales aleatorias.
Aceptar cambios de estado de igual energa??.
N-Reinas el ptimo siempre ; Viajante se llega a ciclos.
Modo K-asncrono.
Hay K*N-1 estados adyacentes el que ms reduzca la energa.
Permitir algn cambio de igual energa da resultados mejores.
Ejemplo, 2-asncrono; sean neuronas a y b (a<b), Sa(t)=k, Sb(t)=l.
El incremento de potencial es:
Cambio
de (a, b) al par que maximice Uk,l (m, n). Si no es nico, tomar
(< k, < l). E(t+1) E(t) y no ciclos converge en t. finito
Modo condicionado
Penalizar los estados no factibles aadiendo trminos en la FE.
Permitir ir solo a estados factibles. Se puede usar una fun. barrera
(la usa RH continua para no sobrepasar los valores extremos 1, -1).
Ejemplo: La neurona solo cambia una unidad (|Sa(t+1)Sa(t)|<1).
Modelos Hbridos (k-asncrono + condicionado)

2014 3 MEstructuras NNModelos Tras

Diunggah oleh

Informasi Dokumen

Judul Asli

Hak Cipta

Format Tersedia

Bagikan dokumen Ini

Bagikan atau Tanam Dokumen

Opsi Berbagi

Apakah menurut Anda dokumen ini bermanfaat?

Apakah konten ini tidak pantas?

Hak Cipta:

Format Tersedia

2014 3 MEstructuras NNModelos Tras

Diunggah oleh

Hak Cipta:

Format Tersedia

PERCEPTRON

Red feedforward binaria. Capas Ent. /Sal.

Puede Aprender todo lo que

Minsky-Paper (66): 'Las funciones no separables

Modelos de RN. M.r Estructuras. ETSICCP. Nov 11. I. Requena. 1 / 23

PARN a las RN:

Algoritmo: Minimizar el nmero de errores en la salida (Y <> T).

0.- Fijar Pesos Wij i = 1..p, j = 1..q

SOLUCIN del Problema

Modelos de RN. M.r Estructuras. ETSICCP. Nov 11. I. Requena. 2 / 23

puede obtener fcil (cuenta de la vieja), pero es necesario

Modelos de RN. M.r Estructuras. ETSICCP. Nov 11. I. Requena. 3 / 23

MADALINE y la regla delta (Widrow-1962)

MADALINE (Many ADApter LINEar), similar a Perceptron, con

E = (T W X)2 . Derivando (P = TX, R=XX), en el

W(t+1) = W(t) + l(t) Xl ; l(t) = Tl Yl(t)

Modelos de RN. M.r Estructuras. ETSICCP. Nov 11. I. Requena. 5 / 23

la regla delta los pesos se ajustan

Modelos de RN. M.r Estructuras. ETSICCP. Nov 11. I. Requena. 6 / 23

p indica nmero de ejemplo)

obtenidos en capa posterior

Modelos de RN. M.r Estructuras. ETSICCP. Nov 11. I. Requena. 7 / 23

VARIANTES (Reducir tiempo cmputo, o resolver problemas).

Trmino Momentun. (direccin de ajuste de iteracin previa).

Usar Tendencias (bias). Entrada con valor cte 1 (hace de umbral).

Tasa de aprendizaje variable.

Aadir/quitar neuronas. Mejorar el aprendizaje / Eliminar PE

Entrenamiento estocstico. Se modifica aleatoriamente un peso

Variantes sobre el gradiente: Gradiente hacia delante y atrs

MAPAS AUTOORGANIZADOS DE KOHONEN (SOM)

El SOM tiene dos efectos claros con la entrada actual:

Modelos de RN. M.r Estructuras. ETSICCP. Nov 11. I. Requena. 9 / 23

3.- Modificacin del parmetro de aprendizaje (t).

REDES RECURRENTES. MEMORIAS

MEMORIA ASOCIATIVA BAM. RED DE HOPFIELD

Para recuperar la informacin almacenada:

Modelos de RN. M.r Estructuras. ETSICCP. Nov 11. I. Requena. 11 / 23

Como Memoria funciona como la BAM;

La RH almacena tambin los complementarios de los vectores

Modelos de RN. M.r Estructuras. ETSICCP. Nov 11. I. Requena. 12 / 23

diferencia, salvo que permite usar vectores

E(s) = - (i,j) wij si sj

se establece para cada estado o configuracin de la Red. Se

transicin a un estado vecino se acepta si reduce la energa, y si

no,con una probabilidad As(r,T) que depende de la Distribucin

asociada (Boltzmann), para escapar de los mnimos locales.

Es asintticamente convergente en probabilidad. En la prctica

Algoritmo Modificado de la Mquina de Boltzmann.

Modelos de RN. M.r Estructuras. ETSICCP. Nov 11. I. Requena. 15 / 23

Funcin de Energa del sistema. Se define:

E(s) i, j wij gi g j donde gk

Uij = gi gj es el potencial local de la conexin (i, j).

Modelos de RN. M.r Estructuras. ETSICCP. Nov 11. I. Requena. 16 / 23

RN de FUNCIN BASE RADIAL.

REDES DE FUNCION BASE RADIAL

Origen en Clasificadores Bayesianos y Regresin Estadstica.

Salida = suma lineal ponderada: y = hi wi . Pesos de la salida

se entrenan. RBF = Filtro (capa oculta) + Madaline (capa salida)

Modelos de RN. M.r Estructuras. ETSICCP. Nov 11. I. Requena. 17 / 23

Modelos de RN. M.r Estructuras. ETSICCP. Nov 11. I. Requena. 18 / 23

RED HOPFIEL MULTI ESTADO 1

RED de HOPFIELD MULTIESTADO

f : MM R mide la analoga o similitud entre las salidas de las