Anda di halaman 1dari 23

PERCEPTRON

MODELOS DE RNA

PERCEPTRON (Rosenblatt-58)

Red feedforward binaria. Capas Ent. /Sal.


(Entrada no procesa info.). A. Supervisado.
Activ. por Umbral. Realiza un hiperplano
para separar regiones (
).
W x U 0
ij j

Puede Aprender todo lo que


puede Representar.

A
B

A XOR B

Minsky-Paper (66): 'Las funciones no separables


linealmente no pueden representarse.'.
No puede representar la funcin lgica XOR.
Si n = 2, 14 / 16 funciones lgicas son linealmente separables. Si
n = 3, 104 de las 256 , y Si n = 4, 1882 de las 65536.
El libro de Minsky-Papert Perceptron, trata a fondo lo que los
perceptrones no pueden hacer. Duro Golpe a las RNAs.
Se resuelve con capas ocultas. Entrenamiento?

Modelos de RN. M.r Estructuras. ETSICCP. Nov 11. I. Requena. 1 / 23

PERCEPTRON 2

PARN a las RN:

20 Aos Oscuros.

Algoritmo: Minimizar el nmero de errores en la salida (Y <> T).


RESUMEN: El algoritmo
del perceptron es un
proceso iterativo que
transforma 2 conjuntos de
puntos linealmente separables (en su caso) en un
hiperplano que los separa.
As, puede servir para
problemas de clasificacin.
Entrenamiento = Minimizar
una funcin del error entre
lo que calcula la RNA y lo
que queremos que aprenda.

0.- Fijar Pesos Wij i = 1..p, j = 1..q


1.- Repetir 2-5 mientras haya errores
2.- Coger un ejemplo (X, T) mientras haya
3.- Introducir X, calcular Y, comparar con T:
Yj = 1 Si i XiWij >U ( 0 en otro caso)
4.- a) Si salida es correcta (Yj = Tj) , ir a 2.b) Sino. b1) Si Yj = 0, Wij = Wij + Xi
b2) Si Yj = 1, Wij = Wij - Xi
[4.- Wij = Wij +Xi ( = sig(Yj -Tj ) = 1) ]
5.- Ir a 3.-

SOLUCIN del Problema


XOR con una capa oculta, se

Modelos de RN. M.r Estructuras. ETSICCP. Nov 11. I. Requena. 2 / 23

puede obtener fcil (cuenta de la vieja), pero es necesario


generalizar para todos los problemas.

Modelos de RN. M.r Estructuras. ETSICCP. Nov 11. I. Requena. 3 / 23

MADALINE y la regla delta (Widrow-1962)

MADALINE

1
-U

MADALINE (Many ADApter LINEar), similar a Perceptron, con


valores continuos. Activacin Lineal (Umbral por NA de tendencia)
Algoritmo: Minimizar Error Cuadrtico

1
2

t
p, j

pj

y pj

E = (T W X)2 . Derivando (P = TX, R=XX), en el


mnimo
W* = R-1 P, pero R-1 suele no existir Proceso
iterativo
Derivar respecto a los pesos (solo Y = Wij xj depende ), lleva a la
REGLA DELTA ( = tasa aprendizaje, necesaria para el gradiente):
Modelos de RN. M.r Estructuras. ETSICCP. Nov 11. I. Requena. 4 / 23

W(t+1) = W(t) + l(t) Xl ; l(t) = Tl Yl(t)


Esta idea se generalizar para entrenar las redes multicapa.

Modelos de RN. M.r Estructuras. ETSICCP. Nov 11. I. Requena. 5 / 23

PERCEPTRON MULTICAPA 1

EL PERCEPTRON MULTICAPA
Despus de 20 aos, varios investigadores (Hopfield, Kohonen,
Rumelhart, ) encontraron la manera de hacer tiles las RNA.
Retropropagacin del
Error (Algoritmo). En
las capas ocultas, no hay
salida esperada (no hay
medida del error). Se
retropropaga el error
desde la capa posterior.
El Error Cuadrtico se acumula en la salida, sobre todos los
ejemplos. Derivando (regla de la cadena para la funcin de
activacin). Si la activacin es sigmoide, no hay entradas de
tendencia (umbral como peso), y la derivada de la f. activacin es ,
f ' y pj 1 y pj

y aplicando
con:

la regla delta los pesos se ajustan

Modelos de RN. M.r Estructuras. ETSICCP. Nov 11. I. Requena. 6 / 23

PERCEPTRON MULTICAPA 2

p w ji pj x pi

p indica nmero de ejemplo)

pj t pj y pj y pj 1 y pj

pj y pj 1 y pj pk' w kj

si j de salida

si j es oculta

pk se refieren a valores

obtenidos en capa posterior


Se termina si el error cuadrtico
es suficientemente pequeo.
PROBLEMAS :
Nmero de capas y de neuronas. Conjunto de entrenamiento.
Preparacin de Datos. Preprocesamiento
Es un conjunto de Aproximadores Universales, pero no se sabe
como obtener la funcin concreta aproximadora.
Velocidad de convergencia..
Mnimos Locales..
Sobreentrenamiento.
Saturacin.

Modelos de RN. M.r Estructuras. ETSICCP. Nov 11. I. Requena. 7 / 23

PERCEPTRON MULTICAPA 3

VARIANTES (Reducir tiempo cmputo, o resolver problemas).


-

Trmino Momentun. (direccin de ajuste de iteracin previa).

Usar Tendencias (bias). Entrada con valor cte 1 (hace de umbral).

Tasa de aprendizaje variable.


- Reducirla si el error disminuye, y aumentarla si el error crece.
- Tasa diferente en cada peso (conexin).
- Tasa proporcional a las entradas del PE extremo de conexin

Aadir/quitar neuronas. Mejorar el aprendizaje / Eliminar PE


cuyos pesos se modifican muy poco.

Entrenamiento estocstico. Se modifica aleatoriamente un peso

p w ji n 1 pj x pi p w ji n

Variantes sobre el gradiente: Gradiente hacia delante y atrs


Retroprogacin en el tiempo
Regla Delta-Bar-Delta
Alg. FullPropagation
Alg. QuickPropagation
Gradiente conjugado.
Mtodo quasi-Newton
Mtodo direcciones aleatorias
Alg. Levenberg-Marquart.
Hibridacin con A. Genticos y Tcnicas Difusas. P.e., para
optimizar la topologa, o para aplicaciones concretas.
Modelos de RN. M.r Estructuras. ETSICCP. Nov 11. I. Requena. 8 / 23

SOM

MAPAS AUTOORGANIZADOS DE KOHONEN (SOM)


EL ALGORITMO SOM: (Aprend.
no supervisado, competitivo = winner
take all). Los pesos intracapa (salida)
no se consideran en programacin.
Se actualizan los pesos de los PE vecinos del ganador , segn tipo
de vecindad, y siguiendo la idea del sombrero mejicano. As se
consigue la autoorganizacin.

El SOM tiene dos efectos claros con la entrada actual:


Concentracin de la actividad de la Red en el entorno de los PE
que mejor la aceptan. (Autoorganizacin).
Ms sensibilidad de PE cercanos a otros PE sensibles a entradas
cercanas a la actual. (Conserva Topologa)

Modelos de RN. M.r Estructuras. ETSICCP. Nov 11. I. Requena. 9 / 23

SOM 2

ALGORITMO
1.- Inicializar: Pesos (wij), Iteraciones, Tasa aprendi. (), Vecindad.
2.- Para cada muestra del espacio de entrada x:
2.1.- Obtener PE ganador k tal que |x-wk| = mini|x-wi|
2.2.- Actualizar sus pesos, y los de las unidades vecinas (cjto. S):
wi (t + 1) = wi (t) + (t)h(i, k)(x(t) - wi (t)) iS

3.- Modificacin del parmetro de aprendizaje (t).


4.- Repetir pasos 2 y 3 hasta completar iteraciones.
Algunas cuestiones a tener en cuenta:
Topologa Red. Kohonen: Malla rectangular y vecindad hexagonal.
Inicializacin pesos: Aleatorio (en [0, 0.1] o ejemplos entrenamie)
Nmero de iteraciones: Kohonen: 500*Num PE
Distancia: Eucldea y el ngulo de la muestra y el vector peso si
estn normalizados
Coeficiente de aprendizaje: (t) = 0.9 (1-t/1000)
(t) = 0.1- 0.8*(t/11000).
Vecindad: Sintonizacin (1000 iterac?) - Autoorganizacin
h(j, k) = exp (- d2(j, k) /2 a2); d distancia, [ a(t) = 1/ t; a(t) =1rt].
Modelos de RN. M.r Estructuras. ETSICCP. Nov 11. I. Requena. 10 / 23

REDES RECURRENTES. MEMORIAS

MEMORIA ASOCIATIVA BAM. RED DE HOPFIELD


L pares de vectores binarios a almacenar.
La matriz de pesos se calcula directamente:
w = (y 1 x 1 + y 2 x 2 + ... +y L x L )
B

Para recuperar la informacin almacenada:


1.- Se aplica el vector inicial Xo a las capas X ( Yo a la Y).
2.- Se propaga Xo a la capa Y; se actualizan Y 1 (Umbral 0)
3.- Se propaga Y1 hacia X y se actualiza (X 1 )
S1 = j wij xj
4.- Se repiten 2 y 3 hasta que no haya cambios
Y1i = 0 si Si < 0
Y1i = 1 si Si > 0
RED de HOPFIELD: Aunque
anterior, es una BAM autoasociativa
(una sola capa), con entradas externas y
umbral no nulo. La matriz de pesos
suele ser simtrica. La salida en una
iteracin k (xi(k)) de una neurona es su estado. El estado de la
Red es el vector de estados de las neuronas.
B

Modelos de RN. M.r Estructuras. ETSICCP. Nov 11. I. Requena. 11 / 23

RED DE HOPFIELD

Como Memoria funciona como la BAM;


almacena los vectores en los mnimos
locales de la funcin de energa (son los
estados de la Red estables, si la matriz de
pesos es simtrica con la diagonal 0).
E (k )

N
N
N
1
wij xi ( k ) x j ( k ) i 1U i xi ( k )

i 1 j 1, j i
2

I i xi

La RH almacena tambin los complementarios de los vectores


almacenados. Al presentar un vector (incluso con ruido), recupera
el vector almacenado cuya distancia de Hamming al presentado
sea menor. Los vectores almacenados deben ser muy diferentes
entre s, para un correcto funcionamiento. Esto se puede
conseguir aumentando mucho la dimensin de la Red.
El modelo continuo es un sistema dinmico apropiado para problemas de optimizacin como el del viajante de comercio. En la
prctica, como las transiciones de estado se hacen en tiempo

Modelos de RN. M.r Estructuras. ETSICCP. Nov 11. I. Requena. 12 / 23

finito,DE
noBOLTZMANN
hay mucha
MAQUINA
1

diferencia, salvo que permite usar vectores


con valores reales y activacin logstica.
LA MQUINA DE BOLTZMANN
RNA de unidades binarias, estados posibles
{0,1} y conexin total (autoconexiones (i,i))
Es Red recurrente. Algunas neuronas de E/S.
La Funcin Energa

E(s) = - (i,j) wij si sj


B

se establece para cada estado o configuracin de la Red. Se


cambia a configuraciones vecinas, modificando el estado de una
neurona, x r , que se selecciona con probabilidad uniforme, G(r).
B

Se puede ver como una generalizacin de la RH, donde las transiciones se hacen como en el Enfriamiento Simulado (annealing).
Se toma T0 inicial alta y una Configuracin inicial aleatoria. La
B

transicin a un estado vecino se acepta si reduce la energa, y si


Modelos de RN. M.r Estructuras. ETSICCP. Nov 11. I. Requena. 13 / 23

no,con una probabilidad As(r,T) que depende de la Distribucin

MAQUINA DE BOLTZMANN 2

asociada (Boltzmann), para escapar de los mnimos locales.

Es asintticamente convergente en probabilidad. En la prctica


requiere un Esquema de Enfriamiento en tiempo finito.
Puede
usarse en
diferentes
formas,
segn el
esquema.
Hay diversas posibilidades, segn se definan los parmetros de
aprendizaje y los del esquema del enfriamiento simulado
(annealing). (lo veremos en la parte prctica)
Modelos de RN. M.r Estructuras. ETSICCP. Nov 11. I. Requena. 14 / 23

MB DIFUSA. OPTIMIZAR

Algoritmo Modificado de la Mquina de Boltzmann.


Las variables son bivaloradas (dos valores diferentes, indicativos
de activacin (incluida en la solucin) y no activacin (valor 0)
Los valores de las variables intervienen en la FE.
El esquema bsico es la MB, modificada al intervenir las salidas
de las neuronas (valores difusos o valores reales asociados por el
ndice promedio o el IP del decisor), en la FE del sistema global.
Vector de activacin y Configuraciones.
Cada unidad i tiene un valor s(i)/vi, (1 si la unidad est activada,
y 0 si no lo est). s= v= (v1, v2, ..,vN), es el vector de activacin.
Una configuracin es un vector c = (g1, g2, .., gN), donde gi es el
valor (activacin) de la unidad i, en la configuracin c, dado por
gi = yi con Yk

si s (k ) 0

IPD(c%
si s (k ) 1
k)

Modelos de RN. M.r Estructuras. ETSICCP. Nov 11. I. Requena. 15 / 23

Funcin de Energa del sistema. Se define:

E(s) i, j wij gi g j donde gk

si s(k ) 0

IPD(U%) si s(k ) 1

Uij = gi gj es el potencial local de la conexin (i, j).

Modelos de RN. M.r Estructuras. ETSICCP. Nov 11. I. Requena. 16 / 23

(4)

RN de FUNCIN BASE RADIAL.

REDES DE FUNCION BASE RADIAL

Origen en Clasificadores Bayesianos y Regresin Estadstica.


Red hacia-adelante. Son conjuntos de aproximadores universales.
No hay Pesos en la capa oculta. Cada PE filtra una entrada, grupo
de entradas, segn 2 parmetros: valor medio y amplitud.
Mejor que Backpropagation: Parlisis. Mnimos Locales.
Entrenamiento rpido.
Peor: Lentas en modo USO
Capa oculta con Respuesta Gaussiana. hi = exp [-Di2/(22)]
Di2 = (x-ui)t (x-ui) ; x = entrada ; ui = valor medio (pesos?).

Salida = suma lineal ponderada: y = hi wi . Pesos de la salida

se entrenan. RBF = Filtro (capa oculta) + Madaline (capa salida)


Dos entradas: F. Base radial(mente simtrica)
Campo receptivo (respu.
apreciable) (u- u+
F. Exponencial = mejor
aproximacin. Respuesta
NO exponencial
Campo receptivo pequeo.

Modelos de RN. M.r Estructuras. ETSICCP. Nov 11. I. Requena. 17 / 23

Normalizacin optativa:

zi = i hi wij / i hi

Modelos de RN. M.r Estructuras. ETSICCP. Nov 11. I. Requena. 18 / 23

RED HOPFIEL MULTI ESTADO 1

RED de HOPFIELD MULTIESTADO


RN recurrente, donde el estado de cada neurona i en t (salida Si(t)),
toma valores en un conjunto M = {1, 2, . . . ,N} (un intervalo real).
Cada neurona tiene asociada una funcin de umbral i(x) R, que
indica la oposicin de la neurona i-sima a presentar la salida x.
i(x) = a + bd(x, x0), (b > 0) o i(x) = a + b d2(x, x0), (b > 0), donde d
representa una distancia ( d(x, x0) = |x x0| ).
Cada estado de la red, en cada instante t, tiene una energa (FE E):

f : MM R mide la analoga o similitud entre las salidas de las


neuronas i, j. f(x, y) = a b d(x, y), f(x, y) = a b d2(x, y), b > 0.
Condiciones de similitud (1. y 2. son las importantes)
1) Coincidencia: xM, f(x, x) = C, C=constante.
2) Simetra: x, y M, f(x, y) = f(y, x).
3) Si no coincidencia la salida es menor: x y f(x, y) C
Modelos de RN. M.r Estructuras. ETSICCP. Nov 11. I. Requena. 19 / 23

RED HOPFIEL MULTI ESTADO 2

Dinmica de la red
La red evoluciona en el espacio de estados, al que ms disminuya
la FE, o sea, al de mayor incremento potencial

Dinmica asncrona. Una neurona a cambia al estado x de mayor


incremento potencial Uxa(t). Si no es nico, el de menor ndice.
La convergencia se asegura en condiciones similares a las de la RH.
Caso Discreto: f(x, y) se puede poner como una matriz FNxN
La RHME generaliza las siguientes:
Red de Hopfield binaria: M= {0, 1}, la funcin f(x, y) = xy, (o
bien f(0,0) = f(0,1) = f(1,0) = 0, f(1,1)=1), y i(x) = x,
Si salidas {1, 1}, f(x, y) = xy (f(-1,1) = f(1,-1) = -1, f(1,1) = f(1,-1) = 1) cumple las condiciones de similitud.
Red de Hopfield continua es caso particular de RHME continua.
El modelo funciona tambin como Memoria Asociativa.
Modelos de RN. M.r Estructuras. ETSICCP. Nov 11. I. Requena. 20 / 23

RED HOPFIEL MULTI ESTADO 3


RED HOPFIEL MULTI ESTADO 5

APLICACIONES de la RHME (estados y tiempo discreto)

Nmero de Neuronas (P) y de Estados (N).

Matrices: Pesos WPxP ; Similitud FNxN ; Umbral PxN

FE

E(t)

Dinmica de la Computacin.
Asncrona, Sncrona y otras: Elegir Esquema de Interrogacin
(forma de seleccin) y obtener Estados Adyacentes (posibles nuevos).
Tomar el estado adyacente con < Energa (> Incremento Potencial).
La neurona elegida a (Sa(t) = k), modifica su estado segn la regla:
Sa(t+1) =k sii (Uk(t) Ui(t), i=1, ., N) Y (k=miniI ; I= {m/Um(t)=Ul(t)})
Otras dinmicas para la red.
Seleccionar 2, 3,.., k neuronas para modificarlas (k-asncrona).
Permitir solo algunos estados adyacentes factibles (condicionado)
Esquema secuencial completo + selecciones adicionales aleatorias.
Aceptar cambios de estado de igual energa??.
Modelos de RN. M.r Estructuras. ETSICCP. Nov 11. I. Requena. 21 / 23

RED HOPFIEL MULTI ESTADO 6

N-Reinas el ptimo siempre ; Viajante se llega a ciclos.

Modo K-asncrono.
Hay K*N-1 estados adyacentes el que ms reduzca la energa.
Permitir algn cambio de igual energa da resultados mejores.
Ejemplo, 2-asncrono; sean neuronas a y b (a<b), Sa(t)=k, Sb(t)=l.
El incremento de potencial es:

Cambio
de (a, b) al par que maximice Uk,l (m, n). Si no es nico, tomar
(< k, < l). E(t+1) E(t) y no ciclos converge en t. finito
Modo condicionado
Penalizar los estados no factibles aadiendo trminos en la FE.
Permitir ir solo a estados factibles. Se puede usar una fun. barrera
(la usa RH continua para no sobrepasar los valores extremos 1, -1).
Ejemplo: La neurona solo cambia una unidad (|Sa(t+1)Sa(t)|<1).
Modelos de RN. M.r Estructuras. ETSICCP. Nov 11. I. Requena. 22 / 23

Modelos Hbridos (k-asncrono + condicionado)

Modelos de RN. M.r Estructuras. ETSICCP. Nov 11. I. Requena. 23 / 23

Anda mungkin juga menyukai