Algoritmos de aprendizaje de redes neuronales

ALGORITMOS DE ENTRENAMIENTO DE REDES NEURONALES
Descenso de la funcin energa del error (suma del error cuadrtico)
(w1,w2)
(w1+w1,w2 +w2)
INTELIGENCIA ARTIFICIAL Ing. Ricardo Andrs Castillo, Ph.D.

Descenso de la funcin energa del error (suma del error cuadrtico)
2
APRENDIZAJE SUPERVISADO
La respuesta deseada para cada uno de los patrones de entrenamiento es

conocida.
Un Profesor proporciona ejemplos y ensea a la red como cumplir una
tarea determinada
APRENDIZAJE NO SUPERVISADO
Idea : agrupar los patrones de entrada en funcin de un criterio no

conocido a priori
clustering
No hay necesidad de profesor
La red por si misma encuentra la correlacin entre los datos
Ejemplos:
Mapas de caractersticas de Kohonen

UTILIDAD DE LAS CAPAS OCULTAS
Las neuronas de la capa oculta esconden sus salidas (para estas no hay forma
de determinar una salida deseada).
Usualmente las redes neuronales incorporan tres y en muy pocos casos cuatro
capas, incluyendo una o dos capas ocultas.
Aprenden caractersticas especificas de los datos de entrada
PRINCIPIO DE MINIMA PERTURBACION
El algoritmo de entrenamiento descrito se basa en este principio:
Adaptar los pesos para reducir el error de respuesta al patrn de

entrenamiento actual, provocando la mnima perturbacin a las respuestas ya
aprendidas.

RED NEURONAL MULTICAPA ALGORITMO DE BACKPROPAGATION
Seales de Entrada
1
x1 1 y1
1
2
x2 2 y2
2
j i
xj wij wki k yk
N
wNR wmN
R m ym
xR
Capa de Capa Capa de
entrada oculta salida
Seales de error

El proceso de aprendizaje por retropropagacion del error en una red multicapa se

realiza en dos fases: recorrido hacia adelante y luego recorrido hacia atrs
DESCRIPCION DEL ALGORITMO DE ENTRENAMIENTO - Backpropagation
Paso 1: Inicializacin
Inicializar los pesos (incluido el umbral) con valores distribuidos uniformemente
dentro de un rango
2.4 2.4
,
Fi Fi
Fi es el numero total de entradas a la neurona i de la red. Esta inicializacin es
realizada para cada neurona
Paso 2: Recorrido hacia adelante (feedforward)

Presentar a la red un patron de entrenamiento y efectuar los clculos hacia
adelante (feedforward), propagando los datos desde la capa de entrada (capa por
capa) hasta alcanzar la capa de salida
MODELO DINAMICO DE MANIPULADORES
Paso 3: Actualizacin de los pesos (Recorrido hacia atrs)

Cuando se obtiene la salida de la red neuronal, se calcula el error y se procede a
propagarlo hacia atras por la red (desde la capa de salida hasta la capa de entrada)
calculando el termino de sensitividad
i (k ) ei ' (S i ) ; k = iteracin
para cada neurona modificando los pesos desde la capa de salida hasta la
primera capa.
SI LA NEURONA ESTA EN LA CAPA DE SALIDA
i(l ) (k ) i( L) (k ) ei( L ) (k ) 'i (SiL (k ))
, i = 1,2, . Numero de neuronas de la capa de salida

SI LA NEURONA ESTA EN UNA CAPA OCULTA

m
(k ) 'i ( S (k )) p(l 1) (k ) (pil 1)
i
(l )
i
l
p 1
i = 1, 2,., Numero de neuronas de la capa oculta.
p = 1, 2, 3,., m (Numero de neuronas de la capa inmediatamente adelante)
Expresin de actualizacin de pesos
ij(l ) (k 1) ij(l ) (k ) i(l ) (k ) y (jl 1) (k )

para cada neurona de la capa, los pesos se actualizan una vez se termine el
recorrido hacia atrs por la red neuronal
Factor de aprendizaje 0,1 0,9

Paso 4: Actualizacin de los pesos

Incrementar la iteracin (k) volviendo al paso 2 y repetir el proceso hasta
satisfacer un criterio de error
EJEMPLO DE ENTRENAMIENTO RED NEURONAL PROBLEMA XOR

Solucin del problema XOR con una red de tres capas.
3
w31 1
x1 1 3 w53
w32 5
5 y5
w41
x2 2 4 w54
w42
Capa de 4 Capa de
entrada salida
1
Capa oculta
El efecto del umbral se representa por un peso , conectada a una entrada fija 1
Los pesos iniciales y umbrales son inicializados ramdomicamente as:
w31 = 0.5, w41 = 0.9, w32 = 0.4, w42 = 1.0, w53 = 1.2, w54 = 1.1,
3 = 0.8, 4 = 0.1, 5 = 0.3.
RECORRIDO HACIA ADELANTE

Considerando el patrn de entrada (x1 =1 y x2 = 1) cuya salida deseada es yd,5 = 0.
Las salidas para las neuronas 3 y 4 de la capa oculta son:

y3 sigmoid ( x1 w31 x2 w32 3 ) 1 / 1 e (10.510.410.8) 0.5250
y 4 sigmoid ( x1 w41 x2 w42 ) 1 / 1 e
4
(10.911.010.1)
0.8808
La salida de la neurona 5, es entonces:

y5 sigmoid ( y3 w53 y4 w54 5 ) 1 / 1 e ( 0.52501.20.88081.110.3) 0.5097
El error entonces puede ser calculado:

e yd ,5 y5 0 0.5097 0.5097
RECORRIDO HACIA ATRAS

Calculando la sensitividad para la neurona 5, se tiene:
5 y5 (1 y5 ) e 0.5097 (1 0.5097) (0.5097) 0.1274
Calculo de los cambios en pesos de la capa de salida, asumiendo un factor

de aprendizaje = 0.1:
w53 y3 5 0.1 0.5250 (0.1274) 0.0067

w54 y 4 5 0.1 0.8808 (0.1274) 0.0112
5 (1) 5 0.1 (1) (0.1274) 0.0127

Calculando las sensitividades para las neuronas 3 y 4 en la capa oculta:
3 y3 (1 y3 ) 5 w35 0.5250 (1 0.5250) ( 0.1274) ( 1.2) 0.0381

4 y4 (1 y4 ) 5 w45 0.8808 (1 0.8808) ( 0.127 4) 1.1 0.0147
Determinando los cambios en los pesos de esta capa, se tiene:
w13 x1 3 0.11 0.0381 0.0038

w23 x2 3 0.11 0.0381 0.0038
3 (1) 3 0.1 (1) 0.0381 0.0038
w14 x1 4 0.11 (0.0147) 0.0015
w24 x2 4 0.11 (0.0147) 0.0015
4 (1) 4 0.1 (1) (0.0147) 0.0015

Actualizacin de todos los pesos de la red:
w31 w31 w31 0 .5 0 .0038 0 .5038

w41 w41 w41 0 .9 0 .0015 0 .8985
w 32 w 32 w 32 0 .4 0 .0038 0 .4038
w 42 w 42 w 42 1 .0 0 .0015 0 .9985
w53 w53 w53 1 .2 0 .0067 1 .2067
w 54 w 54 w 54 1 .1 0 .0112 1 .0888
3 3 3 0 .8 0 .0038 0 .7962
4 4 4 0 .1 0 .0015 0 .0985
5 5 5 0 .3 0 .0127 0 .3127
El proceso se repite hasta que la suma de los errores al cuadrado es menor

que 0.001.
CURVA DE APRENDIZAJE PROBLEMA XOR
Suma-Error Cuadratico para 224 Epocas

1
10
Suma-Error Cuadratico
0
10
-1
10
-2
10
-3
10
-4
10
0 50 100 150 200
Epocas
RESULTADOS FINALES ENTRENAMIENTO RED NEURONAL DE TRES CAPAS
Entradas Salidas Salida Error Suma de

deseadas actual errores
x1 x2 yd y5 e cuadraticos
1 1 0 Y
0.0155 0.0155 0.0010
e
0 1 1 0.9849 0.0151
1 0 1 0.9849 0.0151
0 0 0 0.0175 0.0175

ACELERACION DEL PROCESO DE APRENDIZAJE EN REDES MULTICAPA
Utilizando como funcin de activacin sigmoidal una tangente hiperblica
y a tanh(bx)
Donde a y b son constantes, cuyos valores sugeridos son (LeCun, 1993):
a = 1.716 y b = 2/3
,
Inclusin del termino de momento (Regla delta generalizada)
ij(l ) (k 1) ij(l ) (k ) i(l ) (k ) y (jl 1) (k ) (ij(l ) (k ) ij(l ) (k 1))

Donde (constante de momento) es un numero positivo (0 1) . Tpicamente
la constante de momento es 0,95.

TCNICAS PRCTICAS PARA MEJORAR BACKPROPAGATION
Normalizar la entrada
El conjunto de entrada se normaliza para que tenga media cero y la
misma varianza
Valores de salida deseados

Para aplicaciones de reconocimiento de patrones, usar +1 para la clase
deseada y -1 para la otra
Inicializacin de los pesos

Si usamos datos normalizados, deseamos pesos positivos y negativos, as
como una distribucin uniforme

TCNICAS PRCTICAS PARA MEJORAR BACKPROPAGATION
Protocolos de entrenamiento
Entrenamiento estocstico
Las muestras son elegidas al azar del conjunto de
entrenamiento y los pesos se actualizan por cada muestra
Entrenamiento por lotes

Todas las muestras de entrenamiento (poca) son
presentadas a la red antes de que los pesos sean
actualizados
Entrenamiento en lnea
Cada muestra de entrenamiento es presentada una vez y
solamente una vez
No hay memoria para guardar muestras de entrenamiento

APRENDIZAJE ONLINE VS APRENDIZAJE POR LOTES
El aprendizaje por lotes realiza el El aprendizaje online actualiza

descenso mas rpido por la superficie los pesos despus de presentar un
de error patrn de entrada. Se presenta
oscilacin alrededor de la direccin
del descenso mas rpido.
restriccion
w1 w1
Restriccion
w2
w2
PARMETROS EN EL ALGORITMO DE BACKPROPAGATION
FACTOR DE APRENDIZAJE
Valores grandes de pueden causar convergencia rpida para redes muy

pequeas, pero causan oscilacin en redes grandes.
Pequeos valores de resultaran en un entrenamiento con muchas mas
iteraciones para obtener convergencia (valor tpico = 0,1)
Es deseable un valor dinmico durante el proceso de entrenamiento
Para acelerar la convergencia y evitar la inestabilidad se pueden utilizar las

siguientes heursticas:
Heurstica 1
Si el cambio de la suma de los errores cuadrticos tiene el mismo signo
algebraico para varias pocas sucesivas, entonces incrementar el factor de
aprendizaje .

ENTRENAMIENTO CON FACTOR DE APRENDIZAJE ADAPTATIVO
Heurstica 2
Si el cambio de la suma de los errores cuadrticos para pocas sucesivas
alterna su signo, entonces el factor de aprendizaje , debe ser
decrementado.
La adaptacin del factor de aprendizaje requiere algunos cambios en el

algoritmo de back-propagation.
Heurstica 3
Si la funcin energa del error en la poca actual, excede el valor previo en un
valor predefinido (tpicamente 1.04), el factor de aprendizaje es decrementado
(tpicamente multiplicndolo por 0.7) antes de calcular los nuevos pesos.
Heurstica 4
Si la funcin energa del error es menor que su valor anterior, el factor de
aprendizaje es incrementado (tpicamente multiplicndolo 1.05).

ENTRENAMIENTO CON DIFERENTES FACTORES DE APRENDIZAJE
= 0.37 = 0.3 9
2 2
1 1
0 0
-1 -1
-2 -2 22
-2 -1 0 1 2 -2 -1 0 1 2

ENTRENAMIENTO CON FACTOR DE APRENDIZAJE ADAPTATIVO
Entrenamiento para 103 Epocas

2
Suma-Error cuadratico
10
1
10
0
10
-1
10
-2
10
-3
10
-4
10
0 10 20 30 40 50 60 70 80 90 100
Epoca
1
Factor de aprendizaje
0.8
0.6
0.4
0.2
0
0 20 40 60 80 100 120
Epoca
MOMENTO
Este termino tiene en cuenta la historia en el cambio de los pesos, su

utilizacin resulta en:
Disminucin de las oscilaciones en el proceso de entrenamiento
Disminucin del numero de iteraciones necesarias en el entrenamiento
ij(l ) (k 1) ij(l ) (k ) i(l ) (k ) y (jl 1) (k ) (ij(l ) (k ) ij(l ) (k 1))

MOMENTO
Este termino tiene en cuenta la historia en el cambio de los pesos, su

utilizacin resulta en:
Disminucin de las oscilaciones en el proceso de entrenamiento
Disminucin del numero de iteraciones necesarias en el entrenamiento
Si el cambio de la energa de error mantiene su signo en iteraciones

sucesivas, incrementar la magnitud de
Si el signo del cambio del error oscila en iteraciones sucesivas, decrementar

CURVA DE APRENDIZAJE CON INCLUSION DEL MOMENTO PROBLEMA XOR
Entrenamiento para 126 epocas

2
10
1
10
0
10
-1
10
-2
10
-3
10
-4
10
0 20 40 60 80 100 120
Epocas
1.5
0.5
-0.5
-1
0 20 40 60 80 100 120 140
Epocas
ENTRENAMIENTO CON INCLUSION DE MOMENTO Y FACTOR DE APRENDIZAJE
ADAPTATIVO
Entrenamiento para 85 Epocas
2
10
1
10
0
10
-1
10
-2
10
-3
10
-4
10
0 10 20 30 40 50 60 70 80
Epoca
2.5
1.5
0.5
0
0 10 20 30 40 50 60 70 80 90
Epoca
ENTRENAMIENTO CON FACTOR DE APRENDIZAJE ALTO 1
15
10
w21,1 5
-5
-5 0 5 10 15
w11,1

ENTRENAMIENTO CON INCLUSION DE MOMENTO Y FACTOR DE APRENDIZAJE
ALTO
0.8
15
10
w21,1
-5
-5 0 5 10 15
w11,1

ALGORITMO BACKPROPAGATION CON PARAMETROS VARIABLES
1. Si la suma de error cuadrtico (sobre todo el conjunto de entrenamiento) se

incrementa mas que un determinado porcentaje despus de una actualizacin
de pesos
La actualizacin de pesos es descartada
El factor de aprendizaje es multiplicado por un factor (0<<1)
El coeficiente de momento es llevado a cero.
2. Si la suma del error cuadrtico decrece despus de una actualizacin de pesos:

La actualizacin de pesos es aceptada
El factor de aprendizaje es multiplicado por un factor >1.
El coeficiente de momento ha sido previamente llevado a cero, este es
llevado a su valor original.
3. Si la suma del error cuadrtico se incrementa menos que ,

La actualizacin de pesos es aceptada
El factor de aprendizaje y el coeficiente de momento no se cambian.

ALGORITMO BACKPROPAGATION CON PARAMETROS VARIABLES
15
= 0.95
10 = 0.7
= 4%
w21,1
-5
-5 0 5 10 15
w11,1

GENERALIZACIN VS ESPECIALIZACIN
Una vez entrenada la red, los pesos se mantienen constantes, y los

patrones de entrada son presentados a la capa de entrada de la red,
para obtener una salida (feedforward). recall mode.
Se desea que la red generalize, o tome decisiones adecuadas sobre

los patrones de entrada que no estn dentro del conjunto de
entrenamiento.
Comnmente para monitorear la capacidad de generalizacin de la red

se dividen los patrones en:
Conjunto de patrones de entrenamiento: Utilizados para entrenar la
red
Conjunto de patrones de prueba: utilizado para evaluar el
funcionamiento de la red.

La capacidad de generalizacin puede ser mejorada:

1. Utilizando un numero pequeo de neuronas en la capa oculta
(la red debe aprender la regla y no solo los patrones), con muchas neuronas
la red memoriza los patrones, con muy pocas la red no puede nisiquiera
generalizar.
2. No sobreentrenar la red (revisar ocasionalmente su el error de prueba no

se esta incrementando)
3. Asegurarse que los patrones del conjunto de entrenamiento sean

significativos
4. Con muchos patrones la red puede memorizarlos (sobreentrenamiento)
No hay reglas definidas para decidir el tamao de la red

(N. de capas y N. de neuronas por capa) !!!!!!

VALIDACIN CRUZADA
Conjunto de entrenamiento: 70% del conjunto total de patrones
Conjunto de test: 30 % conjunto total de patrones
Conjunto de validacin: patrones diferentes a los utilizados para
entrenamiento y test
El error de test es calculado despus de cada poca
Detener el entrenamiento si el error de validacin aumenta

Generalizacin
Sobre-entrenamiento

INCONVENIENTES EN EL ALGORITMO DE BACKPROPAGATION
Tiempo de entrenamiento no acotado.

Dependiente de las condiciones iniciales:
Mnimos locales = Parlisis en el entrenamiento
Sub-entrenamiento
Sobre-entrenamiento (memorizacin o especializacin)
Caracterizacin de la red (N. de capas ocultas, N. de neuronas por capa)
MNIMOS LOCALES
Puntos en los cuales la superficie de

error aumenta de valor en cualquier
direccin
Es difcil distinguir los mnimos
locales del mnimo global, solamente
teniendo en cuenta los valores
alrededor de ese mnimo
Puede aumentarse el factor de
aprendizaje para sacar al proceso de
un mnimo local

TIEMPO DE ENTRENAMIENTO
Cuando detener el algoritmo de entrenamiento?
Si el error de entrenamiento deja de disminuir (se alcanzo un mnimo

local)
Si el cambio en la funcin energa de error baja de un cierto valor
Si el error de entrenamiento alcanza un valor deseado
Si el error de validacin comienza a aumentar
Cuando se supere cierto numero de pocas

DECAIMIENTO DE PESOS
Se agrega un termino dependiente de los pesos a la funcin energa del error

utilizada, para penalizar el aumento al cuadrado de los pesos (limitando de
esta forma el sobreaprendizaje)
C E 2 wi2
i
C E
wi
wi wi
C 1 E
cuando 0, wi
wi wi


EFECTOS
Previene que la red utilice pesos que no necesita.
Mejora en gran medida la capacidad de generalizacin de la red.
Previene que la red decremente el error hasta memorizar los errores de
medicin (ruido)
Se genera un modelo mas suave en donde las salidas cambian mas
lentamente cuando las entradas cambian.
Si la red tiene dos entradas similares, esta coloca la mitad del peso en cada
conexin en vez de colocar todo el peso en solo una.
w/2 w/2 w
0

REDES NEURONALES DE FUNCIONES DE
BASE RADIAL (RBF)
Las redes feed-forward con una sola capa oculta de neuronas sigmoidales
son capaces de aproximar uniformemente cualquier funcin continua
multivariable, con cualquier grado de precisin.
Hornik, K., Stinchcombe, M., and White, H. (1989). "Multilayer

Feedforward Networks are Universal Approximators," Neural Networks,
2(5), 359-366.
y
Con un numero suficiente de

w1 w2 wm unidades sigmoidales, puede
Unidades
ocultas construirse un aproximador
1 2 m universal.
x= x1 x2 xn
REDES NEURONALES DE FUNCIONES DE
BASE RADIAL (RBF)
Tambin se demuestra que las redes RBF (Radial Basis Function) son
aproximadores universales.
Park, J. and Sandberg, I. W. (1991). "Universal Approximation Using Radial-

Basis-Function Networks," Neural Computation, 3(2), 246-257.
Park, J. and Sandberg, I. W. (1993). "Approximation and Radial-Basis-
Function Networks," Neural Computation, 5(2), 305-316.
y
Unidades w1 w2 wm Con un numero suficiente de

ocultas funciones de base radial, puede
1 2 m construirse un aproximador
universal.
x= x1 x2 xn
REDES NEURONALES DE FUNCIONES DE BASE RADIAL (RBF)
CARACTERISTICAS
Se busca la aproximacin de una superficie en n dimensiones por medio de

hiperelipses en vez de hiperplanos.
En la primera capa no se realiza una combinacin lineal de las entradas.
No se entrena la red por medio de iteraciones.
Si se tienen M puntos en un espacio de n dimensiones

xi xi1 , xi 2 , xi 3 ,...., xin
La salida deseada para cada punto o patrn es: di
Se desea hallar una funcin de interpolacin

f ( xi ) di , i = 1, 2, ., M
Pesos
m
f ( x) w ( x)
i 1
i i
Funciones base
fijas
MODELO LINEAL m
f (x) wii (x)
i 1
Unidades de Salida ponderada

salida linealmente
w1 w2 wm
Descomposicion
Unidades 1 2 m Extracion de caracteristicas
ocultas Transformacion
Entradas
x= x1 x2 xn Vector de caracteristicas
Tres parmetros para una funcin radial:
i(x)= (||x xi||)
Centro: xi
Medida de distancia: r = ||x xi||
Forma:

FUNCIONES RADIALES TIPICAS
Gausiana
r2
r e 2 2
0 and r
Multicuadratica
r r 2 c2 c c 0 and r
Multicuadratica inversa
r c r 2 c2 c 0 and r

Funcin base Gausiana ( = 0.5, 1.0, 1.5)
r2
r e 2 2
0 and r
1.5
1.0
0.5

Funcin Multicuadratica inversa
r c r 2 c2 c 0 and r
1
0.9
0.8
0.7
0.6 c=5
0.5 c=4
0.4 c=3
0.3 c=2
0.2 c=1
0.1
0
-10 -5 0 5 10

RBF GENERAL
i x (x i ) (x i ) T 1
2 3
1

Topologa de la RBF como aproximador de funciones y f (x)
y1 ym
Unidades de salida
Interpolacin
Unidades ocultas
Proyeccin
entradas Vector de caractersticas

x1 x2 xn

Topologa de la RBF como aproximador de Clasificador
y1 ym
Unidades de salida
Clases
Unidades ocultas
Subclases
entradas Vector de caracteristicas

x1 x2 xn

y Funcion desconocida
a aproximar
Datos de entrenamiento
x
y Funcion desconocida
a aproximar
Datos de entrenamiento
x
Funciones base (Kernels)
Funcion
y aprendida
x
Funciones base (Kernels)
m
y f (x) wii (x)
i 1

Aprendizaje del vector de pesos optimo

T x , y
p
(k ) (k )
Conjunto de entrenamiento
k 1
y ( k ) f x( k )
m
y f (x) wii (x)
Objetivo
i 1
2
min SSE y ( k ) f x( k )
p
k 1
w1 w2 wm
Entonces para todo k , se tiene
2
(k ) (k )
y wii x
p m
k 1 i 1
x= x1 x2 xn
f x i i
p m
C y
2
Funcin a Minimizar (k ) (k )
w2
k 1 i 1
C f x( k )
2 y ( k ) f x( k )
p
0 2 j w j
w j k 1 w j
2 y ( k ) f x( k ) j x( k ) 2 j w j
p
k 1
j x x j j
p p
Entonces (k )
f * (k )
w *
x
j
(k )
y (k )
k 1 k 1
m
f (x) wii (x)
m
f (x) wi*i (x)
*
i 1 i 1

p p
j

k 1
x (k )
f *
x (k )
w*
j j j
x (k )
y (k )
k 1
f jw y
T *
j
*
j
T
j j 1, ,m m = Numero de
neuronas de la capa
de salida

j j x , , j x
T Salidas de la neurona oculta j para
(1) ( p)
todos los patrones
f x , x
T Salidas de la neurona de salida j para
* * (1) * ( p)
Definir f ,f todos los patrones
y y , (1)
,y
( p) T
Salidas deseadas para todos los patrones

Tj f * j w*j Tj y j 1, ,m
Definir 1 , 2 , , m
f 1w y
T * * T
w* w , w ,
1 1 1
* * * T
,w
f 2 w y
T *
2
*
2
T
2
1 2 m
1
2
Tmf * m wm* Tm y

m
Entonces: f w y
T * * T

m * (1)
k k w x (1)
f * x (1) k 1 1 x 2 x m x (1) w*
(1)
m 1
(2)
1 x(2) 2 x(2) m x w2*
w
* (2) * (2)
f x w x
*
f k 1
* k k

*
* ( p) 1 x( p ) 2 x( p ) ( p) w
f x m x m
wk*k x ( P )
m

k 1
f w y
T * * T
w w y
T * * T

w w y
T * * T
w y
T * T
w y
* T 1 T
1
A y T
: Matriz de diseo
1
A : Matriz de variancia
Aprendizaje del vector de pesos optimo - RESUMEN

T x , y
p
(k ) (k )
Conjunto de entrenamiento
k 1
m
y f (x) wii (x)
i 1
w T y A1T y
* T 1
1 , 2 , , m
j
x (1)

w1
*
y (1)
1
j
* (2)
x (2)
y 2
w
w* j
2
y

* ( p) m
j x ARTIFICIAL
Ing. Ricardo Andrs Castillo, Ph.D.
wm
INTELIGENCIA
( p)
y

Algoritmos de aprendizaje de redes neuronales

Diunggah oleh

Informasi Dokumen

Deskripsi Asli:

Judul Asli

Hak Cipta

Format Tersedia

Bagikan dokumen Ini

Bagikan atau Tanam Dokumen

Opsi Berbagi

Apakah menurut Anda dokumen ini bermanfaat?

Apakah konten ini tidak pantas?

Hak Cipta:

Format Tersedia

Algoritmos de aprendizaje de redes neuronales

Diunggah oleh

Hak Cipta:

Format Tersedia

ALGORITMOS DE ENTRENAMIENTO DE REDES NEURONALES

Descenso de la funcin energa del error (suma del error cuadrtico)

INTELIGENCIA ARTIFICIAL Ing. Ricardo Andrs Castillo, Ph.D.

Descenso de la funcin energa del error (suma del error cuadrtico)

La respuesta deseada para cada uno de los patrones de entrenamiento es

Idea : agrupar los patrones de entrada en funcin de un criterio no

INTELIGENCIA ARTIFICIAL Ing. Ricardo Andrs Castillo, Ph.D.

PRINCIPIO DE MINIMA PERTURBACION

El algoritmo de entrenamiento descrito se basa en este principio:

Adaptar los pesos para reducir el error de respuesta al patrn de

INTELIGENCIA ARTIFICIAL Ing. Ricardo Andrs Castillo, Ph.D.

INTELIGENCIA ARTIFICIAL Ing. Ricardo Andrs Castillo, Ph.D.

El proceso de aprendizaje por retropropagacion del error en una red multicapa se

DESCRIPCION DEL ALGORITMO DE ENTRENAMIENTO - Backpropagation

Paso 2: Recorrido hacia adelante (feedforward)

Paso 3: Actualizacin de los pesos (Recorrido hacia atrs)

SI LA NEURONA ESTA EN LA CAPA DE SALIDA

i(l ) (k ) i( L) (k ) ei( L ) (k ) 'i (SiL (k ))

, i = 1,2, . Numero de neuronas de la capa de salida

INTELIGENCIA ARTIFICIAL Ing. Ricardo Andrs Castillo, Ph.D.

SI LA NEURONA ESTA EN UNA CAPA OCULTA

Expresin de actualizacin de pesos

ij(l ) (k 1) ij(l ) (k ) i(l ) (k ) y (jl 1) (k )

Factor de aprendizaje 0,1 0,9

INTELIGENCIA ARTIFICIAL Ing. Ricardo Andrs Castillo, Ph.D.

Paso 4: Actualizacin de los pesos

EJEMPLO DE ENTRENAMIENTO RED NEURONAL PROBLEMA XOR

RECORRIDO HACIA ADELANTE

La salida de la neurona 5, es entonces:

El error entonces puede ser calculado:

RECORRIDO HACIA ATRAS

5 y5 (1 y5 ) e 0.5097 (1 0.5097) (0.5097) 0.1274

Calculo de los cambios en pesos de la capa de salida, asumiendo un factor

w53 y3 5 0.1 0.5250 (0.1274) 0.0067

INTELIGENCIA ARTIFICIAL Ing. Ricardo Andrs Castillo, Ph.D.

Calculando las sensitividades para las neuronas 3 y 4 en la capa oculta:

3 y3 (1 y3 ) 5 w35 0.5250 (1 0.5250) ( 0.1274) ( 1.2) 0.0381

Determinando los cambios en los pesos de esta capa, se tiene:

w13 x1 3 0.11 0.0381 0.0038

INTELIGENCIA ARTIFICIAL Ing. Ricardo Andrs Castillo, Ph.D.

Actualizacin de todos los pesos de la red:

w31 w31 w31 0 .5 0 .0038 0 .5038

El proceso se repite hasta que la suma de los errores al cuadrado es menor

Suma-Error Cuadratico para 224 Epocas

Entradas Salidas Salida Error Suma de

INTELIGENCIA ARTIFICIAL Ing. Ricardo Andrs Castillo, Ph.D.

Utilizando como funcin de activacin sigmoidal una tangente hiperblica

ij(l ) (k 1) ij(l ) (k ) i(l ) (k ) y (jl 1) (k ) (ij(l ) (k ) ij(l ) (k 1))

INTELIGENCIA ARTIFICIAL Ing. Ricardo Andrs Castillo, Ph.D.

Valores de salida deseados

Inicializacin de los pesos

INTELIGENCIA ARTIFICIAL Ing. Ricardo Andrs Castillo, Ph.D.

Entrenamiento por lotes

INTELIGENCIA ARTIFICIAL Ing. Ricardo Andrs Castillo, Ph.D.

El aprendizaje por lotes realiza el El aprendizaje online actualiza

Valores grandes de pueden causar convergencia rpida para redes muy

Para acelerar la convergencia y evitar la inestabilidad se pueden utilizar las

INTELIGENCIA ARTIFICIAL Ing. Ricardo Andrs Castillo, Ph.D.

La adaptacin del factor de aprendizaje requiere algunos cambios en el

INTELIGENCIA ARTIFICIAL Ing. Ricardo Andrs Castillo, Ph.D.

INTELIGENCIA ARTIFICIAL Ing. Ricardo Andrs Castillo, Ph.D.

Entrenamiento para 103 Epocas