Anda di halaman 1dari 76

REDES NEURONALES ARTIFICIALES

Carlos Montenegro A.

2019
AGENDA

 2.1 Analogía de Redes Neuronales biológicas y Artificiales (RNA)


 2.2 El Perceptrón
 2.3 El algoritmo de Backpropagation
 2.4 Redes de Aproximación e Interpolación
 2.5 Modelos de Redes Recurrentes
 2.6 Herramientas para implementación
 2.7 Aprendizaje mediante evolución simulada o Algoritmos Genéticos
 2.8 Ejercicios y Aplicaciones
2.1 Redes Neuronales Biológicas y Artificiales

 Neurona: base del funcionamiento del cerebro.

 Sistema de procesamiento cerebral de la información:


 Complejo, No lineal y Paralelo.

 Elementos de que consta: sinapsis, axón, dentritas y soma o cuerpo


 10 exp(11) neuronas en una persona, 10 exp(5) sinapsis por
neurona, 10 exp(16) sinapsis en el cerebro
2.1 Redes Neuronales Biológicas y Artificiales

 Fenómeno químico de una Neurona: Bomba de Sodio-Potasio, que


produce un potencial de reposo, que se rompe hacia la activación
(1) o la inhibición (0), en el proceso de sinapsis
 Luego de una activación se produce un período refractario de
aproximadamente 1 mseg
2.1 Redes Neuronales Biológicas y Artificiales

 Teoría de McCulloch-Pitts
 La actividad de una neurona es un proceso todo-nada (0-1)

 Se requiere un número fijo de sinapsis (>1) para activar una


neurona
 Se produce el retardo sináptico

 Una sinapsis inhibitoria impide por completo la activación

 La estructura de la red de interconexiones no cambia en el


transcurso del tiempo, a menos que cambien las condiciones
generales
2.1 Redes Neuronales Biológicas y Artificiales

 Aprendizaje de Hebb
 La actividad persistente de una neurona puede influenciar en el
comportamiento de neuronas relacionadas.
 Ej: condicionamiento de una conducta
2.1 Redes Neuronales Biológicas y Artificiales

 Kohonen:
 Redes interconectadas masivamente en paralelo, de elementos
simples (usualmente adaptivos) y con organización jerárquica,
las cuales intentan actuar con los objetos del mundo real del
mismo modo que lo hace el sistema nervioso biológico
 Hecht-Nielsen
 Sistema de computación hecho con un gran número de
elementos de proceso simples interconectados, que procesan
información como respuesta a entradas externas

 En el ámbito de la IA débil, las RNA son sistemas distribuidos sub-


simbólicos que se implementan mediante modelo numéricos
2.1 Redes Neuronales Biológicas y Artificiales

 Neurona artificial: unidad de procesamiento de la información. Es


un dispositivo simple de cálculo que ante un vector de entradas
proporciona una única salida.

 Elementos:
 Conjunto de entradas, xj

 Pesos sinápticos, wi a

 Función de activación: y
w1·x1+ w2·x2 + ... + wn·xn = a
 Función de transferencia:
y = F (w1·x1+ w2·x2 + ... + wn·xn )
 Bias o polarización: entrada constate de magnitud 1, y peso b
que se introduce en el sumador
2.1 Redes Neuronales Biológicas y Artificiales

 Principales funciones de transferencia:


 Lineal: y=ka

 Escalón: y = 0 si a<0; y=1 si a>=0

 Sigmoide

 Gaussiana.
2.1 Redes Neuronales Biológicas y Artificiales

 Una red ad-hoc:


 Como funciona

 Resiste ciertos niveles de cambio en los datos


2.1 Redes Neuronales Biológicas y Artificiales
2.1 Redes Neuronales Biológicas y Artificiales

 Una neurona aislada dispone de poca potencia de cálculo.


 Los nodos se conectan mediante la sinapsis
 Las neuronas se agrupan formando una estructura llamada capa.
 Los pesos pasan a ser matrices W (n x m)
 La salida de la red es un vector: Y=(y1, y2, ... , yn)T
 Y=F(W·X+b)

a1

y1

a2

y2

an

yn
2.1 Redes Neuronales Biológicas y Artificiales

 Redes multicapa: capas en cascada.


 Tipos de capas:
 Entrada

 Salida

 Oculta

 No hay realimentación => red


feedforward
 Salida depende de entradas y pesos.
 Si hay realimentación => red recurrente
 Efecto memoria

 Salida depende también de la historia


pasada.
 Una RNA es un aproximador general de
funciones no lineales.
2.1 Redes Neuronales Biológicas y Artificiales

 Entrenamiento: proceso de aprendizaje de la red.


 Objetivo: tener un comportamiento deseado.
 Método:
 Uso de un algoritmo para el ajuste de los parámetros libres de
la red: los pesos y las bias.
 Convergencia: salidas de la red = salidas deseadas.

 Tipos de entrenamiento:
 Supervisado.

 Pares de entrenamiento: entrada - salida deseada.


 Error por cada par que se utiliza para ajustar parámetros
 No-supervisado.

 Solamente conjunto de entradas.


 Salidas: la agrupación o clasificación por clases
 Reforzado.
2.1 Redes Neuronales Biológicas y Artificiales

 El objetivo del algoritmo de entrenamiento es obtener en cada


paso, los cambios de los valores de pesos y umbrales que
proporcionen la máxima mejora de la medida de calidad. Esto es lo
que se denomina ascenso del gradiente (dirección en la que se
encuentra la máxima variante de la función).
 Es conveniente tratar a pesos y umbrales de manera similar, por
esto se unifica dicho tratamiento. En lugar de considerar una
función de activación
1 si F > umbral
0 si F <= umbral
se considera una nueva F’
1 si F’=F – umbral > 0
0 si F’=F – umbral <= 0
 De esta manera, el umbral es tratado como un peso de una entrada
extra que siempre está en –1.
2.1 Redes Neuronales Biológicas y Artificiales
2.1 Redes Neuronales Biológicas y Artificiales
2.2 Perceptrón

 McCulloch y Pitts, en 1943, publicaron el primer estudio sobre RNA.


 El elemento central: perceptrón.

 Si hay m entradas, existen 2exp(m) combinaciones posibles de las


mismas. Por lo tanto, si este número es muy grande no puede ser
atendido por una sola caja lógica
2.2 Perceptrón

 Puede hacerse la siguiente clasificación de perceptrones:


 Limitado por el orden n: cada caja lógica atiende n o menos
entradas.
 Limitado por el diámetro d: si las entradas se disponen
bidimensionalmente (denominadas retina), cada caja lógica
atiende entradas que están dentro de un círculo de diámetro d.
 Directo: cada caja lógica atiende una entrada igual a la salida
(equivale a perceptrón sin cajas lógicas).
2.2 Aprendizaje del Perceptrón.

 Algoritmo supervisado, con aprendizaje de Hebb:


 Aplicar patrón de entrada y calcular salida de la red

 Si salida correcta, volver a aplicar

 Si salida incorrecta

 0 sumar a cada peso su entrada


 1 restar a cada peso su entrada
 Volver a aplicar

 Proceso iterativo, si el problema es linealmente separable este


algoritmo converge en un tiempo finito.

 Nos da los pesos y las bias de la red que resuelve el problema.


2.2 Aprendizaje del Perceptrón.

 Ejemplo: OR

Salida
Muestra x1=l1 x2=l2 x3=l3
deseada
1 0 0 1 0
2 0 1 1 1
3 1 0 1 1
4 1 1 1 1
2.2 Aprendizaje del Perceptrón.

 Inicializar el vector w = (0,0,0)


 Ejecutar el aprendizaje hasta que la salida obtenida con cada una sea igual a la salida deseada:
 Muestra 1, salida = (0,0,1) (0,0,0) = 0, igual a la salida deseada.
Muestra 2, salida = (0,1,1) (0,0,0) = 0, diferente a la salida deseada. Ajustar el vector w =
(0,0,0) + (0,1,1) = (0,1,1)
Muestra 3, salida = (1,0,1) (0,1,1) = 1, igual a la salida deseada.
Muestra 4, salida = (1,1,1) (0,1,1) = 1, igual a la salida deseada.
Muestra 1, salida = (0,0,1) (0,1,1) = 1, diferente a la salida deseada. Ajustar el vector w =
(0,1,1) - (0,0,1) = (0,1,0)
Muestra 2, salida = (0,1,1) (0,1,0) = 1, igual a la salida deseada.
Muestra 3, salida = (1,0,1) (0,1,0) = 0, diferente a la salida deseada. Ajustar el vector w =
(0,1,0) + (1,0,1) = (1,1,1)
Muestra 4, salida = (1,1,1) (1,1,1) = 1, igual a la salida deseada.
Muestra 1, salida = (0,0,1) (1,1,1) = 1, diferente a la salida deseada. Ajustar el vector w =
(1,1,1) - (0,0,1) = (1,1,0)
Muestra 2, salida = (0,1,1) (1,1,0) = 1, igual a la salida deseada.
Muestra 3, salida = (1,0,1) (1,1,0) = 1, igual a la salida deseada.
Muestra 4, salida = (1,1,1) (1,1,0) = 1, igual a la salida deseada.

 El algoritmo converge encontrando el vector w = (1,1,0)


2.2 Perceptrón y XOR

El problema XOR es un problema no lineal pues no se puede


trazar una recta que deje las cruces a un lado y los círculos
al otro. La no linealidad está íntimamente relacionada con el
solapamiento de las clases. La posición de las medias es una
medida sencilla del solapamiento de las clases. En este caso,
las medias de las dos clases coinciden.

# x1 x2 t
x2 -------------
3 4
1 0 0 0
3 0 1 1
1 2 2 1 0 1
x1 4 1 1 0
-------------
2.2 Aprendizaje del Perceptrón.

 Laboratorio: dado un sistema de dígitos en pantallas digitales, que


informa cuál de los 7 segmentos están encendidos, realizar un
perceptrón que aprenda a identificar un dígito en concreto, por ej.
el 0.
Dígito X0 X1 X2 X3 X4 X5 X6 X7 Salidai

0 0 1 1 1 1 1 1 1 1
9 1 1 1 1 1 1 0 1 0
8 1 1 1 1 1 1 1 1 0
7 0 0 1 1 1 0 0 1 0
6 1 1 1 0 1 1 1 1 0
5 1 1 1 0 1 1 0 1 0
4 1 1 0 1 1 0 0 1 0
3 1 0 1 1 1 1 0 1 0
2 1 0 1 1 0 1 1 1 0
1 0 0 0 1 1 0 0 1 0
2.2 Regla Delta

 Generalización del algoritmo del perceptrón para sistemas con


entradas y salidas continuas.
 Se define: d=T-A= (salidas deseadas - salidas de la red).
 Minimiza una función de coste basada en ese vector de error:

 Widrow-Hoff o Delta
Di =d lr xi
 Wi (t+1) = Wi (t) + D i
 Razón de aprendizaje lr
 Si las neuronas son
lineales=> un único
mínimo
2.2 Redes Neuronales Lineales

 Función de transferencia lineal.


 Algoritmo de entrenamiento de Widrow-Hoff o Delta, tiene en
cuenta la magnitud del error.
 Entrenamiento:
 Suma de los cuadrados de los errores sea mínima.

 Superficie de error con mínimo único.

 Algoritmo tipo gradiente.

 Aproximan funciones lineales.


2.2 Red Perceptrón Multicapa (MLP)

 Función acotada, monótona creciente y diferenciable.


 Red de tipo feedforward.
 Suficiente con dos capas.
2.2 Problema XOR

 El nuevo Perceptrón no está conectado a las entradas (x1,x2) sino


al cálculo efectuado por los otros dos perceptrones (z1,z2):

1
-0.5
1 -0.5

1 z1 1 y
-1.5
x1 1 -1
1 z2
x2 1

z1   (x1  x2 0.5)
y   (z1  z2  0.5)
z2   (x1  x2 1.5)
2.2 Problema XOR

Veamos cuál es la salida propuesta por el perceptrón para cada


ejemplo:

# x1 x2 t z1 z2 y
z2 -------------------------
4
1 0 0 0 0 0 0
3 0 1 1 1 0 1
1 2 3
z1 2 1 0 1 1 0 1
4 1 1 0 1 1 0
-------------------------

Se ha resuelto un problema no lineal mediante un perceptrón


con una capa oculta de pesos.
2.2 Problema XOR

Veamos la respuesta de estos perceptrones a los cuatro ejemplos


del problema XOR, es decir, sus coordenadas z1 y z2:
x2 z1  (x1  x2  0.5) z2   (x1  x2 1.5)
3 4
# x1 x2 t z1 z2
---------------------
1 2
x1
1 0 0 0 0 0
3 0 1 1 1 0
2 1 0 1 1 0
4 1 1 0 1 1
z2 ---------------------

4 Los dos círculos pasan a ocupar la


misma posición.
1 2 3
z1 Por lo tanto, en el espacio (z1,z2) el
problema XOR se ha convertido en
un problema separable
linealmente.
2.3 Algoritmo Backpropagation

 Clave en el resurgimiento de las redes neuronales.


 Primera descripción del algoritmo fue dada por Werbos en 1974
 Generalización del algoritmo de Widrow-Hoff para redes multicapa
con funciones de transferencia no-lineales y diferenciables.
 1989 Hornik, Stinchcombe y White
 Una red neuronal con una capa de sigmoides es capaz de
aproximar cualquier función con un número finito de
discontinuidades
 Propiedad de la generalización.
 La función de transferencia es no-lineal, la superficie de error tiene
varios mínimos locales.
2.3 Algoritmo backpropagation I

 Descripción:
 Tras inicializar los pesos de forma aleatoria y con valores
Adelante

pequeños, seleccionamos el primer par de entrenamiento.


 Calculamos la salida de la red

 Calculamos la diferencia entre la salida real de la red y la salida


deseada, con lo que obtenemos el vector de error

 Ajustamos los pesos de la red de forma que se minimice el error


Atrás

 Repetimos los tres pasos anteriores para cada par de


entrenamiento hasta que el error para todos los conjuntos de
entrenamiento sea aceptable.

 Descenso por la superficie del error


 Cálculo de derivadas del error respecto de los pesos y de las bias.
2.3 Algoritmo backpropagation II

 Detalles:
 SSE: E=SEp=S (ypk-opk)2

 Dwij=-h E/ wij

 Pasos:
 Inicialización:

 Construcción de la red.
 Inicialización aleatoria de pesos y umbrales (-0.5, 0.5)
 Criterio de terminación (número máximo de iteraciones,…).
 Contador de iteraciones n=0.
 Fase hacia delante:

 Calcular la salida de la red para cada patrón de entrada.


 Calcular el error total cometido (SSE)
 Si la condición de terminación se satisface, parar
2.3 Algoritmo backpropagation III

 Fase hacia atrás:


 Incrementar el contador n=n+1.
 Para cada neurona de salida calcualr: dk=(ok-yk)f’(netk)
donde netj=Siwijxi+bj
 Para cada unidad oculta, calcular dj=f’(netj)Skdkwjk
 Actualizar pesos: Dwij(n+1)=hdjoi+aDwij(n)
 Volver a la fase hacia delante.

 Inconvenientes del algoritmo backpropagation:


 Tiempo de entrenamiento no acotado.

 Dependiente de las condiciones iniciales:

 Parálisis de la red.
 Mínimos locales.
2.3 Algoritmo Backpropagation IV

 Subaprendizaje o Underfitting.
 Memorización o Sobreaprendizaje (Sobreentrenamiento).
 Caracterización de la red. ¿Cuantas capas, cuantas neuronas en
cada capa, factor de aprendizaje…?
Herramientas para RNA
Backpropagation en MATLAB
Retropropagación

 Laboratorio: dado un sistema de dígitos en pantallas digitales, que


informa cuales de los 7 segmentos están encendidos, correr una
red de retropropagación que aprenda a identificar los dígitos

Dígito X0 X1 X2 X3 X4 X5 X6 X7

0 0 1 1 1 1 1 1 1
9 1 1 1 1 1 1 0 1
8 1 1 1 1 1 1 1 1
7 0 0 1 1 1 0 0 1
6 1 1 1 0 1 1 1 1
5 1 1 1 0 1 1 0 1
4 1 1 0 1 1 0 0 1
3 1 0 1 1 1 1 0 1
2 1 0 1 1 0 1 1 1
1 0 0 0 1 1 0 0 1
2.4 Redes de Aproximación e
Interpolación

 Redes de Base Radial (RBF)


 Redes multicapa con conexiones hacia delante

 Única capa oculta


 Las neuronas ocultas poseen carácter local
 Cada neurona oculta se activa en una región distinta del espacio
de entrada
 El carácter local se debe al uso de las funciones de base radial
como funciones de activación. Generalmente la función
gaussiana.
 Las neuronas de salida realizan una combinación lineal de las
activaciones de las neuronas ocultas
2.4 Redes de Aproximacion e
Interpolacion

 Son aproximadores universales


 Las funciones de base radial (RBF) definen hiperesferas o
hiperelipses que dividen el espacio de entrada
 Cada RBF (cada neurona) construye una aproximación local no
lineal en una determinada región del espacio de entrada
 Las RBN construyen aproximaciones que son combinaciones
lineales de múltiples funciones locales no lineales
 Se han aplicado a gran variedad de problemas
 Análisis de series temporales
 Procesamiento de imágenes
 Reconocimiento automático del habla
 Diagnósticos médicos, etc
2.4 Redes de Aproximacion e
Interpolacion

 Redes de Base Radial (RBF)


2.4 Redes de Aproximacion e
Interpolacion

 Redes de Base Radial (RBF)


2.4 Redes de Aproximacion e
Interpolacion

 Redes de Base Radial (RBF)


2.4 Redes de Aproximacion e
Interpolacion
2.5 Redes Recurrentes

 Representación del tiempo.


 Tratamiento de señales.

 Identificación de modelos dinámicos

 Control de sistemas.

 Redes dinámicas:
 Respuesta a:

 Las entradas actuales


 La historia pasada del sistema.
 Dotar de memoria a la red:

 Introduciendo directamente en la red tanto la señal actual


como los valores pasados.
 Mediante conexiones recurrentes.
2.5 Redes Recurrentes

 Autoorganizativas: durante el proceso de aprendizaje la red debe


descubrir por si misma regularidades o categorías => la red debe
autoorganizarse en función de las señales procedentes del entorno.
 Mapa de Rasgos Autoorganizados, SOM (Kohonen, 80)
 Características:
 Red competitiva

 Arquitectura unidireccional de dos capas:

 Capa de entrada: m neuronas una por cada vector de


entrada.
 Capa segunda se realiza el procesamiento, formando el
mapa de rasgos. Tiene nx X ny neuronas operando en
paralelo.
 Todas las neuronas de entrada están conectadas a las
neuronas de la segunda capa, a través de los pesos wij
2.5 Redes Recurrentes

 Cada neurona (i,j) calcula la similitud entre el vector de entradas y


su vector de pesos
 Vence la neurona cuyo vector de pesos es más similar al vector de
entrada.
 Cada neurona sirve para detectar alguna característica del vector
de entrada.
 Función de vecindad:
relación entre neuronas
próximas en el mapa.
2.5 Redes Recurrentes

 Aprendizaje:
 Inicialización de los pesos wij

 Presentación de las entradas x(t)

 Cada neurona calcula, la similitud entre su vector de pesos wij y


el vector de entrada x, usando la distancia Euclídea

 Determinación de la neurona ganadora:


 Actualización de los pesos de la neurona ganadora y sus vecinas

 Las demás neuronas no actualizan su peso


 Si se ha alcanzado el número de iteraciones parar, si no volver
al paso 2.
2.5 Redes Recurrentes

 Hopfield:

 n es el número de nodos en la red.


 Las entradas Xo, X1 ... Xn-1 se aplican a la red en el tiempo t =
0. Pueden tomar valores de +1 ó -1.
 Las salidas Uo, U1... Un-1 se van calculando y recalculando,
hasta que sus valores ya no cambian. Cuando esto sucede, se
tiene la salida de la red, y X’i = Ui para i= 1.. n-1
2.5 Redes Recurrentes

 Algoritmo de Entrenamiento de la red Hopfield


 Paso único: Calcule los valores de los pesos que conectan a los
nodos, utilizando la siguiente fórmula:

 donde tij es el peso que va de la neurona i a la neurona j, y Xis


es el valor del i-ésimo elemento de la s-ésima clase; m es el
número de clases que se desean aprender. En notación
matricial, la matriz de pesos se define como el producto externo
(outer product) de un vector renglón consigo mismo.
2.5 Redes Recurrentes

 ALGORITMO:

 Paso 1. Inicialice la red con un patrón de entrada:

donde n es el número de nodos en la red


 Paso 2. Itere hasta converger siguiendo la fórmula:

donde F es una función escalón definida como:

 Cuando la red converge, su salida representa al patrón que más


se parece al patrón de entrada dado.
Ejemplo: Hopfield
Ejemplo: Hopfield
Ejemplo: Hopfield
Ejemplo: Hopfield
Ejemplo: Hopfield
Ej: Red Competitiva para Clasificación

Vive en el agua?
Tiene escamas?

Tiene plumas?

Pone huevos?
Tiene pelo?

Vuela?
Perro 1 0 0 0 0 0
Gato 1 0 0 0 0 0
Murciélago 1 0 0 1 0 0
Ballena 1 0 0 0 1 0
Canario 0 0 1 1 0 1
Petirojo 0 0 1 1 0 1
Avestruz 0 0 1 1 0 1
Serpiente 0 1 0 0 0 1
Lagarto 0 1 0 0 0 1
Caimán 0 1 0 0 1 1
Redes No Supervisadas en MATLAB
2.6 RNA en MATLAB
2.6 RNA en MATLAB
2.6 RNA en MATLAB
2.6 RNA en MATLAB
2.6 CONSIDERACIONES PRÁCTICAS

 Número de Capas
 Número de Neuronas
 Interpolación y Extrapolación
 Convergencia
2.6 Trabajo con RNA

 El número de neuronas ocultas dependerá de:


 El número de unidades de entrada y de salida.

 El número de caso de entrenamiento.

 La cantidad de ruido en los valores objetivos.

 La complejidad de la función o clasificación que será aprendida.

 La arquitectura.

 El tipo de la función de activación en las unidades ocultas.

 El algoritmo de entrenamiento.
2.6 Trabajo con RNA

 No hay forma de determinar el número óptimo de neuronas en


la capa oculta sin antes entrenar varias redes y estimar el error
de generalización.
 Muy pocas neuronas en la capa oculta conducirían a un alto
error de entrenamiento y también a un alto error de
generalización debido al underfitting (subentrenamiento)
 Si se tienen muchas neuronas en la capa oculta se podría
obtener un bajo error de entrenamiento pero todavía tener un
alto error de generalización debido al overfitting
(sobreentrenamiento).
2.6 Trabajo con RNA

 Existen ciertas reglas llamadas “rules of thumb” para escoger la


arquitectura. Por ej.
 Para calcular el numero de neuronas ocultas se utiliza la
regla general:
h= (2/3) *(n+m) n entradas, m salidas
 El número de neuronas en la capa oculta nunca requerirá
ser más de dos veces el número de entradas.
h < 2n
 El número de pesos no debe ser mas de 1/30 del número de
casos de entrenamiento.
 En variables objetivo libres de ruido, puede ser más que
suficiente el doble de casos de entrenamiento respecto al
número de pesos.
#Casos Entrenamiento >= 2.2 * #Pesos Capa Oculta
2.6 Selección del Tipo de Aprendizaje

 Dependerá de los datos disponibles


 Aprendizaje Supervisado: Requiere de patrones de entrada
con la salida correcta.
 Tiene mayor potencialidad.
 Tiempos de entrenamiento relativamente largos.
 Usadas para predicción, evaluación o generalización
 Aprendizaje Autosupervisado: Clasifica patrones
internamente y no requiere de resultados esperados.
 Su capacidad es significativamente menor
 Usos: clasificación o reconocimiento
2.6 Recomendaciones

 Selección de la salida
 Estará determinada por la naturaleza del problema.

 Pueden ser:

 Salidas binarias o
 Escala de grises (valores continuos)

 Función de activación de la neurona


 La función de Activación mas común es la función Logística:
(sigmoidal exponencial “logsig”)
 El algoritmo de retropropagación requiere que la derivada de la
función sea continua. Las funciones recomendadas son la
sigmoidal y la continua.
2.6 Recomendaciones

 Número de capas
 La red de retropropagación usa generalmente tres capas.

 Se pueden usar cuatro capas .

 Es mejor usar dos capas ocultas pequeñas que una sola muy
grande
 Función de la Capa Oculta
 Actúa como Sintetizador.

 Extractor de características de entrada.

 Un número grande de neuronas en la capa oculta aumenta la


potencia de la red pero aumenta el tiempo de procesamiento y
requiere de muchos ejemplos de entrenamiento.
2.6 Recomendaciones

 Número de neuronas
 El número adecuado de neuronas ocultas se determina a
través de la experimentación.
 Muy pocas neuronas ocultas impide el correcto mapeo de la
entrada a la salida
 Muchas neuronas ocultas conduce a la memorización de los
datos sin extraer las características para la generalización.
 Para una sola capa oculta se recomienda el número de
neuronas ocultas como 2/3 de número de entradas.
 Cuando se usan dos capas ocultas el numero de neuronas
es significativamente menor en cada capa
 Las redes neuronales con mayor número de entradas
respecto al numero de salidas trabajan mejor.
 Un número mayor de salidas hacen mas duro el
entrenamiento.
2.6 Recomendaciones

 Normalización de Datos:
 Los datos numéricos deben ser normalizados o escalados

 Consiste en dividir todos valores del conjunto de entrada en un


valor de referencia; usualmente el valor mas grande.
VENTAJAS

 Ventajas de las RNA:

 Aprendizaje adaptativo: lo necesario es aplicar un buen


algoritmo y disponer de patrones (pares) de entrenamiento.
 Auto-organización => conduce a la generalización
 Tolerancia a fallos: las redes pueden aprender patrones que
contienen ruido, distorsión o que están incompletos.
 Operación en tiempo real: procesan gran cantidad de datos en
poco tiempo.
 Facilidad de inserción en tecnología ya existente.
DESVENTAJAS

 Desventajas de las RNA:

 Complejidad del Aprendizaje: Aumenta con la complejidad de la


tarea.
 Tiempo de aprendizaje: Elevado de acuerdo a la cantidad de
patrones y a la flexibilidad requerida
 No interpreta los resultados: Tarea externa
 Elevada cantidad de datos: de acuerdo a la flexibilidad requerida
Donde aplicar las Redes Neuronales

 Donde la tecnología computacional es inadecuada.


 En problemas que requieran de un razonamiento cualitativo o
cuantitativo complejo.
 El fenómeno involucrado dependa de múltiples parámetros
interactuando.
 Gran cantidad de datos multivariados y con ruido o con errores.
 Algunos de los datos pueden ser erróneos o faltantes.
 En general: Reconocimiento de patrones, mapeo estadístico, o
modelización.
2.7 Aprendizaje mediante Evolución
Simulada (Algoritmos Genéticos)

 Algoritmos Genéticos
2.8 Aplicaciones

 Detección de patrones
 Conversión de texto a voz
 Procesado de lenguaje natural
 Filtrado de señales
 Segmentación de datos
 Predicción
 Identificación de sistemas

Anda mungkin juga menyukai