Anda di halaman 1dari 14

REDES NEURAIS ARTIFICIAIS 3

O ADALINE

PROFESSORA DOUTORA RITA


MARIA DA SILVA JULIA

FACULDADE DE COMPUTAO-UFU

BIBLIOGRAFIA DE BASE:
Silva, I.N, Spatti, D.H..Flauzino,R.A., Redes Neurais Artificiais, Editora Artliber,
2010
Anlises tericas pessoais feitas pela autora do presente material.
1. RNA Adaline e Regra Delta

A RNA Adaline foi concebida inicialmente por Widrow e Hoff em 1960 para ser
aplicada em sistemas de chaveamento de circuitos telefnicos. Apesar de simples,
proveu as seguintes contribuies significativas para o avano das RNAs:

Proposta do algoritmo de aprendizado baseado na Regra Delta, precursora da


Regra Delta generalizada usada no treinamento das RNAs Perceptrons
Mltiplas Camadas (PMCs);
Aplicaes a diversos problemas prticos de processamento de sinais
analgicos;
Primeiras aplicaes industriais de RNAs.

Similarmente ao Perceptron simples, o Adaline tambm composto por um nico


neurnio processador. Uma RNA contendo uma nica camada processadora composta
por mais de um neurnio Adaline denominada Madaline (Widrow, 1988).

A Figura 1 mostra a arquitetura de uma Adaline.

Figura 1- Arquitetura do Adaline

A rede Adaline, como o perceptron, tambm uma arquitetura feedforward


(fluxo de informao parte sempre da entrada em direo sada) de camada nica,
sem qualquer tipo de realimentao da entrada com os valores produzidos na sada.
Assim como o perceptron, devido sua simplicidade estrutural, o Adaline mais usado
em problemas de classificao de padres envolvendo apenas duas classes distintas.

1.1 Princpio de Funcionamento do Adaline

O potencial de ativao u e o valor de sada do Adaline so calculados de modo


anlogo ao do Perceptron, conforme mostram as equaes (1) e (2), respectivamente:

Onde xi so os sinais de entrada, wi o peso sinptico associado i-sima entrada,


o limiar de ativao, g a funo de transferncia e u o potencial de ativao. Como
o Adaline utilizado principalmente para reconhecimento de dois tipos de padres,
ele normalmente projetado com as funes de transferncia degrau ou bipolar.

O processo de aprendizado do Adaline ou seja, de reajuste de pesos -


conduzido de acordo com o critrio que visa a aproximar o valor do potencial de
ativao (u) relativo a cada amostra k do resultado desejado (d) a ser produzido pelo
combinador linear para a amostra tratada (de forma a permitir que o potencial de
ativao para aquela amostra produza o resultado de sada desejado para ela). Assim
sendo, o clculo do erro efetuado conforme expresso na equao (3):

erro = d u (3)

A Figura 2 resume os aspectos caractersticos dos parmetros envolvidos no


funcionamento do Adaline:
Figura 2- Parmetros inerentes ao Adaline

Os parmetros apresentados na Figura 2 mostram que, de fato, um Adaline


difere de um Perceptron essencialmente pelo mtodo de aprendizagem (Regra Delta
no primeiro e Regra de Hebbs no segundo). A anlise matemtica efetuada para
demonstrar as condies de convergncia do Perceptron tambm pode se aplicada ao
Adaline, ou seja, as classes do problema devem ser linearmente separveis para que
haja uma completa identificao.

1.2 Processo de Treinamento do Adaline

O processo de reajuste de pesos e limiar do Adaline baseia-se no algoritmo de


aprendizagem da Regra Delta (Widrow&Hoff, 1960), tambm conhecido como: Regra
de Aprendizagem de Widrow-Hoff, Algoritmo LMS (Least Mean Square) ou Mtodo do
Gradiente Descendente. Supondo-se p amostras de treinamento disponveis, a Regra
Delta aplicada para ajustar os pesos de forma a minimizar a diferena entre a sada
desejada (d) e a resposta do combinador linear (u), levando-se em considerao todas
as p amostras. Para tanto, utiliza-se a minimizao do erro quadrtico entre u e d com
o intuito de ajustar o vetor de pesos w = [ , w1 , ... , wn] da rede. O objetivo, no caso,
consiste em obter um w* timo tal que o erro quadrtico E(w*) sobre o conjunto de
amostras seja o mnimo possvel. Matematicamente, considerando uma configurao
tima de pesos, chega-se expresso (4) :
E(w*) E(w) , w Rn+1 (4)

A funo erro quadrtico em relao s p amostras de treinamento definida na


equao (5):

Assim, a equao (7) totaliza a composio do erro quadrtico mdio


contabilizando-se os p padres de treinamento (wT representa o vetor de pesos).

O valor timo para o erro quadrtico mdio apresentado na equao (7)


obtido pela aplicao do operador gradiente em relao ao vetor w, conforme
equao (8):

Das equaes (1) e (9), obtm-se a equao (10):


Como o objetivo do treinamento minimizar o erro quadrtico mdio, o valor
do ajuste dos pesos deve ser aplicado em sentido oposto ao do gradiente, conforme
mostra a equao (11):

A ttulo de simplificao, a atualizao de w pode tambm ser efetuada


discretamente aps a apresentao de cada k-sima amostra, tal como apresentado na
equao (14):

watual = wanterior + . (d(k) u ) . x (k) , onde k = 1, , p (14)

o que, expresso em notao algortmica na equao (15):

w = w + . (d(k) u ) . x (k) (15)

onde:

w = [j , w1, . ,wn ] o vetor de pesos contendo o limiarj (valor negativo!) associado


entrada x0 (k) e os pesos w1, .,wn associados a cada uma das entradas x1 (k), ... , xn (k) do
perceptron, respectivamente;
x(k) = [ -1, x1 (k), ... , xn (k)] o vetor que representa o sinal que circula no limiar (o vis
normalmente vale -1), e os sinais x1 (k), ...,xn (k) que representam a k-sima amostra de
treinamento.

d(k) representa o valor de sada desejado para o combinador linear, ao processar a k-


sima entrada, de forma que o potencial de ativao produzido possibilite um valor de
sada do Adaline compatvel com aquele esperado para essa k-sima amostra de
treinamento;

yj(k) representa o valor de sada produzido para a k-sima amostra de treinamento;

a taxa de aprendizagem do Adeline que exprime o quo rpido o processo de


treinamento da rede estar rumando em direo ao ponto mnimo da funo de erro
quadrtico apresentada na equao (5). Normalmente, 0 < < 1.

Saliente-se que os parmetros envolvidos na equao de ajuste de pesos do


Adeline - equao (15) - bem similar aos do Perceptron, diferindo essencialmente
pelo fato de, no primeiro, tal ajuste se basear no potencial de ativao, ao passo que,
no segundo, ele se baseia no sinal de sada do neurnio.

A Figura (2) elucida o processo de convergncia do Adaline, mostrando como o


ajuste de pesos de w norteado pela busca ao ponto de minimizao w* da funo
erro quadrtico mdio E(w).

Figura 2- Interpretao Geomtrica da Regra Delta


A Figura 2 mostra a convergncia do ajuste de pesos baseado na Regra Delta
para o ponto mnimo w* da funo erro quadrtico mdio E(w). De fato: conforme a
equao (8), o valor do gradiente em um ponto qualquer com valor de abscissa w na
curva de erro mostrada na Figura 2 - valor, este, que, conforme equao (11), definir
a intensidade e o sinal do ajuste de pesos - obtido por meio da derivada de E(w) com
relao a w, ou seja, o valor de tal gradiente corresponde ao valor da tangente curva
nesse ponto de abscissa w (sendo que tal abscissa representa um vetor de pesos
arbitrrio). Assim sendo, o sinal do ajuste de pesos a ser aplicado a w depende da
posio em que tal abscissa w se encontra com relao abscissa tima w* : caso w
(que representa o vetor de pesos corrente a ser ajustado) esteja direita de w* (ou
seja, tem tangente positiva ou gradiente positivo - ), o ajuste de pesos w deve ser
negativo; caso contrrio, isto , se w estiver esquerda de w* (ou seja, tem tangente
negativa ou gradiente negativo - ), o ajuste de pesos w deve ser positivo. Logo, a
Regra Delta de fato representa uma abordagem que faz o processo de ajuste de pesos
do Adalina conduzir w para o ponto timo w*. A seguir, tal processo ser descrito
com mais detalhes.

O critrio de parada do algoritmo de aprendizagem do Adaline estipulado em


termos da funo do erro quadrtico mdio em relao a todas as p amostras do
treinamento, tal como indicado pela equao (16):

Onde na equao (17) a preciso requerida para o processo de convergncia, sendo


especificado em funo do tipo de aplicao a ser mapeada pela rede Adaline.

Abaixo, segue o pseudo-cdigo que resume o processo de treinamento de uma


Adaline.
Assim como no treinamento do Perceptron, a varivel poca contabilizar
quantas vezes o conjunto das p amostras precisar ser apresentado ao Adaline de tal
forma que seu vetor de pesos assuma seu valor ideal, ou seja, de tal forma que ele
consiga resolver satisfatoriamente o problema para o qual foi treinado o que
acontece quando o erro quadrtico mdio entre duas pocas consecutivas for inferior
preciso requerida pelo problema.

Por sua vez, o algoritmo para obteno do erro quadrtico mdio Eqm(w)
conforme definido na equao (16) pode ser implementado conforme pseudo-cdigo
abaixo:
Findo o processo de treinamento, o Adaline estar apto a ser utilizado para
classificar as amostras x que lhe forem apresentadas, conforme pseudocdigo abaixo:

Conforme apresentado, o o processo de treinamento do Adaline tende a mover


sistematicamente o seu vetor de pesos at que se atinja o mnimo erro quadrtico em
relao a todas as amostras apresentadas em cada poca. A Figura 3 mostra dois
processos distintos de treinamento de um Adaline que diferem entre si pelo vetor de
pesos inicial proposto a ttulo didtico, a Figura considera amostras representadas
por apenas duas entradas x1 e x2.

Figura 3- Processos de Treinamento de Adaline

Observa-se na Figura 3 que, apesar das distintas atribuies de valores


aleatrios ao vetor de pesos inicial, ambos os treinamentos convergem para a mesma
fronteira de separabilidade tima gerada pelo vetor de pesos w* minimizador da
funo erro quadrtico.

A Figura 4 mostra o comportamento do erro quadrtico mdio em funo do


nmero de pocas de treinamento.
Figura 4

Conforme Figura 4, a curva do erro quadrtico mdio para o Adaline decresce


com o avano das pocas, estabilizando-se em um valor constante quando se atinge o
ponto de mnimo da funo erro quadrtico mdio mostrado na Figura 2.

1.3 Paralelo Entre os Processos de Treinamento do Adaline e do Perceptron

A Regra Delta que norteia o treinamento do Adaline tem como objetivo minimizar
a diferena mdia global entre o valor desejado dk a ser produzido pelo combinador
linear para cada amostra k de treinamento, de forma que ela seja corretamente
classificada pelo Adaline - por meio da aplicao da funo de transferncia - e o
potencial de ativao uk produzido para ela, pelo combinador linear, com base no
vetor de pesos corrente. Assim sendo, independentemente dos valores iniciais
atribudos ao vetor de pesos, o hiperplano de separao entre as classes obtido aps o
treinamento do Adaline ser sempre o mesmo, diferentemente do perceptron, cujo
treinamento, na mesma situao, pode produzir diversos hiperplanos separadores das
classes, conforme mostrado na Figura 5.
Figura 5

Tal fato faz com que o Adaline seja mais imune a eventuais rudos presentes
nas amostras do que o Perceptron, conforme mostrado na Figura 6.

Figura 6

De acordo com a Figura 6, o Adaline treinado ter maiores chances de


classificar corretamente a amostra ruidosa inscrita na circunferncia pontilhada do
que o Perceptron treinado.

Assim sendo, podem-se destacar algumas notas prticas relativas


convergncia do treinamento do Adalina:
Diferentemente do Perceptron, ainda que as classes envolvidas no
problema a ser classificado pelo Adaline no sejam linearmente separveis,
a Regra Delta passvel de convergncia em funo do patamar de preciso
definido para medir a diferena entre duas pocas consecutivas;

O valor da taxa de aprendizagem deve ser cuidadosamente definido a fim


de evitar instabilidades em torno do ponto de mnimo da funo erro
quadrtico, bem como de evitar que o processo de convergncia se torne
excessivamente lento;

Como no Perceptron, a quantidade de pocas necessrias para a


convergncia do Adaline varia em funo dos valores iniciais atribudos aos
pesos, da disposio espacial das amostras de treinamento e do valor de ;

A posio tima do hiperplano separador de classes aps a convergncia do


treinamento do Adaline lhe conferem uma maior tendncia de robustez
frente a eventuais rudos nas amostras;

Dependendo das caractersticas das amostras, o desempenho do


treinamento do Adaline pode ser melhorado por intermdio da
normalizao dos sinais de entrada.